7 مجموعه داده HR برای تجزیه و تحلیل افراد

مجموعه داده های منابع انسانی یافته های نادری هستند. در این مقاله، من 7 بهترین مجموعه داده HR را که به صورت آنلاین موجود است، فهرست می کنم. علاوه بر مجموعه داده ها، چالش های موجود در داده ها را نیز لیست می کنم. این می تواند یک تجزیه و تحلیل بالقوه یا چیزی باشد که باید در داده ها به دنبال آن باشید.

ما قویاً از استفاده از داده ها و آمار به عنوان وسیله ای برای رسیدن به هدف حمایت می کنیم. در تجزیه و تحلیل ما می خواهیم با استفاده از داده ها و آمار به حل مسائل تجاری کمک کنیم. تجزیه و تحلیل و آمار به خودی خود یک پایان نیست – مگر اینکه بخواهید نحوه استفاده از آن را یاد بگیرید. ما این مقاله را برای همین نوشتیم.

توجه داشته باشید. من ممکن است گاهی اوقات در این مقاله از کلمه “پیش بینی” به طور آزاد استفاده کنم. اکثر مجموعه داده ها دارای مقطعی هستند که «پیش بینی» یک متغیر وابسته را غیرممکن می کند.

اکنون که تشریفات و سلب مسئولیت ها را به پایان رساندیم، بیایید بازی با داده های منابع انسانی را شروع کنیم!

1. غیبت در محل کار

این مجموعه داده عظیم منابع انسانی بر غیبت کارکنان متمرکز است. این شامل 8335 ردیف و 13 ستون داده است.

مجموعه داده شامل شماره و نام کارکنان، جنسیت، شهر، عنوان شغلی، بخش، محل فروشگاه، واحد تجاری، بخش، سن، مدت خدمت و تعداد ساعت غیبت است.

این مجموعه داده کاملاً ساختار یافته است. این بدان معنی است که هر کارمند یک خط دارد و غیبت به عنوان کل ساعات غیبت سالانه برای هر کارمند در نظر گرفته می شود.

تحلیل های بالقوه جالب

این مجموعه داده برای شناسایی جیب های غیبت در سازمان مناسب است. این جیب ها ممکن است نیاز به مداخلات داشته باشند. ‘AbsentHour’ به عنوان یک متغیر وابسته استفاده خواهد شد. علاوه بر این، سن و طول خدمت نیز ممکن است با غیبت مرتبط باشد – اما چگونه؟ این برای شماست که متوجه شوید.

مجموعه داده همچنین می تواند به عنوان یک مجموعه تمرین برای پیش بینی عدم حضور با استفاده از درخت های تصمیم یا مدل های خطی استفاده شود.

چالش

این مجموعه داده کاملاً ساده است. بزرگ است اما هنوز در نرم افزارهایی مانند SPSS یا Excel قابل مدیریت است. ممکن است مجبور شوید تعدادی از متغیرهای اسمی را در مقادیر عددی کدگذاری کنید تا بتوانید تحلیل خود را انجام دهید، اما علاوه بر آن، خود داده ها چالش چندانی ایجاد نمی کنند.

توجه: داده ها باید پاک شوند. همه افراد زیر 18 سال یا بالاتر از 65 سال ممکن است از مجموعه داده حذف شوند.

دانلود کنید

این مجموعه داده توسط لیندون ساندمارک، نویسنده Doing HR Analytics – A Practitioner’s Handbook with R Examples، با هدف یادگیری پیش بینی غیبت به عنوان یک نتیجه، ایجاد شده است. مجموعه داده را می توان از اینجا (آینه) بارگیری کرد.

لیندون در کتاب خود توضیح مفصلی در مورد چگونگی انجام این کار ارائه می دهد. همچنین، می‌توانید توضیحات رایگان و دو قسمتی او را در مورد این مورد دانلود کنید که در آن او هر دو تجزیه و تحلیل بصری (توصیفی) را در قسمت 1 (با استفاده از R) قبل از ایجاد درخت تصمیم و اجرای رگرسیون خطی برای پیش‌بینی عدم حضور در قسمت 2 اجرا می‌کند. فصل مربوطه در کتاب او بر اساس این دو مقاله است.

2. (بیشتر) غیبت در محل کار

این مجموعه داده HR بر غیبت در محل کار متمرکز است. مجموعه داده شامل 740 ردیف و 21 ستون داده است.

مجموعه داده شامل تعدادی شناسه کارمند است. هر ردیف نشان دهنده مقدار مشخصی از غیبت است – به این معنی که یک کارمند می تواند چندین ردیف داشته باشد.

اطلاعات مربوط به کارکنان شامل تعداد فرزندان، بار کاری، فاصله از محل کار، هزینه حمل و نقل، تحصیلات، قد، وزن، BMI و زمان غیبت بر حسب ساعت است. سایر اطلاعات شامل فصل، ماه غیبت، روز غیبت و روز هفته است.

مجموعه داده همچنین غیبت را به 21 دسته یا دلایل غیبت طبقه بندی می کند. اینها شامل انواع مختلف بیماری، اختلالات مادرزادی و بارداری است. لیست کامل را می توانید در توضیحات دانلود در Kaggle بیابید.

تحلیل های بالقوه جالب

این مجموعه داده می تواند به شما در یافتن پیش بینی کننده های غیبت کمک کند. تحلیل‌های بالقوه می‌تواند این باشد که ببینیم آیا ارتباطی بین BMI و غیبت، و همچنین فصل، بار کاری، فاصله از محل کار و سایر عوامل در مجموعه داده‌ها وجود دارد یا خیر.

چالش

چالش این مجموعه داده بیشتر در ساختار داده ها است. یک کارمند فردی دارای سوابق متعدد است. اینها باید قبل از تجزیه و تحلیل ترکیب شوند. این مجموعه داده همچنین شما را قادر به انجام تحقیقات طولی می کند.

دانلود کنید

این مجموعه داده را می توان در Kaggle (آینه) یافت.

3. مجموعه داده های منابع انسانی

این مجموعه داده بعدی به معنای واقعی کلمه مجموعه ای است که شامل پنج برگه داده مختلف کوچکتر است. مجموعه داده شامل یک برگه core_datasheet، یک مجموعه داده منابع انسانی، یک مجموعه داده کارکنان تولید، یک مجموعه داده هزینه استخدام و یک شبکه حقوق و دستمزد است.

مجموعه داده دارای ویژگی های جالبی است زیرا برگه ها به هم پیوند می خورند. فایل HRDataset_v9.csv شامل موقعیت‌ها، salary_grid.csv شامل حقوق این موقعیت‌ها، و فایل production_staff.csv شامل تمامی توابع تولید، از جمله امتیاز عملکرد، تعداد دفعاتی که درخواست کمک کرده‌اند، میزان خطای روزانه و 90- می‌باشد. شکایات روز

مجموعه داده ها توسط دکتر ریچ هوبنر و دکتر کارلا پاتالانو برای دوره فارغ التحصیلان HRM در معیارهای HR و تجزیه و تحلیل ایجاد شده است.

چالش

چالش‌های دیگر شامل جستجوی پیش‌بینی‌کننده‌های عملکرد غیربهینه کارکنان تولید (با استفاده از سایر برگه‌های داده) است. چندین متغیر وابسته برای عملکرد کمتر از حد مطلوب وجود دارد، از جمله رتبه بندی عملکرد، نرخ خطای روزانه و شکایات 90 روزه. با پیوند دادن آن به مجموعه داده هایی که شبیه اطلاعات کلی تر HRIS هستند، می توانید درخت های تصمیم و مدل های رگرسیون خطی را برای پیش بینی عملکرد مستقر کنید.

برگه داده دیگری با عنوان recruiting_cost.csv است. این شامل هزینه های کانال های مختلف استخدام است. HRDataset_v9.csv حاوی منبع استخدام و تاریخ استخدام است که به شما امکان می دهد معیارهایی مانند اثربخشی کانال منبع یابی و هزینه متوسط کانال منبع یابی را محاسبه کنید.

برگه داده همچنین حاوی داده هایی در مورد وضعیت فعال یا خاتمه است که به شما امکان می دهد ختم را نیز پیش بینی کنید و آن را با سایر داده های موجود در برگه های داده دیگر مرتبط کنید.

این ممکن است به این معنی باشد که چالش اصلی فراوانی اطلاعات است. با یک سوال تحقیقاتی خاصی که به ذهنتان می رسد شروع کنید و با استفاده از داده ها شروع به پاسخ به آن کنید – در غیر این صورت در تمام داده ها گم خواهید شد.

دانلود کنید

مجموعه داده را می توان در Kaggle (آینه) بارگیری کرد. کتاب کد این مجموعه داده را می توانید در اینجا بیابید.

4. IBM HR Analytics ساییدگی و عملکرد کارکنان

این مجموعه داده در دنیای People Analytics شناخته شده است. وقتی IBM مجموعه داده ای ایجاد می کند که شما را قادر می سازد مدل سازی ساییدگی را تمرین کنید، شما توجه می کنید. مجموعه داده دارای 1470 ردیف و 35 ستون است.

مجموعه داده ها شامل داده هایی مانند سن، جنسیت، رضایت شغلی، رضایت از محیط، رشته تحصیلی، نقش شغلی، درآمد، اضافه کاری، درصد افزایش حقوق، تصدی، زمان آموزش، سنوات در نقش فعلی، وضعیت روابط و غیره است.

با این متغیرها، IBM یک نمای کلی نسبتا کامل ایجاد کرده است که شامل داده‌های میانگین HRIS همراه با یک نظرسنجی تعامل کامل است. بنابراین مجموعه داده‌ها برای پیش‌بینی گردش مالی، یا به سادگی یافتن تفاوت‌ها بین گروهی که مانده یا ترک شده، عالی است.

چالش

این مجموعه داده، تحلیل های احتمالی زیادی را باز می کند. یکی از جالب‌ترین موارد ممکن است پیدا کردن پیش‌بینی‌کننده‌ها با استفاده از درخت‌های تصمیم یا رگرسیون لجستیک باشد. توجه داشته باشید، عرشه اسلاید پاشا رابرت را در مورد چرا نباید از رگرسیون لجستیک برای پیش‌بینی ساییدگی استفاده کنید، بررسی کنید!

از طرف دیگر، می‌توانید از آزمون‌های ANOVA یک‌طرفه ساده‌تر یا آزمون‌های مجذور کای برای یافتن تفاوت‌های بین گروه‌هایی که ترک کرده‌اند و باقی مانده‌اند در عواملی مانند رضایت شغلی و داشتن یا نداشتن گزینه‌های سهام استفاده کنید.

دانلود کنید

در ابتدا، مجموعه داده ها در وب سایت IBM منتشر شد اما از آن زمان حذف شده است. مجموعه داده هنوز در Kaggle (آینه) در دسترس است. توجه داشته باشید که در فایل اصلی IBM یک کاربرگ دوم به نام Data Definitions وجود داشت. در Kaggle این تعاریف داده در توضیحات فایل گنجانده شده است.

5. مجموعه داده های گردش مالی توسط ادوارد بابوشکین

ادوارد بابوشکین تحلیلگر مردم روسیه و نویسنده پرکار است. او از طریق وبلاگ روسی خود جامعه بزرگی از متخصصان تجزیه و تحلیل مردم ایجاد کرده است و به چهره تجزیه و تحلیل مردم در شرق تبدیل شده است.

مجموعه داده حاوی اطلاعاتی در مورد جنسیت، سن، نوع دستمزد، نحوه سفر، ترافیک (منبع استخدام)، و شخصیت پنج بزرگ است!

چالش

او در یکی از پست های ترجمه شده خود این سوال را مطرح می کند: جانسون، پترسون یا سیدورسون، کدام کارمند بیشترین احتمال ماندن را دارد؟ در مقاله پشتیبانی خود، او نشان می دهد که چگونه می توان این را با استفاده از تجزیه و تحلیل بقا پیش بینی کرد.

به گفته ادوارد، مجموعه داده واقعی است – که هیجان انگیز است! برای بقیه، داده ها کاملاً مستقیم هستند. تنها چیزی که باید به آن توجه داشت این است که برخی از اصطلاحات در ترجمه از روسی به انگلیسی گم شدند. به عنوان مثال، «مستقل» به مقیاس معکوس رضایت ترجمه می شود، «خودکنترلی» وظیفه شناسی، «اضطراب» روان رنجوری است، و «نوآور» مخفف باز بودن است.

دانلود کنید

می توانید مجموعه داده را از اینجا (آینه) از Edward’s Dropbox دانلود کنید. یک مقاله پشتیبانی حاوی نمونه تجزیه و تحلیل را می توان در اینجا یافت.

6. طبقه بندی مشاغل

یکی دیگر از مجموعه داده های منحصر به فرد توسط Lyndon Sundmark می تواند برای طبقه بندی مشاغل استفاده شود. طبقه بندی مشاغل هم خانواده های شغلی و هم اطلاعات مربوط به درجه دستمزد را منعکس می کند. این امر به ویژه زمانی که مشاغل جدیدی ایجاد می شود که نیاز به تناسب با ساختار شغلی موجود دارند، مهم است.

مشاغل دارای تعدادی ویژگی متمایز هستند که بر طبقه بندی شغل تأثیر می گذارد. اینها شامل سطح تحصیلات، تجربه، تأثیر سازمانی، سطح نظارت، بودجه مالی و غیره است. دانستن این عوامل برای مشاغل مختلف، یک تحلیلگر شغل را قادر می سازد تا مشاغل را به گروه هایی طبقه بندی کند – که به مقیاس های پرداخت و بسته های مزایا مرتبط هستند.

چالش

ساندمارک اشاره می‌کند که تحلیل تشخیصی خطی (LDA) می‌تواند برای یافتن ترکیبی از ویژگی‌هایی که تعدادی از کلاس‌های اشیاء یا رویدادها را مشخص می‌کنند استفاده شود. با استفاده از LDA، مجموعه داده های طبقه بندی مشاغل Sundmark را می توان برای طبقه بندی مشاغل تازه ایجاد شده در ساختار شغلی موجود، ارائه دستورالعمل هایی برای عملکردهای جدید استفاده کرد.

در این مجموعه داده، 66 ویژگی شغلی وجود دارد که 11 درجه حقوق را پوشش می دهد. تمام عوامل ذکر شده در بالا گنجانده شده است، و بیشتر.

دانلود کنید

می توانید مجموعه داده را از اینجا دانلود کنید. یک مقاله پشتیبانی که نحوه انجام تجزیه و تحلیل در R را توضیح می دهد، در اینجا (آینه) یافت می شود.

7. نظرسنجی نامزدی

یکی از سخت‌ترین مجموعه داده‌ها، نظرسنجی‌های تعامل است. این چند دلیل دارد که مهمترین آنها بالا بودن سطح محرمانه بودن و اطلاعات حساس شرکت در این نظرسنجی ها است.

با این حال، مجموعه ای از داده ها برای کسانی که می خواهند یاد بگیرند وجود دارد. در دوره آموزشی آمار در HR ما از مجموعه داده های تعامل با 85 نفر استفاده می کنیم که همگی در یک نظرسنجی تعامل پر کردند. مجموعه داده‌ها شامل متغیرهایی مانند رتبه‌بندی عملکرد، گروه عملکرد، اما همچنین رفتار نوآوری، نمرات تعامل چند بعدی، ابتکار شخصی، رفتار مدیریت شغلی، رفتار تحرک (یعنی احتمال ترک شرکت)، تعهد سازمانی و حرفه‌ای و غیره است.

SPSS data set

تصویری از دوره با مجموعه داده در سمت چپ. داده ها در نرم افزار SPSS تجزیه و تحلیل شدند.

SPSS data 2

همین داده ها در R نیز مورد تجزیه و تحلیل قرار می گیرند. در این قطعه، داده ها از نظر homoscedasticity بررسی می شوند.

چالش

چالش این مجموعه داده مستقیم است. دانش آموزان یک مجموعه داده خلاصه و کتاب کد با توضیح داده ها دریافت می کنند. جلسه توجیهی دارای شش سؤال است که دانش آموزان باید به آنها پاسخ دهند. گفتن این کار آسان تر از انجام آن است: هر پاسخ یک درس کامل 30 دقیقه ای است که نحوه اجرای آزمون های t، ANOVA، رگرسیون خطی چندگانه و غیره را توضیح می دهد.

این دوره به شما می آموزد که چگونه این تحلیل ها را هم در SPSS و هم در R اجرا کنید. پس از اتمام تمرین، تعدادی چالش دیگر وجود دارد که می توانید به تنهایی آنها را حل کنید.

دانلود کنید

متأسفانه، این مجموعه داده به صورت رایگان در دسترس نیست. با این حال، با ثبت نام در دوره آمار در منابع انسانی، به داده ها و مطالب آموزشی دسترسی کامل خواهید داشت.

نتیجه گیری

فقدان داده های موجود یکی از تنگناهای تجزیه و تحلیل منابع انسانی است. امیدواریم از طریق این مقاله بتوانیم تا حدی این تنگنا را برطرف کنیم. ما همچنین تعدادی چالش برای هر یک از مجموعه‌های داده را به شما پیشنهاد کردیم تا مطمئن شوید بیشترین بهره را از آن می‌برید.

یک اشکال این است که تنها دو مورد از این مجموعه داده ها حاوی داده های واقعی هستند. بقیه به صورت مصنوعی تولید می شوند. این هنوز هم می تواند برای آزمایش تکنیک های مختلف مفید باشد. با این حال، این داده ها احتمالا برای به اشتراک گذاشتن یک روش برای یک تکنیک آماری یا برای به اشتراک گذاشتن یک روایت ایجاد شده است. داده‌های واقعی همان هدف را ندارند و بنابراین واقع‌بینانه‌تر هستند.

این را می توان با خراش دادن داده های واقعی از اینترنت برطرف کرد. جرد والدرون با به اشتراک گذاشتن دو اسکراپر برای Meetup.com و WeWork با این کار شروع کرد. اینها می توانند برای الهام گرفتن برای تولید مجموعه داده های خود استفاده شوند.

اگر داده‌های تجزیه و تحلیل منابع انسانی در دسترس عموم را می‌شناسید که ما از دست داده‌ایم، لطفاً در نظرات به ما اطلاع دهید. بر این اساس این مقاله را به روز خواهیم کرد.

اریک ون ولپن موسس و رئیس AIHR است. او در شکل‌دهی شیوه‌های مدرن منابع انسانی با آوردن نوآوری‌های تکنولوژیک در زمینه منابع انسانی متخصص است. او به‌عنوان یک رهبر فکری HR به رسمیت شناخته می‌شود و مرتباً در مورد موضوعاتی مانند People Analytics، HR دیجیتال و آینده کار صحبت می‌کند.

منبع


برچسب‌ها:

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *