وقتی در مورد تجزیه و تحلیل داده های HR صحبت می کنیم، از کلماتی مانند یادگیری ماشینی، الگوریتم ها و داده کاوی استفاده می کنیم. با این حال، آیا ما واقعاً معنای این اصطلاحات را می دانیم؟ صادقانه بگویم، اولین باری که آنها را شنیدم، نشنیدم… این وبلاگ به برخی از اصطلاحات رایج تجزیه و تحلیل منابع انسانی می پردازد.
1. داده کاوی
داده کاوی مانند حفاری برای طلا است. جویندگان طلا در میان انبوهی از خاک و سنگ غربال می کنند به این امید که تکه ای از طلای براق را کشف کنند. داده کاوی فرآیند کشف الگوها در انبوهی از داده های خام و تبدیل آنها به اطلاعات ملموس است که به نوبه خود می تواند برای پیش بینی رفتار یا رویدادهای زندگی واقعی استفاده شود. قابل توجه است که 99.5 درصد از کل داده ها در جهان هرگز تجزیه و تحلیل نشده اند.
تکنیکی که در داده کاوی استفاده می شود، یادگیری ماشین نامیده می شود.
2. یادگیری ماشینی
یادگیری ماشینی تکنیکی است که معمولاً در فرآیند داده کاوی استفاده می شود. از طریق این تکنیک، یک ماشین (کامپیوتر) از داده های شما با تجزیه و تحلیل و شناسایی الگوها یاد می گیرد. این بدان معنی است که یادگیری ماشینی را می توان به عنوان نوعی هوش مصنوعی (AI) در نظر گرفت زیرا ابزارهای لازم را برای رایانه ها برای جذب اطلاعات جدید فراهم می کند.
3. درخت تصمیم
همانطور که در وبلاگ قبلی توضیح دادم، درخت تصمیم مدلی است که شبیه یک درخت است و از تصمیمات و پیامدهای احتمالی آنها تشکیل شده است. این یک ابزار مفید برای پیش بینی در مورد آینده (نزدیک) است. درخت تصمیم به شما این امکان را می دهد که با یادگیری از داده های موجود، آنچه ممکن است اتفاق بیفتد را پیش بینی کنید. این بسیار شبیه روشی است که همه از تجربیات گذشته خود می آموزند. در درخت تصمیم، هر تصمیم به عنوان یک گره و هر گزینه نتیجه به عنوان یک شاخه نمایش داده می شود.
در وبلاگ قبلی خود در مورد تجزیه و تحلیل پیش بینی در منابع انسانی، مفهوم درخت تصمیم را با استفاده از یک مثال توضیح دادم: سعی کردم بر اساس داده های آب و هوای چهارده روزه پیش بینی کنم که آیا بچه ها بیرون بازی خواهند کرد یا خیر. درخت تصمیم به شکل زیر بود:
این درخت نشان میدهد که بچهها احتمالاً در بیرون از خانه بازی میکنند که چشمانداز آفتابی است (بله). وقتی چشم انداز بارانی است، بچه ها به احتمال زیاد بیرون بازی نمی کنند (نه). این درخت تصمیم با استفاده از Weka، یک نرم افزار داده کاوی رایگان، تولید شده است و دقت پیش بینی آن 71 درصد است.
مطالب مرتبط: درباره معیارهای استخدام بیشتر بدانید
4. آر
بسیاری از متخصصان منابع انسانی اغلب از Excel استفاده می کنند. با این حال، اکثر تحلیلگران منابع انسانی پیشبینیکننده از R. R مسلماً محبوبترین ابزار برای دانشمندان داده است. R یک سیستم منبع باز (رایگان) برای محاسبات آماری و تجسم است. همچنین به شما امکان میدهد با مجموعه دادههای عظیمی کار کنید که نمیتوان آنها را در اکسل مدیریت کرد.
5. داده های ساختاریافته در مقابل داده های بدون ساختار
ما در مورد داده ها زیاد صحبت می کنیم. دو تمایز در داده ها وجود دارد. هنگامی که به طور منظم در یک صفحه گسترده یا پایگاه داده سازماندهی شده باشد به آن داده ساختاریافته می گویند. به عنوان مثال، HR نام کارمندان خود، سن آنها، محل زندگی آنها، در کدام بخش کار می کنند، عملکرد آنها و غیره را می داند. همه این دادهها ساختار یافتهاند: با جستجوی نام یا شناسه، میتوانید به راحتی جزئیات یک شخص را پیدا کنید.
داده های بدون ساختار برعکس است. فقدان ساختار آن، سفارش دادن این داده ها را به یک ضرورت زمان و انرژی تبدیل می کند. به عنوان مثال ایمیل ها را در نظر بگیرید. سفارش دقیق ایمیل ها در مورد موضوع یا محتوا غیرممکن است (از این رو بدون ساختار). این داده ها به احتمال زیاد قبل از تجزیه و تحلیل نیاز به ساختاربندی دارند.
6. یادگیری تحت نظارت در مقابل یادگیری بدون نظارت
در یادگیری ماشینی نظارت شده، داده های خروجی ارائه می شود، به این معنی که رایانه داده هایی دارد که می تواند از آنها یاد بگیرد. یک مثال: وقتی میخواهید گردش داوطلبانه را پیشبینی کنید، سادهترین راه این است که به رایانه اجازه دهید از گذشته درس بگیرد. در یک مدل نظارت شده، کامپیوتر داده های افرادی را که داوطلبانه شرکت را ترک کرده اند، تجزیه و تحلیل می کند. سپس این داده ها را با افرادی که در همان دوره زمانی در شرکت مانده اند مقایسه می کند. این اطلاعات به رایانه میگوید که چه کسی شرکت را ترک کرده و چه کسی شرکت را ترک نکرده است و به آن امکان میدهد یک مدل پیشبینی از کارمندانی که احتمالاً ترک میکنند بسازد. این نمونه ای از یادگیری ماشینی تحت نظارت است.
هیچ داده خروجی در یادگیری بدون نظارت وجود ندارد. یک کامپیوتر هنوز هم می تواند بر اساس این داده ها با خوشه بندی مجموعه هایی از نقاط مرتبط از داده ها پیش بینی کند. در مثال بعدی خواهید دید که چگونه خوشه بندی (با نظارت) کار می کند.
مرتبط: مروری بر معیارهای منابع انسانی
7. خوشه بندی
خوشه بندی نوعی یادگیری ماشینی است که با خوشه بندی داده ها پیش بینی می کند.
خوشهبندی دادهها به این معنی است که رایانه به دنبال گروههایی میگردد که شباهتهای مشترکی دارند. مثال زیر 1000 نقطه داده را نشان می دهد که در سه خوشه تقسیم شده اند. این یک مثال نظارت شده است زیرا می دانید کدام نقطه داده متعلق به کدام خوشه است.
یادگیری ماشینی امکان تخمین خوشه های مختلف را فراهم می کند. علاوه بر این، هنگامی که یک نقطه جدید از داده معرفی می شود، الگوریتم قادر است پیش بینی کند که به احتمال زیاد به کدام خوشه تعلق دارد. یک نقطه از داده در پایین سمت راست به احتمال زیاد بخشی از خوشه 1 است و یک نقطه داده در بالا سمت راست به احتمال زیاد متعلق به خوشه 2 است.
البته این یک مثال نسبتا ساده است. واقعیت معمولا کمی پیچیده تر است.
8. داده های آموزشی در مقابل داده های آزمون
وقتی یک مجموعه داده دارید، می توانید یک الگوریتم پیش بینی بسازید. اما چگونه می توان فهمید که پیش بینی ها درست هستند؟ برای اینکه بفهمید به مجموعه دومی از داده ها نیاز دارید. این یک مجموعه تست است.
معمولاً دادههای تست و دادههای آموزشی با تقسیم یک مجموعه داده کامل ایجاد میشوند (تصویر زیر را ببینید). قسمت اول این مجموعه برای اهداف آموزشی است. این برای ایجاد الگوریتم پیش بینی شما استفاده خواهد شد. مجموعه دوم داده ها، داده های آزمایشی است. این داده (ناشناخته) پس از ایجاد الگوریتم به منظور آزمایش میزان دقیق پیشبینیهای الگوریتم استفاده میشود.
اگر این دو مجموعه داده را از هم جدا نکنید، دقت الگوریتم های خود را بر روی همان داده هایی که در ابتدا برای ایجاد الگوریتم استفاده کردید، آزمایش خواهید کرد. این یک نقص اساسی است و می تواند منجر به چیزی به نام “بیش از حد” شود.
مطالب مرتبط: داشبورد منابع انسانی، چگونه آن را ایجاد کنیم؟
9. بیش از حد
همه مدل های پیش بینی برابر نیستند.
یادگیری ماشینی یک تکنیک پیچیده است و می تواند تجزیه و تحلیل های بسیار دقیقی را ارائه دهد. به دلیل این سطح از جزئیات، در معرض خطر “بیش از حد” قرار دارد. این بدان معنی است که هر کسی می تواند الگوریتمی ایجاد کند که توانایی پیش بینی داده های خود را با دقت (تقریبا) کامل داشته باشد!
نمونه داده های آب و هوای 14 روزه را که قبلاً ذکر کردیم، در نظر بگیرید.
این نمودار درخت تصمیمی را نشان می دهد که می تواند با دقت 100 درصد پیش بینی کند که آیا بچه ها در 14 روز گذشته بیرون بازی می کنند یا نه. این مدل بدیهی است که بسیار دقیق است زیرا برای مجموعه داده های خاص ما طراحی شده است.
این مدل را با مدل زیر مقایسه کنید. مدل زیر ساده و قابل توضیح است. وقتی چشم انداز آفتابی است، بچه ها احتمالاً در زمین بازی حضور خواهند داشت. وقتی چشم انداز بارانی است، بعید است بچه ها در زمین بازی حضور داشته باشند. این مدل با دانش فعلی ما ساده و قابل درک است.
مدل فوق به طور غیر واقعی پیچیده است. ما از 14 روز (ردیف) داده برای ساخت این مدل استفاده کردیم. با این حال، مدل ما دارای 19 (!) نتیجه ممکن است. این بدان معناست که نتایج احتمالی بیشتری نسبت به دادهها وجود دارد. به عبارت دیگر: این مدل بسیار پیچیده است.
مشکل بیش از حد برازش این است که مدل کاملاً با دادههایی که برای ساخت آن استفاده کردهایم مطابقت دارد. اما در عمل کاربرد ندارد. وقتی دادههای جدیدی را به این مدل اضافه میکنیم، دقت بلافاصله کاهش مییابد. دقت مدل بسیار سادهتر زیر به احتمال زیاد ثابت خواهد ماند.
بنابراین، وقتی مردم می گویند یک مدل پیش بینی دارند که می تواند پیش بینی های بسیار دقیقی انجام دهد، فریب نخورید! در زیر کاپوت، این مدل ممکن است ارزش چندانی نداشته باشد.
9 اصطلاحی که در این مقاله پوشش داده شده است، بدیهی است که همه آنچه را که در مورد تجزیه و تحلیل منابع انسانی باید بدانید را پوشش نمی دهد. امیدوارم آنها به شما کمک کنند تا بهتر بفهمید دانشمند داده یا مشاور شما در مورد چه صحبت می کند. اگر اصطلاحاتی را می شناسید که باید در این لیست باشد، با ارسال نظر آنها را اضافه کنید.
دیدگاهتان را بنویسید