راهنمای 6 مرحله ای برای تمیز کردن داده های تجزیه و تحلیل منابع انسانی

پاکسازی داده ها یک عنصر کلیدی در تجزیه و تحلیل منابع انسانی است. قبل از اینکه بتوانید داده های خود را تجزیه و تحلیل کنید، باید “تمیز” باشد. در این راهنمای پاکسازی داده ها، توضیح خواهیم داد که چرا پاکسازی داده ها مهم است و چگونه می توانید آن را انجام دهید. در انتهای مقاله یک اینفوگرافیک مفید برای تمیز کردن داده ها قرار داده ایم.

یک ضرب المثل رایج در تجزیه و تحلیل داده ها این است: “زباله داخل، زباله بیرون”.

این جمله به این معنی است که شما می توانید فکر و تلاش زیادی برای تجزیه و تحلیل داده های خود داشته باشید و به نتایج زیادی برسید. با این حال، اگر داده های ورودی دقیق نباشند، این نتایج هیچ معنایی نخواهد داشت. در واقع، نتایج حتی ممکن است مضر باشند زیرا می توانند واقعیت را نادرست نشان دهند.

چرا پاکسازی داده ها مهم است؟

داده های منابع انسانی اغلب کثیف هستند. داده های کثیف هر رکورد داده ای است که حاوی خطا باشد. این ممکن است به دلایل مختلف اتفاق بیفتد.

ساده ترین آنها کمبود داده است. نمونه‌های دیگر داده‌های کثیف عبارتند از برچسب‌های مختلف برای یک کارکرد یکسان، چندین رکورد برای افراد مشابه در یک سیستم، سوابق غیر منطبق در سیستم‌های مختلف و غیره.

تمیز کردن و سفارش دادن این داده ها می تواند فرآیندی زمان بر باشد. در واقع، جمع‌آوری داده‌ها از همه این منابع داده مختلف و سازگار کردن آنها می‌تواند هفته‌ها یا حتی ماه‌ها طول بکشد. این امر به ویژه برای شرکت های بین المللی صادق است. اینها اغلب از سیستم های مختلف در کشورهای مختلف برای ثبت داده های یکسان استفاده می کنند.

مشکل داده ها این است که به راحتی کثیف می شوند. به محض اینکه روش های جمع آوری داده ها کوچکترین تفاوت داشته باشد، داده ها ناسازگار می شوند.

به عنوان یک شرکت، می توانید تصمیم بگیرید که تمام داده های خود را به یکباره پاک کنید. برخی از شرکت ها این استراتژی را انتخاب می کنند. با این حال، این می تواند زمان زیادی را ببرد. بنابراین بسیار هوشمندانه تر است که فقط داده هایی را که برای انجام یک تحلیل خاص به آن نیاز دارید، پاک کنید.

این رویکرد از انجام بسیاری از کارهای غیر ضروری جلوگیری می کند و سریعتر نتیجه می دهد. بر اساس نتایج تجزیه و تحلیل اول، می توانید تعیین کنید کدام داده های اضافی را برای اجرای تحلیل بعدی خود باید پاک کنید.

پاکسازی داده ها به اجرای یک تحلیل روان کمک می کند. همچنین به گزارش عادی منابع انسانی کمک می کند زیرا داده های تمیز را می توان به سیستم های منابع انسانی بازگرداند. این به بهبود کیفیت داده ها کمک می کند و برای تجزیه و تحلیل داده های بعدی و تلاش های تجمیع داده ها بسیار مفید است.

بنابراین پاکسازی داده ها یک مرحله ضروری در فرآیند تحلیل منابع انسانی است.

فرآیند پاکسازی داده ها

هنگام تمیز کردن داده های منابع انسانی دو چیز وجود دارد که باید بدانید. اولی اعتبار داده ها و دومی پایایی داده ها است.

هنگامی که داده ها معتبر یا قابل اعتماد نیستند، ممکن است چیزی متفاوت از آنچه به دنبال آن هستید به شما بگوید. بخش زیر این موضوع را عمیق تر بررسی خواهد کرد. درک این دو اصطلاح مهم است. با این حال، اگر به دنبال یک راهنمای گام به گام کاربردی تر هستید، می توانید به بخش بعدی بروید.

اعتبار

اعتبار این است که آیا شما واقعاً آنچه را که باید اندازه گیری کنید، اندازه گیری می کنید. آیا سیستم ارزیابی فقط عملکرد فردی را اندازه گیری می کند یا (همچنین) می سنجید که چه کسی توسط مدیرش بیشتر دوست دارد؟ آیا داده ها به طور یکنواخت در سراسر سازمان جمع آوری می شوند یا به هر طریقی منحرف شده اند؟

به عنوان مثال: شهر بوستون برنامه ای ساخت که رانندگان آن می توانستند روی گوشی هوشمند خود نصب کنند. این اپلیکیشن برجستگی‌های جاده را اندازه‌گیری می‌کند و موقعیت آنها را از طریق GPS گزارش می‌دهد. سپس این دست اندازها ثبت شد و راهداری شهری آنها را برطرف می کرد. به گفته یک سخنگوی: “داده ها اطلاعاتی را در زمان واقعی در اختیار شهر قرار می دهد که از آن برای رفع مشکلات و برنامه ریزی سرمایه گذاری های بلندمدت استفاده می کند.”

متأسفانه همه به یک اندازه از این سیستم بهره مند نشدند. این برنامه عمدتاً توسط جوانان و در جوامع مرفه تر استفاده می شد. در همین حال، جوامع فقیرتر دسترسی برابر به تلفن های هوشمند و داده های تلفن همراه نداشتند. این یک سوگیری قابل توجه در داده ها است.

سوالاتی که می توانید برای بررسی اعتبار از خود بپرسید عبارتند از:

آیا داده ها نشان دهنده چیزی است که می خواهیم اندازه گیری کنیم؟
آیا در روش اندازه گیری داده هایمان سوگیری وجود دارد؟
آیا داده ها به شیوه ای واضح و منسجم جمع آوری شده است؟
آیا نقاط پرت در داده ها وجود دارد؟

قابلیت اطمینان

قابلیت اطمینان در مورد اندازه گیری یک چیز یکسان و بارها و بارها و دستیابی به یک نتیجه است.

وقتی نامزدی یک نفر را در صبح اندازه می‌گیرید، می‌خواهید نتیجه‌ای مشابه زمانی داشته باشید که بعد از ظهر دوباره آن را اندازه می‌گیرید. این به این دلیل است که تعامل یک ویژگی است که در طول زمان نسبتاً پایدار است.

همین امر برای ارزیاب های مختلف صدق می کند. اگر از بیل و جیم بخواهید که به نامزدی وندی امتیاز بدهند، می خواهید بیل و جیم به وندی امتیاز یکسانی بدهند. با این حال، زمانی که مقیاس‌هایی که برای رتبه‌بندی وندی استفاده می‌شوند مبهم و قابل تفسیر هستند، بیل و جیم احتمالاً رتبه‌بندی‌های متفاوتی به وندی می‌دهند. به این تعصب ارزیاب گفته می شود و بهتر است از آن اجتناب شود.

این ممکن است واضح به نظر برسد اما اینطور نیست. اغلب داده‌های گزارش‌شده به عوامل دیگری مانند دستورالعمل‌هایی که داده می‌شود و خلق و خوی فردی که رتبه‌بندی می‌کند بستگی دارد. وقتی در مورد قابلیت اطمینان صحبت می‌کنیم، این سؤال بزرگی است: آیا زمانی که داده‌های یکسان توسط افراد مختلف و در زمان‌های مختلف روز/هفته اندازه‌گیری می‌شود، امتیازات یکسانی به دست می‌آید؟

رویه ها نقش مهمی در این فرآیند دارند. در رتبه‌بندی عملکرد، اگر یک مدیر عملکرد یک کارمند را در شش ماه گذشته در نظر بگیرد، در حالی که مدیر دیگری فقط به دو هفته گذشته فکر کند، احتمالاً رتبه‌بندی‌های عملکرد متفاوت و غیرقابل اعتماد خواهد بود. رویه‌های مستند به وضوح به مدیران مختلف کمک می‌کند عملکرد را به روشی مشابه اندازه‌گیری کنند.

سوالاتی که باید در این زمینه از خود بپرسید عبارتند از:

آیا زمانی که یک چیز چندین بار اندازه‌گیری می‌شد، به طور مداوم نتایج یکسانی تولید می‌کردیم؟
آیا ما از روش‌های جمع‌آوری داده‌های مستند به وضوح استفاده کردیم؟
آیا دستورالعمل های جمع آوری داده ها هر بار رعایت می شد؟

چک لیست ساده پاکسازی داده ها

سؤالات قبلی در مورد اعتبار و پایایی به شما کمک می کند تا تجزیه و تحلیل کنید که آیا داده های ورودی شما به اندازه کافی دقیق هستند تا نتایج قابل اعتماد و معتبری به دست آورند. چندین معیار دیگر وجود دارد که داده های شما باید با آنها مطابقت داشته باشد. به عنوان مثال، داده های شما باید به روز باشند.

داده‌هایی که قدیمی هستند نتایج بالقوه نامربوطی ایجاد می‌کنند و به طور بالقوه می‌توانند نتایج شما را خراب کنند. علاوه بر این، باید بررسی کنید که آیا تمام داده‌های مربوطه را دارید: سوابق اغلب مفقود هستند. بسته به اینکه چگونه داده های خود را تجزیه و تحلیل می کنید، ممکن است مشکل ایجاد کند یا خیر. برخی از روش‌های تجزیه و تحلیل اجازه داده‌های از دست رفته را می‌دهند در حالی که الگوریتم‌های دیگر در صورت از دست رفتن داده‌ها با مشکل مواجه می‌شوند.

داده های از دست رفته جمعیت شما را محدود می کند. به علاوه، احتمال واقعی وجود شباهت‌های مشترک بین افرادی که داده‌هایشان گم شده است وجود دارد. به عنوان مثال، اگر یک بخش هنوز از یک سیستم مدیریت عملکرد منسوخ استفاده می کند که سؤالات خاصی را حذف می کند، به این معنی است که شما اطلاعات مربوط به همه افراد شاغل در آن بخش را ندارید. این می تواند به طور جدی نتایج شما را به سمت سایر بخش ها منحرف کند و تعمیم پذیری نتایج را تهدید کند.

این یک چک لیست عملی با شش مرحله برای پاکسازی داده است:

بررسی کنید که آیا داده ها به روز هستند.
شناسه های منحصر به فرد تکرار شونده را بررسی کنید. برخی افراد بیش از یک سمت دارند. سیستم ها اغلب رکوردهای جداگانه ای برای هر موقعیت ایجاد می کنند. بنابراین این افراد در نهایت چندین رکورد در یک پایگاه داده دارند. بسته به موقعیت، این رکوردها ممکن است فشرده شوند.
برچسب های داده را در چندین فیلد و مجموعه داده های ادغام شده بررسی کنید و ببینید آیا همه داده ها مطابقت دارند یا خیر.
شمارش مقادیر از دست رفته زمانی که مقادیر گمشده بیش از حد در بخش‌های خاصی از سازمان نمایش داده می‌شوند، ممکن است نتایج شما را منحرف کنند. این را در مثال قبلی دیدیم. علاوه بر این، تجزیه و تحلیل با مقادیر زیاد از دست رفته (یعنی داده های ناکافی) خطر نادرست شدن را دارد. این همچنین بر تعمیم پذیری نتایج شما تأثیر می گذارد.
نقاط پرت عددی را بررسی کنید. آمار توصیفی و مقادیر چندک ها را محاسبه کنید. اینها شما را قادر می سازد تا مقادیر پرت بالقوه را محاسبه کنید. مقادیر حداقل و حداکثر نقطه شروع خوبی هستند.
علاوه بر این، می توانید محدوده بین چارکی را محاسبه کنید. می توانید این کار را با ضرب اختلاف بین کوانتیل 3 (Q3) و Q1 در 1.5 انجام دهید. نتیجه را می توان به Q3 اضافه کرد و از Q1 کم کرد. مقادیر خارج از این محدوده به صورت پرت فرض می شوند. این مقاله ویکی‌پدیا نحوه انجام این کار را با جزئیات بیشتر توضیح می‌دهد.
خروجی داده معتبر را تعریف کنید و تمام مقادیر داده نامعتبر را حذف کنید. این برای همه داده ها مفید است. داده های کاراکتر به وضوح تعریف شده است. به عنوان مثال، جنسیت با M یا F تعریف می شود. این مقادیر داده های معتبر هستند. هر مقدار دیگر نامعتبر فرض می شود. این داده ها را می توان به راحتی برای بازرسی پرچم گذاری کرد.

| AIHR Learning Bite” width=”1200″ height=”675″ src=”https://www.youtube.com/embed/zx200ssN9Ns?feature=oembed&enablejsapi=1&origin=https://www.aihr.com” frameborder=” 0″ allow=”شتاب سنج; پخش خودکار؛ clipboard-write; رسانه های رمزگذاری شده ژیروسکوپ; تصویر در تصویر” allowfullscreen=””]

در صورتی که مایل به خواندن نیستید، در این آموزش چند مورد از این مراحل را طی خواهیم کرد!

داده های عددی اغلب در محدوده محدود هستند (به عنوان مثال سن کار بین 15 تا 100 سال است). داده های عددی که خارج از محدوده از پیش تعریف شده قرار می گیرند را می توان به همین ترتیب پرچم گذاری کرد.

با استفاده از این راهنما می توانید بیشتر ناسازگاری های داده های خود را پیدا کنید. نکته: همیشه نگاهی دوباره به داده‌های تمیز خود بیندازید، ممکن است چیزی را که از دست داده‌اید متوجه شوید. موفق باشید!

ما را در رسانه های اجتماعی دنبال کنید تا از آخرین اخبار و روندهای منابع انسانی مطلع شوید

لینکدین فیسبوک پینترست توییتر

اریک ون ولپن موسس و رئیس AIHR است. او در شکل‌دهی به شیوه‌های مدرن منابع انسانی با آوردن نوآوری‌های فناوری در زمینه منابع انسانی متخصص است. او به عنوان یک رهبر فکری منابع انسانی به رسمیت شناخته می شود و به طور منظم در مورد موضوعاتی مانند تجزیه و تحلیل افراد، منابع انسانی دیجیتال و آینده کار صحبت می کند.

منبع