پاکسازی داده ها یک عنصر کلیدی در تجزیه و تحلیل منابع انسانی است. قبل از اینکه بتوانید داده های خود را تجزیه و تحلیل کنید، باید “تمیز” باشد. در این راهنمای پاکسازی داده ها، توضیح خواهیم داد که چرا پاکسازی داده ها مهم است و چگونه می توانید آن را انجام دهید. در انتهای مقاله یک اینفوگرافیک مفید برای تمیز کردن داده ها قرار داده ایم.
یک ضرب المثل رایج در تجزیه و تحلیل داده ها این است: “زباله داخل، زباله بیرون”.
این جمله به این معنی است که شما می توانید فکر و تلاش زیادی برای تجزیه و تحلیل داده های خود داشته باشید و به نتایج زیادی برسید. با این حال، اگر داده های ورودی دقیق نباشند، این نتایج هیچ معنایی نخواهد داشت. در واقع، نتایج حتی ممکن است مضر باشند زیرا می توانند واقعیت را نادرست نشان دهند.
چرا پاکسازی داده ها مهم است؟
داده های منابع انسانی اغلب کثیف هستند. داده های کثیف هر رکورد داده ای است که حاوی خطا باشد. این ممکن است به دلایل مختلف اتفاق بیفتد.
ساده ترین آنها کمبود داده است. نمونههای دیگر دادههای کثیف عبارتند از برچسبهای مختلف برای یک کارکرد یکسان، چندین رکورد برای افراد مشابه در یک سیستم، سوابق غیر منطبق در سیستمهای مختلف و غیره.
تمیز کردن و سفارش دادن این داده ها می تواند فرآیندی زمان بر باشد. در واقع، جمعآوری دادهها از همه این منابع داده مختلف و سازگار کردن آنها میتواند هفتهها یا حتی ماهها طول بکشد. این امر به ویژه برای شرکت های بین المللی صادق است. اینها اغلب از سیستم های مختلف در کشورهای مختلف برای ثبت داده های یکسان استفاده می کنند.
مشکل داده ها این است که به راحتی کثیف می شوند. به محض اینکه روش های جمع آوری داده ها کوچکترین تفاوت داشته باشد، داده ها ناسازگار می شوند.
به عنوان یک شرکت، می توانید تصمیم بگیرید که تمام داده های خود را به یکباره پاک کنید. برخی از شرکت ها این استراتژی را انتخاب می کنند. با این حال، این می تواند زمان زیادی را ببرد. بنابراین بسیار هوشمندانه تر است که فقط داده هایی را که برای انجام یک تحلیل خاص به آن نیاز دارید، پاک کنید.
این رویکرد از انجام بسیاری از کارهای غیر ضروری جلوگیری می کند و سریعتر نتیجه می دهد. بر اساس نتایج تجزیه و تحلیل اول، می توانید تعیین کنید کدام داده های اضافی را برای اجرای تحلیل بعدی خود باید پاک کنید.
پاکسازی داده ها به اجرای یک تحلیل روان کمک می کند. همچنین به گزارش عادی منابع انسانی کمک می کند زیرا داده های تمیز را می توان به سیستم های منابع انسانی بازگرداند. این به بهبود کیفیت داده ها کمک می کند و برای تجزیه و تحلیل داده های بعدی و تلاش های تجمیع داده ها بسیار مفید است.
بنابراین پاکسازی داده ها یک مرحله ضروری در فرآیند تحلیل منابع انسانی است.
فرآیند پاکسازی داده ها
هنگام تمیز کردن داده های منابع انسانی دو چیز وجود دارد که باید بدانید. اولی اعتبار داده ها و دومی پایایی داده ها است.
هنگامی که داده ها معتبر یا قابل اعتماد نیستند، ممکن است چیزی متفاوت از آنچه به دنبال آن هستید به شما بگوید. بخش زیر این موضوع را عمیق تر بررسی خواهد کرد. درک این دو اصطلاح مهم است. با این حال، اگر به دنبال یک راهنمای گام به گام کاربردی تر هستید، می توانید به بخش بعدی بروید.
اعتبار
اعتبار این است که آیا شما واقعاً آنچه را که باید اندازه گیری کنید، اندازه گیری می کنید. آیا سیستم ارزیابی فقط عملکرد فردی را اندازه گیری می کند یا (همچنین) می سنجید که چه کسی توسط مدیرش بیشتر دوست دارد؟ آیا داده ها به طور یکنواخت در سراسر سازمان جمع آوری می شوند یا به هر طریقی منحرف شده اند؟
به عنوان مثال: شهر بوستون برنامه ای ساخت که رانندگان آن می توانستند روی گوشی هوشمند خود نصب کنند. این اپلیکیشن برجستگیهای جاده را اندازهگیری میکند و موقعیت آنها را از طریق GPS گزارش میدهد. سپس این دست اندازها ثبت شد و راهداری شهری آنها را برطرف می کرد. به گفته یک سخنگوی: “داده ها اطلاعاتی را در زمان واقعی در اختیار شهر قرار می دهد که از آن برای رفع مشکلات و برنامه ریزی سرمایه گذاری های بلندمدت استفاده می کند.”
متأسفانه همه به یک اندازه از این سیستم بهره مند نشدند. این برنامه عمدتاً توسط جوانان و در جوامع مرفه تر استفاده می شد. در همین حال، جوامع فقیرتر دسترسی برابر به تلفن های هوشمند و داده های تلفن همراه نداشتند. این یک سوگیری قابل توجه در داده ها است.
سوالاتی که می توانید برای بررسی اعتبار از خود بپرسید عبارتند از:
- آیا داده ها نشان دهنده چیزی است که می خواهیم اندازه گیری کنیم؟
- آیا در روش اندازه گیری داده هایمان سوگیری وجود دارد؟
- آیا داده ها به شیوه ای واضح و منسجم جمع آوری شده است؟
- آیا نقاط پرت در داده ها وجود دارد؟
قابلیت اطمینان
قابلیت اطمینان در مورد اندازه گیری یک چیز یکسان و بارها و بارها و دستیابی به یک نتیجه است.
وقتی نامزدی یک نفر را در صبح اندازه میگیرید، میخواهید نتیجهای مشابه زمانی داشته باشید که بعد از ظهر دوباره آن را اندازه میگیرید. این به این دلیل است که تعامل یک ویژگی است که در طول زمان نسبتاً پایدار است.
همین امر برای ارزیاب های مختلف صدق می کند. اگر از بیل و جیم بخواهید که به نامزدی وندی امتیاز بدهند، می خواهید بیل و جیم به وندی امتیاز یکسانی بدهند. با این حال، زمانی که مقیاسهایی که برای رتبهبندی وندی استفاده میشوند مبهم و قابل تفسیر هستند، بیل و جیم احتمالاً رتبهبندیهای متفاوتی به وندی میدهند. به این تعصب ارزیاب گفته می شود و بهتر است از آن اجتناب شود.
این ممکن است واضح به نظر برسد اما اینطور نیست. اغلب دادههای گزارششده به عوامل دیگری مانند دستورالعملهایی که داده میشود و خلق و خوی فردی که رتبهبندی میکند بستگی دارد. وقتی در مورد قابلیت اطمینان صحبت میکنیم، این سؤال بزرگی است: آیا زمانی که دادههای یکسان توسط افراد مختلف و در زمانهای مختلف روز/هفته اندازهگیری میشود، امتیازات یکسانی به دست میآید؟
رویه ها نقش مهمی در این فرآیند دارند. در رتبهبندی عملکرد، اگر یک مدیر عملکرد یک کارمند را در شش ماه گذشته در نظر بگیرد، در حالی که مدیر دیگری فقط به دو هفته گذشته فکر کند، احتمالاً رتبهبندیهای عملکرد متفاوت و غیرقابل اعتماد خواهد بود. رویههای مستند به وضوح به مدیران مختلف کمک میکند عملکرد را به روشی مشابه اندازهگیری کنند.
سوالاتی که باید در این زمینه از خود بپرسید عبارتند از:
- آیا زمانی که یک چیز چندین بار اندازهگیری میشد، به طور مداوم نتایج یکسانی تولید میکردیم؟
- آیا ما از روشهای جمعآوری دادههای مستند به وضوح استفاده کردیم؟
- آیا دستورالعمل های جمع آوری داده ها هر بار رعایت می شد؟
چک لیست ساده پاکسازی داده ها
سؤالات قبلی در مورد اعتبار و پایایی به شما کمک می کند تا تجزیه و تحلیل کنید که آیا داده های ورودی شما به اندازه کافی دقیق هستند تا نتایج قابل اعتماد و معتبری به دست آورند. چندین معیار دیگر وجود دارد که داده های شما باید با آنها مطابقت داشته باشد. به عنوان مثال، داده های شما باید به روز باشند.
دادههایی که قدیمی هستند نتایج بالقوه نامربوطی ایجاد میکنند و به طور بالقوه میتوانند نتایج شما را خراب کنند. علاوه بر این، باید بررسی کنید که آیا تمام دادههای مربوطه را دارید: سوابق اغلب مفقود هستند. بسته به اینکه چگونه داده های خود را تجزیه و تحلیل می کنید، ممکن است مشکل ایجاد کند یا خیر. برخی از روشهای تجزیه و تحلیل اجازه دادههای از دست رفته را میدهند در حالی که الگوریتمهای دیگر در صورت از دست رفتن دادهها با مشکل مواجه میشوند.
داده های از دست رفته جمعیت شما را محدود می کند. به علاوه، احتمال واقعی وجود شباهتهای مشترک بین افرادی که دادههایشان گم شده است وجود دارد. به عنوان مثال، اگر یک بخش هنوز از یک سیستم مدیریت عملکرد منسوخ استفاده می کند که سؤالات خاصی را حذف می کند، به این معنی است که شما اطلاعات مربوط به همه افراد شاغل در آن بخش را ندارید. این می تواند به طور جدی نتایج شما را به سمت سایر بخش ها منحرف کند و تعمیم پذیری نتایج را تهدید کند.
این یک چک لیست عملی با شش مرحله برای پاکسازی داده است:
- بررسی کنید که آیا داده ها به روز هستند.
- شناسه های منحصر به فرد تکرار شونده را بررسی کنید. برخی افراد بیش از یک سمت دارند. سیستم ها اغلب رکوردهای جداگانه ای برای هر موقعیت ایجاد می کنند. بنابراین این افراد در نهایت چندین رکورد در یک پایگاه داده دارند. بسته به موقعیت، این رکوردها ممکن است فشرده شوند.
- برچسب های داده را در چندین فیلد و مجموعه داده های ادغام شده بررسی کنید و ببینید آیا همه داده ها مطابقت دارند یا خیر.
- شمارش مقادیر از دست رفته زمانی که مقادیر گمشده بیش از حد در بخشهای خاصی از سازمان نمایش داده میشوند، ممکن است نتایج شما را منحرف کنند. این را در مثال قبلی دیدیم. علاوه بر این، تجزیه و تحلیل با مقادیر زیاد از دست رفته (یعنی داده های ناکافی) خطر نادرست شدن را دارد. این همچنین بر تعمیم پذیری نتایج شما تأثیر می گذارد.
- نقاط پرت عددی را بررسی کنید. آمار توصیفی و مقادیر چندک ها را محاسبه کنید. اینها شما را قادر می سازد تا مقادیر پرت بالقوه را محاسبه کنید. مقادیر حداقل و حداکثر نقطه شروع خوبی هستند.
علاوه بر این، می توانید محدوده بین چارکی را محاسبه کنید. می توانید این کار را با ضرب اختلاف بین کوانتیل 3 (Q3) و Q1 در 1.5 انجام دهید. نتیجه را می توان به Q3 اضافه کرد و از Q1 کم کرد. مقادیر خارج از این محدوده به صورت پرت فرض می شوند. این مقاله ویکیپدیا نحوه انجام این کار را با جزئیات بیشتر توضیح میدهد. - خروجی داده معتبر را تعریف کنید و تمام مقادیر داده نامعتبر را حذف کنید. این برای همه داده ها مفید است. داده های کاراکتر به وضوح تعریف شده است. به عنوان مثال، جنسیت با M یا F تعریف می شود. این مقادیر داده های معتبر هستند. هر مقدار دیگر نامعتبر فرض می شود. این داده ها را می توان به راحتی برای بازرسی پرچم گذاری کرد.
داده های عددی اغلب در محدوده محدود هستند (به عنوان مثال سن کار بین 15 تا 100 سال است). داده های عددی که خارج از محدوده از پیش تعریف شده قرار می گیرند را می توان به همین ترتیب پرچم گذاری کرد.
با استفاده از این راهنما می توانید بیشتر ناسازگاری های داده های خود را پیدا کنید. نکته: همیشه نگاهی دوباره به دادههای تمیز خود بیندازید، ممکن است چیزی را که از دست دادهاید متوجه شوید. موفق باشید!
دیدگاهتان را بنویسید