تکنیک های تجزیه و تحلیل: تجزیه و تحلیل رگرسیون

تحلیل رگرسیون یکی از پرکاربردترین مدل ها برای تحلیل داده ها است. در این وبلاگ، نحوه عملکرد تحلیل رگرسیون را با استفاده از چند مثال عملی و یک مورد تجاری واقعی توضیح خواهم داد.

حداقل مربعات

تحلیل رگرسیون چگونه کار می کند؟ برای درک این موضوع، باید مفهوم حداقل مربعات را درک کنید. حداقل مربعات تکنیکی است که فاصله بین یک منحنی و نقاط داده آن را کاهش می دهد، همانطور که در مثال زیر مشاهده می شود.

جیک در 20 سالگی دستمزد خود را روی یک تکه کاغذ ثبت کرد – چیزی که هر 5 سال یک بار تکرار می کرد. نمودار پرداخت جیک 20 سال بعد اینگونه به نظر می رسد:

hranalytics-scatterplot-least-squareshranalytics-scatterplot-least-squares
در این پراکندگی ساده می بینید که جیک در 20 سالگی 2500 دلار درآمد داشت و اکنون در 40 سالگی 4700 دلار درآمد دارد.

وقتی جیک 40 ساله می‌خواست پیش‌بینی کند که تا 45 سالگی چقدر درآمد دارد، ساده‌ترین راه این بود که خطی بکشد که از اولین و آخرین نقطه نمودار او عبور کند، مانند این:

regression-scatterplot-with-lineregression-scatterplot-with-line

به نظر می‌رسد این خط با مدل مناسب است و جیک را قادر می‌سازد تا تخمینی تقریبی از میزان درآمدش در 45 سالگی انجام دهد.

تکنیک حداقل مربعات فاصله مجذور بین تمام نقاط داده را محاسبه می کند. به عنوان مثال، خط تخمین جیک و نقاط داده در سن 25، 30، و 35 سالگی کمی متفاوت است و به ترتیب 230، 120 و 380 دلار تفاوت دارند (فلش های آبی). برای یافتن حداقل مربعات، باید مجموع مربع های این خط را محاسبه کنید:

230 2 + 120 2 + 380 2 = 211700

هدف بعدی یافتن حداقل مربعات است. با برازش خط به پنج نقطه داده نزدیکتر، مجموع مربعات کمتر می شود و خط رگرسیون برازش بهتری خواهد داشت. در واقع بهترین تناسب مجموع مربع های 192000 خواهد بود. با استفاده از نرم‌افزارهایی مانند SPSS، R یا Excel، می‌توانیم این تخمین را انجام دهیم و خطی را تولید کنیم که بهترین تناسب با داده‌ها را داشته باشد. خط به این شکل است:

regression-line-least-squaresregression-line-least-squares

در این مدل فاصله بین نقاط داده منفرد و خط در پایین ترین نقطه خود قرار دارد. به عبارت دیگر: این خط دارای حداقل مربعات است.

تحلیل رگرسیون خطی

در مثال قبلی از تکنیک حداقل مربعات برای ایجاد یک منحنی خطی استفاده کردیم. این تکنیک رایج ترین تکنیک مورد استفاده در رگرسیون خطی است.

رگرسیون معیاری است بین رابطه دو متغیر. ما در مثال جیک از یک منحنی خطی (یک خط) استفاده کردیم، بنابراین یک رگرسیون خطی.

با استفاده از این خط رگرسیون، می توانیم تخمین بزنیم که انتظار داریم جیک در یک سن معین چقدر درآمد داشته باشد. خط رگرسیون جیک فرمول زیر را دارد:

پرداخت = 320 + 112 * سن

به عبارت دیگر، وقتی جیک 20 ساله است، فرمول رگرسیون تخمین می زند که او درآمد خواهد داشت:

320 + 112 * 20 = 2560 دلار

این تقریباً نزدیک به درآمد واقعی او 2500 دلار است! جیک در سن 45 سالگی تقریباً می تواند انتظار کسب درآمد 5360 دلاری را داشته باشد.

نکته جانبی : منحنی های رگرسیون همیشه خطی نیستند. شما همچنین می توانید خطوط نمایی، خطوط لگاریتمی یا انواع دیگر خطوط را به تناسب داده های خود اعمال کنید. شما حتی می توانید این کار را به راحتی در اکسل انجام دهید! ویدیوی زیر را برای توضیح کوتاه بررسی کنید.

تحلیل رگرسیون گام به گام

در تحلیل رگرسیون قبلی، ما فقط از متغیر «سن» برای توضیح افزایش در پرداخت استفاده کردیم. رگرسیون گام به گام تکنیکی برای ساخت یک مدل رگرسیونی با اضافه کردن چندین متغیر مختلف یک به یک است.

هنگامی که یک متغیر جدید اضافه می شود، انتظار دارید که قدرت توضیحی مدل افزایش یابد. اگر این اتفاق نیفتد، متغیر قدرت توضیحی بیشتری اضافه نمی کند و بنابراین می توان آن را حذف کرد.

تکنیک های مختلفی برای اعمال رگرسیون گام به گام وجود دارد، اما ما بر روی ساده ترین شکل تمرکز خواهیم کرد: رگرسیون گام به گام ساده.

چند سال پیش برای یک شرکت حقوقی بزرگ در هلند تحقیقی انجام دادم تا بفهمم چه چیزی باعث تلاش‌های نوآوری داخلی شده است. من داده هایی از رفتار نوآورانه افراد، جنسیت، سن، درگیری و همچنین امتیازاتی که برای خود مدیریت شغلی به خود داده اند به دست آوردم. خودمدیریتی شغلی میزان مدیریت فعالانه کارمندان در مشاغل خود را اندازه گیری می کند. ویژگی های خود مدیریتی شغلی، رفتارهایی است که باعث دیده شدن آنها در شرکتشان و رفتار شبکه ای با دیگران خارج از شرکت می شود. این رفتارها برای پیشرفت شغلی شما بسیار مفید است.

در مدل بعدی این متغیرها را یکی یکی (به صورت مرحله ای) اضافه می کنم.

مدل
ب اهمیت
1 جنسیت -0.72 0.00
2 جنسیت -0.48 0.03
خود مدیریتی شغلی 0.67 0.00
3 جنسیت -0.49 0.03
خود مدیریتی شغلی 0.66 0.00
نامزدی 0.08 0.43

ستون سمت چپ سه مدل مختلف را نشان می دهد. متغیرهای جنسیت ، خود مدیریتی شغلی و مشارکت گام به گام به مدل اضافه می شوند. ستون B ضریب بتای غیر استاندارد است (که نشان می دهد تأثیر چقدر قوی است: هر چه بالاتر، بهتر) و ستون Significance چیزی در مورد سطح معنی داری می گوید (عددی کوچکتر از 0.05 معمولاً معنی دار در نظر گرفته می شود).

همانطور که در مدل 1 می بینید، جنسیت یک پیش بینی کننده بسیار مهم نوآوری است – سطح معنی داری 0.00 است، به این معنی که جنسیت پیش بینی کننده معتبری برای رفتار نوآورانه است.

خود مدیریت شغلی (CSM) به مدل 2 اضافه شده است. توجه داشته باشید که وقتی CSM اضافه می‌شود، تأثیر جنسیت اندکی کاهش می‌یابد زیرا CSM برخی از واریانس‌های رفتار نوآورانه را توضیح می‌دهد که جنسیت در زمانی که CSM به مدل اضافه نشد توضیح می‌دهد.

اما وقتی Engagement به مدل 3 اضافه می شود، ارزش توضیحی زیادی ندارد و همچنین قابل توجه نیست. این بدان معناست که سطوح بالای تعامل منجر به رفتارهای نوآورانه تر در این کارکنان نمی شود.

با انجام این تحلیل، شرکت یاد گرفت که برای نوآوری بیشتر، باید افرادی را استخدام کند که فعالانه‌تر شغل خود را مدیریت کنند. این افراد مایل به ترویج پروژه هایی هستند که روی آنها کار می کنند و نتورکرهای فعالی هستند که در ایجاد ایده های جدید و نوآورانه بسیار کمک کننده است. این شرکت همچنین متوجه شد که صرف پول برای بهبود تعامل، اقدام موثری برای نوآوری بیشتر نیست .

البته، چند معیار دیگر برای ارزیابی یک مدل رگرسیون با متغیرهای متعدد وجود دارد. کافی است بگوییم که با نگاهی به این جدول می‌توان دریافت که تعامل در حال حاضر به ما در توضیح رفتار نوآورانه کمک نمی‌کند.

واقعیت جالب نه 1: من انتظار داشتم که سن بر رفتار نوآورانه تأثیر بگذارد و بنابراین هم سن و هم جنسیت را به مدل 1 اضافه کردم. اما سن به طور خودکار از مدل حذف شد، زیرا کوچکترین اهمیتی نداشت!

واقعیت جالب نه. 2: جنسیت واریانس زیادی را در رفتارهای نوآورانه توضیح می‌دهد، به طوری که مردان رفتارهای نوآورانه‌تری را نسبت به زنان گزارش می‌کنند. اثر مشابهی توسط میلوارد و فریمن (2002) یافت شد. در مطالعه خود، زنان خطر انتقاد، خطر عدم دریافت اعتبار برای یک ایده خاص و خطر شکست را به عنوان موانعی برای نوآوری گزارش کردند – این موارد توسط مردان گزارش نشد.

علاوه بر این، این شرکت خاص ویژگی های یک شبکه پسران قدیمی را نشان داد: اکثر شرکای شرکت حقوقی مرد بودند. این شرکا از اختیارات بسیار بیشتری برخوردار بودند و بنابراین آزاد بودند که به دنبال تلاش های نوآورانه بروند، در حالی که جمعیت جوان تر (که اکثریت آنها زن هستند) کمتر قادر به انجام این کار بودند.

انجام رگرسیون گام به گام در اکسل بسیار سخت است. ابزاری مانند R یا SPSS برای این تکنیک بسیار کاربردی تر است.

امیدوارم این مرور مختصر تحلیل رگرسیون را دوست داشته باشید. البته، چیزهای بیشتری نسبت به آنچه در این مقاله نوشتم وجود دارد، اما من متقاعد شده‌ام که درک اصول اولیه یک تکنیک به شما کمک می‌کند تا قدرت و پتانسیل تجزیه و تحلیل افراد مبتنی بر داده را درک کنید.

اکنون که اصول اولیه تجزیه و تحلیل رگرسیون را می دانید، باید مقاله ما را در مورد معیارهای منابع انسانی بررسی کنید: ممکن است ایده های جدیدی در مورد نحوه ارتباط و تجزیه و تحلیل معیارهای مختلف به شما ارائه دهد.

مرجع

Millward, LJ, & Freeman, H. (2002). انتظارات نقش به عنوان محدودیت برای نوآوری: مورد مدیران زن مجله پژوهشی ارتباطات، 14 (1)، 93-109.

اریک ون ولپن موسس و رئیس AIHR است. او در شکل‌دهی شیوه‌های مدرن منابع انسانی با آوردن نوآوری‌های تکنولوژیک در زمینه منابع انسانی متخصص است. او به‌عنوان یک رهبر فکری HR به رسمیت شناخته می‌شود و مرتباً در مورد موضوعاتی مانند People Analytics، HR دیجیتال و آینده کار صحبت می‌کند.

منبع


برچسب‌ها:

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *