تحلیل رگرسیون یکی از پرکاربردترین مدل ها برای تحلیل داده ها است. در این وبلاگ، نحوه عملکرد تحلیل رگرسیون را با استفاده از چند مثال عملی و یک مورد تجاری واقعی توضیح خواهم داد.
حداقل مربعات
تحلیل رگرسیون چگونه کار می کند؟ برای درک این موضوع، باید مفهوم حداقل مربعات را درک کنید. حداقل مربعات تکنیکی است که فاصله بین یک منحنی و نقاط داده آن را کاهش می دهد، همانطور که در مثال زیر مشاهده می شود.
جیک در 20 سالگی دستمزد خود را روی یک تکه کاغذ ثبت کرد – چیزی که هر 5 سال یک بار تکرار می کرد. نمودار پرداخت جیک 20 سال بعد اینگونه به نظر می رسد:
در این پراکندگی ساده می بینید که جیک در 20 سالگی 2500 دلار درآمد داشت و اکنون در 40 سالگی 4700 دلار درآمد دارد.
وقتی جیک 40 ساله میخواست پیشبینی کند که تا 45 سالگی چقدر درآمد دارد، سادهترین راه این بود که خطی بکشد که از اولین و آخرین نقطه نمودار او عبور کند، مانند این:
به نظر میرسد این خط با مدل مناسب است و جیک را قادر میسازد تا تخمینی تقریبی از میزان درآمدش در 45 سالگی انجام دهد.
تکنیک حداقل مربعات فاصله مجذور بین تمام نقاط داده را محاسبه می کند. به عنوان مثال، خط تخمین جیک و نقاط داده در سن 25، 30، و 35 سالگی کمی متفاوت است و به ترتیب 230، 120 و 380 دلار تفاوت دارند (فلش های آبی). برای یافتن حداقل مربعات، باید مجموع مربع های این خط را محاسبه کنید:
230 2 + 120 2 + 380 2 = 211700
هدف بعدی یافتن حداقل مربعات است. با برازش خط به پنج نقطه داده نزدیکتر، مجموع مربعات کمتر می شود و خط رگرسیون برازش بهتری خواهد داشت. در واقع بهترین تناسب مجموع مربع های 192000 خواهد بود. با استفاده از نرمافزارهایی مانند SPSS، R یا Excel، میتوانیم این تخمین را انجام دهیم و خطی را تولید کنیم که بهترین تناسب با دادهها را داشته باشد. خط به این شکل است:
در این مدل فاصله بین نقاط داده منفرد و خط در پایین ترین نقطه خود قرار دارد. به عبارت دیگر: این خط دارای حداقل مربعات است.
تحلیل رگرسیون خطی
در مثال قبلی از تکنیک حداقل مربعات برای ایجاد یک منحنی خطی استفاده کردیم. این تکنیک رایج ترین تکنیک مورد استفاده در رگرسیون خطی است.
رگرسیون معیاری است بین رابطه دو متغیر. ما در مثال جیک از یک منحنی خطی (یک خط) استفاده کردیم، بنابراین یک رگرسیون خطی.
با استفاده از این خط رگرسیون، می توانیم تخمین بزنیم که انتظار داریم جیک در یک سن معین چقدر درآمد داشته باشد. خط رگرسیون جیک فرمول زیر را دارد:
پرداخت = 320 + 112 * سن
به عبارت دیگر، وقتی جیک 20 ساله است، فرمول رگرسیون تخمین می زند که او درآمد خواهد داشت:
320 + 112 * 20 = 2560 دلار
این تقریباً نزدیک به درآمد واقعی او 2500 دلار است! جیک در سن 45 سالگی تقریباً می تواند انتظار کسب درآمد 5360 دلاری را داشته باشد.
نکته جانبی : منحنی های رگرسیون همیشه خطی نیستند. شما همچنین می توانید خطوط نمایی، خطوط لگاریتمی یا انواع دیگر خطوط را به تناسب داده های خود اعمال کنید. شما حتی می توانید این کار را به راحتی در اکسل انجام دهید! ویدیوی زیر را برای توضیح کوتاه بررسی کنید.
تحلیل رگرسیون گام به گام
در تحلیل رگرسیون قبلی، ما فقط از متغیر «سن» برای توضیح افزایش در پرداخت استفاده کردیم. رگرسیون گام به گام تکنیکی برای ساخت یک مدل رگرسیونی با اضافه کردن چندین متغیر مختلف یک به یک است.
هنگامی که یک متغیر جدید اضافه می شود، انتظار دارید که قدرت توضیحی مدل افزایش یابد. اگر این اتفاق نیفتد، متغیر قدرت توضیحی بیشتری اضافه نمی کند و بنابراین می توان آن را حذف کرد.
تکنیک های مختلفی برای اعمال رگرسیون گام به گام وجود دارد، اما ما بر روی ساده ترین شکل تمرکز خواهیم کرد: رگرسیون گام به گام ساده.
چند سال پیش برای یک شرکت حقوقی بزرگ در هلند تحقیقی انجام دادم تا بفهمم چه چیزی باعث تلاشهای نوآوری داخلی شده است. من داده هایی از رفتار نوآورانه افراد، جنسیت، سن، درگیری و همچنین امتیازاتی که برای خود مدیریت شغلی به خود داده اند به دست آوردم. خودمدیریتی شغلی میزان مدیریت فعالانه کارمندان در مشاغل خود را اندازه گیری می کند. ویژگی های خود مدیریتی شغلی، رفتارهایی است که باعث دیده شدن آنها در شرکتشان و رفتار شبکه ای با دیگران خارج از شرکت می شود. این رفتارها برای پیشرفت شغلی شما بسیار مفید است.
در مدل بعدی این متغیرها را یکی یکی (به صورت مرحله ای) اضافه می کنم.
مدل | |||
ب | اهمیت | ||
1 | جنسیت | -0.72 | 0.00 |
2 | جنسیت | -0.48 | 0.03 |
خود مدیریتی شغلی | 0.67 | 0.00 | |
3 | جنسیت | -0.49 | 0.03 |
خود مدیریتی شغلی | 0.66 | 0.00 | |
نامزدی | 0.08 | 0.43 |
ستون سمت چپ سه مدل مختلف را نشان می دهد. متغیرهای جنسیت ، خود مدیریتی شغلی و مشارکت گام به گام به مدل اضافه می شوند. ستون B ضریب بتای غیر استاندارد است (که نشان می دهد تأثیر چقدر قوی است: هر چه بالاتر، بهتر) و ستون Significance چیزی در مورد سطح معنی داری می گوید (عددی کوچکتر از 0.05 معمولاً معنی دار در نظر گرفته می شود).
همانطور که در مدل 1 می بینید، جنسیت یک پیش بینی کننده بسیار مهم نوآوری است – سطح معنی داری 0.00 است، به این معنی که جنسیت پیش بینی کننده معتبری برای رفتار نوآورانه است.
خود مدیریت شغلی (CSM) به مدل 2 اضافه شده است. توجه داشته باشید که وقتی CSM اضافه میشود، تأثیر جنسیت اندکی کاهش مییابد زیرا CSM برخی از واریانسهای رفتار نوآورانه را توضیح میدهد که جنسیت در زمانی که CSM به مدل اضافه نشد توضیح میدهد.
اما وقتی Engagement به مدل 3 اضافه می شود، ارزش توضیحی زیادی ندارد و همچنین قابل توجه نیست. این بدان معناست که سطوح بالای تعامل منجر به رفتارهای نوآورانه تر در این کارکنان نمی شود.
با انجام این تحلیل، شرکت یاد گرفت که برای نوآوری بیشتر، باید افرادی را استخدام کند که فعالانهتر شغل خود را مدیریت کنند. این افراد مایل به ترویج پروژه هایی هستند که روی آنها کار می کنند و نتورکرهای فعالی هستند که در ایجاد ایده های جدید و نوآورانه بسیار کمک کننده است. این شرکت همچنین متوجه شد که صرف پول برای بهبود تعامل، اقدام موثری برای نوآوری بیشتر نیست .
البته، چند معیار دیگر برای ارزیابی یک مدل رگرسیون با متغیرهای متعدد وجود دارد. کافی است بگوییم که با نگاهی به این جدول میتوان دریافت که تعامل در حال حاضر به ما در توضیح رفتار نوآورانه کمک نمیکند.
واقعیت جالب نه 1: من انتظار داشتم که سن بر رفتار نوآورانه تأثیر بگذارد و بنابراین هم سن و هم جنسیت را به مدل 1 اضافه کردم. اما سن به طور خودکار از مدل حذف شد، زیرا کوچکترین اهمیتی نداشت!
واقعیت جالب نه. 2: جنسیت واریانس زیادی را در رفتارهای نوآورانه توضیح میدهد، به طوری که مردان رفتارهای نوآورانهتری را نسبت به زنان گزارش میکنند. اثر مشابهی توسط میلوارد و فریمن (2002) یافت شد. در مطالعه خود، زنان خطر انتقاد، خطر عدم دریافت اعتبار برای یک ایده خاص و خطر شکست را به عنوان موانعی برای نوآوری گزارش کردند – این موارد توسط مردان گزارش نشد.
علاوه بر این، این شرکت خاص ویژگی های یک شبکه پسران قدیمی را نشان داد: اکثر شرکای شرکت حقوقی مرد بودند. این شرکا از اختیارات بسیار بیشتری برخوردار بودند و بنابراین آزاد بودند که به دنبال تلاش های نوآورانه بروند، در حالی که جمعیت جوان تر (که اکثریت آنها زن هستند) کمتر قادر به انجام این کار بودند.
انجام رگرسیون گام به گام در اکسل بسیار سخت است. ابزاری مانند R یا SPSS برای این تکنیک بسیار کاربردی تر است.
امیدوارم این مرور مختصر تحلیل رگرسیون را دوست داشته باشید. البته، چیزهای بیشتری نسبت به آنچه در این مقاله نوشتم وجود دارد، اما من متقاعد شدهام که درک اصول اولیه یک تکنیک به شما کمک میکند تا قدرت و پتانسیل تجزیه و تحلیل افراد مبتنی بر داده را درک کنید.
اکنون که اصول اولیه تجزیه و تحلیل رگرسیون را می دانید، باید مقاله ما را در مورد معیارهای منابع انسانی بررسی کنید: ممکن است ایده های جدیدی در مورد نحوه ارتباط و تجزیه و تحلیل معیارهای مختلف به شما ارائه دهد.
مرجع
Millward, LJ, & Freeman, H. (2002). انتظارات نقش به عنوان محدودیت برای نوآوری: مورد مدیران زن مجله پژوهشی ارتباطات، 14 (1)، 93-109.
دیدگاهتان را بنویسید