ضریب ساختاری در رگرسیون چندگانه
پیش نوشت 1: چند روز پیش به طور عجیبی چند تا از داوطلبین آزمون دکتری علوم اجتماعی با من درباره دوره آمار برای آزمون ورودی دکتری علوم اجتماعی با من تماس گرفتند. اینکار بچه ها باعث شد که وقتی بگذارم و سئوالات آمار دکتری رشته علوم اجتماعی را با دقت بررسی کنم.
اینکه چه مباحثی در درس آمار در آزمون دکتری این رشته مطرح می شود را می گذارم در یک مبحث مفصل تری صحبت خواهم کرد. با اینحال، باید بگویم که سئوالات اما، یک سئوال در آزمون دکتری علوم اجتماعی مطرح شده بود که خواستم در این نوشته مفصل در مورد آن با هم صحبت کنیم.
پیش نوشت 2: سئوالات دکتری در رشته علوم اجتماعی اغلب از مبحث رگرسیون به بعد مطرح می شود و مبحث رگرسیون پایه ای ترین مبحث برای داوطلبین این رشته است. لذا اگر به طور جدی قصد شرکت و موفقیت در آزمون دکتری رشته علوم اجتماعی را دارید، در ابتدا سعی کنید روی مبحث رگرسیون بشدت مسلط باشید.
سئوال 75 آزمون دکتری علوم اجتماعی 1400
در رگرسیون چندگانه منظور از ضریب ساختاری چیست؟
برای اینکه به این سئوال پاسخ دهم، لازم می دانم مقداری به عقب بر گشته و بعضی نکات را با هم مرور کنیم.
تحقیقات همبستگی را در سه طبقه تقسیم می کنند:
الف) همبستگی دو متغیری: هدف از این نوع پژوهش ها بررسی رفتار دو متغیر در مقابل هم است. همبستگی میزان هم تغییری دو متغیر را مورد بررسی قرار می دهد. در این نوع از تحقیقات بدنبال آن هستیم که ببینیم آیا همبستگی بین دو متغیر معنی دار است یا نه. و صد البته که بدنبال رابطه علت و معلولی نیستیم که آن شرایط خاص خود را دارد و همبستگی فقط شرط لازم برای یک رابطه علّی است.
ب) رگرسیون: تحقیقات رگرسیون با دو هدف انجام می شود. هدف اول اینستکه بتوانیم متغیر وابسته (ملاک) را بر اساس متغیر یا متغیرهای مستقل (پیش بین) پیش بینی کنیم و هدف دوم اینکه، بررسی کنیم هر کدام از متغیرهای مستقل تا چه اندازه روی متغیر وابسته موثر است.
ج) تحلیل مدل: رابطه بین متغیرها را در یک مدل صرفا نمی توان به متغیرهای مستقل و وابسته تقسیم کرد. مدل ممکن است شامل تعدادی متغیر میانجی باشد و یا متغیرها علاوه بر اثر روی متغیر وابسته روی هم نیز اثر داشته باشند. لذا، دسته سوم از تحقیقات همبستگی به این از مدل ها می پردازد که معمولا از روشهای تحلیل مسیر و یا معادلات ساختاری برای تحلیل آنها استفاده می کنیم.
اما در تحلیل این تست می خواهیم بطور تخصصی به مبحث رگرسیون و آنهم رگرسیون چندگانه بپردازیم.
در یک تقسیم بندی ساده رگرسیون خطی را به دو دسته رگرسیون یک متغیره و رگرسیون چندگانه می توان تقسیم کرد. در رگرسیون یک متغیره می خواهیم متغیر ملاک یا وابسته را صرفا بر اساس یک متغیر پیش بین یا مستقل پیش بینی کنیم. اما، از آنجا که پدیده ها غالبا چند بعدی هستند، محققان ترجیح می دهند برای اینکار از رگرسیون چندگانه استفاده کنند و یک متغیر وابسته را به کمک چند متغیر مستقل پیش بینی کنند. پس، می توان گفت که رگرسیون چندگانه در واقع فرم کاملتری از رگرسیون خطی ساده یک متغیره است.
ضرایب رگرسیون چندگانه
مفاهیم و پدیده ها در علوم اجتماعی با عوامل متعددی تعیین می شوند که موجب می شود محققین برای توصیف و پیش بینی آنها لازم است از بیش از یک متغیر پیش بین استفاده کنند. مثلا، در علوم اجتماعی، مفهوم رضایت شغلی را در نظر بگیرید. برای توصیف آن باید از متغیرهای مستقلی مانند سطح درآمد، فرضت های پیشرفت شغلی، تعادل کار و زندگی و عوامل محیط کار را در نظر گرفت. این متغیرها هم باید قادر به توصیف رضایت شغلی باشند و هم بتوانند این متغیر را تبیین کنند.
رگرسیون چندگانه نیز مانند رگرسیون خطی ساده دو نوع معادله پیش بینی که یکی به صورت نمره خام و دیگری به صورت نمره استاندارد است تولید می کند. در هر دوی این مدل ها از روش متداول حداقل مجذورات (Ordinary least squares) استفاده می شود. وقتی می گوئیم مدل برای بهترین پیش بینی متغیر وابسته بر داده ها برازش یافته است، منظورمان اینستکه مجموع مجذور خطاها کمینه (حداقل) شده است.
معادله های رگرسیون
همانطور که ذکر شد، همانند رگرسیون خطی ساده، معادله رگرسیون چندگانه، هم بصورت نمره های خام و هم بصورت نمره های استاندارد ساخته می شود، که در ادامه آنها را مورد بررسی قرار می دهیم.
معادله رگرسیون با نمرات خام
معادله نمره خام رگرسیون چندگانه گسترش معادله نمره خام مربوط به رگرسیون خطی ساده است. این معادله در حالت کلی بصورت زیر است:
در این معادله، y متغیر ملاک (وابسته) و b ها متغیرهای مستقل یا پیش بین هستند. ضرایب رگرسیون هستند. به این ضرایب، ضرایب رگرسیون سهمی یا تفکیکی (Partial regression coefficient) نیز می گویند.
چرا به این ضرایب، ضرایب سهمی می گوئیم؟
دلیل این نامگذاری آنستکه هر کدام از این ضرایب سهم متغیر مربوط به خود را روی متغیر وابسته منعکس می کنند؛ البته، به شرط آنکه سایر متغیرهای مدل رگرسیونی ثابت در نظر گرفته شود.
هر کدام از متغیرهای معادله رگرسیون مقیاس اندازه گیری متفاوتی دارند و به شکل نمره خام (غیر استاندارد شده) هستند. نکته مهم همینجاست. چون، متغیرها با مقیاس های مختلف اندازه گیری می شوند، در نتیجه نمی توان از روی مقدار ضرایب مشخص کرد که در این مدل کدام متغیر مستقل، پیش بینی کننده قوی تری است.
پس معادله رگرسیون با نمرات خام را فقط برای پیش بینی می توان استفاده کرد و این معادله در تبیین اثر هر کدام از متغیرهای مستقل نقش ضعیفی می تواند ایفا کند.
معادله رگرسیون با نمرات استاندارد
اگر قبل از محاسبه معادله رگرسیون ابتدا نمرات را استاندارد کنیم، معادله رگرسیون بدست آمده، معادله با نمرات استاندارد خواهد بود.
استاندارد سازی باعث می شود که متغیرها واحد اندازه گیری نداشته باشند و مقیاس همه آنها یکسان باشد.
معادله رگرسیون استاندارد بصورت زیر است:
ضرایب بتا مانند ضرایب b در رگرسیون غیر استاندارد، ضرایب سهمی و تفکیکی نامیده می شود.
ضریب استاندارد شده در رگرسیون چندگانه، ضریبی است که به ما نشان میدهد که اگر یک انحراف معیار (Standard Deviation) در متغیر مستقل رخ دهد، چه مقدار تغییر در متغیر وابسته (بر حسب انحراف معیار) رخ خواهد داد. این ضرایب مقیاس واحدهای اندازهگیری را حذف میکنند و به این ترتیب مقایسه تأثیرات متغیرها بر متغیر وابسته آسانتر میشود.
قبل از ادامه بحث دو سئوال ابتدایی را با هم بررسی کنیم.
سئوال 1: در معادله رگرسیون استاندارد شده b0 چی شد؟
در معادله رگرسیون استاندارد شده میانگین تمام متغیرها صفر و انحراف معیار همه آنها یک است. این مسئله باعث می شود که معادله رگرسیون استاندارد شده عرض از مبداء نداشته باشد. پس، معادله استاندارد شده هیچگاه عرض از مبداء یا ضریب ثابت ندارد یا در آن صفر است.
سئوال 2: آیا ضرایب بتا همیشه اعدادی کوچکتر از یک و اعشاری هستند؟
نکته: به طور معمول ضرایب بتا در رگرسیون استاندارد اعدادی اعشاری هستند؛ ولی، اگر متغیرهای پیش بین به اندازه کافی با یکدیگر همبسته باشند، این ضرایب ممکن است از 1+ و 1- هم فراتر برود.
تفسیر ضرایب استاندارد شده
ضرایب استاندارد شده به ما میگویند که به ازای یک تغییر یک انحراف معیار در متغیر مستقل، متغیر وابسته چند انحراف معیار تغییر خواهد کرد. ضرایب استاندارد شده به دلیل حذف واحدهای اندازهگیری قابل مقایسه هستند.
مثال
فرض کنید مدلی داریم که تأثیر میزان تحصیلات (تحصیلات در سالها) و تجربه کاری (تجربه در سالها) را بر درآمد سالانه افراد (در هزار دلار) بررسی میکند. اگر بخواهیم از ضرایب استاندارد شده برای تفسیر این مدل استفاده کنیم، فرض کنید که نتایج رگرسیون به صورت زیر است:
در اینجا، Z1 نماینده تحصیلات و Z2 نماینده تجربه کاری است. ضرایب 0.5 و 0.3 ضرایب استاندارد شده هستند.
ضریب استاندارد شده 0.5 برای Z1 نشان میدهد که اگر تحصیلات فرد به اندازه یک انحراف معیار افزایش یابد، درآمد سالانه او به اندازه 0.5 انحراف معیار افزایش خواهد یافت.
ضریب استاندارد شده 0.3 برای Z2 نشان میدهد که اگر تجربه کاری فرد به اندازه یک انحراف معیار افزایش یابد، درآمد سالانه او به اندازه 0.3 انحراف معیار افزایش خواهد یافت.
از اینجا میتوان نتیجه گرفت که تأثیر تحصیلات بر درآمد سالانه بیش از تأثیر تجربه کاری است، چرا که ضریب استاندارد شده مربوط به تحصیلات (0.5) بزرگتر از ضریب تجربه کاری (0.3) است.
دقت کنید که ضرایب رگرسیون خام چنین تفسیری ندارد و بر اساس آنها تاثیر دو متغیر را با هم مقایسه کنیم.
ضرایب ساختاری
می دانیم که بین مقدار پیش بینی برای متغیرهای وابسته (ملاک) و مقدار واقعی تفاوت وجود دارد. ضریب ساختاری، همبستگی دو متغیری یک متغیر مستقل خاص و نمره پیش بینی شده (نه نمره واقعی) است. برای هر متغیر مستقل یا پیش بین یک ضریب ساختاری می توانیم محاسبه کنیم. هر چه ضریب ساختاری برای یک متغیر مستقل بزرگتر باشد، نشان دهنده آنستکه آن متغیر انعکاس قوی تر (تاثیر قوی تر) روی متغیر وابسته و تبیین آن دارد.
ضریب r همبستگی بین متغیر مستقل و متغیر وابسته واقعی است و R همبستگی چندگانه مدل یا معادله رگرسیون است.