تجزیه و تحلیل رگرسیون چندگانه با استفاده از SPSS Statistics
معرفی
رگرسیون چندگانه (Multiple regression) بسط رگرسیون خطی ساده است. زمانی استفاده می شود که بخواهیم مقدار یک متغیر را بر اساس مقدار دو یا چند متغیر دیگر پیش بینی کنیم. متغیری که می خواهیم پیش بینی کنیم، متغیر وابسته (یا گاهی اوقات، متغیر نتیجه، هدف یا معیار) نامیده می شود. متغیرهایی که برای پیش بینی مقدار متغیر وابسته استفاده می کنیم، متغیرهای مستقل (یا گاهی اوقات، متغیرهای پیش بینی کننده، توضیحی یا رگرسیون) نامیده می شوند.
به عنوان مثال، می توانید از رگرسیون چندگانه برای درک اینکه آیا نمره امتحان را می توان بر اساس زمان مرور درسی، اضطراب امتحان، حضور در سخنرانی و جنسیت پیش بینی کرد یا خیر، استفاده کنید. متناوبا، میتوانید از رگرسیون چندگانه برای درک اینکه آیا میتوان مصرف روزانه سیگار را بر اساس مدت زمان مصرف سیگار، سن شروع سیگار کشیدن، نوع سیگار، درآمد و جنسیت پیشبینی کرد یا خیر، استفاده کرد.
رگرسیون چندگانه همچنین به شما این امکان را میدهد که تناسب کلی (overall fit) مدل و سهم نسبی هر یک از پیشبینیکنندهها را در واریانس کل توضیح داده شده تعیین کنید. به عنوان مثال، ممکن است بخواهید بدانید که چه مقدار از تغییرات در نمره امتحان را می توان با زمان مرور درسی، اضطراب امتحان، حضور در سخنرانی و جنسیت «به طور کلی» و همچنین «سهم نسبی» هر متغیر مستقل در واریانس توضیح داد.
این آموزش به شما نحوه انجام رگرسیون چندگانه با استفاده از SPSS Statistics و همچنین تفسیر و گزارش نتایج این آزمون را نشان می دهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که دادههای شما باید رعایت کنند تا رگرسیون چندگانه به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
هنگامی که تصمیم میگیرید دادههای خود را با استفاده از رگرسیون چندگانه تجزیه و تحلیل کنید، بخشی از فرآیند شامل بررسی فرضیاتی است که نشان می دهد آیا داده های شما واقعاً با استفاده از رگرسیون چندگانه قابل تجزیه و تحلیل هستند یا نه؟. شما باید این کار را انجام دهید. زیرا استفاده از رگرسیون چندگانه تنها در صورتی مناسب است که دادههای شما از هشت فرضی که برای رگرسیون چندگانه لازم است تا نتیجه معتبری به شما بدهد، عبور کند. در عمل، بررسی این هشت فرض فقط کمی زمان بر است ولی در کل کار سختی نیست.
فرض شماره 1:
متغیر وابسته شما باید در مقیاس پیوسته اندازه گیری شود (یعنی متغیر فاصله ای (interval) یا نسبتی (ratio) است). نمونه هایی از متغیرهایی که این معیار را برآورده می کنند عبارتند از: زمان مرور درسی (اندازه گیری شده بر حسب ساعت)، هوش (اندازه گیری شده با استفاده از نمره IQ)، نمره امتحان (اندازه گیری از 0 تا 20)، وزن (اندازه گیری شده بر حسب کیلوگرم) و غیره.
فرض شماره 2:
شما دو یا چند متغیر مستقل دارید که می توانند پیوسته (مثلاً متغیر فاصله ای یا نسبتی) یا طبقه ای (categorical) (مثلاً یک متغیر ترتیبی یا اسمی) باشند. مونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 3 گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، سطح فعالیت بدنی (به عنوان مثال، 4 گروه: کم تحرک، کم، متوسط و بالاو غیره. اگر یکی از متغیرهای مستقل شما دوگانه (dichotomous) است و به عنوان یک متغیر تعدیل کننده (moderating variable) در نظر گرفته می شود، ممکن است نیاز باشد که یک تحلیل ناظر دوگانه (Dichotomous moderator analysis) را اجرا کنید.
فرض شماره 3:
شما باید از مشاهدات استقلال داشته باشید (به عنوان مثال، استقلال باقیمانده ها (independence of residuals))، که می توانید به راحتی با استفاده از آمار Durbin-Watson، که یک آزمون ساده برای اجرا با استفاده از SPSS Statistics است، بررسی کنید.
فرض شماره 4:
باید یک رابطه خطی بین (الف) متغیر وابسته و هر یک از متغیرهای مستقل شما، و (ب) متغیر وابسته و متغیرهای مستقل در مجموع وجود داشته باشد. در حالی که تعدادی راه برای بررسی این روابط خطی وجود دارد، پیشنهاد میکنیم با استفاده از SPSS Statistics، نمودارهای پراکندگی یا نقطه ای (scatterplots) و نمودارهای رگرسیون جزئی (partial regression plots) ایجاد کنید و سپس به صورت بصری این نمودارها را برای بررسی خطی بودن بررسی کنید. اگر رابطه نمایش داده شده در نمودارهای پراکندگی و نمودارهای رگرسیون جزئی شما خطی نیست، باید یک تحلیل رگرسیون غیرخطی انجام دهید یا داده های خود را “تبدیل” (transform) کنید، که می توانید با استفاده از SPSS Statistics انجام دهید.
فرض شماره 5:
داده های شما باید همسانی (homoscedasticity) را نشان دهند، جایی که واریانس ها در امتداد خط بهترین تناسب با حرکت در امتداد خط یکسان باقی می مانند. هنگامی که دادههای خود را تجزیه و تحلیل میکنید، باید باقیمانده های استیودنت شده (studentized residuals) را در برابر مقادیر پیشبینیشده غیراستاندارد رسم کنید.
فرض شماره 6:
داده های شما نباید چند خطی بودن (multicollinearity) را نشان دهند، که زمانی رخ می دهد که شما دو یا چند متغیر مستقل داشته باشید که به شدت با یکدیگر همبستگی دارند. این منجر به مشکلاتی در درک اینکه کدام متغیر مستقل به واریانس توضیح داده شده در متغیر وابسته کمک می کند و همچنین باعث مسائل فنی در محاسبه مدل رگرسیون چندگانه می شود.
فرض شماره 7:
نباید داده های پرت (outliers) مهم، نقاط اهرمی بالا (high leverage points) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. داده های پرت، اهرمی و تأثیرگذار اصطلاحات مختلفی هستند که برای نشان دادن مشاهدات در مجموعه دادههای شما استفاده میشوند که زمانی که میخواهید تحلیل رگرسیون چندگانه انجام دهید، به نوعی غیرعادی هستند. این طبقه بندی های مختلف از نقاط غیرعادی، تأثیر متفاوتی را که بر روی خط رگرسیون می گذارند، منعکس می کند. یک مشاهده را می توان به عنوان بیش از یک نوع نقطه غیر معمول طبقه بندی کرد. با این حال، تمام این نکات می توانند تأثیر بسیار منفی بر معادله رگرسیونی که برای پیش بینی مقدار متغیر وابسته بر اساس متغیرهای مستقل استفاده می شود، داشته باشند. این می تواند خروجی SPSS Statistics را تغییر دهد و دقت پیش بینی نتایج شما و همچنین اهمیت آماری را کاهش دهد. خوشبختانه، هنگام استفاده از SPSS Statistics برای اجرای رگرسیون چندگانه بر روی دادههای خود، میتوانید داده های پرت احتمالی، نقاط اهرمی بالا و نقاط بسیار تأثیرگذار را شناسایی کنید.
فرض شماره 8:
در نهایت، باید بررسی کنید که باقیمانده ها (خطاها) تقریباً به طور نرمال توزیع شده اند. دو روش متداول برای بررسی این فرض عبارتند از: (الف) هیستوگرام (با منحنی نرمال روی هم قرار داده شده) و نمودار P-P نرمال. یا (ب) یک نمودار Q-Q معمولی از باقیمانده های استیودنت شده.
با استفاده از SPSS Statistics می توانید فرضیات #3، #4، #5، #6، #7 و #8 را بررسی کنید. پیش از حرکت به پیش فرض های #3، #4، #5، #6، #7 و #8، ابتدا باید فرضیات #1 و #2 بررسی شوند. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای رگرسیون چندگانه به دست می آورید ممکن است معتبر نباشند.
در بخش بعدی، روشی را برای انجام یک رگرسیون چندگانه با استفاده از SPSS با فرض اینکه هیچ فرض گفته شده در بالا نقض نشده است، نشان میدهیم. ابتدا مثالی را که در این آموزش استفاده شده معرفی می کنیم.
مثال
یک محقق می خواهد بتواند “VO2max” را که شاخص تناسب اندام و سلامتی است، پیش بینی کند. به طور معمول، برای انجام این روش به تجهیزات آزمایشگاهی گران قیمت نیاز است و لازم است که یک فرد با حداکثر توان خود ورزش کند. این امر می تواند آن دسته از افرادی را که خیلی فعال/مناسب نیستند و افرادی که ممکن است در معرض خطر بالاتری برای بیماری باشند از این آزمایش حذف شوند. به این دلایل، یافتن راهی برای پیشبینی VO2max یک فرد بر اساس ویژگیهایی که بتوان آسانتر و ارزانتر اندازهگیری کرد، چالش برانگیز است. برای این منظور، یک محقق 100 شرکتکننده را برای انجام آزمون حداکثر VO2max انتخاب کرد، اما «سن»، «وزن»، «ضربان قلب» و «جنسیت» آنها را نیز ثبت کرد. ضربان قلب میانگین 5 دقیقه آخر یک آزمون دوچرخه سواری 20 دقیقه ای است که بسیار آسان تر است و حجم کار کمتری دارد. هدف محقق این است که بتواند VO2max را بر اساس این چهار ویژگی پیش بینی کند: سن، وزن، ضربان قلب و جنسیت.
تنظیمات در SPSS Statistics
در SPSS Statistics، ما شش متغیر ایجاد کردیم: (1) ، که حداكثر اكسیژن مصرفی است. (2)
، که سن شرکت کننده است. (3)
، که وزن شرکت کننده است. (4)
، که ضربان قلب شرکتکننده است. (5)
، که جنسیت شرکت کننده است. و (6)
که شماره شرکت کننده است. متغیر
برای حذف مواردی (مانند «داده های پرت مهم»، «نقاط اهرمی بالا» و «نقاط بسیار تأثیرگذار») که هنگام بررسی فرضیات شناسایی کردهاید، برای شما آسان میشود.
روش آزمون در SPSS Statistics
هفت مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از رگرسیون چندگانه در SPSS Statistics تجزیه و تحلیل کنید. البته زمانی که هیچ یک از هشت فرض گفته شده در بخش قبلی، نقض نشده باشد. در پایان این هفت مرحله، ما به شما نشان می دهیم که چگونه نتایج حاصل از رگرسیون چندگانه خود را تفسیر کنید.
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Analyze > Regression > Linear…
در منوی اصلی کلیک کنید:
مرحله (2)
پنجره ی Linear Regression در زیر به شما نمایش داده می شود:
مرحله (3)
همانطور که در زیر نشان داده شده است، با استفاده از دکمههای فلش متغیر وابسته
را به کادر Dependent و متغیرهای مستقل،
،
،
و
را به کادر Independent(s) منتقل کنید:
توجه: برای یک رگرسیون چندگانه استاندارد، باید دکمه های و
را نادیده بگیرید، زیرا آنها برای رگرسیون چندگانه متوالی (sequential multiple regression) (سلسله مراتبی (hierarchical)) هستند. گزینه Method باید در مقدار پیش فرض یعنی Enter نگه داشته شود. اگر به هر دلیلی Enter انتخاب نشد، باید Method را به Enter تغییر دهید. روش Enter نامی است که توسط SPSS Statistics به تحلیل رگرسیون استاندارد داده شده است.
مرحله (4)
روی دکمه Statistics کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Linear Regression: Statistics نمایش داده می شود:
مرحله (5)
علاوه بر گزینههایی که بهطور پیشفرض انتخاب میشوند، را در ناحیه –Regression Coefficients– انتخاب کنید و گزینه Level(%) را در عدد «95» بگذارید. در نهایت با صفحه زیر مواجه خواهید شد:
مرحله (6)
بر روی دکمه Continue کلیک کنید. شما به پنجره ی رگرسیون خطی بازگردانده می شوید.
مرحله (7)
بر روی دکمه OK کلیک کنید. با انجام تمام این مراحل، در نهایت خروجی تولید می شود.
تفسیر و گزارش خروجی تحلیل رگرسیون چندگانه
SPSS Statistics تعداد زیادی جداول خروجی را برای تحلیل رگرسیون چندگانه ایجاد می کند. با این حال، در این آموزش، ما فقط بر روی سه جدول اصلی تمرکز میکنیم که برای درک نتایج رگرسیون چندگانه به آنها نیاز دارید، با این فرض که دادههای شما قبلاً هشت فرض لازم برای رگرسیون چندگانه را نقص کردهاند تا یک نتیجه معتبر به شما بدهد:
تعیین میزان تناسب مدل
اولین جدول مورد علاقه جدول Model Summary (خلاصه مدل) است. این جدول R2, R2, R تعدیل شده (adjusted) و خطای استاندارد برآورد (standard error of the estimate) را ارائه می دهد که می تواند برای تعیین اینکه یک مدل رگرسیون چقدر با داده ها مطابقت دارد استفاده می شود:
ستون “R” نشان دهنده مقدار R، ضریب همبستگی چندگانه است. R را می توان یکی از معیارهای کیفیت پیش بینی متغیر وابسته در نظر گرفت. در این مورد، VO2max. مقدار 0.760، سطح خوبی از پیش بینی را نشان می دهد. ستون “R Square” نشان دهنده مقدار R2 (همچنین ضریب تعیین نامیده می شود) است، که نسبت واریانس در متغیر وابسته است که می تواند توسط متغیرهای مستقل توضیح داده شود (از نظر فنی، این نسبت تغییرات محاسبه شده توسط مدل رگرسیون بالاتر و فراتر از مدل میانگین است). از مقدار 0.577 می توانید متوجه شوید که متغیرهای مستقل 57.7 درصد از تغییرپذیری متغیر وابسته VO2max را توضیح می دهند. با این حال، باید بتوانید ستون «Adjusted R Square» را برای گزارش دقیق دادههای خود تفسیر کنید.
اهمیت آماری (Statistical significance)
نسبت F در جدول ANOVA (به زیر مراجعه کنید) نشان می دهد که آیا مدل رگرسیون کلی برای داده ها مناسب است یا خیر. جدول نشان می دهد که متغیرهای مستقل از نظر آماری به طور معنی داری متغیر وابسته، را پیش بینی می کنند (یعنی مدل رگرسیون تناسب خوبی برای داده ها است).
ضرایب مدل تخمینی (Estimated model coefficients)
شکل کلی معادله برای پیش بینی VO2max از سن، وزن، ضربان_قلب، جنسیت، به صورت زیر است:
این از جدول Coefficients به دست می آید که در زیر نشان داده شده است:
ضرایب غیر استاندارد (Unstandardized coefficients) نشان می دهد که وقتی همه متغیرهای مستقل دیگر ثابت می مانند، متغیر وابسته با یک متغیر مستقل چقدر تغییر می کند. تاثیر سن را در این مثال در نظر بگیرید. ضریب غیر استاندارد، B1، برای سن با -0.165 برابر است. این بدان معنی است که به ازای هر یک سال افزایش سن، VO2max به اندازه 0.165 میلی لیتر در دقیقه بر کیلوگرم (ml/min/kg) کاهش می یابد.
اهمیت آماری متغیرهای مستقل
می توانید اهمیت آماری هر یک از متغیرهای مستقل را آزمایش کنید. این نشان می دهد که آیا ضرایب غیر استاندارد (یا استاندارد) برابر با 0 (صفر) در جامعه وجود دارد یا نه؟. اگر p<.05، می توانید نتیجه بگیرید که ضرایب از نظر آماری به طور معنی داری با 0 (صفر) متفاوت هستند. t-value و p-value مربوطه در ستون “t” و “Sig” قرار دارند. ستون ها به ترتیب، در زیر مشخص شده اند:
شما می توانید از “Sig” ببینید. ستونی که تمامی ضرایب متغیر مستقل از نظر آماری با 0 (صفر) تفاوت معناداری دارند.
همه اش را کنار هم بگذار
می توانید نتایج را به صورت زیر بنویسید:
یک رگرسیون چندگانه برای پیشبینی VO2max از جنس، سن، وزن و ضربان قلب اجرا شد. این متغیرها به طور معنیداری
را پیشبینی کردند. هر چهار متغیر از نظر آماری به طور قابل توجهی به پیش بینی اضافه شدند، p<.05.
مطالب زیر را هم از دست ندهید:
رگرسیون خطی با استفاده از SPSS
ANOVA با اندازه گیری های مکرر با استفاده از SPSS Statistics
آزمون نرمال بودن با استفاده از SPSS Statistics
ANOVA دو طرفه در SPSS Statistics
ANCOVA یک طرفه در SPSS Statistics
ANOVA اندازه گیری های مکرر دو طرفه با استفاده از SPSS Statistics
ANOVA مخلوط با استفاده از SPSS Statistics
انواع متغیر و تحقیقات تجربی و غیر تجربی
آزمون t نمونه تکی با استفاده از SPSS Statistics
چگونه یک نمودار نقطهای متصل به هم در R ایجاد کنیم؟
چند پروژه برای مبتدیان علم داده
نحوه تعیین خودکار تعداد خوشه ها توسط قانون آرنج
هوش مصنوعی (AI) چیست؟ 3 چیز که باید بدانید
تجزیه و تحلیل آماری: تعریف، مثال
چگونه نتایج حاشیه خطا را تفسیر کنیم؟
روایی نتیجه گیری آماری (SCV) چیست؟
تحلیل سئوال روش تحقیق آزمون دکتری
تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار
آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک
Afshin Safaee (@afshinsafaee.official)
10 پاسخ
سلام.وقتتون بخیر
ببخشید اگه امکان داره توضیحی در مورد باقی مانده استیودنت شده بگید. ممنون