رگرسیون چندگانه با استفاده از SPSS

پری کرمی
دی 6, 1401
10 دیدگاه ها

تجزیه و تحلیل رگرسیون چندگانه با استفاده از SPSS Statistics

معرفی

رگرسیون چندگانه (Multiple regression) بسط رگرسیون خطی ساده است. زمانی استفاده می شود که بخواهیم مقدار یک متغیر را بر اساس مقدار دو یا چند متغیر دیگر پیش بینی کنیم. متغیری که می خواهیم پیش بینی کنیم، متغیر وابسته (یا گاهی اوقات، متغیر نتیجه، هدف یا معیار) نامیده می شود. متغیرهایی که برای پیش بینی مقدار متغیر وابسته استفاده می کنیم، متغیرهای مستقل (یا گاهی اوقات، متغیرهای پیش بینی کننده، توضیحی یا رگرسیون) نامیده می شوند.

به عنوان مثال، می توانید از رگرسیون چندگانه برای درک اینکه آیا نمره امتحان را می توان بر اساس زمان مرور درسی، اضطراب امتحان، حضور در سخنرانی و جنسیت پیش بینی کرد یا خیر، استفاده کنید. متناوبا، می‌توانید از رگرسیون چندگانه برای درک اینکه آیا می‌توان مصرف روزانه سیگار را بر اساس مدت زمان مصرف سیگار، سن شروع سیگار کشیدن، نوع سیگار، درآمد و جنسیت پیش‌بینی کرد یا خیر، استفاده کرد.

رگرسیون چندگانه همچنین به شما این امکان را می‌دهد که تناسب کلی (overall fit) مدل و سهم نسبی هر یک از پیش‌بینی‌کننده‌ها را در واریانس کل توضیح داده شده تعیین کنید. به عنوان مثال، ممکن است بخواهید بدانید که چه مقدار از تغییرات در نمره امتحان را می توان با زمان مرور درسی، اضطراب امتحان، حضور در سخنرانی و جنسیت «به طور کلی» و همچنین «سهم نسبی» هر متغیر مستقل در واریانس توضیح داد.

این آموزش به شما نحوه انجام رگرسیون چندگانه با استفاده از SPSS Statistics و همچنین تفسیر و گزارش نتایج این آزمون را نشان می دهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده‌های شما باید رعایت کنند تا رگرسیون چندگانه به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

هنگامی که تصمیم می‌گیرید داده‌های خود را با استفاده از رگرسیون چندگانه تجزیه و تحلیل کنید، بخشی از فرآیند شامل بررسی فرضیاتی است که نشان می دهد آیا داده های شما واقعاً با استفاده از رگرسیون چندگانه قابل تجزیه و تحلیل هستند یا نه؟. شما باید این کار را انجام دهید. زیرا استفاده از رگرسیون چندگانه تنها در صورتی مناسب است که داده‌های شما از هشت فرضی که برای رگرسیون چندگانه لازم است تا نتیجه معتبری به شما بدهد، عبور کند. در عمل، بررسی این هشت فرض فقط کمی زمان بر است ولی در کل کار سختی نیست.

فرض شماره 1:

متغیر وابسته شما باید در مقیاس پیوسته اندازه گیری شود (یعنی متغیر فاصله ای (interval) یا نسبتی (ratio) است). نمونه هایی از متغیرهایی که این معیار را برآورده می کنند عبارتند از: زمان مرور درسی (اندازه گیری شده بر حسب ساعت)، هوش (اندازه گیری شده با استفاده از نمره IQ)، نمره امتحان (اندازه گیری از 0 تا 20)، وزن (اندازه گیری شده بر حسب کیلوگرم) و غیره.

فرض شماره 2:

شما دو یا چند متغیر مستقل دارید که می توانند پیوسته (مثلاً متغیر فاصله ای یا نسبتی) یا طبقه ای (categorical) (مثلاً یک متغیر ترتیبی یا اسمی) باشند. مونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 3 گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، سطح فعالیت بدنی (به عنوان مثال، 4 گروه: کم تحرک، کم، متوسط و بالاو غیره. اگر یکی از متغیرهای مستقل شما دوگانه (dichotomous) است و به عنوان یک متغیر تعدیل کننده (moderating variable) در نظر گرفته می شود، ممکن است نیاز باشد که یک تحلیل ناظر دوگانه (Dichotomous moderator analysis) را اجرا کنید.

فرض شماره 3:

شما باید از مشاهدات استقلال داشته باشید (به عنوان مثال، استقلال باقیمانده ها (independence of residuals))، که می توانید به راحتی با استفاده از آمار Durbin-Watson، که یک آزمون ساده برای اجرا با استفاده از SPSS Statistics است، بررسی کنید.

فرض شماره 4:

باید یک رابطه خطی بین (الف) متغیر وابسته و هر یک از متغیرهای مستقل شما، و (ب) متغیر وابسته و متغیرهای مستقل در مجموع وجود داشته باشد. در حالی که تعدادی راه برای بررسی این روابط خطی وجود دارد، پیشنهاد می‌کنیم با استفاده از SPSS Statistics، نمودارهای پراکندگی یا نقطه ای (scatterplots) و نمودارهای رگرسیون جزئی (partial regression plots) ایجاد کنید و سپس به صورت بصری این نمودارها را برای بررسی خطی بودن بررسی کنید. اگر رابطه نمایش داده شده در نمودارهای پراکندگی و نمودارهای رگرسیون جزئی شما خطی نیست، باید یک تحلیل رگرسیون غیرخطی انجام دهید یا داده های خود را “تبدیل” (transform) کنید، که می توانید با استفاده از SPSS Statistics انجام دهید.

فرض شماره 5:

داده های شما باید همسانی (homoscedasticity) را نشان دهند، جایی که واریانس ها در امتداد خط بهترین تناسب با حرکت در امتداد خط یکسان باقی می مانند. هنگامی که داده‌های خود را تجزیه و تحلیل می‌کنید، باید باقیمانده های استیودنت شده (studentized residuals) را در برابر مقادیر پیش‌بینی‌شده غیراستاندارد رسم کنید.

فرض شماره 6:

داده های شما نباید چند خطی بودن (multicollinearity) را نشان دهند، که زمانی رخ می دهد که شما دو یا چند متغیر مستقل داشته باشید که به شدت با یکدیگر همبستگی دارند. این منجر به مشکلاتی در درک اینکه کدام متغیر مستقل به واریانس توضیح داده شده در متغیر وابسته کمک می کند و همچنین باعث مسائل فنی در محاسبه مدل رگرسیون چندگانه می شود.

فرض شماره 7:

نباید داده های پرت (outliers) مهم، نقاط اهرمی بالا (high leverage points) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. داده های پرت، اهرمی و تأثیرگذار اصطلاحات مختلفی هستند که برای نشان دادن مشاهدات در مجموعه داده‌های شما استفاده می‌شوند که زمانی که می‌خواهید تحلیل رگرسیون چندگانه انجام دهید، به نوعی غیرعادی هستند. این طبقه بندی های مختلف از نقاط غیرعادی، تأثیر متفاوتی را که بر روی خط رگرسیون می گذارند، منعکس می کند. یک مشاهده را می توان به عنوان بیش از یک نوع نقطه غیر معمول طبقه بندی کرد. با این حال، تمام این نکات می توانند تأثیر بسیار منفی بر معادله رگرسیونی که برای پیش بینی مقدار متغیر وابسته بر اساس متغیرهای مستقل استفاده می شود، داشته باشند. این می تواند خروجی SPSS Statistics را تغییر دهد و دقت پیش بینی نتایج شما و همچنین اهمیت آماری را کاهش دهد. خوشبختانه، هنگام استفاده از SPSS Statistics برای اجرای رگرسیون چندگانه بر روی داده‌های خود، می‌توانید داده های پرت احتمالی، نقاط اهرمی بالا و نقاط بسیار تأثیرگذار را شناسایی کنید.

فرض شماره 8:

در نهایت، باید بررسی کنید که باقیمانده ها (خطاها) تقریباً به طور نرمال توزیع شده اند. دو روش متداول برای بررسی این فرض عبارتند از: (الف) هیستوگرام (با منحنی نرمال روی هم قرار داده شده) و نمودار P-P نرمال. یا (ب) یک نمودار Q-Q معمولی از باقیمانده های استیودنت شده.

با استفاده از SPSS Statistics می توانید فرضیات #3، #4، #5، #6، #7 و #8 را بررسی کنید. پیش از حرکت به پیش فرض های #3، #4، #5، #6، #7 و #8، ابتدا باید فرضیات #1 و #2 بررسی شوند. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای رگرسیون چندگانه به دست می آورید ممکن است معتبر نباشند.

در بخش بعدی، روشی را برای انجام یک رگرسیون چندگانه با استفاده از SPSS با فرض اینکه هیچ فرض گفته شده در بالا نقض نشده است، نشان می‌دهیم. ابتدا مثالی را که در این آموزش استفاده شده معرفی می کنیم.

مثال

یک محقق می خواهد بتواند “VO₂max” را که شاخص تناسب اندام و سلامتی است، پیش بینی کند. به طور معمول، برای انجام این روش به تجهیزات آزمایشگاهی گران قیمت نیاز است و لازم است که یک فرد با حداکثر توان خود ورزش کند. این امر می تواند آن دسته از افرادی را که خیلی فعال/مناسب نیستند و افرادی که ممکن است در معرض خطر بالاتری برای بیماری باشند از این آزمایش حذف شوند. به این دلایل، یافتن راهی برای پیش‌بینی VO₂max یک فرد بر اساس ویژگی‌هایی که بتوان آسان‌تر و ارزان‌تر اندازه‌گیری کرد، چالش برانگیز است. برای این منظور، یک محقق 100 شرکت‌کننده را برای انجام آزمون حداکثر VO₂max انتخاب کرد، اما «سن»، «وزن»، «ضربان قلب» و «جنسیت» آنها را نیز ثبت کرد. ضربان قلب میانگین 5 دقیقه آخر یک آزمون دوچرخه سواری 20 دقیقه ای است که بسیار آسان تر است و حجم کار کمتری دارد. هدف محقق این است که بتواند VO₂max را بر اساس این چهار ویژگی پیش بینی کند: سن، وزن، ضربان قلب و جنسیت.

تنظیمات در SPSS Statistics

در SPSS Statistics، ما شش متغیر ایجاد کردیم: (1) ، که حداكثر اكسیژن مصرفی است. (2) ، که سن شرکت کننده است. (3) ، که وزن شرکت کننده است. (4) ، که ضربان قلب شرکت‌کننده است. (5) ، که جنسیت شرکت کننده است. و (6) که شماره شرکت کننده است. متغیر برای حذف مواردی (مانند «داده های پرت مهم»، «نقاط اهرمی بالا» و «نقاط بسیار تأثیرگذار») که هنگام بررسی فرضیات شناسایی کرده‌اید، برای شما آسان می‌شود.

روش آزمون در SPSS Statistics

هفت مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از رگرسیون چندگانه در SPSS Statistics تجزیه و تحلیل کنید. البته زمانی که هیچ یک از هشت فرض گفته شده در بخش قبلی، نقض نشده باشد. در پایان این هفت مرحله، ما به شما نشان می دهیم که چگونه نتایج حاصل از رگرسیون چندگانه خود را تفسیر کنید.

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Analyze > Regression > Linear…

در منوی اصلی کلیک کنید:

مرحله (2)

پنجره ی Linear Regression در زیر به شما نمایش داده می شود:

مرحله (3)

همانطور که در زیر نشان داده شده است، با استفاده از دکمه‌های فلش متغیر وابسته را به کادر Dependent و متغیرهای مستقل، ، ، و را به کادر Independent(s) منتقل کنید:

توجه: برای یک رگرسیون چندگانه استاندارد، باید دکمه های و را نادیده بگیرید، زیرا آنها برای رگرسیون چندگانه متوالی (sequential multiple regression) (سلسله مراتبی (hierarchical)) هستند. گزینه Method باید در مقدار پیش فرض یعنی Enter نگه داشته شود. اگر به هر دلیلی Enter انتخاب نشد، باید Method را به Enter تغییر دهید. روش Enter نامی است که توسط SPSS Statistics به تحلیل رگرسیون استاندارد داده شده است.

مرحله (4)

روی دکمه Statistics کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Linear Regression: Statistics نمایش داده می شود:

مرحله (5)

علاوه بر گزینه‌هایی که به‌طور پیش‌فرض انتخاب می‌شوند، را در ناحیه –Regression Coefficients– انتخاب کنید و گزینه Level(%) را در عدد «95» بگذارید. در نهایت با صفحه زیر مواجه خواهید شد:

مرحله (6)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی رگرسیون خطی بازگردانده می شوید.

مرحله (7)

بر روی دکمه OK کلیک کنید. با انجام تمام این مراحل، در نهایت خروجی تولید می شود.

تفسیر و گزارش خروجی تحلیل رگرسیون چندگانه

SPSS Statistics تعداد زیادی جداول خروجی را برای تحلیل رگرسیون چندگانه ایجاد می کند. با این حال، در این آموزش، ما فقط بر روی سه جدول اصلی تمرکز می‌کنیم که برای درک نتایج رگرسیون چندگانه به آن‌ها نیاز دارید، با این فرض که داده‌های شما قبلاً هشت فرض لازم برای رگرسیون چندگانه را نقص کرده‌اند تا یک نتیجه معتبر به شما بدهد:

تعیین میزان تناسب مدل

اولین جدول مورد علاقه جدول Model Summary (خلاصه مدل) است. این جدول R², R², R تعدیل شده (adjusted) و خطای استاندارد برآورد (standard error of the estimate) را ارائه می دهد که می تواند برای تعیین اینکه یک مدل رگرسیون چقدر با داده ها مطابقت دارد استفاده می شود:

ستون “R” نشان دهنده مقدار R، ضریب همبستگی چندگانه است. R را می توان یکی از معیارهای کیفیت پیش بینی متغیر وابسته در نظر گرفت. در این مورد، VO₂max. مقدار 0.760، سطح خوبی از پیش بینی را نشان می دهد. ستون “R Square” نشان دهنده مقدار R² (همچنین ضریب تعیین نامیده می شود) است، که نسبت واریانس در متغیر وابسته است که می تواند توسط متغیرهای مستقل توضیح داده شود (از نظر فنی، این نسبت تغییرات محاسبه شده توسط مدل رگرسیون بالاتر و فراتر از مدل میانگین است). از مقدار 0.577 می توانید متوجه شوید که متغیرهای مستقل 57.7 درصد از تغییرپذیری متغیر وابسته VO2max را توضیح می دهند. با این حال، باید بتوانید ستون «Adjusted R Square» را برای گزارش دقیق داده‌های خود تفسیر کنید.

اهمیت آماری (Statistical significance)

نسبت F در جدول ANOVA (به زیر مراجعه کنید) نشان می دهد که آیا مدل رگرسیون کلی برای داده ها مناسب است یا خیر. جدول نشان می دهد که متغیرهای مستقل از نظر آماری به طور معنی داری متغیر وابسته، را پیش بینی می کنند (یعنی مدل رگرسیون تناسب خوبی برای داده ها است).

ضرایب مدل تخمینی (Estimated model coefficients)

شکل کلی معادله برای پیش بینی VO₂max از سن، وزن، ضربان_قلب، جنسیت، به صورت زیر است:

این از جدول Coefficients به دست می آید که در زیر نشان داده شده است:

ضرایب غیر استاندارد (Unstandardized coefficients) نشان می دهد که وقتی همه متغیرهای مستقل دیگر ثابت می مانند، متغیر وابسته با یک متغیر مستقل چقدر تغییر می کند. تاثیر سن را در این مثال در نظر بگیرید. ضریب غیر استاندارد، B1، برای سن با -0.165 برابر است. این بدان معنی است که به ازای هر یک سال افزایش سن، VO₂max به اندازه 0.165 میلی لیتر در دقیقه بر کیلوگرم (ml/min/kg) کاهش می یابد.

اهمیت آماری متغیرهای مستقل

می توانید اهمیت آماری هر یک از متغیرهای مستقل را آزمایش کنید. این نشان می دهد که آیا ضرایب غیر استاندارد (یا استاندارد) برابر با 0 (صفر) در جامعه وجود دارد یا نه؟. اگر p<.05، می توانید نتیجه بگیرید که ضرایب از نظر آماری به طور معنی داری با 0 (صفر) متفاوت هستند. t-value و p-value مربوطه در ستون “t” و “Sig” قرار دارند. ستون ها به ترتیب، در زیر مشخص شده اند: