رگرسیون چندگانه در Stata

تجزیه و تحلیل رگرسیون چندگانه با استفاده از Stata

مقدمه

رگرسیون چندگانه (بسط رگرسیون خطی ساده) برای پیش بینی مقدار یک متغیر وابسته (به عنوان متغیر نتیجه) بر اساس مقدار دو یا چند متغیر مستقل (به عنوان متغیرهای پیش بینی) استفاده می شود. به عنوان مثال، می‌توانید از رگرسیون چندگانه برای تعیین اینکه آیا اضطراب امتحان را می‌توان بر اساس نمره درسی، زمان مرور درسی، حضور در کلاس و نمره تست IQ پیش‌بینی کرد یا نه؟. که در آن متغیر وابسته «اضطراب امتحان» و چهار متغیر مستقل «نمره درس»، «زمان مرور درسی»، «حضور در کلاس» و « نمره تستIQ » خواهد بود. متناوباً، می‌توانید از رگرسیون چندگانه برای تعیین اینکه آیا می‌توان درآمد را بر اساس سن، جنسیت و سطح تحصیلات پیش‌بینی کرد. که در آن متغیر وابسته «درآمد» و سه متغیر مستقل «سن»، «جنس» و « سطح تحصیلات» خواهد بود. اگر یک متغیر وابسته دو وضعیتی (dichotomous) دارید، می توانید از رگرسیون لجستیک دو جمله ای استفاده کنید.

رگرسیون چندگانه همچنین به شما این امکان را می دهد که تناسب کلی (overall fit) مدل و سهم نسبی (relative contribution) هر یک از متغیرهای مستقل را در کل واریانس تعیین کنید.

این آموزش به شما نحوه انجام رگرسیون چندگانه با استفاده از Stata و همچنین نحوه تفسیر و گزارش نتایج این آزمون را نشان می‌دهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده‌های شما باید رعایت کنند تا رگرسیون چندگانه به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

هشت “فرض” وجود دارد که زیربنای رگرسیون چندگانه است. اگر هر یک از این هشت فرض برآورده نشد، نمی توانید داده های خود را با استفاده از رگرسیون چندگانه تجزیه و تحلیل کنید زیرا نتیجه معتبری دریافت نمی کنید. از آنجایی که فرضیات #1 و #2 به انتخاب شما از متغیرها مربوط می شود، نمی توان آنها را برای استفاده از Stata آزمایش کرد. با این حال، قبل از انجام رگرسیون، باید بررسی کنید که آیا داده های شما با این فرضیات مطابقت دارد یا خیر.

فرض شماره 1:

متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود. نمونه‌هایی از این متغیرهای پیوسته عبارتند از: ارتفاع، دما، حقوق و دستمزد، زمان و غیره.

فرض شماره 2:

شما دو یا چند متغیر مستقل دارید که باید در سطح پیوسته یا طبقه ای (categorical) اندازه گیری شوند. نمونه هایی از متغیرهای طبقه ای شامل: جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 4 گروه: فارس، ترک، کرد، لر)، سطح فعالیت بدنی (به عنوان مثال، 3 گروه: کم تحرک، متوسط و پرتحرک) و غیره. در این آموزش، روش رگرسیون چندگانه را به شما نشان می‌دهیم زیرا ترکیبی از متغیرهای مستقل پیوسته و طبقه‌ای داریم.

توجه: اگر شما فقط متغیرهای مستقل طبقه ای دارید (یعنی هیچ متغیر مستقل پیوسته ای وجود ندارد)، معمولا به جای رگرسیون چندگانه، از ANOVA دو طرفه (برای دو متغیر مستقل طبقه ای) یا ANOVA فاکتوریل (برای سه یا بیشتر متغیرهای مستقل طبقه ای) استفاده می کنند.

فرض شماره 3:

مشاهدات شما باید استقلال داشته باشند (به عنوان مثال، استقلال باقیمانده ها ()independence of residuals)، که می توانید آن را با استفاده از آمار دوربین-واتسون (Durbin-Watson statistic) در Stata بررسی کنید.

فرض شماره 4:

باید یک رابطه خطی بین (الف) متغیر وابسته و هر یک از متغیرهای مستقل شما، و (ب) متغیر وابسته و متغیرهای مستقل در مجموع وجود داشته باشد. می توانید خطی بودن را در Stata با استفاده از نمودارهای پراکنده گی یا نقطه ای (scatterplots) و نمودارهای رگرسیون جزئی (partial regression plots) بررسی کنید.

فرض شماره 5:

داده های شما باید در جایی که واریانس ها در امتداد خط بهترین تناسب را دارند، همواریانسی و یا همسویی و یا همسانی (homoscedasticity) را نشان دهند. می‌توانید همسویی بودن را با ترسیم باقیمانده های استیودنت شده (studentized residuals) در برابر مقادیر پیش‌بینی‌شده غیراستاندارد، در Stata بررسی کنید.

فرض شماره 6:

داده های شما نباید هم‌خطی چندگانه (multicollinearity) را نشان دهند. هم‌خطی چندگانه زمانی رخ می دهد که شما دو یا چند متغیر مستقل داشته باشید که به شدت با یکدیگر همبستگی دارند. می توانید این فرض را در Stata از طریق بررسی ضرایب همبستگی و مقادیر Tolerance/VIF بررسی کنید.

فرض شماره 7:

نباید نقاط پرت (outliers) مهم، نقاط اهرمی بالا (high leverage points) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. این نقاط مشاهداتی را در مجموعه داده های شما نشان دهد که به نوعی غیرعادی هستند. اینها می توانند تأثیر بسیار منفی بر معادله رگرسیونی داشته باشند که برای پیش بینی مقدار متغیر وابسته بر اساس متغیرهای مستقل استفاده می شود. با استفاده از Stata می توانید نقاط پرت، نقاط اهرمی و نقاط تاثیرگذار را بررسی کنید.

فرض شماره 8:

باقیمانده ها (خطاها) باید تقریباً به طور نرمال توزیع شوند، که می توانید با استفاده از یک هیستوگرام (با منحنی نرمال روی هم قرار داده شده) و P-P Plot معمولی، یا یک نمودار Q-Q نرمال از باقیمانده های استیودنت شده، آنها را در Stata بررسی کنید.

خوشبختانه، می توانید با استفاده از Stata فرضیات #3، #4، #5، #6، #7 و #8 را بررسی کنید. هنگامی که به فرضیات #3، #4، #5، #6، #7 و #8 بررسی میکنید، پیشنهاد می کنیم آنها را به این ترتیب گفته شده آزمایش کنید، زیرا با این ترتیب، اگر نقض فرضی قابل تصحیح نباشد، شما دیگر قادر به استفاده از رگرسیون چندگانه نخواهید بود. فقط به یاد داشته باشید که اگر این فرضیات را به درستی بررسی نکنید، نتایجی که هنگام اجرای رگرسیون چندگانه به دست می آورید ممکن است معتبر نباشند.

در عمل، بررسی فرضیات #3، #4، #5، #6، #7 و #8 احتمالاً بیشتر وقت شما را هنگام انجام رگرسیون چندگانه می‌گیرد. با این حال، این کار دشواری نیست و Stata تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد.

در بخش بعدی، روش Stata مورد نیاز برای انجام رگرسیون چندگانه را با فرض اینکه هیچ فرضی نقض نشده است، نشان می‌دهیم. ابتدا، مثالی را که برای توضیح روش رگرسیون چندگانه در Stata استفاده می‌کنیم، ارائه می‌کنیم.

مثال

یک محقق می خواهد بتواند “VO2max” را که شاخص تناسب اندام و سلامتی است، پیش بینی کند. به طور معمول، برای انجام این روش به تجهیزات آزمایشگاهی گران قیمت نیاز است، و همچنین افراد باید حداکثر توان خود ورزش کنند. یافتن راهی برای پیش‌بینی VO2max یک فرد بر اساس ویژگی‌هایی که بتوان آن را آسان‌تر و ارزان‌تر اندازه‌گیری کرد، همواره چالش برانگیز بوده است. برای این منظور، یک محقق 100 شرکت‌کننده را برای انجام تست حداکثر VO2max انتخاب کرد و «سن»، «وزن»، «ضربان قلب» و «جنسیت» آنها را نیز ثبت کرد. میانگین ضربان قلب 5 دقیقه آخر از یک تست دوچرخه سواری 20 دقیقه ای گرفته می شود که بسیار آسان تر است و حجم کار کمتری دارد. هدف محقق این است که بتواند VO2max را بر اساس چهار ویژگی سن، وزن، ضربان قلب و جنسیت پیش بینی کند.

توجه: مثال و داده های استفاده شده برای این آموزش ساختگی هستند.

تنظیمات در Stata

ما در Stata، پنج متغیر ایجاد کردیم: متغیر وابسته (1) VO2max که حداکثر ظرفیت هوازی است. متغیرهای مستقل (2) age، که سن شرکت کننده است. (3) weight، که وزن شرکت کننده است. (4) heart_rate، که ضربان قلب شرکت‌کننده است. (5) gender، که جنسیت شرکت کننده است.

پس از ایجاد این پنج متغیر، مقادیر هر کدام را در پنج ستون Data Editor (Edit) وارد کردیم، مانند شکل زیر:

روش تست در Stata

در این بخش به شما نشان می‌دهیم که چگونه داده‌های خود را با استفاده از رگرسیون چندگانه در Stata تجزیه و تحلیل کنید، البته به شرطی که هشت فرض گفته شده در بخش قبلی، نقض نشده ‌باشند. شما می توانید رگرسیون چندگانه را با استفاده از code و یا Stata’s graphical user interface (GUI) انجام دهید. پس از اینکه تجزیه و تحلیل خود را انجام دادید، به شما نشان می دهیم که چگونه نتایج خود را تفسیر کنید.

با استفاده از code (کد)

code برای انجام رگرسیون چندگانه روی داده های شما به شکل زیر است:

regress DependentVariable IndependentVariable#1 IndependentVariable#2 IndependentVariable#3 IndependentVariable#4

این code در کادر فرمان زیر وارد می شود:

code مورد نیاز با استفاده از مثال که در آن متغیر وابسته VO2max است و چهار متغیر مستقل age، weight، heart_rate و gender خواهد بود:

regress VO2max age weight heart_rate i.gender

توجه: از code بالا خواهید دید که متغیرهای مستقل پیوسته به سادگی «همانطور که هست» وارد می شوند، در حالی که متغیرهای مستقل طبقه ای پیشوند «i» دارند. به عنوان مثال، age برای age، که یک متغیر مستقل پیوسته است، اما i.gender برای gender، چون که یک متغیر مستقل طبقه ای است.

بنابراین، کد ” regress VO2max age weight heart_rate i.gender” را وارد کنید:

دکمه ” Return/Enter” را روی صفحه کلید خود فشار دهید تا خروجی تولید شود.

با استفاده از Stata’s graphical user interface (GUI)

هفت مرحله برای انجام رگرسیون چندگانه با استفاده از GUI در Stata نیاز است:

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Statistics > Linear Models and related > Linear Regression

در منوی اصلی کلیک کنید:

مرحله (2)

همانطور که در زیر نشان داده شده است، با پنجره ی regress – Linear regression روبرو خواهید شد:

مرحله (3)

متغیر وابسته VO2max را از کادر Dependent Variable انتخاب کنید و متغیرهای مستقل پیوسته، ز را از کادر Independent variables با استفاده از دکمه کشویی انتخاب کنید.

مرحله (4)

ابتدا با کلیک بر روی دکمه سه نقطه ، متغیر مستقل طبقه ای، gender را از کادر Independent variables: انتخاب کنید. پنجره ی زیر به شما نشان می شود که در آن متغیرهای مستقل پیوسته شما (age weight heart_rate) قبلاً در کادر Varlist وارد شده اند:

مرحله (5)

گزینه انتخاب شده Factor variable را در ناحیه ی –Type of variable– رها کنید. سپس، Main effect را در کادر Specification در ناحیه –Add factor variable–، انتخاب کنید. اکنون gender را در کادر Variables با استفاده از دکمه کشویی انتخاب کنید و سپس Base را در کادر “Default” انتخاب کنید. در نهایت بر روی دکمه Add to varlist کلیک کنید. با پنجره ی زیر روبرو خواهید شد که در آن متغیر مستقل طبقه ای ، i.gender، در کادر Varlist وارد شده است:

مرحله (6)

بر روی دکمه OK کلیک کنید. همانطور که در زیر نشان داده شده است، شما به پنجره ی regress – Linear regression بازگردانده می شوید، اما با متغیر مستقل طبقه ای شده، i.gender، که اکنون در کادر Independent variables وارد شده است:

مرحله (7)

بر روی دکمه OK کلیک کنید. با انجام تمام این مراحل خروجی تولید می شود.

تفسیر خروجی آماری تحلیل رگرسیون چندگانه

Stata یک خروجی واحد را برای تجزیه و تحلیل رگرسیون چندگانه بر اساس انتخاب های انجام شده در بالا (با استفاده از code و یا Stata’s graphical user interface (GUI)) ایجاد می کند، البته به شرطی که هشت فرض مورد نیاز برای رگرسیون چندگانه برآورده شده است.

تعیین میزان تناسب مدل

R2 (R-squared) و R2 تنظیم شده (Adj R-squared) را می توان برای تعیین اینکه یک مدل رگرسیون به خوبی با داده ها مطابقت دارد یا نه استفاده کرد:

ردیف “R-squared” مقدار R2 را نشان می دهد (که ضریب تعیین نیز نامیده می شود)، که نسبت واریانس در متغیر وابسته است که می تواند توسط متغیرهای مستقل توضیح داده شود. .از نظر فنی، این نسبت تغییرات محاسبه شده توسط مدل رگرسیون بالاتر و فراتر از مدل میانگین است. شما می توانید از مقدار 0.577 متوجه شوید که متغیرهای مستقل 57.7٪ از تغییرپذیری متغیر وابسته VO2max را توضیح می دهند. همچنین شما باید بتوانید “Adj R-squared” را برای گزارش دقیق داده های خود تفسیر کنید.

اهمیت آماری (Statistical significance)

نسبت F (F-ratio) نشان می دهد که آیا مدل رگرسیون کلی برای داده ها مناسب است یا خیر. در این مثال خروجی نشان می دهد که متغیرهای مستقل از نظر آماری به طور معنی داری متغیر وابسته، را پیش بینی می کنند (یعنی مدل رگرسیون تناسب خوبی برای داده ها است) F(4, 95) = 32.39 , p<.0005.

ضرایب مدل تخمینی (Estimated model coefficients)

شکل کلی معادله برای پیش بینی VO2max از سن، وزن، ضربان_قلب و جنسیت به صورت زیر است:

همانطور که در زیر نشان داده شده است، این معادله از ستون”Coef.” به دست می آید:

ضرایب غیر استاندارد نشان می دهد که متغیر وابسته چقدر با یک متغیر مستقل تغییر می کند، زمانی که همه متغیرهای مستقل دیگر ثابت نگه داشته شوند. تاثیر سن را در این مثال در نظر بگیرید. ضریب غیر استاندارد، B1، برای سن برابر است با -0.16 (در ردیف اول ستون Coef) .این بدان معناست که به ازای هر یک سال افزایش سن، VO2max، 0.165 میلی لیتر در دقیقه بر کیلوگرم کاهش می یابد.

اهمیت آماری متغیرهای مستقل

می توانید اهمیت آماری هر یک از متغیرهای مستقل را آزمایش کنید. این نشان می دهد که آیا ضرایب غیر استاندارد (یا استاندارد) در جامعه برابر با 0 (صفر) است یا نه. اگر p <.05، می توانید نتیجه بگیرید که ضرایب از نظر آماری به طور معنی داری با 0 (صفر) متفاوت هستند. همانطور که در زیر مشخص شده است t-value و p-value مربوطه به ترتیب در ستون های “t” و “P>|t|” قرار دارند:

شما می توانید از ستون”P>|t|” ببینید ستونی که تمامی ضرایب متغیر مستقل از نظر آماری با 0 (صفر) تفاوت معناداری دارند. اگرچه عرض از مبدا، B0، برای اهمیت آماری آزمایش می شود، با این حال به ندرت یک یافته مهم یا جالب است.

گزارش خروجی تحلیل رگرسیون چندگانه

می توانید نتایج را به صورت زیر بنویسید:

یک رگرسیون چندگانه برای پیش‌بینی VO2max از جنس، سن، وزن و ضربان قلب اجرا شد. این متغیرها به طور معنی‌داری VO2maxرا پیش‌بینی کردند (F(4, 95) = 32.39 , p<.0005 , R2=.577). هر چهار متغیر از نظر آماری به طور قابل توجهی به پیش بینی اضافه شدند (p<.05).

 

مطالب زیر را هم از دست ندهید:

رگرسیون لجستیک چند جمله ای در SPSS

رگرسیون پواسون با استفاده از SPSS

رگرسیون لجستیک دو جمله ای با استفاده از SPSS

رگرسیون لجستیک ترتیبی با استفاده از SPSS

رگرسیون چندگانه با استفاده از SPSS

رگرسیون خطی با استفاده از SPSS

Afshin Safaee (@afshinsafaee.official)

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

7 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *