رگرسیون خطی (Linear regression) با استفاده از Minitab

پری کرمی
فروردین 14, 1402
بدون دیدگاه

رگرسیون خطی (Linear regression) با استفاده از Minitab

مقدمه

رگرسیون خطی (Linear regression) که به آن رگرسیون خطی ساده یا رگرسیون خطی دو متغیره نیز گفته می شود، زمانی استفاده می شود که بخواهیم مقدار یک متغیر وابسته را بر اساس مقدار یک متغیر مستقل پیش بینی کنیم. متغیر وابسته را می توان متغیر نتیجه، هدف یا معیار نامید، در حالی که متغیر مستقل را به عنوان متغیر پیش بینی کننده، توضیحی یا رگرسیون شناخته می شود.

برای مثال، می‌توانید از رگرسیون خطی استفاده کنید تا بفهمید آیا میزان اضطراب امتحان را می‌توان بر اساس مدت زمانی که صرف مرور درسی شده، پیش‌بینی کرد یا نه؟. در این مثال متغیر وابسته «اضطراب امتحان» است، که با استفاده از شاخص اضطراب اندازه‌گیری می‌شود، و متغیر مستقل «مدت زمان مرور درسی» است که بر حسب ساعت اندازه گیری می شود. از طرف دیگر، می‌توانید از رگرسیون خطی برای درک اینکه آیا غلظت کلسترول (چربی در خون مرتبط با بیماری قلبی) را می‌توان بر اساس زمان صرف شده برای ورزش پیش‌بینی کرد یا نه؟. در اینجا یعنی متغیر وابسته «غلظت کلسترول» است که بر حسب میلی‌مول در لیتر اندازه‌گیری می‌شود و متغیر مستقل “زمان صرف شده برای ورزش” است که بر حسب ساعت اندازه گیری می شود.

توجه: اگر به جای یک متغیر، دو یا چند متغیر مستقل دارید، باید از رگرسیون چندگانه (multiple regression) استفاده کنید. از طرف دیگر، اگر فقط می خواهید مشخص کنید که آیا یک رابطه خطی وجود دارد یا خیر، اما پیش بینی نمی کنید، می توانید از همبستگی پیرسون (Pearson’s correlation) استفاده کنید. اگر متغیر وابسته شما دو وضعیتی (dichotomous) است، می توانید از رگرسیون لجستیک دو جمله ای استفاده کنید.

در این راهنما، نحوه انجام رگرسیون خطی با استفاده از Minitab و همچنین تفسیر و گزارش نتایج این آزمون را به شما نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده های شما باید رعایت کنند تا رگرسیون خطی به شما نتیجه معتبری بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

رگرسیون خطی دارای هفت فرض است. شما نمی توانید دو فرض اول را با Minitab آزمایش کنید زیرا به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود. با این حال، باید بررسی کنید که آیا مطالعه شما با این فرضیات مطابقت دارد یا خیر. اگر این فرضیات برآورده نشوند، باید از یک آزمون آماری دیگری به جای آن استفاده کنید. فرضیات #1 و #2 در زیر توضیح داده شده است:

فرض شماره 1:

متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود (یعنی یک متغیر فاصله ای (interval) یا نسبتی (ratio) است). نمونه‌هایی از این متغیرهای پیوسته عبارتند از: ارتفاع، دما، حقوق و دستمزد، زمان، هوش، سن، توان خروجی (اندازه گیری شده بر حسب وات)، نمره امتحان، میزان فروش (بر حسب تعداد تراکنش در ماه اندازه گیری می شود) و غیره می باشد.

فرض شماره 2:

متغیر مستقل شما باید در سطح پیوسته یا طبقه ای (categorical) اندازه گیری شود. با این حال، اگر یک متغیر مستقل طبقه بندی دارید، بهتر است از آزمون t مستقل (برای دو گروه) یا ANOVA یک طرفه (برای سه گروه یا بیشتر) استفاده کنید. نمونه هایی از متغیرهای طبقه ای شامل جنسیت (به عنوان مثال، دو گروه: مرد و زن)، قومیت (به عنوان مثال، سه گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، سطح فعالیت بدنی (به عنوان مثال، چهار گروه: بی تحرک، کم تحرک، تحرک متوسط و پرتحرک) و حرفه (به عنوان مثال، پنج گروه: جراح، پزشک، پرستار، دندانپزشک، درمانگر) و غیره می باشد. در این راهنما، روش رگرسیون خطی و خروجی Minitab را زمانی که متغیرهای وابسته و مستقل شما در سطح پیوسته اندازه‌گیری می‌شوند، به شما نشان می‌دهیم.

فرضیات #3، #4، #5، #6 و #7 به ماهیت داده های شما مربوط می شود و می توان با استفاده از Minitab بررسی کرد. شما باید این فرضیات را بررسی کنید، در غیر این صورت ممکن است ، نتایجی که هنگام اجرای رگرسیون خطی به دست می‌آورید معتبر نباشند. فرضیات #3، #4، #5، #6 و #7 در زیر توضیح داده شده است:

فرض شماره 3:

باید یک رابطه خطی بین متغیرهای وابسته و مستقل وجود داشته باشد. روش‌های مختلفی برای بررسی وجود رابطه خطی بین دو متغیر شما وجود دارد. با اینحل، پیشنهاد می‌کنیم با استفاده از Minitab یک Scatterplot (نمودار پراکندگی یا نقطه ای) ایجاد کنید و متغیر وابسته را نسبت به متغیر مستقل رسم کنید. سپس می توانید به صورت بصری خطی بودن را بررسی کنید. اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک آنالیز رگرسیون غیر خطی دیگری انجام دهید و یا اینکه داده های خود را “تبدیل” (transform) کنید، که این کار با استفاده از Minitab قابل انجام است.

فرض شماره 4:

نباید نقاط پرت (outliers) قابل توجهی وجود داشته باشد. داده پرت یک نقطه در مجموعه داده شما است که از الگوی معمول پیروی نمی کند. نقاط پرت می توانند تأثیر منفی بر معادله رگرسیونی و پیش بینی مقدار متغیر وابسته بر اساس متغیر مستقل داشته باشندد. این کار خروجی تولید Minitab را تغییر می‌دهد و دقت پیش‌بینی نتایج شما را کاهش می‌دهد. خوشبختانه، می‌توانید با استفاده از Minitab نقاط پرت را تشخیص دهید.

فرض شماره 5:

مشاهدات شما باید استقلال داشته باشند، که به راحتی می توانید با استفاده از آزمون ساده Durbin-Watson statistic این فرض را بررسی کنید. که یک آزمون ساده برای اجرا با استفاده از Minitab است، بررسی کنید.

فرض شماره 6:

داده های شما باید همسانی (homoscedasticity) را نشان دهند، جایی که واریانس ها در امتداد “خط بهترین تناسب” باقی می مانند. می‌توانید با استفاده از Minitab با رسم باقیمانده‌های استاندارد شده رگرسیون (egression standardized residuals) در برابر مقدار پیش‌بینی‌شده استاندارد شده رگرسیون (regression standardized predicted) همسانی داده‌های خود را بررسی کنید.

فرض شماره 7:

در نهایت، باید باقیمانده (خطاهای) دو متغیر شما تقریباً توزیع نرمالی داشته باشند. دو روش متداول برای بررسی این فرض وجود دارد: (1) استفاده از هیستوگرام (با منحنی نرمال روی هم قرار داده شده) یا (2) استفاده از Normal P-P Plot. باز هم می توانید این کار را با استفاده از Minitab انجام دهید.

در عمل، بررسی فرضیات #3، #4، #5، #6 و #7 احتمالاً زمانبر خواهد بود. ولی در کل، کار سختی نیست و Minitab تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد.

در بخش بعدی روش Minitab مورد نیاز برای انجام رگرسیون خطی را با فرض اینکه هیچ فرضی نقض نشده است، نشان می‌دهیم. ابتدا، مثالی که برای توضیح روش رگرسیون خطی در Minitab استفاده کرده ایم، را ارائه می‌کنیم.

مثال

یک مربی می خواهد تعیین کند که آیا نمرات امتحانات دانش آموزان با مدت زمان مرور درسی مرتبط است یا خیر. و آیا وقتی دانش آموزان زمان بیشتری را صرف مرور درسی کنند، نمره امتحانی بیشتری کسب می کنند یا نه؟. همچنین معلم می‌خواست توانایی پیش‌بینی نمره امتحان را داشته باشد. به عنوان مثال معلم می‌تواند تعیین کند که دانش‌آموزانی که مثلاً فقط 10 ساعت را صرف مرور درسی کرده‌اند، می‌توانند امتحان خود را قبول شوند یا خیر. بنابراین، متغیر وابسته «نمره امتحان» است که در مقیاس 0 تا 100 اندازه‌گیری شد و متغیر مستقل «مدت زمان مرور درسی» بود که بر حسب ساعت اندازه‌گیری شد.

برای انجام آنالیز، محقق 40 دانش آموز را انتخاب کرد. مدت زمان مرور درسی (یعنی متغیر مستقل، Revision time) و نمرات امتحان (یعنی متغیر وابسته، Exam score) برای همه 40 شرکت‌کننده ثبت شد. محقق از رگرسیون خطی برای تعیین اینکه آیا رابطه آماری معنی داری بین نمره امتحان و مدت زمان مرور درسی وجود دارد یا خیر، استفاده کرد.

توجه: مثال و داده های استفاده شده برای این راهنما ساختگی هستند.

تنظیمات در Minitab

در Minitab دو متغیر خود را در دو ستون اول (C1 و C2) وارد کردیم. در زیر ستون C1 نام متغیر وابسته Exam score و در زیر ستون C2 نام متغیر مستقل Revision time را وارد کردیم. در نهایت نمرات متغیر وابسته Exam score را در ستون Exam score و متغیر مستقل Revision time را در ستون Revision time وارد کردیم. در زیر نشان داده شده است:

توجه: فرقی نمی کند که متغیر وابسته یا مستقل را در زیر کدام ستون (C1 یا C2) وارد کنید.

مراحل آزمون در Minitab

در این بخش، به شما نشان می‌دهیم که چگونه با استفاده از رگرسیون خطی در Minitab داده‌های خود را آنالیز کنید. البته به شرطی که هفت فرض گفته شده در بخش فرضیات نقض نشده‌ باشند. بنابراین، سه مرحله مورد نیاز برای اجرای رگرسیون خطی در Minitab در زیر نشان داده شده است:

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Stat > Regression > Regression…

در منوی اصلی کلیک کنید:

با پنجره ی Regression زیر روبرو خواهید شد:

مرحله (2)

متغیر وابسته، C1 Exam score را به کادر Response و متغیر مستقل، C2 Revision time را به کادر Predictors منتقل کنید. در نهایت با پنجره ی زیر روبرو خواهید شد:

توجه: برای انتقال دو متغیر، ابتدا باید داخل کادر Response کلیک کنید تا دو متغیر شما در کادر سمت چپ اصلی ظاهر شوند (به عنوان مثال، C1 Exam score و C2 Revision time). این کار دکمه انتخاب را فعال می کند که معمولاً به حالت غیر فعال می باشد. کادر Response جایی است که باید متغیر وابسته در آن قرار گیرد و متغیر مستقل، باید به کادر Predictors منتقل شود. بنابراین باید متغیر مناسب را در کادر سمت چپ اصلی انتخاب کنید و آن را منتقل کنید.

مرحله (3)

بر روی دکمه OK کلیک کنید. خروجی Minitab در زیر نشان داده شده است.

خروجی رگرسیون خطی در Minitab

خروجی Minitab برای رگرسیون خطی در زیر نشان داده شده است:

الف. مقدار R² (مقدار R-Sq) نشان‌دهنده نسبت واریانس در متغیر وابسته است که می‌تواند توسط متغیر مستقل ما توضیح داده شود (از نظر فنی این نسبت تغییراتی است که توسط مدل رگرسیون بالاتر و فراتر از مدل میانگین محاسبه می‌شود) . با این حال، R² بر اساس نمونه است و یک تخمین با سوگیری مثبت از نسبت واریانس متغیر وابسته است که توسط مدل رگرسیون به حساب می‌آید (یعنی خیلی بزرگ است).

ب. یک مقدار R² تعدیل شده (مقدار R-Sq(adj))، که سوگیری مثبت را تصحیح می کند تا مقداری را که در جامعه انتظار می رود ارائه کند.

ج. مقدار F (ستون “F”)، درجات آزادی (ستون “DF”) و اهمیت آماری (2-tailed p-value) مدل رگرسیون (ستون “P”) در جدول نشان داده شده اند.

د. ضرایب برای هر دو متغیر (ستون “Coef”)، که اطلاعاتی است که برای پیش بینی متغیر وابسته، نمره امتحان، با استفاده از متغیر مستقل، مدت زمان مرور درسی ، نیاز دارید.

در این مثال، R² = 72.8٪، در حالی که R² تعدیل شده = 72.1٪ می باشد. به این معنی که متغیر مستقل، Revision time، 72.8٪ از تغییرپذیری متغیر وابسته، نمره امتحان را توضیح می دهد. R² تعدیل شده نیز تخمینی از اندازه اثر (effect size) است که در 72.1 درصد نشان دهنده اندازه اثر بزرگی است. در این مثال، مدل رگرسیون از نظر آماری معنادار است F(1, 38) = 101.90, p<.0005. این نشان می دهد که در مجموع، مدل اعمال شده می تواند به طور معنی داری متغیر وابسته یعنی نمره امتحان را پیش بینی کند.

گزارش خروجی رگرسیون خطی

هنگامی که خروجی رگرسیون خطی خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:

الف. مقدمه ای بر آنالیزی که انجام دادید.

ب. اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده بیان شود.

ج. توصیفی مبنی بر وجود رابطه معنی دار آماری بین متغیر وابسته و مستقل، از جمله مقدار F مشاهده شده (F)، درجات آزادی (DF) و سطح معنی داری، یا به طور خاص تر، 2-tailed p-value (P).

د. درصد/نسبت تغییرپذیری متغیر وابسته توسط متغیر مستقل باید توضیح داده شود که همان مقدار R² (R-Sq) است.

ه. معادله رگرسیون برای مدل شما نیز ذکر شود.

بر اساس خروجی Minitab برای مثال بالا، می‌توانیم نتایج این مطالعه را به شرح زیر گزارش کنیم:

یک رگرسیون خطی نشان داد که مدت زمان مرور درسی به‌طور معنی‌داری نمره امتحان را پیش‌بینی می‌کند F(1, 38) = 101.90, p<.0005. زمان صرف شده برای مرور درسی 72.8٪ از تغییرپذیری توضیح داده شده در نمره امتحان را به خود اختصاص می‌دهد.

معادله رگرسیون عبارت بود از:

44.540 + (0.555 x مدت زمان مرور درسی) = نمره پیش بینی شده امتحان

علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار برای ارائه بصری نتایج استفاده کرد. برای مثال، می‌توانید از یک نمودار پراکنده با فواصل اطمینان و فواصل پیش‌بینی (prediction intervals) استفاده کنید. این می تواند درک نتایج شما را برای دیگران آسان تر کند. علاوه بر این، می توانید از معادله رگرسیون خطی خود برای پیش بینی مقدار متغیر وابسته بر اساس مقادیر مختلف متغیر مستقل استفاده کنید.

مطالب زیر را هم از دست ندهید:

رگرسیون خطی (Linear regression) با استفاده از Stata

رگرسیون لجستیک دو جمله ای (Binomial Logistic Regression) با استفاده از Stata

رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab

رگرسیون چندگانه در Stata