رگرسیون خطی (Linear regression) با استفاده از Minitab
مقدمه
رگرسیون خطی (Linear regression) که به آن رگرسیون خطی ساده یا رگرسیون خطی دو متغیره نیز گفته می شود، زمانی استفاده می شود که بخواهیم مقدار یک متغیر وابسته را بر اساس مقدار یک متغیر مستقل پیش بینی کنیم. متغیر وابسته را می توان متغیر نتیجه، هدف یا معیار نامید، در حالی که متغیر مستقل را به عنوان متغیر پیش بینی کننده، توضیحی یا رگرسیون شناخته می شود.
برای مثال، میتوانید از رگرسیون خطی استفاده کنید تا بفهمید آیا میزان اضطراب امتحان را میتوان بر اساس مدت زمانی که صرف مرور درسی شده، پیشبینی کرد یا نه؟. در این مثال متغیر وابسته «اضطراب امتحان» است، که با استفاده از شاخص اضطراب اندازهگیری میشود، و متغیر مستقل «مدت زمان مرور درسی» است که بر حسب ساعت اندازه گیری می شود. از طرف دیگر، میتوانید از رگرسیون خطی برای درک اینکه آیا غلظت کلسترول (چربی در خون مرتبط با بیماری قلبی) را میتوان بر اساس زمان صرف شده برای ورزش پیشبینی کرد یا نه؟. در اینجا یعنی متغیر وابسته «غلظت کلسترول» است که بر حسب میلیمول در لیتر اندازهگیری میشود و متغیر مستقل “زمان صرف شده برای ورزش” است که بر حسب ساعت اندازه گیری می شود.
توجه: اگر به جای یک متغیر، دو یا چند متغیر مستقل دارید، باید از رگرسیون چندگانه (multiple regression) استفاده کنید. از طرف دیگر، اگر فقط می خواهید مشخص کنید که آیا یک رابطه خطی وجود دارد یا خیر، اما پیش بینی نمی کنید، می توانید از همبستگی پیرسون (Pearson’s correlation) استفاده کنید. اگر متغیر وابسته شما دو وضعیتی (dichotomous) است، می توانید از رگرسیون لجستیک دو جمله ای استفاده کنید.
در این راهنما، نحوه انجام رگرسیون خطی با استفاده از Minitab و همچنین تفسیر و گزارش نتایج این آزمون را به شما نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده های شما باید رعایت کنند تا رگرسیون خطی به شما نتیجه معتبری بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
رگرسیون خطی دارای هفت فرض است. شما نمی توانید دو فرض اول را با Minitab آزمایش کنید زیرا به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود. با این حال، باید بررسی کنید که آیا مطالعه شما با این فرضیات مطابقت دارد یا خیر. اگر این فرضیات برآورده نشوند، باید از یک آزمون آماری دیگری به جای آن استفاده کنید. فرضیات #1 و #2 در زیر توضیح داده شده است:
فرض شماره 1:
متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود (یعنی یک متغیر فاصله ای (interval) یا نسبتی (ratio) است). نمونههایی از این متغیرهای پیوسته عبارتند از: ارتفاع، دما، حقوق و دستمزد، زمان، هوش، سن، توان خروجی (اندازه گیری شده بر حسب وات)، نمره امتحان، میزان فروش (بر حسب تعداد تراکنش در ماه اندازه گیری می شود) و غیره می باشد.
فرض شماره 2:
متغیر مستقل شما باید در سطح پیوسته یا طبقه ای (categorical) اندازه گیری شود. با این حال، اگر یک متغیر مستقل طبقه بندی دارید، بهتر است از آزمون t مستقل (برای دو گروه) یا ANOVA یک طرفه (برای سه گروه یا بیشتر) استفاده کنید. نمونه هایی از متغیرهای طبقه ای شامل جنسیت (به عنوان مثال، دو گروه: مرد و زن)، قومیت (به عنوان مثال، سه گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، سطح فعالیت بدنی (به عنوان مثال، چهار گروه: بی تحرک، کم تحرک، تحرک متوسط و پرتحرک) و حرفه (به عنوان مثال، پنج گروه: جراح، پزشک، پرستار، دندانپزشک، درمانگر) و غیره می باشد. در این راهنما، روش رگرسیون خطی و خروجی Minitab را زمانی که متغیرهای وابسته و مستقل شما در سطح پیوسته اندازهگیری میشوند، به شما نشان میدهیم.
فرضیات #3، #4، #5، #6 و #7 به ماهیت داده های شما مربوط می شود و می توان با استفاده از Minitab بررسی کرد. شما باید این فرضیات را بررسی کنید، در غیر این صورت ممکن است ، نتایجی که هنگام اجرای رگرسیون خطی به دست میآورید معتبر نباشند. فرضیات #3، #4، #5، #6 و #7 در زیر توضیح داده شده است:
فرض شماره 3:
باید یک رابطه خطی بین متغیرهای وابسته و مستقل وجود داشته باشد. روشهای مختلفی برای بررسی وجود رابطه خطی بین دو متغیر شما وجود دارد. با اینحل، پیشنهاد میکنیم با استفاده از Minitab یک Scatterplot (نمودار پراکندگی یا نقطه ای) ایجاد کنید و متغیر وابسته را نسبت به متغیر مستقل رسم کنید. سپس می توانید به صورت بصری خطی بودن را بررسی کنید. اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک آنالیز رگرسیون غیر خطی دیگری انجام دهید و یا اینکه داده های خود را “تبدیل” (transform) کنید، که این کار با استفاده از Minitab قابل انجام است.
فرض شماره 4:
نباید نقاط پرت (outliers) قابل توجهی وجود داشته باشد. داده پرت یک نقطه در مجموعه داده شما است که از الگوی معمول پیروی نمی کند. نقاط پرت می توانند تأثیر منفی بر معادله رگرسیونی و پیش بینی مقدار متغیر وابسته بر اساس متغیر مستقل داشته باشندد. این کار خروجی تولید Minitab را تغییر میدهد و دقت پیشبینی نتایج شما را کاهش میدهد. خوشبختانه، میتوانید با استفاده از Minitab نقاط پرت را تشخیص دهید.
فرض شماره 5:
مشاهدات شما باید استقلال داشته باشند، که به راحتی می توانید با استفاده از آزمون ساده Durbin-Watson statistic این فرض را بررسی کنید. که یک آزمون ساده برای اجرا با استفاده از Minitab است، بررسی کنید.
فرض شماره 6:
داده های شما باید همسانی (homoscedasticity) را نشان دهند، جایی که واریانس ها در امتداد “خط بهترین تناسب” باقی می مانند. میتوانید با استفاده از Minitab با رسم باقیماندههای استاندارد شده رگرسیون (egression standardized residuals) در برابر مقدار پیشبینیشده استاندارد شده رگرسیون (regression standardized predicted) همسانی دادههای خود را بررسی کنید.
فرض شماره 7:
در نهایت، باید باقیمانده (خطاهای) دو متغیر شما تقریباً توزیع نرمالی داشته باشند. دو روش متداول برای بررسی این فرض وجود دارد: (1) استفاده از هیستوگرام (با منحنی نرمال روی هم قرار داده شده) یا (2) استفاده از Normal P-P Plot. باز هم می توانید این کار را با استفاده از Minitab انجام دهید.
در عمل، بررسی فرضیات #3، #4، #5، #6 و #7 احتمالاً زمانبر خواهد بود. ولی در کل، کار سختی نیست و Minitab تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد.
در بخش بعدی روش Minitab مورد نیاز برای انجام رگرسیون خطی را با فرض اینکه هیچ فرضی نقض نشده است، نشان میدهیم. ابتدا، مثالی که برای توضیح روش رگرسیون خطی در Minitab استفاده کرده ایم، را ارائه میکنیم.
مثال
یک مربی می خواهد تعیین کند که آیا نمرات امتحانات دانش آموزان با مدت زمان مرور درسی مرتبط است یا خیر. و آیا وقتی دانش آموزان زمان بیشتری را صرف مرور درسی کنند، نمره امتحانی بیشتری کسب می کنند یا نه؟. همچنین معلم میخواست توانایی پیشبینی نمره امتحان را داشته باشد. به عنوان مثال معلم میتواند تعیین کند که دانشآموزانی که مثلاً فقط 10 ساعت را صرف مرور درسی کردهاند، میتوانند امتحان خود را قبول شوند یا خیر. بنابراین، متغیر وابسته «نمره امتحان» است که در مقیاس 0 تا 100 اندازهگیری شد و متغیر مستقل «مدت زمان مرور درسی» بود که بر حسب ساعت اندازهگیری شد.
برای انجام آنالیز، محقق 40 دانش آموز را انتخاب کرد. مدت زمان مرور درسی (یعنی متغیر مستقل، Revision time) و نمرات امتحان (یعنی متغیر وابسته، Exam score) برای همه 40 شرکتکننده ثبت شد. محقق از رگرسیون خطی برای تعیین اینکه آیا رابطه آماری معنی داری بین نمره امتحان و مدت زمان مرور درسی وجود دارد یا خیر، استفاده کرد.
توجه: مثال و داده های استفاده شده برای این راهنما ساختگی هستند.
تنظیمات در Minitab
در Minitab دو متغیر خود را در دو ستون اول (C1 و C2) وارد کردیم. در زیر ستون C1 نام متغیر وابسته Exam score و در زیر ستون C2 نام متغیر مستقل Revision time را وارد کردیم. در نهایت نمرات متغیر وابسته Exam score را در ستون Exam score و متغیر مستقل Revision time را در ستون Revision time وارد کردیم. در زیر نشان داده شده است:
توجه: فرقی نمی کند که متغیر وابسته یا مستقل را در زیر کدام ستون (C1 یا C2) وارد کنید.
مراحل آزمون در Minitab
در این بخش، به شما نشان میدهیم که چگونه با استفاده از رگرسیون خطی در Minitab دادههای خود را آنالیز کنید. البته به شرطی که هفت فرض گفته شده در بخش فرضیات نقض نشده باشند. بنابراین، سه مرحله مورد نیاز برای اجرای رگرسیون خطی در Minitab در زیر نشان داده شده است:
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Stat > Regression > Regression…
در منوی اصلی کلیک کنید:
با پنجره ی Regression زیر روبرو خواهید شد:
مرحله (2)
متغیر وابسته، C1 Exam score را به کادر Response و متغیر مستقل، C2 Revision time را به کادر Predictors منتقل کنید. در نهایت با پنجره ی زیر روبرو خواهید شد:
توجه: برای انتقال دو متغیر، ابتدا باید داخل کادر Response کلیک کنید تا دو متغیر شما در کادر سمت چپ اصلی ظاهر شوند (به عنوان مثال، C1 Exam score و C2 Revision time). این کار دکمه انتخاب را فعال می کند که معمولاً به حالت غیر فعال
می باشد. کادر Response جایی است که باید متغیر وابسته در آن قرار گیرد و متغیر مستقل، باید به کادر Predictors منتقل شود. بنابراین باید متغیر مناسب را در کادر سمت چپ اصلی انتخاب کنید و آن را منتقل کنید.
مرحله (3)
بر روی دکمه OK کلیک کنید. خروجی Minitab در زیر نشان داده شده است.
خروجی رگرسیون خطی در Minitab
خروجی Minitab برای رگرسیون خطی در زیر نشان داده شده است:
الف. مقدار R2 (مقدار R-Sq) نشاندهنده نسبت واریانس در متغیر وابسته است که میتواند توسط متغیر مستقل ما توضیح داده شود (از نظر فنی این نسبت تغییراتی است که توسط مدل رگرسیون بالاتر و فراتر از مدل میانگین محاسبه میشود) . با این حال، R2 بر اساس نمونه است و یک تخمین با سوگیری مثبت از نسبت واریانس متغیر وابسته است که توسط مدل رگرسیون به حساب میآید (یعنی خیلی بزرگ است).
ب. یک مقدار R2 تعدیل شده (مقدار R-Sq(adj))، که سوگیری مثبت را تصحیح می کند تا مقداری را که در جامعه انتظار می رود ارائه کند.
ج. مقدار F (ستون “F”)، درجات آزادی (ستون “DF”) و اهمیت آماری (2-tailed p-value) مدل رگرسیون (ستون “P”) در جدول نشان داده شده اند.
د. ضرایب برای هر دو متغیر (ستون “Coef”)، که اطلاعاتی است که برای پیش بینی متغیر وابسته، نمره امتحان، با استفاده از متغیر مستقل، مدت زمان مرور درسی ، نیاز دارید.
در این مثال، R2 = 72.8٪، در حالی که R2 تعدیل شده = 72.1٪ می باشد. به این معنی که متغیر مستقل، Revision time، 72.8٪ از تغییرپذیری متغیر وابسته، نمره امتحان را توضیح می دهد. R2 تعدیل شده نیز تخمینی از اندازه اثر (effect size) است که در 72.1 درصد نشان دهنده اندازه اثر بزرگی است. در این مثال، مدل رگرسیون از نظر آماری معنادار است F(1, 38) = 101.90, p<.0005. این نشان می دهد که در مجموع، مدل اعمال شده می تواند به طور معنی داری متغیر وابسته یعنی نمره امتحان را پیش بینی کند.
گزارش خروجی رگرسیون خطی
هنگامی که خروجی رگرسیون خطی خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:
الف. مقدمه ای بر آنالیزی که انجام دادید.
ب. اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده بیان شود.
ج. توصیفی مبنی بر وجود رابطه معنی دار آماری بین متغیر وابسته و مستقل، از جمله مقدار F مشاهده شده (F)، درجات آزادی (DF) و سطح معنی داری، یا به طور خاص تر، 2-tailed p-value (P).
د. درصد/نسبت تغییرپذیری متغیر وابسته توسط متغیر مستقل باید توضیح داده شود که همان مقدار R2 (R-Sq) است.
ه. معادله رگرسیون برای مدل شما نیز ذکر شود.
بر اساس خروجی Minitab برای مثال بالا، میتوانیم نتایج این مطالعه را به شرح زیر گزارش کنیم:
یک رگرسیون خطی نشان داد که مدت زمان مرور درسی بهطور معنیداری نمره امتحان را پیشبینی میکند F(1, 38) = 101.90, p<.0005. زمان صرف شده برای مرور درسی 72.8٪ از تغییرپذیری توضیح داده شده در نمره امتحان را به خود اختصاص میدهد.
معادله رگرسیون عبارت بود از:
44.540 + (0.555 x مدت زمان مرور درسی) = نمره پیش بینی شده امتحان
علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار برای ارائه بصری نتایج استفاده کرد. برای مثال، میتوانید از یک نمودار پراکنده با فواصل اطمینان و فواصل پیشبینی (prediction intervals) استفاده کنید. این می تواند درک نتایج شما را برای دیگران آسان تر کند. علاوه بر این، می توانید از معادله رگرسیون خطی خود برای پیش بینی مقدار متغیر وابسته بر اساس مقادیر مختلف متغیر مستقل استفاده کنید.
مطالب زیر را هم از دست ندهید:
رگرسیون خطی (Linear regression) با استفاده از Stata
رگرسیون لجستیک دو جمله ای (Binomial Logistic Regression) با استفاده از Stata
رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab
رگرسیون لجستیک چند جمله ای در SPSS
رگرسیون پواسون با استفاده از SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS