رگرسیون خطی با استفاده از SPSS
معرفی
رگرسیون خطی (Linear regression) مرحله بعدی همبستگی (correlation) است. زمانی از رگرسیون خطی استفاده می کنیم، که بخواهیم مقدار یک متغیر را بر اساس مقدار متغیر دیگری پیش بینی کنیم. متغیری که می خواهیم پیش بینی کنیم، متغیر وابسته (یا گاهی اوقات، متغیر نتیجه) نامیده می شود. متغیری که برای پیشبینی مقدار متغیر دیگر استفاده میکنیم، متغیر مستقل (یا گاهی اوقات، متغیر پیشبینیکننده) نامیده میشود. به عنوان مثال، می توانید از رگرسیون خطی برای درک اینکه آیا نمره امتحان بر اساس زمان مرور درسی قابل پیش بینی است یا خیر، استفاده کنید و غیره. اگر به جای یک متغیر، دو یا چند متغیر مستقل دارید، باید از رگرسیون چندگانه استفاده کنید.
این آموزش به شما نحوه انجام رگرسیون خطی با استفاده ازSPSS و همچنین تفسیر و گزارش نتایج این آزمون را نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده های شما باید رعایت کنند تا رگرسیون خطی به شما نتیجه معتبری بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
زمانی استفاده از رگرسیون خطی مناسب است که دادههای شما از هفت فرض لازم برای رگرسیون خطی عبور کند تا نتیجه معتبری به شما بدهد. در عمل، بررسی این هفت فرض کمی زمان بر خواهد بود شما میخواهد بود ولی در کل کار سختی نیست.
فرض شماره 1:
متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود (به عنوان مثال، متغیر فاصله ای (interval) یا نسبتی (ratio) است).
فرض شماره 2:
متغیر مستقل شما نیز باید در سطح پیوسته اندازه گیری شود (یعنی متغیر فاصله ای یا نسبتی است).
فرض شماره 3:
باید یک رابطه خطی بین دو متغیر وجود داشته باشد. در حالی که چندین راه برای بررسی وجود رابطه خطی بین دو متغیر شما وجود دارد، پیشنهاد می کنیم با استفاده ازSPSS یک نمودار پراکندگی (scatterplot) ایجاد کنید که در آن می توانید متغیر وابسته را برحسب متغیر مستقل رسم کنید و سپس به صورت بصری نمودار پراکندگی را برای بررسی خطی بودن بررسی کنید. نمودار پراکندگی شما ممکن است چیزی شبیه به یکی از موارد زیر باشد:
اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک تحلیل رگرسیون غیر خطی انجام دهید، یک رگرسیون چند جمله ای انجام دهید یا داده های خود را “تبدیل” (transform) کنید، که می توانید با استفاده ازSPSS انجام دهید.
فرض شماره 4:
نباید داده های پرت قابل توجهی وجود داشته باشد. داده پرت (outlier) یک نقطه داده مشاهده شده است که دارای یک مقدار متغیر وابسته است که با مقدار پیش بینی شده توسط معادله رگرسیون بسیار متفاوت است. به این ترتیب، داده پرت نقطه ای در یک نمودار پراکنده خواهد بود که (به صورت عمودی) از خط رگرسیون فاصله دارد و همانطور که در زیر مشخص شده است:
مشکل داده های پرت این است که می توانند تأثیر منفی بر تحلیل رگرسیون داشته باشند (به عنوان مثال، تناسب معادله رگرسیون را کاهش دهند) که برای پیش بینی مقدار متغیر وابسته (نتیجه) بر اساس متغیر مستقل (پیش بینی کننده) استفاده می شود. این باعث می شود خروجی تولید شده ازSPSS تغییر یابد و دقت پیش بینی نتایج شما را کاهش پیدا کند. خوشبختانه، هنگام استفاده از SPSS برای اجرای یک رگرسیون خطی، میتوانید به راحتی داده های پرت را پیدا کنید.
فرض شماره 5:
مشاهدات شما باید، مستقل (independence) باشند که به راحتی می توانید با استفاده از آزمون ساده Durbin-Watson statistic این فرض را بررسی کنید.
فرض شماره 6:
داده های شما باید همسانی (homoscedasticity) را نشان دهند، که در آن واریانس ها بهترین تناسب با حرکت در امتداد خط راست را دارند. به سه نمودار پراکندگی در شکل زیر که سه مثال ساده ارائه می دهند نگاهی بیندازید. در دو مورد از این شکل، داده ها این فرض را بر آورد نمیکنند و ناهمسانی (heteroscedasticity) را نشان می دهند و فقط در نمودار سمت راست، داده ها این فرض را برآورده می کنند. این نمودار ها به درک تفاوتهای دادههایی که با فرض همسانی مطابقت دارد یا آن را نقض میکند، کمک میکنند. با این حال دادههای دنیای واقعی میتوانند بسیار آشفتهتر باشند و الگوهای مختلف ناهمسانی را نشان دهند.
فرض شماره 7:
در نهایت، شما باید بررسی کنید که باقیماندهها (خطاهای) خط رگرسیون تقریباً به طور نرمال توزیع شده باشند. دو روش متداول “استفاده از هیستوگرام” (با منحنی نرمال روی هم قرار داده شده) یا “نمودار P-P نرمال” برای بررسی این فرض وجود دارند.
با استفاده از SPSS می توانید فرضیات #3، #4، #5، #6 و #7 را بررسی کنید. پیش از بررسی فرضیات شماره 4، 5، 6 و 7 ابتدا باید فرضیات شماره 3 بررسی شوند. ما پیشنهاد میکنیم فرضیات را به این ترتیب گفته شده آزمایش کنید زیرا فرضیات #3، #4، #5، #6 و #7 از شما میخواهند که ابتدا رگرسیون خطی را در SPSS اجرا کنید، بنابراین پس از بررسی فرض شماره 1 و 2 رسیدگی به این موارد آسانتر است. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای رگرسیون خطی به دست می آورید ممکن است معتبر نباشند.
در بخش بعدی، روش SPSS را برای انجام یک رگرسیون خطی با فرض اینکه هیچ فرضی گفته شده در بالا، نقض نشده است، نشان میدهیم. ابتدا مثالی را که در این آموزش استفاده شده معرفی می کنیم.
مثال
یک فروشنده برای یک برند بزرگ خودرو می خواهد تعیین کند که آیا رابطه ای بین درآمد یک فرد و قیمتی که برای یک ماشین می پردازد وجود دارد یا خیر. به این ترتیب، «درآمد» افراد، متغیر مستقل و «قیمت»ی که برای خودرو می پردازند، متغیر وابسته است. فروشنده از این اطلاعات استفاده می کند تا بداند کدام خودروها را به مشتریان بالقوه در مناطق جدیدی که درآمد متوسط آن مشخص است، ارائه دهد.
تنظیمات در SPSS
در SPSS دو متغیر ایجاد کردیم تا بتوانیم داده های خود را وارد کنیم. درآمد متغیر مستقل و قیمت
متغیر وابسته می باشند. همچنین ایجاد یک متغیر سوم
، “به عنوان یک شماره پرونده به ترتیب” (chronological case number) می تواند مفید باشد. این متغیر سوم برای حذف نقاط (مثلاً داه های پرت مهم) که هنگام بررسی فرضیات شناسایی کردهاید، به شما کمک می کند. با این حال، ما
را در روش SPSS ی که در ادامه بیان میکنیم، در نظر نمیگیریم، زیرا فرض میکنیم که شما قبلاً این تمام این فرضیات را بررسی کردهاید.
روش آزمون در SPSS
چهار مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از رگرسیون خطی در SPSS تجزیه و تحلیل کنید، در صورتی که هیچ یک از هفت فرض در بخش قبلی، فرضیات، نقض نشده است. در پایان این 4 مرحله، ما به شما نشان می دهیم که چگونه نتایج رگرسیون خطی خود را تفسیر کنید.
توجه: روش زیر برای SPSS ورژن های 18 تا 28 یکسان است. با این حال در ورژن 27 SPSS Statistics ظاهر جدیدی به نام “SPSS Light” معرفی شده و جایگزین ظاهر قبلی ورژن 26 و ورژن های قبلی که “SPSS Standard” نام داشت، شده است . با این حال، روش یکسان است.
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Analyze > Regression > Linear…
در منوی اصلی کلیک کنید:
با پنجره ی Linear Regression روبرو خواهید شد:
مرحله (2)
متغیر مستقل، را به کادر Independent(s) و متغیر وابسته،
را به کادر Dependent منتقل کنید. شما می توانید این کار را با کشیدن و رها کردن متغیرها یا با استفاده از دکمه های فلش
انجام دهید. در نهایت با صفحه زیر مواجه خواهید شد:
مرحله (3)
اکنون باید چهار مورد از فرضیاتی را که در بخش فرضیات مورد بحث قرار گرفته اند بررسی کنید. استقلال مشاهدات (فرض شماره 4)؛ همسانی (فرض شماره 5)؛ و توزیع نرمال خطاها/باقیمانده ها (فرض شماره 6). می توانید این کار را با استفاده از ویژگی های Statistics و Plots و سپس انتخاب گزینه های مناسب در این دو پنجره انجام دهید.
مرحله (4)
بعد از بررسی این فرضیات، بر روی دکمه OK کلیک کنید. انجام این کارها باعث تولید نتایج خواهد شد.
خروجی رگرسیون خطی
SPSS تعداد زیادی جدول خروجی را برای یک رگرسیون خطی تولید می کند. در این بخش، ما تنها سه جدول اصلی مورد نیاز برای درک نتایج خود از روش رگرسیون خطی را به شما نشان می دهیم، با این فرض که هیچ فرضی نقض نشده است.
جدول خلاصه مدل (Model Summary)
اولین جدول مهم، جدول خلاصه مدل (Model Summary) است که در زیر نشان داده شده است:
این جدول مقادیر R و R2 را ارائه می دهد. مقدار R نشان دهنده همبستگی ساده با مقدار 0.873 است (ستون “R”) که نشان دهنده درجه بالایی از همبستگی است. مقدار R2 (ستون “R Square”) نشان می دهد که چه مقدار از کل تغییرات متغیر وابسته، قیمت، را می توان با متغیر مستقل، درآمد توضیح داد. در این مورد 76.2 درصد قابل توضیح است که بسیار بزرگ است.
جدول ANOVA
جدول بعدی جدول ANOVA است که میزان تناسب معادله رگرسیون با داده ها را گزارش می دهد (یعنی متغیر وابسته را پیش بینی می کند) و در زیر نشان داده شده است:
این جدول نشان می دهد که مدل رگرسیون متغیر وابسته را به خوبی پیش بینی می کند. چگونه این را بدانیم؟ به ردیف “Regression” نگاه کنید و به ستون “Sig” بروید. این مقدار نشان دهنده اهمیت آماری مدل رگرسیونی است که اجرا شد. در اینجا، p<0.0005 است، و نشان می دهد که، به طور کلی، که با p<0.05 مدل رگرسیون از نظر آماری به طور قابل توجهی متغیر نتیجه را پیش بینی می کند (یعنی تناسب خوبی برای داده ها وجود دارد).
جدول ضرایب (Coefficients)
جدول ضرایب (Coefficients) اطلاعات لازم را برای پیشبینی قیمت از درآمد و همچنین تعیین اینکه آیا درآمد از نظر آماری به طور قابل توجهی به مدل کمک میکن دیا نه (با مشاهده ستون “Sig”) در اختیار ما قرار میدهد. علاوه بر این، میتوانیم از مقادیر موجود در ستون “B” در زیر ستون “Unstandardized Coefficients” (ضرایب غیر استاندارد) مانند شکل زیر استفاده کنیم:
در نهایت معادله رگرسیون را به صورت زیر ارائه می کنیم:
10 پاسخ