رگرسیون خطی با استفاده از SPSS

رگرسیون خطی با استفاده از SPSS

معرفی

رگرسیون خطی (Linear regression) مرحله بعدی همبستگی (correlation) است. زمانی از رگرسیون خطی استفاده می کنیم، که بخواهیم مقدار یک متغیر را بر اساس مقدار متغیر دیگری پیش بینی کنیم. متغیری که می خواهیم پیش بینی کنیم، متغیر وابسته (یا گاهی اوقات، متغیر نتیجه) نامیده می شود. متغیری که برای پیش‌بینی مقدار متغیر دیگر استفاده می‌کنیم، متغیر مستقل (یا گاهی اوقات، متغیر پیش‌بینی‌کننده) نامیده می‌شود. به عنوان مثال، می توانید از رگرسیون خطی برای درک اینکه آیا نمره امتحان بر اساس زمان مرور درسی قابل پیش بینی است یا خیر، استفاده کنید و غیره. اگر به جای یک متغیر، دو یا چند متغیر مستقل دارید، باید از رگرسیون چندگانه استفاده کنید.

این آموزش به شما نحوه انجام رگرسیون خطی با استفاده ازSPSS و همچنین تفسیر و گزارش نتایج این آزمون را نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده های شما باید رعایت کنند تا رگرسیون خطی به شما نتیجه معتبری بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

زمانی استفاده از رگرسیون خطی مناسب است که داده‌های شما از هفت فرض لازم برای رگرسیون خطی عبور کند تا نتیجه معتبری به شما بدهد. در عمل، بررسی این هفت فرض کمی زمان بر خواهد بود شما می‌خواهد بود ولی در کل کار سختی نیست.

فرض شماره 1:

متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود (به عنوان مثال، متغیر فاصله ای (interval) یا نسبتی (ratio) است).

فرض شماره 2:

متغیر مستقل شما نیز باید در سطح پیوسته اندازه گیری شود (یعنی متغیر فاصله ای یا نسبتی است).

فرض شماره 3:

باید یک رابطه خطی بین دو متغیر وجود داشته باشد. در حالی که چندین راه برای بررسی وجود رابطه خطی بین دو متغیر شما وجود دارد، پیشنهاد می کنیم با استفاده ازSPSS یک نمودار پراکندگی (scatterplot) ایجاد کنید که در آن می توانید متغیر وابسته را برحسب متغیر مستقل رسم کنید و سپس به صورت بصری نمودار پراکندگی را برای بررسی خطی بودن بررسی کنید. نمودار پراکندگی شما ممکن است چیزی شبیه به یکی از موارد زیر باشد:

اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک تحلیل رگرسیون غیر خطی انجام دهید، یک رگرسیون چند جمله ای انجام دهید یا داده های خود را “تبدیل” (transform) کنید، که می توانید با استفاده ازSPSS انجام دهید.

فرض شماره 4:

نباید داده های پرت قابل توجهی وجود داشته باشد. داده پرت (outlier) یک نقطه داده مشاهده شده است که دارای یک مقدار متغیر وابسته است که با مقدار پیش بینی شده توسط معادله رگرسیون بسیار متفاوت است. به این ترتیب، داده پرت نقطه ای در یک نمودار پراکنده خواهد بود که (به صورت عمودی) از خط رگرسیون فاصله دارد و همانطور که در زیر مشخص شده است:

مشکل داده های پرت این است که می توانند تأثیر منفی بر تحلیل رگرسیون داشته باشند (به عنوان مثال، تناسب معادله رگرسیون را کاهش دهند) که برای پیش بینی مقدار متغیر وابسته (نتیجه) بر اساس متغیر مستقل (پیش بینی کننده) استفاده می شود. این باعث می شود خروجی تولید شده ازSPSS تغییر یابد و دقت پیش بینی نتایج شما را کاهش پیدا کند. خوشبختانه، هنگام استفاده از SPSS برای اجرای یک رگرسیون خطی، می‌توانید به راحتی داده های پرت را پیدا کنید.

فرض شماره 5:

مشاهدات شما باید، مستقل (independence) باشند که به راحتی می توانید با استفاده از آزمون ساده Durbin-Watson statistic این فرض را بررسی کنید.

فرض شماره 6:

داده های شما باید همسانی (homoscedasticity) را نشان دهند، که در آن واریانس ها بهترین تناسب با حرکت در امتداد خط راست را دارند. به سه نمودار پراکندگی در شکل زیر که سه مثال ساده ارائه می دهند نگاهی بیندازید. در دو مورد از این شکل، داده ها این فرض را بر آورد نمی­کنند و ناهمسانی (heteroscedasticity) را نشان می دهند و فقط در نمودار سمت راست، داده ها این فرض را برآورده می کنند. این نمودار ها به درک تفاوت‌های داده‌هایی که با فرض همسانی مطابقت دارد یا آن را نقض می‌کند، کمک می‌کنند. با این حال داده‌های دنیای واقعی می‌توانند بسیار آشفته‌تر باشند و الگوهای مختلف ناهمسانی را نشان دهند.

فرض شماره 7:

در نهایت، شما باید بررسی کنید که باقیمانده‌ها (خطاهای) خط رگرسیون تقریباً به طور نرمال توزیع شده‌ باشند. دو روش متداول “استفاده از هیستوگرام” (با منحنی نرمال روی هم قرار داده شده) یا “نمودار P-P نرمال” برای بررسی این فرض وجود دارند.

با استفاده از SPSS می توانید فرضیات #3، #4، #5، #6 و #7 را بررسی کنید. پیش از بررسی فرضیات شماره 4، 5، 6 و 7 ابتدا باید فرضیات شماره 3 بررسی شوند. ما پیشنهاد می‌کنیم فرضیات را به این ترتیب گفته شده آزمایش کنید زیرا فرضیات #3، #4، #5، #6 و #7 از شما می‌خواهند که ابتدا رگرسیون خطی را در SPSS اجرا کنید، بنابراین پس از بررسی فرض شماره 1 و 2 رسیدگی به این موارد آسان‌تر است. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای رگرسیون خطی به دست می آورید ممکن است معتبر نباشند.

در بخش بعدی، روش SPSS را برای انجام یک رگرسیون خطی با فرض اینکه هیچ فرضی گفته شده در بالا، نقض نشده است، نشان می‌دهیم. ابتدا مثالی را که در این آموزش استفاده شده معرفی می کنیم.

مثال

یک فروشنده برای یک برند بزرگ خودرو می خواهد تعیین کند که آیا رابطه ای بین درآمد یک فرد و قیمتی که برای یک ماشین می پردازد وجود دارد یا خیر. به این ترتیب، «درآمد» افراد، متغیر مستقل و «قیمت»ی که برای خودرو می پردازند، متغیر وابسته است. فروشنده از این اطلاعات استفاده می کند تا بداند کدام خودروها را به مشتریان بالقوه در مناطق جدیدی که درآمد متوسط آن مشخص است، ارائه دهد.

 

تنظیمات در SPSS

در SPSS دو متغیر ایجاد کردیم تا بتوانیم داده های خود را وارد کنیم. درآمد متغیر مستقل و قیمت متغیر وابسته می باشند. همچنین ایجاد یک متغیر سوم ، “به عنوان یک شماره پرونده به ترتیب” (chronological case number) می تواند مفید باشد. این متغیر سوم برای حذف نقاط (مثلاً داه های پرت مهم) که هنگام بررسی فرضیات شناسایی کرده‌اید، به شما کمک می کند. با این حال، ما را در روش SPSS ی که در ادامه بیان میکنیم، در نظر نمیگیریم، زیرا فرض می‌کنیم که شما قبلاً این تمام این فرضیات را بررسی کرده‌اید.

روش آزمون در SPSS

چهار مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از رگرسیون خطی در SPSS تجزیه و تحلیل کنید، در صورتی که هیچ یک از هفت فرض در بخش قبلی، فرضیات، نقض نشده است. در پایان این 4 مرحله، ما به شما نشان می دهیم که چگونه نتایج رگرسیون خطی خود را تفسیر کنید.

توجه: روش زیر برای SPSS ورژن های 18 تا 28 یکسان است. با این حال در ورژن 27 SPSS Statistics ظاهر جدیدی  به نام “SPSS Light” معرفی شده و جایگزین ظاهر قبلی ورژن 26 و ورژن های قبلی که “SPSS Standard” نام داشت، شده است . با این حال، روش یکسان است.

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Analyze > Regression > Linear…

در منوی اصلی کلیک کنید:

با پنجره ی Linear Regression روبرو خواهید شد:

مرحله (2)

متغیر مستقل، را به کادر Independent(s) و متغیر وابسته، را به کادر Dependent منتقل کنید. شما می توانید این کار را با کشیدن و رها کردن متغیرها یا با استفاده از دکمه های فلش انجام دهید. در نهایت با صفحه زیر مواجه خواهید شد:

مرحله (3)

اکنون باید چهار مورد از فرضیاتی را که در بخش فرضیات مورد بحث قرار گرفته اند بررسی کنید. استقلال مشاهدات (فرض شماره 4)؛ همسانی (فرض شماره 5)؛ و توزیع نرمال خطاها/باقیمانده ها (فرض شماره 6). می توانید این کار را با استفاده از ویژگی های Statistics و Plots و سپس انتخاب گزینه های مناسب در این دو پنجره انجام دهید.

مرحله (4)

بعد از بررسی این فرضیات، بر روی دکمه OK کلیک کنید. انجام این کارها باعث تولید نتایج خواهد شد.

خروجی رگرسیون خطی

SPSS تعداد زیادی جدول خروجی را برای یک رگرسیون خطی تولید می کند. در این بخش، ما تنها سه جدول اصلی مورد نیاز برای درک نتایج خود از روش رگرسیون خطی را به شما نشان می دهیم، با این فرض که هیچ فرضی نقض نشده است.

جدول خلاصه مدل (Model Summary)

اولین جدول مهم، جدول خلاصه مدل (Model Summary) است که در زیر نشان داده شده است:

این جدول مقادیر R و R2 را ارائه می دهد. مقدار R نشان دهنده همبستگی ساده با مقدار 0.873 است (ستون “R”) که نشان دهنده درجه بالایی از همبستگی است. مقدار R2 (ستون “R Square”) نشان می دهد که چه مقدار از کل تغییرات متغیر وابسته، قیمت، را می توان با متغیر مستقل، درآمد توضیح داد. در این مورد 76.2 درصد قابل توضیح است که بسیار بزرگ است.

جدول ANOVA

جدول بعدی جدول ANOVA است که میزان تناسب معادله رگرسیون با داده ها را گزارش می دهد (یعنی متغیر وابسته را پیش بینی می کند) و در زیر نشان داده شده است:

این جدول نشان می دهد که مدل رگرسیون متغیر وابسته را به خوبی پیش بینی می کند. چگونه این را بدانیم؟ به ردیف “Regression” نگاه کنید و به ستون “Sig” بروید. این مقدار نشان دهنده اهمیت آماری مدل رگرسیونی است که اجرا شد. در اینجا، p<0.0005 است، و نشان می دهد که، به طور کلی، که با p<0.05 مدل رگرسیون از نظر آماری به طور قابل توجهی متغیر نتیجه را پیش بینی می کند (یعنی تناسب خوبی برای داده ها وجود دارد).

جدول ضرایب (Coefficients)

جدول ضرایب (Coefficients) اطلاعات لازم را برای پیش‌بینی قیمت از درآمد و همچنین تعیین اینکه آیا درآمد از نظر آماری به طور قابل توجهی به مدل کمک می‌کن دیا نه (با مشاهده ستون “Sig”) در اختیار ما قرار می‌دهد. علاوه بر این، می‌توانیم از مقادیر موجود در ستون “B” در زیر ستون “Unstandardized Coefficients” (ضرایب غیر استاندارد) مانند شکل زیر استفاده کنیم:

در نهایت معادله رگرسیون را به صورت زیر ارائه می کنیم:

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

10 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *