رگرسیون لجستیک چند جمله ای با استفاده از SPSS Statistics
معرفی
رگرسیون لجستیک چند جمله ای (Multinomial logistic regression) (که اغلب فقط “رگرسیون چند جمله ای” نامیده می شود) برای پیش بینی یک متغیر وابسته اسمی با توجه به یک یا چند متغیر مستقل استفاده می شود. گاهی اوقات به عنوان بسط رگرسیون لجستیک دو جمله ای در نظر گرفته می شود تا یک متغیر وابسته با بیش از دو دسته را مجاز کند. همانند سایر انواع رگرسیون، رگرسیون لجستیک چند جمله ای می تواند متغیرهای مستقل اسمی و/یا پیوسته داشته باشد و می تواند برهمکنش هایی بین متغیرهای مستقل برای پیش بینی متغیر وابسته داشته باشد.
به عنوان مثال، میتوانید از رگرسیون لجستیک چند جملهای استفاده کنید تا بفهمید مصرفکنندگان کدام نوع نوشیدنی را بر اساس موقعیت مکانی و سن ترجیح میدهند (به عنوان مثال، متغیر وابسته «نوع نوشیدنی» است، با چهار دسته: قهوه، نوشابه، چای و آب – و متغیرهای مستقل شما، متغیر اسمی «مکان» است که با استفاده از سه دسته ارزیابی میشود – خانه، رستوران و مدرسه و متغیر پیوسته، «سن» که بر حسب سال اندازهگیری میشود). همچنین می توانید از رگرسیون لجستیک چند جمله ای برای درک اینکه آیا عواملی مانند مدت زمان استخدام در شرکت، مدت زمان کل اشتغال، شرایط تحصیلی و جنسیت بر موقعیت شغلی یک فرد تأثیر می گذارد یا نه استفاده کنید (یعنی متغیر وابسته «موقعیت شغلی» با سه دسته است کارمند، معاون و مدیر و متغیرهای مستقل متغیرهای پیوسته، «مدت زمان اشتغال در شرکت» که بر حسب سال اندازهگیری میشود، متغیرهای اسمی، « شرایط تحصیلی» با چهار دسته بدون مدرک تحصیلی، کارشناسی، کارشناسی ارشد و دکتری و «جنسیت» که دارای دو دسته «مرد» و «زن» است).
این آموزشی به شما نشان می دهد که چگونه یک رگرسیون لجستیک چند جمله ای را با استفاده از SPSS Statistics انجام دهید و برخی از جداول تولید شده توسط SPSS Statistics را توضیح دهید. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که دادههای شما باید رعایت کنند تا یک رگرسیون لجستیک چند جملهای به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
هنگامی که تصمیم می گیرید داده های خود را با استفاده از رگرسیون لجستیک چند جمله ای تجزیه و تحلیل کنید، باید بررسی کنید که آیا داده های شما می توانند با استفاده از رگرسیون لجستیک چند جمله ای تجزیه و تحلیل شوند یا نه. شما باید این کار را انجام دهید. زیرا استفاده از رگرسیون لجستیک چند جمله ای تنها زمانی مناسب است که داده های شما از شش فرضی که برای رگرسیون لجستیک چند جمله ای برای ارائه یک نتیجه معتبر لازم است، عبور کند. در عمل، بررسی این شش فرض کمی زمان بر است. با اینحال، کار سختی نیست.
فرض شماره 1:
متغیر وابسته شما باید در سطح اسمی اندازه گیری شود. نمونه هایی از متغیرهای اسمی شامل قومیت (به عنوان مثال، با چهار دسته: فارس، ترک، کرد و لر)، نوع حمل و نقل (به عنوان مثال، با چهار دسته: اتوبوس، ماشین، هواپیما و قطار)، حرفه (به عنوان مثال، با چهار گروه: جراح، پزشک، پرستار، دندانپزشک) و غیره. از رگرسیون لجستیک چند جمله ای نیز می توان برای متغیرهای ترتیبی استفاده کرد، اما ممکن است به جای آن یک رگرسیون لجستیک ترتیبی را اجرا کنید.
فرض شماره 2:
شما یک یا چند متغیر مستقل دارید که پیوسته، ترتیبی یا اسمی هستند (از جمله متغیرهای دو وضعیتی (dichotomous)). با این حال، متغیرهای مستقل ترتیبی باید به صورت پیوسته یا طبقه ای (categorical) در نظر گرفته شوند. نمی توان متغیر مستقل را هنگام اجرای یک رگرسیون لجستیک چند جمله ای در SPSS Statistics به عنوان متغیرهای ترتیبی در نظر گرفت. این مطلب را در بخش های بعدی برجسته می کنیم. نمونههایی از متغیرهای پیوسته عبارتند از: سن (اندازهگیری شده بر حسب سال)، زمان (اندازهگیری شده بر حسب ساعت)، درآمد (اندازهگیری شده با ریال)، هوش (اندازهگیری شده با استفاده از تست IQ)، نمره امتحان (اندازهگیری شده از 0 تا 20)، وزن (اندازهگیری شده بر حسب کیلوگرم)، و غیره. نمونههایی از متغیرهای ترتیبی شامل موارد لیکرت (مثلاً مقیاس 7 درجهای از «کاملاً موافقم» تا «کاملاً مخالفم»).
فرض شماره 3:
مشاهدات شما باید استقلال داشته باشند و متغیر وابسته باید دارای دسته های متقابل انحصاری و جامع باشد.
فرض شماره 4:
نباید همخطی چندگانه (Multicollinearity) وجود داشته باشد. همخطی چندگانه زمانی اتفاق می افتد که شما دو یا چند متغیر مستقل داشته باشید که همبستگی بالایی با یکدیگر دارند. این منجر به مشکلاتی در درک اینکه کدام متغیر به توضیح متغیر وابسته و مسائل فنی در محاسبه رگرسیون لجستیک چند جمله ای کمک می کند، می شود. تعیین اینکه آیا همخطی چندگانه وجود دارد یا خیر، یک گام مهم در رگرسیون لجستیک چند جمله ای است. متأسفانه، این یک فرآیند جامع در SPSS Statistics است، که از شما میخواهد هر متغیر ساختگی را که مورد نیاز است ایجاد کنید و چندین روش رگرسیون خطی را اجرا کنید.
فرض شماره 5:
باید یک رابطه خطی بین هر متغیر مستقل پیوسته و تبدیل لوجیت (logit transformation) متغیر وابسته وجود داشته باشد.
فرض شماره 6:
نباید نقاط پرت (outliers)، مقادیر اهرمی بالا (high leverage values) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد.
با استفاده از SPSS Statistics می توانید فرضیات 4، 5 و 6 را بررسی کنید. پیش از اینکه به فرضیات 4، 5 و 6 بروید، ابتدا باید فرضیات 1، 2 و 3 بررسی شوند. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای یک رگرسیون لجستیک چند جمله ای به دست می آورید ممکن است معتبر نباشند.
در بخش بعدی، روش SPSS Statistics را برای انجام یک رگرسیون لجستیک چند جمله ای با فرض اینکه هیچ فرض گفته شده در بالا نقض نشده است، نشان می دهیم. ابتدا مثالی را که در این آموزش استفاده شده است، معرفی می کنیم.
مثال
محققی میخواست بفهمد که آیا حزب سیاسی که یک فرد به آن رای میدهد را میتوان از روی اعتقاد به بالا بودن مالیات و درآمد یک شخص (یعنی حقوق) پیشبینی کرد. بنابراین، حزب سیاسی که شرکت کنندگان آخرین بار به آن رای دادند، در متغیر سیاست ثبت شد و سه گزینه داشت: «محافظهکاران»، «حذب کارگر» و «لیبرال دموکرات». هنگامی که عبارت «مالیات در این کشور خیلی زیاد است» ارائه شد، شرکتکنندگان چهار گزینه برای پاسخ دادن داشتند: «کاملاً مخالفم»، «مخالفم»، «موافقم» یا «کاملاً موافقم» و در متغیر ذخیره میشدند. محقق همچنین از شرکت کنندگان درآمد سالانه آنها را پرسید که در متغیر درآمد ثبت شد. به این ترتیب، در شرایط متغیر، یک رگرسیون لجستیک چندجملهای برای پیشبینی سیاست از (مالیات_بسیار_زیاد) و درآمد اجرا شد.
توجه: لیبرال دموکرات ها و حذب کارگر طرفدار مالیات های بالا و محافظه کاران طرفدار مالیات های پایین تر هستند.
راه اندازی در SPSS Statistics
در SPSS Statistics، ما سه متغیر ایجاد کردیم: (1) متغیر مستقل که در چهار دسته مرتب شده است: Strongly Disagree، Disagree، Agree و Strongly Agree (“کاملاً مخالفم”، “مخالفم”، “موافقم” و “کاملاً موافقم”). (2) متغیر مستقل، درآمد و (3) متغیر وابسته، سیاست ، که دارای سه دسته است: Con، Lab و Lib (یعنی برای بازتاب محافظهکاران (Conservatives)، حذب کارگر (Labour) و لیبرال دموکراتها (Liberal Democrats)).
توجه: در روش SPSS Statistics که می خواهید اجرا کنید، باید متغیرها را به متغیرهای کمکی (covariates) و فاکتور (factors) جدا کنید. برای این روش های خاص، SPSS Statistics متغیرهای مستقل پیوسته را به عنوان متغیرهای کمکی و متغیرهای مستقل اسمی را به عنوان فاکتور طبقه بندی می کند. بنابراین، متغیر مستقل پیوسته، درآمد ، یک متغیر کمکی در نظر گرفته می شود. با این حال، در جایی که شما یک متغیر مستقل ترتیبی مانند مثال ما (یعنی ) دارید، باید انتخاب کنید که این متغیر را به عنوان متغیر کمکی در نظر می گیرید یا فاکتو. در مثال ما، به عنوان یک فاکتور در نظر گرفته شد.
روش آزمون در SPSS Statistics
شش مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از یک رگرسیون لجستیک چند جمله ای در SPSS Statistics تجزیه و تحلیل کنید، البته به شرطی که هیچ یک از شش فرض گفته شده در بخش قبل، نقض نشده باشد. در پایان این شش مرحله، ما به شما نشان می دهیم که چگونه نتایج رگرسیون لجستیک چند جمله ای خود را تفسیر کنید.
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Analyze > Regression > Multinomial Logistic…
در منوی اصلی کلیک کنید:
همانطور که در زیر نشان داده شده است پنجره ی Multinomial Logistic Regression نمایش داده می شود:
مرحله (2)
مانند شکل زیر متغیر وابسته را به کادر Dependent و متغیر ترتیبی به Factor(s) و متغیر کمکی را به کادر Covariate(s) منتقل کنید:
توجه: به صورت پیش فرض در SPSS Statistics که آخرین دسته (به صورت عددی) به عنوان دسته مرجع انتخاب شود. در مثال ما، آخرین دسته کسانی هستند که به “حذب کارگر” رای داده اند.
مرحله (3)
روی دکمه Statistics کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Multinomial Logistic Regression: Statistics نمایش داده می شود:
مرحله (4)
به صورت زیر روی گزینه های Cell probabilities ، Classification table و Goodness-of-fit کلیک کنید:
مرحله (5)
بر روی دکمه Continue کلیک کنید و به پنجره ی Multinomial Logistic Regression باز می گردید.
مرحله (6)
بر روی دکمه OK کلیک کنید. با انجام تمام این مراحل خروجی ایجاد خواهد شد.
تفسیر خروجی یک رگرسیون لجستیک چند جمله ای
SPSS Statistics برای تحلیل رگرسیون لجستیک چندجمله ای، جداول بسیار کمی از خروجی تولید می کند. در این بخش، برخی از جداول مورد نیاز برای درک نتایج خود را از روش رگرسیون لجستیک چند جمله ای، با فرض اینکه هیچ فرضی نقض نشده است، به شما نشان می دهیم.
(1) جدول Goodness-of-Fit دو معیار را ارائه می دهد که می تواند برای ارزیابی میزان تناسب مدل با داده ها مورد استفاده قرار گیرد، همانطور که در زیر نشان داده شده است:
ردیف اول با برچسب “Pearson”، آمار مربع کای (chi-square) پیرسون را ارائه می دهد. مقادیر chi-square بزرگ (که در زیر ستون “Chi-Square” یافت می شود) نشان دهنده تناسب ضعیف برای مدل است. یک نتیجه آماری معنی دار (یعنی p <0.05) نشان می دهد که مدل به خوبی با داده ها مطابقت ندارد. از جدول بالا می توانید ببینید که p-value مقدار 0.341 دارد (یعنی p = 0.341) (از ستون “Sig.”) و بنابراین از نظر آماری معنی دار نیست. بر اساس این معیار، مدل به خوبی با داده ها تناسب دارد (fit شده است). سطر دیگر جدول (یعنی ردیف “Deviance”) انحراف آمار مربع کای را ارائه می دهد. این دو معیار ممکن است همیشه نتیجه یکسانی نداشته باشند.
(2) گزینه دیگری برای به دست آوردن یک معیار کلی از مدل ، در نظر گرفتن آمار ارائه شده در جدول Model Fitting Information )اطلاعات تناسب مدل) است، همانطور که در زیر نشان داده شده است:
سطر “Final” اطلاعاتی درباره صفر بودن همه ضرایب مدل ارائه می دهد (یعنی اینکه آیا هر یک از ضرایب از نظر آماری معنی دار هستند یا خیر). روش دیگر برای در نظر گرفتن این نتیجه این است که آیا متغیرهایی که اضافه کردید به طور قابل توجهی مدل را در مقایسه با مدل عرض از مبدا بهبود میبخشند (یعنی بدون هیچ متغیری اضافه شده است). شما می توانید از ستون “Sig.” ببینید که p = 0.027 شده است. به این معنی که “مدل کامل” از نظر آماری متغیر وابسته را بهتر از مدل عرض از مبدا (intercept-only model) پیش بینی می کند.
(3) در رگرسیون لجستیک چند جملهای میتوانید معیارهایی را در نظر بگیرید که مشابه R2 در رگرسیون خطی حداقل مربعات معمولی هستند، که نسبت واریانسی است که میتواند توسط مدل توضیح داده شود. با این حال، در رگرسیون لجستیک چند جمله ای، این معیارهای شبه R2 وجود دارند و بیش از یک هستند، اگرچه هیچ کدام به راحتی قابل تفسیر نیستند. با این وجود، آنها محاسبه شده و در جدول R-Square Pseudo در زیر نشان داده شده اند که اندازه گیری های شبه R2 کاکس و اسنل (Cox and Snell)، ناگلکرک (Nagelkerke) و مک فادن (McFadden) را محاسبه می کند:
(4) همانطور که در زیر نشان داده شده است، نتایج ارائه شده در جدول Likelihood Ratio Tests، از اهمیت بسیار بیشتری برخوردار است:
این جدول نشان می دهد که کدام یک از متغیرهای مستقل شما از نظر آماری معنادار هستند. می توانید ببینید که درآمد (ردیف “income”) از نظر آماری معنی دار نبود زیرا p=0.754 (ستون “Sig”) بدست آمده است. از سوی دیگر، متغیر tax_too_high (ردیف “tax_too_high”) از نظر آماری معنیدار بود زیرا p=0.014 بدست آمده است. معمولاً هیچ علاقه ای به مدل عرض از مبدا (به عنوان مثال ردیف “Intercept”) وجود ندارد. این جدول بیشتر برای متغیرهای مستقل اسمی مفید است، زیرا تنها جدولی است که تأثیر کلی یک متغیر اسمی را در نظر می گیرد، برخلاف جدول “تخمین پارامترها”، همانطور که در زیر نشان داده شده است:
(5) جدول Parameter Estimates پارامترها را که همان ضرایب مدل است، تخمین می زند. همانطور که می بینید، هر متغیر ساختگی یک ضریب برای متغیر tax_too_high دارد. با این حال، هیچ ارزش آماری کلی وجود ندارد. این در جدول قبلی (یعنی جدول آزمون های نسبت احتمال (Likelihood Ratio Tests)) ارائه شده است. از آنجایی که سه دسته متغیر وابسته وجود داشت، می توانید ببینید که دو مجموعه از ضرایب رگرسیون لجستیک وجود دارد (که گاهی اوقات دو لوجیت (two logits) نامیده می شود). اولین مجموعه ضرایب در ردیف “Lib” یافت می شود (نماینده مقایسه دسته لیبرال دموکرات ها با دسته مرجع، حذب کارگر). مجموعه دوم ضرایب در ردیف “Con” یافت می شود (این بار نشان دهنده مقایسه دسته محافظه کارها با دسته مرجع، حذب کارگر است). می توانید ببینید که income “درآمد” برای هر دو مجموعه ضرایب از نظر آماری معنی دار نیست (به ترتیب 0.532 و p=0.508، ستون “Sig.”).
تنها ضریب (ستون “B”) از نظر آماری معنیدار است، که مربوط به مجموعه دوم ضرایب است. این [tax_too_high=.00] (p = 0.020) است، که یک متغیر ساختگی است که مقایسه بین «کاملاً مخالفم» و «کاملاً موافقم» را با مالیات بسیار بالا نشان میدهد. علامت منفی نشان می دهد که اگر با “مالیات خیلی زیاد است” “کاملا موافق” باشید محافظه کار هستید ولی اگر “کاملا مخالف” هستید به احتمال زیاد جزء دسته حذب کارگر محسوب می شوید. با این حال، از آنجایی که ضریب یک تفسیر ساده ندارد، مقادیر توان ضرایب (ستون “Exp(B)”) معمولاً به جای آن در نظر گرفته می شود.
گزارش خروجی رگرسیون لجستیک چند جمله ای
می توانید نتایج ضریب خاص را همانطور که در بالا توضیح داده شد به صورت زیر بنویسید:
اگر با بیانیه “مالیات خیلی زیاد است”، به شدت موافق باشید، به احتمال زیاد یک محافظهکار هستید تا حذب کارگر.
مطالب زیر را هم از دست ندهید:
رگرسیون پواسون با استفاده از SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS
رگرسیون خطی با استفاده از SPSS
Afshin Safaee (@afshinsafaee.official)
3 پاسخ