رگرسیون لجستیک دو جمله ای با استفاده از Stata
معرفی
رگرسیون لجستیک دو جمله ای (Binomial Logistic Regression) برای پیش بینی یک متغیر وابسته دو وضعیتی بر اساس یک یا چند متغیر مستقل اسمی یا پیوسته استفاده می شود. این رایج ترین نوع رگرسیون لجستیک است و اغلب به سادگی به عنوان رگرسیون لجستیک شناخته می شود. در Stata هنگام در نظر گرفتن رگرسیون لجستیک دو جمله ای به نتایج باینری (binary outcomes) اشاره می کنند. اغلب یک رگرسیون لجستیک دو جمله ای را می توان به عنوان یک رگرسیون خطی چندگانه در نظر گرفت، اما به جای متغیر وابسته پیوسته برای یک متغیر دو وضعیتی (dichotomous) استفاده می شود
به عنوان مثال، میتوانید از یک رگرسیون لجستیک دو جملهای برای درک اینکه آیا خرابی زودرس یک لامپ جدید (قبل از منقضی شدن گارانتی آن) را میتوان از کل مدت روشن شدن لامپ، تعداد دفعات روشن و خاموش کردن آن و دمای هوای محیط پیشبینی کرد یا نه؟. در این مثال، خرابی زودرس متغیر وابسته دو وضعیتی است (به عنوان مثال، لامپ در مدت گارانتی یک ساله خود از کار می افتد: “بله” یا “خیر”). سه متغیر دیگر “مدت زمان کلی روشن شدن لامپ (بر حسب دقیقه)”، “تعداد دفعات روشن و خاموش شدن لامپ” و “دمای هوای محیط (بر حسب درجه سانتیگراد)” که برای پیشبینی خرابی لامپ استفاده میشوند، همگی متغیرهای مستقل پیوسته هستند.
این آموزش به شما نشان میدهد که چگونه یک رگرسیون لجستیک دو جملهای را با استفاده از Stata انجام دهید، و همچنین نحوه تفسیر و گزارش نتایج این آزمون را نشان میدهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که دادههای شما باید رعایت کنند تا رگرسیون لجستیک دوجملهای به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
شش فرض وجود دارد که زیربنای رگرسیون لجستیک دوجمله ای است. اگر هر یک از این شش فرض برآورده نشود، ممکن است نتوانید داده های خود را با استفاده از رگرسیون لجستیک دوجمله ای تجزیه و تحلیل کنید زیرا ممکن است نتیجه معتبری دریافت نکنید.
فرض شماره 1:
متغیر وابسته شما باید از دو گروه طبقه ای (categorical) مستقل (غیر مرتبط) تشکیل شده باشد (یعنی یک متغیر دو وضعیتی). نمونه هایی از متغیرهای دو وضعیتی عبارتند از جنسیت (2 گروه: مرد یا زن)، نوع درمان (2 گروه: با دارو یا بدون دارو)، سطح تحصیلات (7 گروه: زیر دیپلم، دیپلم، کاردانی، کارشناسی، کارشناسی ارشد، دکتری، فوق دکتری) و غیره.
فرض شماره 2:
شما دو یا چند متغیر مستقل دارید که باید در سطح اسمی (nominal) یا پیوسته اندازه گیری شوند. نمونههایی از متغیرهای پیوسته عبارتند از قد (اندازهگیری شده بر حسب سانتی متر)، دما (اندازهگیری شده بر حسب درجه سانتیگراد)، حقوق و دستمزد (اندازهگیری شده بر حسب ریال)، زمان (اندازهگیری شده بر حسب ساعت یا دقیقه)، هوش (اندازهگیری شده با استفاده از امتیاز IQ)، نمره آزمون (اندازه گیری از 0 تا 20)، فروش (اندازه گیری شده بر اساس تعداد معاملات در ماه)، و غیره می باشد. نمونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 3 گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، حرفه (به عنوان مثال، 4 گروه: جراح، پزشک، پرستار، دندانپزشک) و غیره می باشد
نکته: می توان از متغیرهای مستقل ترتیبی استفاده کرد، اما باید به عنوان متغیرهای پیوسته یا اسمی در نظر گرفته شوند. با این حال، می توانید برخی از متغیرهای ترتیبی را پیوسته و برخی را به عنوان اسمی در نظر بگیرید. لازم نیست با همه آنها یکسان رفتار شود. نمونهای از متغیرهای ترتیبی شامل موارد لیکرت (مثلاً مقیاس 7 درجهای از «کاملاً موافقم» تا «کاملاً مخالفم») می باشد
فرض شماره 3:
مشاهدات شما باید استقلال داشته باشند. یعنی هیچ رابطه ای بین مشاهدات وجود ندارد. اگر استقلال مشاهدات ندارید، به احتمال زیاد اندازه گیری های مکرر دارید و باید از آزمون آماری دیگری استفاده کنید.
فرض شماره 4:
داده های شما نباید چند خطی بودن (multicollinearity) را نشان دهند. چند خطی بودن زمانی رخ می دهد که شما دو یا چند متغیر مستقل داشته باشید که به شدت با یکدیگر همبستگی دارند.
فرض شماره 5:
باید یک رابطه خطی بین هر متغیر مستقل پیوسته و تبدیل لجستیک متغیر وابسته وجود داشته باشد.
فرض شماره 6:
نباید نقاط پرت (outliers) قابل توجه، نقاط اهرمی بالا (high leverage points) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. اینها مشاهداتی را در مجموعه داده های شما را نشان می دهند که به نوعی غیرعادی هستند. اینها می توانند تأثیر بسیار منفی بر معادله رگرسیون لجستیک دو جمله ای داشته باشند که برای پیش بینی مقدار متغیر وابسته بر اساس متغیرهای مستقل استفاده می شود. با استفاده از Stata می توانید نقاط پرت، نقاط اهرمی و نقاط تاثیرگذار را بررسی کنید.
از آنجایی که فرضیات #1 و #2 به انتخاب شما از متغیرها مربوط می شود، نمی توان آنها را برای استفاده از Stata آزمایش کرد. خوشبختانه، می توانید با استفاده از Stata فرضیات #3، #4، #5 و #6 را بررسی کنید و Stata تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد. فقط به یاد داشته باشید که اگر این فرضیات را بررسی نکنید، نتایجی که هنگام اجرای یک رگرسیون لجستیک دوجملهای به دست میآورید ممکن است معتبر نباشند. در عمل، بررسی فرضیات کمی زمانبر خواهد بود. ولی در کل، کار دشواری نیست.
در بخش بعدی، روش Stata مورد نیاز برای انجام یک رگرسیون لجستیک دو جمله ای را با فرض اینکه هیچ فرضی نقض نشده است، نشان می دهیم. ابتدا، مثالی که برای توضیح روش رگرسیون لجستیک دو جمله ای در Stata استفاده کرده ایم، را ارائه می کنیم.
مثال
محققی میخواست بفهمد که آیا تعداد ساعتهایی که دانشآموزان صرف مرور درسی کردهاند، موفقیت در امتحانات سال آخر را پیشبینی میکند یا خیر. او همچنین این سؤال را مطرح کرده است که آیا جنسیت بر موفقیت در امتحان تأثیر می گذارد یا نه؟. بنابراین، محقق 189 دانش آموز را که در آستانه شرکت در امتحانات سال آخر بودند، جذب کرد. محقق از دانشآموزان خواست تا تعداد ساعاتی را که صرف مرور درسی میکنند تخمین بزنند. سپس او نمرات سال آخر امتحان آنها را بررسی کرد تا دریابد که آیا در امتحان موفق شده اند یا رد شده اند. به منظور درک اینکه آیا تعداد ساعات مطالعه تأثیری بر قبولی در امتحان داشته یا خیر، محقق یک رگرسیون لجستیک دو جمله ای اجرا کرد. بنابراین در این مثال متغیر وابسته دو وضعیتی pass است که دارای دو دسته «گذرانده» (passed) و «رد شده» (failed) است. hours تعداد ساعات مطالعه متغیر مستقل مستمر (بر حسب ساعت) و gender جنسیت شرکتکننده یک متغیر مستقل دو وضعیتی با دو دسته «مذکر» (Male) و «مونث» (Female) می باشد.
توجه: مثال و داده های استفاده شده برای این راهنما ساختگی هستند.
تنظیمات در Stata
در Stata، ما سه متغیر ایجاد کردیم،pass (1) ، برای کسانی که امتحان را قبول شده اند “1” و برای کسانی که امتحان را قبول نشده اند “0” (یعنی متغیر وابسته) کد گذاری شدند. (2) hours، که تعداد ساعات مطالعه است. و (3) gender، که جنسیت شرکتکننده است (دو مورد آخر متغیرهای مستقل هستند).
مانند شکل زیر، پس از ایجاد این سه متغیر، مقادیرهر کدام را در سه ستون صفحه Data Editor (Edit) وارد کردیم:
روش آزمون در Stata
در این بخش، به شما نشان میدهیم که چگونه با استفاده از رگرسیون لجستیک دوجملهای در Stata، دادههای خود را تجزیه و تحلیل کنید. البته به شرطی که شش فرض گفته شده در بخش فرضیات، نقض نشده باشند. می توانید رگرسیون لجستیک دو جمله ای را با استفاده از دو روش (1) کد (code) یا (2) رابط کاربری گرافیکی (GUI) (graphical user interface) انجام دهید. پس از اینکه تجزیه و تحلیل خود را انجام دادید، به شما نشان می دهیم که چگونه نتایج خود را تفسیر کنید. ابتدا انتخاب کنید که از کدام روش ((1) code یا (2) GUI) می خواهید استفاده کنید.
(1) روش اول کد (code)
کد برای انجام یک رگرسیون لجستیک دو جمله ای روی داده های شما به شکل زیر است:
logistic DependentVariable IndependentVariable#1 IndependentVariable#2 IndependentVariable#3 IndependentVariable#4
این کد در کادر Command زیر وارد می شود:
با استفاده از مثال ما که در آن متغیر وابسته pass است و دو متغیر مستقل hours و gender هستند، کد مورد نیاز به صورت زیر خواهد بود:
logistic pass hours i.gender
توجه: در کد بالا می بینید که متغیرهای مستقل پیوسته به سادگی “همانطور که هستند”وارد می شوند، در حالی که متغیرهای مستقل طبقه ای (جنسیت gender) پیشوند “i” دارند.
بنابراین، کد، logistic pass hours i.gender را وارد کنید و کلید “Enter” را روی صفحه کلید خود فشار دهید تا خروجی تولید شود.
(2) روش دوم GUI
شش مرحله مورد نیاز برای انجام رگرسیون لجستیک دو جمله ای در Stata در زیر نشان داده شده است:
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Statistics > Binary outcomes > Logistic regression, reporting odds ratios
در منوی اصلی کلیک کنید:
همانطور که در زیر نشان داده شده است، پنجره logistic – Logistic regression, reporting odds ratios به شما نمایش داده می شود:
مرحله (2)
متغیر وابسته، pass را از کادر کشویی Dependent variable و متغیر مستقل پیوسته، hours را از کادر کشویی Independent variables با استفاده از دکمه های کشویی مربوطه انتخاب کنید. در نهایت با پنجره زیر مواجه خواهید شد:
مرحله (3)
بر روی دکمه سه نقطه کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره Create varlist with factor or time-series variables نمایش داده می شود:
مرحله (4)
Factor variable را در ناحیه –Type of variable– انتخاب کنید. سپس، در ناحیه –Add factor variable–، Main effect را در کادر کشویی Specification انتخاب کنید. اکنون gender را در کادر کشویی Variables با استفاده از دکمه کشویی انتخاب کنید. در نهایت بر روی دکمه Add to varlist کلیک کنید. با پنجره زیر روبرو خواهید شد که در آن متغیر مستقل طبقه بندی شده، i.gender، در کادر Varlist وارد شده است:
مرحله (5)
بر روی دکمه OK کلیک کنید. شما به پنجره logistic – Logistic regression, reporting odds ratios باز میگردید، اما با متغیر مستقل طبقهبندی، i.gender، که اکنون در کادر Independent variables: وارد شده است، همانطور که در زیر نشان داده شده است:
مرحله (4)
بر روی دکمه OK کلیک کنید تا خروجی تولید گردد.
خروجی رگرسیون لجستیک دو جمله ای در Stata
خروجی زیر تنها بخشی از گزینههایی است که در Stata برای تجزیه و تحلیل دادههای خود دارید، با این فرض که دادههای شما از تمام فرضیات عبور کرده است (به عنوان مثال، هیچ نقطه تأثیرگذاری قابل توجهی وجود ندارد). با این حال، خروجی زیر نتایج مورد نیاز برای تعیین اینکه آیا متغیرهای مستقل از نظر آماری به طور معنیداری گذراندن امتحان سال آخر را پیشبینی میکنند ارائه میدهد. همانطور که در زیر نشان داده شده است، نتایج در زیر با عنوان ” Logistic Regression” “رگرسیون لجستیک” ارائه شده است:
با مراجعه به “P>|z|” میتوانید تعیین کنید که آیا جنسیت و ساعتهای صرف شده برای مرور درسی به طور قابلتوجهی موفقیت در امتحان سال آخر را پیشبینی کرده است یا خیر که به ترتیب در ستون “P>|z|” و ردیف های “1.gender” و “hours” می باشد. ستون “P>|z|” شامل مقدار p (p-value) برای هر ضریب می باشد که ثابت است (هر دو به صورت نسبت شانس (odds ratios) بیان می شوند. میتوانید ببینید که ساعتهای صرف شده برای مرور درسی از نظر آماری معنیدار بود (یعنیp=.001 )، اما جنسیت از نظر آماری معنیدار نبود (یعنی p=0.968).
گزارش خروجی یک رگرسیون لجستیک دو جمله ای
هنگامی که خروجی رگرسیون لجستیک دو جمله ای خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:
(1) مقدمه ای برای آنالیزی که انجام دادید (به عنوان مثال، بیان کنید که یک رگرسیون لجستیک دو جمله ای اجرا کرده اید).
(2) اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده (به عنوان مثال، اندازه نمونه).
(3) بررسی تمام فرضیات رگرسیون لجستیک دوجمله ای، از جمله هرگونه راه حلی که برای نقض هر یک از این فرضیات اتخاذ شده است.
(4) استفاده از معیارهایی مانند آزمون هاسمر-لمشو (Hosmer-Lemeshow) برای ارزیابی میزان تناسب مدل با داده ها.
(5) ضرایب رگرسیون و/یا نسبتهای شانس برای مدل رگرسیون لجستیک دو جملهای شما که از نظر آماری معنیدار هستند و فواصل اطمینان 95% دارند.
می توانید نتایج را به صورت زیر بنویسید:
یک رگرسیون لجستیک دو جمله ای برای درک تأثیرات تعداد ساعات مرور درسی و جنسیت بر موفقیت در قبولی در امتحان اجرا شد. زمان صرف شده برای مرور درسی برای امتحان از نظر آماری به طور معنیداری موفقیت امتحان را پیشبینی میکرد (0.001=p)، اما جنسیت اینطور نبود (0.968=p).
مطالب زیر را هم از دست ندهید:
رگرسیون خطی (Linear regression) با استفاده از Stata
رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab
رگرسیون لجستیک چند جمله ای در SPSS
رگرسیون پواسون با استفاده از SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS