رگرسیون لجستیک دو جمله ای (Binomial Logistic Regression) با استفاده از Stata

پری کرمی
فروردین 11, 1402
بدون دیدگاه

رگرسیون لجستیک دو جمله ای با استفاده از Stata

معرفی

رگرسیون لجستیک دو جمله ای (Binomial Logistic Regression) برای پیش بینی یک متغیر وابسته دو وضعیتی بر اساس یک یا چند متغیر مستقل اسمی یا پیوسته استفاده می شود. این رایج ترین نوع رگرسیون لجستیک است و اغلب به سادگی به عنوان رگرسیون لجستیک شناخته می شود. در Stata هنگام در نظر گرفتن رگرسیون لجستیک دو جمله ای به نتایج باینری (binary outcomes) اشاره می کنند. اغلب یک رگرسیون لجستیک دو جمله ای را می توان به عنوان یک رگرسیون خطی چندگانه در نظر گرفت، اما به جای متغیر وابسته پیوسته برای یک متغیر دو وضعیتی (dichotomous) استفاده می شود

به عنوان مثال، می‌توانید از یک رگرسیون لجستیک دو جمله‌ای برای درک اینکه آیا خرابی زودرس یک لامپ جدید (قبل از منقضی شدن گارانتی آن) را می‌توان از کل مدت روشن شدن لامپ، تعداد دفعات روشن و خاموش کردن آن و دمای هوای محیط پیش‌بینی کرد یا نه؟. در این مثال، خرابی زودرس متغیر وابسته دو وضعیتی است (به عنوان مثال، لامپ در مدت گارانتی یک ساله خود از کار می افتد: “بله” یا “خیر”). سه متغیر دیگر “مدت زمان کلی روشن شدن لامپ (بر حسب دقیقه)”، “تعداد دفعات روشن و خاموش شدن لامپ” و “دمای هوای محیط (بر حسب درجه سانتی‌گراد)” که برای پیش‌بینی خرابی لامپ استفاده می‌شوند، همگی متغیرهای مستقل پیوسته هستند.

این آموزش به شما نشان می‌دهد که چگونه یک رگرسیون لجستیک دو جمله‌ای را با استفاده از Stata انجام دهید، و همچنین نحوه تفسیر و گزارش نتایج این آزمون را نشان می‌دهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده‌های شما باید رعایت کنند تا رگرسیون لجستیک دوجمله‌ای به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

شش فرض وجود دارد که زیربنای رگرسیون لجستیک دوجمله ای است. اگر هر یک از این شش فرض برآورده نشود، ممکن است نتوانید داده های خود را با استفاده از رگرسیون لجستیک دوجمله ای تجزیه و تحلیل کنید زیرا ممکن است نتیجه معتبری دریافت نکنید.

فرض شماره 1:

متغیر وابسته شما باید از دو گروه طبقه ای (categorical) مستقل (غیر مرتبط) تشکیل شده باشد (یعنی یک متغیر دو وضعیتی). نمونه هایی از متغیرهای دو وضعیتی عبارتند از جنسیت (2 گروه: مرد یا زن)، نوع درمان (2 گروه: با دارو یا بدون دارو)، سطح تحصیلات (7 گروه: زیر دیپلم، دیپلم، کاردانی، کارشناسی، کارشناسی ارشد، دکتری، فوق دکتری) و غیره.

فرض شماره 2:

شما دو یا چند متغیر مستقل دارید که باید در سطح اسمی (nominal) یا پیوسته اندازه گیری شوند. نمونه‌هایی از متغیرهای پیوسته عبارتند از قد (اندازه‌گیری شده بر حسب سانتی متر)، دما (اندازه‌گیری شده بر حسب درجه سانتی‌گراد)، حقوق و دستمزد (اندازه‌گیری شده بر حسب ریال)، زمان (اندازه‌گیری شده بر حسب ساعت یا دقیقه)، هوش (اندازه‌گیری شده با استفاده از امتیاز IQ)، نمره آزمون (اندازه گیری از 0 تا 20)، فروش (اندازه گیری شده بر اساس تعداد معاملات در ماه)، و غیره می باشد. نمونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 3 گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، حرفه (به عنوان مثال، 4 گروه: جراح، پزشک، پرستار، دندانپزشک) و غیره می باشد

نکته: می توان از متغیرهای مستقل ترتیبی استفاده کرد، اما باید به عنوان متغیرهای پیوسته یا اسمی در نظر گرفته شوند. با این حال، می توانید برخی از متغیرهای ترتیبی را پیوسته و برخی را به عنوان اسمی در نظر بگیرید. لازم نیست با همه آنها یکسان رفتار شود. نمونه‌ای از متغیرهای ترتیبی شامل موارد لیکرت (مثلاً مقیاس 7 درجه‌ای از «کاملاً موافقم» تا «کاملاً مخالفم») می باشد

فرض شماره 3:

مشاهدات شما باید استقلال داشته باشند. یعنی هیچ رابطه ای بین مشاهدات وجود ندارد. اگر استقلال مشاهدات ندارید، به احتمال زیاد اندازه گیری های مکرر دارید و باید از آزمون آماری دیگری استفاده کنید.

فرض شماره 4:

داده های شما نباید چند خطی بودن (multicollinearity) را نشان دهند. چند خطی بودن زمانی رخ می دهد که شما دو یا چند متغیر مستقل داشته باشید که به شدت با یکدیگر همبستگی دارند.

فرض شماره 5:

باید یک رابطه خطی بین هر متغیر مستقل پیوسته و تبدیل لجستیک متغیر وابسته وجود داشته باشد.

فرض شماره 6:

نباید نقاط پرت (outliers) قابل توجه، نقاط اهرمی بالا (high leverage points) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. اینها مشاهداتی را در مجموعه داده های شما را نشان می دهند که به نوعی غیرعادی هستند. اینها می توانند تأثیر بسیار منفی بر معادله رگرسیون لجستیک دو جمله ای داشته باشند که برای پیش بینی مقدار متغیر وابسته بر اساس متغیرهای مستقل استفاده می شود. با استفاده از Stata می توانید نقاط پرت، نقاط اهرمی و نقاط تاثیرگذار را بررسی کنید.

از آنجایی که فرضیات #1 و #2 به انتخاب شما از متغیرها مربوط می شود، نمی توان آنها را برای استفاده از Stata آزمایش کرد. خوشبختانه، می توانید با استفاده از Stata فرضیات #3، #4، #5 و #6 را بررسی کنید و Stata تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد. فقط به یاد داشته باشید که اگر این فرضیات را بررسی نکنید، نتایجی که هنگام اجرای یک رگرسیون لجستیک دوجمله‌ای به دست می‌آورید ممکن است معتبر نباشند. در عمل، بررسی فرضیات کمی زمانبر خواهد بود. ولی در کل، کار دشواری نیست.

در بخش بعدی، روش Stata مورد نیاز برای انجام یک رگرسیون لجستیک دو جمله ای را با فرض اینکه هیچ فرضی نقض نشده است، نشان می دهیم. ابتدا، مثالی که برای توضیح روش رگرسیون لجستیک دو جمله ای در Stata استفاده کرده ایم، را ارائه می کنیم.

مثال

محققی می‌خواست بفهمد که آیا تعداد ساعت‌هایی که دانش‌آموزان صرف مرور درسی کرده‌اند، موفقیت در امتحانات سال آخر را پیش‌بینی می‌کند یا خیر. او همچنین این سؤال را مطرح کرده است که آیا جنسیت بر موفقیت در امتحان تأثیر می گذارد یا نه؟. بنابراین، محقق 189 دانش آموز را که در آستانه شرکت در امتحانات سال آخر بودند، جذب کرد. محقق از دانش‌آموزان خواست تا تعداد ساعاتی را که صرف مرور درسی می‌کنند تخمین بزنند. سپس او نمرات سال آخر امتحان آنها را بررسی کرد تا دریابد که آیا در امتحان موفق شده اند یا رد شده اند. به منظور درک اینکه آیا تعداد ساعات مطالعه تأثیری بر قبولی در امتحان داشته یا خیر، محقق یک رگرسیون لجستیک دو جمله ای اجرا کرد. بنابراین در این مثال متغیر وابسته دو وضعیتی pass است که دارای دو دسته «گذرانده» (passed) و «رد شده» (failed) است. hours تعداد ساعات مطالعه متغیر مستقل مستمر (بر حسب ساعت) و gender جنسیت شرکت‌کننده یک متغیر مستقل دو وضعیتی با دو دسته «مذکر» (Male) و «مونث» (Female) می باشد.

توجه: مثال و داده های استفاده شده برای این راهنما ساختگی هستند.

تنظیمات در Stata

در Stata، ما سه متغیر ایجاد کردیم،pass (1) ، برای کسانی که امتحان را قبول شده اند “1” و برای کسانی که امتحان را قبول نشده اند “0” (یعنی متغیر وابسته) کد گذاری شدند. (2) hours، که تعداد ساعات مطالعه است. و (3) gender، که جنسیت شرکت‌کننده است (دو مورد آخر متغیرهای مستقل هستند).

مانند شکل زیر، پس از ایجاد این سه متغیر، مقادیرهر کدام را در سه ستون صفحه Data Editor (Edit) وارد کردیم:

روش آزمون در Stata

در این بخش، به شما نشان می‌دهیم که چگونه با استفاده از رگرسیون لجستیک دوجمله‌ای در Stata، داده‌های خود را تجزیه و تحلیل کنید. البته به شرطی که شش فرض گفته شده در بخش فرضیات، نقض نشده‌ باشند. می توانید رگرسیون لجستیک دو جمله ای را با استفاده از دو روش (1) کد (code) یا (2) رابط کاربری گرافیکی (GUI) (graphical user interface) انجام دهید. پس از اینکه تجزیه و تحلیل خود را انجام دادید، به شما نشان می دهیم که چگونه نتایج خود را تفسیر کنید. ابتدا انتخاب کنید که از کدام روش ((1) code یا (2) GUI) می خواهید استفاده کنید.

(1) روش اول کد (code)

کد برای انجام یک رگرسیون لجستیک دو جمله ای روی داده های شما به شکل زیر است:

logistic DependentVariable IndependentVariable#1 IndependentVariable#2 IndependentVariable#3 IndependentVariable#4

این کد در کادر Command زیر وارد می شود:

با استفاده از مثال ما که در آن متغیر وابسته pass است و دو متغیر مستقل hours و gender هستند، کد مورد نیاز به صورت زیر خواهد بود:

logistic pass hours i.gender

توجه: در کد بالا می بینید که متغیرهای مستقل پیوسته به سادگی “همانطور که هستند”وارد می شوند، در حالی که متغیرهای مستقل طبقه ای (جنسیت gender) پیشوند “i” دارند.

بنابراین، کد، logistic pass hours i.gender را وارد کنید و کلید “Enter” را روی صفحه کلید خود فشار دهید تا خروجی تولید شود.

(2) روش دوم GUI

شش مرحله مورد نیاز برای انجام رگرسیون لجستیک دو جمله ای در Stata در زیر نشان داده شده است:

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Statistics > Binary outcomes > Logistic regression, reporting odds ratios

در منوی اصلی کلیک کنید:

همانطور که در زیر نشان داده شده است، پنجره logistic – Logistic regression, reporting odds ratios به شما نمایش داده می شود:

مرحله (2)

متغیر وابسته، pass را از کادر کشویی Dependent variable و متغیر مستقل پیوسته، hours را از کادر کشویی Independent variables با استفاده از دکمه های کشویی مربوطه انتخاب کنید. در نهایت با پنجره زیر مواجه خواهید شد:

مرحله (3)

بر روی دکمه سه نقطه کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره Create varlist with factor or time-series variables نمایش داده می شود:

مرحله (4)

Factor variable را در ناحیه –Type of variable– انتخاب کنید. سپس، در ناحیه –Add factor variable–، Main effect را در کادر کشویی Specification انتخاب کنید. اکنون gender را در کادر کشویی Variables با استفاده از دکمه کشویی انتخاب کنید. در نهایت بر روی دکمه Add to varlist کلیک کنید. با پنجره زیر روبرو خواهید شد که در آن متغیر مستقل طبقه بندی شده، i.gender، در کادر Varlist وارد شده است:

مرحله (5)

بر روی دکمه OK کلیک کنید. شما به پنجره logistic – Logistic regression, reporting odds ratios باز می‌گردید، اما با متغیر مستقل طبقه‌بندی، i.gender، که اکنون در کادر Independent variables: وارد شده است، همانطور که در زیر نشان داده شده است:

مرحله (4)

بر روی دکمه OK کلیک کنید تا خروجی تولید گردد.

خروجی رگرسیون لجستیک دو جمله ای در Stata

خروجی زیر تنها بخشی از گزینه‌هایی است که در Stata برای تجزیه و تحلیل داده‌های خود دارید، با این فرض که داده‌های شما از تمام فرضیات عبور کرده است (به عنوان مثال، هیچ نقطه تأثیرگذاری قابل توجهی وجود ندارد). با این حال، خروجی زیر نتایج مورد نیاز برای تعیین اینکه آیا متغیرهای مستقل از نظر آماری به طور معنی‌داری گذراندن امتحان سال آخر را پیش‌بینی می‌کنند ارائه می‌دهد. همانطور که در زیر نشان داده شده است، نتایج در زیر با عنوان ” Logistic Regression” “رگرسیون لجستیک” ارائه شده است:

با مراجعه به “P>|z|” می‌توانید تعیین کنید که آیا جنسیت و ساعت‌های صرف شده برای مرور درسی به طور قابل‌توجهی موفقیت در امتحان سال آخر را پیش‌بینی کرده است یا خیر که به ترتیب در ستون “P>|z|” و ردیف های “1.gender” و “hours” می باشد. ستون “P>|z|” شامل مقدار p (p-value) برای هر ضریب می باشد که ثابت است (هر دو به صورت نسبت شانس (odds ratios) بیان می شوند. می‌توانید ببینید که ساعت‌های صرف شده برای مرور درسی از نظر آماری معنی‌دار بود (یعنیp=.001 )، اما جنسیت از نظر آماری معنی‌دار نبود (یعنی p=0.968).

گزارش خروجی یک رگرسیون لجستیک دو جمله ای

هنگامی که خروجی رگرسیون لجستیک دو جمله ای خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:

(1) مقدمه ای برای آنالیزی که انجام دادید (به عنوان مثال، بیان کنید که یک رگرسیون لجستیک دو جمله ای اجرا کرده اید).

(2) اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده (به عنوان مثال، اندازه نمونه).

(3) بررسی تمام فرضیات رگرسیون لجستیک دوجمله ای، از جمله هرگونه راه حلی که برای نقض هر یک از این فرضیات اتخاذ شده است.

(4) استفاده از معیارهایی مانند آزمون هاسمر-لمشو (Hosmer-Lemeshow) برای ارزیابی میزان تناسب مدل با داده ها.

(5) ضرایب رگرسیون و/یا نسبت‌های شانس برای مدل رگرسیون لجستیک دو جمله‌ای شما که از نظر آماری معنی‌دار هستند و فواصل اطمینان 95% دارند.

می توانید نتایج را به صورت زیر بنویسید:

یک رگرسیون لجستیک دو جمله ای برای درک تأثیرات تعداد ساعات مرور درسی و جنسیت بر موفقیت در قبولی در امتحان اجرا شد. زمان صرف شده برای مرور درسی برای امتحان از نظر آماری به طور معنی‌داری موفقیت امتحان را پیش‌بینی می‌کرد (0.001=p)، اما جنسیت اینطور نبود (0.968=p).

مطالب زیر را هم از دست ندهید:

رگرسیون خطی (Linear regression) با استفاده از Stata

رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab

رگرسیون چندگانه در Stata