رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab

پری کرمی
اسفند 23, 1401
یک دیدگاه

رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab

معرفی

رگرسیون لجستیک دو جمله ای (Binomial logistic regression) برای پیش بینی یک متغیر وابسته دو وضعیتی (dichotomous) بر اساس یک یا چند متغیر مستقل اسمی یا پیوسته استفاده می شود. این از رایج ترین نوع رگرسیون های لجستیک است و اغلب به عنوان رگرسیون لجستیک شناخته می شود. با این حال، در Minitab از آن به عنوان رگرسیون لجستیک باینری (binary logistic regression) یاد می کنند. از بسیاری جهات، یک رگرسیون لجستیک دوجمله ای را می توان به عنوان یک رگرسیون خطی چندگانه در نظر گرفت. با این تفاوت که رگرسیون خطی چندگانه برای یک متغیر وابسته پیوسته است در حالی که رگرسیون لجستیک دو جمله ای برای متغیر وابسته دو وضعیتی می باشد.

به عنوان مثال، می توانید از یک رگرسیون لجستیک دو جمله ای استفاده کنید تا بفهمید که آیا وجود بیماری قلبی را می توان از روی سطح فعالیت بدنی، غلظت کلسترول، غلظت گلوکز پیش بینی کرد یا خیر. بیماری قلبی متغیر وابسته دو وضعیتی است (یعنی وجود بیماری قلبی “بله” یا “خیر” است). سطح فعالیت بدنی (بر حسب دقیقه در هفته)، غلظت کلسترول (mmol/L) و غلظت گلوکز (mmol/L) متغیرهای مستقل پیوسته هستند.

در این آموزش، نحوه انجام یک رگرسیون لجستیک دو جمله ای با استفاده از Minitab و همچنین تفسیر و گزارش نتایج این آزمون را به شما نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده‌های شما باید رعایت کنند تا یک رگرسیون لجستیک دوجمله‌ای به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

رگرسیون لجستیک دو جمله ای دارای شش فرض است. شما نمی توانید دو فرض اول را با Minitab آزمایش کنید زیرا به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود. با این حال، این دو فرض باید بررسی شوند. فرضیات #1 و #2 در زیر توضیح داده شده است:

فرض شماره 1:

متغیر وابسته شما باید از دو گروه طبقه ای (categorical) مستقل (غیر مرتبط) تشکیل شده باشد (یعنی یک متغیر دو وضعیتی). نمونه هایی از این متغیرهای مستقل طبقه ای شامل جنسیت (دو گروه: مرد یا زن)، نوع درمان (دو گروه: دارو یا بدون دارو)، سطح تحصیلات (دو گروه: کارشناسی یا کارشناسی ارشد)، بیمه سلامت (دو گروه: بله یا خیر)، تیپ شخصیتی (دو گروه: درونگرایی یا برونگرایی) و غیره می باشند.

فرض شماره 2:

شما یک یا چند متغیر مستقل دارید که پیوسته یا اسمی هستند (از جمله متغیرهای دو وضعیتی). نمونه‌هایی از متغیرهای پیوسته عبارتند از: ارتفاع، دما، زمان، حقوق، هوش، نمره و غیره می باشند. نمونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، دو گروه: مرد و زن)، قومیت (به عنوان مثال، سه گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، حرفه (به عنوان مثال، پنج گروه: جراح، پزشک، پرستار، دندانپزشک، درمانگر)، و غیره می باشند

نکته: در این رگرسیون می توان از متغیرهای مستقل ترتیبی نیز استفاده کرد، اما باید به عنوان متغیرهای پیوسته یا اسمی در نظر گرفته شوند. با این حال، می توانید برخی از متغیرهای ترتیبی را پیوسته و برخی را به عنوان اسمی در نظر بگیرید. لازم نیست با همه آنها یکسان رفتار شود. نمونه‌ای از متغیرهای ترتیبی شامل موارد لیکرت (مثلاً مقیاس 7 درجه‌ای از «کاملاً موافقم» تا «کاملاً مخالفم») می باشد.

فرضیات #3، #4، #5 و #6 به ماهیت داده‌های شما مربوط می‌شوند و می‌توانند با استفاده از Minitab بررسی شوند. شما باید بررسی کنید که آیا داده‌های شما با این فرضیات مطابقت دارند یا نه؟. زیرا اگر مطابقت نداشته باشند، نتایجی که هنگام اجرای یک رگرسیون لجستیک دوجمله‌ای به دست می‌آورید ممکن است معتبر نباشد. فرضیات #3، #4، #5 و #6 در زیر توضیح داده شده است:

فرض شماره 3:

مشاهدات شما باید ا استقلال داشته باشند. به این معنی که هیچ رابطه ای بین مشاهدات وجود ندارد. اگر استقلال مشاهدات ندارید، به احتمال زیاد اندازه گیری های مکرر (repeated measures) دارید و به نوع دیگری از آزمون آماری نیاز خواهید داشت.

فرض شماره 4:

چند خطی (multicollinearity) نباید وجود داشته باشد. چند خطی زمانی اتفاق می افتد که شما دو یا چند متغیر مستقل داشته باشید که همبستگی بالایی با یکدیگر دارند. این منجر به مشکلاتی در درک اینکه کدام متغیر به توضیح متغیر وابسته و مسائل فنی در محاسبه رگرسیون لجستیک دو جمله ای کمک می کند، می شود. تعیین اینکه آیا چند خطی وجود دارد یا خیر، یک گام مهم در رگرسیون لجستیک دو جمله ای است.

فرض شماره 5:

باید یک رابطه خطی بین هر متغیر مستقل پیوسته و تبدیل لجستیک (لوگاریتمی Log) متغیر وابسته وجود داشته باشد.

فرض شماره 6:

نباید نقاط پرت (outliers)، مقادیر اهرمی بالا (high leverage values) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. اینها مشاهداتی هستند که به خوبی با مدل مطابقت ندارند و تأثیر نامناسبی بر مدل رگرسیون می‌گذارند و آن را بی‌روش به سمت خود منحرف می‌کنند.

در عمل، بررسی این فرضیات احتمالاً کمی زمانبر خواهد بود. ولی در کل، کار سختی نیست و Minitab تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد.

در بخش بعدی روش Minitab مورد نیاز برای انجام رگرسیون لجستیک دو جمله ای را با فرض اینکه هیچ فرضی نقض نشده است، نشان می دهیم. ابتدا، مثالی که برای توضیح روش رگرسیون لجستیک دو جمله ای در Minitab استفاده کرده ایم، را ارائه می کنیم.

مثال

“ماراتن” (marathon) یک مسابقه بسیار سخت است و بسیاری از افراد قبل از رسیدن به خط پایان از مسابقه انصراف می دهند. یک دانشمند ورزش علاقه مند است این انصراف از مسابقه را کاهش دهد. برای انجام این کار، به طور تصادفی با بسیاری از تکمیل کننده گان مسابقه و انصراف دهنده گان از مسابقه، که برای بار اول در مسابقات ماراتن شرکت کرده بودند، در سراسر جهان مصاحبه کرد. از آنها پرسیدند که چه مدت برای ماراتن تمرین کرده‌اند، آیا برای یک سازمان خیریه می‌دوند، سن آنها و اینکه آیا در یک ماراتن “معتبر” (به عنوان مثال، ماراتن لندن، که جمعیت زیادی را به سمت خود می کشد) شرکت کرده اند یا خیر؟.

بنابراین در این مثال متغیر وابسته دو وضعیتی finished_race (تکمیل کننده گان مسابقه) است که دارای دو دسته «بله» و «خیر» است. مدت زمان تمرین قبل از ماراتن یک متغیر مستقل پیوسته، training_duration (بر حسب ماه) و سن شرکت کنندگان نیز یک متغیر مستقل پیوسته، age (بر حسب سال) بود. اینکه آیا یک شرکت‌کننده برای یک موسسه خیریه شرکت می‌کند یا خیر، یک متغیر مستقل دو وضعیتی، charity، با دو دسته “بله” و “خیر” است: در مجموع، 203 دونده بار اولی انتخاب شدند.

توجه: مثال و داده های استفاده شده برای این آموزش ساختگی هستند.

تنظیمات در Minitab

درMinitab، ما چهار متغیر خود را در چهار ستون اول (C1-T، C2، C3-T و C4) وارد کردیم. در ستون C1-T نام متغیر وابسته دو وضعیتی، finished_race ، در زیر ستون C2 نام متغیر مستقل پیوسته training_duration ، در زیر ستون C3-T نام متغیر مستقل دو وضعیتی یعنی charity و در ستون پایانی C4 نام متغیر مستقل پیوسته age را به صورت زیر وارد کردیم:

توجه: فرقی نمی کند که متغیرها را با چه ترتیبی در Minitab وارد کنید.

مراحل آزمون در Minitab

در این بخش، به شما نشان می‌دهیم که چگونه با استفاده از یک رگرسیون لجستیک دوجمله‌ای در Minitab داده‌های خود را آنالیز کنید. البته به شرطی که شش فرض تعیین‌شده در بخش فرضیات نقض نشده‌ باشند. بنابراین، شش مرحله مورد نیاز برای اجرای یک رگرسیون لجستیک دو جمله ای در Minitab در زیر نشان داده شده است:

مرحله (1)

همانطور که در زیر نشان داده شده است، روی

Stat > Regression > Binary Logistic Regression > Fit Binary Logistic Model…

در منوی اصلی کلیک کنید:

پنجره ی Binary Logistic Regression زیر به شما نمایش داده می شود

مرحله (2)

متغیر وابسته دو وضعیتی C1 finished_race را به کادر Response منتقل کنید. سپس، متغیرهای مستقل پیوسته C2 training_duration و C4 age را به کادر Continuous predictors منتقل کنید. در نهایت، متغیر مستقل طبقه ای، C3 charity را به کادر Categorical predictors انتقال دهید. در نهایت با پنجره ی زیر مواجه خواهید شد:

توجه: برای انتقال متغیرهای مختلف، ابتدا باید داخل کادرهای مختلف (به عنوان مثال، کادر Response:) کلیک کنید و همه متغیرهای واجد شرایطی که می‌توانند منتقل شوند در کادر سمت چپ اصلی ظاهر می‌شوند (به عنوان مثال، C1 finished_race). با این کار دکمه انتخاب فعال می شود در حالی که قبل از آن به صورت غیر فعال بود. متغیر مناسب را در کادر سمت چپ اصلی انتخاب کنید سپس دکمه را فشار دهید تا به کادر مورد نظر منتقل شود.

مرحله (3)

روی دکمه Results کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Binary Logistic Regression: Results نمایش داده می شود:

مرحله (4)

گزینه Display of results را به جداول گسترده و گزینه Coefficients را به مجموعه کامل ضرایب تغییر دهید. موارد زیر به شما ارائه خواهد شد:

مرحله (5)

بر روی دکمه OK کلیک کنید. شما به پنجره ی Binary Logistic Regression بازگردانده می شوید.

مرحله (6)

بر روی دکمه OK کلیک کنید تا خروجی ایجاد گردد.

خروجی رگرسیون لجستیک دو جمله ای در Minitab

متوجه خواهید شد که پس از اجرای روش رگرسیون لجستیک باینری، خروجی زیادی توسط Minitab تولید می شود. ما برخی از مهم ترین بخش های خروجی را به شرح زیر خلاصه می کنیم:

این خروجی سه اطلاعات مهم را ارائه می دهد:

الف. جدول‌های آماری Model Summary (خلاصه مدل) و Goodness-of-Fit Tests (آزمون‌های خوب بودن تناسب) را ارائه می‌کنند که سعی می‌کند میزان تناسب مدل کلی (به عنوان مثال، با تمام اصطلاحات موجود در مدل) را با داده‌ها ارزیابی کند. آزمون Hosmer-Lemeshow یکی از پرطرفدارترین روش هاست و نتیجه این آزمون در ردیف آخر جدول Goodness-of-Fit Tests نشان داده شده است. به طور کلی، معیارهای مبتنی بر ارزیابی تنوع توضیح داده شده توسط مدل، روش های ارزیابی مدل به خوبی در نظر گرفته نمی شوند. (به عنوان مثال، ستون “Deviance R-Sq” در جدول Model Summary).

ب. ضرایب و همچنین اهمیت آماری و سایر معیارها در جدول Coefficients (ضرایب) آمده است. شما می توانید از این جدول استفاده کنید تا بفهمید آیا اصطلاحات موجود در مدل خود (به عنوان مثال، سن age) از نظر آماری معنادار هستند یا نه؟. یعنی آیا آنها از نظر آماری به طور قابل توجهی به مدل کمک می کنند. Minitab برای متغیرهای مستقل طبقه ای، “متغیرهای ساختگی و همچنین دسته مرجع استفاده شده” را نشان می دهد. به همین دلیل است که شما همیشه یک دسته را با ضرایب 0.000000 خواهید دید. باید این ردیف را نادیده بگیرید. مقدار ضرایب در ستون “Coef” و اهمیت آماری ضرایب در ستون ” P-Value” یافت می شود.

ج. تفسیر ضرایب در شکل اصلی خود (همانطور که در جدول Coefficients مشاهده می شود) از یک رگرسیون لجستیک دوجمله ای غیر شهودی (unintuitive) است و به این ترتیب، Minitab ضرایب را به شکل نسبت احتمال (odds ratio) ارائه می دهد که بسیار قابل تفسیر هستند. نسبت احتمال برای متغیرهای مستقل پیوسته و متغیرهای مستقل طبقه‌ای به ترتیب در جداول جداگانه‌ای به نام‌های Odds Ratios for Continuous Predictors (نسبت احتمال برای پیش‌بینی‌کننده‌های پیوسته) و Odds Ratios for Categorical Predictors (نسبت احتمال برای جداول پیش‌بینی‌کننده طبقه‌ای) یافت می‌شوند. نسبت احتمال اغلب مقادیری هستند که بجای مقادیر ضرایب اصلی در تحقیق گزارش می شوند. با این حال هر دو را می توان گزارش داد.

در این مثال، آزمون Hosmer-Lemeshow از نظر آماری معنی‌دار نیست (p=.721)، که نشان می‌دهد مدل به خوبی با داده‌ها مطابقت دارد. مقادیر p برای ضرایب training_duration، charity و age نشان می‌دهد که فقط مدت زمان تمرین (training_duration) (p<.0005) و سن (p=.022) از نظر آماری پیش‌بینی‌کننده‌های معنی‌دار انصراف در یک مسابقه ماراتن در بین دوندگانی هستند که برای بار اول شرکت می‌کنند.

توجه: یک جدول طبقه بندی (Classification Table) بسیار مفید است، اما به طور خودکار توسط Minitab تولید نمی شود. با این وجود، می‌توان آن را در Minitab با انتخاب گزینه‌های صحیح در روش رگرسیون لجستیک باینری و پیگیری آن‌ها با آزمایش‌های بیشتر تولید کرد. تهیه این جدول به شما امکان می دهد درصد دقت طبقه بندی (PAC)( percentage accuracy in classification)، حساسیت (Sensitivity)، ویژگی (Specificity)، ارزش اخباری مثبت (positive predictive value) و ارزش پیش بینی منفی (negative predictive value) و همه اقدامات بالقوه مفید در ارزیابی داده ها را محاسبه کنید.

گزارش خروجی رگرسیون لجستیک دو جمله ای

هنگامی که خروجی رگرسیون لجستیک دو جمله ای خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:

(1) مقدمه ای بر آنالیزی که انجام دادید.

(2) اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده (missing values).

(3) بررسی تمام فرضیات رگرسیون لجستیک دوجمله ای، از جمله هرگونه راه حلی که برای نقض هر یک از این فرضیات اتخاذ شده است.

(4) توضیحی از میزان تناسب مدل با داده ها با استفاده از معیارهایی مانند آزمون Hosmer-Lemeshow.

(5) معادله رگرسیون برای مدل رگرسیون لجستیک دو جمله ای شما، احتمالاً شامل اینکه کدام ضرایب/متغیرهای مستقل از نظر آماری معنی دار هستند.

(6) نسبت‌های احتمال گزارش شده برای همه ضرایب/متغیرهای مستقل، از جمله اهمیت آماری آنها.

بر اساس خروجی Minitab برای مثال بالا، می توانید نتایج را به صورت زیر گزارش کنید:

یک رگرسیون لجستیک دوجمله‌ای برای درک تأثیرات مدت زمان تمرین، خیریه و سن بر انصراف در یک مسابقه ماراتن برای دونده‌های بار اولی اجرا شد. آزمون Hosmer-Lemeshow نشان داد که مدل به خوبی داده‌ها را برازش می‌کند، (p=721). هر دو زمان صرف شده برای تمرین برای ماراتن p<.0005) ) و سن یک دونده (p=0.0022) از نظر آماری به طور معنی‌داری انصراف را پیش‌بینی کردند. با این حال، دویدن برای یک موسسه خیریه از نظر آماری به طور قابل توجهی انصراف را پیش بینی نکرد (p=0.373).

علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار برای ارائه بصری نتایج استفاده کرد. این نمودار می تواند درک نتایج شما را برای دیگران آسان تر کند. علاوه بر این، می‌توانید از Minitab برای پیش‌بینی انصراف (متغیر وابسته) بر اساس مقادیری که برای متغیرهای مستقل خود تعریف می‌کنید، استفاده کنید.