رگرسیون لجستیک دو جمله ای (Binomial logistic regression) با استفاده از Minitab
معرفی
رگرسیون لجستیک دو جمله ای (Binomial logistic regression) برای پیش بینی یک متغیر وابسته دو وضعیتی (dichotomous) بر اساس یک یا چند متغیر مستقل اسمی یا پیوسته استفاده می شود. این از رایج ترین نوع رگرسیون های لجستیک است و اغلب به عنوان رگرسیون لجستیک شناخته می شود. با این حال، در Minitab از آن به عنوان رگرسیون لجستیک باینری (binary logistic regression) یاد می کنند. از بسیاری جهات، یک رگرسیون لجستیک دوجمله ای را می توان به عنوان یک رگرسیون خطی چندگانه در نظر گرفت. با این تفاوت که رگرسیون خطی چندگانه برای یک متغیر وابسته پیوسته است در حالی که رگرسیون لجستیک دو جمله ای برای متغیر وابسته دو وضعیتی می باشد.
به عنوان مثال، می توانید از یک رگرسیون لجستیک دو جمله ای استفاده کنید تا بفهمید که آیا وجود بیماری قلبی را می توان از روی سطح فعالیت بدنی، غلظت کلسترول، غلظت گلوکز پیش بینی کرد یا خیر. بیماری قلبی متغیر وابسته دو وضعیتی است (یعنی وجود بیماری قلبی “بله” یا “خیر” است). سطح فعالیت بدنی (بر حسب دقیقه در هفته)، غلظت کلسترول (mmol/L) و غلظت گلوکز (mmol/L) متغیرهای مستقل پیوسته هستند.
در این آموزش، نحوه انجام یک رگرسیون لجستیک دو جمله ای با استفاده از Minitab و همچنین تفسیر و گزارش نتایج این آزمون را به شما نشان می دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که دادههای شما باید رعایت کنند تا یک رگرسیون لجستیک دوجملهای به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
رگرسیون لجستیک دو جمله ای دارای شش فرض است. شما نمی توانید دو فرض اول را با Minitab آزمایش کنید زیرا به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود. با این حال، این دو فرض باید بررسی شوند. فرضیات #1 و #2 در زیر توضیح داده شده است:
فرض شماره 1:
متغیر وابسته شما باید از دو گروه طبقه ای (categorical) مستقل (غیر مرتبط) تشکیل شده باشد (یعنی یک متغیر دو وضعیتی). نمونه هایی از این متغیرهای مستقل طبقه ای شامل جنسیت (دو گروه: مرد یا زن)، نوع درمان (دو گروه: دارو یا بدون دارو)، سطح تحصیلات (دو گروه: کارشناسی یا کارشناسی ارشد)، بیمه سلامت (دو گروه: بله یا خیر)، تیپ شخصیتی (دو گروه: درونگرایی یا برونگرایی) و غیره می باشند.
فرض شماره 2:
شما یک یا چند متغیر مستقل دارید که پیوسته یا اسمی هستند (از جمله متغیرهای دو وضعیتی). نمونههایی از متغیرهای پیوسته عبارتند از: ارتفاع، دما، زمان، حقوق، هوش، نمره و غیره می باشند. نمونه هایی از متغیرهای اسمی شامل جنسیت (به عنوان مثال، دو گروه: مرد و زن)، قومیت (به عنوان مثال، سه گروه: قفقازی، آفریقایی آمریکایی و اسپانیایی)، حرفه (به عنوان مثال، پنج گروه: جراح، پزشک، پرستار، دندانپزشک، درمانگر)، و غیره می باشند
نکته: در این رگرسیون می توان از متغیرهای مستقل ترتیبی نیز استفاده کرد، اما باید به عنوان متغیرهای پیوسته یا اسمی در نظر گرفته شوند. با این حال، می توانید برخی از متغیرهای ترتیبی را پیوسته و برخی را به عنوان اسمی در نظر بگیرید. لازم نیست با همه آنها یکسان رفتار شود. نمونهای از متغیرهای ترتیبی شامل موارد لیکرت (مثلاً مقیاس 7 درجهای از «کاملاً موافقم» تا «کاملاً مخالفم») می باشد.
فرضیات #3، #4، #5 و #6 به ماهیت دادههای شما مربوط میشوند و میتوانند با استفاده از Minitab بررسی شوند. شما باید بررسی کنید که آیا دادههای شما با این فرضیات مطابقت دارند یا نه؟. زیرا اگر مطابقت نداشته باشند، نتایجی که هنگام اجرای یک رگرسیون لجستیک دوجملهای به دست میآورید ممکن است معتبر نباشد. فرضیات #3، #4، #5 و #6 در زیر توضیح داده شده است:
فرض شماره 3:
مشاهدات شما باید ا استقلال داشته باشند. به این معنی که هیچ رابطه ای بین مشاهدات وجود ندارد. اگر استقلال مشاهدات ندارید، به احتمال زیاد اندازه گیری های مکرر (repeated measures) دارید و به نوع دیگری از آزمون آماری نیاز خواهید داشت.
فرض شماره 4:
چند خطی (multicollinearity) نباید وجود داشته باشد. چند خطی زمانی اتفاق می افتد که شما دو یا چند متغیر مستقل داشته باشید که همبستگی بالایی با یکدیگر دارند. این منجر به مشکلاتی در درک اینکه کدام متغیر به توضیح متغیر وابسته و مسائل فنی در محاسبه رگرسیون لجستیک دو جمله ای کمک می کند، می شود. تعیین اینکه آیا چند خطی وجود دارد یا خیر، یک گام مهم در رگرسیون لجستیک دو جمله ای است.
فرض شماره 5:
باید یک رابطه خطی بین هر متغیر مستقل پیوسته و تبدیل لجستیک (لوگاریتمی Log) متغیر وابسته وجود داشته باشد.
فرض شماره 6:
نباید نقاط پرت (outliers)، مقادیر اهرمی بالا (high leverage values) یا نقاط بسیار تأثیرگذار (highly influential points) وجود داشته باشد. اینها مشاهداتی هستند که به خوبی با مدل مطابقت ندارند و تأثیر نامناسبی بر مدل رگرسیون میگذارند و آن را بیروش به سمت خود منحرف میکنند.
در عمل، بررسی این فرضیات احتمالاً کمی زمانبر خواهد بود. ولی در کل، کار سختی نیست و Minitab تمام ابزارهایی را که برای انجام این کار نیاز دارید در اختیار شما قرار می دهد.
در بخش بعدی روش Minitab مورد نیاز برای انجام رگرسیون لجستیک دو جمله ای را با فرض اینکه هیچ فرضی نقض نشده است، نشان می دهیم. ابتدا، مثالی که برای توضیح روش رگرسیون لجستیک دو جمله ای در Minitab استفاده کرده ایم، را ارائه می کنیم.
مثال
“ماراتن” (marathon) یک مسابقه بسیار سخت است و بسیاری از افراد قبل از رسیدن به خط پایان از مسابقه انصراف می دهند. یک دانشمند ورزش علاقه مند است این انصراف از مسابقه را کاهش دهد. برای انجام این کار، به طور تصادفی با بسیاری از تکمیل کننده گان مسابقه و انصراف دهنده گان از مسابقه، که برای بار اول در مسابقات ماراتن شرکت کرده بودند، در سراسر جهان مصاحبه کرد. از آنها پرسیدند که چه مدت برای ماراتن تمرین کردهاند، آیا برای یک سازمان خیریه میدوند، سن آنها و اینکه آیا در یک ماراتن “معتبر” (به عنوان مثال، ماراتن لندن، که جمعیت زیادی را به سمت خود می کشد) شرکت کرده اند یا خیر؟.
بنابراین در این مثال متغیر وابسته دو وضعیتی finished_race (تکمیل کننده گان مسابقه) است که دارای دو دسته «بله» و «خیر» است. مدت زمان تمرین قبل از ماراتن یک متغیر مستقل پیوسته، training_duration (بر حسب ماه) و سن شرکت کنندگان نیز یک متغیر مستقل پیوسته، age (بر حسب سال) بود. اینکه آیا یک شرکتکننده برای یک موسسه خیریه شرکت میکند یا خیر، یک متغیر مستقل دو وضعیتی، charity، با دو دسته “بله” و “خیر” است: در مجموع، 203 دونده بار اولی انتخاب شدند.
توجه: مثال و داده های استفاده شده برای این آموزش ساختگی هستند.
تنظیمات در Minitab
درMinitab، ما چهار متغیر خود را در چهار ستون اول (C1-T، C2، C3-T و C4) وارد کردیم. در ستون C1-T نام متغیر وابسته دو وضعیتی، finished_race ، در زیر ستون C2 نام متغیر مستقل پیوسته training_duration ، در زیر ستون C3-T نام متغیر مستقل دو وضعیتی یعنی charity و در ستون پایانی C4 نام متغیر مستقل پیوسته age را به صورت زیر وارد کردیم:
توجه: فرقی نمی کند که متغیرها را با چه ترتیبی در Minitab وارد کنید.
مراحل آزمون در Minitab
در این بخش، به شما نشان میدهیم که چگونه با استفاده از یک رگرسیون لجستیک دوجملهای در Minitab دادههای خود را آنالیز کنید. البته به شرطی که شش فرض تعیینشده در بخش فرضیات نقض نشده باشند. بنابراین، شش مرحله مورد نیاز برای اجرای یک رگرسیون لجستیک دو جمله ای در Minitab در زیر نشان داده شده است:
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Stat > Regression > Binary Logistic Regression > Fit Binary Logistic Model…
در منوی اصلی کلیک کنید:
پنجره ی Binary Logistic Regression زیر به شما نمایش داده می شود
مرحله (2)
متغیر وابسته دو وضعیتی C1 finished_race را به کادر Response منتقل کنید. سپس، متغیرهای مستقل پیوسته C2 training_duration و C4 age را به کادر Continuous predictors منتقل کنید. در نهایت، متغیر مستقل طبقه ای، C3 charity را به کادر Categorical predictors انتقال دهید. در نهایت با پنجره ی زیر مواجه خواهید شد:
توجه: برای انتقال متغیرهای مختلف، ابتدا باید داخل کادرهای مختلف (به عنوان مثال، کادر Response:) کلیک کنید و همه متغیرهای واجد شرایطی که میتوانند منتقل شوند در کادر سمت چپ اصلی ظاهر میشوند (به عنوان مثال، C1 finished_race). با این کار دکمه انتخاب فعال می شود در حالی که قبل از آن به صورت غیر فعال بود. متغیر مناسب را در کادر سمت چپ اصلی انتخاب کنید سپس دکمه را فشار دهید تا به کادر مورد نظر منتقل شود.
مرحله (3)
روی دکمه Results کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Binary Logistic Regression: Results نمایش داده می شود:
مرحله (4)
گزینه Display of results را به جداول گسترده و گزینه Coefficients را به مجموعه کامل ضرایب تغییر دهید. موارد زیر به شما ارائه خواهد شد:
مرحله (5)
بر روی دکمه OK کلیک کنید. شما به پنجره ی Binary Logistic Regression بازگردانده می شوید.
مرحله (6)
بر روی دکمه OK کلیک کنید تا خروجی ایجاد گردد.
خروجی رگرسیون لجستیک دو جمله ای در Minitab
متوجه خواهید شد که پس از اجرای روش رگرسیون لجستیک باینری، خروجی زیادی توسط Minitab تولید می شود. ما برخی از مهم ترین بخش های خروجی را به شرح زیر خلاصه می کنیم:
این خروجی سه اطلاعات مهم را ارائه می دهد:
الف. جدولهای آماری Model Summary (خلاصه مدل) و Goodness-of-Fit Tests (آزمونهای خوب بودن تناسب) را ارائه میکنند که سعی میکند میزان تناسب مدل کلی (به عنوان مثال، با تمام اصطلاحات موجود در مدل) را با دادهها ارزیابی کند. آزمون Hosmer-Lemeshow یکی از پرطرفدارترین روش هاست و نتیجه این آزمون در ردیف آخر جدول Goodness-of-Fit Tests نشان داده شده است. به طور کلی، معیارهای مبتنی بر ارزیابی تنوع توضیح داده شده توسط مدل، روش های ارزیابی مدل به خوبی در نظر گرفته نمی شوند. (به عنوان مثال، ستون “Deviance R-Sq” در جدول Model Summary).
ب. ضرایب و همچنین اهمیت آماری و سایر معیارها در جدول Coefficients (ضرایب) آمده است. شما می توانید از این جدول استفاده کنید تا بفهمید آیا اصطلاحات موجود در مدل خود (به عنوان مثال، سن age) از نظر آماری معنادار هستند یا نه؟. یعنی آیا آنها از نظر آماری به طور قابل توجهی به مدل کمک می کنند. Minitab برای متغیرهای مستقل طبقه ای، “متغیرهای ساختگی و همچنین دسته مرجع استفاده شده” را نشان می دهد. به همین دلیل است که شما همیشه یک دسته را با ضرایب 0.000000 خواهید دید. باید این ردیف را نادیده بگیرید. مقدار ضرایب در ستون “Coef” و اهمیت آماری ضرایب در ستون ” P-Value” یافت می شود.
ج. تفسیر ضرایب در شکل اصلی خود (همانطور که در جدول Coefficients مشاهده می شود) از یک رگرسیون لجستیک دوجمله ای غیر شهودی (unintuitive) است و به این ترتیب، Minitab ضرایب را به شکل نسبت احتمال (odds ratio) ارائه می دهد که بسیار قابل تفسیر هستند. نسبت احتمال برای متغیرهای مستقل پیوسته و متغیرهای مستقل طبقهای به ترتیب در جداول جداگانهای به نامهای Odds Ratios for Continuous Predictors (نسبت احتمال برای پیشبینیکنندههای پیوسته) و Odds Ratios for Categorical Predictors (نسبت احتمال برای جداول پیشبینیکننده طبقهای) یافت میشوند. نسبت احتمال اغلب مقادیری هستند که بجای مقادیر ضرایب اصلی در تحقیق گزارش می شوند. با این حال هر دو را می توان گزارش داد.
در این مثال، آزمون Hosmer-Lemeshow از نظر آماری معنیدار نیست (p=.721)، که نشان میدهد مدل به خوبی با دادهها مطابقت دارد. مقادیر p برای ضرایب training_duration، charity و age نشان میدهد که فقط مدت زمان تمرین (training_duration) (p<.0005) و سن (p=.022) از نظر آماری پیشبینیکنندههای معنیدار انصراف در یک مسابقه ماراتن در بین دوندگانی هستند که برای بار اول شرکت میکنند.
توجه: یک جدول طبقه بندی (Classification Table) بسیار مفید است، اما به طور خودکار توسط Minitab تولید نمی شود. با این وجود، میتوان آن را در Minitab با انتخاب گزینههای صحیح در روش رگرسیون لجستیک باینری و پیگیری آنها با آزمایشهای بیشتر تولید کرد. تهیه این جدول به شما امکان می دهد درصد دقت طبقه بندی (PAC)( percentage accuracy in classification)، حساسیت (Sensitivity)، ویژگی (Specificity)، ارزش اخباری مثبت (positive predictive value) و ارزش پیش بینی منفی (negative predictive value) و همه اقدامات بالقوه مفید در ارزیابی داده ها را محاسبه کنید.
گزارش خروجی رگرسیون لجستیک دو جمله ای
هنگامی که خروجی رگرسیون لجستیک دو جمله ای خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:
(1) مقدمه ای بر آنالیزی که انجام دادید.
(2) اطلاعات مربوط به نمونه شما، از جمله مقادیر گمشده (missing values).
(3) بررسی تمام فرضیات رگرسیون لجستیک دوجمله ای، از جمله هرگونه راه حلی که برای نقض هر یک از این فرضیات اتخاذ شده است.
(4) توضیحی از میزان تناسب مدل با داده ها با استفاده از معیارهایی مانند آزمون Hosmer-Lemeshow.
(5) معادله رگرسیون برای مدل رگرسیون لجستیک دو جمله ای شما، احتمالاً شامل اینکه کدام ضرایب/متغیرهای مستقل از نظر آماری معنی دار هستند.
(6) نسبتهای احتمال گزارش شده برای همه ضرایب/متغیرهای مستقل، از جمله اهمیت آماری آنها.
بر اساس خروجی Minitab برای مثال بالا، می توانید نتایج را به صورت زیر گزارش کنید:
یک رگرسیون لجستیک دوجملهای برای درک تأثیرات مدت زمان تمرین، خیریه و سن بر انصراف در یک مسابقه ماراتن برای دوندههای بار اولی اجرا شد. آزمون Hosmer-Lemeshow نشان داد که مدل به خوبی دادهها را برازش میکند، (p=721). هر دو زمان صرف شده برای تمرین برای ماراتن p<.0005) ) و سن یک دونده (p=0.0022) از نظر آماری به طور معنیداری انصراف را پیشبینی کردند. با این حال، دویدن برای یک موسسه خیریه از نظر آماری به طور قابل توجهی انصراف را پیش بینی نکرد (p=0.373).
علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار برای ارائه بصری نتایج استفاده کرد. این نمودار می تواند درک نتایج شما را برای دیگران آسان تر کند. علاوه بر این، میتوانید از Minitab برای پیشبینی انصراف (متغیر وابسته) بر اساس مقادیری که برای متغیرهای مستقل خود تعریف میکنید، استفاده کنید.
مطالب زیر را هم از دست ندهید
رگرسیون لجستیک چند جمله ای در SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
رگرسیون پواسون با استفاده از SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS
رگرسیون خطی با استفاده از SPSS
Afshin Safaee (@afshinsafaee.official)
یک پاسخ