آزمون H کروسکال-والیس (H Kruskal-Wallis) با استفاده از Stata

پری کرمی
بهمن 19, 1401
3 دیدگاه ها

آزمون H کروسکال-والیس با استفاده از Stata

مقدمه

آزمون H Kruskal-Wallis (H کروسکال-والیس) یک آزمون ناپارامتریک مبتنی بر رتبه است که می تواند برای تعیین وجود تفاوت های آماری معنی داری بین دو یا چند گروه از یک متغیر مستقل بر روی یک متغیر وابسته پیوسته یا ترتیبی استفاده گردد. این آزمون جایگزین ناپارامتریک برای ANOVA یک طرفه (گاهی اوقات “ANOVA یک طرفه در رتبه ها” (one-way ANOVA on ranks) نیز نامیده می شود) و بسط آزمون U Mann-Whitney برای مقایسه بیش از دو گروه مستقل در نظر گرفته می شود.

برای مثال، می‌توانید از آزمون H Kruskal-Wallis برای فهمیدن این که آیا حقوق، که در مقیاس پیوسته اندازه‌گیری می‌شود، بر اساس سطح تحصیلات متفاوت است یا نه، استفاده کنید. در این مثال متغیر وابسته «حقوق» و متغیر مستقل «سطح تحصیلات» خواهد بود که دارای سه گروه مستقل مدرک «لیسانس»، «فوق لیسانس» و «دکتری»می باشد.

آزمون H Kruskal-Wallis یک آمار آزمون همه جانبه است و نمی تواند به شما بگوید که کدام گروه های خاص از متغیر مستقل شما از نظر آماری به طور قابل توجهی با یکدیگر متفاوت هستند. فقط به شما می گوید که حداقل دو گروه متفاوت هستند یا نه. از آنجایی که ممکن است سه یا چند گروه در طراحی مطالعه خود داشته باشید، تعیین اینکه کدام یک از این گروه ها با یکدیگر متفاوت هستند، مهم است. این کار را می توانید با استفاده از آزمون تعقیبی (post hoc test) انجام دهید.

این آموزش به شما نشان می‌دهد که چگونه آزمایش H Kruskal-Wallis را با استفاده از Stata انجام دهید، همچنین نتایج این آزمایش را تفسیر و گزارش کنید. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده‌های شما باید برآورده کنند تا آزمون Kruskal-Wallis H به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

چهار فرض وجود دارد که زیربنای آزمون H Kruskal-Wallis است. اگر هر یک از این چهار فرض برآورده نشد، ممکن است دیگر نتوانید داده های خود را با استفاده از آزمون H Kruskal-Wallis تجزیه و تحلیل کنید. چون که ممکن است نتیجه معتبری دریافت نکنید. از آنجایی که فرضیات #1، #2 و #3 به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود، نمی توان آنها را برای استفاده از Stata آزمایش کرد. با این حال، قبل از انجام آزمون، باید بررسی کنید که آیا مطالعه شما با این فرضیات مطابقت دارد یا خیر.

فرض شماره 1:

دو متغیر شما باید در یک مقیاس ترتیبی (ordinal) یا یک مقیاس پیوسته (continuous) (یعنی مقیاس فاصله ای (interval) یا نسبتی (ratio)) اندازه گیری شوند. نمونه‌ای از متغیرهای ترتیبی شامل مقیاس لیکرت (مثلاً مقیاس 7 درجه‌ای از «کاملاً موافقم» تا «کاملاً مخالفم») می باشد. نمونه‌هایی از متغیرهای پیوسته عبارتند از قد، دما، حقوق و دستمزد ، زمان، هوش، نمره، و غیره می باشد.

فرض شماره 2:

متغیر مستقل شما باید شامل دو یا چند گروه طبقه ای (categorical) و مستقل (غیر مرتبط) باشد. نمونه هایی از متغیرهای طبقه بندی شامل جنسیت (به عنوان مثال، 2 گروه: مرد و زن)، قومیت (به عنوان مثال، 4 گروه: فارس، ترک، کرد، لر)، سطح فعالیت بدنی (به عنوان مثال، 2 گروه: کم تحرک، پرتحرک)، و حرفه (به عنوان مثال، 4 گروه: جراح، پزشک، پرستار، دندانپزشک) می باشد.

فرض شماره 3:

مشاهدات شما باید استقلال داشته باشند. به این معنی که هیچ رابطه ای بین مشاهدات در هر گروه یا بین خود گروه ها وجود ندارد. برای مثال، باید در هر گروه شرکت‌کنندگان متفاوتی وجود داشته باشد و هیچ شرکت‌کننده‌ای در بیش از یک گروه نباشد. اگر استقلال مشاهدات ندارید، احتمالاً «گروه‌های مرتبط» (related groups) دارید، به این معنی که باید به جای آزمون H Kruskal-Wallis از آزمون فریدمن (Friedman) استفاده کنید.

آزمون H Kruskal-Wallis نرمال بودن را در نظر نمی گیرد، و می تواند با داده های ترتیبی استفاده شود و حساسیت بسیار کمتری به نقاط پرت (outliers) دارد. برای همین آزمون H Kruskal-Wallis اغلب زمانی استفاده می شود که این فرضیات (نرمال بودن، داده های ترتیبی، وجود نقاط پرت) نقض شده باشد، ANOVA یک طرفه نامناسب باشد. با این حال، آزمون H Kruskal-Wallis لزوماً عاری از فرضیات نیست .زیرا نتیجه‌گیری شما به توزیع داده‌ها بستگی دارد که در فرض شماره 4 مورد بحث قرار می گیرد:

فرض شماره 4:

برای اینکه نحوه تفسیر نتایج آزمون H Kruskal-Wallis را بدانید، باید تعیین کنید که آیا توزیع ها در هر گروه (یعنی توزیع مقادیر برای هر گروه از متغیر مستقل) شکل یکسانی دارند یا خیر. (که به معنای تغییرپذیری مشابه (same variability) نیز هست. برای درک این مفهوم به نمودار زیر نگاه کنید:

در نمودار سمت چپ بالا، توزیع مقادیر برای گروه های “قفقازی” (Caucasian)، “آفریقایی آمریکایی” (African American) و “اسپانیایی” (Hispanic) به یک شکل است. از سوی دیگر، در نمودار سمت راست بالا، توزیع مقادیر برای هر گروه یکسان نیست. یعنی اشکال و متغیرهای متفاوتی دارند.

اگر توزیع‌های شما شکل یکسانی دارند، می‌توانید از Stata برای انجام آزمایش H Kruskal-Wallis برای مقایسه میانه‌های متغیر وابسته خود برای گروه‌های مختلف متغیر مستقل مورد علاقه خود استفاده کنید. به عنوان مثال: گروه های قفقازی، آفریقایی آمریکایی و اسپانیایی، برای متغیر مستقل، “قومیت”. با این حال، اگر توزیع‌های شما شکل متفاوتی دارند، فقط می‌توانید از آزمون H Kruskal-Wallis برای مقایسه میانگین رتبه‌ها استفاده کنید. داشتن توزیع های مشابه به سادگی به شما امکان می دهد از میانه ها برای نشان دادن تغییر مکان بین گروه ها استفاده کنید (همانطور که در نمودار سمت چپ بالا نشان داده شده است). به این ترتیب، بررسی این فرض بسیار مهم است وگرنه ممکن است نتایج خود را اشتباه تفسیر کنید.

در عمل، بررسی فرض شماره 4 احتمالاً مقدار زیادی از زمان شما را هنگام انجام آزمایش H Kruskal-Wallis می گیرد. با این حال، Stata تمام ابزارهای مورد نیاز برای انجام این کار را فراهم می کند.

در بخش، بعدی روش Stata مورد نیاز برای انجام آزمون Kruskal-Wallis H را با فرض اینکه هیچ فرض گفته شده در بالا نقض نشده باشد، را نشان می‌دهیم. ابتدا، مثالی را که برای توضیح روش آزمون H Kruskal-Wallis در Stata استفاده می‌کنیم، را بیان می‌کنیم.

مثال

یک فروشنده آنلاین می خواهد بهترین عملکرد را از کارمندان خود دریافت کند و همچنین تجربه کاری آنها را بهبود بخشد. در حال حاضر، به کارمندانش هیچ نوع سرگرمی در حین کار ارائه نمی‌شود (مثلاً بدون موسیقی، تلویزیون و غیره). با این حال، فروشنده می‌خواهد بداند که آیا ارائه موسیقی، که تعدادی از کارمندان درخواست کرده‌اند، منجر به بهره‌وری بیشتر می‌شود یا خیر، و اگر چنین است، تا چه حد.

از این رو پژوهشگر نمونه ای تصادفی متشکل از 60 نفر از کارمندان را انتخاب کرد. این نمونه 60 شرکت‌کننده به‌طور تصادفی به سه گروه مستقل با 20 شرکت‌کننده در هر گروه تقسیم شد: (الف) یک “گروه کنترل” که به موسیقی گوش نمی‌داد. (ب) “گروه درمانی A” که به موسیقی گوش می دهند، اما انتخابی برای آنچه گوش می دهند نداشتند. (ج) “گروه درمانی B” که به موسیقی گوش می‌دادند و می‌توانستند آنچه را که گوش می‌دادند انتخاب کنند.

آزمایش به مدت یک ماه به طول انجامید. در پایان آزمایش، «بهره‌وری» سه گروه بر حسب «متوسط تعداد بسته‌های پردازش شده در ساعت» اندازه‌گیری شد. بنابراین، متغیر وابسته «بهره‌وری» (بر حسب میانگین تعداد بسته‌های پردازش شده در ساعت در طول آزمایش یک ماهه اندازه‌گیری شد)، در حالی که متغیر مستقل «نوع درمان» بود، که در آن سه گروه مستقل وجود داشت: «بدون موسیقی» (No music) (گروه کنترل)، “موسیقی – بدون انتخاب” (Music – No choice) (گروه درمانی اول) و “موسیقی – انتخاب” (Music – choice) (گروه درمانی دوم).

فرض بر این بود که ANOVA یک طرفه نامناسب است (به عنوان مثال، به دلیل توزیع های غیر نرمال) و به همین دلیل، از آزمون H Kruskal-Wallis برای تعیین اینکه آیا تفاوت آماری معنی داری در بهره وری بین سه گروه مستقل وجود دارد یا خیر استفاده شد.

توجه: مثال و داده های استفاده شده برای این راهنما ساختگی هستند.

تنظیمات در Stata

همانطور که در زیر نشان داده شده است، در Stata با ایجاد متغیر مستقل به نام ، سه گروه را از هم جدا کردیم. (الف) و به گروه کنترل مقدار “1 — No music” دادیم. (ب) برای گروه درمانی اول که به موسیقی گوش می دهند، اما انتخابی از آنچه که گوش می دهند نداشتند مقدار “2 — Music – No choice” دادیم. (ج) برای گروه درمانی دوم که به موسیقی گوش می‌دادند و انتخابی از آنچه که گوش می‌دادند داشتند، مقدار “3 — Music – choice ” دادیم.

همانطور که در زیر نشان داده شده است، مقادیر متغیر مستقل، (موسیقی)، در ستون سمت چپ صفحه Data Editor (Edit) وارد شد، در حالی که مقادیر متغیر وابسته، (بهره وری)، در ستون سمت راست وارد شد:

روش آزمون در Stata

در این بخش به شما نشان می‌دهیم که چگونه داده‌های خود را با استفاده از آزمون Kruskal-Wallis H در Stata تجزیه و تحلیل کنید، البته به شرطی که چهار فرض گفته شده در بخش قبلی، نقض نشده‌ باشند. شما می توانید یک آزمون Kruskal-Wallis H را با استفاده از کد (Code) یا رابط کاربری گرافیکی (GUI) (graphical user interface) در Stata انجام دهید. پس از اینکه تجزیه و تحلیل خود را انجام دادید، به شما نشان می دهیم که چگونه نتایج خود را تفسیر کنید. ابتدا باید انتخاب کنید که میخواهید از کد استفاده کنید یا GUI.

روش اول با استفاده از کد

در این بخش، کدی را برای انجام آزمون Kruskal-Wallis H قرار دادیم. این کد به شکل زیر در کادر فرمان در Stata وارد می شود:

کد اجرای آزمون Kruskal-Wallis H بر روی داده های شما به شکل زیر است:

kwallis DependentVariable, by(IndependentVariable)

با استفاده از مثال، که در آن متغیر وابسته Productivity و متغیر مستقل Music است، کد مورد نیاز این خواهد بود:

kwallis Productivity, by(Music)

بنابراین کد زیر را وارد کرده و کلید “Enter” را روی صفحه کلید خود فشار دهید تا خروجی تولید شود.

روش اول با استفاده از GUI

سه مرحله مورد نیاز برای انجام آزمون Kruskal-Wallis H در Stata در زیر نشان داده شده است:

مرحله (1)

برایStata 13 ، همانطور که در زیر نشان داده شده است، روی

Statistics > Nonparametric analysis > Tests of hypotheses > Kruskal-Wallis rank test

در منوی اصلی کلیک کنید.

توجه: برای Stata 12 (که برای Stata 13 نیز معتبر است)، روی

Statistics > Summaries, tables, and tests > Nonparametric tests of hypotheses > Kruskal-Wallis rank test

در منوی اصلی کلیک کنید.

به شما پنجره kwallis – Kruskal-Wallis equality-of-populations rank test نشان داده می شود:

مرحله (2)

متغیر وابسته، را از درون کادر کشویی و متغیر مستقل، را از درون کادر کشویی انتخاب کنید. با صفحه زیر روبرو خواهید شد:

مرحله (3)

بر روی دکمه OK کلیک کنید تا خروجی تولید گردد.

خروجی آزمون H Kruskal-Wallis در Stata

اگر متوجه شدید که پس از آزمایش فرض شماره 4، گروه ها دارای توزیع هایی به شکل مشابه هستند، می توانید نتایج خود را بر اساس تفاوت در میانه ها تفسیر کنید. این چیزی است که ما برای این مجموعه داده فرض خواهیم کرد. با اجرای هر یک از روش های بالا، نتایج شما تحت عنوان Kruskal-Wallis equality-of-populations rank test (آزمون رتبه برابری جمعیت Kruskal-Wallis)، مطابق شکل زیر ارائه می شود:

توجه: اگر گروه‌ها توزیع‌هایی به شکل مشابه نداشتند، نتایج خود را به جای میانگین‌ها بر حسب تفاوت در میانگین رتبه‌ها تفسیر کنید.

ما رابطه هایی در داده‌هایمان داشتیم، بنابراین ما می خواهیم به نتایج آزمون Kruskal-Wallis H که در مستطیل قرمز در جدول بالا مشخص شده است، مراجعه کنیم. خط بالایی یعنی مقدار مجذور کای و درجات آزادی آزمون را گزارش می کند. خط زیرین آن یعنی اهمیت آماری آزمون H Kruskal-Wallis را نشان می دهد (یعنی مقدار p (p-value)). می بینیم که سطح معنی داری 0.0088 است (یعنی p = 0.0088)، که کمتر از 0.05 است، و بنابراین، تفاوت آماری معنی داری در بهره وری میانه بین سه گروه مختلف متغیر مستقل موسیقی (بدون موسیقی”، “موسیقی – بدون انتخاب” و “موسیقی – انتخاب) وجود دارد.

گزارش خروجی آزمون H Kruskal-Wallis

هنگامی که خروجی آزمون H Kruskal-Wallis خود را گزارش می کنید، باید شامل موارد زیر باشد:

(الف) مقدمه ای بر تحلیلی که انجام دادید.

(ب) اطلاعات در مورد نمونه شما (از جمله تعداد شرکت کنندگان در هر یک از گروه های شما اگر اندازه گروه نابرابر بود یا داده های گم شده ای باشد).

(ج) توضیحی مبنی بر اینکه آیا تفاوت های آماری معنی داری بین گروه های شما وجود دارد یا نه (شامل مقدار χ² مشاهده شده، درجات آزادی، و سطح معنی داری (یعنی p-value)).

بر اساس خروجی Stata ، می‌توانیم نتایج این مطالعه را به شرح زیر گزارش کنیم:

آزمایش H Kruskal-Wallis برای تعیین اینکه آیا بهره‌وری در یک مرکز فروش اینترنتی برای سه گروهی انجام شد: (الف) بدون موسیقی (n = 20). (ب) موسیقی، بدون انتخاب آنها (n = 20)؛ و (ج) موسیقی با با حق انتخاب (n = 20). آزمون H Kruskal-Wallis نشان داد که بین سه گروه تفاوت آماری معنی‌داری در بهره‌وری وجود دارد.

χ²(2) = 9.470, p = 0.0088

علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار برای ارائه بصری نتایج استفاده کرد. به عنوان مثال، می توانید این کار را با استفاده از نمودار جعبه انجام دهید. این می تواند درک نتایج شما را برای دیگران آسان تر کند و به راحتی در Stata تولید می شود.