اصول اولیه آزمون نرمال بودن در SPSS Statistics
مقدمه
ارزیابی نرمال بودن داده ها (normality of data) پیش نیاز بسیاری از آزمون های آماری است زیرا داده های نرمال یک فرض اساسی در آزمون پارامتریک (parametric test) است. دو روش اصلی برای ارزیابی نرمال بودن وجود دارد: گرافیکی (graphically) و عددی (numerically).
این آموزش به شما کمک می کند تا تعیین کنید که آیا داده های شما نرمال هستند یا نه؟. بنابراین، این فرض در داده های شما برای آزمایش های آماری رعایت می شود. دو روش گفته شده را می توان به دو موضوع اصلی تقسیم کرد: تکیه بر آزمون های آماری (statistical tests) یا بازرسی بصری (visual inspection). آزمونهای آماری مزیت قضاوت عینی از نرمال بودن را دارند، اما گاهی اوقات به اندازه کافی در اندازههای نمونه کم حساس نیستند یا بیش از حد به اندازه نمونههای بزرگ حساس نیستند.
به این ترتیب، برخی از آماردانان ترجیح می دهند از تجربه خود برای قضاوت ذهنی در مورد داده های نمودارها (plots/graphs) استفاده کنند. تفسیر گرافیکی این مزیت را دارد که به قضاوت خوب اجازه میدهد تا نرمال بودن را در موقعیتهایی که آزمونهای عددی بیش از حد حساس یا کمتر از آن حساس باشند، ارزیابی کند. اما روشهای گرافیکی فاقد عینیت هستند. اگر تجربه زیادی در تفسیر نرمال به صورت گرافیکی ندارید، احتمالاً بهترین کار این است که به روشهای عددی تکیه کنید.
ما گام به گام روش آزمون نرمال بودن را در SPSS Statistics و همچنین نحوه برخورد با موقعیتهایی را که دادههای شما با فرض نرمال بودن را رد میکنند، را به شما نشان میدهیم (به عنوان مثال، جایی که میتوانید سعی کنید داده های خود را تبدیل (transform) کنید، تا آنها نرمال (normal) شوند. چیزی که ما به شما نشان می دهیم این است که چگونه با استفاده از SPSS Statistics این کار را انجام دهید. ما در این آموزش شما را با اصول اولیه آزمون نرمال بودن در SPSS Statistics آشنا می کنیم.
روش های ارزیابی نرمال بودن
SPSS Statistics به شما امکان می دهد تمام این روش ها را در دستور Explore… آزمایش کنید. اگر نرمال بودن را در یک گروه آزمایش می کنید یا مجموعه داده خود را به یک یا چند گروه تقسیم می کنید، می توان از دستور Explore… به صورت مجزا استفاده کرد. به عنوان مثال، اگر گروهی از شرکت کنندگان دارید و میخواهید بدانید که آیا قد آنها به طور نرمال توزیع شده است یا نه؟، می توانید از دستور Explore… استفاده کنید.
اگر گروه خود را به دو دسته مرد و زن تقسیم کنید (یعنی یک متغیر مستقل طبقه ای دارید)، می توانید با استفاده از دستور Explore…، نرمال بودن قد را هم در گروه مرد و هم در گروه زن آزمایش کنید. این امر حتی اگر بیش از دو گروه داشته باشید صدق می کند. با این حال، اگر 2 یا بیشتر از متغیرهای طبقه ای و مستقل دارید، دستور Explore… به تنهایی کافی نیست و باید از دستور Split File… نیز استفاده کنید.
توجه: روشهای زیر برای SPSS Statistics ورژنهای 17 تا 28 یکسان است. اما در ورژن 27 ظاهر جدیدی به رابط خود به نام “SPSS Light” معرفی کرد و جایگزین ظاهر قبلی ورژن 26 و ورژن های قبلی شد که “SPSS Standard” نام داشت. بنابراین، اگر ورژن 27 یا 28 SPSS Statistics (یا ورژن اشتراک SPSS Statistics) را دارید، تصاویر زیر خاکستری روشن خواهند بود. با این حال، روش ها یکسان هستند.
روش برای متغیر های با یک و یا بدون گروه بندی (none or one grouping variable)
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Analyze > Descriptive Statistics > Explore…
در منوی اصلی کلیک کنید:
مرحله (2)
همانطور که در زیر نشان داده شده است، با پنجره Explore نمایش داده می شود:
مرحله (3)
متغیری را که باید از نظر نرمال بودن آزمایش شود، با کشیدن و رها کردن یا با استفاده از دکمه پیکان به کادر Dependent List منتقل کنید. در این مثال، متغیر
را به کادر Dependent List منتقل کردیم. در ادامه با صفحه زیر روبرو خواهید شد:
مرحله (4)
[اختیاری] اگر نیاز دارید مشخص کنید که آیا متغیر شما به طور معمول برای هر سطح از متغیر مستقل شما توزیع می شود یا خیر، باید متغیر مستقل خود را به کادر Factor List اضافه کنید. در این مثال، ما متغیر را به کادر Factor List منتقل کردیم. در ادامه با صفحه زیر روبرو خواهید شد:
مرحله (5)
بر روی دکمه کلیک کنید. همانطور که در زیر نشان داده شده است، با کادر گفتگوی Explore Statistics روبرو خواهید شد:
گزینه های بالا را بدون تغییر رها کرده و بر روی دکمه کلیک کنید.
مرحله (6)
بر روی دکمه کلیک کنید. گزینه ها را طوری تغییر دهید که با صفحه زیر روبرو شوید:
مرحله (7)
بر روی دکمه و در ادامه بر روی دکمه
کلیک کنید.
خروجی
SPSS Statistics با این روش جدول و نمودارهای زیادی را خروجی می دهد. یکی از دلایل این امر این است که دستور Explore… صرفاً برای آزمایش نرمال بودن استفاده نمی شود، بلکه برای توصیف داده ها به روش های مختلف استفاده می شود. هنگام آزمون نرمال بودن، ما عمدتاً به جدول Tests of Normality و Normal Q-Q Plots، روش های عددی و گرافیکی برای آزمایش نرمال بودن داده ها علاقه مندیم.
آزمون نرمال بودن Shapiro-Wilk
جدول فوق نتایج دو آزمون معروف نرمال بودن یعنی آزمون کولموگروف-اسمیرنوف (Kolmogorov-Smirnov Test) و آزمون شاپیرو-ویلک (Shapiro-Wilk) را ارائه می دهد. آزمون Shapiro-Wilk برای اندازههای نمونه کوچک (کمتر از 50 نمونه) مناسبتر است، اما میتواند اندازههای نمونه به بزرگی 2000 را نیز انجام دهد. به همین دلیل، ما از آزمون Shapiro-Wilk به عنوان ابزار عددی خود برای ارزیابی نرمال بودن استفاده خواهیم کرد.
در جدول بالا می بینیم که برای گروه دوره های Beginner، Intermediate و Advanced متغیر وابسته، Time به طور نرمال توزیع شده است.
چگونه بدانیم؟
- اگر Sig. مقدار آزمون Shapiro-Wilk بزرگتر از 0.05 باشد، داده ها نرمال است.
- اگر این مقدار زیر 0.05 باشد، داده ها به طور قابل توجهی از توزیع نرمال منحرف می شوند.
همچنین شما میتوانید به جای آزمون Shapiro-Wilk، از مقادیر چولگی (skewness) و کشیدگی (kurtosis) برای تعیین نرمال بودن داده های خود استفاده کنید.
نمودار Q-Q معمولی (Normal Q-Q Plot)
برای تعیین نرمال بودن به صورت گرافیکی، می توانیم از خروجی یک Normal Q-Q Plot استفاده کنیم. اگر داده ها به طور نرمال توزیع شوند، نقاط داده نزدیک به خط مورب (diagonal line) خواهند بود. اگر نقاط داده به صورت غیرخطی از خط خارج شوند، داده ها توزیع نرمال ندارند. همانطور که در نمودار زیر می بینیم، داده ها به طور نرمال توزیع می شوند.
اگر نمیتوانید نمودار را به درستی تفسیر کنید، به جای آن به روش های عددی تکیه کنید زیرا قضاوت صحیح در مورد نرمال بودن داده ها بر اساس نمودارها می تواند کمی تجربه نیاز داشته باشد.
زمانی که دو یا چند متغیر مستقل وجود دارد
دستور Explore… به خودی خود نمی تواند متغیر وابسته را به گروه هایی بر اساس دو یا چند متغیر مستقل تقسیم کند. با این حال، ما می توانیم این کار را با استفاده از دستور Split File… انجام دهیم.
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Data > Split File…
در منوی اصلی کلیک کنید:
مرحله (2)
همانطور که در زیر نشان داده شده است، با پنجره Split File روبرو خواهید شد:
مرحله (3)
روی گزینه Organize output by groups کلیک کنید. متغیرهای مستقلی را که می خواهید متغیر وابسته را بر روی آنها طبقه بندی کنید به کادر Groups Based on منتقل کنید. در این مثال، میخواهیم بدانیم که آیا علاقه به سیاست زمانی که بر اساس جنسیت
و سطح تحصیلات
طبقه بندی میشود، به طور نرمال توزیع میشود یا نه؟. در ادامه با صفحه زیر روبرو خواهید شد:
مرحله (4)
بر روی دکمه OK کلیک کنید.
توجه: فایل شما اکنون تقسیم (split) شده است و خروجی هر آزمونی در گروه هایی که انتخاب کرده اید طبقه بندی می شود.
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Analyze > Descriptive Statistics > Explore…
در منوی اصلی کلیک کنید:
مرحله (2)
مطابق شکل زیر پنجره Explore نمایش داده می شود:
مرحله (3)
متغیری را که باید از نظر نرمال بودن آزمایش شود، با کشیدن و رها کردن یا با استفاده از دکمه فلش به کادر Dependent List منتقل کنید. در این مثال، متغیر را به کادر Dependent List منتقل می کنیم. سپس با صفحه زیر روبرو خواهید شد:
توجه: نیازی به انتقال متغیرهای مستقل و
به کادر Factor List نیست زیرا این کار با دستور Split File… انجام شده است. ما نمی توانیم به سادگی این دو متغیر مستقل را به کادر Factor List منتقل کنیم زیرا این کار نتیجه دلخواه را نمی هد.
را برای نرمال بودن ابتدا با توجه به
و سپس با توجه به
تجزیه و تحلیل می کند.
را با گروهبندی همزمان افراد به جنسیت
و سطح تحصیلات
برای نرمال بودن تجزیه و تحلیل نمیکند.
مرحله (4)
بر روی دکمه کلیک کنید. همانطور که در زیر نشان داده شده است، با پنجره Explore: Statistics روبرو خواهید شد:
مرحله (5)
گزینه های بالا را بدون تغییر رها کرده و بر روی دکمه کلیک کنید.
مرحله (6)
بر روی دکمه کلیک کنید. گزینه ها را طوری تغییر دهید که با صفحه زیر روبرو شوید:
مرحله (7)
بر روی دکمه Continue و سپس بر روی دکمه OK کلیک کنید.
خروجی
اکنون خواهید دید که خروجی بر اساس ترکیب گروه های دو متغیر مستقل به بخش های جداگانه تقسیم شده است. به عنوان مثال، زمانی که متغیر وابسته، “Int_Politics” به اولین گروه “جنسیت” مرد (male) و اولین گروه “Edu_Level” (مدرسه (school)) طبقه بندی می شود، آزمون های نرمال بودن نشان داده میشود.
در این طبقه بندی ، جدول آزمون های نرمال بودن را مطابق شکل زیر ارائه می کنید:
در اینجا آزمون Shapiro-Wilk در حال تجزیه و تحلیل نرمال بودن “Int_Politics” بر روی داده های افرادی است که در متغیر مستقل “جنسیت” به عنوان “مرد” و در متغیر مستقل “Edu_Level” به عنوان “مدرسه” طبقه بندی می شوند. با توجه به جدول مقدار Sig. زیر ستون Shapiro-Wilk بزرگتر از 0.05 است، میتوان نتیجه گرفت که “Int_Politics” برای این زیرمجموعه خاص از افراد به صورت نرمال توزیع میشود.
همان دادهها برای تولید Normal Q-Q Plot نیز استفاده شده اند. از نمودار تولید شده که در زیر نشان داده شده است، میتوان نتیجه گرفت که دادهها به طور نرمال توزیع شدهاند. زیرا نقاط نزدیک خط مورب هستند و به نظر میرسد که الگوی غیرخطی ندارند.
مطالب زیر را هم از دست ندهید:
انواع متغیر و تحقیقات تجربی و غیر تجربی
ANCOVA یک طرفه در SPSS Statistics
آزمون t نمونه تکی با استفاده از SPSS Statistics
چگونه یک نمودار نقطهای متصل به هم در R ایجاد کنیم؟
چند پروژه برای مبتدیان علم داده
نحوه تعیین خودکار تعداد خوشه ها توسط قانون آرنج
هوش مصنوعی (AI) چیست؟ 3 چیز که باید بدانید
تجزیه و تحلیل آماری: تعریف، مثال
چگونه نتایج حاشیه خطا را تفسیر کنیم؟
روایی نتیجه گیری آماری (SCV) چیست؟
تحلیل سئوال روش تحقیق آزمون دکتری
تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار
آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک
8 پاسخ