همبستگی پیرسون با استفاده از Minitab
مقدمه
همبستگی حاصلضرب-گشتاور پیرسون (Pearson’s Product-Moment Correlation) که اغلب با عنوان همبستگی پیرسون بیان می گردد، برای ارزیابی قدرت و جهت ارتباط بین دو متغیر پیوسته که به صورت خطی مرتبط هستند استفاده می شود. ضریب آن که با r نشان داده می شود، قدرت و جهت این رابطه را نشان می دهد و می تواند از -1 برای یک رابطه کاملا خطی منفی تا +1 برای یک رابطه کاملا خطی مثبت متغیر باشد. مقدار 0 (صفر) نشان می دهد که هیچ رابطه ای بین دو متغیر وجود ندارد.
برای مثال، میتوانید از همبستگی پیرسون استفاده کنید تا بفهمید آیا ارتباطی بین نمره امتحان و مدت زمان مرور درسی وجود دارد یا نه؟. در این مثال، دو متغیر «نمره امتحان» و «مدت زمان مرور درسی»هستند. اگر ارتباط مثبت و قوی وجود داشت، میتوانیم بگوییم که زمان بیشتری که صرف مرور درسی میشود با نمره بالاتر امتحان مرتبط است.
در این آموزش، نحوه انجام همبستگی پیرسون با استفاده از Minitab و همچنین تفسیر و گزارش نتایج این آزمون را به شما نشان میدهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که دادههای شما باید رعایت کنند تا همبستگی پیرسون به شما نتیجه معتبری بدهد، بدانید. در ادامه به این فرضیات می پردازیم.
فرضیات
همبستگی پیرسون دارای چهار فرض است. شما نمی توانید اولین مورد از این فرضیات را با Minitab آزمایش کنید زیرا به طراحی مطالعه شما و انتخاب متغیرها مربوط می شود. با این حال، باید این فرض را بررسی کنید. اگر این فرض برآورده نشود باید به جای همبستگی پیرسون از آزمون آماری دیگری استفاده کنید. فرض شماره 1 در زیر توضیح داده شده است:
فرض شماره 1:
دو متغیر شما باید در سطح پیوسته اندازه گیری شوند (یعنی متغیرهای فاصله ای (interval) یا نسبتی (ratio) هستند). نمونههایی از این متغیرهای پیوسته عبارتند از: ارتفاع، دما، حقوق و دستمزد، زمان، هوش، سن، نمره امتحان، توان خروجی، میزان فروش و غیره.
توجه: اگر هر یک از دو متغیر شما در مقیاس ترتیبی اندازه گیری شد، باید به جای همبستگی پیرسون از همبستگی اسپیرمن (Spearman’s correlation) استفاده کنید. نمونهای از متغیرهای ترتیبی عبارتند از مقیاس لیکرت (مثلاً مقیاس 7 درجهای از «کاملاً موافقم» تا «کاملاً مخالفم» می باشد.
فرضیات شماره 2، 3 و 4 مربوط به ماهیت داده های شما هستند و می توان آنها را با استفاده از Minitab بررسی کرد. باید این فرضیات را بررسی کنید، در غیر این صورت، نتایجی که هنگام اجرای همبستگی پیرسون به دست میآورید ممکن است معتبر نباشند.
فرض شماره 2:
باید یک رابطه خطی بین دو متغیر شما وجود داشته باشد. چندین راه برای بررسی رابطه خطی وجود دارد. با این حال، پیشنهاد می کنیم با استفاده از Minitab یک Scatterplot ایجاد کنید، و دو متغیر را نسبت به یکدیگر رسم کنید. سپس می توانید به صورت بصری میزان خطی بودن نمودار پراکندگی را بررسی کنید. اگر رابطه نمایش داده شده در نمودار پراکنده شما خطی نباشد، یا باید داده های خود را “تبدیل” (transform) کنید یا به جای آن یک همبستگی اسپیرمن را اجرا کنید.
فرض شماره 3:
نباید نقاط پرت (outliers) قابل توجهی وجود داشته باشد. نقطه پرت به یک داده در مجموعه داده های شما است که از الگوی معمول پیروی نمی کند. پیرسون نسبت به نقاط پرت خیلی حساس است. این نقاط می تواند تأثیر بسیار زیادی بر روی خط بهترین تناسب (line of best fit) و ضریب همبستگی پیرسون داشته باشد، که در نهایت منجر به نتیجه گیری بسیار اشتباه در مورد داده های شما خواهد شد. بنابراین، بهترین کار این است که هیچ نقطهی پرتی وجود نداشته باشد یا به حداقل برسد. خوشبختانه، میتوانید در Minitab نمودارهای پراکنده ایجاد کنید تا نقاط پرت احتمالی را شناسایی کنید.
فرض شماره 4:
متغیرهای شما باید تقریباً به طور نرمال توزیع شوند. برای ارزیابی معنیداری آماری همبستگی پیرسون، باید نرمالیته دو متغیره (bivariate normality) داشته باشید. اما ارزیابی این فرض دشوار است. بنابراین روش سادهتر برای ارزیابی نرمال بودن، بهتر است هر متغیر به طور جداگانه بررسی شود. این کار را می توان با استفاده از آزمون Shapiro-Wilk برای بررسی نرمالیته انجام دهید.
در عمل، بررسی این فرضیات احتمالاً وقت بیشتری را هنگام انجام همبستگی پیرسون میگیرد. با این حال، کار سختی نیست و Minitab تمام ابزارهای مورد نیاز برای انجام این کار را در اختیار شما قرار می دهد.
در بخش بعدی، روش Minitab مورد نیاز برای انجام همبستگی پیرسون را با فرض اینکه هیچ فرضی نقض نشده است، نشان میدهیم. ابتدا، مثالی را که برای توضیح روش همبستگی پیرسون در Minitab استفاده کرده ایم، را ارائه میکنیم.
مثال
یک مربی می خواهد تعیین کند که آیا نمرات امتحانات دانش آموزان با مدت زمان مرور درسی مرتبط است یا خیر. برای مثال، وقتی دانشآموزان زمان بیشتری را صرف مرور درسی میکنند، آیا نمره امتحان آنها افزایش یافته است (یعنی رابطه مثبت) یا برعکس آن اتفاق افتاده است (یعنی رابطه منفی)؟ به این ترتیب، نمرات در یک امتحان ریاضی در مقیاسی از 0 تا 100 اندازه گیری شد و مقدار زمان صرف شده برای مرور درسی بر حسب ساعت اندازه گیری شد.
برای انجام آنالیز، محقق 40 دانش آموز را انتخاب کرد. مقدار مدت زمان مرور درسی (یعنی متغیر، Revision time) و نمرات امتحان (یعنی متغیر، Exam score) برای همه 40 شرکتکننده ثبت شد. محقق با بیان متغیرها، می خواست نمره امتحان و مدت زمان مرور درسی را به هم مرتبط کند. برای تعیین اینکه آیا بین نمره امتحان و مدت زمان مرور درسی رابطه آماری معناداری وجود دارد یا خیر از همبستگی پیرسون استفاده شد.
توجه: مثال و داده های استفاده شده برای این آموزش ساختگی هستند.
تنظیمات در Minitab
در Minitab دو متغیر خود را در دو ستون اول (C1 و C2) وارد کردیم. زیر ستون C1 نام متغیر Exam score و در زیر ستون C2 نام دومین متغیر یعنی Revision time را به صورت زیر وارد کردیم. در نهایت نمرات Exam score را در ستون Exam score و مدت زمان مرور درسی (برحسب ساعت) را در ستون Revision time وارد کردیم. این مراحال در زیر نشان داده شده است:
توجه: مهم نیست که کدام یک از دو متغیر خود را در C1 یا C2 وارد کنید.
مراحل آزمون در Minitab
در این بخش به شما نشان میدهیم که چگونه دادههای خود را با استفاده از همبستگی پیرسون در Minitab آنالیز کنید. البته به شرطی که چهار فرض گفته شده در بخش فرضیات، نقض نشده باشند. بنابراین، سه مرحله مورد نیاز برای اجرای همبستگی پیرسون در Minitab در زیر نشان داده شده است:
مرحله (1)
همانطور که در زیر نشان داده شده است، روی
Stat > Basic Statistics > Correlation…
در منوی اصلی کلیک کنید:
با پنجره ی Correlation زیر مواجه خواهید شد:
توجه: همانطور که در زیر نشان داده شده است، در برخی از ورژن های Minitab یک کادر Method هم وجود دارد. مطمئن شوید که “همبستگی پیرسون” در این کادر انتخاب شود:
مرحله (2)
دو متغیر خود، Exam score و Revision time را از کادر سمت چپ اصلی (یعنی C1 Exam score و C2 Revision time) به کادر Variables منتقل کنید. در نهایت با پنجره ی زیر روبرو خواهید شد:
توجه: برای انتقال دو متغیر، ابتدا باید داخل کادر سمت چپ اصلی کلیک کنید و هر دو متغیر را انتخاب کنید (به عنوان مثال، C1 Exam score و C2 Revision time). این کار دکمه انتخاب را فعال می کند در حالی که قبل از آن بصورت غیر فعال بود. سپس، به سادگی دکمه را فشار دهید تا متغیر مورد نظر را به کادر Variables منتقل میکند.
مرحله (3)
بر روی دکمه OK کلیک کنید. خروجی Minitab در زیر نشان داده شده است.
خروجی همبستگی پیرسون در Minitab
خروجی Minitab برای همبستگی پیرسون در زیر نشان داده شده است:
خروجی شامل دو بخش مهم از اطلاعات است:
الف) ضریب همبستگی پیرسون، r. این قدرت ارتباط بین دو متغیر (یعنی نمره امتحان و زمان مرور درسی) را ارزیابی می کند.
ب) اهمیت آماری دو طرفه ضریب همبستگی پیرسون (یعنی p-value).
در این مثال، ضریب همبستگی پیرسون 0.853 است (یعنی خط “همبستگی پیرسون نمره امتحان و مدت زمان مرور درسی = 0.853”)، که با توجه به جدول زیر نشان دهنده همبستگی مثبت قوی بین دو متغیر نمره امتحان و مدت زمان مرور درسی است:
ضریب همبستگی | قدرت همبستگی |
0.1 < | r | < .3 | همبستگی کم و ضعیف |
0.3 < | r | < .5 | همبستگی متوسط |
| r | > .5 | همبستگی بزرگ و قوی |
در این جدول | r | به معنای مقدار قدر مطلق r است. بنابراین، ضریب همبستگی پیرسون در این مثال (r = 0.853) نشان دهنده یک همبستگی قوی است. اگر در عوض، r = -.853 بود، شما باز هم یک همبستگی قوی، هرچند منفی، داشتید. این نتیجه نشان می دهد که زمان بیشتری که صرف مرور درسی می شود با نمرات امتحان بهتر (یعنی بالاتر) همراه است. همچنین می توانید ببینید که ضریب همبستگی پیرسون از نظر آماری به صورت p <.0005 معنی دار است (یعنی ردیف “P-Value = 0.000” که در واقع به معنای p <.0005 است)
گزارش خروجی همبستگی پیرسون
هنگامی که خروجی همبستگی پیرسون خود را گزارش می کنید، بهتر است که شامل موارد زیر باشد:
الف. مقدمه ای بر آنالیزی که انجام دادید.
ب. اطلاعات مربوط به نمونه شما (شامل مقادیر گمشده (missing values)).
ج. ضریب همبستگی پیرسون، r و درجه آزادی، که حجم نمونه منهای 2 است (در مثال بالا، برای حجم نمونه 40، درجه آزادی 38 خواهد بود).
د. سطح معناداری آماری (یعنی p-value) نتیجه شما.
با توجه به نتایج فوق می توان نتایج این تحقیق را به شرح زیر گزارش کرد:
همبستگی حاصلضرب-گشتاور پیرسون برای ارزیابی رابطه بین نمره امتحان و زمان صرف شده برای مرور درسی در بین 40 دانش آموز اجرا شد. یک همبستگی مثبت قوی بین نمره امتحان و زمان صرف شده برای مرور درسی وجود داشت.
r(38) = .853, p < .0005
علاوه بر گزارش نتایج به شرح بالا، می توان از یک نمودار (به عنوان مثال، یک نمودار پراکنده) برای ارائه بصری نتایج استفاده کرد. این می تواند درک نتایج شما را برای دیگران آسان تر کند و به راحتی در Minitab تولید می شود.
مطالب زیر را هم از دست ندهید
آزمون t زوجی و یا جفت شده (paired t-test) با استفاده از Minitab
آزمون t مستقل با استفاده از SPSS
آزمون H کروسکال-والیس (H Kruskal-Wallis) با استفاده از SPSS
رتبه بندی داده ها (Ranking Data) در SPSS
آزمون t مستقل (independent t-test) برای دو نمونه
آلفای کرونباخ (α) (Cronbach’s alpha) با استفاده از SPSS
آلفای کرونباخ (Cronbach’s alpha) با استفاده از Minitab
نحوه تبدیل داده ها (Transforming Data) در SPSS
کاپای کوهن (Cohen’s kappa (κ)) با استفاده از SPSS
ایجاد نمودار میله ای با استفاده از SPSS
رسم نمودار پراکندگی (نقطه ای) (Scatterplot) با استفاده از SPSS
ایجاد نمودار میله ای خوشه ای (Clustered Bar Chart) با استفاده از SPSS
آنالیز کوواریانس چند متغیره (MANCOVA) یک طرفه در SPSS
آزمون علامت (sign test) با استفاده از SPSS
همبستگی حاصلضرب-گشتاور پیرسون (Pearson’s Product-Moment Correlation) با استفاده از SPSS Statistics
همبستگی دو رشته ای نقطه ای (Point-Biserial Correlation) با استفاده از SPSS
ضریب همبستگی رتبهای اسپیرمن (Spearman rank-order correlation coefficient) با استفاده از SPSS
همبستگی جزئی (Partial Correlation) با استفاده از SPSS
گامای گودمن و کروسکال (Goodman and Kruskal’s gamma) با استفاده از SPSS
آزمون H کروسکال-والیس (H Kruskal-Wallis) با استفاده از Stata
MANOVA یک طرفه با استفاده از Stata
آنالیز اجزای اصلی (PCA) با استفاده از SPSS
آمار توصیفی (descriptive) و استنباطی (inferential)
آزمون مربع کای (Chi-Square) با استفاده از SPSS
آزمون یو من ویتنی (Mann-Whitney U) با استفاده از SPSS
آزمون مک نمار (McNemar’s test) با استفاده از SPSS
کتاب سنجی (Bibliometrics) و تفاوت آن با علم سنجی (Scientometrics) و اطلاع سنجی (Informetrics)
تعدیل کننده دو وضعیتی (Dichotomous Moderator) با استفاده از SPSS
ضریب همبستگی تاوی- بی کندال (Kendall’s Tau-b correlation coefficient) با استفاده از SPSS
آزمون Jonckheere-Terpstra (جانكهير ترپسترا) با استفاده از SPSS
آزمون رتبه علامتدار ویلکاکسون (Wilcoxon signed-rank test) با استفاده از SPSS
آزمون Q کوکران (Cochran’s Q) با استفاده از SPSS
دی سامرز (Somers’ d) با استفاده از SPSS
آزمون t وابسته با استفاده از SPSS Statistics
آزمون t وابسته برای نمونه های جفت شده
رگرسیون لجستیک چند جمله ای در SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
رگرسیون پواسون با استفاده از SPSS
ایجاد متغیر های ساختگی در SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS
رگرسیون خطی با استفاده از SPSS
ANOVA مخلوط با استفاده از SPSS Statistics
ANOVA اندازه گیری های مکرر دو طرفه با استفاده از SPSS Statistics
ANOVA دو طرفه در SPSS Statistics
ANOVA با اندازه گیری های مکرر با استفاده از SPSS Statistics
آزمون نرمال بودن با استفاده از SPSS Statistics
انواع متغیر و تحقیقات تجربی و غیر تجربی
ANCOVA یک طرفه در SPSS Statistics
شصت لغت پرتکرار آزمون زبان عمومی آزمون دکتری
آزمون t نمونه تکی با استفاده از SPSS Statistics
چگونه یک نمودار نقطهای متصل به هم در R ایجاد کنیم؟
چند پروژه برای مبتدیان علم داده
شمارش تعداد در یک بردار منطقی در R
جایگزینی اولین مقدار غیر مفقود در R
انتساب داده های گمشده (Imputation of missing data) در R
برای یادگیری پایتون چه کتابایی بخونیم
چگونه نتایج حاشیه خطا را تفسیر کنیم؟
تحلیل سئوال روش تحقیق آزمون دکتری
تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار
تجزیه و تحلیل آماری: تعریف، مثال
روایی نتیجه گیری آماری (SCV) چیست؟
برنامه کلاس های آنلاین آمار و روش تحقیق
نحوه تعیین خودکار تعداد خوشه ها توسط قانون آرنج
هوش مصنوعی (AI) چیست؟ 3 چیز که باید بدانید
آمار و روش تحقیق در آزمون کارشناسی ارشد و دکتری روانشناسی
چهار مهارت افراد قدرتمند برای دانشمندان داده
چگونه یک سئوال تحقیق خوب طراحی کنیم؟
علم داده راه حلی برای مشکلات تجاری
بهترین کتاب های علوم داده برای مبتدیان
آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک
گراندد تئوری ادغام سنت های رشته ای متفاوت
مقدمه ای بر معادلات ساختاری و روش های آن
گوشه چشمی بر مفاهیم خوشه بندی در آمار و داده کاوی
Afshin Safaee (@afshinsafaee.official)