همبستگی حاصلضرب-گشتاور پیرسون
این آزمون چه کاری انجام می دهد؟
ضریب همبستگی حاصلضرب-گشتاور پیرسون (Pearson product-moment correlation coefficient) اندازه گیری قدرت ارتباط خطی بین دو متغیر است و با r نشان داده می شود. اساساً، همبستگی حاصلضرب-گشتاور پیرسون تلاش میکند تا خطی از بهترین تناسب را از میان دادههای دو متغیر ترسیم کند، و ضریب همبستگی حاصلضرب-گشتاور پیرسون، r، نشان میدهد که تمام این نقاط داده تا چه اندازه از این “خط بهترین تناسب” (line of best fit) کمترین فاصله را دارند.
ضریب همبستگی حاصلضرب-گشتاور پیرسون چه مقادیری می تواند داشته باشد؟
ضریب همبستگی حاصلضرب-گشتاور پیرسون، r، می تواند محدوده ای از مقادیر را از 1+ تا 1- داشته باشد. مقدار 0 نشان می دهد که هیچ ارتباطی بین دو متغیر وجود ندارد. مقدار بیشتر از 0 نشان دهنده یک ارتباط مثبت است. یعنی با افزایش مقدار یک متغیر، مقدار متغیر دیگر نیز افزایش می یابد. مقدار کمتر از 0 نشان دهنده یک ارتباط منفی است. یعنی با افزایش مقدار یک متغیر، مقدار متغیر دیگر کاهش می یابد. این در نمودار زیر نشان داده شده است:
چگونه می توانیم قدرت ارتباط را بر اساس ضریب همبستگی حاصلضرب-گشتاور پیرسون تعیین کنیم؟
هر چه ارتباط بین دو متغیر قویتر باشد، ضریب همبستگی حاصلضرب-گشتاور پیرسون، r، بسته به مثبت یا منفی بودن رابطه به ترتیب به 1+ یا 1- نزدیکتر خواهد بود. دستیابی به مقدار +1 یا -1 به این معنی است که تمام نقاط داده شما در “خط بهترین تناسب” گنجانده شده است و هیچ نقطه داده ای وجود ندارد که تفاوتی با این خط نشان دهد. مقادیر r بین +1 و -1 (به عنوان مثال r برابر با 0.8 یا -0.4) نشان می دهد که در اطراف خط بهترین تناسب تغییرات وجود دارد. هر چه مقدار r به 0 نزدیکتر باشد، تغییرات در اطراف خط بهترین تناسب بیشتر می شود. روابط مختلف و ضرایب همبستگی آنها در نمودار زیر نشان داده شده است:
آیا دستورالعمل هایی برای تفسیر ضریب همبستگی حاصلضرب-گشتاور پیرسون وجود دارد؟
بله، دستورالعمل های زیر پیشنهاد شده است:
قدرت تناسب | ضریب r (مثبت یا منفی) |
کم | 0.1 تا 0.3 |
متوسط | 0.3 تا 0.5 |
زیاد | 0.5 تا 1.0 |
به یاد داشته باشید که این مقادیر دستورالعمل هستند و قوی بودن یا نبودن یک ارتباط نیز به آنچه اندازهگیری میکنید بستگی دارد.
آیا می توانید از هر نوع متغیری برای ضریب همبستگی حاصلضرب-گشتاور پیرسون استفاده کنید؟
خیر، این دو متغیر باید در مقیاس فاصله ای (interval) یا نسبتی (ratio) اندازه گیری شوند. با این حال، نیازی نیست هر دو متغیر از یک نوع باشند. یعنی یک متغیر می تواند نسبتی و متغیر دیگر از نوع فاصله ای باشد.
آیا این دو متغیر باید در یک واحد اندازه گیری شوند؟
خیر، این دو متغیر را می توان در واحدهای کاملاً متفاوت اندازه گیری کرد. به عنوان مثال، می توانید سن یک فرد را با میزان قند خون آنها مرتبط کنید. در اینجا، واحدها کاملاً متفاوت هستند. سن بر حسب سال و میزان قند خون با میلی مول در لیتر (معیار غلظت) اندازه گیری می شود. در واقع، محاسبات ضریب همبستگی حاصلضرب-گشتاور پیرسون به گونه ای طراحی شده است که واحدهای اندازه گیری بر محاسبه تأثیری نداشته باشند. این اجازه می دهد تا ضریب همبستگی به راحتی قابل مقایسه باشد و تحت تأثیر واحدهای متغیرهای مورد استفاده قرار نگیرد.
در مورد متغیرهای وابسته و مستقل این همبستگی چگونه است؟
برای همبستگی حاصلضرب-گشتاور پیرسون فرقی نمی کند یک متغیر به عنوان متغیر وابسته باشد یا به عنوان متغیر مستقل. با همه متغیرها به یک اندازه رفتار می کند. برای مثال، ممکن است بخواهید دریابید که آیا عملکرد بسکتبال با قد یک فرد مرتبط است یا خیر. بنابراین، می توانید نموداری از عملکرد بسکتبال را در برابر قد رسم کنید و ضریب همبستگی حاصلضرب-گشتاور پیرسون را محاسبه کنید. مثلاً فرض کنید که r برابر با 0.67 باشد یعنی با افزایش قد، عملکرد بسکتبال نیز افزایش می یابد. این منطقی است. با این حال، اگر ما متغیرها را برعکس ترسیم کنیم و بخواهیم تعیین کنیم که آیا قد یک فرد با عملکرد بسکتبال او تعیین می شود، باز هم r = 0.67 به دست می آوریم. این به این دلیل است که ضریب همبستگی حاصلضرب-گشتاور پیرسون هیچ نظریه ای را در پشت این که چرا این دو متغیر را برای مقایسه انتخاب کرده اید، توضیح نمی دهد. این موضوع در زیر نشان داده شده است:
آیا ضریب همبستگی حاصلضرب-گشتاور پیرسون شیب خط را نشان می دهد؟
نخیر، به هیچ وجه ضریب همبستگی حاصلضرب-گشتاور پیرسون، r، شیب خط بهترین تناسب را نشان نمی دهد. بنابراین، اگر ضریب همبستگی حاصلضرب-گشتاور پیرسون را 1+ به دست بیاورید، این بدان معنا نیست که برای هر واحد افزایش در یک متغیر، یک واحد افزایش در متغیر دیگر وجود دارد. به این معنی است که هیچ گونه تغییری بین نقاط داده و خط بهترین تناسب وجود ندارد. این موضوع در زیر نشان داده شده است:
همبستگی حاصلضرب-گشتاور پیرسون چه فرضیاتی دارد؟
اولین و مهمترین مرحله قبل از آنالیز داده های خود با استفاده از همبستگی حاصلضرب-گشتاور پیرسون باید بررسی کنید که آیا استفاده از این آزمون آماری مناسب است یا خیر. از این گذشته، همبستگی حاصلضرب-گشتاور پیرسون تنها زمانی نتایج معتبر/دقیق را به شما ارائه میدهد که طرح مطالعه و دادههای شما از هفت فرضی که زیربنای همبستگی حاصلضرب-گشتاور پیرسون هستند، « عبور کنند». در بسیاری از موارد، همبستگی حاصلضرب-گشتاور پیرسون آزمون آماری نادرستی برای استفاده خواهد بود، زیرا دادههای شما یک یا چند مورد از این فرضیات را “نقص میکنند” و برآورده نمی کند.
ما به طور خلاصه هفت فرضیه زیر را بیان می کنیم که سه مورد از آنها (فرضیات #1، #2 و #3) به طراحی مطالعه و نحوه اندازه گیری متغیرها مربوط می شود و چهار فرضیه دیگر (فرضیات #4، #5، #6 و #7) به ویژگی های داده های شما مربوط می شود. با این حال، در صورت استفاده از همبستگی حاصلضرب-گشتاور پیرسون، اگر می خواهید نتایج دقیق / معتبری داشته باشید، باید این فرضیات را بررسی کنید. اگر این فرضیا بر آورده نشوند همبستگی حاصلضرب-گشتاور پیرسون دیگر آزمون آماری مناسبی برای آنالیز داده های شما نخواهد بود.
فرض شماره 1:
دو متغیر شما باید در یک مقیاس پیوسته اندازه گیری شوند (یعنی در سطح فاصله ای یا نسبتی). نمونههایی از متغیرهای پیوسته عبارتند از: زمان (اندازهگیری شده بر حسب ساعت)، هوش (اندازهگیری شده با استفاده از امتیاز IQ)، نمره امتحان (اندازهگیری شده از 0 تا 20)، وزن (اندازهگیری شده بر حسب کیلوگرم)، سرعت رانندگی (اندازهگیری شده بر حسب کیلومتر در ساعت) و غیره.
فرض شماره 2:
دو متغیر پیوسته شما باید جفت شوند (paired)، به این معنی که هر مورد (به عنوان مثال، هر شرکت کننده) دارای دو مقدار است. به این “مقادیر” “نقاط داده” نیز گفته می شود.
برای مثال، تصور کنید که مدت زمانهای مرور درسی (بر حسب ساعت اندازهگیری شده) و نمره امتحانات (از 0 تا 20 اندازهگیری شده) را از 100 دانشجوی (نمونهگیری تصادفی در یک دانشگاه) جمعآوری کردهاید (یعنی دو متغیر پیوسته «زمان مرور درسی» و «نمره امتحان» دارید. هر یک از 100 دانشجو دارای مدت زمانی برای مرور درسی (به عنوان مثال، “دانش آموز شماره 1” دارای “23 ساعت”مرور درسی) و یک نتیجه امتحان (مثلا، “دانش آموز شماره 1” نمره 16 را از 20 کسب کرده است) خواهد داشت. بنابراین، شما 100 مقدار جفت شده خواهید داشت.
فرض شماره 3:
باید موارد مستقل وجود داشته باشد، به این معنی که دو مشاهده برای یک مورد باید مستقل از دو مشاهده برای هر مورد دیگر باشد. به عنوان مثال، نمرات مدت زمان مرور درسی و نمره امتحان برای “دانش آموز شماره 2″، یا “دانش آموز #3″، یا “دانش آموز #50” از هم مستقل باشند. اگر مشاهدات به هم مرتبط باشند دیگر همبستگی حاصلضرب-گشتاور پیرسون یک آزمون آماری مناسب نخواهد بود. به عنوان مثال، اگر برخی از 100 دانشجو در یک گروه مطالعه بودند، ممکن است انتظار داشته باشیم که رابطه بین مدت زمان مرور درسی و نمره امتحان برای آن دانشجویان در مقایسه با دانشجویان دیگر به هم شبیهتر باشد، که استقلال موارد را نقض میکند. از طرف دیگر، اگر تعدادی از 100 دانشجو شامل خواهر و برادر (مثلاً دو خواهر) باشند، ممکن است انتظار داشته باشید که رابطه بین مدت زمان مرور درسی و نمره امتحان آن دو خواهر در مقایسه با دانشجویان دیگر شبیهتر باشد، که مجدداً فرض استقلال موارد را نقض میکند.
نکته: فرض استقلال موارد (independence of cases) به فرض استقلال مشاهدات (independence of observations) نیز معروف است.
از آنجایی که فرضیات #1، #2 و #3 به طراحی مطالعه شما و نحوه اندازه گیری متغیرهایتان مربوط می شود، باید ابتدا این فرضیات را بررسی کنید. اگر هر یک از این سه فرض برآورده نشد (یعنی اگر هر یک از این فرضیات با تحقیق شما مطابقت نداشته باشد)، همبستگی حاصلضرب-گشتاور پیرسون آزمون آماری نادرست برای آنالیز داده های شما است. سپس باید بررسی کنید که آیا داده های شما با فرضیات #4، #5، #6 و #7 زیر مطابقت دارند یا خیر. بررسی تمامی این فرضیات کمی زمانبر خواهد بود. با این حال، کار سختی نیست.
توجه: اگر دو متغیر پیوسته و جفت شده شما (مثلاً فرضیات شماره 1 و 2) از توزیع نرمال دو متغیره (bivariate normal distribution) پیروی کنند، خطی بودن، نرمال بودن تک متغیره (univariate normality) و همسانی (homoscedasticity) وجود خواهد داشت. متأسفانه، آزمون فرض نرمال بودن دو متغیره بسیار دشوار است، به همین دلیل است که به جای آن بر روی نرمال بودن خطی و تک متغیره تمرکز می کنیم. آزمون همسانی نیز دشوار است، اما بسیار مهم است.
فرض شماره 4:
باید یک رابطه خطی بین دو متغیر پیوسته شما وجود داشته باشد. برای آزمون اینکه آیا دو متغیر شما یک رابطه خطی تشکیل می دهند، کافی است آنها را روی یک نمودار رسم کنید (مثلاً یک نمودار پراکندگی یا نقطه ای (scatterplot)) و شکل نمودار را به صورت بصری بررسی کنید. در نمودار زیر، چند نمونه مختلف از یک رابطه خطی (linear) و چند رابطه غیر خطی (non-linear) را خواهید دید. آنالیز یک رابطه غیر خطی با استفاده از همبستگی حاصلضرب-گشتاور پیرسون مناسب نیست.
نکته: ضریب همبستگی حاصلضرب-گشتاور پیرسون اندازه گیری قدرت ارتباط خطی بین دو متغیر است. به عبارت دیگر، تعیین می کند که آیا یک “مؤلفه خطی ارتباط” بین دو متغیر پیوسته وجود دارد یا خیر. به این ترتیب، خطی بودن صرفاً «فرض» همبستگی حاصلضرب-گشتاور پیرسون نیست.
فرض شماره 5:
از لحاظ تئوری، هر دو متغیر پیوسته باید از توزیع نرمال دو متغیره (bivariate normal distribution) پیروی کنند، اگرچه در عمل نرمال بودن تک متغیره برای هر دو متغیر کافی است. یعنی هر متغیر به طور نرمال توزیع شده باشد. هنگامی که یک یا هر دو متغیر به طور نرمال توزیع نشوند، در مورد اینکه آیا همبستگی حاصلضرب-گشتاور پیرسون همچنان نتیجه معتبری ارائه می دهد یا خیر، اختلاف نظر وجود دارد. یعنی در مورد اینکه آیا همبستگی حاصلضرب-گشتاور پیرسون برای نقض نرمال بودن تک متغیره «بیشتر تحت تاثیر قرار می گیرد» یا خیر، اختلاف نظر وجود دارد.
فرض شماره 6:
باید همسانی (homoscedasticity) وجود داشته باشد، به این معنی که واریانس ها در امتداد خط بهترین تناسب باقی بمانند. اگر واریانس ها مشابه نباشند، ناهمسانی heteroscedasticity وجود دارد. همانطور که در زیر نشان داده شده است، همسانی به راحتی به صورت نمودار نشان داده می شود:
فرض شماره 7:
هیچ متغیر یا چند متغیره پرت (outliers) نباید وجود داشته باشد. نقطه پرت، مشاهده ای در نمونه شماست که از الگوی مشابهی با بقیه داده های شما پیروی نمی کند. به یاد داشته باشید که در همبستگی حاصلضرب-گشتاور پیرسون، هر مورد (به عنوان مثال، هر شرکتکننده) دارای دو مقدار/مشاهده است (مثلاً یک مقدار برای مدت زمان مرور درسی و یک نمره امتحان). شما باید مقادیر پرت را در نظر بگیرید که فقط در یک متغیر غیرنرمال هستند (پرت تک متغیره) (univariate outliers) و یا “ترکیبی” از هر دو متغیر هستند (پرت چندمتغیره) (multivariate outliers).
مثال مدت زمان مرور درسی و نمره امتحان را در نظر بگیرید. اگر همه دانشجویان دانشگاه به جز یک نفر در امتحان خود بین 16 تا 20 نمره کسب کنند، و آن یک نفر نمره زیر 10 را کسب کرده باشد، این فرد یک فرد پرت «تک متغیره» خواهد بود. یعنی برای این متغیر خاص (بدون توجه به مقادیر متغیر دیگر یعنی مدت زمان مرور درسی )مقدار غیرنرمالی دارد. پرت چند متغیره، نقطه پرت است که روند داده ها را کاهش می دهد. یک پرت چند متغیره لزومی ندارد که یک پرت تک متغیره باشد. بیایید فرض کنیم که زمان صرف شده برای مرور درسی با نمره امتحان همبستگی مثبت دارد (یعنی هر چه دانش آموز بیشتر مطالعه کند، نمره امتحانش بالاتر است). اگر یک دانشجو تقریباً هیچ مطالعه ای انجام نمی داد، اما در امتحان «قبول شود»، یک نقطه پرت چند متغیره خواهد بود. برعکس، اگر کسی بیش از بسیاری از افراد دیگرمرور درسی داشته باشد، اما نمره امتحان بدی کسب کند، می تواند یک نقطه پرت چند متغیره باشد.
توجه: مقادیر پرت لزوماً «بد» نیستند، اما به دلیل تأثیری که بر ضریب همبستگی حاصلضرب-گشتاور پیرسون، r دارند، باید در نظر گرفته شوند.
چگونه می توانید نقاط پرت را تشخیص دهید؟
نقطه پرت (outlier) (در آنالیز همبستگی) نقطه داده ای است که با روند کلی داده های شما مطابقت ندارد، اما به نظر می رسد یک مقدار غیرعادی (افراطی) باشد و در مقایسه با بقیه نقاط داده خود آن چیزی نیست که انتظار دارید. شما می توانید نقاط پرت را به سادگی با رسم دو متغیر در مقابل یکدیگر در یک نمودار و بررسی بصری نمودار (مشابه با نحوه تشخیص یک رابطه خطی) تشخیص دهید،. سپس میتوانید آن نقطه خاص را حذف یا دستکاری کنید. در نمودار زیر نمونه ای از نقطه پرت نشان داده شده است.
از طرف دیگر، اگر نمی توانید داده های پرت را حذف کنید، می توانید به جای همبستگی حاصلضرب-گشتاور پیرسون یک آزمون ناپارامتری مانند ضریب همبستگی رتبهای اسپیرمن (Spearman rank-order correlation coefficient) یا ضریب همبستگی تاوی- بی کندال (Kendall’s Tau-b correlation coefficient) را اجرا کنید، که نسبت به نقاط پرت، حساسیت کمتری دارند.
چرا بررسی نقاط پرت اینقدر مهم است؟
نقاط پرت می توانند تأثیر بسیار زیادی بر روی خط بهترین تناسب و ضریب همبستگی حاصلضرب-گشتاور پیرسون داشته باشند، که می تواند منجر به نتایج بسیار متفاوتی در مورد داده های شما شود. این نکته به راحتی با مطالعه نمودارهای پراکندگی یک رابطه خطی با یک نقطه پرت و پس از حذف آن، با توجه به خط بهترین تناسب و ضریب همبستگی نشان داده می شود. این در نمودار زیر نشان داده شده است:
آیا می توان به وسیله همبستگی حاصلضرب-گشتاور پیرسون علت و معلول را تعیین کنید؟
نخیر، همبستگی حاصلضرب-گشتاور پیرسون نمی تواند رابطه علت و معلول (cause-and-effect) را تعیین کند. فقط می تواند قدرت ارتباط خطی بین دو متغیر را بیان کند. همانطور که قبلا گفته شد، حتی بین متغیرهای مستقل و وابسته تمایز قائل نمی شود.
نحوه گزارش خروجی همبستگی حاصلضرب-گشتاور پیرسون چگونه است؟
باید بیان کنید که از همبستگی حاصلضرب-گشتاور پیرسون استفاده کرده اید و مقدار ضریب همبستگی r و همچنین درجات آزادی (df) را گزارش کنید. به عنوان مثال شما باید نتیجه را به صورت زیر گزارش کنید:
در اینجا درجات آزادی تعداد نقاط داده منهای 2 است (N – 2). اگر اهمیت همبستگی را بررسی نکردهاید، فقط به صورت r = -0.52 گزارش کنید.
آیا می توان تعیین کرد که ارتباط از نظر آماری معنی دار است یا نه؟
بله، به راحتی میتوان این را با استفاده از یک نرم افزار آماری، مانند SPSS Statistics بررسی کرد. شما باید مراقب باشید که چگونه اهمیت آماری یک همبستگی را تفسیر می کنید. اگر ضریب همبستگی شما از نظر آماری معنیدار است، به این معنی نیست که شما یک ارتباط قوی دارید. این به سادگی فرضیه صفر را بررسی می کند که هیچ رابطه ای وجود ندارد. با رد فرضیه صفر، فرضیه جایگزین را می پذیرید که بیان می کند یک رابطه وجود دارد، اما هیچ اطلاعاتی در مورد قدرت یا اهمیت آن رابطه وجود ندارد.
ضریب تعیین چیست؟
ضریب تعیین (Coefficient of Determination)، r2 یا R2، مجذور ضریب همبستگی حاصلضرب-گشتاور پیرسون است. بنابراین، برای مثال، ضریب همبستگی حاصلضرب-گشتاور پیرسون 0.6 منجر به ضریب تعیین 0.36 می شود. ضریب تعیین، با توجه به همبستگی، نسبت واریانسی است که بین هر دو متغیر مشترک است. معیاری از میزان تغییراتی که میتواند توسط مدل توضیح داده شود را ارائه میدهد (همبستگی مدل است). زمانی که نسبت واریانس توضیح داده شده توسط همبستگی را مورد بحث قرار می دهیم، به حالت لفظی به صورت درصد بیان می شود (به عنوان مثال، 36٪ به جای 0.36). با این حال، شما نباید به صورت r2 = 36٪ را بنویسید و فقط باید آن را به صورت نسبت یعنی r2 = 0.36 بنویسید .
مطالب زیر را هم از دست ندهید:
همبستگی حاصلضرب-گشتاور پیرسون (Pearson’s Product-Moment Correlation) با استفاده از SPSS Statistics
ضریب همبستگی رتبهای اسپیرمن (Spearman rank-order correlation coefficient) با استفاده از SPSS
آزمون H کروسکال-والیس (H Kruskal-Wallis) با استفاده از Stata
MANOVA یک طرفه با استفاده از Stata
رسم نمودار پراکندگی (نقطه ای) (Scatterplot) با استفاده از SPSS
ایجاد نمودار میله ای خوشه ای (Clustered Bar Chart) با استفاده از SPSS
ANCOVA یک طرفه در SPSS Statistics
ANOVA اندازه گیری های مکرر دو طرفه با استفاده از SPSS Statistics
ANOVA با اندازه گیری های مکرر با استفاده از SPSS Statistics
ANOVA دو طرفه در SPSS Statistics
ANOVA مخلوط با استفاده از SPSS Statistics
انواع متغیر و تحقیقات تجربی و غیر تجربی
ایجاد متغیر های ساختگی در SPSS
آزمون Jonckheere-Terpstra (جانكهير ترپسترا) با استفاده از SPSS
آزمون Q کوکران (Cochran’s Q) با استفاده از SPSS
آزمون t نمونه تکی با استفاده از SPSS Statistics
آزمون t وابسته با استفاده از SPSS
آزمون t وابسته برای نمونه های جفت شده
آزمون رتبه علامتدار ویلکاکسون (Wilcoxon signed-rank test) با استفاده از SPSS
آزمون مربع کای (Chi-Square) با استفاده از SPSS
آزمون مک نمار (McNemar’s test) با استفاده از SPSS
آزمون نرمال بودن با استفاده از SPSS Statistics
آزمون یو من ویتنی (Mann-Whitney U) با استفاده از SPSS
آمار توصیفی (descriptive) و استنباطی (inferential)
آنالیز اجزای اصلی (PCA) با استفاده از SPSS
تعدیل کننده دو وضعیتی (Dichotomous Moderator) با استفاده از SPSS
دی سامرز (Somers’ d) با استفاده از SPSS
رگرسیون پواسون با استفاده از SPSS
رگرسیون چندگانه با استفاده از SPSS
رگرسیون خطی با استفاده از SPSS
رگرسیون لجستیک ترتیبی با استفاده از SPSS
رگرسیون لجستیک چند جمله ای در SPSS
رگرسیون لجستیک دو جمله ای با استفاده از SPSS
ضریب همبستگی تاوی- بی کندال (Kendall’s Tau-b correlation coefficient) با استفاده از SPSS
گامای گودمن و کروسکال (Goodman and Kruskal’s gamma) با استفاده از SPSS