آنالیز اجزای اصلی (PCA) با استفاده از SPSS

آنالیز اجزای اصلی (PCA) با استفاده از SPSS

معرفی

آنالیز اجزای اصلی یا مؤلفه های اصلی (به اختصار PCA) (Principal Components Analysis) یک تکنیک کاهش متغیر است که شباهت های زیادی به آنالیز عاملی اکتشافی (exploratory factor analysis) دارد. هدف آن کاهش مجموعه بزرگ‌تری از متغیرها به مجموعه‌ای کوچک‌تر از متغیرهای «مصنوعی» (artificial) است که «اجزای اصلی» نامیده می‌شوند، که بیشتر واریانس متغیرهای اصلی را تشکیل می‌دهند.

در زیر به چند کاربرد متداول PCA اشاره شده است:

(الف) شما متغیرهای زیادی را اندازه گیری کرده اید (به عنوان مثال، 78 متغیر، که به صورت 78 سوال در یک پرسشنامه نشان داده شده است) و شما بر این باورید که برخی از متغیرها ساختار زیربنایی (underlying construct) یکسانی (مانند افسردگی) را اندازه گیری می کنند. اگر این متغیرها همبستگی بالایی دارند، ممکن است بخواهید فقط آن دسته از متغیرها را در مقیاس اندازه گیری خود بگنجانید که بیشتر نمایانگر ساختار هستند و بقیه را حذف کنید.

(ب) می‌خواهید مقیاس اندازه‌گیری جدیدی ایجاد کنید (مثلاً یک پرسشنامه)، اما مطمئن نیستید که آیا همه متغیرهایی که وارد کرده‌اید، ساختار مورد علاقه‌تان (مثلاً افسردگی) را اندازه‌گیری می‌کنند. بنابراین، بررسی می‌کنید که ساختار شما در حال اندازه گیری “بار” (loads) روی همه (یا فقط برخی) از متغیرهای خود است یا نه. این به شما کمک می کند بفهمید که آیا برخی از متغیرهایی که انتخاب کرده اید به اندازه کافی نماینده ساختار مورد نظر شما نیستند، و باید از مقیاس اندازه گیری جدید شما حذف شود.

(ج) می‌خواهید آزمون کنید که آیا مقیاس اندازه‌گیری موجود (به عنوان مثال، یک پرسشنامه) می‌تواند کوتاه و مختصرشود تا شامل سوالات کمتری باشد، شاید به این خاطر است برخی از سوالات ممکن است اضافی باشند ویا ممکن است تمایل داشته باشید یک مقیاس اندازه گیری ایجاد کنید که احتمال تکمیل آن توسط پاسخ دهنده ها بیشتر باشد و زمان کتری برای پاسخدهی داشته باشد

اینها تنها برخی از کاربردهای رایج PCA هستند. همچنین شایان ذکر است که PCA از نظر مفهومی با Factor Analysis متفاوت است، ولی در عمل اغلب به جای Factor Analysis استفاده می شود و در ” Factor procedure” در SPSS گنجانده شده است.

در این آموزش، نحوه اجرای PCA با استفاده از SPSS و همچنین مراحل مورد نیاز برای تفسیر نتایج این آزمون را به شما نشان می‌دهیم. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیات مختلفی را که داده های شما باید رعایت کنند تا PCA نتیجه معتبری به شما بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

فرضیات

هنگامی که تصمیم می گیرید داده های خود را با استفاده از PCA آنالیز کنید، ابتدا باید مطمئن شوید که آیا داده های شما واقعاً می توانند با استفاده از PCA آنالیز شوند یا نه. شما باید این کار را انجام دهید. زیرا تنها زمانی استفاده از PCA مناسب است که داده‌های شما از چهار فرضی که برای PCA لازم است تا نتیجه معتبری به شما ارائه دهد، عبور کند. در عمل، بررسی این فرضیات کمی زمان بر خواهد بود. اما کار سختی نیست.

فرض شماره 1:

شما چندین متغیر دارید که باید در سطح پیوسته اندازه گیری شوند (اگرچه از متغیرهای ترتیبی بسیار استفاده می شود). نمونه هایی از متغیرهای پیوسته (یعنی متغیرهای نسبتی یا فاصله ای) شامل زمان، هوش (اندازه گیری شده با استفاده از نمره IQ)، عملکرد امتحان (اندازه گیری از 0 تا 20)، وزن و غیره است. نمونه‌هایی از متغیرهای ترتیبی که معمولاً در PCA استفاده می‌شوند شامل طیف گسترده‌ای از مقیاس‌های لیکرت هستند (مثلاً مقیاس ۷ درجه‌ای از «کاملاً موافقم» تا «کاملاً مخالفم»؛ یک مقیاس ۵ درجه‌ای از «هرگز» تا «همیشه»؛ مقیاس 7 درجه ای از “اصلا” تا “خیلی زیاد”؛ مقیاس 5 امتیازی از “مهم نیست” تا “بسیار مهم”) می باشد.

فرض شماره 2:

باید یک رابطه خطی بین همه متغیرها وجود داشته باشد. دلیل این فرض این است که یک PCA بر اساس ضرایب همبستگی پیرسون است و به این ترتیب، باید یک رابطه خطی بین متغیرها وجود داشته باشد. در عمل، با استفاده از داده های ترتیبی برای متغیرها، این فرض تا حدودی قابل حل می باشد. اگرچه خطی بودن را می توان با استفاده از یک نمودار پراکندگی یا نقطه ای ماتریکسی (matrix scatterplot) آزمون کرد، اما اغلب این امر بیش از حد در نظر گرفته می شود. زیرا نمودار پراکندگی گاهی اوقات می تواند بیش از 500 رابطه خطی داشته باشد. به این ترتیب، پیشنهاد می شود که به طور تصادفی فقط چند رابطه ممکن بین متغیرها را انتخاب کنید و آنها را آزمون کنید. شما می توانید خطی بودن را در آمارهای SPSS با استفاده از نمودارهای پراکنده بررسی کنید، و در مواردی که روابط غیر خطی وجود دارد، سعی کنید آنها را تغییر دهید.

فرض شماره 3:

شما باید کفایت نمونه برداری (sampling adequacy) داشته باشید. به این معنی که برای PCA برای ایجاد یک نتیجه قابل اعتماد، اندازه نمونه بزرگ مورد نیاز است. بسیاری از قوانین سرانگشتی مختلف پیشنهاد شده است. اینها عمدتاً بسته به اینکه حجم نمونه مطلق پیشنهاد شده باشد یا مضربی از تعداد متغیرهای نمونه شما استفاده شده باشد، متفاوت است. به طور کلی حداقل 150 مورد یا 5 تا 10 مورد در هر متغیر به عنوان حداقل حجم نمونه توصیه شده است. چند روش برای تشخیص کفایت نمونه برداری وجود دارد: (1) اندازه‌گیری کفایت نمونه برداری KaiserMeyerOlkin (KMO) برای مجموعه داده‌های کلی و (2) اندازه گیری KMO برای هر متغیر مجزا. در بخش های بعدی این آموزش، به شما نشان می دهیم که کدام گزینه را در SPSS انتخاب کنید تا کفایت نمونه برداری را بررسی کنید.

فرض شماره 4:

داده های شما باید برای کاهش داده ها مناسب باشند. به طور موثر، شما باید همبستگی کافی بین متغیرها داشته باشید تا متغیرها به تعداد اجزای کمتری کاهش یابند. روشی که توسط SPSS برای تشخیص این مورد استفاده می شود، آزمون کروی بودن بارتلت (Bartlett’s test of sphericity) است.

فرض شماره 5:

نباید هیچ داده ی پرت قابل توجهی وجود داشته باشد. نقاط پرت مهم هستند. زیرا می توانند تأثیر نامتناسبی بر نتایج شما داشته باشند. SPSS توصیه می کند که نقاط پرت را به عنوان امتیاز مؤلفه های بیشتر از 3 انحراف استاندارد از میانگین تعیین کنید. در بخش های بعدی این آموزش، به شما نشان می‌دهیم که کدام گزینه را در SPSS انتخاب کنید تا نقاط پرت را بررسی کنید.

با استفاده از SPSS می توانید فرضیات #2، #3، #4 و #5 را بررسی کنید. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیات به درستی اجرا نکنید، نتایجی که هنگام اجرای PCA به دست می آورید ممکن است معتبر نباشند.

در بخش بعدی، روشی را به شما نشان می دهیم که می توانید از SPSS برای انجام PCA روی داده های خود استفاده کنید. ابتدا مثالی را که در این آموزش استفاده شده معرفی می کنیم.

مثال

یک مدیر شرکت می خواست کارمند دیگری را برای شرکت خود استخدام کند و به دنبال شخصی بود که سطح بالایی از انگیزه، اشتیاق و تعهد و معتمد بودن را نشان دهد. یعنی این چهار ساختاری هستند که ما به آنها علاقه مندیم. به منظور انتخاب داوطلبان برای مصاحبه، او پرسشنامه ای مشتمل بر 25 سوال تهیه کرد که به نظر او می تواند به این پرسشنامه پاسخ دهد که آیا کاندیداهای مناسبی هستند یا خیر. وی این پرسشنامه را برای 315 داوطلب اجرا کرد. سؤالات به گونه ای تنظیم شده بودند که این ویژگی ها باید در سؤالات نشان داده شود. سوالات Qu3، Qu4، Qu5، Qu6، Qu7، Qu8، Qu12، Qu13 با انگیزه مرتبط بودند. Qu2، Qu14، Qu15، Qu16، Qu17، Qu18، Qu19 با معتمد بودن همراه بودند. Qu20، Qu21، Qu22، Qu23، Qu24، Qu25 برای اشتیاق؛ و Qu1، Qu9، Qu10، Qu11 برای تعهد طراحی شد. مدیر می خواست برای هر کاندیدا نمره ای تعیین کند تا از این امتیازات برای رتبه بندی افراد بالقوه استفاده شود.

روش آزمون در SPSS

18 مرحله زیر به شما نشان می دهد که چگونه داده های خود را با استفاده از PCA در SPSS آنالیز کنید. الته به شرطی که هیچ یک از پنج فرض گفته شده در بخش قبلی، نقض نشده باشد. در پایان این 18 مرحله، ما به شما نشان می دهیم که چگونه نتایج PCA خود را تفسیر کنید.

روش SPSS برای PCA خطی نیست. یعنی اگر خوش شانس باشید می توانید 18 مرحله زیر را طی کنید و خروجی را به عنوان نتایج نهایی خود بپذیرید. شما اغلب مجبور خواهید بود این 18 مرحله را بر اساس (الف) نتایج آزمون‌های فرضیات شما که در طول این روش اجرا می‌شوند و (ب) مقادیر اجزای اولیه که هنگام انجام این 18 مرحله استخراج می‌شوند، دوباره اجرا کنید. در اجرای مجدد آنالیز خود، ممکن است مجبور شوید گزینه های مختلفی را در SPSS انتخاب کنید، یا روش های SPSS اضافی را دنبال کنید تا به بهترین نتیجه ممکن برسید. در ادامه در بخش خروجی، بیشتر در مورد این مراحل بحث خواهیم کرد. ابتدا 18 مرحله زیر را دنبال کنید تا به خروجی اولیه SPSS خود برسید:

مرحله (1)

همانطور که در زیر نشان داده شده است، در منوی اصلی روی

Analyze > Dimension Reduction > Factor…

کلیک کنید:

پنجره ی Factor Analysis در زیر به شما نمایش داده می شود:

مرحله (2)

همانطور که در زیر نشان داده شده است، تمام متغیرهایی را که می‌خواهید در آنالیز گنجانده شوند (در این مثال Qu1 تا Qu25)، با استفاده از دکمه فلش ، به کادر Variables منتقل کنید:

مرحله (3)

روی دکمه Descriptives کلیک کنید. همانطور که در زیر نشان داده شده است، با پنجره ی Factor Analysis: Descriptives روبرو خواهید شد:

مرحله (4)

علاوه بر گزینه ای که قبلاً به طور پیش فرض انتخاب شده است (یعنی Initial solution در ناحیه Statistics)، گزینه های Coefficients، KMO and Bartlett’s test of sphericity، Reproduced و Antiimage را در ناحیه Correlation Matrix انتخاب کنید. در نهایت با صفحه زیر مواجه خواهید شد:

مرحله (5)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی Factor Analysis بازگردانده می شوید.

مرحله (6)

بر روی دکمه Extraction کلیک کنید و پنجره ی Factor Analysis: Extraction مانند شکل زیر به شما نمایش داده می شود:

مرحله (7)

تمام پیش فرض ها را نگهدارید، همچنین همانطور که در زیر نشان داده شده است، Scree plot را در ناحیه Display انتخاب کنید:

مرحله (8)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی Factor Analysis بازگردانده می شوید.

مرحله (9)

بر روی دکمه Rotation کلیک کنید و پنجره ی Factor Analysis: Rotation مانند شکل زیر به شما نمایش داده می شود:

مرحله (10)

در قسمت Method گزینه Varimax را انتخاب کنید. با این کار گزینه Rotated solution در ناحیه Display فعال می شود و به طور پیش فرض بررسی می شود (حتما مطمئن شوید که این گزینه انتخاب شده است). همچنین Loading plot(s) را در ناحیه Display انتخاب کنید. در نهایت با یک صفحه نمایش مشابه زیر روبرو خواهید شد:

اگرچه در این آموزش ضروری نیست، اما شما آزاد هستید که گزینه های چرخش (rotation options) دیگری را برای دستیابی به “ساختار ساده” (simple structure) انتخاب کنید. که در ادامه مورد بحث قرار خواهد گرفت. رایج ترین جایگزین Direct Oblimin است که یک تبدیل مایل (oblique) است.

مرحله (11)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی Factor Analysis بازگردانده می شوید.

مرحله (12)

روی دکمه Scores کلیک کنید. همانطور که در زیر نشان داده شده است، پنجره ی Factor Analysis: Factor Scores به شما نمایش داده می شود:

مرحله (13)

گزینه Save as variables را علامت بزنید و سپس گزینه Regression را انتخاب کنید. در نهایت با یک صفحه نمایش مشابه زیر روبرو خواهید شد:

مرحله (14)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی Factor Analysis بازگردانده می شوید.

مرحله (15)

بر روی دکمه Options کلیک کنید. همانطور که در زیر نشان داده شده است با پنجره ی Factor Analysis: Options روبرو خواهید شد:

مرحله (16)

گزینه Sorted by size و Suppress small coefficients را علامت بزنید. عدد Absolute value below را از “.10” به “.3” تغییر دهید. در نهایت با یک صفحه نمایش مشابه زیر روبرو خواهید شد:

مرحله (17)

بر روی دکمه Continue کلیک کنید. شما به پنجره ی Factor Analysis بازگردانده می شوید.

مرحله (18)

برای تولید خروجی روی دکمه OK کلیک کنید.

 خروجی حاصل از آنالیز اجزای اصلی

خروجی های تولید شده توسط SPSS بسیار گسترده است و می تواند اطلاعات زیادی در مورد آنالیز شما ارائه دهد. با این حال، اغلب متوجه می شوید که آنالیز هنوز کامل نشده است و باید قبل از رسیدن به نتیجه نهایی مناسب، مراحل آنالیز SPSS گفته شده در بالا را مجدداً تکرار کنید. در زیر به طور خلاصه هفت مرحله را توضیح می دهیم که باید برای تفسیر نتایج PCA خود دنبال کنید و در صورت لزوم، آنالیز اضافی را در SPSS انجام دهید.

مرحله 1:

شما باید نتایج حاصل از آزمون های فرضی خود را تفسیر کنید تا مطمئن شوید که می توانید از PCA برای آنالیز داده های خود استفاده کنید. این شامل آنالیز موارد زیر است: (الف) نمودارهای پراکندگی که باید برای بررسی خطی بودن متغیرهای خود ایجاد می کردید (فرض شماره 2). (ب) کفایت نمونه برداری، بر اساس اندازه‌گیری کفایت نمونه برداری KaiserMeyerOlkin (KMO) برای مجموعه داده‌های کلی و اندازه‌گیری KMO برای هر متغیر منفرد (فرض شماره 3). (ج) داده های مناسب برای کاهش با آزمون کرویت بارتلت (فرض شماره 4) و (د) انحراف استاندارد امتیازات اجزاء برای بررسی نقاط پرت قابل توجه (فرض 5).

مرحله 2:

شما باید استخراج اولیه اجزا را بررسی کنید. در این مرحله به تعداد متغیرها مولفه وجود خواهد داشت. شما باید روی مقادیر ویژه اولیه تمرکز کنید تا درک اولیه ای از اجزای اصلی که استخراج کرده اید، داشته باشید و اینکه هر مؤلفه چقدر از واریانس کل را توضیح می دهد، به دست آورید. با این حال، در این مرحله نه تنها باید آگاه باشید که اطلاعات کافی برای انتخاب مؤلفه ها ندارید، بلکه خروجی تولید شده براساس گزینه های پیش فرض در آمار SPSS است. یعنی ممکن است بعداً مجبور شوید این گزینه های پیش فرض را تغییر دهید و سپس مقادیر ویژه اولیه را بر اساس خروجی آماری SPSS جدید که تولید می شود مجدداً ارزیابی کنید.

مرحله 3:

باید تعداد اجزای «معنی‌دار» را که می‌خواهید حفظ کنید، تعیین کنید. برای انجام این کار، تعدادی گزینه دارید: (الف) از eigenvalue-one criterion استفاده کنید (پیش‌فرض). (ب) از نسبت کل واریانس محاسبه شده استفاده کنید. (ج) از آزمون نمودار اسکری scree plot test استفاده کنید. یا (د) از معیار تفسیرپذیری استفاده کنید. باید در نظر بگیرید که چرا یکی از این گزینه ها را بجای دیگری استفاده می کنید، و همچنین پیامدهایی که این انتخاب گزینه ها ممکن است برای تعداد اجزای استخراج شده داشته باشند را باید بدانید. شما همچنین باید نوع چرخشی را که انتخاب کرده‌اید در نظر بگیرید اعم از Varimax، Direct Oblimin، Quartimax، Equamax یا Promax و این که چگونه بر نحوه بارگذاری اجزای شما بر روی متغیرهای مختلف تأثیر می‌گذارد. هدف دستیابی به یک “ساختار ساده” است. یعنی ساختاری که در آن شما تقسیم بندی متغیرها بر روی اجزای مجزا را به راحتی قابل توضیح است، با یک جزء که حداقل بر روی سه متغیر بارگذاری می شود.

مرحله 4:

اگر تعداد اجزایی را که در ابتدا توسط SPSS ارائه شده بود حفظ نکرده باشید (به عنوان مثال، بر اساس eigenvalue-one criterion، که پیش‌فرض SPSS است)، شما باید Forced Factor Extraction را با استفاده از SPSS انجام دهید. این به سادگی شامل تعدادی از مراحل اضافی است که در آن به SPSS دستور می دهید تعداد خاصی از مؤلفه ها را حفظ کند. یعنی تعداد مؤلفه هایی که بر اساس انتخاب های خود در مرحله 3 گفته شده در بالا، به آنها رسیده اید. سپس باید داده های خود را بر این اساس مجدداً آنالیز کنید. یعنی SPSS بر اساس معیارهای جدید شما اعداد جدیدی را در اختیار شما قرار می دهد.

مرحله 5:

باید نتیجه نهایی و چرخشی را تفسیر کنید. برای انجام این کار، شما باید خروجی نهایی (تجدید شده) Total Variance Explained را از SPSS و ماتریس Rotated Components تفسیر کنید.

مرحله 6:

اکنون در موقعیتی هستید که می توانید نتایج خود را گزارش دهید. این باید شامل تمام تصمیم‌های مرتبطی باشد که در طول آنالیز خود گرفته‌اید. به عنوان مثال، معیارهایی که برای استخراج مؤلفه‌ها استفاده کرده‌اید، نوع چرخش شما و غیره. این امر به ویژه در PCA مهم است زیرا قضاوت های ذهنی زیادی در طول مسیر انجام می شود که همه آنها می توانند به نتایج متفاوتی از داده های مشابه منجر شوند.

مرحله 7:

در نهایت، پس از تکمیل آنالیز اصلی خود، اغلب می خواهید برای هر شرکت کننده امتیازی به هر جزء اختصاص دهید. برای مثال، بر اساس مثالی که در این آموزش استفاده کردیم، سؤالات مربوط به انگیزه در مؤلفه 1 بارگذاری شده است، بنابراین ممکن است بخواهید امتیازی داشته باشید که «انگیزه» یک فرد را منعکس کند. همچنین ممکن است بخواهید از این امتیازها برای آنالیز های بیشتر، مانند رگرسیون چندگانه استفاده کنید. دو روش متداول امتیازات مؤلفه (component scores) و امتیازات مبتنی بر مؤلفه (component-based scores) برای دستیابی به امتیاز وجود دارد که متغیرهای مرتبط با هر یک از اجزای شما را منعکس می‌کند.

 

مطالب زیر را هم از دست ندهید:

تحلیل مؤلفه‌های اصلی (PCA)

آزمون مربع کای (Chi-Square) با استفاده از SPSS

آزمون یو من ویتنی (Mann-Whitney U) با استفاده از SPSS

آزمون مک نمار (McNemar’s test) با استفاده از SPSS

تعدیل کننده دو وضعیتی (Dichotomous Moderator) با استفاده از SPSS

ضریب همبستگی تاوی- بی کندال (Kendall’s Tau-b correlation coefficient) با استفاده از SPSS

آزمون Jonckheere-Terpstra (جانكهير ترپسترا) با استفاده از SPSS

آزمون رتبه علامت‌دار ویلکاکسون (Wilcoxon signed-rank test) با استفاده از SPSS

آزمون Q کوکران (Cochran’s Q) با استفاده از SPSS

دی سامرز (Somers’ d) با استفاده از SPSS

همبستگی اسپیرمن در Minitab

آزمون کرویت

آزمون t وابسته با استفاده از SPSS Statistics

آزمون t وابسته برای نمونه های جفت شده

کار با متغیرها در SPSS

انواع متغیرها

آزمون t نمونه تکی با استفاده از SPSS Statistics

کتاب سنجی (Bibliometrics) و تفاوت آن با علم سنجی (Scientometrics) و اطلاع ‌سنجی (Informetrics)

Afshin Safaee (@afshinsafaee.official)

 

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

3 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *