تحلیل مؤلفه‌های اصلی (PCA)

تحلیل مؤلفه‌های اصلی (PCA)

تحلیل مؤلفه‌های اصلی (Principal Component Analysis (PCA)) یک تکنیک آماری است که می‌توانیم تعداد ویژگی‌های موجود در داده‌های خود را از تعداد زیاد به تعداد کم کاهش دهیم. با این حال، این روش دارای مزایا و معایبی است. مزایا و معایب روش PCA را در این مقاله آموزش خواهیم داد.

مزایا  

  • هنگام تلاش برای استخراج ویژگی های کلیدی از یک مجموعه داده بزرگ، انجام PCA می تواند ایده بسیار هوشمندانه ای باشد. برخی از مزایای PCA به شرح زیر است:
  • اشکالات یک مجموعه داده با ابعاد بالا را می توان از طریق PCA برطرف کرد.
  • تناسب بیش از حد (Overfitting) که یکی از مشکلات کلیدی در مطالعه مجموعه داده های با ابعاد بالا است. زمانی که تناسب بیش از حد اتفاق می افتد متغیرهای زیادی در مجموعه داده وجود دارد. می توان با استفاده از PCA با کاهش ابعاد مجموعه داده ها از چنین بیش از حدی جلوگیری کرد.
  • ویژگی اصلی PCA این است که ما را قادر می سازد مجموعه داده های قابل توجهی را متراکم کنیم. اگر لازم باشد الگوریتمی را روی داده‌های خود اجرا کنیم یا آن را تجسم کنیم، این می‌تواند بسیار مفید باشد. در غیر این صورت، دیدن واضح همه ویژگی ها بسیار چالش برانگیز خواهد بود.
  • همبستگی ویژگی‌های ما باید به صورت دستی پیدا شود، که اغلب تقریباً دشوار است و به زمان و تلاش قابل توجهی نیاز دارد.
  • هنگام اعمال PCA در مجموعه داده‌های خود، مؤلفه‌های اصلی را به‌دست می‌آوریم که از یکدیگر مستقل هستند.
  • زمانی که از اجزای اصلی مجموعه داده‌ها به جای همه متغیرها استفاده کنیم، الگوریتم‌های یادگیری ماشین سریع‌تر همگرا می‌شوند. زمان آموزش الگوریتم ها با ویژگی های کمتر کوتاه می شود.
  • PCA میتواند وضوح بصری را افزایش می دهد
  • درک و نمایش یک مجموعه داده با ابعاد بالا می تواند چالش برانگیز باشد. با استفاده از PCA می‌توانیم داده‌های با ابعاد بالا را با تبدیل به مجموعه داده‌های کم‌بعد بهتر تجسم کنیم.

معایب 

در تحقیقات ما، تحلیل مؤلفه‌های اصلی دارای اشکالات خاصی باشد:

  • نرمال سازی داده ها قبل از اجرای PCA ضروری است.
  • این تکنیک  جهت‌هایی را مشخص می‌کند که بیشترین تنوع داده‌ها را دارند. همه متغیرها قبل از محاسبه مولفه های اصلی باید میانگین 0 و انحراف معیار 1 داشته باشند زیرا واریانس یک متغیر در مقیاس مجذور خودش محاسبه می شود. در غیر این صورت، PCA تحت سلطه متغیرهایی است که مقیاس آنها بزرگتر است.
  • ممکن است برخی از داده های مهم را از دست بدهیم.
  • اگر تعداد مناسبی از مؤلفه‌های اصلی را برای مجموعه داده‌های خود و واریانس آن انتخاب نکنیم، استفاده از تحلیل مؤلفه‌های اصلی می‌تواند منجر به از دست دادن اطلاعات شود.
  • درک برخی از عناصر کلیدی ممکن است چالش برانگیز باشد.
  • هنگامی که تحلیل مؤلفه‌های اصلی را در مجموعه داده‌های خود اعمال می‌کنیم، ویژگی‌های اصلی مجموعه داده‌های ما به مؤلفه‌های اصلی تبدیل می‌شوند، که ترکیبی خطی از ویژگی‌های اصلی هستند.
  • اما کدام عناصر، متغیرها یا صفات در مجموعه داده ها مهم ترین هستند؟ به دنبال PCA، ارائه پاسخ به این سوال ممکن است چالش برانگیز باشد.

مطالب زیر را هم از دست ندهید

چگونه نتایج حاشیه خطا را تفسیر کنیم؟

نحوه ترکیب چندین نمودار در R

تفسیر ضریب کاپا

اندازه اثر در تحلیل واریانس

هوش مصنوعی (AI) چیست؟ 3 چیز که باید بدانید

تجزیه و تحلیل آماری: تعریف، مثال

روایی نتیجه گیری آماری (SCV) چیست؟

تحلیل سئوال روش تحقیق آزمون دکتری

تحلیل مؤلفه‌های اصلی (PCA)

چگونه نتایج حاشیه خطا را تفسیر کنیم؟

تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار

آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک

 

Afshin Safaee (@afshinsafaee.official)

 

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

13 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *