تحلیل مؤلفههای اصلی (PCA)
تحلیل مؤلفههای اصلی (Principal Component Analysis (PCA)) یک تکنیک آماری است که میتوانیم تعداد ویژگیهای موجود در دادههای خود را از تعداد زیاد به تعداد کم کاهش دهیم. با این حال، این روش دارای مزایا و معایبی است. مزایا و معایب روش PCA را در این مقاله آموزش خواهیم داد.
مزایا
- هنگام تلاش برای استخراج ویژگی های کلیدی از یک مجموعه داده بزرگ، انجام PCA می تواند ایده بسیار هوشمندانه ای باشد. برخی از مزایای PCA به شرح زیر است:
- اشکالات یک مجموعه داده با ابعاد بالا را می توان از طریق PCA برطرف کرد.
- تناسب بیش از حد (Overfitting) که یکی از مشکلات کلیدی در مطالعه مجموعه داده های با ابعاد بالا است. زمانی که تناسب بیش از حد اتفاق می افتد متغیرهای زیادی در مجموعه داده وجود دارد. می توان با استفاده از PCA با کاهش ابعاد مجموعه داده ها از چنین بیش از حدی جلوگیری کرد.
- ویژگی اصلی PCA این است که ما را قادر می سازد مجموعه داده های قابل توجهی را متراکم کنیم. اگر لازم باشد الگوریتمی را روی دادههای خود اجرا کنیم یا آن را تجسم کنیم، این میتواند بسیار مفید باشد. در غیر این صورت، دیدن واضح همه ویژگی ها بسیار چالش برانگیز خواهد بود.
- همبستگی ویژگیهای ما باید به صورت دستی پیدا شود، که اغلب تقریباً دشوار است و به زمان و تلاش قابل توجهی نیاز دارد.
- هنگام اعمال PCA در مجموعه دادههای خود، مؤلفههای اصلی را بهدست میآوریم که از یکدیگر مستقل هستند.
- زمانی که از اجزای اصلی مجموعه دادهها به جای همه متغیرها استفاده کنیم، الگوریتمهای یادگیری ماشین سریعتر همگرا میشوند. زمان آموزش الگوریتم ها با ویژگی های کمتر کوتاه می شود.
- PCA میتواند وضوح بصری را افزایش می دهد
- درک و نمایش یک مجموعه داده با ابعاد بالا می تواند چالش برانگیز باشد. با استفاده از PCA میتوانیم دادههای با ابعاد بالا را با تبدیل به مجموعه دادههای کمبعد بهتر تجسم کنیم.
معایب
در تحقیقات ما، تحلیل مؤلفههای اصلی دارای اشکالات خاصی باشد:
- نرمال سازی داده ها قبل از اجرای PCA ضروری است.
- این تکنیک جهتهایی را مشخص میکند که بیشترین تنوع دادهها را دارند. همه متغیرها قبل از محاسبه مولفه های اصلی باید میانگین 0 و انحراف معیار 1 داشته باشند زیرا واریانس یک متغیر در مقیاس مجذور خودش محاسبه می شود. در غیر این صورت، PCA تحت سلطه متغیرهایی است که مقیاس آنها بزرگتر است.
- ممکن است برخی از داده های مهم را از دست بدهیم.
- اگر تعداد مناسبی از مؤلفههای اصلی را برای مجموعه دادههای خود و واریانس آن انتخاب نکنیم، استفاده از تحلیل مؤلفههای اصلی میتواند منجر به از دست دادن اطلاعات شود.
- درک برخی از عناصر کلیدی ممکن است چالش برانگیز باشد.
- هنگامی که تحلیل مؤلفههای اصلی را در مجموعه دادههای خود اعمال میکنیم، ویژگیهای اصلی مجموعه دادههای ما به مؤلفههای اصلی تبدیل میشوند، که ترکیبی خطی از ویژگیهای اصلی هستند.
- اما کدام عناصر، متغیرها یا صفات در مجموعه داده ها مهم ترین هستند؟ به دنبال PCA، ارائه پاسخ به این سوال ممکن است چالش برانگیز باشد.
مطالب زیر را هم از دست ندهید
چگونه نتایج حاشیه خطا را تفسیر کنیم؟
هوش مصنوعی (AI) چیست؟ 3 چیز که باید بدانید
تجزیه و تحلیل آماری: تعریف، مثال
روایی نتیجه گیری آماری (SCV) چیست؟
تحلیل سئوال روش تحقیق آزمون دکتری
چگونه نتایج حاشیه خطا را تفسیر کنیم؟
تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار
آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک
Afshin Safaee (@afshinsafaee.official)
13 پاسخ
بسیار عالی