انتخاب مدل در یادگیری ماشینی
ما اغلب به توسعه مدل هایی با استفاده از مجموعه ای از متغیرهای پیش بینی کننده (predictor variables) و یک متغیر پاسخ (response variable) در زمینه یادگیری ماشینی علاقه مند هستیم. هدف ما ایجاد مدلی است که بتواند به طور موثر مقدار متغیر پاسخ را با استفاده از متغیرهای پیش بینی کننده پیش بینی کند.
مدل های مختلفی وجود دارد که می توانیم با استفاده از مجموعه ای از مجموعه ای از p کل متغیرهای پیش بینی کننده آنها را طراحی کنیم. یکی از راههای انتخاب بهترین مدل، انتخاب بهترین روش زیر مجموعه است.
برازش مدل (model fitting) بسیار ساده است، اما انتخاب از میان آنها مشکل واقعی یادگیری ماشینی کاربردی است.
برای شروع، باید مفهوم “بهترین” مدل را کنار بگذاریم. همه مدلها دارای مقداری عدم دقت پیشبینی هستند که بخاطر نویز آماری در دادهها، ناقص بودن نمونه دادهها و محدودیتهای هر نوع مدل می باشد. در نتیجه، مفهوم “کامل” یا “بهترین” مدل بی فایده است. در عوض، ما باید به دنبال یک مدل “به اندازه کافی خوب” باشیم.
انتخاب مدل در یادگیری ماشینی
فرض کنید یک مجموعه داده با p = 3 متغیر پیش بینی و y به عنوان متغیر پاسخ دارید. ما مدل های 2^p = 2^3 = 8 (2p=23=8) زیر را در این مجموعه داده قرار می دهیم (فیت یا برازش می کنیم) تا بهترین انتخاب زیر مجموعه را انجام دهیم.
- هیچ پیش بینی کننده ای در این مدل وجود ندارد.
- مدلی با x1 به عنوان پیش بینی کننده
- مدلی با x2 به عنوان پیش بینی کننده
- مدلی با x3 به عنوان پیش بینی کننده
- پیش بینی x1، x2 در یک مدل
- مدلی با استفاده از متغیرهای x1, x3
- پیش بینی کننده های x2، x3 در یک مدل
- مدلی با متغیرهای x1، x2 و x3 به عنوان پیشبینی
سپس، از هر مجموعه ای از مدل ها با k پیش بینی کننده، مدلی را با بالاترین R^2 (R2) انتخاب می کنیم. به عنوان مثال، ممکن است تصمیم بگیریم که انتخاب کنیم:
- هیچ پیش بینی کننده ای در این مدل وجود ندارد.
- مدلی با x2 به عنوان پیش بینی کننده
- پیش بینی x1، x2 در یک مدل
- مدلی با متغیرهای x1، x2 و x3 به عنوان پیشبینی و غیره.
پس از آن، از اعتبارسنجی متقاطع برای انتخاب مدل «به اندازه کافی خوب» استفاده میکنیم، که مدلی با کمترین خطای پیشبینی BIC، AIC یا R^2 تنظیمشده است.
این کمترین خطای پیشبینی اعتبار سنجی متقابل (lowest cross-validated prediction error) را داد، ما میتوانیم مدل را به عنوان مدل “به اندازه کافی خوب” انتخاب کنیم.
اگر مدلی با پارامترهای کمتر همیشه پیچیدگی کمتری داشته باشد، به این دلیل انتخاب می شود که احتمال تعمیم آن به طور متوسط بیشتر است.
در زیر چهار معیار انتخاب مدل احتمالی به طور منظم مورد استفاده قرار می گیرند
- معیار اطلاعات آکایک (Akaike Information Criterion (AIC))
- معیار اطلاعات بیزی (Bayesian Information Criterion (BIC))
- حداقل طول توضیحات (Minimum Description Length (MDL))
- به حداقل رساندن ریسک ساختاری (Structural Risk Minimization (SRM))
مزایا و معایب
از مزایای انتخاب مدل “به اندازه کافی خوب” این است که یک راه ساده برای درک و تفسیر است. با این حال، از معایب آن این است که پتانسیل محاسباتی فشرده را دارد. همچنین از آنجایی که مدل های زیادی را در نظر می گیرد، ممکن است مدلی را پیدا کند که روی داده های آموزشی به خوبی کار کند اما روی داده های آینده کار نکند. این ممکن است به بیش از حد تناسب منجر شود.
یک مدل “به اندازه کافی خوب” ممکن است به چیزهای مختلفی مرتبط باشد، که هر یک برای پروژه شما منحصر به فرد است، مانند:
- مدلی که نیازها و محدودیت های ذینفعان پروژه را برآورده می کند.
- با توجه به زمان و منابع موجود، مدلی که مهارت مناسبی داشته باشد.
- در مقایسه با مدل های ساده، مدلی که ماهرانه است.
- مدلی که در مقایسه با سایر مدل های آزمایش شده عملکرد خوبی دارد.
- مدلی که در قیاس با وضعیت فعلی مهارت دارد.
نتیجه
اگرچه انتخاب بهینه زیرمجموعه (مدل «به اندازه کافی خوب») برای پیادهسازی و درک ساده است، ممکن است هنگام کار با مجموعه دادهای با تعداد زیادی پیشبینیکننده غیرعملی باشد و ممکن است منجر به برازش بیش از حد شود. انتخاب گام به گام جایگزینی برای این روش است که از نظر محاسباتی کارآمدتر است.