آمار در مقایسه با یادگیری ماشینی در سیستم های بیولوژیک

مقدمه

مقاله ای در حوزه یادگیری ماشین در ژورنال Nature Method در آوریل 2018 با عنوان  Statistics versus Machine learning چاپ شده است، که به خوبی جنبه های مختلف تفاوت یادگیری ماشین و آمار را بررسی کرده است. آنچه در ادامه می آید، ترجمه این مقاله و اضافاتی است که من به آن اضافه کرده ام تا قابل فهم تر و ساده تر شود.

مقایسه آمار با یادگیری ماشین

به طور خلاصه

آمار ویژگیهای جامعه را بر اساس نمونه ای که به طور تصادفی از آن استخراج می گردد، استنتاج می کند (برآورد کرده و یا آزمون فرضی در مورد آنها انجام می دهد)؛ ولی، یادگیری ماشینی، الگوهای پیش ­بینی قابل تعمیم را پیدا می کند.

در ادامه با جزئیات بیشتر به بررسی این دو موضوع میپردازیم:

استنتاج و پیش­ بینی دو هدف عمده در مطالعه سیستم های مختلف مثلا سیستم های بیولوژیک هستند. استنتاج “یک مدل ریاضی را از فرآیند تولید داده”، ایجاد می کند تا فرضیه ای را در مورد نحوه رفتار سیستم آزمایش کند. در حالی که پیش‌بینی “نتایج مشاهده‌نشده یا رفتارهای آینده” را پیشگویی می کند ( به عنوان مثال: آیا موش با الگوی بیان ژن معین بیماری دارد یا خیر).

در یک پروژه تحقیقاتی، هم استنتاج و هم پیش‌بینی ارزشمند هستند. علاوه بر آنکه ما به عنوان محقق مایل هستیم رفتارهای یک سیستم را تبیین کنیم (می‌خواهیم بدانیم فرآیندهای یک سیستم چگونه کار می‌کنند)، تمایل داریم پیش بینی کنیم در آینده چه اتفاقی خواهد افتاد. برای مثال، ممکن است بخواهیم استنباط کنیم که کدام فرآیندهای بیولوژیکی با اختلال در تنظیم یک ژن در یک بیماری مرتبط است، و همچنین تشخیص دهیم که آیا یک فرد به این بیماری مبتلا است یا خیر و بهترین درمان را پیش‌بینی کنیم.

بسیاری از روش‌های آماری و یادگیری ماشینی (ML) در اصل ممکن است هم برای پیش‌بینی و هم برای استنتاج استفاده شوند. با این حال، روش های آماری تمرکز طولانی مدت بر استنتاج دارند که از طریق ایجاد و برازش یک مدل احتمال خاص بر داده ها به دست می آید. [ مثلا، در اکثر روشهای آماری ابتدا فرض نرمال بودن را بررسی می کنیم. می خواهیم بدانیم که مدل احتمال نرمال بر داده های ما برازش (فیت) شده است یا نه.]

مدلهای آماری به ما اجازه می دهند تا یک معیار کمی از اطمینان را محاسبه کنیم که یک رابطه کشف شده یک اثر واقعی (true effect) را توصیف می کند که بعید است ناشی از نویز [یا تصادف] باشد. علاوه بر این، اگر داده‌های کافی در دسترس باشد، می‌توانیم به صراحت مفروضات را تأیید کنیم (مثلاً برابری واریانس های چند گروه) و در صورت نیاز مدل مشخص‌شده را اصلاح کنیم.

در مقابل، یادگیری ماشین (ML) با استفاده از الگوریتم‌های یادگیری همه‌منظوره برای یافتن الگوها در داده‌های غالباً غنی و سخت (often rich and unwieldy data)، بر پیش‌بینی تمرکز می‌کند. روش‌های ML مخصوصاً وقتی با «داده‌های گسترده (wide data)» سروکار دارند، که در آن تعداد متغیرهای ورودی از تعداد آزمودنی ها بیشتر است، بر خلاف «داده‌های طولانی (long data)» که تعداد آزمودنی ها بیشتر از متغیرهای ورودی است، مفید هستند.

ML حداقل فرضیات را در مورد داده ایجاد می کند. این روشها می توانند حتی زمانی که داده ها بدون طراحی آزمایشی که به دقت کنترل می شوند و در حضور برهم کنش های غیرخطی پیچیده جمع آوری شوند، نیز مؤثر باشند.[در آمار برای جمع آوری داده ها از طرح های آزمایش که در آنها کنترل ها بر متغیرهای مداخله کننده اعمال می شود، استفاده می کنند.] با این حال، علیرغم نتایج متقاعدکننده پیش‌بینی، فقدان یک مدل صریح می‌تواند راه‌حل‌های ML را برای ارتباط مستقیم با دانش موجود دشوار کند.

آمار کلاسیک و ML از نظر قابلیت محاسباتی با افزایش تعداد متغیرها در هر موضوع متفاوت است. مدل‌سازی آماری کلاسیک برای داده‌هایی با چند ده متغیر ورودی و حجم نمونه طراحی شده است؛ که، امروزه کوچک تا متوسط ​​در نظر گرفته می‌شوند. در این سناریو، مدل جنبه های مشاهده نشده سیستم را پر می کند. با این حال، با افزایش تعداد متغیرهای ورودی و ارتباط احتمالی بین آنها، مدلی که این روابط را به تصویر می‌کشد پیچیده‌تر می‌شود. بر این اساس، استنباط های آماری دقیق تر می شوند و مرز بین روشهای آماری و ML مبهم تر می شود.

برای مقایسه آمار سنتی با روشهای ML، از شبیه سازی بیان 40 ژن در دو فنوتیپ (-/+) استفاده خواهیم کرد.

شکل (1) بیان شبیه سازی شده و تعداد خواندن RNA-seq برای 40 ژن که در آن 10 ژن آخر (A-J) به طور متفاوت در دو فنوتیپ بیان شده اند (-/+). (1) میانگین سطوح بیان log شبیه‌سازی شده برای ژن‌های تولید شده با نمونه‌برداری از توزیع نرمال با میانگین 4 و انحراف معیار 2. در فنوتیپ + بیان دیفرانسیل ژن های A-J با افزودن یک نرمال استاندارد به هر بیان میانگین در فنوتیپ – ایجاد شد. (2) RNA-seq شبیه‌سازی‌شده برای ده آزمودنی در هر فنوتیپ تولید شده از توزیع پواسون بیش از حد بر اساس بیان میانگین در یک تنوع بیولوژیکی، شمارش می‌کند.

(3) مقادیر P با مقیاس log تنظیم نشده از تجزیه و تحلیل بیان دیفرانسیل آماری به عنوان تابعی از اندازه اثر، که با تغییر برابری در بیان اندازه‌گیری می‌شود. (4) مقادیر P با مقیاس ورود به سیستم به عنوان تابعی از اهمیت ژن از طبقه‌بندی تصادفی جنگل. دایره های قرمز ده ژن متفاوت بیان شده را از شکل 1 مشخص می کنند. (5) توزیع تعداد ژن‌های تنظیم‌نشده به درستی در 1000 شبیه‌سازی با استنتاج (ناحیه خاکستری) و جنگل تصادفی (خط سیاه) شناسایی شده‌اند.

میانگین بیان ژن بین فنوتیپ‌ها متفاوت است، اما ما شبیه‌سازی را طوری تنظیم می‌کنیم که تفاوت میانگین 30 ژن اول به فنوتیپ مربوط نباشد. ده ژن آخر با تفاوت‌های سیستماتیک در میانگین بیان بین فنوتیپ‌ها بی‌نظم خواهند بود. برای دستیابی به این هدف، به هر ژن یک بیان log میانگین اختصاص می دهیم که برای هر دو فنوتیپ یکسان است. ژن‌های تنظیم‌نشده (31-40، با برچسب A-J) میانگین بیان آنها در فنوتیپ + مختل شده است (شکل 1). با استفاده از این مقادیر میانگین بیان، ما یک آزمایش RNA-seq را شبیه‌سازی می‌کنیم که در آن تعداد مشاهده‌شده برای هر ژن از توزیع پواسون با میانگین exp(x + ε) نمونه‌برداری می‌شود، که در آن x میانگین log بیان، منحصر به ژن و فنوتیپ است. و ε ~ N(0, 0.15) به عنوان تنوع زیستی عمل می کند که از سوژه ای به سوژه ای دیگر متفاوت است (شکل 2). برای ژن‌های 1-30، که بیان متفاوتی ندارند، z-scores تقریباً N(0, 1) است. برای ژن‌های تنظیم‌نشده، که بیان متفاوتی دارند، z-scores در یک فنوتیپ مثبت است و z-scores در فنوتیپ دیگر منفی است.

هدف ما در شبیه سازی شناسایی ژن هایی است که با فنوتیپ غیر طبیعی مرتبط هستند. ما به طور رسمی این فرضیه صفر را آزمایش خواهیم کرد که میانگین بیان بر اساس فنوتیپ با یک مدل دوجمله‌ای منفی خطی تعمیم‌یافته (generalized linear negative binomial model) پرکاربرد که امکان تنوع بیولوژیکی را در میان افراد با فنوتیپ یکسان فراهم می‌کند، متفاوت است. ما یک آزمایش برای هر ژن انجام می دهیم و آنهایی را که تفاوت های آماری معنی داری را در میانگین بیان نشان می دهند، بر اساس مقادیر P تنظیم شده برای آزمایش های چندگانه از طریق روش بنجامینی-هوچبرگ (Benjamini–Hochberg) شناسایی می کنیم. در یک روش بیزی جایگزین، ما احتمال پسین (posterior probability) داشتن بیان دیفرانسیل خاص برای فنوتیپ را محاسبه می‌کنیم.

شکل 3 مقادیر P آزمایشات بین فنوتیپ ها را به عنوان تابعی از log fold change در بیان ژن نشان می دهد. ده ژن بی نظم با رنگ قرمز مشخص شده اند. استنباط ما 9 مورد از ده مورد (به جز F، با کوچکترین log fold change) را با P <0.05 معنی دار نشان داد. می‌توانیم از fold change به‌عنوان اندازه‌گیری اندازه اثر (effect size) با فاصله اطمینان یا بالاترین ناحیه پسین برای نشان دادن عدم قطعیت در تخمین، استفاده کنیم. در یک محیط واقع گرایانه، ژن های شناسایی شده ابتدا توسط تجزیه و تحلیل و سپس به صورت آزمایشی اعتبارسنجی می شوند یا با داده های منابع دیگر مانند شبکه های ژنی پیشنهادی یا حاشیه نویسی مقایسه می شوند.

برای پرسیدن یک سؤال بیولوژیکی مشابه با استفاده از ML، ما معمولاً چندین الگوریتم ارزیابی شده با اعتبارسنجی متقابل روی افراد آزمایشی مستقل، یا روش‌های راه‌اندازی با ارزیابی «خارج از نمونه» را امتحان می‌کنیم تا یکی را با دقت خوب انتخاب کنیم. بیایید از یک طبقه‌بندی‌کننده جنگل تصادفی (RF) (random forest (RF) classifier) استفاده کنیم که به طور همزمان همه ژن‌ها را در نظر می‌گیرد و درخت‌های تصمیم‌گیری چندگانه را برای پیش‌بینی فنوتیپ بدون فرض یک مدل احتمالی برای تعداد خوانده‌شده، رشد می‌دهد. نتیجه این طبقه بندی RF با 100 درخت در شکل 4 نشان داده شده است، جایی که مقادیر P از استنتاج کلاسیک به عنوان تابعی از اهمیت ویژگی (feature) ژن رسم شده است. این امتیاز سهم یک ژن معین را در بهبود متوسط ​​طبقه بندی 5 در یک پارتیشن زمانی که درخت برای انتخاب آن ژن تقسیم می شود، کمیت می کند. بسیاری از الگوریتم های ML دارای معیارهای مشابهی هستند که امکان کمی سازی سهم هر ورودی متغیر در طبقه بندی را فراهم می کند. در شبیه‌سازی ما، هشت ژن از ده ژن با بیشترین اهمیت، از مجموعه‌های بی‌نظم بودند. ژن‌های D و F که کوچک‌ترین تغییرات چین‌خوردگی را داشتند، در ده تای بالایی قرار نداشتند (شکل 3).

اگر شبیه‌سازی را 1000 بار انجام دهیم و تعداد ژن‌های بی‌نظم‌شده را که به‌درستی توسط هر دو روش شناسایی شده‌اند، بشماریم (بر اساس رد فرضیه صفر کلاسیک با cutoff مقدار P تعدیل‌شده یا تعمیم الگوی پیش‌بینی‌کننده با RF و رتبه‌بندی اهمیت ده ویژگی برتر) متوجه می شویم که این دو روش نتایج مشابهی دارند. میانگین تعداد ژن های بی نظم شناسایی شده 7.4/10 برای استنتاج و  7.7/10 برای RF است (شکل 5). هر دو روش دارای میانه  8/10 هستند، اما نمونه‌های بیشتری از شبیه‌سازی‌ها را می‌یابیم که تنها 2 تا 5 ژن نامنظم با استنتاج شناسایی شده‌اند. این به این دلیل است که روشی که ما فرآیند انتخاب را طراحی کرده‌ایم برای دو روش متفاوت است: استنتاج با یک cutoff مقدار P تنظیم شده انتخاب می‌شود تا تعداد ژن‌ها متفاوت باشد، در حالی که در RF ما ده ژن انتخابی برتر را انتخاب می‌کنیم. ما می‌توانستیم یک برش برای امتیاز اهمیت اعمال کنیم، اما نمرات مقیاس هدفی ندارند که بر اساس آن آستانه تعیین شود.

ما از دانش از قبل موجود در مورد داده های RNA-seq برای طراحی یک مدل آماری از فرآیند و استنتاج برای تخمین پارامترهای ناشناخته در مدل از داده ها استفاده کرده ایم. در شبیه‌سازی ما، مدل رابطه بین میانگین تعداد خوانده‌ها (پارامتر) برای هر ژن برای هر فنوتیپ و تعداد خوانده‌شده مشاهده‌شده برای هر موضوع را محصور می‌کند. خروجی تجزیه و تحلیل آماری یک آماره آزمایشی برای یک فرضیه خاص و مرزهای اطمینان پارامتر (تغییر برابر میانگین، در این مثال) است. در مثال ما، پارامترهای مدل به صراحت به جنبه‌های بیان ژن مربوط می‌شوند – تعداد مولکول‌های تولید شده با سرعت معین در یک سلول را می‌توان مستقیماً تفسیر کرد.

برای اعمال ML، ما نیازی به دانستن هیچ یک از جزئیات در مورد اندازه گیری RNAseq نداریم. تنها چیزی که مهم است این است که کدام ژن برای تشخیص فنوتیپ بر اساس بیان ژن مفیدتر است. چنین تعمیم زمانی بسیار کمک می کند که ما تعداد زیادی متغیر داشته باشیم، مثلاً در یک آزمایش RNA-seq معمولی که ممکن است صدها تا صدها هزار ویژگی داشته باشد (مثلا رونوشت ها) اما حجم نمونه بسیار کمتری داشته باشد.

اکنون آزمایش پیچیده تری را در نظر بگیرید که در آن هر فرد مشاهدات متعددی را از بافت های مختلف انجام می دهد. حتی اگر فقط یک آزمایش آماری رسمی انجام دهیم که دو فنوتیپ را برای هر بافت مقایسه می‌کند، مشکل آزمایش چندگانه بسیار پیچیده است. افزایش پیچیدگی داده‌ها ممکن است استنتاج آماری کلاسیک را کمتر قابل بررسی کند. در عوض می‌توانیم از روش ML مانند خوشه‌بندی ژن‌ها یا بافت‌ها یا هر دو برای استخراج الگوهای اصلی در داده‌ها، طبقه‌بندی موضوعات و استنتاج درباره فرآیندهای بیولوژیکی که منجر به فنوتیپ می‌شوند استفاده کنیم. برای ساده‌سازی تحلیل، می‌توانیم یک کاهش ابعاد مانند میانگین‌گیری اندازه‌گیری‌ها در ده آزمودنی با هر فنوتیپ برای هر ژن و هر بافت انجام دهیم.

مرز بین استنتاج آماری و ML موضوع بحث است.

برخی از روش‌ها کاملاً در یک حوزه قرار می‌گیرند، اما بسیاری از آنها در هر دو مورد استفاده قرار می‌گیرند. به عنوان مثال، روش bootstrap را می توان برای استنتاج آماری استفاده کرد، اما همچنین به عنوان پایه ای برای روش های مجموعه ای مانند الگوریتم RF عمل می کند. آمار از ما می‌خواهد که مدلی را انتخاب کنیم که دانش ما از سیستم را در بر بگیرد و ML از ما می‌خواهد با تکیه بر قابلیت‌های تجربی آن، یک الگوریتم پیش‌بینی را انتخاب کنیم. توجیه یک مدل استنتاج معمولاً به این بستگی دارد که آیا احساس می کنیم به اندازه کافی جوهر سیستم را در بر می گیرد یا خیر. انتخاب الگوریتم‌های یادگیری الگو اغلب به معیارهای عملکرد گذشته در سناریوهای مشابه بستگی دارد. استنباط و ML مکمل یکدیگر هستند تا ما را به نتایج معنادار بیولوژیکی راهنمایی کنند.

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

8 پاسخ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *