تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار

تفاوت بین یادگیری ماشین، علم داده، هوش مصنوعی، یادگیری عمیق و آمار

در این مقاله، من نقش‌های مختلف دانشمند داده و چگونگی مقایسه و همپوشانی علم داده با زمینه‌های مرتبط مانند یادگیری ماشینی (machine learning)، یادگیری عمیق (deep learning)، هوش مصنوعی (artificial intelligence)، آمار (statistics)، اینترنت اشیا (Internet of things (IoT))، تحقیقات عملیاتی (operations research) و ریاضیات کاربردی (applied mathematics) رو توضیح می‌دم. از اونجایی که علم داده یک رشته گسترده ای هستش، من با توصیف انواع مختلفی از دانشمندان داده که یک نفر ممکن است در هر محیط کسب و کار با آنها روبرو شود، شروع می کنم: حتی ممکن است متوجه شوید که خودتون یک دانشمند داده هستید، بدون اینکه بدونید. مانند هر رشته علمی دیگر، دانشمندان داده نیز ممکن است تکنیک‌هایی را از رشته‌های مرتبط قرض بگیرند. در نوشته پیش رو، قصدم شفاف سازی نقش های یک دیتا سایتیست و اینکه این یک حوزه علمی و کاری است.

(1) انواع مختلف دانشمندان داده

Ajit Jaokar در سال 2016 در مورد دانشمند داده نوع A (تحلیلگر (Analytics)) در مقابل نوع B (سازنده (Builder)) بحث کرده است:

  • دانشمند داده نوع A می تواند به اندازه کافی برای کار با داده ها کدنویسی کند، اما لزوماً متخصص نیست. دانشمند داده نوع A ممکن است در طراحی آزمایشی، پیش‌بینی، مدل‌سازی، استنتاج آماری یا سایر مواردی که معمولاً در بخش‌های آمار تدریس می‌شود، متخصص باشد. با این حال، به طور کلی، محصول کار یک دانشمند داده “مقادیر p و فواصل اطمینان” نیست. در گوگل، دانشمندان داده‌های نوع A با نام‌های آماردان (Statistician)، تحلیلگر کمی (Quantitative Analyst)، تحلیلگر مهندسی پشتیبانی تصمیم (Decision Support Engineering Analyst)، یا دانشمند داده (Data Scientist) و احتمالاً چند مورد دیگر شناخته می‌شوند.
  • دانشمند داده نوع B برای ساختن است. دانشمندان داده نوع B برخی از پیشینه های آماری را با نوع A به اشتراک می گذارند، اما آنها کدنویسان بسیار قوی هستند و ممکن است مهندسان نرم افزار آموزش دیده باشند. دانشمند داده نوع B عمدتاً علاقه مند به استفاده از داده ها “در تولید” هستند. آنها مدل هایی می سازند که با کاربران تعامل دارند و اغلب توصیه هایی را ارائه می دهند

علم داده ممکن است شامل کدنویسی یا تمرین ریاضی باشد یا نباشد. در یک استارتاپ، دانشمندان داده عموماً از چندین فرد متخصص مانند مجری، داده کاو، مهندس داده یا معمار، محقق، آماردان، مدل ساز یا توسعه دهنده استفاده می کنند.

در حالی که دانشمند داده عموماً به عنوان یک کدنویس با تجربه در R، Python، SQL، Hadoop و آمار به تصویر کشیده می‌شود، این فقط نوک کوه یخ است که توسط کمپ‌های داده با تمرکز بر آموزش برخی از عناصر علم داده محبوبیت پیدا کرده است. دقیقا همانطور که یک تکنسین آزمایشگاهی می تواند خود را فیزیکدان بنامد، در حالی که فیزیکدان واقعی بسیار فراتر از این است و حوزه های تخصص او متنوع است: نجوم، فیزیک ریاضی، فیزیک هسته ای (که شیمی مرزی است)، مکانیک، مهندسی برق، پردازش سیگنال (همچنین زیر شاخه علم داده) و بسیاری دیگر. در مورد دانشمندان داده نیز می توان گفت: رشته ها به اندازه بیوانفورماتیک، فناوری اطلاعات، شبیه سازی و کنترل کیفیت، مالی محاسباتی، اپیدمیولوژی، مهندسی صنایع و حتی نظریه اعداد متنوع هستند.

فردی را در نظر بگیرید که در ارتباطات ماشین به ماشین و دستگاه به دستگاه، توسعه سیستم هایی برای پردازش خودکار کلان داده ها (big data)، برای انجام تراکنش های خودکار تخصص دارد. این امر مستلزم توسعه الگوریتم‌هایی است که با داده‌های بدون ساختار کار می‌کنند، و در مقابل هوش مصنوعی، اینترنت اشیا و علم داده است. به این “علم داده عمیق” می گویند. این نسبتاً بدون ریاضی است و شامل کدگذاری نسبتاً کمی است و بر اساس فناوری آماری کاملاً جدیدی است که به طور خاص برای این زمینه طراحی شده است.

امروزه به علم داده که زیر دامنه‌ها پردازش سیگنال، بینایی کامپیوتر یا اینترنت اشیا هستند، هوش مصنوعی می‌گویند. همچنین، دانشمندان داده را می‌توان در هر نقطه از چرخه حیات پروژه‌های علم داده، در مرحله جمع‌آوری داده یا مرحله اکتشاف داده، تا مدل‌سازی آماری و حفظ سیستم‌های موجود، یافت.

(2) یادگیری ماشینی در مقابل یادگیری عمیق

قبل از کاوش عمیق‌تر در رابطه بین علم داده و یادگیری ماشین، اجازه دهید به طور خلاصه به یادگیری ماشین و یادگیری عمیق بپردازیم. یادگیری ماشینی مجموعه‌ای از الگوریتم‌ها است که بر روی یک مجموعه داده آموزش می‌دهند تا پیش‌بینی کنند یا اقداماتی را برای بهینه‌سازی برخی سیستم‌ها انجام دهند. تکنیک‌های درگیر برای یک کار معین (مثلاً خوشه‌بندی نظارت‌شده)، متنوع هستند: بیز ساده، SVM، شبکه‌های عصبی، مجموعه‌ها، قوانین تداعی، درخت‌های تصمیم، رگرسیون لجستیک یا ترکیبی از بسیاری از آنها.

همه اینها زیرمجموعه ای از علم داده است. هنگامی که این الگوریتم‌ها خودکار هستند، مانند اتومبیل‌های خودکار یا بدون راننده، به آن هوش مصنوعی و به طور خاص تر، یادگیری عمیق می‌گویند. اگر داده‌های جمع‌آوری‌شده از حسگرها باشد و اگر از طریق اینترنت منتقل شود، آنگاه یادگیری ماشین یا علم داده یا یادگیری عمیق به کار رفته در اینترنت اشیا است.

برخی افراد برای یادگیری عمیق تعریف متفاوتی دارند. آنها یادگیری عمیق را به عنوان شبکه های عصبی (یک تکنیک یادگیری ماشینی) با لایه عمیق تر در نظر می گیرند.

  • هوش مصنوعی (artificial intelligence (AI)) زیرشاخه ای از علوم کامپیوتر است که در دهه 1960 ایجاد شد و با حل وظایفی که برای انسان آسان است، اما برای رایانه ها سخت است، سروکار داشت. به طور خاص، به اصطلاح هوش مصنوعی قوی سیستمی است که می تواند هر کاری را که یک انسان می تواند انجام دهد (شاید بدون چیزهای صرفاً فیزیکی). این نسبتاً عمومی است و شامل انواع کارها مانند برنامه ریزی، حرکت در جهان، تشخیص اشیا و صداها، صحبت کردن، ترجمه، انجام معاملات اجتماعی یا تجاری، کارهای خلاقانه (ساخت هنر یا شعر) و غیره است.
  • پردازش زبان طبیعی (Natural language processing (NLP)) به سادگی بخشی از هوش مصنوعی است که با زبان (معمولاً نوشتاری) ارتباط دارد.
  • یادگیری ماشینی (Machine learning) به یک جنبه از این موضوع مربوط می شود: با توجه به برخی مشکلات هوش مصنوعی که می توان آنها را با عبارات مجزا توصیف کرد (مثلاً از مجموعه اقدامات خاصی که کدام یک درست است) و با توجه به اطلاعات زیادی در مورد جهان، بدون اینکه برنامه نویس آن را برنامه ریزی کند، اقدام «درست» را بفهمید. از نظر ریاضی، این یک تابع است: شما مقداری ورودی را تغذیه می‌کنید، و می‌خواهید خروجی مناسب را تولید کند، بنابراین کل مشکل صرفاً ساختن مدلی از این تابع ریاضی به روشی خودکار است. برای ایجاد تمایز با هوش مصنوعی، اگر بتوانم برنامه بسیار هوشمندانه‌ای بنویسم که رفتاری شبیه انسان دارد، می‌تواند هوش مصنوعی باشد، مگر اینکه پارامترهای آن به طور خودکار از داده‌ها یاد بگیرند، در این حالت دیگر یادگیری ماشینی نیست.
  • یادگیری عمیق (deep learning) یکی از انواع یادگیری ماشینی است که در حال حاضر بسیار محبوب است. این شامل نوع خاصی از مدل ریاضی است که می تواند به عنوان ترکیبی از بلوک های ساده (ترکیب تابعی) از یک نوع خاص در نظر گرفته شود و در آن برخی از این بلوک ها می توانند برای پیش بینی بهتر نتیجه نهایی تنظیم شوند.

(3) تفاوت بین یادگیری ماشینی و آمار چیست؟

این مقاله سعی دارد به این سوال پاسخ دهد. برخی میگویند که آمار، یادگیری ماشینی با فواصل اطمینان برای مقادیر پیش بینی شده و یا برآورد شده است. من تمایل به مخالفت دارم، زیرا فواصل اطمینان مهندسی شده نیازی به دانش ریاضی یا آماری ندارد.

(4) علم داده در مقابل یادگیری ماشینی

یادگیری ماشین و آمار بخشی از علم داده است. واژه یادگیری در یادگیری ماشینی به این معنی است که الگوریتم‌ها برای تنظیم دقیق برخی از پارامترهای مدل یا الگوریتم به برخی داده‌ها که به عنوان مجموعه آموزشی استفاده می‌شوند، وابسته هستند. این شامل بسیاری از تکنیک ها مانند رگرسیون، بیز ساده یا خوشه بندی نظارت شده است. اما همه تکنیک ها در این دسته قرار نمی گیرند. به عنوان مثال، خوشه‌بندی بدون نظارت – یک تکنیک آماری و علم داده – با هدف شناسایی خوشه‌ها و ساختارهای خوشه‌ای بدون دانش قبلی یا مجموعه آموزشی برای کمک به الگوریتم طبقه‌بندی است. برای برچسب زدن خوشه های یافت شده به یک انسان نیاز است. برخی از تکنیک ها ترکیبی هستند، مانند طبقه بندی نیمه نظارتی. برخی از تکنیک های تشخیص الگو یا تخمین چگالی در این دسته قرار می گیرند.

اگرچه علم داده بسیار بیشتر از یادگیری ماشینی است. داده ها، در علم داده، ممکن است از یک فرآیند ماشینی یا مکانیکی به دست آیند یا نیایند (داده های نظرسنجی را می توان به صورت دستی جمع آوری کرد، آزمایشات بالینی شامل نوع خاصی از داده های کوچک است) و ممکن است همانطور که قبلاً در مورد آن صحبت کردم ربطی به یادگیری نداشته باشد. اما تفاوت اصلی در این واقعیت است که علم داده کل طیف پردازش داده ها را پوشش می دهد، نه فقط جنبه های الگوریتمی یا آماری. به طور خاص، علم داده موارد زیر را نیز پوشش می دهد:

  • یکپارچه سازی داده ها
  • معماری توزیع شده
  • خودکار کردن یادگیری ماشین
  • تجسم داده ها
  • داشبورد و BI
  • مهندسی داده
  • استقرار در حالت تولید
  • تصمیم گیری های خودکار و مبتنی بر داده

 

البته، در بسیاری از سازمان ها، دانشمندان داده تنها بر یک بخش از این فرآیندها تمرکز می کنند.

 

اشتراک گذاری در facebook
اشتراک گذاری در twitter
اشتراک گذاری در linkedin
اشتراک گذاری در telegram
اشتراک گذاری در whatsapp
نوشته های مرتبط

9 پاسخ

  1. سلام
    من آمار خوندم
    تعریف امار برای ما از روز اول علم داده بود، تجزیه و تحلیل داده ها، ولی اینکه هدف ما از استفاده از داده ها چی هست، بستگی به سوال و درخواست داره، من خودم به شخصه از تمام موارد بالا تقریبا توی کارم استفاده کردم، حالا ابزارهاش متفاوت بوده..
    نمی دونم چرا همه معنی امار رو اشتباه متوجه میشن..
    این علم و کاربردهاش انقد گسترده هستند که یک اماردان میتونه بسته به تمرکز و حوزه فعالیتش و البته مهارت هاش همه این کارها رو انجام بده.

    1. سلام. خیلی خوشبختم از آشنایی شما و ممنونم که به متن نگاه کردین. دقیقا همینه. از یه زمانی به بعد عملا تفاوتی بین این ها نیست و آمار در اصل ریشه و مادر این علوم هست. حالا متاسفانه اکثرا آنقدر که به کد نویسی و نرم افزار ها توجه می کنن به آمار و یاد گرفتنش دقت و توجه کافی نمی کنن.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *