یکشنبه , ۲۶ آبان ۱۳۹۸
صفحه اصلی » داده کاوی » تاریخچه داده کاوی

تاریخچه داده کاوی

از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی داده‏ ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده ‏ها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم داده ‏ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه داده ‏ها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفاده ‏ی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمان‏ها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.

پیشرفت شگفت ‏انگیز فناوری رایانه ‏ای و مجهز شدن بشر به این ابزار سبب پیشرفت فوق ‏العاده در کسب و ذخیره‏ سازی داده ‏های عددی و همچنین به وجود آمدن پایگاه داده ‏های بزرگ در زمینه‏ های مختلف شده است. داده ‏های تبادلات تجاری، کشاورزی، ترافیک، اینترنت، داده‏ های نجومی، جزئیات مکالمات تلفنی، داده ‏های پزشکی و درمانگاهی مثال‏هایی از چنین پایگاه داده ‏هایی می ‏باشند. در واقع تکنیک‏های تولید و جمع ‏آوری پایگاه داده ‏ها بسیار سریع‏تر از توانایی ما در درک و استفاده از آن‏ها رشد کرده است. از اواخر دهه ‏ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این داده ‏های حجیم افتاد و تلاش‏ها برای انجام این کار را شروع کرد که با سیستم‏های سنتی استفاده از پایگاه داده ‏ها میسر نبود. شدت رقابت ها در عرصه ‏های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستم‏هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم داده‏ های زیاد از سوی دیگر احساس شد.

در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه داده‏ها توسط پیاتتسکی[۱] و همکارانش برگزار شد. در واقع داده ‏کاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصه‏ ی ظهور گذاشته و با نگرشی نو ، به  مساله‏ ی استخراج اطلاعات از پایگاه داده‏ ها پرداخت. در واقع پژوهش جدی روی موضوع داده‏ کاوی از اوایل دهه ی ۹۰ شروع شد. پژوهش‏ها و مطالعه‏ های زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دوره ‏های آموزشی و کنفرانس‏ هایی نیز برگزار شد و پایه‏ های نظری داده‏ کاوی در تعدادی از مقاله‏ های پژوهشی آورده شد. در فواصل سال‏های ۱۹۹۱ تا ۱۹۹۴ کارگاه‏های کشف دانش و معرفت از پایگاه داده‏ ها توسط فیاد[۲] و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ داده‏ کاوی به صورت جدی وارد مباحث آمار شد.

واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بین‏ المللی داده ‏کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانش‏های ناشناخته ‏ی قبلی از داده‏های در دسترس می پرداخت. داده‏ هایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمی‏رسید.

گروهی از محققین سال ۱۹۹۵ با استفاده از داده ‏کاوی ، انباره‏های داده‏ی بانک‏های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانک‏های آمریکا قدرت رقابت بیشتری ایجاد می‏کنند. در این سال انجمن داده‏ کاوی همزمان با اولین کنفرانس بین‏المللی «کشف دانش و داده‏ کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه داده‏ ها» منتشر شد. در همان سال دیدگاهی از داده‏ کاوی به عنوان «پرس و جو کننده از پایگاه‏های استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفت‏های کشف دانش و داده‏ کاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی داده‏ کاوی و عملکرد داده‏ کاوی به عنوان یک مساله‏ ی بهینه ، ارائه و کنفرانس‏های ناحیه ای و بین ‏المللی در مورد داده‏ کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و داده‏ کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده‏ کاوی و نیز استفاده از وب در کاوش داده‏ ها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «داده‏ کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر، داده‏ کاوی مهمترین فناوری جهت بهره‌برداری موثر از داده‏ های حجیم است و اهمیت آن رو به افزایش است.

سیر تحول داده ‏کاوی

با رشد فناوری اطلاعات و روش­های تولید و جمع ­آوری داده­ها، پایگاه داده ­های مربوط به داده ­های تبادلات تجاری،کشاورزی، اینترنت، جزییات مکالماتی تلفنی، داده ­های پزشکی و…  سریع­تر از هر روز جمع ­آوری و انبارش می­شود.  لذا از اواخر دهه­ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این پایگاه­های داده ­های حجیم افتاد. زیرا سیستم­های سنتی قادر به این کار نبودند. به دلیل رقابت در عرصه­ های سیاسی، نظامی، اقتصادی ،علمی و اهمیت دستیابی به اطلاعات در کمترین زمان بدون دخالت انسان علم تجزیه و تحلیل داده­ ها یا داده­ کاوی پا به عرصه گذاشت. داده­ کاوی فرآیندی است که در آغاز دهه ۹۰ مطرح شد و با نگرشی نو به مساله استخراج اطلاعات از پایگاه داده ­ها می­پردازد. از سال  ۱۹۹۵داده­ کاوی به صورت جدی وارد مباحث آمار شد و در سال  ۱۹۹۶اولین شماره مجله کشف­ دانش و معرفت از پایگاه داده ­ها منتشر شد. محقق­های نظیر براچمن و آناند کلیه مراحل واقع گرایانه و رو به جلو کشف دانش از پایگاه داده ­ها را تشخیص دادند.

 در حاضر ،داده­ کاوی مهمترین فناوری جهت بهره برداری مؤثر از داده ­های حجیم است و اهمیت آن رو به فزونی است. به طوریکه تخمین زده شده اسـت که مقدار داده­ ها در جهـان در هر ۲۰ماه حدود دو برابر می­شود. در یک تحقیق که بر روی گروه­های تجاری بسیار بزرگ در جمع­ آوری داده­ ها صورت گرفت، مشخص شد که%۱۹  از این گروه­ها دارای پایگاه داده­ هایی با سطح بیشتر از ۵۰ گیگابایت می­باشند و %۵۹ آنها انتظار دارند که در آینده نزدیک در چنین سطحی قرار گیرند. در صنایعی مانند کارت­های اعتباری و ارتباطات و فروشگاه­های زنجیره­ای و خریدهای الکترونیکی و اسکنرهای بارکد خوان هر روزه داده­های زیادی تولید و ذخیره می­شوند. افزایش سرعت کامپیوتر باعث بوجود آمدن الگوریتم­هایی شده است که قدرت تجزیه و تحلیل­های بیشتری دارد بدون اینکه محدودیت در زمینه ظرفیت و سرعت کامپیوتر داشته باشد. در سال ۱۹۸۹و ۱۹۹۱کارگاه­های کشف دانش و معرفت از پایگاه داده­ ها توسط پیاتتسکی و همکارانش برگذار شد . در فواصل سال های ۱۹۹۱ تا ۱۹۹۴ کارگاه های کشف دانش و معرفت از پایگاه داده­ ی توسط فیاد و پیاتتسکی و دیگران برگزار شد.

 به طور رسمی اصطلاح داده­کاوی برای اولین بار توسط فییاد در اولین کنفرانس بین المللی کشف دانش و داده کاوی در سال ۱۹۹۵ مطرح شد. امروزه کنفرانس­های مختلفی در این زمینه در سراسـر دنیا برگزار می­شود. افزایش داده­ های بسیار باعث پیدایش فرصت­های تازه برای کار در علوم مهندسی و کسب و کار شده است. زمینه داده­ کاوی و کشف­ دانش از پایگاه داده­ها به عنوان یک رشته علمی جدید در مهندسی علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزه ­های گوناگون و در برداشتن فرصت­های بی نظیر اکنون برای کاربرد داده­ کاوی و کشف دانش از پایگاه داده­ها و برای توسعه مفاهیم و روش­های تازه در این زمینه آماده است. فر آیندهای صنعتی زیادی اکنون برای مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینه­های محصول به طور خودکار و کامپیوتری شده­اند.

فهرست حوادث مهم در داده کاوی

از ۱۹۶۰

ایجاد سیستم های جمع آوری و مدیریت داده‏ها توسط CDC و IBM

ذخیره ی داده‏ها روی دیسک ها و کامپیوترها

بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)

۱۹۸۰

ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده[۳] 

شاخص‏ گذاری و سازماندهی داده‏ها با  DBMS های DB2 و Sybase و Oracle

بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)

۱۹۹۰

ایجاد پایگاه داده‏ های چند بعدی Data Warehouse و OLAP

بازیابی پویا در چند سطح (با امکان Drill Down )

در حال حاضر

ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine

کشف الگوهای جدید در پایگاه داده ‏ها

بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)


۱٫ G.Piatetsky-Shapiro

۲٫ Usama Fayyad

۳٫ Database

درباره‌ افشین صفایی

این مطلب را نیز بخوانید

آموزش کلمنتاین (SPSS modeler) – جلسه اول

نرم افزار کلمنتاین یا SPSS Modeler یکی از نرم افزارهای تجاری برای داده کاوی است …