چهارشنبه , ۱۲ آذر ۱۳۹۹
صفحه اصلی » داده کاوی » تاریخچه داده کاوی

تاریخچه داده کاوی

از سال ۱۹۵۰ رایانه ها در تحلیل و ذخیره سازی داده‏ ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده ‏ها دو برابر شد و پس از آن تقریبا هر دو سال یک بار همزمان با پیشرفت فناوری اطلاعات ، حجم داده ‏ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکوردهای برخی از پایگاه داده ‏ها به چند صد میلیارد رسید. پدیده ی شبکه ی جهانی وب ، استفاده ‏ی گسترده از بارکد برای تولیدات تجاری ، به خدمت گرفتن کامپیوتر در کسب و کار ، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع آوری داده ، انفجاری را در مجموعه های اطلاعاتی سازمان‏ها و موسسات ایجاد کرده است. حجم زیاد اطلاعات ، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرده است.

پیشرفت شگفت ‏انگیز فناوری رایانه ‏ای و مجهز شدن بشر به این ابزار سبب پیشرفت فوق ‏العاده در کسب و ذخیره‏ سازی داده ‏های عددی و همچنین به وجود آمدن پایگاه داده ‏های بزرگ در زمینه‏ های مختلف شده است. داده ‏های تبادلات تجاری، کشاورزی، ترافیک، اینترنت، داده‏ های نجومی، جزئیات مکالمات تلفنی، داده ‏های پزشکی و درمانگاهی مثال‏هایی از چنین پایگاه داده ‏هایی می ‏باشند. در واقع تکنیک‏های تولید و جمع ‏آوری پایگاه داده ‏ها بسیار سریع‏تر از توانایی ما در درک و استفاده از آن‏ها رشد کرده است. از اواخر دهه ‏ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این داده ‏های حجیم افتاد و تلاش‏ها برای انجام این کار را شروع کرد که با سیستم‏های سنتی استفاده از پایگاه داده ‏ها میسر نبود. شدت رقابت ها در عرصه ‏های علمی ، اجتماعی ، اقتصادی ، سیاسی و نظامی نیز اهمیت عامل سرعت یا زمان دسترسی به اطلاعات را دو چندان کرد. بنابراین نیاز به طراحی سیستم‏هایی که قادر به اکتشاف سریع اطلاعات مورد علاقه ی کاربران با تاکید بر حداقل مداخله ی انسانی باشند از یک طرف و روی آوردن به روش های تحلیل متناسب با حجم داده‏ های زیاد از سوی دیگر احساس شد.

در سال ۱۹۸۹ و ۱۹۹۱ کارگاه های کشف دانش و معرفت از پایگاه داده‏ها توسط پیاتتسکی[۱] و همکارانش برگزار شد. در واقع داده ‏کاوی فرایندی است که در آغاز دهه ی ۹۰ پا به عرصه‏ ی ظهور گذاشته و با نگرشی نو ، به  مساله‏ ی استخراج اطلاعات از پایگاه داده‏ ها پرداخت. در واقع پژوهش جدی روی موضوع داده‏ کاوی از اوایل دهه ی ۹۰ شروع شد. پژوهش‏ها و مطالعه‏ های زیادی در این زمینه صورت گرفته ؛ همچنین سمینارها ، دوره ‏های آموزشی و کنفرانس‏ هایی نیز برگزار شد و پایه‏ های نظری داده‏ کاوی در تعدادی از مقاله‏ های پژوهشی آورده شد. در فواصل سال‏های ۱۹۹۱ تا ۱۹۹۴ کارگاه‏های کشف دانش و معرفت از پایگاه داده‏ ها توسط فیاد[۲] و پیاتتسکی و دیگران برگزار شد. از سال ۱۹۹۵ داده‏ کاوی به صورت جدی وارد مباحث آمار شد.

واژه ی «کشف دانش» به طور رسمی اولین بار توسط فیاد در اولین کنفرانس بین‏ المللی داده ‏کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود، معرفی شد که به بیان ارتباط تکنیک های آنالیز در چندین مرحله با هدف استخراج دانش‏های ناشناخته ‏ی قبلی از داده‏های در دسترس می پرداخت. داده‏ هایی که ارتباط منظم و پراهمیت آنها قبلا به نظر نمی‏رسید.

گروهی از محققین سال ۱۹۹۵ با استفاده از داده ‏کاوی ، انباره‏های داده‏ی بانک‏های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم ها برای بانک‏های آمریکا قدرت رقابت بیشتری ایجاد می‏کنند. در این سال انجمن داده‏ کاوی همزمان با اولین کنفرانس بین‏المللی «کشف دانش و داده‏ کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. در سال ۱۹۹۶ اولین شماره ی مجله ی «کشف دانش از پایگاه داده‏ ها» منتشر شد. در همان سال دیدگاهی از داده‏ کاوی به عنوان «پرس و جو کننده از پایگاه‏های استنتاجی» پیشنهاد شد و فیاد و پیاتتسکی پیشرفت‏های کشف دانش و داده‏ کاوی را اعلام کردند. همچنین دیدگاه اقتصادسنجی روی داده‏ کاوی و عملکرد داده‏ کاوی به عنوان یک مساله‏ ی بهینه ، ارائه و کنفرانس‏های ناحیه ای و بین ‏المللی در مورد داده‏ کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره ی کشف دانش و داده‏ کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده‏ کاوی و نیز استفاده از وب در کاوش داده‏ ها و کاربردهای آن ارائه شد و در نهایت در سال ۲۰۰۲ «داده‏ کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد. در حال حاضر، داده‏ کاوی مهمترین فناوری جهت بهره‌برداری موثر از داده‏ های حجیم است و اهمیت آن رو به افزایش است.

سیر تحول داده ‏کاوی

با رشد فناوری اطلاعات و روش­های تولید و جمع ­آوری داده­ها، پایگاه داده ­های مربوط به داده ­های تبادلات تجاری،کشاورزی، اینترنت، جزییات مکالماتی تلفنی، داده ­های پزشکی و…  سریع­تر از هر روز جمع ­آوری و انبارش می­شود.  لذا از اواخر دهه­ی ۸۰ میلادی بشر به فکر دستیابی به اطلاعات نهفته در این پایگاه­های داده ­های حجیم افتاد. زیرا سیستم­های سنتی قادر به این کار نبودند. به دلیل رقابت در عرصه­ های سیاسی، نظامی، اقتصادی ،علمی و اهمیت دستیابی به اطلاعات در کمترین زمان بدون دخالت انسان علم تجزیه و تحلیل داده­ ها یا داده­ کاوی پا به عرصه گذاشت. داده­ کاوی فرآیندی است که در آغاز دهه ۹۰ مطرح شد و با نگرشی نو به مساله استخراج اطلاعات از پایگاه داده ­ها می­پردازد. از سال  ۱۹۹۵داده­ کاوی به صورت جدی وارد مباحث آمار شد و در سال  ۱۹۹۶اولین شماره مجله کشف­ دانش و معرفت از پایگاه داده ­ها منتشر شد. محقق­های نظیر براچمن و آناند کلیه مراحل واقع گرایانه و رو به جلو کشف دانش از پایگاه داده ­ها را تشخیص دادند.

 در حاضر ،داده­ کاوی مهمترین فناوری جهت بهره برداری مؤثر از داده ­های حجیم است و اهمیت آن رو به فزونی است. به طوریکه تخمین زده شده اسـت که مقدار داده­ ها در جهـان در هر ۲۰ماه حدود دو برابر می­شود. در یک تحقیق که بر روی گروه­های تجاری بسیار بزرگ در جمع­ آوری داده­ ها صورت گرفت، مشخص شد که%۱۹  از این گروه­ها دارای پایگاه داده­ هایی با سطح بیشتر از ۵۰ گیگابایت می­باشند و %۵۹ آنها انتظار دارند که در آینده نزدیک در چنین سطحی قرار گیرند. در صنایعی مانند کارت­های اعتباری و ارتباطات و فروشگاه­های زنجیره­ای و خریدهای الکترونیکی و اسکنرهای بارکد خوان هر روزه داده­های زیادی تولید و ذخیره می­شوند. افزایش سرعت کامپیوتر باعث بوجود آمدن الگوریتم­هایی شده است که قدرت تجزیه و تحلیل­های بیشتری دارد بدون اینکه محدودیت در زمینه ظرفیت و سرعت کامپیوتر داشته باشد. در سال ۱۹۸۹و ۱۹۹۱کارگاه­های کشف دانش و معرفت از پایگاه داده­ ها توسط پیاتتسکی و همکارانش برگذار شد . در فواصل سال های ۱۹۹۱ تا ۱۹۹۴ کارگاه های کشف دانش و معرفت از پایگاه داده­ ی توسط فیاد و پیاتتسکی و دیگران برگزار شد.

 به طور رسمی اصطلاح داده­کاوی برای اولین بار توسط فییاد در اولین کنفرانس بین المللی کشف دانش و داده کاوی در سال ۱۹۹۵ مطرح شد. امروزه کنفرانس­های مختلفی در این زمینه در سراسـر دنیا برگزار می­شود. افزایش داده­ های بسیار باعث پیدایش فرصت­های تازه برای کار در علوم مهندسی و کسب و کار شده است. زمینه داده­ کاوی و کشف­ دانش از پایگاه داده­ها به عنوان یک رشته علمی جدید در مهندسی علوم کامپیوتر ظهور کرده است. مهندسی صنایع با حوزه ­های گوناگون و در برداشتن فرصت­های بی نظیر اکنون برای کاربرد داده­ کاوی و کشف دانش از پایگاه داده­ها و برای توسعه مفاهیم و روش­های تازه در این زمینه آماده است. فر آیندهای صنعتی زیادی اکنون برای مطمئن شدن از کیفیت سفارشات محصول و کاهش هزینه­های محصول به طور خودکار و کامپیوتری شده­اند.

فهرست حوادث مهم در داده کاوی

از ۱۹۶۰

ایجاد سیستم های جمع آوری و مدیریت داده‏ها توسط CDC و IBM

ذخیره ی داده‏ها روی دیسک ها و کامپیوترها

بازیابی ایستا (محاسبه کل سود یک فروشگاه در ۵ سال گذشته)

۱۹۸۰

ایجاد زبان پرس و جو برای تهیه ی گزارشات از پایگاه داده[۳] 

شاخص‏ گذاری و سازماندهی داده‏ها با  DBMS های DB2 و Sybase و Oracle

بازیابی پویا در سطح رکورد (میزان فروش یک کالا در یک شعبه به صورت روزانه)

۱۹۹۰

ایجاد پایگاه داده‏ های چند بعدی Data Warehouse و OLAP

بازیابی پویا در چند سطح (با امکان Drill Down )

در حال حاضر

ابزارهای پیشرفته مانند SAS و SGI و SPSS Clementine

کشف الگوهای جدید در پایگاه داده ‏ها

بازیابی پویا با نگاه پیشرو به آینده (فروش یک کالا در ماه آینده در یک شعبه خاص و دلایل آن)


۱٫ G.Piatetsky-Shapiro

۲٫ Usama Fayyad

۳٫ Database

درباره‌ افشین صفایی

این مطلب را نیز بخوانید

علم داده

۱۰ کتاب رو میزی برای هر تحلیلگر داده

در دنیایی زندگی می کنیم که از داده اشباع شده است. در حال حاضر ۲٫۷ …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *