(سیارک) روشها و تکنیکهای داده کاوی به طور موفقیت آمیز و نتیجه بخش برای حوزه های کاربردی مختلفی همچون اطلاع رسانی بیولوژیک، بازاریابی موجودی انبار، تحلیل وب و غیره مورد استفاده قرار گرفته اند. به بعبارت ساده، با توجه به مجموعه داده ها، روشهای داده کاوی برای استخراج روابط و قواعد نا آشنا در خارج از گروه های بزرگ جزئیات در مجموعه های بزرگ داده ها طراحی میشوند؛ این روشها اغلب مربوط به مرحله ای خاص بنام کشف آگاهی از پایگاه داده است. خوشه بندی و دسته بندی دو تکنیک بسیار رایج داده کاوی هستند. خوشه بندی یکی از اصلی ترین روشها برای شناسایی ردیفهای نا آشنای بین گروهی موضوعات هستند و به طور موفقی بعنوان یک ابزار در بسیاری از حوزه ها همچون زیست شناسی، تحلیل تصویر، مالی و غیره مورد استفاده قرار گرفته اند. از سوی دیگر، دسته بندی نوعی طبقه بندی نظارت شده آیتمها در گروه های مختلف است.
شبکه ی عصبی ژنتیکی بر اساس داده کاوی در پیش بینی بیماری های قلبی بوسیله ی عوامل خطر
این شیوه بسیاری کاربردهای متعددی همچون افزایش عواید، جلوگیری از سرقت، نجات انسانها، تشخیص بیماری، تحلیل بازار، تصمیم گیری بهتر، پیش بینی رفتار مشتری، هشدار درباره معاملات فریب دهنده و غیره سودمند هستند.
برای مثال، طبقه بندی به کشف ویژگیهای مشتریانی که احتمال دارد ترک کنند کمک مینماید، و قادر است مدلی را فراهم آورد که برای پیش بینی آنها مورد استفاده قرار گیرد. همچنین این شیوه به شناسایی آن دسته از تبلیغاتی که در نگه داشتن و حفظ این دسته از مشتریان موثر بوده نیز کمک میکند. تمرکز اصلی این پژوهش در استفاده از یک شیوه یادگیری ماشینی نظارت نشده بنام خوشه بندی برای طبقه بندی کردن داده های مشاهده نشده در محیط طبقه بندی پویا در گروه های مناسب است. در مسئله طبقه بندی پویا، داده ها در الگویی بهنگام فرا میرسد و از دسته بندی کننده انتظار میرود که آنها را فورا طبقه بندی کند. الگوریتم طبقه بندی در این مقاله با استفاده از نوعی مکانیسم یادگیری نظارت نشده ارزیابی میشود، که در آن داده های آموزشی طبقه بندی نشده بر مبنای شباهت دسته بندی میشوند. از زمانیکه که نوعی خوشه بندی قابل قبول با استفاده از شباهتها و تفاوتها در مجموعه داده های آموزشی پیدا شده است، خوشه بندی با به کارگیری یک شیوه طبقه بندی به دسته بندی کننده تبدیل میشود. در رویکرد ما، این خوشه ها طبقه بندی میشوند، و مورد جدید با عنوان خوشه به موردی که بیشترین شباهت را به آن دارد طبقه بندی میشود.
بهرحال، نوع دسته بندی کننده که بایستی برای شناسایی گروه داده ها استفاده شود در یک برنامه کاربردی آنلاین هدف قرار میگیرد که در آنجا محیط ماهیتا بسیار حساس است. برای مثال، در یک سیستم تشخیص نفوذ، شناخت نادرست یک حمله ممکن است بسیار پرهزینه باشد. اکثر رویکردهای طبقه بندی موجود که بسیار دقیق گزارش شده اند براساس مجموعه داده های مبنا مورد آزمون قرار گرفته اند. متاسفانه، توجه اندکی به بررسی نمونه های واقعی تر معطوف شده است، یعنی واقعیت این است که کاربردهای زندگی واقعی با منبع داده های پویا توصیف میشوند. بنابراین امکان ایجاد یک مدل داده کاوی جامع با استفاده از یک مجموعه آموزشی وجود ندارد ولی تمام مدت قادر به کارکردن با دقت بالا است. بعبارت دیگر، مشکل مدل دسته بندی کننده مرسوم این است که این مدل احتمالا با داده های جدید خیلی ضعیف عمل میکند که این امر از الگوهایی که این مدل با آن اموزش یافته است متفاوت است. این بدان علت است که این مدل تغییر نمیکند یا از داده های جدیدی آموزش میگیرند، درحالیکه این داده ها اغلب در طول زمان در کاربردهای مربوط به زندگی واقعی تغییر میکند.(سیارک)