داده کاوی (DM) چیست ؟

به خاطر پیشرفت سریع فناوری اطلاعات، مقدار اطلاعات ذخیره شده در پایگاه های اطلاعاتی به سرعت در حال افزایش اند. این پایگاه های عظیم اطلاعاتی، زمینه ی داده کاوی اطلاعات ارزشمند تجاری را فراهم می کنند. کاربرد های جدیداین طلاعات ارزشمند مثل تجریه و تحلیل مالی دینامیک و مدل سازی فاجعه به حافظه، بازیابی و تجزیه و تحلیل پیچیده ی چند رسانه ای نیاز دارند؛ که معمولا توسط توسط بردار های چند وجهی نمایش داده می شوند. یافتن اطلاعات ارزشمند پنهان در آن پایگاه ها و شناسایی مدل های مناسب کار دشواری است.
داده کاوی (DM)، روندی است که در آن به صورت خودکار و شبه خودکار مقادیر بالای اطلاعات کشف و تحلیل می شوند به این منظور که قوانین و الگوهای معنا داری را بدست آورند. روند معمولی داده کاوی که شامل به دست آوردن داده، یکپارچگی داده، کشف داده ، مدل سازی و تایید مدل می شود. نظر کارشناسی و روش های داده کاوی، هر دو نقش مهمی در مراحل روند کشف اطلاعات دارند.( سیارک)

تجزیه و تحلیل گروهی یکی از روش های پایه است که معمولا در تحلیل مجموعه های عظیم اطلاعاتی از آن استفاده می شود. بیشتر الگوریتم های تجزیه و تحلیل گروهی که منشا آن ها در علم آمار است، در اصل برای مجموعه های کوچک اطلاعات ایجاد شده اند. در سال های گذشته، الگوریتم های گروهی گسترده تر شده اند تا برای کار با مجموعه های بزرگ تر اطلاعاتی مناسب شوند. آنها همچنین قادر به دسته بندی گروهی بردار های چند وجهی هستند
تجزیه و تحلیل درختی تصمیم گیری، روش داده کاوی محبوب دیگری است که می توان از آن در اکثر فعالیت های آماری استفاده کرد.

روند داده کاوی

داده کاوی، تکنیک های فراگیری ماشینی را با شناسایی الگو، آمار، نظریه پایگاه اطلاعت و نمودار ترکیب می کند تا به صورت خودکار مفاهیم و رابطه ی درونی مفاهیم و همچنین الگو های جالب را از پایگاه داده ها استخراج کند. اولین هدف آن استخراج اطلاعات به منظور کمک به روند تصمیم گیری است. داده کاوی دو وظیفه ی اصلی دارد: 1. پیش بینی، که شامل پیدا کردن مقادیر، روابط، الگو های ناشناخته است.2. توصیف، که به تفسیر پایگاه اطلاعاتی بزرگ می پردازد.
به طور کلی روند داده کاوی شامل مراحل زیر است:
مرحله 1: بدست آوردن اطلاعات. مرحله اول انتخاب نوع داده برای استفاده است. اگرچه در برخی از برنامه ها، مجموعه ای از داده های هدف به منظور کشف به وجود آمده اند ، اما داده کاوی می تواند بر روی نمونه هایی از زیر مجموعه های متغیر اطلاعات در پایگاه های بزرگتر کار کند.
مرحله 2: پیش پردازش اطلاعات. زمانی که داده های هدف تعیین شدند، این داده ها پیش پردازش می شوند تا قسمت های اضافی و به درد نخور آنها از بین برود و برای کشف موثر اطلاعات از درون آنها، اصلاح می گردند. در طی این مرحله ی پردازشی، ارتقا دهندگان پارازیت ها و ناهماهنگی ها را حذف می کنند و در صورت نیاز راجع به داده های مفقود شده با استفاده از ترتیب زمانی داده ها و تغییرات مشخص، تصمیم می گیرند. علاوه بر این ها، معمولا داده ها را از نوعی به نوع دیگر تبدیل می کنند تا تعداد متغیر های در نظر گرفته شدن را کاهش دهند( به عنوان مثال،تبدیل مقادیر مطلق به مقادیر عددی) و یا ممکن ویژگی های جدیدی از داده ها بیرون بکشند ( از طریق عملیات های ریاضی و استدلالی).
مرحله 3: کشف اطلاعات و مدل سازی. سومین مرحله ی داده کاوی (DM)، مربوط به مجموعه ای از فعالیت ها برای تصمیم گیری راجع به نوع عملیات داده کاوی، انتخاب روش داده کاوی، انتخاب الگوریتم داده کاوی و در آخر، داده کاوی است. ابتدا باید نوع عملیات داده کاوی انتخاب شود.

عملیات داده کاوی شامل:

رده بندی، رگرسیون، تقسیم بندی، تجزیه و تحلیل پیوسته و شناسایی انحراف است . بر اساس عملیات انتخاب شده برای کاربرد مورد نظر، تکنیک داده کاوی مناسب نیز انتخاب می شود. زمانی که تکنیک داده کاوی انتخاب می شود ، گام بعدی انتخاب الگوریتمی خاص در درون آن تکنیک است. انتخاب الگوریتم داده کاوی، دربردارنده ی روشی برای جست و جوی الگو در اطلاعات است، مثل تصمیم راجع به اینکه کدام مدل و پارامتر ها با توجه به هدف کلی داده کاوی، برای تکنیک خاصی از داده کاوی مناسب است. پس از انتخاب الگوریتم مناسب، اطلاعات بلاخره کاویده می شوند و از الگوریتم برای استخراج الگو های جدید پنهان شده در پایگاه های اطلاعاتی استفاده می گردد.
مرحله 4: تفسیر و ارزیابی. چهارمین مرحله در روند داده کاوی، تفسیر و ارزیابی الگو های کشف شده است. این کار شامل فیلتر کردن اطلاعات برای از بین بردن الگو های اضافی و بی ربط است و همچنین الگو های مفید را به صورت گرافیکی و منطقی به تصویر می کشد و آنها را به مفاهیم قابل استفاده برای کاربران ترجمه می کند. در تفسیر نتایج، با توجه به اطلاعاتی که از پیش داریم، هرگونه تناقض را مشخص و رفع می کنیم یا تمامی مراحل را دوباره انجام می دهیم.همچنین اطلاعات استخراج شده را از نظر مفید بودن در تصمیم گیری و هدف تجاری ارزیابی می کنند. سپس از اطلاعات بدست آمده برای حمایت از تصمیم گیری انسان، مثل پیش بینی و توضیح وقایع مشاهده شده استفاده می شود. نباید روند 4 مرحله ای کشف اطلاعات را خطی پنداشت، چرا که روندی متقابل و مکرر است.

عملیات های داده کاوی

با فرض این که شما مجموعه ای از داده ها را برای داده کاوی آماده کرده اید، شما باید مقیاس مطالعه ی خود را تعریف کنید و موضوع مطالعه را انتخاب نمایید. که به آن انتخاب عملیات داده کاوی می گویند.
عملیات داده کاوی 5 نوع است: رده بندی، رگرسیون، تقسیم بندی، تجزیه و تحلیل پیوسته و شناسایی انحراف. رده بندی و رگرسیون در پیش بینی کاربرد دارند در حالی که از تجزیه و تحلیل پیوسته، تقسیم بندی و شناسایی انحراف به منظور توصیف الگوهای موجود در اطلاعات استفاده می شود. استفاده از داده کاوی معمولا نیازمند ترکیبی از دو یا چند عملیات داده کاوی است.

رده بندی

هدف از رده بندی ایجاد مدلی است که جایگاه اطلاعات را در یکی از چند رده ی از پیش تعیین شده، نشان می دهد. زمانی که مدل ایجاد شود از آن برای رده بندی نمونه ی جدید استفاده می شود. مثال ها شامل رده بندی الگوهای ورشکستگی بر اساس سهام مالی شرکت و الگو های خرید مشتری بر اساس اطلاعات آمارگیری نفوس می باشد که به منظور تبلیغ برای یافتن مشتریان مناسب و فروش موثر انجام می شود.

رگرسیون

این عملیات مدلی می سازد که داده ها را به صورت متغیر های واقعی پیش بینی شده نشان می دهد. مدل ها با استفاده از روش های مرسوم آماری مثل رگرسیون خطی و لوجستیک ایجاد می شوند. از رده بندی و رگرسیون برای پیش بینی استفاده می شود. وجه تمایز این دو مدل این است که متغیر خروجی رده بندی به صورت مطلق است، در حالی که متغیر خروجی رگرسیون، عددی و متوالی است. موارد ذیل از مثال های رگرسیون می باشد: پیش بینی تغییر بین ین ژاپن و بازار وابسته دولت؛ میزان جرم در شهر بر اساس توصیف متغیر های ورودی مختلف مثل جمعیت، میانگین سطح درآمد و سواد.

تجزیه و تحلیل پیوسته

از تجزیه و تحلیل پیوسته در ایجاد ارتباط بین اطلاعات ثبت شده در پایگاه اطلاعاتی استفاده می شود. معمولا کاربرد آن در تجزیه و تحلیل سبد خرید است. که از این تکنیک در تجزیه و تحلیل اطلاعات تراکنش بازار ها استفاده می شود تا وابستگی های محصول شناسایی شود. فروشگاه های خرده فروشی معمولا به فروختن اجناس به همراه اجناس دیگر علاقه دارند( مثل پوشک بچه و شیر خشک)، بنابراین این تکنیک می تواند به منظور بازاریابی موثر، فروش محصول ها باهم را تعیین کند. کاربرد دیگر می تواند روابط بین عمل های پزشکی را با تحلیل کردن فرم های درخواست ارائه شده به شرکت بیمه ،پیدا کند. تجزیه و تحلیل پیوسته معمولا در رابطه با تقسیم بندی پایگاه اطلاعات به کار گرفته می شود.

تقسیم بندی

هدف از تقسیم ،بندی، یافتن گروهی از اطلاعات است که رفتار و ویژگی های نهفته مشابهی دارند. گروه ها ممکن است متقابلا منحصر به فرد و جامع باشند و یا ممکن است مثالی از طبقه بندی های سلسه مراتبی یا اشتراکی باشند. مثال ها شامل کشف گروه مشابهی از مشتریان در پایگاه اطلاعاتی بازاری و تقسیم بندی اطلاعات ثبت شده در طی فروش روز مادر و روز پدر، می باشد. معمولا وقتی که اطلاعات تقسیم بندی شوند، از تجزیه و تحلیل پیوسته در هر قسمت استفاده می شود تا وابستگی بین اطلاعات در هر گروه را شناسایی گردد.( سیارک)

شناسایی انحراف

این عملیات بر کشف انحرافات جالب توجه متمرکز است. 4 نوع انحراف وجود دارد:
*الگوهای همیشگی که با طبقه بندی های از قبل اندازه گیری شده یا عددی هم خوانی ندارند.
*تغییرات چشمگیر در اطلاعات در طی بازه های زمانی مختلف
*اطلاعات دور افتاده در مجموعه ی داده ها( اطلاعات ثبت شده ای که به هیچ یک از گروه ها تعلق ندارند.
*اختلاف بین مشاهده و مرجع.

شناسایی انحراف معمولا پس از تقسیم بندی پایگاه اطلاعاتی انجام می شود تا اختلالات یا خسارات غیر عادی را شناسایی کند. شناسایی انحراف معمولا منبع اصلی اکتشاف است ،چرا که انحراف نشان دهنده ی نامتعارفی نسبت به انتظارات و معیار های شناخته شده است.این مقاله ادامه دارد............ ترجمه itrans.ir