محتوا کاوی وب

در


روش های سنتی جستجو در وب، از طریق محتویات بودند. محتوا کاوی وب، کار طولانی انجام شده توسط موتورهای جستجو می باشد. محتوا کاوی وب، به کشف اطلاعات مفیدی از محتوای وب مانند متن، تصویر فیلم ها و غیره اشاره می کند. دو روش مورد استفاده در محتوا کاوی وب، رویکرد مبتنی بر عامل و رویکرد پایگاه داده ها هستند.
سه نوع از عامل ها، عوامل جستجوی هوشمند ، عامل فیلتر کردن اطلاعات / طبقه بندی ، عوامل وب شخصی هستند. به طور خودکار عوامل جستجوی هوشمند برای کسب اطلاعاتی مطابق با پرس و جوی خاص با استفاده از ویژگی های دامنه و پروفایل کاربر جستجو می کنند. عوامل اطلاعات، تعدادی از تکنیک ها را برای فیلتر کردن داده ها مطابق دستورالعمل های از پیش تعریف شده استفاده می کنند. عوامل وب شخصی، ترجیحات کاربر و کشف اسناد مربوط به آن پروفایل کاربر را می آموزند. در رویکرد پایگاه داده، آن متشکل از پایگاه داده تماماً شکل گرفته، حاوی طرح ها و ویژگی هایی با دامنه های تعریف شده می باشد. محتوا کاوی وب، هنگامی که دارای محتوای بدون ساختار، دارای ساخت، داده های نیمه ساخت یافته و چند رسانه ای باشد پیچیده می شود. شکل 2 تکنیک های محتوای کاوی وب را شرح می دهد.( سیارک)

 تکنیک های بدون ساختار داده کاوی

محتوا کاوی را می توان بر روی داده های بدون ساختار مانند متن انجام داد. استخراج داده های بدون ساختار، اطلاعاتی ناشناخته را ارائه می دهد. متن کاوی، از اطلاعات ناشناخته پیشین با استخراج اطلاعات از منابع متنی مختلف استخراج می شود. محتوا کاوی، در استفاده از تکنیک های داده کاوی و متن کاوی مورد نیاز است . محتوا کاوی پایه، یک نوع از متن کاوی می باشد. برخی از تکنیک های مورد استفاده در متن کاوی، استخراج اطلاعات، ردیابی موضوع، خلاصه سازی، طبقه بندی، کلاسترینگ(خوشه بندی) و تجسم اطلاعات هستند.

استخراج اطلاعات

برای استخراج اطلاعات از داده های بدون ساختار، تطبیق الگو استفاده می شود. این کلمات کلیدی و اصطلاحات را دنبال می کند و پس از آن به ارتباط کلمات کلیدی با متن پی می برد. این روش بسیار مفید است زمانی که حجم زیادی از متن وجود دارد. اینترنت اکسپلورر، اساس بسیاری از تکنیک های دیگر استفاده شده برای استخراج بدون ساختار است. استخراج اطلاعات می تواند برای متد KDD ارائه شود چون که استخراج اطلاعات برای تبدیل متن بدون ساختار به داده های ساخت یافته دیگر است. ابتدا اطلاعات از داده ها استخراج شده، استخراج می شوند و پس از آن با استفاده از انواع مختلف قوانین، اطلاعات از دست رفته یافت می شوند. اینترنت اکسپلورر باعث می شود که پیش بینی های نادرست بر روی داده ها، رد شوند.این مقاله ادامه دارد.......

داده کاوی (DM) چیست ؟

ترجمه  itrans.ir

نظرات

در ادامه بخوانید...

دسته بندی داده ها

در


(سیارک) روشها و تکنیکهای داده کاوی به طور موفقیت آمیز و نتیجه بخش برای حوزه های کاربردی مختلفی همچون اطلاع رسانی بیولوژیک، بازاریابی موجودی انبار، تحلیل وب و غیره مورد استفاده قرار گرفته اند. به بعبارت ساده، با توجه به مجموعه داده ها، روشهای داده کاوی برای استخراج روابط و قواعد نا آشنا در خارج از گروه های بزرگ جزئیات در مجموعه های بزرگ داده ها طراحی میشوند؛ این روشها اغلب مربوط به مرحله ای خاص بنام کشف آگاهی از پایگاه داده است. خوشه بندی و دسته بندی دو تکنیک بسیار رایج داده کاوی هستند. خوشه بندی یکی از اصلی ترین روشها برای شناسایی ردیفهای نا آشنای بین گروهی موضوعات هستند و به طور موفقی بعنوان یک ابزار در بسیاری از حوزه ها همچون زیست شناسی، تحلیل تصویر، مالی و غیره مورد استفاده قرار گرفته اند. از سوی دیگر، دسته بندی نوعی طبقه بندی نظارت شده آیتمها در گروه های مختلف است.

داده کاوی (DM) چیست ؟

تکنیک های داده کاوی

شبکه ی عصبی ژنتیکی بر اساس داده کاوی در پیش بینی بیماری های قلبی بوسیله ی عوامل خطر 

این شیوه بسیاری کاربردهای متعددی همچون افزایش عواید، جلوگیری از سرقت، نجات انسانها، تشخیص بیماری، تحلیل بازار، تصمیم گیری بهتر، پیش بینی رفتار مشتری، هشدار درباره معاملات فریب دهنده و غیره سودمند هستند.

برای مثال، طبقه بندی به کشف ویژگیهای مشتریانی که احتمال دارد ترک کنند کمک مینماید، و قادر است مدلی را فراهم آورد که برای پیش بینی آنها مورد استفاده قرار گیرد. همچنین این شیوه به شناسایی آن دسته از تبلیغاتی که در نگه داشتن و حفظ این دسته از مشتریان موثر بوده نیز کمک میکند. تمرکز اصلی این پژوهش در استفاده از یک شیوه یادگیری ماشینی نظارت نشده بنام خوشه بندی برای طبقه بندی کردن داده های مشاهده نشده در محیط طبقه بندی پویا در گروه های مناسب است. در مسئله طبقه بندی پویا، داده ها در الگویی بهنگام فرا میرسد و از دسته بندی کننده انتظار میرود که آنها را فورا طبقه بندی کند. الگوریتم طبقه بندی در این مقاله با استفاده از نوعی مکانیسم یادگیری نظارت نشده ارزیابی میشود، که در آن داده های آموزشی طبقه بندی نشده بر مبنای شباهت دسته بندی میشوند. از زمانیکه که نوعی خوشه بندی قابل قبول با استفاده از شباهتها و تفاوتها در مجموعه داده های آموزشی پیدا شده است، خوشه بندی با به کارگیری یک شیوه طبقه بندی به دسته بندی کننده تبدیل میشود. در رویکرد ما، این خوشه ها طبقه بندی میشوند، و مورد جدید با عنوان خوشه به موردی که بیشترین شباهت را به آن دارد طبقه بندی میشود.
بهرحال، نوع دسته بندی کننده که بایستی برای شناسایی گروه داده ها استفاده شود در یک برنامه کاربردی آنلاین هدف قرار میگیرد که در آنجا محیط ماهیتا بسیار حساس است. برای مثال، در یک سیستم تشخیص نفوذ، شناخت نادرست یک حمله ممکن است بسیار پرهزینه باشد. اکثر رویکردهای طبقه بندی موجود که بسیار دقیق گزارش شده اند براساس مجموعه داده های مبنا مورد آزمون قرار گرفته اند. متاسفانه، توجه اندکی به بررسی نمونه های واقعی تر معطوف شده است، یعنی واقعیت این است که کاربردهای زندگی واقعی با منبع داده های پویا توصیف میشوند. بنابراین امکان ایجاد یک مدل داده کاوی جامع با استفاده از یک مجموعه آموزشی وجود ندارد ولی تمام مدت قادر به کارکردن با دقت بالا است. بعبارت دیگر، مشکل مدل دسته بندی کننده مرسوم این است که این مدل احتمالا با داده های جدید خیلی ضعیف عمل میکند که این امر از الگوهایی که این مدل با آن اموزش یافته است متفاوت است. این بدان علت است که این مدل تغییر نمیکند یا از داده های جدیدی آموزش میگیرند، درحالیکه این داده ها اغلب در طول زمان در کاربردهای مربوط به زندگی واقعی تغییر میکند.(سیارک)

نظرات

در ادامه بخوانید...