محتوا کاوی وب
طاهره مصطفویدر۱۴۰۳/۲/۱۸
روش های سنتی جستجو در وب، از طریق محتویات بودند. محتوا کاوی وب، کار طولانی انجام شده توسط موتورهای جستجو می باشد. محتوا کاوی وب، به کشف اطلاعات مفیدی از محتوای وب مانند متن، تصویر فیلم ها و غیره اشاره می کند. دو روش مورد استفاده در محتوا کاوی وب، رویکرد مبتنی بر عامل و رویکرد پایگاه داده ها هستند.
سه نوع از عامل ها، عوامل جستجوی هوشمند ، عامل فیلتر کردن اطلاعات / طبقه بندی ، عوامل وب شخصی هستند. به طور خودکار عوامل جستجوی هوشمند برای کسب اطلاعاتی مطابق با پرس و جوی خاص با استفاده از ویژگی های دامنه و پروفایل کاربر جستجو می کنند. عوامل اطلاعات، تعدادی از تکنیک ها را برای فیلتر کردن داده ها مطابق دستورالعمل های از پیش تعریف شده استفاده می کنند. عوامل وب شخصی، ترجیحات کاربر و کشف اسناد مربوط به آن پروفایل کاربر را می آموزند. در رویکرد پایگاه داده، آن متشکل از پایگاه داده تماماً شکل گرفته، حاوی طرح ها و ویژگی هایی با دامنه های تعریف شده می باشد. محتوا کاوی وب، هنگامی که دارای محتوای بدون ساختار، دارای ساخت، داده های نیمه ساخت یافته و چند رسانه ای باشد پیچیده می شود. شکل 2 تکنیک های محتوای کاوی وب را شرح می دهد.( سیارک)
تکنیک های بدون ساختار داده کاوی
محتوا کاوی را می توان بر روی داده های بدون ساختار مانند متن انجام داد. استخراج داده های بدون ساختار، اطلاعاتی ناشناخته را ارائه می دهد. متن کاوی، از اطلاعات ناشناخته پیشین با استخراج اطلاعات از منابع متنی مختلف استخراج می شود. محتوا کاوی، در استفاده از تکنیک های داده کاوی و متن کاوی مورد نیاز است . محتوا کاوی پایه، یک نوع از متن کاوی می باشد. برخی از تکنیک های مورد استفاده در متن کاوی، استخراج اطلاعات، ردیابی موضوع، خلاصه سازی، طبقه بندی، کلاسترینگ(خوشه بندی) و تجسم اطلاعات هستند.
استخراج اطلاعات
برای استخراج اطلاعات از داده های بدون ساختار، تطبیق الگو استفاده می شود. این کلمات کلیدی و اصطلاحات را دنبال می کند و پس از آن به ارتباط کلمات کلیدی با متن پی می برد. این روش بسیار مفید است زمانی که حجم زیادی از متن وجود دارد. اینترنت اکسپلورر، اساس بسیاری از تکنیک های دیگر استفاده شده برای استخراج بدون ساختار است. استخراج اطلاعات می تواند برای متد KDD ارائه شود چون که استخراج اطلاعات برای تبدیل متن بدون ساختار به داده های ساخت یافته دیگر است. ابتدا اطلاعات از داده ها استخراج شده، استخراج می شوند و پس از آن با استفاده از انواع مختلف قوانین، اطلاعات از دست رفته یافت می شوند. اینترنت اکسپلورر باعث می شود که پیش بینی های نادرست بر روی داده ها، رد شوند.این مقاله ادامه دارد.......
ترجمه itrans.ir