ابزار استخراج محتوای وب


ابزار استخراج محتوای وب به دانلود اطلاعات ضروری کمک می کند. بعضی از آن ها اسکرین اسکراپر، اتومیشن انیور 6.1 ، وب اینفو اکسترکتور، موزندا، و وب کانتنت اکسترکتور و راپید ماینر هستند.در این مقاله به تفضیل به معرفی این ابزار ها می پردازیم.( سیارک)

1.راپید ماینر

راپید ماینر یک نرم افزار منبع باز و یک ابزار برای گرفتن اطلاعات از وب است، دارای الگوریتم درون ساخته است، خودش می تواند الگوریتم بسازد.

ویژگی های راپید ماینر:

• استفاده آسان
• صرفه جویی در زمان
• نرم افزار منبع باز

2.اسکرین اسکراپر

اسکرین اسکراپینگ ابزاری است برای خارج سازی/کاوش اطلاعات از سایت های وب. می تواند برای جست وجوی یک دیتابیس استفاده شود، سرور یا دیتابیس SQL ، که با نرم افزار برای بدست آوردن نیازهای محتوی جست وجو مشارکت می کند. زبان های برنامه نویسی مثل java، NET ، PHP، ویژوال بیسیک و صفحات سرور فعال (ASP) می توانند برای ورود به اسکرین-اسکراپر استفاده شوند.

ویژگی های اسکرین اسکراپر:

اسکرین اسکراپر یک اشتراک گرافیکی را ایجاد میکند که به استفاده کننده این امکان را می دهد که URLها ، اطلاعاتی که قرار است خارج سازی شوند، ثبت صفحات منطقی و صفحات مشکل دار، و کار با دیتا های استخراج شده، را معین کند. وقتی که این موارد از زبان های بیرونی مثل: java، NET، PHP، و صفحات سرور فعال ساخته شوند، اسکرین-اسکراپر می تواند درخواست شود. همچنین این امکان اسکراپ اطلاعات را در بازه های متناوب می دهد. یکی از موارد بسیار پرکاربرد این نرم افزار و خدمات کاوش اطلاعات روی محصولات و دانلود آن ها بر روی یک صفحه کاغذ است. یک مثال مهم در این مورد می تواند یک موتور جست وجوی چندگانه باشد که در یک جست وجو بوسیله ی یک شخص، به طور همزمان در چندین وب سایت در زمان حقیقی، اجرا می شود که پس از آن نتایج بر روی یک صفحه مجزا نشان داده می شوند.

3.اتومیشن انیور

یک ابزار خارج سازی اطلاعات وب است. که برای بازیابی اطلاعات وب به کار می رود، که از صفحات وب اسکرین اسکراپ کرده یا آن را برای کاوش وب به کار می برد.

ویژگی های اتومیشن انیور:

• تکنولوژی منحصربه فرد و هوشمند اتومیشن برای کنترل و هدایت خودکار (اتومیت) دستورالعمل های پیچیده.
• صفحه کلید و موس را تشخیص داده و یا از روشهای خارق العاده اشاره و کلیک برای ایجاد سریع دستورالعمل های خودکار استفاده می کند. تشخیص و ثبت وب و خارج سازی اطلاعات وب.

 4. وب اینفو اکسترکتور

این یک ابزار برای کاوش اطلاعات، استخراج و آنالیز محتوای وب، است. می تواند از صفحات وب اطلاعات دارای ساختار و بدون ساختار را استخراج کند، آن ها را در فایلی بازیابی یا در دیتابیس ذخیره کند، یا در سرور وب قرار دهد.

ویژگی های وب اینفو اکسترکتور:

• نیازی به یادگیری الگوی قوانین پیچیده و خسته کننده نیست و تعریف کردن ابزار استخراج ساده است.
• داده های دسته بندی شده و همچنین بدون ساختار را استخراج کرده و در فایل یا دیتابیس ذخیره می کند.
• صفحات وب را مانیتور می کند و محتوای جدید را به محض بروز رسانی استخراج می کند.
• می تواند با متن، تصویر و دیگر فایل های ارتباطی، کار کند.
• می تواند با صفحات وب در همه ی زبان ها کار کند.
• اجرای چندین دستورالعمل به طور همزمان
• حمایت کننده از تعریف دستورالعمل های بازگشتی

5. موزندا

این ابزار استفاده کننده را برای استخراج و مدیریت داده های وب قادر می سازد. استفاده کننده ها می توانند عواملی را نصب کنند که به صورت روتین داده ها را در چندین مقصد استخراج، ذخیره و منتشر کنند. وقتی که اطلاعات در سیستم موزندا باشد، استفاده کننده ها می توانند داده ها را فرمت یا بازنگری کنند تا در موارد دیگری به کار گرفته شوند، با به عنوان آگاهی. موزندا اسکراپر دارای دو قسمت است:
وب کانسول موزندا: یک برنامه کاربردی(application) وب است که به استفده کننده اجازه ی اجرای عوامل (agent) را می دهد، نتایج را ببیند و سازمان دهی کند، و دیتا های استخراج شده را منتشر کند.
ایجنت بلدر: یک برنامه کاربردی ویندوز است که برای ساختن پروژه های استخراج داده به کار می رود.( سیارک)

ویژگی های موزندا:

• استفاده آسان
• به صورت مستقل نصب می شود. هرچند، موزندا ایجنت بلدر فقط بر روی ویندوزها اجرا می شود.
• مکان کار مستقل است.

6.وب کانتنت اکسترکتور

این یک ابزار استخراج دیتای قوی است و استفاده از آن آسان است برای اسکراپینگ وب، کاوش دیتا، یا استخراج دیتا از اینترنت. این یک میانجی دوستانه است که به صورت جادوئی عمل می کند و در فرآیند ساختن یک الگوی استخراج داده و ساختن قوانین تازه به شیوه ی ساده اشاره و کلیک کمک خواهد کرد. این ابزار به استفاده کننده ها اجازه استخراج داده از وب سایت های متفاوتی را می دهد. مثل: ذخیره های آنلاین، اکشن های آنلاین، سایت های خرید، سایت های دارایی حقیقی، سایت های مالی، فهرست داد و ستدی، و غیره. داده های استخراج شده می تواند به فرمت های متفاوتی منتقل شود، شامل مایکروسافت اکسل(CSV)، اکسس، TXT، HTML، XML، SQL script ، MY SQL script، و به هر منبع داده ی OBDC.

 ویژگی های وب کانتنت اکسترکتور:

• به استخراج یا جمع آوری حساب بازار، داده های قیمت محصولات، یا داده های املاک حقیقی کمک می کند.
• به استفاده کنندگان جهت استخراج اطلاعات در مورد کتاب ها از فروشندگان آنلاین کمک می کند که این اطلاعات شامل: عنوان ها، مولفان، توضیحات،ISBNها، تصاویر و قیمت ها میباشد.
• به استفاده کنندگان در خودکارسازی استخراج اطلاعات گسترده از سایت های گسترده کمک می کند.
• به ژورنالیست ها در استخراج اخبار و مقالات از سایت های خبری کمک می کند.
• به مردمی که در طلب یافتن شغل هستند کمک می کند تا از وب سایت های آنلاین شغل پست های مربوط به شغل خاصی را استخراج کنند. یک شغل جدید را سریع تر و با حداقل دردسر پیدا کنند.
• استخراج اطلاعات آنلاین در مورد تعطیلات و مکان های گردشگری شامل:اسم آن ها، آدرس آن ها، توضیحات، تصاویر و قیمت ها، از وب سایت ها.ترجمه  itrans.ir 

نظرات

برای ارسال نظر باید وارد حساب کاربری شوید. ورود یا ثبت نام