آسان سازی علم تجزیه و تحلیل داده های بزرگ

در


(سیارک) GLADE، یک سیستم توزیع شده مقیاس پذیر برای تجزیه و تحلیل داده های بزرگ را ارائه می کند. GLADE توابع تحلیلی بیان شده از طریق واسط جمعی تعریف شده توسط کاربر (UDA) را گرفته و آنها را بطورکارآمد در داده های ورودی بکار می گیرد.کل محاسبه بصورت یک کلاس خاص بسته بندی می شود که نیاز به تعریف چهار روش دارد. زمان اجرا کد کاربر را گرفته و آن را درست در نزدیکی داده ها با استفاده کامل از موازات در دسترس در داخل یک دستگاه مشخص و همچنین در سراسر یک خوشه از گره های محاسباتی بکار می برد.
تظاهرات دو هدف دارد. اول، ارائه معماری GLADE و چگونگی پردازش آن با استفاده از مجموعه ای از توابع تحلیلی. دوم، مقایسه GLADE با دو کلاس مختلف از سیستمها برای تجزیه و تحلیل داده ها
موضوعات زیادی پیرامون تجزیه و تحلیل مقیاس بزرگ داده بدست آمده از شرکت های اینترنتی در سالهای گذشته وجود دارد. این امر با در دسترس بودن ذخیره سازی ارزان تسهیل می شود که اجازه می دهد تا آنها مقادیر بسیار عظیمی از رفتار کاربران و اطلاعات ورودی به سیستم را ذخیره کنند. به منظور استخراج مقدار خارج از داده ها، تحلیل گران نیاز به انجام انواع روش های مختلف از آماری گرفته تا یادگیری سیستم و فراتر از آن دارند. SQL و سیستم های پایگاه داده رابطه ای ، ابزارهای سنتی برای مدیریت داده ها، به طور مستقیم این روش های تحلیلی پیشرفته را پشتیبانی نمی کنند. بنابراین، روندهای زیادی برای مقابله با این مشکل پدید آمده اند.
رویکرد اتخاذ شده توسط انجمن پایگاه داده،اضافه کردن قابلیت های تحلیلی به پایگاه داده های رابطه ای با استفاده از ویژگی های توسعه پذیری SQL مانند توابع تعریف شده توسط کاربر (UDF) و توابع جمعی تعریف شده توسط کاربر (UDA) است.
یک سری از شرکتها پایگاه داده سرور PostgreSQL آزاد ایجاد کردند و آن را به یک سیستم موازی مقیاس پذیر غیرمشترک با قابلیت های تحلیلی تبدیل کردند . شرکتهای بزرگ وب یک رویکرد متفاوت درپیش گرفتند. آنها یک کلاس جدید از سیستم های مقیاس پذیر به طور خاص طراحی شده برای پردازش داده ها با مقیاس بزرگ را توسعه دادند. نمونه برنامه نویسی پیشنهادشده دارای یک مدل پردازش ساده شده بر اساس کد کاربر است که در داخل سیستم اجرا می شود. زمانی که طرح اجرای هر محاسبه Reduce-Map ثابت است (مرحله Reduce به دنبال فاز Map)، کاربر اجازه دارد کد را در هر یک از این دو فاز وارد کند. اگر چه در مقایسه با SQL، این امرانعطاف پذیری بیشتر در شرایطی که کد اجرا می شود را مقدور می سازد، اما نیاز به الگوهای کد قابل استفاده مجدد و یک زبان برنامه نویسی سطح بالا، منجر به ساخت یک سری از زبان های جدیدSQL مانند مثل Pig لاتین  برای توسعه در بالایMap-Reduce شد. روش سوم شامل تعبیه اپراتورهایSQL مانند در یک زبان برنامه نویسی امری است، در نتیجه اجازه می دهد در بیان کامل از زبان میزبان بهره برداری شود. DryadLINQ  نماینده این روش است. در اصل، یک برنامه DryadLINQ طرح اجرای پرس و جو را به صورت یک نمودار از اپراتورها با جریان مربوط به اطلاعات بر روی لبه ها مشخص می کند.
GLADE وظایف تجزیه شدنی انجمنی را انجام می دهد. این نشان دهنده رابط UDA متشکل از چهار تابع تعریف شده توسط کاربر می باشد. ورودی شامل تاپلهای(چهارتایی ها) استخراج شده از یک انباره رابطه ای ستون گرا است، در حالی که خروجی حالتی از محاسبه است. مدل اجرا یک درخت چند سطحی است که در آن تجمع جزئی در هر سطح اجرا می شود. سیستم مسئول ایجاد و حفظ درخت و انتقال داده ها بین گره ها است. به جز اینها، سیستم تنها کد کاربر را اجرا می کند. ترکیبی از روابط ستون گرا با معماری اجرای مبتنی بر درخت، دستیابی به عملکرد قابل توجه برای انواع وظایف تحلیلی را توسط GLADE مقدور می سازد میلیاردها تاپل یا چهارتایی در چندثانیه تنها با استفاده از دوازده گره کالا پردازش می شوند.
هدف اصلی طرح، ارائه معماری سیستم GLADE و مدل اجرا می باشد. این امر از طریق یک سری از توابع تحلیلی ترکیب مختلف مانند میانگین، گروه های تجمع، top-K، و K-means انجام می شود. به عنوان یک هدف ثانویه،GLADE با دو راه حل دیگر تجزیه و تحلیل مقایسه می شود: PostgreSQL پیشرفته با UDAها و دو راه حل پیاده سازی Reduce Map در Hadoop کد جاوای بومی و Pig لاتین. در اینجا نشان داده می شود که چگونه توابع تحلیلی در هر یک از این سیستم ها کدگذاری می شوند و سپس بیانگری، مقیاس پذیری، و کارایی زمان اجرای آنها مقایسه می شود. مقایسه گسترده، وجود یک تصویر دقیق از راه حل های تجزیه و تحلیل در دسترس و درنتیجه توانایی های آنها را فراهم می کند. این مقایسه همچنین بر نقاط قوت GLADE تاکید می کند: سادگی در تعریف توابع پیچیده تحلیلی؛ قابلیت تغییر برای انطباق پلت فرم اجرا با حداقل تنظیمات، و عملکرد زمان اجرای قابل توجه.این مقاله  ادامه دارد ترجمه  itrans.ir 

نظرات

در ادامه بخوانید...