تعریف داده‌های بزرگ

در


" گارتز "داده‌های بزرگ را برحسب 3 وی(V) ، حجم، تنوع و سرعت (البته 3 وی در انگلیسی) تعریف می‌کند. این سه وی (V) به‌طور مختصر دربندهای زیر تعریف‌شده‌اند. برخی چهارمین وی را برای صحت و کیفیت داده‌ها اضافه می‌کنند. کیفیت داده‌ها در عمل یک مشکل بزرگ است. کیفیت داده‌های واردشده توسط انسان معمولاً کم و حتی به‌طور خودکار داده‌های جمع‌آوری‌شده از تلفن همراه و حس‌گرها می‌تواند بد باشد. حس‌گرها می‌توانند خراب شوند، حس‌گرها ممکن است نیاز به کالیبره کردن داشته باشند و داده‌ها ممکن است در حین انتقال از دست روند. بعلاوه به خاطر فراداده‌های اشیا در مورد حس‌گر ممکن است داده‌ها به‌اشتباه تفسیر شوند.

مهم است که داده‌ها به‌طور مداوم جهت صحت بررسی شوند. حجم، تنوع و سرعت می‌تواند به‌عنوان سه بعد مختلف داده‌ها دیده شود. حجم جز واضح‌ترین عضو سه وی (V) به مقدار داده اشاره می‌کند. درگذشته، افزایش حجم داده‌ها اصولاً به دلیل افزایش حجم تراکنش‌ها و دانه‌ دانه بودن جزئیات تراکنش بود. این افزایش‌ها در مقایسه با حجم‌های داده‌های بزرگ کوچک هستند. حجم داده‌های بزرگ با تراکنش‌های کاربر شروع به رشد نمود. وبلاگ‌ها نقطه شروع داده‌های بزرگ بودند. با پذیرش اینترنت، اندازه و حجم وبلاگ‌ها بزرگ‌تر شد. این ثبت وقایع ماشین مجموعه‌ای از تحلیل‌ها را برای درک رفتار کاربر تولید نمود. در مقایسه با رسانه‌های اجتماعی، وبلاگ‌ها کوچک به نظر می‌رسند. امکاناتی مانند فیس‌بوک، توییتر و دیگران، همراه با افزایش توانایی و انواع دستگاه‌های اینترنت باعث یک جهش بزرگ در داده‌ها شد. میل ثابت انسان به اتصال و اشتراک‌گذاری حتی یک جهش بزرگ در تولید داده‌ها را منجر گردید. رسانه‌های اجتماعی اجازه می‌دهد تا کاربران ویدئو، صدا، متن و پست‌های الکترونیکی خود را با حجم بزرگ مخاطبان اجتماعی به اشتراک بگذارند.

کمال متناظر در فناوری تلفن همراه باعث به اشتراک‌گذاری آسان و افزایش حتی بیشتر حجم می‌گردد. این دومین موج داده‌های بزرگ است. جهش بزرگ در حجم از مشاهدات خودکار است. انواع حسگرهای بیومتریک (قلب، حرکت، درجه حرارت، نبض و غیره) و حسگرهای حرکتی (جی‌پی‌اس، تلفن همراه و غیره) و توانایی جابجایی آن‌ها به‌وسیله تلفن همراه، اینترنت، وای فای و غیره افزایش بعدی در حجم داده‌ها است. فناوری‌های پوشیدنی و اینترنت اشیا (IOT) مورد بعدی است که در انتظار رخ دادن است. از این‌ها به‌عنوان داده‌های مشاهده یاد می‌شود. داده‌های حسگر و مشاهدات حجم را به‌اندازه‌ای که تابه‌حال دیده‌ایم کوتاه جلوه خواهند داد.  (سیارک)

انواع داده‌ها مانند منبع و فرمت داده‌ها متنوع است. برخلاف داده‌های تراکنش که به‌شدت به‌صورت ارتباطی ساختاریافته‌اند، شکل‌های دیگر داده‌ها نسبتاً به‌طور ضعیف ساختاریافته‌اند از قبیل XML و JSON یا به‌طور متفاوت ساختاریافته مانند، صدا، ویدئو یا بدون ساختار مانند متن و اسناد اسکن شده. منابع مختلف داده از قبیل وبلاگ، ثبت ماشین، رسانه‌های اجتماعی، توییتر (ارسال پیام در توییتر)، نامه‌های الکترونیکی، ثبت‌های مرکز تماس و داده‌های حسگر همگی داده‌هایی را در فرمت‌های مختلف تولید می‌کنند. این تنوع داده‌ها، تجزیه‌وتحلیل را بیشتر به چالش می‌کشند. ترکیب انواع با حجم چالش را افزایش می‌دهد. تندی، سرعتی است که داده به جریان می‌یابد و بنابراین باید در نظر گرفته شود. داده به‌وسیله ماشین و انسان به وجود می‌آید. تندی با تعداد منابع افزایش می‌یابد و تندی با سرعتی که داده‌ها تولید می‌شوند از قبیل تلفن همراه و حسگرها افزایش می‌یابد. ما سه وی (V) را ترکیب نموده و آن را پیچیدگی داده می‌نامیم. پیچیدگی اشاره به توانایی تجزیه‌وتحلیل، به دست آوردن بینش و مقدار از داده‌های بزرگ است. به دست آوردن بینش از داده‌های بزرگ به لحاظ مرتبه بزرگی خیلی پیچیده‌تر از به دست آوردن بینش از داده‌های تراکنش است. به دست آوردن بینش از داده‌های حسگر، خیلی پیچیده‌تر از به دست آوردن بینش از داده‌های تولیدشده توسط کاربر است. 

پیچیدگی در حال حرکت به جلو است. وقتی‌که جهت به سمت راست و بالا حرکت می‌کند، پیچیدگی بیشتر می‌شود، وقتی‌که جهت به سمت چپ و پایین حرکت می‌کند پیچیدگی کمتر می‌شود. یکی از هدف‌های ذخیره‌سازی و تجزیه‌وتحلیل داده‌های بزرگ درک و استخراج مقدار است، در غیر این صورت هیچ نکته‌ای در ذخیره‌سازی حجم عظیمی از داده‌ها وجود ندارد. پیچیدگی به دست آوردن بینش به‌طور مستقیم در ارتباط با پیچیدگی داده‌ها است. تحلیل داده‌های پیچیده خیلی سخت‌تر است. در نوع روش‌های تحلیلی که نیاز است پیچیده بوده و در تعداد روش‌هایی که باید برای تحلیل ترکیب شوند نیز پیچیده است. این مقاله ادامه دارد.............ترجمه  itrans.ir 

نظرات

در ادامه بخوانید...