تعریف دادههای بزرگ
طاهره مصطفویدر۱۴۰۳/۲/۱۸
" گارتز "دادههای بزرگ را برحسب 3 وی(V) ، حجم، تنوع و سرعت (البته 3 وی در انگلیسی) تعریف میکند. این سه وی (V) بهطور مختصر دربندهای زیر تعریفشدهاند. برخی چهارمین وی را برای صحت و کیفیت دادهها اضافه میکنند. کیفیت دادهها در عمل یک مشکل بزرگ است. کیفیت دادههای واردشده توسط انسان معمولاً کم و حتی بهطور خودکار دادههای جمعآوریشده از تلفن همراه و حسگرها میتواند بد باشد. حسگرها میتوانند خراب شوند، حسگرها ممکن است نیاز به کالیبره کردن داشته باشند و دادهها ممکن است در حین انتقال از دست روند. بعلاوه به خاطر فرادادههای اشیا در مورد حسگر ممکن است دادهها بهاشتباه تفسیر شوند.
مهم است که دادهها بهطور مداوم جهت صحت بررسی شوند. حجم، تنوع و سرعت میتواند بهعنوان سه بعد مختلف دادهها دیده شود. حجم جز واضحترین عضو سه وی (V) به مقدار داده اشاره میکند. درگذشته، افزایش حجم دادهها اصولاً به دلیل افزایش حجم تراکنشها و دانه دانه بودن جزئیات تراکنش بود. این افزایشها در مقایسه با حجمهای دادههای بزرگ کوچک هستند. حجم دادههای بزرگ با تراکنشهای کاربر شروع به رشد نمود. وبلاگها نقطه شروع دادههای بزرگ بودند. با پذیرش اینترنت، اندازه و حجم وبلاگها بزرگتر شد. این ثبت وقایع ماشین مجموعهای از تحلیلها را برای درک رفتار کاربر تولید نمود. در مقایسه با رسانههای اجتماعی، وبلاگها کوچک به نظر میرسند. امکاناتی مانند فیسبوک، توییتر و دیگران، همراه با افزایش توانایی و انواع دستگاههای اینترنت باعث یک جهش بزرگ در دادهها شد. میل ثابت انسان به اتصال و اشتراکگذاری حتی یک جهش بزرگ در تولید دادهها را منجر گردید. رسانههای اجتماعی اجازه میدهد تا کاربران ویدئو، صدا، متن و پستهای الکترونیکی خود را با حجم بزرگ مخاطبان اجتماعی به اشتراک بگذارند.
کمال متناظر در فناوری تلفن همراه باعث به اشتراکگذاری آسان و افزایش حتی بیشتر حجم میگردد. این دومین موج دادههای بزرگ است. جهش بزرگ در حجم از مشاهدات خودکار است. انواع حسگرهای بیومتریک (قلب، حرکت، درجه حرارت، نبض و غیره) و حسگرهای حرکتی (جیپیاس، تلفن همراه و غیره) و توانایی جابجایی آنها بهوسیله تلفن همراه، اینترنت، وای فای و غیره افزایش بعدی در حجم دادهها است. فناوریهای پوشیدنی و اینترنت اشیا (IOT) مورد بعدی است که در انتظار رخ دادن است. از اینها بهعنوان دادههای مشاهده یاد میشود. دادههای حسگر و مشاهدات حجم را بهاندازهای که تابهحال دیدهایم کوتاه جلوه خواهند داد. (سیارک)
انواع دادهها مانند منبع و فرمت دادهها متنوع است. برخلاف دادههای تراکنش که بهشدت بهصورت ارتباطی ساختاریافتهاند، شکلهای دیگر دادهها نسبتاً بهطور ضعیف ساختاریافتهاند از قبیل XML و JSON یا بهطور متفاوت ساختاریافته مانند، صدا، ویدئو یا بدون ساختار مانند متن و اسناد اسکن شده. منابع مختلف داده از قبیل وبلاگ، ثبت ماشین، رسانههای اجتماعی، توییتر (ارسال پیام در توییتر)، نامههای الکترونیکی، ثبتهای مرکز تماس و دادههای حسگر همگی دادههایی را در فرمتهای مختلف تولید میکنند. این تنوع دادهها، تجزیهوتحلیل را بیشتر به چالش میکشند. ترکیب انواع با حجم چالش را افزایش میدهد. تندی، سرعتی است که داده به جریان مییابد و بنابراین باید در نظر گرفته شود. داده بهوسیله ماشین و انسان به وجود میآید. تندی با تعداد منابع افزایش مییابد و تندی با سرعتی که دادهها تولید میشوند از قبیل تلفن همراه و حسگرها افزایش مییابد. ما سه وی (V) را ترکیب نموده و آن را پیچیدگی داده مینامیم. پیچیدگی اشاره به توانایی تجزیهوتحلیل، به دست آوردن بینش و مقدار از دادههای بزرگ است. به دست آوردن بینش از دادههای بزرگ به لحاظ مرتبه بزرگی خیلی پیچیدهتر از به دست آوردن بینش از دادههای تراکنش است. به دست آوردن بینش از دادههای حسگر، خیلی پیچیدهتر از به دست آوردن بینش از دادههای تولیدشده توسط کاربر است.
پیچیدگی در حال حرکت به جلو است. وقتیکه جهت به سمت راست و بالا حرکت میکند، پیچیدگی بیشتر میشود، وقتیکه جهت به سمت چپ و پایین حرکت میکند پیچیدگی کمتر میشود. یکی از هدفهای ذخیرهسازی و تجزیهوتحلیل دادههای بزرگ درک و استخراج مقدار است، در غیر این صورت هیچ نکتهای در ذخیرهسازی حجم عظیمی از دادهها وجود ندارد. پیچیدگی به دست آوردن بینش بهطور مستقیم در ارتباط با پیچیدگی دادهها است. تحلیل دادههای پیچیده خیلی سختتر است. در نوع روشهای تحلیلی که نیاز است پیچیده بوده و در تعداد روشهایی که باید برای تحلیل ترکیب شوند نیز پیچیده است. این مقاله ادامه دارد.............ترجمه itrans.ir