تکنیک های داده کاوی
طاهره مصطفویدر۱۴۰۳/۲/۱۸
(سیارک)تکنیک های داده کاوی برای کاوش، تحلیل و شناسایی داده های پزشکی بوسیله ی الگوریتم ها پیچیده برای کشف الگوهای نامشخص استفاده شده است. محققان از تکنیک های داده کاوی برای شناسایی بسیاری از بیماری ها همچون بیماری های قلبی، سکته، دیابت و سرطان استفاده می کنند. بسیاری از تکنیک های داده کاوی برای شناسایی بیماری های قلبی با دقتی مناسب استفاده شده است. محققان از تکنیک های داده کاوی مختلفی مثل بیزی، شبکه عصبی، درخت تصمیم گیری، چگالی کرنل و ماشین بردار پشتیبانی برای پیش بینی و تشخیص بیماری های قلبی استفاده کرده اند. یکی از این سیستم ها از دسته بندی یادگیری عصبی برای دسته بندی وظیفه های داده کاوی و نشان داد که این سیستم دسته بندی عملکردی مشابه به سیستم دسته بندی نظارتی دارد. سیستم پیش بینی حمله قلب موثر و هوشمند (IEHPS) بر اساس شبکه های عصبی و داده کاوی ساخته شده است و استخراج الگوهای قابل توجه برای پیش بینی بیماری قلبی بوسیله خوشه بندی K-ابزاری را در دستور کار قرار داد.
این سیستم از الگوریتم MAFIA برای کاوش الگوهای فراوان استفاده می کند. پولاتت و همکاران، بوسیله فازی ترکیبی و رویکرد k-نزدیک ترین همسایه، یک سیستم برای پیش بینی بیماری های قلبی طراحی کردند که 87 درصد در شناسایی دقت داشت. در یک سیستم دیگر، شبکه ی عصبی برای شناسایی بیماری های قلبی با دقت 89.01 درصد بکار گرفته شد. لاتا و سابرامایان در سال 2007 یک سیستم پیش بینی بیماری های قلبی بوسیله الگوریتم ژنتیک و CANFIS پیشنهاد کردند که خطای میانگین مربعات آن پایین بود. با تحلیل تکنیک های مطرح شده، این مقاله به معرفی یک سیستم جدید با استفاده از الگوریتم های ژنتیکی و شبکه عصبی برای پیش بینی خطر بیماری های قلب پرداخته است. الگوریتم ژنتیک برای بهینه سازی شبکه عصبی استفاده شده است. در این مقاله، برای اولین یک الگوریتم ترکیبی بر روی عوامل خطر برای بهبود دقت پیش بینی بیماری های قلبی استفاده شده است. در نتیجه، هدف اصلی در اینجا، استفاده از این سیستم در پشتیبانی تصمیم گیری درمانی به عنوان شاخص ریسک است تا افراد بتوانند این ریسک ها را بدون ابتلا به بیماری های قلبی در آینده کاهش دهند.
تحلیل داده ها و کد گذاری
مشکل مربوط به عوامل خطر در بیماری های قلبی این است که عامل های خطر زیادی در این زمینه وجود دارد، مثل سن، استعمال سیگار، کلسترول خون، سلامت جسمانی، فشار خون، استرس و موارد این چنینی، و درک و دسته بندی هر کدام از آنها مطابق اهمیت آنها یک امر دشواری است. همچنین، بیماری های قلبی معمولا زمانی شناسایی می شوند که بیمار به سطوح پیچیده بیماری رسیده است. از این رو، عوامل خطر از چندین منبع تحلیل شدند. مجموعه داده های مدنظر از 12 عامل ریسک مهم تشکیل شده بود: جنسیت، سن، پیشینه ی خانوادگی، فشار خون، عادت دخانیاتی، مصرف الکل، بی تحرکی،دیابت ، کلسترول خون، رژیم غذایی ضعیف، چاقی. این سیستم نشان می داد که آیا بیمار در معرض خطر قلبی قرار دارد یا نه. داده ها برای 50 فرد از طریق نظرسنجی های انجام قلب آمریکا جمع آوری شد. اکثر بیماران قلبی در عوامل خطر اشتراکات زیادی داشتند. جدول 1 عوامل ریسک مهم شناسایی شده و مقدار و کدگذاری آنها را در پرانتز نشان می دهد؛ این مقادیر به عنوان ورودی به سیستم استفاده شدند.
|
عوامل خطر |
مقادیر |
1 |
جنسیت |
مذکر (1)، مونث (0) |
2 |
سن (سال) |
20-34 (2-)، 35-50 (1-)، 51-60 (0)، 61-79 (1)، بیشتر از 79 (2) |
3 |
کلسترول خون |
کمتر از 200 میلیگرم در دسیلیتر – کم (1-) 200-239 میلیگرم در دسیلیتر – معمولی (0) بیشتر از 240 میلیگرم در دسیلیتر – بالا (1) |
4 |
فشار خون |
کمتر از 120 میلیمتر جیوه – کم (1-) 120 تا 139 میلیمتر جیوه – معمولی (0) بیشتر از 139 میلیمتر جیوه – بالا (1-) |
5 |
ارثی |
سابقه در عضو خانواده – بله (1) در غیر اینصورت – نه (0) |
6 |
دخانیات |
بله (1) یا نه (0) |
7 |
مصرف الکل |
بله (1) یا نه (0) |
8 |
فعالیت فیزیکی |
پایین (1-)، طبیعی (0) یا بالا (1-) |
9 |
دیابت |
بله (1) یا نه (0) |
10 |
رژیم |
بد (1-)، طبیعی (0) یا خوب (1-) |
11 |
چاقی |
بله (1) یا نه (0) |
12 |
استرس |
بله (1) یا نه (0) |
خروجی |
بیماری قلبی |
بله (1) یا نه (0) |
تحلیل داده برای تبدیل داده به قالب کارآمد استفاده شده است، چراکه این مقادیر عموما در بازه ی [-1,1] کدگذاری شده است. تحلیل داده همچنین ناهنجاری ها موجود در داده ها را از بین می برد. این کار ضروری است. تحلیل داده برای تصحیح پیش پردازش داده نیاز بود. حذف ورودی های غلط به عمومی سازی بهتر شبکه عصبی کمک می کند.ترجمه itrans.ir