یکشنبه, ۱۶ اردیبهشت, ۱۴۰۳ / 5 May, 2024
مجله ویستا

داده کاوی؛ نگاهی کوتاه به اصول ها و کاربردها


داده کاوی؛ نگاهی کوتاه به اصول ها و کاربردها
● ضرورت
از سال ۱۹۵۰ رایانه­ها در تحلیل و ذخیره­سازی داده­ها به کار گرفته شدند. پس از حدود ۲۰ سال حجم داده­ها دو برابر شد و پس از آن تقریبا هر دو سال یک­بار همزمان با پیشرفت فناوری اطلاعات، حجم داده­ها هم به دو برابر افزایش یافت. این پیشرفت آن قدر زیاد بود که تعداد رکورد­های برخی از پایگاه داده­ها به چند صد میلیارد رسید. پدیده شبکه جهانی وب، استفاده گسترد ه از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب و کار، خدمات الکترونیکی دولتی و پیشرفت در وسایل جمع­آوری داد ه ، انفجاری را در مجموعه­های اطلاعاتی سازمان­ها و موسسات ایجاد کرد ه است. حجم زیاد اطلاعات، مدیران این مجموعه ها را در تحلیل و یافتن اطلاعات مفید دچار چالش کرد ه است. داده­کاوی، ابزار مناسب را برای تجزیه و تحلیل اطلاعات و کشف و استخراج روابط پنهان در مجموعه­های داده­ای سنگین فراهم می­کند.
● تعریف و اهداف
داده­کاوی، فرآیند کشف الگوهای پنهان، جالب توجه، غیر منتظره و با ارزش از داخل مجموعه وسیعی از داده­هاست و فعالیتی در ارتباط با تحلیل دقیق داده­های سنگین بی­ساختار است که علم آمار ناتوان از تحلیل آنهاست. بعضی مواقع دانش کشف شده توسط داده­کاوی عجیب به نظر می­رسد؛ مثلا ارتباط افراد دارای کارت اعتباری و جنسیت با داشتن دفترچه تامین اجتماعی یا سن، جنسیت و درآمد اشخاص با پیش­بینی خوش­حسابی او در بازپرداخت اقساط وام. داده­کاوی از علو می مانند یادگیری ماشین، هوش مصنوعی، آمار، پایگاه داده و شناسایی الگو به طور همزمان بهره گرفته و در حوزه­های تصمیم­گیری، پیش­بینی، و تخمین مورد استفاده قرار می­گیرد.
● کشف دانش
واژه کشف دانش در پایگاه داده­ها (Knowledge Discovery in Database (KDD)I) در اوایل دهه ۸۰ در مراجعه به مفهوم کلی، گسترده، سطح بالا و به دنبال جستجوی دانش در اطلاعات شکل گرفته است. این لغت به بیان دیگر به همه شیوه هایی اشاره دارد که هدف آنها پی بردن به ارتباط و نظم بین اطلاعات قابل مشاهد ه است. لغت KDD برای توصیف همه مراحل استخراج اطلاعات از پایگاه داده و نیز بیان اهداف کارهای اولیه کاربرد قوانین تصمیم گیری است. این واژه به طور رسمی اولین بار توسط Usama Fayaad در اولین کنفرانس بین المللی داده کاوی و کشف دانش که در سال ۱۹۹۵ در مونترال برگزار شده بود، معرفی شد که به بیان ارتباط تکنیکهای آنالیز در چندین مرحله با هدف استخراج دانش های ناشناخته قبلی از داده های در دسترس می پرداخت. داده هایی که ارتباط منظم و پراهمیت آنها قبلاً به نظر نمی رسید. کم کم واژه داده کاوی جای خود را پیدا کرد و مترادفی برای همه مراحل استخراج دانش شد. هر چند که داده کاوی مرحله ای از KDD است، اما در کل KDD فرآیند یافتن اطلاعات و الگوهای مفید از داده را گویند و داده کاوی بهره گیری از الگوریتم هایی برای یافتن اطلاعات مفید در فرآیند KDD است.
فرآیند KDD عبارت است از:
۱) پاک­سازی و یکپارچه­سازی داده (پیش­پردازش داده)
۲) ایجاد یک انبار داده۱ مشترک برای تمام منابع
۳) داده­کاوی
۴) بصری­سازی۲ نتایج تولید شده
که مرحله پیش پردازش غالباً یکی از مراحل زمان بر و در عین حال بسیار مهم در کسب نتیجه مطلوب است.
در تعاریف قبلی جنبه بسیار مهمی که همان هدف نهایی داده­کاوی است حذف شد ه است. هدف نهایی داده­کاوی به دست آوردن نتایجی است که می تواند منافع کاری داشته باشد.
داده­کاوی کاربرد سطح بالای فنون و ابزار به کار برده شده برای معرفی و تحلیل داده­های تصمیم­گیرندگان است. اصطلاح داده­کاوی را متخصصین آمار، تحلیلگران داده ها و انجمن سیستم های اطلاعات مدیریت به کار برده­اند در حالی که پژوهشگران یادگیری ماشین و هوش مصنوعی بیشتر از KDD استفاده می­کنند. از نقطه نظر محققان، داده­کاوی یک نظم نسبتاً جدید است که به طور عمد ه از میان مطالعاتی که به منظور نظم بخشیدن به برخی از فعالیتها همچون تخمین زدن، بازاریابی و سرشماری و آمار انجام گرفته، توسعه یافته است. اید ه ای که مبنای داده کاوی است یک فرآیند با اهمیت از شناخت الگوهای بالقوه مفید، تازه و درنهایت قابل درک در داده هاست. کشف دانش در پایگاه داده ها برای کشف اطلاعات مفید از مجموعه بزرگ داده هاست. دانش کشف شده می تواند قاعد ه ای باشد که با کمک آن ویژگی های داده ها، الگوهایی که به طور متناسب رخ می دهند، خوشه بندی موضوع های درون پایگاه داده ها و غیره را توصیف کند.
یک کاربر سیستم KDD به منظور انتخاب زیر مجموعه صحیحی از داده ها باید درک بالایی از قلمرو داده ها، رده مناسبی از الگوها و معیار خوبی برای الگوهای جالب داشته باشد. بنابراین سیستم KDD باید ابزارهایی با اثر تعاملی داشته باشد نه سیستم های تجزیه و تحلیل خودکار.
● پیشینه
پژوهش جدی روی موضوع داده­کاوی از اوایل دهه ۹۰ شروع شد. پژوهش­ها و مطالعه های زیادی در این زمینه صورت گرفته؛ همچنین سمینارها، دوره های آموزشی و کنفرانس هایی نیز برگزار شد ه است. نتایج پایه های نظری داده کاوی در تعدادی از مقاله های پژوهشی آورده شد ه است. سال ۱۹۹۵ با استفاد ه از داده کاوی، انباره­های داده بانک­های آمریکا را بررسی کرده و بیان کردند که چگونه این سیستم­ها برای بانک­های آمریکا قدرت رقابت بیشتری ایجاد می­کنند. در این سال انجمن داده­کاوی همزمان با اولین کنفرانس بین المللی «کشف دانش و داده کاوی» شروع به کار و یک سازمان علمی به نام ACM- SIGKDD را تاسیس کرد. سال ۱۹۹۶ دیدگاهی از داده کاوی به عنوان «پرس و جو کنند ه از پایگاه های استنتاجی» پیشنهاد شد و فیاض و شاپیرو پیشرفت­های کشف دانش و داده کاوی را اعلام کردند. همان سال دیدگا ه اقتصاد سنجی روی داده کاوی و عملکرد داده کاوی به عنوان یک مسأله بهینه ارائه و کنفرانس­های ناحیه­ای و بین المللی در مورد داده کاوی برگزار شد که از جمله می توان به کنفرانس آسیا و اقیانوسیه درباره کشف دانش و داده کاوی اشاره کرد. سال ۲۰۰۰ بحث های مقایسه ای بین آمار و داده­کاوی و نیز استفاد ه از وب در کاوش داده­ها و کاربردهای آن ارائه شد. سال ۲۰۰۲ «داده کاوی ساختارهای پیوند برای مدل رفتار مصرف کننده» عرضه شد.
● وظایف داده­کاوی
اهداف سطح بالای داده­کاوی، پیش­بینی (Prediction)، توصیف (Description) یا ترکیبی از پیش­بینی و توصیف است. هدف پیش­بینی، تمرکز بر روی دقت در توانایی پیش بینی است. هدف توصیف، تمرکز بر روی درک فرآیند تولید داده­ها است. در پیش­بینی، تا زمانی که مدل قدرت پیش بینی دارد، کاربر توجهی به این که مدل انعکاس دهنده واقعیت است ندارد. مثلاً مدلی که شاخص­های مالی را به شکل غیرخطی ترکیب می­کند تا نرخ تبادل ارز را پیش بینی کند.
از سویی دیگر، مدل توصیفی، به عنوان انعکاس واقعیت تفسیر می­شود. مثلاً مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفت­های آموزشی مرتبط می­کند، به عنوان مبنایی برای توصیه­های سیاست اجتماعی استفاده می­شود. در عمل، اغلب کاربردهای اکتشاف دانش به درجه­ای از هردو مدل­سازی توصیفی و پیش­بینی نیاز دارند.
می­توان اکثر مسائل موجود را در قالب وظایف زیر دسته بندی کرد:
۱) رده­بندی (Classification) (یافتن مدلی برای پیش­بینی)
۲) کشف قوانین انجمنی/باهم­آیی (Mining Association Rule) (برای توصیف و پیش­بینی وضعیت آینده)
۳) خوشه­بندی (Clustering) (برای توصیف داده­ها)
توضیح تک به تک موارد فوق و آوردن مثال مجال مفصل تری را می­طلبد.
● کاربردها
بعضی از کاربردهای داده­کاوی را می­توان در کاربردهای معمول تجاری (مثل تحلیل و مدیریت بازار، تحلیل سبد بازار، پیش­بینی قیمت نفت، بازاریابی هدف، فهم رفتار مشتری و تحلیل و مدیریت ریسک)، مدیریت و کشف فریب (کشف فریب تلفنی، کشف فریب­های بیمه­ای اتومبیل، کشف حقه­های کارت اعتباری، کشف تراکنش­های مشکوک مالی و پول­شویی)،متن کاوی (خلاصه­سازی، یافتن متون مشابه و کلمات کلیدی، پالایش نامه­های الکترونیکی، گروه­های خبری و غیره)، پزشکی (کشف ارتباط علامت و بیماری، تحلیل آرایه­های DNA، تصاویر پزشکی)، وب­کاوی (پیشنهاد صفحات مرتبط، بهبود ماشین های جستجوگر یا شخصی­سازی حرکت در وب سایت) و یافتن روندهای فرهنگی سیاسی در وب، تحلیل شبکه­های اجتماعی وب ۲ (وبلاگها، ویکی­ها)­، آنالیر ترافیک وب، تشخیص نفوذی به شبکه، متن کاوی، بیوانفورماتیک، سیستم پیشنهاد دهنده برای آموزش مجازی و کاربردهای بسیار دیگری در شاخه­های مختلف مهندسی دانست. البته داده­کاوی هر کاری را انجام نمی­دهد و هر کار آماری را داده­کاوی نمی­نامند. برای داده­کاوی شناخت و تحلیل داده­ها مورد نیاز است، به طوری­که بتوان روابط و الگوهای بین داده­ها را با کمک افراد خبره پیدا کرد.
● وضعیت فعلی در ایران
در کشور ما نیز با رشد روزافزون داده­ها در کارخانجات، شرکت­ها، فروشگاه­های زنجیره­ای و مراکز مختلف دولتی و خصوصی نیاز به استفاد ه از دانش نهفته در آنها یعنی انجام داده­کاوی روی داده­ها ضروری به نظر می­رسد. داده­های مرکز آمار ایران، داروخانه­ها­، بیمارستانها، داده­های مرکز پلیس­، مراکز قضایی، کارت سوخت، سازمان هواشناسی کشور، بانکها، بیمه و ... از جمله داده­های انبوه و بسیار ارزشمندی هستند که شایستگی داده­کاوی و تحلیل قوانین پنهان را دارند. داده­کاوی می­تواند با کشف الگوهای پنهان در اصلاح روند تصمیم­گیری مدیران بسیار موثر باشد اما کشور ما به دلیل عدم وجود فرهنگ به اشتراک­گذاری اطلاعات از دستاوردهای این فناوری محروم است.
۱)Data Warehouse
۲)Visualization
نویسنده: بهروز مینایی
منبع : ماهنامه تحلیلگران عصر اطلاعات