تحقیق کامل و جامع در زمینه داده کاوی - نسخهی قابل چاپ +- تالار گفتگوی کیش تک/ kishtech forum (http://forum.kishtech.ir) +-- انجمن: پردیس فناوری کیش (http://forum.kishtech.ir/forumdisplay.php?fid=1) +--- انجمن: فناوری اطلاعات و ارتباطات (http://forum.kishtech.ir/forumdisplay.php?fid=6) +--- موضوع: تحقیق کامل و جامع در زمینه داده کاوی (/showthread.php?tid=47306) |
تحقیق کامل و جامع در زمینه داده کاوی - محمدرضا علیزاده - 25-12-2020 پردیس فناوری کیش - طرح مشاوره متخصصین صنعت و مدیریت- گروه فناوری اطلاعات و ارتباطات :http://kishindustry.com/ تعاریف داده کاوی داده کاوی (Data Mining)پل ارتباطی میان علم آمار،علم کامپیوتر،هوش مصنوعی،الگوشناسی،فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناساییالگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد،به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.
داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده میباشد.[font=Arial, sans-serif][1][/font]
داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد.[font=Arial, sans-serif][2][/font]
داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات،وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد.[font=Arial, sans-serif][3][/font]
داده کاوی در پایگاه های داده کوچک نیز بسیار پرکاربرد است و از نتایج و الگوهای تولید شده بوسیله آن در تصمیم گیری های استراتژیک تجاری شرکتهای کوچک نیز می توان بهره های فراوان برد. کاربرد داده کاوی در یک جمله را این گونه می توان بیان کرد : " داده کاوی اطلاعاتی می دهد، که شما برای گرفتن تصمیم هوشمندانه ای درباره مشکلات سخت شغلتان به آنها نیاز دارید" [1]
در داده کاوي معمولا به کشف الگوهاي مفيد از ميان داده ها اشاره مي شود . منظور از الگوي مفيد ، مدلي در داده ها است که ارتباط ميان يک زير مجموعه از داده ها را توصيف مي کند و معتبر ، ساده ، قابل فهم و جديد است .
در متون آکادميک تعاريف گوناگوني براي داده کاوي ارائه شده اند . در برخي از اين تعاريف داده کاوي در حد ابزاري که کاربران را قادر به ارتباط مستقيم با حجم عظيم داده ها مي سازد معرفي گرديده است و در برخي ديگر ، تعاريف دقيقتر که درآنها به کاوش در داده ها توجه مي شود موجود است . برخي از اين تعاريف عبارتند از :
·[font=Times New Roman] [/font]داده کاوي عبارت است از فرايند استخراج اطلاعات معتبر ، از پيش ناشناخته ، قابل فهم و قابل اعتماد از پايگاه داده هاي بزرگ و استفاده از آن در تصميم گيري در فعاليت هاي تجاري مهم.
·[font=Times New Roman] [/font]اصطلاح داده کاوي به فرايند نيم خودکار تجزيه و تحليل پايگاه داده هاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق مي شود .
·[font=Times New Roman] [/font]داده کاوي يعني جستجو در يک پايگاه داده ها براي يافتن الگوهايي ميان داده ها .
·[font=Times New Roman] [/font]داده کاوي يعني استخراج دانش کلان ، قابل استناد و جديد از پايگاه داده ها ي بزرگ .
·[font=Times New Roman] [/font]داده کاوي يعني تجزيه و تحليل مجموعه داده هاي قابل مشاهده براي يافتن روابط مطمئن بين داده ها .
همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود ، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است .
داده كاوي معمولا به عنوان جستجو ،آناليز كردن ، باقيمانده از مقدار زيادي از داده براي يافتن ارتباط ،الگو ها يا هر همبستگي آماري معني داري ، تعريف مي شود.با پيدايش كامپيوتر ، پايگاه داده بزرگ و اينترنت ، آسانتر مي توان ميليون ، بيليون و حتي تريليون قسمت هاي از داده را جمع كرد كه مي تواند از روي قاعده آناليز انجام داد و به جستجو ارتباط ها وپيدا كردن راه حل در مششكلات مختلف كمك كرد.به علاوه دولتمندان در بيشتر خريد و فروش از داده كاوي در پيدا كردن الگو ها و ارتباط هاي توان مشتري استفاده مي كنند.سازمان هاي بزرگ و سازمان آموزشي نيز از داده كاوي براي فهميدن همبستگي پر معنا كه مي تواند در جامعه ما توسعه يابد ، استفاده مي شود.
نکته: همانگونه که در تعاريف گوناگون داده کاوي مشاهده مي شود، تقريبا در تمامي تعاريف به مفاهيمي چون استخراج دانش ، تحليل و يافتن الگوي بين داده ها اشاره شده است.
" داده کاوي فرآيندي است که طي آن با استفاده از ابزار های تحليل داده به دنبال کشف الگوها و ارتباطات ميان داده هاي موجود که ممکن است منجر به استخراج اطلاعات جديدي از پايگاه داده گردند، مي باشد."
در داده کاوي از بخشي از به نام تحليل اکتشافي داده ها استفاده مي شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکيد مي شودبنابراين مي توان گفت در داده کاوي تئوريهاي پايگاه داده ها، هوش مصنوعي، يادگيري ماشين وعلم آمار را در هم مي آميزند تا زمينه کاربردي فراهم شود.
بايد توجه داشت که اصطلاح داده کاوي زماني به کار برده مي شود که با حجم بزرگي از داده ها در حد گیگابایت يا ترابايت، مواجه باشيم که از این نظر یکی از بزرگترین بازارهای هدف، انبارجامع داده ها، مراکز داده وسیستم های پشتیبانی تصمیم برای بدست آوردن تخصص هایی در صنایعی مثل شبکه های توزیع مویرگی، تولید،مخابرات، بیمه و... می باشد.
نکته: در تعاریفی که از داده کاوی ارائه شد به اصطلاح "فرایند" اشاره شد. حتی در بعضی محیط های حرفه ای این نظر وجود دادرد که داده کاوی شامل انتخاب و بکارگیری ابزارهای مبتنی بر کامپیوتر برای حل مسائل فعلی و بدست آوردن یک راه حل بطور اتوماتیک و خودکار میباشد.
برای آموزش داده کاوی، باید بر مفاهیم و روش های اعمال شده برخلاف همه جاذبه های ابزارهای مبتنی بر کامپیوتر که امور رابا جزئیات ودستورات با فرمت های خاصی باید به خیلی از سوالات از جمله چگونگی طراحی واستفاده از فرایندها را پاسخ داد به جای بیان جزئیات عملی ابزار مختلف داده کاوی تکیه نمود.
1-2 مراحل فرايند کشف دانش از پايگاه داده ها
فرايند کشف دانش از پايگاه داده ها شامل پنج مرحله است که عبارتند از:
1. درک قلمرو یا بیان مسئله و فرموله کردن فرضیه
2. انتخاب و جمع آوری داده ها
3. تبديل داده ها
4. کاوش در داده ها
5. تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج
بیان مسئله و فرموله کردن فرضیه: در ابتداي امر پيش زمينه كشف دانش، فهم درست داده و مساله مي باشد. بدون اين فهم درست هيچ الگوريتمي صرف نظر از خبره بودن آن نمي تواند نتيجه مطمئني براي شما حاصل نمايد و داده را جهت كاوش آماده نموده يا نتايج را به طور صحيح تفسير نمود. براي استفاده بهتر از داده كاوي بايد يك بيان واضح از هدف داشت. در این مرحله انچه نیاز است ترکیبی از تخصص یک زمینه کاربردی و یک مدل داده کاوی است و شاید بتوان گفت یک تقابل نزدیک سر یک مسئله واحد و چندین فرضیه فرموله شده بین متخصصین داده کاوی و متخصصین کاربردی میباشد.
1.[font=Times New Roman] [/font]انتخاب و جمع آوری داده ها:
این مرحله درارتباط با چگونگی تولید و جمع آوری داده ها است.
بطور کلی، دو امکان وجود دارد:
روش آزمون طراحی: زمانی است که فرایند تولید داده ها تحت کنترل یک متخصص کاربردی)مدل ساز سیستم( باشد.
روش دیداری: امکان دوم زمانی مطرح است که متخصص قادر به تولید فرآیند نیست یعنی تولید داده بصورت تصادفی در نظر گرفته شود.
پس از اینکه داده ها جمع اوری شدند یا در فرایند جمع اوری داده ها تا اندازه ای قرار گرفتند، توزیع نمونه گیری کاملا نامعلوم است.(یعنی داده هایی که بعدا برای تست و بکارگیری آن مدل بکار می روند از چند نمونه مشابه استفاده می شوند.)
نکته: براي فرايند داده کاوي داده ها ي مورد نياز موجود در انبار داده ها بايد انتخاب شوند. درک این مطلب که برای ارزیابی یک مدل که بعدا برای تست و بکارگیری آن مدل بکار می رود، موفقیت آمیز باشد، بسیار مهم است در غیر اینصورت نتایج درستی حاصل نمی گردد.
مثلا انبار داده ها شامل انواع مختلف و گوناگوني از داده ها است به عنوان مثال در يک پايگاه داده هاي مربوط به سيستم فروشگاهي، اطلاعاتي در مورد خريد مشتريان، خصوصيات آماري آنها،dispatcher ها (توزیع کنندگان)، مشتریان، حسابداري و ... وجود دارند که همه آنها در داده کاوي مورد نياز نيستند.
2.[font=Times New Roman] [/font]پیش پردازش ها یا تبديل داده ها
زمانی که که داده هاي مورد نياز از پایگاه داده های موجود در انبار داده ها "جمع اوری" شدند و داده هاي مورد کاوش مشخص گرديدند، معمولا به تبديلات خاصي روي داده ها نياز است که شامل حداقل دو مرحله متداول می باشد:
1. آشکارسازی ( حذف) داده های غیرعادی:
داده های غیرعادی یا غیر معمول درحقیقت داده های نتیجه سنجش خطاها، کدنویسی و ثبت خطاها است. دراینجا باید یا 1. داده های غیرعادی را تشخیص داد و خذف کرد ویا 2. باید روش های قوی مدل سازی رابگونه ای توسعه داد که نسبت به این نوع داده ها غیر حساس باشند.
2. ویژگی های مقیاس بندی، رمزگذاری و انتخاب:
در تبدیل داده ها توصیه میشود که داده ها را جهت تحلیل و بررسی مقیاس بندی و ورمزگذاری کرد. مثلا یک مشخصه با دامنه [0,1] ودیگری با دامنه [-100,1000] دارای ارزش مشابهی در تکنیک های اعلام شده نیستند. که در صورت نادیده گرفتن همین تفاوت در دامنه داده ها، روی نتایج نهایی داده کاوی تاثیر خواهند گذاشت.
3.[font=Times New Roman] [/font]برآورد مدل یا کاوش در داده ها
در این مرحله داده هاي تبديل شده با استفاده از تکنيکها و عملياتهاي داده کاوي مورد کاوش قرار مي گيرند تا الگوهاي مورد نظر کشف شوند. یا به عبارتی دیگه، انتخاب و پیاده سازی تکنیک های داده کاوی در این مرحله صورت میگیرد. لبته این فرایند خیلی روشن و واضح نیست زیرا هنگام پیاده سازی ممکن است که مبتنی بر چندین مدل در یک فرآيند تكراريباشد. ( این مدل ها بطور کامل تر در مباحث مربوط به مفاهیم انواع دسته بندی،درختان تصمیم و قوانین تصمیم، شبکه های عصبی، انواع الگوریتم ها و ...پیاده سازی می شوند)
4.[font=Times New Roman] [/font]تفسير نتيجه یا تفسیر مدل و رسیدن به نتایج
اطلاعات استخراج شده با توجه به هدف کاربر تجزيه و تحليل شده و بهترين نتايج باید در تصمیم گیری کاربر موثر مي باشند. هدف از اين مرحله تنها ارائه نتيجه (بصورت منطقي و يا نموداري) نيست، بلکه پالايش اطلاعات ارايه شده به کاربر نيز از اهداف مهم اين مرحله است .
هشدار: اگرچه تاکید بر مراحل 3و4 فرایند داده کاوی بیشتر است اما باید به این نکته توجه داشت که اینها فقط دو مرحله از یک فرایند پیچیده هستند. همه فرایند داده کاوی و تک تک مراحل بطور مجزا بسیار تکرار پذیر هستند.
هشدار : باید توجه داشت که بدون توجه به صحت و درستی مراحل 5گانه داده کاوی، ممکن است که مدل و داده حاصل انچنان معتبر نباشد. |