مبانی نظری و پیشینه تحقیق داده کاوی 2 (docx) 79 صفحه
دسته بندی : تحقیق
نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )
تعداد صفحات: 79 صفحه
قسمتی از متن Word (.docx) :
Contents TOC \o "1-3" \h \z \u 1.1دادهکاوی و مفاهیم آن PAGEREF _Toc522518580 \h 21.1.1تاریخچه دادهکاوی PAGEREF _Toc522518581 \h 31.1.2فرآیند کشف دانش PAGEREF _Toc522518582 \h 51.1.3فرآیند CRISP – DM PAGEREF _Toc522518583 \h 131.1.4فاز اول – درک فضای کسب و کار PAGEREF _Toc522518584 \h 141.2فاز دوم – درک دادهها PAGEREF _Toc522518585 \h 151.2.1فاز سوم – آمادهسازی دادهها PAGEREF _Toc522518586 \h 151.2.2فاز چهارم – مدلسازی PAGEREF _Toc522518587 \h 161.2.3فاز پنجم – ارزیابی PAGEREF _Toc522518588 \h 161.2.4فاز ششم – توسعه PAGEREF _Toc522518589 \h 171.3وظایف دادهکاوی PAGEREF _Toc522518590 \h 171.3.1دستهبندی PAGEREF _Toc522518591 \h 181.3.2تخمین PAGEREF _Toc522518592 \h 191.3.3پیشبینی PAGEREF _Toc522518593 \h 191.3.4همبستگی PAGEREF _Toc522518594 \h 201.3.5خوشهبندی PAGEREF _Toc522518595 \h 211.3.6توصیف PAGEREF _Toc522518596 \h 251.4ابزار و تکنیکهای دادهکاوی PAGEREF _Toc522518597 \h 261.4.1درخت تصمیم PAGEREF _Toc522518598 \h 261.4.2شبکههای عصبی PAGEREF _Toc522518599 \h 301.5الگوریتمهای خوشهبندی PAGEREF _Toc522518600 \h 321.6K - نزدیکترین همسایه PAGEREF _Toc522518601 \h 361.7ماشین بردار پشتیبان (SVM) PAGEREF _Toc522518602 \h 371.7.1بیز سادهلوحانه PAGEREF _Toc522518603 \h 381.8سیستمهای چند دستهبند PAGEREF _Toc522518604 \h 391.9الگوریتم ژنتیک PAGEREF _Toc522518605 \h 401.9.1کاربرد دادهکاوی در CRM PAGEREF _Toc522518606 \h 421.9.2دادهکاوی برای بهبود بازاریابی مستقیم PAGEREF _Toc522518607 \h 431.9.3بخشبندی مشتریان PAGEREF _Toc522518608 \h 441.9.4افزایش ارزش مشتری PAGEREF _Toc522518609 \h 461.9.5دادهکاوی و افزایش ارزش دوره عمر مشتری PAGEREF _Toc522518610 \h 471.9.6ابعاد CRM و کاربردهای دادهکاوی PAGEREF _Toc522518611 \h 501.9.7دادهکاوی و بازاریابی هدفمند PAGEREF _Toc522518612 \h 521.9.8دادهکاوی و رویگردانی مشتری PAGEREF _Toc522518613 \h 531.10پیشینه تحقیق PAGEREF _Toc522518614 \h 561.10.1تحقیقات انجام شده در خارج از کشور PAGEREF _Toc522518615 \h 571.10.2تحقیقات انجام شده در داخل کشور PAGEREF _Toc522518616 \h 671.10.3خلاصه تحقیقات انجام شده PAGEREF _Toc522518617 \h 69
دادهکاوی و مفاهیم آن
در مرور ادبیات تعاریف متعددی برای دادهکاوی ارائه شده است. برخی از این تعاریف عبارتند از:
دادهکاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از دادهها به منظور کشف الگوها و قوانین پنهان و معنیدار درون دادهها اطلاق میشود ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a).
دادهکاوی عبارت است از فرايند استخراج اطلاعات معتبر، از پيش ناشناخته، قابل فهم و قابل اعتماد از پايگاههاي داده بزرگ و استفاده از آن در تصمیمگیری در فعالیتهای تجاری مهم ADDIN EN.CITE
Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005).
دادهكاوي يعني استخراج دانش كلان، قابل استناد و جديد از پايگاه دادههاي بزرگ ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011).
دادهكاوي به فرايند نيم خودكار تجزيه و تحليل پايگاه دادههاي بزرگ به منظور يافتن الگوهاي مفيد اطلاق ميشود ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011).
دادهكاوي يعني تجزيه و تحليل مجموعه دادههاي قابل مشاهده براي يافتن روابط مطمئن بين دادهها ADDIN EN.CITE
Edelstein199817(Edelstein 1998)17176H. EdelsteinIntroduction to Data Mining and Knowledge Discovery1998Two Crows Corporation(Edelstein 1998).
چنانچه مشخص است، آنچه در تمامی این تعاریف مشترک است وجود مفاهیمی چون استخراج دانش و کشف الگوهای پنهان از میان دادهها است.
کاربرد موفق دادهکاوی در زمینههای مختلف تجاری در دهههای اخیر، موجب افزایش روزافزون محبوبیت این علم شده است. برای دانش دادهکاوی هیچ محدودیتی را نمیتوان متصور بود. به عبارت دیگر، کاربرد دانش دادهکاوی در تمامی زمینههای برخوردار از داده بوده و تنها محدودیت آن فقدان داده است. هدف دادهکاوی ایجاد مدلهایی برای تصمیمگیری است. بیشتر تکنیکهای دادهکاوی ابزار مدلسازی هستند که اغلب از سالها یا دهههای قبل وجود داشتهاند و جزو زیرشاخههای علومی چون هوش مصنوعی، یادگیری ماشین، محاسبات نرم و آمار هستند.
تاریخچه دادهکاوی
حجم عظیم دادهها نتیجه تجارت نوین است. امروزه پایگاههای داده با نرخ افزایندهای در حال رشد هستند. بنابر تخمینهای ارائه شده، حجم دادهها در جهان هر 20 ماه به حدود دو برابر میرسد؛ این در حالی است که سازمانها امروزه کمتر از یک درصد از دادههایشان را برای تحلیل استفاده میکنند ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). از طرف دیگر، قدرت و توانایی محاسباتی کامپیوترها نیز به سرعت در حال افزایش است. همه این موارد شرایطی را برای بکارگیری هرچه بیشتر و وسیعتر تکنیکهای دادهکاوی فراهم میآورند، بطوری که اخیرا دادهکاوی موضوع بسیاری از مقالات، کنفرانسها و تحقیقات کاربردی شده است.
واژه دادهکاوی تا اوایل دهه 90 میلادی مفهومی نداشت و بکار برده نمیشد. در دهه 60 ميلادي و پيش از آن زمينههايي براي ايجاد سيستمهاي جمعآوري و مديريت دادهها ايجاد شد و تحقيقاتي در اين زمينه انجام پذيرفت كه منجر به معرفي و ايجاد سيستمهاي مديريت پايگاه داده (DBMS) شد. توسعه سيستمهاي پايگاهي پيشرفته در دهه 80 و ايجاد پايگاههاي شيگرا، كاربردگرا و فعال باعث توسعه همه جانبه و كاربردي شدن اين سيستمها در سراسر جهان گرديد. بدین ترتیب DBMSهایی همچون DB2، Oracle، Sybase و غیره ایجاد شدند و حجم زیادی از دادهها توسط این سیستمها مورد پردازش قرار گرفت. شاید بتوان مهمترین عامل در معرفی دادهکاوی را مبحث کشف دانش از پایگاه داده (KDD) دانست بطوری که در بسیاری از موارد KDD و دادهکاوی بصورت مترادف بکار برده میشوند. الگوریتمهای دادهکاوی در دهه اخير با سرعت بسيار زياد در حال توسعه هستند. روند تكامل فرايندهاي دادهاي در كسب و كار در جدول 2-2 آمده است ADDIN EN.CITE
اکبری13896(اکبری 1389)6632(اکبری 1389).
جدول STYLEREF 1 \s 2 SEQ جدول \* ARABIC \s 1 2 : گامهای تکامل دادهکاوی
ویژگیهاتکنولوژیهای مورد استفادهسوالات کسب و کارگامهای تکاملتحليل دادههاي گذشتهتیپهای كامپيوتری – دیسکتها درآمد كل 5 سال گذشته چقدر بوده است؟جمعآوری دادههاData Collectionدهه 1960تحليل پوياي دادههاي گذشته در يك سطحپایگاه دادههای ارتباطی ODBC، SQLدر ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟دسترسی به دادههاData Accessدهه 1980تحليل پوياي دادههاي گذشته در چند سطحOLAP، DWدر ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟انبار دادههاData warehouse DSSدهه1990ارائه اطلاعات و دادههاي مربوط به آیندهکامپیوترهای چند پردازندهالگوريتمهاي پيشرفتهدر ماه آینده چه اتفاقی خواهد افتاد؟دادهکاویData Miningامروزه
اگرچه عبارت دادهکاوی اغلب به عنوان کشف دانش مورد استفاده قرار میگیرد، ولی فرآیند کشف دانش مفهومی گستردهتر دارد که در ادامه به توضیح آن خواهیم پرداخت.
فرآیند کشف دانش
فرآيند استخراج دانش در شکل 2-1 نشان داده شده است. همانطور که در شکل مشاهده ميکنيد، فرآيند کشف دانش يک فرآيند شش مرحلهاي است که دادهکاوي فقط گامي از اين فرآيند است ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011).
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 1 : فرآیند کشف دانش
مراحل فرآيند استخراج دانش عبارت است از:
مرحله اول، انتخاب داده: ورودي اين مرحله حجم عظيمي از داده است. دادهها عموما در شکلهاي گوناگون و در مکانهاي مختلف نگهداري ميشوند. ابتدا بايد دادهها يکپارچه و در يکجا ذخيره شوند. پس انباردادهاي ايجاد ميشود که مجموعهاي از مارت دادهها است. انبارداده مجموعهاي از اطلاعات درباره موضوعات مختلف در گستره يک سازمان است، اما مارت دادهها زير مجموعهاي از انبار داده است. انبارداده مخاطبش کل سازمان است درحاليکه مارت دادهها بر اساس موضوعي که جمعآوري شده است در همان بخش از سازمان مورد استفاده قرار ميگيرد. انبار داده از طريق فرآيند پاکسازي داده، يکپارچهسازي دادهها، انتقال دادهها، بارگيري دادهها و دادههاي متناوب ساخته ميشود. اما معمولاً انبار داده بهوسيله پايگاه دادههاي چند بعدي مدل ميشوند، که هر کدام از بعدهاي انبار داده نشان دهنده يک يا مجموعهاي از صفات است. حال با توجه به مسئله مورد بحث و کاربردي که هدف فرآيند دادهکاوي است؛ از اين انبار داده، مجموعهاي از دادهها انتخاب ميشود. پس خروجي مرحله انتخاب، يک مجموعه داده هدف است ADDIN EN.CITE
Sumathi200618(Sumathi and Sivanandam 2006)18186S. SumathiS.N. SivanandamIntroduction to Data Mining and its Applications292006Springer(Sumathi and Sivanandam 2006).
مرحله دوم، پيشپردازش: دادههاي موجود در بانکهاي اطلاعاتي بهخودي خود قابل استخراج شدن نيستند؛ زيرا کيفيت دادههاي اصلي پايين است. در اين مرحله يک سري پردازشهایي بر روي داده انجام ميشود تا دادهها آمادهي فرآيند دادهکاوي شوند. خروجي اين مرحله، دادههاي آمايش شده است. سه عامل بر روي کيفيت دادهها تاثيرگذار است که در ذیل به آنها اشاره میکنیم:
مقادير مفقود شده: اگر مقادير برخي از رکوردها در مجموعه داده مورد بررسي در بعضي از ويژگيها موجود نباشد در اين صورت در آن ويژگي در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهيم بود ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). براي برطرف کردن مقادير مفقود شده، شش رويکرد توسط هان و همکاران ارائه شده است که عبارت است از ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011):
حذف کردن رکوردهایي که داراي مقادير مفقود شده هستند.
پر کردن دستي مقادير مفقود شده.
پر کردن مقادير با يک مقدار ثابت يا نامشخص.
پر کردن خودکار با استفاده از ميانگين و يا مد در رکوردهاي موجود.
پر کردن خودکار با استفاده از ميانگين و يا مد آن ويژگي در رکوردهاي موجود در کلاس مشابه با کلاس رکورد با مقادير مفقود شده.
پر کردن خودکار با استفاده از استنتاج از روي ساير ويژگيهاي موجود در مجموعه داده و استفاده از الگوريتمهاي دادهکاوي.
نویز : تغييراتي که در مقدار اصلي ويژگي ايجاد ميشود را نويز گويند ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). اگر مقادير ويژگي در مقدار کوچکي مانند ε اضافه و يا از اين مقدار کم شده باشد، در آن ويژگي نويز ايجاد شده است. مقادير نويز در ويژگيها قابل رفع شدن هستند.
مقادیر دور افتاده : به مقاديري واقعي از ويژگيها گفته ميشود که با مقادير ديگر ويژگي تفاوت معناداري داشته باشند. بهعبارت ديگر، مقاديري که متفاوت از اکثريت مقادير موجود باشند؛ مقادیر دور افتاده هستند ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). در شکل 2-2 نقاط دور افتاده مشخص شدهاند.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 2 : دادههای دور افتاده
تفاوت دادههای دور افتاده با نويز در اين است که دادههای دور افتاده به مقادير واقعي گفته ميشود که هويت دارند و مقادير ناخواسته نيستند، در حاليکه نويز مقادير ناخواستهاي هستند که مقادير اصلي را تغيير دادهاند. مقادير نويز هر ويژگي قابل رفع شدن است و بايد اين مقادير رفع شوند. اما روش برخورد با دادههای دور افتاده بستگي به کاربرد مسئله دارد. در بعضي از کاربردها بايد نقاط دور افتاده را از تحليلها حذف کرد و در بعضي از کاربردها بايد تحليلي روي نقاط دور افتاده انجام داد ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011).
پس از آن که هر یک از مشکلات ذکر شده در بالا از میان دادهها شناسایی و برطرف شدند، پردازشهایی در جهت آمادهسازی دادهها برای مدلسازی بر روی دادهها انجام میشود. نمونهای از این پردازشها عبارتند از:
تجمیع:
در اين مرحله بر اساس هدف مشخص شده چند ويژگي با هم ترکيب و يک ويژگي ايجاد ميشود. به اين نکته توجه داشته باشيد زماني که بعد يا مقياس داده بالا باشد، باعث ميشود دانشي از دست برود. به اين منظور اين مرحله قبل از اجراي الگوريتمهاي دادهکاوي بر روي داده انجام ميشود. اهداف فرآيند تجميع عبارتند از:
کاهش ويژگيها و رکوردها،
تغيير دادن مقياس داده؛ بهعنوان مثال، ميتوان بهجاي ويژگيهايي مانند منطقه، ايالت و ناحيه، شهر را جايگزين کرد. اين کار ممکن است دقت مسئله را کاهش دهد، اما باعث ميشود فرآيند دادهکاوي بر روي داده انجام شود.
پايدار کردن داده؛ اگر يک ويژگي، ويژگي باشد که تعداد مقادير زيادي را اختيار کنند؛ در اين صورت اين ويژگي نميتواند ويژگي موثري در فرآيند دادهکاوي باشد. چنين ويژگياي باعث ميشود دقت الگوريتم به شدت کاهش يابد. حال اگر بتوان بازه تغييرات ويژگيها را کاهش داد، ميتوان از ويژگياي که تأثير منفي بر فرآيند داده کاوي ميگذارد، ويژگي ايجاد کرد که تأثير مثبتي بر روي الگوريتمها داشته باشد.
نمونهگیری:
فرآيند نمونهگيري گاهي براي پردازش دادهها مورد استفاده قرار ميگيرد. زمانيکه با مجموعه دادههاي ناآشنا کار ميشود، ميتوان از اين گام براي شناخت مجموعه داده استفاده کرد. نمونهگيري در دادهکاوي با مفهوم نمونهگيري آماري متفاوت است. در آمار نمونهگيري انجام ميشود، به سبب آن که دسترسي به تمام رکوردها بسيار گران و هزينهبر است. اما در دادهکاوي نمونهگيري به دليل در دسترس نبودن رکوردها نيست، بلکه به دليل هزينهبر و زمانبر بودن اجراي الگوريتمهاي دادهکاوي بر روي تمام رکوردها است. در اين حالت اگر الگوريتمهاي داده کاوي بر روي تمام رکوردهاي موجود در پايگاه داده اجرا شود، الگوريتم مرتبه زماني بسيار بالاي خواهد داشت. پس گاهي به سبب زمانبر و هزينهبر بودن و گاهي نيز به دليل در دسترس نبودن سيستمهايي که بتواند با حجم بالاي از دادهها کار کند، بايد از رکوردها نمونهگيري شود. نمونه بايد به گونهاي باشد که نماينده مناسبي از مجموعه داده باشد. براي انتخاب يک نمونه مناسب بايد به مسئله توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر اين در نمونهگيري بايد به توزيع ويژگيهاي مهمتر توجه بيشتري شود. فرآيند نمونهگيري ميتواند يکي از چهار روش زير باشد:
نمونهگيري به صورت تصادفي: زماني از اين روش استفاده ميشود که مجموعه داده ناشناخته باشد و درکي از مجموعه داده موجود نباشد.
نمونهگيري بدون جايگزيني: زماني از اين روش استفاده ميشود که مجموعه داده کوچک بوده و رکوردها شبيه به هم نباشد.
نمونهگيري با جايگزيني: در اين روش هر رکورد ميتواند بيش از يکبار در نمونه آورده شود. از اين روش زماني استفاده ميشود که مجموعه داده بزرگ و رکوردها شبيه به هم باشند.
نمونهگيري از دسته: ابتدا رکوردها را بر اساس معياري دستهبندي کرده و از هر دسته، تعدادي رکورد انتخاب ميشود.
در مواقعي که معيارهايي مانند سرعت و پيچيدگي زماني مهم نيستند، روش نمونهگيري بدون جايگزيني مناسبتر از نمونهگيري با جايگزيني است. در نمونهگيري هر چقدر تعداد رکوردها بيشتر باشد امکان بهدست آوردن نظم موجود بيشتر خواهد بود. نبايد نمونه خيلي کوچک باشد که نظم موجود در دادهها از بين برود.
کاهش بعد:
زماني که بعد دادهها بالا باشد در اين صورت پراکندگي داده بيشتر و هر چقدر پراکندگي دادهها بيشتر، دادهها از هم دورتر خواهند بود. در اين صورت نميتوان بهخوبي نظم موجود در دادهها را پيدا کرد و ممکن است برخي از نظمها با افزايش بعد داده از بين برود. پس بهتر است تا حد امکان ويژگيهاي نامربوط در مسئله مورد بررسي حذف شوند. اهداف اين مرحله عبارت است از:
کاهش ابعاد: اين کار باعث کاهش زمان و افزايش سرعت در الگوريتم مورد نظر ميشود.
درک آسانتر: انسان ميتواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچکتر شود درک مسئله آسانتر ميشود.
بالا رفتن دقت و سرعت الگوريتم: با حذف ويژگيهايي که نميتواند اثر مثبتي بر روي هدف تعيين شده در مسئله داشته باشد، سرعت اجرا الگوريتم بالا ميرود و الگوريتم درگير ويژگيهاي غيرمفيد نميشود. علاوه بر اين، حذف ويژگيهاي غير مرتبط باعث ميشود تشخيص دادههاي نويز راحتتر شود.
انتخاب زیرمجموعهای از ویژگیها:
تعداد زياد ويژگيها بر سرعت اجراي الگوريتمها اثر منفي ميگذارد. لازم است بنابر هدف، مجموعهاي از ويژگيها انتخاب شود. بعضي از ويژگيها در تمام مسائل ويژگيهاي هستند که کمکي به حل مسئله نميکنند. براي هر هدفي ميتوان با استفاده از الگوريتمهايي مانند درخت تصميم ويژگيهاي مهمتر را شناسايي کرد و از آن ويژگيها براي ايجاد مدل استفاده کرد.
ایجاد ویژگی:
با توجه به ويژگيهاي موجود ميتوان ويژگي جديدي ايجاد کرد. به طوري که ويژگي ايجاد شده اطلاعات مهمي در مورد مجموعه داده در اختيار محقق قرار میدهد. سه روش براي ايجاد يک ويژگي وجود دارد که عبارت است از:
استخراج ویژگی: زماني که مجموعه داده مورد بررسي شامل دادههاي چند رسانهاي باشد، استخراج ویژگی بسیار موثر خواهد بود.
نگاشت داده به يک فضاي جديد: با استفاده از نگاشتي داده از يک بعد به بعد ديگر انتقال داده ميشود. این کار در الگوریتم تحلیل مولفههای اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام میشود.
ترکیب ویژگیها: اين کار در مرحله تجميع داده صورت ميگيرد.
مرحله سوم، تبدیل: در اين مرحله دادهها در صورت نياز از يک حوزه به حوزه ديگر منتقل ميشوند و برای تحلیل آماده میشوند.
مرحله چهارم، دادهکاوی: در اين مرحله از الگوريتمهای دادهکاوی براي ساخت مدل استفاده ميشود. تعدادی از الگوریتمهای دادهکاوی در همین فصل توضیح داده شدهاند.
مرحله پنجم، ارزيابي و بازنمايي: در اين مرحله دقت هر الگوريتم ارزيابي ميشود. بهعبارت ديگر تشخيص الگوهاي صحيح مورد نظر، از ساير الگوها در اين مرحله انجام ميشود و صحت الگوها بر اساس معيارهايي سنجيده ميشود.
مرحله ششم، دانش: دانش بهدست آمده از الگوريتمها به روشي که براي انسان قابل درک باشد، بيان ميشود.
فرآیند CRISP – DM
روشهاي گوناگوني براي پيادهسازي و اجراي پروژههاي دادهکاوي وجود دارد. استفاده از اين روشها باعث ميشود، دادهکاو مديريت بهتري بر روي پروژه مورد بررسي خود داشته باشد. يکي از روشهاي بسيار قوي و رايج در ادبيات دادهکاوي فرآیند CRISP-DM است. این فرآیند استانداردي جهاني براي انجام پروژههاي کاربردي در دادهکاوي است که از شش فاز به صورت یک روند حلقهای تشکیل شده است. شکل 2-3 نحوه قرار گرفتن این شش فاز را در این مدل نمایش میدهد ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a).
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 3 : فرآیند CRISP-DM
فاز اول – درک فضای کسب و کار
در اين فاز تمرکز اصلي بر روي تعيين اهداف پروژه و نيازهاي وابسته به آن است که از منظر کسب وکار مطرح ميشود. در واقع در اين فاز سعي ميشود با توجه به نيازهاي سازمان و خواستههاي مورد انتظار از سازمان مسئلهاي تعريف گردد. سپس مسئلهي تعريف شده به صورتي تبديل ميشود تا تکنيکهاي دادهکاوي در آن قابل اجرا باشد. بهعبارت ديگر، براي اينکه دادهکاو فعاليت خود را آغاز کند، نياز دارد با محيط و فرآيندها آشنا شود. هدف تحليلگر کشف شاخص مهمي در آغاز پروژه است که ميتواند در خروجي نهايي تأثيرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است:
تعیین اهداف تجاری
ارزیابی موقعیت
تعیین اهداف پروژه دادهکاوی
تهیه برنامه پروژه
فاز دوم – درک دادهها
مواد اوليه يک پروژه دادهکاوي دادهها هستند. اين فاز با جمعآوري دادههاي اوليه آغاز ميشود. سپس به منظور دستيابي به يک درک اوليه از دادهها و شناسايي مشکلات تاثيرگذار بر روي کيفيت آنها پردازشهايي بر روي دادهها انجام ميشود. پردازشهاي انجام شده بر روي دادهها باعث ميشود، يک فرضيه جالب از دادهها به منظور کشف اطلاعات پنهان شکل گيرد. این فاز از چهار مرحله تشکیل شده است که عبارتاند از:
جمعآوری دادهها
تشریح و توصیف دادهها
کاوش دادهها
اعتبارسنجی کیفیت دادهها
فاز سوم – آمادهسازی دادهها
تمام فعاليتهايي که باعث ساخت مدل از روي دادههاي اوليه ميشود، توسط اين فاز پوشش داده ميشود. اين فاز طولانيترين مرحله در فرآیند CRISP-DM است. ايجاد جدول، انتخاب ويژگي و رکوردها با توجه به هدف تعيين شده و همچنين تبديل و تميز کردن دادهها براي استفاده در مدل از جمله وظايفي است که در اين فاز انجام ميشود. این وظایف در قالب زیرفازهای زیر انجام میشود:
انتخاب دادهها
پاکسازی دادهها
ساختاردهی دادهها
یکپارچهسازی دادهها
تنظیم فرمت دادهها
فاز چهارم – مدلسازی
هدف اصلي پروژه دادهکاوي اين فاز است. در اين فاز تکنيکهاي مختلفي جهت آناليز دادهها و استخراج دانش از آنها به كار گرفته ميشود، سپس کاراترين مدل انتخاب ميشود. در برخي از مواقع براي استفاده از الگوريتمي خاص در مدلسازي، لازم است شکل داده تغيير پيدا کند. در نتيجه اين فاز با فاز آمادهسازي دادهها در ارتباط است. این فاز از چهار زیرفاز زیر تشکیل شده است:
انتخاب تکنیکهای ساخت مدل
طراحی آزمایشها
ساخت مدل
ارزیابی مدل
فاز پنجم – ارزیابی
پس از انتخاب مدل، در اين فاز به بررسي و ارزيابي اين موضوع پرداخته ميشود كه آيا نتايج آناليز دادهها ما را در رسيدن به اهداف كسب و كار ياري ميكنند؟ در اين فاز، دانش بهدست آمده در فاز چهار مورد تجزيه و تحليل قرار ميگيرد تا ميزان سودمندي و كاربرد آن مشخص شود. بهعنوان مثال در مورد مدلهاي پيشبيني كننده، دقت مدل با استفاده از دادههاي آزمون تعيين ميشود تا در صورت تایيد نتايج حاصل بهكار گرفته شود. در پايان اين فاز تصميمي در رابطه با استفاده از نتايج دادهکاوي گرفته ميشود. مراحل این فاز عبارتند از:
ارزیابی نتایج
مرور فرآیند دادهکاوی
تعیین گامهای بعدی
فاز ششم – توسعه
در اين فاز سود حاصل از سرمايهگذاري انجام شده در مراحل قبلي بهدست ميآيد. تمركز اين فاز روي يکپارچهسازي دانش در فرآيندهاي كسب و كار است بهگونهاي كه مسائل اساسي كسب و كار حل شود. با اين حال، اين فاز ميتواند به سادگي تهيه يک گزارش ساده و يا به پيچيدگي تکرار اجراي فرآيند دادهکاوي در گستره سازمان باشد. در بيشتر موارد اين مشتري است که گامهاي اين فاز را انجام ميدهد و البته براي مشتري مهم است که بداند که چه اقداماتي در جهت به اجرا درآوردن مدلهاي ايجاد شده انجام دهد. اين فاز از چهار مرحله تشکيل شده است که عبارت است از:
استقرار طرح
نظارت و نگهداری
آمادهسازی گزارش نهایی
مرور پروژه
پس از آشنا شدن با نحوهی اجرای پروژههای دادهکاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی دادهکاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیکهای دادهکاوی داشته باشیم.
وظایف دادهکاوی
دادهکاوی بطور کلی به دو شکل هدایت شده و غیرهدایت شده وجود دارد ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). در دادهکاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص میگردیم، بطوری که در دادهکاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروههایی از اطلاعات است. اگر بخواهیم تکنیکهای دادهکاوی را بر اساس فعالیت و وظیفه تقسیمبندی کنیم، شش عمل زیر را خواهیم داشت ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005):
دستهبندی
تخمین
پیشبینی
همبستگی
خوشهبندی
توصیف
در این تقسیمبندی سه مورد اول دادهکاوی هدایت شده هستند، همبستگی و خوشهبندی جزو دادهکاوی غیر هدایت شده است و توصیف و نمایهسازی نیز میتواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفهها میپردازیم.
دستهبندی
تکنیکهای دستهبندی از جمله تکنیکهای رایج و پرکاربرد در دادهکاوی است. دستهبندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از کلاسهای از قبل تعیین شده است ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). به عبارت دیگر، در مسائل دستهبندی هدف شناسایی ویژگیهایی از دادهها است که گروهی که داده به آن تعلق دارد را نشان میدهند. از این مدل هم میتوان برای درک دادههای موجود استفاده کرد وهم میتوان آن را برای پیشبینی اینکه دادههای جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگیهای شناسایی شده متغیرهای پیشگو و به برچسب کلاسها متغیر هدف گفته میشود.
برای ایجاد یک مدل دستهبندی نیاز به مجموعه دادههای تاریخی است. این مجموعه داده که مجموعه داده آموزشی نامیده میشود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد میگیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط میشوند. سپس، مدل آموزش دیده شده میتواند کلاس مجموعه دادههای تست را که هیچ اطلاعی از متغیر هدف آنها نداریم، پیشبینی کند. (معمولا کارایی مدلهای دستهبندی را با مجموعه دادههای اعتبارسنجی اندازهگیری میکنند.)
از جمله تکنیکهای دستهبندی میتوان به درخت تصمیم، دستهبند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.
تخمین
تخمین شبیه دستهبندی است با این تفاوت که متغیر هدف بجای این که دستهای باشد بصورت عددی است ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). مانند دستهبندی، یک مدل تخمین با استفاده از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته میشود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده میشود.
مدلهای رگرسیون و شبکه عصبی از جمله تکنیکهای مناسب دادهکاوی برای تخمین هستند.
پیشبینی
پیشبینی مانند تخمین و دستهبندی است بجز اینکه در پیشبینی نتایج به آینده مربوط میشود ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). تمامی تکنیکهای استفاده شده در دستهبندی و تخمین را میتوان تحت شرایط خاص برای پیشبینی بکار گرفت. پیشبینیهایی که بر اساس مدلهای دستهبندی ارائه میشوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیشبینی میکنند.
پیشبینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیشبینی است که به عنوان مثال میتوان به پیشبینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکههای عصبی تکنیکهایی هستند که در این نوع پیشبینیها قابل استفاده هستند. نوع دیگری از پیشبینیها، پیشبینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیشبینی سطح سهام بازار در 30 روز آینده بر اساس دادههای 6 ماه گذشته مثالی از این نوع پیشبینیها است. این گونه پیشبینیها به کمک سریهای زمانی و تکنیکهای رگرسیون انجام میشود.
همبستگی
قوانین همبستگی که گروهبندی شباهت نیز نامیده میشوند برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. به عبارت دیگر، گروهبندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین مینماید ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). با توجه به مقیاسپذیری الگوریتمهای قوانین همبستگی و حجم دادهها که دائما در حال افزایش است، میتوان قوانین همبستگی را یکی از ابزارهای ضروری دادهکاوی جهت استخراج دانش از دادهها قلمداد کرد.
تحلیل سبد خرید یکی از بارزترین کاربردهای قوانین همبستگی بشمار میرود. در این تحلیل سعی میشود تا از طریق یافتن روابط و وابستگیهای موجود بین اجناس خریداری شده توسط مشتریها، الگوهای خرید شناسایی و تحلیل شوند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابتهای بازاریابی و نیز چیدمان مناسب اجناس در فروشگاهها یاری میرساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی و اطمینان استفاده میشود.
پشتیبانی: درصدی از تراکنشهایی است که شامل هم مقدم و هم تالی قانون باشند ADDIN EN.CITE
Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد کل تراکنشها.
اطمینان: درصدی از تراکنشهایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد ADDIN EN.CITE
Witten200516(Witten and Frank 2005)16166Ian H. WittenEibe FrankData Mining Practical Machine Learning Tools and Techniques2005(Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد تراکنشهایی که شامل مقدم هستند.
خوشهبندی
خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشههای همگن گفته میشود ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد. در خوشهبندی هیچ دسته از پیش تعیین شدهای وجود ندارد و دادهها صرفا بر اساس تشابه گروهبندی میشوند. بنابراین، برای اینکه بتوانیم دادهها را خوشهبندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با استفاده از مقیاسهای اندازهگیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام میشود.
چنانچه مشخص است، تعداد حالتهای زیادی برای خوشهبندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشهها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشهبندی داریم. فشردگی و تفکیکپذیری دو ویژگی اساسی و جالب در مورد خوشهها هستند که میتوانند به عنوان شاخص اعتبار خوشه محاسبه شوند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388).
فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی دادهها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی دادهها بیشتر است. میتوان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.
تفکیکپذیری: بوسیله این ویژگی، مجزا بودن خوشهها را ارزیابی میکنیم. یکی از روشهای تعیین تفکیکپذیری، محاسبه فواصل بین خوشهای است.
بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشهها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشهها داشته باشند. به عبارت دیگر، ساختاری را مطلوب میپنداریم که در آن مقادیر فواصل درون خوشهای کم و مقادیر فواصل بین خوشهای زیاد باشد.
در کتاب هان و کرامبر روشهای خوشهبندی به پنج دسته تقسیم شده است: روشهای بخشبندی، روشهای سلسلهمراتبی، روشهای مبتنی بر تراکم، روشهای مبتنی بر Grid و روشهای مبتنی بر مدل ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دستهها میپردازیم.
خوشهبندی مبتنی بر بخشبندی: در این نوع خوشهبندی اساس کار یک تابع هدف مشخص است که کمینهسازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون میسازد ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینهسازی را میتوان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمیداند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسبترین فرم برای تابع هدف با دشواریهای فراوانی همراه است. بطور معمول، در این گروه از الگوریتمها، تعداد خوشهها را از قبل تعیین کرده و کار را با بهینهسازی تابع هدف ادامه میدهند.
الگوریتمهایی مانند CLARA، CLARANS، k – means، c – means و PAM نمونههایی از الگوریتمهای این گروه هستند ADDIN EN.CITE
Mitra20035(Mitra and Acharya 2003)556Sushmita MitraTinku AcharyaData Mining: Multimedia, Soft Computing, and Bioinformatics2003A JOHN WILEY & SONS, INC.(Mitra and Acharya 2003).
خوشهبندی سلسلهمراتبی: در اين نوع از روشهاي خوشهبندي، دادهها در درختي از خوشهها گروهبندي ميشوند. به طور كلي روشهاي سلسلهمراتبي را ميتوان به دو دسته تقسيم كرد: روشهاي جمعكننده و روشهاي تقسيمكننده ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). روشهاي جمعكننده در ابتدا هر داده را در خوشهاي جداگانه قرار ميدهند. سپس خوشهها را با هم ادغام كرده و خوشههاي بزرگتري ايجاد ميكنند. اين كار تا زماني ادامه مييابد كه يا تمام دادهها در يك خوشه واحد قرار گيرند و يا شرط معيني برقرار شود، مثلاً تعداد خوشهها به مقدار دلخواه برسد. در هر مرحله خوشههايي به هم متصل ميشوند كه بيشترين شباهت را با هم دارند. براي بررسي ميزان شباهت خوشهها الگوريتمهاي مختلفي وجود دارد. دسته دوم كه روشهاي تقسيمكننده ناميده ميشوند عكس روش فوق را اعمال ميكنند، يعني درخت را از بالا به پايين ميسازند.
برای بررسی میزان شباهت خوشهها میتوان فاصله بین خوشهها را معیار مناسبی در نظر گرفت. روشهای مختلفی مانند روش تکاتصالی، اتصالی کامل و اتصال میانگین گروهی برای محاسبه فاصله بین خوشهها استفاده میشود ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388).
خوشهبندی مبتنی بر تراکم: بسياري از روشهاي بخشبندي، دادهها را بر اساس فاصله آنها با يكديگر خوشهبندي میکنند. چنين روشهايي فقط خوشههاي كروي شكل را پيدا ميكنند (مانند k – means). در خوشهبندهایی که بر اساس تراکم دادهها انجام میشود، میتوان خوشههایی پیدا کرد که دارای شکلهای پیچیدهتری هستند. ایده اصلی اين روشها به اين صورت است كه يك خوشه تا زماني كه تراكم همسايگي تمامي اشياء مرزي آن از حد معيني كمتر نشده گسترش مييابد. منظور از تراكم همسايگي يك شيء، تعداد اشيائي است كه در فاصله ε از آن شيء قرار گرفتهاند. چنين روشهايي براي فيلتر كردن نويزها و يافتن خوشههايي با شكلهاي دلخواه به كار ميرود ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011). الگوریتمهای DBSCAN، OPTICS، DENCLUE و CLIQUE در این دسته از الگوریتمها قرار میگیرند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388).
خوشهبندی مبتنی بر Grid: در این نوع خوشهبندی فضاي اشياء را به تعداد محدودي سلول كوانتيزه ميكنند كه اين سلولها يك Grid را بوجود میآورند. تمامی اعمال خوشهبندی بر روی ساختار این Grid (ساختار مشبک) انجام میشود. مزیت مهم اين روش سرعت بالاي آن است كه مستقل از تعداد اشياء بوده و فقط به تعداد سلولها در هر بعد از فضاي كوانتيزه شده بستگی دارد. الگوریتمهای STING و CLIQUE نمونههایی از این الگوریتمها هستند.
خوشهبندی مبتنی بر مدل: الگوریتمهای این دسته، براي هر خوشه مدلي را در نظر گرفته و سعي ميكنند به بهترين نحو دادهها را به آن مدلها انطباق دهند. دو راه عمده براي اين كار وجود دارد: راه اول روشهاي آماري مانند COBWEB و CLASSIT و راه دوم شبکههای عصبی مانند SOM است.
توصیف
گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب میکند و درک ما را از مردم، محصولات و یا فرآیندهایی که دادهها در مرحله اول تولید کردهاند، افزایش میدهد.
مدلهای دادهکاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدلهای دادهکاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدلهای دادهکاوی دارای تفسیر شفافتری نسبت به دیگر مدلها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانهای از نتایج خود فراهم میآورد؛ در حالی که شبکههای عصبی با ارائهی مدلهای پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکههای عصبی جعبه سیاه گفته میشود.
درخت تصمیم و تکنیکهای آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشهبندی را نیز میتوان برای توصیف استفاده کرد.
ابزار و تکنیکهای دادهکاوی
ابزارها و تکنیکهای بیشماری برای انجام پروژههای دادهکاوی وجود دارد. بیشتر تکنیکهای دادهکاوی از سالها و یا دهههای قبل وجود داشتهاند و ریشه در علومی دیگر چون آمار و ریاضی و زیرشاخههای علوم کامپیوتر مانند هوش مصنوعی و یادگیری ماشین دارند. در این تحقیق سعی کردهایم به معرفی تکنیکهایی بپردازیم که پرکاربرد بوده و یا در تحقیق مورد استفاده قرار گرفته است.
درخت تصمیم
درخت تصمیم از تکنیکهای پرکاربرد و رایج دادهکاوی است که برای اهداف دستهبندی و پیشبینی مورد استفاده قرار میگیرد. الگوریتمهای این تکنیک در حیطه الگوریتمهای یادگیری با ناظر بشمار میرود و بر اساس الگوریتم یادگیری مفهوم طراحی شدهاند. یک درخت تصمیم از تعدادی گره و شاخه تشکیل شده است. شاخهها، گرهها را به یکدیگر متصل میکنند. گرههایی که در انتهای درخت واقع هستند را برگ مینامیم. برگها بیانگر برچسب کلاسها هستند. گرهای که در بالاترین سطح از درخت قرار دارد ریشه نامیده میشود. ریشه شامل تمام دادههای آموزشی است که باید به کلاسهای مختلف تقسیم شوند. تمامی گرهها، بجز برگها را گرههای تصمیم مینامند. در هر کدام از این گرهها، تصميمگيري در مورد فعاليتي که بايد انجام شود با توجه به یک خصیصه صورت ميگيرد. هر کدام از گرهها داري فرزنداني هستند که تعداد فرزندان هر گره برابر با تعداد مقاديري است که خصیصه مورد نظر ميتواند اختيار کند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388).
الگوریتمهای مختلفی برای توليد درخت تصميم وجود دارد. تمامی این الگوریتمها بر اساس الگوریتم یادگیری مفهوم هانت طراحی شدهاند. این الگوریتم، روشی را مد نظر قرار داده است که انسانها از آن به منظور یادگیری مفاهیم ساده استفاده میکنند. در این روش خصیصههای اصلی که متمایزکننده دو گروه اصلی متفاوت هستند، مشخص میشوند. برای انجام این کار، از نمونههای آموزشی مثبت و منفی استفاده میشود. الگوریتم هانت بر پایه استراتژی تقسیم و غلبه بنا نهاده شده است. مجموعههاي آموزشي به طور بازگشتي با انتخاب بهترین خصیصه به عنوان متمایز کننده به گونهای به زيرمجموعههاي کوچکتر افراز ميشوند که هر زیر مجموعه تنها حاوی نمونههایی باشد که به یک کلاس تعلق دارند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). به این ترتیب، با انتخاب پی در پی خصیصههای متمایز کننده، درخت تصمیم شکل میگیرد.
آنچه که باعث میشود الگوریتمهای متفاوتی برای ایجاد درخت تصمیم وجود داشته باشد، عامل انتخاب خصیصه متمایزکننده است. معيارهاي گوناگوني براي انتخاب خصیصه وجود دارد که مهمترين آن عبارت است از:
شاخص جینی: یک شاخص رایج تقسیمبندی، جینی نام دارد که از نام کورادو جینی، متخصص آمار و اقتصاددان ایتالیایی گرفته شده است. این شاخص احتمال قرارگیری دو مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان میدهد. برای یک جمعیت خالص، این احتمال برابر یک است. اندازهگیری جینی یک گره، به صورت مجموع نسبتهای دستهها است. برای محاسبه تاثیر یک تقسیم، امتیاز جینی هر گره فرزند را محاسبه کرده و در نسبت اطلاعات که به آن گره میرسد ضرب کرده وسپس اعداد حاصل را با هم جمع میکنیم ADDIN EN.CITE
شهرابی139042(شهرابی 1390b)42426(شهرابی 1390b). الگوريتم CART براي پيادهسازي از اين معيار استفاده ميکند.
بهره اطلاعات: در منظر بهره اطلاعات، اگر یک برگ کاملا خالص باشد آنگاه دستههای این برگ را میتوان به راحتی اینگونه توصیف کرد که همگی آنها در یک دسته جای میگیرند. از طرف دیگر، اگر یک برگ دارای ناخالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود. برای بیان این وضعیت اندازهای به نام آنتروپی تعریف میگردد. آنتروپی میزان بینظمی یک سیستم است. آنتروپی یک گره خاص در یک درخت تصمیم عبارت است ازجمع نسبتهای دادههای متعلق به یک دسته خاص برای تمام دستههایی که در گره نشان داده شدهاند که در لگاریتم پایه دو آن نسبت ضرب شده است. آنتروپی یک تقسیم به صورت مجموع آنتروپی تمام گرههای ناشی از تقسیم که بوسیله نسبت دادههای هر گره وزندهی شده است بدست میآید ADDIN EN.CITE
شهرابی1390b42(شهرابی 1390b)42426(شهرابی 1390b). الگوريتم ID3 از بهره اطلاعات براي انتخاب خصیصه استفاده ميکند.
نسبت بهره: اندازهگیری آنتروپی زمانی با مشکل مواجه میشود که به یک تقسیمبندی با متغیرهای دستهای مواجه شویم. مشکل در اینجا کاهش تعداد دستههای نمایش داده شده در هر گره و متعاقب آن کاهش آنتروپی است که صرفا از شکستن مجموعه دادههای بزرگتر به زیرمجموعههای کوچکتر ناشی میشود. کاهش آنتروپی که مربوط به تعداد شاخهها باشد را اطلاعات نهادی یک تقسیمبندی مینامند. اطلاعات نهادی موجب میشود تا درخت تصمیم ایجاد شده پر برگ و بار شود. درختهای پر برگ با تقسیمات متعدد چند مسیری مطلوب نیستند چرا که این تقسیمات به تعداد کم دادهها در هر گره منجر شده و مدلهای حاصله از این طریق ناپایدار خواهند بود. برای رفع این مشکل، از نسبت کل بهره اطلاعاتی استفاده میکنند ADDIN EN.CITE
شهرابی1390b42(شهرابی 1390b)42426(شهرابی 1390b). الگوريتم C4.5 از نسبت بهره براي انتخاب خصیصه استفاده ميکند.
معيارهاي انتخاب خصیصه ديگري هم وجود دارد، که ميتوان به درخت تصميم CHAID، که براي انتخاب خصیصه از آزمون χ^2 استفاده ميکند و يا C-SEP که براي انتخاب خصیصه از آماره G (که بسيار نزديک به توزيع χ^2 است) استفاده ميکند، اشاره کرد.
از درخت تصمیم ایجاد شده میتوان برای پیشبینی برچسب نمونههای جدید بر اساس مقادیر خصیصههای آنها استفاده کرد. درخت تصمیم همچنین قوانین همبستگی میان خصیصهها را آشکار میسازد. برخی از نقاط ضعف و قوت درختهای تصمیم عبارتند از:
قوانین تولید شده توسط آنها، تمامی کلاسهای موجود در مجموعه داده آموزشی را به بهترین شکل توصیف میکند.
روابط موجود میان قوانین را آشکار ساخته؛ در نتیجه، درک ساختار دادهها را ساده میسازد.
از نظر محاسباتی ساده هستند.
این امکان وجود دارد که قوانین بسیار پیچیدهای را تولید کنند که در نتیجه آن، هرس کردن با دشواریهایی مواجه خواهد بود.
قادر هستند تا تعداد زیادی از قوانین متناظر را تولید کنند که در صورت عدم استفاده از تکنیکهای هرس، درک آنها سخت خواهد بود.
به منظور ذخیرهسازی کل درخت و استخراج قوانین، به حافظه زیادی نیاز است.
شبکههای عصبی
شبکههای عصبی مصنوعی (ANN) شبکهای عظیم از نرونهای محاسباتی به هم پیوسته هستند که باساختار فرایندی بصورت موازی توزیع شده نشان داده میشوند. ایده اصلی این شبکهها از ساختار شبکههای عصبی بیولوژیک الهام گرفته شده است؛ زمانی که در سال 1943، وارن مک کالچ به همراه والتر پیتس برای توضیح نحوه عملکرد نرونهای بیولوژیک به مدلسازی پرداختند ADDIN EN.CITE
شهرابی1390b42(شهرابی 1390b)42426(شهرابی 1390b). اگرچه این مدل فقط دارای یک نرون بود و توانایی محاسباتی محدودی داشت، ولی نقطه عطفی بود برای توسعه و پیشرفت شبکههای عصبی قویتر و پیچیدهتر؛ به گونهای که امروزه شبکههای عصبی کاربرد گستردهای در مسائل پیشبینی، دستهبندی و خوشهبندی دارد.
به طور کلی، شبکههای عصبی توسط سه مولفه زیر معرفی میشوند ADDIN EN.CITE
Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004):
ساختار
رو به جلو
بازگشتی
نوع یادگیری
یادگیری با ناظر
یادگیری بدون ناظر
ترکیبی
تابع فعالسازی
باینری
پیوسته
ساختار شبکههای عصبی از تعدادی نرون و اتصالات موزون بین آنها تشکیل شده است (شکل 2-4). معمولا این نرونها در لایههایی شامل لایه ورودی، لایههای پنهان و لایه خروجی سازمان مییابند. در ساختار رو به جلو، تمامی اتصالات بین نرونها به سمت جلو بوده و هیچ نرونی به نرونهای لایه قبل اتصال ندارد. ولی چنین اتصالاتی را در ساختار بازگشتی خواهیم داشت. فرآیند یادگیری شبکههای عصبی نیز مانند آنچه در دادهکاوی هدایتشده و غیر هدایتشده ذکر شد، میتواند بصورت با ناظر و بدون ناظر باشد. در یادگیری با ناظر، دادههای آموزشی برچسبی به عنوان متغیر هدف دارند ولی یادگیری بدون ناظر فاقد متغیر هدف است. در یادگیری ترکیبی، از هر دو فرآیند در شبکه عصبی استفاده میشود. تابع فعالسازی نیز خروجی هر نرون را بر اساس ورودیهای آن و همچنین حد آستانه نرون مشخص میکند. تابع علامت و تابع گامی مثالهایی از تابع فعالسازی باینری هستند و تابع سیگموید و تانژانت هایپربولیک و خطی جزو توابع فعالسازی پیوسته هستند ADDIN EN.CITE
Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004).
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 4 : شبکه عصبی با دو لایه پنهان
مانند دیگر الگوریتمهای یادگیری ماشین، یادگیری شبکههای عصبی نیز با دادههای آموزشی صورت میگیرد. در پایان این مرحله، برای تمامی اتصالات نرونها وزنهای مناسبی قرار داده میشود. سپس، برای ارزیابی آن از دادههای تست استفاده میکنند. شبکه عصبی آموزش دیده شده مانند یک جعبه سیاه کار میکند؛ در واقع درکی از وزنها و لایههای پنهان به دادهکاو نمیدهد. جعبه سیاه بودن شبکههای عصبی از معایب آن به حساب میآید. از دیگر معایب این الگوریتم این است که فقط در مورد دادههای عددی کار میکنند.
الگوریتمهای خوشهبندی
چنانچه پیشتر توضیح داده شد، یکی از وظایف اصلی دادهکاوی خوشهبندی است. در خوشهبندی دادهها بر اساس شباهتی که به یکدیگر دارند به خوشههایی افراز میشوند؛ بنابراین، معیار اصلی این تکنیک اندازهگیری شباهت دادهها است. لازم است قبل از توضیح هرگونه الگوریتم خوشهبندی، به معرفی انواع فاصلهها به عنوان معیاری برای اندازهگیری شباهت بپردازیم.
فرض کنید دادههای ورودی دارای n ویژگی باشند، بنابراین هر داده را میتوان بوسیله یک بردار n بعدی نمایش داد. اگر x و y دو نمونه از دادهها باشند خواهیم داشت:
x=x1,x2,…,xn, y=y1,y2,…,yn
جدول 2-3 تعاریف ریاضی انواع فاصلهها را نمایش میدهد ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388).
جدول STYLEREF 1 \s 2 SEQ جدول \* ARABIC \s 1 3 : انواع فاصلهها
تابع فاصلهفرمولفاصله اقلیدسیdx,y=i=1n(xi-yi)2فاصله همینگdx,y=i=1n|xi-yi|فاصله چبیشفdx,y=maxi=1,2,…,n|xi-yi|فاصله مینکوفسکیdx,y=pi=1n(xi-yi)p p≻0فاصله کانبراdx,y=i=1n|xi-yi|xi+yiجدایی زاویهایdx,y=i=1nxiyi[i=1nxi2i=1nyi2]12
ما در این تحقیق به معرفی مختصر دو تکنیک خوشهبندی اکتفا کردهایم.
K – Means:
در این الگوریتم تعداد خوشهها (K) مشخص بوده و الگوریتم با تابع هدف حداقل نمودن فواصل درون یک خوشه به انتخاب K مرکز خوشه میپردازد. گامهای این الگوریتم به صورت زیر است:
انتخاب k مرکز خوشه اولیه به صورت تصادفی
خوشهبندی دادهها: هر داده به خوشهای تعلق دارد که کمترین فاصله را با مرکز آن خوشه داشته باشد.
به روز کردن k مرکز خوشه از طریق محاسبه میانگین وزنی اعضای هر خوشه
مراحل 2 و 3 تا زمان یافتن حداقل فاصله درون خوشهای ادامه مییابد.
نگاشتهای خودسازمانده (SOM):
تکنیک SOM که توسط کوهنن معرفی شد، نوعی شبکه عصبی است که به خوشهبندی دادهها میپردازد. این شبکه عصبی در حیطه شبکههای عصبی بدون ناظر قرار دارد و بدین معنی است که برای به روز کردن وزنهای اتصالات شبکه نیازی به تاثیر بازخورد ناظر نیست؛ به همین دلیل به عنوان خودسازمانده شناخته میشوند. ساختار این شبکه فقط دارای دو لایه است؛ یک لایه ورودی که به اندازه ابعاد (تعداد ویژگیها) دادههای ورودی نرون دارد و یک لایه خروجی که به اندازه تعداد خوشهها نرون دارد و میتوانند در ابعاد مختلف سازمان یابند. تمامی نرونهای ورودی به تمامی نرونهای خروجی متصل هستند؛ بنابراین، برای هر نرون خروجی یا به عبارت دیگر برای هر خوشه، اوزان کمانهای متصل به آن خوشه را میتوان در غالب یک بردار وزن برای آن خوشه در نظر گرفت. ابعاد بردارهای وزن خوشهها همبعد بادادههای ورودی است ADDIN EN.CITE
Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004). شکل 2-5 ساختار این شبکه را نشان میدهد.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 5 : ساختار SOM
الگوریتم SOM بر مبنای یادگیری رقابتی است؛ بدین معنا که نرونهای خروجی بر اساس شباهتی که با بردار ورودی دارند با یکدیگر رقابت میکنند و نرونی که بیشترین شباهت را با بردار ورودی داشته باشد به عنوان نرون برنده انتخاب میشود. بر اساس همین الگوریتم یادگیری رقابتی است که SOM قادر خواهد بود دادههای ورودی را بر اساس شباهت موجود بین دادهها خوشهبندی کند. از آنجایی که در SOM ویژگیهای توپولوژیکی مربوط به مجموعه داده حفظ میشود، میتوان از آن برای اهداف کاهش بعد نیز استفاده کرد. در واقع این بدان معناست که، اگر دو داده در فضای ابعاد اولیه به یکدیگر نزدیک باشند، این وضع در فضای تقلیل یافته نیز حفظ میشود.
قبل از بیان گامهای الگوریتم لازم است با مفهوم همسایگی در این الگوریتم آشنا شویم. شعاع همسایگی برای یک نرون لایه خروجی مشخص کننده نرونهای همسایه آن نرون است. مراحل الگوریتم SOM به صورت زیر است ADDIN EN.CITE
Karray200443(Karray and Silva 2004)43436Fakhreddine O. KarrayClarence de SilvafirstSoft Computing and Intelligent Systems design Theory, Tools and Applications2004EnglandPearson Education Limited(Karray and Silva 2004):
تمامی وزنها (wijها) و نرخ یادگیری α و شعاع همسایگی Nc مقداردهی اولیه میشوند.
یک داده ورودی x از مجموعه دادههای ورودی به شبکه معرفی میشود.
انتخاب نرون برنده بر اساس معیار فاصله (معمولا فاصله اقلیدسی در نظر گرفته میشود) :
l=x-wc= minijx-wij
به روز کردن وزن نرون برنده و نرونهای همسایه از تکرار k به تکرار k+1:
wijk+1=wijk+∝kx-wijk if i,j∈Nc(k)wijk otherwise
تکرار گامهای 2 تا 4 به ازای تمامی برداهای ورودی.
کاهش نرخ یادگیری و شعاع همسایگی بر اساس رویکردی مشخص برای دوره بعد.
تکرار گامهای 2 تا 6 تا زمان تحقق شرط خاتمه (معمولا تعداد مشخصی تکرار).
K - نزدیکترین همسایه
اين الگوريتم نیز بر اساس شباهتها کار ميکند. هر داده اگر داراي n ويژگي باشد يک نقطه در فضاي n بعدي است. تمام دادههاي آموزشي در فضاي n بعدي ذخيره ميشوند. زماني که دادهاي با کلاس نامشخص داده شود، k همسايه نزديک به آن در اين فضا شناسايي میشوند و برچسب داده مورد نظر با توجه به برچسب این k همسایه تعیین میشود ADDIN EN.CITE
Larose20052(Larose 2005)226Daniel T. LaroseDiscovering knowledge in data : an introduction to data mining2005Hoboken, New JerseyJohn Wiley & Sons, Inc(Larose 2005). براي محاسبه فاصله بين رکوردها از فاصله متري و به طور معمول از فاصله اقليدسي استفاده ميشود.
مقدار پارامتر k، بهصورت تجربي تعيين ميشود. ابتدا با 1=k شروع و در هر مرحله با استفاده از دادههاي تست نرخ خطاي دستهبندي محاسبه ميشود؛ در هر مرحله مقدار k يک واحد افزايش داده ميشود. در انتها کوچکترين k که کمترین نرخ خطا را داشته باشد، انتخاب ميشود. کوچک بودن مقدار k باعث ميشود داده جديد به تعداد نقاط کمتري وابسته باشد، در اين صورت خطا زياد ميشود. حال اگر مقدار k بزرگ باشد، داده جديد به کلاسهاي بيشتري وابسته ميشود، در اين صورت نيز خطا زياد است. مقدار k بايد يک مقدار مياني باشد.
از آنجایی که این الگوریتم مدلی برای دستهبندی دادهها ایجاد نمیکند و فقط دادههای آموزشی را در یک فضای n بعدی قرار میدهد، زمان اجرای الگوریتم در مرحله آموزش کم است. ولی زمانی که داده جدیدی به الگوریتم معرفی میشود، برای تعیین برچسب آن محاسبات بیشتری باید انجام دهد. بنابراین زمان اجرا در مرحله تست بیشتر خواهد بود.
ماشین بردار پشتیبان (SVM)
ماشینهای بردار پشتیبان در ابتدا توسط وپنیک در دهه 90 میلادی توسعه داده شدند ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). این الگوریتم ابزاری قدرتمند برای حل مسائل دستهبندی دو کلاسه است بگونهای که بتوان کلاسها را بطور خطی از یکدیگر جدا کرد. هدف SVM عبارت است از یافتن ابرصفحه جداکننده نقاط دادهای متعلق به دو کلاس با بیشترین حاشیه و بهترین توانایی تعمیم. حاشیه، از دیدگاه هندسی عبارت است از فاصله موجود بین ابر صفحه و نزدیکترین نمونه آموزشی. از یک منظر دیگر، حاشیه اینگونه تعریف میشود: مقدار فضا یا جدایی موجود میان دو کلاس که توسط ابرصفحه تعریف میشود. به نزدیکترین نمونههای آموزشی به ابر صفحه جداکننده به اصطلاح بردار پشتیبان گفته میشود ADDIN EN.CITE
شهرابی13883(شهرابی and شجاعی 1388)336(شهرابی and شجاعی 1388). شکل 2-6 خط جداکننده را به همراه بردارهای پشتیبان در فضای دو بعدی نشان میدهد.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 6: خط جداکننده SVM
تکنیک SVM در برخورد با دادههایی که به صورت خطی از یکدیگر جدا نمیشوند از یک نگاشت غیرخطی برای تبدیل دادههای آموزشی به دادههایی با ابعاد بالاتر استفاده میکند. بدین ترتیب دادههای تبدیل شده در ابعاد بالاتر به صورت خطی جدا پذیر خواهند بود. تابعی که وظیفهی این نگاشت را به عهده دارد تابع کرنل نامیده میشود. همچنین، تعمیمهایی از الگوریتم SVM برای حل مسائل دستهبندی چندکلاسه توسعه یافته است. اگرچه بنابر آنچه که گفته شد تکنیک SVM ابزاری قدرتمند برای حل اکثر مسائل دستهبندی است، ولی از جمله مهمترین معایب آن میتوان به این نکته اشاره کرد که این تکنیک به محاسبات پیچیده و زمانبر نیاز دارد. به عبارت دیگر، SVM دارای پیچیدگی الگوریتمی بالا است و همچنین نیاز به حافظه زیادی دارد.
بیز سادهلوحانه
طبقهبندي کنندههاي بيز، روشهایي آماري براي دستهبندي هستند. در اين الگوريتمها احتمال عضويت دادهها در کلاس محاسبه ميشود. اين طبقهبندي کننده بر پايه قضيه بيز کار ميکند. از مزاياي آن ميتوان به سرعت و دقت بالاي آن اشاره کرد. پس زماني که مجموعه داده بزرگ باشد، ميتوان از اين طبقهبندي کننده استفاده کرد.
اين الگوريتم احتمال عضويت داده جديد را در هر کلاس محاسبه ميکند و داده متعلق به کلاسي خواهد بود که بيشترين احتمال عضويت را داشته باشد. در اين الگوريتم براي محاسبه احتمال عضويت فرض شده است که ويژگيها از هم مستقل هستند، بهعبارت ديگر فرض ميشود بين ويژگيها هيچ همبستگي وجود ندارد. اگرچه این الگوریتم از قدرت دستهبندی بالایی برخوردار است ولی گاهی اوقات مفروضات آن ممکن است بر دقت دستهبندی اثر منفی داشته باشند.
سیستمهای چند دستهبند
سیستمهای چند دستهبند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی پیچیده هستند. قدرت این سیستمها در اجازه استفاده همزمان از روشهای دستهبند متنوع برای حل یک مسئله خاص است. این سیستمها با ترکیب خروجی مجموعهای از دستهبندهای متفاوت سعی در بهبود کارایی و رسیدن به دقت بالاتر را دارند. بطور کلی MCSs شامل گروهی از الگوریتمهای دستهبند متفاوت و همچنین یک تابع تصمیم برای ترکیب خروجی دستهبندها است. بنابراین، طراحی چنین سیستمی شامل دو بخش است: طراحی گروه دستهبندها و طراحی تابع ترکیب ADDIN EN.CITE
Ghosh200244(Ghosh 2002)44445Joydeep GhoshFabio RoliJosef KittlerMulticlassifier Systems: Back to the FutureMultiple Classifier Systems1-152002Springer Berlin Heidelberg(Ghosh 2002).
در بخش طراحی گروه دستهبندها دو ساختار متفاوت قابل اجراست: ساختار موازی و ساختار آبشاری ADDIN EN.CITE
Ghosh200244(Ghosh 2002)44445Joydeep GhoshFabio RoliJosef KittlerMulticlassifier Systems: Back to the FutureMultiple Classifier Systems1-152002Springer Berlin Heidelberg(Ghosh 2002). در شکل 2-7 این دو ساختار نمایش داده شده است. همچنین در بخش ترکیب نتایج دستهبندها، توابع ترکیب گوناگونی وجود دارد. میانگین و میانگین وزنی، روشهای ترکیب غیر خطی و روش انتگرال فازی از جمله روشهایی هستند که در این بخش مورد استفاده قرار میگیرند. روشهای ترکیب غیر خطی شامل متدهای رأی گیری، متدهای رتبه دهی و متدهای احتمالی میباشد. توضیح کامل روشهای ترکیب نتایج دستهبندها در ADDIN EN.CITE
Xu199245(Xu, Krzyzk et al. 1992)454517L. XuA. KrzyzkC. SuenMethods of combining multiple classifiers and their application to handwriting recognitionIEEE Transactions on Systems, Man and CyberneticsIEEE Transactions on Systems, Man and Cybernetics418-4352231992(Xu, Krzyzk et al. 1992) و ADDIN EN.CITE
Ruta200046(Ruta and Gabrys 2000)464617Dymitr RutaBogdan GabrysAn Overview of Classifier Fusion MethodsComputing and Information SystemsComputing and Information Systems1-1072000(Ruta and Gabrys 2000)ارائه شده است.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 7: ساختار گروه دستهبندها
ساختار سیستم و همچنین نوع تابع ترکیب مورد استفاده با توجه به مسئله مورد بررسی انتخاب میشوند.
الگوریتم ژنتیک
محاسبات تکاملی، بر مبنای تکامل یک جمعیت از جوابهای کاندید برای حل مسئلههای بهینهسازی با الهام از عملگرهای انتخاب طبیعی توسعه یافتهاند. الگوریتم ژنتیک با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکاملیافتهتر از فرآیند تولید مثل الهام میگیرد و کاربرد گستردهای در حل مسائل NP-hard دارد ADDIN EN.CITE
Mitra20035(Mitra and Acharya 2003)556Sushmita MitraTinku AcharyaData Mining: Multimedia, Soft Computing, and Bioinformatics2003A JOHN WILEY & SONS, INC.(Mitra and Acharya 2003). این الگوریتم با انتخاب دو عضو تصادفی از میان بهترینهای جمعیت و انجام عمل تقاطع و جهش و تکرار آن، نسل بعدی جمعیت را تولید میکند. برای درک بهتر الگوریتم ژنتیک به تعاریفی نیاز است که به قرار زیر است:
ژن: واحد پایه ژنتیک است.
کروموزوم: به گروهی از ژنها اطلاق میشود. هر عضو از جمعیت یک کروموزون است و معمولا به صورت آرایه پیادهسازی میشود.
تقاطع: عملگری است که بر روی دو کروموزوم انتخاب شده به عنوان والدین اعمال میشود برای تولید فرزندان.
جهش: عملگری است که بر روی یک فرزند اعمال میشود برای تغییر مقدار یک ژن.
آنچه در این میان از اهمیت ویژهای برخردار است نحوه ارزیابی اعضای جمعیت برای تعیین بهترین کروموزومها است. در الگوریتم ژنتیک این ارزیابی توسط تابعی به عنوان تابع برازندگی انجام میشود. تابع برازندگی با توجه به مسئله تعریف میشود و به هر یک از اعضای جمعیت مقداری را بر اساس مقادیر ژنها نسبت میدهد. مراحل الگوریتم ژنتیک به صورت زیر است:
ایجاد جمعیت اولیه بصورت تصادفی
محاسبه تابع برازندگی برای هر عضو
انتخاب والدین با توجه بر مقادیر تابع برازندگی هر عضو
انجام عمل تقاطع و تولید جمعیت فرزندان
انجام عمل جهش با احتمالی خاص
ایجاد جمعیت جدید
اگر شرایط خاتمه برقرار نبود به گام 2 برگرد در غیر این صورت به گام 8 برو
پایان.
برای هر یک از گامهای این الگوریتم رویکردهای متفاوتی وجود دارد که این امر موجب شده تا نسخهها و توسعههای زیادی از الگوریتم ژنتیک تولید شود و به ابزار قدرتمند برای حل مسائل بهینهسازی تبدیل شود.
کاربرد دادهکاوی در CRM
دادههای مربوط به مشتریان و تکنولوژی اطلاعات، زیر ساختهایی هستند که هر استراتژی موفق CRM بر پایه آنها ساخته میشوند. بعلاوه رشد سریع اینترنت و تکنولوژیهای مربوط به آن، بصورت گستردهای باعث افزایش فرصتهای بازاریابی گردیده و روش مدیریت روابط بین شرکتها و مشتریانشان را تغییر داده است.
ابزارهای دادهکاوی در راستای تحلیل دادههای مشتری در ساختار CRM تحلیلی، بسیار مرسوم هستند. بسیاری از سازمانها دادههایی در مورد مشتریان جاری، مشتریان بالقوه، تامینکنندگان و شرکای تجاری جمعآوری و ذخیره میکنند. عدم توانایی کشف اطلاعات ارزشمند پنهان در میان این دادهها مانع از این میشود که سازمانها این دادهها را به دانش مفید و با ارزش تبدیل کنند. ابزارهای دادهکاوی کمک میکنند تا سازمانها این دانش نهفته را از میان حجم عظیم دادهها استخراج کنند.
کاربرد ابزارهای دادهکاوی در CRM، روندی نوظهور در تجارت جهانی است. با وجود دادههای جامع مشتریان، تکنولوژی دادهکاوی میتواند هوش تجاری با قابلیت ایجاد فرصتهای جدید فراهم آورد. تحلیل و فهم رفتار و مشخصات مشتری مبنای توسعه یک استراتژی CRM رقابتی برای بدست آوردن و نگه داشتن مستریان بالقوه و ماکزیمم کردن ارزش مشتری است.
از آنجایی که تکنولوژی CRM در ارتباط مستقیم با دادههای مشتری است و هر کجا که دادههای وسیع وجود داشته باشد ابزارهای دادهکاوی میتوانند مفید باشند، اکثر تکنیکها و استراتژیهای CRM میتوانند از دادهکاوی بهره بگیرند. در ادامه نمونههایی از این کاربردها را توضیح خواهیم داد.
دادهکاوی برای بهبود بازاریابی مستقیم
از تبلیغات میتوان برای رسیدن به مشتریان بالقوهای که چیزی در مورد آنها به عنوان یک فرد نمیدانیم استفاده کرد. اما در مقابل، بازاریابی مستقیم، نیازمند داشتن حداقل اندکی اطلاعات مانند نام فرد به همراه آدرس، شماره تلفن یا آدرس پست الکترونیک است. پایهایترین کاربرد دادهکاوی، تعیین لیست مشتریان بالقوه برای برقراری تماس با آنها است.
در واقع، مرحله اول هدفگیری، نیازی به دادهکاوی ندارد بلکه تنها به داده نیاز است. حتی در کشورهای توسعهیافته هم دادههای بسیار کمی نسبت به بزرگی جامعه در دسترس است. در بسیاری از کشورها شرکتهایی وجود دارند که دادههایی را در سطح خانوارها در مورد موضوعات گوناگون از جمله درآمد، تعداد فرزندان، سطح تحصیلات و حتی نوع تفریحات جمعآوری کرده و میفروشند. از طرف دیگر، قوانین حاکم بر استفاده از این دادهها برای اهداف بازاریابی از کشوری به کشور دیگر متفاوت است.
میتوان دادههای در سطح خانوار را به طور مستقیم برای تقسیمبندی اولیه بر اساس درآمد، تملک خودرو و وجود فرزندان بکار برد. مشکل این است که حتی بعد از فیلتر کردن اطلاعات هم دادههای باقیمانده به میزان زیادی به تعداد مشتریان بالقوه که احتمال دارد جواب بدهند وابسته خواهد بود؛ بنابراین، کاربرد اصلی دادهکاوی در مورد مشتریان بالقوه، هدفگیری مشتریان یعنی پیدا کردن مشتریان بالقوهای که احتمالا به پیشنهاد ارائه شده پاسخ واقعی میدهند، است ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a).
فعالیتهای بازاریابی مستقیم معمولا دارای نرخهای پاسخ بسیار کم و تکرقمی هستند. از مدلهای پاسخ با تعیین مشتریان بالقوهای که احتمال پاسخ به یک درخواست مستقیم را دارند، برای بهبود نرخ پاسخ استفاده میشود ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). مفیدترین مدلهای پاسخ، تخمین واقعی از احتمال پاسخ را فراهم میکنند. هر مدلی که امکان رتبهبندی مشتریان بالقوه را بر اساس احتمال پاسخدهی فراهم کند، مناسب است. تکنیکهای دادهکاوی را میتوان برای مدلسازی پاسخ و بهبود بازاریابی مستقیم بکار برد.
بخشبندی مشتریان
بخشبندی مشتریان یکی از کاربردهای معمول دادهکاوی در رابطه با مشتریانی است که جذب سیستم شدهاند؛ هدف بخشبندی، همگن نمودن محصولات، خدمات و پیامهای بازاریابی با هر کدام از بخشها است ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). بخشبندی مشتریان پایه فعالیتهای شرکت در زمینههای فروش، بازاریابی و خدمت رسانی است. مشتریان در هر دسته دارای خصوصیات مشابهی هستند و مشتریان که در دستههای مختلف هستند ویژگیهای متفاوتی دارند. بخشبندی مشتریان بطور سنتی بر اساس تحقیقات در بازار و ویژگیهای جمعیتشناختی صورت پذیرفته و مثلا بخشهایی چـون "جوان و مجرد" بوجود میآید. مشکل انجام بخشبندی مشتریان بر اساس تحقیقات در بازار این است که بکارگیری نتایج حاصله از مطالعه برای مشتریانی که آن مطالعه شامل آنان نبوده مشکل است؛ از سوی دیگر، مشکل بخشبندی بر اساس ویژگیهای جمعیتشناختی هم این است که مثلا تمامی افراد "جوان و مجرد" یا "کسانی که تنها زندگی میکنند" به راستی دارای سلیقه و گرایشی نیستند که به آنها در مورد کالاها و خدمات نسبت داده شده است.
تحلیل تعداد محدودی از متغیرها و نداشتن نگاه جامع مشتمل بر تمامی متغیرها از جمله معایب بخشبندی بوسیله ابزارهای تحقیقات بازار است. دانش دادهکاوی با برخورداری از توانمندی در نظر گرفتن تمامی متغیرها، نتایج کاملا عینی، واقعی و کاربردی ارائه مینماید ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a).
همچنین به منظور پیادهسازی روشهای بازاریابی مستقیم از تکنیکهای خوشهبندی استفاده میشود تا با تقسیمبندی مشتریان در خوشههای مختلف از این خوشهها به عنوان مبنای دستهبندی و پس از آن پیشبینی دسته هر مشتری استفاده میشود ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). بخشبندی مشتریان اساس بازاریابی و سرویسدهی اثربخش یک سازمان است که تعداد زیاد مشتریان را در دستههایی طبقهبندی میکند که چنانچه ذکر شد مشتریان یک دسته دارای خصوصیات مشابهی با هم و خصوصیات متفاوتی با مشتریان سایر گروهها هستند. در مقایسه با روشهای سنتی بخشبندی مشتریان، استفاده از تکنیکهای دادهکاوی مزایایی دارد که در ذیل به آنها اشاره میکنیم:
نتایج بخشبندی به کمک دادهکاوی بر اساس واقعیت دادهها شکل میگیرد و نقش فاعلی افرادی که دادهها را پردازش میکنند حذف میگردد که باعث میشود نتایج نهایی هدف نشان دادن تفاوتهای میان جمعیتها را بیشتر محقق کند.
مشخصات تقسیمبندی مشتریان در گروههای متفاوت را به صورت جامعتر نمایش میدهد که این موضوع منجر به شناخت کاملتر متخصصان بازاریابی از مشتریان میشود و از این طریق برنامههای بازاریابی هدفمند و اختصاصی قابل اجرا است.
تغییرات رفتاری مشتریان میتواند به سادگی با کنار هم گذاشتن مدلهای تحلیل خوشهبندی و به روز کردن گروه مشتریان به صورت منظم پیکیری شود.
قرار دادن تعدای از ویژگیهای مشتریان در مجموعهای تحت عنوان پروفایل مشتریان روش مرسوم است که از آن برای بخشبندی مشتریان در گروههای با رفتار مشابه مثلا خرید محصولات یکسان، استفاده میشود. دادهکاوی میتواند نرخ پاسخ کمپینهای بازاریابی را با تقسیمبندی مشتریان به گروههای با خصوصیات و نیازهای متفاوت افزایش دهد.
افزایش ارزش مشتری
محاسبه ارزش مشتری پیچیده است و این محاسبات بطور معمول شامل یافتن تعاریف صحیح مالی میشوند. یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). ولی هزینهها بسیار مشکل آفرین هستند؛ تجارتها دارای انواع هزینههایی هستند که احتمالا از طریق خاصی به مشتریان اختصاص مییابند. حتی با در نظر نگرفتن هزینههای تخصیص یافته و توجه به هزینههای مستقیم، باز هم مسائل، همچنان گیجکننده خواهد بود. از طرف دیگر، ممکن است هزینهها برای مشتریان مشابه، متفاوت باشد که این امر محاسبه ارزش مشتری را پیچیدهتر میکند. از دادهکاوی میتوان برای برآورد ارزش آینده مشتریان استفاده کرد؛ این امر شامل تخمین سود حاصله از یک مشتری در هر واحد زمان و سپس تخمین این سود برای بقیه عمر مشتری است.
به منظور افزایش ارزش کسب شده از مشتریان موجود، استراتژیهای فروش جانبی بکار گرفته میشود. فروش جانبی بر اساس اصل برد – برد بنا شده است؛ یعنی شرکتها محصولات جدیدشان را به مشتریان جاری خود میفروشند تا از این طریق اهداف دو طرف عرضه و تقاضا برآورده شود. مشتری به آسانی خدمت یا محصول مورد تقاضای خود را بدست میآورد و سازمانها از طریق افزایش فروش خود سود کسب میکنند. در واقع فروش جانبی سود حاصله از مشتریان موجود را افزایش میدهد.
در مورد مشتریان فعلی، بیشترین تمرکز CRM بر افزایش سوددهی از طریق فروش جانبی است. از دادهکاوی برای تعیین اینکه چه پیشنهادی را به چه کسی و در چه زمانی عرضه کرد استفاده میشود. یکی از روشها در فروش جانبی که برای اجناس خردهفروشی بسیار مناسب است استفاده از قوانین همبستگی است. از قوانین همبستگی به منظور یافتن خوشههایی از محصولات که معمولا با هم فروخته میشوند یا بوسیله فرد یکسانی در طول زمان خریداری میگردند، استفاده میشوند. مشتریانی که برخی و نه تمام اقلام موجود در یک خوشه را خریداری میکنند، مشتریان بالقوه مناسبی برای خرید سایر اقلام آن خوشه هستند.
دادهکاوی و افزایش ارزش دوره عمر مشتری
در برخی منابع، رویکرد CRM در چرخه عمر مشتری را متشکل از سه مرحله زیر در نظر گرفتهاند ADDIN EN.CITE
اکبری13896(اکبری 1389)6632(اکبری 1389):
بدست آوردن مشتری
افزایش ارزش مشتری
حفظ مشتریان خوب
دادهکاوی میتواند در هر یک از مراحل ذکر شده کارایی و سوددهی را افزایش دهد. اولین قدم در CRM شناسایی مشتریان احتمالی و تبدیل آنها به مشتریان فعال است. جذب مشتری به معنای بالفعل درآوردن تقاضای مشتریانی است که اطلاعات کمی از محصولات شما دارند. دادهکاوی میتواند بصورت مناسبی مشتریان را دستهبندی کند، مشتریان احتمالی را شناسایی کند و از این طریق نرخ پاسخ به فعالیتهای بازاریابی را افزایش دهد. چنانچه قبلا ذکر شد، مدلهای پاسخ از ابزارهای کاربردی دادهکاوی در این زمینه هستند که در واقع از تکنیکهای دستهبندی و پیشبینی برای تشخیص مشتریانی که احتمالا به یک محصول یا خدمت پاسخ مثبت میدهند، استفاده میکنند.
کمپینهای بازاریابی یکی دیگر از استراتژیهای CRM است که در مرحله جذب مشتری میتواند مفید باشد. دادهکاوی کمک میکند تا شرکتها با هزیتههای کمتر و استراتژیهای جذب کاراتر با توجه به خصوصیات متفاوت مشتریان، موفقیت بیشتری در کسب مشتریان داشته باشند. روشهایی چون بخشبندی بازار هدف و مشتریان برای انجام بازاریابی هدفگرا متداولترین ابزارها در این مرحله بشمار میروند.
دادهکاوی میتواند با فهم فروش جانبی به بازاریابی موثرتر کمک کند. با آنالیز رفتار مشتریان موجود میتوان سرویسها و محصولات دیگر را به آنان ارائه کرد و با دستهبندی مشتریان میزان پاسخگویی مشتریان به کمپینهای بازاریابی را افزایش داد. همچنین، از طریق دادهکاوی میتوان مشتریان باارزشتر سازمان را شناسایی کرد. مشتریانی که مصرف بیشتری دارند و به محصولات بیشتری پاسخ مثبت میدهند و نسبت به سازمان وفادارتر هستند، مشتریان باارزش به حساب میآیند.
بنابراین، در مرحله دوم یعنی افزایش ارزش مشتریان موجود، با استفاده از تکنیکهای دادهکاوی و تحلیل دادههای مربوط به رفتار مشتریان و خریدهایشان، میتوان پیشنهادهای مناسبی برای خرید سایر کالاها به آنها ارائه داد تا از این طریق ارزش مشتریان برای شرکت افزایش یابد بدون اینکه بدلیل پیشنهادات نامناسب موجب نارضایتی آنها شویم. همچنین، به کمک دادهکاوی میتوان روابط را با مشتریان شخصیسازی کرد به نحوی که در مراجعات مجدد آنها با توجه به خریدهای گزشتهشان، محصولات جدید و مرتبط که احتمالا مورد علاقهشان است به آنها پیشنهاد شوند. چنین فرایندی با استفاده از تکنیکهای مختلف دادهکاوی همچون قوانین همبستگی و خوشهبندی قابل انجام است ADDIN EN.CITE
اکبری13896(اکبری 1389)6632(اکبری 1389).
در مرحله سوم، یعنی حفظ مشتریان خوب، آنچه قابل توجه است ذکر این نکته است که امروزه در سازمانها هزینهای که صرف جذب مشتری جدید میشود بسیار بیشتر از هزینهای است که سازمانها برای نگهداری مشتریان موجودشان انجام میدهند. بسیاری از شرکتها بر این باورند که هزینه جذب یک مشتری جدید بین 6 تا 8 برابر حفظ مشتری موجود است. از این جهت، سازمانها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان میکنند.
تحلیل وفاداری مشتری، سنجش میزان ماندگاری و ثبات مشتری است. سازمانها تلاش میکنند تا با ارزیابی میزان وفاداری مشتریانشان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژیهای موثر وفادارسازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری مینماید تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد میکنند.
دادهکاوی میتواند از طریق تحلیل رفتار گذشته و تطبیق آن با رفتار مشتریان از دست رفته پیشین، مشتریانی که دارای احتمال بالای از دست رفتن هستند را شناسایی و پیشبینی کند. برای ساخت چنین مدلهایی میتوان مشتریان را به سه دسته تقسیم کرد: اول مشتریانی که ارزشی برای سازمان ندارند. دومین دسته مشتریان با ارزش پایدار برای سازمان و دسته سوم مشتریان ناپایدار که به دنبال قیمت و کیفیت دلخواه خود هستند.
بنابر اصول CRM دسته سوم مهمترین دستهای هستند که باید از آنها نگهداری کرد. با شناسایی این گروه از مشتریان میتوان با تخصیص مشوقهایی چون تخفیفها یا خدمات رایگان، آنها را به استفاده از محصولات ترغیب نمود و میزان وفاداری آنها را افزایش داد. همانطور که پیش از این عنوان شد، از آنجایی که برای اکثر شرکتها هزینه جذب مشتری جدید بیشتر از حفظ مشتریان فعلی است، نیاز به استراتژیهای صحیح در راستای حفظ مشتریان بسیار با اهمیت است. اولین نکته در این مسئله داشتن توانایی پیشبینی مشتریانی است که به احتمال زیاد از دست میروند. با انتخاب دادههای مناسب میتوان با استفاده از تکنیکهای دادهکاوی مدلی ارائه نمود که بتواند رفتار مشتریان را پیشبینی کند. مرحله بعدی، شناسایی مشتریان خوب شرکت است که با استفاده از تحلیلهای ارزشگذاری مشتریان صورت میگیرد. در نهایت، باید راهکارهایی برای نگه داشتن مشتریان خوب شرکت ارائه نمود. بنابراین، در این بخش به سه مدل نیاز داریم؛ اول مدلی که مشتریانی که از دست خواهند رفت را پیشبینی کند، سپس مدلی که مشتریان خوب و با ارزش را از میان آنها شناسایی کند و نهایتا مدلی که روشهایی برای متقاعد کردن این مشتریان و حفظ آنها ارائه نماید ADDIN EN.CITE
Edelstein15(Edelstein 2000)151517herb Edelsteinbuild profitable customer relationship with data miningTwo Crows CorpTwo Crows Corp2000(Edelstein 2000).
ابعاد CRM و کاربردهای دادهکاوی
بر اساس ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009)، CRM دارای چهار بعد شناسایی مشتری، جذب مشتری، حفظ مشتری و توسعه مشتری است. این چهار بعد را میتوان به عنوان یک چرخه سیستم مدیریت مشتری در نظر گرفت.
شناسایی مشتری: CRM با شناسایی مشتری آغاز میشود. این فاز شامل هدفگذاری جمعیتی است که بیشترین احتمال برای تبدیل شدن به مشتری شرکت را دارند. علاوه بر این شامل تحلیل مشتریانی که در رقابت از دست رفتهاند و تعیین چگونگی برگرداندن آنها است.
تحلیل مشتری هدف و بخشبندی مشتری عناصر اصلی شناسایی مشتری هستند ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). تحلیل مشتری هدف شامل جستجوی بخشهای سودآور مشتریان از طریق آنالیز مشخصات پنهان مشتریان است. در این بخش از انواع تکنیکهای توصیفکننده و پیشبینیکننده دادهکاوی میتوان استفاده نمود.
جذب مشتری: این فاز در ادامه فاز شناسایی مشتری است. پس از شناسایی بخشهای مشتریان بالقوه، سازمانها میتوانند به صورت مستقیم تلاش و منابع خود را مصرف جذب مشتریان هدف نمایند. عنصر اصلی جذب مشتری، بازاریابی مستقیم است. بازاریابی مستقیم یک فرایند ارتقاء انگیزه مشتریان برای سفارش از طریق کانالهای مختلف است ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). برای نمونه، پست مستقیم و توزیع کوپن مثالهای معمولی بازاریابی مستقیم هستند.
حفظ مشتری: این فاز اساسیترین نگرانی برای CRM است. رضایت مشتری که در واقع قیاس بین انتظارات مشتری و احساس رضایتمندی وی است، مهمترین شرط برای حفظ مشتریان است. عناصر این فاز شامل بازاریابی یک به یک، برنامههای وفاداری و مدیریت شکایات هستند ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). بازاریابی یک به یک از ابزارهای دادهکاوی برای شخصیسازی نحوه ارتباط با هر یک از مشتریان استفاده میکند. بخشبندی و تحلیل ارزش مشتریان در این بعد نیز اهمیت و کاربرد فراوانی دارد.
توسعه مشتری: این فاز در بر گیرنده افزایش پایدار تعداد تراکنشها، ارزش تراکنشها و سودآوری مشتریان است. تحلیل ارزش دوره عمر مشتری، متقاعد کردن مشتری به خرید بیشتر، فروش جانبی و تحلیل سبد خرید عناصر این فاز هستند ADDIN EN.CITE
Ngai20097(Ngai, Xiu et al. 2009)7717E.W.T. NgaiLi XiuD.C.K. ChauApplication of data mining techniques in customer relationship management: A literature review and classificationExpert Systems with ApplicationsExpert Systems with Applications2592–2602362009(Ngai, Xiu et al. 2009). در واقع در این فاز از تکنیکهای دادهکاوی برای یافتن راهکارهای مناسب و کارا برای افزایش ارزش قابل اکتساب از مشتریان فعلی استفاده میشود.
استفاده از روش RFM برای تحلیل ارزش مشتریان روشی متداول است که در کنار تکنیکهای خوشهبندی کارایی مناسبی از خود نشان داده است. در این روش سه مشخصه تاخیر، فراوانی و مقدار پول به عنوان مبنای خوشهبندی و ارزشگذاری مشتریان در نظر گرفته میشوند ADDIN EN.CITE
Cheng20088(Cheng and Chen 2008)8817Ching-Hsue ChengYou-Shyang ChenClassifying the segmentation of customer value via RFM model and RS theory,expert system with application,expert system with application2008(Cheng and Chen 2008).
دادهکاوی و بازاریابی هدفمند
امروزه با تغییر رویکرد ارتباط با مشتریان، رویکرد شرکتها در بازاریابی از بازاریابی با حجم بالا به بازاریابی یک به یک تغییر یافته و همچنین شرکتها به جای هزینه فراوان برای جذب مشتریان جدید و افزایش سهم بازار خود به دنبال حفظ مشتریان فعلی و افزایش سوددهی آنها هستند. دادهکاوی به شرکتها کمک میکند تا هرچه بیشتر به سمت مشتریمداری حرکت کنند.
بازاریابان سه روش را برای افزایش ارزش مشتری مد نظر قرار دادهاند ADDIN EN.CITE
اکبری13896(اکبری 1389)6632(اکبری 1389):
افزایش میزان مصرف و استفاده مشتریان
فروختن محصول بیشتر به آنان
نگهداشتن مشتری برای دوره زمانی طولانیتر
به صورت عمومی چرخه عمر مشتریان دارای 4 مرحله است ADDIN EN.CITE
Rygielski20029(Rygielski, Wang et al. 2002)9917Chris RygielskiJyun-Cheng WangDavid C. YenData mining techniques for customer relationship managementTechnology in SocietyTechnology in Society483–502242002(Rygielski, Wang et al. 2002):
مشتریان احتمالی: افرادی که هنوز مشتری نیستند ولی در بازار هدف قرار دارند.
پاسخگوها: مشتریان احتمالی که به محصول یا خدمت مورد نظر علاقه نشان دادهاند.
مشتریان فعال: افرادی که در حال حاضر از محصول یا خدمت استفاده میکنند.
مشتریان سابق: افرادی که به دلایل مختلف دیگر ارزشی برای شرکت ندارند و در دامنه بازار هدف قرار نمیگیرند؛ یا افرادی که به سمت خرید از رقبا تغییر موضع دادهاند.
دادهکاوی در CRM در زمبنه ارتباط مناسب با هر یک از این گروهها مدلهای مناسبی ارائه میکند. به عنوان مثال میتوان از دادهکاوی برای پیشبینی این که کدامیک از مشتریان احتمالی میتوانند به مشتری فعال و سودآور تبدیل شوند، استفاده کرد.
دادهکاوی و رویگردانی مشتری
از دست دادن مشتری مهم است، زیرا هزینهای که برای جذب مشتری جدید مصرف میشود بسیار بیشتر از هزینهای است که صرف نگهداری مشتریان موجود میشود؛ این امر به خصوص در مورد صنایع قدیمی و بازار نسبتا اشباع شده بیشتر صدق میکند. وقتی بازار اشباع شود و نرخ پاسخگویی به فعالیتهای جذب مشتری کاهش یابد، هزینه جذب مشتریان جدید افزایش خواهد یافت. هدف دادهکاوی از تولید مدلهای رویگردانی مشتری، شناسایی مشتریان با ارزشی است که در خطر از دست رفتن قرار دارند. بر اساس این مدلها و برای حفظ مشتریان با ارزشی که بدون مشوقهای اضافی شرکت را ترک میکنند، پیشنهادهای خوبی داده میشود.
یکی از اولین چالشها در مدلسازی رویگردانی مشتری این است که تعیین کنیم از دست رفتن مشتری چیست و چه زمانی اتفاق افتاده یا میافتد ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a). تعیین و تشخیص این امر در برخی از صنایع دشوار است؛ زیرا در اکثر موارد نحوه رفتار مشتریان در هیچ پایگاه دادهای ثبت نمیشود. به عنوان مثال زمانی که یک مشتری وفادار، خرید معمول قهوهی خود را متوقف میکند و به مغازه دیگری مراجعه میکند، فروشنده مغازه قهوه که نوع سفارش وی را به خاطر دارد این مسئله را در مییابد ولی در هیچ پایگاه اطلاعاتی ذخیره نمیشود.
حتی زمانی که اطلاعات جامعی از مشتریان در اختیار باشد، تشخیص یک مشتری از دست رفته از کسی که برای مدتی قطع رابطه کرده دشوار است. ممکن است خرید بعدی یک مشتری وفادار با کمی تاخیر همراه باشد؛ در این صورت آیا میتوان وی را به عنوان مشتری رویگردان در نظر گرفت؟
کشف رویگردانی مشتری، زمانی که یک ارتباط پرداختی ماهانه مانند کارتهای اعتباری وجود داشته باشد کمی آسانتر است. همچنین مفهوم رویگردانی مشتری در تجارتهایی که مشتریان دارای یک اشتراک بلند مدت هستند، راحتتر از سایر موارد تعریف میشود؛ به همین دلیل، مدلسازی رویگردانی مشتری در این گونه تجارتها معمولتر است. شرکتهای تلفن راه دور، تلفن همراه، شرکتهای بیمه، شرکتهای خدمات مالی، تامینکنندگان خدمات اینترنت و تلویزیون کابلی، مجلات و برخی از خردهفروشان مثالهایی از این تجارتها هستند.
در نهایت، برای مدلسازی رویگردانی مشتری دو رویکرد اساسی وجود دارد. رویکرد اول، رویگردانی مشتری را به عنوان یک نتیجه دوگانه میبیند و پیشبینی میکند که کدام مشتری میماند و کدام میرود. رویکرد دوم، درصدد است که دوره بقای مشتری را پیشبینی کند.
رویکرد اول: پیشبینی و تعیین مشتریانی که سیستم را ترک میکنند
مدلسازی رویگردانی مشتری به صورت یک نتیجه دوگانه، نیازمند درنظر گرفتن یک افق زمانی است. این مدلها معمولا افق زمانی کوتاهی در حد 60 یا 90 روز دارند. البته افق زمانی نباید انقدر کوتاه باشد که زمانی برای انجام اقدامات پیشگیرانه بر اساس پیشبینیهای مدل وجود نداشته باشد. مدلهای روگردانی مشتری با نتایج دوگانه را میتوان با ابزارهای معمول دستهبندی مانند رگرسیون لجستیک، درختهای تصمیم و شبکههای عصبی تهیه کرد. دادههای پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف میکند، با برچسبی که نشان میدهد آیا مشتری در زمانهای بعدی فعال بوده یا نه ترکیب میشوند. وظیفه مدلسازی، ایجاد تمایز بین مشتریانی است که ماندهاند و آنهایی که رفتهاند.
معمولا پیشبینی کنندههای مدل رویگردانی مشتری، ترکیبی از اطلاعاتی هستند که یا در زمان جذب مشتری درباره آنها جمعآوری شده است؛ یا مانند دیرکرد در پرداختها و مشکلات رخ داده با خدمات، در زمان ارتباط با مشتری پیش آمده است. دسته اول مدلهای دادهکاوی پیشگوییکننده رویگردانی مشتری، اطلاعاتی را در مورد چگونگی کم کردن رویگردانیهای مشتریان در آینده با جذب نمودن مشتریانی با تمایل کمتر به رویگردانی فراهم میکنند. دسته دوم، بینشی برای کم کردن خطر رویگردانی مشتریانی که هماکنون وجود دارند فراهم میکند ADDIN EN.CITE
شهرابی13901(شهرابی 1390a)116(شهرابی 1390a).
رویکرد دوم: پیشبینی مدت زمانی که مشتریان باقی خواهند ماند
در این رویکرد، هدف درک این مطلب است که مشتری تا چه زمانی احتمال دارد باقی بماند. تخمین زمان نگهداری مشتری جزء مهمی از مدل ارزش عمر مشتری است و این تخمین میتواند مبنایی برای امتیاز وفاداری مشتری نیز باشد. یک مشتری وفادار کسی است که برای مدت طولانی در آینده باقی خواهد ماند، نه کسی که زمان زیادی را تا به امروز باقی مانده است.
یکی از رویکردهای مدلسازی طول عمر مشتری برای تخمین مدت زمان حفظ مشتری، داشتن تصاویر لحظهای از گسترهی جمعیت مشتریان فعلی و در نظر گرفتن وضعیت آنها در ابتدای جذب شدن به سیستم است. مشکل این رویکرد این است که هرچه مشتریان با طول عمر طولانیتر وجود داشته باشند، شرایط متفاوتتری در هنگام جذب شدنشان وجود داشته است. قطعا استفاده از خصوصیات مشتری که در بیست سال پیش مشترک سیستم شده است برای پیشبینی این که کدام یک از مشتریان امروزی برای مدت طولانی در آینده، مشترک خدمات ما خواهند بود راه مطمئنی نیست.
پیشینه تحقیق
تحقيقات متعددي در زمينه پيشبيني رويگرداني مشتري انجام شده است. در اين تحقيقات به دو موضوع بيشتر توجه شده است:
ساخت مدلهاي پيشبيني رويگرداني با کارايي و دقت بالا، در اين زمينه همچنين يافتن متغيرها و ويژگيهايي از رفتار مشتري که میتواند در ساخت مدل به ما کمک کنند، مد نظر قرار گرفته شده است.
يافتن فاکتورهاي تاثيرگذار بر رويگرداني مشتري، به عبارت ديگر، چه فاکتورهايي در رويگرداني مشتري تاثير مثبت يا منفي دارند.
از آنجایی که هدف ما در این تحقیق ایجاد یک مدل پیشبینی رویگردانی مشتری است، در مرور ادبیات تمرکز بیشتر در تحقیقات نوع اول است. روشها و تکنيکهاي متعددي از رشتههاي آمار، يادگيري ماشين و علوم کامپيوتر در ساخت مدلهاي پيشبيني رويگرداني مشتري به کار گرفته شده است.
تحقیقات انجام شده در خارج از کشور
دو رويکرد پايهاي براي حل مشکل رويگرداني مشتري وجود دارد. رويکرد مبتني بر هدفگيري و رویکرد غيرهدفگيري شده ADDIN EN.CITE
Neslin200623(Neslin, Gupta et al. 2006)232317Neslin, S. AGupta, SKamakura, WLu, J.XMason, C. HDefection detection: Measuring and understanding the predictive accuracy of customer churn modelsJournal of Marketing ResearchJournal of Marketing Research204-2114322006(Neslin, Gupta et al. 2006) (شکل 2-8) . رويکردهاي غيرهدفگيري شده متکي به تبليغات انبوه و ويژگيهاي برتر محصول براي افزايش وفاداري نسبت به برند و حفظ مشتري است. رويکردهاي مبتني بر هدفگيري خيلي پيچيده هستند و متکي بر شناسايي مشترياني است که داراي احتمال رويگرداني بالا هستند. نسلين و دیگران رويکردهاي مبتني بر هدفگيري را به دو زير دسته تقسيم ميکنند ADDIN EN.CITE
Neslin200623(Neslin, Gupta et al. 2006)232317Neslin, S. AGupta, SKamakura, WLu, J.XMason, C. HDefection detection: Measuring and understanding the predictive accuracy of customer churn modelsJournal of Marketing ResearchJournal of Marketing Research204-2114322006(Neslin, Gupta et al. 2006): واکنشي و پيشگيرانه. با اتخاذ رويکرد واکنشي شرکت منتظر ميماند تا مشتري با شرکت تماس بگيرد و تقاضاي قطع رابطه نمايد و سپس شرکت به مشتري مشوقهايي را براي ماندن پيشنهاد دهد. در رويکرد پيشگيرانه شرکت سعي ميکند تا در همان ابتدا مشترياني را که احتمال رويگرداني آنها بالا است را شناسايي کند، سپس شرکت اقدام به هدفگيري اين مشتريان نموده و سعي ميکند تا با پيشنهاد مشوقها و اجراي برنامههاي خاص از رويگرداني مشتري جلوگيري نمايد. نسلين و دیگران اظهار کردهاند که رويکردهاي پيشگيرانه به طور بالقوه نسبت به رويکردهاي واکنشي داراي برتري هستند از اين جهت که در رويکردهاي پيشگيرانه ميزان مشوقها کمتر از رويکردهاي واکنشي است.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 8: رویکردهای برخور با رویگردانی مشتری
اهن و ديگران به بررسي عاملهاي تعيينکننده رويگرداني مشتري در صنعت مخابرات کشور کره پرداختهاند. آنها در تحقيق خود به اين نتيجه رسيدهاند که عاملهاي رويگرداني در صنعت مخابرات کشور کره عبارت اند از ADDIN EN.CITE
Ahn200624(Ahn, Han et al. 2006)242417Ahn, J. HHan, S. PLee, Y. SCustomer churn analysis: Churn determinants and mediation effects of partial defection in the Korean mobile telecommunications service industryTelecommunications PolicyTelecommunications Policy552–568302006(Ahn, Han et al. 2006):
نارضایتی مشتری: کيفيت سرويس عامل تعيين کننده اي در نارضايتي مشتري است.
هزینههای سوئیچینگ: مشتريان به دو دليل مي خواهند ارتباطشان را با شرکت حفظ کنند؛ يا حالت اجبار وجود دارد يا مشتري واقعا به شرکت وفادار است. منظور از حالت اجبار اين است که هزیتههای تغییر شرکت برای مشتري بالاست و مشتری ترجیح میدهد در شرکت بماند.
میزان استفاده از سرويس: الگوهاي استفاده از سرويس با استفاده از سه معيار توصيف ميشوند؛ تعداد دقايق استفاده، فرکانس استفاده، و تعداد گيرندههايي که به وسيله مشترک تماس گرفتهشدهاند. سطح استفاده از سرويس که به طور شارژ ماهانه اندازهگيري ميشود به عنوان يکي از پيشبينيکنندههاي رفتاري فرار مشتري در تحقيقات قبلي درنظر گرفته شده است. اين موضوع قبلا تاييد شده است که بين مقدار استفاده و رويگرداني ارتباط وجود دارد ولي اينکه آيا اين ارتباط مثبت يا منفي است هنوز نامشخص است.
وضعیت مشتری: بعضي از مشتريان به طور ناگهاني شرکت را ترک نميکنند در حقيقت يا به طور موقت از سرويس استفاده نميکنند يا به دليل عدم پرداخت قبوض توسط شرکت تعليق ميشوند. حالتهاي مشتريان به سه دسته تقسيم ميشود: 1-فعال،2- تعليق شده ، 3-عدم استفاده.
مشترياني که در وضعيتهاي2 و 3 هستند احتمال رويگرداني آنها نسبت به کساني که در وضعيت 1 هستند خيلي زياد است. اين تحقيق به اين موضوع ميپردازد که وضعيت مشتري نقش واسطهاي بين عاملهاي تعيينکننده رويگرداني و احتمال رويگرداني دارند. به عبارت ديگر، بعضي از اين عاملها ممکن است احتمال رويگرداني را به طور مستقيم يا غير مستقيم به واسطه همين حالتها تحت تاثير قرار دهند.
لاريويري و ون دن پائل از تکنيک رندوم فارستس و رگراسيون فارستس به منظور ساخت مدل پيشبينيکننده رويگرداني استفاده کردهاند ADDIN EN.CITE
Larivie`re200525(Larivie`re and Van den Poel 2005)252517Larivie`re, BVan den Poel, DPredicting customer retention and profitability by using random forests and regression forests techniquesExpert Systems with ApplicationsExpert Systems with Applications472–4842922005(Larivie`re and Van den Poel 2005). نتايج تحقيق آنها نشان ميدهد که دو روش فوق بترتيب نسبت به رگرسيون لجستيک و رگرسيون خطي داراي کارايي بهتري هستند.
هانگ و ديگران از روشهاي دادهکاوي براي مديريت رويگرداني در صنعت مخابرات استفاده کردهاند ADDIN EN.CITE
Hung200626(Hung, Yen et al. 2006)262617Hung, S. Y.Yen, D. C.Wang, H. Y.Applying data mining to telecom churn managementExpert Systems with ApplicationsExpert Systems with Applications515–524312006(Hung, Yen et al. 2006). نتايج تحقيق آنها نشان ميدهد که تکنيکهاي درخت تصميم و شبکه عصبي ميتوانند مدلهاي پيشبيني رويگرداني دقيقي را با گرفتن دادههاي دموگرافيک، اطلاعات صورتحساب و دیگر اطلاعات مشتريان ارائه دهند. در اين تحقيق، همچنین تعاريفي در مورد رويگرداني و مراحل مختلف داده کاوي آورده شده است.
سويني و سويت در تحقيق خود به بررسي نقش برند در حفظ مشتريان ميپردازند ADDIN EN.CITE
Sweeney200827(Sweeney and Swait 2008)272717Sweeney, J.Swait, J.The effects of brand credibility on customer loyaltyJournal of Retailing and Consumer ServicesJournal of Retailing and Consumer Services179–193152008(Sweeney and Swait 2008). همچنين، به بررسي روابط بين اعتبار برند و فاکتورهاي ديگر چون رضايتمندي و کيفيت سرويس ميپردازند. نتايج بررسي موارد بانکي و مخابراتي نشان ميهد که اعتبار برند نقش تدافعي دارد؛ يعني اينکه برند به طور قابل توجهي WOM را افزايش داده و سوئيچينگ مشتريان را کاهش ميدهد. مدل استخراج شده از روابط در شکل (2-9) نشان داده شده است. همانطور که در شکل ميبينيد اعتبار برند باعث ايجاد وفاداري به طور مستقيم يا غير مستقيم ميشود و نيز وفاداري و رضايتمندي مشتري باعث ميشود تا تمايل به سوئچينگ مشتري کمتر شود و توصيههاي مشتري به ساير افراد براي استفاده از سرويسهاي شرکت زياد شود.
شکل STYLEREF 1 \s 2 SEQ شکل \* ARABIC \s 1 9: روابط بین برند و سایر فاکتورها
کوزمنت و ون دن پائل، اطلاعات مربوط به ارتباط مشتريان و تعامل مشتريان با مراکز تماس را با متغيرهاي رایج در پيشبيني رويگرداني ترکيب کردهاند تا بدين ترتيب بتوانند يک مدل کارا براي پيشبيني رويگرداني توليد کنند ADDIN EN.CITE
Coussement200828(Coussement and Van Den Poel 2008a)282817Coussement, K.Van Den Poel, D.Integrating the voice of customers through call center emails into a decision support system for churn predictionInformation & Management Information & Management164–174452008a(Coussement and Van Den Poel 2008a). آنها پس از پردازش ايميلهاي غير ساختيافته دريافتي از مشتريان و تبدیل به اطلاعات ساختيافته، آنها را با اطلاعات تراکنشهاي مشتريان ترکيب کردهاند. آنها در تحقيق خود نشان ميدهند که با افزودن اطلاعات متني غير ساختيافته به مدلهاي پيشبيني رويگرداني معمول، عملکرد اين مدلها به ميزان قابل توجهي افزايش يافته است. از نقطه نظر مديريتي، چارچوب مجتمع شده به مديران تصميمگيرنده در بخش بازاريابي کمک ميکند تا مشترياني را که مستعد سوئيچ هستند بهتر شناسايي کنند. متعاقبا با پيشبيني دقيق اينکه کدام مشتري تمايل به ترک شرکت را دارد اقدامات نگهداري و حفظ مشتري به صورت هدفمند خواهد شد.
کوزمنت و ون دن پائل، همچنین در تحقيق دیگری قدرت پيشبيني تکنيک ماشينهاي بردار پشتيبان (SVM) را با رگرسيون لجستيک و نيز رندوم فارست در زمينه پيشبيني رويگرداني مشتري مقايسه کردند ADDIN EN.CITE
Coussement200829(Coussement and Van Den Poel 2008b)292917Coussement, K.Van Den Poel, D.Churn prediction in subscription services: An application of support vector machines while comparing two parameter-selection techniquesExpert Systems with Applications Expert Systems with Applications313–327342008b(Coussement and Van Den Poel 2008b). آنها در تحقيق خود از روش SVM با تابع کرنل RBF استفاده کردهاند. تابع RBF داراي دو پارامتر است؛ در اين تحقيق از دو تکنيک انتخاب پارامتر براي انتخاب پارامتر هايRBF استفاده شده است. آنها در تحقيق خود به اين نتيجه رسيدند که تکنيکهاي انتخاب پارامتر نقش برجستهاي در کارايي و دقت پيشبيني SVM دارد و نيز تکنيک رندوم فارست در هر صورت بهتر از SVM عمل ميکند.
تي ساي و لو از شبکههاي عصبي مصنوعي (ANN) به منظور ساخت مدل پيشبيني رويگرداني مشتري استفاده کردهاند ADDIN EN.CITE
Tsai200930(Tsai and Lu 2009)303017Tsai, C. F.Lu, Y. H.Customer churn prediction by hybrid neural networksExpert Systems with ApplicationsExpert Systems with Applications12547–12553362009(Tsai and Lu 2009). آنها در تحقيق خود از رويکرد ترکيبي استفاده کردند و دو مدل ترکيبي زير را توسعه دادند:
ANN + ANN: در اين روش ANN اولي به منظور کاهش دادهاي استفاده شده است. و دومي براي کار پيشبيني رويگرداني به کار برده شده است.
SOM + ANN: ابتدا خوشهبندي توسط روش نقشههاي خود سازمانده (SOM) انجام ميگيرد. دو خوشه داراي بيشترين تعداد رکورد انتخاب شده و وارد ANN براي پيشبيني ميشوند.
نتايج تحقيق آنها نشان ميدهدکه دو مدل ترکيبي ساخته شده در پيشبيني رويگرداني بهتر از مدل تکي شبکههاي عصبي عمل ميکنند. درضمن، مدل (ANN+ANN) عملکرد بهتري در پيشبيني نسبت به (SOM+ANN) دارد.
پندارکار براي اولين بار از شبکه عصبي مبتني بر الگوريتم ژنتيک براي پيشبيني رويگرداني مشتري در سرويسهاي اشتراک بيسيم استفاده کرده است ADDIN EN.CITE
Pendharkar200931(Pendharkar 2009)313117Pendharkar, P.C.Genetic algorithm based neural network approaches for predicting churn in cellular wireless network servicesExpert Systems with ApplicationsExpert Systems with Applications6714–6720362009(Pendharkar 2009). در اين تحقيق از الگوريتم ژنتيک جستجوي سراسري ابتکاري براي يادگيري وزنهاي اتصالات شبکههاي عصبي استفاده شده است.
ونگ و ديگران با استفاده از تکنيکهاي دادهکاوي به ايجاد يک سيستم توصيهگر به مشتريان پرداختهاند ADDIN EN.CITE
Wang200932(Wang, Chiang et al. 2009)323217Wang, Y. F.Chiang, D. A.Hsu, M. H.Lin, C. J.Lin, I. L.A recommender system to avoid customer churn: A case studyExpert Systems with ApplicationsExpert Systems with Applications8071–8075362009(Wang, Chiang et al. 2009). با استفاده از اين سيستم دليل رويگرداني مشتريان مشخص شده و يا به عبارت ديگر رفتارهاي استفاده مشتريان رويگردان و مشتريان وفادار مورد بررسي قرار گرفته تا به موجب آنها بتوان استراتژيهاي بازاريابي مناسب جهت جلوگيري از رويگرداني مشتريان به مديران شرکت ارائه داد.
الگوريتمهاي زيادي براي تحليل رويگرداني وجود دارد ولي همه آنها با محدوديتهايي رو به رو هستند که اين محدوديتها به دليل طبيعت مسئله رويگرداني به وجود ميآيند. مسئله رويگرداني داراي سه ويژگي عمده است: 1- دادهها معمولا نامتعادل هستند. ( تعداد مشتريان رويگردان خيلي کم هستند و معمولا تنها 2 درصد از کل نمونه را در بر ميگيرند) 2- نويزهايي در دادهها وجود دارد. 3- براي پيشبيني رويگرداني لازم است تا احتمال رويگرداني موجوديتها را رتبهبندي کنيم ADDIN EN.CITE
Xie200933(Xie, Li et al. 2009)333317Xie, Y.Li, X.Ngai, E.W.T.Ying, W.Customer churn prediction using improved balanced random forestsExpert Systems with ApplicationsExpert Systems with Applications5445–5449362009(Xie, Li et al. 2009). زاي و همکاران در تحقيق خود يک روشي به نام رندم فارست متوازن بهبوديافته براي پيشبيني رويگرداني ارائه کردهاند. اين الگوريتم روي يک مطالعه موردی بانکي پيادهسازی شده. نتايج نشان ميدهد که دقت پيشبيني اين الگوريتم نسبت به ساير الگوريتمهاي حوزهی پيشبيني رويگرداني مانند شبکههاي عصبي، درخت تصميم و SVM بالاتر است. همچنين، الگوريتم نسبت به الگوريتمهاي مبتني بر رندوم فارست مانند رندم فارست متوازن بهتر عمل ميکند.
گليدي و ديگران در مقاله خود وفاداري مشتري را از ديدگاه مشتريگرايي به جاي ديدگاه محصولگرايي تعريف ميکنند ADDIN EN.CITE
Glady200934(Glady, Baesens et al. 2009)343417Glady, N. Baesens, B. Croux, C.Modeling churn using customer lifetime value, European Journal of Operational ResearchJournal of Operational Research402–4111972009(Glady, Baesens et al. 2009). آنها همچنين مشتري رويگردان را به عنوان کسي که ارزش طول عمر آن در حال کاهش است تعريف ميکنند. موضوع جديد ديگري که در اين مقاله عنوان شده است اين است که ضرر حاصل شده توسط کاهش CLV به عنوان ضرر حاصل از دستهبندي غلط مشتريان در نظر گرفته ميشود. نتيجه نهايي که در اين مقاله گرفته شده است اين است که سود و منفعت تنها چيزي است که در محيط تجاري اهميت دارد، شاخصهاي استاندارد آماري سنجش دقت و صحت پيشبيني بايستي تجديد نظر شده و بايستي سودگرايي در آنها ديده شود.
در حوزه ارتباطات از را ه دور، تکنيکهاي دادهکاوي مانند درخت تصميم ،شبکههاي عصبي به منظور توسعه مدلهاي پيشبيني رويگرداني مشتري به کار رفتهاند. با اين وجود بسياري از کارهاي انجام شده صرفا کار پيش بيني را انجام دادهاند و مرحله پيشپردازش از دادهکاوي را ناديده گرفتهاند.
تي ساي و چن از ترکيب الگوريتمهاي قواعد همبستگی با الگوريتمهاي درخت تصميم و شبکههاي عصبي براي ساخت مدل پيشبيني رويگرداني استفاده کردهاند ADDIN EN.CITE
Tsai201035(Tsai and Chen 2010)353517Tsai, C.F.Chen, M. Y.Variable selection by association rules for customer churn prediction of multimedia on demandExpert Systems with ApplicationsExpert Systems with Applications2006–20153732010(Tsai and Chen 2010). روش کارشان به اين صورت است که ابتدا در مرحله پيشپردازش با استفاده از قواعد همبستگی متغيرهاي با اهميت شناخته شده، سپس مدل پيشبيني رويگرداني توسط شبکههاي عصبي و درخت تصميم ساخته ميشود. در این تحقیق از شاخصهايي در جهت ارزيابي کارايي مدلهاي ساخته شده استفاده شده است. نتيجه تحقيق نشان ميدهد که متدهاي ترکيبي قواعد همبستگي و درخت تصميم يا شبکههاي عصبي بهتر از متدهاي تکي درخت تصميم يا شبکههاي عصبي عمل ميکنند.
هوانگ و ديگران در تحقيق خود يک رويکرد انتخاب ويژگي چند هدفه را براي پيشبيني رويگرداني مشتريان در يک شرکت مخابراتي، بر اساس رويکرد بهينهسازي NSGA-II ارائه دادند ADDIN EN.CITE
Huang201036(Huang, Buckley et al. 2010)363617Huang, B.Buckley, B.Kechadi, T.Multi-objective feature selection by using NSGA-II for customer churnprediction in telecommunicationsExpert Systems with ApplicationsExpert Systems with Applications3638–3646372010(Huang, Buckley et al. 2010). هدف رويکردهاي انتخاب ويژگي عبارتند از کاهش ويژگيهاي نامعتبر يا زايد و پيدا کردن ويژگيهاي مهم که منجر به افزايش کارايي مدلهاي دادهکاوي ميشود. در اين تحقيق از درخت تصميم به دليل کارايي بالا و هزينه محاسباتي پايين به عنوان تابع برازش استفاده شده است.
کوزمنت و ديگران در مقاله خود از مدلهاي جمعپذير عمومي ( GAM) براي پيشبيني رويگرداني مشتري استفاده کردهاند ADDIN EN.CITE
Coussement201037(Coussement, Benoit et al. 2010)373717Coussement, K., F.Benoit, D.Van den Poel, D.Improved marketing decision making in a customer churn prediction context using generalized additive modelsExpert Systems with ApplicationsExpert Systems with Applications2132–2143372010(Coussement, Benoit et al. 2010). در مقايسه با رگرسيون لجستيک ، GAM محدوديت خطي بون را برداشته و اجازه ميدهد تا رابطه بين متغيرها غيرخطي باشد. اين تحقيق نشان ميدهد که: 1- GAM قادر به بهبود دادن تصميمگيريهاي بازاريابي از طريق شناسايي مشتريان ريسک دار است. 2- GAM خوانايي و تفسيرپذيری مدلهاي رويگرداني را با مصورسازي رابطه غيرخطي آنها نشان ميدهد. 3- مديران بازاريابي ميتوانند ارزش کسب و کار خود را با استفاده از GAM در زمينه پيشبيني رويگرداني مشتري افزايش دهند.
هستی و تيبشيراني اظهار کردهاند که روشهاي غیرپارامتريک در مواقعي که تعداد متغيرهاي پيشبينيکننده بيشتر باشد بدتر عمل ميکنند ADDIN EN.CITE
Hastie199038(Hastie and Tibshirani 1990)383817Hastie, T.Tibshirani, R.Generalized additive modelsCRC pressCRC press1990(Hastie and Tibshirani 1990)؛ براي اينکه پراکندگي دادهها ، واريانس تخمينها را متورم ميکند. اين موضوع اغلب به عنوان مصيبت بعد ياد ميشود. با استفاده از مدلهاي جمعپذير، مشکل مصيبت بعد بر طرف ميشود. روش GAM حداقل دو مزيت نسبت به رگرسيون لجستيک دارد: 1- روابط غيرخطي بين دادهها را آشکار ميکند. 2- نشان داده شده است که حذف فرض خطي بودن منجر به درک صحيحي از تاثير هر يک از متغيرهاي پيشبينيکننده روي متغير وابسته ميشود که اين موضوع به تصميمگيران کمک ميکند تا مشکل رويگرداني شرکت را به طور کامل درک کنند ADDIN EN.CITE
Coussement201037(Coussement, Benoit et al. 2010)373717Coussement, K., F.Benoit, D.Van den Poel, D.Improved marketing decision making in a customer churn prediction context using generalized additive modelsExpert Systems with ApplicationsExpert Systems with Applications2132–2143372010(Coussement, Benoit et al. 2010).
در اکثر تحقيقاتي که تاکنون در زمينه پيشبيني رويگرداني مشتريان صورت گرفته است، بيشتر به بالا بردن دقت و کارايي مدلهاي پيشبيني توجه شده است. وربک و ديگران در مقاله خود به جنبههاي جديدي در مورد مدلهاي پيشبيني رويگرداني مشتري اشاره کردهاند ADDIN EN.CITE
Verbeke201139(Verbeke, Martens et al. 2011)393917Verbeke, W.Martens, D.Mues, C.Baesens, B.Building comprehensible customer churn prediction models with advanced rule induction techniquesExpert Systems with ApplicationsExpert Systems with Applications2354–2364382011(Verbeke, Martens et al. 2011). اگرچه، اين جنبهها در تحقيقات قبلي به صورت تلويحي مورد توجه قرار گرفته بود ولي در اين مقاله به صورت آشکار اين جنبهها ذکر شدهاند. دقت پيشبيني، قابليت درک و توجيهپذيري سه جنبه کليدي مدلهاي پيشبيني رويگرداني هستند. در حيطه دادهکاوي يک مدل توجيهپذير است اگر با دانش محيط کاربرد همخواني داشته باشد. يک مدل پيشبيني رويگرداني با دقت بالا موجب ميشود تا مشتريان رويگردان آتي به طور درست مورد هدف کمپينهاي نگهداري قرار گيرند. در حالي که يک مجموعه قوانين قابل درک اجازه ميدهد تا عوامل و دلايل اصلي رويگرداني مشتريان شناسايي شوند و استراتژيهاي موثر نگهداري مشتريان که مطابق با دانش حيطه باشد اتخاذ گردد.
در اين تحقيق دو تکنيک جديد دادهکاوي در زمينه پيشبيني رويگرداني مشتريان به کار گرفته شده است. اين تکنيکها عبارتند از: Ant-Miner+ و ALBA. روش Ant-Miner+ يک تکنيک دادهکاوي با کارايي بالا بر اساس اصول بهينهسازي کلوني مورچهها است که اجازه ميدهد تا بتوان دانش حيطه را وارد مدل کرد از طريق اعمال محدوديتهاي يکنواختي روي مجموعه قوانين نهايي. و تکنيک ALBA دقت بالاي تکنيک SVM را با قابليت درک مجموعه قوانين ترکيب ميکند. به عبارت ديگر، ALBA يک روش استخراج مجموعه قوانين از يک مدل SVM است. نتايج مدلسازيها نشان ميدهد که ALBA منجر به يک مدل قابل درک با کارايي بالا ميشود. همچنين برخلاف ساير تکنيکهاي استفاده شده در اين تحقيق، Ant-Miner+ منجر به مدلهاي دقيق با قابليت درک بالا و از همه مهمتر با توجيهپذيري بالا ميشود. در اين تحقيق از يک ديتاست عمومي استفاده شده است.
روشهاي فازي و نروفازي نيز در سالهاي اخير به صورت خيلي کم در زمينه پيشبيني رويگرداني مشتريان کاربرد داشتهاند. مطالعات ما در اين زمينه نشان ميدهد که تنها در دو مقاله از اين روشها استفاده شده است. قرباني و ديگران در تحقيق خود براي اولين بار از روش درخت مدل خطي محلي در پيشبيني رويگرداني مشتريان استفاده کردهاند ADDIN EN.CITE
Ghorbani200940(Ghorbani, Taghiyareh et al. 2009)404017Ghorbani, A.Taghiyareh, F.Lucas, C.The Application of the Locally Linear Model Tree on Customer Churn PredictionSoCPaRSoCPaR472-4772009(Ghorbani, Taghiyareh et al. 2009)؛ که اين روش مزاياي شبکههاي عصبي، مدل درختي و مدلسازي فازي را به صورت يکجا دارد. نتايج تحقيق آنها نشان ميدهد که اين متد در مقايسه با متدهايي نظير شبکههاي عصبي، درخت تصميم و رگرسيون لجستيک، کارايي پيشبيني را به ميزان قابل توجهي بالا ميبرد.
تحقيق ديگر در اين زمينه مربوط به مقالهي کاراهکا و کاراهکا است ADDIN EN.CITE
Karahoca201141(Karahoca and Karahoca 2011)414117Karahoca, A.Karahoca, D.GSM churn management by using fuzzy c-means clustering and adaptive neuro fuzzy inference systemExpert Systems with ApplicationsExpert Systems with Applications1814-18223832011(Karahoca and Karahoca 2011). آنها در مقاله خود ابتدا از روش خوشهبندي فازي C-means براي خوشهبندي مشتريان يک شرکت مخابراتي استفاده کرده و با انجام اين کار به هر مشتري يک برچسب يا ويژگي جديد نسبت دادند. سپس، از تکنيک سيستم استنتاج فازي عصبي تطبيقي به منظور پيشبيني رويگرداني مشتريان استفاده کردهاند. تکنيک ANFIS دقت سيستمهاي دستهبندي مبتني بر فازي را با خاصيت تطبيقپذيري (پيش انتشار) شبکههاي عصبي ترکيب ميکند. بر اساس نتايج تحقيق، آنها اظهار کردهاند تکنيک ANFIS میتواند به عنوان يک تکنيک جايگزين تکنيکهاي فعلي در فعاليتهاي کنوني CRM از جمله پيشبيني رويگرداني مشتريان استفاده شود.
تحقیقات انجام شده در داخل کشور
گسترش علم دادهکاوی و افزایش توانایی تکنیکهای دادهکاوی در صنایع مختلف کشور از یک طرف، و اهمیت مسئله رویگردانی مشتری در نرخ نگهداری مشتری در یک بازار رقابتی برای سیستمهای CRM از طرف دیگر موجب شده است تا در دهه اخیر تحقیقاتی در مورد پیشبینی رویگردانی مشتری با استفاده از دادهکاوی در داخل کشور انجام پذیرد. در ادامه به مواردی از این تحقیقات اشاره خواهیم کرد.
ADDIN EN.CITE
كرامتي138819(كرامتي, اردبيلي et al. 1388)191917فصلنامه علوم مديريت ايران(كرامتي, اردبيلي et al. 1388) در مقاله خود با استفاده از روشهای دادهکاوی به تحلیل رویگردانی مشتری در یکی از اپراتورهای تلفن همراه ایران پرداختند. آنها از تکنیک رگرسیون لاجستیک دوجملهای استفاده کردند و نشان دادند که نارضايتي مشتري، ميزان استفاده از خدمات ارائه شده و نيز مشخصههاي دموگرافيك مشترك مهمترين تأثير را بر تصميم او مبني بر رويگرداني يا ماندگاري دارند. آنها همچنین به بررسی اثر واسطهای وضعیت مشتری (وضعیت فعال یا غیر فعال) در رویگردانی نیز پرداختهاند.
ADDIN EN.CITE
توکلی138920(توکلی, مرتضوی et al. 1389)202017چشمانداز مدیریت بازرگانی(توکلی, مرتضوی et al. 1389) با بکارگیری تکنیک درخت تصمیم به پیشبینی رویگردانی مشتری در صنعت بیمه پرداختهاند. آنها در تحقیق خود از فرایند استاندارد دادهکاوی CRISP – DM استفاده کردند و به کاوش در پایگاههای داده یکی از شرکتهای سهامی عام بیمهای در بیمه آتشسوزی پرداختند.
چنانچه پیشتر نیز ذکر شد، بیشتر تحقیقات به ارائه مدلهایی جهت پیشبینی رویگردانی مشتری پرداختهاند و کمتر علل رویگردانی را مورد مطالعه قرار دادهاند. ADDIN EN.CITE
سپهری139021(سپهری, نوروزی et al. 1390)212117پژوهشهای مدیریت در ایران(سپهری, نوروزی et al. 1390) با ترکیب روشهای دادهکاوی و تحقیق پیمایشی به کشف دلایل رویگردانی مشتری از خدمات بانکداری پرداختهاند. در این تحقیق تلاش شده است تا با بهرهگیری از تحقیق پیمایشی پرسشنامه محور نظریات مشتریان در خصوص سطوح رضایتمندی و مولفههای تاثیرگذار بر رویگردانی مشتری ارزیابی شود و از نتایج آن برای تحلیل تاثیر عوامل مختلف بر رویگردانی بهره گرفتهاند.
ADDIN EN.CITE
عباسیمهر139022(عباسیمهر 1390)222232(عباسیمهر 1390) در پایان نامهی خود مدلی برای پیشبینی رویگردانی مشتریان با ارزش در بخش خدمات ارائه داده است. وی با استفاده از دادههای مربوط به صنعت مخابرات، ابتدا با استفاده از تکنیکهای خوشهبندی مشتریان با ارزش را شناسایی کرده و سپس بوسیله تکنیک ANFIS و ترکیب آن با الگوریتم بهینهسازی اجتماع مورچگان، به پیشبینی رویگردانی مشتریان باارزش پرداخته است.
خلاصه تحقیقات انجام شده
ويژگيهايي که تحقيقات انجام شده مربوط به ساخت مدلهاي پيشبيني رويگرداني مشتريان دارند عبارتند از:
در هر تحقيق از يک یا چند ديتاست عمومي يا خصوصي استفاده شده است.
تکنيکهاي به کارگرفته شده براي پيشبيني رويگرداني مشتريان متنوع هستند و هيچ تکنيکي براي همه مسائل و ديتاستها بهتر از ساير تکنيکها عمل نميکند. براي مثال نتايج يک تحقيق نشان داده است که شبکه عصبي بهتر از درخت تصميم عمل کرده است در حالي که نتايج تحقيق ديگر نشان داده است که درخت تصميم بهتر از شبکه عصبي عمل کرده است. شايد دليل اين امر به ماهيت مسئله برگردد زيرا اساسا مسئله پيشبيني رويگرداني مشتريان يک مسئله دسته بندي است و از تکنيکهاي دادهکاوي براي ساخت مدل پيشبيني استفاده ميشود. در دادهکاوي هيچ تکنيک دستهبندي نميتوان يافت که در همه شرايط و ديتاستها بهتر از ساير تکنيکها عمل کند ADDIN EN.CITE
Han20114(Han, Kamber et al. 2011)446Jiawei HanMicheline KamberJian PeiThirdData Mining: Concepts and Techniques2011Morgan Kaufmann(Han, Kamber et al. 2011).
در بيشتر تحقيقات، تکنيکهاي استفاده شده فقط روي يک ديتاست اعمال شدهاند و کارايي تکنيکها روي ديتاستهاي متعدد تست نشده است. حتي در مواردي که يک تکنيک پيشبيني جديد توسعه داده شده است، کارايي آن فقط روي يک ديتاست تست شده است.
در اکثر تحقيقات انجام شده فقط کارايي تکنيکها از لحاظ معيارهاي دقت پيشبيني و قابليت درک ارزيابي شده است. معيارهاي ديگر نظير سرعت محاسباتي (پيچيدگي زماني) و مسائل مربوط به حافظه زياد مورد توجه قرار نگرفتهاند. با توجه به افزايش دادههاي مربوط به مشتريان و حجيم شدن پايگاه دادههاي مربوط به مشتريان توجه به اين معيارها امري اجتناب ناپذير است.
تحقيقات انجام شده در اين زمينه، هر کدام مربوط به يک صنعت خاص هستند.
در بيشتر تحقيقات انجام شده از تکنيکهاي مربوط به دادهکاوي استفاده شده است.
در بیشتر تحقیقات ارزش مشتری مورد توجه نبوده و فقط رویگردانی مشتریان بدون توجه به ارزش آنها مد نظر بوده.
در جدول (2-4) خلاصهاي از تحقيقات انجام شده در زمينه ساخت مدلهاي پيشبيني رويگرداني مشتريان آورده شده است. در اين جدول ويژگيهاي مربوط به اين تحقيقات از قبيل نوع تکنيکهاي به کار گرفته شده در آنها، ديتاستها و نيز صنعت يا سرويسي که تحقيق در آن صورت گرفته است آورده شده.
جدول STYLEREF 1 \s 2 SEQ جدول \* ARABIC \s 1 4 :خلاصه سابقه تحقیق
ردیفعنواننویسنده یا نویسندگانسالتکنیکهاصنعت،عمومی (1) یا خصوصی (2) بودن دادهها1کاربرد الگوريتم C4.5 براي ساخت مدل پيشبيني رويگرداني با استفاده از تعداد ويژگيهاي محدودوي و چیو2002درخت تصميم C4.5مخابرات بيسيم،(2)2استفاده از مدل پيشبيني رويگرداني به عنوان بخشي از مدل ارزش طول عمر مشتريونگ و همکاران2004رگرسيون لجستيک، درخت تصميم، شبکه عصبيمخابرات بيسيم،(2)3مقايسه تکنيکها براي پيشبيني فرار نا تمام در يک محيط غيرقرارداديبوکينکس و ون دن پائل2005رگرسيون لجستيک، شبکهعصبي، رندوم فارستسخرده فروشي(2)4بررسي متغيرهاي توصيفي و متدهاي مدلسازي در پيشبيني رويگرداني مشتريانلاريويري و ون دن پائل2005رگرسيون لجستيک و خطي، رندوم فارستسمالي(2)5مقايسه تطبيقي و به کارگيري متدهاي مدلسازي پيشبيني رویگردانیهانگ و همکاران2006درخت تصميم، شبکه عصبيمخابرات بيسيم،(2)6کاربرد تکنيکهاي bagging و Boosting براي افزايش کارايي تکنيکهاي پيشبيني رويگرداني مشتريانلمنس و کروکس2006رگرسيون لجستيک، درخت تصميممخابرات بيسيم،(1)7توسعه مدلهاي پيشبيني رويگرداني و تست آنها در يک کمپين نگهداري واقعيبورز و ون دن پائل2007رگرسيون لجستيک (با زنجيره مارکوف)، رندوم فارستسسرويس Pay-TV(2)8کاربرد تکنيک ماشين بردار پشتيبان در پیشبيني رويگرداني مشتريان در يک سرويس اشتراک روزنامهکوزمنت و ون دن پائل2008رگرسيون لجستيک، ماشين بردار پشتيبان، رندوم فارستسسرويس اشتراک روزنامه(2)9مطالعه متدهاي نمونه برداري، متد و معيارهاي ارزيابي و تکنيکهاي مدلسازيبورز و ون دن پائل2009رگرسيون لجستيک، Boosting، رندوم فارستسبانک، مخابرات، اشتراک روزنامه، pay TV – خردهفروشي سوپرمارکت10گنجاندن دانش محيط کاربرد در مدلهاي پيشبيني رويگردانيلیما و همکاران2009رگرسيون لجستيک، درخت تصميممخابرات بيسيم(1)11کاربرد دو شبکه عصبي مبتني بر الگوريتم ژنتيک در زمينه پيشبيني رويگردانيپندارکار2009شبکه عصبي مبتني بر الگوريتم ژنتيکمخابرات بيسيم(1)12توسعه يک تکنيک جديد به نام رندوم فارستس متوازن بهبود يافته در پاسخ به برخي محدوديتهاي مسائل پيشبيني رويگردانيزای و همکاران2009شبکه عصبي، درخت تصميم، SVM ، رندوم فارستس متوازن بهبود يافتهبانک(2)13توسعه دو مدل ترکيبي به منظور پيشبيني رويگرداني مشتريانتي ساي و لو2009شبکه عصبي، نقشههاي خود سازماندهمخابرات(1)14استفاده از مفهوم طول عمر مشتري براي تعريف مشتريان رويگردان و توسعه مدلهاي پيشبيني رويگرداني و ارزيابي آنها به وسيله يک معيار ارزيابي توسعه داده شده که معيار سود و زيان را درنظر ميگيردگليدي و همکاران2009رگرسيون لجستيک، شبکههاي عصبي، درخت تصميم، تکنيک توسعه داده شده به نام Ada Costبانک(2)15به کارگيري مدلهاي جمعپذير عمومي در پيشبيني رويگرداني مشتريانکوزمنت و همکاران2010رگرسيون لجستيک، GAMاشتراک روزنامه (2)16کاربرد NSGA-II براي انتخاب ويژگيها بهينه در پيشبيني رويگرداني مشتريانهوانگ و همکاران2010درخت تصمیممخابرات (2)17استفاده از تکنيکهاي دادهکاوي به منظور ساخت مدلهاي پيشبیني رويگرداني مشتريان و با تاکيد بر مرحله پيش پردازش دادههاتي ساي و چن2010قوانين تلازمي، درخت تصميم، شبکه عصبيتقاضا(2)18توسعه تکنيک SVM توسعه يافته که نامتعادل بودن دادهها را در نظر ميگيردیو و همکاران2010شبکه عصبي، SVM، SVM توسعه يافتهوب سايت تجارت الکترونيکي(2)19ارائه سيستمي براي مديريت رويگرداني بر اساس تکنيکهاي خوشهبندي فازي و سيستم استنتاج فازي عصبي تطبيقيکاراهکا و کاراهکا2011Fuzzy C-means، ANFIS، درخت تصميممخابرات(2)20کاربرد دو تکنيک جديد دادهکاوي به نامهاي Antminer+ و ALBA براي پيشبيني رويگرداني مشتريانوربک و همکاران2011Antminer+، ALBA،SVM، درخت تصميم، رگرسيون لجستيکمخابرات(1)21تحليل رويگرداني مشتريان، بررسي وضعيت يكي از اپراتورهاي تلفن همراه ايران با كمك روشهاي دادهكاويعباس کرامتی و همکاران1388رگرسیون لاجستیک دو سطحیمخابرات(2)22به کارگیری فرایند دادهکاوی برای پیشبینی الگوهای رویگردانی مشتری در بیمهاحمد توکلی و همکاران1389درخت تصمیمبیمه(1)23کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روشهای دادهکاوی و تحقیق پیمایشیمحمد مهدی سپهری و همکاران1390درخت تصمیم، k-meansبانک(1)24مدل پيشبيني رويگرداني مشتريان با ارزش در بخش خدماتحسین عباسیمهر1390ANFISk-meanscAnt-minerمخابرات(2)
منابع و مآخذ
اکبری, ا. (1389). کاربرد دادهکاوی در مدیریت ارتباط با مشتریان: مطالعه موردی در شرکت سایپا یدک. دانشکده مهندسی صنایع, دانشگاه شریف.
توکلی, ا., س. مرتضوی, )1389). "به کارگیری فرایند داده کاوی برای پیش بینی الگوهای رویگردانی مشتری در بیمه." چشمانداز مدیریت بازرگانی 4(37): 55-41.
سپهری, م. م., ا. نوروزی, )1390). "کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روشهای دادهکاوی تحقیق پیمایشی." پژوهشهای مدیریت در ایران 15(4): 126-197.
شهرابی, ج. (1390a). دادهکاوی, جهاد دانشگاهی واحد صنعتی امیرکبیر.
شهرابی, ج. (1390b). دادهکاوی 2, جهاد دانشگاهی واحد صنعتی امیرکبیر.
شهرابی, ج. و ع. ذ. شجاعی (1388). دادهکاوی پیشرفته - مفاهیم و الگوریتمها, جهاد دانشگاهی واحد صنعتی امیرکبیر.
عباسیمهر, ح. (1390). مدل پيش بيني رويگرداني مشتريان با ارزش در بخش خدمات. دانشکده مهندسی صنایع. تهران, دانشگاه صنعتی خواجه نصیر الدین طوسی.
كرامتي, ع., س. م. س. اردبيلي, (1388). "تحليل رويگرداني مشتريان، بررسي وضعيت يكي از اپراتورهاي تلفن همراه ايران با كمك روش هاي داده كاوي." فصلنامه علوم مديريت ايران 14: 91-63.
Ahn, J. H., S. P. Han, et al. (2006). "Customer churn analysis: Churn determinants and mediation effects of partial defection in the Korean mobile telecommunications service industry." Telecommunications Policy 30: 552-568.
Auria, L. and R. A. Moro (2008) "Support Vector Machines (SVM) as a technique for solvency analysis." Discussion papers // German Institute for Economic Research 811.
Berson, A., S. Smith, et al. (1999). "Building data mining applications for CRM." New York: McGraw-Hill.
Bishop, C. M. (1995). Neural Networks for Pattern Recognition, CLARENDON PRESS • OXFORD.
Bishop, C. M. (2006). Pattern recognition and machine learning, Springer Science.
Brown, S. A. (2000). Customer relationship management , A strategic Imperative in the world of E- Business, Wiley.
Burez, J. and D. Van den Poel (2007). "CRM at a pay-TV company: Using analytical models to reduce customer attrition by targeted marketing for subscription services." Expert Systems with Applications 32(2): 277-288.
Chang, H. and S. F. Tsay (2004). "Integrating of SOM and K-mean in data mining clustering: An empirical study of CRM and profitability evaluation." Journal of Information Management 11:161-203.
Cheng, C.-H. and Y.-S. Chen (2008). "Classifying the segmentation of customer value via RFM model and RS theory.",expert system with application.
Coussement, K., F., D. Benoit, et al. (2010). "Improved marketing decision making in a customer churn prediction context using generalized additive models." Expert Systems with Applications 37: 2132-2143.
Coussement, K. and D. Van Den Poel (2008a). "Integrating the voice of customers through call center emails into a decision support system for churn prediction." Information & Management 45: 164-174.
Coussement, K. and D. Van Den Poel (2008b). "Churn prediction in subscription services: An application of support vector machines while comparing two parameter-selection techniques." Expert Systems with Applications 34: 313-327.
Edelstein, H. (1998). Introduction to Data Mining and Knowledge Discovery, Two Crows Corporation.
Edelstein, h. (2000). "build profitable customer relationship with data mining." Two Crows Corp.
Gabrys, B. and D. Ruta (2006). "Genetic algorithms in classifier fusion." Applied Soft Computi 6: 337-347.
Ghorbani, A., F. Taghiyareh, et al. (2009). "The Application of the Locally Linear Model Tree on Customer Churn Prediction." SoCPaR: 472-477.
Ghosh, J. (2002). Multiclassifier Systems: Back to the Future. Multiple Classifier Systems. F. Roli and J. Kittler, Springer Berlin Heidelberg:1-15.
Glady, N., B. Baesens, et al. (2006). "Modeling churn using customer lifetime value, European " Journal of Operational Research 197: 402-411.
Han, J., M. Kamber, et al. (2011). Data Mining: Concepts and Techniques, Morgan Kaufmann.
Hastie, T. and R. Tibshirani (1990). "Generalized additive models." CRC press.
Hu, Y. (2011). "The Comparison of Five Discriminant Methods." Management and Service Science (MASS), International Conference on 2011
Huang, B., B. Buckley, et al. (2010). "Multi-objective feature selection by using NSGA-II for customer churnprediction in telecommunications." Expert Systems with Applications 37: 3638-3646.
Hung, S. Y., D. C. Yen, et al. (2006). "Applying data mining to telecom churn management." Expert Systems with Applications 31: 515-524.
Karahoca, A. and D. Karahoca (2011). "GSM churn management by using fuzzy c-means clustering and adaptive neuro fuzzy inference system." Expert Systems with Applications 38(3): 1814-1822
Karray, F. O. and C. d. Silva (2004). Soft Computing and Intelligent Systems design Theory, Tools and Applications. England, Pearson Education Limited.
Kotorov, R. (2002). "Ubiquitous organization: organizational design for e-CRM." Business Process Management Journal 8(3)
Kracklauer, A. H. and D. Q. Mills (2004). "Collaborative Customer Relationship Management: Taking CRM to the Next Level." Springer.
Larivie`re, B. and D. Van den Poel (2005). "Predicting customer retention and profitability by using random forests and regression forests techniques." Expert Systems with Applications 29(2): 472-484.
Larose, D. T. (2005). Discovering knowledge in data : an introduction to data mining. Hoboken, New Jersey, John Wiley & Sons, Inc.
Lin, S.-Y., J.-T. Wei, et al. (2011). "A Case Study of Using Classification and Regression Tree and LRFM Model in A Pediatric Dental Clinic." International Conference on Innovation, Management and Service IPEDR 14.
Mitra, S. and T. Acharya (2003). Data Mining: Multimedia, Soft Computing, and Bioinformatics, A JOHN WILEY & SONS, INC.
Neslin, S. A., S. Gupta, et al. (2006). "Defection detection: Measuring and understanding the predictive accuracy of customer churn models." Journal of Marketing Research 43(2):204-211.
Ngai, E. W. T., L. Xiu, et al. (2009). "Application of data mining techniques in customer relationship management: A literature review and classification." Expert Systems with Applications 36:2592-2602.
Pendharkar, P. C. (2009). "Genetic algorithm based neural network approaches for predicting churn in cellular wireless network services." Expert Systems with Applications 36:6714-6720.
Reichheld, F. F. and W. E. Sasser (1990). "Zero defections: quality comes to service." Harvard Business Review 68:105-111.
Ruta, D. and B. Gabrys (2000). "An Overview of Classifier Fusion Methods." Computing and Information Systems 7:1-10.
Rygielski, C., J.-C. Wang, et al. (2002). "Data mining techniques for customer relationship management." Technology in Society 24:483-502.
Sumathi, S. and S. N. Sivanandam (2006). Introduction to Data Mining and its Applications, Springer.
Sweeney, J. and J. Swait (2008). "The effects of brand credibility on customer loyalty." Journal of Retailing and Consumer Services 15:179-193.
Thompson, B. (2002). "what is CRM? The Customer Relationship Management Primer, What You Need to Know to Get Started." CRMguru.
Tsai, C. F. and M. Y. Chen (2010). "Variable selection by association rules for customer churn prediction of multimedia on demand." Expert Systems with Applications 37(3):2006-2015.
Tsai, C. F. and Y. H. Lu (2009). "Customer churn prediction by hybrid neural networks." Expert Systems with Applications 36:12547-12553.
Verbeke, W., D. Martens, et al. (2011) "Building comprehensible customer churn prediction models with advanced rule induction techniques." Expert Systems with Applications 38:2354-2364.
Wang, Y. F., D. A. Chiang, et al. (2009). "A recommender system to avoid customer churn: A case study." Expert Systems with Applications 36:8071-8075.
Witten, I. H. and E. Frank (2005). Data Mining Practical Machine Learning Tools and Techniques.
Xie, Y., X. Li, et al. (2009). "Customer churn prediction using improved balanced random forests." Expert Systems with Applications 36:5445-5449.
Xu, L., A. Krzyzk, et al. (1992). "Methods of combining multiple classifiers and their application to handwriting recognition." IEEE Transactions on Systems, Man and Cybernetics 22(3):418-435.
Zineldin, M (1999) "Exploring the common ground of total relationship management and total quality management (TQM)." Management Decision 37(9).