گامهای انجام پروژه داده کاوی در کسب و کار
0
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
در
بسیار از کسب و کارها وسازمانها داده کاوی به عنوان یک جزء تکنولوژی
تحلیلی (analytical technology component) در نظر گرفته می شود. در این
دیدهدف استفاده از داده کاوی، رسیدن به یک جواب برای یک مشکل یا چالش کسب و
کار با استفاده از ابزارهای تکنولوژیک است. همین دید اشتباه باعث شده است
که مدیران کسب و کار فکر کنند که انجام پروژه خوب و بدون نقص داده کاوی
یعنی خریدن نرم افزار و سخت افزار های مرتبط با داده کاوی.
مفهوم و تعریف درست داده کاوی در کسب و کار عبارت است:
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
داده
کاوی در حوزه کسب و کار یک فرایند گام به گام است که در آن متخصصان حوزه
داده کاوی و متخصصان حوزه کسب و کار به صورت مداوم با ابزارها و
تکنولوژیهای داده کاوی در ارتباطات هستند تا بتوانند بهترین راه حل را
برای مشکلات کسب و کار ارائه دهند. بر این اساس گامهای داده کاوی در یک
کسب و کار را میتوانیم به صورت زیر برشماریم
شناسایی مشکلات و چالشهای کسب و کار
تحلیل دقیق و موشکافانه مشکلات و چالشها
شناسایی ابزارها و تکنیکهای مناسب داده کاوی برای حل مشکلات یا چالشها
پیاده سازی راه حل و نظارت بر خروجی
گام
های بیان شده در بالا می بایست به صورت متوالی انجام شوند و وردوی هر گام،
خروجی گام قبلی است. به عبارت دیگر تا یک گام انجام نشود، شروع گام بعدی
ممکن نیست.
داده کاوی در کسب و کار
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
گام های داده کاوی در کسب و کار
تجربه
نشان داده است که گام ” شناسایی مشکلات و چالشهای کسب و کار ” مهمترین
گام در موفقیت داده کاوی در کسب و کارها است. نکته مهمی که بر اساس این
تجربه قابل ذکر است؛ این است که در مهمترین گام داده کاوی، نقش متخصصان و
نیروی انسانی بسیار پر رنگتر است ابزاها و تکنولوژی است.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
در
این مطلبقصد داشتیم تا یک تعریف دقیقتر از داده کاوی از منظر کسب و کار
ارائه بدهیم، و دید تکنولوژی تحلیلی محض را نسبت به داده کاوی در کسب و کار
برطرف کنیم.
نجام انواع پروژه های داده کاوی و متن کاوی
امروزه سازمان ها برای حفظ بقا و کسب مزیت رقابتی بدنبال بهره گیری هر چه بیشتر از داده ها، اطلاعات و دانش موجود در سازمان و محیط سازمان برای بهبود در تصمیم گیری در سطوح عالی، استراتژیک و عملیاتی هستند و این بهبود با استقرار انبارهای داده سازمانی و هوش تجاری برای تجمیع، یکپارچه سازی و تجزیه و تحلیل داده ها و کشف دانش پنهان در اطلاعات سازمان با استفاده از تکنیک های داده کاوی سازمان بدست می آید.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
داده کاوی و هوش تجاری با هدف حمایت از مدیران ارشد و میانی در فرآیند تصمیم گیری های استراتژیک انجام می شود.
داده کاوی در حقیقت کشف ساختارهای جالب توجه، غیر منتظره و با ارزش از داخل
مجموعه وسیعی از داده ها می باشد و فعالیتی است که اساسا با آمار و تحلیل
دقیق داده ها منطبق استف داده کاوی تنها محدود به استفاده از الگوریتم
رایانه ای یا یک شیوه آماری نیست؛ بلکه فرآیندی است که بوسیله اطلاعات
تکنولوژی جدیدتری یا پشتوانه ای را برای تصمیم گیری ها فراهم می کند.
تکنیک های داده کاوی به دو گروه تقسیم شده استک گروه توصیفی و گروه پیش
بینی کننده هر کدام از این گروه ها شامل تکنیک های خاص داده کاوی می
باشند.این مجموعه با توجه به دانش تئوریک و عملی توسط کارشناسان خبره با
استفاده از تکنیک های خاص داده کاوی و هوش تجاری را پیاده سازی می نماید.
شرکت معماران عصر دانش با استفاده از دانش و تخصص در زمینه هوش تجاری و
داده کاوی و بهره گیری از نرم افزارهای کارآمد در زمینه تجمیع اطلاعات و
ایجاد یکپارچگی در سطح داده ها و فرآیند های سازمانی و نیز بکارگیری
ابزارهای مناسب جهت نمایش خروجی تجزیه و تحلیل و گزارشات مدیریتی در قالب
داشبوردهای مدیریتی هوش سازمانی را برای شما به ارمغان خواهد آورد.
خدمات قابل ارائه:
•مشاوره در زمینه هوش تجاری (Business Intelligence)
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
•مشاوره در زمینه داده کاوی (Data Mining)
•آموزش مباحث مرتبط با داده کاوی و هوش تجاری
•راهبری و نظارت بر پروژه های داده کاوی و هوش تجاری
•برگزاری سمینار و کارگاه در زمینه داده کاوی و هوش تجاری
ممکن است برخی دادهکاوی (Data Mining)
را مجموعهای از نرمافزارهای خودکار یا روشهای ریاضی و آماری بدانند.
درواقع دادهکاوی یک فرآیند و متدولوژی است که به مدیران کمک میکند تا از
دادههای خام به اطلاعات ارزشمندی برسند که به بهبود تصمیمگیریهای آنان
منجر شود. یکی از متداولترین فرآیندها برای انجام پروژههای دادهکاوی،
CRISP-DM (Cross-Industry Standard Process for Data Mining) نام دارد. در
این مقاله بهطور عمده به توضیح این روش خواهم پرداخت.
CRISP-DM
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
این
استاندارد اولین بار در میانه دهه ۱۹۹۰ میلادی توسط گروهی از شرکتهای
اروپایی بهعنوان روشی برای انجام پروژههای دادهکاوی ارائه شد. شکل-۱
فرآیند یک پروژه دادهکاوی را تحت این استاندارد نشان میدهد. این فرآیند
شش مرحلهای از درک نیازهای اصلی کسبوکار شروع میشود و به ارائه راهکاری
برای آن نیاز ختم میشود. اگرچه مراحل این فرآیند به دنبال یکدیگر میآیند
اما در عمل رفتوبرگشتهای زیادی بین مراحل مختلف این فرآیند وجود دارد.
کسانی که درگیر پروژههای دادهکاوی بودهاند، بهخوبی میدانند که کار
کردن با داده نیازمند سعی و خطا و آزمایش کردن است.
شکل-۱
گام اول: فهم کسبوکار
یکی
از مراحل مهم یک پروژه دادهکاوی فهم نیاز کسبوکار است. این کار با
مطالعه و فهم دقیق نیازهای مدیریتی آغاز میشود. اهداف کسبوکار که انگیزه
اصلی اجرای پروژه است باید بهخوبی مشخص شوند. اهدافی مانند اینکه
“ویژگیهای مشترک مشتریانی که اخیراً از دست دادیم و از خدمات و محصولات
شرکتهای رقیب استفاده میکنند، چیست؟” یا “هر یک از مشتریان شرکت دارای چه
ارزشی برای ما هستند؟” من همیشه توصیه میکنم بهتر است افرادی که دارای
فهم خوبی از آن کسبوکار هستند در تمام مراحل همراه تیم پروژه دادهکاوی
باشند.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
فهم
کسبوکار و هدف اصلی اجرای پروژه مشخص میکند چه دادههایی باید جمعآوری
شوند، چگونه دادهها تحلیل شوند و چطور نتایج ارائه شوند. همچنین کمک
میکند تا بودجه موردنیاز برای اجرا و زمانبندی پروژه تعیین گردد.
در مورد اهمیت پرسیدن سؤال درست برای فهم کسبوکار مقاله “تحول در گوگل: آیا مدیریت به درد میخورد؟” را مطالعه کنید.
گام دوم: درک داده
با
توجه به نیاز کسبوکار، مجموعهای از دادهها که میتوانیم از آنها
استفاده کنیم تا هدف آن پروژه محقق گردد، شناسایی میشوند. رعایت چند نکته
در این مرحله ضروری است.
اول، تحلیلگر در مورد نوع دادههایی که
نیاز دارد باید بسیار دقیق و شفاف باشد. برای مثال ممکن است که یک
خردهفروش که به دنبال تحلیل رفتار خریداران زن که پوشاک فصلی میخرند است،
دادههایی در مورد وضعیت جمعیت شناختی آنان، میزان خرید و ویژگیهای
اجتماعی-اقتصادی آنان جمعآوری کند.
دوم، تحلیلگر باید با دادهها
بهخوبی ارتباط برقرار کند. او باید منابع جمعآوری داده را بشناسد؛ اینکه
دادهها چگونه جمعآوری شدهاند، در چه قالبی نگهداری میشوند، دستی
جمعآوری میشوند یا به شکل خودکار، چه کسانی دادهها را جمعآوری میکنند،
هر چند وقت یکبار دادهها بهروزرسانی میشوند و مانند آن.
او
همینطور باید تعریف دقیق متغیرهایی را که در دادهها وجود دارند، بداند.
بر اساس تجربه شخصی میدانم که حتی ممکن است در داخل یک شرکت افراد مختلف
تعریف واحدی از یک متغیر نداشته باشند. تحلیلگر باید بداند بهطور دقیق هر
متغیر چه معنی میدهد، آیا همپوشانی بین آنچه اندازهگیری میشود وجود
دارد، متغیرهای وابسته و مستقل را شناسایی کند و مانند آن.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
سوم،
تحلیلگر باید تشخیص دهد کدامیک از متغیرها، کمّی (Quantitative) و
کدامیک کیفی (Qualitative) است. متغیرهای کمّی بهطور مستقیم با اعداد
سنجیده میشوند. سطح درآمد ماهیانه هر فرد و یا میزان فروش هفتگی شرکت
برحسب دلار مثالهایی از متغیرهای کمّی هستند. متغیرهای کیفی که متغیرهای
رستهای (Categorical) نیز نامیده میشوند، مستقیماً با مقادیر عددی سنجیده
نمیشوند. این متغیرها به دو دسته اسمی (Nominal) و ترتیبی (Ordinal)
تقسیم میشوند.
متغیرهای اسمی دارای مقادیر محدود و بدون ترتیب
هستند. برای مثال جنسیت (زن و مرد بودن)، هوادار یک باشگاه ورزشی بودن با
نبودن، استان محل زندگی و رشته تحصیلی نمونههایی از متغیرهای اسمی هستند.
متغیرهای ترتیبی دارای مقادیر محدود و بر اساس یک ترتیب هستند. سطح رضایت
مشتری (که معمولاً بر اساس طیف لیکرت سنجیده میشود: از خیلی راضی تا خیلی
ناراضی)، سطح تحصیلات (کاردانی، کارشناسی تا دکترا) نمونههایی از متغیرهای
ترتیبی هستند.
اهمیت فهم انواع متغیرها این است که روشهای تحلیل
این متغیرها از نظر آماری متفاوت است. همچنین متغیرهای کمّی را بهطور
مستقیم میتوان تحلیل کرد ولی متغیرهای کیفی ابتدا باید به شکل عددی
کدگذاری شوند تا بتوان آنها را تحلیل کرد.
چهارم، تحلیلگر معمولاً
در این گام شروع به بررسی اولیه دادهها میکند. در این مرحله معمولاً
متغیرهای عددی بر اساس خلاصههای آماری مانند میانگین، کمینه/بیشینه،
انحراف معیار، میانه و یا سایر کمیتهای آماری موردعلاقه بررسی میشوند. در
مورد متغیرهای رستهای فرکانس و مد دادهها تحلیل میشوند. تحلیلهای
همبستگی، رسم نمودارهای پراکندگی، هیستوگرام و سایر روشها برای نمایش
گرافیکی دادهها در این مرحله بکار میروند تا تحلیلگر بتواند فهم بهتری
نسبت به دادهها پیدا کند.
گام سوم: آمادهسازی داده
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
هدف
از این گام، آماده کردن دادهها برای فاز تحلیل با روشهای دادهکاوی است.
بر اساس تجربه شخصی میدانم این فاز معمولاً بیشترین زمان را به خود صرف
میکند. در برخی از پروژهها ممکن است تا ۸۰ درصد زمان پروژه به مرحله
آمادهسازی داده اختصاص داده شود. علت این مسئله این است که در دنیای واقعی
دادهها معمولاً آنطور که میخواهیم نیستند.
وجود المانهای
نامربوط، عدم وجود المانهای موردعلاقه، خطا و دادههای پرت (Outliers)،
ناسازگاری و مانند آن نیازمند این است که تحلیلگر زمان زیادی را برای
آماده کردن دادهها بگذارد. در بسیاری از موارد پیش میآید که دادهها به
شکل الکترونیکی ذخیره نشدهاند و یا اگر شدهاند نمیتوان آنها را مستقیم
استفاده کرد. در یکی از پروژههایی که درگیر بودم بسیاری از دادهها در
فایلهای PDF توسط کارفرما ارائه شده بود. آماده کردن اعداد موجود در این
فایلها برای تحلیل کاری طاقتفرسا و زمانبر بود.
شکل-۲ نشان میدهد که در یک پروژه دادهکاوی چه مراحلی باید طی گردد تا دادههای دنیای کسبوکار برای تحلیل نهایی آماده شوند.
شکل-۲
در
فاز درآمیختن داده (Data Consolidation) باید دادههای مرتبط شناسایی و
جمعآوری شوند، رکوردها و متغیرهای موردنیاز انتخاب و منابع داده با یکدیگر
یکپارچه شوند. در بسیاری از موارد دادههای کسبوکار از منابع مختلف به
دست میآیند؛ برخی ممکن است از سیستم ثبت فروش به دست آیند، برخی دیگر از
سیستم مدیریت انبار، برخی از طریق نظرسنجی و مانند آن. منظور از
یکپارچهسازی داده این است که این دادهها بتوانند به شکلی که کنار هم قرار
گیرند که ارتباط آنها مشخصشده و قابلتحلیل شوند.
در فاز
پاکسازی داده (Data Cleaning)، دادههای گمشده (Missing Values) که
مقادیر آنان نامعلوم است شناسایی میگردند. روشهای مختلفی برای برخورد با
دادههای گمشده وجود دارد. در برخی موارد ممکن است مقادیر بسیار محتمل
برای آنان پیدا کنیم. در برخی موارد هم آنان را نادیده بگیریم و رکورد
مربوط به آن را حذف کنیم. در این فاز دادههای پرت باید شناسایی شوند. برخی
موارد دادههای پرت حذف میشوند چراکه ممکن است در اثر خطا در ورود داده
به وجود آمده باشند. با دادههای پرت باید بااحتیاط رفتار کرد. در برخی
حالات دادههای پرت نشاندهنده رخدادهای منحصربهفرد هستند و بسیار
میتوانند جالبتوجه باشند. همچنین ناسازگاریها باید شناسایی شوند. برای
مثال ممکن است مقادیر متفاوتی برای یک مورد، از دو منبع داده متفاوت به دست
آید. در همه این موارد حضور خبرگان و کسانی که با کسبوکار آشنا هستند کمک
میکند تا علت وجود این موارد شناسایی و در مورد نحوه برخورد با آن
تصمیمگیری شود.
در فاز تبدیل داده (Data Transformation) ممکن است
بخواهیم دادهها را نرمال کنیم. متغیرهای مختلف در مسئله ممکن است بازه
متفاوتی از مقادیر به خود بگیرند. سطح درآمد سالیانه مقدار عددی بسیار
بزرگتری از میزان تجربه برحسب سال را به خود میگیرد. این مسئله ممکن است
در مدلهای ریاضی سوگیری ایجاد کند. به همین دلیل معمولاً مقادیر متغیرها
را بهگونهای تغییر میدهند که نرمال شوند؛ برای مثال همه آنها بین ۱- و
۱+ شوند. روش دیگر برای تبدیل داده، گسسته کردن دادههای کمّی است. برای
نمونه سطح درآمد که یک متغیر کمّی است به سه سطح بالا، متوسط و پایین تقسیم
شود. اگرچه میزان دقت اندازهگیری افت پیدا میکند، ممکن است برای مسئله
موردنظر همین سطح دقت کفایت کند. بهاینترتیب از پیچیدگی محاسبات و یا
دشواری ارائه نتایج برای مخاطب کاسته میشود. از سمت دیگر ممکن است بخواهیم
دادههای رستهای را تجمیع کنیم. برای مثال در دادهها، محل زندگی مشتریان
۵۰ دسته مختلف را شامل میشود. ممکن است چنین حدی از دقت برای تحلیل لازم
نباشد و اگر این نواحی به پنج منطقه کلی تقسیم شوند کفایت کند. در این فاز
همچنین ممکن است بر اساس متغیرهای موجود، متغیر جدیدی تعریف شود تا فرآیند
تحلیل را سادهسازی کند. برای مثال در مورد دادههای اهدای عضو، در پایگاه
داده اصلی گروه خونی گیرنده عضو و گروه خونی دهنده عضو ذکر شده است.
تحلیلگر میتواند متغیر دو ارزشی (Binary) جدیدی تعریف کند که نشان دهد
آیا گروه خونی گیرنده و دهنده عضو، باهم هماهنگ است یا خیر.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
فاز
نهایی، کاهش داده (Data Reduction) است. در دادهکاوی تمایل داریم با
دادههای بزرگ کار کنیم اما خود این مسئله میتواند دشواریهایی ایجاد کند.
لزوماً ممکن است همه دادهها موردنیاز نباشد. در یک پایگاه داده که
دادهها دارای دو بعد هستند ستونها (متغیرها) و سطرها (رکوردها)، تحلیلگر
ممکن است ابعاد داده را کاهش دهد. یک روش، کاهش تعداد متغیرهاست.
تکنیکهای آماری مانند تحلیل مؤلفههای اصلی (Principal Component
Analysis)، تحلیل همبستگی، آزمون کای دو (Chi-Square Test) و یا درخت
تصمیمگیری (Decision Tree Induction) برای این منظور بکار میروند. در
مورد تعداد رکوردها، برخی از منابع داده ممکن است شامل میلیونها یا
میلیاردها رکورد باشند. این مسئله میتواند توان محاسباتی را به شکل نمایی
کاهش دهد. در این حالت بهجای تحلیل همه دادهها میتوان زیرمجموعهای از
آن را انتخاب کرد و تحلیل را روی آن انجام داد. تحلیلگر باید بسیار دقت
کند که در این حالت نمونه بهگونهای انتخاب شود که منعکسکننده الگوها و
روابط موجود در دادههای اصلی باشد. در مورد دادههایی که چولگی (Skewness)
دارند (به این معنی که یک زیرمجموعه از داده بخش زیادی از آن را تشکیل
میدهد؛ مثلاً دادههای فروشی که افراد زیر ۳۰ سال، ۹۰ درصد مشتریان را
شامل میشوند) ممکن است نیاز باشد تا متعادلسازی صورت گیرد. مطالعات نشان
داده مدلهایی که بر اساس دادههای متعادل ساخته میشوند قدرت پیشبینی
کنندگی بهتری دارند. یک روش افزایش نمونهگیری (Oversampling) از بخشهایی
است که کمتر در دادهها حضور دارند.
گام چهارم: مدلسازی
در این
گام، تحلیلگر ممکن است روشهای مختلف دادهکاوی را بر روی دادههای
آمادهشده امتحان کند تا بتواند به هدف اصلی پروژه برسد. ساخت مدل یک
فرآیند خطی نیست و رفتوبرگشتهای زیادی وجود دارد. یک مدل بهینه در
دادهکاوی وجود ندارد و بسته به مسئلهای که تحلیلگر با آن مواجه است،
روشهای مختلف باید آزمایش شوند و خروجی آنها باهم مقایسه گردند. در این
مرحله احتمالاً لازم است به گام قبلی بازگشت و برای برخی از الگوریتمها
دادهها را به شکل دیگری آماده کرد.
بسته به نیاز کسبوکار،
دادهکاوی ممکن است باهدف پیشبینی (Prediction)، پیدا کردن روابط
(Association) و یا برای خوشهبندی (Clustering) استفاده گردد. در هر یک از
این دستهها الگوریتمهای متفاوتی وجود دارند که بسته به شرایط یکی از
آنها یا ترکیبی از آنان استفاده میشوند.
گام پنجم: ارزیابی
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
در
گام پنجم مدلی که توسعه یافته است بر اساس دقت و قابلیت عمومیسازی آن
آزمایش میشود. در این مرحله باید ارزیابی شود که مدل تا چه حد میتواند به
اهداف کسبوکار کمک کند. اگر زمانبندی و بودجه پروژه اجازه دهد بهتر است
مدل در دنیای واقعی آزمایش شود. نتایج آزمایش کمک میکند تا مدل ارزیابی
شود و شاید اطلاعات جدیدتری به دست آید که به کاملتر شدن مدل کمک کند.
این
مرحله بسیار مهم و چالشبرانگیز است. در این مرحله تیم پروژه باید نشان
دهد که دانش بهدستآمده از مدل میتواند الگوها و روابط جدیدی را به
تصمیمگیر نشان دهد که با استفاده از آن ارزش جدیدی برای کسبوکار خلق
میشود. این مانند حل کردن یک معما است. آنچه از فرآیند دادهکاوی به دست
میآید تنها بخشی از یک کل است. مدیران و تحلیلگران باید نتایج را در فضای
کلی آن کسبوکار مورد ارزیابی قرار دهند. در اینجا دانش کسبوکار کمک
بسیاری به بررسی خروجیهای مدل میکند.
مدیران کسبوکار معمولاً
علاقه و دانش کافی برای آنکه درگیر تحلیلهای پیچیده ریاضی شوند، ندارند.
وظیفه تحلیلگر و تیم پروژه دادهکاوی است تا با ابزارهای گرافیکی و
استفاده از جداول ساده به بهترین شکل ممکن نتایج و الگوهای کشفشده در
دادهها را به تصمیم گیران عرضه کنند.
گام ششم: استقرار
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
بسته
به نوع پروژه، فاز استقرار میتواند متفاوت باشد. در برخی موارد ارائه
گزارش از روند کار و خروجی تحلیل، پایان یک پروژه دادهکاوی است. در سمت
دیگر استقرار یک سیستم قابل تکرار که سازمان از آن بتواند برای مدتها
استفاده کند قرار دارد. در استقرار چنین سیستمی باید تحلیلگر نیز مشارکت
داده شود تا فهم خود را به اجراکننده سیستم انتقال دهد.
مرحله
استقرار میتواند شامل فعالیتهای نگهداری نیز شود. در طول زمان محیط
کسبوکار و نیازهای آن تغییر میکند و ممکن است مدل بهدستآمده کارایی خود
را از دست بدهد. طراحی یک استراتژی نگهداری مناسب میتواند کمک کند تا
کسبوکار برای مدت طولانی بهاشتباه از مدل دادهکاوی استفاده نکند.
سخن پایانی
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
در
پایان میخواهم تأکید کنم که مدیران نباید پروژههای دادهکاوی را یک جعبه
سیاه ببینند که از خروجی آن میتوانند استفاده کنند. چنین رویکردی عموماً
به شکست میخورد. مدیران باید از فرآیند دادهکاوی آگاهی داشته باشند، در
توسعه آن مشارکت فعال کنند و فهم خود را از کسبوکار به شکل سازندهای به
تیم پروژه منتقل کنند. این تعامل هم کمک میکند تا مدل بهتری ساخته شود و
هم به مدیران کمک میکند تا به نتایج اطمینان بیشتری داشته باشند و در
تصمیمگیریهای خود از آن استفاده کنند.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
انجام پایان نامه مدیریت ارتباط با مشتری با تحلیل درخت تصمیم
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
انجام
پایان نامه مدیریت ارتباط با مشتری (( CRM - Customer Relationship
Management) زیرمجوعه پایان نامه داده کاوی و هوش مصنوعی می باشد ودر گروه
تاپ پروژه توسط اساتید انجام پایان نامه داده کاوی و هوش مصنوعی انجام
میشود.
داده کاوی با نرم افزار Weka
داده کاوی با نرم افزار Weka
تا
به امروز نرم افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های
مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه
به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی
متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و
متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش
داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای
مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلتفرمهای
سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان،
نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای
مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های
ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن ] ، معرفی
میشود.
دانلود کد ,دانلود پروژه, پروژه آماده ,داده کاوی , نرم افزار, rapidminer , clementine , weka , وکا , کلمنتاین , رپیدماینر
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
همکاری در انجام تمامی پروژه های داده کاوی با استفاده از نرم افزار وکا – Weka
ﻘﺪﻣﻪ
ایتدا قبل از این که بخواهیم در مورد این نرم افزار توضیح دهیم ، به حوزه ی مورد استفاده ی آن اشاره ای می کنیم و در مورد داده کاوی در این نرم افزار توضیح می دهیم.
داده کاوی یا دیتاماینینگ ، در هسته ی خود ، به معنی تبدیل مقدار زیادی از داده به قسمت های معنی دار و با قواعد را می گویند. به عبارت دیگر ، می تواند به دو قسمت تقسیم بندی شود:
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
به شکل مستقیم و به شکل غیر مستقیم . در داده کاوی به شکل مستقیم شما قصد دارید که یک مقدار داده های یک نقطه ی مشخصی را پیش بینی کنید .
مانند پیش بینی رشد قیمت خانه و پیش بینی برای خرید در زمانی مشخص
در شکل غیر مستقیم ، شما تعدادی گروه داده ایجاد می کنید یا تعدادی الگو در داده های موجود پیدا کنید .
داده کاوی صرفا در حوزه شرکت های بزرگ و نرم افزار های گران قیمت نیست . در واقع یک نوع نرم افزار وجود دارد که بتواند تقریبا همه ی همان چیزهایی که نرم افزار های گران انجام می دهند ، انجام دهد . آن نرم افزار همان وکا است. وکا محصول و ساخته شده ی دانشگاه وایکاتو در نیوزلند است و در ابتدا در سال ۱۹۹۷ طراحی و توسعه داده شد.
وکا از الگوریتم های زیادی برخوردار است که می توان به شکل زیربه آنها اشاره کرد :
طبقه بندی : درخت تصمیم ، نزدیک ترین نقطه ها ،الگوریتم کوتاه ترین مسیر ، بیز ساده
پیش بینی کردن : رگرسیون خطی و غیر خطی ، الگوریتم ادراکی
روش های متا : الگوریتم کیسه ، الگوریتم افزایش
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
این روش ها در قسمت های یادگیری ماشین با نظارت و بدون نطارت و همچنین تقویتی و خود تکمیلی تقسیم می شوند.
الگوریتم های زیادی در این نرم افزار وجود دارند که به اختصار به تعدادی از انها اشاره کردیم .
البته در مورد الگوریتم های ناشناخته تر دیگر نیز وکا یک باکسی فراهم کرده تا اطلاعات اولیه ای برای اشنایی با آن به شما بدهد اینگونه بتوانید حداقل اطلاعات راجع به آن الگوریتم را داشته باشید .
ﻭﮐﺎ ﺷﺎﻣﻞ ﻣﺠﻤﻮﻋﻪ ﺍﯼ ﺍﺯ ﺍﺑﺰﺍﺭ ﻫﺎﯼ ﺩﻳﺪﺍﺭﯼ ﺳﺎﺯﯼ ﻭ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﻳﯽ ﺑﺮﺍﯼ ﺁﻧﺎﻟﻴﺰ ﻭ ﺑﺮﺭﺳﯽ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﭘﻴﺶ ﺑﻴﻨﯽ ﺁﻧﻬﺎ ﻣﯽ ﺑﺎﺷﺪ ﮐﻪ ﺭﺍﺑﻂ ﮐﺎﺭﺑﺮﯼ ﮔﺮﺍﻓﻴﮑﯽ ﺁﻥ ﮐﺎﺭ ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻳﻦ ﺗﻮﺍﺑﻊ ﻭ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺭﺍ ﺁﺳﺎﻥ ﺗﺮ ﮐﺮﺩﻩ ﺍﺳﺖ. ﺩﺭ ﻣﺪﻝ ﻫﺎﯼ ﻗﺒﻠﯽ ﻭﮐﺎ ﺑﻪ ﺯﺑﺎﻥ ﻫﺎﯼ ﺩﻳﮕﺮ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﺷﺪﻩ ﺑﻮﺩ ﻭ ﺍﺯ ﺍﻳﻦ ﺭﺍﺑﻂ ﮐﺎﺭﺑﺮﯼ ﺑﺮﺧﻮﺭﺩﺍﺭ ﻧﺒﻮﺩ. ﺁﺧﺮﻳﻦ ﻭﺭﮊﻥ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﺭﮊﻥ ۳ ﺁﻥ ﻣﯽ ﺑﺎﺷﺪ ﮐﻪ ﺷﺎﻣﻞ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻳﺎﺩﮔﻴﺮﯼ ﻣﺎﺷﻴﻦ ﺯﻳﺎﺩﯼ ﻣﯽ ﺑﺎﺷﺪ .
ﺑﺮﺍﯼ ﻓﺎﻳﺪﻩ ﻫﺎﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻣﯽ ﺗﻮﺍﻥ ﺭﺍﻳﮕﺎﻥ ﺑﻮﺩﻥ ﺁﻥ ﺭﺍ ﻧﺎﻡ ﺑﺮﺩ ﻭ ﺍﻳﻦ ﮐﻪ ﺍﻳﻦ ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﭘﻠﺘﻔﺮﻡ ﺧﺎﺻﯽ ﻧﻴﺴﺖ ﻭ ﺑﺮ ﺭﻭﯼ ﺗﻤﺎﻡ ﭘﻠﺘﻔﺮﻡ ﻫﺎﯼ ﻣﺤﺎﺳﺒﺎﺗﯽ ﮐﻪ ﺟﺎﻭﺍ ﺩﺍﺷﺘﻪ ﺑﺎﺷﻨﺪ ﻗﺎﺑﻞ ﻧﺼﺐ ﻣﯽ ﺑﺎﺷﺪ.
ﻭﮐﺎ ﺍﺯ ﺍﺳﺘﺎﻧﺪﺍﺭﺩ ﻫﺎﯼ ﺯﻳﺎﺩﯼ ﺑﺮﺍﯼ ﺩﺍﺩﻩ ﮐﺎﻭﯼ ﺑﻪ ﺧﺼﻮﺹ پردازش کزدن ، کلاستر بندی ، طبقه بندی و رگرسیون برخوردار می باشد. ﺑﺮﺧﻮﺭﺩﺍﺭﯼ ﺍﺯ ﺍﻳﻦ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻓﺎﻳﻞ ﻫﺎﯼ ﺩﺍﺩﻩ ﻫﺎ ﺍﻣﮑﺎﻥ ﭘﺬﻳﺮ ﻣﯽ ﺑﺎﺷﺪ . ﻭﮐﺎ ﺍﻣﮑﺎﻥ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻫﺎﯼ ﭘﻴﺎﺩﻩ ﺷﺪﻩ ﺑﺎ ﺯﻳﺎﻥ ﺍﺳﮑﻴﻮﻝ ﺭﺍ ﻧﻴﺰ ﻓﺮﺍﻫﻢ ﻣﯽ ﮐﻨﺪ ﻭ ﻣﯽ ﺗﻮﺍﻧﺪ ﻧﺘﺎﻳﺞ ﻣﻮﺭﺩ ﻧﻈﺮ ﺭﺍ ﺩﺭ ﻗﺎﻟﺐ ﻳﮏ ﭘﺮﺱ ﻭ ﺟﻮ ﺑﺎ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻓﺮﺍﻫﻢ ﮐﻨﺪ.
رابط کاربری اصلی وکا ، اکسئلورر می باشد اما از قسمت های دیگر نیز امکان دسترسی به توابع موجود می باشد. قسمت های دیگر نرم افزار شامل یک آزمایشگر ، ﻳﮏ ﮔﺮﺍﻑ ﮐﻨﺘﺮﻝ ﺟﺮﻳﺎﻥ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻳﮏ ﺧﻂ ﻓﺮﻣﺎﻥ ﺳﺎﺩﻩ ﻣﯽ ﺑﺎﺷﺪ .
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
ﻗﺴﻤﺖ ﺍﮐﺴﭙﻠﻮﺭﺭ ﺩﺭ ﻭﮐﺎ ﭼﻨﺪ ﭘﻨﻞ ﺑﺮﺍﯼ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﻭ ﻭﻳﮋﮔﯽ ﻫﺎ ﻓﺮﺍﻫﻢ ﮐﺮﺩﻩ ﺍﺳﺖ .
۱ – ﭘﻴﺶ ﭘﺮﺩﺍﺯﺵ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺩﺍﺩﻩ ﻫﺎ ﺑﻪ ﺷﮑﻞ ﻓﺎﻳﻞ ﻭﺭﻭﺩﯼ ARFF ،csv ﻳﺎ ﺍﺭﺗﺒﺎﻁ ﺑﺎ ﭘﺎﻳﮕﺎﻩ ﺩﺍﺩﻩ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺍﺳﺖ .
۲ – ﻃﺒﻘﻪ ﺑﻨﺪﯼ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺿﺎﻓﻪ ﮐﺮﺩﻥ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻃﺒﻘﻪ ﺑﻨﺪﯼ ﻳﺎ ﺭﮔﺮﺳﻴﻮﻥ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺗﺎ ﮐﺎﺭﺑﺮ ﺑﻪ ﺳﺎﺩﮔﯽ ﺑﺘﻮﺍﻧﺪ ﺍﺯ ﺗﻌﺪﺍﺩ ﺯﻳﺎﺩﯼ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻣﺮﺑﻮﻃﻪ ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ROC ، ﺩﺭﺧﺖ ﺗﺼﻤﻴﻢ ﻭ … ﺍﺳﺘﻔﺎﺩﻩ ﮐﻨﺪ.
۳ – ﻭﺍﺑﺴﺘﮕﯽ : ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﻳﮏ ﺩﺳﺘﺮﺳﯽ ﺑﻪ ﺑﺨﺶ ﻗﻮﺍﻧﻴﻦ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺗﺎ ﺍﺭﺗﺒﺎﻁ ﻣﻴﺎﻥ ﺩﺍﺩﻩ ﻫﺎ ﻭ ﻗﻮﺍﻧﻴﻦ ﺩﻳﺪﻩ ﺷﻮﺩ.
۴ – ﮐﻼﺳﺘﺮ : ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﻣﮑﺎﻥ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺗﮑﻨﻴﮏ ﻫﺎﯼ ﮐﻼﺳﺘﺮﻳﻨﮓ ﺭﺍ ﺑﺮﺍﯼ ﻣﺎ ﻓﺮﺍﻫﻢ ﻣﯽ ﮐﻨﺪ ﮐﻪ ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺍﻟﮕﻮﺭﻳﺘﻢ k-means ﺍﺷﺎﺭﻩ ﮐﺮﺩ. ﻫﻤﭽﻨﻴﻦ ﺩﺭ ﺍﻳﻦ ﺑﺨﺶ ﭘﻴﺎﺩﻩ ﺳﺎﺯﯼ ﻫﺎﯼ ﺩﻳﮕﺮﯼ ﺑﺮﺍﯼ ﺗﻮﺯﻳﻊ ﻫﺎﯼ ﻧﺮﻣﺎﻝ ﻧﻴﺰ ﻭﺟﻮﺩ ﺩﺍﺭﺩ.
۵ – ﻧﻤﺎﺩﻳﻨﻪ ﺳﺎﺯﯼ : ﺩﺭ ﺍﻳﻦ ﺑﺨﺶ ﻣﯽ ﺗﻮﺍﻥ ﻧﺘﻴﺠﻪ ﯼ ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎ ﺑﺮ ﺭﻭﯼ ﺩﺍﺩﻩ ﻫﺎ ﺭﺍ ﺑﻪ ﺷﮑﻞ ﭘﻼﺕ ﻭ ﻧﻤﻮﺩﺍﺭ ﻣﺸﺎﻫﺪ ﮐﺮﺩ.
ﺍﻟﮕﻮﺭﻳﺘﻢ ﻫﺎﯼ ﻭﮐﺎ
ﺩﺭ ﺍﻳﻦ ﻗﺴﻤﺖ ﺍﺑﺘﺪﺍ ﺑﻪ ﺗﻮﺿﻴﺢ ﺍﻟﮕﻮﺭﻳﺘﻢ ﺭﮔﺮﺳﻴﻮﻥ ﻭ ﮐﺎﺭﺑﺮﺩ ﺁﻥ ﺩﺭ ﻭﮐﺎ ﻣﯽ ﭘﺮﺩﺍﺯﻳﻢ :
ﺭﮔﺮﺳﻴﻮﻥ ﻳﮑﯽ ﺍﺯ ﺳﺎﺩﻩ ﺗﺮﻳﻦ ﺭﻭﺵ ﻫﺎ ﺑﺮﺍﯼ ﺍﺳﺘﻔﺎﺩﻩ ﺩﺭ ﻭﮐﺎ ﺍﺳﺖ ﺍﻣﺎ ﺑﻪ ﺗﻨﺎﺳﺐ ﺍﺯ ﻗﺪﺭﺕ ﮐﻤﺘﺮﯼ ﻧﻴﺰ ﺑﺮﺧﻮﺭﺩﺍﺭ ﺍﺳﺖ . ﺍﻳﻦ ﻣﺪﻝ ﺑﻪ ﺳﺎﺩﮔﯽ ﺍﻳﻦ ﺍﺳﺖ ﮐﻪ ﻣﯽ ﺗﻮﺍﻧﺪ ﻳﮏ ﻭﺭﻭﺩﯼ ﺑﮕﻴﺮﺩ ﻭ ﻳﮏ ﺧﺮﻭﺟﯽ ﺑﺪﻫﺪ . ﺍﻟﺒﺘﻪ ﻣﻘﺎﺩﻳﺮ ﭘﻴﭽﻴﺪﻩ ﺗﺮﯼ ﺍﺯ ﺍﻳﻦ ﻧﻴﺰ ﻣﯽ ﺗﻮﺍﻧﺪ ﺩﺭﻳﺎﻓﺖ ﮐﻨﺪ ﻭ ﺧﺮﻭﺟﯽ ﻫﺎﯼ ﻣﺘﻨﺎﺳﺒﯽ ﺑﺎ ﺁﻥ ﻧﻴﺰ ﺑﺪﻫﺪ.
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
ﺑﻪ ﺑﻴﺎﻧﯽ ﺩﻳﮕﺮ ﻣﯽ ﺗﻮﺍﻥ ﮔﻔﺖ ﮐﻪ ﺭﮔﺮﺳﻴﻮﻥ ﺣﻮﻝ ﺩﺍﺩﻩ ﻫﺎﻳﯽ ﺑﺎ ﻳﮏ ﻧﻮﻉ ﺍﻋﻤﺎﻝ ﻣﯽ ﺷﻮﻧﺪ. ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻳﮏ ﺳﺮﯼ ﻣﺘﻐﻴﺮ ﻫﺎﯼ ﻣﺴﺘﻘﻞ ﻭﺟﻮﺩ ﺩﺍﺭﻧﺪ ﮐﻪ ﻫﻨﮕﺎﻣﯽ ﮐﻪ ﺑﺎ ﻫﻢ ﻣﺘﺼﻞ ﻣﯽ ﺷﻮﻧﺪ ﻳﮏ ﻧﺘﻴﺠﻪ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﻫﻢ ﺭﺍ ﻣﯽ ﺳﺎﺯﻧﺪ.
ﻫﻤﭽﻨﻴﻦ ﺍﺯ ﺭﮔﺮﺳﻴﻮﻥ ﺑﺮﺍﯼ ﭘﻴﺶ ﺑﻴﻨﯽ ﮐﺮﺩﻥ ﻧﺘﻴﺠﻪ ﺍﺯ ﻳﮏ ﺳﺮﯼ ﻣﺘﻐﻴﺮ ﻫﺎﯼ ﻣﺴﺘﻘﻞ ﻧﺎﺷﻨﺎﺧﺘﻪ ﻧﻴﺰ ﺍﺳﺘﻔﺎﺩﻩ ﻣﯽ ﺷﻮﺩ. ﺑﺮﺍﯼ ﻣﺜﺎﻝ ﻣﯽ ﺗﻮﺍﻥ ﺑﻪ ﺭﻭﺵ ﭘﻴﺶ ﺑﻴﻨﯽ ﻗﻴﻤﺖ ﺧﺎﻧﻪ ﺑﺎ ﺭﮔﺮﺳﻴﻮﻥ ﺍﺷﺎﺭﻩ ﮐﺮﺩ.