انجام پروژه های داده کاوی

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار وکا weka
انجام پروژه های داده کاوی با نرم افزار وکا weka

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer

 
انجام پروژه های داده کاوی با نرم افزار وکا weka

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


این پروژه بروی دیتاست مربوط به کاربران که شامل 6040 رکورد کاربر است. عملیات خوشه بندی با استفاده از الگوریتم k-means انجام می دهد. روش کار بدین صورت است که ابتدا داده های مربوط به کاربران را به نرم افزار داده کاوی وکا وارد نموده، سپس داده ها را جهت افزایش دقت خوشه بندی نرمال سازی می کنیم. پس از نرمال سازی داده ها الگوریتم k-means بروی داده های نرمال شده اعمال می گردد و خروجی را در قالب یک فایل اکسل با اضافه نمودن برچسپ خوشه(Cluster) تولید می کند. ویژگی های مربوط به کاربران عبارتند از :

    کد کاربر
    جنسیت
    شغل
    کد پستی


    تحویل فایل های تهیه شده با وکا
    ارائه دیتاست خام کاربران با پسوند های .txt , .csv , .xlsx , xls
    امکان دانلود دیتاست کاربران خوشه بندی شده




[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم زنبور عسل مصنوعی در Matlab]
شناسایی تراکنش های موفق و نامو ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


   
[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Rapidminer]
شناسایی تراکنش های موفق و نامو ...

   
[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Matlab]
شناسایی تراکنش های موفق و نامو ...

   
[پیش بینی بار مصرفی برق با ترکیب الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق با ترکی ...

   
[پروژه خوشه بندی بروی متون مربوط به بیماری ها با استفاده از k-means – C#]
پروژه خوشه بندی بروی متون مربو ...

   
[پیش بینی بار مصرفی برق بروی داده های خوشه بندی شده با الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق بروی دا ...

[شبیه سازی Spell Checker با استفاده از روشهای متن کاوی]
شبیه سازی Spell Checker با است ...

   
[پیاده سازی شناسایی بیماری دیابت نوع 2 با الگوریتم SVM با زبان متلب – matlab]
پیاده سازی شناسایی بیماری دیاب ...

   

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

[پروژه خوشه بندی بار مصرفی با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی بار مصرفی با و ...

   
[پیاده سازی کشف تقلب در سیستم بانکداری الکترونیک با رپیدماینر – شبیه سازی مقاله isi سال 2014]
پیاده سازی کشف تقلب در سیستم ب ...

   
[پروژه خوشه بندی کاربران با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی کاربران با وکا ...

   
پروژه های مرتبط :
پروژه خوشه بندی کاربران با وکا با ا ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


   
پیاده سازی کشف تقلب در سیستم بانکدا ...

   
پروژه خوشه بندی بار مصرفی با وکا ب ...

   
پیاده سازی شناسایی بیماری دیابت نوع ...

   
شبیه سازی Spell Checker با استفاده ...

       
شناسایی تراکنش های موفق و ناموفق در ...

   
شناسایی تراکنش های موفق و ناموفق در ...

   
شناسایی تراکنش های موفق و ناموفق در ...

   
پیش بینی بار مصرفی برق با ترکیب الگ ...

   
پروژه خوشه بندی بروی متون مربوط به ...

       

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آنالیز آماری فصل 4 پایان نامه با نرم افزارهای پیشرفته از جمله: spss، لاس)، شبکه عصبی، شبکه عصبی فازی در

بررسی الگوریتم های انجام پایان نامه یادگیری ماشین به کمک نرم افزار WEKA

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


چکیده:

انجام پایان نامه داده کاوی، تبدیل حجم بالای داده به الگوهای و قوانین قابل فهم است. هدف داده کاوی، ساخت مدلی مفهومی است که درک و تفسیر داده های حاضر را فراهم نموده و حتی امکان پیش بینی داده های آینده را نیز در اختیار ما قرار می دهد.  داده کاوی و Big Data مباحث مهمی هستند که امروزه مورد توجه بحث بسیاری از محققان است. نرم افزار WEKA مجموعه ای از الگوریتم های یادگیری ماشین در فرآیند انجام پایان نامه ارشد داده کاوی است. این الگوریتم ها می توانند به صورت مستقیم به مجموعه داده اعمال شده و یا از طریق زبان برنامه نویسی جاوا اجرا شوند. WEKA شامل مجموعه ابزار های پیش پردازش داده، طبقه بندی، رگرسیون، خوشه بندی، قوانین ارتباطی و مشاهده داده است که قابلیت اعمال بر روی مجموعه داده های بزرگ را نیز داراست. به دلیل وجود واسط گرافیکی مناسب، این نرم افزار جایگاه ویژه ای در تحقیقات مرتبط با داده کاوی پیدا نموده است.

هرزنامه که معمولا تبلیغاتی هستند، ویژگی‌های مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ می‌کنند از قیمت آن حرف می‌زنند و یا می‌گویند که فرصت‌تان چقدر استثنایی است. حتی رنگارنگ بودن بخش‌های نوشته می‌تواند نشان از بی‌ارزش بودن آن باشد. از آنجایی که این نشانه‌های قطعی نیستند و ما هم در ایمیل‌هایی که برای هم می‌فرستیم ممکن است مثلا از قیمت حرف بزنیم، نمی‌توانیم با چند قانون ساده هرزنامه‌ها را جدا کنیم. این‌جور مواقع سعی می‌کنیم از روی مجموعه هرزنامه‌های موجود یاد بگیریم که هرزنامه‌ها چه ویژگی‌هایی دارند.
مقدمه

با افزایش حجم اطلاعات در همه ی زمینه ها ٬ وابستگی مردم جهان به خدمات و اطلاعات موجود در وب سایتها افزایش یافته است. برای مثال ٬ پیام های الکترونیکی که به عنوان سریعترین و اقتصادی ترین راه برقراری ارتباط بین افراد هستند.
متاسفانه در میان این خدمات کاربران با یکسری پیام ها ی ناخواسته ای که حتی به علایق و حیطه ی کاری آنان مرتبط نیستند و حاوی مطالب پوچ ٬ غیر اخلاقی یا حتی مخرب هستن مواجه می شوند که از اهداف این هرزنامه نویسان انجام کارهای مخرب ٬ سرقت های رایانه ای و سوء استفاده از اطلاعات محرمانه ی افراد فریب خورده می توان یاد کرد.
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


- انواع الگوریتم های تشخیص و توقیف هرزنامه:

امروزه الگوریتم های زیادی جهت تشخیص انواع هرزنامه ها وجود دارد. در این قسمت معرفی اجمالی بر چند روش که تا کنون به کار برده شده است خواهم پرداخت.

    تشخیص بر اساس محتوا و کلمات:

این روش ساده ترین و رایج ترین راه برای شناسایی هرزنامه ها می باشد. اگر محتوای نامه های الکترونیکی و یا محتوای اجزای تشکیل دهنده ی وب سایت مانند عنوان ٬ فرا تگ ٬ لینک های موجود در صفحه و URL شامل کلمات خاصی باشند ٬ به عنوان هرزنامه شناسایی می شوند. هرزنامه نویسان اغلب از عبارات خاص و جذاب برای جلب توجه کاربران در نامه ی الکترونیکی یا وب سایت استفاده می کنند . کلماتی مانند free, Buy-Now, cheap, Satisfy-Me, Sex, Winner و..به همین دلیل هرزنامه نویسان کلمات مورد استفاده ی خود را دایم به شیوه های مختلف تغییر می دهند این تغییر مکرر باعث کاهش دقت می شود. برای رفع این مشکل به پایگاه داده بزرگتری جهت پوشش کلمات گوناگون نیاز داریم که جستجو و پردازش در این پایگاه داده باعث افزایش پیچیدگی زمانی می شود . از طرفی احتمال از دست رفتن نامه های الکترونیکی و یا وب سایت های واقعی و قانونی به علت استفاده ی مشروع از این کلمات نیز بالا می رود.

    تشخیص بر اساس رفتار هرزنامه:

در ارسال نامه های الکترونیکی بعضی از اطلاعات فیلدهای سرایند توسط فرستنده پر می شود و برخی دیگر به صورت خودکار توسط MTA تکمیل می شوند.
MTA بر اساس اطلاعات سرایند نامه ی الکترونیکی را به گیرنده تحویل می دهد و سپس این عمل تحویل را در فایل syslog ثبت می نماید.
اطلاعات syslog به صورت خودکار فقط توسط MTA پر می شوند و فرستنده اجازه ی هیچ گونه تغییر در آن ها را ندارند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


هرزنامه نویسان برای فریب دادن ضد هرزنامه ها از اطلاعات غیر معتبر و نامربوط در فایل سرایند نامه ی الکترونیکی استفاده می کنند بدین سببب
در این روش اطلاعات فیلدها مانند: From, To, Date, Deliver-to, Received, Reteurn-Path بررسی می شوند و در صورت غیر معتبر یا نامربط بودن هر کدام از اطلاعات فیلدهای فایل سرایند درجه ی هرزنامه بودن نامه الکترونیکی را بالا می برد.

منظور از غیر معتبر بودن این است که هرزنامه نویس در فیلدهای مورد نظر اطلاعات نادرست وارد کند مثلا قسمت From را با آدرس نامشخص که به صورت تصادفی تولید شده است یا با آدرس های جعلی پر کند.

اطلاعات فیلدهای فایل سرایند را به تنهایی از نظر اعتبار و صحت و قالب بندی می سنجند و نیز این اطلاعات را با اطلاعات فیلدهای همتایشان در فایل syslog از نظر سازگاری داشتن با هم مقایسه می کنند.منظور از همتا بودن این است که آن از دسته از فیلدهایی که از نظر جنس اطلاعات یکسان باشند با هم مقایسه می شوند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


مقایسه و تعیین صحت این فایل ها بر اساساس قوانینی تعریف شده است ؛ که این قوانین تا حدی همه ی حالاتی که برای سنجش فیلد ها نیازمند است را تحت پوشش می دهد.و به ۲ بخش تقسیم شده اند: یک بخش برای سنجش فیلدهای هر کدام از فایل ها(سرایند و syslog) و بخش دیگر برای مقایسه هر فیلد از فایل سرایند با فایل sysylog ٬ این قوانین مواردی مانند تهی ٬ جعلی ٬ تصادفی و در قالب درست بودن فیلدهای ادرس و قالب ٬ زمان(اداری یا غیر اداری) فیلد تاریخ(Date) را شامل می شوند همچنین فیلدهایی که قرار است دو به دو با هم مقایسه شوند از نظر اینکه آیا دو فیلد در یک قالب درست آدرس یا زمان هستند؟مثلا اطلاعات فیلد FROM از فایل سرایند با اطلاعات فیلد FROM از فایل syslog در یک نامه الکترونیکی باید یکسان باشند.

    روش پیشنهادی:

روش مورد استفاده در این بخش شامل مراحل زیر می باشد:

۱)حذف کلمات بی ارزش

۲)ریشه یابی کلمات

۳)استخراج ویژگی ها

۴)کاهش ویژگی ها

۵)ساخت مدل

۱- حذف کلمات بی ارزش:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در ابتدا به منظور آزمایش روش پیشنهادی از پایگاه های اطلاعاتی استاندارد در زمینه تشخیص هرزنامه (enorm) استفاده می کنیم که شامل نامه های الکترونیک عادی و هرزنامه می باشد. داده های مورد بررسی ما داده های مورد استفاده در مقاله های معتبر علمی می باشد که در چند سال اخیر چاپ شده است. ما در ابتدا سعی بر آن داریم تا با انجام روش های متفاوت کلمات بی ارزش (and,the,or,in,…) را از متن نامه ها حذف کنیم.

۲- ریشه یابی کلمات:

بعد از حذف کلمات بی ارزش کلمات باقی مانده را ریشه یابی می کنیم و هدف این است که کلماتی که ریشه یکسانی دارند را یکسان در نظر بگیریم برای این منظور ما از الگوریتم های stemming استفاده می کنیم.

۳- استخراج ویژگی:

در مرحله بعد می خواهیم ویژگی های موجود در متن را پیدا کنیم و برداری از ویژگی ها را تشکیل می دهیم. این بردار به این صورت ساخته می شود که بعد آن برابر با تعداد ویژگی های استخراج شده می باشد و اگر نامه الکترونیکی مربوطه ویژگی مورد نظر را داشته باشد مقدار آن ویژگی برابر با مقدار پشتیبان و در غیر این صورت مقدار ۰ را برای آن ویژگی در بردار قرار می دهیم.

برای این منظور از الگوهای تکراری در کل متن استفاده می کنیم. الگوهای تکراری به گونه ایی یافت می شود که تعداد تکرار در کل نامه های الکترونیکی از یک درصد تعیین شده بیشتر باشد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


الگوی تکراری:

الگوی <SB<sb1,sb2,…,sbm در دنباله S نمونه ای از الگوی <P<e1,e2,…,en می باشد اگر و تنها اگر عبارت QRE زیر برقرار باشد:

عبارت e1 ; [-e1,e2,…,en];e2;…; [-e1,e2,…,en];en. : QRE

یک نمونه را با ۳ تایی (sidx , istart , iend) نمایش داده می شود که در آن sidx نشان دهنده شماره دنباله S در پایگاه داده اطلاعاتی می باشد و istart اندیس شروع و iend اندیس پایان زیر رشته در S می باشد . در حالت پیش فرض٬ تمامی اندیس ها از ۱ شروع می شود.

۴- کاهش ویژگی ها:

یکی از مراحل مهم در فیلتر کردن هرزنامه که تاثیر بسیار زیادی در عملکرد و افزایش سرعت تشخیص دارد انتخاب بهترین ویژگی ها از میان ویژگی های استخراج شده می باشد. زیرا ویژگی ها که شامل کلمات یا عبارات موجود در اسناد می شوند شامل هزاران ویژگی و یا حتی بیشتر هستند که این اشکال در عملکرد الگوریتم های یادگیری تاثیر منفی دارد. بنابراین نیاز به مرحله کاهش ویژگی ها داریم به طوری که ویژگی هایی که تفاوت هرزنامه و ایمیل های عادی را به درستی بیان نمی کنند حذف گردند. بنا براین باید ویژگی های مرتبط که نسبت به بقیه ی ویژگی ها قدرت دسته بندی بیشتری دارند شناسایی شوند. بنابراین در این مرحله با اعمال الگوریتم انتخاب ویژگی بر روزی بردارها بهترین ویژگی ها را استخراج می کنیم و به این ترتیب بعد بردارها نیز کاهش میابد که باعث افزایش سرعت پردازش خواهد شد.

۵- ساخت مدل:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در این مرحله ما می خواهیم با استفاده از ویژگی های برگزیده شده از مرحله ی قبل و اعمال الگوریتم های متفاوت طبقه بندی در داده کاوی بر روی بردارهای بدست آمده مدلی تهیه کنیم بطوری که با استفاده از آن بتوان ایمیل های هرزنامه و ایمیل های عادی را تفکیک کرد.
با استفاده از تابع (rankBM25_DocumentAtAtime_WithHeap(q,k میل هایی را که مرتبط هستند را به ترتیب ویژگی هرزنامه بودنشان را بدست می اوریم.
آزمایش‌ها

۱- مجموعه داده و ویژگی های استخراج شده:

    لینک کد قرار داده شده بر روی github:

   

    در این برنامه یک فایل DOCUMENT.TXT به عنوان ورودی گرفته می شود که شامل ایمیل هاست و فایل balcklist_word.txt که شامل پایگاه داده کلمات هرزنامه است.

 

 

    نمونه فایل ورودی:

   

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


نکات قابل توجه برای run گرفتن از کد:

    فایلی که شامل ایمیل هاست در کد به نام DOCUMENT فراخوانی می شود و هر ایمیل داخل فایل با تگ باز شروع شده و با تگ بسته تمام می شود.

    خروجی شامل ایمیل هایی است که هرزنامه تشخیص داده شده اند و به ترتیب میزان ویژگی هرزنامه بودن هر ایمیل(ایمیل های اول ویژگی هرزنامه

بودن بیشتری را دارند) نشان داده شده است.

    برای اجرای برنامه ابتدا دو تابع ()write_start_unmergefile و ()main_dictionary را اجرا کرده تا فایل های مورد نیاز ساخته شده و سپس این

دو تابع را کامنت کرده و تابع ()input_query را اجرا کرده تا خروجی را مشاهده کنید.

۲- ارزیابی کارایی مدل:

در سیستم پیشنهادی برای سنجش کارایی مدل از معیارهای Accuracy و Precision و Recall و Fmeasure استفاده شده است در زیر

خلاصه ای از مهمترین فرمول ها و معیارهای ذکر شده است:
Accuracy     Precision     Recall     Fmeasure
TP+TN / TP+FP+TN+FN     TP / FP+TP     TP / FN+TP     2Recall.Precesion / Recall+Precesion

    معیار prescision نسبت تعداد پیام هایی است که به درستی دسته بندی شده اند و از دسته های هرزنامه هستند به تعداد کل پیام های شناسایی شده به عنوان هرزنامه.

    معیار recall نسبت تعداد کل پیام های شناسایی شده به عنوان هرزنامه به تعدا د کل پیام هایی است که واقعا جزء دسته هرزنامه ها می باشند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    معیار accuracy نسبت تعداد هرزنامه ها و ایمیل های درست تشخیص داده شده به تعداد کل هرزنامه ها و ایمیل هایی که وجود دارند.

    معیار fmeasure ترکیبی از recall و precision است.

در ادامه , برای بررسی دقت عملکرد روش پیشنهادی , از معیارهای بالا بر روی یک نمونه پایگاه داده اطلاعاتی استفاده می شود:

    نتیجه ی کد به ازای نمونه فایل ورودی DOCUMENT.txt(لینک فایل ورودی در بالا ذکر شده است):

Accuracy     Precision     Recall     Fmeasure
0.5     0.6     0.4     0.5

- استفاده از الگوریتم next phrase :
در قسمت قبلی ؛ هرزنامه ها به ترتیبی نشان داده می شدند که تکرار کلمات stop word در ان ها بیشتر است ولی همان طور که می دانیم stop word شامل جمله نیز می باشد پس باید جمله ها را نیز در نظر بگیریم بدین منظور در یک دیتابیس جمله ها را ذخیره کرده و در سندهایی که به عنوان هرزنامه تشخیص داده شدند وجود این جمله ها را نیز در ان بررسی میکنیم و در صورت و جود ان ها و تعداد تکرارشان به میل مورد نظر امتیازی اضافه می شود البته در هنگام چک کردن این نکته را نیز در نظر داریم که ممکن یکسری جملات کلماتشان یکسان نباشد ولی مفهوم یکسانی داشته باشند بدین منظور هر جمله از stop word را با الگوریتم stemming ریشه گیری کرده و کلمات اضافه را نیز از ان ها حذف میکنیم تا به صورت جامع تری عمل مقایسه انجام شود.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    کد بهینه شده با الگوریتم next phrase:

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار وکا weka
انجام پروژه های داده کاوی با نرم افزار وکا weka

انجام پروژه های داده کاوی با نرم افزار کلمنتاین clementine12

انجام پروژه های داده کاوی با نرم افزار رپیدماینر rapidminer

 
انجام پروژه های داده کاوی با نرم افزار وکا weka

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


این پروژه بروی دیتاست مربوط به کاربران که شامل 6040 رکورد کاربر است. عملیات خوشه بندی با استفاده از الگوریتم k-means انجام می دهد. روش کار بدین صورت است که ابتدا داده های مربوط به کاربران را به نرم افزار داده کاوی وکا وارد نموده، سپس داده ها را جهت افزایش دقت خوشه بندی نرمال سازی می کنیم. پس از نرمال سازی داده ها الگوریتم k-means بروی داده های نرمال شده اعمال می گردد و خروجی را در قالب یک فایل اکسل با اضافه نمودن برچسپ خوشه(Cluster) تولید می کند. ویژگی های مربوط به کاربران عبارتند از :

    کد کاربر
    جنسیت
    شغل
    کد پستی


    تحویل فایل های تهیه شده با وکا
    ارائه دیتاست خام کاربران با پسوند های .txt , .csv , .xlsx , xls
    امکان دانلود دیتاست کاربران خوشه بندی شده




[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم زنبور عسل مصنوعی در Matlab]
شناسایی تراکنش های موفق و نامو ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


   
[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Rapidminer]
شناسایی تراکنش های موفق و نامو ...

   
[شناسایی تراکنش های موفق و ناموفق در دستگاههای خودپرداز با استفاده از الگوریتم شبکه عصبی MLP در Matlab]
شناسایی تراکنش های موفق و نامو ...

   
[پیش بینی بار مصرفی برق با ترکیب الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق با ترکی ...

   
[پروژه خوشه بندی بروی متون مربوط به بیماری ها با استفاده از k-means – C#]
پروژه خوشه بندی بروی متون مربو ...

   
[پیش بینی بار مصرفی برق بروی داده های خوشه بندی شده با الگوریتم ARIME در نرم افزار SPSS]
پیش بینی بار مصرفی برق بروی دا ...

[شبیه سازی Spell Checker با استفاده از روشهای متن کاوی]
شبیه سازی Spell Checker با است ...

   
[پیاده سازی شناسایی بیماری دیابت نوع 2 با الگوریتم SVM با زبان متلب – matlab]
پیاده سازی شناسایی بیماری دیاب ...

   

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

[پروژه خوشه بندی بار مصرفی با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی بار مصرفی با و ...

   
[پیاده سازی کشف تقلب در سیستم بانکداری الکترونیک با رپیدماینر – شبیه سازی مقاله isi سال 2014]
پیاده سازی کشف تقلب در سیستم ب ...

   
[پروژه خوشه بندی کاربران با وکا با استفاده از k-means - Weka]
پروژه خوشه بندی کاربران با وکا ...

   
پروژه های مرتبط :
پروژه خوشه بندی کاربران با وکا با ا ...

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


   
پیاده سازی کشف تقلب در سیستم بانکدا ...

   
پروژه خوشه بندی بار مصرفی با وکا ب ...

   
پیاده سازی شناسایی بیماری دیابت نوع ...

   
شبیه سازی Spell Checker با استفاده ...

       
شناسایی تراکنش های موفق و ناموفق در ...

   
شناسایی تراکنش های موفق و ناموفق در ...

   
شناسایی تراکنش های موفق و ناموفق در ...

   
پیش بینی بار مصرفی برق با ترکیب الگ ...

   
پروژه خوشه بندی بروی متون مربوط به ...

       

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

بررسی الگوریتم های انجام پایان نامه یادگیری ماشین به کمک نرم افزار WEKA

بررسی الگوریتم های انجام پایان نامه یادگیری ماشین به کمک نرم افزار WEKA

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


چکیده:

انجام پایان نامه داده کاوی، تبدیل حجم بالای داده به الگوهای و قوانین قابل فهم است. هدف داده کاوی، ساخت مدلی مفهومی است که درک و تفسیر داده های حاضر را فراهم نموده و حتی امکان پیش بینی داده های آینده را نیز در اختیار ما قرار می دهد.  داده کاوی و Big Data مباحث مهمی هستند که امروزه مورد توجه بحث بسیاری از محققان است. نرم افزار WEKA مجموعه ای از الگوریتم های یادگیری ماشین در فرآیند انجام پایان نامه ارشد داده کاوی است. این الگوریتم ها می توانند به صورت مستقیم به مجموعه داده اعمال شده و یا از طریق زبان برنامه نویسی جاوا اجرا شوند. WEKA شامل مجموعه ابزار های پیش پردازش داده، طبقه بندی، رگرسیون، خوشه بندی، قوانین ارتباطی و مشاهده داده است که قابلیت اعمال بر روی مجموعه داده های بزرگ را نیز داراست. به دلیل وجود واسط گرافیکی مناسب، این نرم افزار جایگاه ویژه ای در تحقیقات مرتبط با داده کاوی پیدا نموده است.

هرزنامه که معمولا تبلیغاتی هستند، ویژگی‌های مشابهی دارند. مثلا آنهایی که محصولی را تبلیغ می‌کنند از قیمت آن حرف می‌زنند و یا می‌گویند که فرصت‌تان چقدر استثنایی است. حتی رنگارنگ بودن بخش‌های نوشته می‌تواند نشان از بی‌ارزش بودن آن باشد. از آنجایی که این نشانه‌های قطعی نیستند و ما هم در ایمیل‌هایی که برای هم می‌فرستیم ممکن است مثلا از قیمت حرف بزنیم، نمی‌توانیم با چند قانون ساده هرزنامه‌ها را جدا کنیم. این‌جور مواقع سعی می‌کنیم از روی مجموعه هرزنامه‌های موجود یاد بگیریم که هرزنامه‌ها چه ویژگی‌هایی دارند.
مقدمه

با افزایش حجم اطلاعات در همه ی زمینه ها ٬ وابستگی مردم جهان به خدمات و اطلاعات موجود در وب سایتها افزایش یافته است. برای مثال ٬ پیام های الکترونیکی که به عنوان سریعترین و اقتصادی ترین راه برقراری ارتباط بین افراد هستند.
متاسفانه در میان این خدمات کاربران با یکسری پیام ها ی ناخواسته ای که حتی به علایق و حیطه ی کاری آنان مرتبط نیستند و حاوی مطالب پوچ ٬ غیر اخلاقی یا حتی مخرب هستن مواجه می شوند که از اهداف این هرزنامه نویسان انجام کارهای مخرب ٬ سرقت های رایانه ای و سوء استفاده از اطلاعات محرمانه ی افراد فریب خورده می توان یاد کرد.
کارهای مرتبط

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


- انواع الگوریتم های تشخیص و توقیف هرزنامه:

امروزه الگوریتم های زیادی جهت تشخیص انواع هرزنامه ها وجود دارد. در این قسمت معرفی اجمالی بر چند روش که تا کنون به کار برده شده است خواهم پرداخت.

    تشخیص بر اساس محتوا و کلمات:

این روش ساده ترین و رایج ترین راه برای شناسایی هرزنامه ها می باشد. اگر محتوای نامه های الکترونیکی و یا محتوای اجزای تشکیل دهنده ی وب سایت مانند عنوان ٬ فرا تگ ٬ لینک های موجود در صفحه و URL شامل کلمات خاصی باشند ٬ به عنوان هرزنامه شناسایی می شوند. هرزنامه نویسان اغلب از عبارات خاص و جذاب برای جلب توجه کاربران در نامه ی الکترونیکی یا وب سایت استفاده می کنند . کلماتی مانند free, Buy-Now, cheap, Satisfy-Me, Sex, Winner و..به همین دلیل هرزنامه نویسان کلمات مورد استفاده ی خود را دایم به شیوه های مختلف تغییر می دهند این تغییر مکرر باعث کاهش دقت می شود. برای رفع این مشکل به پایگاه داده بزرگتری جهت پوشش کلمات گوناگون نیاز داریم که جستجو و پردازش در این پایگاه داده باعث افزایش پیچیدگی زمانی می شود . از طرفی احتمال از دست رفتن نامه های الکترونیکی و یا وب سایت های واقعی و قانونی به علت استفاده ی مشروع از این کلمات نیز بالا می رود.

    تشخیص بر اساس رفتار هرزنامه:

در ارسال نامه های الکترونیکی بعضی از اطلاعات فیلدهای سرایند توسط فرستنده پر می شود و برخی دیگر به صورت خودکار توسط MTA تکمیل می شوند.
MTA بر اساس اطلاعات سرایند نامه ی الکترونیکی را به گیرنده تحویل می دهد و سپس این عمل تحویل را در فایل syslog ثبت می نماید.
اطلاعات syslog به صورت خودکار فقط توسط MTA پر می شوند و فرستنده اجازه ی هیچ گونه تغییر در آن ها را ندارند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


هرزنامه نویسان برای فریب دادن ضد هرزنامه ها از اطلاعات غیر معتبر و نامربوط در فایل سرایند نامه ی الکترونیکی استفاده می کنند بدین سببب
در این روش اطلاعات فیلدها مانند: From, To, Date, Deliver-to, Received, Reteurn-Path بررسی می شوند و در صورت غیر معتبر یا نامربط بودن هر کدام از اطلاعات فیلدهای فایل سرایند درجه ی هرزنامه بودن نامه الکترونیکی را بالا می برد.

منظور از غیر معتبر بودن این است که هرزنامه نویس در فیلدهای مورد نظر اطلاعات نادرست وارد کند مثلا قسمت From را با آدرس نامشخص که به صورت تصادفی تولید شده است یا با آدرس های جعلی پر کند.

اطلاعات فیلدهای فایل سرایند را به تنهایی از نظر اعتبار و صحت و قالب بندی می سنجند و نیز این اطلاعات را با اطلاعات فیلدهای همتایشان در فایل syslog از نظر سازگاری داشتن با هم مقایسه می کنند.منظور از همتا بودن این است که آن از دسته از فیلدهایی که از نظر جنس اطلاعات یکسان باشند با هم مقایسه می شوند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


مقایسه و تعیین صحت این فایل ها بر اساساس قوانینی تعریف شده است ؛ که این قوانین تا حدی همه ی حالاتی که برای سنجش فیلد ها نیازمند است را تحت پوشش می دهد.و به ۲ بخش تقسیم شده اند: یک بخش برای سنجش فیلدهای هر کدام از فایل ها(سرایند و syslog) و بخش دیگر برای مقایسه هر فیلد از فایل سرایند با فایل sysylog ٬ این قوانین مواردی مانند تهی ٬ جعلی ٬ تصادفی و در قالب درست بودن فیلدهای ادرس و قالب ٬ زمان(اداری یا غیر اداری) فیلد تاریخ(Date) را شامل می شوند همچنین فیلدهایی که قرار است دو به دو با هم مقایسه شوند از نظر اینکه آیا دو فیلد در یک قالب درست آدرس یا زمان هستند؟مثلا اطلاعات فیلد FROM از فایل سرایند با اطلاعات فیلد FROM از فایل syslog در یک نامه الکترونیکی باید یکسان باشند.

    روش پیشنهادی:

روش مورد استفاده در این بخش شامل مراحل زیر می باشد:

۱)حذف کلمات بی ارزش

۲)ریشه یابی کلمات

۳)استخراج ویژگی ها

۴)کاهش ویژگی ها

۵)ساخت مدل

۱- حذف کلمات بی ارزش:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در ابتدا به منظور آزمایش روش پیشنهادی از پایگاه های اطلاعاتی استاندارد در زمینه تشخیص هرزنامه (enorm) استفاده می کنیم که شامل نامه های الکترونیک عادی و هرزنامه می باشد. داده های مورد بررسی ما داده های مورد استفاده در مقاله های معتبر علمی می باشد که در چند سال اخیر چاپ شده است. ما در ابتدا سعی بر آن داریم تا با انجام روش های متفاوت کلمات بی ارزش (and,the,or,in,…) را از متن نامه ها حذف کنیم.

۲- ریشه یابی کلمات:

بعد از حذف کلمات بی ارزش کلمات باقی مانده را ریشه یابی می کنیم و هدف این است که کلماتی که ریشه یکسانی دارند را یکسان در نظر بگیریم برای این منظور ما از الگوریتم های stemming استفاده می کنیم.

۳- استخراج ویژگی:

در مرحله بعد می خواهیم ویژگی های موجود در متن را پیدا کنیم و برداری از ویژگی ها را تشکیل می دهیم. این بردار به این صورت ساخته می شود که بعد آن برابر با تعداد ویژگی های استخراج شده می باشد و اگر نامه الکترونیکی مربوطه ویژگی مورد نظر را داشته باشد مقدار آن ویژگی برابر با مقدار پشتیبان و در غیر این صورت مقدار ۰ را برای آن ویژگی در بردار قرار می دهیم.

برای این منظور از الگوهای تکراری در کل متن استفاده می کنیم. الگوهای تکراری به گونه ایی یافت می شود که تعداد تکرار در کل نامه های الکترونیکی از یک درصد تعیین شده بیشتر باشد.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


الگوی تکراری:

الگوی <SB<sb1,sb2,…,sbm در دنباله S نمونه ای از الگوی <P<e1,e2,…,en می باشد اگر و تنها اگر عبارت QRE زیر برقرار باشد:

عبارت e1 ; [-e1,e2,…,en];e2;…; [-e1,e2,…,en];en. : QRE

یک نمونه را با ۳ تایی (sidx , istart , iend) نمایش داده می شود که در آن sidx نشان دهنده شماره دنباله S در پایگاه داده اطلاعاتی می باشد و istart اندیس شروع و iend اندیس پایان زیر رشته در S می باشد . در حالت پیش فرض٬ تمامی اندیس ها از ۱ شروع می شود.

۴- کاهش ویژگی ها:

یکی از مراحل مهم در فیلتر کردن هرزنامه که تاثیر بسیار زیادی در عملکرد و افزایش سرعت تشخیص دارد انتخاب بهترین ویژگی ها از میان ویژگی های استخراج شده می باشد. زیرا ویژگی ها که شامل کلمات یا عبارات موجود در اسناد می شوند شامل هزاران ویژگی و یا حتی بیشتر هستند که این اشکال در عملکرد الگوریتم های یادگیری تاثیر منفی دارد. بنابراین نیاز به مرحله کاهش ویژگی ها داریم به طوری که ویژگی هایی که تفاوت هرزنامه و ایمیل های عادی را به درستی بیان نمی کنند حذف گردند. بنا براین باید ویژگی های مرتبط که نسبت به بقیه ی ویژگی ها قدرت دسته بندی بیشتری دارند شناسایی شوند. بنابراین در این مرحله با اعمال الگوریتم انتخاب ویژگی بر روزی بردارها بهترین ویژگی ها را استخراج می کنیم و به این ترتیب بعد بردارها نیز کاهش میابد که باعث افزایش سرعت پردازش خواهد شد.

۵- ساخت مدل:

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


در این مرحله ما می خواهیم با استفاده از ویژگی های برگزیده شده از مرحله ی قبل و اعمال الگوریتم های متفاوت طبقه بندی در داده کاوی بر روی بردارهای بدست آمده مدلی تهیه کنیم بطوری که با استفاده از آن بتوان ایمیل های هرزنامه و ایمیل های عادی را تفکیک کرد.
با استفاده از تابع (rankBM25_DocumentAtAtime_WithHeap(q,k میل هایی را که مرتبط هستند را به ترتیب ویژگی هرزنامه بودنشان را بدست می اوریم.
آزمایش‌ها

۱- مجموعه داده و ویژگی های استخراج شده:

    لینک کد قرار داده شده بر روی github:

   

    در این برنامه یک فایل DOCUMENT.TXT به عنوان ورودی گرفته می شود که شامل ایمیل هاست و فایل balcklist_word.txt که شامل پایگاه داده کلمات هرزنامه است.

 

 

    نمونه فایل ورودی:

   

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


نکات قابل توجه برای run گرفتن از کد:

    فایلی که شامل ایمیل هاست در کد به نام DOCUMENT فراخوانی می شود و هر ایمیل داخل فایل با تگ باز شروع شده و با تگ بسته تمام می شود.

    خروجی شامل ایمیل هایی است که هرزنامه تشخیص داده شده اند و به ترتیب میزان ویژگی هرزنامه بودن هر ایمیل(ایمیل های اول ویژگی هرزنامه

بودن بیشتری را دارند) نشان داده شده است.

    برای اجرای برنامه ابتدا دو تابع ()write_start_unmergefile و ()main_dictionary را اجرا کرده تا فایل های مورد نیاز ساخته شده و سپس این

دو تابع را کامنت کرده و تابع ()input_query را اجرا کرده تا خروجی را مشاهده کنید.

۲- ارزیابی کارایی مدل:

در سیستم پیشنهادی برای سنجش کارایی مدل از معیارهای Accuracy و Precision و Recall و Fmeasure استفاده شده است در زیر

خلاصه ای از مهمترین فرمول ها و معیارهای ذکر شده است:
Accuracy     Precision     Recall     Fmeasure
TP+TN / TP+FP+TN+FN     TP / FP+TP     TP / FN+TP     2Recall.Precesion / Recall+Precesion

    معیار prescision نسبت تعداد پیام هایی است که به درستی دسته بندی شده اند و از دسته های هرزنامه هستند به تعداد کل پیام های شناسایی شده به عنوان هرزنامه.

    معیار recall نسبت تعداد کل پیام های شناسایی شده به عنوان هرزنامه به تعدا د کل پیام هایی است که واقعا جزء دسته هرزنامه ها می باشند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    معیار accuracy نسبت تعداد هرزنامه ها و ایمیل های درست تشخیص داده شده به تعداد کل هرزنامه ها و ایمیل هایی که وجود دارند.

    معیار fmeasure ترکیبی از recall و precision است.

در ادامه , برای بررسی دقت عملکرد روش پیشنهادی , از معیارهای بالا بر روی یک نمونه پایگاه داده اطلاعاتی استفاده می شود:

    نتیجه ی کد به ازای نمونه فایل ورودی DOCUMENT.txt(لینک فایل ورودی در بالا ذکر شده است):

Accuracy     Precision     Recall     Fmeasure
0.5     0.6     0.4     0.5

- استفاده از الگوریتم next phrase :
در قسمت قبلی ؛ هرزنامه ها به ترتیبی نشان داده می شدند که تکرار کلمات stop word در ان ها بیشتر است ولی همان طور که می دانیم stop word شامل جمله نیز می باشد پس باید جمله ها را نیز در نظر بگیریم بدین منظور در یک دیتابیس جمله ها را ذخیره کرده و در سندهایی که به عنوان هرزنامه تشخیص داده شدند وجود این جمله ها را نیز در ان بررسی میکنیم و در صورت و جود ان ها و تعداد تکرارشان به میل مورد نظر امتیازی اضافه می شود البته در هنگام چک کردن این نکته را نیز در نظر داریم که ممکن یکسری جملات کلماتشان یکسان نباشد ولی مفهوم یکسانی داشته باشند بدین منظور هر جمله از stop word را با الگوریتم stemming ریشه گیری کرده و کلمات اضافه را نیز از ان ها حذف میکنیم تا به صورت جامع تری عمل مقایسه انجام شود.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


    کد بهینه شده با الگوریتم next phrase:

انجام پروژه مدل سازی شبکه عصبی مصنوعی ANN

نجام پروژه های تحقیقاتی و تجزیه تحلیل داده های پایان نامه (فصل 4 پایان نامه) برای رشته های علوم انسانی، علوم اجتماعی، مدیریت ، فنی مهندسی، پزشکی، روانشناسی، جامعه شناسی، اقتصاد، حسابداری، صنایع، فناوری اطلاعات، کامپیوتر و دیگر رشته ها در حوزه های ذیل:


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

آموزش نرم افزارهای Enterprise Dynamics, Showflow ، Vensim تجزیه و تحلیل آماری پایان نامه، تحقیقات میدانی و پرسشنامه ای با استفاده از نرم افزار SPSS و Lisrel ارائه تحلیل های اقتصاد سنجی، تحلیل های سری زمانی و داده های پانل Panel Data با استفاده از نرم افزار EViews و Microfit بررسی و تحلیل کارایی و بهره وری از طریق تحلیل پوششی داده ها DEA ب طراحی سیستمهای استنتاج فازی (منطق فازی) Fuzzy Logic، عصبی طراحی سیستمهای خبره Expert Systems تحت shell با استفاده از نرم افزارهای VP - مدل سازی بوسیله شبکه های عصبی مصنوعی ANN و الگوریتم ژنتیک GA SS، Weka، Clementine، FIS MATLAB ،ANFIS، VP - expert ارائه مشاوره در خصوص


09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

فصول پایان نامه جهت تکمیل تحقیق و آگاهی از چگونگی تحلیل داده ها و نتایج حاصله برای ارائه کار به استاد راهنما و راهنمایی برای آمادگی در جلسه دفاع پایان نامه کیفیت پشتیبانی و خدمات پس از فروش، پیگیری اصلاحات و آرامش در پایان نامه را با ما تجربه کنید. هزینه پستی ارسال پرسشنامه ، به شما پرداخت خواهد شد. دانشجویان دانشگاه آزاد اسلامی و غیر انتفاعی از تخفیف ویژه برخوردار می باشند. ارائه تخفیف در صورت معرفی به دوستان راهنمایی جهت تسریع در اتمام پایان نامه - - - - -

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com