پیش بینی (Prediction)
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
۱۶-روش های حل مشکل رده نامتوازن
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
الگوریتم
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
SPRINT
SPRINT یک درخت تصمیم طبقه بندی کننده سریع و مقیاس پذیر است. این الگوریتم مجموعه داده آموزشی را به صورت بازگشتی با استفاده از تکنیک حریصانه اول به پهنا تقسیم میکند تا وقتی که هر قسمت متعلق به گره برگ یا کلاس یکسان باشد. این روش، از مرتب سازی داده ها استفاده میکند و محدودیتی برای حجم داده ورودی نداشته و میتواند بر روی الگوهای سریال یا موازی برای جایگزینی داده های خوب و با توازن بار اجرا شود. دو ساختار داده ای را به کار می گیرد: لیست داده ها و پیشینه نما، که مقیم در حافظه نیستند و این مسئله SPRINT را برای مجموعه داده های بزرگ مناسب می سازد. بنابراین همه محدودیتهای حافظه بر داده ها را حذف می کند. این الگوریتم صفت های پیوسته و طبقه ای را به کار میبرد.09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
شبکه های عصبی
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
ژنتیک
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
این روش از این نظر مناسب نیست که هر گاه دو خوشه با یکدیگر ترکیب شوند یک خوشه ی جدید به وجود می آید و اثری از خوشه های قبلی دیگر نیست و ممکن است که اگر خوشه های قبلی با خوشه های دیگری در مراحل بعد ترکیب شوند به جواب بهتر و دارای دقت بالاتری دست پیدا کنیم[۲].
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
با توجه به گستردگی زیاد این روش و همچنین داشتن کد بسیار قوی که از انواع فرمت های ورودی و خروجی را پشتیبانی می کند و دارای option زیادی برای اجرای آن است به همراه داکیومنت بسیار قوی و کامل ، من استفاده از روش Infomap را درحال حاضر مناسب ترین روش برای پیدا کردن گروه های دوستان در شبکه های اجتماعی می دانم و به بقیه ی دوستان پیشنهاد می کنم.
09367292276
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
برای پیاده سازی مدل های داده کاوی در
SSAS از دو نوع داده ای استفاده می شود. یک نوع فیزیکی که در ساختار داده
کاوی کاربرد دارد و دیگری نوع منطقی است که برای ستون های مورد استفاده در
مدل بکار می رود. به زبان ساده تر در زمان ایجاد یک مدل داده کاوی برای
ستون های انتخاب شده از جداول دو نوع داده ای Data Type و Content Type
خواسته می شود که اولی به عنوان نوع فیزیکی و دومی به عنوان نوع منطقی برای
SSAS شناخته می شود.
در ادامه به شرح هر یک از آن ها خواهم پرداخت اما قبل از آن به عبارات و تعارف زیر توجه کنید.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
Data Type: از آن به عنوان نوع داده ای نام برده می شود که نشان دهنده نوع رکوردهای یک ستون خاص در جدول است.Content Type: از آن به عنوان نوع محتوایی نام برده می شود که بیانگر شرح حالت و نوع منطقی رکوردهای ستون است.Column: ستون های هر جدول است.Row: به سطرهای هر جدول گفته می شود.Case Table: منظور از آن جدول اصلی و پایه است.Nested Table: منظور از آن جدول کمکی یا تودرتو است.Input: به ستون های ورودی انتخاب شده برای مدل گفته می شود.Predictable: به ستون هایی که باید پیش بینی بر اساس آن ها انجام شود گفته می شود. از آن ها به عنوان ستون های قابل پیش بینی نیز یاد می شود.
در زمان ساخت مدل، نوع داده ای هر ستون در قسمت Data Type مشخص می شود که این کار باعث می شود تا الگوریتم اطلاعاتی از داده های هر ستون بدست آورد و در پردازش آن ها بکار گیرد. در داده کاوی هر نوع داده ای یک یا چند نوع محتوایی را پشتیبانی می کند. Content Type رفتار محتوای ستون ها را به SSAS توصیف می کند. برای مثال اگر داده های یک ستون در وقفه های زمانی خاصی مانند روزهای هفته تکرار شوند می توان نوع محتوایی مربوط به آن ستون را برابر با Cyclical قرار داد.برخی از الگوریتم های داده کاوی برای اینکه به خوبی کار کنند حساسیت زیادی به مشخص بودن این انواع دارند مانند الگوریتم بیز که نمی تواند از نوع محتوایی Continus برای مقادیر ورودی استفاده کند.
Data Typeهنگام
ساخت مدل داده کاوی در SSAS باید نوع داده ای هر ستون مشخص شود. در واقع
نوع داده ای مشخص کننده ی متنی یا عددی بودن داده های موجود در ستون است.
موتور داده کاوی از این اطلاعات برای مشخص کردن نحوه پردازش استفاده می
کند.هر نوع داده ای یک یا چند نوع
محتوایی را پشتیبانی می کند. برای مثال اگر داده های موجود در یک ستون عدد
باشند می توانید در قسمت Data Type آن نوع Numeric یا Text را انتخاب کنید.
اگر نوع Numeric را انتخاب کنید در آن صورت برای Content Type نوع های
Continuous و Discretize قابل انتخاب هستند.جدول زیر نوع های داده ای و محتوایی قابل پشتیبانی را نشان می دهد.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
نوع محتوایی(Content Types) | نوع داده ای (Data Type) |
Cyclical, Discrete, Discretized, Key Sequence,Ordered, Sequence | Text |
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered, Sequence | Long |
Cyclical, Discrete, Ordered | Boolean |
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered, Sequence | Double |
Continuous, Cyclical, Discrete, Discretized, Key, Key Sequence, Key Time, Ordered | Date |
Content Type
همانطور که پیش تر گفته شد نوع
محتوایی برای SSAS به عنوان یک نوع منطقی شناخته می شود که بیانگر رفتار
محتوای ستون ها است. در ادامه به شرح هر یک از انواع Content Type می
پردازم. Discrete:
این نوع نشان دهنده این است که ستون مورد نظر شامل تعداد محدودی از مقادیر
است. برای مثال ستون جنسیت را در نظر بگیرید، مقادیر این ستون یا مرد است
یا زن، به ستون هایی که این نوع مقادیر را در خود دارند Discreteگفته
می شود. این نوع مقادیر نظم و ترتیب خاصی ندارند و نمی توانند حاکی از
مسئله ای باشند و با اینکه ممکن است گاهی اوقات عددی هم باشند، نمی توانند
ما را به مقصود خاصی برسانند. مثل شماره تلفن که عدد است اما کاربردی در
محاسبات ندارند. Continuous: این نوع بیانگر داده های عددی نامحدود است که در یک مقیاس خاصی میان مقادیر وجود دارد. همانطور که در مورد نوع Discreteمتوجه
شدید، این نوع محدود و قابل شمارش است اما مقادیر Continuous مقادیر عددی
در رنج بزرگ و نامحدود می باشند. یک ستون با رکوردهایی از درجه حرارت مثال
مناسبی برای این نوع است.
Discretized: این نوع
بیانگر فرایند قرار دادن یک مجموعه از تعداد محدودی از مقادیر Continuous
در یک گروه است. به عبارت دیگر نوعdiscretized گروهی از داده های مشتق شده
از ستون Continuous را شامل می شود. می توان داده ها را به صورت
دستیdiscretized کرد.
Key: همانطور که از نام این
نوع مشخص است، به معنای یونیک بودن رکوردها در هر سطر است. معمولا در
جداول اصلی (Case Tables) کلید به صورت عددی یا متنی مشخص می شود. انتخاب
نوع Key برای ستون به معنای عدم آنالیز برروی آن ستون است و فقط جهت پیگیری
رکوردها استفاده می شود. جداول
تودرتو (Nested Tables) نیز ستون کلید دارند اما معنای Key در این جداول
کمی متفاوت با قبلی است. در جداول تودرتو زمانی یک ستون را به عنوان Key
معرفی می کنیم که قصد داشته باشیم تا از خصوصیات آن ستون برای آنالیز
استفاده کنیم. با این حال مقادیر ستون این جدول باید جدول اصلی یونیک باشد.
برای مثال اگر قصد آنالیز محصولات خریداری شده ی مشتریان را دارید، باید
در قسمت Content Type مربوط به ستون CustomerID در جدول اصلی نوع Key را
انتخاب کنید و همین کار را برای ستون PurchasedProducts در جدول تودرتو انجام دهید.
key sequence: از این
نوع فقط در الگوریتم خوشه بندی زنجیره ای استفاده می شود و بیانگر و توصیف
کننده ی رویدادهای پیوسته و زنجیره ای در ستون است.
key time: از این نوع فقط در الگوریتم سری زمانی استفاده می شود و به معنای این است که مقادیر این ستون در واحد زمان نمایش داده می شوند.
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
Cyclical: رکوردهای موجود
در این نوع بیانگر وجود یک مجموعه ی گردشی است برای مثال روزهای هفته یک
مجموعه گردشی است زیرا هفت روز هفته مرتبا تکرار می شود. ستون های cyclical
را با نوع های ordered discrete نیز مشخص می کنند.
Ordered: این نوع معمولا مشخص کننده ی ستون هایی است که مقادیر آن ها به صورت زنجیره ای است.