تبلیغات
داده كاوی - داده‌كاوی با WEKA (قسمت پایانی)

داده كاوی

سه شنبه 11 شهریور 1393

داده‌كاوی با WEKA (قسمت پایانی)

نویسنده: الی كا   


 
 

در سه بخش نخست این مقاله به بررسی سه نمونه از مهم‌ترین روش‌های معمول در داده کاوی یعنی رگرسیون، طبقه‌بندی و خوشه‌بندی پرداختیم. در ضمن، سعی كردیم با بیان مثال‌هایی کاربرد این روش‌ها را در بررسی یک دیتاست واقعی بیان کنیم. حال نوبت به بررسی روش دیگری می‌رسد که نزدیک‌ترین همسایه (Nearest Neighbor) نام دارد. این روش از یک جنبه بسیار شبیه خوشه‌بندی است، اما از جنبه دیگر مانند طبقه‌بندی و رگرسیون عمل می‌کند. با ما باشید!

از همسایه‌ام بپرسید
برای ژورنالیست‌ها هیچ چیز مهم‌تر از کسب اطلاعات درست نیست. فرض کنید، سردبیر مجله شما عمیقاً علاقه‌مند است تا گزارشی تحلیلی را درباره آقای X تهیه کند. او صرفاً می‌داند که آقای‌X یک خواننده بسیار موفق بوده و البته انسانی تودار است که هیچ بخشی از زندگی شخصی‌اش را لو نمی‌دهد. سردبیر تصمیم می‌گیرد تا این مسئولیت خطیر را به شما واگذار کند. اما چگونه می‌توان از جنبه‌های مختلف زندگی آقای X با خبر شد؟ از آنجا که شما مدرک لیسانس آمار دارید و به سراغ ژورنالیسم آمده‌اید، تصمیم می‌گیرید از روش نزدیک‌ترین همسایه برای یافتن اطلاعات آقای‌X استفاده کنید. ابتدا بحث درآمد مطرح می‌شود. شما می‌دانید که از آقای X چیزی دست شما را نمی‌گیرد. پس به سراغ همسایه ایشان می‌روید که اتفاقاً زوجی بسیار صمیمی هستند. پس از کمی صحبت شما در‌می‌یابید که آن‌ها صد‌هزار دلار در سال درآمد دارند. سپس یک خانه آن طرف‌تر رفته و با آقای Oldman یکی دیگر از همسایه‌های آقای X صحبت می‌کنید و متوجه می‌شوید او نیز درآمدی حدود 110 هزار دلار در سال دارد. با ادامه این روند شما با یک سری داده مواجه می‌شوید که درآمد بسیاری از همسایگان‌X در آن موجود است. شما تصمیم می‌گیرید، درآمد X را نیز معادل میانگین درآمد همسایگانش حدس بزنید. این‌ موضوع که همسایه‌ها وضع مالی به نسبت مشابهی داشته باشند، موضوعی است که عموماً در رابطه با محله‌های مختلف صدق می‌کند.سپس سعی می‌کنید، با علایق جوانی آقای X آشنا شوید. برای این‌کار به سراغ دوستان دبیرستان و دانشگاهش می‌روید. متوجه می‌شوید که درصد بسیاری از این افراد به موسیقی کلاسیک علاقه داشته و شیفته آثار ادبی کلاسیک روسی هستند. این افراد همگی از دوستان بسیار صمیمی X بوده‌اند، پس می‌توان تصور کرد که وی نیز کششی به سمت موسیقی کلاسیک و ادبیات روسیه داشته باشد. حال دوست دارید دریابید، وی طرفدار چه تیم فوتبالی است. در اینجا نیز وی را تا استادیوم تعقیب كرده و سعی می‌کنید، دریابید وی کجا می‌نشیند. با دیدن رنگ پرچم‌ها و پیراهن‌های افراد آن بخش کاملاً مشخص خواهد شد وی طرفدار چه تیمی است، بدون این‌که لازم باشد از او چیزی بپرسید.


این مفهوم کلی روش نزدیک‌ترین همسایه است. در این روش سعی می‌شود تا ویژگی‌های نقاط داده از روی ویژگی‌های نزدیک‌ترین همسایگانشان تعیین شوند. از آنجا که ما در این روش در حال انجام نوعی پیش‌بینی هستیم، کارمان تا حدی شبیه همان‌کاری است که در رگرسیون و طبقه‌بندی انجام می‌دادیم. از طرف دیگر مفهوم اولیه نزدیک‌ترین همسایه در واقع همان ایده خوشه‌بندی است. در اینجا نیز ما افراد شبیه به هم را در یک گروه قرار می‌دهیم و سعی می‌کنیم آن‌ها را با یکدیگر همسان بپنداریم.


در اینجا توجه به چند نکته ضروری است. نخست این‌که در روش نزدیک‌ترین همسایه معمولاً سعی می‌شود از نوعی رأی گیری استفاده شود و تنها به نزدیک‌ترین همسایه صرف اعتماد نمی‌شود. به عنوان مثال، از پنج همسایه نزدیک داده‌ها را گرفته و سعی می‌کنیم با توجه به آن‌ها قضاوت کنیم. در همین جا مسئله جدید پیش می‌آید و آن این که باید دقیقاً این کار را برای چند همسایه انجام دهیم. جواب به این سؤال کمی مشکل است و ممکن است به بررسی دقیق نوع داده‌ها و شیوه پخش آن‌ها نیاز داشته باشد. در اینجا شما باید به دنبال تعادلی باشید که در آن کیفیت داده‌ها و هزینه محاسبات هر دو در سطح قابل قبولی قرار گیرند.

شكل 1 - انجام مدل‌سازی با استفاده از روش طبقه‌بندی


به طور طبیعی ما برای اجرای درست روش نزدیک‌ترین همسایه به یک تابع فاصله خوب نیاز داریم. این تابع می‌تواند به سادگی فاصله اقلیدسی باشد یا از روش‌های ساده دیگری مانند فاصله منهتن استفاده شود. این دیگر به انتخاب شما بستگی دارد. معمولاً بخشی از الگوریتم به مشخص‌کردن وزن هر متغیر پیش‌بینی کننده در الگوریتم فاصله اختصاص‌می‌یابد. به این مفهوم که از روی داده‌های تمرینی مشخص می‌شود هر متغیر پیش‌بینی‌کننده‌ای باید با چه ضریبی در فاصله حساب شود. خوشه‌بندی در عوض عموماً وزن تمام متغیرهای پیش‌بینی کننده را یکسان فرض می‌کند. البته، این موضوع می‌تواند بستگی عمیقی به جزئیات پیاده‌سازی دو روش داشته باشد.

نزدیک‌ترین همسایه و WEKA
همان‌طور که گفته شد، از نظر ماهیت نزدیک‌ترین همسایه با طبقه‌بندی و رگرسیون در یک گروه قرار‌می‌گیرد. در واقع می‌توان گفت، این روش به طبقه‌بندی نزدیک‌تر از رگرسیون است، زیرا در رگرسیون شما تنها با داده‌های عددی روبه‌رو هستید. شباهت کاربردی نزدیک‌ترین همسایه و طبقه‌بندی باعث شده در موارد بسیاری این دو به صورت جایگزین یکدیگر به کار روند. به همین دلیل، ما نیز در این مقاله سعی می‌کنیم این دو روش را برای یک دیتاست خاص آزمایش كنیم. شاید بهتر بود که دیتاست این بخش نیز همان دیتاست تایتانیک که در مقاله قبل برای بخش طبقه‌بندی به كار گرفته شد، انتخاب می‌شد. اما دیتاست تایتانیک مشکلات زیادی را در زمینه مدل کردن به وجود می‌آورد. به عنوان مثال، تمام متغیرهای به کار رفته در آن Nominal هستند و این باعث می‌شود مدل‌بندی آن بر‌اساس فاصله کمی مشکل شود. مورد دیگر این است که این دیتاست الگوی غالب محکمی را برای مدل‌سازی افراد غرق شده ارائه نمی‌دهد و این باعث می‌شود True Positive افراد غرق شده به نسبت کم باشد. یعنی تعداد زیادی از افرادی که توسط مدل مرده تشخیص داده شدند، در واقع زنده‌اند!


به همین دلیل، در این مقاله از دیتاست دیگری استفاده می‌کنیم. این دیتاست سعی می‌کند قبول یا عدم قبول درخواست صدور کارت اعتباری را در ایالات‌متحده بر اساس پانزده فاکتور مختلف پیش بینی كند. در اینجا 690 نمونه در‌نظر‌گرفته‌شده‌است. ما سعی خواهیم کرد ابتدا این دیتاست را به وسیله طبقه‌بندی، سپس به وسیله نزدیک‌ترین همسایه مدل‌سازی کنیم تا تفاوت‌ها مشخص شود.از بخش قبلی این سری مقاله‌ها با انجام طبقه‌بندی در WEKA آشنا شده‌اید. در نتیجه، دیگر نیازی به توضیح دوباره روش نیست. با تنظیم 75 درصد از داده‌ها به عنوان مجموعه آموزشی و 25 درصد آن‌ها به عنوان مجموعه آزمایشی نتیجه ذکر شده در شکل 1 به دست خواهد آمد.


نتیجه قابل قبولی است. نزدیک به 87 درصد از داده‌ها به درستی دسته‌بندی شده‌اند. True Positive برای هر دو کلاس + و – که به ترتیب نشان‌دهنده قبول و عدم قبول درخواست کارت اعتباری هستند، به حد کافی بالا است. حال سعی می‌کنیم همین دیتاست را با استفاده از نزدیک‌ترین همسایه مدل‌سازی کنیم.برای این‌کار به مانند روش‌های قبلی ابتدا دیتاست را در WEKA بارگذاری كرده، سپس به بخش Classify می‌رویم. حال نوبت به انتخاب نزدیک‌ترین همسایه است. روی Choose کلیک كرده و از زیرمنوی lazy گزینه IBk را انتخاب کنید. به طور پیش فرض WEKA تعداد همسایه‌هایی را که می‌خواهید در روش نزدیک‌ترین همسایه از آن‌ها رأی‌گیری شود، 1 فرض می‌کند. می‌توانید با کلیک روی بخش کنار دکمه Choose و تنظیم مقدار KNN این عدد را افزایش دهید. فعلاً، بگذارید فعلاً این همان 1 بماند.

شكل 2 - تنظیم WEKA برای اجرای روش نزدیک‌ترین همسایه


حال مطمئن شوید که در Test Options گزینه Use Training set را انتخاب کرده و متغیر نهایی‌تان را نیز برابر متغیری که قصد پیش بینی آن را دارید(در اینجا class) تنظیم كرده‌اید. شکل نهایی باید چیزی شبیه شکل 2 باشد. سپس روی Start کلیک کنید.همان‌طور که مشاهده می‌کنید، فرمت نتیجه نهایی روش نزدیک‌ترین همسایه بسیار شبیه به فرمت نهایی روش طبقه‌بندی است. به خروجی مثال ما که در شکل 3 آمده دقت کنید. در اینجا نزدیک به 99,5 درصد از داده‌ها به درستی دسته‌بندی شده‌اند. همچنین True Positive هر دو دسته + و – بسیار بالا است و این نشان می‌دهد، در پیش‌بینی هر دو نتیجه بسیار موفقیت‌آمیز عمل شده‌است. برای یافتن درک بهتر از شیوه انجام کار به ماتریس Confusion دقت کنید. در اینجا گفته می‌شود، ما در دو مورد پیش‌بینی قبول درخواستی را کرده‌ایم که در واقع قبول نشده است. همچنین در دو مورد دیگر درخواستی را رد کرده‌ایم که باید قبول می‌شده است. محاسبهTrue Positive و False Positive دو مدل که در بالا آمده است از روی این اعداد نیز به سادگی امکان‌پذیر است. شما از مجموع 307 در‌خواست‌پذیرفته شده 305 نمونه را به درستی پذیرفته‌اید، پس True Positive برابر می‌شود با همچنین دو جوابی را که باید قبول نمی‌شده‌اند، به اشتباه پذیرفته‌اید و این False Positive را برابر  که این در واقع False Positive کلاس – است. همین محاسبات را می‌توان برای اعداد ستون دوم نیز تکرار کرد. توجه داشته باشید که ما با استفاده از نزدیک‌ترین همسایه به 99,5 درصد دقت دست یافتیم، در حالی که برای طبقه‌بندی این عدد 87 درصد بود. با این حال 87 درصد نیز تقریبی بسیار خوب محسوب می‌شود. نکته‌ای که در اینجا باید به آن توجه داشته باشید، این است که این ترتیب همیشه به این گونه حفظ نخواهد شد. کاملاً محتمل است که شما تنظیمی از روش طبقه‌بندی در اختیار داشته باشید که روی یک دیتاست خاص بهتر از نزدیک‌ترین همسایه جواب دهد. در نتیجه، برتری این دو روش نسبت به یکدیگر تنها با بررسی مثال خاصی که قصد مدل‌سازی آن را داریم، مشخص خواهد شد. به طور کلی، طبقه‌بندی روی دیتاست‌های بزرگ می‌تواند بسیار پرهزینه باشد. در نتیجه، معمولاً در این موارد ترجیح داده می‌شود از یکی از انواع نزدیک‌ترین همسایه استفاده شود.

 


به عنوان مثال، آمازون را در نظر بگیرید. این سایت برای هر مشتری میزان زیادی از متغیرها را در اختیار دارد که می‌توانند ترکیبی از انواع مختلف مانند Nominal، Numerical و... باشند. همچنین تعداد خود این مشتری‌ها نیز بسیار زیاد است. در نتیجه آمازون  با پایگاه داده عظیمی مواجه است كه اطلاعات فراوانی را درباره افراد گوناگون در خود ذخیره كرده است. در چنین مواردی نزدیک‌ترین همسایه می‌تواند نتیجه بسیار خوبی را تولید كند. اگر شما موجودیت‌های کمی در اختیار داشته یا در مورد هر کدام از موجودیت‌ها اطلاعات محدودی دارید، بهتر است از روش نزدیک‌ترین همسایه استفاده نکنید. همچنین به یاد داشته باشید که حتی پایگاه داده عظیم نیز ممکن است مشکل شما را حل نکند. به همان مثال آمازون برگردیم. این سایت می‌تواند با قطعیت بالایی ادعا کند مشتریان شبیه به هم، خریدهای مشابه انجام می‌دهند. اما ممکن است مسئله شما به این گونه نباشد. یعنی عضو‌های مشابه (توجه کنید که مشابه با معیار شما، یعنی شباهتی که از طریق متغیرهای موجود در مدل‌سازی شما حاصل می‌شود) نتیجه نهایی مشابهی را تولید نکنند. بله؛ داده کاوی چنین مشکلاتی دارد! پس باید خیلی مواظب مسئله خاصی که قصد کاوش آن را دارید باشید.

شكل 3 - خروجی نهایی روش نزدیک‌ترین همسایه

همان‌طور که مشخص است روش نزدیک‌ترین همسایه می‌تواند خیلی پرهزینه باشد. در نتیجه، باید حتماً به دنبال راه‌حل‌هایی باشید تا این هزینه را کاهش دهید. به عنوان مثال، ممکن است تصمیم بگیرید تا محاسبه فاصله را برای تمام نقاط داده موجود انجام ندهید. حتی ممکن است به آغوش گرم موازی‌سازی پناه برده و سعی کنید محاسبه فاصله را روی واحدهای پردازشی مختلف پخش کنید. با این حال به یاد داشته باشید که نزدیک‌ترین همسایه به طور کلی روش پرهزینه‌ای است. به همین دلیل است که باید آن را برای کاربرد مناسبش نگه دارید.

نظرات() 
http://cleantalkorg2.ru/
جمعه 23 آذر 1397 04:27 ق.ظ
It's awesome designed for me to have a site, which is valuable in favor of
my experience. thanks admin
Positive singles
سه شنبه 20 آذر 1397 10:33 ب.ظ
Wow, superb blog layout! How lopng have youu been blogging for?

you made blogging look easy. The overapl look of yoour website is great, as well as the content!
ganz liebe geburtstagsgrüße
سه شنبه 20 آذر 1397 05:16 ب.ظ
Wonderful blog! I found it while searching on Yahoo News.
Do you have any suggestions on how to get listed in Yahoo News?
I've been trying for a while but I never seem to get there!
Thank you
sammenlign eiendomsmeglere
جمعه 16 آذر 1397 08:42 ب.ظ
We are a gagglle of volunteers aand opening a brand new scheme in our community.
Your site offered us with useful information to work
on. You have performed an imprexsive process
and our entire community shall be thankful to you.
Buy cialis online
جمعه 16 آذر 1397 11:51 ق.ظ

Tips effectively used.!
enter site 20 mg cialis cost cialis en 24 hora cialis savings card cialis from canada cialis generico lilly the best site cialis tablets cialis manufacturer coupon cialis professional yohimbe what is cialis prices for cialis 50mg
cialis
پنجشنبه 15 آذر 1397 04:40 ب.ظ

Kudos! Numerous info.

discount cialis cialis 5 mg cialis y deporte buy cialis online venta cialis en espaa cialis sale online order a sample of cialis cialis authentique suisse 40 mg cialis what if i take cost of cialis cvs
123movies Download
پنجشنبه 15 آذر 1397 02:18 ق.ظ
Why people still use to read news papers when in this technological world
the whole thing is accessible on web?
buy cheap cialis coupon
چهارشنبه 14 آذر 1397 08:54 ب.ظ

Very well spoken truly! !
side effects of cialis acquisto online cialis cialis pills boards cialis pas cher paris cialis manufacturer coupon generic for cialis cialis generico cialis farmacias guadalajara cialis 5 mg effetti collateral generic cialis in vietnam
buy cialis online
چهارشنبه 14 آذر 1397 06:31 ق.ظ

You actually revealed this exceptionally well!
usa cialis online how does cialis work canadian drugs generic cialis we like it safe cheap cialis cialis dosage cialis side effects dangers we like it safe cheap cialis cialis farmacias guadalajara click here take cialis precios de cialis generico
Buy cialis
سه شنبه 13 آذر 1397 07:08 ب.ظ

Good facts. With thanks.
cialis herbs cialis coupons printable cialis professional yohimbe cialis 200 dollar savings card side effects of cialis cialis canada on line buy brand cialis cheap 5 mg cialis coupon printable only best offers cialis use acquistare cialis internet
Cialis canada
سه شنبه 13 آذر 1397 08:03 ق.ظ

Nicely put, With thanks!
cialis arginine interactio cialis daily new zealand best generic drugs cialis cialis 5 mg effetti collateral cheap cialis pastillas cialis y alcoho cialis dosage amounts no prescription cialis cheap cialis uk next day how does cialis work
Benjamin
دوشنبه 12 آذر 1397 09:41 ب.ظ
I'm really loving the theme/design off your web site.

Do you ever run into any web browser compatibilioty issues?
A couple off my blog readers have complained about my site not working correctly
in Explolrer but looks great in Firefox. Do you have any
solutions to help fix this issue?
Fredrick
دوشنبه 12 آذر 1397 09:18 ب.ظ
If yyou want to take much from this article then you have tto apply
these strateggies to your won website.
Buy cialis online
دوشنبه 12 آذر 1397 08:09 ب.ظ

Cheers! Numerous tips!

where cheapest cialis cialis professional yohimbe legalidad de comprar cialis cialis 5 effetti collaterali cialis generico lilly click here to buy cialis cialis taglich side effects of cialis 200 cialis coupon cialis authentique suisse
rules of survival hack facebook
دوشنبه 12 آذر 1397 03:29 ب.ظ
You've made some decent points there. I checked on the internet for more information about the issue and found most
people will go along with your views on this website.
buy cialis pills online
دوشنبه 12 آذر 1397 07:42 ق.ظ

Fantastic facts, With thanks!
cialis online nederland click here cialis daily uk we recommend cialis info cialis 20mg cialis herbs venta cialis en espaa we like it cialis soft gel safe site to buy cialis online comprar cialis 10 espa241a cialis mit grapefruitsaft
buy cialis us pharmacy
یکشنبه 11 آذر 1397 07:39 ب.ظ

Thank you, Terrific information.
we use it cialis online store cialis diario compra cialis 20mg preis cf cialis authentique suisse tadalafil 20 mg the best site cialis tablets walgreens price for cialis buy cialis online legal cialis pills price each cialis per paypa
blogseo
یکشنبه 11 آذر 1397 03:55 ب.ظ
Hey! I'm at work browwsing your blog from my new iphone 3gs!
Just wanted to say I love reading through your blog and look forwad to all your posts!
Carry on the excellent work!
buy cialis medication
یکشنبه 11 آذر 1397 07:09 ق.ظ

Many thanks, I value it.
cheap cialis cialis en mexico precio canadian cialis cialis pas cher paris purchase once a day cialis cialis canadian drugs cialis without a doctor's prescription cialis billig cialis uk deutschland cialis online
ganho de massa muscular
یکشنبه 11 آذر 1397 02:08 ق.ظ
We're a group of volunteers and opening a new scheme in our community.
Your website offered us with valuable info to work on. You've done
an impressive job and our whole community will be thankful to you.
Cialis generic
شنبه 10 آذر 1397 07:56 ب.ظ

Amazing forum posts. Cheers!
try it no rx cialis cialis bula cost of cialis per pill wow cialis tadalafil 100mg cialis sale online generic cialis tadalafil american pharmacy cialis we choice free trial of cialis cialis canada on line prices for cialis 50mg
Cialis online
جمعه 9 آذر 1397 07:31 ب.ظ

Great info. Thanks.
cialis 100 mg 30 tablet cialis 20mg generic for cialis are there generic cialis achat cialis en europe callus generico cialis mexico comprar cialis navarr we recommend cialis best buy cialis australia org
rules of survival hack aimbot
جمعه 9 آذر 1397 02:47 ب.ظ
I was able to find good info from your blog posts.
buy cialis online safely
جمعه 9 آذر 1397 07:42 ق.ظ

Thank you! A good amount of tips.

prix de cialis cialis et insomni cialis tadalafil online rx cialis para comprar cialis 10mg prix pharmaci compare prices cialis uk i recommend cialis generico low cost cialis 20mg tadalafil 10 mg acquisto online cialis
digitalaccesspass.com
جمعه 9 آذر 1397 06:09 ق.ظ
Way cool! Some extremely valid points! I appreciate you penning this article
plus the rest of the site is also very good.
Generic cialis
پنجشنبه 8 آذر 1397 08:32 ب.ظ

Truly quite a lot of beneficial information!
import cialis generic cialis with dapoxetine cialis 20mg prix en pharmacie only now cialis 20 mg only now cialis for sale in us tarif cialis france free cialis cialis daily new zealand low dose cialis blood pressure purchase once a day cialis
buy cialis online without a prescription
پنجشنبه 8 آذر 1397 08:54 ق.ظ

Amazing lots of helpful info.
when can i take another cialis order cialis from india buy cialis online cheapest free cialis cialis tablets brand cialis nl generic cialis in vietnam buy cialis sample pack cialis from canada cialis 30 day trial coupon
best webcam Sites
پنجشنبه 8 آذر 1397 05:04 ق.ظ
Can I simply just say what a comfort to uncover a pdrson thatt truly understands wat
they're discussing on the web. You definitely realize how to bring a problem
tto light and make it important. More people
have to loo at this and understand this side of your story.
I was surprised you aare not more popular because
you definitely possess the gift.
Free Proxy List
پنجشنبه 8 آذر 1397 12:20 ق.ظ
Every 60 minutes there are new public proxies added.
You can directly import these into your SEO tools or do it manually.

There are proxies for ScrapeBox and all other
tools. Let me know if you need free public proxies for other
tools. I’ll try to add them if I can.
Buy cialis online
چهارشنبه 7 آذر 1397 08:04 ب.ظ

Regards! Quite a lot of knowledge!

cost of cialis cvs cialis y deporte buy name brand cialis on line cialis without a doctor's prescription cost of cialis cvs we like it safe cheap cialis tarif cialis france prix cialis once a da how to buy cialis online usa brand cialis generic
 
لبخندناراحتچشمک
نیشخندبغلسوال
قلبخجالتزبان
ماچتعجبعصبانی
عینکشیطانگریه
خندهقهقههخداحافظ
سبزقهرهورا
دستگلتفکر
نمایش نظرات 1 تا 30

آمار وبلاگ

  • کل بازدید :
  • بازدید امروز :
  • بازدید دیروز :
  • بازدید این ماه :
  • بازدید ماه قبل :
  • تعداد نویسندگان :
  • تعداد کل پست ها :
  • آخرین بازدید :
  • آخرین بروز رسانی :