Professional Documents
Culture Documents
Cluster Analysis00 1
Cluster Analysis00 1
مبانی دادهکاوی
خوشه بندی :گروه بندی نمونه های مشابه با هم در یک حجم داده ▪
میباشد.
خوشه بندی یکی از روشهای یادگیری بی نظارت است. ▪
)(Unsupervised learning
مسئله اساسی خوشه بندی عبارت است از :توزیع داده ها به Kگروه ▪
مختلف که داده های هر گروه با یکدیگر مشابه بوده و داده های گروه
های مختلف با یکدیگر نامتشابه باشند.
خوشه بندی نوعی عملیات داده کاوی غیر مستقیم است. ▪
خوشه بندی خوب چه خوشه بندی است؟ خوشه بندی خوب خوشه ▪
هایی را تولید میکند که دارای:
شباهت باالی درون خوشه ای high-intra cluster ▪
و شباهت کم بین خوشه ای باشند. ▪
Inter-cluster
Intra-cluster distances are
distances are maximized
minimized
این الگوریتم پارامتر Kرا به عنوان ورودی گرفته و مجموعه nشی را به k ▪
خوشه افراز میکند.
ورودی ،K :تعداد خوشه ها و یک پایگاه داده شامل nشی ▪
خروجی :یک مجموعه از Kخوشه که معیار مربع خطا را حداقل میکند. ▪
الگوریتم: ▪
به صورت تصادفی kنقطه دلخواه را به عنوان مراکز خوشهها انتخاب کن .1
𝐾
K=2
Update the
cluster
centroids
3,4,7,11,15,10,17 ▪
K=2 ▪
Empty
Cluster
بر چسب زدن به هر خوشه و انجام دسته بندی بر اساس کالسها و ▪
0.6
0.5
0.4
0.3
0.2
0.1
0
2 3 4 5 6 7 8 9 10 11 12 13
Number of Clusters
چگونه ویژگی های اسمی ،باینری ،و ترتیبی را پیش پردازش کنیم؟ ▪
برای ویژگی های اسمی ،روش مرسوم ،کدبندی جدید داده و ایجاد ویژگی های ▪
جدید بر اساس مقادیر هر ویژگی اسمی است .برای مثال متغیر رنگ{ :سبز،
آبی ،قرمز} باشد آن گاه این ویژگی تبدیل به 3ویژگی جدید می شود با مقادیر
0و1
متغیرهای باینری؟ ▪
متغیرهای ترتیبی :فرض کنید برای هر ورزشکاری ویژگی مدال { :طال ،نقره، ▪
ri − 1
= zi
M f −1
مبانی داده کاوی
خوشه بندی سلسه مراتبی
18
این روش با گروه بندی اشیا داده به یک درختی از خوشه ها کار ▪
میکند.
خوشه بندی سلسله مراتبی دو نوع است: ▪
پایین به باال (تجمیعی) :در این روش خوشه ها مکررا با هم ▪
تقسیمی :در این روش خوشه ها مکررا تقسیم میشوند .این روش ▪
بر عکس روش تجمیعی است ،به این صورت که ابتدا یک خوشه
شامل همه اشیا ایجاد میشود و سپس الگوریتم این خوشه ها را به
خوشه های کوچک و کوچک تر تجزیه میکند تا اینکه هر شی در
یک خوشه قرار گیرد.
هر تعداد خوشه با برش دندروگرام در یک سطح مناسب بدست می آید. ▪
الگوریتم خوشه بندی agglomerative
مشهور ترین تکنیک خوشه بندی سلسله مراتبی روش تجمیعی ▪
( )agglomerativeهست.
الگوریتم پایه ▪
p2
p3
p4
p5
.
.
.
ماتریس مجاورت (فاصله)
...
p1 p2 p3 p4 p9 p10 p11 p12
وضعیت میانی
بعد از چندین مرحله ادغام ،چند خوشه به دست می آید. ▪
C2
C3
C3
C4
C4
C5
C1
ماتریس مجاورت (فاصله)
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
وضعیت میانی
برای مثال میخواهیم دو خوشه C2و C5را ادغام کنیم. ▪
C2
C3
C3
C4
C4
C5
C1
ماتریس مجاورت(فاصله)
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
بعد از ادغام
C2
سوال به چه صورتی ماتریس مجاورت را آپدیت کنیم؟ U
C1 C5 C3 C4
C1 ?
C2 U C5
...
p1 p2 p3 p4 p9 p10 p11 p12
فاصله بین دو خوشه را چگونه محاسبه کنیم؟
Similarity? p1 p2 p3 p4 p5 ...
p1
p2
p3
MIN p4
p5
MAX
.
Group Average
. )ماتریس مجاورت(فاصله
Distance Between Centroids
.
فاصله بین دو خوشه را چگونه محاسبه کنیم؟
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
MIN
. )ماتریس مجاورت (فاصله
MAX
.
Group Average
Distance Between Centroids
فاصله بین دو خوشه را چگونه محاسبه کنیم؟
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
. )ماتریس مجاورت (فاصله
MIN
.
MAX
Group Average
Distance Between Centroids
فاصله بین دو خوشه را چگونه محاسبه کنیم؟
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
. )ماتریس مجاورت (فاصله
MIN .
MAX
Group Average
Distance Between Centroids
فاصله بین دو خوشه را چگونه محاسبه کنیم؟
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
MIN
.
MAX
. )ماتریس مجاورت (فاصله
Group Average
.
Distance Between Centroids
MIN or Single Link
مثال ▪
ماتریس فاصله
خوشه بندی سلسله مراتبی روش
MIN
5
1
3
5 0.2
0.05
4
4 0
3 6 2 5 4 1
Two Clusters
Original Points
فاصله بین دو خوشه بر اساس فاصله بین دو نقطه دورتر در دو خوشه ▪
محاسبه می شود.
Distance Matrix:
MAX خوشه بندی با معیار
4 1
2 5 0.4
0.35
5
2 0.3
0.25
3 6 0.2
3 0.15
1 0.1
0.05
4
0
3 6 4 1 2 5
proximity(p , p )
piClusteri
i j
p jClusterj
proximity(Clusteri , Clusterj ) =
|Clusteri ||Clusterj |
Distance Matrix:
average خوشه بندی سلسله مراتبی با روش
5 4 1
0.25
2
5 0.2
2
0.15
3 6 0.1
1 0.05
4 0
3 3 6 4 1 2 5
5
1
2
5
2
3 6 Group Average
3
4 1
4