Professional Documents
Culture Documents
DM11
DM11
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 3
انطريقة انمبنية عهى انكثافة
k3*Density-based methods
• معظم خوارزمٌات التجمٌع تعتمد على تابع المسافة لقٌاس
التشابه بٌن العناصر .فً هذه الطرٌقة نعتمد على الكثافة،
حٌث أنه فً جوار أٌة نقطة من المجموعة وضمن مسافة
نختارها ٌجب أن ٌكون لدٌنا عدد من العناصر ٌزٌد عن قٌمة
نختارها.
• هذه الطرٌقة تعطً مجموعات منفصلة تماماا ،ولها أشكال
غٌر كروٌة ،كما ٌمكن تطبٌقها على فضاءات جزئٌة.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 4
طريقة انشبكة
k4*Grid-based methods
• مثلا فً المستوي نرسم شبكة مربعات ،ثم ندرس النقط فً
كل مربع .هذه الطرٌقة فاشلة إذا استخدمت لوحدها ،لذلك
فإننا نستخدمها مع طرٌقة أخرى مثل الطرٌقة الهرمٌة أو
المبنٌة على الكثافة ،حٌث نحسب التشابه بٌن النقط الواقعة
فً نفس المربع أو فً مربعات متجاورة بدالا من حسابه بٌن
كل نقطتٌن من كامل المجموعة.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 5
انصفات انعامة نطرق انتجميع
Method General Characteristics
الصفات العامة General Characteristics الطريقة Method
تبحث عن مجموعات شكلها كروي ،ومنفصلة تماما ا. ⁻ الطرق المبنٌة على التجزئة
مبنٌة على تابع المسافة. ⁻ Methods Partitioning
تستخدم المتوسط لتمثٌل مركز .cluster ⁻
جٌدة فً حالة مجموعة البٌانات الصغٌرة أو المتوسطة. ⁻
الطرق المبنٌة على التقسٌم الهرمً ٌ ⁻تم تشكٌل المجموعات على مراحل وبشكل هرمً
⁻ال تستطٌع تصحٌح أي عملٌة دمج (أوفصل) خاطئة Hierarchical methods
ٌ ⁻مكن أن تستخدم تقنٌات أخرى مثل linkages ،micro clustering
ٌمكن أن تكشف مجموعات غٌر منتظمة الشكل. ⁻ الطرق المبنٌة على الكثافة
المجموعات ( )clusterهً المناطق العالٌة الكثافة ،وتفصل بٌن ⁻ Density-based methods
المجموعات مناطق منخفضة الكثافة.
ٌجب أن ٌكون عدد النقط المجاورة لكل نقطة أكبر من حد معٌن. ⁻
تستطٌع أن تعزل النقط الشاذة. ⁻
⁻تستخدم هٌكلة شبكة البٌانات متعددة الحلول الطرق المبنٌة على الشبكة
⁻سرٌعة وال تتأثر بعدد النقط ،بل تتأثر بعدد خلٌا الشبكة Grid-based methods
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 6
طرق انتجميع انمبنية عهى انتجسئة
Partitioning Methods
وهً من أبسط الطرق ،ولها الشكل العام التالً:
ـ نحدد عدداألجزاء (k )cluster
ـ نختار kعنصر بشكل عشوائً ونعتبرهم مراكز لألجزاء.
ـ نضٌف كل عنصر من العناصر الباقٌة إلى الجزء الذي مركزه
قرٌب من العنصر ،ونستخدم تابع المسافة اإلقلٌدٌة لقٌاس البعد.
ـ نختار مراكز جدٌدة لألجزاء التً تم تشكٌلها.
ـ نعٌد تجمٌع العناصر حول المراكز الجدٌدة ،ثم نحدد مراكز جدٌدة.
ـ نكرر العمل حتى ٌستقر التوزٌع ،أي ال تتغٌر المراكز.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 7
طريقة k_meansأو kمتىسط
k-Means: A Centroid-Based Technique
فً هذه الطرٌقة نستخدم المتوسط لتحدٌد المركز الجدٌد ،أي بعد •
اختٌار kعنصر عشوائً كنقطة بداٌة ،ثم تجمٌع العناصر حول
هذه المراكز ،نحسب بعدها متوسط كل جزء ونعتبره مركز
جدٌد ،ونستخدمه فً الجولة التالٌة من التجمٌع.
إن جودة clusterتحسب من مجموع مربعات المسافة بٌن •
عناصر clusterوالمركز ،وهنا نستخدم المسافة اإلقلٌدٌة.
إن حساب مجموع مربعات المسافات بٌن العناصر والمركز، •
ٌهدف إلى جعل clusterمضغوط ومنفصل عن باقً .cluster
ٌعنً كلما صغر مجموع المربعات كان clusterأفضل. •
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 8
k-Means: A Centroid-Based Technique
• لنفرض مجموعة البٌانات Dتحتوي nكائن فً الفضاء االقلٌدي،
ٌمكن تقسٌم Dإلى kمجموعة ، C1,…, Ckحٌث ،Ci Dو Ci
Cj = من أجل .1 i,j k
• ٌمكن تقسٌم البٌانات ضمن كتل مشابه لبعضها البعض ولكن
تختلف عن غٌرها من الكائنات فً المجموعات األخرى.
• النقطة المتوسط تحدد الفرق بٌن مجموعة من النقاط بحٌث ٌكون
البعد (البعد االقلٌدي) فٌما بٌنها صغٌر لتشكل مجموعة ،وٌتم
حساب نقطة المتوسط.
𝑘 2
=𝐸 • 𝑖=1 𝑖𝑐∈𝑝 𝑑𝑖𝑠(𝑝, 𝑐𝑖 , 10,1
)
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 9
كيف تعمم طريقة k_means؟
إنها تستخدم المتوسط لتحدٌد مركز .cluster •
أوالا نحتار kعنصر بشكل عشوائً ،ونعتبرها مراكز •
للمجموعات ()cluster
من أجل كل عنصر من العناصر الباقٌة نبحث عن المركز •
األقرب (األكثر شبها ا بالعنصر) ،ونضٌف العنصر إلى cluster
الخاص بذلك المركز.
فً كل دورة تقوم الخوارزمٌة بحساب متوسط عناصر ،cluster •
وتعتبر هذا المتوسط مركزاا جدٌداا ،ثم تعٌد توزٌع باقً العناصر
بحسب قربها (شبهها) من المراكز الجدٌدة.
تتوقف الخوارزمٌة عندما نحصل على نتٌجة مشابهة للنتٌجة التً •
حصلنا علٌها فً الدورة السابقة.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 10
Algorithm: k-means
Input:
– k: the number of clusters,
– D: a data set containing n objects.
Output: A set of k clusters.
Method:
. واعتبرها المراكز البدائٌة،ًعنصر بشكل عشوائk اختر
(1) arbitrarily choose k objects from D as the initial cluster centers;
(2) Repeat
. بحسب قربها من المرازcluster أعد توزٌع العناصر على
(3) (re)assign each object to the cluster to which the object is the most similar,
based on the mean value of the objects in the cluster;
cluster احسب المتوسط لعناصر كل
(4) update the cluster means, that is, calculate the mean value of the objects for
each cluster;
(5) until no change;
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 11
انخىارزمية k-Means
إن هذه الخوارزمٌة ال تعطً الحل األفضل ،وهً تتأثر •
بمجموعة المراكز البدائٌة.
عملٌاا ،للحصول على نتائج أفضل ،نقوم بتطٌق الخوارزمٌة •
عدة مرات انطلقا ا من مراكز بدائٌة مختلفة فً كل مرة ،ثم
نختار النتٌجة األفضل.
سؤال :كٌف نعرف النتٌجة األفضل؟ •
النتٌجة األفضل هً التً ٌكون فٌها مجموع مربعات •
المسافات أصغر ما ٌمكن.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 12
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 13
هناك عدة أشكال لخوارزمٌة k_meansوهً تختلف عن •
بعضها بطرٌقة اختٌار المراكز البدائٌة ،وقٌاس التشابه ،وحساب
المتوسط.
ال ٌمكن استخدام هذه الخوارزمٌة فً حال البٌانات الرمزٌة، •
لماذا؟
ألننا ال نستطٌع حساب المتوسط. •
لذلك نستخدم خوارزمٌة k_modsالتً تستخدم المنوال بدالا من •
المتوسط.
ٌمكن أن نستخدم k_means and k_modsمعا ا فً حالة •
البٌانات الرمزٌة والعددٌة معا ا.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 14
إن تحدٌد قٌمة kسلفا ا هو أحد سلبٌات هذه الطرٌقة ،وللتغلب على •
هذه السلبٌة نطبق الخوارزمٌة من أجل عدة قٌم ل kثم نختار k
التً تعطً نتٌجة أفضل.
إن هذه الخوارزمٌة ال تستطٌع اكتشاف clusterغٌر الكروي، •
كما أنها تتأثر بالقٌم الشاذة التً تدخل فً حساب المتوسط.
لتحسٌن هذه الخوارزمٌة فً حالة مجموعة البٌانات الكبٌرة هناك •
عدة اقتراحات :األول هو أخذ عٌنة بحجم مناسب وتطبٌق
الخوارزمٌة علٌها.
الثانً هو استخدام indexلترتٌب البٌانات ،وتسرٌع حساب •
المتوسط.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 15
k-Means مثال
بالنظر25 ،10 ،9 ،8 ،3 ،2 ،1 • بفرض لدٌنا النقاط السبع
:سوف ٌتم التقسٌم إلى
• {{1, 2, 3}, {8, 9, 10}, {25} }; k=3
• {{1, 2, 3}, {8, 9, 10, 25}}; k=2
• (1-2)2 + (2-2)2+(3-2)2+(8-13)2+(9-13)2+(10-
13)2+(25-13)2= 196,
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 20
يىضح انشكم انحاالت األربعة عند تغيير انممثم
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 22
إن فعانية claraتعتمد عهى حجم انعينة
The effectiveness of CLARA depends on the sample size
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 23
أوالا نختار kعنصر من مجموعة البٌانات ونعتبرها ممثلٌن .cluster •
ثم نختار بشكل عشوائً أحد الممثلٌن ولٌكن xونختار عنصر من خارج •
مجموعة الممثلٌن بشكل عشوائً ولٌكن .y
إذا كان التبدٌل بٌن x and yسٌحسن الحل نقبل yكممثل بدالا من x •
تنفذ claransعملٌة البحث العشوائً هذه Lمرة ،ونعتبر الممثلٌن الذٌن •
حصلنا علٌهم حلول مثلى محلٌة.
تكرر claransعملٌة الحصول على حلول مثلى محلٌة mمرة ،ثم •
تختار أفضل النتائج كحل نهائً.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 24
K_medoidsتبحث فً كل االحتماالت الممكنة لتبدٌل الممثلٌن. •
Claraتطبق k_medoidsعلى عٌنة عشوائٌة بدالا من كل البٌانات. •
Claransال تختبر كل الحتماالت كما فً k_medoidsوال تأخذ عٌنة •
عشوائٌة كما فً claraبل تختار عنصر بشكل عشوائً ةتختبر إمكانٌة تبدٌلة
مع ممثل تختاره بشكل عشوائً أٌضا ا .ةتكرر العملٌة عدة مرات على أمل
الحصول على حل جٌد.
حل أمثل محلً ٌعنً :إذا كان لدٌنا تابع له عدة قمم ،فإن أعلى قمة تسمى حل •
أمثل عام ،بٌنما تسمى القمم األخرى حل أمثل محلً ألنها أعلى نقطة فً
جوارها .فإذا بحثنا عن قمة بأخذ نقط عشوائٌة ،ثم نختار أعلى نقطة ،فل ٌوجد
ضمان أن أعلى نقطة هً حل أمثل عام ،ولكنها على األقل حل أمثل محلً.
قارن بٌن خوارزمٌة k_meansالمعتمدة على حساب المتوسط وخوارزمٌة •
k_medoidsالمعتمدة على الممثلٌن من حٌث السرعة والتعامل مع العناصر
الشاذة.
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 25
19 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 26