Professional Documents
Culture Documents
DM09
DM09
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 3
سنستخدم الرموز التالٌة: •
لتكن Dهً مجموعة سجالت التعلم (الفئات محددة ٌدوٌا ً). •
لنفترض أنه لدٌنا mفئة وهًC1, C2,...,Cm •
لٌكن Ci,Dهً مجموعة السجالت من Dوالتً تنتمً إلى الفئة •
.Ci
لٌكن ||D|, |Cj,Dهو عدد السجالت فً D,و Cj,Dعلى •
الترتٌب.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 4
انمعهوماث انمكتسبت
Information Gain
تستخدم خوازرمٌة ID3مقٌاس كمٌة المعلومات المكتسبة الختٌار حقل التجزئة. •
لنفترض أن العقدة nتحوي السجالت D •
إن الحقل الذي ٌحمل أكبر كمٌة من المعلومات المكتسبة سٌتم اختٌاره كحقل تجزئة. •
هذا الحقل سٌخفض كمٌة المعلومات التً سنحتاجها لمتابعة عملٌة التجزئة فً الخطوات •
الالحقة.
هذه الطرٌقة تقلل عدد االختبارات الالزمة لتصنٌف سجل ،وستعطً شجرة بسٌطة ،ولكن •
لٌس من الضرورة أن تكون هً الشجرة األبسط.
إن متوسط كمٌة المعومات الالزمة لتصنٌف سجل من Dتحسب بالعالقة: •
𝑚 • 𝐼𝑛𝑓𝑜 𝐷 = − 𝑖=1(𝑃𝑖 log 2 ( 𝑃𝑖 )) , 8.1
حٌث Piهو احتمال (غٌر صفري) وٌنتمً سجل ما إلى الفئة .Ci •
وٌتم تقدٌره ب.|Ci,D|/|D| : •
نستخدم اللغارتم لألساس 2ألن المعلومات ُترمز .bits •
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 5
إن ) info(Dهً متوسط كمٌة المعلومات التً نحتاجها لتحدٌد الفئة التً •
ٌنتمً إلٌها سجل.
تسمى كمٌة المعلومات أٌضا ً اإلنتروبٌة. •
لنفترض أننا نرٌد تجزئة السجالت فً Dوفق الحقل Aالذي ٌمكن أن •
ٌأخذ vقٌمة ممكنة (نعد قٌم Aمن السجالت الموجودة فً Dأي مجموعة
التعلم(.
عندها ستتجزأ Dإلى vجزء ،حٌث أن سجالت الجزء Diتحمل القٌمة •
.A=Ai
نتمنى أن تعطً التجزئة تصنٌفا ً دقٌقاً ،بمعنى أن تكون كل سجالت أي •
جزء من فئة واحدة ،ولكن هذا غٌر محتمل ،فعادة ٌحوي كل جزء
سجالت من فئات مختلفة.
سجالت الجزء الواحد تحمل نفس القٌمة للحقل Aولٌس نفس الفئة. •
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 6
ما هي كميت انمعهوماث انتي نحتاجها ننصم إنى
تصنيف دقيق؟
• نقٌس كمٌة المعلومات تلك بالعالقة
𝑣 | 𝑗𝐷|
= 𝐷 𝐴𝑜𝑓𝑛𝐼 • |𝐷| (𝑗=1 𝐼𝑛𝑓𝑜(𝐷𝑗 )), 8.2
إن الحد |ٌ|Dj|/|Dعمل كوزن للجزءj •
إن ) InfoA(Dهو متوسط كمٌة المعلومات التً نحتاجها لتصنٌف سجل من D •
وفق الحقل .A
كلما كان متوسط كمٌة المعلومات صغٌراً ازداد صفاء التجزئة. •
الصفاء ٌعنً قلة عدد الفئات الموجودة فً الجزء ،والجزء الصافً هو الذي •
ٌحوي سجالت من فئة واحدة.
كمٌة المعلومات المكتسبة هً الفرق بٌن كمٌة المعلومات قبل التجزئة وبعد •
التجزئة ،كما فً العالقة:
)• Gain(A) = Info(D) - InfoA(D). (8.3
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 7
بمعنى أن ) gain(Aهً كم سنكسب عندما نجزأ وفق الحقل •
.A
إنها االنخفاض فً كمٌة المعلومات االزمة للتجزئة والحاصل •
بسبب اختٌار الحقل .A
نختار الحقل الذي ٌحقق أكبر كمٌة من المعلومات المكتسبة •
كحقل للتجزئة عند العقدة .N
أي أننا سنختار الحقل الذي سٌحقق أفضل تجزئة ،وبالتالً •
فإن كمٌة المعلومات الالزمة لمتابعة التجزئة ستكون فً
حدها األدنى.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 8
مثال عن تونيذ شجرة انقرار باستخذاو مقياس كميت
انمعهوماث انمكتسبت
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 9
الجدول السابق ٌحوي مجموعة عشوائٌة من سجالت •
الزبائن ،تأخذ الحقول قٌم منفصل ،حقل الفئة له قٌمتان (نعم/
ال)
لذلك إن ،m=2لنعتبر أن الفئة C1تقابل الجواب نعم ،والفئة •
C2تقابل الجواب ال.
ٌوجد 9سجالت من الفئة نعم و 5سجالت من الفئة ال. •
لنضع كل السجالت فً عقدة الجذر ، Nلنحصل على اختبار •
التجزئة ٌجب أن نحسب كمٌة المعلومات المكتسبة من
استخدام كل حقل.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 10
أوالً نحسب متوسط كمٌة المعلومات التً نحتاجها لتصنٌف السجالت •
الموجودة فً Dلذلك نستخدم المعادلة 8.1
• Info(D) = -9/14 log2(9/14) – (5/14) log2(5/14) = 0.940
bits.
ثم نحتاج أن نحسب متوسط كمٌة المعلومات من أجل كل حقل •
لنبدأ بحقل العمر ،ولننظر فً توزع الفئات (نعم وال) حسب كل قٌمة •
لحقل العمر
من أجل فئة عمر "الشباب" ٌوجد سجالن نعم وثالث سجالت ال. •
من أجل فئة عمر "متوسط العمر" ٌوجد اربع سجالت نعم ،وصفر سجل •
ال.
من أجل فئة عمر "مسن" ٌوجد ثالث سجالت نعم ،وسجالن ال. •
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 11
إن متوسط كمٌة المعلومات التً نحتاجها لتصنٌف8.2 • حسب المعادلة
:سجل وفق حقل العمر هو
• Info age(D)= 5 /14 X (-2/5 log2(2/5) – 3/5 log2(3/5)) +
4/14 X (-4/4 log2(4/4)) +
5 /14 (-3/5 log2(3/5) – 2/5 log2(2/5) = 0.694 bits.
:• وهكذا فإن كمٌة ىالمعلومات المكتسبة من هذه التجزئة هو
• Gain(age) = Info(D) -Infoage(D) = 0.940 - 0.694 = 0.246
bits.
:• بشكل مشابه ٌمكن أن نحسب
• Gain(income) = 0.029 bits, Gain(student) = 0.151 bits,
• Gain(credit_rating) = 0.048 bits.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 13
• سنضع حقل العمر فً العقدة Nثم سنخرج أغصان حسب قٌم
العمر.
• الحظ أن السجالت الناتجة من العمر="متوسط العمر" كلها
من الفئة نعم.
• سنضع ورقة فً نهاٌة هذا الغصن ،ونكتب علٌها نعم.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 14
• لنأخذ السجالت الناتجة عن العمر = "الشباب" لنالحظ أن
جمٌع السجالت الناتجة عن الحقل إذا كان طالب هو من الفئة
نعم والباقً من الفئة ال.
• سننشئ غصن طالب وفً نهاٌة نضع ورقة ونكتب علٌها
نعم ،وغصن لٌس طالب ونضع فً نهاٌتها ورقة ونكتب
علٌها ال.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 15
• لنأخذ السجالت الناتجة عن العمر = "مسن" لنالحظ أن جمٌع
السجالت الناتجة عن الحقل إذا كان طالب هو من الفئة نعم
والباقً من الفئة ال.
• سننشئ غصن الرصٌد االئتمانً fairوفً نهاٌة نضع ورقة
ونكتب علٌها نعم ،وغصن excellentونضع فً نهاٌتها
ورقة ونكتب علٌها ال.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 16
انشكم انتاني يوضح انشكم اننهائي نشجرة انقرار
فً مجال التعلم اآللً ُتسمى عملٌة التصنٌف بالتعلم باألمثلة •
لماذا؟ •
الجواب: •
إن التصنٌف ٌتم باستخدام شجرة القرار. •
وشجرة القرار ُتبنى باستخدام األمثلة. •
حٌث نقوم أوالً بأخذ مجموعة عشوائٌة من السجالت نسمٌها سجالت التعلم أو التدرٌب. •
ثم نحدد ٌدوٌا ً األصناف التً تنتمً إلٌها هذه السجالت •
ثم نقدم هذه األمثلة إلى خوارزمٌة بناء الشجرة. •
ثم نستخدم الشجرة لتصنٌف أي سجل . •
• فالجواب باختصار :هو أن شجرة القرار ُتصنف أي سجل بنا ًء على ما تعلمته من األمثلة
.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 18
k-Means: A Centroid-Based Technique
• لنفرض مجموعة البٌانات Dتحتوي nكائن فً الفضاء االقلٌدي،
ٌمكن تقسٌم Dإلى kمجموعة ، C1,…, Ckحٌث ،Ci Dو Ci
Cj = من أجل .1 i,j k
• ٌمكن تقسٌم البٌانات ضمن كتل مشابه لبعضها البعض ولكن
تختلف عن غٌرها من الكائنات فً المجموعات األخرى.
• النقطة المتوسط تحدد الفرق بٌن مجموعة من النقاط بحٌث ٌكون
البعد (البعد االقلٌدي) فٌما بٌنها صغٌر لتشكل مجموعة ،وٌتم
حساب نقطة المتوسط.
𝑘 2
=𝐸 • 𝑖=1 𝑖𝑐∈𝑝 𝑑𝑖𝑠(𝑝, 𝑐𝑖 , 10,1
)
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 19
Algorithm: k-means
Input:
– k: the number of clusters,
– D: a data set containing n objects.
Output: A set of k clusters.
Method:
(1) arbitrarily choose k objects from D as the initial cluster centers;
(2) repeat
(3) (re)assign each object to the cluster to which the object is the most similar,
based on the mean value of the objects in the cluster;
(4) update the cluster means, that is, calculate the mean value of the objects for
each cluster;
(5) until no change;