Professional Documents
Culture Documents
DM08 PDF
DM08 PDF
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 3
كيفيت التصٌيف
الكثٌر من طرق التصنٌف تم اقتراحها من قبل الباحثٌن فً •
مجال التعلم اآللً ،والتعرف على األشكال ،واإلحصاء.
أغلب الخوارزمٌات هً برامج تعالج بٌانات مخزنة فً •
الذاكرة ،أي تعالج كمٌة صغٌرة من البٌانات.
وقد تم مؤخراً تطوٌر تلك الخوارزمٌات للتعامل مع كمٌة •
كبٌر من البٌانات المخزنة على القرص الصلب.
هناك تطبٌقات عدٌدة للتصنٌف ،ومنها :كشف عن الغش •
والتشخٌص الطبً ،أداء التنبؤ الصناعً...،
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 4
Basic Concepts هفاهين أساسيت
• ما هو التصنٌف؟
.• التصنٌف بشكل عام
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 7
Regression analysis
• هذه طرٌق إحصابٌة للتنبؤ العددي .وهناك طرق أخرى
عدٌدة.
• إن التصنٌف والتنبؤ العددي هما الطرٌقتان األساسٌتان للتنبؤ
(التوقع) .وسنركز فً هذا الفصل على التصنٌف.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 8
التصٌيف بشكل عام
General Approach to Classification
كٌف ٌعمل التصنٌف؟ •
تتكون عملٌة تصنٌف البٌانات من خطوتٌن: •
فً الخطوة األولى ٌُبنى المصنف ،وتسمى هذه الخطوة •
مرحلة التعلم.
ومرحلة التصنٌف :حٌث ٌُستخدم المصنف لتحدٌد فبة •
البٌانات المعطاة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 9
• تم تبسٌط البٌانات بهدف التوضٌح ،فً الواقع نستخدم حقول
أكثر.
• الخطوة األولى (التعلم) ،وٌتم فٌها بناء المصنف .نحدد الفبات
التً نرٌد أن نوزع البٌانات فٌها ،مثالً فبة طلب قرض آمن
وطلب قرض خطر ،ثم نأخذ عٌنة عشوابٌة من الطلبات ونحول
حقولها إلى متجهة عددٌة ،كما نحدد فبة كل طلب ٌدوٌا ً .نضع
طرٌقة للوصول إلى الفبة انطالقا ً من متجهة الحقول (أو المتجهة
العددٌة المقابلة له).
• مثالً إذا كان العمر أكبر من 40فالطلب آمن ،وإال فالطلب خطر.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 10
• إن الفبات هً من النوع الرمزي ،أي ال ٌوجد ترتٌب لها.
• السجالت الداخلة فً عملٌة التعلم(الخطوة )1هً عٌنة
عشوابٌة من سجالت قاعدة البٌانات.
• هذه تسمٌات أخرى للعٌنة المأخوذة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 11
• التعلم :هنا تم استخدام قواعد للتصنٌف للوصول إلى قرار
بخصوص القرض.
• هنا طبقنا قواعد التصنٌف على مجموعة أخرى من الطلبات
(عٌنة اختبار تم تحدٌد الفبات فٌها ٌدوٌا ً) ،والهدف هو فحص
دقة قواعد التصنٌف ،أي هل كانت نتٌجة خوارزمٌة
التصنٌف مطابقة للتصنٌف الٌدوي؟
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 12
• ٌمكن أن نقول بأننا نبحث عن تطبٌق منطلقه السجالت
ومستقره الفبات .وهناك عدة طرق لبناء هذا التطبٌق ،منها
قواعد التصنٌف التً استخدمناها فً المثال السابق ،وشجرة
القرار ،والدوال الرٌاضٌة.
• وسنستخدم هذا التطبٌق لتصنٌف أي بٌانات قادمة .كما أن
هذا التطبٌق ٌمثل شكل مضغوطا ً للبٌانات.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 13
هالفرق بيي التصٌيف classificationوالتجويع
clustering؟
• تقوم خوارزمٌة التصنٌف بوضع البٌانات فً فبات محددة
سلفاً ،بٌنما تقوم خوارزمٌة التجمٌع بتقسٌم البٌانات إلى
مجموعات بحٌث تتشابه عناصر المجموعة الواحدة فٌما بٌنها
وتختلف عن عناصر باقً المجموعات.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 14
هارا عي دقت التصٌيف؟
؟What about classification accuracy
فً الخطوة الثانٌة من الشكل السابق bاستخدمنا النموذج (قواعد •
التصنٌف) للتصنٌف.
أوالً نقدر الدقة المتوقعة للمصنف. •
إذا استخدمنا عٌنة التعلم لتقدٌر دقة المصنف ،فإننا سنحصل على •
تقدٌر مثالً (غٌر واقعً) ألن المصنف بُنً من هذه العٌنة.
لذلك نستخدم عٌنة اختبار مختلفة عن عٌنة التعلم من أجل تقدٌر •
دقة المصنف.
عٌنة االختبار هً عٌنة عشوابٌة من السجالت مختلفة عن عٌنة •
التعلم ،ونقوم بتحدٌد فبة كل سجل ٌدوٌاً ،ثم نرى فٌما إذا كان
المصنف ٌستطٌع الوصول إلى نفس النتٌجة (الفبة).
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 15
• إن دقة المصنف هً النسبة المبوٌة للسجالت التً نجح
المصنف فً تحدٌد فبتها لتتطابق مع التصنٌف الٌدوي.
• إذا كانت الدقة مقبولة فإننا نستخدم هذا المصنف لتصنٌف أي
بٌانات فً المستقبل.
• مثالً ما تعلمناه من طلبات القروض الموحودة لدٌنا ،وبنٌنا
علٌها طرٌقة لتصنٌف الطلباتٌ ،مكن أن نستخدمه لتصنٌف
أي طلبات فً المستقبل.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 16
توليذ شجرة القرار
Decision Tree Induction
• إذا كنا نعرف قٌم yالمقابلة لقٌم xالوقعة ضمن مجال معٌن،
فٌمكننا أن نمرر مستقٌم (أو منحنً) ،بحٌث نستطٌع حساب قٌم y
المقابلة ألي قٌمة ل xضمن المجال.
• االستقراء هو أن نحسب قٌمة yالمقابلة ألي قٌمة ل* xخارج
المجال* ،وكأننا مددنا المستقٌم إلى خارج المجال.
• وبشكل مشابه ،فإننا نبنً شجرة القرار من مجموعة من
السجالت (تقابل المجال فً المثال السابق) ،والشجرة تقابل
المستقٌم ،ثم نستخدم هذه الشجرة لتحدٌد فبة أي سجل جدٌد (ٌعنً
خارج المجال) .هنا xهً حقول السجل ،و yهً الفبة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 17
• إن تولٌد شجرة القرار ٌتم انطالقا ً من مجموعة سجالت
التعلم.
• شجرة القرار هً مخطط تدفقً على شكل شجرة .حٌث تمثل
كل عقدة داخلٌة اختبار ،وٌمثل كل غصن نتٌجة االختبار.
تمثل القعد الورقٌة أو الطرفٌة الفبات.
• أعلى عقدة فً الشجرة هً الجذر.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 18
الشكل يوضخ شجرة قرار الختبار
فيوا إرا كاى هي الوذتول أى يشتري زبوى داسوبا ً جذيذاً.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 19
شرح الشكل
• تم ترمٌز العقد الداخلٌة بمستطٌالت ،والعقد الورقٌة
(الطرفٌة) بدابرة
• تولد بعض خوارزمٌات شجرة القرار أشجار ثنابٌة فقط،
حٌث تتفرغ كل عقدة إلى فرعٌن فقط ،بٌنما تولد خوارزمٌات
أخرى أشجار غٌر ثنابٌة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 20
كيف تُستخذم أشجار القرار للتصٌيف؟
• لنفترض أنه لدٌنا سجل ،ونرٌد معرفة الفبة التً ٌنتمً إلٌها.
نقوم باختبار حقول السجل باستخدام شجرة القرار ،عندها
سنتحرك على مسار من جذر الشجرة إلى إحدى األوراق
التً تمثل فبة هذا السجل.
• نستطٌع وبسهولة أن نحول شجرة القرار إلى قواعد تصنٌف.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 21
لوارا التصٌيف باستخذام شجرة القرار شائع جذاً؟
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 22
تستطٌع شجرة القرار أن تتعامل مع بٌانات متعددة األبعاد ،وهً •
بسٌطة بالنسبة للبشر.
متعددة األبعاد أي متعددة الحقول .تذكر أنه فً كل عقدة من •
الشجرة ٌتم اختبار أحد الحقول ،ثم اختٌار الغصن المناسب ،ثم
اختبار حقل آخر ،وهكذا حتى نصل إلى الورقة (القرار) التً
تحدد الفبة التً سٌنتمً إلٌها السجل.
إن خطوتً التعلم والتصنٌف فً االستقراء بشجرة القرار سهلتان •
وسرٌعتان.
بشكل عام ،إن دقة مصنف شجرة القرار جٌدة. •
ولكن ٌتوقف نجاح استخدام شجرة القرار على البٌانات التً •
نعالجها.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 23
استخذام شجرة القرار
• ُتستخدم خوارزمٌات شجرة القرار للتصنٌف فً تطبٌقات
كثٌرة ،منها الطب والتصنٌع واإلنتاج ،التحلٌل المالً والفلك،
البٌولوجٌا الجزٌبٌة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 24
توليذ شجرة القرار
Decision Tree Induction
فً نهاٌة السبعٌنات وبداٌة الثمانٌنات قام الباحث J. Ross Quinlanفً •
مجال التعلم اآللً بتطوٌر خوارزمٌة شجرة قرار أسماها
)ID3(Iterative Dichotomiser
تم متابعة هذا العمل من قبل مجموعة من الباحثٌن فً مجال نظم تعلم •
المفاهٌم ،وظهرت حوارزمٌة C4.5
وأصبحت هاتان الخوارزمٌتان مقٌاسا ً لتقٌٌم أي خوارزمٌة جدٌدة. •
فً 1984نشر مجموعة من اإلحصابٌٌن كتابا ً بعنوان Classification •
) and Regression Trees (CARTالذي شرح تولٌد أشجار القرار
الثنابٌة.
لقد ظهرت ID3and CARTفً نفس الوقت تقرٌبا ً وبشكل مستقل عن •
بعضهما ،وهما تتبعان نفس الطرٌقة تقرٌباً ،حٌث ٌجري بناء شجرة
القرار من مجموعة من السجالت.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 25
• إن ID3, C4.5, and CARTتبنً شجرة القرار من األعلى
إلى األسفل ودون االرتداد إلى الخلف.
• إن أغلب خوارزمٌات بناء شجرة القرار تتبع نفس األسلوب
(من األعلى نحو األسفل) ،حٌث نبدأ بمجموعة من سجالت
التعلم (التً تم تحدٌد فباتها ٌدوٌا ً) ،ثم ٌجري تجزبة هذه
المجموعة بشكل متكرر ،وبناء الشجرة بالتدرٌج.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 26
ُتستدعى الخوارزمٌة بعد تحدٌد ثالثة وسطاء: •
Dهً مجموعة من السجالت التً تم تحدٌد فباتها ٌدوٌا ً. •
قابمة الحقول التً ستستخدم فً االختبارات. •
إجراء اختٌار الحقول ،والذي سٌختار أفضل حقل لتجزبة •
مجموعة السجالت.
هذا اإلجراء ٌستخدم مقٌاس الختٌار الحقول ،مثل مقٌاس •
المعلومات المكتسبة أو دلٌل .Gini
إن بعض المقاٌٌس مثل دلٌل ٌ Giniجبر الشجرة على أن تكون •
ثنابٌة ،بٌنما تسمح مقاٌٌس أخرى مثل المعلمات المكتسبة بظهور
عدة تفرعات (أغصان) لكل عقدة.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 27
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 28
تبدأ الشجرة بعقدة واحدة Nتمثل كل السجالت فً D •
(مجموعة التعلم) (الخطوة )1
خوارزمٌة بناء شجرة القرار انطالقا ً من سجالت التعلم D •
أدخل Dوهً مجموعة السجالت التً تم تحدٌد فباتها ٌدوٌا ً. •
أدخل قابمة الحقول •
أدخل طرٌقة اختٌار الحقول ،وهً إجراء لتجزبة السجالت •
باستخدام أفضل الحقول.
النتٌجة :شجرة قرار. •
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 29
إذا كانت كل السجالت فً Dمن نفس الفبة ،فإن هذه العقدة تصبح ورقة تحمل •
قٌمة الفبة.
الحظ أن الخطوة 4و 5هً شروط توقف. •
وإال فإنه ٌجري استدعا إجراء اختٌار الحقول والذي سٌختار أفضل الحقول •
لٌكون حقل االختبار فً العقدة ،والذي بموجبه سٌتم تجزبة السجالت)6(.
كذلك سٌتم تحدٌد الفروع (األغصان) الناتجة من االختبار فً العقدة .نحاول •
أن ٌعطً االختبار تجزبة صافٌة ،أي أن ٌتم تجزبة السجالت إلى مجموعات
كل منها تحوي سجالت من نفس الفبة.
نضع االختبار فً العقدة)7( n •
تخرج أغصان من العقدة حسب عدد نتابج االختبار فً العقدة. •
ٌجري تجزبة السجالت حسب عدد األغصان)11-10(. •
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 30
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 31
ٌوضح الشكل السابق ثالثة احتماالت:
• لٌكن Aهو حقل الختبار الذي سٌتم وفقه تجزبة السجالت.
• Aله vقٌمة منفصل . a1, a2, … , av
1ـ سٌكون هناك فرع مقابل لكل قٌمة من قٌم A
• Djهً مجموعة جزبٌة من السجالت فٌهاA=aj
• بما أن كل السجالت فً Djتحمل نفس قٌمة الحقل Aفإننا لن
نحتاج إلى هذا الحقل مستقبالً ،لذلك فإننا نحذف الحقل Aمن
قابمة الحقول.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 32
2ـ إذا كان الحقل ٌ Aحمل قٌمة عددٌة مستمرة (عدد حقٌقً) فإننا
نختار نقطة تقسٌم (قٌمة نقطة التقسٌم هً متوسط لقٌمة الحقل فً
سجلٌن متجاورٌن ،وقد ال تكون موجودة فً أي من سجالت التعلم)،
ثم نجزئ السجالت إلى مجموعتٌن أصغر من نقطة التقسٌم ،وأكبر
من نقطة التقسٌم.
• مثالً إذا كان حقل العمر فً السجالت المختلفة ٌحمل القٌم ،12
... ،27 ،22 ،18 ،15
• فٌمكن أن نختار القٌمة 19كنقطة تقسٌم ،فسجالت األشخاص
الذٌن أعمارهم أصغر من 19فً مجموعة جزبٌة ،والذٌن أكبر
من 19فً مجموعة جزبٌة أخرى .الحظ أن القٌمة 19لٌس من
الضرورة أن تكون فً أحد السجالت.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 33
3ـ إذا كان الحقل ٌحمل قٌم منفصلة ،والمطلوب هو تولٌد شجرة
ثنابٌة ،فإننا نقسم قٌم الحقل إلى مجموعتٌن جزبٌتٌن ،ونختبر
فٌما إذا كان الحقل ٌنتمً لى المجموعة الجزبٌة األولى ،فإذا
كان الجواب نعم نتفرغ نحو الٌسار ،وإذا كان الجواب ال نتفرع
نحو الٌمٌن.
• ٌجري تطبٌق الخوارزمٌة بشكل تعاودي على المجموعات
الجزبٌة الناتجة)14(.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 34
• ٌتوقف االستدعاء التعاودي عندما ٌتحقق أحد الشروط التالٌة:
-1كل السجالت لها نفس الفبة(2و.)3
2ـ إذا صارت قابمة الحقول فارغة ،عندها نحول العقدة إلى
ورقة ،ونختار الفبة بأغلبٌة االصوات (أي نختار الفبة الغالبة
فً السجالت الباقٌة فً هذه العقدة))4).
3ـ ال توجد سجالت فً أحد الفروع (المقابل لقٌم ما من
االختبار) عندبذ نضع ورقة فً هذا الفرع ،ونختار الفبة الغالبة
فً العقدة السابقة(.)13
• نحصل عل شجرة القرار فً الخطوة 15
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 35
• إن كلفة الخوارزمٌة هً:
))|• O(n . |D| . log(|D
• ٌمكن تحسٌن شجرة القرار باستخدام الشجرة التً حصلنا
علٌها من مجموعة سجالت التعلم ،وساستخدام سجالت تعلم
جدٌدة ،أي ال نبدأ من الصفر ،بل نبنً على ما توصلنا إلٌه
سابقا ً.
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 36
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 37