You are on page 1of 37

‫‪Data Mining‬‬

‫المفاهٌم األساسٌة للتصنٌف‬


‫‪Classification: Basic Concepts‬‬
‫المحاضرة الثامن‬
‫محسن عبد اللطٌف مصطفى‬
‫‪ 7‬كانون األول ‪2012‬‬
‫هرادل تصٌيف‬
‫البياًاث‬

7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 2


‫التصٌيف ‪Classification‬‬
‫التصنٌف هو أحد أشكال تحلٌل البٌانات‪ ،‬وٌهدف إلى بناء‬ ‫•‬
‫نماذج تصف األصناف الهامة من البٌانات‪.‬‬
‫تقوم المصنفات بالتنبؤ بصنف البٌانات‪ ،‬وتضعها ضمن فبات‬ ‫•‬
‫منفصلة‪.‬‬
‫على سبٌل المثال ٌمكن أن نستخدم مصنف لتصنٌف طلبات‬ ‫•‬
‫القروض إلى آمن وخطر‪.‬‬
‫مثل هذا التحلٌل ٌساعدنا على فهم البٌانات بشكل أفضل‪.‬‬ ‫•‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪3‬‬
‫كيفيت التصٌيف‬
‫الكثٌر من طرق التصنٌف تم اقتراحها من قبل الباحثٌن فً‬ ‫•‬
‫مجال التعلم اآللً‪ ،‬والتعرف على األشكال‪ ،‬واإلحصاء‪.‬‬
‫أغلب الخوارزمٌات هً برامج تعالج بٌانات مخزنة فً‬ ‫•‬
‫الذاكرة‪ ،‬أي تعالج كمٌة صغٌرة من البٌانات‪.‬‬
‫وقد تم مؤخراً تطوٌر تلك الخوارزمٌات للتعامل مع كمٌة‬ ‫•‬
‫كبٌر من البٌانات المخزنة على القرص الصلب‪.‬‬
‫هناك تطبٌقات عدٌدة للتصنٌف‪ ،‬ومنها‪ :‬كشف عن الغش‬ ‫•‬
‫والتشخٌص الطبً‪ ،‬أداء التنبؤ الصناعً‪...،‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪4‬‬
Basic Concepts ‫هفاهين أساسيت‬
‫• ما هو التصنٌف؟‬
.‫• التصنٌف بشكل عام‬

7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 5


‫ها هو التصٌيف؟‬
‫؟ ‪What Is Classification‬‬
‫ترٌد مدٌرة قسم القروض فً أحد البنوك أن تصنف طلبات القروض‬
‫إلى آمن وخطر‪.‬‬
‫ٌرٌد مدٌر التسوٌق أن ٌتوقع فٌما إذا كان زبون معٌن سٌشتري‬
‫حاسوب جدٌد أم ال من خالل تحلٌل البٌانات الموجودة لدٌه‪.‬‬
‫ٌرٌد باحث طبً (طبٌب) أن ٌحلل بٌانات سرطان الثدي لٌختار‬
‫طرٌقة عالج من بٌن ثالثة طرق‪.‬‬
‫المطلوب فً األمثلة السابقة هو التصنٌف‪ ،‬حٌث ٌقوم المصنف‬
‫بتحدٌد الفبة المناسبة‪ ،‬مثالً (آمن أوخطر فً مثال طلب القرض)‪،‬‬
‫(نعم أو ال) فً مثال هل سٌشتري الزبن حاسوبا ً جدٌداً‪ ،‬و(العالج‪1‬و‬
‫العالج‪ ،2‬العالج‪ )3‬فً مثال الورم‪.‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪6‬‬
‫• ٌمكن تمثٌل هذه الفبات بقٌم منفصل‪ ،‬ولكن ال ٌوجد معنى‬
‫للترتٌب بٌن هذه القٌم (بٌانات رمزٌة)‪،‬مثالً طرق العالج‬
‫‪ 1،2،3‬هذه الفبات ال ٌعنً أن أحدها قبل اآلخر‪.‬‬
‫• لنفترض أن مدٌر المبٌعات ٌرٌد أن ٌتوقع "كم سٌنفق زبون‬
‫ما أثناء التخفٌضات القادمة"‪ .‬إن عملٌة تحلٌل البٌانات هذه‬
‫هً مثال على التوقع العددي‪ ،‬حٌث ٌتم بناء دالة عددٌة‬
‫مستمرة‪ ،‬أو توقع قٌمة مرتبة هذا النموذج ٌسمى متنبا ‪-‬تنبؤ‬
‫‪predictor‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪7‬‬
‫‪Regression analysis‬‬
‫• هذه طرٌق إحصابٌة للتنبؤ العددي‪ .‬وهناك طرق أخرى‬
‫عدٌدة‪.‬‬
‫• إن التصنٌف والتنبؤ العددي هما الطرٌقتان األساسٌتان للتنبؤ‬
‫(التوقع)‪ .‬وسنركز فً هذا الفصل على التصنٌف‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪8‬‬
‫التصٌيف بشكل عام‬
‫‪General Approach to Classification‬‬
‫كٌف ٌعمل التصنٌف؟‬ ‫•‬
‫تتكون عملٌة تصنٌف البٌانات من خطوتٌن‪:‬‬ ‫•‬
‫فً الخطوة األولى ٌُبنى المصنف‪ ،‬وتسمى هذه الخطوة‬ ‫•‬
‫مرحلة التعلم‪.‬‬
‫ومرحلة التصنٌف‪ :‬حٌث ٌُستخدم المصنف لتحدٌد فبة‬ ‫•‬
‫البٌانات المعطاة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪9‬‬
‫• تم تبسٌط البٌانات بهدف التوضٌح‪ ،‬فً الواقع نستخدم حقول‬
‫أكثر‪.‬‬
‫• الخطوة األولى (التعلم)‪ ،‬وٌتم فٌها بناء المصنف‪ .‬نحدد الفبات‬
‫التً نرٌد أن نوزع البٌانات فٌها‪ ،‬مثالً فبة طلب قرض آمن‬
‫وطلب قرض خطر‪ ،‬ثم نأخذ عٌنة عشوابٌة من الطلبات ونحول‬
‫حقولها إلى متجهة عددٌة‪ ،‬كما نحدد فبة كل طلب ٌدوٌا ً‪ .‬نضع‬
‫طرٌقة للوصول إلى الفبة انطالقا ً من متجهة الحقول (أو المتجهة‬
‫العددٌة المقابلة له)‪.‬‬
‫• مثالً إذا كان العمر أكبر من ‪ 40‬فالطلب آمن‪ ،‬وإال فالطلب خطر‪.‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪10‬‬
‫• إن الفبات هً من النوع الرمزي‪ ،‬أي ال ٌوجد ترتٌب لها‪.‬‬
‫• السجالت الداخلة فً عملٌة التعلم(الخطوة ‪ )1‬هً عٌنة‬
‫عشوابٌة من سجالت قاعدة البٌانات‪.‬‬
‫• هذه تسمٌات أخرى للعٌنة المأخوذة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪11‬‬
‫• التعلم‪ :‬هنا تم استخدام قواعد للتصنٌف للوصول إلى قرار‬
‫بخصوص القرض‪.‬‬
‫• هنا طبقنا قواعد التصنٌف على مجموعة أخرى من الطلبات‬
‫(عٌنة اختبار تم تحدٌد الفبات فٌها ٌدوٌا ً)‪ ،‬والهدف هو فحص‬
‫دقة قواعد التصنٌف‪ ،‬أي هل كانت نتٌجة خوارزمٌة‬
‫التصنٌف مطابقة للتصنٌف الٌدوي؟‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪12‬‬
‫• ٌمكن أن نقول بأننا نبحث عن تطبٌق منطلقه السجالت‬
‫ومستقره الفبات‪ .‬وهناك عدة طرق لبناء هذا التطبٌق‪ ،‬منها‬
‫قواعد التصنٌف التً استخدمناها فً المثال السابق‪ ،‬وشجرة‬
‫القرار‪ ،‬والدوال الرٌاضٌة‪.‬‬
‫• وسنستخدم هذا التطبٌق لتصنٌف أي بٌانات قادمة‪ .‬كما أن‬
‫هذا التطبٌق ٌمثل شكل مضغوطا ً للبٌانات‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪13‬‬
‫هالفرق بيي التصٌيف ‪ classification‬والتجويع‬
‫‪clustering‬؟‬
‫• تقوم خوارزمٌة التصنٌف بوضع البٌانات فً فبات محددة‬
‫سلفاً‪ ،‬بٌنما تقوم خوارزمٌة التجمٌع بتقسٌم البٌانات إلى‬
‫مجموعات بحٌث تتشابه عناصر المجموعة الواحدة فٌما بٌنها‬
‫وتختلف عن عناصر باقً المجموعات‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪14‬‬
‫هارا عي دقت التصٌيف؟‬
‫؟‪What about classification accuracy‬‬
‫فً الخطوة الثانٌة من الشكل السابق ‪ b‬استخدمنا النموذج (قواعد‬ ‫•‬
‫التصنٌف) للتصنٌف‪.‬‬
‫أوالً نقدر الدقة المتوقعة للمصنف‪.‬‬ ‫•‬
‫إذا استخدمنا عٌنة التعلم لتقدٌر دقة المصنف‪ ،‬فإننا سنحصل على‬ ‫•‬
‫تقدٌر مثالً (غٌر واقعً) ألن المصنف بُنً من هذه العٌنة‪.‬‬
‫لذلك نستخدم عٌنة اختبار مختلفة عن عٌنة التعلم من أجل تقدٌر‬ ‫•‬
‫دقة المصنف‪.‬‬
‫عٌنة االختبار هً عٌنة عشوابٌة من السجالت مختلفة عن عٌنة‬ ‫•‬
‫التعلم‪ ،‬ونقوم بتحدٌد فبة كل سجل ٌدوٌاً‪ ،‬ثم نرى فٌما إذا كان‬
‫المصنف ٌستطٌع الوصول إلى نفس النتٌجة (الفبة)‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪15‬‬
‫• إن دقة المصنف هً النسبة المبوٌة للسجالت التً نجح‬
‫المصنف فً تحدٌد فبتها لتتطابق مع التصنٌف الٌدوي‪.‬‬
‫• إذا كانت الدقة مقبولة فإننا نستخدم هذا المصنف لتصنٌف أي‬
‫بٌانات فً المستقبل‪.‬‬
‫• مثالً ما تعلمناه من طلبات القروض الموحودة لدٌنا‪ ،‬وبنٌنا‬
‫علٌها طرٌقة لتصنٌف الطلبات‪ٌ ،‬مكن أن نستخدمه لتصنٌف‬
‫أي طلبات فً المستقبل‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪16‬‬
‫توليذ شجرة القرار‬
‫‪Decision Tree Induction‬‬
‫• إذا كنا نعرف قٌم ‪ y‬المقابلة لقٌم ‪ x‬الوقعة ضمن مجال معٌن‪،‬‬
‫فٌمكننا أن نمرر مستقٌم (أو منحنً)‪ ،‬بحٌث نستطٌع حساب قٌم ‪y‬‬
‫المقابلة ألي قٌمة ل ‪ x‬ضمن المجال‪.‬‬
‫• االستقراء هو أن نحسب قٌمة ‪ y‬المقابلة ألي قٌمة ل* ‪ x‬خارج‬
‫المجال*‪ ،‬وكأننا مددنا المستقٌم إلى خارج المجال‪.‬‬
‫• وبشكل مشابه‪ ،‬فإننا نبنً شجرة القرار من مجموعة من‬
‫السجالت (تقابل المجال فً المثال السابق)‪ ،‬والشجرة تقابل‬
‫المستقٌم‪ ،‬ثم نستخدم هذه الشجرة لتحدٌد فبة أي سجل جدٌد (ٌعنً‬
‫خارج المجال)‪ .‬هنا ‪ x‬هً حقول السجل‪ ،‬و ‪ y‬هً الفبة‪.‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪17‬‬
‫• إن تولٌد شجرة القرار ٌتم انطالقا ً من مجموعة سجالت‬
‫التعلم‪.‬‬
‫• شجرة القرار هً مخطط تدفقً على شكل شجرة‪ .‬حٌث تمثل‬
‫كل عقدة داخلٌة اختبار‪ ،‬وٌمثل كل غصن نتٌجة االختبار‪.‬‬
‫تمثل القعد الورقٌة أو الطرفٌة الفبات‪.‬‬
‫• أعلى عقدة فً الشجرة هً الجذر‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪18‬‬
‫الشكل يوضخ شجرة قرار الختبار‬
‫فيوا إرا كاى هي الوذتول أى يشتري زبوى داسوبا ً جذيذاً‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪19‬‬
‫شرح الشكل‬
‫• تم ترمٌز العقد الداخلٌة بمستطٌالت‪ ،‬والعقد الورقٌة‬
‫(الطرفٌة) بدابرة‬
‫• تولد بعض خوارزمٌات شجرة القرار أشجار ثنابٌة فقط‪،‬‬
‫حٌث تتفرغ كل عقدة إلى فرعٌن فقط‪ ،‬بٌنما تولد خوارزمٌات‬
‫أخرى أشجار غٌر ثنابٌة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪20‬‬
‫كيف تُستخذم أشجار القرار للتصٌيف؟‬
‫• لنفترض أنه لدٌنا سجل‪ ،‬ونرٌد معرفة الفبة التً ٌنتمً إلٌها‪.‬‬
‫نقوم باختبار حقول السجل باستخدام شجرة القرار‪ ،‬عندها‬
‫سنتحرك على مسار من جذر الشجرة إلى إحدى األوراق‬
‫التً تمثل فبة هذا السجل‪.‬‬
‫• نستطٌع وبسهولة أن نحول شجرة القرار إلى قواعد تصنٌف‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪21‬‬
‫لوارا التصٌيف باستخذام شجرة القرار شائع جذاً؟‬

‫• إن بناء شجرة القرار ال ٌتطلب معرفة بالموضوع المدروس‪،‬‬


‫أو قٌم الوسطاء المناسبة‪ .‬لذلك هً مناسبة الكتشاف المعرفة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪22‬‬
‫تستطٌع شجرة القرار أن تتعامل مع بٌانات متعددة األبعاد‪ ،‬وهً‬ ‫•‬
‫بسٌطة بالنسبة للبشر‪.‬‬
‫متعددة األبعاد أي متعددة الحقول‪ .‬تذكر أنه فً كل عقدة من‬ ‫•‬
‫الشجرة ٌتم اختبار أحد الحقول‪ ،‬ثم اختٌار الغصن المناسب‪ ،‬ثم‬
‫اختبار حقل آخر‪ ،‬وهكذا حتى نصل إلى الورقة (القرار) التً‬
‫تحدد الفبة التً سٌنتمً إلٌها السجل‪.‬‬
‫إن خطوتً التعلم والتصنٌف فً االستقراء بشجرة القرار سهلتان‬ ‫•‬
‫وسرٌعتان‪.‬‬
‫بشكل عام‪ ،‬إن دقة مصنف شجرة القرار جٌدة‪.‬‬ ‫•‬
‫ولكن ٌتوقف نجاح استخدام شجرة القرار على البٌانات التً‬ ‫•‬
‫نعالجها‪.‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪23‬‬
‫استخذام شجرة القرار‬
‫• ُتستخدم خوارزمٌات شجرة القرار للتصنٌف فً تطبٌقات‬
‫كثٌرة‪ ،‬منها الطب والتصنٌع واإلنتاج‪ ،‬التحلٌل المالً والفلك‪،‬‬
‫البٌولوجٌا الجزٌبٌة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪24‬‬
‫توليذ شجرة القرار‬
‫‪Decision Tree Induction‬‬
‫فً نهاٌة السبعٌنات وبداٌة الثمانٌنات قام الباحث ‪ J. Ross Quinlan‬فً‬ ‫•‬
‫مجال التعلم اآللً بتطوٌر خوارزمٌة شجرة قرار أسماها‬
‫)‪ID3(Iterative Dichotomiser‬‬
‫تم متابعة هذا العمل من قبل مجموعة من الباحثٌن فً مجال نظم تعلم‬ ‫•‬
‫المفاهٌم‪ ،‬وظهرت حوارزمٌة ‪C4.5‬‬
‫وأصبحت هاتان الخوارزمٌتان مقٌاسا ً لتقٌٌم أي خوارزمٌة جدٌدة‪.‬‬ ‫•‬
‫فً ‪ 1984‬نشر مجموعة من اإلحصابٌٌن كتابا ً بعنوان ‪Classification‬‬ ‫•‬
‫)‪ and Regression Trees (CART‬الذي شرح تولٌد أشجار القرار‬
‫الثنابٌة‪.‬‬
‫لقد ظهرت ‪ ID3and CART‬فً نفس الوقت تقرٌبا ً وبشكل مستقل عن‬ ‫•‬
‫بعضهما‪ ،‬وهما تتبعان نفس الطرٌقة تقرٌباً‪ ،‬حٌث ٌجري بناء شجرة‬
‫القرار من مجموعة من السجالت‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪25‬‬
‫• إن ‪ ID3, C4.5, and CART‬تبنً شجرة القرار من األعلى‬
‫إلى األسفل ودون االرتداد إلى الخلف‪.‬‬
‫• إن أغلب خوارزمٌات بناء شجرة القرار تتبع نفس األسلوب‬
‫(من األعلى نحو األسفل)‪ ،‬حٌث نبدأ بمجموعة من سجالت‬
‫التعلم (التً تم تحدٌد فباتها ٌدوٌا ً)‪ ،‬ثم ٌجري تجزبة هذه‬
‫المجموعة بشكل متكرر‪ ،‬وبناء الشجرة بالتدرٌج‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪26‬‬
‫ُتستدعى الخوارزمٌة بعد تحدٌد ثالثة وسطاء‪:‬‬ ‫•‬
‫‪ D‬هً مجموعة من السجالت التً تم تحدٌد فباتها ٌدوٌا ً‪.‬‬ ‫•‬
‫قابمة الحقول التً ستستخدم فً االختبارات‪.‬‬ ‫•‬
‫إجراء اختٌار الحقول‪ ،‬والذي سٌختار أفضل حقل لتجزبة‬ ‫•‬
‫مجموعة السجالت‪.‬‬
‫هذا اإلجراء ٌستخدم مقٌاس الختٌار الحقول‪ ،‬مثل مقٌاس‬ ‫•‬
‫المعلومات المكتسبة أو دلٌل ‪.Gini‬‬
‫إن بعض المقاٌٌس مثل دلٌل ‪ٌ Gini‬جبر الشجرة على أن تكون‬ ‫•‬
‫ثنابٌة‪ ،‬بٌنما تسمح مقاٌٌس أخرى مثل المعلمات المكتسبة بظهور‬
‫عدة تفرعات (أغصان) لكل عقدة‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪27‬‬
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 28
‫تبدأ الشجرة بعقدة واحدة ‪ N‬تمثل كل السجالت فً ‪D‬‬ ‫•‬
‫(مجموعة التعلم) (الخطوة ‪)1‬‬
‫خوارزمٌة بناء شجرة القرار انطالقا ً من سجالت التعلم ‪D‬‬ ‫•‬
‫أدخل ‪ D‬وهً مجموعة السجالت التً تم تحدٌد فباتها ٌدوٌا ً‪.‬‬ ‫•‬
‫أدخل قابمة الحقول‬ ‫•‬
‫أدخل طرٌقة اختٌار الحقول‪ ،‬وهً إجراء لتجزبة السجالت‬ ‫•‬
‫باستخدام أفضل الحقول‪.‬‬
‫النتٌجة‪ :‬شجرة قرار‪.‬‬ ‫•‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪29‬‬
‫إذا كانت كل السجالت فً ‪ D‬من نفس الفبة‪ ،‬فإن هذه العقدة تصبح ورقة تحمل‬ ‫•‬
‫قٌمة الفبة‪.‬‬
‫الحظ أن الخطوة ‪ 4‬و ‪ 5‬هً شروط توقف‪.‬‬ ‫•‬
‫وإال فإنه ٌجري استدعا إجراء اختٌار الحقول والذي سٌختار أفضل الحقول‬ ‫•‬
‫لٌكون حقل االختبار فً العقدة‪ ،‬والذي بموجبه سٌتم تجزبة السجالت‪)6(.‬‬
‫كذلك سٌتم تحدٌد الفروع (األغصان) الناتجة من االختبار فً العقدة‪ .‬نحاول‬ ‫•‬
‫أن ٌعطً االختبار تجزبة صافٌة‪ ،‬أي أن ٌتم تجزبة السجالت إلى مجموعات‬
‫كل منها تحوي سجالت من نفس الفبة‪.‬‬
‫نضع االختبار فً العقدة‪)7( n‬‬ ‫•‬
‫تخرج أغصان من العقدة حسب عدد نتابج االختبار فً العقدة‪.‬‬ ‫•‬
‫ٌجري تجزبة السجالت حسب عدد األغصان‪)11-10(.‬‬ ‫•‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪30‬‬
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 31
‫ٌوضح الشكل السابق ثالثة احتماالت‪:‬‬
‫• لٌكن ‪ A‬هو حقل الختبار الذي سٌتم وفقه تجزبة السجالت‪.‬‬
‫• ‪A‬له ‪ v‬قٌمة منفصل ‪. a1, a2, … , av‬‬
‫‪1‬ـ سٌكون هناك فرع مقابل لكل قٌمة من قٌم ‪A‬‬
‫• ‪Dj‬هً مجموعة جزبٌة من السجالت فٌها‪A=aj‬‬
‫• بما أن كل السجالت فً ‪ Dj‬تحمل نفس قٌمة الحقل ‪ A‬فإننا لن‬
‫نحتاج إلى هذا الحقل مستقبالً‪ ،‬لذلك فإننا نحذف الحقل ‪ A‬من‬
‫قابمة الحقول‪.‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪32‬‬
‫‪2‬ـ إذا كان الحقل ‪ٌ A‬حمل قٌمة عددٌة مستمرة (عدد حقٌقً) فإننا‬
‫نختار نقطة تقسٌم (قٌمة نقطة التقسٌم هً متوسط لقٌمة الحقل فً‬
‫سجلٌن متجاورٌن‪ ،‬وقد ال تكون موجودة فً أي من سجالت التعلم)‪،‬‬
‫ثم نجزئ السجالت إلى مجموعتٌن أصغر من نقطة التقسٌم‪ ،‬وأكبر‬
‫من نقطة التقسٌم‪.‬‬
‫• مثالً إذا كان حقل العمر فً السجالت المختلفة ٌحمل القٌم ‪،12‬‬
‫‪... ،27 ،22 ،18 ،15‬‬
‫• فٌمكن أن نختار القٌمة ‪ 19‬كنقطة تقسٌم‪ ،‬فسجالت األشخاص‬
‫الذٌن أعمارهم أصغر من ‪ 19‬فً مجموعة جزبٌة‪ ،‬والذٌن أكبر‬
‫من ‪ 19‬فً مجموعة جزبٌة أخرى‪ .‬الحظ أن القٌمة ‪ 19‬لٌس من‬
‫الضرورة أن تكون فً أحد السجالت‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪33‬‬
‫‪3‬ـ إذا كان الحقل ٌحمل قٌم منفصلة‪ ،‬والمطلوب هو تولٌد شجرة‬
‫ثنابٌة‪ ،‬فإننا نقسم قٌم الحقل إلى مجموعتٌن جزبٌتٌن‪ ،‬ونختبر‬
‫فٌما إذا كان الحقل ٌنتمً لى المجموعة الجزبٌة األولى‪ ،‬فإذا‬
‫كان الجواب نعم نتفرغ نحو الٌسار‪ ،‬وإذا كان الجواب ال نتفرع‬
‫نحو الٌمٌن‪.‬‬
‫• ٌجري تطبٌق الخوارزمٌة بشكل تعاودي على المجموعات‬
‫الجزبٌة الناتجة‪)14(.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪34‬‬
‫• ٌتوقف االستدعاء التعاودي عندما ٌتحقق أحد الشروط التالٌة‪:‬‬
‫‪ -1‬كل السجالت لها نفس الفبة(‪2‬و‪.)3‬‬
‫‪ 2‬ـ إذا صارت قابمة الحقول فارغة‪ ،‬عندها نحول العقدة إلى‬
‫ورقة‪ ،‬ونختار الفبة بأغلبٌة االصوات (أي نختار الفبة الغالبة‬
‫فً السجالت الباقٌة فً هذه العقدة)‪)4).‬‬
‫‪3‬ـ ال توجد سجالت فً أحد الفروع (المقابل لقٌم ما من‬
‫االختبار) عندبذ نضع ورقة فً هذا الفرع‪ ،‬ونختار الفبة الغالبة‬
‫فً العقدة السابقة(‪.)13‬‬
‫• نحصل عل شجرة القرار فً الخطوة ‪15‬‬
‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪35‬‬
‫• إن كلفة الخوارزمٌة هً‪:‬‬
‫))|‪• O(n . |D| . log(|D‬‬
‫• ٌمكن تحسٌن شجرة القرار باستخدام الشجرة التً حصلنا‬
‫علٌها من مجموعة سجالت التعلم‪ ،‬وساستخدام سجالت تعلم‬
‫جدٌدة‪ ،‬أي ال نبدأ من الصفر‪ ،‬بل نبنً على ما توصلنا إلٌه‬
‫سابقا ً‪.‬‬

‫‪7 December 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪36‬‬
7 December 2012 Data Mining - Mohsen A Mustafa - Winter 2012 37

You might also like