You are on page 1of 39

‫‪Data Mining‬‬

‫رؤٌة البٌانات بالعٌن ‪Data Visualization‬‬


‫قٌاس تشابه البٌانات واختالفها ‪Measuring Data Similarity‬‬
‫‪and Dissimilarity‬‬
‫المحاضرة الخامسة‬
‫محسن عبد اللطٌؾ مصطفى‬
‫‪ 7‬تشرٌن الثانً ‪2012‬‬
‫رؤيت انبياناث بانعين‬
‫‪Data Visualization‬‬
‫كٌؾ نستطٌع أن ننقل البٌانات إلى المستخدم بشكل مفٌد؟‬ ‫•‬
‫ٌهدؾ إبصار البٌانات إلى التواصل مع البٌانات بشكل واضح وفعال‪.‬‬ ‫•‬
‫أصبح إبصار البٌانات ٌُستخدم بكثرة فً الكثٌر من التطبٌقات‪ .‬على سبٌل‬ ‫•‬
‫المثال‪ٌ ،‬ستخدم إبصار البٌانات فً األعمال إلصدار التقارٌر‪،‬وإدارة األعمال‪،‬‬
‫ومتابعة تنفٌذ المهام‪.‬‬
‫كذلك ٌمكننا االستفادة من إبصار البٌانات فً اكتشاؾ العالقة بٌن البٌانات‪،‬‬ ‫•‬
‫حٌث أنه من الصعب إٌجاد هذه العالقة بمجرد النظر إلى البٌانات الخام‪.‬‬
‫هذه األٌام ‪ٌ ،‬ستخدم الناس وسائل إبصار البٌانات إلنشاء رسوم مضحكة‬ ‫•‬
‫وممتعة‪.‬‬
‫سنقدم فً هذه المحاضرة وباختصار المفاهٌم األساسٌة إلبصار البٌانات‪.‬‬ ‫•‬
‫سنبدأ بالبٌانات متعددة األبعاد‪ ،‬كتلك المخزنة فً قواعد البٌانات العالئقٌة‪.‬‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪2‬‬
‫صنناقش عدة طزق نتمثيم انبياناث‪ ،‬وهذا يتضمن‬
‫التقنٌات الموجهة للبكسل ‪pixel-oriented techniques‬‬ ‫•‬
‫تقنٌات اإلسقاط الهندسً ‪geometric projection‬‬ ‫•‬
‫‪techniques‬‬
‫التقنٌات المبنٌة على اإلٌقونات ‪icon-based techniques‬‬ ‫•‬
‫التقنٌات المبنٌة على المخططات والبناء الهرمً‬ ‫•‬
‫‪hierarchical and graph-based techniques‬‬
‫ثم سنناقش إبصار البٌانات المقعدة‪ ،‬والعالقات بٌنها‪.‬‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪3‬‬
‫تقنٌات رؤٌة الموجه بكسل‬
‫‪Pixel-Oriented Visualization Techniques‬‬
‫• إن تمثٌل البٌانات ممكن أن ٌكون وفق محورٌن ‪ X, Y‬لكن من‬
‫الصعب تمثٌل الرسم أكثر من ثالثة ابعاد فٌمكن أن نضع‬
‫لون للبكسل‪ ،‬حٌث كل لون ٌمثل بعد جدٌد‪ ،‬أو ٌمكن أن نضع‬
‫نوافذ عدٌدة على الشاشة وفق عدد األبعاد التً نرٌدها‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪4‬‬
‫مثال تقنيت رؤيت انمىجه بكضم‬

7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 5


‫مثال تقنيت رؤيت انمىجه بكضم‬
‫• جدول معلومات العمالء‪ ،‬الذي ٌتكون من أربعة أبعاد ‪:‬الدخل‪،‬‬
‫والحد االئتمانً‪ ،‬وحجم المعامالت "الشراء"‪.‬‬
‫وٌتم اختٌار األلوان بحٌث أن القٌمة الصؽٌرة لها أقل لون‬
‫باستخدام البكسل وأقل تظلٌل‪ .‬فً مثالنا نجد الحد االئتمانً‬
‫ٌزٌد بإزدٌاد الدخل؛ والعمالء الذٌن ٌبلػ دخلهم فً حدود‬
‫المنتصؾ هم األكثر شراء‪ .‬ولٌس هناك عالقة واضحة بٌن‬
‫الدخل والعمر‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪6‬‬
‫الرؤٌة التقنٌة لإلسقاط الهندسً‬
‫‪Geometric Projection Visualization Techniques‬‬
‫• من عٌوب تقنٌات رؤٌة البكسل هو أنه ال ٌمكن أن ٌساعدنا‬
‫كثٌرا فً فهم توزٌع البٌانات فً الفراغ‪.‬‬
‫• التحدي األساسً لتقنٌات اإلسقاط الهندسً كٌفٌة معالجته‬
‫لرؤٌة الفراغ عالً األبعاد على شاشة فً البعد ‪2-D.‬‬
‫وٌمكن استخدم ثالثة محاور فً نظام إحداثٌات الدٌكارتٌة‬
‫‪ 3-D‬وإذا اضٌؾ اللون‪ٌ ،‬مكن عرض ما ٌصل إلى ‪.4-D‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪7‬‬
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 8
‫• مجموعات البٌانات مع أكثر من‬
‫أربعة أبعاد‪ ،‬عادة ما تكون ؼٌر‬
‫فعالة‪ ،‬تقنٌة المصفوفة توفر‬
‫الرؤٌة لكل بعد مع البعد اآلخر‪.‬‬
‫• ٌظهر المثال‪ ،‬رؤٌة مجموعة من‬
‫البٌانات مؤلفة من ‪450‬عٌنة من‬
‫كل ثالثة أنواع من الزهور ‪.‬‬
‫هناك خمسة أبعاد فً مجموعة‬
‫البٌانات ‪:‬طول وعرض البتلة‬
‫واألنواع أخرى‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪9‬‬
‫• وٌمثل سجل البٌانات بواسطة خط مضلع على أن ٌتقاطع كل‬
‫محور عند النقطة المقابلة لقٌمة البعد المرتبطة بها‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪10‬‬
‫تقنٌات رؤٌة الرموز األصاصيت‬
‫‪Icon-Based Visualization Techniques‬‬
‫• تقنٌات رؤٌة الرموز باستخدام أٌقونات صؽٌرة لتمثٌل متعدد األبعاد لقٌم‬
‫البٌانات‪ .‬تم إدخال وجوه تشٌرنوؾ فً عام ‪1973‬من قبل اإلحصائً‬
‫هٌرمان تشٌرنوؾ‪ .‬ألنها تظهر البٌانات إلى ‪ 18‬بعد (متؽٌرات)‪ ،‬من‬
‫خالل الوجه‪ ،‬تشٌرنوؾ ٌساعد فً الكشؾ ومقارنة البٌانات‪.‬‬
‫• مكونات الوجه مثل العٌنٌن واألذنٌن والفم‪ ،‬واألنؾ‪ ،‬وتمثل قٌم األبعاد‬
‫بواسطتهم‪ ،‬الشكل والحجم‪ ،‬والموضع‪ ،‬واالتجاه‪ .‬على سبٌل المثال‪ٌ ،‬مكن‬
‫تعٌٌن أبعاد للوجه‪ :‬حجم العٌن‪ ،‬وتباعد العٌنٌن‪ ،‬وطول األنؾ‪ ،‬وعرض‬
‫األنؾ وانحناء الفم‪ ،‬عرض الفم‪ ،‬وانفتاح الفم‪ ،‬حجم البؤبؤ‪ ،‬مٌل الحاجب‪،‬‬
‫انحراؾ العٌن‪ ،‬ونمط االنحراؾ‪.‬‬
‫• وجوه تشٌرنوؾ تمكن من استفادة مقدرة العقل البشري على التعرؾ على‬
‫االختالفات الصؽٌرة فً الوجه واستٌعاب خصائص كثٌرة فً آن واحد‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪11‬‬
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 12
‫تقنٌات الرؤٌة الهرمٌة‬
‫‪Hierarchical Visualization Techniques‬‬
‫• تقنٌات الرؤٌة والتركٌز لألبعاد المتعددة فً وقت واحد‪.‬‬
‫لمجموعة من البٌانات الكبٌرة األبعاد‪ ،‬سٌكون من الصعب‬
‫رؤٌة جمٌع األبعاد فً نفس الوقت‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪14‬‬
‫رؤٌة البٌانات المعقدة والعالقات‬
‫‪Visualizing Complex Data and Relations‬‬
‫• فً األٌام األولى‪ ،‬كانت أساسا لتقنٌات رؤٌة البٌانات الرقمٌة‪.‬‬
‫لكن فً الفترة األخٌرة أصبحت مستخدمة على بٌانات ؼٌر‬
‫رقمٌة‪ ،‬مثل النص والشبكات االجتماعٌة‪ ،‬رؤٌة وتحلٌل هذه‬
‫البٌانات تجذب الكثٌر من االهتمام‪.‬‬
‫هناك العدٌد من تقنٌات الرؤٌة الجدٌدة مخصصة لهذا النوع‬
‫من البٌانات‪ .‬على مختلؾ كائنات الوٌب مثل الصور‪ ،‬مقاالت‪،‬‬
‫مدونات‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪15‬‬
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 16
‫خالصة‬
‫• الرؤٌة توفر أدوات فعالة لفهم البٌانات‪ .‬أدخلنا عدة أسالٌب‬
‫وأفكار أساسٌة‪ٌ ،‬مكن استخدام الرؤٌة فً تنقٌب البٌانات فً‬
‫مختلؾ الجوانب‪.‬‬
‫• باإلضافة إلى رؤٌة البٌانات‪ٌ ،‬مكن متابعة عملٌة تنقٌب‬
‫البٌانات‪ ،‬وأنماط الحصول علٌها من طرٌقة التعدٌن‪ ،‬وتفاعل‬
‫المستخدم مع البٌانات‪.‬‬
‫• هذا الحقل مازال مفتوح للبحث‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪17‬‬
‫قياس تشابه انبياناث واختالفها‬
‫‪Measuring Data Similarity and Dissimilarity‬‬
‫• فً تطبٌقات سبر البٌانات‪ ،‬عل سبٌل المثال‪ ،‬التجمٌع‬
‫‪ clustering‬وتحلٌل النقاط الشاذة والتصنٌؾ المسمى أقرب‬
‫جار ‪ nearest-neighbor classification‬نحتاج إلى طرٌقة‬
‫لمقارنة العناصر‪ ،‬وتحدٌد درجة التشابه واالختالؾ بٌنها‪.‬‬
‫• على سبٌل المثال‪ٌ ،‬رؼب أحد المخازن فً سبر بٌانات الزبائن‬
‫وتقسٌمهم إلى مجموعات‪ ،‬بحٌث أن الزبائن فً كل مجموعة لهم‬
‫صفات مشتركة‪ ،‬مثالً‪ ،‬نفس الدخل‪ ،‬أو منطقة السكن‪ ،‬أو العمر‪.‬‬
‫• مثل هذه المعلومات ٌمكن أن ُتستخدم الحقا ً فً التسوٌق‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪18‬‬
‫• ‪ cluster‬هو مجموعة من العناصر المتشابهة فٌما بٌنها‪،‬‬
‫والمختلفة عن العناصر المجودة فً أي ‪ cluster‬آخر‪.‬‬
‫• ٌستخدم تحلٌل النقاط الشاذة تقنٌات مبنٌة على التجمٌع‬
‫‪ clustering‬للتعرؾ على القٌم الشاذة‪ ،‬والتً تختلؾ كثٌراً‬
‫عن باقً قٌم البٌانات‪.‬‬
‫• إن معرفة التشابه بٌن العناصر ٌفٌد فً خوارزمٌة التصنٌؾ‬
‫المسماة أقرب جار‪ ،‬فمثالً تشابه سجل مرٌض مع سجل‬
‫مرٌض آخر من حٌث نتائج الفحوصات ٌعنً أن المرٌضٌن‬
‫ٌعانٌان من نفس المرض‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪19‬‬
‫مقاييش انتشابه واالختالف‬
‫ٌعرض هذه المقطع مقاٌٌس التشابه واالختالؾ والتً ٌُشار‬ ‫•‬
‫إلٌها بمقٌاس الجوار «بروكسمٌتً» ‪.proximity‬‬
‫التشابه واالختالؾ مرتبطان ببعضهما‪.‬‬ ‫•‬
‫مقٌاس التشابه بٌن شٌئٌن ٌعطً القٌمة صفر إذا كان الشٌئان‬ ‫•‬
‫ؼٌر متشابهٌن تماماً‪ ،‬وتزداد القٌمة كلما إزداد التشابه بٌنهما‪،‬‬
‫أما القٌمة واحد فتعنً أن الشٌئٌن متشابهان تماما ً‪.‬‬
‫إن مقٌاس االختالؾ ٌعمل بشكل معاكس لمقٌاس التشابه‪ .‬أي‬ ‫•‬
‫أن القٌمة صفر تعنً عدم وجود أي اختالؾ‪ ،‬وكلما ازداد‬
‫االختالؾ ازدادت قٌمة المقٌاس‪.‬‬
‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪20‬‬
‫مقارنت مصفىفت انبياناث ومصفىفت االختالف‬
‫‪Data Matrix versus Dissimilarity Matrix‬‬
‫• فً المحاضرة السابقة درسنا مقاٌٌس النزعة المركزٌة‬
‫والتشتت لمتؽٌر واحد‪.‬‬
‫• فً هذا المقطع سنتحدث عن أشٌاء متعددة الحقول‪ ،‬لذلك‬
‫سنحتاج إلى تؽٌٌر طرٌقة الترمٌز‪.‬‬
‫• لنفترض أنه لدٌنا ‪ n‬شًء‪ ،‬ولكل شًء ‪ p‬صفة أو قٌاس أو‬
‫حقل بٌانات‪.‬‬
‫• إن الخوارزمٌتٌن تستخدمان إحدى هٌكلً البٌانات التالٌة‪:‬‬
‫إما مصفوفة البٌانات أومصفوفة االختالؾ‪.‬‬
‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪22‬‬
‫مصفىفت انبياناث ‪Data Matrix‬‬

‫إن مصفوفة البٌانات أو مصفوفة األشٌاء‬


‫والمواصفات ُتخزن البٌانات فً مصفوفة من‬
‫‪ n‬سطر أو شًء و ‪ p‬عمود أو حقل‪.‬‬
‫‪The objects are‬‬
‫…‪x1 = )x11,x12, ... ,x1p(,x2=(x21,x22,…,x2p),‬‬
‫حٌث ‪ xi ،xij‬تمثل األشٌاء‪ j ،‬الصفات‪.‬‬
‫كل سطر ٌقابل عنصر‪ ،‬وسنستخدم ‪ f‬كعداد‬
‫لألعمدة‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪23‬‬
‫مصفىفت االختالف ‪dissimilarity matrix‬‬
‫إن مصفوفة االختالؾ تخزن مقٌاس االختالؾ بٌن كل‬
‫شٌئٌن‪ ،‬وٌتم التعبٌر عنها بجدول ‪.n X n‬‬
‫حٌث العنصر ‪ٌ dij‬مثل االختالؾ بٌن العنصر ‪ i‬والعنصر ‪j‬‬
‫بشكل عام ‪ dij‬هو قٌمة ؼٌر سالبة‪ ،‬وتزداد كلما ازداد‬
‫االختالؾ بٌن العنصرٌن‪.‬‬
‫الحظ أن ‪ٌ dii‬ساوي الصفر‪.‬‬
‫والحظ أن المصفوفة متناظرة أي ‪dij=dji‬‬
‫نستطٌع التعبٌرعن مقٌاس التشابه كدالة لمقٌاس االختالؾ‬
‫‪sim)i, j( = 1 -d)i, j(,‬‬
‫التشابه = ‪ - 1‬االختالؾ‪ ،‬بإعتبار أن التشابه واالختالؾ بٌن الصفر والواحد‪.‬‬
‫نستطٌع تحوٌل مصفوفة البٌانات إلى مصفوفة اختالؾ كً نطبق علٌها بعض‬
‫الخوارزمٌات التً تعتمد على مصفوفة االختالؾ‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪24‬‬
‫مقاييش االختالف نهحقىل انزمزيت‬
‫‪Proximity Measures for Nominal Attributes‬‬
‫ٌمكن أن ٌأخذ الحقل الرمزي حالتٌن أو أكثر‪.‬‬ ‫•‬
‫على سبٌل المثال لون الخرٌطة ٌمكن أن ٌأخذ خمس حاالت أو خمس ألوان‪.‬‬ ‫•‬
‫‪• red, yellow, green, pink ,blue.‬‬
‫لنفترض أن الحقل الرمزي له ‪ m‬حالة أو قٌمة‪ٌ ،‬مكن أن نستخدم الحروؾ أو الرموز أو‬ ‫•‬
‫األعداد الصحٌحة للتعبٌر عن قٌم هذا الحقل‪.‬‬
‫الحظ أن األعداد الصحٌحة ُتستخدم للتعبٌر عن البٌانات‪ ،‬ولكنها ال تحمل أي ترتٌب‪.‬‬ ‫•‬
‫كٌؾ نحسب االختالؾ بٌن أشٌاء لها حقول رمزٌة؟‬ ‫•‬
‫𝑚‪𝑝−‬‬
‫= 𝑗 ‪𝑑 𝑖,‬‬ ‫التطابق‬ ‫• ٌمكن حساب االختالؾ بٌن شٌئٌن باالعتماد على نسبة عدم‬
‫𝑝‬
‫• حٌث ‪ p‬هو عدد الحقول‪ ،‬و ‪ m‬هو عدد الحقول المتشابهة‪ ،‬وبالتالً ‪ p-m‬هو عدد الحقول‬
‫المختلفة‪.‬‬
‫• ٌمكن إعطاء وزن للحقول التً لها عدد أكبر من الحاالت‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪25‬‬
‫‪Example: Dissimilarity between‬‬
‫‪nominal attributes‬‬

‫ولنحسب مصفوفة االختالؾ‬


‫بما أننا نتعامل مع حقل رمزي واحد ‪ test1‬فإننا سنعتبر أن‬
‫قٌمة مقٌاس االختالؾ تساوي الصفر إذا كان للسجلٌن نفس‬
‫قٌمة الحقل ‪ test1‬والقٌمة واحد إذا كانا مختلفٌن‪ .‬وهكذا‬
‫نحصل على المصفوفة‪:‬‬
‫من هذه المصفوفة نرى أن كل السجالت مختلفة فٌما بٌنها‬
‫باستثناء السجل األول والرابع ‪d14‬‬
‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪26‬‬
‫مثال‬
‫بالمقابل ٌمكن قٌاس التشابه بدالً عن االختالؾ كما ٌلً‪:‬‬ ‫•‬
‫‪• Sim)i, j( = 1– d)i, j( =m/p.‬‬
‫ٌمكن استخدام حقل ثنائً ؼٌر متناظر لتمثٌل كل حالة من حاالت الحقل‬ ‫•‬
‫الرمزي‪.‬‬
‫عندئذ نضع القٌمة واحد للحقل الثنائً المقابل للحالة فً الحقل الرمزي‪،‬‬ ‫•‬
‫ونضع القٌمة صفر لباقً الحقول الثنائٌة المقابلة لباقً حاالت الحقل‬
‫الرمزي‪.‬‬
‫فعلى سبٌل المثال‪ ،‬حقل لون الخرٌطة هو حقل رمزي له خمس حاالت‪،‬‬ ‫•‬
‫فإذا استبدلناه بخمسة حقول ثنائٌة كل منها ٌقابل لون من ألوان الخرٌطة‬
‫الخمسة‪ ،‬عندئذ إذا كان لون الخرٌطة أصفر فإننا نضع القٌمة واحد فً‬
‫الحقل الثنائً المقابل لللون األصفر‪ ،‬ونضع القٌمة صفر لباقً الحقول‬
‫الثنائٌة المقابلة لأللوان األربعة الباقٌة‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪27‬‬
‫مقاييش االختالف نهحقىل انثنائيت‬
‫‪Proximity Measures for Binary Attributes‬‬
‫لننظر فً مقاٌٌس االختالؾ والتشابه للحقول الثنائٌة‬ ‫•‬
‫المتناظرة وؼٌر المتناظرة‪.‬‬
‫تذكر أن الحقل الثنائً له حالتان الصفر وتعنً ؼٌاب الصفة‪،‬‬ ‫•‬
‫وواحد وتعنً وجود الصفة‪ ،‬مثال الحقل مدخن (‪.)0 ،1‬‬
‫إن معاملة الحقول الثنائٌة على أنها حقول عددٌة سٌؤدي إلى‬ ‫•‬
‫نتائج خاطئة‪ ،‬لذلك فإننا نحتاج إلى طرق خاصة للحقول‬
‫الثنائٌة‪.‬‬
‫كٌؾ نستطٌع أن نحسب االختالؾ بٌن حقلٌن ثنائٌٌن؟‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪28‬‬
‫مثال‬
‫‪ q‬هو عدد الحقول المساوٌة للواحد فً كال السجلٌن‬ ‫•‬
‫‪ r‬عدد الحقول المساوٌة للواحد فً السجل ‪ i‬والمساوٌة للصفر فً السجل ‪j‬‬ ‫•‬
‫‪ s‬عدد الحقول المساوٌة للصفر فً السجل ‪ i‬والمساوٌة للواحد فً السجل ‪j‬‬ ‫•‬
‫‪ t‬عدد الحقول المساوٌة للصفر فً كال السجلٌن‪.‬‬ ‫•‬
‫‪ p‬عدد الحقول الثناٌئة وٌساوي‬ ‫•‬
‫‪• p=q+r+s+t‬‬
‫تذكر أنه فً الحقل الثنائً المتناظر ٌكون لكال الحالتٌن الصفر والواحد نفس‬ ‫•‬
‫األهمٌة‪.‬‬
‫إن االختالؾ المبنً على الحقل الثنائً المتناظر ٌسمى مقٌاس االختالؾ‬ ‫•‬
‫الثنائً المتناظر‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪29‬‬
‫إذا كان للشٌئٌن حقول ثنائٌة متناظرة فإن االختالف ٌحسب‪.‬‬ ‫•‬
‫فً الحقول الثنائٌة غٌر المتناظرة ال تتساوى أهمٌة الواحد والصفر‪ ،‬فمثالً إذا كان الحقل الثنائً ٌمثل نتٌجة‬ ‫•‬
‫تحلٌل مرض‪ ،‬فإن الواحد أو النتٌجة اإلٌجابٌة أهم من الصفر الذي ٌمثل النتٌجة السلبٌة‪.‬‬
‫إذا كان لدٌنا حقلٌن ثنائٌٌن غٌر متناظرٌن‪ ،‬فأن تساوي الحقلٌن بالقٌمة واحد أهم من تساوٌهما بالقٌمة صفر‪.‬‬ ‫•‬
‫لذلك تعتبر مثل هذه الحقول الثنائٌة وحٌدة الحالة‪ ،‬بمعنى أنه عند حساب مصفوفة االختالف نتجاهل وجودها‬ ‫•‬
‫إذا كانت قٌمتها صفر‪ ،‬وندخلها فً الحساب إذا كانت قٌمتها واحد‪.‬‬
‫إن مقٌاس االختالف المبنً على الحقول الثنائٌة غٌر المتناظرة ٌسمى مقٌاس االختالف الثنائً غٌر المتناظر‪.‬‬ ‫•‬
‫)‪d(i,j)=(r+s)/(q+r+s+t‬‬
‫وعندها نتجاهل عدد حاالت التشابه السلبً ‪ t‬وٌصبح حساب مقٌاس االختالف كما‬ ‫•‬
‫ٌلً‪d(i,j)=(r+s)/(q+r+s):‬‬
‫بالمقابل ٌمكن حساب مقٌاس التشابه للحقول الثنائٌة غٌر المتناظرة كما ٌلً‪:‬‬ ‫•‬
‫‪• sim(i,j)= q/(q+r+s)=1-d(I,j).‬‬
‫وٌسمى مقٌاس التشابه السابق "معامل جاكارد"‪.‬‬ ‫•‬
‫عندما ٌكون لدٌنا حقول ثنائٌة متناظرة وأخرى غٌر متناظرة فإننا نستخدم الطرٌقة أخرى‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪30‬‬
‫مثال‪ :‬قياس االختالف بين انحقىل انثنائيت‬
‫• لنفترض أنه لدٌنا جدول سجالت المرضى الذي ٌحوي اسم‬
‫المرٌض‪ ،‬والجنس وهو حقل ثنائً متناظر‪ ،‬والحرارة‬
‫والسعال والتحلٌل‪ ... 1‬والتحلٌل‪ 4‬وهً حقول ثنائٌة ؼٌر‬
‫متناظرة‪.‬‬
‫• لنفترض من أجل الحقول الثنائٌة ؼٌر المتناظرة أن القٌمة‬
‫واحد تقابل نعم أو إٌجابً‪ ،‬والقٌمة صفر تقابل ال أو سلبً‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪31‬‬
‫• لنحسب المسافة أو االختالؾ بٌن سجالت المرضى باالعتماد‬
‫على الحقول ؼٌر المتناظرة‪ ،‬بحسب المعادلة‬
‫)‪ d(i,j)=(r+s)/(q+r+s‬فإن المسافة بٌن المرضى الثالثة‬
‫هً‪:‬‬
‫• تظهر هذه القٌاسات أنه من ؼٌر المحتمل‬
‫أن ٌكون لدى جٌم ومٌري نفس المرض‬
‫بسبب االختالؾ الكبٌر بٌنهما‪ .‬بٌنما‬
‫هناك احتمال كبٌر أن ٌكون لدى جاك ومٌري نفس المرض‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪32‬‬
‫‪Dissimilarity of Numeric Data:‬‬
‫‪Minkowski Distance‬‬
‫سنشرح فً هذه الفقرة مقاٌٌس المسافة المستخدمة فً قٌاس االختالؾ بٌن العناصر ذات الحقول‬ ‫•‬
‫العددٌة‪.‬‬
‫هذه المقاٌٌس تتضمن المسافة اإلقلٌدٌة‪ ،‬ومسافة منهاتن ‪ ،Manhattan‬ومسافة مٌنكوسكً‬ ‫•‬
‫‪.Minkowski‬‬
‫نقوم فً بعض الحاالت بتنظٌم الحقول العددٌة قبل أن نحسب المسافة بٌن العناصر‪.‬‬ ‫•‬
‫وهذا ٌعنً تحوٌل جمٌع الحقول العددٌة إلى نفس المجال‪ ،‬على سبٌل المثال‪ٌ ،‬مكن تمثٌل حقل‬ ‫•‬
‫الطول بالمتر أو السنتمتر‪ .‬وبشكل عام‪ ،‬إن استخدام وحدات قٌاس أصؽر ٌؤدي إلى اتساع مجال‬
‫القٌم المخزنة فً الحقل‪ ،‬وهذا ٌعطً الحقل وزنا ً أكبر (تأثٌر أكبر) فً الحسابات‪.‬‬
‫ٌهدؾ تنظٌم البٌانات (التحوٌل إلى نفس المجال) إلى إعطاء كل الحقول نفس الوزن‪.‬‬ ‫•‬
‫وهذا التنظٌم قد ٌكون مفٌداً فً بعض التطبٌقات‪ ،‬وؼٌر مجدي فً تطبٌقات أخرى‪.‬‬ ‫•‬
‫سنناقش طرق تنظٌم البٌانات فً الفصل الثالث – المحاضرة القادمة‪.‬‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪33‬‬
‫• إن أكثر مقاٌٌس المسافة شٌوعا ً هً المسافة اإلقلٌدٌة أو الخط المستقٌم (كما‬
‫تطٌر الطائرة)‪.‬‬
‫• لنفترض أنه لدٌنا العنصران ‪ i and j‬الموصوفان ب ‪ p‬حقالً عددٌا ً‪.‬‬
‫(‪• i = )xi1, xi2, ... , xip( and j = )xj1, xj2, ... , xjp‬‬
‫• عندئ ٍذ نحسب المسافة اإلقلٌدٌة بٌن العنصرٌن كما ٌلً‪:‬‬
‫‪2‬‬
‫= 𝑗 ‪• 𝑑 𝑖,‬‬ ‫‪(𝑥𝑖1 −‬‬ ‫‪𝑥𝑗1 )2 +(𝑥𝑖2‬‬ ‫‪− 𝑥𝑗2‬‬ ‫‪)2 + ⋯ +‬‬ ‫𝑃𝑗𝑥 ‪𝑥𝑖𝑃 −‬‬
‫• من مقاٌٌس المسافة المعروفة األخرى مسافة منهاتن أو طرق المدٌنة‪ .‬فً‬
‫المدن الحدٌثة ٌتم شق الطرق بحٌث ُتقسم المدٌنة إلى شبكة مربعات‪ ،‬وكل‬
‫مربع ٌُسمى بلوك‪ ،‬عندئ ِذ المسافة بٌن نقطتٌن هً عدد البلوكات على المحور‬
‫األفقً زائد عدد البلوكات على المحور الشاقولً‪ ،‬أو بشكل عام المسافة بٌن‬
‫عنصرٌن هً‪𝑑 𝑖, 𝑗 = 𝑥𝑖1 − 𝑥𝑗1 + 𝑥𝑖2 − 𝑥𝑗2 +…+ 𝑥𝑖𝑝 − 𝑥𝑗𝑝 :‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪34‬‬
‫إن مسافة إقلٌدس‪ ،‬ومسافة منهاتن تحققان الخصائص التالٌة‪:‬‬ ‫•‬
‫ـ المسافة مقدار موجب‪. d(I,j) >= 0‬‬ ‫•‬
‫ـ المسافة بٌن العنصر ونفسه مساوٌة للصفر‪. d(i,i)=0‬‬ ‫•‬
‫ـ المسافة متناظرة‪ ،‬أي )‪d(i,j)=d(j,i‬‬ ‫•‬
‫ـ متراجحة المثلث‬ ‫•‬
‫)‪• d(i,j)<=d(i,k) + d(k,j‬‬
‫أي الطرٌق المباشر بٌن نقطتٌن أقصر أو ٌساوي الطرٌق‬ ‫•‬
‫ؼٌر المباشر بٌنهما‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪35‬‬
‫• مسافة مٌنكوسكً هً تعمٌم لمسافة إقلٌدس‪ ،‬ومسافة منهاتن‪.‬‬
‫• مسافة الفرق األعظم‪ :‬لحساب هذه المسافة نبحث عن الحقل‬
‫الذي ٌعطً أكبر فرق بٌن العنصرٌن‪.‬‬
‫• الطرق المختلفة لحساب المسافة بٌن عنصرٌن‪.‬‬
‫‪ℎ‬‬ ‫‪ℎ‬‬ ‫‪ℎ‬‬ ‫‪ℎ‬‬
‫= 𝑗 ‪• 𝑑 𝑖,‬‬ ‫‪𝑥𝑖1 − 𝑥𝑗1‬‬ ‫‪+ 𝑥𝑖2 − 𝑥𝑗2‬‬ ‫𝑝𝑗𝑥 ‪+ ⋯ + 𝑥𝑖𝑝 −‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪36‬‬
‫مثال‬

7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 37


‫مقاييش االختالف نهحقىل انمزتبت‬
‫‪Proximity Measures for Ordinal Attributes‬‬
‫ٌوجد معنى لترتٌب القٌم فً الحقول المرتبة‬ ‫•‬
‫ومثال على ذلك هو التسلسل (صؽٌر‪ ،‬وسط‪ ،‬كبٌر) لحقل الحجم‪.‬‬ ‫•‬
‫كذلك ٌمكن الحصول على قٌم مرتبة من قٌم عددٌة‪ ،‬وذلك بتقسٌم القٌم‬ ‫•‬
‫العددٌة إلى فئات أو مجاالت‪.‬‬
‫مثالً ٌمكن تقسٌم درجة الحرارة إلى ثالثة فئات‪:‬‬ ‫•‬
‫بارد إذا كان أقل من ‪15‬‬ ‫•‬
‫معتدل من ‪ 16‬إلى ‪25‬‬ ‫•‬
‫حار إذا كان أكبر من ‪26‬‬ ‫•‬
‫لنعتبر أن ‪ m‬هو عدد الحاالت التً ٌمكن أن ٌأخذها حقل مرتب‪.‬‬ ‫•‬
‫هذه الحاالت المرتبة تقابل الترتٌب من واحد إلى ‪mf‬‬ ‫•‬
‫حٌث ‪ٌ f‬مثل رقم الحقل‬ ‫•‬
‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪38‬‬
‫كيف نتعامم مع انحقىل انمزتبت؟‬
‫إن الحقول المرتبة تعامل بشكل مشابه تماما ً للحقول العددٌة عندما نرٌد‬ ‫•‬
‫أن نحسب االختالؾ بٌن عنصرٌن‪.‬‬
‫بفرض أنه لدٌنا ‪ n‬عنصر‪ ،‬وأن الحقل ‪ f‬هو أحد الحقول المرتبة التً‬ ‫•‬
‫تصؾ هذه العناصر‪.‬إن حساب االختالؾ بٌن العناصر بالنسبة للحقل ‪f‬‬
‫ٌتم وفق الخطوات التالٌة‪:‬‬
‫‪1‬ـ إن قٌم الحقل ‪ f‬للعنصر ‪ i‬هو ‪Xif‬‬ ‫•‬
‫وحٌث أن لهذا الحقل ‪mf‬حالة‪ ،‬فإننا نستبدل قٌم الحقل برقم الحالة‪.‬‬ ‫•‬
‫‪ 2‬ـ بما أن لكل حقل مرتب عدد من الحاالت قد ٌختلؾ عن عدد حاالت‬ ‫•‬
‫الحقول األخرى‪ ،‬لذلك فإننا نقابل كل حالة بقٌمة بٌن الصفر والواحد‪.‬‬
‫‪• 0/m-1, 1/m-1, …. m-1/m-1‬‬
‫‪ 3‬ـ نحسب الختالؾ باستخدام إحدى مقاٌٌس المسافة المعرفة سابقا ً‪.‬‬ ‫•‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪39‬‬
‫مثال‪ :‬حضاب االختالف بين انحقىل انمزتبت‬
‫لنأخذ البٌانات المذكورة سابقا ً فً الجدول ‪2.2‬‬ ‫•‬
‫سنأخذ حقل تعرٌؾ العنصر‪ ،‬والحقل المرتب ‪test2‬‬ ‫•‬
‫هناك ثالثة حاالت للحقل ‪ test2‬وهً مقبول‪ ،‬وجٌد‪ ،‬وممتاز‪.‬‬ ‫•‬
‫من أجل الخطوة األولى سنضع ترتٌب قٌمة الحقل بدالً من‬ ‫•‬
‫الحالة‪ ،‬وعندها سنحصل على القٌم ‪...‬‬
‫الخطوة الثانٌة‪ :‬تنطٌم الترتٌب بمقابلة الحالة األولى بالقٌمة ‪0.0‬‬ ‫•‬
‫والحالة الثانٌة بالقٌمة ‪ 0.5‬والحالة الثالٌة بالقٌمة‪1.0‬‬
‫الخطوة الثالثة‪ :‬سنستخدم مسافة إقلٌدي ‪ ،‬وسنحصل على‬ ‫•‬
‫مصفوفة الختالؾ التالٌة‪ :‬لذلك فإن العنصرٌن ‪ 1‬و ‪ 2‬هما األكثر‬
‫اختالفا ً‪.‬‬

‫‪7 November 2012‬‬ ‫‪Data Mining - Mohsen A Mustafa - Winter 2012‬‬ ‫‪40‬‬
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 41

You might also like