Professional Documents
Culture Documents
DM05
DM05
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 2
صنناقش عدة طزق نتمثيم انبياناث ،وهذا يتضمن
التقنٌات الموجهة للبكسل pixel-oriented techniques •
تقنٌات اإلسقاط الهندسً geometric projection •
techniques
التقنٌات المبنٌة على اإلٌقونات icon-based techniques •
التقنٌات المبنٌة على المخططات والبناء الهرمً •
hierarchical and graph-based techniques
ثم سنناقش إبصار البٌانات المقعدة ،والعالقات بٌنها. •
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 3
تقنٌات رؤٌة الموجه بكسل
Pixel-Oriented Visualization Techniques
• إن تمثٌل البٌانات ممكن أن ٌكون وفق محورٌن X, Yلكن من
الصعب تمثٌل الرسم أكثر من ثالثة ابعاد فٌمكن أن نضع
لون للبكسل ،حٌث كل لون ٌمثل بعد جدٌد ،أو ٌمكن أن نضع
نوافذ عدٌدة على الشاشة وفق عدد األبعاد التً نرٌدها
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 4
مثال تقنيت رؤيت انمىجه بكضم
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 6
الرؤٌة التقنٌة لإلسقاط الهندسً
Geometric Projection Visualization Techniques
• من عٌوب تقنٌات رؤٌة البكسل هو أنه ال ٌمكن أن ٌساعدنا
كثٌرا فً فهم توزٌع البٌانات فً الفراغ.
• التحدي األساسً لتقنٌات اإلسقاط الهندسً كٌفٌة معالجته
لرؤٌة الفراغ عالً األبعاد على شاشة فً البعد 2-D.
وٌمكن استخدم ثالثة محاور فً نظام إحداثٌات الدٌكارتٌة
3-Dوإذا اضٌؾ اللونٌ ،مكن عرض ما ٌصل إلى .4-D
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 7
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 8
• مجموعات البٌانات مع أكثر من
أربعة أبعاد ،عادة ما تكون ؼٌر
فعالة ،تقنٌة المصفوفة توفر
الرؤٌة لكل بعد مع البعد اآلخر.
• ٌظهر المثال ،رؤٌة مجموعة من
البٌانات مؤلفة من 450عٌنة من
كل ثالثة أنواع من الزهور .
هناك خمسة أبعاد فً مجموعة
البٌانات :طول وعرض البتلة
واألنواع أخرى.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 9
• وٌمثل سجل البٌانات بواسطة خط مضلع على أن ٌتقاطع كل
محور عند النقطة المقابلة لقٌمة البعد المرتبطة بها
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 10
تقنٌات رؤٌة الرموز األصاصيت
Icon-Based Visualization Techniques
• تقنٌات رؤٌة الرموز باستخدام أٌقونات صؽٌرة لتمثٌل متعدد األبعاد لقٌم
البٌانات .تم إدخال وجوه تشٌرنوؾ فً عام 1973من قبل اإلحصائً
هٌرمان تشٌرنوؾ .ألنها تظهر البٌانات إلى 18بعد (متؽٌرات) ،من
خالل الوجه ،تشٌرنوؾ ٌساعد فً الكشؾ ومقارنة البٌانات.
• مكونات الوجه مثل العٌنٌن واألذنٌن والفم ،واألنؾ ،وتمثل قٌم األبعاد
بواسطتهم ،الشكل والحجم ،والموضع ،واالتجاه .على سبٌل المثالٌ ،مكن
تعٌٌن أبعاد للوجه :حجم العٌن ،وتباعد العٌنٌن ،وطول األنؾ ،وعرض
األنؾ وانحناء الفم ،عرض الفم ،وانفتاح الفم ،حجم البؤبؤ ،مٌل الحاجب،
انحراؾ العٌن ،ونمط االنحراؾ.
• وجوه تشٌرنوؾ تمكن من استفادة مقدرة العقل البشري على التعرؾ على
االختالفات الصؽٌرة فً الوجه واستٌعاب خصائص كثٌرة فً آن واحد.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 11
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 12
تقنٌات الرؤٌة الهرمٌة
Hierarchical Visualization Techniques
• تقنٌات الرؤٌة والتركٌز لألبعاد المتعددة فً وقت واحد.
لمجموعة من البٌانات الكبٌرة األبعاد ،سٌكون من الصعب
رؤٌة جمٌع األبعاد فً نفس الوقت.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 14
رؤٌة البٌانات المعقدة والعالقات
Visualizing Complex Data and Relations
• فً األٌام األولى ،كانت أساسا لتقنٌات رؤٌة البٌانات الرقمٌة.
لكن فً الفترة األخٌرة أصبحت مستخدمة على بٌانات ؼٌر
رقمٌة ،مثل النص والشبكات االجتماعٌة ،رؤٌة وتحلٌل هذه
البٌانات تجذب الكثٌر من االهتمام.
هناك العدٌد من تقنٌات الرؤٌة الجدٌدة مخصصة لهذا النوع
من البٌانات .على مختلؾ كائنات الوٌب مثل الصور ،مقاالت،
مدونات.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 15
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 16
خالصة
• الرؤٌة توفر أدوات فعالة لفهم البٌانات .أدخلنا عدة أسالٌب
وأفكار أساسٌةٌ ،مكن استخدام الرؤٌة فً تنقٌب البٌانات فً
مختلؾ الجوانب.
• باإلضافة إلى رؤٌة البٌاناتٌ ،مكن متابعة عملٌة تنقٌب
البٌانات ،وأنماط الحصول علٌها من طرٌقة التعدٌن ،وتفاعل
المستخدم مع البٌانات.
• هذا الحقل مازال مفتوح للبحث.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 17
قياس تشابه انبياناث واختالفها
Measuring Data Similarity and Dissimilarity
• فً تطبٌقات سبر البٌانات ،عل سبٌل المثال ،التجمٌع
clusteringوتحلٌل النقاط الشاذة والتصنٌؾ المسمى أقرب
جار nearest-neighbor classificationنحتاج إلى طرٌقة
لمقارنة العناصر ،وتحدٌد درجة التشابه واالختالؾ بٌنها.
• على سبٌل المثالٌ ،رؼب أحد المخازن فً سبر بٌانات الزبائن
وتقسٌمهم إلى مجموعات ،بحٌث أن الزبائن فً كل مجموعة لهم
صفات مشتركة ،مثالً ،نفس الدخل ،أو منطقة السكن ،أو العمر.
• مثل هذه المعلومات ٌمكن أن ُتستخدم الحقا ً فً التسوٌق.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 18
• clusterهو مجموعة من العناصر المتشابهة فٌما بٌنها،
والمختلفة عن العناصر المجودة فً أي clusterآخر.
• ٌستخدم تحلٌل النقاط الشاذة تقنٌات مبنٌة على التجمٌع
clusteringللتعرؾ على القٌم الشاذة ،والتً تختلؾ كثٌراً
عن باقً قٌم البٌانات.
• إن معرفة التشابه بٌن العناصر ٌفٌد فً خوارزمٌة التصنٌؾ
المسماة أقرب جار ،فمثالً تشابه سجل مرٌض مع سجل
مرٌض آخر من حٌث نتائج الفحوصات ٌعنً أن المرٌضٌن
ٌعانٌان من نفس المرض.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 19
مقاييش انتشابه واالختالف
ٌعرض هذه المقطع مقاٌٌس التشابه واالختالؾ والتً ٌُشار •
إلٌها بمقٌاس الجوار «بروكسمٌتً» .proximity
التشابه واالختالؾ مرتبطان ببعضهما. •
مقٌاس التشابه بٌن شٌئٌن ٌعطً القٌمة صفر إذا كان الشٌئان •
ؼٌر متشابهٌن تماماً ،وتزداد القٌمة كلما إزداد التشابه بٌنهما،
أما القٌمة واحد فتعنً أن الشٌئٌن متشابهان تماما ً.
إن مقٌاس االختالؾ ٌعمل بشكل معاكس لمقٌاس التشابه .أي •
أن القٌمة صفر تعنً عدم وجود أي اختالؾ ،وكلما ازداد
االختالؾ ازدادت قٌمة المقٌاس.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 20
مقارنت مصفىفت انبياناث ومصفىفت االختالف
Data Matrix versus Dissimilarity Matrix
• فً المحاضرة السابقة درسنا مقاٌٌس النزعة المركزٌة
والتشتت لمتؽٌر واحد.
• فً هذا المقطع سنتحدث عن أشٌاء متعددة الحقول ،لذلك
سنحتاج إلى تؽٌٌر طرٌقة الترمٌز.
• لنفترض أنه لدٌنا nشًء ،ولكل شًء pصفة أو قٌاس أو
حقل بٌانات.
• إن الخوارزمٌتٌن تستخدمان إحدى هٌكلً البٌانات التالٌة:
إما مصفوفة البٌانات أومصفوفة االختالؾ.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 22
مصفىفت انبياناث Data Matrix
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 23
مصفىفت االختالف dissimilarity matrix
إن مصفوفة االختالؾ تخزن مقٌاس االختالؾ بٌن كل
شٌئٌن ،وٌتم التعبٌر عنها بجدول .n X n
حٌث العنصر ٌ dijمثل االختالؾ بٌن العنصر iوالعنصر j
بشكل عام dijهو قٌمة ؼٌر سالبة ،وتزداد كلما ازداد
االختالؾ بٌن العنصرٌن.
الحظ أن ٌ diiساوي الصفر.
والحظ أن المصفوفة متناظرة أي dij=dji
نستطٌع التعبٌرعن مقٌاس التشابه كدالة لمقٌاس االختالؾ
sim)i, j( = 1 -d)i, j(,
التشابه = - 1االختالؾ ،بإعتبار أن التشابه واالختالؾ بٌن الصفر والواحد.
نستطٌع تحوٌل مصفوفة البٌانات إلى مصفوفة اختالؾ كً نطبق علٌها بعض
الخوارزمٌات التً تعتمد على مصفوفة االختالؾ.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 24
مقاييش االختالف نهحقىل انزمزيت
Proximity Measures for Nominal Attributes
ٌمكن أن ٌأخذ الحقل الرمزي حالتٌن أو أكثر. •
على سبٌل المثال لون الخرٌطة ٌمكن أن ٌأخذ خمس حاالت أو خمس ألوان. •
• red, yellow, green, pink ,blue.
لنفترض أن الحقل الرمزي له mحالة أو قٌمةٌ ،مكن أن نستخدم الحروؾ أو الرموز أو •
األعداد الصحٌحة للتعبٌر عن قٌم هذا الحقل.
الحظ أن األعداد الصحٌحة ُتستخدم للتعبٌر عن البٌانات ،ولكنها ال تحمل أي ترتٌب. •
كٌؾ نحسب االختالؾ بٌن أشٌاء لها حقول رمزٌة؟ •
𝑚𝑝−
= 𝑗 𝑑 𝑖, التطابق • ٌمكن حساب االختالؾ بٌن شٌئٌن باالعتماد على نسبة عدم
𝑝
• حٌث pهو عدد الحقول ،و mهو عدد الحقول المتشابهة ،وبالتالً p-mهو عدد الحقول
المختلفة.
• ٌمكن إعطاء وزن للحقول التً لها عدد أكبر من الحاالت
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 25
Example: Dissimilarity between
nominal attributes
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 27
مقاييش االختالف نهحقىل انثنائيت
Proximity Measures for Binary Attributes
لننظر فً مقاٌٌس االختالؾ والتشابه للحقول الثنائٌة •
المتناظرة وؼٌر المتناظرة.
تذكر أن الحقل الثنائً له حالتان الصفر وتعنً ؼٌاب الصفة، •
وواحد وتعنً وجود الصفة ،مثال الحقل مدخن (.)0 ،1
إن معاملة الحقول الثنائٌة على أنها حقول عددٌة سٌؤدي إلى •
نتائج خاطئة ،لذلك فإننا نحتاج إلى طرق خاصة للحقول
الثنائٌة.
كٌؾ نستطٌع أن نحسب االختالؾ بٌن حقلٌن ثنائٌٌن؟ •
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 28
مثال
qهو عدد الحقول المساوٌة للواحد فً كال السجلٌن •
rعدد الحقول المساوٌة للواحد فً السجل iوالمساوٌة للصفر فً السجل j •
sعدد الحقول المساوٌة للصفر فً السجل iوالمساوٌة للواحد فً السجل j •
tعدد الحقول المساوٌة للصفر فً كال السجلٌن. •
pعدد الحقول الثناٌئة وٌساوي •
• p=q+r+s+t
تذكر أنه فً الحقل الثنائً المتناظر ٌكون لكال الحالتٌن الصفر والواحد نفس •
األهمٌة.
إن االختالؾ المبنً على الحقل الثنائً المتناظر ٌسمى مقٌاس االختالؾ •
الثنائً المتناظر.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 29
إذا كان للشٌئٌن حقول ثنائٌة متناظرة فإن االختالف ٌحسب. •
فً الحقول الثنائٌة غٌر المتناظرة ال تتساوى أهمٌة الواحد والصفر ،فمثالً إذا كان الحقل الثنائً ٌمثل نتٌجة •
تحلٌل مرض ،فإن الواحد أو النتٌجة اإلٌجابٌة أهم من الصفر الذي ٌمثل النتٌجة السلبٌة.
إذا كان لدٌنا حقلٌن ثنائٌٌن غٌر متناظرٌن ،فأن تساوي الحقلٌن بالقٌمة واحد أهم من تساوٌهما بالقٌمة صفر. •
لذلك تعتبر مثل هذه الحقول الثنائٌة وحٌدة الحالة ،بمعنى أنه عند حساب مصفوفة االختالف نتجاهل وجودها •
إذا كانت قٌمتها صفر ،وندخلها فً الحساب إذا كانت قٌمتها واحد.
إن مقٌاس االختالف المبنً على الحقول الثنائٌة غٌر المتناظرة ٌسمى مقٌاس االختالف الثنائً غٌر المتناظر. •
)d(i,j)=(r+s)/(q+r+s+t
وعندها نتجاهل عدد حاالت التشابه السلبً tوٌصبح حساب مقٌاس االختالف كما •
ٌلًd(i,j)=(r+s)/(q+r+s):
بالمقابل ٌمكن حساب مقٌاس التشابه للحقول الثنائٌة غٌر المتناظرة كما ٌلً: •
• sim(i,j)= q/(q+r+s)=1-d(I,j).
وٌسمى مقٌاس التشابه السابق "معامل جاكارد". •
عندما ٌكون لدٌنا حقول ثنائٌة متناظرة وأخرى غٌر متناظرة فإننا نستخدم الطرٌقة أخرى •
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 30
مثال :قياس االختالف بين انحقىل انثنائيت
• لنفترض أنه لدٌنا جدول سجالت المرضى الذي ٌحوي اسم
المرٌض ،والجنس وهو حقل ثنائً متناظر ،والحرارة
والسعال والتحلٌل ... 1والتحلٌل 4وهً حقول ثنائٌة ؼٌر
متناظرة.
• لنفترض من أجل الحقول الثنائٌة ؼٌر المتناظرة أن القٌمة
واحد تقابل نعم أو إٌجابً ،والقٌمة صفر تقابل ال أو سلبً.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 31
• لنحسب المسافة أو االختالؾ بٌن سجالت المرضى باالعتماد
على الحقول ؼٌر المتناظرة ،بحسب المعادلة
) d(i,j)=(r+s)/(q+r+sفإن المسافة بٌن المرضى الثالثة
هً:
• تظهر هذه القٌاسات أنه من ؼٌر المحتمل
أن ٌكون لدى جٌم ومٌري نفس المرض
بسبب االختالؾ الكبٌر بٌنهما .بٌنما
هناك احتمال كبٌر أن ٌكون لدى جاك ومٌري نفس المرض.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 32
Dissimilarity of Numeric Data:
Minkowski Distance
سنشرح فً هذه الفقرة مقاٌٌس المسافة المستخدمة فً قٌاس االختالؾ بٌن العناصر ذات الحقول •
العددٌة.
هذه المقاٌٌس تتضمن المسافة اإلقلٌدٌة ،ومسافة منهاتن ،Manhattanومسافة مٌنكوسكً •
.Minkowski
نقوم فً بعض الحاالت بتنظٌم الحقول العددٌة قبل أن نحسب المسافة بٌن العناصر. •
وهذا ٌعنً تحوٌل جمٌع الحقول العددٌة إلى نفس المجال ،على سبٌل المثالٌ ،مكن تمثٌل حقل •
الطول بالمتر أو السنتمتر .وبشكل عام ،إن استخدام وحدات قٌاس أصؽر ٌؤدي إلى اتساع مجال
القٌم المخزنة فً الحقل ،وهذا ٌعطً الحقل وزنا ً أكبر (تأثٌر أكبر) فً الحسابات.
ٌهدؾ تنظٌم البٌانات (التحوٌل إلى نفس المجال) إلى إعطاء كل الحقول نفس الوزن. •
وهذا التنظٌم قد ٌكون مفٌداً فً بعض التطبٌقات ،وؼٌر مجدي فً تطبٌقات أخرى. •
سنناقش طرق تنظٌم البٌانات فً الفصل الثالث – المحاضرة القادمة. •
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 33
• إن أكثر مقاٌٌس المسافة شٌوعا ً هً المسافة اإلقلٌدٌة أو الخط المستقٌم (كما
تطٌر الطائرة).
• لنفترض أنه لدٌنا العنصران i and jالموصوفان ب pحقالً عددٌا ً.
(• i = )xi1, xi2, ... , xip( and j = )xj1, xj2, ... , xjp
• عندئ ٍذ نحسب المسافة اإلقلٌدٌة بٌن العنصرٌن كما ٌلً:
2
= 𝑗 • 𝑑 𝑖, (𝑥𝑖1 − 𝑥𝑗1 )2 +(𝑥𝑖2 − 𝑥𝑗2 )2 + ⋯ + 𝑃𝑗𝑥 𝑥𝑖𝑃 −
• من مقاٌٌس المسافة المعروفة األخرى مسافة منهاتن أو طرق المدٌنة .فً
المدن الحدٌثة ٌتم شق الطرق بحٌث ُتقسم المدٌنة إلى شبكة مربعات ،وكل
مربع ٌُسمى بلوك ،عندئ ِذ المسافة بٌن نقطتٌن هً عدد البلوكات على المحور
األفقً زائد عدد البلوكات على المحور الشاقولً ،أو بشكل عام المسافة بٌن
عنصرٌن هً𝑑 𝑖, 𝑗 = 𝑥𝑖1 − 𝑥𝑗1 + 𝑥𝑖2 − 𝑥𝑗2 +…+ 𝑥𝑖𝑝 − 𝑥𝑗𝑝 :
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 34
إن مسافة إقلٌدس ،ومسافة منهاتن تحققان الخصائص التالٌة: •
ـ المسافة مقدار موجب. d(I,j) >= 0 •
ـ المسافة بٌن العنصر ونفسه مساوٌة للصفر. d(i,i)=0 •
ـ المسافة متناظرة ،أي )d(i,j)=d(j,i •
ـ متراجحة المثلث •
)• d(i,j)<=d(i,k) + d(k,j
أي الطرٌق المباشر بٌن نقطتٌن أقصر أو ٌساوي الطرٌق •
ؼٌر المباشر بٌنهما.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 35
• مسافة مٌنكوسكً هً تعمٌم لمسافة إقلٌدس ،ومسافة منهاتن.
• مسافة الفرق األعظم :لحساب هذه المسافة نبحث عن الحقل
الذي ٌعطً أكبر فرق بٌن العنصرٌن.
• الطرق المختلفة لحساب المسافة بٌن عنصرٌن.
ℎ ℎ ℎ ℎ
= 𝑗 • 𝑑 𝑖, 𝑥𝑖1 − 𝑥𝑗1 + 𝑥𝑖2 − 𝑥𝑗2 𝑝𝑗𝑥 + ⋯ + 𝑥𝑖𝑝 −
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 36
مثال
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 39
مثال :حضاب االختالف بين انحقىل انمزتبت
لنأخذ البٌانات المذكورة سابقا ً فً الجدول 2.2 •
سنأخذ حقل تعرٌؾ العنصر ،والحقل المرتب test2 •
هناك ثالثة حاالت للحقل test2وهً مقبول ،وجٌد ،وممتاز. •
من أجل الخطوة األولى سنضع ترتٌب قٌمة الحقل بدالً من •
الحالة ،وعندها سنحصل على القٌم ...
الخطوة الثانٌة :تنطٌم الترتٌب بمقابلة الحالة األولى بالقٌمة 0.0 •
والحالة الثانٌة بالقٌمة 0.5والحالة الثالٌة بالقٌمة1.0
الخطوة الثالثة :سنستخدم مسافة إقلٌدي ،وسنحصل على •
مصفوفة الختالؾ التالٌة :لذلك فإن العنصرٌن 1و 2هما األكثر
اختالفا ً.
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 40
7 November 2012 Data Mining - Mohsen A Mustafa - Winter 2012 41