Professional Documents
Culture Documents
ق
Weighted E after split
ق
71
سقذاضق:ق ق إظلا قذ ق
72
آل قي ك اقتاذةقتياءاتق لمفقyق:ق ق
73
ق ذاق أل ق نقX_trainset,y_trainsetقت سق هعا ق ك ة عاق ن غقذ قتك قذ
نقX_testset,y_testsetق ق .ق ذ
ء مذقتإءكاحقء يجق ت نيفقذ قءوعقشكالق قا قتإنشا قذ بككدقذ ق ك وق ق :ق
74
ق:ق ق آل قءكايق ت
ق
يجق ق :ق ق ء ا ق آل ق
75
ق
76
المنطق : Logistic Regression
ي -12التوقع
ق اتخموق ق ت نيفق با تا ق م اقث ث قذ ئل ق ق :ق قع ق وعقذ ق ت
قق؟ -ذاقع ق ت ق
-ذ ق اتخموق؟
-ذاقءوعق شاك ق نقء تاألمق لاق؟
تعتةقع هق رلق ق ق ت نيفقإ ائي ق قت نيفق اك تقrecordsق قذك ج ق ياءاتق
ها جت ا قج ق يكق ق قfieldsق.ق ق
Logistic regression is a classification algorithm for categorical variables.
ه اض ق م اقتياءات ق ك ق ت ا ت ق ءرلمقت ليللاق ة قع ق ي قق ق شةك قها خمذ قذو ق ق
ايق؟ ق
tenق id ageق incomeق addق churnق equipق employق edق
11.0ق 0ق 33ق 136.8ق 7ق 4ق yق yesق 0ق
1ق 4ق 55ق 234.6ق 4ق .ق .ق .ق noق
2ق .ق .ق .ق .ق .ق .ق yesق .ق
3ق .ق .ق .ق .ق .ق .ق yesق 3ق
4 7ق 35ق .ق .ق 8ق nق 4ق ?ق
77
ع اقتك ق تهة تق هةقذاتقل قذات القcontinuousق ب ا ق اءدق ي قcategorialق
ن غ قذ قء لا ق قيك قذات ال قج قةرل قتاذةعا ق indicator-codedقذ قءعتةعا ق ع ي ق
dummyقق .ق
قجملق ا تقذ ق:ق ق ا قذ ق تعم ق ق ق ت نيفق اتخموقع ق وعقذ ق ت
ت ق ق ت ا ي قذ قي الق شخصقت وب ق ل ي قheart-attackقذ قجمذلاقق -
=ق=ق=ق=ققذ تقذرلضقذ القه اضقجضا قذ قجمذمقق. -
=ق=ق=ق=قإ اه قذرلضقها اكايق.diabetesق -
=ق=ق=ق=قذ ق شةيق زب قذ ت قذاق.ق -
=ق=ق=ق=ق ش قذ ت قذاقذ قءكا مق.ق -
ق ت ا ي ق م ثلقاق .ق قت فق تائ ق قإء اقك ق يسق قطقي ظقذ قع ق وعقذ ق ت ء
قق م اقذ ب د ق ا تق:ق ق ق إي ق تخليصق ا تق تخم وق ت
-1ج مذاقيك ق ت نيفقث ا ق(0قذ ق)1قbinary data
-2ج مذقاقءرلمق االق ت ا ي ق وعق مثقذاقذ ق ت ا ي ق تن قهقي قذاق probabilistic
ق كا ق] [0,1ق ك ج ق يج ق ي ق ت ا ي ق resultsقج معا قيعيم ق ا ق
قذ افقذقا قت ا قج ق ج اتقذ ق ياءاتقثكق تكقتشكي ق ا تق ت قي ق
يجق.ق ت ا ي ق نقذ ألمعاق
-3إي ق اءد ق ياءات ق اهل ق لتقايك قبش قش م ق ط قlinear decision boundaryق
قع قذاتقيك ق lineقذ قذات ي ق planeقذي ق linearly يث قيك ق قا ق ا
separableق ل ك قذ قتك قت جقhyper-planeق.ق
ذ ق م اقذك ج قءقاطق لاق ا يتي ق ق تكقت يللاقهك ةق م ق اقك اقء للاق ق
قج قذة أل قذ ق ش ق ق :ق ت ق خطقج معاقي ك اق
𝑒𝑙𝑏𝑎𝑡𝑜𝑙𝑝 𝑦𝑙𝑖𝑠𝑎𝑒 → 𝑒𝑛𝑎𝑙𝑝 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 > 0 ≡ ℎ𝑎𝑙𝑓 −
ق قإءكاحقcomplex decision boundaryق ذ قذءم قي ك اقها تخم و ق ت ق
ت اق ا ياق.ق ق ها تخم وقك ةق م ق م لاق ا جقذكا ق
-4ج مذا قءرلم ق لك قتأثة ق impactق خ ائص قه يث قءرلم ق تيا ق تهة ق()featureق
يج ق ي قءب يم قها ت ق ض قها جت ا ق قج ق ع ي ق ب ائي ق ا ذة ت ق
ققق
78
The statistical significance of the logistic regression model
parameters .
ق ل تهةقXقي ق ح ق 𝜃ق الق ل اق تأثةق بعمقإيكا ق ا ذة تق ض قج معاقيك
لق ق م ةلق دق 𝜃ق مق تأثةق كةقج ق تن ق.ق ق قج ق تن قتي اق تهةقي ق قي ق
اتقل قج ق تهة تق هةقذاتقل قج مذاق ذيق يعط ق ء اجاقج قتأثةق تهة تق
ءق وقهض طقذتهة تقذاتقل قذ ا ق ق .ق
ق
قجمءاق كم قتياءاتق شةكيقبشك ق ت ا ق ق اقتت ليللاقج معاقءكمق تا ق:ق ق
تهة تق اتقل ق Xقتنتىم ق ك ج ق جم ق قيقي قn rows * m columnsققققق
ق تهة تق هةقذاتقل قyقتنتىمق ل ك ج ق}{0,1قذيق ق :ق
ق
𝑋 ∈ 𝑅 𝑛∗𝑚 , }𝑦 ∈ {0,1
ق
قبش قذ ا ق إ قءتيك ق ت قهق ت ا ي قذ قتك ق ي ق خرجقy=1قذيق ق :ق
ق
)𝑋| 𝑦̂ = 𝑃(𝑦 = 1
ق
ذل اق اءدق يكق ة تقXق ميمق.ق ق
بش قذقاه قذ ق زب ق نتىمق ل فق0قج مذاق ق :ق
قق
)𝑋| 𝑃(𝑦 = 0|𝑋) = 1 − 𝑃(𝑦 = 1
ق
بالمنطق : logistic vs linear
ي الخط
ي -13مقارنة التوقع
ق ا ق ق نتعافقج ق ة قذءمق قي ك اق تخم وق ت ق خط ق قذاائ ق ت نيفق
قق.ق ق ايك ولمقsigmoidق نقهق كز ق عكق ق ت ق
ق
ق
79
ق اأ قها تخم وق قذ ا اق اات ق عل ذاتقذشةك ق ك ق ت ا تق ة قع قي ك ق
ت ق خطق ق :ق
incomeق addق ageق tenق id churnق equipق employق edق
11.0ق 0ق 33ق 7ق ق 4ق yق 0ق 1ق
1ق 4ق 55ق 4ق ق .ق .ق .ق 0ق
2ق .ق .ق .ق ق .ق .ق .ق .ق
3ق .ق .ق .ق ق .ق .ق 3ق .ق
4 7ق 35ق .ق ق 8ق nق 4ق 0ق
ق م ق قءق وقتت ق ق ق ةقchurnقك ءلاق يكقذتق ع قdiscreteق إء اق ق وقتت
م قincomeقك ءلاق يكقذات القcontinuousق.ق ق
قذتهةقغةقذاتق ق ع قincomeق نت ءختا قذتهةقذاتق قindependentق يك قageق
لة كقع هقق ياءاتق ق :ق
income ق
ق
ق
age ق
ق a+bxق نق ا قج قةرل ق عا ق ق ا ق ق ق خطق قت ي ك اقها تخم وق ت
تعا اقجل لاق اهقاق.ق ق
م قذاي ق قذ ءاقذ قناتخموقء سق ت ق خطق اات ق ت ق ا قchurnق؟ق قكقتا كق
ياءاتق ة قكيفقتك قت أل ق اتقيكق اات ق يقيعةقج ق ت ق خطق!ق ق
churn
ق
)Yes (1
80
اقءعلكق يكق ق قchurnقهقإذاق0قذ ق1قذيقyesقذ قnoق با تا ق قذ ءاقت ق ا ق ق ق
اهقاقغةق ا قج قت ميمق
ق ا قذ ق إ ق اتقيكق يقذ ألمءاقذعا تمق ق ت ق خطق
ي تلاق0قذ ق1ق با تا ق ق ع اق قذاأ ق ت نيفق ا قق .ق
ق با تا قء تاجقإجا لق إي قذعا ق خطق اتقيكق ق ت ق خطق𝑥 𝜃0 + 𝜃1ق كقتك قذ ا
االق قيكقثيتاق ت ا ق ا ق ت نيفق م اق.ق ق
قثيتاق] 𝜃 𝑇 = [𝜃0 , 𝜃1ق ق ه اقذءمق م اقهعمق مقيك ق م اق𝑥 𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1ق ذ
ق ا قألميملقx1=13ق يثق ا ت اقذعا ق خطق:ق 𝑥𝜃 𝑇 𝑥 = −1 + 0.1ق با تخم ذلاق ت
xقيعةقج قageقي حق م اق:ق ق
P1 = [13] 𝜃 𝑇 𝑥 = −1 + 0.1𝑥1 = 0.3
ق13قذ قذء اقءعلكقذءمق ن غقذ قتك ق ق خطق لا ياق لم ع هق ي ق ت ق نقذ ألمعاق ت
ي ق خرجقإذاق0قذ ق1ق.ق ق
ج ق اضق م اقجت قthresholdقتاا يق0.5قج معاقي ك اقذ قءكت ق:ق ق
0 𝑖𝑓 𝜃 𝑇 𝑥 < 0.5
{ = ̂𝑦
1 𝑖𝑓 𝜃 𝑇 𝑥 ≥ 0.5
فق()0ق م ق ت ا قج ق ا ي قع هق عت ق إ ق ي ق ت ق م اق0.3قي ك اق جت ا عاقذ ق
ذاقهق ت ا ي ق ع قذ قيك قذ تىمق ل فق()0قق .ق
ق لا ياق قتياءياق .ق ا ق اقتي اقي ق خطق قيققها هاضق لت نيفق قءكمقذ ق ت ذ اق
ق خطقيعطق يكق قتيق قيكقباه قذ ق ت م اق تخمذ اقذ ل وق عت ق نات ق
قتي لاقج قذ اوق عت قذ ق()0.5ق:ق ق ذات الق
ق
1
ق
0
ق
0.5
ق
81
قتيق تائ قذل اق اءدقذ أل ق مي قstepق ل با تا ق جت مءاقج قتات قيم ق خ قلق
فق()1ق عكسقها عكسق ع ق ذ ق ا ق ا يق مق ي ق 1قذ ق 1000قذيقذ أل ق ت تىم ق ل
يسقج قذ قذ قق ق! ق
قذ قناتع ق قغةق قstepق هق ق اك قولمقsigmoidقهم قذ قناتخموق ا ق
يكق yقذ ا لقناتخموق يكق ت ا ي ق جلاقذيقهم ق عا ق⋯ 𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1 𝑥 +ق
ناتخموق عا ق:ق) ⋯ 𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(𝜃0 + 𝜃1 𝑥 +ق لاق ش ق يا ق تا ق ق :ق
ق̂𝑦 ق
1
قققق𝑥 𝑇 𝜃
82
ق ت ا ي قهقا قحب قذشةكقهخمذ ق ق ك ق ت ا تقذيقchurn=1ق إ ق ت ا ي قي ق
ها نا ق ا تيمقincome,ageقهق:قp(churn=1 | income,age) = 0.8ق با تا ق ت ا ي ق
جموقهقائمقp(churn=0 | income,age) = 1-0.8 = 0.2ق ق
ل لق قت سق يجق تك قها ذة تمقذض ة قه يثقيع تأ ق آل قذل ت اق قتم ل ق
لعطق تيك ق اغوب ق لع ارصق كميملق(ذيق زبائ ق كميمل)ق.ق ق
83
ق ت ا ي قذ قيها ق زب ق ك ق ت ا تق؟ققها تخم وق ءنتق ق آل ق ت ي قذ ا اق اات قت
ق ق :ق ققها ا ت ق
حذ ق ق :ق ق كت اتق قنات
ق
ق
ق
ق
ق
ق
ق
ق ق لمف ق churnق ن قيك ق ي او ق ناتخمو قألز قذ ق ياءات ق ءكع ق
ت نيفقث ا ق0قذ ق1ق ق :ق
ق
ق
84
ء م ق ا اتقXق خرجقyق ق :ق
ق
قذ اوق قيقي ق:ق ق ثكقءق وقتتق يالقاقnormalizeقك قذكا ق خرجقتيق0قذ ق1ق م
ق
ق
ق
ق
85
ت ا ق:ق ق تقايكق ياءاتق لتم ل ق ق
86
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
87
يجقها تخم وقjaccard indexق:ق ق ق ء ا ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
88
ق ي قها تخم وقloglossق:ق ق ي ك اقذ قءكالقت
يثق:ق ق
ق
-14التصنيف : Support Vector Machine SVM
اق ب اه قه اضق شةا ق :ق قي يطقتلكق ياق هشق فقذ ق يك ق م اقتياءاتقج ق
unitshapeق unitsizeق clumpق Id ….ق ….ق classق
100025ق 5ق 1ق 1ق …ق …ق benign
…ق 5ق 4ق 3ق ق malignantق … ق
…ق ….ق …ق …ق ….ق …ق ….ق
1000015ق 3ق 4ق 2ق …ق …ق ?
89
حذي قت نيفقإ ي قتعت مقج قإيكا ق ي ك اق تخم وق SVMق ل ق هاضق يثقتعتةق
افق supervised algorithms by finding a separatorق ي قهم ي ق ا قتي ق
ق ق :ق ذ ق
1- Mapping data to a high-dimensional feature space
ي قذ قء ي ق ق ضا قذهعا قذتعم ق( يسق قطقث ا ق اق ذ اق اهقا)ق.ق ق ق تخ يطق ياءاتق
2- Finding a separator
قت ول قء طق ياءاتقذ قتق يالاق تخ يق ا ق ا قتيق ياءاتق ي قذ ق
قذات يقذ قذتعرجقhyperplaneق.ق ق ت ك قذ ق كقذ ض ق ا قتي لاق
تي قع اقunitaize,clumpق ذ قإي ق اقتت حلد د قتياءاتق كم ق اات قها جت ا قج ق
ءكمقذءمق قي ك ق للاقج قهعضلاق ياق إء اقبش قذتعرجقق .ق
unitsize ققق Malignant
Benign
clump
ق
ق
ق هعا ق.ق ق آل قءنتق ق رلق قتاذةق ياءاتق ق ضا قث
90
يق:ق ق ع اقيخ اقت ا اق
ق ياءاتق نق م اقه رلق قذاق نق تكق للاقه ات يق؟ -كيفقء
قتيق ياءاتقهعمقج لي ق ت ول ق؟ -كيفقءكمق ات يق ض ق ل
91
ق با تا ق ت ميمقذيقذ لاقناتخموقيك ق ة عاقع هق للاقذض ق قذكت اتقألاعزلق ق ا
تتكرب قذكةقذ قء طق تيا ق ض قذ قءا ي ق تائ ق ق م قق .ق
ننتقل للخطوة التالية :كيف نجد المستوي األفضل بعد التحويل :
بش قجاوقذعكقءق قع قذ قيك ق ات يق ا قتيقذك جنق ياءاتق اقءا قذ قع اكق
ذك جنق ياءاتق اقءا قع اكقعاذشقmarginقتيقذك جنق ياءاتق اق يق ش ق :ق
ق
ق
Super vectors
ق
ق
ي ق قتم ق قاطق القذ ق ق ا لمفقإيكا ق hyperplaneقي ل قذكةقعاذشقتي ق
ي ق لخط ق ات ي ق ا قهد ق support vectorsق لم اق يم قع قع ه ق قاطق
إع ا قهقي قءقاطق تم ل قق .ق
ايي قsupport vectorsقق. ق يقي ل قذكةقعاذشقتيق قاطق إي ق كمق ا
ق.ق ق م قboundaryقذعا تمق خا ق لاذشيقذ ق ظقذ ق ك قذ ق خطق ا
ق
Support vectors
margin
Boundary decision line
𝟏 = 𝒃 𝒘𝑻 𝒙 +
Support vectors
Hyper plane
𝟏𝒘𝑻 𝒙 + 𝒃 = −
92
إي قج قةرل قتياءاتق تم ل قء ا قألع ق ا ق hyperplaneقي ل قذكةقعاذشق ل ك ق
ذذ ل قع هق ع لي قها تخم وقGradient Descent GDق ق .ق
ق اتقيكق قت ميمق ي اقإي ق قاطق إي ق رجقع هق خ حذي قه ق ي ق w,bقبيكا قذعا
ع القهقت دقع ق خطقذ ق مق.ق ق
قذيق قق اق ا ق قتنتىم ق ل فق ع مذاقت م قذعا ق اتقيكق ي قذكةقذ ق
اق ا ق قتنتىمق ل فق ا قذيقت دق خطق ق خطق قج مذاقتعطق عا ق ي قت دق
Find w and b such that :
𝑇 1
= )𝑤(∅ ∶ 𝑑𝑒𝑧𝑖𝑚𝑖𝑛𝑖𝑚 𝑠𝑖 𝑤 𝑤
2
𝑎𝑛𝑑 𝑓𝑜𝑟 𝑎𝑙𝑙 {(𝑥𝑖 , 𝑦𝑖 )} ∶ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1
محاسن و مساوئ : SVM
محاسنها : Advantages
-1م ق ق ضا تقجا ي ق هعا قAccurate in high-dimensional spaces
Memory efficient -2قت اق كالق ءلاقتاتخموقألز قذ قتياءاتق تم ل ق قت ميمق
تات ق قا قذ قذعا ق خطق ا ق ق.
مساوئها : Disadvantages
-1ع ه ق خ حذي قذعا ق ا ق over-fittingق ي ق ي قتك قجم ق ا اتق
number of featuresقذكةقذ قجم ق ع اتقnumber of sampleقق.
ق ن قتع لا قذغل قةاق ق ت نيف ق no probability -2قتعط ق ت ا ي ق ت
estimationق.ق
-3تاتع ق ا ت ق ياءات ق قليل ق small datasetsق ه ق ياد قي قك ا ل ق ااتي ق
ج مذاقتك ق ياءاتق خ قذ قذكةقذ قذ فق اقق.
ق
ق
ق
93
الت تستخدم فيها : SVM
الحاالت ي
ق قق ق - Image recognition and handwriting digit recognition . ةق
ت ق
طق يم
ثق- Text category assignment : text-mining tasks . ت ميمقءوعق خطق
ق ص
قكتشافقذل اتق تكاس - Detecting spam
ت لي ق شاجا- Sentiment analysis .
ت نيفق ك ات - Gene expression classification
ت - Regression .
كتشافق ا تق شايل - Outlier detection
افق تشاتل - Clustering تك ق
ق
ق ق :ق قذ ا قها تخم وق ا حذي قSVMق ق وقتت ي ق
ء مذقها تة ق كت اتق نقناتع للاق ق :ق
94
ثكقءا كقت حعق اضقه ا ق خا يتيقClump,Unitsizeق:ق ق
ق
ي قذوقء ي ق:ق ق ق م ق ق تقايكقء م قذاعي ق(ء جي )ق ياءاتق
95
ق
قجل لاق ق :ق ق ياءاتق نق ع ء م ق آل قذ
ق
96
ءق وقتتقايكق ياءاتق تم ل ق ق ت ا ق:ق ق
97
يجقها تخم وقconfusion matrix cmق:ق ق آل قءكايق تق يكق ل
98
ل ك اق تخم وقةرلق ق تق يكقf1-scoreق:ق ق
ق
ق
99
ق تخم وقjaccard indexق:ق ق ك
ق
ق
ق ختا قkernelق طقlinearق ءقا قها م ق:ق ق بألا قذقا ء قباي
ق
ق
ق
ق
ق
ق
100
-15مقدمة للتجميع : Intro Clustering
ق ئح ق ل ه ق زبائ ق customer ه اض ق م ا قذك ج قتياءات قحبائ ق قءرلم قت
قذك جات ق قهق ات ق تشاتل ق ق زبائ قي ق segmentationقذي قتك
ة تيكي قعاذ ق significant strategyق يثقت ك قذ الق ع قذ قتا لد د قذ تكاتلكق
ل ئ ق ا ق.ق ق
ذ قذك ج قذاق لاقحبائ ق يثق با قجا ي ق ق خاةاق ليل قhigh-profit and low-riskق
قألم ق عاضقذ تكاتقpurchase productsقذ ق شة كقهخمذ ق subscribe ع قذ ا
for a serviceقذ اقيكع ق ألا ق قج ا قيكا قdevoteق تاقإ ا ياق ل اظقretainingق
ج قع ق زبائ ق.ق ق
قء تاجق ا تك ق عاو ق يس قذ ئ ا ق feasibleق ك يات قعائل قذ ق ياءات ق ت ج ق
رلق قت ليلي ق تخاجقderivingق ئاتق قذك جاتقذ ق ياءاتق ضخ ق.ق ق
ق زبائ قها جت ا قج قجملقج ذ قfactorsقذ ق م اقتياءاتق زبائ ق تا ي ق:ق ق ي ك اقتك
customer ID age edu years income ….. ….. defaulted
employ
1ق 22ق 2ق 3ق 190ق …ق …ق 1ق
2ق 34ق 1ق 20ق 100ق …ق ….ق 0ق
…ق …ق …ق …ق …ق …ق …ق …ق
…ق …ق …ق …ق …ق …ق …..ق …ق
9ق 50ق 1ق 5ق 60ق …ق …ق 1ق
101
ق
1 ق
2
ق
3
ق
ق
ءا قذ ق خ طقث ثق اجاتق ق :ق
CLUSTER SEGMANT NAME
cluster-1ق Affluent & Middle agedق
Young education & Middle incomeق cluster-2ق
cluster-3ق Young & Low incomeق
ق
ه يثق ق اعق ش قنا قذئول قذ ق ك وعق ك ق با تا قهاجت ا قع ق تقايكقي ك اق
إ ألاعق قحب ق قألم ق ياءاتق اات قإ ق اجمق لق نتىمقإ يمق ق :ق
Customer ID Segment
1ق Young & Low incomeق
2ق Affluent & Middle agedق
…ق ….ق
Young education & Middle incomeق 9ق
ق ق زبائ قذ ق قت ا بددل قي ك اق تلم فقذ قت أليمقإج ءاتقذ م لقذ قهضاج قذع
تقاي اتق نق نت قإ لاقق .ق
تعرلفق ق اعقclusterقع قذك ج ق ك ءاتق تشاتل قsimilarقي اقتي لاق ق قتش مق قاطق
( ياءات)ق أل لق ق اجاتقذ ا ق ع اق ت ا ق ل ع قذاق اققتيق تك قclusteringق
ق ت نيفقclassificationق؟ ق
102
ق يثق ق ملقذ قتياءاتق تم ل قsupervisedق يعتةق ت نيفقذ قءوعق تعليكق ب
)قبيكا ق فق ع رصقDecision treeيجق(ذ قها تخم وق تنتىمق فقذعيق ءم لق
ق.قذيقذع ء ققlabeledألميمق تك ق ياءاتق
ق ياءاتق م اقتك قunsupervisedق ق ل قذ ق تعليكق هةقإclusteringذذاق ق تك ق
)ق ك ق ياءاتق تشاتل ق ي اقتي لاقثكقءعيمعكقK-means( ق ناتخموقذ قunlabeled
ق.لكم ق احق ع ارصق للاقق
ق ق:رلقتيق م اقذكا تق قةاقق احق هق يا ق اققذكةقتيق
- Retail / Marketing : Identifying buying patterns of customers ق
ها تقايط
- Recommending new books/movies to new customers ة لد د ق تكاتق
ألميملق زبائ قألم
- Banking : Fraud detection in credit card use Identifying clusters of
customers كشفق تيا ق قت نيفق ع
- Insurance industry : Fraud detection in claim analysis and Insurance risk
of customersقكشفق تيا ق ق اعق تأذيقذ ق ق زبائ ق
- Publication media : Auto-categorizing news based on their content and
Recommending similar news articles to readers .تك ق قا تق تشاتل ق ق
ق.تقميكق ا ق لقا ق
- Medicine : Charactering patient behavior تشخيصق ل كق اضق
- Biology : Clustering genetic markers to identify familyist ق ك نق تك
.ل ق ق قا ق يا ق ا هطق
ق ق:قclusteringق بش قجاوقذكا تق تخم وق تك
- Exploratory data analysis قت لي ق ياءاتق كتش
- Summary generation = reducing the scaleقتلخيصق ياءات ق
- Outlier detection for fraud detection or noise removedق كتشافق قيكق ق
ق.شايلق أل ق كتشافق ا تق تيا قذ قإح ق ضك ق
103
- Pre-processing step for other data-mining tasks or as apart of
complex system تاتخموق قذا قذاق قذلاوق ت قي قج ق ياءاتقذ قككز قذ ق
ءظ ق عقمل
2- Hierarchical clustering :
Produces trees of clustersق
ق.نت قج لاقشكالق اجاتق تاتخموق ل ياءاتق هةلق ككق ق
Eg . Agglomerative , Divisive ق
To Ea
oT Mo Vb Wi
104
3- Density-based clustering :
Produces arbitrary shaped clusters
تكقت يمقذك جاتقجش ئي قج مق أل ق ك قذ قDBSCANق ق .ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
-خوارزمية : K-means clustering
ا اق م اقذك ج قتياءاتقحبائ ق قءرلمقت ي قcustomer segmentقذيقج لي قتكز ققج ق
اتق قذ قع هق اققه ق k-meansق يثق قذك جاتقت سق زبائ قه يثقي
تعتة قع ه ق خ حذي قذ قءوع ق partitioningقذي قتقايك ق ياءات قإ ق اجات قتاىمقققققققققققققققق
قتكت ت ق لي ق k non-overlapping subsetsقذك جات قألزئي قغة قذتم ل ق
cluster-internalق ك ءاتق ق اعقذتشاتل قألم ق ذختل قج ق ق اجاتق ا ق ع اق
تكقةر ق يق:ق ق
-1كيفقءكمق ع اتق تشاتل ق؟
ق ياءاتق؟ -2كيفقءقيسقذقم ق تشاهمقتيقج رصل قههضق ظاقج قذ عل اق
ق
ق
ق
ق
ق
105
ء هق ءم قها اغكقذ قك ق k-meansقتك ق ياءاتق ق اجاتقها جت ا قج ق تشاهمق ي اق
تي لاق إءمقي ك اق تع ا قذقياوق ت ا قdissimilarityقج اقج قذقياوق تشاهمقق .ق
)Dis(x5,x6
)Dis(x1,x2
Intra-cluster
)Dis(C2,C3
Distances are
minimized Inter-cluster
Distances are
maximized
106
قم قذات قذع ا ق اهقا ق م قء كاقذءم ق ن غ قذ قءق و قهع لي قتق يس ق normalizeق ا اتق
ق لت ا قaccurate dissimilarity measureق ق .ق قج قذقياوق ل
ألمقذقا يسقت ا قذ ا قتاتخموق سق لمفق م لاقتعت مقج قءوعق ياءاتقبش قك ةقققق
قناتع ق:ق ق قج ق كا ق يقء قجليمقج لي ق احق
Euclidean distance , Cosine similarity , average distance
إي قذقياوق تشاهمقذلكقألم قه ا قة يع ق ياءاتق ق ة تق تشكي ق ق اجاتق قج لي ق
اح.ق ق
قk-meansقذ قتهايطق ياءاتق:ق ق ءع ق آل ق لكقةرلق قج
Customer ID Ageق Incomeق
1ق 32ق 450ق
2ق 23ق 300ق
3ق 44ق 120ق
….ق ….ق ….ق
….ق ….ق ….ق
Income
107
ق
هم ي ق ن غقذ قء م قجم ق ق اجاتق ققةرلق قk-meansق تكق اضق ش قجش ق -1
ذاكزق ق اعقذيقء اضق ي قkق هقت م قجم ق ق اجاتق هقذاأ ق يادق لل ق
ن ا شلاق ي اقهعم ق.ق ) )Initialize k=3 centroid randomlyق تك قتا ي قع هق
اكزق c1,c2,c3ق()centroid of clustersق ق ن غ قذ قيك ق لاقء سق ككق ة تق
لع ارصق أل لق ق ك ج قق.
ل ألمقةرلقتيق تيا قع هق اكزق:ق ق
ذ قءختا عاقجش ئياق3قذاكزق ا جقذك جاتق ياءاتقذ ق:ق -
] C1 = [8.,5.] C2 = [5.,5.] C3 = [6.,3.ق
هعمق تيا ق اكزقء مذقه احق ياءات ق( زبائ ) ق ل اكزق ال ق م قج قةرل ق االق -
اا قتيق قج رصق ق اكزق تيا ق اكزق الق.ق
قتاىمقdistance-matrixق لاق ش ق تا ق:ق قج قذ إي ق -
𝐶1 𝐶2 𝐶3
) 𝑑 (𝑝1 , 𝑐1 ) 𝑑 (𝑝1 , 𝑐2 ) 𝑑 (𝑝1 , 𝑐3
دق ق قذاكزق ق اعق يقتنتىم قإ يمق آل قذ ا قتيق قءق ذك وعقذربعاتق
ذل ت اقتقلي قع ق خ أق.ق ق
108
ق
ق
طقmeanقتياءاتق ق اعق يق -ق خ لق اءي قءق وقتت رل ق اكزق تك ق قذت
تات طقهمق.ق
حق ق م ا قإ م ثيات قءق تي ق) A(7.4,3.6),B(7.8,3.8ق ا اكز ق كميم قي
لكقذيق)c2((7.4+7.8)/2,(3.8+3.6)/2) = (7.6,3.7قق .ق ذت
ق
C1 C4
C3
B
A
109
3- Assign each data point (object) to its closest centroid for creating a
cluster .
ءربطق قءق قها اكزق الق لاق قنش ق ق اعقق .ق
4- Recalculate the position of the k centroids .
هعمقتشكي ق ق اجاتقءعيمق االقذاكزق ق اعقه يثقيك قذ عمق كميمقع ق
ق اجمقق .ق ذت طق قاطق نق
5- Repeat 24 until the centroids no longer move .
ءعيمق خ تقذ ق2قإ ق4ق نق قيك قع ا قذيقت اكقذل ظق ل اكزق.ق ق
ا ق:قكيفقء م قأل لقgoodnessقع هق ق اجاتق نقءتكدقذ قk-meansقذيقكيفق
ء ا ق قع هق رلق ق؟ق ق
ألمقء جيق اقق االق م ق:ق ق
ةاقق ا ألي - External approach :
Compare the clusters with the ground truth if it is available .
قإ قذذك قي ق،ق يثقع هق خ حذي قق ت ق قذ قأل لق ق اجاتقج قذ ضق
k-meansقغةقإ ي قunsupervisedق ع هق اققغةق عي ق عموق أل ق قائ ق
نات قذقا ءتلاق لاق.ق
ةاقق لي - Internal approach :
Average the distance between data points with a cluster .
ق
ء ا ق ي قذت طق اا قتيق قاطق ق ق اعق،قك قيعتةقذت طق اا اتق
ل قاطقج قذاكزعكق ق ق اعقذقياوق لخ أق ق .ق
ق
ق
Mean distance data points
ق
elbow point
ق
to cluster centroid
k=5 ق
ق
ق
K=1 K=9 ق
110
ق
ق
ق ءم قذتعل قبش ق قت حع ق ياءاتقambiguous قذذاق يم ق هس قkق قت ميمقجم ق
قهم ي قجش ئياقثكقءقيسقkع ا قةاقق ت ميمعاق م قذجكقع هق اققذ قء م ق ي ق
ق ق.م ق ءكا ق ع لي قجملقذا تق
ق إ ق اا قتيق اكزق ق قاطقkش ل قذءمق قحلا لقجم ق ق اجاتقذيقحلا لق ي ق
يج ق إ قءق ق قج مذاقءا ك ق ق قيقل ق خ أقkت خ ض ق با تا قحلا ل ق
قذيقءق ق ءع افقتت م قج مق ق ق نق مذقج معاقذت طقelbow pointق ت
ق ق.قelbowاا اتقتيق قاطق ق اكزقها ءخ اضق ع هق رلق قتاىمق
:ق ق لخصقذاق
ق
k-means is a partitioned-based clustering which is :
a- Relative efficient on Med&Large sized dataset .
b- Produces sphere-like clusters ,because the clusters are shaped
around the centroids .
c- Its drawback is that we should pre-specify the number of
clusters and this is not easy task .
ق ق:ق ع اقk-meansقذ ا يقج ق أ
- K-means on a random generated dataset
- Using k-means for customer segmentation
ق:ق ق ء مذقها ا ق
ق
111
ق
نش قذك ج قتياءاتقجش ئي ق ء م قذاكزعاقها تخم وقk-meansق ق :ق
112
كايق آل قإجم تققققق اقتتشكي قذك جاتق ياءاتق عش ئي ق ق إ قع هق ا ل قءك
k-meansق:ق ق
يجق ق :ق قهعمقتم ل ق ا تت ميمقجم ق اكزق ق ق اجاتق ةرلق قإيكا ق اكزق
ق
113
هعمق االق اقكزقء تاجق ا كق ياءاتق:ق ق
114
قذ ب د ق اجاتق.ق ق ظقكيفقتكقتقاي لاق ء
ق
115
قإجا لقت يمق ياءاتقذ قألميمق:ق ق قث ثق اجاتق ل قذ ءاقتقاي لاق
116
اقءا قت حلد د قتياءات اق يسقذت ا قاق لاقه ئ ق عش تق ذ لاقآ ا ق ذ لاقذألز ق عش تق
قءكايقتق يالاقه ااجملق كت اتق ب ائي ق:ق ق
ق
117
ءعيمقت حلد د ق قيكق لكم ق:ق ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
118
ثكقءا كق ياءاتق:ق ق
119
ق
ق
الهرم : Hierarchical clustering
ي -التجميع
قذ قذخ طقchartق رل قجا ىمقذ ق عل ا قتاهعيق ظ قت ألي قUCLAق ق يك ق م اق قرل
ق ق كل قذ م لقذ ق85ق ق خ طقبجم قتقرلاقأل نق دق900ق لتكق تخم وقع
طق ق ققآ ياق قذذرل اق ك وبي ق قذ باق ق شقق ق200قيئ قتايق breedsق ذكةقذ
ي )ق.ق ق قع ق ا ق م مق ق قألل قذاقذ ق مالق ( ب اقتاتهالقذ
تكق تخم وق تق ياتق ثي ق كزئي قmolecular genetic techniquesق ت لي قذكةقذ ق
ءاتقها جت ا ق 48000قج ذ قأل ني قgenetic marketsق ت يق اقذخ طقي احقع هق
ج ق تشاهمق قتنياتلاق ك ني ق،ق يثق تكقت اؤهقبش قعامق قجقمق قجقملقهق اعقه يثق
تتأ فق عقملقذ قجملق اجاتقذ ا قتم قذت ائلاق لتكقت ا ق تك ق لام قها جت ا قج ق
ء جيقذ ق اقق ق :ق
120
-تقايكقDivisiveق مق تكاهقtop-downقذيقء مذقها تالا قذ ق اذوق لقاجملقذيقء مذق
ها قاكق كةقثكقءكزئمق ااوقذ هاقذ مق عك ق ن قءنته قذ ق تقايكق dividing
the clustersق ق.
-تك قAgglomerativeقيع قبش قذعاكسق ااهقمقbottom-upق يثق ق قاعق
مذق مهق ل اق ألت قذ ق اعقآ اق ش ق اجاق م ق نقء ق لق ق ل قج ق
ق. قع ق ذ مذق تك قذ ق تكم سقamassق هق اوق ققجلكق ياءاتق ذ
Divisive ق
Agglomerative
ق
أ قذ ا قج ق تك ق يثقع هق رلق قت ن ق لاوقذ ق ع ارصقتإألا ق مذ ق تم لجق
progressively mergingق لق اجاتق.ق ق
م ق ق قءرلمقتك ق 6قذم ق قك م قها جت ا قج قهعمق( اا )ق قذ لاقج ق ا ق
هق:قToronto,Ottawa,Vancouver,Motreal,Winnipeg,and Edmontonق.ق ق
ق اا اتق)dis(i*jق:ق ق نا لاقذ
TOق OTق VAق MOق WIق EDق
TOق ق 351ق 3363ق 505ق 1510ق 2699ق
OTق ق ق 3543ق 167ق 1676ق 2840ق
VAق ق ق ق 3690ق 1867ق 819ق
MOق ق ق ق ق 1824ق 2976ق
WIق ق ق ق ق ق 1195ق
EDق ق ق ق ق ق ق
121
ق اا اتق ن مذقتت أليمق قذم قإ ق اجلاق ع مءقا ق 6قذم قذي ق6ق هعمق االقذ
اجاتق ق اعقي يقذم ق ملق قطق،ق تك قيعت مقج ق قالقتيق م ق ق .ق
قءكم قذ ق اا قتي ق MO,OTقه ق 167ق ه قذ ها قذاا قتي قذم نتيق ذ ق
ك عل اق ق اعق مق.ق ق
ء ظقذءمقءعت مقج قذةلقfeatureق ملق هق اا قذيقهعمق مقذ قذءمقي ك اق جت ا ق
حذيات قجميمل قذ لا ق Pearson,Eucluiden,Average ج قذكة قذ قذةل قها تخم و ق
Distanceق ي قه ا قءوعق ياءاتق ذكا ق عا ق م اق.ق ق
ق
TO OT MO VA ED WI
مقءعيمقتاتي ق م قذ قألميمقق. هعمق ذ ق م نتيقOT,MOق ق اعق
TOق OT/MO VAق WIق EDق
TOق ق 351ق 3363ق 1510ق 2699ق
OT/MO ق ق 3543ق 1676ق 2840ق
VAق ق ق ق 1867ق 819ق
WIق ق ق ق ق 1195ق
EDق ق ق ق ق ق
ق
اقذ ق مقكيفق تكق االقذاا تل اق ول قج ق م ق م قهعمق ذ قOT/MOقهق اعق
WIق هق1676ق؟ ق
قذ لاق:ق اا قتيقذاكزق اا قتيقOT&MOق بيقذاكزقWIق عك ق ع ا قجملقةاقق
ق:ق ق ء مثق ا قتياءاتق
ق
MO
ق
WI OT
ق
ق
122
ألمءاقذ قذ هاقذاا قتا ي قتي ق ق اعق كميمق OT/MOق ق TOق ه ق 351ق با تا قءضعل اق
ق اعق مقق .ق
ق
ق
ق
TO OT MO
ق
ق:ق ق ءعيمقتشكي ق
TO/OT/MO VAق WIق EDق
TO/OT/MOق ق 3363ق 1510ق 2699ق
VAق ق ق 1867ق 819ق
WIق ق ق ق 1195ق
EDق ق ق ق ق
123
لتكقت ي ق شكالق لاذي قه خ طقنا يمقDendogramق:ق ق
ق
ق
y ق
ق
ق
ق
TO OT MO VA ED WI
ق
Dendogram
ق
ق
ق
ED ق
OT MO ق
WI
ق
VA ق
TO
ق
ق
ق
ق
ق
124
ي قذكةق:ق ق تمقتت ءع ق ل خ طق م
ق
y
ق
خط أفقي
ق
ق
خط قطع للشجرة الهرمية
ق
TO OT MO VA ED WI ق
نتيجة القطع حصلنا على 3قطاعات
ق
Dendogram ق
ق
ق
قتي ق ق اجاتقهخطقذ ق ق يثقتعتةق ب م ثياتقyق تكقت ي ق ق ءمذاجق mergeقي
ذقم ق تشاهمقتيق ق اجاتق نقتكق ذكلاق ول قق .ق
فقهاتكاهق ققذ ا اقهم ي قتكق جت ا ق قذم ق اعقه مقي تمق با ءتقا ق ق خ طقذ ق
ق ع ق يق ج ق تك قإجا ل قت ا ق reconstructقج ليات ق مذ ق ي قذءت قع ق تك
depicted clusteringق.ق ق
قع هق رلق ق ق ألمق ة ضقذ ق عم ق ق اجاتق قذ قي ق قهعضق ت يقاتقء تاجق
ل قdisjoint clustersق اقع قذت ق ق تك ق ا حق flat إ قتكزئ ق ق اجاتق
clusteringق.ق ق
قذعيق ق شكالق لاذي قج مقهعضق قاطقذ ق تشاهمق قذات ج مقع هق ا تق تكق
تشكي ق اجاتقذتشاتل قق .ق
حق م قاقث ث ق اجاتقهم قذ ق اءدق6ق قذ اق مثق قذ ا اق اات قءكمقج مق طق ق
اجاتق.ق ق
ق
125
ق
ق ق ق bottom-upقه اض ق م اق nقءق قذ ق قاجمل ق لق إي ق تالا ق قج لي ق تك
ذك ج ق ياءاتق ق :ق
1- Create n clustres ,one for each data point
2- Compute the proximity/Distance matrix : n*n
3- Repeat :
3-1- Merge the two closest clusters
3-2- Update the distance matrix
4- Until only a single cluster remains
ق ت اجمقتيق ق اجاتق ق :ق لعلكقيك قش قذ
0
𝑑(2,1) 0
[ ]
)𝑑(3,1) 𝑑(3,2 0
)𝑑(𝑛, 1) 𝑑(𝑛, 2 .. 0
قهعمق ق اعقج قء امقق .ق رل ق ق اعاق قائيسق0ق ءمقي
نت ق م اقهعضق تااؤ تق:ق ق
الق ي اقتي لاقذ قع هق -كيفق تكق ياوق اا اتقتيقع هق ق اجاتق كيفقءعافق
ق اجاتق؟
-ذاقهق قاطق نقناتخمذلاق قذك ج ق ياءاتق م اق؟
ملق:ق ق ق ة قكيفقء ا ق اا قتيق اجيق(ذرلضي)ق ك قذ ل اقءق
Age BMI BP
Patient1 54 190 120
Patient2 50 200 125
ق
ق
126
ت فقتيق قاطق ا تا ق:ق ق ه رلق قEuclideanقء ا ق
𝑛
ق
قAgglomerativeق اق ق اق ذ اقذءمقتكق مذ قتيق ق اجاتق تقا ب ققهخ حذي ق تك
ش ق ت ي ق ق :ق
P1 P3
P2
- Complete-Linkage Clustering :
Maximum distance between clusters :
ق ق:إيكا قذة قذاا قتيقءق تيق قذ ل اق ق قاعق
ق
ق
ق
ق
128
تعت مق رلق ق ت ع ق االقع هق اا اتقج قءوعق ياءاتق قذهعا عاق قذعكقس قذكا ق
ياءاتق نقءتعاذ قذعلاقق .ق
الهرم :
ي -سلبيات و إيجابيات طريقة التجميع
Advantages Disadvantages
قت تاجقت ميمقجم قذعيقذ ق ق اجات ق قق يق ق ع لق
قي ك ق ة أل قج قذيق
تكق ذ ق ق اجات ق
ق لل ق ت تأ ق تاقةول ق ل ااهات ق
ذ ياءاقي ع قت ميمقجم ق ق اجاتق ق خ طق نسق اقذخ طقdendogramقذ اق ال ق
لكقج ق خ حذي ق ج مذاقيك ق م اقذك ج قتياءاتق خ ق
ق
الهرم و : k-means
ي -مقارنة ربي التجميع
K-means Hierarchical
ذكةق عا ي ق ل ياءاتق ضخ ق ه ئ ق ل ياءاتق ضخ ق
قت تاج قت ميم قجم ق ق اجاتق ء م قجم ق ق اجاتق ق م ق
ت مذق ع ق
تعط قذكة قذ قتقايك قها جت ا ق تعط ق قط ق اك ق مق ل ياءات قها جت ا قج قجم ق ق اجاتق
قة ق ج ق م ق لوب ق
قذال قتعط قجم ق اجات قذختل قه ا قجم ق اكزق ذاقتعطقء سقجم ق ق اجات ق
ة قبش قجش ق يقت مذق خ حذي قها ع ق
129
ثكقء مقذك ج قتياءاتقجش ئي ق قءا لاق:ق ق
ق
ق
يجق:ق ق ق لامق تم ل ق حذي ق تك ءق وقها تخم وق
ق
ق
ق
130
ل اقجل لاق:ق ق ءا كق تيك ق نق
ق
131
ق تقا لق:ق ق ء ا قذ
132
ق نقتتعل قه يع ق اأ ق ءوعق ع هق اقق ب ائي ق نقتعطقءتائ قذختل ق ق تك
ياءاتق تيك ق ض ق نقءاأل عاق ق .ق
ق
-التجميع Density-Based Spatial Clustering of Applications with
: Noise DBSAN
ه قذ ا ق appropriateق تخم و ق ق ت ا ق ياءات قذي قيك ق لاق ي ق ق ياءاتق
ق جتيا ي ق ااهق ق k-means,hierarchical,fuzzy شايل ق عظك قةاق ق تك
حذياتق clustering,….قتق وقتتك ق ياءاتقه رلق قغةقإ ي قunsupervisedق هق
ائ قج ق تقايكق partitioning-basedق ه قج لي ق ق لل ق لكق م ق يسق لاق ي ق
notionقها قيكق شايلق outliesقذيق ق قاطق ت تىم ق ق اعقذاق ن ق ق كقتك قذ مق ل هق
ذ ق مقتتاه قت عض ق شاك ق أل ق قاط ق شايل ق ياه ق قت ميمقذاكزق ق اعق
مق.ق ق أل لق
ق
ق
ق
ق
ق
133
ع م قتك ق قاط قيظلاقج مءا قجمل ق ء اط قذ ق :ق spherical-shape clustersقكا ل ق
ش قذ قكي ي ق ش قarbitrary-shape clustersق( جت اةي )ق ق
ق
كروية الشكل
ق
ق
شكل عشوائي
ق
تق ياتق تك ق ااهق ق قتك قذكمي قج مذاقتك ق ع ارصق قء سق ق اعقغةقذتشا ك ق
ق عي اق.ق ق بش ق افقها تشاهمق ي اقتي لاق يك ق
حذي ق DBSCANقتق و قتتك ق قاط قذ ق يث قك ا تلاق ها قاه ق in contrastق إ ق
قك ا ق تعافقع اق ع مذاقتك قك ي قك اي قتك علاق ول ق ت للاقج ق ك جاتق
م ا قج قذءلاقجم ق قاطق قء فق اقذ م قradiusق ه ق عا قألم ق ق تك ق يق
مقج قها ا قذ ق ةق(ذ ق تك عاتق اك ي ق قغةعا)ق تعتةق ةلق ا ي ق لاقهق
مق ق تأثاقها ضك قذ قها قيكق كتشافق ةقتك ق قاطقهأيقش قجش قذ أل لق
شايلق ق .ق
ا ق كول ق the location of weather قذ اتق ذ ا قج قي ق رل قت م قذ
stationق قك م قع اقي ك ق خ حذي قDBSCANقذ قتك ق اكزق( ا م)ق نقتعطقء سق
ا ق كول ق.ق ق
134
يثق يسق قطقتق وقع هق خ حذي قذش ا ق ق اجاتق تعم لقه قت م قك ق كز ق كةق
قك ا قذ ق نق لاق ك قذ ق يكقشايلقق .ق ك ا قها ياءاتق ي قتتكاع ق اة ق
ليى كيف تعمل هذه الخوارزمية :
ق حذي ق اقذ ل اقجل قك ا ق قاطق ي قهقياوقذم ق القع هق قاطقذ هق خ تعت مقع
ق قء س ق ق اع ق تق و قتتك يعلاق تعت مقع ه ق ع لي ق ااتي قج قذذرل عض ق هعضلاق
ق اق)R (radius of neighborhoodقذاقهق قاطق أل لقج قهعمقRقذ فق ق ذ ل اقء
ق جت ا قج قجم قع هق قاطقي ك اقتا تلاقذ ق قك ي قdense-areaقذ يثقها ءق قذاق
ق.ق ق
قجم قذ ق قاطق ذاق ا قع ق) M (minimum number of neighborhoodقذ
كا لق ق قذاق ق وقتتك يعلكقذ قهعضق تشكي ق اعقذاتق قق .ق
ق ئالقء فق اعاق2ق كقجم قذ ق قاطق اضقذ قR = 2 cmق قM = 6قذيق م اق
ق.ق ق ع ق6قءقاطقذ ق ق ق م
صقءوعقع هق قاطق يثق م اقث ث ق ت ا تق ق :ق يك قهم ي قت
ق( ا ألي ) قشايلق قذ ي ي ق border pointق– قءق ءق قذاكزل ق core pointق– قءق
outlier pointق.ق ق
لاقع قه قذاكزل ق يثقتعتةقذاكزل قج مذاقتك ق يثقءختا قءق قجش ئي ق ء مذقتت
ق(ها جت ا قج قذ ا ا) ق ق م ئالق6قءقاطقج ق ق ئالقء فق اعاقRق
ق قءختةعاقع قهقذاكزل قذوق ق نقءنتهقذ قأل
ق ع مذاق قتك قذاكزل قءنتق ق ق قذ ا ق
قاطق لت م ق اق ق ق اكزل ق.ق ق
ق ئالق ع ق اضق ألمءاقج كمق ت ا قءق قذاق أل ق5قءقاطقه اق لاق ق ق ختةلق
ء فق اعاقR=2قج معاقتاىمقءق قذ ي ي ق هق ق ق نقت ت يق ئاتلاقذ قذ ق عم ق
ق ئالقذاكزعاقءق ق قءق قذاكزل قذ ا قذيقتك ق Mقذ قي ك قذ قء قإ لاقذ ق
ذاكزل ق.ق ق
ق ئالقء فق اعاق Rقذيقءقاطقذاكزل قذ قجم قءقاطقMق ق ق ق ج مذاق ق ألمق
هقتك قءق قشايلقق .ق
135
ق قاطق اكزل ق قرل قذ قهعضلاق تش ق ج مذاقءنته قذ ق احق قاطقءق وقج معاقت
اعقذشةكق ق .ق
قإ لاق تتم قذ ق ق ق قذ قءق قذاكزل ق ق قاطق نقتكق ا ق اعق تش قج ق
ي ي ق،ق بددل ق تكقجز ق قاطق شايلقبش ق اكزل قهم ئالقء فق اعاق Rقذ ق قاطق
أليمق ق
ق
ائصقDBSCANق:ق ق ي ك اقتلخيصق
1- Arbitrarily shaped clusters .
2- Robust to outlier points .
3- Doesn’t require specification of the number of the clusters such as
k-means .
قت س قذ ا ق k-meansقتت يمق يتك قتبيا قذةل ق DBSCANق ق ءتقا ق قاط ق شايل ق ي
ذك ج قتياءاتقجش ئي ق تك يعلاق ق :ق
حذ ق ق :ق ء مذقها تة ق كت اتق
ق
ق
ق
ق
ق
ق
ق
136
ء مقذك ج ق ياءاتق عش ئي ق:ق ق
ق
ق
137
ق ق اجاتق:ق ق ق ء أل قمق قاطق شايلق نق قتم
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
138
ءا كق ياءاتق:ق ق
ق
قشايلق ق كاء ق شقتكق كتشا لاقهخ حذي قDBSCANق.ق ق ظق أل قءق ء
ق
139
ا قها تخم وقk-meansق ة ق اقق ق تعاذ قذ ق قاطق شايلق:ق ق عيمقء سق
141
ك ق ألمقءوعقآ اقHybrid recommender Sysقذءظ قعك قت ت يقج قجملقتق ياتق
ذكت ع قق .ق
ي ق ق :ق قذءظ ق ت ع ا قذ لوبيق ت
: Memory-based -ق يثق تكق تخم وقأل قتياءاتق ع ارصق ق شخاصقق entire
user-item datasetق تقميكق ة اتق لتكق تخم وقجملقتق ياتقإ ائي ق:ق
Pearson Correlation – Cosine Similarity – Euclidean Dis…..
2
3
4
ق
142
ق ت ل ق اوق اتخموقهابجكالقها ل ي ق 1ق ق 2ق ق ا ق لكق كق 3قذ قء سق وعقذ ق
ت قق .ق يقمذمقءظاوق ت ي ق ل اتخموق ا ة ق مق ي قذعت م قج ق تشاهمق ق
يك ق م اقذك ج قذ ق6قذ وق ذ قذ لاق اتخموقث ث ق ذج اعاقت ضي قratingق ءرلمقذ ق
ءظاوق ت ي قذ قيقموق لكق ض قذ ق ث ق ت قي ق ة عاق اتخموق.ق ق
)1 Bat vs Super (adventure, super hero ق
ق
)2 Galaxy (comedy, adventure, super hero,sci-fi
ق
)3 Captin (comedy, super hero
ق
143
ق ق:movies matrixق تاىمقOne Hot Encodingوق نق آعاقه رلق ق ثكقءاذزقع هق
قmovie قComedy قadventure قSuper hero قSci-fi
1 (adventure, super hero) ق0 ق1 ق1 ق0
ق2 (comedy, adventure, super hero,sci-fi) ق1 ق1 ق1 ق1
ق3 (comedy, super hero) ق1 ق0 ق1 ق0
144
ق ق: ث ق ااهق قتاذةق اق عل اقها
ق م اقث ث قذ وق كق شاعمعاق اتخموق كايق لاقذ
قmovie قComedy قadventure قSuper hero قSci-fi
4 (comedy, adventure, sci-fi) ق1 ق1 ق0 ق1
5 (super hero) ق0 ق0 ق1 ق0
6 (comedy, super hero) ق1 ق0 ق1 ق0
ق
ق ق:قweighted matrixقج ق ءكايقألم قتي لاق قتيقتا اي ق اتخموق
قmovie قComedy قadventure قSuper hero قSci-fi ق
4 ق0.3 ق0.2 ق0 ق0.16 ق
5 ق0 ق0 ق0.33 ق0
6 ق0.3 ق0 ق0.33 ق0 ق
recommendation قج ق ق10ق تق يكق م اقذ ق ق10اق ءرصبمقهدق ثكقءك ق ق
ق ق:قmatrix
ق4 ق0.66 * 10 = 6.6
ق5 ق0.33 * 10 = 3.3
ق6 ق0.63 * 10 = 6.3
ق
1 Bat vs Super (adventure, super hero) ق
ق
2 Galaxy (comedy, adventure, super hero,sci-fi)
ق
3 Captin (comedy, super hero)
ق
145
ءكمقذ قءظاوق ت ي ق يقموق لكق كق4ق يشاعمهق اتخموق ذ قي ق ب اق قتعط قع هق
قتا اي ق اتخموق ذ ق رلق قءتيك قذا ي ق ءمق ب اق ألمق لكقآ اق يسقذ أل ق
قتا اي ق اتخموق وق نق ءوعقآ اق يك قdramaق ل هق رلق قتعاذلدق قطقذ ق
قع اقيأ ق ق رلق ق تا ي ق هق وق ا ق ت ق ألملق ق قهعيق جت ا ق ق
collaborative filteringق.ق ق
-أنظمة التوصية باالعتماد عىل األفضلية : Collaborative Filtering
تعت مقع هق رلق قج ق أل قج قتيق تكاتق ق عت اوق اوقتلاق أءظ ق ت ي قتعت مق
ج قإيكا قع هق ع ق قإج ا قت ي ق يق ق ل ت ق يقي مق اتخموقذ قيك قذ تعاق
مق ق ل ق طقةرلقتا ق:ق ق
-تك ق لةقها جت ا قج ق شخاصقuser-based collaborative filteringق
تعت مقج ق تشاهمقتيق شخاصقذ قج ق تقا لق ي اقتي لكق.ق
جت ا قج ق تكاتق( ع ارص)ق item-based collaborative filteringقتعت مق -
ج ق تشاهمقتيق تكاتقق.
ق user-basedق م اقذشخاصق عا ي ق(نشي ي)قيك ء قعمفق لكقذق مق رلق ق
ثق ظاوقج ق شخاصق شاتليقتنشاةلكق للمفق لعت مق تشاهمق ي اق ءظاوق ت ي ق
تي لكقج ق :ق تيا تق choicesق– ق اك تق historyق– ق ة تق preferencesق قذ قثكق
تكقت ق تكاتق ن ق كق ت اقق لاق لمفق تكق ة لاق مق( ق يق ش لمقيك ق مق
ت اقق لاق تكق ت ا قذ قتعك مق للمف)ق.ق ق
قق
1
Similar
2
aim Similar user
3
recommends
ق
ق
146
يك ق م اق عل ذاتق نقتضكقذعم تقت ضي قratingsق ب د قحبائ ق خ سقذ وق:ق ق
Movie1ق Movie2ق Movie4ق Movie3ق Movie5ق
User1ق 9ق 6ق 8ق 4ق -ق
User2ق 2ق 10ق 6ق -ق 8ق
User3ق 5ق 9ق -ق 10ق 7ق
User4ق ?ق 10ق 7ق 8ق ?ق
قRatings matrixقق .ق ع هقتم قذ
وق نق ا ق كتشافقذيق اتخموق ا ت قع ق لمفق ق نشطق ا ياقactive userق ق
كق شاعمعاق()1,5ق ن غقذ قتعاضق مق.ق ق
قءكمق اتخمذيق شاتليق للمفق لتكقي قهعمقةاققإ ائي قstatisticalق ا لق
قشعاجي ق victorقذ ق :ق distance or similarity measurements , Euclidean
distance, Pearson correlation, Cosine similarity …..
و ق ن قشاعمعا ق ق ل عا قذم ق تشاهم قتي قج رصل ق تك قي قها جت ا قج ق
اتخمذي ق بهضق ظاقج ق رلق ق ت ع ق قي ق ا ياق ةضقذ قذقم ق تشاهمقتيق
ع رصق لمفق ع ق قذ ا ءاق ا ت ق ق قي ق ا تا ق:ق ق
U1ق U2ق U3ق
U4ق 0.4ق 0.9ق 0.7ق
ق
تعةقع هق قيكقج قproximity or weightقتيق ع رصق لمفق بقي قج ارصق ك ج قق .ق
قweighted matrixق ق :ق لق تا ي قهقإيكا قذ خ
Similarity index ها كم ق
Mov5ق Mov1ق ق ق Mov5ق Mov1ق
تي ق ق
U1 9ق ق ق U1 ي تيق 0.4ق 3.6ق ق
U2ق 2ق 8ق ق U2 ء ق 0.9ق 1.8ق 7.2ق
U3ق 5ق 7ق ق U3 0.7ق ج ق 3.5ق 4.9ق
قق ق
Rating matrix subset Similarity matrix Weighted matrix
قق ق
147
ق ةلقج قت ضي تق اتخمذيق( شاتليق لم ا)ق أل وق نقءرلمق تعةقع هق
ذعا قذيقذ لاقذ ك قذ قيختا قحب ء اق ا ت ق قمذلاق مقق .ق
قبش قذاتق ق كمق rating weighted matrixق ق: آل قءك قءتائ ق قج
ق Mov1ق Mov5ق
U2+U3ق 7.2+4.9=12.1ق ق
3.6+1.8+3.5=8.9ق U1+U2+U3ق ق
قق
ق
قج قذك وعقتشاهمق ع ارصقذيق ق :ق ءقاكقءتيك قأل ق قج
ق Mov1ق Mov5ق
8.9/(0.4+0.9+0.7) = 4.4ق User4 12.1/(0.9+0.7)= 7.5ق
ق
قrecommendation matrixقء ظقذ ق لكق كق5قع ق يق قمذمق ع هقتم قذ
يقءت قذ قيختا هقذكةقذ ق لكق1ق ق .ق ل اتخموق4ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
ق
148
ل اق اهقاقذ قع ا قةرلقتيق ل لةلقitem-based & user-basedق ة ق لعقاق اققتي ل قا:ق ق
User-based Item-based
ق
1 ق 1
ق
ق
2 ق 2
ق
ق 3
3
ق
ق 4
4
ق
ق
ق
هنا تشابه ربي العنرصين 1,3واختارهما كل من
ق
وبالتاىل يمكن أن يقدم المنتج 1
ي المستخدمي 1,2
ر
المستخدمي 1,3بناء عىل مشاركتهم
ر هنا التشابه ربي
للمستخدم 3ألنه استخدم من قبل المنتج 3الذي
وبالتاىل سنقدم المنتج 1للمستخدم
ي للمنتجي 3,4
ر يشبه المنتج . 1
3
ق
ذ قذ قةرلق قcollaborative filteringق عا ق م قت ألمقهعضق ت مياتق نقت ألللاقذ ق
ت ا ق ياءاتقdata sparsityق قع قي مثقج مق أل قجم قك ةقذ ق اتخمذيقيختا ق
جم قذ م قذ ق تكاتق با تا ق قيك ق م اقتق ي اتقratingsق ا ي ق ك قذ قuser, itemق
ل قنات قتقميكق يا قذ ض ق ل اتخموق ع هق ا قتعةقج ق عوب ق نقت ألمقءظاوق
ت ي قج مق أل قذاتخمذي قألم ق cold startق يس ق م لك قتا اي ق ات ق ميم قي ك مق
قج مق أل قذ تكاتقألميملق كقيختا عاقهعمقذيقذاتخموق.ق ق جت ا قجليمق ك
ق ح يا ق ع قاقج مذاقي حق اتخمذيقذ ق نق ع ارصق م لكق اهلي ق ت ع قscalabilityق
قتيقق حذي ق ت ي قع ه قتق ق قذ ا قباه ق تشاهم ق ي قي ئك ق يض ق
قذ اق اه ق عوب ق ت ضي ق ي اقتي لكقق .ق اتخمذيق ق تكاتقج ق مق
ق hybrid-based قذ ا ق خ حذي قءنتق ا ت قذ قع ه ق ي ك ا ق قذ
recommendationق.ق ق
149
خاتمة :
ق لاي قذجت قج ق ق أق ه ي قذ قتاذج قذ قجلىم ق لخص ق اه ق لتعمي ق قذ ت هق
إجا لقنشهقذ قيكاقذ م هق ي ق تعكق ائملق عل ي ق م يق ق قذكت ع اقق.
تنسون من صالح دعائكم
ي ال
العالمي
ر والحمد هلل رب
150