You are on page 1of 80

‫– )‪G(S,gender) = 0.

940(entropy before split‬‬


‫‪[((3+4)/14)*0.985 + ((6+1)/14)*0.592] = 0.151‬‬
‫ق‬
‫العقدة ‪ F‬مجموع المرضى ‪14‬‬ ‫العقدة ‪ M‬مجموع المرضى ‪14‬‬
‫ق‬
‫(‪ )3B,4A‬وقيمة ‪ E‬لهم ‪0.985‬‬ ‫(‪ )6B,1A‬وقيمة ‪ E‬لهم ‪0.592‬‬

‫ق‬
‫‪Weighted E after split‬‬

‫‪G(S, cholesterol) = 0.940 – [(8/14)*0.811 + (6/14)*1.0] = 0.048‬‬


‫ظ قذ ق خا ي ق‪ gender‬ق ب لاقذج قذ ق ا ي ق‪ cholesterol‬ق ا عت معاق لتقايكق‬ ‫ء‬
‫ق ءعيمقء سق ع لي ق قي ق خ ائصق‪attributes‬ق‪.‬ق ق‬
‫تق قيك قيم لاقة عاق إء اقءكرلددلاقع اق نقء ل لاق إء اق‬ ‫(يكم قها كاقذ قج قع هق خ‬
‫قذكت اتلاق^‪)^-‬ق ق‪ .‬ق‬ ‫ق‬ ‫ع قيك قتاذجقها ا‬
‫ق‬
‫ن قذ ا قج قذك ج ق اض ق ع ج ق ي ق ت ا م ق كيف قي ك ا قت ا قشكال ق قا ق‬
‫ق‪:‬ق ق‬ ‫ت ني لكقها تخم وق ا‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬

‫ي قتياءاتق اضق ق‪ :‬ق‬ ‫ت‬

‫ق‬

‫‪71‬‬
‫سقذاضق‪:‬ق ق‬ ‫إظلا قذ ق‬

‫ءق وقه كزقتياءاتق ا اتق‪X‬ق‪:‬ق ق‬

‫ي ق‪categorical‬قء تاجقت ولللاق ا ي ق قءرلمقإع ا لاق ق‪ :‬ق‬ ‫باه ق أل قتياءاتق‬

‫‪72‬‬
‫آل قي ك اقتاذةقتياءاتق لمفق‪y‬ق‪:‬ق ق‬

‫ء مذقج لي قتل ئ قشكالق قا قها تة ق كت ق ق‪ :‬ق‬

‫ت ا ق ق قذ ق‪X,y‬ق ق‪ :‬ق‬ ‫ءقاكق ياءاتق تم ل ق‬

‫‪73‬‬
‫ق ذاق أل ق‬ ‫نق‪X_trainset,y_trainset‬قت سق هعا ق ك‬ ‫ة عاق ن غقذ قتك قذ‬
‫نق‪X_testset,y_testset‬ق ق‪ .‬ق‬ ‫ذ‬
‫ء مذقتإءكاحقء يجق ت نيفقذ قءوعقشكالق قا قتإنشا قذ بككدقذ ق ك وق ق‪ :‬ق‬

‫ق شكالق‪4‬ق ع قي ك اقته ةهق ؤل ق ا قق قءتائ ق ت نيفق‪.‬ق ق‬ ‫ظقذء اق ةءاقج‬ ‫ء‬


‫ق‬
‫ق‬
‫يجقج قتياءاتق تم ل ق ق‪ :‬ق‬ ‫ءم لق‬

‫‪74‬‬
‫ق‪:‬ق ق‬ ‫آل قءكايق ت‬

‫ق‬
‫يجق ق‪ :‬ق‬ ‫ق‬ ‫ء ا ق آل ق‬

‫ا كقع هق شكالقي ك اقت ي ق تا ق‪:‬ق‬

‫‪75‬‬
‫ق‬

‫‪76‬‬
‫المنطق ‪: Logistic Regression‬‬
‫ي‬ ‫‪-12‬التوقع‬
‫ق اتخموق ق ت نيفق با تا ق م اقث ث قذ ئل ق ق‪ :‬ق‬ ‫قع ق وعقذ ق ت‬
‫قق؟‬ ‫‪ -‬ذاقع ق ت ق‬
‫‪ -‬ذ ق اتخموق؟‬
‫‪ -‬ذاقءوعق شاك ق نقء تاألمق لاق؟‬
‫تعتةقع هق رلق ق ق ت نيفقإ ائي ق قت نيفق اك تق‪records‬ق قذك ج ق ياءاتق‬
‫ها جت ا قج ق يكق ق ق‪fields‬ق‪.‬ق ق‬
‫‪Logistic regression is a classification algorithm for categorical variables.‬‬
‫ه اض ق م اقتياءات ق ك ق ت ا ت ق ءرلمقت ليللاق ة قع ق ي قق ق شةك قها خمذ قذو ق ق‬
‫ايق؟ ق‬
‫‪ ten‬ق ‪id‬‬ ‫‪ age‬ق‬ ‫‪ income‬ق ‪ add‬ق‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪ 136.8‬ق ‪ 7‬ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪ yes‬ق ‪ 0‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪ 234.6‬ق ‪ 4‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ no‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ .‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ 3‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫?ق‬

‫ن نق‬ ‫ع ق ةق‪ churn‬قيم قذي ق زبائ قهق ق ق شك قذ ق خمذ ق ذ لك ق غ ق شةكم ق‬


‫ء يألاق لتن قها تخم وق‪logistic reg‬ق ت ميمق ا ق زب ق اتق لي قق‪ .‬ق‬
‫ي ك اق تخم وق مقذ قجم قذ ق تهة تق اتقل ق ن ق م اق(…‪)age,income,‬ق لكم ق‬
‫ها كاقذ قع ق ت ق ش م ق ت ق خط ق م قع اقي ك اق تعاذ قذ ق تهة ت ق ي ق‬
‫‪categorical‬ق ق‪ .‬ق‬
‫قذيق ي ق‬ ‫ا ت ق خطق ت ق يكقذات القذ قث قذة ق–ق هطق وق–ق ي ق تل كق‬
‫ق يك قث ائي ق ي قذ ق(‪ )yes or no‬ق(‪)true or false‬ق‬ ‫ققت‬ ‫ق‬ ‫تي ا ق ت‬
‫(…‪)successful or un‬ق للاقت ق(‪)0 or 1‬ق‪.‬ق ق‬

‫‪77‬‬
‫ع اقتك ق تهة تق هةقذاتقل قذات الق‪continuous‬ق ب ا ق اءدق ي ق‪categorial‬ق‬
‫ن غ قذ قء لا ق قيك قذات ال قج قةرل قتاذةعا ق‪ indicator-coded‬قذ قءعتةعا ق ع ي ق‬
‫‪dummy‬قق‪ .‬ق‬
‫قجملق ا تقذ ق‪:‬ق ق‬ ‫ا قذ ق تعم ق‬ ‫ق ق ت نيفق‬ ‫اتخموقع ق وعقذ ق ت‬
‫ت ق ق ت ا ي قذ قي الق شخصقت وب ق ل ي ق‪heart-attack‬قذ قجمذلاقق‬ ‫‪-‬‬
‫=ق=ق=ق=ققذ تقذرلضقذ القه اضقجضا قذ قجمذمقق‪.‬‬ ‫‪-‬‬
‫=ق=ق=ق=قإ اه قذرلضقها اكايق‪.diabetes‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=قذ ق شةيق زب قذ ت قذاق‪.‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=ق ش قذ ت قذاقذ قءكا مق‪.‬ق‬ ‫‪-‬‬
‫ق ت ا ي ق م ثلقاق‪ .‬ق‬ ‫قت‬ ‫فق تائ ق قإء اقك‬ ‫ق يسق قطقي‬ ‫ظقذ قع ق وعقذ ق ت‬ ‫ء‬
‫قق م اقذ ب د ق ا تق‪:‬ق ق‬ ‫ق‬ ‫إي ق تخليصق ا تق تخم وق ت‬
‫‪ -1‬ج مذاقيك ق ت نيفقث ا ق(‪0‬قذ ق‪)1‬ق‪binary data‬‬
‫‪ -2‬ج مذقاقءرلمق االق ت ا ي ق وعق مثقذاقذ ق ت ا ي ق تن قهقي قذاق ‪probabilistic‬‬
‫ق كا ق]‪ [0,1‬ق ك ج ق‬ ‫يج ق ي ق ت ا ي ق‬ ‫‪ results‬قج معا قيعيم ق ا ق‬
‫قذ افقذقا قت ا قج ق‬ ‫ج اتقذ ق ياءاتقثكق تكقتشكي ق ا تق ت قي ق‬
‫يجق‪.‬ق‬ ‫ت ا ي ق نقذ ألمعاق‬
‫‪ -3‬إي ق اءد ق ياءات ق اهل ق لتقايك قبش قش م ق ط ق‪linear decision boundary‬ق‬
‫قع قذاتقيك ق‪ line‬قذ قذات ي ق‪ plane‬قذي ق ‪linearly‬‬ ‫يث قيك ق قا ق ا‬
‫‪separable‬ق ل ك قذ قتك قت جق‪hyper-plane‬ق‪.‬ق‬
‫ذ ق م اقذك ج قءقاطق لاق ا يتي ق ق تكقت يللاقهك ةق م ق اقك اقء للاق ق‬
‫قج قذة أل قذ ق ش ق ق‪ :‬ق‬ ‫ت ق خطقج معاقي ك اق‬
‫𝑒𝑙𝑏𝑎𝑡𝑜𝑙𝑝 𝑦𝑙𝑖𝑠𝑎𝑒 → 𝑒𝑛𝑎𝑙𝑝 ‪𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 > 0 ≡ ℎ𝑎𝑙𝑓 −‬‬
‫ق قإءكاحق‪complex decision boundary‬ق‬ ‫ذ قذءم قي ك اقها تخم و ق ت ق‬
‫ت اق ا ياق‪.‬ق ق‬ ‫ها تخم وقك ةق م ق م لاق ا جقذكا ق‬
‫‪ -4‬ج مذا قءرلم ق لك قتأثة ق‪ impact‬ق خ ائص قه يث قءرلم ق تيا ق تهة ق(‪)feature‬ق‬
‫يج ق ي قءب يم قها ت ق‬ ‫ض قها جت ا ق قج ق ع ي ق ب ائي ق ا ذة ت ق‬
‫ققق‬

‫‪78‬‬
‫‪The statistical significance‬‬ ‫‪of the logistic regression model‬‬
‫‪parameters .‬‬
‫ق ل تهةق‪X‬قي ق ح ق 𝜃ق الق ل اق تأثةق‬ ‫بعمقإيكا ق ا ذة تق ض قج معاقيك‬
‫لق ق م ةلق دق 𝜃ق مق تأثةق كةقج ق تن ق‪.‬ق ق‬ ‫قج ق تن قتي اق تهةقي ق قي ق‬
‫اتقل قج ق تهة تق هةقذاتقل قج مذاق‬ ‫ذيق يعط ق ء اجاقج قتأثةق تهة تق‬
‫ءق وقهض طقذتهة تقذاتقل قذ ا ق ق‪ .‬ق‬
‫ق‬
‫قجمءاق كم قتياءاتق شةكيقبشك ق ت ا ق ق اقتت ليللاقج معاقءكمق تا ق‪:‬ق ق‬
‫تهة تق اتقل ق‪ X‬قتنتىم ق ك ج ق جم ق قيقي ق‪n rows * m columns‬ققققق‬
‫ق تهة تق هةقذاتقل ق‪y‬قتنتىمق ل ك ج ق}‪{0,1‬قذيق ق‪ :‬ق‬
‫ق‬
‫‪𝑋 ∈ 𝑅 𝑛∗𝑚 ,‬‬ ‫}‪𝑦 ∈ {0,1‬‬
‫ق‬
‫قبش قذ ا ق إ قءتيك ق ت قهق ت ا ي قذ قتك ق ي ق خرجق‪y=1‬قذيق ق‪ :‬ق‬
‫ق‬
‫)𝑋| ‪𝑦̂ = 𝑃(𝑦 = 1‬‬
‫ق‬
‫ذل اق اءدق يكق ة تق‪X‬ق ميمق‪.‬ق ق‬
‫بش قذقاه قذ ق زب ق نتىمق ل فق‪0‬قج مذاق ق‪ :‬ق‬
‫قق‬
‫)𝑋| ‪𝑃(𝑦 = 0|𝑋) = 1 − 𝑃(𝑦 = 1‬‬
‫ق‬
‫بالمنطق ‪: logistic vs linear‬‬
‫ي‬ ‫الخط‬
‫ي‬ ‫‪-13‬مقارنة التوقع‬
‫ق‬ ‫ا ق ق نتعافقج ق‬ ‫ة قذءمق قي ك اق تخم وق ت ق خط ق قذاائ ق ت نيفق‬
‫قق‪.‬ق ق‬ ‫ايك ولمق‪sigmoid‬ق نقهق كز ق عكق ق ت ق‬
‫ق‬
‫ق‬

‫‪79‬‬
‫ق اأ قها تخم وق‬ ‫قذ ا اق اات ق عل ذاتقذشةك ق ك ق ت ا تق ة قع قي ك ق‬
‫ت ق خطق ق‪ :‬ق‬
‫‪ income‬ق ‪ add‬ق ‪ age‬ق ‪ ten‬ق ‪id‬‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪0‬ق‬ ‫‪1‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪4‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪3‬ق‬ ‫‪.‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫‪0‬ق‬
‫ق‬ ‫م ق قءق وقتت ق ق ق ةق‪churn‬قك ءلاق يكقذتق ع ق‪discrete‬ق إء اق ق وقتت‬
‫م ق‪income‬قك ءلاق يكقذات الق‪continuous‬ق‪.‬ق ق‬
‫قذتهةقغةقذاتق ق ع ق‪income‬ق‬ ‫نت‬ ‫ءختا قذتهةقذاتق ق‪independent‬ق يك ق‪age‬ق‬
‫لة كقع هقق ياءاتق ق‪ :‬ق‬
‫‪income‬‬ ‫ق‬
‫ق‬
‫ق‬

‫‪age‬‬ ‫ق‬
‫ق‪ a+bx‬ق نق‬ ‫ا قج قةرل ق عا‬ ‫ق‬ ‫ق ا ق ق‬ ‫ق خطق قت‬ ‫ي ك اقها تخم وق ت‬
‫تعا اقجل لاق اهقاق‪.‬ق ق‬
‫م قذاي ق قذ ءاقذ قناتخموقء سق ت ق خطق اات ق ت ق ا ق‪churn‬ق؟ق قكقتا كق‬
‫ياءاتق ة قكيفقتك قت أل ق اتقيكق اات ق يقيعةقج ق ت ق خطق!ق ق‬

‫‪churn‬‬
‫ق‬
‫)‪Yes (1‬‬

‫خارج المجال الذي لدينا‬

‫)‪No (0‬‬ ‫‪age‬‬

‫‪80‬‬
‫اقءعلكق يكق ق ق‪churn‬قهقإذاق‪0‬قذ ق‪1‬قذيق‪yes‬قذ ق‪no‬ق با تا ق قذ ءاقت ق ا ق ق ق‬
‫اهقاقغةق ا قج قت ميمق‬
‫ق‬ ‫ا قذ ق إ ق اتقيكق يقذ ألمءاقذعا تمق ق ت ق خطق‬
‫ي تلاق‪0‬قذ ق‪1‬ق با تا ق ق ع اق قذاأ ق ت نيفق ا قق‪ .‬ق‬
‫ق با تا قء تاجقإجا لق‬ ‫إي قذعا ق خطق اتقيكق ق ت ق خطق𝑥 ‪𝜃0 + 𝜃1‬ق كقتك قذ ا‬
‫االق قيكقثيتاق ت ا ق ا ق ت نيفق م اق‪.‬ق ق‬
‫قثيتاق] ‪𝜃 𝑇 = [𝜃0 , 𝜃1‬ق ق‬ ‫ه اقذءمق م اقهعمق مقيك ق م اق𝑥 ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1‬ق ذ‬
‫ق ا قألميملق‪x1=13‬ق يثق‬ ‫ا ت اقذعا ق خطق‪:‬ق 𝑥‪𝜃 𝑇 𝑥 = −1 + 0.1‬ق با تخم ذلاق ت‬
‫‪x‬قيعةقج ق‪age‬قي حق م اق‪:‬ق ق‬
‫‪P1 = [13]  𝜃 𝑇 𝑥 = −1 + 0.1𝑥1 = 0.3‬‬
‫ق‪13‬قذ قذء اقءعلكقذءمق ن غقذ قتك ق‬ ‫ق خطق لا ياق لم‬ ‫ع هق ي ق ت ق نقذ ألمعاق ت‬
‫ي ق خرجقإذاق‪0‬قذ ق‪1‬ق‪.‬ق ق‬
‫ج ق اضق م اقجت ق‪threshold‬قتاا يق‪0.5‬قج معاقي ك اقذ قءكت ق‪:‬ق ق‬
‫‪0 𝑖𝑓 𝜃 𝑇 𝑥 < 0.5‬‬
‫{ = ̂𝑦‬
‫‪1 𝑖𝑓 𝜃 𝑇 𝑥 ≥ 0.5‬‬
‫فق(‪)0‬ق م ق‬ ‫ت ا قج ق ا ي قع هق عت ق إ ق ي ق ت ق م اق‪0.3‬قي ك اق جت ا عاقذ ق‬
‫ذاقهق ت ا ي ق ع قذ قيك قذ تىمق ل فق(‪)0‬قق‪ .‬ق‬
‫ق لا ياق قتياءياق‪ .‬ق‬ ‫ا ق اقتي اقي‬ ‫ق خطق قيققها هاضق لت نيفق‬ ‫قءكمقذ ق ت‬ ‫ذ اق‬
‫ق خطقيعطق يكق‬ ‫قتيق قيكقباه قذ ق ت‬ ‫م اق تخمذ اقذ ل وق عت ق نات ق‬
‫قتي لاقج قذ اوق عت قذ ق(‪)0.5‬ق‪:‬ق ق‬ ‫ذات الق‬
‫ق‬
‫‪1‬‬
‫ق‬
‫‪0‬‬
‫ق‬
‫‪0.5‬‬
‫ق‬

‫‪81‬‬
‫قتيق تائ قذل اق اءدقذ أل ق‬ ‫مي ق‪step‬ق ل‬ ‫با تا ق جت مءاقج قتات قيم ق خ قلق‬
‫فق(‪)1‬ق عكسقها عكسق ع ق‬ ‫ذ ق ا ق ا يق مق ي ق‪ 1‬قذ ق‪ 1000‬قذيقذ أل ق ت تىم ق ل‬
‫يسقج قذ قذ قق ق! ق‬
‫قذ قناتع ق قغةق ق‪step‬ق هق ق اك قولمق‪sigmoid‬قهم قذ قناتخموق‬ ‫ا ق‬
‫يكق‪ y‬قذ ا لقناتخموق يكق ت ا ي ق جلاقذيقهم ق عا ق⋯ ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1 𝑥 +‬ق‬
‫ناتخموق عا ق‪:‬ق) ⋯ ‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(𝜃0 + 𝜃1 𝑥 +‬ق لاق ش ق يا ق تا ق ق‪ :‬ق‬
‫ق̂𝑦 ق‬
‫‪1‬‬

‫قققق𝑥 𝑇 𝜃‬

‫ق نقءعةقج لاق ل هق م قهق‪:‬ق ق‬ ‫عا‬


‫‪1‬‬
‫= )𝑥 𝑇 𝜃(𝜎‬ ‫𝑥𝑇‬
‫𝜃‪1 + 𝑒 −‬‬
‫𝑥𝑇‬
‫𝜃‪𝑒 −‬قذيق‪:‬ق ق‬ ‫دق قي ق‪= 0‬‬ ‫دق ي ق𝑥 𝑇 𝜃قك ةلقألم قذ‬ ‫ظقذءمق ل اقذ‬ ‫ء‬
‫‪𝜎(𝜃 𝑇 𝑥) = 1‬‬
‫ق‬
‫دق ق‪ :‬ق‬ ‫عكسق ل اقءق دق ي ق𝑥 𝑇 𝜃قذ‬
‫‪𝜎(𝜃 𝑇 𝑥) = 0‬‬
‫قي ك ق جت ا عاق‬ ‫ق كا ق]‪ [0,1‬ق تيك قع ه ق م‬ ‫إي ق ذا قءتيك ق ق ايك ولم ق‬
‫ت ا ي ق هقذ اهق ق اقءرلمق ق‪ :‬ق‬
‫)‪P(y=1 | x) P(y=0 |x) = 1- P(y=1 | x‬‬
‫مي ؟ ق‬ ‫ق ايك ولمقهم ق م ق‬ ‫إي قذاقع ق رجقء يأل اق يقتن اهق لت نيفقها تخم وق‬

‫‪82‬‬
‫ق ت ا ي قهقا قحب قذشةكقهخمذ ق ق ك ق ت ا تقذيق‪churn=1‬ق إ ق ت ا ي قي ق‬
‫ها نا ق ا تيمق‪income,age‬قهق‪:‬ق‪p(churn=1 | income,age) = 0.8‬ق با تا ق ت ا ي ق‬
‫جموقهقائمق‪p(churn=0 | income,age) = 1-0.8 = 0.2‬ق ق‬
‫ل لق‬ ‫قت سق‬ ‫يجق تك قها ذة تمقذض ة قه يثقيع‬ ‫تأ ق آل قذل ت اق قتم ل ق‬
‫لعطق تيك ق اغوب ق لع ارصق كميملق(ذيق زبائ ق كميمل)ق‪.‬ق ق‬

‫تق تا ي ق‪:‬ق ق‬ ‫ق خ‬ ‫قج لي ق تم ل ق‬ ‫لتكقي قتإيكا قذ ض ق يكق دقثيتاق‬


‫]‪1- Initialize 𝜃 : eg. 𝜃 = [−1,2‬‬
‫‪2- Calculate 𝑦̂ = 𝜎(𝜃 𝑇 𝑥) for a customer : eg.‬‬
‫‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(([−1,2]𝑇 ∗ [𝑎𝑔𝑒 = 2, 𝑖𝑛𝑐𝑜𝑚𝑒 = 5]) = 0.7‬‬
‫ع هقهق ت ا ي قذ قيك ق زب ق ق فق‪1‬ق‪.‬ق ق‬
‫‪3- Compare 𝑦̂, 𝑦  Error = 1-0.7 = 0.3‬‬
‫)𝜃(‪4- Calculate Error for all customers  Cost=J‬‬
‫ع قتات ق كل ق‪Cost Fun.‬ق ل اق اءدق ي تمق هةلق ا ق ت قذ ض قق‪ .‬ق‬
‫‪5- Change the 𝜃 to reduce the Cost Fun.‬‬
‫‪6- Go back to step 2.‬‬
‫ع اقيأ ق ق يق‪:‬ق ق‬
‫‪ -‬كيفقءهةق يكق 𝜃ق نقءقل قذ ق ي قتات ق ت ل ق؟‬
‫ع ا قةاققجميملقذ لاق‪Gradient Descent GD‬‬
‫‪ -‬ذنقءت فقج قتكا ق خ تق ااهق ق؟‬
‫يجق ذ قتك ق تيك قذق ع قق‪ .‬ق‬ ‫ءت فقج قةرل ق االق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪83‬‬
‫ق ت ا ي قذ قيها ق زب ق ك ق ت ا تق؟ققها تخم وق‬ ‫ءنتق ق آل ق ت ي قذ ا اق اات قت‬
‫ق ق‪ :‬ق‬ ‫ققها ا‬ ‫ت ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق كت اتق‬ ‫قنات‬

‫ق ءظلاعاقها تخم وق‪panda‬ق ق‪ :‬ق‬ ‫ق ياءاتقذ ق‬ ‫ء‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ق لمف ق‪ churn‬ق ن قيك ق‬ ‫ي‬ ‫او ق‬ ‫ناتخمو قألز قذ ق ياءات ق ءكع ق‬
‫ت نيفقث ا ق‪0‬قذ ق‪1‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬

‫‪84‬‬
‫ء م ق ا اتق‪X‬ق خرجق‪y‬ق ق‪ :‬ق‬

‫ق‬
‫قذ اوق قيقي ق‪:‬ق ق‬ ‫ثكقءق وقتتق يالقاق‪normalize‬قك قذكا ق خرجقتيق‪0‬قذ ق‪1‬ق م‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪85‬‬
‫ت ا ق‪:‬ق ق‬ ‫تقايكق ياءاتق لتم ل ق ق‬

‫يجقها تخم وقتياءاتق تم ل ‪:‬ق ق‬ ‫ءم لق‬

‫ت ا ق‪:‬ق ق‬ ‫قها تخم وقتياءاتق‬ ‫ءكايق ت‬

‫فق‬ ‫ق ت ا ي قذ قيك قذ ق‬ ‫ق ت ا ي ق ت نيفق يثق ع قق‬ ‫ء ألمقذ‬


‫ق ا ق ت ا ي قذ قيك قذ ق فق‪0‬ق‪:‬ق ق‬ ‫‪1‬ق ق ع‬

‫‪86‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪87‬‬
‫يجقها تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ق‬ ‫ء ا ق‬

‫ق االق‪cm‬ق ق‪ :‬ق‬ ‫ك‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪88‬‬
‫ق ي قها تخم وق‪logloss‬ق‪:‬ق ق‬ ‫ي ك اقذ قءكالقت‬

‫اقي ك اقة اج قتقرلاقج ق‪F1-score‬ق‪:‬ق ق‬

‫يثق‪:‬ق ق‬

‫ق‬
‫‪ -14‬التصنيف ‪: Support Vector Machine SVM‬‬
‫اق ب اه قه اضق شةا ق‪ :‬ق‬ ‫قي يطقتلكق‬ ‫ياق هشق‬ ‫فقذ ق‬ ‫يك ق م اقتياءاتقج ق‬
‫‪ unitshape‬ق ‪ unitsize‬ق ‪ clump‬ق ‪Id‬‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ class‬ق‬
‫‪ 100025‬ق‬ ‫‪5‬ق‬ ‫‪1‬ق‬ ‫‪1‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪benign‬‬
‫…ق‬ ‫‪5‬ق‬ ‫‪4‬ق‬ ‫‪3‬ق‬ ‫ق‬ ‫‪ malignant‬ق … ق‬
‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬
‫‪ 1000015‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬ ‫‪2‬ق‬ ‫…ق‬ ‫…ق‬ ‫?‬

‫يمق‪benign‬قذوق وق يثق‪)malignant‬ق م اقتياءاتق‬ ‫ءرلمقت ق ا قذرلضقألميمق(ع ق وق‬


‫ياهق ق‪ .‬ق‬

‫‪89‬‬
‫حذي قت نيفقإ ي قتعت مقج قإيكا ق‬ ‫ي ك اق تخم وق‪ SVM‬ق ل ق هاضق يثقتعتةق‬
‫افق‪ supervised algorithms by finding a separator‬ق ي قهم ي ق‬ ‫ا قتي ق‬
‫ق ق‪ :‬ق‬ ‫ذ ق‬
‫‪1- Mapping data to a high-dimensional feature space‬‬
‫ي قذ قء ي ق ق ضا قذهعا قذتعم ق( يسق قطقث ا ق اق ذ اق اهقا)ق‪.‬ق ق‬ ‫ق‬ ‫تخ يطق ياءاتق‬
‫‪2- Finding a separator‬‬
‫قت ول قء طق ياءاتقذ قتق يالاق‬ ‫تخ يق ا ق ا قتيق ياءاتق ي قذ ق‬
‫قذات يقذ قذتعرجق‪hyperplane‬ق‪.‬ق ق‬ ‫ت ك قذ ق كقذ ض ق ا قتي لاق‬
‫تي قع اق‪unitaize,clump‬ق‬ ‫ذ قإي ق اقتت حلد د قتياءاتق كم ق اات قها جت ا قج ق‬
‫ءكمقذءمق قي ك ق للاقج قهعضلاق ياق إء اقبش قذتعرجقق‪ .‬ق‬
‫‪unitsize‬‬ ‫ققق ‪Malignant‬‬
‫‪Benign‬‬

‫‪clump‬‬

‫قذهعا ق‪:‬ق ق‬ ‫قتيقق ياءاتقهعمقتاذةعاق ق ضا قث‬ ‫يك ق‬

‫ق‬
‫ق‬
‫ق هعا ق‪.‬ق ق‬ ‫آل قءنتق ق رلق قتاذةق ياءاتق ق ضا قث‬
‫‪90‬‬
‫يق‪:‬ق ق‬ ‫ع اقيخ اقت ا اق‬
‫ق ياءاتق نق م اقه رلق قذاق نق تكق للاقه ات يق؟‬ ‫‪ -‬كيفقء‬
‫قتيق ياءاتقهعمقج لي ق ت ول ق؟‬ ‫‪ -‬كيفقءكمق ات يق ض ق ل‬

‫نبدأ بعملية تحويل البيانات ‪: transforming data‬‬


‫ملق ل ياءاتق ق‪ :‬ق‬ ‫ق‬ ‫أل ق تهايطقء اضقذ ق ياءاتق نق م اقذ ا ي ق عمقذيق م اق‬
‫قء تاجقإجا لقتشكيللاق ق ضا قث ا ق هعا ق‬ ‫للاقبش ق طق‬ ‫ظقذءمق قي ك اق‬ ‫ء‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫تكقي قتزلا لقذهعا ق ياءاتق قإجا لق ق ك ق‪ x‬قها تخم وقتات ق مق األي ق] ‪∅(𝑥 ) = [𝑥, 𝑥 2‬ق‬
‫ق ياءاتق ياق ق‪ :‬ق‬ ‫ج معاق تكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫بش قذ اس قتم قج لي قت ول ق ياءات ق هعا قذج قها ك ق‪ kernelling‬ق ق اىم ق تات ق‬
‫ق‪kernel function‬ق ل ألمق لاقجملقذء عق‪:‬ق ق‬ ‫اتخموق‬
‫‪Linear , Polynomial , Radial Basic Function RBF , Sigmoid‬‬

‫‪91‬‬
‫ق با تا ق ت ميمقذيقذ لاقناتخموقيك ق‬ ‫ة عاقع هق للاقذض ق قذكت اتقألاعزلق ق ا‬
‫تتكرب قذكةقذ قء طق تيا ق ض قذ قءا ي ق تائ ق ق م قق‪ .‬ق‬

‫ننتقل للخطوة التالية ‪ :‬كيف نجد المستوي األفضل بعد التحويل ‪:‬‬
‫بش قجاوقذعكقءق قع قذ قيك ق ات يق ا قتيقذك جنق ياءاتق اقءا قذ قع اكق‬
‫ذك جنق ياءاتق اقءا قع اكقعاذشق‪margin‬قتيقذك جنق ياءاتق اق يق ش ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪Super vectors‬‬
‫ق‬
‫ق‬
‫ي ق قتم ق قاطق القذ ق ق‬ ‫ا لمفقإيكا ق‪ hyperplane‬قي ل قذكةقعاذشقتي ق‬
‫ي ق لخط ق ات ي ق ا قهد ق‪ support vectors‬ق لم اق يم قع قع ه ق قاطق‬
‫إع ا قهقي قءقاطق تم ل قق‪ .‬ق‬
‫ايي ق‪support vectors‬قق‪.‬‬ ‫ق يقي ل قذكةقعاذشقتيق قاطق‬ ‫إي ق كمق ا‬
‫ق‪.‬ق ق‬ ‫م ق‪boundary‬قذعا تمق خا‬ ‫ق لاذشيقذ ق‬ ‫ظقذ ق ك قذ ق خطق ا‬
‫ق‬
‫‪Support vectors‬‬
‫‪margin‬‬
‫‪Boundary decision line‬‬

‫𝟏 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬

‫‪Support vectors‬‬
‫‪Hyper plane‬‬

‫‪Boundary decision line‬‬ ‫𝟎 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬

‫𝟏‪𝒘𝑻 𝒙 + 𝒃 = −‬‬

‫‪92‬‬
‫إي قج قةرل قتياءاتق تم ل قء ا قألع ق ا ق‪ hyperplane‬قي ل قذكةقعاذشق ل ك ق‬
‫ذذ ل قع هق ع لي قها تخم وق‪Gradient Descent GD‬ق ق‪ .‬ق‬
‫ق اتقيكق قت ميمق ي اقإي ق قاطق‬ ‫إي ق رجقع هق خ حذي قه ق ي ق‪ w,b‬قبيكا قذعا‬
‫ع القهقت دقع ق خطقذ ق مق‪.‬ق ق‬
‫قذيق قق‬ ‫اق ا ق قتنتىم ق ل فق‬ ‫ع مذاقت م قذعا ق اتقيكق ي قذكةقذ ق‬
‫اق ا ق قتنتىمق ل فق ا قذيقت دق خطق ق‬ ‫خطق قج مذاقتعطق عا ق ي قت دق‬
‫‪Find w and b such that :‬‬
‫𝑇 ‪1‬‬
‫= )𝑤(∅‬ ‫∶ 𝑑𝑒𝑧𝑖𝑚𝑖𝑛𝑖𝑚 𝑠𝑖 𝑤 𝑤‬
‫‪2‬‬
‫‪𝑎𝑛𝑑 𝑓𝑜𝑟 𝑎𝑙𝑙 {(𝑥𝑖 , 𝑦𝑖 )} ∶ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1‬‬
‫محاسن و مساوئ ‪: SVM‬‬
‫محاسنها ‪: Advantages‬‬
‫‪ -1‬م ق ق ضا تقجا ي ق هعا ق‪Accurate in high-dimensional spaces‬‬
‫‪ Memory efficient -2‬قت اق كالق ءلاقتاتخموقألز قذ قتياءاتق تم ل ق قت ميمق‬
‫تات ق قا قذ قذعا ق خطق ا ق ق‪.‬‬
‫مساوئها ‪: Disadvantages‬‬
‫‪ -1‬ع ه ق خ حذي قذعا ق ا ق‪ over-fitting‬ق ي ق ي قتك قجم ق ا اتق‬
‫‪number of features‬قذكةقذ قجم ق ع اتق‪number of sample‬قق‪.‬‬
‫ق ن قتع لا قذغل قةاق ق ت نيف ق ‪no probability‬‬ ‫‪ -2‬قتعط ق ت ا ي ق ت‬
‫‪estimation‬ق‪.‬ق‬
‫‪ -3‬تاتع ق ا ت ق ياءات ق قليل ق‪ small datasets‬ق ه ق ياد قي قك ا ل ق ااتي ق‬
‫ج مذاقتك ق ياءاتق خ قذ قذكةقذ قذ فق اقق‪.‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪93‬‬
‫الت تستخدم فيها ‪: SVM‬‬
‫الحاالت ي‬
‫ق قق ق ‪- Image recognition and handwriting digit recognition .‬‬ ‫ةق‬
‫ت ق‬
‫طق يم‬
‫ثق‪- Text category assignment : text-mining tasks .‬‬ ‫ت ميمقءوعق خطق‬
‫ق ص‬
‫قكتشافقذل اتق تكاس ‪- Detecting spam‬‬
‫ت لي ق شاجا‪- Sentiment analysis .‬‬
‫ت نيفق ك ات ‪- Gene expression classification‬‬
‫ت ‪- Regression .‬‬
‫كتشافق ا تق شايل ‪- Outlier detection‬‬
‫افق تشاتل ‪- Clustering‬‬ ‫تك ق‬
‫ق‬
‫ق ق‪ :‬ق‬ ‫قذ ا قها تخم وق ا‬ ‫حذي ق‪SVM‬ق‬ ‫ق وقتت ي ق‬
‫ء مذقها تة ق كت اتق نقناتع للاق ق‪ :‬ق‬

‫سقذاضق لتالي ق‪:‬ق ق‬ ‫ي ق لفق‪cell_samples.csv‬ق اقء ع ق اهقاقء م قذ ق‬ ‫بعمقت‬

‫‪94‬‬
‫ثكقءا كقت حعق اضقه ا ق خا يتيق‪Clump,Unitsize‬ق‪:‬ق ق‬

‫ق‬
‫ي قذوقء ي ق‪:‬ق ق‬ ‫ق م ق ق تقايكقء م قذاعي ق(ء جي )ق ياءاتق‬

‫قاقء ي ق‪categorical‬قءل للاق‪:‬ق ق‬ ‫ظق أل قهعضق‬ ‫ء‬

‫‪95‬‬
‫ق‬
‫قجل لاق ق‪ :‬ق‬ ‫ق ياءاتق نق ع‬ ‫ء م ق آل قذ‬

‫لاق‪2‬قذيق‬ ‫ا تق نق‬ ‫ق‬ ‫ق قطقءرلمقذ قءت‬ ‫افقإذاق لي قذ ق ي ق ء‬ ‫اق ذ اق ق‬


‫ق‪:‬ق ق‬ ‫الي‬
‫ق‬

‫ق‬

‫‪96‬‬
‫ءق وقتتقايكق ياءاتق تم ل ق ق ت ا ق‪:‬ق ق‬

‫نق‪rbf radial basis function‬ق ق‪ :‬ق‬ ‫قها تيا ق‬ ‫ءم لق‬

‫يجقهعمق تم ل ق‪:‬ق ق‬ ‫ءكايق ت ا ق ل‬

‫‪97‬‬
‫يجقها تخم وق‪confusion matrix cm‬ق‪:‬ق ق‬ ‫آل قءكايق تق يكق ل‬

‫‪98‬‬
‫ل ك اق تخم وقةرلق ق تق يكق‪f1-score‬ق‪:‬ق ق‬

‫ق‬

‫ق‬

‫‪99‬‬
‫ق تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ك‬

‫ق‬
‫ق‬
‫ق ختا ق‪kernel‬ق طق‪linear‬ق ءقا قها م ق‪:‬ق ق‬ ‫بألا قذقا ء قباي‬

‫لت كالق تيا تق‪kernel‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪100‬‬
‫‪ -15‬مقدمة للتجميع ‪: Intro Clustering‬‬
‫ق ئح ق ل ه ق زبائ ق ‪customer‬‬ ‫ه اض ق م ا قذك ج قتياءات قحبائ ق قءرلم قت‬
‫قذك جات ق قهق‬ ‫ات ق تشاتل ق‬ ‫ق زبائ قي ق‬ ‫‪ segmentation‬قذي قتك‬
‫ة تيكي قعاذ ق‪ significant strategy‬ق يثقت ك قذ الق ع قذ قتا لد د قذ تكاتلكق‬
‫ل ئ ق ا ق‪.‬ق ق‬
‫ذ قذك ج قذاق لاقحبائ ق يثق با قجا ي ق ق خاةاق ليل ق‪high-profit and low-risk‬ق‬
‫قألم ق عاضقذ تكاتق‪purchase products‬قذ ق شة كقهخمذ ق ‪subscribe‬‬ ‫ع قذ ا‬
‫‪for a service‬قذ اقيكع ق ألا ق قج ا قيكا ق‪devote‬ق تاقإ ا ياق ل اظق‪retaining‬ق‬
‫ج قع ق زبائ ق‪.‬ق ق‬
‫قء تاجق‬ ‫ا تك ق عاو ق يس قذ ئ ا ق‪ feasible‬ق ك يات قعائل قذ ق ياءات ق ت ج ق‬
‫رلق قت ليلي ق تخاجق‪deriving‬ق ئاتق قذك جاتقذ ق ياءاتق ضخ ق‪.‬ق ق‬
‫ق زبائ قها جت ا قج قجملقج ذ ق‪factors‬قذ ق م اقتياءاتق زبائ ق تا ي ق‪:‬ق ق‬ ‫ي ك اقتك‬
‫‪customer ID‬‬ ‫‪age edu‬‬ ‫‪years‬‬ ‫‪income‬‬ ‫‪…..‬‬ ‫‪….. defaulted‬‬
‫‪employ‬‬
‫‪1‬ق‬ ‫‪ 22‬ق‬ ‫‪2‬ق‬ ‫‪3‬ق‬ ‫‪ 190‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬
‫‪2‬ق‬ ‫‪ 34‬ق‬ ‫‪1‬ق‬ ‫‪ 20‬ق‬ ‫‪ 100‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫‪0‬ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫‪ …..‬ق‬ ‫…ق‬
‫‪9‬ق‬ ‫‪ 50‬ق‬ ‫‪1‬ق‬ ‫‪5‬ق‬ ‫‪ 60‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬

‫ع قتل هق ياءاتق م ق بذ ا ق ت ميمقذيق زبائ قتش مقهعضلاق آل اق قذ قإ م قع هق‬


‫اقق عت ملق‪adopted approach‬قهق تك ق‪clustering‬ق‪.‬ق ق‬
‫ق‪unsupervised‬ق نقتعت مقج ق تشاهمقتيق اتق زبائ ق‬ ‫هقذ قةاقق تعليكق هةقإ‬
‫لق‪ mutually exclusive groups‬قتاىمق‬ ‫‪،‬ق يثق تكقتقايكق زبائ قإ قذك جاتقذ‬
‫اتق‬ ‫‪clusters‬ق اقءا قع اقذ قث ث قذ ااوق‪،‬قثكقي ك اقإنشا قتعرلفق ك ق اعقذعتةل ق‬
‫عاذ ق ك ق اعقج ق م ق‪.‬ق ق‬
‫ق‬

‫‪101‬‬
‫ق‬
‫‪1‬‬ ‫ق‬
‫‪2‬‬
‫ق‬
‫‪3‬‬
‫ق‬
‫ق‬
‫ءا قذ ق خ طقث ثق اجاتق ق‪ :‬ق‬
‫‪CLUSTER‬‬ ‫‪SEGMANT NAME‬‬
‫‪ cluster-1‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫‪ Young education & Middle income‬ق ‪ cluster-2‬ق‬
‫‪ cluster-3‬ق‬ ‫‪ Young & Low income‬ق‬
‫ق‬
‫ه يثق ق اعق ش قنا قذئول قذ ق ك وعق ك ق با تا قهاجت ا قع ق تقايكقي ك اق‬
‫إ ألاعق قحب ق قألم ق ياءاتق اات قإ ق اجمق لق نتىمقإ يمق ق‪ :‬ق‬
‫‪Customer ID‬‬ ‫‪Segment‬‬
‫‪1‬ق‬ ‫‪ Young & Low income‬ق‬
‫‪2‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫…ق‬ ‫‪ ….‬ق‬
‫‪ Young education & Middle income‬ق ‪ 9‬ق‬

‫ق‬ ‫ق زبائ قذ ق‬ ‫قت ا‬ ‫بددل قي ك اق تلم فقذ قت أليمقإج ءاتقذ م لقذ قهضاج قذع‬
‫تقاي اتق نق نت قإ لاقق‪ .‬ق‬
‫تعرلفق ق اعق‪cluster‬قع قذك ج ق ك ءاتق تشاتل ق‪similar‬قي اقتي لاق ق قتش مق قاطق‬
‫( ياءات)ق أل لق ق اجاتقذ ا ق ع اق ت ا ق ل ع قذاق اققتيق تك ق‪clustering‬ق‬
‫ق ت نيفق‪classification‬ق؟ ق‬

‫‪102‬‬
‫ ق يثق ق ملقذ قتياءاتق تم ل ق‬supervised‫ق‬ ‫يعتةق ت نيفقذ قءوعق تعليكق ب‬
‫)قبيكا ق فق ع رصق‬Decision tree‫يجق(ذ قها تخم وق‬ ‫تنتىمق فقذعيق ءم لق‬
‫ ق‬.‫قذيقذع ء قق‬labeled‫ألميمق تك ق ياءاتق‬
‫ق ياءاتق م اقتك ق‬unsupervised‫ق‬ ‫ق ل قذ ق تعليكق هةقإ‬clustering‫ذذاق ق تك ق‬
‫)ق ك ق ياءاتق تشاتل ق ي اقتي لاقثكقءعيمعكق‬K-means(‫ ق ناتخموقذ ق‬unlabeled
‫ ق‬.‫لكم ق احق ع ارصق للاقق‬
‫ق ق‬:‫رلقتيق م اقذكا تق قةاقق احق هق‬ ‫يا ق اققذكةقتيق‬
- Retail / Marketing : Identifying buying patterns of customers ‫ق‬
‫ها تقايط‬
- Recommending new books/movies to new customers ‫ة لد د ق تكاتق‬
‫ألميملق زبائ قألم‬
- Banking : Fraud detection in credit card use Identifying clusters of
customers ‫كشفق تيا ق قت نيفق ع‬
- Insurance industry : Fraud detection in claim analysis and Insurance risk
of customers‫قكشفق تيا ق ق اعق تأذيقذ ق ق زبائ ق‬
- Publication media : Auto-categorizing news based on their content and
Recommending similar news articles to readers .‫تك ق قا تق تشاتل ق ق‬
‫ق‬.‫تقميكق ا ق لقا ق‬
- Medicine : Charactering patient behavior ‫تشخيصق ل كق اضق‬
- Biology : Clustering genetic markers to identify familyist ‫ق ك نق‬ ‫تك‬
.‫ل ق ق قا ق‬ ‫يا ق ا هطق‬
‫ق ق‬:‫ق‬clustering‫ق‬ ‫بش قجاوقذكا تق تخم وق تك‬
- Exploratory data analysis ‫قت لي ق ياءاتق كتش‬
- Summary generation = reducing the scale‫قتلخيصق ياءات ق‬
- Outlier detection for fraud detection or noise removed‫ق كتشافق قيكق ق‬
‫ق‬.‫شايلق أل ق كتشافق ا تق تيا قذ قإح ق ضك ق‬
103
- Pre-processing step for other data-mining tasks or as apart of
complex system ‫تاتخموق قذا قذاق قذلاوق ت قي قج ق ياءاتقذ قككز قذ ق‬
‫ءظ ق عقمل‬

: ‫ الخوارزميات الرئيسية يف التجميع‬-1-16


1- Partitioned-based clustering :
‫قذيق اجاتقذتكتل ق أل قهعضلاق‬sphere-like clusters‫نت قج لاق اجاتقذ ق وعق‬
‫ق ق‬.‫ق ككقذ قذ فق اق‬ ‫ق تاتخموقع هق اقق ل ياءاتق م ةلق ق ت‬،‫آل اق‬
- Relatively efficient‫عا ق ق عي ق‬
- Eg. K-means, K-median, Fuzzy c-means

2- Hierarchical clustering :
Produces trees of clusters‫ق‬
‫ ق‬.‫نت قج لاقشكالق اجاتق تاتخموق ل ياءاتق هةلق ككق ق‬
Eg . Agglomerative , Divisive ‫ق‬

To Ea
oT Mo Vb Wi

104
‫‪3- Density-based clustering :‬‬
‫‪Produces arbitrary shaped clusters‬‬
‫تكقت يمقذك جاتقجش ئي قج مق أل ق ك قذ ق‪DBSCAN‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪ -‬خوارزمية ‪: K-means clustering‬‬
‫ا اق م اقذك ج قتياءاتقحبائ ق قءرلمقت ي ق‪customer segment‬قذيقج لي قتكز ققج ق‬
‫اتق قذ قع هق اققه ق‪ k-means‬ق يثق‬ ‫قذك جاتقت سق‬ ‫زبائ قه يثقي‬
‫تعتة قع ه ق خ حذي قذ قءوع ق‪ partitioning‬قذي قتقايك ق ياءات قإ ق اجات قتاىمقققققققققققققققق‬
‫قتكت ت ق لي ق‬ ‫‪ k non-overlapping subsets‬قذك جات قألزئي قغة قذتم ل ق‬
‫‪ cluster-internal‬ق ك ءاتق ق اعقذتشاتل قألم ق ذختل قج ق ق اجاتق ا ق ع اق‬
‫تكقةر ق يق‪:‬ق ق‬
‫‪ -1‬كيفقءكمق ع اتق تشاتل ق؟‬
‫ق ياءاتق؟‬ ‫‪ -2‬كيفقءقيسقذقم ق تشاهمقتيقج رصل قههضق ظاقج قذ عل اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪105‬‬
‫ء هق ءم قها اغكقذ قك ق‪ k-means‬قتك ق ياءاتق ق اجاتقها جت ا قج ق تشاهمق ي اق‬
‫تي لاق إءمقي ك اق تع ا قذقياوق ت ا ق‪dissimilarity‬قج اقج قذقياوق تشاهمقق‪ .‬ق‬

‫)‪Dis(x5,x6‬‬

‫)‪Dis(x1,x2‬‬

‫‪Intra-cluster‬‬
‫)‪Dis(C2,C3‬‬
‫‪Distances are‬‬
‫‪minimized‬‬ ‫‪Inter-cluster‬‬
‫‪Distances are‬‬
‫‪maximized‬‬

‫بش قتقليميق‪conventionally‬قتاتع ق اا قتيق ع اتق تشكي ق ق اجاتق رلق ققققق‬


‫‪k-means‬قت ا قت هةق اا قتيق ع ارصق ق ق اعقج ق م ق‪intra-cluster‬ق تك ةق‬
‫اا قتيق ق اعق آ اق‪inter-cluster‬قق‪ .‬ق‬
‫ت فقذ ق اا قتيق ا تيق(حب ءيقذ )ق؟ ق‬ ‫كيفقءقيسق‬
‫ق‬
‫ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪age‬‬
‫‪ 54‬ق‬ ‫‪50‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬ ‫ق‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬

‫‪106‬‬
‫قم قذات قذع ا ق اهقا ق م قء كاقذءم ق ن غ قذ قءق و قهع لي قتق يس ق‪ normalize‬ق ا اتق‬
‫ق لت ا ق‪accurate dissimilarity measure‬ق ق‪ .‬ق‬ ‫قج قذقياوق‬ ‫ل‬
‫ألمقذقا يسقت ا قذ ا قتاتخموق سق لمفق م لاقتعت مقج قءوعق ياءاتقبش قك ةقققق‬
‫قناتع ق‪:‬ق ق‬ ‫قج ق كا ق يقء قجليمقج لي ق احق‬
‫‪Euclidean distance , Cosine similarity , average distance‬‬
‫إي قذقياوق تشاهمقذلكقألم قه ا قة يع ق ياءاتق ق ة تق تشكي ق ق اجاتق قج لي ق‬
‫اح‪.‬ق ق‬
‫ق‪k-means‬قذ قتهايطق ياءاتق‪:‬ق ق‬ ‫ءع ق آل ق لكقةرلق قج‬
‫‪Customer ID‬‬ ‫‪ Age‬ق‬ ‫‪ Income‬ق‬
‫‪1‬ق‬ ‫‪ 32‬ق‬ ‫‪ 450‬ق‬
‫‪2‬ق‬ ‫‪ 23‬ق‬ ‫‪ 300‬ق‬
‫‪3‬ق‬ ‫‪ 44‬ق‬ ‫‪ 120‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬

‫قء تاجق تق يسق ء ظقذ ق ضا قي ق‬ ‫ء ظق م ق ي تمقها ئاتق ق ع اقها عش تق‬


‫ل ق‪:‬ق‬ ‫هعم ق‪2-dimentional‬ق ة كقذخ طق‪scatterplot‬ق ل ياءاتق ء حجلاقه‬
‫ق‬
‫‪Age‬‬ ‫‪Customer1‬‬ ‫‪Customer2‬‬ ‫ق‬

‫‪Income‬‬

‫ا ق احقع هق ياءاتق( زبائ )ق قذك جاتقذت ا زلق( اجات)قها جت ا قج قهعم ق‬


‫قطق‪.‬ق ق‬
‫ق‬

‫‪107‬‬
‫ق‬
‫هم ي ق ن غقذ قء م قجم ق ق اجاتق ققةرلق ق‪k-means‬ق تكق اضق ش قجش ق‬ ‫‪-1‬‬
‫ذاكزق ق اعقذيقء اضق ي ق‪k‬ق هقت م قجم ق ق اجاتق هقذاأ ق يادق لل ق‬
‫ن ا شلاق ي اقهعم ق‪.‬ق )‪ )Initialize k=3 centroid randomly‬ق تك قتا ي قع هق‬
‫اكزق‪ c1,c2,c3‬ق(‪)centroid of clusters‬ق ق ن غ قذ قيك ق لاقء سق ككق ة تق‬
‫لع ارصق أل لق ق ك ج قق‪.‬‬
‫ل ألمقةرلقتيق تيا قع هق اكزق‪:‬ق ق‬
‫ذ قءختا عاقجش ئياق‪3‬قذاكزق ا جقذك جاتق ياءاتقذ ق‪:‬ق‬ ‫‪-‬‬
‫]‪ C1 = [8.,5.] C2 = [5.,5.] C3 = [6.,3.‬ق‬
‫هعمق تيا ق اكزقء مذقه احق ياءات ق( زبائ ) ق ل اكزق ال ق م قج قةرل ق االق‬ ‫‪-‬‬
‫اا قتيق قج رصق ق اكزق تيا ق اكزق الق‪.‬ق‬
‫قتاىمق‪distance-matrix‬ق لاق ش ق تا ق‪:‬ق‬ ‫قج قذ‬ ‫إي ق‬ ‫‪-‬‬
‫‪𝐶1‬‬ ‫‪𝐶2‬‬ ‫‪𝐶3‬‬
‫) ‪𝑑 (𝑝1 , 𝑐1 ) 𝑑 (𝑝1 , 𝑐2 ) 𝑑 (𝑝1 , 𝑐3‬‬

‫) ‪𝑑 (𝑝2 , 𝑐1 ) 𝑑(𝑝2 , 𝑐2 ) 𝑑 (𝑝2 , 𝑐3‬‬


‫‪…………….‬‬
‫…………‬
‫) ‪𝑑 (𝑝𝑛 , 𝑐1 ) 𝑑 (𝑝𝑛 , 𝑐2 ) 𝑑 (𝑝𝑛 , 𝑐3‬‬
‫[‬
‫ق ق اكزق ق اعق يقتنتىمققإ يمق‬ ‫يك قعمفق‪k-means‬قتقلي ق اا قتيق ق‬
‫قتك ةق اا قتيق اكزق‪.‬ق ق‬

‫قذ ق م ي ق‬ ‫قجش‬ ‫قءق قذ قع هق ع لي ق يق قك اي ق ء اق ةءاق اكزقبش‬


‫ا يجق يمق أق تكق ااهمق ا تا ق ق‪ :‬ق‬
‫𝑛‬

‫‪𝑆𝑆𝐸 = ∑(𝑥𝑖 − 𝑐𝑖 )2‬‬


‫‪𝑖=1‬‬
‫𝑑𝑖𝑜𝑟𝑡𝑛𝑒𝑐 𝑠𝑡𝑖 𝑑𝑛𝑎 𝑡𝑛𝑖𝑜𝑝 ‪∶ 𝑡ℎ𝑒 𝑠𝑢𝑚 𝑜𝑓 𝑡ℎ𝑒 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 𝑒𝑎𝑐ℎ‬‬

‫دق‬ ‫ق قذاكزق ق اعق يقتنتىم قإ يمق آل قذ‬ ‫ا قتيق قءق‬ ‫ذك وعقذربعاتق‬
‫ذل ت اقتقلي قع ق خ أق‪.‬ق ق‬

‫‪108‬‬
‫ق‬
‫ق‬
‫طق‪mean‬قتياءاتق ق اعق يق‬ ‫‪ -‬ق خ لق اءي قءق وقتت رل ق اكزق تك ق قذت‬
‫تات طقهمق‪.‬ق‬
‫حق‬ ‫ق م ا قإ م ثيات قءق تي ق)‪ A(7.4,3.6),B(7.8,3.8‬ق ا اكز ق كميم قي‬
‫لكقذيق)‪c2((7.4+7.8)/2,(3.8+3.6)/2) = (7.6,3.7‬قق‪ .‬ق‬ ‫ذت‬
‫ق‬
‫‪C1‬‬ ‫‪C4‬‬

‫‪C3‬‬
‫‪B‬‬
‫‪A‬‬

‫ثكقءعيمق االق اا قتيقءقاطق ق اعق اكزق كميمق مقثكق االق خ أقذ ق‬


‫ألميمق قءعيمقتقايكق ق اجاتقه ا ق اا اتق كميملقق‪ .‬ق‬
‫تي قتت رل ق اك قزقققققققققققققققققققق‬ ‫حذي ق‪ k-means‬قتكا ل قه يث قءكا قآ ا ق‬ ‫نات ت قذ ق‬
‫قج قذ ض قتقايكق لق اجاتق‪most dense clusters‬ق‪.‬ق ق‬ ‫ق االق اا اتق نقء‬
‫حذياتق‪heuristic‬ق ق ألمقذيق ا قذء اق قةلق ل ق‬ ‫ج ق ق ا قج مذاقناتخموق‬
‫ذ ق‪ global optimum‬ق تيك ق تعت م قج ق ق اجات ق ي ق م قي ك ا ق جت ا ق‬
‫ق ض قءتيك ق‪ .‬ق‬ ‫قجل لاقذ ا ق‪local optimum‬ق ليسقها رص لق‬ ‫تيك ق نقء‬
‫حذي ق‬ ‫ض قك ءلاق‬ ‫ق‬ ‫قج ق‬ ‫م ق قذش ل ق قتكا ق خ حذي قك ة قههي ق‬
‫لع ق‪.‬ق ق‬
‫اتلاقبش قذل وق‪more concretely‬ق‪:‬ق ق‬ ‫قع هق خ حذي ق‬ ‫نتعافقج ق‬
‫‪1- Randomly placing k centroids ,one for each cluster‬‬
‫ءض ق اكزقجش ئياق لق اجاتق ل اقت اجمتق ق اجاتقج قهعضلاق ا قذ ض ق‪.‬ق ق‬
‫‪2- Calculate the distance of each point from each centroids .‬‬
‫اال قذاا ق قءق قج ق اكزقها تخم و ق‪ Euclidean distance‬ق ه ق كةق‬
‫ش جاقق‪ .‬ق‬

‫‪109‬‬
‫‪3- Assign each data point (object) to its closest centroid for creating a‬‬
‫‪cluster .‬‬
‫ءربطق قءق قها اكزق الق لاق قنش ق ق اعقق‪ .‬ق‬
‫‪4- Recalculate the position of the k centroids .‬‬
‫هعمقتشكي ق ق اجاتقءعيمق االقذاكزق ق اعقه يثقيك قذ عمق كميمقع ق‬
‫ق اجمقق‪ .‬ق‬ ‫ذت طق قاطق نق‬
‫‪5- Repeat 24 until the centroids no longer move .‬‬
‫ءعيمق خ تقذ ق‪2‬قإ ق‪4‬ق نق قيك قع ا قذيقت اكقذل ظق ل اكزق‪.‬ق ق‬
‫ا ق‪:‬قكيفقء م قأل لق‪goodness‬قع هق ق اجاتق نقءتكدقذ ق‪k-means‬قذيقكيفق‬
‫ء ا ق قع هق رلق ق؟ق ق‬
‫ألمقء جيق اقق االق م ق‪:‬ق ق‬
‫ةاقق ا ألي ‪- External approach :‬‬
‫‪Compare the clusters with the ground truth if it is available .‬‬
‫قإ قذذك قي ق‪،‬ق يثقع هق خ حذي قق‬ ‫ت ق قذ قأل لق ق اجاتقج قذ ضق‬
‫‪k-means‬قغةقإ ي ق‪unsupervised‬ق ع هق اققغةق عي ق عموق أل ق قائ ق‬
‫نات قذقا ءتلاق لاق‪.‬ق‬
‫ةاقق لي ‪- Internal approach :‬‬
‫‪Average the distance between data points with a cluster .‬‬
‫ق‬
‫ء ا ق ي قذت طق اا قتيق قاطق ق ق اعق‪،‬قك قيعتةقذت طق اا اتق‬
‫ل قاطقج قذاكزعكق ق ق اعقذقياوق لخ أق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫‪Mean distance data points‬‬

‫ق‬
‫‪elbow point‬‬
‫ق‬
‫‪to cluster centroid‬‬

‫‪k=5‬‬ ‫ق‬
‫ق‬
‫ق‬
‫‪K=1‬‬ ‫‪K=9‬‬ ‫ق‬
‫‪110‬‬
‫ق‬
‫ق‬
‫ ق ءم قذتعل قبش ق قت حع ق ياءاتق‬ambiguous‫ قذذاق يم ق هس ق‬k‫ق قت ميمقجم ق‬
‫قهم ي قجش ئياقثكقءقيسق‬k‫ع ا قةاقق ت ميمعاق م قذجكقع هق اققذ قء م ق ي ق‬
‫ق ق‬.‫م ق ءكا ق ع لي قجملقذا تق‬
‫ق إ ق اا قتيق اكزق ق قاطق‬k‫ش ل قذءمق قحلا لقجم ق ق اجاتقذيقحلا لق ي ق‬
‫يج ق إ قءق ق‬ ‫قج مذاقءا ك ق ق‬ ‫ قيقل ق خ أق‬k‫ت خ ض ق با تا قحلا ل ق‬
‫قذيقءق ق ءع افقتت م قج مق ق ق نق مذقج معاقذت طق‬elbow point‫ق‬ ‫ت‬
‫ق ق‬.‫ق‬elbow‫اا اتقتيق قاطق ق اكزقها ءخ اضق ع هق رلق قتاىمق‬
:‫ق ق‬ ‫لخصقذاق‬
‫ق‬
k-means is a partitioned-based clustering which is :
a- Relative efficient on Med&Large sized dataset .
b- Produces sphere-like clusters ,because the clusters are shaped
around the centroids .
c- Its drawback is that we should pre-specify the number of
clusters and this is not easy task .
‫ق ق‬:‫ق ع اق‬k-means‫قذ ا يقج ق‬ ‫أ‬
- K-means on a random generated dataset
- Using k-means for customer segmentation
‫ ق‬:‫ق ق‬ ‫ء مذقها ا ق‬

‫ق‬
111
‫ق‬
‫نش قذك ج قتياءاتقجش ئي ق ء م قذاكزعاقها تخم وق‪k-means‬ق ق‪ :‬ق‬

‫‪112‬‬
‫كايق آل قإجم تققققق‬ ‫اقتتشكي قذك جاتق ياءاتق عش ئي ق‬ ‫ق‬ ‫إ قع هق ا ل قءك‬
‫‪k-means‬ق‪:‬ق ق‬
‫يجق ق‪ :‬ق‬ ‫قهعمقتم ل ق‬ ‫ا‬ ‫تت ميمقجم ق اكزق ق ق اجاتق ةرلق قإيكا ق اكزق‬

‫ق‬

‫‪113‬‬
‫هعمق االق اقكزقء تاجق ا كق ياءاتق‪:‬ق ق‬

‫‪114‬‬
‫قذ ب د ق اجاتق‪.‬ق ق‬ ‫ظقكيفقتكقتقاي لاق‬ ‫ء‬
‫ق‬
‫‪115‬‬
‫قإجا لقت يمق ياءاتقذ قألميمق‪:‬ق ق‬ ‫قث ثق اجاتق‬ ‫ل قذ ءاقتقاي لاق‬

‫ق تخم وق‪k-means‬ق قتقايكق زبائ ق ك جاتق ق‪ :‬ق‬ ‫ءأ ق آل ق ل ا ق ا ق‬


‫ق ياءاتق ءظلاعاق‪:‬ق ق‬ ‫ء‬

‫حذي ق‪k-means‬ق قتتعاذ قذ ا لقذ ق عل ذاتق ي ق‬ ‫ع ق‪Address‬قءصق م اق‬


‫قةرلق ق‪ Euclidean distance‬ق ق االق اا اتقج ق اكزق قتتعاذ قذ ق ياءاتق‬
‫قءزللمق ق‪ :‬ق‬ ‫تق ع ق‬

‫‪116‬‬
‫اقءا قت حلد د قتياءات اق يسقذت ا قاق لاقه ئ ق عش تق ذ لاقآ ا ق ذ لاقذألز ق عش تق‬
‫قءكايقتق يالاقه ااجملق كت اتق ب ائي ق‪:‬ق ق‬

‫يجقهعمق اضقجم ق ق اجاتق بقي قها ذة تق‪k-means‬ق‪:‬ق ق‬ ‫ءم لق‬

‫ق‬

‫‪117‬‬
‫ءعيمقت حلد د ق قيكق لكم ق‪:‬ق ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪118‬‬
‫ثكقءا كق ياءاتق‪:‬ق ق‬

‫ق هعا ق ق‪ :‬ق‬ ‫بش قث‬

‫‪119‬‬
‫ق‬
‫ق‬
‫الهرم ‪: Hierarchical clustering‬‬
‫ي‬ ‫‪ -‬التجميع‬
‫قذ قذخ طق‪chart‬ق رل قجا ىمقذ ق عل ا قتاهعيق ظ قت ألي ق‪UCLA‬ق‬ ‫ق يك ق م اق قرل‬
‫ق‬ ‫ق كل قذ م لقذ ق‪85‬ق‬ ‫ق خ طقبجم قتقرلاقأل نق دق‪900‬ق‬ ‫لتكق تخم وقع‬
‫طق ق ققآ ياق‬ ‫قذذرل اق ك وبي ق قذ باق ق شقق‬ ‫ق‪200‬قيئ قتايق‬ ‫‪breeds‬ق ذكةقذ‬
‫ي )ق‪.‬ق ق‬ ‫قع ق ا ق م مق ق قألل قذاقذ ق مالق‬ ‫( ب اقتاتهالقذ‬
‫تكق تخم وق تق ياتق ثي ق كزئي ق‪molecular genetic techniques‬ق ت لي قذكةقذ ق‬
‫ءاتقها جت ا ق‬ ‫‪ 48000‬قج ذ قأل ني ق‪genetic markets‬ق ت يق اقذخ طقي احقع هق‬
‫ج ق تشاهمق قتنياتلاق ك ني ق‪،‬ق يثق تكقت اؤهقبش قعامق قجقمق قجقملقهق اعقه يثق‬
‫تتأ فق عقملقذ قجملق اجاتقذ ا قتم قذت ائلاق لتكقت ا ق تك ق لام قها جت ا قج ق‬
‫ء جيقذ ق اقق ق‪ :‬ق‬

‫‪120‬‬
‫‪ -‬تقايكق‪Divisive‬ق مق تكاهق‪top-down‬قذيقء مذقها تالا قذ ق اذوق لقاجملقذيقء مذق‬
‫ها قاكق كةقثكقءكزئمق ااوقذ هاقذ مق عك ق ن قءنته قذ ق تقايكق ‪dividing‬‬
‫‪the clusters‬ق ق‪.‬‬
‫‪ -‬تك ق‪Agglomerative‬قيع قبش قذعاكسق ااهقمق‪bottom-up‬ق يثق ق قاعق‬
‫مذق مهق ل اق ألت قذ ق اعقآ اق ش ق اجاق م ق نقء ق لق ق ل قج ق‬
‫ق‪.‬‬ ‫قع ق‬ ‫ذ مذق تك قذ ق تكم سق‪amass‬ق هق اوق ققجلكق ياءاتق ذ‬

‫‪Divisive‬‬ ‫ق‬

‫‪Agglomerative‬‬

‫ق‬
‫أ قذ ا قج ق تك ق يثقع هق رلق قت ن ق لاوقذ ق ع ارصقتإألا ق مذ ق تم لجق‬
‫‪progressively merging‬ق لق اجاتق‪.‬ق ق‬
‫م ق‬ ‫ق قءرلمقتك ق‪ 6‬قذم ق قك م قها جت ا قج قهعمق( اا )ق قذ لاقج ق ا ق‬
‫هق‪:‬ق‪Toronto,Ottawa,Vancouver,Motreal,Winnipeg,and Edmonton‬ق‪.‬ق ق‬
‫ق اا اتق)‪dis(i*j‬ق‪:‬ق ق‬ ‫نا لاقذ‬
‫‪ TO‬ق‬ ‫‪ OT‬ق‬ ‫‪ VA‬ق‬ ‫‪ MO‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 505‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ OT‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 167‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 3690‬ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ MO‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1824‬ق‬ ‫‪ 2976‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫‪121‬‬
‫ق اا اتق ن مذقتت أليمق قذم قإ ق اجلاق ع مءقا ق‪ 6‬قذم قذي ق‪6‬ق‬ ‫هعمق االقذ‬
‫اجاتق ق اعقي يقذم ق ملق قطق‪،‬ق تك قيعت مقج ق قالقتيق م ق ق‪ .‬ق‬
‫قءكم قذ ق اا قتي ق‪ MO,OT‬قه ق‪ 167‬ق ه قذ ها قذاا قتي قذم نتيق‬ ‫ذ ق‬
‫ك عل اق ق اعق مق‪.‬ق ق‬
‫ء ظقذءمقءعت مقج قذةلق‪feature‬ق ملق هق اا قذيقهعمق مقذ قذءمقي ك اق جت ا ق‬
‫حذيات قجميمل قذ لا ق ‪Pearson,Eucluiden,Average‬‬ ‫ج قذكة قذ قذةل قها تخم و ق‬
‫‪Distance‬ق ي قه ا قءوعق ياءاتق ذكا ق عا ق م اق‪.‬ق ق‬
‫ق‬
‫‪TO OT MO VA ED WI‬‬
‫مقءعيمقتاتي ق م قذ قألميمقق‪.‬‬ ‫هعمق ذ ق م نتيق‪OT,MO‬ق ق اعق‬
‫‪ TO‬ق‬ ‫‪OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪OT/MO‬‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ق‬
‫اقذ ق‬ ‫مقكيفق تكق االقذاا تل اق ول قج ق م ق‬ ‫م قهعمق ذ ق‪OT/MO‬قهق اعق‬
‫‪WI‬ق هق‪1676‬ق؟ ق‬
‫قذ لاق‪:‬ق اا قتيقذاكزق اا قتيق‪OT&MO‬ق بيقذاكزق‪WI‬ق عك ق‬ ‫ع ا قجملقةاقق‬
‫ق‪:‬ق ق‬ ‫ء مثق ا قتياءاتق‬
‫ق‬
‫‪MO‬‬
‫ق‬
‫‪WI‬‬ ‫‪OT‬‬
‫ق‬
‫ق‬

‫‪122‬‬
‫ألمءاقذ قذ هاقذاا قتا ي قتي ق ق اعق كميمق‪ OT/MO‬ق ق‪ TO‬ق ه ق‪ 351‬ق با تا قءضعل اق‬
‫ق اعق مقق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫ءعيمقتشكي ق‬
‫‪TO/OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬

‫ءكمق آل قذ القذم نتيق عضل اقع اق‪ED,VA‬ق هق‪819‬ق تش ق م اق اعقألميمقتي ل اق ق‪ :‬ق‬


‫‪ VA/ED‬ق ‪TO/OT/MO‬‬ ‫‪ WI‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 2840‬ق‬ ‫‪ 1676‬ق‬
‫‪ VA/ED‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1667‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ثكقءكمقذ الق اجيقع اق‪WI‬ق ق‪VA/ED‬ق‪:‬ق ق‬
‫‪ VA/ED/WI‬ق ‪TO/OT/MO‬‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 1676‬ق‬
‫‪VA/ED/WI‬‬ ‫ق‬ ‫ق‬
‫ق‬
‫مق ك مق‪6‬ق ق‪ .‬ق‬ ‫ل اقج ق اعق‬ ‫ق ق اجاتقها تالا ق نقق‬ ‫ظقذءمقتكق ذ قأل‬ ‫ء‬
‫ق‬
‫ق‬

‫‪123‬‬
‫لتكقت ي ق شكالق لاذي قه خ طقنا يمق‪Dendogram‬ق‪:‬ق ق‬
‫ق‬
‫ق‬

‫‪y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬
‫ق‬
‫‪Dendogram‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪ED‬‬ ‫ق‬
‫‪OT‬‬ ‫‪MO‬‬ ‫ق‬
‫‪WI‬‬
‫ق‬

‫‪VA‬‬ ‫ق‬
‫‪TO‬‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪124‬‬
‫ي قذكةق‪:‬ق ق‬ ‫تمقتت‬ ‫ءع ق ل خ طق م‬
‫ق‬
‫‪y‬‬
‫ق‬
‫خط أفقي‬
‫ق‬
‫ق‬
‫خط قطع للشجرة الهرمية‬

‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬ ‫ق‬
‫نتيجة القطع حصلنا على ‪ 3‬قطاعات‬

‫ق‬
‫‪Dendogram‬‬ ‫ق‬
‫ق‬
‫ق‬
‫قتي ق ق اجاتقهخطقذ ق ق يثقتعتةق ب م ثياتق‪y‬ق‬ ‫تكقت ي ق ق ءمذاجق‪ merge‬قي‬
‫ذقم ق تشاهمقتيق ق اجاتق نقتكق ذكلاق ول قق‪ .‬ق‬
‫فقهاتكاهق‬ ‫ققذ ا اقهم ي قتكق جت ا ق قذم ق اعقه مقي تمق با ءتقا ق ق خ طقذ ق‬
‫ق ع ق يق‬ ‫ج ق تك قإجا ل قت ا ق‪ reconstruct‬قج ليات ق مذ ق ي قذءت قع ق تك‬
‫‪depicted clustering‬ق‪.‬ق ق‬
‫قع هق رلق ق ق ألمق ة ضقذ ق عم ق ق اجاتق قذ قي ق قهعضق ت يقاتقء تاجق‬
‫ل ق‪disjoint clusters‬ق اقع قذت ق ق تك ق ا حق ‪flat‬‬ ‫إ قتكزئ ق ق اجاتق‬
‫‪clustering‬ق‪.‬ق ق‬
‫قذعيق‬ ‫ق شكالق لاذي قج مقهعضق قاطقذ ق تشاهمق قذات‬ ‫ج مقع هق ا تق تكق‬
‫تشكي ق اجاتقذتشاتل قق‪ .‬ق‬
‫حق م قاقث ث ق اجاتقهم قذ ق اءدق‪6‬ق‬ ‫قذ‬ ‫اق مثق قذ ا اق اات قءكمقج مق طق ق‬
‫اجاتق‪.‬ق ق‬
‫ق‬

‫‪125‬‬
‫ق‬
‫ق ق‬ ‫ق‪ bottom-up‬قه اض ق م اق‪ n‬قءق‬ ‫قذ ق قاجمل ق لق‬ ‫إي ق تالا ق قج لي ق تك‬
‫ذك ج ق ياءاتق ق‪ :‬ق‬
‫‪1- Create n clustres ,one for each data point‬‬
‫‪2- Compute the proximity/Distance matrix : n*n‬‬
‫‪3- Repeat :‬‬
‫‪3-1- Merge the two closest clusters‬‬
‫‪3-2- Update the distance matrix‬‬
‫‪4- Until only a single cluster remains‬‬
‫ق ت اجمقتيق ق اجاتق ق‪ :‬ق‬ ‫لعلكقيك قش قذ‬
‫‪0‬‬
‫‪𝑑(2,1) 0‬‬
‫[‬ ‫]‬
‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫قهعمق ق اعقج قء امقق‪ .‬ق‬ ‫رل ق ق اعاق قائيسق‪0‬ق ءمقي‬
‫نت ق م اقهعضق تااؤ تق‪:‬ق ق‬
‫الق ي اقتي لاقذ قع هق‬ ‫‪ -‬كيفق تكق ياوق اا اتقتيقع هق ق اجاتق كيفقءعافق‬
‫ق اجاتق؟‬
‫‪ -‬ذاقهق قاطق نقناتخمذلاق قذك ج ق ياءاتق م اق؟‬
‫ملق‪:‬ق ق‬ ‫ق‬ ‫ة قكيفقء ا ق اا قتيق اجيق(ذرلضي)ق ك قذ ل اقءق‬
‫‪Age‬‬ ‫‪BMI‬‬ ‫‪BP‬‬
‫‪Patient1‬‬ ‫‪54‬‬ ‫‪190‬‬ ‫‪120‬‬
‫‪Patient2‬‬ ‫‪50‬‬ ‫‪200‬‬ ‫‪125‬‬

‫ق‬
‫ق‬

‫‪126‬‬
‫ت فقتيق قاطق ا تا ق‪:‬ق ق‬ ‫ه رلق ق‪Euclidean‬قء ا ق‬

‫𝑛‬

‫‪𝐷𝑖𝑠(𝑃1 , 𝑃2 ) = √∑(𝑥𝑖 − 𝑦𝑖 )2‬‬


‫‪𝑖=0‬‬

‫‪= √(54 − 50)2 + (190 − 200)2 + (120 − 125)2 = 11.87‬‬

‫ت فق‪dissimilarly-distance‬ق‪:‬ق ق‬ ‫ق‬ ‫ق(ذرلض)ق نت ق م اقذ‬ ‫اضق م اق‪n‬قءق‬

‫‪P1‬‬ ‫𝐼𝐼𝑥‬ ‫𝐹𝐼𝑥 …‬ ‫𝑃𝐼𝑥 …‬ ‫‪0‬‬


‫⋮‬ ‫⋱‬ ‫⋮‬ ‫‪𝑑(2,1) 0‬‬
‫[‬ ‫[ >= ]‬ ‫]‬
‫‪P2‬‬ ‫𝐼𝑖𝑥‬ ‫𝐹𝑖𝑥 …‬ ‫𝑃𝑖𝑥‬ ‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫‪𝑥𝑛1‬‬ ‫𝐹𝑖𝑥‬ ‫𝑃𝑛𝑥‬ ‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫‪Data set‬‬ ‫‪Dissimilarity matrix‬‬

‫ق‬
‫ق‪Agglomerative‬ق اق ق‬ ‫اق ذ اقذءمقتكق مذ قتيق ق اجاتق تقا ب ققهخ حذي ق تك‬
‫ش ق ت ي ق ق‪ :‬ق‬

‫‪P1‬‬ ‫‪P3‬‬

‫‪P2‬‬

‫ق قاط ق( اض) ق تشاتل ق‬ ‫م قكيف ق تك ق اال قالمسافة ربي القطاعات ق ن قتك‬


‫لا؟ ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪127‬‬
‫ق ق‬:‫ق يثقءكمق ق اجاتق تقا ب ق ق ذكلاق‬ ‫ألمقجملقتعرل اتق‬
- Single-Linkage Clustering :
Minimum distance between clusters :
‫) ق‬a,b(‫يثقء ألمقذ هاقذاا قتيقءق تيق قذ ل اق ق اعقذ ق‬
‫ق‬
‫ق‬

- Complete-Linkage Clustering :
Maximum distance between clusters :
‫ق ق‬:‫إيكا قذة قذاا قتيقءق تيق قذ ل اق ق قاعق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

- Average Linkage Clustering :


Average distance between clusters :
‫ق ق‬mean distance‫طق اا اتقتيق قءق قذ ق ق اعقج ق قي ق‬ ‫ء ا قذت‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
- Centroid Linkage Clustering :
Distance between clusters centroids .
‫ق ق‬.‫ء ألمق اا قتيقذاكزيق ق اجيق‬
‫ق‬

128
‫تعت مق رلق ق ت ع ق االقع هق اا اتقج قءوعق ياءاتق قذهعا عاق قذعكقس قذكا ق‬
‫ياءاتق نقءتعاذ قذعلاقق‪ .‬ق‬
‫الهرم ‪:‬‬
‫ي‬ ‫‪ -‬سلبيات و إيجابيات طريقة التجميع‬
‫‪Advantages‬‬ ‫‪Disadvantages‬‬
‫قت تاجقت ميمقجم قذعيقذ ق ق اجات ق‬ ‫قق يق‬ ‫ق ع‬ ‫لق‬
‫قي ك ق ة أل قج قذيق‬
‫تكق ذ ق ق اجات ق‬
‫ق‬ ‫لل ق ت‬ ‫تأ ق تاقةول ق ل ااهات ق‬
‫ذ ياءاقي ع قت ميمقجم ق ق اجاتق ق خ طق نسق اقذخ طق‪dendogram‬قذ اق ال ق‬
‫لكقج ق خ حذي ق‬ ‫ج مذاقيك ق م اقذك ج قتياءاتق خ ق‬
‫ق‬
‫الهرم و ‪: k-means‬‬
‫ي‬ ‫‪ -‬مقارنة ربي التجميع‬
‫‪K-means‬‬ ‫‪Hierarchical‬‬
‫ذكةق عا ي ق ل ياءاتق ضخ ق‬ ‫ه ئ ق ل ياءاتق ضخ ق‬
‫قت تاج قت ميم قجم ق ق اجاتق ء م قجم ق ق اجاتق ق م ق‬
‫ت مذق ع ق‬
‫تعط قذكة قذ قتقايك قها جت ا ق تعط ق قط ق اك ق مق ل ياءات قها جت ا قج قجم ق ق اجاتق‬
‫قة ق‬ ‫ج ق م ق لوب ق‬
‫قذال قتعط قجم ق اجات قذختل قه ا قجم ق اكزق‬ ‫ذاقتعطقء سقجم ق ق اجات ق‬
‫ة قبش قجش ق يقت مذق خ حذي قها ع ق‬

‫ءأ ق ا قذشاهم ق ا ق ا قهم قج م ق تخم و ق‪ k-means‬قتت يم قذك ج قتياءات قجش ق ئي ق‬


‫ق لام ق ت ميم ق‪ Agglomerative‬ق ءم ق كة قش جا ق قق‬ ‫تك يعلا قها تخم و ق تك‬
‫تخم وق‪:‬ق ق‬
‫حذ ق‪:‬ق ق‬ ‫هم ي قءق وقها تة ق كت اتق‬

‫‪129‬‬
‫ثكقء مقذك ج قتياءاتقجش ئي ق قءا لاق‪:‬ق ق‬

‫ق‬
‫ق‬
‫يجق‪:‬ق ق‬ ‫ق لامق تم ل ق‬ ‫حذي ق تك‬ ‫ءق وقها تخم وق‬

‫ق‬
‫ق‬
‫ق‬

‫‪130‬‬
‫ل اقجل لاق‪:‬ق ق‬ ‫ءا كق تيك ق نق‬

‫ق‬
‫‪131‬‬
‫ق تقا لق‪:‬ق ق‬ ‫ء ا قذ‬

‫ق لامق‪:‬ق‬ ‫ءا كقذخ طق‪dendrogram‬ق يقيعةقج ق تك‬

‫ء ظقذء اق تخمذ اقةرلق ق‪ complete‬قج مق االق‪ Z‬قإيقي ك اق تيا قةاققذ ا قذ ق‬


‫‪average‬ق‪:‬ق ق‬

‫‪132‬‬
‫ق نقتتعل قه يع ق اأ ق ءوعق‬ ‫ع هق اقق ب ائي ق نقتعطقءتائ قذختل ق ق تك‬
‫ياءاتق تيك ق ض ق نقءاأل عاق ق‪ .‬ق‬
‫ق‬
‫‪ -‬التجميع ‪Density-Based Spatial Clustering of Applications with‬‬
‫‪: Noise DBSAN‬‬
‫ه قذ ا ق‪ appropriate‬ق تخم و ق ق ت ا ق ياءات قذي قيك ق لاق ي ق ق ياءاتق‬
‫ق جتيا ي ق ااهق ق ‪k-means,hierarchical,fuzzy‬‬ ‫شايل ق عظك قةاق ق تك‬
‫حذياتق‬ ‫‪clustering,….‬قتق وقتتك ق ياءاتقه رلق قغةقإ ي ق‪unsupervised‬ق هق‬
‫ائ قج ق تقايكق‪ partitioning-based‬ق ه قج لي ق ق لل ق لكق م ق يسق لاق ي ق‬
‫‪ notion‬قها قيكق شايلق‪ outlies‬قذيق ق قاطق ت تىم ق ق اعقذاق ن ق ق كقتك قذ مق ل هق‬
‫ذ ق مقتتاه قت عض ق شاك ق أل ق قاط ق شايل ق ياه ق قت ميمقذاكزق ق اعق‬
‫مق‪.‬ق ق‬ ‫أل لق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪133‬‬
‫ع م قتك ق قاط قيظلاقج مءا قجمل ق ء اط قذ ق‪ :‬ق‪ spherical-shape clusters‬قكا ل ق‬
‫ش قذ قكي ي ق ش ق‪arbitrary-shape clusters‬ق( جت اةي )ق ق‬
‫ق‬

‫كروية الشكل‬
‫ق‬
‫ق‬

‫قطاع ضمن قطاع‬

‫شكل عشوائي‬

‫ق‬
‫تق ياتق تك ق ااهق ق قتك قذكمي قج مذاقتك ق ع ارصق قء سق ق اعقغةقذتشا ك ق‬
‫ق عي اق‪.‬ق ق‬ ‫بش ق افقها تشاهمق ي اقتي لاق يك ق‬
‫حذي ق‪ DBSCAN‬قتق و قتتك ق قاط قذ ق يث قك ا تلاق‬ ‫ها قاه ق‪ in contrast‬ق إ ق‬
‫قك ا ق تعافقع اق‬ ‫ع مذاقتك قك ي قك اي قتك علاق ول ق ت للاقج ق ك جاتق‬
‫م ا قج قذءلاقجم ق قاطق قء فق اقذ م ق‪radius‬ق ه ق عا قألم ق ق تك ق يق‬
‫مقج قها ا قذ ق ةق(ذ ق تك عاتق اك ي ق قغةعا)ق تعتةق ةلق ا ي ق لاقهق‬
‫مق ق تأثاقها ضك قذ قها قيكق‬ ‫كتشافق ةقتك ق قاطقهأيقش قجش قذ أل لق‬
‫شايلق ق‪ .‬ق‬
‫ا ق كول ق ‪the location of weather‬‬ ‫قذ اتق‬ ‫ذ ا قج قي ق رل قت م قذ‬
‫‪station‬ق قك م قع اقي ك ق خ حذي ق‪DBSCAN‬قذ قتك ق اكزق( ا م)ق نقتعطقء سق‬
‫ا ق كول ق‪.‬ق ق‬

‫‪134‬‬
‫يثق يسق قطقتق وقع هق خ حذي قذش ا ق ق اجاتق تعم لقه قت م قك ق كز ق كةق‬
‫قك ا قذ ق نق لاق ك قذ ق يكقشايلقق‪ .‬ق‬ ‫ك ا قها ياءاتق ي قتتكاع ق اة ق‬
‫ليى كيف تعمل هذه الخوارزمية ‪:‬‬
‫ق‬ ‫حذي ق اقذ ل اقجل قك ا ق قاطق ي قهقياوقذم ق القع هق قاطقذ‬ ‫هق خ‬ ‫تعت مقع‬
‫ق‬ ‫قء س ق ق اع ق تق و قتتك يعلاق تعت مقع ه ق ع لي ق ااتي قج قذذرل‬ ‫عض ق‬ ‫هعضلاق‬
‫ق‬ ‫اق)‪R (radius of neighborhood‬قذاقهق قاطق أل لقج قهعمق‪R‬قذ‬ ‫فق ق‬ ‫ذ ل اقء‬
‫ق‬ ‫جت ا قج قجم قع هق قاطقي ك اقتا تلاقذ ق قك ي ق‪dense-area‬قذ‬ ‫يثقها‬ ‫ءق قذاق‬
‫ق‪.‬ق ق‬
‫قجم قذ ق قاطق‬ ‫ذاق ا قع ق)‪ M (minimum number of neighborhood‬قذ‬
‫كا لق ق قذاق ق وقتتك يعلكقذ قهعضق تشكي ق اعقذاتق قق‪ .‬ق‬
‫ق ئالقء فق اعاق‪2‬ق كقجم قذ ق قاطق‬ ‫اضقذ ق‪R = 2 cm‬ق ق‪M = 6‬قذيق م اق‬
‫ق‪.‬ق ق‬ ‫ع ق‪6‬قءقاطقذ ق ق ق م‬
‫صقءوعقع هق قاطق يثق م اقث ث ق ت ا تق ق‪ :‬ق‬ ‫يك قهم ي قت‬
‫ق( ا ألي ) قشايلق‬ ‫قذ ي ي ق‪ border point‬ق– قءق‬ ‫ءق قذاكزل ق‪ core point‬ق– قءق‬
‫‪outlier point‬ق‪.‬ق ق‬
‫لاقع قه قذاكزل ق يثقتعتةقذاكزل قج مذاقتك ق‬ ‫يثقءختا قءق قجش ئي ق ء مذقتت‬
‫ق(ها جت ا قج قذ ا ا) ق‬ ‫ق م ئالق‪6‬قءقاطقج ق‬ ‫ق ئالقء فق اعاق‪R‬ق‬
‫ق‬ ‫قءختةعاقع قهقذاكزل قذوق ق نقءنتهقذ قأل‬
‫ق‬ ‫ع مذاق قتك قذاكزل قءنتق ق ق قذ ا ق‬
‫قاطق لت م ق اق ق ق اكزل ق‪.‬ق ق‬
‫ق ئالق‬ ‫ع ق اضق ألمءاقج كمق ت ا قءق قذاق أل ق‪5‬قءقاطقه اق لاق ق ق ختةلق‬
‫ء فق اعاق‪R=2‬قج معاقتاىمقءق قذ ي ي ق هق ق ق نقت ت يق ئاتلاقذ قذ ق عم ق‬
‫ق ئالقذاكزعاقءق ق‬ ‫قءق قذاكزل قذ ا قذيقتك ق‬ ‫‪ M‬قذ قي ك قذ قء قإ لاقذ ق‬
‫ذاكزل ق‪.‬ق ق‬
‫ق ئالقء فق اعاق‪ R‬قذيقءقاطقذاكزل قذ قجم قءقاطق‪M‬ق‬ ‫ق‬ ‫ق ق‬ ‫ج مذاق ق ألمق‬
‫هقتك قءق قشايلقق‪ .‬ق‬

‫‪135‬‬
‫ق قاطق اكزل ق قرل قذ قهعضلاق تش ق‬ ‫ج مذاقءنته قذ ق احق قاطقءق وقج معاقت‬
‫اعقذشةكق ق‪ .‬ق‬
‫قإ لاق تتم قذ ق ق ق‬ ‫قذ قءق قذاكزل ق ق قاطق نقتكق‬ ‫ا ق اعق تش قج ق‬
‫ي ي ق‪،‬ق بددل ق تكقجز ق قاطق شايلقبش ق‬ ‫اكزل قهم ئالقء فق اعاق‪ R‬قذ ق قاطق‬
‫أليمق ق‬
‫ق‬
‫ائصق‪DBSCAN‬ق‪:‬ق ق‬ ‫ي ك اقتلخيصق‬
‫‪1- Arbitrarily shaped clusters .‬‬
‫‪2- Robust to outlier points .‬‬
‫‪3- Doesn’t require specification of the number of the clusters such as‬‬
‫‪k-means .‬‬
‫قت س قذ ا ق‪ k-means‬قتت يمق‬ ‫يتك قتبيا قذةل ق‪ DBSCAN‬ق ق ءتقا ق قاط ق شايل ق ي‬
‫ذك ج قتياءاتقجش ئي ق تك يعلاق ق‪ :‬ق‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪136‬‬
‫ء مقذك ج ق ياءاتق عش ئي ق‪:‬ق ق‬

‫يجق م اق‪:‬ق ق‬ ‫ءم لق‬

‫ق‬
‫ق‬

‫‪137‬‬
‫ق ق اجاتق‪:‬ق ق‬ ‫ق‬ ‫ء أل قمق قاطق شايلق نق قتم‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪138‬‬
‫ءا كق ياءاتق‪:‬ق ق‬

‫ق‬
‫قشايلق ق كاء ق شقتكق كتشا لاقهخ حذي ق‪DBSCAN‬ق‪.‬ق ق‬ ‫ظق أل قءق‬ ‫ء‬
‫ق‬
‫‪139‬‬
‫ا قها تخم وق‪k-means‬ق ة ق اقق ق تعاذ قذ ق قاطق شايلق‪:‬ق ق‬ ‫عيمقء سق‬

‫لاق لق اعق ا ثق ق‬ ‫ظقذ ق ق ق شايلق نقتكقإيكا عاقها تخم وق‪DBSCAN‬قتكق‬ ‫ء‬


‫حذي ق‪k-means‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪140‬‬
‫‪ -17‬أنظمة التوصية ‪: Recommended Systems‬‬
‫تلتقطقع هق ءظ ق ء اطق نقي م عاق اوق ق ل كلكق ق اتخمذلاق ت قذاي قي ك قذ ق‬
‫يختا ق قذ قذاي قي عل ق‪ ،‬ق ل اق ا ق او قذختل ي ق ق يا تلك قإ قذءلك ق ت ع ق ء اةاق‬
‫‪patterns‬قذ م لقذث ا ق ياتلكق با تا ق ل اكقتشاهمق ق شيا ق نق اغ لاق اوق‪.‬ق ق‬
‫ا اوقي يل ق‪trend‬ق تيا قذشيا ق قء سق فق‪same category‬قذ ق شيا ق نقتشةكق‬
‫ق قذء ق شةلد ق‪ purchased‬قكتاهاقج ق ه ق‬ ‫ات ق‪ same characteristics‬ق‪ ،‬ق‬ ‫ق‬
‫ق ذا قج قم ق ءتقا ق أك تق‬ ‫ق ا ل قكتال قت لي ق ياءات ق‪ ،‬قك‬ ‫ق إء ق ت‬ ‫ا‬
‫ق ل قجميمل قذ قذذاح ق‬ ‫ها ‪ ......‬يث ق تك ق تخم و قذ قع ه ق ءظ ق قذ‬
‫‪amazon‬ق قءت ليكسق‪Netflix‬ق ي قها جت ا ققج قةل اتق زبائ ق‪،‬ق ذيضاق قهعضقت يقاتق‬
‫وباي قج ق ول قق ذيضاق يسقت كق يقيقة قجلي قإ ا قذ م ا قذ ك ق قيك ء ق مق‬
‫ق‪.‬ق ق‬ ‫اتق نقذجك دقتلاقذءدقذث ا قت‬ ‫ذجك قت سق‬
‫ق لال ققققققققققققققق‬ ‫هعض قذ ا قع ه ق ءظ قه ق‪ border exposure‬ق عاض ق شاذ قذ ق‬
‫ي قذكةق م ق‪ .‬ق‬ ‫ذ ق لخمذاتقه يثقيعطقذ تكاتقذ ض ق مذاتقذ ا ق لزب ق ل م ق‬
‫ألمقبش ق ئيسقء جا ق ل هق ءظ ق ق‪ :‬ق‬
‫عىل‬ ‫‪ Content-Based‬التصفية باالعتماد‬ ‫‪ Collaborative Filtering‬التصفية باالعتماد‬
‫المحتوى‬ ‫عىل التفضيل‬
‫‪Show me the sane of what I’ve liked before‬‬ ‫‪Tell me what’s popular among my‬‬
‫‪.‬‬ ‫‪neighbors, I also might like it.‬‬
‫ع ا ق ث قج ق ع ارص ق شاتل ق ا قي م ق زب ق‬ ‫ع اق ث قج قذك ج ق شخاص ق قرل ي قذ مق‬
‫( تا هق اهقا)ق لقة لاق‪.‬ق ق‬ ‫ذاي قي ضل ق لقة لاق لزب ق‪.‬ق‬
‫ق‬
‫المقترح له‬
‫ق‬
‫ق‬
‫ق‬
‫يطلب‬ ‫ق‬
‫ما رآه اآلخرون‬ ‫ق‬
‫ق‬
‫ق‬
‫ج ارصقذتشاتل ق‪similar items‬‬ ‫ت ضي تقذتشاتل ق‪similar preferences‬‬
‫ق‬

‫‪141‬‬
‫ك ق ألمقءوعقآ اق‪Hybrid recommender Sys‬قذءظ قعك قت ت يقج قجملقتق ياتق‬
‫ذكت ع قق‪ .‬ق‬
‫ي ق ق‪ :‬ق‬ ‫قذءظ ق ت‬ ‫ع ا قذ لوبيق ت‬
‫‪: Memory-based -‬ق يثق تكق تخم وقأل قتياءاتق ع ارصق ق شخاصقق ‪entire‬‬
‫‪user-item dataset‬ق تقميكق ة اتق لتكق تخم وقجملقتق ياتقإ ائي ق‪:‬ق‬
‫‪Pearson Correlation – Cosine Similarity – Euclidean Dis…..‬‬

‫‪ : Model-based -‬تكقع اقت ولاقء يجق ل اتخمذيق قطق ا قذعا ق غ اتلكق‬


‫لتك ق تخم و قتق يات قتعلك ق آل قذ ق‪ :‬ق – ‪Regression – Clustering‬‬
‫‪Classification‬قق‪.‬‬
‫‪ -‬أنظمة التوصية باالعتماد عىل المحتوى ‪: content-based‬‬
‫تق وقع هق رلق قج قتقميكق ع رصق ض ق لزب قها جت ا قج قتا اي ق اتخموقء امق‬
‫يثق اكزق ة اي قج قذاقي مق اتخموق ع قيعت مقج قجم ق ا تق ن ق تا ق لاق‬
‫ق‪like‬ق مقق‪ .‬ق‬ ‫اتخموقج رصقذاق ذاقيم قج ق عت اوق اتخموقتل ق ع رصقك‬
‫يثقيعت مقءظاوق ت ي قج قذقم ق تشاهمقتي ق ع ارصق قع ق تشاهمقذ ق تقا لقيقاوق‬
‫قها ت ق‪ content‬ق فق‬ ‫قع ه ق ع ارصق ق‬ ‫ت ق‬ ‫ها جت ا قج قتشاهم ق‬
‫ع رصق‪category‬ق قج ذتمق‪tag‬ق ء جمق‪gender‬ق عك ق‪..‬ق‪ .‬ق‬
‫ق‬
‫‪1‬‬

‫‪2‬‬

‫‪3‬‬

‫‪4‬‬

‫ق‬

‫‪142‬‬
‫ق‬ ‫ت‬ ‫ل ق اوق اتخموقهابجكالقها ل ي ق‪ 1‬ق ق‪ 2‬ق ق ا ق لكق كق‪ 3‬قذ قء سق وعقذ ق‬
‫ت قق‪ .‬ق‬ ‫يقمذمقءظاوق ت ي ق ل اتخموق ا ة ق مق ي قذعت م قج ق تشاهمق ق‬
‫يك ق م اقذك ج قذ ق‪6‬قذ وق ذ قذ لاق اتخموقث ث ق ذج اعاقت ضي ق‪rating‬ق ءرلمقذ ق‬
‫ءظاوق ت ي قذ قيقموق لكق ض قذ ق ث ق ت قي ق ة عاق اتخموق‪.‬ق ق‬
‫)‪1 Bat vs Super (adventure, super hero‬‬ ‫ق‬
‫ق‬
‫)‪2 Galaxy (comedy, adventure, super hero,sci-fi‬‬
‫ق‬
‫)‪3 Captin (comedy, super hero‬‬
‫ق‬

‫)‪4 Hulk (comedy, adventure, sci-fi‬‬ ‫ق‬


‫ق‬
‫)‪5 Batman (super hero‬‬
‫ق‬
‫)‪6 spider (super hero, comedy‬‬ ‫ق‬
‫ق‬
‫وق‬ ‫اقء ظق م اقت نيفق ق لكق ءرلمقذ ق ظاوقذ ق ت قذاي ق يقيكق اتخموق‬
‫تاجق تعافقج قتا اي ق اتخموق‪:‬ق ق‬ ‫ت ق‬ ‫ث ق ت قي ق‪،‬قها جت ا قج ق‬
‫وق ن ق آعاق اتخموقذ ق ع ذاتق ن ق تا عاق لكق‬ ‫ذ قءنس قذتكمق(شعاع)قي يق‬
‫ياىمقع ق تكمق‪input user ratings‬قق‪ .‬ق‬
‫‪ rating‬ق ‪ mov‬ق‬
‫‪1‬ق‬ ‫‪2‬ق‬
‫‪2‬ق‬ ‫‪ 10‬ق‬
‫‪3‬ق‬ ‫‪8‬ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪143‬‬
‫ق ق‬:movies matrix‫ق تاىمق‬One Hot Encoding‫وق نق آعاقه رلق ق‬ ‫ثكقءاذزقع هق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
1 (adventure, super hero) ‫ق‬0 ‫ق‬1 ‫ق‬1 ‫ق‬0
‫ ق‬2 (comedy, adventure, super hero,sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬1 ‫ق‬1
‫ ق‬3 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0

‫ق ق‬:‫يثق تكق تخم ذلاق ك ج قذة تق‬


‫ ق‬feature set (comedy,adventure,super hero,sci-fi)
weighted ‫قج قذ ح قع ه ق ا ات ق‬ ‫تي ق ااهقتي ق‬ ‫ثك قءكاي قألم قتي ق‬
‫ ق‬:‫ق ق‬weighted matrix‫ق‬ ‫قج ق‬ ‫قء‬feature set

‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬


1 ‫ق‬0 ‫ق‬2 ‫ق‬2 ‫ق‬0 ‫ق‬
‫ق‬2 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10
‫ق‬3 ‫ق‬8 ‫ق‬0 ‫ق‬8 ‫ق‬0 ‫ق‬
‫ق‬
‫ق ق‬:‫قج قتا اي ق اتخموق‬ ‫قج ق م ق‬ ‫ءك ق قج‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬18 ‫ ق‬12 ‫ ق‬20 ‫ ق‬10
‫ق‬
‫ق ق‬:‫قج ق تق يكق‬ ‫ق‬60‫قءقاكق ق اء قج ق‬60‫ذك وعق قيكق‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0.33 ‫ ق‬0.16

‫ق ق‬sci-fi‫قثكق‬adventure‫قثكق‬comedy‫قثكق‬super hero‫ظقذ ةقذءمقي ض قءوعق‬ ‫ء‬


‫ق‬
‫ق‬

144
‫ق ق‬: ‫ث ق ااهق‬ ‫قتاذةق اق عل اقها‬
‫ق‬ ‫م اقث ث قذ وق كق شاعمعاق اتخموق كايق لاقذ‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
4 (comedy, adventure, sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬0 ‫ق‬1
5 (super hero) ‫ق‬0 ‫ق‬0 ‫ق‬1 ‫ق‬0
6 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0
‫ق‬
‫ق ق‬:‫ق‬weighted matrix‫قج ق‬ ‫ءكايقألم قتي لاق قتيقتا اي ق اتخموق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬
4 ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0 ‫ ق‬0.16 ‫ق‬
5 ‫ق‬0 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0
6 ‫ ق‬0.3 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0 ‫ق‬
recommendation ‫قج ق‬ ‫ق‬10‫ق تق يكق م اقذ ق‬ ‫ق‬10‫اق ءرصبمقهدق‬ ‫ثكقءك ق ق‬
‫ق ق‬:‫ق‬matrix
‫ ق‬4 ‫ ق‬0.66 * 10 = 6.6
‫ ق‬5 ‫ ق‬0.33 * 10 = 3.3
‫ ق‬6 ‫ ق‬0.63 * 10 = 6.3
‫ق‬
1 Bat vs Super (adventure, super hero) ‫ق‬
‫ق‬
2 Galaxy (comedy, adventure, super hero,sci-fi)
‫ق‬
3 Captin (comedy, super hero)
‫ق‬

4 Hulk (comedy, adventure, sci-fi)


‫ق‬
‫ق‬
5 Batman (super hero)
‫ق‬
6 spider (super hero, comedy) ‫ق‬

145
‫ءكمقذ قءظاوق ت ي ق يقموق لكق كق‪4‬ق يشاعمهق اتخموق ذ قي ق ب اق قتعط قع هق‬
‫قتا اي ق اتخموق ذ ق‬ ‫رلق قءتيك قذا ي ق ءمق ب اق ألمق لكقآ اق يسقذ أل ق‬
‫قتا اي ق اتخموق‬ ‫وق نق‬ ‫ءوعقآ اق يك ق‪drama‬ق ل هق رلق قتعاذلدق قطقذ ق‬
‫قع اقيأ ق ق رلق ق تا ي ق هق‬ ‫وق ا ق ت ق ألملق ق‬ ‫قهعيق جت ا ق‬ ‫ق‬
‫‪collaborative filtering‬ق‪.‬ق ق‬
‫‪ -‬أنظمة التوصية باالعتماد عىل األفضلية ‪: Collaborative Filtering‬‬
‫تعت مقع هق رلق قج ق أل قج قتيق تكاتق ق عت اوق اوقتلاق أءظ ق ت ي قتعت مق‬
‫ج قإيكا قع هق ع ق قإج ا قت ي ق يق ق ل ت ق يقي مق اتخموقذ قيك قذ تعاق‬
‫مق ق ل ق طقةرلقتا ق‪:‬ق ق‬
‫‪ -‬تك ق لةقها جت ا قج ق شخاصق‪user-based collaborative filtering‬ق‬
‫تعت مقج ق تشاهمقتيق شخاصقذ قج ق تقا لق ي اقتي لكق‪.‬ق‬
‫جت ا قج ق تكاتق( ع ارص)ق‪ item-based collaborative filtering‬قتعت مق‬ ‫‪-‬‬
‫ج ق تشاهمقتيق تكاتقق‪.‬‬
‫ق‪ user-based‬ق م اقذشخاصق عا ي ق(نشي ي)قيك ء قعمفق‬ ‫لكقذق مق رلق ق‬
‫ثق ظاوقج ق شخاصق شاتليقتنشاةلكق للمفق لعت مق تشاهمق ي اق‬ ‫ءظاوق ت ي ق‬
‫تي لكقج ق‪ :‬ق تيا تق‪ choices‬ق– ق اك تق‪ history‬ق– ق ة تق‪ preferences‬ق قذ قثكق‬
‫تكقت ق تكاتق ن ق كق ت اقق لاق لمفق تكق ة لاق مق( ق يق ش لمقيك ق مق‬
‫ت اقق لاق تكق ت ا قذ قتعك مق للمف)ق‪.‬ق ق‬
‫قق‬

‫‪1‬‬

‫‪Similar‬‬
‫‪2‬‬
‫‪aim‬‬ ‫‪Similar user‬‬
‫‪3‬‬
‫‪recommends‬‬

‫ق‬
‫ق‬
‫‪146‬‬
‫يك ق م اق عل ذاتق نقتضكقذعم تقت ضي ق‪ratings‬ق ب د قحبائ ق خ سقذ وق‪:‬ق ق‬
‫‪ Movie1‬ق‬ ‫‪ Movie2‬ق‬ ‫‪ Movie4‬ق ‪ Movie3‬ق‬ ‫‪ Movie5‬ق‬
‫‪ User1‬ق‬ ‫‪9‬ق‬ ‫‪6‬ق‬ ‫‪8‬ق‬ ‫‪4‬ق‬ ‫‪-‬ق‬
‫‪ User2‬ق‬ ‫‪2‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪-‬ق‬ ‫‪8‬ق‬
‫‪ User3‬ق‬ ‫‪5‬ق‬ ‫‪9‬ق‬ ‫‪-‬ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬
‫‪ User4‬ق‬ ‫?ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬ ‫‪8‬ق‬ ‫?ق‬
‫ق‪Ratings matrix‬قق‪ .‬ق‬ ‫ع هقتم قذ‬
‫وق نق‬ ‫ا ق كتشافقذيق‬ ‫اتخموق ا ت قع ق لمفق ق نشطق ا ياق‪active user‬ق ق‬
‫كق شاعمعاق(‪)1,5‬ق ن غقذ قتعاضق مق‪.‬ق ق‬
‫قءكمق اتخمذيق شاتليق للمفق لتكقي قهعمقةاققإ ائي ق‪statistical‬ق‬ ‫ا لق‬
‫قشعاجي ق‪ victor‬قذ ق‪ :‬ق ‪distance or similarity measurements , Euclidean‬‬
‫‪distance, Pearson correlation, Cosine similarity …..‬‬
‫و ق ن قشاعمعا ق ق‬ ‫ل عا قذم ق تشاهم قتي قج رصل ق تك قي قها جت ا قج ق‬
‫اتخمذي ق بهضق ظاقج ق رلق ق ت ع ق قي ق ا ياق ةضقذ قذقم ق تشاهمقتيق‬
‫ع رصق لمفق ع ق قذ ا ءاق ا ت ق ق قي ق ا تا ق‪:‬ق ق‬
‫‪ U1‬ق‬ ‫‪ U2‬ق‬ ‫‪ U3‬ق‬
‫‪ U4‬ق‬ ‫‪ 0.4‬ق‬ ‫‪ 0.9‬ق‬ ‫‪ 0.7‬ق‬
‫ق‬
‫تعةقع هق قيكقج ق‪proximity or weight‬قتيق ع رصق لمفق بقي قج ارصق ك ج قق‪ .‬ق‬
‫ق‪weighted matrix‬ق ق‪ :‬ق‬ ‫لق تا ي قهقإيكا قذ‬ ‫خ‬
‫‪Similarity index‬‬ ‫ها كم ق‬
‫‪ Mov5‬ق ‪ Mov1‬ق ق‬ ‫ق‬ ‫‪ Mov5‬ق ‪ Mov1‬ق‬
‫تي ق ق‬
‫‪U1‬‬ ‫‪9‬ق‬ ‫ق‬ ‫ق‬ ‫‪U1‬‬ ‫ي تيق ‪ 0.4‬ق‬ ‫‪ 3.6‬ق‬ ‫ق‬
‫‪ U2‬ق‬ ‫‪2‬ق‬ ‫‪8‬ق‬ ‫ق‬ ‫‪U2‬‬ ‫ء ق ‪ 0.9‬ق‬ ‫‪ 1.8‬ق‬ ‫‪ 7.2‬ق‬
‫‪ U3‬ق‬ ‫‪5‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪U3‬‬ ‫‪ 0.7‬ق‬ ‫ج ق‬ ‫‪ 3.5‬ق‬ ‫‪ 4.9‬ق‬
‫قق ق‬
‫‪Rating matrix subset‬‬ ‫‪Similarity matrix‬‬ ‫‪Weighted matrix‬‬
‫قق ق‬

‫‪147‬‬
‫ق ةلقج قت ضي تق اتخمذيق( شاتليق لم ا)ق أل وق نقءرلمق‬ ‫تعةقع هق‬
‫ذعا قذيقذ لاقذ ك قذ قيختا قحب ء اق ا ت ق قمذلاق مقق‪ .‬ق‬
‫قبش قذاتق ق كمق‪ rating weighted matrix‬ق ق‪:‬‬ ‫آل قءك قءتائ ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ U2+U3‬ق‬ ‫‪ 7.2+4.9=12.1‬ق ق‬
‫‪ 3.6+1.8+3.5=8.9‬ق ‪ U1+U2+U3‬ق‬ ‫ق‬
‫قق‬
‫ق‬
‫قج قذك وعقتشاهمق ع ارصقذيق ق‪ :‬ق‬ ‫ءقاكقءتيك قأل ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ 8.9/(0.4+0.9+0.7) = 4.4‬ق ‪User4‬‬ ‫‪ 12.1/(0.9+0.7)= 7.5‬ق‬
‫ق‬
‫ق‪recommendation matrix‬قء ظقذ ق لكق كق‪5‬قع ق يق قمذمق‬ ‫ع هقتم قذ‬
‫يقءت قذ قيختا هقذكةقذ ق لكق‪1‬ق ق‪ .‬ق‬ ‫ل اتخموق‪4‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪148‬‬
‫ل اق اهقاقذ قع ا قةرلقتيق ل لةلق‪item-based & user-based‬ق ة ق لعقاق اققتي ل قا‪:‬ق ق‬
‫‪User-based‬‬ ‫‪Item-based‬‬
‫ق‬
‫‪1‬‬ ‫ق‬ ‫‪1‬‬

‫ق‬
‫ق‬
‫‪2‬‬ ‫ق‬ ‫‪2‬‬

‫ق‬
‫ق‬ ‫‪3‬‬
‫‪3‬‬
‫ق‬
‫ق‬ ‫‪4‬‬
‫‪4‬‬
‫ق‬
‫ق‬
‫ق‬
‫هنا تشابه ربي العنرصين ‪ 1,3‬واختارهما كل من‬
‫ق‬
‫وبالتاىل يمكن أن يقدم المنتج ‪1‬‬
‫ي‬ ‫المستخدمي ‪1,2‬‬
‫ر‬
‫المستخدمي ‪ 1,3‬بناء عىل مشاركتهم‬
‫ر‬ ‫هنا التشابه ربي‬
‫للمستخدم ‪ 3‬ألنه استخدم من قبل المنتج ‪ 3‬الذي‬
‫وبالتاىل سنقدم المنتج ‪ 1‬للمستخدم‬
‫ي‬ ‫للمنتجي ‪3,4‬‬
‫ر‬ ‫يشبه المنتج ‪. 1‬‬
‫‪3‬‬
‫ق‬
‫ذ قذ قةرلق ق‪collaborative filtering‬ق عا ق م قت ألمقهعضق ت مياتق نقت ألللاقذ ق‬
‫ت ا ق ياءاتق‪data sparsity‬ق قع قي مثقج مق أل قجم قك ةقذ ق اتخمذيقيختا ق‬
‫جم قذ م قذ ق تكاتق با تا ق قيك ق م اقتق ي اتق‪ratings‬ق ا ي ق ك قذ ق‪user, item‬ق‬
‫ل قنات قتقميكق يا قذ ض ق ل اتخموق ع هق ا قتعةقج ق عوب ق نقت ألمقءظاوق‬
‫ت ي قج مق أل قذاتخمذي قألم ق‪ cold start‬ق يس ق م لك قتا اي ق ات ق ميم قي ك مق‬
‫قج مق أل قذ تكاتقألميملق كقيختا عاقهعمقذيقذاتخموق‪.‬ق ق‬ ‫جت ا قجليمق ك‬
‫ق ح يا ق‬ ‫ع قاقج مذاقي حق اتخمذيقذ ق نق ع ارصق م لكق اهلي ق ت ع ق‪scalability‬ق‬
‫قتيقق‬ ‫حذي ق ت ي قع ه قتق ق قذ ا قباه ق تشاهم ق ي قي‬ ‫ئك ق يض ق‬
‫قذ اق اه ق عوب ق ت ضي ق ي اقتي لكقق‪ .‬ق‬ ‫اتخمذيق ق تكاتقج ق مق‬
‫ق ‪hybrid-based‬‬ ‫قذ ا‬ ‫ق خ حذي‬ ‫قءنتق‬ ‫ا ت قذ‬ ‫قع ه ق‬ ‫ي ك ا ق قذ‬
‫‪recommendation‬ق‪.‬ق ق‬

‫‪149‬‬
‫خاتمة ‪:‬‬
‫ق لاي قذجت قج ق ق أق ه ي قذ قتاذج قذ قجلىم ق لخص ق اه ق لتعمي ق قذ ت هق‬
‫إجا لقنشهقذ قيكاقذ م هق ي ق تعكق ائملق عل ي ق م يق ق قذكت ع اقق‪.‬‬
‫تنسون من صالح دعائكم‬
‫ي‬ ‫ال‬
‫العالمي‬
‫ر‬ ‫والحمد هلل رب‬

‫‪150‬‬

You might also like