كورس تعليم الآلة بلغة البايثون الجزء الثانى PDF

‫– )‪G(S,gender) = 0.
940(entropy before split‬‬

‫‪[((3+4)/14)*0.985 + ((6+1)/14)*0.592] = 0.151‬‬
‫ق‬
‫العقدة ‪ F‬مجموع المرضى ‪14‬‬ ‫العقدة ‪ M‬مجموع المرضى ‪14‬‬
‫ق‬
‫(‪ )3B,4A‬وقيمة ‪ E‬لهم ‪0.985‬‬ ‫(‪ )6B,1A‬وقيمة ‪ E‬لهم ‪0.592‬‬
‫ق‬
‫‪Weighted E after split‬‬
‫‪G(S, cholesterol) = 0.940 – [(8/14)*0.811 + (6/14)*1.0] = 0.048‬‬

‫ظ قذ ق خا ي ق‪ gender‬ق ب لاقذج قذ ق ا ي ق‪ cholesterol‬ق ا عت معاق لتقايكق‬ ‫ء‬
‫ق ءعيمقء سق ع لي ق قي ق خ ائصق‪attributes‬ق‪.‬ق ق‬
‫تق قيك قيم لاقة عاق إء اقءكرلددلاقع اق نقء ل لاق إء اق‬ ‫(يكم قها كاقذ قج قع هق خ‬
‫قذكت اتلاق^‪)^-‬ق ق‪ .‬ق‬ ‫ق‬ ‫ع قيك قتاذجقها ا‬
‫ق‬
‫ن قذ ا قج قذك ج ق اض ق ع ج ق ي ق ت ا م ق كيف قي ك ا قت ا قشكال ق قا ق‬
‫ق‪:‬ق ق‬ ‫ت ني لكقها تخم وق ا‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬
‫ي قتياءاتق اضق ق‪ :‬ق‬ ‫ت‬
‫ق‬
‫‪71‬‬
‫سقذاضق‪:‬ق ق‬ ‫إظلا قذ ق‬
‫ءق وقه كزقتياءاتق ا اتق‪X‬ق‪:‬ق ق‬
‫ي ق‪categorical‬قء تاجقت ولللاق ا ي ق قءرلمقإع ا لاق ق‪ :‬ق‬ ‫باه ق أل قتياءاتق‬
‫‪72‬‬
‫آل قي ك اقتاذةقتياءاتق لمفق‪y‬ق‪:‬ق ق‬
‫ء مذقج لي قتل ئ قشكالق قا قها تة ق كت ق ق‪ :‬ق‬
‫ت ا ق ق قذ ق‪X,y‬ق ق‪ :‬ق‬ ‫ءقاكق ياءاتق تم ل ق‬
‫‪73‬‬
‫ق ذاق أل ق‬ ‫نق‪X_trainset,y_trainset‬قت سق هعا ق ك‬ ‫ة عاق ن غقذ قتك قذ‬
‫نق‪X_testset,y_testset‬ق ق‪ .‬ق‬ ‫ذ‬
‫ء مذقتإءكاحقء يجق ت نيفقذ قءوعقشكالق قا قتإنشا قذ بككدقذ ق ك وق ق‪ :‬ق‬
‫ق شكالق‪4‬ق ع قي ك اقته ةهق ؤل ق ا قق قءتائ ق ت نيفق‪.‬ق ق‬ ‫ظقذء اق ةءاقج‬ ‫ء‬

‫ق‬
‫ق‬
‫يجقج قتياءاتق تم ل ق ق‪ :‬ق‬ ‫ءم لق‬
‫‪74‬‬
‫ق‪:‬ق ق‬ ‫آل قءكايق ت‬
‫ق‬
‫يجق ق‪ :‬ق‬ ‫ق‬ ‫ء ا ق آل ق‬
‫ا كقع هق شكالقي ك اقت ي ق تا ق‪:‬ق‬
‫‪75‬‬
‫ق‬
‫‪76‬‬
‫المنطق ‪: Logistic Regression‬‬
‫ي‬ ‫‪-12‬التوقع‬
‫ق اتخموق ق ت نيفق با تا ق م اقث ث قذ ئل ق ق‪ :‬ق‬ ‫قع ق وعقذ ق ت‬
‫قق؟‬ ‫‪ -‬ذاقع ق ت ق‬
‫‪ -‬ذ ق اتخموق؟‬
‫‪ -‬ذاقءوعق شاك ق نقء تاألمق لاق؟‬
‫تعتةقع هق رلق ق ق ت نيفقإ ائي ق قت نيفق اك تق‪records‬ق قذك ج ق ياءاتق‬
‫ها جت ا قج ق يكق ق ق‪fields‬ق‪.‬ق ق‬
‫‪Logistic regression is a classification algorithm for categorical variables.‬‬
‫ه اض ق م اقتياءات ق ك ق ت ا ت ق ءرلمقت ليللاق ة قع ق ي قق ق شةك قها خمذ قذو ق ق‬
‫ايق؟ ق‬
‫‪ ten‬ق ‪id‬‬ ‫‪ age‬ق‬ ‫‪ income‬ق ‪ add‬ق‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪ 136.8‬ق ‪ 7‬ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪ yes‬ق ‪ 0‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪ 234.6‬ق ‪ 4‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ no‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ .‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ 3‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫?ق‬
‫ن نق‬ ‫ع ق ةق‪ churn‬قيم قذي ق زبائ قهق ق ق شك قذ ق خمذ ق ذ لك ق غ ق شةكم ق‬

‫ء يألاق لتن قها تخم وق‪logistic reg‬ق ت ميمق ا ق زب ق اتق لي قق‪ .‬ق‬
‫ي ك اق تخم وق مقذ قجم قذ ق تهة تق اتقل ق ن ق م اق(…‪)age,income,‬ق لكم ق‬
‫ها كاقذ قع ق ت ق ش م ق ت ق خط ق م قع اقي ك اق تعاذ قذ ق تهة ت ق ي ق‬
‫‪categorical‬ق ق‪ .‬ق‬
‫قذيق ي ق‬ ‫ا ت ق خطق ت ق يكقذات القذ قث قذة ق–ق هطق وق–ق ي ق تل كق‬
‫ق يك قث ائي ق ي قذ ق(‪ )yes or no‬ق(‪)true or false‬ق‬ ‫ققت‬ ‫ق‬ ‫تي ا ق ت‬
‫(…‪)successful or un‬ق للاقت ق(‪)0 or 1‬ق‪.‬ق ق‬
‫‪77‬‬
‫ع اقتك ق تهة تق هةقذاتقل قذات الق‪continuous‬ق ب ا ق اءدق ي ق‪categorial‬ق‬
‫ن غ قذ قء لا ق قيك قذات ال قج قةرل قتاذةعا ق‪ indicator-coded‬قذ قءعتةعا ق ع ي ق‬
‫‪dummy‬قق‪ .‬ق‬
‫قجملق ا تقذ ق‪:‬ق ق‬ ‫ا قذ ق تعم ق‬ ‫ق ق ت نيفق‬ ‫اتخموقع ق وعقذ ق ت‬
‫ت ق ق ت ا ي قذ قي الق شخصقت وب ق ل ي ق‪heart-attack‬قذ قجمذلاقق‬ ‫‪-‬‬
‫=ق=ق=ق=ققذ تقذرلضقذ القه اضقجضا قذ قجمذمقق‪.‬‬ ‫‪-‬‬
‫=ق=ق=ق=قإ اه قذرلضقها اكايق‪.diabetes‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=قذ ق شةيق زب قذ ت قذاق‪.‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=ق ش قذ ت قذاقذ قءكا مق‪.‬ق‬ ‫‪-‬‬
‫ق ت ا ي ق م ثلقاق‪ .‬ق‬ ‫قت‬ ‫فق تائ ق قإء اقك‬ ‫ق يسق قطقي‬ ‫ظقذ قع ق وعقذ ق ت‬ ‫ء‬
‫قق م اقذ ب د ق ا تق‪:‬ق ق‬ ‫ق‬ ‫إي ق تخليصق ا تق تخم وق ت‬
‫‪ -1‬ج مذاقيك ق ت نيفقث ا ق(‪0‬قذ ق‪)1‬ق‪binary data‬‬
‫‪ -2‬ج مذقاقءرلمق االق ت ا ي ق وعق مثقذاقذ ق ت ا ي ق تن قهقي قذاق ‪probabilistic‬‬
‫ق كا ق]‪ [0,1‬ق ك ج ق‬ ‫يج ق ي ق ت ا ي ق‬ ‫‪ results‬قج معا قيعيم ق ا ق‬
‫قذ افقذقا قت ا قج ق‬ ‫ج اتقذ ق ياءاتقثكق تكقتشكي ق ا تق ت قي ق‬
‫يجق‪.‬ق‬ ‫ت ا ي ق نقذ ألمعاق‬
‫‪ -3‬إي ق اءد ق ياءات ق اهل ق لتقايك قبش قش م ق ط ق‪linear decision boundary‬ق‬
‫قع قذاتقيك ق‪ line‬قذ قذات ي ق‪ plane‬قذي ق ‪linearly‬‬ ‫يث قيك ق قا ق ا‬
‫‪separable‬ق ل ك قذ قتك قت جق‪hyper-plane‬ق‪.‬ق‬
‫ذ ق م اقذك ج قءقاطق لاق ا يتي ق ق تكقت يللاقهك ةق م ق اقك اقء للاق ق‬
‫قج قذة أل قذ ق ش ق ق‪ :‬ق‬ ‫ت ق خطقج معاقي ك اق‬
‫𝑒𝑙𝑏𝑎𝑡𝑜𝑙𝑝 𝑦𝑙𝑖𝑠𝑎𝑒 → 𝑒𝑛𝑎𝑙𝑝 ‪𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 > 0 ≡ ℎ𝑎𝑙𝑓 −‬‬
‫ق قإءكاحق‪complex decision boundary‬ق‬ ‫ذ قذءم قي ك اقها تخم و ق ت ق‬
‫ت اق ا ياق‪.‬ق ق‬ ‫ها تخم وقك ةق م ق م لاق ا جقذكا ق‬
‫‪ -4‬ج مذا قءرلم ق لك قتأثة ق‪ impact‬ق خ ائص قه يث قءرلم ق تيا ق تهة ق(‪)feature‬ق‬
‫يج ق ي قءب يم قها ت ق‬ ‫ض قها جت ا ق قج ق ع ي ق ب ائي ق ا ذة ت ق‬
‫ققق‬
‫‪78‬‬
‫‪The statistical significance‬‬ ‫‪of the logistic regression model‬‬
‫‪parameters .‬‬
‫ق ل تهةق‪X‬قي ق ح ق 𝜃ق الق ل اق تأثةق‬ ‫بعمقإيكا ق ا ذة تق ض قج معاقيك‬
‫لق ق م ةلق دق 𝜃ق مق تأثةق كةقج ق تن ق‪.‬ق ق‬ ‫قج ق تن قتي اق تهةقي ق قي ق‬
‫اتقل قج ق تهة تق هةقذاتقل قج مذاق‬ ‫ذيق يعط ق ء اجاقج قتأثةق تهة تق‬
‫ءق وقهض طقذتهة تقذاتقل قذ ا ق ق‪ .‬ق‬
‫ق‬
‫قجمءاق كم قتياءاتق شةكيقبشك ق ت ا ق ق اقتت ليللاقج معاقءكمق تا ق‪:‬ق ق‬
‫تهة تق اتقل ق‪ X‬قتنتىم ق ك ج ق جم ق قيقي ق‪n rows * m columns‬ققققق‬
‫ق تهة تق هةقذاتقل ق‪y‬قتنتىمق ل ك ج ق}‪{0,1‬قذيق ق‪ :‬ق‬
‫ق‬
‫‪𝑋 ∈ 𝑅 𝑛∗𝑚 ,‬‬ ‫}‪𝑦 ∈ {0,1‬‬
‫ق‬
‫قبش قذ ا ق إ قءتيك ق ت قهق ت ا ي قذ قتك ق ي ق خرجق‪y=1‬قذيق ق‪ :‬ق‬
‫ق‬
‫)𝑋| ‪𝑦̂ = 𝑃(𝑦 = 1‬‬
‫ق‬
‫ذل اق اءدق يكق ة تق‪X‬ق ميمق‪.‬ق ق‬
‫بش قذقاه قذ ق زب ق نتىمق ل فق‪0‬قج مذاق ق‪ :‬ق‬
‫قق‬
‫)𝑋| ‪𝑃(𝑦 = 0|𝑋) = 1 − 𝑃(𝑦 = 1‬‬
‫ق‬
‫بالمنطق ‪: logistic vs linear‬‬
‫ي‬ ‫الخط‬
‫ي‬ ‫‪-13‬مقارنة التوقع‬
‫ق‬ ‫ا ق ق نتعافقج ق‬ ‫ة قذءمق قي ك اق تخم وق ت ق خط ق قذاائ ق ت نيفق‬
‫قق‪.‬ق ق‬ ‫ايك ولمق‪sigmoid‬ق نقهق كز ق عكق ق ت ق‬
‫ق‬
‫ق‬
‫‪79‬‬
‫ق اأ قها تخم وق‬ ‫قذ ا اق اات ق عل ذاتقذشةك ق ك ق ت ا تق ة قع قي ك ق‬
‫ت ق خطق ق‪ :‬ق‬
‫‪ income‬ق ‪ add‬ق ‪ age‬ق ‪ ten‬ق ‪id‬‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪0‬ق‬ ‫‪1‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪4‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪3‬ق‬ ‫‪.‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫‪0‬ق‬
‫ق‬ ‫م ق قءق وقتت ق ق ق ةق‪churn‬قك ءلاق يكقذتق ع ق‪discrete‬ق إء اق ق وقتت‬
‫م ق‪income‬قك ءلاق يكقذات الق‪continuous‬ق‪.‬ق ق‬
‫قذتهةقغةقذاتق ق ع ق‪income‬ق‬ ‫نت‬ ‫ءختا قذتهةقذاتق ق‪independent‬ق يك ق‪age‬ق‬
‫لة كقع هقق ياءاتق ق‪ :‬ق‬
‫‪income‬‬ ‫ق‬
‫ق‬
‫ق‬
‫‪age‬‬ ‫ق‬
‫ق‪ a+bx‬ق نق‬ ‫ا قج قةرل ق عا‬ ‫ق‬ ‫ق ا ق ق‬ ‫ق خطق قت‬ ‫ي ك اقها تخم وق ت‬
‫تعا اقجل لاق اهقاق‪.‬ق ق‬
‫م قذاي ق قذ ءاقذ قناتخموقء سق ت ق خطق اات ق ت ق ا ق‪churn‬ق؟ق قكقتا كق‬
‫ياءاتق ة قكيفقتك قت أل ق اتقيكق اات ق يقيعةقج ق ت ق خطق!ق ق‬
‫‪churn‬‬
‫ق‬
‫)‪Yes (1‬‬
‫خارج المجال الذي لدينا‬
‫)‪No (0‬‬ ‫‪age‬‬
‫‪80‬‬
‫اقءعلكق يكق ق ق‪churn‬قهقإذاق‪0‬قذ ق‪1‬قذيق‪yes‬قذ ق‪no‬ق با تا ق قذ ءاقت ق ا ق ق ق‬
‫اهقاقغةق ا قج قت ميمق‬
‫ق‬ ‫ا قذ ق إ ق اتقيكق يقذ ألمءاقذعا تمق ق ت ق خطق‬
‫ي تلاق‪0‬قذ ق‪1‬ق با تا ق ق ع اق قذاأ ق ت نيفق ا قق‪ .‬ق‬
‫ق با تا قء تاجقإجا لق‬ ‫إي قذعا ق خطق اتقيكق ق ت ق خطق𝑥 ‪𝜃0 + 𝜃1‬ق كقتك قذ ا‬
‫االق قيكقثيتاق ت ا ق ا ق ت نيفق م اق‪.‬ق ق‬
‫قثيتاق] ‪𝜃 𝑇 = [𝜃0 , 𝜃1‬ق ق‬ ‫ه اقذءمق م اقهعمق مقيك ق م اق𝑥 ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1‬ق ذ‬
‫ق ا قألميملق‪x1=13‬ق يثق‬ ‫ا ت اقذعا ق خطق‪:‬ق 𝑥‪𝜃 𝑇 𝑥 = −1 + 0.1‬ق با تخم ذلاق ت‬
‫‪x‬قيعةقج ق‪age‬قي حق م اق‪:‬ق ق‬
‫‪P1 = [13]  𝜃 𝑇 𝑥 = −1 + 0.1𝑥1 = 0.3‬‬
‫ق‪13‬قذ قذء اقءعلكقذءمق ن غقذ قتك ق‬ ‫ق خطق لا ياق لم‬ ‫ع هق ي ق ت ق نقذ ألمعاق ت‬
‫ي ق خرجقإذاق‪0‬قذ ق‪1‬ق‪.‬ق ق‬
‫ج ق اضق م اقجت ق‪threshold‬قتاا يق‪0.5‬قج معاقي ك اقذ قءكت ق‪:‬ق ق‬
‫‪0 𝑖𝑓 𝜃 𝑇 𝑥 < 0.5‬‬
‫{ = ̂𝑦‬
‫‪1 𝑖𝑓 𝜃 𝑇 𝑥 ≥ 0.5‬‬
‫فق(‪)0‬ق م ق‬ ‫ت ا قج ق ا ي قع هق عت ق إ ق ي ق ت ق م اق‪0.3‬قي ك اق جت ا عاقذ ق‬
‫ذاقهق ت ا ي ق ع قذ قيك قذ تىمق ل فق(‪)0‬قق‪ .‬ق‬
‫ق لا ياق قتياءياق‪ .‬ق‬ ‫ا ق اقتي اقي‬ ‫ق خطق قيققها هاضق لت نيفق‬ ‫قءكمقذ ق ت‬ ‫ذ اق‬
‫ق خطقيعطق يكق‬ ‫قتيق قيكقباه قذ ق ت‬ ‫م اق تخمذ اقذ ل وق عت ق نات ق‬
‫قتي لاقج قذ اوق عت قذ ق(‪)0.5‬ق‪:‬ق ق‬ ‫ذات الق‬
‫ق‬
‫‪1‬‬
‫ق‬
‫‪0‬‬
‫ق‬
‫‪0.5‬‬
‫ق‬
‫‪81‬‬
‫قتيق تائ قذل اق اءدقذ أل ق‬ ‫مي ق‪step‬ق ل‬ ‫با تا ق جت مءاقج قتات قيم ق خ قلق‬
‫فق(‪)1‬ق عكسقها عكسق ع ق‬ ‫ذ ق ا ق ا يق مق ي ق‪ 1‬قذ ق‪ 1000‬قذيقذ أل ق ت تىم ق ل‬
‫يسقج قذ قذ قق ق! ق‬
‫قذ قناتع ق قغةق ق‪step‬ق هق ق اك قولمق‪sigmoid‬قهم قذ قناتخموق‬ ‫ا ق‬
‫يكق‪ y‬قذ ا لقناتخموق يكق ت ا ي ق جلاقذيقهم ق عا ق⋯ ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1 𝑥 +‬ق‬
‫ناتخموق عا ق‪:‬ق) ⋯ ‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(𝜃0 + 𝜃1 𝑥 +‬ق لاق ش ق يا ق تا ق ق‪ :‬ق‬
‫ق̂𝑦 ق‬
‫‪1‬‬
‫قققق𝑥 𝑇 𝜃‬
‫ق نقءعةقج لاق ل هق م قهق‪:‬ق ق‬ ‫عا‬

‫‪1‬‬
‫= )𝑥 𝑇 𝜃(𝜎‬ ‫𝑥𝑇‬
‫𝜃‪1 + 𝑒 −‬‬
‫𝑥𝑇‬
‫𝜃‪𝑒 −‬قذيق‪:‬ق ق‬ ‫دق قي ق‪= 0‬‬ ‫دق ي ق𝑥 𝑇 𝜃قك ةلقألم قذ‬ ‫ظقذءمق ل اقذ‬ ‫ء‬
‫‪𝜎(𝜃 𝑇 𝑥) = 1‬‬
‫ق‬
‫دق ق‪ :‬ق‬ ‫عكسق ل اقءق دق ي ق𝑥 𝑇 𝜃قذ‬
‫‪𝜎(𝜃 𝑇 𝑥) = 0‬‬
‫قي ك ق جت ا عاق‬ ‫ق كا ق]‪ [0,1‬ق تيك قع ه ق م‬ ‫إي ق ذا قءتيك ق ق ايك ولم ق‬
‫ت ا ي ق هقذ اهق ق اقءرلمق ق‪ :‬ق‬
‫)‪P(y=1 | x) P(y=0 |x) = 1- P(y=1 | x‬‬
‫مي ؟ ق‬ ‫ق ايك ولمقهم ق م ق‬ ‫إي قذاقع ق رجقء يأل اق يقتن اهق لت نيفقها تخم وق‬
‫‪82‬‬
‫ق ت ا ي قهقا قحب قذشةكقهخمذ ق ق ك ق ت ا تقذيق‪churn=1‬ق إ ق ت ا ي قي ق‬
‫ها نا ق ا تيمق‪income,age‬قهق‪:‬ق‪p(churn=1 | income,age) = 0.8‬ق با تا ق ت ا ي ق‬
‫جموقهقائمق‪p(churn=0 | income,age) = 1-0.8 = 0.2‬ق ق‬
‫ل لق‬ ‫قت سق‬ ‫يجق تك قها ذة تمقذض ة قه يثقيع‬ ‫تأ ق آل قذل ت اق قتم ل ق‬
‫لعطق تيك ق اغوب ق لع ارصق كميملق(ذيق زبائ ق كميمل)ق‪.‬ق ق‬
‫تق تا ي ق‪:‬ق ق‬ ‫ق خ‬ ‫قج لي ق تم ل ق‬ ‫لتكقي قتإيكا قذ ض ق يكق دقثيتاق‬

‫]‪1- Initialize 𝜃 : eg. 𝜃 = [−1,2‬‬
‫‪2- Calculate 𝑦̂ = 𝜎(𝜃 𝑇 𝑥) for a customer : eg.‬‬
‫‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(([−1,2]𝑇 ∗ [𝑎𝑔𝑒 = 2, 𝑖𝑛𝑐𝑜𝑚𝑒 = 5]) = 0.7‬‬
‫ع هقهق ت ا ي قذ قيك ق زب ق ق فق‪1‬ق‪.‬ق ق‬
‫‪3- Compare 𝑦̂, 𝑦  Error = 1-0.7 = 0.3‬‬
‫)𝜃(‪4- Calculate Error for all customers  Cost=J‬‬
‫ع قتات ق كل ق‪Cost Fun.‬ق ل اق اءدق ي تمق هةلق ا ق ت قذ ض قق‪ .‬ق‬
‫‪5- Change the 𝜃 to reduce the Cost Fun.‬‬
‫‪6- Go back to step 2.‬‬
‫ع اقيأ ق ق يق‪:‬ق ق‬
‫‪ -‬كيفقءهةق يكق 𝜃ق نقءقل قذ ق ي قتات ق ت ل ق؟‬
‫ع ا قةاققجميملقذ لاق‪Gradient Descent GD‬‬
‫‪ -‬ذنقءت فقج قتكا ق خ تق ااهق ق؟‬
‫يجق ذ قتك ق تيك قذق ع قق‪ .‬ق‬ ‫ءت فقج قةرل ق االق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪83‬‬
‫ق ت ا ي قذ قيها ق زب ق ك ق ت ا تق؟ققها تخم وق‬ ‫ءنتق ق آل ق ت ي قذ ا اق اات قت‬
‫ق ق‪ :‬ق‬ ‫ققها ا‬ ‫ت ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق كت اتق‬ ‫قنات‬
‫ق ءظلاعاقها تخم وق‪panda‬ق ق‪ :‬ق‬ ‫ق ياءاتقذ ق‬ ‫ء‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ق لمف ق‪ churn‬ق ن قيك ق‬ ‫ي‬ ‫او ق‬ ‫ناتخمو قألز قذ ق ياءات ق ءكع ق‬
‫ت نيفقث ا ق‪0‬قذ ق‪1‬ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪84‬‬
‫ء م ق ا اتق‪X‬ق خرجق‪y‬ق ق‪ :‬ق‬
‫ق‬
‫قذ اوق قيقي ق‪:‬ق ق‬ ‫ثكقءق وقتتق يالقاق‪normalize‬قك قذكا ق خرجقتيق‪0‬قذ ق‪1‬ق م‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪85‬‬
‫ت ا ق‪:‬ق ق‬ ‫تقايكق ياءاتق لتم ل ق ق‬
‫يجقها تخم وقتياءاتق تم ل ‪:‬ق ق‬ ‫ءم لق‬
‫ت ا ق‪:‬ق ق‬ ‫قها تخم وقتياءاتق‬ ‫ءكايق ت‬
‫فق‬ ‫ق ت ا ي قذ قيك قذ ق‬ ‫ق ت ا ي ق ت نيفق يثق ع قق‬ ‫ء ألمقذ‬

‫ق ا ق ت ا ي قذ قيك قذ ق فق‪0‬ق‪:‬ق ق‬ ‫‪1‬ق ق ع‬
‫‪86‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪87‬‬
‫يجقها تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ق‬ ‫ء ا ق‬
‫ق االق‪cm‬ق ق‪ :‬ق‬ ‫ك‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪88‬‬
‫ق ي قها تخم وق‪logloss‬ق‪:‬ق ق‬ ‫ي ك اقذ قءكالقت‬
‫اقي ك اقة اج قتقرلاقج ق‪F1-score‬ق‪:‬ق ق‬
‫يثق‪:‬ق ق‬
‫ق‬
‫‪ -14‬التصنيف ‪: Support Vector Machine SVM‬‬
‫اق ب اه قه اضق شةا ق‪ :‬ق‬ ‫قي يطقتلكق‬ ‫ياق هشق‬ ‫فقذ ق‬ ‫يك ق م اقتياءاتقج ق‬
‫‪ unitshape‬ق ‪ unitsize‬ق ‪ clump‬ق ‪Id‬‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ class‬ق‬
‫‪ 100025‬ق‬ ‫‪5‬ق‬ ‫‪1‬ق‬ ‫‪1‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪benign‬‬
‫…ق‬ ‫‪5‬ق‬ ‫‪4‬ق‬ ‫‪3‬ق‬ ‫ق‬ ‫‪ malignant‬ق … ق‬
‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬
‫‪ 1000015‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬ ‫‪2‬ق‬ ‫…ق‬ ‫…ق‬ ‫?‬
‫يمق‪benign‬قذوق وق يثق‪)malignant‬ق م اقتياءاتق‬ ‫ءرلمقت ق ا قذرلضقألميمق(ع ق وق‬

‫ياهق ق‪ .‬ق‬
‫‪89‬‬
‫حذي قت نيفقإ ي قتعت مقج قإيكا ق‬ ‫ي ك اق تخم وق‪ SVM‬ق ل ق هاضق يثقتعتةق‬
‫افق‪ supervised algorithms by finding a separator‬ق ي قهم ي ق‬ ‫ا قتي ق‬
‫ق ق‪ :‬ق‬ ‫ذ ق‬
‫‪1- Mapping data to a high-dimensional feature space‬‬
‫ي قذ قء ي ق ق ضا قذهعا قذتعم ق( يسق قطقث ا ق اق ذ اق اهقا)ق‪.‬ق ق‬ ‫ق‬ ‫تخ يطق ياءاتق‬
‫‪2- Finding a separator‬‬
‫قت ول قء طق ياءاتقذ قتق يالاق‬ ‫تخ يق ا ق ا قتيق ياءاتق ي قذ ق‬
‫قذات يقذ قذتعرجق‪hyperplane‬ق‪.‬ق ق‬ ‫ت ك قذ ق كقذ ض ق ا قتي لاق‬
‫تي قع اق‪unitaize,clump‬ق‬ ‫ذ قإي ق اقتت حلد د قتياءاتق كم ق اات قها جت ا قج ق‬
‫ءكمقذءمق قي ك ق للاقج قهعضلاق ياق إء اقبش قذتعرجقق‪ .‬ق‬
‫‪unitsize‬‬ ‫ققق ‪Malignant‬‬
‫‪Benign‬‬
‫‪clump‬‬
‫قذهعا ق‪:‬ق ق‬ ‫قتيقق ياءاتقهعمقتاذةعاق ق ضا قث‬ ‫يك ق‬
‫ق‬
‫ق‬
‫ق هعا ق‪.‬ق ق‬ ‫آل قءنتق ق رلق قتاذةق ياءاتق ق ضا قث‬
‫‪90‬‬
‫يق‪:‬ق ق‬ ‫ع اقيخ اقت ا اق‬
‫ق ياءاتق نق م اقه رلق قذاق نق تكق للاقه ات يق؟‬ ‫‪ -‬كيفقء‬
‫قتيق ياءاتقهعمقج لي ق ت ول ق؟‬ ‫‪ -‬كيفقءكمق ات يق ض ق ل‬
‫نبدأ بعملية تحويل البيانات ‪: transforming data‬‬

‫ملق ل ياءاتق ق‪ :‬ق‬ ‫ق‬ ‫أل ق تهايطقء اضقذ ق ياءاتق نق م اقذ ا ي ق عمقذيق م اق‬
‫قء تاجقإجا لقتشكيللاق ق ضا قث ا ق هعا ق‬ ‫للاقبش ق طق‬ ‫ظقذءمق قي ك اق‬ ‫ء‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫تكقي قتزلا لقذهعا ق ياءاتق قإجا لق ق ك ق‪ x‬قها تخم وقتات ق مق األي ق] ‪∅(𝑥 ) = [𝑥, 𝑥 2‬ق‬
‫ق ياءاتق ياق ق‪ :‬ق‬ ‫ج معاق تكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫بش قذ اس قتم قج لي قت ول ق ياءات ق هعا قذج قها ك ق‪ kernelling‬ق ق اىم ق تات ق‬
‫ق‪kernel function‬ق ل ألمق لاقجملقذء عق‪:‬ق ق‬ ‫اتخموق‬
‫‪Linear , Polynomial , Radial Basic Function RBF , Sigmoid‬‬
‫‪91‬‬
‫ق با تا ق ت ميمقذيقذ لاقناتخموقيك ق‬ ‫ة عاقع هق للاقذض ق قذكت اتقألاعزلق ق ا‬
‫تتكرب قذكةقذ قء طق تيا ق ض قذ قءا ي ق تائ ق ق م قق‪ .‬ق‬
‫ننتقل للخطوة التالية ‪ :‬كيف نجد المستوي األفضل بعد التحويل ‪:‬‬
‫بش قجاوقذعكقءق قع قذ قيك ق ات يق ا قتيقذك جنق ياءاتق اقءا قذ قع اكق‬
‫ذك جنق ياءاتق اقءا قع اكقعاذشق‪margin‬قتيقذك جنق ياءاتق اق يق ش ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪Super vectors‬‬
‫ق‬
‫ق‬
‫ي ق قتم ق قاطق القذ ق ق‬ ‫ا لمفقإيكا ق‪ hyperplane‬قي ل قذكةقعاذشقتي ق‬
‫ي ق لخط ق ات ي ق ا قهد ق‪ support vectors‬ق لم اق يم قع قع ه ق قاطق‬
‫إع ا قهقي قءقاطق تم ل قق‪ .‬ق‬
‫ايي ق‪support vectors‬قق‪.‬‬ ‫ق يقي ل قذكةقعاذشقتيق قاطق‬ ‫إي ق كمق ا‬
‫ق‪.‬ق ق‬ ‫م ق‪boundary‬قذعا تمق خا‬ ‫ق لاذشيقذ ق‬ ‫ظقذ ق ك قذ ق خطق ا‬
‫ق‬
‫‪Support vectors‬‬
‫‪margin‬‬
‫‪Boundary decision line‬‬
‫𝟏 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬
‫‪Support vectors‬‬
‫‪Hyper plane‬‬
‫‪Boundary decision line‬‬ ‫𝟎 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬
‫𝟏‪𝒘𝑻 𝒙 + 𝒃 = −‬‬
‫‪92‬‬
‫إي قج قةرل قتياءاتق تم ل قء ا قألع ق ا ق‪ hyperplane‬قي ل قذكةقعاذشق ل ك ق‬
‫ذذ ل قع هق ع لي قها تخم وق‪Gradient Descent GD‬ق ق‪ .‬ق‬
‫ق اتقيكق قت ميمق ي اقإي ق قاطق‬ ‫إي ق رجقع هق خ حذي قه ق ي ق‪ w,b‬قبيكا قذعا‬
‫ع القهقت دقع ق خطقذ ق مق‪.‬ق ق‬
‫قذيق قق‬ ‫اق ا ق قتنتىم ق ل فق‬ ‫ع مذاقت م قذعا ق اتقيكق ي قذكةقذ ق‬
‫اق ا ق قتنتىمق ل فق ا قذيقت دق خطق ق‬ ‫خطق قج مذاقتعطق عا ق ي قت دق‬
‫‪Find w and b such that :‬‬
‫𝑇 ‪1‬‬
‫= )𝑤(∅‬ ‫∶ 𝑑𝑒𝑧𝑖𝑚𝑖𝑛𝑖𝑚 𝑠𝑖 𝑤 𝑤‬
‫‪2‬‬
‫‪𝑎𝑛𝑑 𝑓𝑜𝑟 𝑎𝑙𝑙 {(𝑥𝑖 , 𝑦𝑖 )} ∶ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1‬‬
‫محاسن و مساوئ ‪: SVM‬‬
‫محاسنها ‪: Advantages‬‬
‫‪ -1‬م ق ق ضا تقجا ي ق هعا ق‪Accurate in high-dimensional spaces‬‬
‫‪ Memory efficient -2‬قت اق كالق ءلاقتاتخموقألز قذ قتياءاتق تم ل ق قت ميمق‬
‫تات ق قا قذ قذعا ق خطق ا ق ق‪.‬‬
‫مساوئها ‪: Disadvantages‬‬
‫‪ -1‬ع ه ق خ حذي قذعا ق ا ق‪ over-fitting‬ق ي ق ي قتك قجم ق ا اتق‬
‫‪number of features‬قذكةقذ قجم ق ع اتق‪number of sample‬قق‪.‬‬
‫ق ن قتع لا قذغل قةاق ق ت نيف ق ‪no probability‬‬ ‫‪ -2‬قتعط ق ت ا ي ق ت‬
‫‪estimation‬ق‪.‬ق‬
‫‪ -3‬تاتع ق ا ت ق ياءات ق قليل ق‪ small datasets‬ق ه ق ياد قي قك ا ل ق ااتي ق‬
‫ج مذاقتك ق ياءاتق خ قذ قذكةقذ قذ فق اقق‪.‬‬
‫ق‬
‫ق‬
‫ق‬
‫‪93‬‬
‫الت تستخدم فيها ‪: SVM‬‬
‫الحاالت ي‬
‫ق قق ق ‪- Image recognition and handwriting digit recognition .‬‬ ‫ةق‬
‫ت ق‬
‫طق يم‬
‫ثق‪- Text category assignment : text-mining tasks .‬‬ ‫ت ميمقءوعق خطق‬
‫ق ص‬
‫قكتشافقذل اتق تكاس ‪- Detecting spam‬‬
‫ت لي ق شاجا‪- Sentiment analysis .‬‬
‫ت نيفق ك ات ‪- Gene expression classification‬‬
‫ت ‪- Regression .‬‬
‫كتشافق ا تق شايل ‪- Outlier detection‬‬
‫افق تشاتل ‪- Clustering‬‬ ‫تك ق‬
‫ق‬
‫ق ق‪ :‬ق‬ ‫قذ ا قها تخم وق ا‬ ‫حذي ق‪SVM‬ق‬ ‫ق وقتت ي ق‬
‫ء مذقها تة ق كت اتق نقناتع للاق ق‪ :‬ق‬
‫سقذاضق لتالي ق‪:‬ق ق‬ ‫ي ق لفق‪cell_samples.csv‬ق اقء ع ق اهقاقء م قذ ق‬ ‫بعمقت‬
‫‪94‬‬
‫ثكقءا كقت حعق اضقه ا ق خا يتيق‪Clump,Unitsize‬ق‪:‬ق ق‬
‫ق‬
‫ي قذوقء ي ق‪:‬ق ق‬ ‫ق م ق ق تقايكقء م قذاعي ق(ء جي )ق ياءاتق‬
‫قاقء ي ق‪categorical‬قءل للاق‪:‬ق ق‬ ‫ظق أل قهعضق‬ ‫ء‬
‫‪95‬‬
‫ق‬
‫قجل لاق ق‪ :‬ق‬ ‫ق ياءاتق نق ع‬ ‫ء م ق آل قذ‬
‫لاق‪2‬قذيق‬ ‫ا تق نق‬ ‫ق‬ ‫ق قطقءرلمقذ قءت‬ ‫افقإذاق لي قذ ق ي ق ء‬ ‫اق ذ اق ق‬

‫ق‪:‬ق ق‬ ‫الي‬
‫ق‬
‫ق‬
‫‪96‬‬
‫ءق وقتتقايكق ياءاتق تم ل ق ق ت ا ق‪:‬ق ق‬
‫نق‪rbf radial basis function‬ق ق‪ :‬ق‬ ‫قها تيا ق‬ ‫ءم لق‬
‫يجقهعمق تم ل ق‪:‬ق ق‬ ‫ءكايق ت ا ق ل‬
‫‪97‬‬
‫يجقها تخم وق‪confusion matrix cm‬ق‪:‬ق ق‬ ‫آل قءكايق تق يكق ل‬
‫‪98‬‬
‫ل ك اق تخم وقةرلق ق تق يكق‪f1-score‬ق‪:‬ق ق‬
‫ق‬
‫ق‬
‫‪99‬‬
‫ق تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ك‬
‫ق‬
‫ق‬
‫ق ختا ق‪kernel‬ق طق‪linear‬ق ءقا قها م ق‪:‬ق ق‬ ‫بألا قذقا ء قباي‬
‫لت كالق تيا تق‪kernel‬ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪100‬‬
‫‪ -15‬مقدمة للتجميع ‪: Intro Clustering‬‬
‫ق ئح ق ل ه ق زبائ ق ‪customer‬‬ ‫ه اض ق م ا قذك ج قتياءات قحبائ ق قءرلم قت‬
‫قذك جات ق قهق‬ ‫ات ق تشاتل ق‬ ‫ق زبائ قي ق‬ ‫‪ segmentation‬قذي قتك‬
‫ة تيكي قعاذ ق‪ significant strategy‬ق يثقت ك قذ الق ع قذ قتا لد د قذ تكاتلكق‬
‫ل ئ ق ا ق‪.‬ق ق‬
‫ذ قذك ج قذاق لاقحبائ ق يثق با قجا ي ق ق خاةاق ليل ق‪high-profit and low-risk‬ق‬
‫قألم ق عاضقذ تكاتق‪purchase products‬قذ ق شة كقهخمذ ق ‪subscribe‬‬ ‫ع قذ ا‬
‫‪for a service‬قذ اقيكع ق ألا ق قج ا قيكا ق‪devote‬ق تاقإ ا ياق ل اظق‪retaining‬ق‬
‫ج قع ق زبائ ق‪.‬ق ق‬
‫قء تاجق‬ ‫ا تك ق عاو ق يس قذ ئ ا ق‪ feasible‬ق ك يات قعائل قذ ق ياءات ق ت ج ق‬
‫رلق قت ليلي ق تخاجق‪deriving‬ق ئاتق قذك جاتقذ ق ياءاتق ضخ ق‪.‬ق ق‬
‫ق زبائ قها جت ا قج قجملقج ذ ق‪factors‬قذ ق م اقتياءاتق زبائ ق تا ي ق‪:‬ق ق‬ ‫ي ك اقتك‬
‫‪customer ID‬‬ ‫‪age edu‬‬ ‫‪years‬‬ ‫‪income‬‬ ‫‪…..‬‬ ‫‪….. defaulted‬‬
‫‪employ‬‬
‫‪1‬ق‬ ‫‪ 22‬ق‬ ‫‪2‬ق‬ ‫‪3‬ق‬ ‫‪ 190‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬
‫‪2‬ق‬ ‫‪ 34‬ق‬ ‫‪1‬ق‬ ‫‪ 20‬ق‬ ‫‪ 100‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫‪0‬ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫‪ …..‬ق‬ ‫…ق‬
‫‪9‬ق‬ ‫‪ 50‬ق‬ ‫‪1‬ق‬ ‫‪5‬ق‬ ‫‪ 60‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬
‫ع قتل هق ياءاتق م ق بذ ا ق ت ميمقذيق زبائ قتش مقهعضلاق آل اق قذ قإ م قع هق‬

‫اقق عت ملق‪adopted approach‬قهق تك ق‪clustering‬ق‪.‬ق ق‬
‫ق‪unsupervised‬ق نقتعت مقج ق تشاهمقتيق اتق زبائ ق‬ ‫هقذ قةاقق تعليكق هةقإ‬
‫لق‪ mutually exclusive groups‬قتاىمق‬ ‫‪،‬ق يثق تكقتقايكق زبائ قإ قذك جاتقذ‬
‫اتق‬ ‫‪clusters‬ق اقءا قع اقذ قث ث قذ ااوق‪،‬قثكقي ك اقإنشا قتعرلفق ك ق اعقذعتةل ق‬
‫عاذ ق ك ق اعقج ق م ق‪.‬ق ق‬
‫ق‬
‫‪101‬‬
‫ق‬
‫‪1‬‬ ‫ق‬
‫‪2‬‬
‫ق‬
‫‪3‬‬
‫ق‬
‫ق‬
‫ءا قذ ق خ طقث ثق اجاتق ق‪ :‬ق‬
‫‪CLUSTER‬‬ ‫‪SEGMANT NAME‬‬
‫‪ cluster-1‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫‪ Young education & Middle income‬ق ‪ cluster-2‬ق‬
‫‪ cluster-3‬ق‬ ‫‪ Young & Low income‬ق‬
‫ق‬
‫ه يثق ق اعق ش قنا قذئول قذ ق ك وعق ك ق با تا قهاجت ا قع ق تقايكقي ك اق‬
‫إ ألاعق قحب ق قألم ق ياءاتق اات قإ ق اجمق لق نتىمقإ يمق ق‪ :‬ق‬
‫‪Customer ID‬‬ ‫‪Segment‬‬
‫‪1‬ق‬ ‫‪ Young & Low income‬ق‬
‫‪2‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫…ق‬ ‫‪ ….‬ق‬
‫‪ Young education & Middle income‬ق ‪ 9‬ق‬
‫ق‬ ‫ق زبائ قذ ق‬ ‫قت ا‬ ‫بددل قي ك اق تلم فقذ قت أليمقإج ءاتقذ م لقذ قهضاج قذع‬
‫تقاي اتق نق نت قإ لاقق‪ .‬ق‬
‫تعرلفق ق اعق‪cluster‬قع قذك ج ق ك ءاتق تشاتل ق‪similar‬قي اقتي لاق ق قتش مق قاطق‬
‫( ياءات)ق أل لق ق اجاتقذ ا ق ع اق ت ا ق ل ع قذاق اققتيق تك ق‪clustering‬ق‬
‫ق ت نيفق‪classification‬ق؟ ق‬
‫‪102‬‬
‫ ق يثق ق ملقذ قتياءاتق تم ل ق‬supervised‫ق‬ ‫يعتةق ت نيفقذ قءوعق تعليكق ب‬
‫)قبيكا ق فق ع رصق‬Decision tree‫يجق(ذ قها تخم وق‬ ‫تنتىمق فقذعيق ءم لق‬
‫ ق‬.‫قذيقذع ء قق‬labeled‫ألميمق تك ق ياءاتق‬
‫ق ياءاتق م اقتك ق‬unsupervised‫ق‬ ‫ق ل قذ ق تعليكق هةقإ‬clustering‫ذذاق ق تك ق‬
‫)ق ك ق ياءاتق تشاتل ق ي اقتي لاقثكقءعيمعكق‬K-means(‫ ق ناتخموقذ ق‬unlabeled
‫ ق‬.‫لكم ق احق ع ارصق للاقق‬
‫ق ق‬:‫رلقتيق م اقذكا تق قةاقق احق هق‬ ‫يا ق اققذكةقتيق‬
- Retail / Marketing : Identifying buying patterns of customers ‫ق‬
‫ها تقايط‬
- Recommending new books/movies to new customers ‫ة لد د ق تكاتق‬
‫ألميملق زبائ قألم‬
- Banking : Fraud detection in credit card use Identifying clusters of
customers ‫كشفق تيا ق قت نيفق ع‬
- Insurance industry : Fraud detection in claim analysis and Insurance risk
of customers‫قكشفق تيا ق ق اعق تأذيقذ ق ق زبائ ق‬
- Publication media : Auto-categorizing news based on their content and
Recommending similar news articles to readers .‫تك ق قا تق تشاتل ق ق‬
‫ق‬.‫تقميكق ا ق لقا ق‬
- Medicine : Charactering patient behavior ‫تشخيصق ل كق اضق‬
- Biology : Clustering genetic markers to identify familyist ‫ق ك نق‬ ‫تك‬
.‫ل ق ق قا ق‬ ‫يا ق ا هطق‬
‫ق ق‬:‫ق‬clustering‫ق‬ ‫بش قجاوقذكا تق تخم وق تك‬
- Exploratory data analysis ‫قت لي ق ياءاتق كتش‬
- Summary generation = reducing the scale‫قتلخيصق ياءات ق‬
- Outlier detection for fraud detection or noise removed‫ق كتشافق قيكق ق‬
‫ق‬.‫شايلق أل ق كتشافق ا تق تيا قذ قإح ق ضك ق‬
103
- Pre-processing step for other data-mining tasks or as apart of
complex system ‫تاتخموق قذا قذاق قذلاوق ت قي قج ق ياءاتقذ قككز قذ ق‬
‫ءظ ق عقمل‬
: ‫ الخوارزميات الرئيسية يف التجميع‬-1-16

1- Partitioned-based clustering :
‫قذيق اجاتقذتكتل ق أل قهعضلاق‬sphere-like clusters‫نت قج لاق اجاتقذ ق وعق‬
‫ق ق‬.‫ق ككقذ قذ فق اق‬ ‫ق تاتخموقع هق اقق ل ياءاتق م ةلق ق ت‬،‫آل اق‬
- Relatively efficient‫عا ق ق عي ق‬
- Eg. K-means, K-median, Fuzzy c-means
2- Hierarchical clustering :
Produces trees of clusters‫ق‬
‫ ق‬.‫نت قج لاقشكالق اجاتق تاتخموق ل ياءاتق هةلق ككق ق‬
Eg . Agglomerative , Divisive ‫ق‬
To Ea
oT Mo Vb Wi
104
‫‪3- Density-based clustering :‬‬
‫‪Produces arbitrary shaped clusters‬‬
‫تكقت يمقذك جاتقجش ئي قج مق أل ق ك قذ ق‪DBSCAN‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪ -‬خوارزمية ‪: K-means clustering‬‬
‫ا اق م اقذك ج قتياءاتقحبائ ق قءرلمقت ي ق‪customer segment‬قذيقج لي قتكز ققج ق‬
‫اتق قذ قع هق اققه ق‪ k-means‬ق يثق‬ ‫قذك جاتقت سق‬ ‫زبائ قه يثقي‬
‫تعتة قع ه ق خ حذي قذ قءوع ق‪ partitioning‬قذي قتقايك ق ياءات قإ ق اجات قتاىمقققققققققققققققق‬
‫قتكت ت ق لي ق‬ ‫‪ k non-overlapping subsets‬قذك جات قألزئي قغة قذتم ل ق‬
‫‪ cluster-internal‬ق ك ءاتق ق اعقذتشاتل قألم ق ذختل قج ق ق اجاتق ا ق ع اق‬
‫تكقةر ق يق‪:‬ق ق‬
‫‪ -1‬كيفقءكمق ع اتق تشاتل ق؟‬
‫ق ياءاتق؟‬ ‫‪ -2‬كيفقءقيسقذقم ق تشاهمقتيقج رصل قههضق ظاقج قذ عل اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪105‬‬
‫ء هق ءم قها اغكقذ قك ق‪ k-means‬قتك ق ياءاتق ق اجاتقها جت ا قج ق تشاهمق ي اق‬
‫تي لاق إءمقي ك اق تع ا قذقياوق ت ا ق‪dissimilarity‬قج اقج قذقياوق تشاهمقق‪ .‬ق‬
‫)‪Dis(x5,x6‬‬
‫)‪Dis(x1,x2‬‬
‫‪Intra-cluster‬‬
‫)‪Dis(C2,C3‬‬
‫‪Distances are‬‬
‫‪minimized‬‬ ‫‪Inter-cluster‬‬
‫‪Distances are‬‬
‫‪maximized‬‬
‫بش قتقليميق‪conventionally‬قتاتع ق اا قتيق ع اتق تشكي ق ق اجاتق رلق ققققق‬

‫‪k-means‬قت ا قت هةق اا قتيق ع ارصق ق ق اعقج ق م ق‪intra-cluster‬ق تك ةق‬
‫اا قتيق ق اعق آ اق‪inter-cluster‬قق‪ .‬ق‬
‫ت فقذ ق اا قتيق ا تيق(حب ءيقذ )ق؟ ق‬ ‫كيفقءقيسق‬
‫ق‬
‫ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪age‬‬
‫‪ 54‬ق‬ ‫‪50‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬ ‫ق‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬
‫‪106‬‬
‫قم قذات قذع ا ق اهقا ق م قء كاقذءم ق ن غ قذ قءق و قهع لي قتق يس ق‪ normalize‬ق ا اتق‬
‫ق لت ا ق‪accurate dissimilarity measure‬ق ق‪ .‬ق‬ ‫قج قذقياوق‬ ‫ل‬
‫ألمقذقا يسقت ا قذ ا قتاتخموق سق لمفق م لاقتعت مقج قءوعق ياءاتقبش قك ةقققق‬
‫قناتع ق‪:‬ق ق‬ ‫قج ق كا ق يقء قجليمقج لي ق احق‬
‫‪Euclidean distance , Cosine similarity , average distance‬‬
‫إي قذقياوق تشاهمقذلكقألم قه ا قة يع ق ياءاتق ق ة تق تشكي ق ق اجاتق قج لي ق‬
‫اح‪.‬ق ق‬
‫ق‪k-means‬قذ قتهايطق ياءاتق‪:‬ق ق‬ ‫ءع ق آل ق لكقةرلق قج‬
‫‪Customer ID‬‬ ‫‪ Age‬ق‬ ‫‪ Income‬ق‬
‫‪1‬ق‬ ‫‪ 32‬ق‬ ‫‪ 450‬ق‬
‫‪2‬ق‬ ‫‪ 23‬ق‬ ‫‪ 300‬ق‬
‫‪3‬ق‬ ‫‪ 44‬ق‬ ‫‪ 120‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬
‫قء تاجق تق يسق ء ظقذ ق ضا قي ق‬ ‫ء ظق م ق ي تمقها ئاتق ق ع اقها عش تق‬

‫ل ق‪:‬ق‬ ‫هعم ق‪2-dimentional‬ق ة كقذخ طق‪scatterplot‬ق ل ياءاتق ء حجلاقه‬
‫ق‬
‫‪Age‬‬ ‫‪Customer1‬‬ ‫‪Customer2‬‬ ‫ق‬
‫‪Income‬‬
‫ا ق احقع هق ياءاتق( زبائ )ق قذك جاتقذت ا زلق( اجات)قها جت ا قج قهعم ق‬

‫قطق‪.‬ق ق‬
‫ق‬
‫‪107‬‬
‫ق‬
‫هم ي ق ن غقذ قء م قجم ق ق اجاتق ققةرلق ق‪k-means‬ق تكق اضق ش قجش ق‬ ‫‪-1‬‬
‫ذاكزق ق اعقذيقء اضق ي ق‪k‬ق هقت م قجم ق ق اجاتق هقذاأ ق يادق لل ق‬
‫ن ا شلاق ي اقهعم ق‪.‬ق )‪ )Initialize k=3 centroid randomly‬ق تك قتا ي قع هق‬
‫اكزق‪ c1,c2,c3‬ق(‪)centroid of clusters‬ق ق ن غ قذ قيك ق لاقء سق ككق ة تق‬
‫لع ارصق أل لق ق ك ج قق‪.‬‬
‫ل ألمقةرلقتيق تيا قع هق اكزق‪:‬ق ق‬
‫ذ قءختا عاقجش ئياق‪3‬قذاكزق ا جقذك جاتق ياءاتقذ ق‪:‬ق‬ ‫‪-‬‬
‫]‪ C1 = [8.,5.] C2 = [5.,5.] C3 = [6.,3.‬ق‬
‫هعمق تيا ق اكزقء مذقه احق ياءات ق( زبائ ) ق ل اكزق ال ق م قج قةرل ق االق‬ ‫‪-‬‬
‫اا قتيق قج رصق ق اكزق تيا ق اكزق الق‪.‬ق‬
‫قتاىمق‪distance-matrix‬ق لاق ش ق تا ق‪:‬ق‬ ‫قج قذ‬ ‫إي ق‬ ‫‪-‬‬
‫‪𝐶1‬‬ ‫‪𝐶2‬‬ ‫‪𝐶3‬‬
‫) ‪𝑑 (𝑝1 , 𝑐1 ) 𝑑 (𝑝1 , 𝑐2 ) 𝑑 (𝑝1 , 𝑐3‬‬
‫) ‪𝑑 (𝑝2 , 𝑐1 ) 𝑑(𝑝2 , 𝑐2 ) 𝑑 (𝑝2 , 𝑐3‬‬

‫‪…………….‬‬
‫…………‬
‫) ‪𝑑 (𝑝𝑛 , 𝑐1 ) 𝑑 (𝑝𝑛 , 𝑐2 ) 𝑑 (𝑝𝑛 , 𝑐3‬‬
‫[‬
‫ق ق اكزق ق اعق يقتنتىمققإ يمق‬ ‫يك قعمفق‪k-means‬قتقلي ق اا قتيق ق‬
‫قتك ةق اا قتيق اكزق‪.‬ق ق‬
‫قذ ق م ي ق‬ ‫قجش‬ ‫قءق قذ قع هق ع لي ق يق قك اي ق ء اق ةءاق اكزقبش‬

‫ا يجق يمق أق تكق ااهمق ا تا ق ق‪ :‬ق‬
‫𝑛‬
‫‪𝑆𝑆𝐸 = ∑(𝑥𝑖 − 𝑐𝑖 )2‬‬

‫‪𝑖=1‬‬
‫𝑑𝑖𝑜𝑟𝑡𝑛𝑒𝑐 𝑠𝑡𝑖 𝑑𝑛𝑎 𝑡𝑛𝑖𝑜𝑝 ‪∶ 𝑡ℎ𝑒 𝑠𝑢𝑚 𝑜𝑓 𝑡ℎ𝑒 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 𝑒𝑎𝑐ℎ‬‬
‫دق‬ ‫ق قذاكزق ق اعق يقتنتىم قإ يمق آل قذ‬ ‫ا قتيق قءق‬ ‫ذك وعقذربعاتق‬
‫ذل ت اقتقلي قع ق خ أق‪.‬ق ق‬
‫‪108‬‬
‫ق‬
‫ق‬
‫طق‪mean‬قتياءاتق ق اعق يق‬ ‫‪ -‬ق خ لق اءي قءق وقتت رل ق اكزق تك ق قذت‬
‫تات طقهمق‪.‬ق‬
‫حق‬ ‫ق م ا قإ م ثيات قءق تي ق)‪ A(7.4,3.6),B(7.8,3.8‬ق ا اكز ق كميم قي‬
‫لكقذيق)‪c2((7.4+7.8)/2,(3.8+3.6)/2) = (7.6,3.7‬قق‪ .‬ق‬ ‫ذت‬
‫ق‬
‫‪C1‬‬ ‫‪C4‬‬
‫‪C3‬‬
‫‪B‬‬
‫‪A‬‬
‫ثكقءعيمق االق اا قتيقءقاطق ق اعق اكزق كميمق مقثكق االق خ أقذ ق‬

‫ألميمق قءعيمقتقايكق ق اجاتقه ا ق اا اتق كميملقق‪ .‬ق‬
‫تي قتت رل ق اك قزقققققققققققققققققققق‬ ‫حذي ق‪ k-means‬قتكا ل قه يث قءكا قآ ا ق‬ ‫نات ت قذ ق‬
‫قج قذ ض قتقايكق لق اجاتق‪most dense clusters‬ق‪.‬ق ق‬ ‫ق االق اا اتق نقء‬
‫حذياتق‪heuristic‬ق ق ألمقذيق ا قذء اق قةلق ل ق‬ ‫ج ق ق ا قج مذاقناتخموق‬
‫ذ ق‪ global optimum‬ق تيك ق تعت م قج ق ق اجات ق ي ق م قي ك ا ق جت ا ق‬
‫ق ض قءتيك ق‪ .‬ق‬ ‫قجل لاقذ ا ق‪local optimum‬ق ليسقها رص لق‬ ‫تيك ق نقء‬
‫حذي ق‬ ‫ض قك ءلاق‬ ‫ق‬ ‫قج ق‬ ‫م ق قذش ل ق قتكا ق خ حذي قك ة قههي ق‬
‫لع ق‪.‬ق ق‬
‫اتلاقبش قذل وق‪more concretely‬ق‪:‬ق ق‬ ‫قع هق خ حذي ق‬ ‫نتعافقج ق‬
‫‪1- Randomly placing k centroids ,one for each cluster‬‬
‫ءض ق اكزقجش ئياق لق اجاتق ل اقت اجمتق ق اجاتقج قهعضلاق ا قذ ض ق‪.‬ق ق‬
‫‪2- Calculate the distance of each point from each centroids .‬‬
‫اال قذاا ق قءق قج ق اكزقها تخم و ق‪ Euclidean distance‬ق ه ق كةق‬
‫ش جاقق‪ .‬ق‬
‫‪109‬‬
‫‪3- Assign each data point (object) to its closest centroid for creating a‬‬
‫‪cluster .‬‬
‫ءربطق قءق قها اكزق الق لاق قنش ق ق اعقق‪ .‬ق‬
‫‪4- Recalculate the position of the k centroids .‬‬
‫هعمقتشكي ق ق اجاتقءعيمق االقذاكزق ق اعقه يثقيك قذ عمق كميمقع ق‬
‫ق اجمقق‪ .‬ق‬ ‫ذت طق قاطق نق‬
‫‪5- Repeat 24 until the centroids no longer move .‬‬
‫ءعيمق خ تقذ ق‪2‬قإ ق‪4‬ق نق قيك قع ا قذيقت اكقذل ظق ل اكزق‪.‬ق ق‬
‫ا ق‪:‬قكيفقء م قأل لق‪goodness‬قع هق ق اجاتق نقءتكدقذ ق‪k-means‬قذيقكيفق‬
‫ء ا ق قع هق رلق ق؟ق ق‬
‫ألمقء جيق اقق االق م ق‪:‬ق ق‬
‫ةاقق ا ألي ‪- External approach :‬‬
‫‪Compare the clusters with the ground truth if it is available .‬‬
‫قإ قذذك قي ق‪،‬ق يثقع هق خ حذي قق‬ ‫ت ق قذ قأل لق ق اجاتقج قذ ضق‬
‫‪k-means‬قغةقإ ي ق‪unsupervised‬ق ع هق اققغةق عي ق عموق أل ق قائ ق‬
‫نات قذقا ءتلاق لاق‪.‬ق‬
‫ةاقق لي ‪- Internal approach :‬‬
‫‪Average the distance between data points with a cluster .‬‬
‫ق‬
‫ء ا ق ي قذت طق اا قتيق قاطق ق ق اعق‪،‬قك قيعتةقذت طق اا اتق‬
‫ل قاطقج قذاكزعكق ق ق اعقذقياوق لخ أق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫‪Mean distance data points‬‬
‫ق‬
‫‪elbow point‬‬
‫ق‬
‫‪to cluster centroid‬‬
‫‪k=5‬‬ ‫ق‬
‫ق‬
‫ق‬
‫‪K=1‬‬ ‫‪K=9‬‬ ‫ق‬
‫‪110‬‬
‫ق‬
‫ق‬
‫ ق ءم قذتعل قبش ق قت حع ق ياءاتق‬ambiguous‫ قذذاق يم ق هس ق‬k‫ق قت ميمقجم ق‬
‫قهم ي قجش ئياقثكقءقيسق‬k‫ع ا قةاقق ت ميمعاق م قذجكقع هق اققذ قء م ق ي ق‬
‫ق ق‬.‫م ق ءكا ق ع لي قجملقذا تق‬
‫ق إ ق اا قتيق اكزق ق قاطق‬k‫ش ل قذءمق قحلا لقجم ق ق اجاتقذيقحلا لق ي ق‬
‫يج ق إ قءق ق‬ ‫قج مذاقءا ك ق ق‬ ‫ قيقل ق خ أق‬k‫ت خ ض ق با تا قحلا ل ق‬
‫قذيقءق ق ءع افقتت م قج مق ق ق نق مذقج معاقذت طق‬elbow point‫ق‬ ‫ت‬
‫ق ق‬.‫ق‬elbow‫اا اتقتيق قاطق ق اكزقها ءخ اضق ع هق رلق قتاىمق‬
:‫ق ق‬ ‫لخصقذاق‬
‫ق‬
k-means is a partitioned-based clustering which is :
a- Relative efficient on Med&Large sized dataset .
b- Produces sphere-like clusters ,because the clusters are shaped
around the centroids .
c- Its drawback is that we should pre-specify the number of
clusters and this is not easy task .
‫ق ق‬:‫ق ع اق‬k-means‫قذ ا يقج ق‬ ‫أ‬
- K-means on a random generated dataset
- Using k-means for customer segmentation
‫ ق‬:‫ق ق‬ ‫ء مذقها ا ق‬
‫ق‬
111
‫ق‬
‫نش قذك ج قتياءاتقجش ئي ق ء م قذاكزعاقها تخم وق‪k-means‬ق ق‪ :‬ق‬
‫‪112‬‬
‫كايق آل قإجم تققققق‬ ‫اقتتشكي قذك جاتق ياءاتق عش ئي ق‬ ‫ق‬ ‫إ قع هق ا ل قءك‬
‫‪k-means‬ق‪:‬ق ق‬
‫يجق ق‪ :‬ق‬ ‫قهعمقتم ل ق‬ ‫ا‬ ‫تت ميمقجم ق اكزق ق ق اجاتق ةرلق قإيكا ق اكزق‬
‫ق‬
‫‪113‬‬
‫هعمق االق اقكزقء تاجق ا كق ياءاتق‪:‬ق ق‬
‫‪114‬‬
‫قذ ب د ق اجاتق‪.‬ق ق‬ ‫ظقكيفقتكقتقاي لاق‬ ‫ء‬
‫ق‬
‫‪115‬‬
‫قإجا لقت يمق ياءاتقذ قألميمق‪:‬ق ق‬ ‫قث ثق اجاتق‬ ‫ل قذ ءاقتقاي لاق‬
‫ق تخم وق‪k-means‬ق قتقايكق زبائ ق ك جاتق ق‪ :‬ق‬ ‫ءأ ق آل ق ل ا ق ا ق‬

‫ق ياءاتق ءظلاعاق‪:‬ق ق‬ ‫ء‬
‫حذي ق‪k-means‬ق قتتعاذ قذ ا لقذ ق عل ذاتق ي ق‬ ‫ع ق‪Address‬قءصق م اق‬

‫قةرلق ق‪ Euclidean distance‬ق ق االق اا اتقج ق اكزق قتتعاذ قذ ق ياءاتق‬
‫قءزللمق ق‪ :‬ق‬ ‫تق ع ق‬
‫‪116‬‬
‫اقءا قت حلد د قتياءات اق يسقذت ا قاق لاقه ئ ق عش تق ذ لاقآ ا ق ذ لاقذألز ق عش تق‬
‫قءكايقتق يالاقه ااجملق كت اتق ب ائي ق‪:‬ق ق‬
‫يجقهعمق اضقجم ق ق اجاتق بقي قها ذة تق‪k-means‬ق‪:‬ق ق‬ ‫ءم لق‬
‫ق‬
‫‪117‬‬
‫ءعيمقت حلد د ق قيكق لكم ق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪118‬‬
‫ثكقءا كق ياءاتق‪:‬ق ق‬
‫ق هعا ق ق‪ :‬ق‬ ‫بش قث‬
‫‪119‬‬
‫ق‬
‫ق‬
‫الهرم ‪: Hierarchical clustering‬‬
‫ي‬ ‫‪ -‬التجميع‬
‫قذ قذخ طق‪chart‬ق رل قجا ىمقذ ق عل ا قتاهعيق ظ قت ألي ق‪UCLA‬ق‬ ‫ق يك ق م اق قرل‬
‫ق‬ ‫ق كل قذ م لقذ ق‪85‬ق‬ ‫ق خ طقبجم قتقرلاقأل نق دق‪900‬ق‬ ‫لتكق تخم وقع‬
‫طق ق ققآ ياق‬ ‫قذذرل اق ك وبي ق قذ باق ق شقق‬ ‫ق‪200‬قيئ قتايق‬ ‫‪breeds‬ق ذكةقذ‬
‫ي )ق‪.‬ق ق‬ ‫قع ق ا ق م مق ق قألل قذاقذ ق مالق‬ ‫( ب اقتاتهالقذ‬
‫تكق تخم وق تق ياتق ثي ق كزئي ق‪molecular genetic techniques‬ق ت لي قذكةقذ ق‬
‫ءاتقها جت ا ق‬ ‫‪ 48000‬قج ذ قأل ني ق‪genetic markets‬ق ت يق اقذخ طقي احقع هق‬
‫ج ق تشاهمق قتنياتلاق ك ني ق‪،‬ق يثق تكقت اؤهقبش قعامق قجقمق قجقملقهق اعقه يثق‬
‫تتأ فق عقملقذ قجملق اجاتقذ ا قتم قذت ائلاق لتكقت ا ق تك ق لام قها جت ا قج ق‬
‫ء جيقذ ق اقق ق‪ :‬ق‬
‫‪120‬‬
‫‪ -‬تقايكق‪Divisive‬ق مق تكاهق‪top-down‬قذيقء مذقها تالا قذ ق اذوق لقاجملقذيقء مذق‬
‫ها قاكق كةقثكقءكزئمق ااوقذ هاقذ مق عك ق ن قءنته قذ ق تقايكق ‪dividing‬‬
‫‪the clusters‬ق ق‪.‬‬
‫‪ -‬تك ق‪Agglomerative‬قيع قبش قذعاكسق ااهقمق‪bottom-up‬ق يثق ق قاعق‬
‫مذق مهق ل اق ألت قذ ق اعقآ اق ش ق اجاق م ق نقء ق لق ق ل قج ق‬
‫ق‪.‬‬ ‫قع ق‬ ‫ذ مذق تك قذ ق تكم سق‪amass‬ق هق اوق ققجلكق ياءاتق ذ‬
‫‪Divisive‬‬ ‫ق‬
‫‪Agglomerative‬‬
‫ق‬
‫أ قذ ا قج ق تك ق يثقع هق رلق قت ن ق لاوقذ ق ع ارصقتإألا ق مذ ق تم لجق‬
‫‪progressively merging‬ق لق اجاتق‪.‬ق ق‬
‫م ق‬ ‫ق قءرلمقتك ق‪ 6‬قذم ق قك م قها جت ا قج قهعمق( اا )ق قذ لاقج ق ا ق‬
‫هق‪:‬ق‪Toronto,Ottawa,Vancouver,Motreal,Winnipeg,and Edmonton‬ق‪.‬ق ق‬
‫ق اا اتق)‪dis(i*j‬ق‪:‬ق ق‬ ‫نا لاقذ‬
‫‪ TO‬ق‬ ‫‪ OT‬ق‬ ‫‪ VA‬ق‬ ‫‪ MO‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 505‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ OT‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 167‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 3690‬ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ MO‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1824‬ق‬ ‫‪ 2976‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫‪121‬‬
‫ق اا اتق ن مذقتت أليمق قذم قإ ق اجلاق ع مءقا ق‪ 6‬قذم قذي ق‪6‬ق‬ ‫هعمق االقذ‬
‫اجاتق ق اعقي يقذم ق ملق قطق‪،‬ق تك قيعت مقج ق قالقتيق م ق ق‪ .‬ق‬
‫قءكم قذ ق اا قتي ق‪ MO,OT‬قه ق‪ 167‬ق ه قذ ها قذاا قتي قذم نتيق‬ ‫ذ ق‬
‫ك عل اق ق اعق مق‪.‬ق ق‬
‫ء ظقذءمقءعت مقج قذةلق‪feature‬ق ملق هق اا قذيقهعمق مقذ قذءمقي ك اق جت ا ق‬
‫حذيات قجميمل قذ لا ق ‪Pearson,Eucluiden,Average‬‬ ‫ج قذكة قذ قذةل قها تخم و ق‬
‫‪Distance‬ق ي قه ا قءوعق ياءاتق ذكا ق عا ق م اق‪.‬ق ق‬
‫ق‬
‫‪TO OT MO VA ED WI‬‬
‫مقءعيمقتاتي ق م قذ قألميمقق‪.‬‬ ‫هعمق ذ ق م نتيق‪OT,MO‬ق ق اعق‬
‫‪ TO‬ق‬ ‫‪OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪OT/MO‬‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ق‬
‫اقذ ق‬ ‫مقكيفق تكق االقذاا تل اق ول قج ق م ق‬ ‫م قهعمق ذ ق‪OT/MO‬قهق اعق‬
‫‪WI‬ق هق‪1676‬ق؟ ق‬
‫قذ لاق‪:‬ق اا قتيقذاكزق اا قتيق‪OT&MO‬ق بيقذاكزق‪WI‬ق عك ق‬ ‫ع ا قجملقةاقق‬
‫ق‪:‬ق ق‬ ‫ء مثق ا قتياءاتق‬
‫ق‬
‫‪MO‬‬
‫ق‬
‫‪WI‬‬ ‫‪OT‬‬
‫ق‬
‫ق‬
‫‪122‬‬
‫ألمءاقذ قذ هاقذاا قتا ي قتي ق ق اعق كميمق‪ OT/MO‬ق ق‪ TO‬ق ه ق‪ 351‬ق با تا قءضعل اق‬
‫ق اعق مقق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫ءعيمقتشكي ق‬
‫‪TO/OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ءكمق آل قذ القذم نتيق عضل اقع اق‪ED,VA‬ق هق‪819‬ق تش ق م اق اعقألميمقتي ل اق ق‪ :‬ق‬

‫‪ VA/ED‬ق ‪TO/OT/MO‬‬ ‫‪ WI‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 2840‬ق‬ ‫‪ 1676‬ق‬
‫‪ VA/ED‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1667‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ثكقءكمقذ الق اجيقع اق‪WI‬ق ق‪VA/ED‬ق‪:‬ق ق‬
‫‪ VA/ED/WI‬ق ‪TO/OT/MO‬‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 1676‬ق‬
‫‪VA/ED/WI‬‬ ‫ق‬ ‫ق‬
‫ق‬
‫مق ك مق‪6‬ق ق‪ .‬ق‬ ‫ل اقج ق اعق‬ ‫ق ق اجاتقها تالا ق نقق‬ ‫ظقذءمقتكق ذ قأل‬ ‫ء‬
‫ق‬
‫ق‬
‫‪123‬‬
‫لتكقت ي ق شكالق لاذي قه خ طقنا يمق‪Dendogram‬ق‪:‬ق ق‬
‫ق‬
‫ق‬
‫‪y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬
‫ق‬
‫‪Dendogram‬‬
‫ق‬
‫ق‬
‫ق‬
‫‪ED‬‬ ‫ق‬
‫‪OT‬‬ ‫‪MO‬‬ ‫ق‬
‫‪WI‬‬
‫ق‬
‫‪VA‬‬ ‫ق‬
‫‪TO‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪124‬‬
‫ي قذكةق‪:‬ق ق‬ ‫تمقتت‬ ‫ءع ق ل خ طق م‬
‫ق‬
‫‪y‬‬
‫ق‬
‫خط أفقي‬
‫ق‬
‫ق‬
‫خط قطع للشجرة الهرمية‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬ ‫ق‬
‫نتيجة القطع حصلنا على ‪ 3‬قطاعات‬
‫ق‬
‫‪Dendogram‬‬ ‫ق‬
‫ق‬
‫ق‬
‫قتي ق ق اجاتقهخطقذ ق ق يثقتعتةق ب م ثياتق‪y‬ق‬ ‫تكقت ي ق ق ءمذاجق‪ merge‬قي‬
‫ذقم ق تشاهمقتيق ق اجاتق نقتكق ذكلاق ول قق‪ .‬ق‬
‫فقهاتكاهق‬ ‫ققذ ا اقهم ي قتكق جت ا ق قذم ق اعقه مقي تمق با ءتقا ق ق خ طقذ ق‬
‫ق ع ق يق‬ ‫ج ق تك قإجا ل قت ا ق‪ reconstruct‬قج ليات ق مذ ق ي قذءت قع ق تك‬
‫‪depicted clustering‬ق‪.‬ق ق‬
‫قع هق رلق ق ق ألمق ة ضقذ ق عم ق ق اجاتق قذ قي ق قهعضق ت يقاتقء تاجق‬
‫ل ق‪disjoint clusters‬ق اقع قذت ق ق تك ق ا حق ‪flat‬‬ ‫إ قتكزئ ق ق اجاتق‬
‫‪clustering‬ق‪.‬ق ق‬
‫قذعيق‬ ‫ق شكالق لاذي قج مقهعضق قاطقذ ق تشاهمق قذات‬ ‫ج مقع هق ا تق تكق‬
‫تشكي ق اجاتقذتشاتل قق‪ .‬ق‬
‫حق م قاقث ث ق اجاتقهم قذ ق اءدق‪6‬ق‬ ‫قذ‬ ‫اق مثق قذ ا اق اات قءكمقج مق طق ق‬
‫اجاتق‪.‬ق ق‬
‫ق‬
‫‪125‬‬
‫ق‬
‫ق ق‬ ‫ق‪ bottom-up‬قه اض ق م اق‪ n‬قءق‬ ‫قذ ق قاجمل ق لق‬ ‫إي ق تالا ق قج لي ق تك‬
‫ذك ج ق ياءاتق ق‪ :‬ق‬
‫‪1- Create n clustres ,one for each data point‬‬
‫‪2- Compute the proximity/Distance matrix : n*n‬‬
‫‪3- Repeat :‬‬
‫‪3-1- Merge the two closest clusters‬‬
‫‪3-2- Update the distance matrix‬‬
‫‪4- Until only a single cluster remains‬‬
‫ق ت اجمقتيق ق اجاتق ق‪ :‬ق‬ ‫لعلكقيك قش قذ‬
‫‪0‬‬
‫‪𝑑(2,1) 0‬‬
‫[‬ ‫]‬
‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫قهعمق ق اعقج قء امقق‪ .‬ق‬ ‫رل ق ق اعاق قائيسق‪0‬ق ءمقي‬
‫نت ق م اقهعضق تااؤ تق‪:‬ق ق‬
‫الق ي اقتي لاقذ قع هق‬ ‫‪ -‬كيفق تكق ياوق اا اتقتيقع هق ق اجاتق كيفقءعافق‬
‫ق اجاتق؟‬
‫‪ -‬ذاقهق قاطق نقناتخمذلاق قذك ج ق ياءاتق م اق؟‬
‫ملق‪:‬ق ق‬ ‫ق‬ ‫ة قكيفقء ا ق اا قتيق اجيق(ذرلضي)ق ك قذ ل اقءق‬
‫‪Age‬‬ ‫‪BMI‬‬ ‫‪BP‬‬
‫‪Patient1‬‬ ‫‪54‬‬ ‫‪190‬‬ ‫‪120‬‬
‫‪Patient2‬‬ ‫‪50‬‬ ‫‪200‬‬ ‫‪125‬‬
‫ق‬
‫ق‬
‫‪126‬‬
‫ت فقتيق قاطق ا تا ق‪:‬ق ق‬ ‫ه رلق ق‪Euclidean‬قء ا ق‬
‫𝑛‬
‫‪𝐷𝑖𝑠(𝑃1 , 𝑃2 ) = √∑(𝑥𝑖 − 𝑦𝑖 )2‬‬

‫‪𝑖=0‬‬
‫‪= √(54 − 50)2 + (190 − 200)2 + (120 − 125)2 = 11.87‬‬
‫ت فق‪dissimilarly-distance‬ق‪:‬ق ق‬ ‫ق‬ ‫ق(ذرلض)ق نت ق م اقذ‬ ‫اضق م اق‪n‬قءق‬
‫‪P1‬‬ ‫𝐼𝐼𝑥‬ ‫𝐹𝐼𝑥 …‬ ‫𝑃𝐼𝑥 …‬ ‫‪0‬‬

‫⋮‬ ‫⋱‬ ‫⋮‬ ‫‪𝑑(2,1) 0‬‬
‫[‬ ‫[ >= ]‬ ‫]‬
‫‪P2‬‬ ‫𝐼𝑖𝑥‬ ‫𝐹𝑖𝑥 …‬ ‫𝑃𝑖𝑥‬ ‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫‪𝑥𝑛1‬‬ ‫𝐹𝑖𝑥‬ ‫𝑃𝑛𝑥‬ ‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫‪Data set‬‬ ‫‪Dissimilarity matrix‬‬
‫ق‬
‫ق‪Agglomerative‬ق اق ق‬ ‫اق ذ اقذءمقتكق مذ قتيق ق اجاتق تقا ب ققهخ حذي ق تك‬
‫ش ق ت ي ق ق‪ :‬ق‬
‫‪P1‬‬ ‫‪P3‬‬
‫‪P2‬‬
‫ق قاط ق( اض) ق تشاتل ق‬ ‫م قكيف ق تك ق اال قالمسافة ربي القطاعات ق ن قتك‬

‫لا؟ ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪127‬‬
‫ق ق‬:‫ق يثقءكمق ق اجاتق تقا ب ق ق ذكلاق‬ ‫ألمقجملقتعرل اتق‬
- Single-Linkage Clustering :
Minimum distance between clusters :
‫) ق‬a,b(‫يثقء ألمقذ هاقذاا قتيقءق تيق قذ ل اق ق اعقذ ق‬
‫ق‬
‫ق‬
- Complete-Linkage Clustering :
Maximum distance between clusters :
‫ق ق‬:‫إيكا قذة قذاا قتيقءق تيق قذ ل اق ق قاعق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
- Average Linkage Clustering :

Average distance between clusters :
‫ق ق‬mean distance‫طق اا اتقتيق قءق قذ ق ق اعقج ق قي ق‬ ‫ء ا قذت‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
- Centroid Linkage Clustering :
Distance between clusters centroids .
‫ق ق‬.‫ء ألمق اا قتيقذاكزيق ق اجيق‬
‫ق‬
128
‫تعت مق رلق ق ت ع ق االقع هق اا اتقج قءوعق ياءاتق قذهعا عاق قذعكقس قذكا ق‬
‫ياءاتق نقءتعاذ قذعلاقق‪ .‬ق‬
‫الهرم ‪:‬‬
‫ي‬ ‫‪ -‬سلبيات و إيجابيات طريقة التجميع‬
‫‪Advantages‬‬ ‫‪Disadvantages‬‬
‫قت تاجقت ميمقجم قذعيقذ ق ق اجات ق‬ ‫قق يق‬ ‫ق ع‬ ‫لق‬
‫قي ك ق ة أل قج قذيق‬
‫تكق ذ ق ق اجات ق‬
‫ق‬ ‫لل ق ت‬ ‫تأ ق تاقةول ق ل ااهات ق‬
‫ذ ياءاقي ع قت ميمقجم ق ق اجاتق ق خ طق نسق اقذخ طق‪dendogram‬قذ اق ال ق‬
‫لكقج ق خ حذي ق‬ ‫ج مذاقيك ق م اقذك ج قتياءاتق خ ق‬
‫ق‬
‫الهرم و ‪: k-means‬‬
‫ي‬ ‫‪ -‬مقارنة ربي التجميع‬
‫‪K-means‬‬ ‫‪Hierarchical‬‬
‫ذكةق عا ي ق ل ياءاتق ضخ ق‬ ‫ه ئ ق ل ياءاتق ضخ ق‬
‫قت تاج قت ميم قجم ق ق اجاتق ء م قجم ق ق اجاتق ق م ق‬
‫ت مذق ع ق‬
‫تعط قذكة قذ قتقايك قها جت ا ق تعط ق قط ق اك ق مق ل ياءات قها جت ا قج قجم ق ق اجاتق‬
‫قة ق‬ ‫ج ق م ق لوب ق‬
‫قذال قتعط قجم ق اجات قذختل قه ا قجم ق اكزق‬ ‫ذاقتعطقء سقجم ق ق اجات ق‬
‫ة قبش قجش ق يقت مذق خ حذي قها ع ق‬
‫ءأ ق ا قذشاهم ق ا ق ا قهم قج م ق تخم و ق‪ k-means‬قتت يم قذك ج قتياءات قجش ق ئي ق‬

‫ق لام ق ت ميم ق‪ Agglomerative‬ق ءم ق كة قش جا ق قق‬ ‫تك يعلا قها تخم و ق تك‬
‫تخم وق‪:‬ق ق‬
‫حذ ق‪:‬ق ق‬ ‫هم ي قءق وقها تة ق كت اتق‬
‫‪129‬‬
‫ثكقء مقذك ج قتياءاتقجش ئي ق قءا لاق‪:‬ق ق‬
‫ق‬
‫ق‬
‫يجق‪:‬ق ق‬ ‫ق لامق تم ل ق‬ ‫حذي ق تك‬ ‫ءق وقها تخم وق‬
‫ق‬
‫ق‬
‫ق‬
‫‪130‬‬
‫ل اقجل لاق‪:‬ق ق‬ ‫ءا كق تيك ق نق‬
‫ق‬
‫‪131‬‬
‫ق تقا لق‪:‬ق ق‬ ‫ء ا قذ‬
‫ق لامق‪:‬ق‬ ‫ءا كقذخ طق‪dendrogram‬ق يقيعةقج ق تك‬
‫ء ظقذء اق تخمذ اقةرلق ق‪ complete‬قج مق االق‪ Z‬قإيقي ك اق تيا قةاققذ ا قذ ق‬

‫‪average‬ق‪:‬ق ق‬
‫‪132‬‬
‫ق نقتتعل قه يع ق اأ ق ءوعق‬ ‫ع هق اقق ب ائي ق نقتعطقءتائ قذختل ق ق تك‬
‫ياءاتق تيك ق ض ق نقءاأل عاق ق‪ .‬ق‬
‫ق‬
‫‪ -‬التجميع ‪Density-Based Spatial Clustering of Applications with‬‬
‫‪: Noise DBSAN‬‬
‫ه قذ ا ق‪ appropriate‬ق تخم و ق ق ت ا ق ياءات قذي قيك ق لاق ي ق ق ياءاتق‬
‫ق جتيا ي ق ااهق ق ‪k-means,hierarchical,fuzzy‬‬ ‫شايل ق عظك قةاق ق تك‬
‫حذياتق‬ ‫‪clustering,….‬قتق وقتتك ق ياءاتقه رلق قغةقإ ي ق‪unsupervised‬ق هق‬
‫ائ قج ق تقايكق‪ partitioning-based‬ق ه قج لي ق ق لل ق لكق م ق يسق لاق ي ق‬
‫‪ notion‬قها قيكق شايلق‪ outlies‬قذيق ق قاطق ت تىم ق ق اعقذاق ن ق ق كقتك قذ مق ل هق‬
‫ذ ق مقتتاه قت عض ق شاك ق أل ق قاط ق شايل ق ياه ق قت ميمقذاكزق ق اعق‬
‫مق‪.‬ق ق‬ ‫أل لق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪133‬‬
‫ع م قتك ق قاط قيظلاقج مءا قجمل ق ء اط قذ ق‪ :‬ق‪ spherical-shape clusters‬قكا ل ق‬
‫ش قذ قكي ي ق ش ق‪arbitrary-shape clusters‬ق( جت اةي )ق ق‬
‫ق‬
‫كروية الشكل‬
‫ق‬
‫ق‬
‫قطاع ضمن قطاع‬
‫شكل عشوائي‬
‫ق‬
‫تق ياتق تك ق ااهق ق قتك قذكمي قج مذاقتك ق ع ارصق قء سق ق اعقغةقذتشا ك ق‬
‫ق عي اق‪.‬ق ق‬ ‫بش ق افقها تشاهمق ي اقتي لاق يك ق‬
‫حذي ق‪ DBSCAN‬قتق و قتتك ق قاط قذ ق يث قك ا تلاق‬ ‫ها قاه ق‪ in contrast‬ق إ ق‬
‫قك ا ق تعافقع اق‬ ‫ع مذاقتك قك ي قك اي قتك علاق ول ق ت للاقج ق ك جاتق‬
‫م ا قج قذءلاقجم ق قاطق قء فق اقذ م ق‪radius‬ق ه ق عا قألم ق ق تك ق يق‬
‫مقج قها ا قذ ق ةق(ذ ق تك عاتق اك ي ق قغةعا)ق تعتةق ةلق ا ي ق لاقهق‬
‫مق ق تأثاقها ضك قذ قها قيكق‬ ‫كتشافق ةقتك ق قاطقهأيقش قجش قذ أل لق‬
‫شايلق ق‪ .‬ق‬
‫ا ق كول ق ‪the location of weather‬‬ ‫قذ اتق‬ ‫ذ ا قج قي ق رل قت م قذ‬
‫‪station‬ق قك م قع اقي ك ق خ حذي ق‪DBSCAN‬قذ قتك ق اكزق( ا م)ق نقتعطقء سق‬
‫ا ق كول ق‪.‬ق ق‬
‫‪134‬‬
‫يثق يسق قطقتق وقع هق خ حذي قذش ا ق ق اجاتق تعم لقه قت م قك ق كز ق كةق‬
‫قك ا قذ ق نق لاق ك قذ ق يكقشايلقق‪ .‬ق‬ ‫ك ا قها ياءاتق ي قتتكاع ق اة ق‬
‫ليى كيف تعمل هذه الخوارزمية ‪:‬‬
‫ق‬ ‫حذي ق اقذ ل اقجل قك ا ق قاطق ي قهقياوقذم ق القع هق قاطقذ‬ ‫هق خ‬ ‫تعت مقع‬
‫ق‬ ‫قء س ق ق اع ق تق و قتتك يعلاق تعت مقع ه ق ع لي ق ااتي قج قذذرل‬ ‫عض ق‬ ‫هعضلاق‬
‫ق‬ ‫اق)‪R (radius of neighborhood‬قذاقهق قاطق أل لقج قهعمق‪R‬قذ‬ ‫فق ق‬ ‫ذ ل اقء‬
‫ق‬ ‫جت ا قج قجم قع هق قاطقي ك اقتا تلاقذ ق قك ي ق‪dense-area‬قذ‬ ‫يثقها‬ ‫ءق قذاق‬
‫ق‪.‬ق ق‬
‫قجم قذ ق قاطق‬ ‫ذاق ا قع ق)‪ M (minimum number of neighborhood‬قذ‬
‫كا لق ق قذاق ق وقتتك يعلكقذ قهعضق تشكي ق اعقذاتق قق‪ .‬ق‬
‫ق ئالقء فق اعاق‪2‬ق كقجم قذ ق قاطق‬ ‫اضقذ ق‪R = 2 cm‬ق ق‪M = 6‬قذيق م اق‬
‫ق‪.‬ق ق‬ ‫ع ق‪6‬قءقاطقذ ق ق ق م‬
‫صقءوعقع هق قاطق يثق م اقث ث ق ت ا تق ق‪ :‬ق‬ ‫يك قهم ي قت‬
‫ق( ا ألي ) قشايلق‬ ‫قذ ي ي ق‪ border point‬ق– قءق‬ ‫ءق قذاكزل ق‪ core point‬ق– قءق‬
‫‪outlier point‬ق‪.‬ق ق‬
‫لاقع قه قذاكزل ق يثقتعتةقذاكزل قج مذاقتك ق‬ ‫يثقءختا قءق قجش ئي ق ء مذقتت‬
‫ق(ها جت ا قج قذ ا ا) ق‬ ‫ق م ئالق‪6‬قءقاطقج ق‬ ‫ق ئالقء فق اعاق‪R‬ق‬
‫ق‬ ‫قءختةعاقع قهقذاكزل قذوق ق نقءنتهقذ قأل‬
‫ق‬ ‫ع مذاق قتك قذاكزل قءنتق ق ق قذ ا ق‬
‫قاطق لت م ق اق ق ق اكزل ق‪.‬ق ق‬
‫ق ئالق‬ ‫ع ق اضق ألمءاقج كمق ت ا قءق قذاق أل ق‪5‬قءقاطقه اق لاق ق ق ختةلق‬
‫ء فق اعاق‪R=2‬قج معاقتاىمقءق قذ ي ي ق هق ق ق نقت ت يق ئاتلاقذ قذ ق عم ق‬
‫ق ئالقذاكزعاقءق ق‬ ‫قءق قذاكزل قذ ا قذيقتك ق‬ ‫‪ M‬قذ قي ك قذ قء قإ لاقذ ق‬
‫ذاكزل ق‪.‬ق ق‬
‫ق ئالقء فق اعاق‪ R‬قذيقءقاطقذاكزل قذ قجم قءقاطق‪M‬ق‬ ‫ق‬ ‫ق ق‬ ‫ج مذاق ق ألمق‬
‫هقتك قءق قشايلقق‪ .‬ق‬
‫‪135‬‬
‫ق قاطق اكزل ق قرل قذ قهعضلاق تش ق‬ ‫ج مذاقءنته قذ ق احق قاطقءق وقج معاقت‬
‫اعقذشةكق ق‪ .‬ق‬
‫قإ لاق تتم قذ ق ق ق‬ ‫قذ قءق قذاكزل ق ق قاطق نقتكق‬ ‫ا ق اعق تش قج ق‬
‫ي ي ق‪،‬ق بددل ق تكقجز ق قاطق شايلقبش ق‬ ‫اكزل قهم ئالقء فق اعاق‪ R‬قذ ق قاطق‬
‫أليمق ق‬
‫ق‬
‫ائصق‪DBSCAN‬ق‪:‬ق ق‬ ‫ي ك اقتلخيصق‬
‫‪1- Arbitrarily shaped clusters .‬‬
‫‪2- Robust to outlier points .‬‬
‫‪3- Doesn’t require specification of the number of the clusters such as‬‬
‫‪k-means .‬‬
‫قت س قذ ا ق‪ k-means‬قتت يمق‬ ‫يتك قتبيا قذةل ق‪ DBSCAN‬ق ق ءتقا ق قاط ق شايل ق ي‬
‫ذك ج قتياءاتقجش ئي ق تك يعلاق ق‪ :‬ق‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪136‬‬
‫ء مقذك ج ق ياءاتق عش ئي ق‪:‬ق ق‬
‫يجق م اق‪:‬ق ق‬ ‫ءم لق‬
‫ق‬
‫ق‬
‫‪137‬‬
‫ق ق اجاتق‪:‬ق ق‬ ‫ق‬ ‫ء أل قمق قاطق شايلق نق قتم‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪138‬‬
‫ءا كق ياءاتق‪:‬ق ق‬
‫ق‬
‫قشايلق ق كاء ق شقتكق كتشا لاقهخ حذي ق‪DBSCAN‬ق‪.‬ق ق‬ ‫ظق أل قءق‬ ‫ء‬
‫ق‬
‫‪139‬‬
‫ا قها تخم وق‪k-means‬ق ة ق اقق ق تعاذ قذ ق قاطق شايلق‪:‬ق ق‬ ‫عيمقء سق‬
‫لاق لق اعق ا ثق ق‬ ‫ظقذ ق ق ق شايلق نقتكقإيكا عاقها تخم وق‪DBSCAN‬قتكق‬ ‫ء‬

‫حذي ق‪k-means‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪140‬‬
‫‪ -17‬أنظمة التوصية ‪: Recommended Systems‬‬
‫تلتقطقع هق ءظ ق ء اطق نقي م عاق اوق ق ل كلكق ق اتخمذلاق ت قذاي قي ك قذ ق‬
‫يختا ق قذ قذاي قي عل ق‪ ،‬ق ل اق ا ق او قذختل ي ق ق يا تلك قإ قذءلك ق ت ع ق ء اةاق‬
‫‪patterns‬قذ م لقذث ا ق ياتلكق با تا ق ل اكقتشاهمق ق شيا ق نق اغ لاق اوق‪.‬ق ق‬
‫ا اوقي يل ق‪trend‬ق تيا قذشيا ق قء سق فق‪same category‬قذ ق شيا ق نقتشةكق‬
‫ق قذء ق شةلد ق‪ purchased‬قكتاهاقج ق ه ق‬ ‫ات ق‪ same characteristics‬ق‪ ،‬ق‬ ‫ق‬
‫ق ذا قج قم ق ءتقا ق أك تق‬ ‫ق ا ل قكتال قت لي ق ياءات ق‪ ،‬قك‬ ‫ق إء ق ت‬ ‫ا‬
‫ق ل قجميمل قذ قذذاح ق‬ ‫ها ‪ ......‬يث ق تك ق تخم و قذ قع ه ق ءظ ق قذ‬
‫‪amazon‬ق قءت ليكسق‪Netflix‬ق ي قها جت ا ققج قةل اتق زبائ ق‪،‬ق ذيضاق قهعضقت يقاتق‬
‫وباي قج ق ول قق ذيضاق يسقت كق يقيقة قجلي قإ ا قذ م ا قذ ك ق قيك ء ق مق‬
‫ق‪.‬ق ق‬ ‫اتق نقذجك دقتلاقذءدقذث ا قت‬ ‫ذجك قت سق‬
‫ق لال ققققققققققققققق‬ ‫هعض قذ ا قع ه ق ءظ قه ق‪ border exposure‬ق عاض ق شاذ قذ ق‬
‫ي قذكةق م ق‪ .‬ق‬ ‫ذ ق لخمذاتقه يثقيعطقذ تكاتقذ ض ق مذاتقذ ا ق لزب ق ل م ق‬
‫ألمقبش ق ئيسقء جا ق ل هق ءظ ق ق‪ :‬ق‬
‫عىل‬ ‫‪ Content-Based‬التصفية باالعتماد‬ ‫‪ Collaborative Filtering‬التصفية باالعتماد‬
‫المحتوى‬ ‫عىل التفضيل‬
‫‪Show me the sane of what I’ve liked before‬‬ ‫‪Tell me what’s popular among my‬‬
‫‪.‬‬ ‫‪neighbors, I also might like it.‬‬
‫ع ا ق ث قج ق ع ارص ق شاتل ق ا قي م ق زب ق‬ ‫ع اق ث قج قذك ج ق شخاص ق قرل ي قذ مق‬
‫( تا هق اهقا)ق لقة لاق‪.‬ق ق‬ ‫ذاي قي ضل ق لقة لاق لزب ق‪.‬ق‬
‫ق‬
‫المقترح له‬
‫ق‬
‫ق‬
‫ق‬
‫يطلب‬ ‫ق‬
‫ما رآه اآلخرون‬ ‫ق‬
‫ق‬
‫ق‬
‫ج ارصقذتشاتل ق‪similar items‬‬ ‫ت ضي تقذتشاتل ق‪similar preferences‬‬
‫ق‬
‫‪141‬‬
‫ك ق ألمقءوعقآ اق‪Hybrid recommender Sys‬قذءظ قعك قت ت يقج قجملقتق ياتق‬
‫ذكت ع قق‪ .‬ق‬
‫ي ق ق‪ :‬ق‬ ‫قذءظ ق ت‬ ‫ع ا قذ لوبيق ت‬
‫‪: Memory-based -‬ق يثق تكق تخم وقأل قتياءاتق ع ارصق ق شخاصقق ‪entire‬‬
‫‪user-item dataset‬ق تقميكق ة اتق لتكق تخم وقجملقتق ياتقإ ائي ق‪:‬ق‬
‫‪Pearson Correlation – Cosine Similarity – Euclidean Dis…..‬‬
‫‪ : Model-based -‬تكقع اقت ولاقء يجق ل اتخمذيق قطق ا قذعا ق غ اتلكق‬

‫لتك ق تخم و قتق يات قتعلك ق آل قذ ق‪ :‬ق – ‪Regression – Clustering‬‬
‫‪Classification‬قق‪.‬‬
‫‪ -‬أنظمة التوصية باالعتماد عىل المحتوى ‪: content-based‬‬
‫تق وقع هق رلق قج قتقميكق ع رصق ض ق لزب قها جت ا قج قتا اي ق اتخموقء امق‬
‫يثق اكزق ة اي قج قذاقي مق اتخموق ع قيعت مقج قجم ق ا تق ن ق تا ق لاق‬
‫ق‪like‬ق مقق‪ .‬ق‬ ‫اتخموقج رصقذاق ذاقيم قج ق عت اوق اتخموقتل ق ع رصقك‬
‫يثقيعت مقءظاوق ت ي قج قذقم ق تشاهمقتي ق ع ارصق قع ق تشاهمقذ ق تقا لقيقاوق‬
‫قها ت ق‪ content‬ق فق‬ ‫قع ه ق ع ارصق ق‬ ‫ت ق‬ ‫ها جت ا قج قتشاهم ق‬
‫ع رصق‪category‬ق قج ذتمق‪tag‬ق ء جمق‪gender‬ق عك ق‪..‬ق‪ .‬ق‬
‫ق‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫ق‬
‫‪142‬‬
‫ق‬ ‫ت‬ ‫ل ق اوق اتخموقهابجكالقها ل ي ق‪ 1‬ق ق‪ 2‬ق ق ا ق لكق كق‪ 3‬قذ قء سق وعقذ ق‬
‫ت قق‪ .‬ق‬ ‫يقمذمقءظاوق ت ي ق ل اتخموق ا ة ق مق ي قذعت م قج ق تشاهمق ق‬
‫يك ق م اقذك ج قذ ق‪6‬قذ وق ذ قذ لاق اتخموقث ث ق ذج اعاقت ضي ق‪rating‬ق ءرلمقذ ق‬
‫ءظاوق ت ي قذ قيقموق لكق ض قذ ق ث ق ت قي ق ة عاق اتخموق‪.‬ق ق‬
‫)‪1 Bat vs Super (adventure, super hero‬‬ ‫ق‬
‫ق‬
‫)‪2 Galaxy (comedy, adventure, super hero,sci-fi‬‬
‫ق‬
‫)‪3 Captin (comedy, super hero‬‬
‫ق‬
‫)‪4 Hulk (comedy, adventure, sci-fi‬‬ ‫ق‬

‫ق‬
‫)‪5 Batman (super hero‬‬
‫ق‬
‫)‪6 spider (super hero, comedy‬‬ ‫ق‬
‫ق‬
‫وق‬ ‫اقء ظق م اقت نيفق ق لكق ءرلمقذ ق ظاوقذ ق ت قذاي ق يقيكق اتخموق‬
‫تاجق تعافقج قتا اي ق اتخموق‪:‬ق ق‬ ‫ت ق‬ ‫ث ق ت قي ق‪،‬قها جت ا قج ق‬
‫وق ن ق آعاق اتخموقذ ق ع ذاتق ن ق تا عاق لكق‬ ‫ذ قءنس قذتكمق(شعاع)قي يق‬
‫ياىمقع ق تكمق‪input user ratings‬قق‪ .‬ق‬
‫‪ rating‬ق ‪ mov‬ق‬
‫‪1‬ق‬ ‫‪2‬ق‬
‫‪2‬ق‬ ‫‪ 10‬ق‬
‫‪3‬ق‬ ‫‪8‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪143‬‬
‫ق ق‬:movies matrix‫ق تاىمق‬One Hot Encoding‫وق نق آعاقه رلق ق‬ ‫ثكقءاذزقع هق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
1 (adventure, super hero) ‫ق‬0 ‫ق‬1 ‫ق‬1 ‫ق‬0
‫ ق‬2 (comedy, adventure, super hero,sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬1 ‫ق‬1
‫ ق‬3 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0
‫ق ق‬:‫يثق تكق تخم ذلاق ك ج قذة تق‬

‫ ق‬feature set (comedy,adventure,super hero,sci-fi)
weighted ‫قج قذ ح قع ه ق ا ات ق‬ ‫تي ق ااهقتي ق‬ ‫ثك قءكاي قألم قتي ق‬
‫ ق‬:‫ق ق‬weighted matrix‫ق‬ ‫قج ق‬ ‫قء‬feature set
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬

1 ‫ق‬0 ‫ق‬2 ‫ق‬2 ‫ق‬0 ‫ق‬
‫ق‬2 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10
‫ق‬3 ‫ق‬8 ‫ق‬0 ‫ق‬8 ‫ق‬0 ‫ق‬
‫ق‬
‫ق ق‬:‫قج قتا اي ق اتخموق‬ ‫قج ق م ق‬ ‫ءك ق قج‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬18 ‫ ق‬12 ‫ ق‬20 ‫ ق‬10
‫ق‬
‫ق ق‬:‫قج ق تق يكق‬ ‫ق‬60‫قءقاكق ق اء قج ق‬60‫ذك وعق قيكق‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0.33 ‫ ق‬0.16
‫ق ق‬sci-fi‫قثكق‬adventure‫قثكق‬comedy‫قثكق‬super hero‫ظقذ ةقذءمقي ض قءوعق‬ ‫ء‬

‫ق‬
‫ق‬
144
‫ق ق‬: ‫ث ق ااهق‬ ‫قتاذةق اق عل اقها‬
‫ق‬ ‫م اقث ث قذ وق كق شاعمعاق اتخموق كايق لاقذ‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
4 (comedy, adventure, sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬0 ‫ق‬1
5 (super hero) ‫ق‬0 ‫ق‬0 ‫ق‬1 ‫ق‬0
6 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0
‫ق‬
‫ق ق‬:‫ق‬weighted matrix‫قج ق‬ ‫ءكايقألم قتي لاق قتيقتا اي ق اتخموق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬
4 ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0 ‫ ق‬0.16 ‫ق‬
5 ‫ق‬0 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0
6 ‫ ق‬0.3 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0 ‫ق‬
recommendation ‫قج ق‬ ‫ق‬10‫ق تق يكق م اقذ ق‬ ‫ق‬10‫اق ءرصبمقهدق‬ ‫ثكقءك ق ق‬
‫ق ق‬:‫ق‬matrix
‫ ق‬4 ‫ ق‬0.66 * 10 = 6.6
‫ ق‬5 ‫ ق‬0.33 * 10 = 3.3
‫ ق‬6 ‫ ق‬0.63 * 10 = 6.3
‫ق‬
1 Bat vs Super (adventure, super hero) ‫ق‬
‫ق‬
2 Galaxy (comedy, adventure, super hero,sci-fi)
‫ق‬
3 Captin (comedy, super hero)
‫ق‬
4 Hulk (comedy, adventure, sci-fi)

‫ق‬
‫ق‬
5 Batman (super hero)
‫ق‬
6 spider (super hero, comedy) ‫ق‬
145
‫ءكمقذ قءظاوق ت ي ق يقموق لكق كق‪4‬ق يشاعمهق اتخموق ذ قي ق ب اق قتعط قع هق‬
‫قتا اي ق اتخموق ذ ق‬ ‫رلق قءتيك قذا ي ق ءمق ب اق ألمق لكقآ اق يسقذ أل ق‬
‫قتا اي ق اتخموق‬ ‫وق نق‬ ‫ءوعقآ اق يك ق‪drama‬ق ل هق رلق قتعاذلدق قطقذ ق‬
‫قع اقيأ ق ق رلق ق تا ي ق هق‬ ‫وق ا ق ت ق ألملق ق‬ ‫قهعيق جت ا ق‬ ‫ق‬
‫‪collaborative filtering‬ق‪.‬ق ق‬
‫‪ -‬أنظمة التوصية باالعتماد عىل األفضلية ‪: Collaborative Filtering‬‬
‫تعت مقع هق رلق قج ق أل قج قتيق تكاتق ق عت اوق اوقتلاق أءظ ق ت ي قتعت مق‬
‫ج قإيكا قع هق ع ق قإج ا قت ي ق يق ق ل ت ق يقي مق اتخموقذ قيك قذ تعاق‬
‫مق ق ل ق طقةرلقتا ق‪:‬ق ق‬
‫‪ -‬تك ق لةقها جت ا قج ق شخاصق‪user-based collaborative filtering‬ق‬
‫تعت مقج ق تشاهمقتيق شخاصقذ قج ق تقا لق ي اقتي لكق‪.‬ق‬
‫جت ا قج ق تكاتق( ع ارص)ق‪ item-based collaborative filtering‬قتعت مق‬ ‫‪-‬‬
‫ج ق تشاهمقتيق تكاتقق‪.‬‬
‫ق‪ user-based‬ق م اقذشخاصق عا ي ق(نشي ي)قيك ء قعمفق‬ ‫لكقذق مق رلق ق‬
‫ثق ظاوقج ق شخاصق شاتليقتنشاةلكق للمفق لعت مق تشاهمق ي اق‬ ‫ءظاوق ت ي ق‬
‫تي لكقج ق‪ :‬ق تيا تق‪ choices‬ق– ق اك تق‪ history‬ق– ق ة تق‪ preferences‬ق قذ قثكق‬
‫تكقت ق تكاتق ن ق كق ت اقق لاق لمفق تكق ة لاق مق( ق يق ش لمقيك ق مق‬
‫ت اقق لاق تكق ت ا قذ قتعك مق للمف)ق‪.‬ق ق‬
‫قق‬
‫‪1‬‬
‫‪Similar‬‬
‫‪2‬‬
‫‪aim‬‬ ‫‪Similar user‬‬
‫‪3‬‬
‫‪recommends‬‬
‫ق‬
‫ق‬
‫‪146‬‬
‫يك ق م اق عل ذاتق نقتضكقذعم تقت ضي ق‪ratings‬ق ب د قحبائ ق خ سقذ وق‪:‬ق ق‬
‫‪ Movie1‬ق‬ ‫‪ Movie2‬ق‬ ‫‪ Movie4‬ق ‪ Movie3‬ق‬ ‫‪ Movie5‬ق‬
‫‪ User1‬ق‬ ‫‪9‬ق‬ ‫‪6‬ق‬ ‫‪8‬ق‬ ‫‪4‬ق‬ ‫‪-‬ق‬
‫‪ User2‬ق‬ ‫‪2‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪-‬ق‬ ‫‪8‬ق‬
‫‪ User3‬ق‬ ‫‪5‬ق‬ ‫‪9‬ق‬ ‫‪-‬ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬
‫‪ User4‬ق‬ ‫?ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬ ‫‪8‬ق‬ ‫?ق‬
‫ق‪Ratings matrix‬قق‪ .‬ق‬ ‫ع هقتم قذ‬
‫وق نق‬ ‫ا ق كتشافقذيق‬ ‫اتخموق ا ت قع ق لمفق ق نشطق ا ياق‪active user‬ق ق‬
‫كق شاعمعاق(‪)1,5‬ق ن غقذ قتعاضق مق‪.‬ق ق‬
‫قءكمق اتخمذيق شاتليق للمفق لتكقي قهعمقةاققإ ائي ق‪statistical‬ق‬ ‫ا لق‬
‫قشعاجي ق‪ victor‬قذ ق‪ :‬ق ‪distance or similarity measurements , Euclidean‬‬
‫‪distance, Pearson correlation, Cosine similarity …..‬‬
‫و ق ن قشاعمعا ق ق‬ ‫ل عا قذم ق تشاهم قتي قج رصل ق تك قي قها جت ا قج ق‬
‫اتخمذي ق بهضق ظاقج ق رلق ق ت ع ق قي ق ا ياق ةضقذ قذقم ق تشاهمقتيق‬
‫ع رصق لمفق ع ق قذ ا ءاق ا ت ق ق قي ق ا تا ق‪:‬ق ق‬
‫‪ U1‬ق‬ ‫‪ U2‬ق‬ ‫‪ U3‬ق‬
‫‪ U4‬ق‬ ‫‪ 0.4‬ق‬ ‫‪ 0.9‬ق‬ ‫‪ 0.7‬ق‬
‫ق‬
‫تعةقع هق قيكقج ق‪proximity or weight‬قتيق ع رصق لمفق بقي قج ارصق ك ج قق‪ .‬ق‬
‫ق‪weighted matrix‬ق ق‪ :‬ق‬ ‫لق تا ي قهقإيكا قذ‬ ‫خ‬
‫‪Similarity index‬‬ ‫ها كم ق‬
‫‪ Mov5‬ق ‪ Mov1‬ق ق‬ ‫ق‬ ‫‪ Mov5‬ق ‪ Mov1‬ق‬
‫تي ق ق‬
‫‪U1‬‬ ‫‪9‬ق‬ ‫ق‬ ‫ق‬ ‫‪U1‬‬ ‫ي تيق ‪ 0.4‬ق‬ ‫‪ 3.6‬ق‬ ‫ق‬
‫‪ U2‬ق‬ ‫‪2‬ق‬ ‫‪8‬ق‬ ‫ق‬ ‫‪U2‬‬ ‫ء ق ‪ 0.9‬ق‬ ‫‪ 1.8‬ق‬ ‫‪ 7.2‬ق‬
‫‪ U3‬ق‬ ‫‪5‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪U3‬‬ ‫‪ 0.7‬ق‬ ‫ج ق‬ ‫‪ 3.5‬ق‬ ‫‪ 4.9‬ق‬
‫قق ق‬
‫‪Rating matrix subset‬‬ ‫‪Similarity matrix‬‬ ‫‪Weighted matrix‬‬
‫قق ق‬
‫‪147‬‬
‫ق ةلقج قت ضي تق اتخمذيق( شاتليق لم ا)ق أل وق نقءرلمق‬ ‫تعةقع هق‬
‫ذعا قذيقذ لاقذ ك قذ قيختا قحب ء اق ا ت ق قمذلاق مقق‪ .‬ق‬
‫قبش قذاتق ق كمق‪ rating weighted matrix‬ق ق‪:‬‬ ‫آل قءك قءتائ ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ U2+U3‬ق‬ ‫‪ 7.2+4.9=12.1‬ق ق‬
‫‪ 3.6+1.8+3.5=8.9‬ق ‪ U1+U2+U3‬ق‬ ‫ق‬
‫قق‬
‫ق‬
‫قج قذك وعقتشاهمق ع ارصقذيق ق‪ :‬ق‬ ‫ءقاكقءتيك قأل ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ 8.9/(0.4+0.9+0.7) = 4.4‬ق ‪User4‬‬ ‫‪ 12.1/(0.9+0.7)= 7.5‬ق‬
‫ق‬
‫ق‪recommendation matrix‬قء ظقذ ق لكق كق‪5‬قع ق يق قمذمق‬ ‫ع هقتم قذ‬
‫يقءت قذ قيختا هقذكةقذ ق لكق‪1‬ق ق‪ .‬ق‬ ‫ل اتخموق‪4‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪148‬‬
‫ل اق اهقاقذ قع ا قةرلقتيق ل لةلق‪item-based & user-based‬ق ة ق لعقاق اققتي ل قا‪:‬ق ق‬
‫‪User-based‬‬ ‫‪Item-based‬‬
‫ق‬
‫‪1‬‬ ‫ق‬ ‫‪1‬‬
‫ق‬
‫ق‬
‫‪2‬‬ ‫ق‬ ‫‪2‬‬
‫ق‬
‫ق‬ ‫‪3‬‬
‫‪3‬‬
‫ق‬
‫ق‬ ‫‪4‬‬
‫‪4‬‬
‫ق‬
‫ق‬
‫ق‬
‫هنا تشابه ربي العنرصين ‪ 1,3‬واختارهما كل من‬
‫ق‬
‫وبالتاىل يمكن أن يقدم المنتج ‪1‬‬
‫ي‬ ‫المستخدمي ‪1,2‬‬
‫ر‬
‫المستخدمي ‪ 1,3‬بناء عىل مشاركتهم‬
‫ر‬ ‫هنا التشابه ربي‬
‫للمستخدم ‪ 3‬ألنه استخدم من قبل المنتج ‪ 3‬الذي‬
‫وبالتاىل سنقدم المنتج ‪ 1‬للمستخدم‬
‫ي‬ ‫للمنتجي ‪3,4‬‬
‫ر‬ ‫يشبه المنتج ‪. 1‬‬
‫‪3‬‬
‫ق‬
‫ذ قذ قةرلق ق‪collaborative filtering‬ق عا ق م قت ألمقهعضق ت مياتق نقت ألللاقذ ق‬
‫ت ا ق ياءاتق‪data sparsity‬ق قع قي مثقج مق أل قجم قك ةقذ ق اتخمذيقيختا ق‬
‫جم قذ م قذ ق تكاتق با تا ق قيك ق م اقتق ي اتق‪ratings‬ق ا ي ق ك قذ ق‪user, item‬ق‬
‫ل قنات قتقميكق يا قذ ض ق ل اتخموق ع هق ا قتعةقج ق عوب ق نقت ألمقءظاوق‬
‫ت ي قج مق أل قذاتخمذي قألم ق‪ cold start‬ق يس ق م لك قتا اي ق ات ق ميم قي ك مق‬
‫قج مق أل قذ تكاتقألميملق كقيختا عاقهعمقذيقذاتخموق‪.‬ق ق‬ ‫جت ا قجليمق ك‬
‫ق ح يا ق‬ ‫ع قاقج مذاقي حق اتخمذيقذ ق نق ع ارصق م لكق اهلي ق ت ع ق‪scalability‬ق‬
‫قتيقق‬ ‫حذي ق ت ي قع ه قتق ق قذ ا قباه ق تشاهم ق ي قي‬ ‫ئك ق يض ق‬
‫قذ اق اه ق عوب ق ت ضي ق ي اقتي لكقق‪ .‬ق‬ ‫اتخمذيق ق تكاتقج ق مق‬
‫ق ‪hybrid-based‬‬ ‫قذ ا‬ ‫ق خ حذي‬ ‫قءنتق‬ ‫ا ت قذ‬ ‫قع ه ق‬ ‫ي ك ا ق قذ‬
‫‪recommendation‬ق‪.‬ق ق‬
‫‪149‬‬
‫خاتمة ‪:‬‬
‫ق لاي قذجت قج ق ق أق ه ي قذ قتاذج قذ قجلىم ق لخص ق اه ق لتعمي ق قذ ت هق‬
‫إجا لقنشهقذ قيكاقذ م هق ي ق تعكق ائملق عل ي ق م يق ق قذكت ع اقق‪.‬‬
‫تنسون من صالح دعائكم‬
‫ي‬ ‫ال‬
‫العالمي‬
‫ر‬ ‫والحمد هلل رب‬
‫‪150‬‬

كورس تعليم الآلة بلغة البايثون الجزء الثانى PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

كورس تعليم الآلة بلغة البايثون الجزء الثانى PDF

Uploaded by

Copyright:

Available Formats

‫– )‪G(S,gender) = 0.

940(entropy before split‬‬

‫‪G(S, cholesterol) = 0.940 – [(8/14)*0.811 + (6/14)*1.0] = 0.048‬‬

‫ي قتياءاتق اضق ق‪ :‬ق‬ ‫ت‬

‫ءق وقه كزقتياءاتق ا اتق‪X‬ق‪:‬ق ق‬

‫ي ق‪categorical‬قء تاجقت ولللاق ا ي ق قءرلمقإع ا لاق ق‪ :‬ق‬ ‫باه ق أل قتياءاتق‬

‫ء مذقج لي قتل ئ قشكالق قا قها تة ق كت ق ق‪ :‬ق‬

‫ت ا ق ق قذ ق‪X,y‬ق ق‪ :‬ق‬ ‫ءقاكق ياءاتق تم ل ق‬

‫ق شكالق‪4‬ق ع قي ك اقته ةهق ؤل ق ا قق قءتائ ق ت نيفق‪.‬ق ق‬ ‫ظقذء اق ةءاقج‬ ‫ء‬

‫ا كقع هق شكالقي ك اقت ي ق تا ق‪:‬ق‬

‫ن نق‬ ‫ع ق ةق‪ churn‬قيم قذي ق زبائ قهق ق ق شك قذ ق خمذ ق ذ لك ق غ ق شةكم ق‬

‫خارج المجال الذي لدينا‬

‫)‪No (0‬‬ ‫‪age‬‬

‫ق نقءعةقج لاق ل هق م قهق‪:‬ق ق‬ ‫عا‬

‫تق تا ي ق‪:‬ق ق‬ ‫ق خ‬ ‫قج لي ق تم ل ق‬ ‫لتكقي قتإيكا قذ ض ق يكق دقثيتاق‬

‫ق ءظلاعاقها تخم وق‪panda‬ق ق‪ :‬ق‬ ‫ق ياءاتقذ ق‬ ‫ء‬

‫يجقها تخم وقتياءاتق تم ل ‪:‬ق ق‬ ‫ءم لق‬

‫ت ا ق‪:‬ق ق‬ ‫قها تخم وقتياءاتق‬ ‫ءكايق ت‬

‫فق‬ ‫ق ت ا ي قذ قيك قذ ق‬ ‫ق ت ا ي ق ت نيفق يثق ع قق‬ ‫ء ألمقذ‬

‫ق االق‪cm‬ق ق‪ :‬ق‬ ‫ك‬

‫اقي ك اقة اج قتقرلاقج ق‪F1-score‬ق‪:‬ق ق‬

‫يمق‪benign‬قذوق وق يثق‪)malignant‬ق م اقتياءاتق‬ ‫ءرلمقت ق ا قذرلضقألميمق(ع ق وق‬

‫قذهعا ق‪:‬ق ق‬ ‫قتيقق ياءاتقهعمقتاذةعاق ق ضا قث‬ ‫يك ق‬

‫نبدأ بعملية تحويل البيانات ‪: transforming data‬‬

‫‪Boundary decision line‬‬ ‫𝟎 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬

‫سقذاضق لتالي ق‪:‬ق ق‬ ‫ي ق لفق‪cell_samples.csv‬ق اقء ع ق اهقاقء م قذ ق‬ ‫بعمقت‬

‫قاقء ي ق‪categorical‬قءل للاق‪:‬ق ق‬ ‫ظق أل قهعضق‬ ‫ء‬

‫لاق‪2‬قذيق‬ ‫ا تق نق‬ ‫ق‬ ‫ق قطقءرلمقذ قءت‬ ‫افقإذاق لي قذ ق ي ق ء‬ ‫اق ذ اق ق‬

‫نق‪rbf radial basis function‬ق ق‪ :‬ق‬ ‫قها تيا ق‬ ‫ءم لق‬

‫يجقهعمق تم ل ق‪:‬ق ق‬ ‫ءكايق ت ا ق ل‬

‫لت كالق تيا تق‪kernel‬ق ق‪ :‬ق‬

‫ع قتل هق ياءاتق م ق بذ ا ق ت ميمقذيق زبائ قتش مقهعضلاق آل اق قذ قإ م قع هق‬

: ‫ الخوارزميات الرئيسية يف التجميع‬-1-16

‫بش قتقليميق‪conventionally‬قتاتع ق اا قتيق ع اتق تشكي ق ق اجاتق رلق ققققق‬

‫قء تاجق تق يسق ء ظقذ ق ضا قي ق‬ ‫ء ظق م ق ي تمقها ئاتق ق ع اقها عش تق‬

‫ا ق احقع هق ياءاتق( زبائ )ق قذك جاتقذت ا زلق( اجات)قها جت ا قج قهعم ق‬

‫) ‪𝑑 (𝑝2 , 𝑐1 ) 𝑑(𝑝2 , 𝑐2 ) 𝑑 (𝑝2 , 𝑐3‬‬

‫قذ ق م ي ق‬ ‫قجش‬ ‫قءق قذ قع هق ع لي ق يق قك اي ق ء اق ةءاق اكزقبش‬

‫‪𝑆𝑆𝐸 = ∑(𝑥𝑖 − 𝑐𝑖 )2‬‬

‫ثكقءعيمق االق اا قتيقءقاطق ق اعق اكزق كميمق مقثكق االق خ أقذ ق‬

‫ق تخم وق‪k-means‬ق قتقايكق زبائ ق ك جاتق ق‪ :‬ق‬ ‫ءأ ق آل ق ل ا ق ا ق‬

‫حذي ق‪k-means‬ق قتتعاذ قذ ا لقذ ق عل ذاتق ي ق‬ ‫ع ق‪Address‬قءصق م اق‬

‫يجقهعمق اضقجم ق ق اجاتق بقي قها ذة تق‪k-means‬ق‪:‬ق ق‬ ‫ءم لق‬

‫ق هعا ق ق‪ :‬ق‬ ‫بش قث‬

‫ءكمق آل قذ القذم نتيق عضل اقع اق‪ED,VA‬ق هق‪819‬ق تش ق م اق اعقألميمقتي ل اق ق‪ :‬ق‬

‫‪𝐷𝑖𝑠(𝑃1 , 𝑃2 ) = √∑(𝑥𝑖 − 𝑦𝑖 )2‬‬

‫‪= √(54 − 50)2 + (190 − 200)2 + (120 − 125)2 = 11.87‬‬

‫ت فق‪dissimilarly-distance‬ق‪:‬ق ق‬ ‫ق‬ ‫ق(ذرلض)ق نت ق م اقذ‬ ‫اضق م اق‪n‬قءق‬

‫‪P1‬‬ ‫𝐼𝐼𝑥‬ ‫𝐹𝐼𝑥 …‬ ‫𝑃𝐼𝑥 …‬ ‫‪0‬‬

‫ق قاط ق( اض) ق تشاتل ق‬ ‫م قكيف ق تك ق اال قالمسافة ربي القطاعات ق ن قتك‬

- Average Linkage Clustering :

‫ءأ ق ا قذشاهم ق ا ق ا قهم قج م ق تخم و ق‪ k-means‬قتت يم قذك ج قتياءات قجش ق ئي ق‬

‫ق لامق‪:‬ق‬ ‫ءا كقذخ طق‪dendrogram‬ق يقيعةقج ق تك‬

‫ء ظقذء اق تخمذ اقةرلق ق‪ complete‬قج مق االق‪ Z‬قإيقي ك اق تيا قةاققذ ا قذ ق‬

‫قطاع ضمن قطاع‬

‫يجق م اق‪:‬ق ق‬ ‫ءم لق‬

‫لاق لق اعق ا ثق ق‬ ‫ظقذ ق ق ق شايلق نقتكقإيكا عاقها تخم وق‪DBSCAN‬قتكق‬ ‫ء‬

‫‪ : Model-based -‬تكقع اقت ولاقء يجق ل اتخمذيق قطق ا قذعا ق غ اتلكق‬

‫)‪4 Hulk (comedy, adventure, sci-fi‬‬ ‫ق‬

‫ق ق‬:‫يثق تكق تخم ذلاق ك ج قذة تق‬

‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬

‫ق ق‬sci-fi‫قثكق‬adventure‫قثكق‬comedy‫قثكق‬super hero‫ظقذ ةقذءمقي ض قءوعق‬ ‫ء‬

4 Hulk (comedy, adventure, sci-fi)

‫‪G(S, cholesterol) = 0.940 – [(8/14)0.811 + (6/14)1.0] = 0.048‬‬