You are on page 1of 1

‫מעבדה ‪ – 7‬הערכת ביצועי מסווגים בינאריים‬

‫שימו לב‪ :‬ניתן ואף מומלץ להשתמש בקוד שמימשתם במעבדות קודמות‪.‬‬

‫‪ .1‬צרו מחברת בשם ‪ LogisticRegressionForCancerData.ipynb‬הכוללת את הפונקציה‬


‫‪ ProbabilisticLogRegClassifier‬אשר‬
‫‪ .1.1‬מקבלת כקלט את וקטור הפרמטרים של המסווג הלינארי‪ ,‬ואוסף של דוגמאות לא מסווגות‬
‫‪ .1.2‬מחזירה כפלט את )‪ – P(Ypredicted=1‬וקטור הכולל את ההסתברויות שסיווגי כל אחת מהדוגמאות‬
‫הנ"ל הינו ‪ ,1‬כפי שחושבו ע"י מסווג מסוג ‪ Logistic Regression‬ע"פ הנוסחה‬
‫‪1‬‬
‫= ) ‪𝑃(𝑦 = 1|x, w, w0‬‬ ‫) 𝑤‪𝑇 𝑥+‬‬
‫𝑤(‪1 + 𝑒 −‬‬ ‫‪0‬‬

‫ואת הפונקציה בשם ‪ FinalClassification‬אשר‬


‫‪ .1.3‬מקבלת כקלט את הוקטור )‪ ,P(Ypredicted=1‬וערך סף ‪0 ≤ 𝑡ℎ ≤ 1‬‬
‫‪ .1.4‬מחזירה כפלט את הסיווג הסופי של כל אחת מהדוגמאות‬
‫‪1‬‬ ‫‪if 𝑃(𝑦 = 1|x, w, w0 ) > 𝑡ℎ‬‬
‫{=𝑦‬
‫‪0‬‬ ‫‪otherwise‬‬
‫‪ .2‬טענו את המידע מהקבצים ‪ TrainData.csv‬ו‪ ,TestData.csv -‬והגדירו את מטריצות האפיינים ‪Xtrain,‬‬
‫‪ ,Xtest‬ואת וקטורי התיוגים ‪ Ytrain, Ytest‬של סדרת האימון והמבחן בהתאמה‪ .‬שימו לב שבשני הקבצים‬
‫התיוג נמצא בעמודה ‪ ,diagnosis‬והמאפיינים בכל שאר העמודות‪.‬‬
‫‪ .3‬נתונים לכם שני וקטורי מאפיינים של מסווג מסוג ‪ ,Logistic Regression‬השמורים בקבצים‬
‫‪ Coefficients1.csv‬ו‪ .Coefficients2.csv -‬שימו לב שכל קובץ מאפיינים מייצג מסווג שונה‪.‬‬
‫‪ .3.1‬חשבו והציגו את הדיוק )‪ ,(accuracy‬את מטריצות הערבול )‪ ,(confusion matrix‬ואת דיאגרמת ה‬
‫‪ ROC‬של המסווג שמקדמיו שמורים ב ‪ .Coefficients1.csv‬שימו לב שיש לחשב את כל הגדלים עבור‬
‫סדרת האימון ועבור סדרת המבחן בנפרד‪.‬‬
‫‪ .3.2‬חיזרו על סעיף ‪ 3.1‬עבור המסווג שמקדמיו שמורים ב ‪.Coefficients2.csv‬‬
‫‪ .3.3‬השוו בין המסווגים מבחינת ביצועיהם‪.‬‬

You might also like