שימו לב :ניתן ואף מומלץ להשתמש בקוד שמימשתם במעבדות קודמות.
.1צרו מחברת בשם LogisticRegressionForCancerData.ipynbהכוללת את הפונקציה
ProbabilisticLogRegClassifierאשר .1.1מקבלת כקלט את וקטור הפרמטרים של המסווג הלינארי ,ואוסף של דוגמאות לא מסווגות .1.2מחזירה כפלט את ) – P(Ypredicted=1וקטור הכולל את ההסתברויות שסיווגי כל אחת מהדוגמאות הנ"ל הינו ,1כפי שחושבו ע"י מסווג מסוג Logistic Regressionע"פ הנוסחה 1 = ) 𝑃(𝑦 = 1|x, w, w0 ) 𝑤𝑇 𝑥+ 𝑤(1 + 𝑒 − 0
ואת הפונקציה בשם FinalClassificationאשר
.1.3מקבלת כקלט את הוקטור ) ,P(Ypredicted=1וערך סף 0 ≤ 𝑡ℎ ≤ 1 .1.4מחזירה כפלט את הסיווג הסופי של כל אחת מהדוגמאות 1 if 𝑃(𝑦 = 1|x, w, w0 ) > 𝑡ℎ {=𝑦 0 otherwise .2טענו את המידע מהקבצים TrainData.csvו ,TestData.csv -והגדירו את מטריצות האפיינים Xtrain, ,Xtestואת וקטורי התיוגים Ytrain, Ytestשל סדרת האימון והמבחן בהתאמה .שימו לב שבשני הקבצים התיוג נמצא בעמודה ,diagnosisוהמאפיינים בכל שאר העמודות. .3נתונים לכם שני וקטורי מאפיינים של מסווג מסוג ,Logistic Regressionהשמורים בקבצים Coefficients1.csvו .Coefficients2.csv -שימו לב שכל קובץ מאפיינים מייצג מסווג שונה. .3.1חשבו והציגו את הדיוק ) ,(accuracyאת מטריצות הערבול ) ,(confusion matrixואת דיאגרמת ה ROCשל המסווג שמקדמיו שמורים ב .Coefficients1.csvשימו לב שיש לחשב את כל הגדלים עבור סדרת האימון ועבור סדרת המבחן בנפרד. .3.2חיזרו על סעיף 3.1עבור המסווג שמקדמיו שמורים ב .Coefficients2.csv .3.3השוו בין המסווגים מבחינת ביצועיהם.