Professional Documents
Culture Documents
א .ציירו כל אחת מסדרות המידע על גרף דו-ממדי נפרד עם הצירים 𝑥1ו𝑥2 -
ב .נתונים המקדמים הבאים של שני מסווגי רגרסיה לוגיסטית (שנסמן כמסווג Aומסווג )Bבעלי
המקדמים המפורטים למטה .ידוע כי כל אחד מהם אומן עם אחת מסדרות המידע הנ"ל וכי שגיאת
האימון בשני המקרים היא ,0אך לא ידוע מה סדרת האימון איתה אומן כל מסווג .קיבעו איזו סדרה
שימשה לאימון כל אחד מהמסווגים
• מקדמי מסווג 𝑤0 = −1.8, 𝑤1 = 0.7, 𝑤2 = 0.8 :A
• מקדמי מסווג 𝑤0 = 0.5, 𝑤1 = 1, 𝑤2 = −0.6 :B
ג .נתונה דוגמא לא מסווגת ].𝒙𝟔 = [1, 3
הוסיפו את הדוגמא לכל אחד מהגרפים שציירתם בסעיף א.
חשבו ,עבור כל אחד מהמסווגים ,B,Aאת ההסתברות ש𝑦𝒏 = 1 -
נתון מידע המכיל 6דוגמאות מסווגות 𝒟 = {(𝒙𝒏 , 𝑦𝒏 )}6𝑛=1כמפורט בטבלה הבאה כאשר התיוג הוא .2
בינארי ,וקטור המאפיינים הוא בעל שני מימדים ,𝒙 = [𝑥1 , 𝑥2 ] ∈ ℝ2ווקטור המאפיינים של הדוגמא
ה-n-ית מיוצג על ידי ] .𝒙𝒏 = [𝑥𝑛,1 , 𝑥𝑛,2מסווג מסוג Logistic Regressionאומן פעמיים עם המידע
𝒟 .באחת ההרצות התקבל ] 𝐰I = [−3, −1, −7ובאחרת ]𝐰II = [−27, −1, −15
(כאשר ] .)𝐰 = [𝑤0 , 𝑤1 , 𝑤2בדיעבד התברר שבאימון אחד המסווגים הושמטה בטעות אחת
הדוגמאות (אך לא ידוע מי מהן).
)𝜕ℱ(w
𝜕𝑤0
= )∇w ℱ(w ⋮
)𝜕ℱ(w
] [ 𝜕𝑤D
בשאלה זאת הנכם מתבקשים להוכיח ,בהתאם להנחיות בהמשך ,את נוסחת העדכון הבאה של
אלגוריתם gradient descentעבור מסווג בינארי מסוג רגרסיה לוגיסטית כפי שראינו בהרצאה
𝑁 T
∑ 𝛼 w (m+1) = w (m) − ) 𝑛𝑡 x𝑛 (𝜎 ((w (m) ) x𝑛 ) −
𝑛=1
הנחיות לפתרון:
• שימו לב שעל מנת לחשב כל איבר בגרדיאנט של )ℒCE (𝒟, w
בכדי לחשב את הנגזרות הנ"ל ולהשלים את ההוכחה ,ניתן להגדיר 𝑛 𝑧 = w T xולהשתמש בזהויות •
𝑑
)𝜎(z) = (1 − 𝜎(z))𝜎(z
𝑧𝑑
1 𝑒 −z 1
1 − 𝜎(z) = 1 − −z
= −z
= z )= 𝜎(−z
𝑒1+ 𝑒1+ 𝑒 +1
על מנת להראות כי
𝜕
𝑑log 𝜎(w T x𝑛 ) = (1 − 𝜎(w T x𝑛 ))x𝑛,
𝑑𝑤𝜕
𝜕
𝑑log 𝜎(1 − 𝜎(w T x𝑛 )) = −𝜎(w T x𝑛 )x𝑛,
𝑑𝑤𝜕