You are on page 1of 2

‫תרגיל בית ‪5‬‬

‫מבוא לעיבוד ספרתי של אותות ומידע‬


‫נתונות שתי סדרות מידע ‪ 𝒟1‬ו‪ ,𝒟2 -‬המכילות דוגמאות בעלות מאפיינים זהים אך תיוגים שונים‪,‬‬ ‫‪.1‬‬
‫כמפורט בטבלאות הבאות‬

‫𝒏‬ ‫𝟏‪𝒙𝒏,‬‬ ‫𝟐‪𝒙𝒏,‬‬ ‫𝒏𝒚‬ ‫𝒏‬ ‫𝟏‪𝒙𝒏,‬‬ ‫𝟐‪𝒙𝒏,‬‬ ‫𝒏𝒚‬


‫‪1‬‬ ‫‪3.0‬‬ ‫‪2.0‬‬ ‫×‬ ‫‪1‬‬ ‫‪3.0‬‬ ‫‪2.0‬‬ ‫×‬
‫‪2‬‬ ‫‪1.0‬‬ ‫‪4.0‬‬ ‫×‬ ‫‪2‬‬ ‫‪1.0‬‬ ‫‪4.0‬‬ ‫‪O‬‬
‫‪3‬‬ ‫‪2.0‬‬ ‫‪2.0‬‬ ‫×‬ ‫‪3‬‬ ‫‪2.0‬‬ ‫‪2.0‬‬ ‫×‬
‫‪4‬‬ ‫‪-1.0‬‬ ‫‪1.0‬‬ ‫‪O‬‬ ‫‪4‬‬ ‫‪-1.0‬‬ ‫‪1.0‬‬ ‫‪O‬‬
‫‪5‬‬ ‫‪1.0‬‬ ‫‪0.0‬‬ ‫‪O‬‬ ‫‪5‬‬ ‫‪1.0‬‬ ‫‪0.0‬‬ ‫×‬
‫הדוגמאות הנתונות ב‪𝒟1 -‬‬ ‫הדוגמאות הנתונות ב‪𝒟2 -‬‬

‫א‪ .‬ציירו כל אחת מסדרות המידע על גרף דו‪-‬ממדי נפרד עם הצירים ‪ 𝑥1‬ו‪𝑥2 -‬‬
‫ב‪ .‬נתונים המקדמים הבאים של שני מסווגי רגרסיה לוגיסטית (שנסמן כמסווג ‪ A‬ומסווג ‪ )B‬בעלי‬
‫המקדמים המפורטים למטה‪ .‬ידוע כי כל אחד מהם אומן עם אחת מסדרות המידע הנ"ל וכי שגיאת‬
‫האימון בשני המקרים היא ‪ ,0‬אך לא ידוע מה סדרת האימון איתה אומן כל מסווג‪ .‬קיבעו איזו סדרה‬
‫שימשה לאימון כל אחד מהמסווגים‬
‫• מקדמי מסווג ‪𝑤0 = −1.8, 𝑤1 = 0.7, 𝑤2 = 0.8 :A‬‬
‫• מקדמי מסווג ‪𝑤0 = 0.5, 𝑤1 = 1, 𝑤2 = −0.6 :B‬‬
‫ג‪ .‬נתונה דוגמא לא מסווגת ]‪.𝒙𝟔 = [1, 3‬‬
‫הוסיפו את הדוגמא לכל אחד מהגרפים שציירתם בסעיף א‪.‬‬
‫חשבו‪ ,‬עבור כל אחד מהמסווגים ‪ ,B,A‬את ההסתברות ש‪𝑦𝒏 = 1 -‬‬

‫נתון מידע המכיל ‪ 6‬דוגמאות מסווגות ‪ 𝒟 = {(𝒙𝒏 , 𝑦𝒏 )}6𝑛=1‬כמפורט בטבלה הבאה כאשר התיוג הוא‬ ‫‪.2‬‬
‫בינארי‪ ,‬וקטור המאפיינים הוא בעל שני מימדים ‪ ,𝒙 = [𝑥1 , 𝑥2 ] ∈ ℝ2‬ווקטור המאפיינים של הדוגמא‬
‫ה‪-n-‬ית מיוצג על ידי ] ‪ .𝒙𝒏 = [𝑥𝑛,1 , 𝑥𝑛,2‬מסווג מסוג ‪ Logistic Regression‬אומן פעמיים עם המידע‬
‫𝒟‪ .‬באחת ההרצות התקבל ]‪ 𝐰I = [−3, −1, −7‬ובאחרת ]‪𝐰II = [−27, −1, −15‬‬
‫(כאשר ] ‪ .)𝐰 = [𝑤0 , 𝑤1 , 𝑤2‬בדיעבד התברר שבאימון אחד המסווגים הושמטה בטעות אחת‬
‫הדוגמאות (אך לא ידוע מי מהן)‪.‬‬

‫א‪ .‬ציירו על את המידע 𝒟‬

‫𝒏‬ ‫𝟏‪𝒙𝒏,‬‬ ‫𝟐‪𝒙𝒏,‬‬ ‫𝒏𝒚‬


‫‪1‬‬ ‫‪-1.0‬‬ ‫‪-1.0‬‬ ‫‪1‬‬
‫‪2‬‬ ‫‪-6.0‬‬ ‫‪-9.0‬‬ ‫‪1‬‬
‫‪3‬‬ ‫‪-1.0‬‬ ‫‪-7.0‬‬ ‫‪1‬‬
‫‪4‬‬ ‫‪-3.0‬‬ ‫‪7.0‬‬ ‫‪0‬‬
‫‪5‬‬ ‫‪7.0‬‬ ‫‪7.0‬‬ ‫‪0‬‬
‫‪6‬‬ ‫‪2.0‬‬ ‫‪1.0‬‬ ‫‪0‬‬
‫הדוגמאות הנתונות ב‪𝒟-‬‬

‫ב‪ .‬חשבו את דיוק כל אחד מהמסווגים על סדרת האימון 𝒟‪.‬‬


‫ג‪ .‬העריכו איזה מסווג לדעתכם אומן עם כל הדאטה‪ ,‬ואיזו דוגמא לדעתכם הושמטה בטעות‪ .‬נמקו‬
‫בחירתכם‪.‬‬
‫ד‪ .‬חשבו והוסיפו לגרף הנ"ל את קווי החלוקה של כל אחד מהמסווגים הנ"ל‪.‬‬

‫עמוד ‪ 1‬מתוך ‪2‬‬


‫כפי שלמדנו‪ gradient descent ,‬הוא אלגוריתם למציאת מינימום (לוקאלי) של פונקציה כללית )‪ℱ(w‬‬ ‫‪.3‬‬
‫על ידי עדכון איטרטיבי של ערכי וקטור המשתנים שלה‬
‫)‪w (m+1) = w (m) − 𝛼 ∙ ∇w ℱ(w‬‬
‫כאשר ‪ m‬הוא אינדקס האיטרציה של נוסחת העדכון‪ ,‬הפרמטר 𝛼 מכתיב את קצב הלמידה‪ ,‬והגרדיאנט‬
‫)‪ ∇w ℱ(w‬הוא וקטור שהאיבר ה‪ d-‬בו הוא הנגזרת של )‪ ℱ(w‬ע"פ הפרמטר 𝑑𝑤‬

‫)‪𝜕ℱ(w‬‬
‫‪𝜕𝑤0‬‬
‫= )‪∇w ℱ(w‬‬ ‫⋮‬
‫)‪𝜕ℱ(w‬‬
‫] ‪[ 𝜕𝑤D‬‬
‫בשאלה זאת הנכם מתבקשים להוכיח‪ ,‬בהתאם להנחיות בהמשך‪ ,‬את נוסחת העדכון הבאה של‬
‫אלגוריתם ‪ gradient descent‬עבור מסווג בינארי מסוג רגרסיה לוגיסטית כפי שראינו בהרצאה‬
‫𝑁‬ ‫‪T‬‬
‫∑ 𝛼 ‪w (m+1) = w (m) −‬‬ ‫) 𝑛𝑡 ‪x𝑛 (𝜎 ((w (m) ) x𝑛 ) −‬‬
‫‪𝑛=1‬‬

‫הנחיות לפתרון‪:‬‬
‫• שימו לב שעל מנת לחשב כל איבר בגרדיאנט של )‪ℒCE (𝒟, w‬‬

‫)‪𝜕ℒCE (𝒟, w‬‬


‫‪𝜕𝑤0‬‬
‫‪∇w ℒCE‬‬ ‫‪(𝒟,‬‬ ‫= )‪w‬‬ ‫⋮‬
‫)‪𝜕ℒCE (𝒟, w‬‬
‫[‬ ‫‪𝜕𝑤D‬‬ ‫]‬
‫)‪𝜕ℒCE (𝒟,w‬‬
‫לכל 𝐷 ‪𝑑 = 0,1, … ,‬‬ ‫יש לחשב את הנגזרות החלקיות על‪-‬פי כל אחד מהמשקלים‬
‫𝑑𝑤𝜕‬
‫)‪𝜕ℒCE (𝒟, w‬‬ ‫𝜕‬ ‫𝑁‬
‫‪=−‬‬ ‫∑‬ ‫))) 𝑛‪(𝑡𝑛 log 𝜎(w T x𝑛 ) + (1 − 𝑡𝑛 ) log(1 − 𝜎(w T x‬‬
‫𝑑𝑤𝜕‬ ‫𝑑𝑤𝜕‬ ‫‪𝑛=1‬‬

‫𝑁‬ ‫𝜕‬ ‫𝜕‬


‫∑‪= −‬‬ ‫𝑛𝑡(‬ ‫) 𝑛𝑡 ‪log 𝜎(w T x𝑛 ) + (1 −‬‬ ‫))) 𝑛‪log(1 − 𝜎(w T x‬‬
‫‪𝑛=1‬‬ ‫𝑑𝑤𝜕‬ ‫𝑑𝑤𝜕‬

‫בכדי לחשב את הנגזרות הנ"ל ולהשלים את ההוכחה‪ ,‬ניתן להגדיר 𝑛‪ 𝑧 = w T x‬ולהשתמש בזהויות‬ ‫•‬
‫𝑑‬
‫)‪𝜎(z) = (1 − 𝜎(z))𝜎(z‬‬
‫𝑧𝑑‬
‫‪1‬‬ ‫‪𝑒 −z‬‬ ‫‪1‬‬
‫‪1 − 𝜎(z) = 1 −‬‬ ‫‪−z‬‬
‫=‬ ‫‪−z‬‬
‫‪= z‬‬ ‫)‪= 𝜎(−z‬‬
‫𝑒‪1+‬‬ ‫𝑒‪1+‬‬ ‫‪𝑒 +1‬‬
‫על מנת להראות כי‬
‫𝜕‬
‫𝑑‪log 𝜎(w T x𝑛 ) = (1 − 𝜎(w T x𝑛 ))x𝑛,‬‬
‫𝑑𝑤𝜕‬
‫𝜕‬
‫𝑑‪log 𝜎(1 − 𝜎(w T x𝑛 )) = −𝜎(w T x𝑛 )x𝑛,‬‬
‫𝑑𝑤𝜕‬

‫עמוד ‪ 2‬מתוך ‪2‬‬

You might also like