Professional Documents
Culture Documents
Understanding Machine Learning
Understanding Machine Learning
1
נתבונן בבעיית סיווג על 𝒳 = ℝעם } .𝒴 = {0,1דרך אחת להשיג מידע מתוך מרחב זה היא על־
ידי לקיחת ערכיהם של סדרת משתנים מקריים בלתי־תלויים ושווי־התפלגות ,בעלי התפלגות 𝒟 מעל
𝒴 × 𝒳 )אנו לוקחים דגימה ותווית גם יחד(.
הגדרה ) 1.1.1שגיאת מיסקלסיפיקציה מעל התפלגות הסתברות 𝓓( .עבור התפלגות הסתברות 𝒟
מעל 𝒴 × 𝒳 )כלליים( ,מגדירים את השגיאה האמיתית ) (true errorשל כלל התאמה כלשהו → 𝒳 ℎ:
𝒴 בתור ההסתברות של ℎליצור שגיאה:
≔ )𝐿 (ℎ ℙ [ℎ(𝑥) ≠ 𝑦] ≕ 𝒟({ (𝑥, 𝑦) ∣ ℎ(𝑥) ≠ 𝑦 }).
( ∼)
הגדרה ) 1.1.2סיכון אמפירי מנורמל( .הסיכון האמפירי המנורמל )בספרות ,לרוב כך מגדירים את
הסיכון האמפירי בעצמו( מוגדר על אוסף = }) 𝑦 𝑆 = {(𝑥⃗ ,ופונקציה 𝒴 → 𝒳 ℎ:כך:
1 |} 𝑦 ≠ ) 𝑥(|{𝑖 ∈ [𝑚] ∣ ℎ
≔ )𝐿 (ℎ 𝟙 ( ≠) = .
𝑚 =
𝑚
טענה ) 1.1.4אופטימליות מסווג בייס האופטימלי( .כשמו כן הוא ,מסווג בייס הוא המסווג
האופטימלי ,במובן שלא קיים מסווג אחר } 𝑔: 𝒳 → {0,1עם שגיאה נמוכה יותר; הווה אומר,
)𝑔( 𝐿 ≤ ) 𝑓( 𝐿 ,או ,באופן שקול )את השקילות נוכיח מייד( ,לכל 𝒳 ∈ ⃗𝑥 ℎ (𝑥⃗) ,מספק
מקסימום להסתברות
ℎ (𝑥⃗) = argmax ℙ(𝑥⃗|𝑦)ℙ(𝑦) = argmax ℙ(𝑦|𝑥⃗).
{∈ } {∈ }
הוכחה .לשם הפורמליזם ,ננסח את התשובה באמצעות המשתנים המקריים 𝒟 ∼ 𝑌 𝑋 ,
המתפלגים לפי התפלגות ההסתברות המשותפת 𝒟 )הכוונה ב־)⃗𝑥( ℙהיא ל־ ⃗𝑥 = 𝑋 .(ℙהסיכוי של
פונקציה } 𝑔: 𝒳 → {0,1לטעות על ערך ⃗𝑥 ספציפי נתון על־ידי
⃗𝑥 = 𝑋 )⃗𝑥(𝑔 ≠ 𝑌 𝜙 (𝑥⃗) = ℙ
המעבר האחרון נובע מכך ש־ 𝑥 = 𝑋 ℙהוא גודל אי־שלילי קבוע שאיננו תלוי בבחירת 𝑦 .אז:
כאשר המעבר האחרון נובע מהגדרת )⃗𝑥( 𝜙 .עתה נבחן את שתי האפשרויות :במקרה הראשון ,אם
,ℙ(𝑌 = 1|𝑥⃗) < 1/2אז )⃗𝑥| ,ℙ(𝑌 = 1|𝑥⃗) < 1 − ℙ(𝑌 = 1ולכן 𝑔(𝑥⃗) ≔ 0יספק מינימום לשגיאה
)⃗𝑥( 𝜙 .אחרת ,אם ℙ(𝑌 = 1|𝑥⃗) ≥ 1/2ו־)⃗𝑥| ,ℙ(𝑌 = 1|𝑥⃗) ≥ 1 − ℙ(𝑌 = 1בחירה של 𝑔(𝑥⃗) ≔ 1
תמזער את השגיאה )⃗𝑥( 𝜙 .נבחין כי הבחירה הזו של )⃗𝑥(𝑔 שקולה לחלוטין להגדרת )⃗𝑥( ,ℎובזאת
הוכחנו ש־)⃗𝑥( ℎמספקת מקסימום לביטוי המקורי ,וכן שהיא ממזערת את השגיאה )) 𝐿 (ℎמשום
■ שהיא ממזערת אותה לכל ⃗𝑥(.
על־מנת לתאר את פונקציית ההסתברות )⃗𝑥|𝑦( ,ℙאנו צריכים 2פרמטרים שמתאימים ל־)⃗𝑥|ℙ(𝑦 = 1
עם ערך ספציפי של } .𝑥⃗ ∈ {0,1עולה כי מספר הדגימות שאנו צריכים עולה אקספוננציאלית עם
מספר המאפיינים .באמצעות הנחה מקלה ,נוכל לצמצם את מספר הערכים שעלינו לחשב:
הגדרה ) 1.2.1מסווג בייסיאני נאיבי( .בגישה הנאיבית ,אנו מניחים את ההנחה המקלה
)והנאיבית( שהמאפיינים בלתי־תלויים זה בזה; כלומר,
תחת הנחה זו ,באמצעות כלל בייס ,נוכל לפשט את מסווג בייס האופטימלי:
עתה אנו צריכים להעריך רק 2𝑑 + 1פרמטרים .כאשר אנו משתמשים בעקרון הנראות המרבי לשם
הערכת הפרמטרים הללו ,אנו מקבלים מסווג בייסיאני נאיבי ).(naive Bayes classifier
הגדרה ) 1.3.2לוגריתם יחסי הנראות( .כבר דנו בסעיף שלעיתים נוח להתבונן בלוגריתם הנראות.
נגדיר את לוגריתם יחסי הנראות ) (log-likelihood ratioשל איזושהי התפלגות מותנית )𝑦|⃗𝑥( ,ℙעם
} 𝑦 ∈ {0,1ו־𝒳 ∈ ⃗𝑥 כללי ,בתור
)ℙ(𝑦 = 1)ℙ(𝑥⃗|𝑦 = 1
ℓll-ratio (𝑥⃗) ≔ ln .
)ℙ(𝑦 = 0)ℙ(𝑥⃗|𝑦 = 0
טענה ) 1.3.3אומד בייסיאני נאיבי באמצעות לוגריתם יחסי הנראות( .ניזכר מטענה כי מסווג
.ℎ (𝑥⃗) = argmaxאז ℎ (𝑥⃗) = 1אם ורק אם {∈ } בייס האופטימלי נתון על־ידי )𝑦|⃗𝑥(ℙ(𝑦)ℙ
דוגמה ) 1.3.4פונקציית ההבחנה הלינארית( .במקרה של בעיית למידה מסוג ,LDAלוגריתם יחס
הנראות הוא
1 1 )ℙ(𝑦 = 1
ℓll-ratio (𝑥⃗) = (𝑥⃗ − 𝜇⃗ )⊤ Σ− (𝑥⃗ − 𝜇⃗ ) − (𝑥⃗ − 𝜇⃗ )⊤ Σ− (𝑥⃗ − 𝜇⃗ ) + ln .
2 2 )ℙ(𝑦 = 0
אנו יכולים לכתוב זאת מחדש כמכפלה 𝑏 ,⟨𝑤, 𝑥⃗⟩ +כאשר
1 )ℙ(𝑦 = 1
𝑤 ≔ (𝜇⃗ − 𝜇⃗ )⊤ Σ− , 𝑏 ≔ (𝜇⃗⊤ Σ− 𝜇⃗ − 𝜇⃗⊤ Σ− 𝜇⃗ ) + ln .
2 )ℙ(𝑦 = 0
במילים אחרות ,אם נגדיר לכל } 𝑦 ∈ {0,1את פונקציית ההבחנה הלינארית ) linear discriminant
(functionהבאה:
1
𝛿 (𝑥⃗) ≔ 𝑥⃗⊤ Σ− 𝜇⃗ − 𝜇⃗⊤ Σ− 𝜇⃗ + ln ℙ(𝑦) ,
2
אז מטענה . .אפשר לראות שמקדם בייס האופטימלי ינבא
ℎ (𝑥⃗) = argmax 𝛿 (𝑥⃗) .
{∈ }
נעיר כי האיבר האחרון מהווה סוג של גורם רגולריזציה ,כלומר זהו איבר שנותן "ציון" ישירות ל־ 𝑦.
עם זאת ,יותר קל לחשב את הווקטור 𝑤 והקבוע 𝑏 שלעיל ולחשב את הסיווג בדומה למסווג SVMאו
⬢ מסווג חצי־מרחב.
כאשר המכפלה היא מכפלה חיצונית .ניתן לבטא מטריצה זו גם באמצעות מטריצת המרכוז:𝐶 ,
𝑆 = 𝑋𝐶 𝑋 ⊤ ,
1
𝐶 ≔𝐼 − Ones ,
𝑚
כאשר הכוונה ב־ Onesהיא למטריצה 𝑚 × 𝑚 שכל איבריה הם .1
הערה ) 1.3.6אומד מטריצת השונויות באמצעות מטריצת פיזור( .בהינתן 𝑚 דגימות ,האומד
שמספק נראות מרבית עבור מטריצת השונויות הוא מטריצת הפיזור המנורמלת,
1
≔ ΣML 𝑆.
𝑚
הערה ) 1.3.7היבט נוסף על .(LDAהמשמעות של מסווג LDAעמוקה יותר ממה שהבאנו בפרק זה.
תוכלו לקרוא על כך כאן .https://sebastianraschka.com/Articles/2014_python_lda.html :גישה
דומה למסווג זה היא של מסווג ,principle component analysis) PCAללא קשר ללמידת ,(PACשבו
נעסוק בהמשך הקורס.