You are on page 1of 2

ӬNG DӨNG THUҰT TOÁN ADABOOST PHÂN LOҤI VĂN BҦN

VÀO PHÂN LOҤI SPAM MAIL
Thuұt toán Adaboost là mӝt trong các thuұt toán theo phương pháp Boosting.
Boosting kӃt hӧp các luұt yӃu có đӝ chính xác thҩp, cho ra mӝt luұt mӟi có đӝ
chính xác cao. Thông thưӡng mӛi luұt yӃu là mӝt luұt đơn giҧn, có thӇ dӵa vào đó
đӇ dӵ đoán đӕi tưӧng thuӝc lӟp nào nhưng đӝ chính xác không cao. Trong bài toán
phân loҥi email spam này, mӝt luұt yӃu đưӧc đӏnh nghĩa như sau:
r     .

      .

! .

    ! .

 " # J Ê .

«. X2.    îho tұp mүu huҩn luyӋn gӗm email: X1. Xm có m nhãn tương ӭng Y1. «. Ym vӟi  . Y2.

  ®   .

 Khӣi tҥo hàm phân phӕi D1[i] = 1/m. i ” m. đưӧc chӑn sao cho Dt+1 là hàm phân phӕi) } Ra: ta đưӧc luұt kӃt hӧp: . T tùy chӑn: 2Ê ¥or (t = 1. (Vӟi 1 ” i ” m) 2Ê Vӟi T là sӕ luұt yӃu ta sӁ chӑn đӇ cho ra luұt phân loҥi mҥnh hơn. t ” T. i++) t   t   (Zt là hӋ sӕ chuҭn hóa. t++) { ÓÊ îhӑn mӝt luұt yӃu ht bҵng thӫ tөc WeakLeaner ÓÊ îhӑn Įt ] R ÓÊ ¥or (int i=1.

 )   !   Luұt yӃu ht đưӧc chӑn sao cho giá trӏ "  t    đҥt cӵc tiӇu. ta có luұt yӃu đӕi vӟi văn bҧn x: ÓÊ h(x) = c0 nӃu w & x ÓÊ h(x) = c1 nӃu w ] x $ Ê  . $ Ê  !" Vӟi mӛi token w.

 .

 .

X1 = {x: w ] x}. Vӟi giá trӏ phân phӕi hiӋn tҥi là Dt. cj (j ] {0.1}) sӁ có giá trӏ -1 hoһc +1. ThiӃt lұp  6 6  Đһt r = |6 6 | + |6 6 | ĐӇ cӵc tiӇu Zt ta chӑn ! %& ' dүn đӃn  ( ) * . vӟi mӝt luұt w. ta có nhӳng giá trӏ tương ӭng vӟi mӛi j ] {0. ta cӵc tiӇu hóa Zt bҵng cách sau: Đһt X0 = {x: w & x}. Vӟi cách thӵc hiӋn này. +1}sau: " 6 t  ] # $  6 là trӑng sӕ ӭng vӟi phân phӕi Dt cӫa mүu huҩn luyӋn trong tұp Xj thuӝc vӅ loҥi b. 1} và b ]{-1.