You are on page 1of 36

B GIO DC V O TO

TRNG I HC DN LP HI PHNG

-------------o0o--------------

TM HIU V SUPPORT VECTOR


MACHINE CHO BI TON PHN LP
QUAN IM

N TT NGHIP I HC H CHNH QUY

Ngnh: Cng Ngh Thng Tin

Sinh vin thc hin: Phm Vn Sn

Gio vin hng dn: Ths. Nguyn Th Xun Hng

M s sinh vin: 120704

HI PHNG 12/2012
0
MC LC

MC LC .......................................................................................................... 1

LI CM N ..................................................................................................... 3

M U ............................................................................................................ 4

CHNG 1: TM HIU V SUPPORT VECTOR MACHINE ............................ 6

1.1 PHT BIU BI TON ............................................................ 6

1.1.1 Trnh by tm tt v phn lp d liu..................................... 8

1.1.2 Ti sao li s dng thut ton SVM trong phn lp d liu... 9

1.2 THUT TON SVM ............................................................... 10

1.2.1 Gii thiu .............................................................................. 10

1.2.2 nh ngha ............................................................................. 10

1.2.3 tng ca phng php..................................................... 10

1.2.4 Ni dung phng php ......................................................... 11

1.2.4.1 C s l thuyt ................................................................ 11

1.2.4.2 Bi ton phn 2 lp vi SVM.......................................... 12

1.2.4.3 Bi ton nhiu phn lp vi SVM................................... 13

1.2.4.4 Cc bc chnh ca phng php SVM ......................... 14

CHNG 2: BI TON PHN LP QUAN IM ................................... 15

2.1 S KIN (Facts) V QUAN IM (Opinions)...................... 15

2.2 NHU CU V THNG TIN QUAN IM V NHN XT 15

2.3 MY TM KIM QUAN IM / NHN XT ...................... 17

1
2.4 LCH S CA PHN TCH QUAN IM V KHAI THC
QUAN IM ............................................................................................... 18

2.5 XU HNG NGHIN CU GN Y ................................ 19

2.5.1 Xc nh cm t, quan im ................................................. 19

2.5.2 S dng tnh t v ph t...................................................... 20

2.5.3 S dng cc ng t.............................................................. 21

2.5.4 Xc nh chiu hng, cm t, quan im ........................... 22

2.6 NHIM V CA PHN TCH QUAN IM ....................... 22

2.7 BI TON PHN LP QUAN IM ................................... 22

2.7.1 Phn cc quan im v mc phn cc............................. 23

2.7.2 Nhim v ca bi ton phn lp quan im ......................... 24

2.7.3 Xy dng m hnh phn lp phn loi ti liu................. 25

CHNG III: CHNG TRNH THC NGHIM .................................... 26

3.1 D LIU TH NGHIM ........................................................ 26

3.2 CNG C S DNG .............................................................. 26

3.2.1 Cng c sinh SRIML ............................................................ 26

3.2.2 Ngn ng lp trnh java ........................................................ 27

3.2.3 Cng c phn lp d liu SVMLight ................................... 28

3.3 Kt qu thc nghim ................................................................. 29

KT LUN ...................................................................................................... 34

TI LIU THAM KHO .................................................................................. 35

2
LI CM N

Trc ht, em xin chn thnh cm n Trng i hc Dn Lp Hi


Phng. Cc Thy, C trong Khoa Cng ngh Thng tin to iu kin thun
li cho em trong sut qu trnh hc tp v lm lun vn tt nghip

Em xin by t lng bit n su sc ca mnh i vi C Nguyn Th


Xun Hng, ngi tn tnh hng dn em thc hin lun vn tt nghip
ny. C nh hng cho lun vn, gip sinh vin c mt mi trng hc
thut c th trao i tng, kin thc thu thp c qua c sch, tp
ch, ti liu, qua tm hiu cc bi ging, cng nh qua mng Inernet, c bit
C cho php sinh vin c tip cn vi kho ti liu tng i y , c
tnh cp nht cao m c dy cng su tm

Em xin cm n cc Thy, C quan tm gp v nhn xt qu bu


cho bn n ca em.

Xin cm n cc bn chia s v gp cho ti trong qu trnh hon


thnh lun vn

Hi Phng, ngy..thng..nm.

Sinh vin

Phm Vn Sn

3
M U

Trong thi i hin nay, s pht trin nh v bo ca cng ngh thng tin
(CNTT) ko theo s pht trin ca nhiu lnh vc khc. C th ni, CNTT ang
lm thay i hnh hi ca nn kinh t th gii, gip nhn loi bc nhng bc
vng chc u tin trn con ng ca kinh t tri thc, thng mi in t.. Ngy
nay, con ngi khng cn phi vt v nhc nhn trong cng vic thu thp d liu v
c tr th c lc l h thng my tnh v mng truyn s liu trin khai quy
m ton cu.
Tuy nhin, s pht trin vt bc ca CNTT lm tng s lng giao dch
thng tin trn mng Internet mt cch ng k, c bit l th in t, tin tc in
t,... Theo s liu thng k t Broer et ai (2008) th c sau khong 6 n 10 thng
lng thng tin li tng gp i, bn cnh tc thay i thng tin cng cc
k nhanh. Hot ng ca cc lnh vc cng t ra phi x l mt khi lng thng
tin s. Mt yu cu ln t ra i vi chng ta l lm sao t chc, tm kim
thng tin mt cch hiu qu nht v phn loi thng tin l mt trong nhng gii
php hp l cho yu cu ny. Nhng vi mt khi lng thng tin qu ln v i
hi phi x l nhanh th vic phn loi th cng l iu khng tng. Hng gii
quyt l xy dng cc gii php cho php thut ton ha v chng trnh ha trn
my tnh c th t ng phn loi cc thng tin trn.

Trong ti tt nghip i hc Trng i Hc Dn Lp Hi Phng, em


thc hin ti TM HIU V SUPPORT VECTOR MACHINES CHO BI
TON PHN LP QUAN IM .
L do chn ti
Vn phn lp v d on l khu rt quan trng trong hc my v trong
khai ph d liu, pht hin tr thc. K thut Support Vector Machines (SVM) c
nh gi l cng c mnh v tinh vi nht hin nay cho nhng bi ton phn lp phi
tuyn. Nhiu nhng ng dng v ang c xy dng da trn k thut SVM rt
hiu qu.

4
Mc ch, i tng v phm vi nghin cu
Trong khun kh lun vn s nghin cu phn bi ton phn lp quan im,
c s l thuyt ca phng php SVM v cc vn lin quan. Phn tch nhng
gii php cho php m rng v ci tin nng cao hiu qu ng dng ca SVM.
a k thut m vo SVM cho php phn chia khng gian d liu mt cch tt
hn, nhm loi b nhng vng khng c phn lp bng SVM thng thng.
Trnh by hng p dng k thut SVM cng nh nhng ci tin, m rng
ca n vo gii quyt mt s cc bi ton ng dng trong thc tin.
Trnh by tng quan v bi ton phn lp quan im v c th l bi ton
phn lp phn cc phn chia cc ti liu cha quan im l tch cc hay tiu cc.
Tm hiu d liu quan im v vit chng trnh th nghim phn lp phan
cc ti liu s dng SVM.

ngha khoa hc v thc tin


SVM l mt phng php phn lp hin i v hiu qu, nm chc phng
php ny s to nn tng gip chng ta trong vic pht trin cc gii php phn loi
v d on..., xy dng c nhng ng dng quan trng trong thc t.
ng dng phn lp SVM cho bi ton phn lp quan im l bi ton v
ang c nghin cu v pht trin rng ri v c ngha c v hc thut ln ng
dng thc t.

Ni dung c bn ca lun vn bao gm


Chng 2: Tm hiu v Support Vector Machine
Chng 2: Bi ton phn lp quan im
Chng 3: Chng trnh thc nghim
Phn Kt Lun
Phn ti liu tham kho

5
CHNG 1: TM HIU V SUPPORT VECTOR
MACHINE

1.1 PHT BIU BI TON

Support Vector Machines (SVM) l k thut mi i vi vic phn lp d


liu, l phng php hc s dng khng gian gi thuyt cc hm tuyn tnh trn
khng gian c trng nhiu chiu, da trn l thuyt ti u v l thuyt thng k.
Trong k thut SVM khng gian d liu nhp ban u s c nh x vo
khng gian c trng v trong khng gian c trng ny mt siu phng phn chia
ti u s c xc nh.
Ta c tp S gm e cc mu hc
S = {(x1,y1), (x2,y2), (x3,y3)..( xe,ye)} (X x Y)e

vi mt vect u vo n chiu xi Rn thuc lp I hoc lp II (tng ng


nhn y i = 1 i vi lp I v y i = - 1 i vi lp II). Mt tp mu hc c gi l
tm thng nu tt c cc nhn l bng nhau.
i vi cc d liu phn chia tuyn tnh, chng ta c th xc nh c siu
phng f(x) m n c th chia tp d liu. Kh , vi mi siu phng nhn c ta
c: f(x) 0 nu u vo x thuc lp dng, v f(x)< 0 nu x thuc lp m
n
f(x) = w.x +b = wi xi + b
j 1

yi f(xi) = yi (w.xi + b) 0 , i=1,.,l

trong w l vector php tuyn n chiu v b l gi tr ngng


Vector php tuyn w xc nh chiu ca siu phng f(x), cn gi tr ngng b
xc nh khong cch gia siu phng v gc.
.

6
Hnh 2. 1: Phn tch theo siu phng (w,b) trong khng gian
2 chiu ca tp mu

Siu phng c khong cch vi d liu gn nht l ln nht (tc c bin ln


nht) c gi l siu phng ti u

Hnh 2. 2: Siu phng ti u

Mc ch t ra y l tm c mt ngng (w,b) phn chia tp mu vo


cc lp c nhn 1 (lp I) v -1 (lp II) nu trn vi khong cch l ln nht

7
1.1.1 Trnh by tm tt v phn lp d liu
- Phn lp d liu l mt k thut trong khai ph d liu c s dng rng
ri nht v c nghin cu m rng hin nay.
- Mc ch: d on nhng nhn phn lp cho cc b d liu hoc mu mi.
u vo: Mt tp cc mu d liu hun luyn,vi mt nhn phn lp
cho mi mu d liu
u ra: B phn lp da trn tp hun luyn,hoc nhng nhn phn lp
Phn lp d liu da trn tp hun luyn v cc gi tr trong mt thuc tnh
phn lp v dng n xc nh lp cho d liu mi
K thut phn lp d liu c tin hnh bao gm 2 bc:
Bc 1: Xy dng m hnh t tp hun luyn
Bc 2: S dng m hnh kim tra tnh ng n ca m hnh v dng
n phn lp d liu mi.
Bc 1. Xy dng m hnh

- Mi b/mu d liu c phn vo mt lp c xc nh trc.


- Lp ca mt b/mu d liu c xc nh bi thuc tnh gn
nhn lp
- Tp cc b/mu d liu hun luyn - tp hun luyn - c dng
xy dng m hnh.
- M hnh c biu din bi cc lut phn lp,cc cy quyt nh
hoc cc cng thc ton hc.

Hnh 2.3: V d xy dng m hnh

8
Bc 2: S dng m hnh
- Phn lp cho nhng i tng mi hoc cha c phn lp
- nh gi chnh xc ca m hnh

Lp bit trc ca mt mu/b d liu em kim tra c so snh vi


kt qu thu c t m hnh.

T l chnh xc bng phn trm cc mu/b d liu c phn lp ng


bi m hnh trong s cc ln kim tra

Hnh 2.4: S dng m hnh

1.1.2 Ti sao li s dng thut ton SVM trong phn lp d liu

SVM rt hiu qu gii quyt bi ton d liu c s chiu ln (nh ca d


liu biu din gene, protein, t bo)
SVM gii quyt vn overfitting rt tt (d liu c nhiu v tch di nhm
hoc d liu hun luyn qu t)
L phng php phn lp nhanh
C hiu sut tng hp tt v hiu sut tnh ton cao

9
1.2 THUT TON SVM

1.2.1 Gii thiu

Bi ton phn lp (Classification) v d on (Prediction) l hai bi ton c


bn v c rt nhiu ng dng trong tt c cc lnh vc nh: hc my, nhn dng, tr
tu nhn to, .v.v . Trong kha lun ny, chng em s i su nghin cu phng
php Support Vector Machines (SVM), mt phng php rt hiu qu hin nay.
Phng php SVM c coi l cng c mnh cho nhng bi ton phn lp
phi tuyn tnh c cc tc gi Vapnik v Chervonenkis pht trin mnh m nm
1995. Phng php ny thc hin phn lp da trn nguyn l Cc tiu ha Ri ro
c Cu trc SRM (Structural Risk Minimization), c xem l mt trong cc
phng php phn lp gim st khng tham s tinh vi nht cho n nay. Cc hm
cng c a dng ca SVM cho php to khng gian chuyn i xy dng mt
phng phn lp

1.2.2 nh ngha

L phng php da trn nn tng ca l thuyt thng k nn c mt nn


tng ton hc cht ch m bo rng kt qu tm c l chnh xc
L thut ton hc gim st (supervied learning) c s dng cho phn lp
d liu.
L 1 phng php th nghim, a ra 1 trong nhng phng php mnh v
chnh xc nht trong s cc thut ton ni ting v phn lp d liu
SVM l mt phng php c tnh tng qut cao nn c th c p dng cho
nhiu loi bi ton nhn dng v phn loi

1.2.3 tng ca phng php

Cho trc mt tp hun luyn, c biu din trong khng gian vector, trong
mi ti liu l mt im, phng php ny tm ra mt siu phng quyt nh tt
nht c th chia cc im trn khng gian ny thnh hai lp ring bit tng ng l
lp + v lp -. Cht lng ca siu phng ny c quyt nh bi khong cch (gi
l bin) ca im d liu gn nht ca mi lp n mt phng ny. Khi , khong
cch bin cng ln th mt phng quyt nh cng tt, ng thi vic phn loi cng
chnh xc.
10
Mc ch ca phng php SVM l tm c khong cch bin ln nht,
iu ny c minh ha nh sau:

Hnh 2. 5: Siu phng phn chia d liu hc thnh 2 lp + v - vi khong cch bin ln
nht. Cc im gn nht (im c khoanh trn) l cc Support Vector.

1.2.4 Ni dung phng php

1.2.4.1 C s l thuyt

SVM thc cht l mt bi ton ti u, mc tiu ca thut ton ny l tm c


mt khng gian F v siu phng quyt nh f trn F sao cho sai s phn loi l thp
nht.
Cho tp mu (x1, y1), (x2, y2), (xf, y f ) } vi xi Rn , thuc vo hai lp
nhn: yi {-1,1} l nhn lp tng ng ca cc xi (-1 biu th lp I, 1 biu th lp
II).

Ta c, phng trnh siu phng cha vect xi trong khng gian:

xi .w + b = 0

+1, Xi . W + b > 0
t f(Xi) = sign (Xi . W + b) =
-1, Xi . W + b < 0

11
Nh vy, f(Xi) biu din s phn lp ca Xi vo hai lp nh nu. Ta ni yi=
+1 nu Xi lp I v yi = -1 nu Xi lp II . Khi , c siu phng f ta s phi
gii bi ton sau:


Tm min w vi W tha mn iu kin sau:

yi(sin (Xi.W + b)) 1 vi i 1,n


Bi ton SVM c th gii bng k thut s dng ton t Lagrange bin
i v thnh dng ng thc. Mt c im th v ca SVM l mt phng quyt
nh ch ph thuc cc Support Vector v n c khong cch n mt phng quyt

nh l 1/ w . Cho d cc im khc b xa i th thut ton vn cho kt qu ging
nh ban u. y chnh l im ni bt ca phng php SVM so vi cc phng
php khc v tt c cc d liu trong tp hun luyn u c ng ti u ha kt
qu.
TM LI: trong trng hp nh phn phn tch tuyn tnh, vic phn lp
c thc hin qua hm quyt nh f(x) = sign(<w.x> + b), hm ny thu c bng
vic thay i vect chun w, y l vect cc i ha vin chc nng
Vic m rng SVM phn a lp hin nay vn ang c u t nghin
cu. C mt phng php tip cn gii quyt vn ny l xy dng v kt hp
nhiu b phn lp nh phn SVM (Chng hn: trong qu trnh luyn vi SVM, bi
ton phn m lp c th c bin i thnh bi ton phn 2*m lp, khi trong
mi hai lp, hm quyt nh s c xc nh cho kh nng tng qut ha ti a).
Trong phng php ny c th cp ti hai cch l mt-i-mt, mt-i-tt c

1.2.4.2 Bi ton phn 2 lp vi SVM

Bi ton t ra l: Xc nh hm phn lp phn lp cc mu trong tng


lai, ngha l vi mt mu d liu mi xi th cn phi xc nh xi c phn vo lp
+1 hay lp -1
xc nh hm phn lp da trn phng php SVM, ta s tin hnh tm
hai siu phng song song sao cho khong cch y gia chng l ln nht c th
phn tch hai lp ny ra lm hai pha. Hm phn tch tng ng vi phng trnh
siu phng nm gia hai siu phng tm c

12
Hnh 2. 6: Minh ha bi ton 2 phn lp bng phng php SVM

Cc im m nm trn hai siu phng phn tch c gi l cc Support


Vector. Cc im ny s quyt nh n hm phn tch d liu

1.2.4.3 Bi ton nhiu phn lp vi SVM

phn nhiu lp th k thut SVM nguyn thy s chia khng gian d liu
thnh 2 phn v qu trnh ny lp li nhiu ln. Khi hm quyt nh phn d liu
vo lp th i ca tp n , 2-Ip s l:

fi(x) = wiix + bi
Nhng phn t x l support vector s tha iu kin

+1 nu thuc lp i
fi (x) =
-1 nu thuc phn cn li
Nh vy, bi ton phn nhiu lp s dng phng php SVM hon ton c th
thc hin ging nh bi ton hai lp. Bng cch s dng chin lc "mt- i-
mt(one - against - one).
Gi s bi ton cn phn loi c k lp (k > 2), chin lc "mt-i-mts
tin hnh k(k-l)/2 ln phn lp nh phn s dng phng php SVM. Mi lp s
tin hnh phn tch vi k-1 lp cn li xc nh k-1 hm phn tch da vo bi
ton phn hai lp bng phng php SVM.

13
1.2.4.4 Cc bc chnh ca phng php SVM

Phng php SVM yu cu d liu c din t nh cc vector ca cc s


thc. Nh vy nu u vo cha phi l s th ta cn phi tm cch chuyn chng v
dng s ca SVM
Tin x l d liu: Thc hin bin i d liu ph hp cho qu trnh tnh
ton, trnh cc s qu ln m t cc thuc tnh. Thng nn co gin (scaling) d
liu chuyn v on [-1, 1] hoc [0, 1].
Chn hm ht nhn: La chn hm ht nhn ph hp tng ng cho tng bi
ton c th t c chnh xc cao trong qu trnh phn lp.
Thc hin vic kim tra cho xc nh cc thm s cho ng ng. iu
ny cng quyt nh n tnh chnh xc ca qu trnh phn lp.
S dng cc tham s cho vic hun luyn vi tp mu. Trong qu trnh hun
luyn s s dng thut ton ti u ha khong cch gia cc siu phng trong qu
trnh phn lp, xc nh hm phn lp trong khng gian c trng nh vic nh x
d liu vo khng gian c trng bng cch m t ht nhn, gii quyt cho c hai
trng hp d liu l phn tch v khng phn tch tuyn tnh trong khng gian c
trng.
Kim th tp d liu Test

14
2 CHNG 2: BI TON PHN LP QUAN IM

2.1 S KIN (Facts) V QUAN IM (Opinions)

S kin l nhng biu hin khch quan v c th, cc s kin v


cc thuc tnh ca h
VD:

u hin ch quan m t tnh cm, nh gi hay


cm xc ca con ngi i vi cc thc th, s ki
.
VD: t , v d s dng

2.2 NHU CU V THNG TIN QUAN IM V NHN XT

Nhng g ngi khc ngh lun lun l mt phn quan tr


c
i thiu
mt th c kh t ng hoc yu cu ti liu tham kho th lin quan n xin vic
t cc ng nghip, hoc t v
a nhng ng
, khn

ng ln. V ngc l

Internet.
Theo nh hai cuc kho st ca hn 2000 ngi M trng thnh mi: 81%
ngi dng Internet (hoc 60% ngi M) thc hi c tuyn v
mt sn phm t nht mt ln 20% (15% ca tt c cc ngi M) lm nh vy
trong mt ngy. Trong s cc c gi nh gi trc tuyn ca nh hng, khch sn,
dch v khc nhau (v d nh, cc c quan du lch hoc bc s), gia 73% v
87% bo co nh gi c mt nh hng ng k mua hng ca h. Ngi tiu
dng sn sng tr t 20% n 99% mt m 5 sao cao hn so vi

15
mt mc nh gi 4 sao. 32% cung cp mt nh gi v mt sn phm, dch v
thng qua mt h thng xp hng trc tuyn, trong c 18% ca cng dn trc
tuyn cao cp, c ng mt bnh lun trc tuyn hoc xem xt v mt sn phm hay
dch v.
hng ha v dch v khng phi l
ng c duy nht hoc th hi trc tuy
. V d, trong mt
cuc kho st hn 2500 ngi M trng thnh, Rainie v Horrigan nghin cu
31% ngi M - trn 60 triu ngi - 2006 ng ,
l nhng ngi thu thp thng tin v cuc bu c nm 2006 trc tuyn v trao
thng qua email.
Trong s ny:

28% ni rng cho cc hot ng trc tuy


c quan im t bn trong cng ng ca h, v 34% cho
bit mt l do chnh l c quan im t bn ngoi cng ng
ca h.

27% c tuyn cho hoc xp hng ca


;

28% cho bit rng hu ht cc trang web m h s dng chia s quan


im, nhng 29% ni rng cc trang web thch
thc quan im ca h, ch ra rng nhiu ngi khng ch n gin l
tm kim xc nhn

8% ng trc tuyn bnh lun chnh tr ring ca h.

. Theo Horrigan rng trong khi a


s ngi s dng internet ca M kinh nghim tch cc trong
trc tuyn, 58% cho rng thng tin trc tuyn , kh hiu
. V v
.

16
quan tm m ngi
dng c nhn trong cc kin trc tuyn v sn phm v dch v, nh
h .
Vi s bng n ca nn tng Web 2.0 , din n tho lun, peer-
to-peer mng, v cc loi khc nhau c ...
cha tng c v quyn chia s kinh nghim v kin ca
ring h c hay tiu cc. Khi cc cng ty
ln ang ngy cng nhn ra, nhng ting ni ca ngi tiu dng c th vn dng
rt ln nh hng trong vic hnh thnh kin ca ngi tiu dng
trung thnh v thng hiu ca h, quyt nh mua,v vn ng cho chnh
thng hiu ca h... Cng ty c th p ng vi nh i tiu
dng m h to ra thng qua n truyn thng x hi v phn
tch
.
Tuy nhin, cc nh phn tch ngnh cng nghip lu rng vic tn dng cc
phng tin truyn thng mi cho mc ch hnh nh sn phm i hi c
cng ngh mi.
Cc nh tip th lun lun cn gim st cc phng tin truyn thng cho
thng tin lin quan n thng hiu ca mnh, cho d l i vi cc hot ng
quan h cng chng, vi phm gian ln, hoc tnh bo cnh tranh. Nhng phn mnh
cc phng tin truy thay i hnh vi ca ngi tiu dng
truyn thng. Technorati c tnh rng 75.000 blog mi
c to ra mi ngy, cng vi 1,2 triu bi vit mi ngy u kin
ngi tiu dng tho lun v sn phm v dch v.
V v c nhn
h thng c kh nng t ng phn tch ca ngi tiu dng

2.3 MY TM KIM QUAN IM / NHN XT

To h thng c th x l thng tin ch quan mt cch hiu qu i hi phi


khc phc mt s thch th t ng dng s in vo thng tin quan
trng v ph bin cn thi n ch s ch vo blog tm kim hoc xem xt
cc loi tng qut hn ca tm kim c m t trn.

17
S pht trin c n hon chnh
c th lin quan n vic tn cng ln nhau trong nhng vn sau y.

Khi ng dng c tch hp vo m m, sau cn phi


xc . iu
ny c th khng l mt vn
: review reviews opinion ,
hoc ng d p mt i dng h
c th

Bn c n vn cn m nh nhng ti liu ti ch lin


quan n mt truy vn nh h t
thch thc trong vic thit l ng thi ho
n ca ti liu cha ti li
.

Khi c cc ti li c tiu, ngi ta vn cn phi i mt vi vn


xc ng th /hoc kin c th
t hoc cc kha cnh c
hoc cc ch trong cu hi, khi cn thit.

Cui cng, h thng cn ph c


trong mt s trang tm tt hp l.

2.4 LCH S CA PHN TCH QUAN IM V KHAI THC QUAN


IM

(sentiment analysis
(opinion mining) gn y thu ht c s quan tm r
ng nhn thc v cc vn nghin cu v
c h .

18
:
S gia tng ca cc phng php hc my, x l ngn ng t nhin v
khi phc thng tin.
S sn c c li t ton h
a Internet, c th pht tri
.
Thc hin nhng thch thc tr tu, thng mi v cc ng d
.

l mt tp hp cc kt qu tm kim cho m t nh,


sinh ra mt danh sch cc thuc tnh sn phm (cht l
ng h ).
m t song song ca "
nhng kha cnh nht nh (Das v Chen Tong, 2001). v
biu th cng mt lnh vc nghin cu

2.5 XU HNG NGHIN CU GN Y

m tr thnh ch nng gia cc nh nghin


cu x l ngn ng t nhin v trch ch u cc bi bo c
xut bn v nhng ng dng khc nhau c s dng h thng nh gi quan im
c pht trin v a vo trong hot ng thng m
:
, cm t ch quan im
Xc nh quan i
.

2.5.1 Xc nh cm t, quan im

Nhng t, cm t ch quan im l nhng t ng c s dng din t


cm xc, kin ngi vit, nhng quan im ch quan da trn nhng vn
m anh ta hay c ta ang tranh lun. Vic rt ra nhng t, cm t ch quan im l
giai on u tin trong h thng nh gi quan im, v nhng t, cm t ny l
nhng cha kha cho cng vic nhn bit v phn loi ti liu sau .
19
ng dng da trn h thng nh gi quan im hin nay tp trung vo cc
t ch ni dung cu: danh t, ng t, tnh t v ph t. Phn ln cng vic s dng
t loi rt chng ra (Hu v Liu, 2004 , Turney, 2002). Vic gn nhn t loi cng
c s dng trong cng vic ny, iu ny c th gip cho vic nhn bit xu
hng quan im trong giai on tip theo. Nhng k thut phn tch ngn ng t
nhin khc nh xa: stopwords, stemming cng c s dng trong giai on tin
x l rt ra t, cm t ch quan im

2.5.2 S dng tnh t v ph t

Nhng h thng hin ti dng nhn bit nhng t ch quan im hay xu


hng quan im tp trung ch yu vo cc tnh t v ph t v chng c xem l
s biu l r rng nht ca tnh ch quan ( Hatzivassiloglou and McKeown, 1997,
Wiebe and Bruce, 1999 ).
Hu v Liu (2004) p dng vic gn nhn t loi v k thut x l ngn ng t
nhin nhm rt ra nhng tnh t cng nh nhng t ch quan i
:
nh ngha mt cu m cha mt hay nhiu du hiu sn phm v t ch
quan im c xem l mt cu ch quan im.
i cu trong d liu ch quan im, rt ra tt c nhng tnh t c coi
l nhng t ch quan im.
Kt qu thc nghim vic rt ra nhng cu nh gi quan im c chnh
xc (precision) khong 64.2% v recall l 69.3%.
S dng WordNet (Fellbaum, 1998) xc nh cc tnh t c rt ra mang
chiu hng tch cc (positive) hay tiu cc (negative).
Trong WordNet, cc tnh t c t chc thnh cc cm t lng cc, na
cm th hai phn u l t tri ngha ca cm th nht. Mi na cm l phn u
ca tp t ng ngha chnh, tip theo l tp t ng ngha km theo, i din cho
ng ngha tng t nh nhng tnh t quan trng. Ngc vi cch tip cn da trn
t in, h s dng nh hng quan im ca nhng t ng ngha v t tri ngha
d on nh hng ca cc tnh t. H bt u vi mt danh sch khi u gm
30 tnh t thng dng c chn th cng (bng tay). Sau s dng WordNet
20
d on nh hng ca tt c cc tnh t trong danh sch t quan im c rt ra
bng cch tm kim qua cm lng cc tm ra liu cc t ng ngha hay tri
ngha c trong danh sch khi u hay khng. Khi nh hng ca tnh t c d
on, n s c b sung vo danh sch khi u v c th c s dng xc
nh nh hng ca cc tnh t khc. Trong phng php ny, danh sch khi u
s dn tng ln khi s nh hng ca cc tnh t c nhn dng, v khi n ngng
gia tng, tc qui m ca danh sch khi u trng vi qui m ca danh sch t ch
quan im, th tt c nh hng ca cc tnh t c nhn bit v qu trnh ny
kt thc.
Nhng t quan im thng tp trung ch y v ph
t v vy cng nhn dng chnh xc c nhiu hai loi t ny h thng cng c
chnh xc cao

2.5.3 S dng cc ng t

Cc tnh t v ph t ng mt vai tr quan trng trong vic phn tch quan


im v l cc loi t c li th trong vic nhn bit nh hng v rt ra cc t ch
quan im trong cc nghin cu hin nay. Tuy nhin, cc loi t khc, v d nh
ng t cng c s dng din t cm xc hay kin trong cc bi vit.
Nasukawa v Yi (2003) xem xt rng bn cnh cc tnh t v ph t, th cc
ng t cng c th din t quan im trong h thng nh gi quan im ca h.
H phn loi cc ng t c lin quan n quan im thnh 2 loi. Loi th nht
trc tip th hin quan im tch cc hay tiu cc, theo l gii ca h th beat
trong X beats Y . Loi th hai khng th hin quan im trc tip nhng dn n
nhng quan im , ging nh is trong X is good .
H s d a trn m hnh Markov (HMM) (Manning
and Schutze, 1999) v phn tch c php nng da trn lut (Neff et al., 2003) cho
bc tin x l. Sau h phn tch tnh ph thuc v mt c php gia cc cm t
v tm kim cc cm t c mt t ch quan im m n b ngha hoc c b
ngha bi mt thut ng ch th

21
2.5.4 Xc nh chiu hng, cm t, quan im

Trong phn tch quan im, xu hng ca nhng t, cm t trc tip th hin
quan im, cm xc ca ngi vit bi. Phng php chnh nhn bit xu hng
quan im ca nhng t, cm t ch cm ngh l da trn thng k hoc da trn t
vng

2.6 NHIM V CA PHN TCH QUAN IM

Phn tch quan i

nhin. C hai h :
(Sentiment Classification (Sentiment Extraction)
: bao gm 3 nhim v chnh l:
- .
- positive,
negative )
-

2.7 BI TON PHN LP QUAN IM

Phn lp l qu trnh "nhm cc i tng "ging nhau vo "mt lp da


trn cc c trng d liu ca chng. Tuy nhin, phn lp l mt hot ng tim n
trong t duy con ngi khi nhn dng th gii thc, ng vai tr quan trng lm c
s a ra cc d bo, cc quyt nh. Phn lp v cch m t cc lp gip cho tri
thc c nh dng v lu tr trong
Khi nghin cu mt i tng, hin tng, chng ta ch c th da vo mt s
hu hn cc c trng ca chng. Ni cch khc, ta ch xem xt biu din ca i
tng, hin tng trong mt khng gian hu hn chiu, mi chiu ng vi mt c
trng c la chn. Khi , phn lp d liu tr thnh phn hoch tp d liu
thnh cc tp con theo mt tiu chun nhn dng c.
Nhim v :
-
- .

22
Phn lp cu/ti liu cha quan i

c(positive) hay tiu cc (negative


(neutral).
Theo Bo Pang v Lillian Lee (2002) phn lp cu/ti liu ch quan im khng
c s nhn bit ca mi t/ cm t ch quan im. H s dng hc my c gim st
phn loi nhng nhn xt v phim nh. Khng cn phi phn lp cc t hay cm
t ch quan im, h rt ra nhng c im khc nhau ca cc quan im v s
dng thut ton Nave Bayes (NB), Maximum Entropy (ME) v Support Vector
Machine (SVM) phn lp quan im. Phng php ny t chnh xc t 78,
7% n 82, 9%.
Input: .
Output: (polarity)
v tip cn ng ).
Phn lp ti liu theo hng quan im tht s l vn thch thc v kh
khn trong lnh v x l ngn ng chnh l bn cht phc tp ca ngn ng ca
con ngi, c bit l s a ngha v nhp nhng ngha ca ngn ng. S nhp
nhng ny r rng s nh hng n chnh xc b phn lp ca chng ta mt
mc nht nh. Mt kha cnh thch thc ca vn ny dng nh l phn bit
n vi vic phn loi ch theo truyn thng l trong khi nhng ch ny
c nhn dng bi nhng t kha ng mt mnh, quan im c th din t mt
cch tinh t hn. V d cu sau: Lm th no ai c th ngi xem ht b phim
ny ?khng cha c ngha duy nht m r rng l ngha tiu cc. Theo , quan
im dng nh i hi s hiu bit nhiu hn, tinh t hn

2.7.1 Phn cc quan im v mc phn cc


- : positive/negative/neutral
- : Like/ dislike/ So so
- p/ thumbs down
- :like to win/ unlike to win Liberal/conservative
- / bad new.

23
:

/
.
: This laptop is great.

=>
.
VD: The stock prise rose


Rating inference (ordinal regression :

5 sao.
,

: positive, negative, neutral


positive negative.

neutral
).

Theo neutral negative


negative
10%.

2.7.2 Nhim v ca bi ton phn lp quan im

Bi ton phn lp quan im c bit n nh l bi ton phn lp ti liu


vi mc tiu l phn loi cc ti liu theo nh hng quan im.
c rt nhiu tip cn khc nhau c nghin cu gii quyt cho loi bi
ton ny. thc hin, v c bn c th chia thnh hai nhim v chnh nh sau:
- Trch cc c trng nhm khai thc cc thng tin ch quan im phc v
mc ch phn loi ti liu theo nh hng ng ngha.
- Xy dng m hnh phn lp cc ti liu.

24
2.7.3 Xy dng m hnh phn lp phn loi ti liu

Trong phn tch quan im, xu hng ca nhng t, cm t trc tip th hin
quan im, cm xc ca ngi vit bi. Phng php chnh nhn bit xu hng
quan im ca nhng t, cm t ch cm ngh l da trn thng k hoc da trn t
vng. Vi nhim v phn lp cc ti liu, c rt nhiu cc phng php hc my
thng k c s dng cho mc ch ny, nh l: Naive Bayes, phn loi Maximum
Entropy, hc my gim st SVM, cy quyt nh,

Thut ton gm 4 bc:


Bc 1: Xc nh cc n-gram, cc c trng c lc qua ton b tp d liu.
Bc 2: Tnh ton tn s xut hin ca cc n-gram tch cc, tiu cc v tnh
trng s ca cc n-gram.
Bc 3: Chn n-gram tha mn ngng v c trng s cao cng nh loi b
cc bigram khng c ngha cho vic phn loi.
Bc 4: Tnh ton chnh xc ca qu trnh hun luyn ca b phn lp

25
3 CHNG III: CHNG TRNH THC NGHIM

3.1 D LIU TH NGHIM

Trong n ny, chng ti s dng d liu t nhng bi vit v nh gi b


phim gm 700 nhn xt tch cc v 700 nhn xt tiu cc. D liu ny c cung
cp bi tc gi Lillian Lee (http://www.cs.cornell.edu/people/pabo/movie-
review-data/) Cc d liu ny dc loi b cc ch s nh gi v rt ra thng
tin trong nguyn vn t cc ti liu gc nh dng HTML, x l cc du chm cu
nh cc mc ca t vng ring bit.
Chng ti tp trung vo nhng c trng da trn nhng t n <unigram>
v cp 2 t <bigram>.

3.2 CNG C S DNG

3.2.1 Cng c sinh SRIML

SRILM l b cng c xy dng v p dng cc m hnh ngn ng thng


k , ch yu l s dng trong nhn dng ting ni, gn th thng k v phn
khc, v dch my thng k. B cng c ny c pht trin bi Phng th nghim
v nghin cu cng ngh ging ni SRI t nm 1995, c th chy trn nn tng
Linux cng nh Windows.
SRILM bao gm cc thnh phn sau:

Mt tp hp cc th vin C++ gip ci t m hnh ngn ng, h tr


cu trc d liu v cc chc nng tin ch nh.

Mt tp hp cc chng trnh thc thi thc hin nhim v xy dng m


hnh ngn ng, o to v th nghim m hnh ngn ng trn d liu,
gn th hoc phn chia vn bn, ...
B cng c SRILM c rt nhiu chng trnh con, xy dng m hnh ngn
ng ta s dng chng trnh Ngram

26
Chng trnh Ngram thng k tn s xut hin ca cc cm Ngram. Kt qu
ca vic thng k c ghi li vo mt tp hoc s dng chng xy dng m
hnh ngn ng. Kt qu ca vic thng k c ghi li theo nh dng sau:

ngram count ordern -interpolate -text <dataFile> -lm <outputFile>

Trong :

order n: thit lp di ln nht ca cc cm Ngram s thng k bng n. Gi


tr mc nh nu khng thit lp tham s ny l n = 3

interpolaten: vi n nhn cc gi tr l 1, 2, 3, 4, 5, 6, 7, 8, hoc 9. Tnh ton


tn s ca cc cm Ngram c di l n bng cch ni suy t cc cm
Ngram c di nh hn.

text<dataFile>: File d liu cn thng k tn s cc cm Ngram. Tp vn


bn ny c th cha mi cu trn mt dng. K hiu kt thc v bt u dng
mi s c t ng thm vo nu trong tp u vo cha c. Cc dng
trng trong tp ny cng b loi b.

lm<outputFile>: xy dng m hnh ngn ng truy hi t cc tn s va


thng k, sau ghi li vo tp fileketqua theo nh dng trn.

3.2.2 Ngn ng lp trnh java

Java l mt ngn ng lp trnh dng lp trnh hng i tng (OOP). Khc


vi phn ln ngn ng lp trnh thng thng, thay v bin dch m ngun thnh m
my hoc thng dch m ngun khi chy, Java c thit k bin dch m ngun
thnh bytecode, bytecode sau s c mi trng thc thi (runtime environment)
chy. Bng cch ny, Java thng chy nhanh hn nhng ngn ng lp trnh thng
dch khc nh Python, Perl, PHP,
C php Java c vay mn nhiu t C & C++ nhng c c php hng i
tng n gin hn v t tnh nng x l cp thp hn.

27
Mt s c im ni bt ca java
- My o java
- Thng dch
- c lp nn
- Hng i tng
a nhim, a lung

3.2.3 Cng c phn lp d liu SVMLight

SVM- c pht trin bi Joachims


Thorste nh sau:
Cc tnh nng chnh ca chng trnh
- Ti u ha thut ton nhanh
- Gii quyt nhanh cc vn phn loi v hi quy i vi cc kt qu
u ra a bin
- H tr cc phng php nhn dng mu....
SVM-light bao gm cc thnh phn chnh:
- SVMTlearn
- SVMTagger
- SVMTeval .
- SVMClassicfy: kim th kt qu
Thc hin:
:
svm-learn [-option] train_file model_file

28
:
train_file .
- Tn train_file .
-
.
model_file: .

- .
-
.

- ).

3.3 Kt qu thc nghim

Cc bc thc hin
Bc 1: s dng cng c N-gram sinh ra cc file d liu cha cc N-gram
ca ti liu cha quan im. y, chng ti s dng uni-gram (1-gram) v Bi-
gram (2-gram).

Bc 2: T tp d liu ny, trc khi c s dng hun luyn v kim


th cn qua mt s bc lc b cc c trng khng tt.
Bc th nht, lc b cc t v ngha (stop word), v cc k t c bit nh {!
, ? , / , @ . # , , ....}
Bc tip theo l lc b cc c trng theo tn s. Nhng c trng c tn s
xut hin trong d liu hun luyn thp hn mt gi tr no (i vi unigram s
l nh hn 3 v bigram l nh hn 7) s b loi b. Bc cui cng c thc hin
sau khi gn cc trng s cho tng c trng.
29
Bc 3: Gn nhn cho mi N-gram trong tp d liu hun luyn ly
thng tin phn loi: cc nhn xt cha quan im tch cc c gn nhn 1, cc
nhn xt cha quan im tiu cc c gn nhn -1.

chn

thc hin phn lp ti liu quan im, chng ti chia tp d liu thnh
hai tp con l tp hun luyn (train) v tp kim th (test)
Tp hun luyn gm c 550 nhn xt tch cc v 550 nhn xt tiu cc.
Tp kim th (test) gm c 150 nhn xt tch cc v 150 nhn xt tiu cc.

Kt qu thc hin phn lp Support Vector Machine vi cc c trng Uni-


gram v Bigram nh sau:

c trng Uni-gram Bi-gram

chnh xc (Precision) 91,38 % 56,49%

phn hi (Recall) 91,54% 58%

Chng trnh trch c trng n-gram v to d liu cho phn lp SVM


phn lp cc bnh lun l tch cc hay tiu cc.

30
3. 1: Giao din chnh ca chng trnh

3.2: M file d liu u vo

31
3.3: Hin th d liu dng chy Get Pos Data

3.4: D liu cho phn lp SVM

32
3.5: Hnh nh khi chy Lnh SVM trong mi trng DOS

33
4 KT LUN

Lun vn hng ti mc tiu phn lp d liu t chnh xc cao, tuy


xem xt c tt c cc mc tiu nh trong phn gii thiu nhng do thi gian c
hn, nn mt s vn vn cha hon chnh. Tuy nhin, lun vn cng t c
mt s kt qu: .

Nghin cu v trnh by c s ca l thuyt ca phng php hc my.


Trnh by phng php SVM. y l mt phng php phn lp hiu qu
c nghin cu nhiu nht trong thi gian qua.
Phn tch nhng gii php cho php m rng v ci tin nng cao hiu
qu ng dng ca SVM:

Ci t c mt s cng c gip cho vic xy dng m hnh ngn ng


nh: chun ha vn bn, tch t bng ngn ng Java.

Ci t c chng trnh trch c trng v to d liu cho phn lp


SVM.

Tm kim v s dng b d liu phn lp ti liu cha quan im.

Ci t v chy thnh cng b m ngun m Srilm trn mi trng Linux

S dng b cng c m ngun m SRILM xy dng m hnh ngn ng


cho d liu u vo.

Do thi gian c hn, nn hin ti lun vn mi ch nghin cu c trch c


trng n-gram t cc bnh lun v s dng phn lp SVM phn lp cc bnh lun
l tch cc hay tiu cc. Trong thi gian ti, ti s tip tc nghin cu trch cc c
trng khc cho bi ton ny v cc phng php phn lp thng k khc.

34
5 TI LIU THAM KHO

1. Ths. Nguyn Th Xun Hng v Ths. L Thy v phn tch quan im


v mt s hng tip cn . Hi ngh khoa hc ln th nht, 2012, trng
HDL Hi Phng

2. Nghin cu thut ton phn lp nh phn v ng dng cho bo ton


Protein Folding Nguyn Quang Phc Trng i hc Khoa hc t
nhin TPHCM

3. Bo Pang and Lillian Lee v Shivakumar Vaithyanathan. Thumbs up


Sentiment Classification using Machine Learning Techniques.

4. http://en.wikipedia.org/wiki/Support_vector_machine

5. http://www.cs.cornell.edu

6. http://svmlight.joachims.org/

7. ftp://ftp.cs.cornell.edu/pub/smart/english.stop

8. http://www.speech.sri.com/projects/srilm/download.html

35

You might also like