Professional Documents
Culture Documents
Lp 14HCB
BI TP THC HNH 1
TIN X L D LIU VI WEKA
Mc tiu:
SV bit cch s dng cng c khai thc d liu Weka tin hnh tin x l d liu.
Quy nh
-
Gii thiu
Weka l mt cng c m ngun m vit trn mi trng Java s dng trong khai
thc d liu, c pht trin bi Trng i Hc Waikato New Zealand v c
s dng ti IAI Lab. Weka l mt cng c c lc cho vic hc mn khai thc d liu
v ng dng bi tnh min ph, sinh vin c th nghin cu s khc bit khi thc thi
nhng m hnh khai thc d liu khc nhau. Ngoi ra, cc kt qu t Weka c th
c cng b trn cc tp ch hay hi ngh uy tn nht. Do vy, Weka c xem l
mt mi trng pht trin thc t c la chn nghin cu khai thc d liu.
Download Weka ti: http://www.cs.waikato.ac.nz/ml/weka/
Cch s dng Weka: xem hng dn chi tit trong th mc ci t
Lp 14HCB
bi
Cu hi t ra l c th d on bnh tim t nhng d liu bit khc ca mt bnh
nhn hay khng. Tc v khai thc d liu c chn tr li cu hi ny l phn
lp/d on, v mt vi thut ton khc nhau s c s dng tm ra thut ton
cho kt qu d on tt nht.
1. Chun b d liu Tch hp d liu (integration) 1
Bc ny hp nht 2 dataset li thnh 1. Bn hy cho bit:
a. nh ngha s tch hp d liu.
b. C vn v nhn din thc th (entity identification) trong 2 dataset ny hay
khng? Nu c, gii quyt nh th no?
c. C vn d liu d tha (redundancy) trong 2 dataset ny hay khng? Nu
c, gii quyt nh th no?
d. C s mu thun d liu (data value conflicts) trong 2 dataset ny hay khng?
Nu c, gii quyt nh th no?
e. Tch hp 2 dataset ny li thnh 1 dataset chun b cho cc cu hi tip
theo. Np dataset sau khi tch hp vo Explorer. Bn c bao nhiu mu? Bao
nhiu thuc tnh?
f. Chp li mn hnh ca ca s Explorer ca bn.
2. Tm tt m t d liu Descriptive data summarization 2
Trc khi tin x l d liu, mt bc quan trng l lm quen vi d liu
a. Trong tab Preprocess, xem xt thuc tnh age v tr li cu hi: trung bnh,
lch chun, gi tr nh nht, ln nht ca n l g?
b. Lit k five-number summary ca thuc tnh ny. Weka c cung cp nhng
con s ny hay khng?
c. Cho bit thuc tnh no l s (numeric), thuc tnh no l c th t (ordernal)
v thuc tnh no l ri rc/danh sch (categorical/nomial).
d. Gii thch ngha ca th trong ca s Explorer. Bn t tn cho th ny
l g? Mu xanh v mu c ngha g (ch cc pop-up hin ln khi di
chuyn chut trn th). th ny biu din cho ci g?
e. Ln lt xem xt cc thuc tnh khc ca dataset di dng th. Dn cc
nh chp mn hnh vo bi lm.
f. Nhn xt ca bn t nhng th ?
g. Chuyn sang tab Visualize. Thut ng s dng trong textbook t tn cho
cc th l g? Chn jitter ti a, ch ct num (ct cui cng), theo bn
1
2
Lp 14HCB
Lp 14HCB