You are on page 1of 14

HC VIN CNG NGH BU CHNH VIN THNG ---------------------------------------

Phm Duy An

PHNG PHP KHAI PH D LIU BNG CY QUYT NH

Chuyn ngnh : Truyn d liu v Mng my tnh M s : 60.48.15 Ngi hng dn khoa hc: PGS.TS V C THI TM TT LUN VN THC S

H NI - 2012

Lun vn c hon thnh ti:


HC VIN CNG NGH BU CHNH VIN THNG

Ngi hng dn khoa hc: PGS.TS V C THI

Phn bin 1: Phn bin 2:

Lun vn s c bo v trc Hi ng chm lun vn thc s ti Hc vin Cng ngh Bu chnh Vin thng. Vo lc: ... gi .... ngy ..... thng ..... nm 2012

C th tm hiu lun vn ti: - Th vin ca Hc vin Cng ngh Bu chnh Vin thng

26 KT LUN

M U Lun vn Phng php khai ph d liu bng cy quyt nh trnh by mt s kt qu sau y: Nhng nghin cu v khai ph d liu v ng dng trong nhiu lnh vc khc nhau nhm khai thc ngun d liu phong ph c lu tr trong cc h thng thng tin. Khai ph d liu cng c p dng nhiu trong vic t vn, d bo , c bit l nhng ng dng cho t vn trong lnh vc gio dc. Khai ph d liu c rt nhiu hng tip cn (nhiu nhim v, mc ch), nhng c 3 nhim v ph bin l: Lut kt hp (Association rules), Phn cm (Clustering) v Phn loi (Classification). Trong nhim v pht hin v phn loi l mt trong nhng nhim v c quan tm, nghin cu nhiu nht. Tm hiu c nhng u im cng nh nhng kh khn trong vic o to theo tn ch, s dng phn mm m ngun m Weka cho vic sinh ra cc lut kt hp nhm phc v vic phn loi. Xy dng mt h thng t vn mn hc cho sinh vin nhm tr gip sinh vin nh hng c trong vic la chn mn hc,chuyn ngnh hc ph hp. Hng pht trin tip theo ca lun vn: qu trnh o to theo tn ch hot ng c hiu qu, cn thit phi xy dng mt h thng hon chnh h tr c qu trnh o to (xy dng thm nhiu chc nng: sp xp lch hc, thi kha biu, ng k hc trc tuyn,) Hin nay, d liu c lu tr ngy mt tng, ng dng khai ph d liu vo cc bi ton ny cn tip tc nghin cu cc phng php x l cho bi ton vi d liu ln. xem xt nghin cu thm mt s ng dng khc ca Khai ph d liu. Trong thi i ngy nay, yu t quyt nh thnh cng trong mi lnh vc lun gn lin vi vic nm bt, thng k v khai thc thng tin hiu qu. D liu ngy cng ln nn vic tm ra nhng thng tin tim n trong chng cng kh khn hn. Khm ph tri thc l mt lnh vc nghin cu mi, m ra mt thi k trong vic tm ra thng tin hu ch. Nhim v c bn ca lnh vc ny l khm ph tri thc trong c s d liu, khm ph d liu trong c s d liu khng phi l mt h thng phn tch t ng m l mt qu trnh tng tc thng xuyn gia con ngi vi c s d liu c s tr gip ca nhiu phng php v cng c tin hc. Ni dung lun vn ti xin trnh by bao gm ba chng: Chng mt gii thiu chung v cng ngh khm ph tr thc, cc khi nim c bn, ngha v tm quan trng ca vic khm ph tri thc. Chng hai trnh by cc phng php khai ph d liu bng cy quyt nh, khi nim c bn v cy quyt nh, cc thut ton ID3, C4.5, v rt gn cc lut quyt nh. Chng ba l xy dng chng trnh th nghim cho bi ton T vn chn chuyn ngnh ph hp vi kh nng sinh vin ti ai hc Phng ng. Ti xin by t s bit n su sc ca mnh ti PGS.TS V c Thi ngi trc tip hng dn, ch bo tn tnh, cung cp ti liu v phng php lun nghin cu khoa hc ti hon thnh bn lun vn ny. Ti xin gi li cm n ti cc thy c gio dy d trong qu trnh ti theo hc ti Hc vin. Trong sut qu trnh nghin cu, mc d ht sc c gng nhng chc chn lun vn khng trnh khi nhng thiu st, rt mong qu thy c gp lun vn c hon chnh hn.

4 Chng 1- GII THIU CHUNG V CNG NGH KHM PH TRI THC 1.1. Pht hin tri thc v khai ph d liu. Trong thi i bng n cng ngh thng tin hin nay, v cc cng ngh lu tr d liu ngy cng pht trin to iu kin cho cc n v thu thp d liu tt hn. c bit trong cc lnh vc kinh doanh v qun l, cc doanh nghip, cng ty nhn c tm quan trng ca vic nm bt v x l thng tin, nhm gip cc ch cng ty, doanh nghip trong vic vch ra cc chin lc kinh doanh kp thi mang li nhng li nhun to ln cho doanh nghip ca mnh. Tt c l do khin cho cc c quan, doanh nghip to ra mt lng d liu khng l c Gigabyte thm ch l Terabyte. Nhiu ngi coi khai ph d liu v khm ph tri thc trong c s d liu l nh nhau, tuy nhin trong thc t chng c quan h mt thit vi nhau, khai ph d liu ch l mt bc thit yu trong qu trnh pht hin tri thc trong c s d liu. 1.2. Qu trnh pht hin tri thc t c s d liu. Qu trnh pht hin tri thc c th chia thnh cc bc nh sau: - Lm sch d liu (Data cleaning): Loi b nhng d liu nhiu, khng thch hp, d tha hoc khng y . - Tch hp d liu (Data intergration):Tch hp d liu t nhiu ngun khc nhau - La chn d liu (Data selection): Chn nhng d liu c lin quan trc tip n nhim v. - Chuyn i d liu (Data transformation): Cc d liu sau khi c x l cc giai on trn c bin i v dng ph hp vi vic khai ph.

25

Hnh 3.8 : Giao din truy cp demo

24 Phn 2: T vn cho ngi dng. Chng trnh c vit trn giao din Web, s dng ngn ng lp trnh ASP. NET. a cc lut c sinh ra t phn 1 vo c s d liu SQL server ca Website, ta c bng lut lu tr cc lut nh hng chuyn ngnh. Ngoi ra c cc bng lin quan nh bng mn hc, bng sinh vin, bng im ca ngi dng cp nht. Xy dng chng trnh cho php: - Ngi dng cp nht im cc mn i cng. - Yu cu h thng a ra cc lut nh hng chuyn ngnh Chng trnh s hin th ra cc lut cng vi tin cy ca lut . Sau khi ngi dng cp nht im mn i cng ca mnh, ton b s im s c lu vo mt bng bangdiem trong c s d liu SQL, (bangdiem bao gm cc trng mammon, diem, loai). Vi mi lut ta so snh cp gi tr mammon (m mn) v loai (loi im) trong v tri ca lut vi tng cp gi tr mammon (m mn) v loai (loi im) trong bangdiem (bng im i cng m ngi dng va cp nht). Nu tt c cc cp mammon (m mn) v loai (loi im) u c mt trong bng im th lut s l lut c a ra t vn. Trong trng hp c mt cp m mn _ loi im khng thuc trong bng im, th lut s khng c t vn cho ngi dng. 3.4. Xy dng v thit k giao din ca chng trnh. Sinh vin s dng mng Internet vo phn cng thng tin i hc Phng ng: http://dhpd.edu.vn/

5 - La chn thut ton khai ph (Choosing the data mining algorithms): La chn cc phng php ph hp vi d liu hin c v nhim v ra. - Khai ph d liu (Data mining): y l bc quan trng nht ca qu trnh, ta s dng thut ton chn trch xut ra nhng thng tin hu ch, c tim nng. - nh gi mu (Pattern evaluation): Cc mu, tri thc c nh gi da trn cc tiu ch sn c. - Trnh din tri thc (Knowledge representation): y l bc cui cng, ti bc ny d liu c cng c, biu din v s dng.
5. a kt qu vo thc tin 4. Minh ha v nh gi tri thc 3. Khai thc d liu trch ra cc mu/m hnh 2. Thu thp v tin x l d liu 1. hiu v xc nh vn

Hnh 1.1. Qu trnh khm ph tri thc t c s d liu. 1.2.1. Xc nh vn . 1.2.2. Thu thp v x l d liu. 1.2.3. Khai thc d liu. 1.2.4. Minh ha, nh gi v a kt qu vo thc t. 1.3. Khai ph d liu.

6 1.3.1. Cc quan nim v khai ph d liu. Khai ph d liu l tp hp cc thut ton nhm chit xut nhng thng tin c ch t kho d liu khng l. Khai ph d liu c nh ngha nh mt qu trnh pht hin mu trong d liu, qu trnh ny c th l t ng hay bn t ng, song phn nhiu l bn t ng. Cc mu c pht hin thng hu ch theo nh ngha:cc mu mang li cho ngi s dng mt li th no , thng l li ch v kinh t. Khai ph d liu ging nh qu trnh tm ra v m t mu d liu. D liu nh l mt tp hp cc vt hay s kin, cn u ra ca qu trnh khai ph d liu thng nh l nhng d bo ca cc vt hay cc s kin mi. Khai ph d liu c p dng trong cc c s d liu quan h, giao dch, c s d liu khng gian, cng nh cc kho d liu phi cu trc, m in hnh l World Wide Web. Khm ph tri thc l qu trnh nhn bit cc mu hoc cc m hnh trong d liu vi cc tnh cht: ng n, mi, kh ch v c th hiu c. Khai ph d liu l mt bc trong qu trnh khm ph tri thc bao gm cc thut ton khai ph d liu chuyn dng di mt s quy nh v hiu qu tnh ton chp nhn c tm ra cc mu v cc m hnh trong d liu. Nh vy, mc ch ca khm ph tri thc v khai ph d liu l tm ra cc mu hoc m hnh ang tn ti trong cc c s d liu nhng vn cn b khut bi s lng d liu khng l. 1.3.2. Nhim v ca khai ph d liu. * Phn cm, phn nhm, phn loi, phn lp. Nhim v ny tr li cu hi: Mt d liu mi thu thp c s thuc v

23

Giai on 1: S dng d liu sau khi xy dng tin hnh tp hun. Tm tt c cc tp mc thng xuyn. Giai on 2: Khai ph lut kt hp. 3.3.3. Thit k c s d liu. Tin hnh xy dng c s d liu vi cc bng sau: Bng 3.1 : Lu tr danh sch sinh vin ton trng Bng 3.2: Lu tr danh sch cc mn hc trong trng Bng 3.3: Lu tr danh sch sinh vin tt nghip. 3.3.4. Tp hun v x l d liu. Phn 1: khai ph d liu. Trong phn ny, phn mm Weka c s dng sinh ra cc lut kt hp t d liu thu thp c. Trng i hc Phng ng cung cp cho d liu v cu sinh vin, d liu c cung cp vi cc thng tin v im ca sinh vin, cc mn hc, im tng kt. Cc bc chun b d liu: Xa b v sa cha d liu theo mt nh dng c th nhng khng lm mt i tnh chnh xc ca d liu. Cc mn hc c im s c s c phn thnh cc loi im c th nh sau: Trung bnh (TB): Nu im mn hc trong khong 4.5 n 6.4; Kh (K): Nu im mn hc trong khong 6.5 n 7.9; Gii (G): Nu im mn hc trong khong 8 n 10; Ta cn d on im ca cc ngnh tt nghip trn c s cc mn hc i cng, v vy s gi li thng tin v im cc mn hc i cng.

22 khoa no , hay ni cch khc l cc mn m cc chuyn ngnh thuc mt khoa no phi hc Mn chuyn ngnh: y l nhng mn dng chuyn ngnh hp ca ring tng ngnh. Mt s c im c bn ca o to tn ch: Sinh vin ch ng ng k mn hc theo mt tin trnh c sp xp trc. Sinh vin s tt nghip sau khi hon thnh khong 90 tn ch trnh i cng, v 120 tn ch trnh chuyn ngnh. Sinh vin d dng chuyn i chuyn ngnh m vn c bao lu im tng ng v c th ng k hc thm chuyn ngnh hai. Sinh vin ch ng sp xp lch hc ca mnh sao cho ph hp vi sc hc, v ti chnh ca mnh. Sinh vin c th hc li, thi li cc mn vi cc lp sau m khng cn t chc thi li. 3.3.2. M t h thng d liu ca bi ton. Bi ton t ra: Cho mt kho d liu lu gi cc thng tin v kt qu hc tp ca sinh vin tt nghip. Hy tm ra nhng quy lut la chn cc chuyn ngnh mt cch hp l sao cho t c kt qu tt nht. Nhm mc ch ny ngi ta mong mun nhn c t d liu nhng pht biu nh: 80% sinh vin hc tt mn Kinh t chnh tr v Ting Anh kh th tt nghip chuyn ngnh K ton ngn hng loi gii, t c nhng pht biu nh trn, chng ta s dng cc thut ton Khai ph lut kt hp t c s d liu. Mc d hin ti c nhiu thut ton khai ph d liu vi lut kt hp nhng nhn chung mi thut ton u qua hai giai on.

7 nhm no? Qa trnh ny thng c thc hin mt cch t ng. * Khai ph lut kt hp. Nhim v l pht hin ra nhng mi quan h ging nhau ca cc bn ghi giao dch. Lut kt hp X => Y c dng tng qut l: Nu mt giao dch s hu cc tnh cht X th ng thi n cng s hu cc tnh cht Y, mt mc no . Khai ph lut kt hp c hiu theo ngha: Bit trc cc tnh cht X, vy cc tnh cht Y l nhng tnh cht no? * Lp m hnh d bo, bao gm 2 nhim v: Hoc l phn nhm d liu vo mt hay nhiu lp d liu xc nh t trc, hoc l s dng cc trng cho trong mt c s d liu d bo s xut hin (hoc khng xut hin) ca cc trng hp khc. * Phn tch i tng ngoi cuc: Mt c s d liu c th cha cc i tng khng tun theo m hnh d liu. Cc i tng d liu nh vy gi l cc i tng ngoi cuc, hu ht cc phng php khai ph d liu u coi cc i tng ngoi cuc l nhiu v loi b chng. Tuy nhin trong mt s ng dng, chng hn nh pht hin nhiu th s kin him khi xy ra li c ch hn nhng g thng xuyn gp phi. S phn tch d liu ngoi cuc c coi nh l khai ph cc i tng ngoi cuc, mt s phng php c ng dng pht hin i tng ngoi cuc. 1.3.3. Mt s ng dng khai ph d liu Hin nay, k thut khai ph d liu ang c p dng mt cch rng ri trong rt nhiu lnh vc kinh doanh v trong i sng khc nhau nh: - Thng mi: Phn tch d liu bn hng v th trng, phn tch u t, quyt nh trong cc lnh vc ti chnh, ngn hng,

8 - Thng tin sn xut: iu khin v lp k hoch, h thng qun l, phn tch kt qu th nghim, - Thng tin khoa hc: D bo thi tit, khai ph c s d liu sinh hc ngn hng gen, - Trong cc lnh vc khc nh Y t, gio dc, vin thng, du lch, 1.3.4. Cc k thut khai ph d liu. Thng c chia thnh hai nhm chnh: - K thut khai ph d liu m t: c nhim v m t v cc tnh cht hoc cc c tnh chung ca d liu string hin c. Cc k thut ny bao gm: Phn cm (Clustering), tm tt (Summerization), trc quan ha (Visualization), phn tch s pht trin v lch (Evolution and Deviation analyst), phn tch lut kt hp (Association rules), - K thut khai ph d liu d on: C nhim v a ra cc d on da vo cc suy din trn d liu hin thi. Cc k thut ny gm c: Phn lp (Classifacation), hi quy (regession), Tuy nhin, ch c mt s phng php thng dng nht l: Phn cm d liu, phn lp d liu, phng php hi quy, v khai ph lut kt hp. 1.3.5. Kin trc ca h thng khai ph d liu. Kin trc ca h thng khai ph d liu c cc thnh phn nh sau: - C s d liu, kho d liu: l mt hoc nhiu tp c s d liu, kho d liu, Cc k thut lm sch d liu, tch hp, lc d liu c th thc hin trn d liu. - C s d liu hoc kho d liu phc v: L kt qu ly d liu c lin quan trn c s khai ph d liu ca ngi dng.

21 Server computer. Mt RDBMS bao gm databases, database engine v cc ng dng dng qun l d liu v cc b phn khc nhau trong RDBMS. SQL Server cung cp cc cng c qun tr v pht trin cho ngi s dng d dng ci t, s dng v qun l h thng. SQL Server c s dng trong lun vn vi mc ch lu tr cc d liu lin quan n lut phc v cho qu trnh truy vn ca sinh vin. 3.2.3. Ngn ng lp trnh ASP.NET ASP.NET 2.0 l cng ngh c s dng rng ri nht hin nay. Cng ngh ny cho php xy dng nhng ng dng web hon chnh c qui m ln, phc tp v yu cu bo mt cao. ASP.NET 2.0 l mt phn trong kin trc .NET Framework 2.0 c Microsoft thit k nhm hng ti nhng ng dng bo mt, tin cy v hiu sut trn mi trng Internet. p dng cng ngh ASP.NET cho vic xy dng v thit k trang web, v s dng mi trng internet giao tip vi ngi s dng. 3.3. Phn tch v thit k h thng. 3.3.1. Gii thiu v m hnh o to theo tn ch. Trng i hc Phng ng c thnh lp t nm 1994 v c 5 khoa vi 15 chuyn ngnh o to, v t nm 2005 Trng c chuyn t hnh thc o to nin ch sang o to tn ch theo quy nh ca B gio dc. Vi hnh thc o to ny sinh vin c th ch ng v thi gian hc tp, ti chnh sao ph hp nht. Sau y chng ta xt mt s c im c bn theo hnh thc tn ch ti Trng i hc Phng ng. Gio dc i cng: bao gm cc mn theo khung ca B gio dc v mt s mn c th ca Trng. Gio dc chuyn ngnh gm c 2 phn Mn c s khi ngnh: l mn c s bt buc vi mt

20

9 - C s tri thc: l lnh vc tri thc c s dng hng dn vic tm hoc nh gi cc mu kt qu thu c. - M t khai ph d liu: Bao gm tp cc modul chc nng thc hin cc nhim v m t cc c im, kt hp, phn lp, phn cm d liu, - nh gi mu: Thnh phn ny s dng cc o v tng tc vi modul khai ph d liu tp chung vo tm cc mu quan tm. - Giao din ngi dng: y l modul gia ngi dng v h thng khai ph d liu, cho php ngi dng tng tc vi h thng trn c s nhng truy vn hay tc v, cung cp thng tin cho vic tm kim. 1.3.6. Nhng kh khn trong khai ph d liu. - D liu ln. - Kch thc ln. - D liu ng. - Cc trng d liu khng ph hp. - Cc gi tr b thiu. - Cc trng d liu b thiu. 1.4. Mt s phng php khai ph d liu. 1.4.1. Cy quyt nh. xy dng cy quyt nh c nhiu cch song tu trung ta c mt khung chung cho qu trnh ny nh sau: - La chn thuc tnh tt nht nh mt o la chn (thng l Entropy). - M rng cy bng cch thm vo cc nhnh mi vi tng gi tr thuc tnh. - Sp xp cc mu hun luyn cho cc nt l. - Kim tra: nu mu hun luyn c phn loi th dng, ngc li th lp li qu trnh trn cho mi nt l.

Hnh 3.1 Giao din phn mm Weka Trong phn Application c 4 mc la chn: Explorer: S dng menu la chn. Explorer s dng cho nhng b d liu va v nh. Experimenter: Cho php ngi dng thc hin nhng bi tp c bn khi ng dng phn lp v k thut hi quy, vi nhng cng vic c gi tr, phng php v tham s tt nht cho vn cho. Cho php bn t ng ha x l, lm cho n phn lp v lc d dng vi nhng cch thit lp tham s khc nhau trn ton bng d liu. KnowledgeFlow: Cho php ngi dng ko th nhng chic hp tng trng cho cc gii thut v d liu kt ni chng li vi nhau v a ra cu trc. Simple CLI: S dng cu lnh thc thi. 3.2.2. H qun tr c s d liu SQL 2000 server SQL Server 2000 l mt h thng qun l c s d liu (Relational Database Management System (RDBMS) ) s dng Transact-SQL trao i d liu gia Client computer v SQL

10 - Ta bt nhng nt l khng n nh. 1.4.2. Lut kt hp. Chng hn nh c lut: m nhac, th thao => thiu nhi, ngha l nhng ngi mua sch m nhc v th thao th cng mua sch thiu nhi. Lc ta s quan tm n s lng trng hp khch hng tha mn lut ny trong c s d liu hay h tr (Support) cho lut ny. h tr cho lut chnh l phn trm s bn ghi c c sch m nhc, th thao v thiu nhi hay tt c nhng ngi thch c ba loi sch ni trn. Tuy nhin, gi tr h tr l khng , c th c trng hp ta c mt nhm tng i nhng ngi c c ba loi trn nhng li c mt nhm vi lc lng ln hn nhng ngi thch sch th thao, m nhc m khng thch sch thiu nhi. Trong trng hp ny tnh kt hp rt yu mc d h tr tng i cao, nh vy chng ta cn thm mt o th hai l tin cy (confidence). tin cy chnh l phn trm cc bn ghi c sch thiu nhi trong s cc bn ghi c sch m nhc v th thao. 1.4.3. Mng Nron. C nhiu kin trc khc nhau cho mng nron v mi trong s chng s dng cc cch kt ni mng khc nhau v chin lc hc khc nhau thc hin cc nhim v. Khi s dng mng nron chng ta phi phn bit hai giai on: giai on m ha trong mng nron c hc trn cc mu d liu hun luyn, thc hin mt nhim v no v giai on gii m trong mng c s dng phn lp, lm d bo hoc thc hin bt c nhim v hc no lin quan. C nhiu dng mng nron nhng v c bn c cc loi chnh sau: - Perceptrons - Mng lan truyn ngc (Back propagation networks) - Mng t t chc Konhonen (Kohonen self organizedmap)

19 Chng 3- XY DNG CHNG TRNH NG DNG KHAI PH D LIU T vn la chn chuyn ngnh ti trng i hc Phng ng 3.1. Gii thiu khai ph d liu trong gio dc. Cc nh nghin cu v vic khai ph d liu trong gio dc tp chung vo nhiu vn bao gm vic hc ca c nhn t phn mm gio dc, hc cng tc vi s gip ca my tnh, kim nghim kh nng thch ng vi my tnh, v nhiu nhn t c kt hp vi cc sinh vin khng c kh nng hoc thiu nh hng trong qu trnh hc tp. Mi lnh vc chnh ca vic ng dng khai ph d liu vo gio dc l pht trin cc m hnh hng i tng sinh vin. Cc m hnh sinh vin th hin thng tin v mt nt c trng hay tnh trng ca sinh vin, nh kin thc hin ti ca sinh vin, ng c thc y hc tp, quan im nguyn vng ca sinh vin, Vic ng dng khai ph d liu trong gio dc ng vai tr rt quan trng trong vic pht trin gio dc cng nh tr gip ng k cho cc hot ng gio dc. 3.2. Cc cng c s dng trong thit k chng trnh. 3.2.1. Phn mm m ngun m Weka. Weka c pht trin trng i hc Waikato v l tn vit tt ca Waikato Environment for Knowledge Analysis, h thng ny c vit bng ngn ng Java, chy trn bt k flatform no, c th nghim vi Linux v Windows, v h iu hnh Macintosh. N cung cp mt giao din thng nht vi nhiu thut ton khc nhau, cng vi cc phng php cho vic x l trc, x l sau v dnh cho vic nh gi kt qu ca cc s hc trn bt k tp d liu cho trc no. Giao din chnh ca phn mm weak:

18 Phng php ny s loi b mt s phn trn cy nhm ti thiu ho sai s d on. Ta cy sau tuy gy ra tn km v mt thi gian v b nh do to ra cc nt d tha nhng cy thu c sau khi ta thng t c chnh xc phn lp cao. V nhng l do trn, qu trnh thu gn cy thng c thc hin bng phng php ta cy sau. 2.5. Thut ton rt gn cc lut quyt nh. Sau khi sinh ra tp lut, cn phi rt gn cc lut v loi b nhng lut khng cn thit. Di y l phng php s dng php th thng k loi b cc lut khng cn thit: Loi b cc tin khng cn thit n gin ha cc lut. Xy dng cc bng ngu nhin (contingency table) cho mi lut cha nhiu hn mt tin . Kim chng s c lp ca kt qu i vi mt tin bng mt trong cc php th sau: S dng php chi bnh phng nu cc tun xut mong i ln hn 10. S dng php th Yates nu cc tn xut mong i trong khong [5,10]. S dng php th Fisher nu cc tn xut mong i nh hn 5. Loi b cc lut khng cn thit. 1.4.4. Gii thut di truyn.

11

Vic xy dng cc thut ton di truyn m phng sinh hc nhm tm ra cc gii php tt nht bao gm cc bc sau: 1. To ra c ch m di truyn di dng cc xu ca mt bng m k t hn ch. 2. Thit lp mi trng nhn to trn my tnh c cc gii php c th tham gia u tranh sinh tn vi nhau xc nh o thnh cng hay tht bi, hay cn gi l hm thch nghi. 3. Pht trin cc php lai ghp cc gii php kt hp vi nhau. Khi cc xu m di truyn ca gii php cha v m b ct i v xp li, trong qu trnh sinh sn nh vy cc kiu t bin c th c p dng. 4. Cung cp mt qun th cc gii php ban u tng i a dng v my tnh thc hin cuc chi tin ha bng cch loi b cc gii php t mi c th v thay th chng bng cc con chu hoc cc t bin ca cc gii php tt. Thut ton s kt thc khi mt h cc gii php thnh cng c sinh ra. Nh vy, vic p dng cc thut ton di truyn khng qu kh khn, tuy nhin im kh l to ra cng thc cho m di truyn tt v tm ra cc php t bin hiu qu. Chng 2- PHNG PHP KHAI PH D LIU BNG CY QUYT NH 2.1. Cy quyt nh. 2.1.1. Gii thiu. Gi s c mt bi ton t ra l phi phn loi cc cn bnh v cc triu chng bnh, chng ta c th gii quyt vn ny bng cc cch truyn thng nh thng k (Statistics) hoc my hc (Machine learning). Nhng ngy nay, vi lng d liu qu ln th cc phng php c c nhiu hn ch, khai ph

12 d liu c th gii quyt vn vi lng d liu khng l. Mt trong nhng k thut khai ph l phn loi (Classification), vi k thut ny chng ta phn tch d liu v sinh ra mt tp cc lut, cc lut ny c dng phn loi d liu mi (Future data). Phn loi gm tm ra cc lut hoc tm ra cy quyt nh s c trnh by trng tm trong lun vn ny. 2.1.2. Mt s khi nim c bn. Mt s khi nim khc lin quan n cy: Cha, con: mi nh ca cy l gc ca cc cy con ca chng, s cc cy con ca mt nh gi l bc ca nh . Nu nh b l gc ca mt cy con ca nh a th ta ni nh b l con ca nh a v a l cha ca b. Anh em: cc nh c cng mt cha c gi l anh em. L: cc nh c bc 0 c gi l l ca cy. ng i: mi dy cc nh a1, a2, , an (n 1), sao cho ai (i = 1, 2, , n-1) l cha ca ai+1 c gi l ng i t a1 n an. di ng i l n-1. Cnh: l ng i t nh mt cha n nh mt con. cao, mc: trong mt cy, cao ca mt nh a l di ca ng i di nht t a n mt l. cao ca gc c gi l cao ca cy, mc ca nh a l di ca ng i t gc n a. 2.1.3. u im ca cy quyt nh. So vi cc phng php khai ph d liu khc, cy quyt nh l phng php c mt s u im: Cy quyt nh d hiu. Ngi ta c th hiu m hnh cy quyt nh sau khi c gii thch ngn. Vic chun b d liu cho mt cy quyt nh l c bn hoc khng cn thit. Cc k thut khc

17 thuc tnh cng gim theo, nn s thu thp thng tin (Gain) s cao hn cc thuc tnh khc. V vy thuc tnh ny s c la chn thng xuyn tch, dn n phn nhnh ln, cy s rt ln v phc tp. Thuc tnh thiu gi tr: Nu gi tr ca thuc tnh A b mt trn mt s b d liu, hng gii quyt s th no ? Gi s rng (x, C(x)) l mt trong nhng tp hun luyn trong S v gi tr A(x) l khng c bit n. Gii php: - Thay bng gi tr xut hin nhiu nht ca thuc tnh A. - Thay bng gi tr xut hin nhiu nht ca thuc tnh A m c cng gi tr hm mc tiu. - Tnh li cc cng thc da trn nhng gi tr c ca thuc tnh A (loi cc gi tr b thiu, nu s lng cc gi tr b thiu khng nhiu). 2.3.4. Th d m phng thut ton C4.5. 2.4. Ct ta cy. 2.4.1. Phng php ta cy trc. Theo phng php ny, qu trnh ta cy c thc hin ngay trong khi dng cy. Ta s dng vic chia nh mt tp d liu nu vic phn chia ny khng em li hiu qu. xc nh c im dng, cn nh gi vic tch tp d liu theo mt tiu chun no nh gi tr thng tin (information gain), kh nng gim sai s, .. Nu kt qu nh gi nh hn mt ngng cho trc th dng qu trnh tch tp d liu v cy cho tp d liu ny ch l mt l. 2.4.2. Phng php ta cy sau. Khc vi phng php trn, qu trnh ta cy sau ch c thc hin khi c mt cy quyt nh hon chnh.

16
c

13

SplitInformation(S,A) = -
i 1

Si S

log 2

Si S

GainRatio: S nh gi thay i cc gi tr ca thuc tnh.

Gain( S , A) SplitInformation ( S , A) Tt c cc thuc tnh s c tnh ton o t l Gain, thuc tnh no c o t l Gain ln nht s c chn lm thuc tnh phn chia. 2.3.3. Mt s vn vi thuc tnh GainRation ( S , A)
Thuc tnh lin tc: Thut ton C4.5 a ra nh ngha nhng gi tr ri rc mi phn nhng gi tr lin tc thnh nhng thuc tnh tng trng mt ln na theo cc quy tc sau: Da trn mt gi tr nu mun phn chia nh phn. Da trn vi gi tr nu mun c nhiu nhnh. Vi mi gi tr tnh cc mu thuc mt lp theo dng A < v v A > v. Cch chn gi tr v hiu qu: + Sp xp cc gi tr tng dn. + Chn gi tr trung bnh ca tng cp gi tr ca thuc tnh phn chia v tnh ch s gain. + Chn gi tr phn chia c ch s gain cao nht Thuc tnh nhiu gi tr: Thuc tnh ID3 b gii hn bi vic lin quan n nhng thuc tnh c nhiu gi tr, m cc gi tr ny li duy nht. Khi , vic chia mt tp d liu thnh qu nhiu cc tp con dn n s lng cc lp ti mi nt gim v do Entropy trn

thng i hi chun ha d liu, cn to cc bin ph (dummy variable) v loi b cc gi tr rng. Cy quyt nh c th x l c d liu c gi tr bng s v d liu c gi tr l tn th loi. Cc k thut khc thng chuyn phn tch cc b d liu ch gm mt loi bin. Chng hn, cc lut quan h ch c th dng cho cc bin tn, trong khi mng n-ron ch c th dng cho cc bin c gi tr bng s. Cy quyt nh l mt m hnh hp trng. Mng n-ron l mt v d v m hnh hp en, do li gii thch cho kt qu qu phc tp c th hiu c. C th thm nh mt m hnh bng cc kim tra thng k. iu ny lm cho ta c th tin tng vo m hnh. 2.2. Thut ton ID3. 2.2.1. Gii thiu. Nh vy, nhim v ca gii thut ID3 l hc cy quyt nh t mt tp cc v d rn luyn (training example) hay cn gi l d liu rn luyn (training data). Hay ni khc hn, gii thut c: u vo: Mt tp hp cc v d. Mi v d bao gm cc thuc tnh m t mt tnh hung, hay mt i tng no , v mt gi tr phn loi ca n. u ra: Cy quyt nh c kh nng phn loi ng n cc v d trong tp d liu rn luyn, v hy vng l phn loi ng cho c cc v d cha gp trong tng lai. 2.2.2. Thut ton ID3 ID3 xy dng cy quyt nh (cy Q) theo cch t trn xung. Lu rng i vi bt k thuc tnh no, chng ta cng c th phn vng tp hp cc v d rn luyn thnh nhng tp con tch ri, m mi v d trong mt phn vng (partition)

14 c mt gi tr chung cho thuc tnh . ID3 chn mt thuc tnh kim tra ti nt hin ti ca cy v dng trc nghim ny phn vng tp hp cc v d; thut ton khi xy dng theo cch quy mt cy con cho tng phn vng. Vic ny tip tc cho n khi mi thnh vin ca phn vng u nm trong cng mt lp; lp tr thnh nt l ca cy. 2.2.3. Thuc tnh no l thuc tnh phn loi tt nht Entropy o tnh thun nht ca tp cc mu
n

15 kim ca ID3 rt t b nh hng bi mt vi d liu sai (hay d liu nhiu). Trong qu trnh tm kim, gii thut ID3 c xu hng chn cy quyt nh ngn hn l nhng cy quyt nh di. 2.2.6. nh gi hiu sut ca cy quyt nh. nh gi hiu sut ca mt cy quyt nh ngi ta thng s dng mt tp v d tch ri, tp ny khc vi tp d liu rn luyn, nh gi kh nng phn loi ca cy trn cc v d ca tp ny. Tp d liu ny gi l tp kim tra (validation set). Thng thng, tp d liu sn c s c chia thnh hai tp: tp rn luyn thng chim 2/3 s v d v tp kim tra chim 1/3. 2.3. Thut ton C4.5 2.3.1. Gii thiu C4.5 l s m rng ca gii thut ID3 trn mt s kha cnh sau: + Trong vic xy dng cy quyt nh, chng c th lin h vi tp hun luyn m c nhng records vi nhng gi tr thuc tnh khng c bit n bi vic nh gi vic thu thp thng tin hoc l t s thu thp thng tin , cho nhng thuc tnh bng vic xem xt ch nhng record m thuc tnh c nh ngha. + Trong vic xy dng cy quyt nh, gii thut C4.5 c th gii quyt tt i vi trng hp gi tr ca cc thuc tnh l gi tr thc. + Trong vic xy dng cy quyt inh, C4.5 c th gii quyt tt i vi trng hp thuc tnh c nhiu gi tr m mi gi tr ny li duy nht. 2.3.2. o s dng xc nh im chia tt nht. SplitInformation: Thng tin tim n c to ra bng cch chia tp d liu trong mt s tp con no .

Entropy(S) =

| s | log
i 1

pi

pi

Information Gain li ca lng thng tin thu c Gain(S,A) = Entropy(S) -

sv entropy (Sv ) v value(A) | s |

2.2.4. Th d m phng thut ton. 2.2.5. Tm kim khng gian gi thuyt trong ID3. T cch nhn ID3 nh l mt gii thut tm kim trong khng gian cc gi thuyt, ta c mt s nhn xt nh sau: Khng gian gi thuyt cc cy quyt nh ca ID3 l mt khng gian y cc cy quyt nh trn cc thuc tnh cho trong tp rn luyn. iu ny c ngha l khng gian m ID3 tm kim chc chn c cha cy quyt nh cn tm. Trong khi tm kim, ID3 ch duy tr mt gi thuyt hin ti. V vy, gii thut ny khng c kh nng biu din c tt c cc cy quyt nh khc nhau c kh nng phn loi ng d liu hin c. V ID3 s dng tt c cc v d mi bc a ra cc quyt nh da trn thng k, nn kt qu tm