Professional Documents
Culture Documents
K50 Vu Tien Thanh Thesis
K50 Vu Tien Thanh Thesis
V Tin Thnh
H NI 2009
I HC QUC GIA H NI
TRNG I HC CNG NGH
V Tin Thnh
H NI 2009
Li cm n
Li u tin, ti xin gi li cm n v lng bit n su sc nht ti Ph Gio s Tin
s H Quang Thy, Thc s Trn Th Oanh, C nhn Trn Mai V tn tnh hng dn
ti trong sut qu trnh thc hin kho lun tt nghip.
Ti chn thnh cm n cc thy, c to cho ti nhng iu kin thun li ti
hc tp v nghin cu ti trng i Hc Cng Ngh.
Ti cng xin gi li cm n ti cc anh ch v cc bn sinh vin trong nhm Khai
ph d liu gip ti rt nhiu trong vic thu thp v x l d liu.
Ti xin gi li cm n ti cc bn trong lp K50CA v K50CHTTT ng h
khuyn khch ti trong sut qu trnh hc tp ti trng.
Cui cng, ti mun c gi li cm n v hn ti gia nh v bn b, nhng
ngi thn yu lun bn cnh v ng vin ti trong sut qu trnh thc hin kha lun tt
nghip.
Sinh vin
V Tin Thnh
Tm tt ni dung
Trch xut thng tin t d liu bn cu trc l mt bi ton c s quan tm ti
nhiu hi ngh ln trn th gii [9],[10],[12],[13]. Bi ton ny l mt thnh phn khng
th thiu trong cc ng dng v thu thp v trch xut thng tin hin nay. Mt trong
nhng ng dng l trch xut thng tin ca sn phm t cc trang thng mi in t
xy dng h thng tm kim gi c, nhm cung cp thng tin tt nht n ngi tiu
dng.
Kha lun ny tp trung nghin cu bi ton trch xut thng tin t d liu bn cu
trc v p dng xy dng h thng tm kim gi c sn phm. Kha lun xc nh mt
tp lut trch xut gi c gii bi ton trch xut gi khi cho bit tn sn phm v trn
c s , bi ton t ng trch xut thng tin v tn v gi ca sn phm c gii quyt.
Kha lun a ra cc bc xy dng h thng tm kim gi cho sn phm trn cc trang
web ting Vit. Kha lun tin hnh cc thc nghim v nh gi kt qu. Kt qu
thc nghim cho thy cc thng tin c trch xut t h thng l c tin cy.
Mc lc
Tm tt ni dung .................................................................................................................i
Mc lc ................................................................................................................................ii
Bng cc k hiu v ch vit tt.........................................................................................v
Danh sch cc hnh ............................................................................................................vi
Danh sch bng biu ...................................................................................................... viii
Gii thiu .............................................................................................................................1
Chng 1. Khi qut bi ton trch xut thng tin cho d liu bn cu trc ..............3
1.1 Bi ton trch xut thng tin .......................................................................................3
1.1.1 Gii thiu bi ton................................................................................................3
1.1.2 D liu ca bi ton .............................................................................................3
1.1.3 Cc hng tip cn trong bi ton trch xut thng tin........................................4
1.2 Bi ton trch xut thng tin cho d liu bn cu trc................................................6
1.2.1 Vn t ra vi bi ton ....................................................................................6
1.2.2 Mt s phng php trch xut thng tin cho d liu bn cu trc .....................6
1.2.3 Phng php nh gi..........................................................................................7
1.2.4 ng dng ca bi ton trch xut thng tin cho d liu bn cu trc ..................8
Chng 2. Mt s phng php s dng trong bi ton trch xut thng tin cho d
liu bn cu trc ...............................................................................................................10
2.1 Trch xut thng tin da vo cy DOM....................................................................10
2.1.1 Khi nhim cy DOM ........................................................................................10
2.1.2 Xy dng cy DOM ...........................................................................................11
2.1.3 S dng cy DOM trch xut thng tin .........................................................12
2.2 Trch xut thng tin da theo cc mu biu thc chnh qui .....................................13
ii
iii
iv
Din gii
HTML
URL
XPath
XML Path
W3C
vi
Hnh 25. Module Thu thp d liu v trch xut thng tin.................................................40
Hnh 26. Trch xut cc URL lin quan .............................................................................45
Hnh 27. Trang Web c s nhp nhng gi c ...................................................................48
Hnh 28. Trang Web c gi c r rng ...............................................................................49
vii
viii
Gii thiu
Nhng nm gn y, cng vi s pht trin mnh m ca h tng c s mng cng
nh cng ngh lu tr Internet tr thnh mt thnh phn khng th thiu trong i
sng con ngi. Hng lot cc ng dng da trn nn tng ca Internet ra i phc
v cho nhu cu, li ch ca con ngi. Ni bt ln trong cc ng dng chnh l cc ng
dng lin quan n thng mi in t. Thng mi in t ra i gip con ngi gim
thiu ti a thi gian cng nh chi ph khi tham gia giao dch hng ha.Tuy nhin cng
vi s pht trin ca thng tin trn Internet th cc thng tin lin quan n thng mi
in t cng bng n khng km, hng lot cc trang web bn hng trc tuyn cng vi
n l hng triu sn phm v cc thng tin lin quan n sn phm lm cho con ngi kh
khn trong vic tm kim. Cc cu hi: Sn phm no tt ? Gi c ca hng no tt hn ?
Tm kim thng tin ca sn phm u ?... lm con ngi kh khn khi la chn mt sn
phm cn giao dch. Gii php cho vn ny chnh l cn c mt h thng tm kim
phc v cho nhu cu tm kim ny ca con ngi cc h thng ny thng c bit n
vi tn gi h thng tm kim gi c sn phm.
Chnh t nhu cu thc t y, h thng tm kim gi c c s quan tm ca rt
nhiu cng ty ln nh Yahoo, Google, Amazonbn cnh n cng c s quan tm
ca cng ng nghin cu khoa hc. Nhiu bi bo lin quan n cc thnh phn ca h
thng cng xut hin trn nhiu hi ngh ln ca th gii nh: WWW1,
SIGMOD2,[1],[3],[7] hay cc sn phm mang tnh thng mi nh: PriceScan, Kelkoo,
Yahoo!Shopping... Mc d tn ti kh nhiu cc h thng nh vy nhng bi ton ny
vn t ra rt nhiu cc thch thc hin nay. Do cc h thng c sn hu ht thu thp d
liu u thng qua vic cung cp ca cc ca hng hay nhp d liu thu cng, cng vic
ny tn nhiu chi ph v thi gian. Nhiu nghin cu c a ra gim thiu chi ph
ny, hu ht cc nghin cu u tp trung vo vic p dng cc phng php trch xut t
ng da vo d liu bn cu trc xy dng cc thnh phn thu thp t ng thng tin
trn cc trang web bn hng trc tuyn.
Trn c s cc nghin cu c, lun vn cng da trn nh hng xy dng
thnh phn trch xut thng tin t ng da vo trch xut thng tin trn d liu bn cu
1
2
Cu trc HTML
ging nhau
D liu c cu trc
i vi d liu c cu trc, vic trch xut thng tin l kh n gin. V cc thng
tin c biu din theo nhng nh dng chun ca bng, thc th.. nn c th ly
c nhng thng tin cn thit mt cc d dng da vo nhng truy vn.
V d: d liu c cu trc c lu tr trong h qun tr c s d liu MS SQL,
MySQL c th trch xut c nhng thng tin cn thit da vo cc lnh SQL nh
SELECT, JOIN.
D liu khng cu trc
i vi d liu khng cu trc th c mt s bi ton v trch xut thng tin nh
nhn dng v trch xut thc th: tn ngi, tn t chc
Mt v d ca trch xut thc th:
gii quyt bi ton trch xut thc th th c nhiu cch tip cn nh HMM,
SVM hay CRFngoi ra cn mt gii thut kh ni ting l gii thut DIPRE - Dual
Iterative Pattern Relation Expansion ca BRin [8] trong vic trch xut cp thc th quan
h tn sch v tc gi i vi trang amazon.com.
D liu bn cu trc
Web l d liu in hnh trong d liu bn cu trc. Trch xut thng tin web l
vn trch xut cc thnh phn thng tin mc tiu t nhng trang Web. Mt chng
trnh hay mt lut trch xut thng c gi l mt wrapper [2].
Phng php trch xut ny c nhiu hng tip cn nh s dng cy DOM[15].
Phng php ny s phn tch m ngun HTML di dng mt cy cc node, mi node l
mt th HTML, qu trnh trch xut thng tin s da vo ng i t gc n node cha
thng tin cn trch xut.
1.2.2 Mt s phng php trch xut thng tin cho d liu bn cu trc
Nh ta ni v mt s hng tip cn mc 1.1.3 i vi d liu bn cu trc th
bi ton trch xut c mt s phng php in hnh nh:
Phng php th cng
Quan st mt trang Web v m ngun ca n, ngi lp trnh s tm mt vi mu v
vit chng trnh trch xut cc d liu mc tiu. lm n gin hn cho ngi lp
trnh, mt vi ngn ng miu t mu v cc giao din ngi dng c xy dng. Tuy
nhin vi phng php ny th khng th lm vic vi mt s lng ln cc trang[2].
Wrapper qui np
y l phng php bn t ng. N c xut vo khong nm 1995-1996.
Trong phng php ny th mt tp hp cc lut trch xut c hc t mt b cc trang
c gn nhn bng tay. Sau cc lut ny s c dng trch xut cc thnh phn
d liu t nhng trang c nh dng tng t. Mt s gii thut tiu biu nh: Stalker[5],
WIEN[13] (c s dng trong my tm kim lycos).
Phng php t ng
c xut trong nm 1998, phng php ny t ng tm cc mu hoc cc cu
trc trch xut thng tin t nhng trang cho trc. V phng php ny khng cn n
s gn nhn bng tay nn n c th trch xut c d liu t mt lng khng l cc
trang; mt s gii thut tiu biu nh RoadRunner[12], bootstrapping[1].
q
n
q
m
x 100
x 100
(1)
%
%
(2)
V d:
Nu tp d liu cn trch xut l 100 (ti liu).
D liu trch xut c l: 97 (ti liu).
D liu trch xut ng l: 90 (ti liu) .
R
90
100
90
97
x 100
x 100
%
%
= 90 %
= 92,78 %
1.2.4 ng dng ca bi ton trch xut thng tin cho d liu bn cu trc
Nhn dng v trch xut ni dung chnh ca trang Web
Vi mt trang web ngoi nhng thnh phn mang thng tin chnh th cn nhng
thnh phn t c ngha v mt thng tin nh qung co, cc menu.... Vic nhn dng v
trch xut ni dung chnh ca trang web gip gim thiu vic lu tr thng tin v ti u
kt qu tr v trong cc my tm kim v my tm kim ch phi lu ni dung chnh ca
trang web v tm kim trong ni dung chnh ny. Cc gii thut c xut nh
ContentExtractor v FeatureExtractor ca Debnath[9],[10].
Ni dung chnh
<TR>
<TD>Shady Grove</TD>
<TD>Aeolian</TD>
</TR>
<TR>
<TD>Over the River,
Charlie</TD>
<TD>Dorian</TD>
</TR>
</TBODY>
</TABLE>
10
Thay v phn tch m HTML sa li, c th s dng s biu din hoc cc thng
tin o (v d nh: a ch trn mn hnh m cc th c biu din) suy lun mi quan
h c cu trc ca cc th v c th xy dng c cy DOM. Phng thc xy dng c
th phn tch m HTML thnh cy DOM, min l trnh duyt c th hin th c on
m mt cch chnh xc.
Trong mt trnh duyt web, mi phn t HTML (cha ng mt th m, cc thuc
tnh ty chn, ni dung HTML c nhng ty v mt th ng, th ny c th thiu)
c biu din nh mt hnh ch nht. Thng tin o ny c th ly c sau khi m
11
12
V d :
y l cy DOM ca mt on m HTML cha thng tin v cun sch, gm tn
cun sch (title) v tn tc gi (author). Bi ton t ra l s dng cy DOM ny trch
xut cc thng tin v tn sch v tc gi vit sch. Mu trch xut c xy dng sau:
Element
HEADER
BODY
Age of Spiritual
Machines
Character-Data
FONT
Ray
Kurzwei
2.2 Trch xut thng tin da theo cc mu biu thc chnh qui
2.2.1 Khi nim biu thc chnh qui
Mt biu thc chnh qui c th c s dng m hnh m ha HTML [2]. Cho
mt tp cc k t alphabe v mt token #text khng thuc , mt biu thc chnh qui
trn l mt chui trn {#text, *,?,|,(,)} c nh ngha nh sau :
13
2.2.2 S dng biu thc chnh qui trch xut thng tin
Vi mt biu thc chnh qui, mt otomat hu hn trng thi c th c xy dng
v c s dng so khp s xut hin ca n trong chui tun t cc trang web. Trong
qu trnh ny, d liu c th c trch xut.
V d: Vi m HTML nh sau:
<head>
<meta http-equiv="Content-Language" content="en-us">
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title>Tinh Tong cua cac so tu 1->n</title>
</head>
ly c phn tiu ca on m ny th ta c th xy dng biu thc chnh qui
nh sau: <head>.*?<title>(#text)</title>
2.3 Mt s gii thut trch xut thng tin cho d liu bn cu trc
2.3.1 Hai kiu biu din ca cc trang giu d liu
Cc trang giu d liu c chia thnh hai loi thng qua s biu din ca chng[2]
- List Page: l trang cha ng mt vi danh sch ca cc i tng. Hnh 8 gii
thiu mt list page. C hai dng trang list, l trang list b tr theo chiu ngang
14
hoc chiu dc. Bn trong mi vng, bn ghi d liu c nh dng s dng cng
mt mu v mu s dng trong hai vng khc nhau l khc nhau [2].
- Detail Page: l trang ch gii thiu mt i tng n. V d hnh 9 l mt trang
detail page gii thiu v sn phm . N cha ng tt c cc thuc tnh ca sn phm
nh: tn, nh, gi, thng s k thut, thi gian bo hnh [2] .
15
16
Vi mi node trong cy, Wrapper nhn dng hoc trch xut ni dung ca node t
cha ca n, node cha l node cha ng chui token ca tt c cc node con. Mi trch
xut c thc hin bi 2 lut, Start Rule v End Rule. Start Rule ch ra s bt u ca
node v End Rule ch ra s kt thc ca node. Phng thc ny c th p dng cho c
node l v cc node danh sch (list node).
Cc lut trch xut da trn tng ca m neo (landmark). Mi m neo l mt
chui cc token lin tip v n dng nh du s bt u hay kt thc ca mt phn t
mc tiu. Hnh di y l trnh din m HTML ca trang web trong hnh 10.
<p> Restaurant Name: <b>Good Noodles</b><br><br>
<li> 205 Willow, <i>Glen</i>, Phone 1-<i>773</i>-366-1987</li>
<li> 25 Oak, <i>Forest</i>, Phone (800) 234-7903 </li>
<li> 324 Halsted St., <i>Chicago</i>, Phone 1-<i>800</i>-996-5023 </li>
<li> 700 Lake St., <i>Oak Park</i>, Phone: (708) 798-0008 </li> </p>
trch xut c tn ca qun n Good Noodles th lut trch xut s l:
Start Rule: R1: SkipTo(<b>) tc l h thng nn xut pht im bt u ca trang
v b qua tt c cc token cho n khi chng thy c th <b> u tin. Cc lut
SkipTo(:) hoc SkipTo(i) khng ng. V theo cy EC trong hnh 10 R1 l cha ca
node name, nh vy n s l node gc. Node gc th cha chui token tun t ca c
trang Web.
Tng t End Rule : R2: SkipTo (</b>) s xc nh c im kt thc tn ca
qun n.
- Qu trnh hc lut
Trong h thng Wrapper qui np qu trnh hc l mt qu trnh ch o.
Kha lun ny s trnh by gii thut hc ca wrapper sinh ra cc lut trch xut.
tng c bn ca gii thut hc lut nh sau:
sinh ra Start Rule cho mt node ca cy EC, mt vi token tin t hay cc i
din ca node c nhn dng nh cc m neo, chng c th nhn dng n nht s bt
u ca mt node. sinh ra End Rule cho mt node, mt vi token hu t hay cc i
17
din ca node c nhn dng nh mt m neo. Tin trnh sinh Start Rule v End Rule l
ging nhau.
Cho trc mt tp cc mu hun luyn c gn nhn, gii thut hc s sinh ra
cc lut trch xut tng quan trch xut tt c cc phn t mc tiu (positive items) m
khng trch xut cc phn t khc (nagertive items).
Sau qu trnh ny th mt wrapper c sinh ra , n s c p dng cho cc
trang web khc cha ng cc d liu tng t v c nh dng cng mt cch vi tp
mu hun luyn.
- u im v nhc im
u im:
Ngi s dng ch phi gn nhn mt lng nh cc d liu mu.Qu trnh hc l
qu trnh t ng sinh ra lut trch xut.
Nhc im:
Nu mt site thay i, lm sao wrapper bit c s thay i ?
Nu pht hin chnh xc c s thay i, lm sao t ng s wrapper?
V phng php ny ph thuc vo vic gn nhn bng tay nn n khng ph hp
cho trch xut mt lng ln cc trang. V d, nu mt trang kinh doanh sn phm mun
trch xut tt c cc cc sn phm c bn trn Web, vic gn nhn bng tay hu nh l
nhim v khng th. Vic duy tr wrapper l vic lm rt tn km, v web l mt mi
trng ng. Cc site th lun lun thay i.
Phng php trch xut t ng
hn ch nhc im ca Wrapper qui np, phng php trch xut t ng
c nghin cu rt nhiu. Vic trch xut t ng l hon ton c th bi v d liu trn
mt website thng c m ha vi mt s lng mu c nh. C th tm nhng khun
mu bng vic khai ph nhng mu lp li trong nhiu trang ca mt website.
Trong mt vi ng dng, chng ta cn trch xut d liu t cc trang detail-page, v
nhng trang ny cha nhiu thng tin hn. V d: trong mt trang list-page, thng tin ca
mi sn phm thng thng ch l tn, nh v gi. Tuy nhin nu ng dng cn nhng
thng tin miu t sn phm th chng ta cn trch xut t nhng trang detail.
18
Mt thut ton trch xut t ng kh tiu biu m c th trch xut c trang detail
v trang list l RoadRunner.
-
M t gii thut
19
20
21
Cc vn ca bi ton nu trn
Cc bi ton ny c xut xy dng nhng h thng tm kim gi c sn
phm, tuy nhin chng gp phi mt vn , l cc tn ca sn phm phi c cung
cp trc v cc trang kinh doanh sn phm phi xc nh r trn h thng.
Vit Nam hin nay cng c mt vi h thng kh tiu biu nh : Vatgia1, Aha2.
Tuy nhin hai h thng ny li xy dng theo cch tip cn th hai, nn phi ph thuc
nhiu vo cc nh kinh doanh.
T nhng nhn nh nu trn, kha lun ny s dng cch tip cn th ba xy
dng h thng v s gii quyt mt s tn ti mt s phng php xy dng h thng tm
kim gi c hin ti.
1
2
http://www.vatgia.com
http://www.aha. vn
23
24
3.3 C s khoa hc
Phn c s l thuyt s nu v gii quyt nhng bi ton c s xy dng h thng
tm kim gi c. Trong phn ny s tp trung vo hai bi ton chnh l bi ton v xc
nh gi thc ca mt sn phm v bi ton t ng trch xut thng tin v tn v gi
25
26
Tin t: Gi
Hu t: VN
27
6,559,000 VN
4,950,000 VN
13,999,000 VN
14,399,000 VN
28
Tin t loi tr
Gi khng ng
29
30
31
FirstRule: tin t ca gi
LastRule: Hu t ca gi
Format: nh dng ca gi
Trong khi xy dng c tp lut trch xut gi c, chng ti nhn thy: ngoi gi
c ca sn phm ngi s dng cn quan tm n nhng thuc tnh khc ca sn phm
nh: nh ca sn phm, thi gian bo hnh, thng tin khuyn mi Bn cnh cch t
chc tp lut vi gi c th p dng cho nhng thuc tnh ny.
Trn t tng chung ca phng php trch xut gi, tc l ly tn sn phm lm
neo xc nh gi thc ca sn phm bng cch xc nh gi gn nht vi sn phm.
Kha lun ny cng xy dng thnh cng cc lut trch xut cho nhng thuc
tnh trn:
-
32
33
M t bi ton
-
u ra: Cc website kinh doanh sn phm v cc mu trch xut thng tin v tn,
gi ca cc sn phm trong website .
Phng php gii quyt bi ton
Bc 1: Xc nh cc trang ln quan
34
Trang tin tc
Trang kinh
doanh sp
35
Trang kinh
doanh sp
36
37
38
39
Hnh 25. Module Thu thp d liu v trch xut thng tin
Sau khi xc nh c cc website v cc mu trch xut thng tin ca website, th
website ny s c thu thp d liu. Sau tp d liu thu thp ny s c qua module
trch xut thng tin ly cc thng tin v sn phm: tn sn phm v gi ca sn phm.
Cc thng tin ny s c cp nht vo c s d liu v sn phm, tn ca sn phm
s c dng m rng tp ht ging.
40
Ch s
CPU
RAM
768 MB
OS
B nh ngoi
40GB
Tn phn
mm
Tc gi
Ngun
Neko HTML
Phn phi
bi Apache
http://sourceforge.net/projects/ne
kohtml
eclipse-SDK3.4.1-win32
http://www.eclipse.org/download
s/
41
Vi cc cng c phn mm trn kha lun xy dng chng trnh thc thi
trch xut gi ca sn phm. Cu trc chng trnh c phn lm 3 gi (package) chnh
nh sau:
Crawler : chc nng chnh ca gi ny l thu thp d liu
GettingPattern: Chc nng ca gi ny l xc nh mu trch xut thng tin
v gi v tn sn phm ca mt trang web.
Extracting: chc nng ca gi ny l trch l xc nh cc website kinh
doanh v trch xut tn, gi sn phm trong website .
Chi tit cc lp ca 3 gi ny c m t theo bng 3 bn di.
42
Classes
Crawling
SEProcessing
StandardHTML
ParserHTML
GettingXPath
Xc nh tt c cc mu trch xut tr
n tn v gi sn phm.
ProcessingXPath
GettingWebsite
Crawler
GettingPattern
Extracting
Chc nng
43
44
URL
trch
xut
45
- http://www.raovatmienphi.com/canon-powershot-g10-gia-490-usd.html
o Product: canon powershot g10
- http://www.123mua.com.vn/xem?sp=RXGQRVfReX
o Product: canon powershot g10
Price:644 sd
- http://enbac.com/Ky-thuat-so/p167975/May-chup-hinh-Canon-PowerShotG10.html
o Product: my chp hnh canon powershot g10
Price:8.550.000vn
- http://www.megabuy.vn/?a=NEWS&news=DETA&hdn_news_id=10434
o Product: canon powershot g10
Price:665 usd
Kt qu thc nghim
Kha lun thc nghim trn tp cc sn phm: nokia 1200, lenovo thinkpad t61,
canon powershot g103; mi sn phm ny s thc nghim trn 3 trng hp tng ng
vi s lng 10, 30, 100 kt qu m google tr v. nh gi kt qu thc nghim kha
lun ny s dng o hi tng (R) v tin cy (P). Kt qu thc nghim c m
t theo bng sau:
46
Tn sn
phm
Nokia 1200
Lenovo
Thinkpad
t61
Canon
PowerShot
G10
Query
Nokia
1200 +
VN OR
USD
Lenovo
Thinkpad
t61 +
VN OR
USD
Canon
PowerSho
t G10 +
VN OR
USD
S
lng
Kt qu
kt
thc t
qu tr
ng
v bi
google
Kt
qu
trch
xut
c
Kt
qu
ng
Thi
gian
thc
thi
hi
tng
tin
cy
10
37,45
s
100%
100%
30
23
26
23
147,4
3s
100%
88,46%
100
68
70
67
407,1
7s
10
10
10
39,67s
90%
90%
30
23
25
22
125,2
5s
95,6%
88%
100
43
46
40
1200s
93,02%
86,95%
10
52,92s
100%
100%
30
19
21
18
100
45
50
44
263,3
3s
98,53 % 95,71 %
97,78%
88%
47
Nhn xt
Vi tt c cc kt qu t c th ta c th thy rng tin cy thp hn hi
tng. S d c kt qu nh vy bi v: C mt vi trng hp gi xut hin qu nhp
nhng.
V d:
48
49
nokia 1200
nokia 1202
Chn ngng l 3 th ta c.
50
Thi gian
chy
10
288,84s
www.vatgia.com
www.chodientu.vn
www.vinacms.vn
www.123mua.com.vn
www.vatgia.com
30
708s
www.chodientu.vn
www.vinacms.vn
www.enbac.com
www.123mua.com.vn
www.vatgia.com
www.chodientu.vn
www.vinacms.vn
100
3638.76s
www.enbac.com
www.quangcaosanpham.com
www.dienthoaididong.com.vn
www.aha.vn
www.trananh.vn
51
Nhn xt
Kt qu t c l kh quan. Trong cc website m h thng xc nh c th tt
c u l website kinh doanh sn phm.
Tng ng vi cc trng hp :
-
4.2.3 Thc nghim thu thp v trch xut thng tin t mt website
M t thc nghim
Mc ch ca thc nghim ny kim nghim phng php trch xut thng tin
sn phm nu bi ton t ng trch xut tn v gi ca sn phm trong muc 3.3.3.
Thc nghim ny cng gip nh gi c tnh chnh xc ca cc mu trch xut trong
thc nghim 4.3.2
- u vo : Website kinh doanh v cc mu trch xut tng ng vi wesite
thc nghim xc nh website kinh doanh.
- u ra : Tn sn phm v gi ca cc sn phm .
D liu s dng
Trong thc nghim ny chng ti s s dng 2 website trong thc nghim 2:
- www.dienthoaididong.com.vn
- www.trananh.vn
Hai website kinh doanh s c thu thp d liu, vi s lng 5000 ti liu trn mt
website v trch xut d liu t tp d liu ny da vo cc mu trch xut tng ng vi
tng website .
Kt qu t c
52
Kt qu trch xut c
www.dienthoaididong.com.vn
743 sn phm
www.trananh.vn
416 sn phm
Nhn xt
S lng sn phm trch xut c l kh nhiu. Trong s nhng sn phm trch
xut c th tt c nhng sn phm u chnh xc, iu cho thy phng php
trch xut thng tin ny chnh xc.
Tuy nhin trong 416 sn phm ca website www.trananh.vn th ch c cc sn phm
v in thoi di ng trong khi website ny cn c nhng sn phm v my vi tnh,
nguyn nhn ca kt qu ny l do sn phm trn tp ht ging u l tn ca cc loi
in thoi di ng v khun mu ca lnh vc in thoi v my tnh website ny l
khc nhau.
53
334 sn phm
Nhn xt:
Nhng sn phm trch xut c cng dn tri trn nhiu lnh vc nh tp ht ging.
V d mt s sn phm tiu biu nh:
Gi sn phm
1,530,000 vn
8.645.000 vn
8,029,000 vn
14.560.000 vn
575.000 vn
Kt qu ny cho thy kh nng thu thp thng tin trong h thng t hiu qu tt.
54
Kt lun
Kt qu t c ca kha lun ny
T vic nghin cu bi ton trch xut thng tin cho d liu bn cu trc, kha lun
a ra phng php t ng trch xut gi ca sn phm. Qua nhng kt qu thc
nghim t c cho thy tnh hu dng ca phng php ny.
V mt ni dung, kha lun t c nhng kt qu sau:
-
Gii thiu bi ton trch xut thng tin: Khi nim, min d liu v cc hng
tip cn ca bi ton
Thng qua c s l thuyt gii quyt bi ton trch xut thng tin gi sn
phm, kha lun xy dng c m hnh h thng tm kim gi c sn phm.
Xy dng c chng trnh thi hnh c bi ton trch xut thng tin gi
c sn phm trn ngn ng Java, mi trng Eclipse nh gi c m hnh
h thng xy dng.
Kha lun cha xy dng c giao din ngi dng v kt qu thc nghim
xc nh gi thc cha t chnh xc nh mong mun.
55
56
57
Ph lc
Ph lc 1: Danh sch mt s website c kho st c trng ca gi sn
phm
a ch website
www.amazon.com
www.jr.com
www.imobilecellphones.com
www.220depot.com
www.trananh.vn
www.vatgia.com
www.rongbay.com
www.vinabook.com
www.sieuthitrangsuc.com
www.aodaiminhthu.com
www.goodsmart.vn
58
59