You are on page 1of 5

Khong cch trong bi ton Clustering

Sch tham kho: Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2001. t vn : Hu nh tt c cc thut ton Clustering (d l dng !"ng neural ha# $h%ng& '(u c) s* d+ng $hi ni,! $hong cch- M+c '.ch c/a 0 i ging 01 2ung n # l cung cp nh3ng $hong cch (!etric& th4ng '5c dng trong Data Mining 6 cch th7c t.nh $hong cch $h%ng nh3ng 68i d3 li,u s9 ! c d3 li,u d"ng nh: ph;n< ha# r4i r"c (categor#&<--I. D liu cho bi ton clustering: 1. Ma trn ! li"u # ata matri$%: Ma trn np trong &' n l( s) l*+ng b, ! li"u #-b.ects / 0u1les / 2o3s% p l( s) l*+ng thu,c t4nh #5ttributes%. Ph6n t7 2#i<=% l( gi tr8 &, &o ! li"u tr9n thu,c t4nh = c:a b, ! li"u i. $11 $12.......$11 $21 $22.......$21 ...................... $n1 $n2........$n1 2. Ma trn khong cch # issimilarit; matri$%: Ma trn nn &' #i,.% &o khong cch gi!a b, ! li"u <( b, ! li"u .. 0
21

0 ........0

............
n1 n2

II. Cch tnh hong cch v!i cc lo"i # liu hc nh$u: 1. %i&u # liu s' #=umeric / >nter<al?scale %: 0r*@c khi t4nh khong cch &)i <@i ! li"u kiAu s) thB c6n chC D <E <Fn &E chuGn ho ! li"u sau cho chCng cHng m,t thang &o ! li"u. 0Bnh hu)ng thIc tJ n; sinh l( c' nhiEu tr*Kng #ha; thu,c t4nh% ! li"u c' kiAu s) nh*ng c' thang &o khc nhau. L4 M: trong b, ! li"u c' cc thu,c t4nh nh*: cNn nOng, chiEu cao, l*Png... &Eu l( cc ! li"u s) nh*ng rQ r(ng thang &o c:a chCng khc nhau #cNn t4nh theo kg, chiEu cao t4nh theo cm ha; m, l*Png t4nh theo &Pn <8 tri"u &Rng,....%. =Ju s7 Mng trIc tiJ1 nga; khong cch tr9n t1 ! li"u s) ch*a &*+c chuGn ho S gN; sai lTc <E &, &o, <4 M khong cch trUng l*+ng gi!a hai ng*Ki l( 10 kg &*+c coi l( l@n #cch $a nhau%, nh*ng khong cch l*Png 100 000 c' thA coi l( nhV #&)i <@i <t gi hi"n tTi%. =h*ng s) tu;"t &, 10 000 lTi l( Wu l@n so <@i 10. Xo &' cc ! li"u c6n &*+c chuGn ho <E cHng m,t Ythang bcZ. M,t 1h*Png 1h1 chuGn ho ! li"u &*+c tiJn h(nh nh* sau #&*a <E 1hNn b) chuGn%: ()!c *: 04nh &, l"ch tu;"t &)i trung bBnh sf: sf[1\n #] $1f?mf] ^ ]$2f?mf]^.....^]$nf?mf]% #hoOc &_i khi t4nh &, l"ch ti9u chuGn tha; cho sf%. 0rong &' mf l( gi tr8 trung bBnh c:a c,t f trong ma trn ! li"u: mf [ 1\n #$1f ^ $2f ^ ... ^ $nf% ()!c +: &*a <E ! li"u theo 1hNn b) chuGn #t4nh ,?score%: `if [ # $if ? mf% \ sf

ac khong cch #metric% th*Kng Hng: ^ Khong cch bucli ean: #i,.%[ Sc20 #]$i1 ? $.1]2 ^ ]$i2 ? $.2]2 ^.....^ ]$i1 ? $.1]2% ^ Khong cch bucli ean c' trUng s): Khi mdc &, khc bi"t c:a cc tr*Kng ! li"u khc nhau c' D nghea khc nhau. L4 M nJu b, ! li"u ghi lTi th_ng s) thA lIc c:a m,t <n &,ng <i9n b'ng rf thB rQ r(ng sI khc bi"t <E mOt chiEu cao c' thA c' D nghea hPn so <@i sI khc bi"t g cc tr*Kng khc <( o &' c' thA c' trUng s) l@n hPn.
3

#i,.%[ Sc20 #31 ]$i1 ? $.1]2 ^ 32 ]$i2 ? $.2]2 ^.....^ 31 ]$i1 ? $.1]2%

^ Khong cch Mahatan #ait;?block metric%: #i,.%[ ]$i1 ? $.1] ^ ]$i2 ? $.2] ^.....^ ]$i1 ? $.1] ^ Khong cch Minko3sk; #tfng Wut ho c:a khong cch bucli ean <( Mahatan%: #i,.%[ #]$i1 ? $.1]W ^ ]$i2 ? $.2]W ^.....^ ]$i1 ? $.1]W%1\W 2. D liu i&u nh- .h/n #hinar;%: 0r*Kng ! li"u nh8 1hNn c' thA nhn m,t trong hai gi tr8 0 ha; 1 #;es or no, nam ha; n!,...%. 0r*Kng h+1 thd nhFt kiAu nh8 1hNn &)i $dng. a' nghea l( <i"c nhn gi tr8 0 ha; 1 &Eu mang &Jn D nghea ngang nhau #cHng m,t trUng s)%. 0rong tr*Kng h+1 n(; khong cch &*+c t4nh nh* sau: #i,.%[ #r^s%\#W^r^s^t% 0rong &' W l( s) l*+ng tr*Kng nh8 1hNn bing 1 &)i <@i c i <( ., r l( s) l*+ng tr*Kng nh8 1hNn bing 1 &)i <@i i nh*ng bing 0 &)i <@i ., s l( s) l*+ng tr*Kng nh8 1hNn bing 0 &)i <@i i nh*ng bing 1 &)i <@i ., t l( s) l*+ng tr*Kng nh8 1hNn bing 0 &)i <@i c i <( .. 0r*Kng h+1 thd hai kiAu nh8 1hn bFt &)i $dng. a' nghea l( <i"c nhn gi tr8 0 ha; 1 c' D nghea khc nhau. L4 M nJu tr*Kng nh8 1hNn n(; biAu iSn

<i"c b"nh nhNn #thA hi"n trong b, ! li"u% c' b8 b"nh ung th* ha; kh_ngj rQ r(ng kh nkng b8 ung th* l( thF1 hPn nhiEu l6n so <@i kh_ng b8 ung th* #s) l*+ng ng*Ki b8 mlc ung th* chm chiJm ch*a &6; 10n Nn s) chong hTn%. Xo &' sI ki"n b8 ung th* #nhn gi tr8 1% l( sI ki"n hiJm c' $c suFt $; ra thF1 hPn nhiEu so <@i sI ki"n kh_ng b8 ung th* #nhn gi tr8 0%. Xo &' nJu hai b, ! li"u i <( . nJu g tr*Kng nh8 1hNn &' thB cO1 kh@1 #1,1% #cHng b8 b"nh% c' gi tr8 hPn rFt nhiEu so <@i #0,0% #cHng kh_ng b8 b"nh%. 0rong tr*Kng h+1 nh* <; thB c' thA Hng khong cch nh* sau #khong cch paccar %: #i,.%[#r^s%\#W^r^s% q. D liu lit 0 # =orminal <( -r inal%: 0r*Kng ! li"u li"t k9 l( tr*Kng c' thA nhn m,t s) h!u hTn cc gi tr8. L4 M Wu9 Wun [r h( n,i, h( tN;, <enh 1hCc s. KiAu ! li"u li"t k9 &*+c chia l(m hai loTi =orminal / khi thd tI so snh l( kh_ng c' D nghea <4 M thu,c t4nh aolor [ rre , blue, green, blacks, <( loTi -r inal khi tRn tTi m,t thd tI so snh n(o &' #trong &' ch: ;Ju l( cao?thF1, hPn?ktm theo nghea t*Png &)i chd kh_ng Wuan trUng gi tr8 tu;"t &)i #nghea l( kh_ng thA c,ng tru cc gi tr8 &' &*+c%%. L4 M 0rBnh &, [r &Ti hUc, cao hUc, tiJn sv s. a% Khong cch cho kiAu ! li"u =ominal: #i,.%[#1?m%\1 trong &' 1 l( tfng s) tr*Kng =ominal, m l( s) l*+ng cc tr*Kng nominal c' gia tr8 gi)ng nhau gi!a i <( .. b% Khong cch cho ! li"u -r inal: h*@c 1: w)i <@i mxi tr*Kng ! li"u $if c:a b, ! li"u i #l( kiAu ! li"u or inal% gi s7 kiAu ! li"u n(; c' thA 1hNn bc #ranking% tu 1 &Jn M f, ta tha; thJ $f bing cF1 bc c:a n' rif #<4 M nJu tr*Kng trBnh &, c' gi tr8 l( Yaao hUcZ ta tha; bing 2%.

h*@c 2: ahuGn ho cc gi tr8 <E khong y0..1z: `if[#r8?1%\#Mf?1% h*@c q: 04nh khong cch gi)ng nh* <@i kiAu s) #numeric%. {. 12n h3. cc i&u # liu #mi$e t;1e%: 0rong tr*Kng h+1 cc b, ! li"u c' cc tr*Kng ! li"u hxn h+1 #numeric, nominal, binar;%. h*@c 1: chuGn ho ! li"u <E khong y0...1z. h*@c 2: gi s7 t1 ! li"u chda 1 biJn kiAu hfn h+1. Khong cch: #i,.%[f[1..1 8.#f%
#f% i.

\ f[1...18.#f%

0rong &' 8.#f% [ 0 nJu #1% $if ha; $.f l( missing <alue hoOc #2% $ if[$.f[ 0 <( f l( biJn nh8 1hNn bFt &)i $dng| c}n kh_ng thB 8.#f% [ 1. kiAu ! li"u: =Ju f l( nh8 1hNn ha; nominal: =Ju f l( s):
#f% i. #f% i. i. #f%

&*+c t4nh tu~ <(o


#f% i.

[0 nJu $if[$.f| nJu kh_ng

[1.

[ ]$if ? $.f] \ #ma$ $hf?min $hf%. 0rong &' h chT; Wua chm

s) c:a to(n b, biJn #tr*Kng% f <@i $hf kh_ng 1hi l( missinng <alue. =Ju f l( or inal thB t4nh cF1 rif <( `if sau &' t4nh nh* &)i <@i kiAu s).

You might also like