You are on page 1of 59

Êө ө 

Chương 1.‘ g  tҳt Đӗ án: ...................................................................................... 1‘


Chương 2.‘ Nӝi dung đӗ án ..................................................................................... 3‘
2.1‘ Khai thác đӗ thӏ ............................................................................................ 3‘
2.1.1‘ Các phươ„ 3c khai thác đӗ thӏ con phә biӃn........................................ 4‘
2.1.1.1‘ Phươ„ pháp dӵa trên Apriori ........................................................... 6‘
2.1.1.2‘ Phươ„ 
„
 ........................................................ 10‘
2.1.1.3‘ So sánh các tính chҩt: ...................................................................... 19‘
2.1.2‘ Khai thác nhӳng u cҩu trúc con biӃn đәi và ràng buӝc ....................... 19‘
2.1.2.1‘ Khai thác trên đӗ thӏ phә biӃn đ ng ................................................. 19‘
2.1.2.2‘ Khai thác các u cҩu trúc con tuǤ chӑn ......................................... 21‘
2.1.2.3‘ Khai thác các cҩu trúc con ràng buӝc ............................................... 22‘
2.1.2.4‘ Khai thác các cҩu trúc con phә biӃn sҩp xӍ....................................... 22‘
2.1.2.5‘ Khai thác các cҩu trúc con liên kӃt chһt .......................................... 22‘
2.1.2.6‘ Khai thác các cҩu trúc con dҫy đһc .................................................. 23‘
2.1.3‘ Các 3ng dөng cӫa Khai thác đӗ thӏ: Lұp danh өc đӗ thӏ, tì kiӃ tươ„ 
ӵ, phân lӟp và go nh  ................................................................................. 25‘
2.1.3.1‘ Lұp danh өc đӗ thӏ ........................................................................ 26‘
2.1.3.2‘ gì kiӃ cҩu trúc tươ„ ӵ. ............................................................ 28‘
2.1.3.3‘ Phân lӟp đӗ thӏ ................................................................................ 30‘
2.1.3.4‘ Go nh  đӗ thӏ ............................................................................. 31‘
2.2‘ Phân tích ng xã hӝi ................................................................................ 31‘
2.2.1‘ Giӟi thiӋu chung vӅ Mng xã hӝi ........................................................... 31‘
2.2.2‘ Các đһc điӇ cӫa ng xã hӝi ............................................................... 33‘
2.2.2.1‘ Đӏnh luұt lũy thӯa ұt đӝ ................................................................ 33‘
2.2.2.2‘ Sӵ Co đưӡng kính ............................................................................ 34‘

i
2.2.2.3‘ Cҩp trong và cҩp ngoài c đuôi phân bӕ nh ................................. 35‘
2.2.2.4‘ Mô hình cháy lan ............................................................................. 36‘
2.2.3‘ Công viӋc và thách th3c cӫa khai thác liên kӃt ....................................... 36‘
2.2.3.1‘ Các công viӋc cӫa khai thác liên kӃt ................................................ 37‘
2.2.3.2‘ Các thách th3c cӫa khai thác liên kӃt ............................................... 38‘
2.2.4‘ Khai thác trên ng xã hӝi ..................................................................... 39‘
2.2.4.1‘ Dӵ đoán liên kӃt .............................................................................. 39‘
2.2.4.2‘ Khai thác ng khách hàng cho tiӃp thӏ lan truyӅn .......................... 39‘
2.2.4.3‘ Khai thác nh  thông tin................................................................. 41‘
2.2.4.4‘ Khai thác cӝng đӗng ........................................................................ 41‘
2.3‘ Khai thác dӳ liӋu đa quan hӋ ...................................................................... 43‘
2.3.1‘ Khai thác dӳ liӋu đa quan hӋ là gì? ......................................................... 43‘
2.3.2‘ giӃp cұn ILP đӇ phân lӟp đa quan hӋ...................................................... 45‘
2.3.2.1‘ FOIL: First-Order Inductive Learner ............................................... 46‘
2.3.3‘ Lan truyӅn theo bӝ ID ............................................................................ 46‘
2.3.4‘ Phân lӟp đa quan hӋ sӱ dөng lan truyӅn theo bӝ ID ............................... 48‘
2.3.5‘ Go nh  da quan hӋ vӟi hưӟng dn cӫa ngưӡi dùng ........................... 50‘
Chương 3.‘ Danh өc các tài liӋu tha khҧo......................................................... 54‘
Chương 4.‘ Phө Lөc. ............................................................................................. 55‘
Chương 5.‘ grҧ lӡi câu hӓi..................................................................................... 55‘

ii
Êө  ө „ҧ„
Hình 1: Ví dө các 3ng dөng cӫa đӗ thӏ ............................................................................. 4
Hình 2: Ví dө đӗ thӏ con .................................................................................................. 5
Hình 3: Ví dө vӅ đӗ thӏ con và đӝ hӛ trӧ .......................................................................... 5
Hình 4: Mô tҧ phương pháp dӵa trên Apriori ................................................................... 7
Hình 5: Mã giҧ cӫa giҧi thuұt AprioriGraph ..................................................................... 8
Hình 6: Ví dө cӫa giҧ thuұt AGM .................................................................................... 9
Hình 7: Ví dө cӫa giҧi thuұt FSG ..................................................................................... 9
Hình 8: Ví dө vӅ đӗ thӏ vӟi 3 đưӡng c cnh nӕi rӡi ...................................................... 10
Hình 9: Mã giҧ cӫa phương pháp PatternGrowthGraph. ................................................. 11
Hình 10: Ví dө vӅ đӗ thӏ trùng lҩp trong phương pháp PatternGrowth ........................... 12
Hình 11: Ví dө vӅ các cây DFS cӫa ӝt đӗ thӏ ............................................................... 13
Hình 12: Đưӡng đi phҧi nhҩt và đӍnh phҧi nhҩt .............................................................. 13
Hình 13: Mӣ rӝng vӅ bên phҧi. ...................................................................................... 14
Hình 14: Ví dө các ã DFS cӫa ӝt đӗ thӏ .................................................................... 15
Hình 15: Ví dө th3 tӵ to ã DFS theo cách duyӋt cây. ................................................. 15
Hình 16: Ví dө sҳp xӃp các ã DFS .............................................................................. 16
Hình 17: Ví dө vӅ tӍa cây c ã DFS không phҧi nhӓ nhҩt. ........................................... 16
Hình 18: Mã giҧ cӫa phương pháp gSpan....................................................................... 17
Hình 19: Ví dө là sch đӗ thӏ trong gSpan ................................................................... 18
Hình 20: Loi bӓ đӗ thӏ c ã DFS không phҧi là nhӓ nhҩt trong gSpan ....................... 18
Hình 21: Ví dө vӅ đӗ thӏ lӟn nhҩt và đӗ thӏ đ ng ............................................................ 20
Hình 22: Vҩn đӅ cӫa khai thác đӗ thӏ ............................................................................. 21
Hình 23: Ví dө vӅ cnh cҫu ............................................................................................ 23
Hình 24: Phân rã đӗ thӏ trong Patter-Reduction .............................................................. 25
Hình 25: Giao đӗ thӏ trong phương pháp Growth-Reduction .......................................... 25
Hình 26: gư tưӣng lұp danh өc đӗ thӏ.......................................................................... 26
Hình 27: Cơ sӣ dӳ liӋu đӗ thӏ đӇ lұp danh өc .............................................................. 27
Hình 28: Đӗ thӏ truy vҩn trong phương pháp lұp danh өc đӗ thӏ .................................. 27
Hình 29: Ví dө vӅ vҩn đӅ tì kiӃ các câu trúc tương tӵ ............................................... 29
Hình 30: gư tưӣng cӫa phương pháp tì kiӃ cҩu trúc tương tӵ ................................... 30
Hình 31: Các ví dө vӅ ng xã hӝi. ............................................................................... 32
Hình 32: Đӏnh luұt lũy thӯa ұt đӝ ................................................................................ 34

iii
Hình 33: Ví dө biӇu đӗ tăng trưӣng theo đӏnh luұt lũy thӯa ұt đӝ ................................ 34
Hình 34: Ví dө biӇu đӗ vӅ sӵ co đưӡng kính ng ........................................................ 35
Hình 35: Cҩp trong và cҩp ngoài c đuôi phân bӕ nh ................................................ 35
Hình 36: Ví dө vӅ tiӃp thi lan truyӅn .............................................................................. 40
Hình 37: Ví dө vӅ sӵ ng cӝng đӗng ........................................................................... 42
Hình 38: Ví dө vӅ cơ sӣ dӳ liӋu đa quan hӋ trong 3ng dөng ³Cho Vay´ ......................... 44
Hình 39: Ví dө vӅ bӝ đích và nhãn. ................................................................................ 45
Hình 40: Ví dө vӅ lan truyӅn bӝ ID. ............................................................................... 47
Hình 41: Ví dө lan truyӅn bӝ ID trong Ӭng dөng ³Cho Vay´ ......................................... 47
Hình 42: Qua trình bao phӫ các u dương trong phương pháp CrossMine ................... 49
Hình 43: Ví dө tì kiӃ vӏ tӯ cӫa phương pháp CrossMine .......................................... 50
Hình 44: Ví dө vӏ tӯ không phҧi là tӕt ............................................................................ 50
Hình 45: Ví dө ӕi quan hӋ cӫa quan hӋ đích vӟi các quan hӋ khác .............................. 51
Hình 46: Ví dө go nh  vӟi hưӟng dn cӫa ngưӡi dùng ............................................. 52
Hình 47: Các bưӟc tì các thuӝc tính thích hӧp ӣ các quan hӋ khác trong CrossClus .... 53

iv
p ‘ g à 

Đӗ thӏ biӇu thӏ cho ӝt lӟp cҩu trúc chung hơn là các bӝ, chuӛi, ҳt lưӟi và cây. Khai
thác đӗ thӏ thưӡng đưӧc sӱ dөng đӇ khai thác nhӳng u đӗ thӏ phә biӃn, và thӵc thi
sӵ phân tích nhӳng đһc điӇ, phân biӋt, phân lӟp và go nh  trên các bӝ dӳ liӋu đӗ
thӏ lӟn. Khai thác đӗ thӏ c ӝt phә trҧi rӝng cӫa các 3ng dөng trong tin hoc h a hӑc,
sinh tin hӑc, thӏ giác áy tính, lұp danh өc video, tì kiӃ văn bҧn, và phân tích
web.

Nhӳng phương th3c hiӋu quҧ đưӧc phát triӇn cho khai thác các cҩu trúc con phә biӃn.
Chúng c thӇ phân loi vào hai phương pháp là dӵa trên Apriori và dӵa trên Pattern-
Growth. Phương pháp dӵa trên Apriori dùng chiӃn lưӧc tì kiӃ theo chiӅu rӝng bӣi
n to ra các 3ng viên theo các 3c duyӋt cӫa n . Mӝt phương th3c Pattern-Growth
điӇn hình là gSpan, đưӧc ӣ rӝng đӇ thê vào các kӻ thuұt tӕi ưu trong Pattern-
Growth và đt đưӧc khҧ năng thӵc thi cao. Sӵ ӣ rӝng xa hơn cӫa gSpan cho viӋc khai
thác các u đӗ thӏ phә biӃn đ ng dn tӟi giҧi thuұt CloseGraph, là giҧi thuұt khai
thác ³nén´ hơn nhưng không phҧi khai thác toàn bӝ các u phә biӃn, vӟi ӝt đӝ hӛ
trӧ cho trưӟc. C nhiӅu u đӗ thӏ biӃn đәi ³thú vӏ´ bao gӗ: các đӗ thӏ phә biӃn sҩp
xӍ, đӗ thӏ liên kӃt chһt, đӗ thӏ dҫy đһc. Mӝt khung là viӋc chung à đưӧc xe như là
ӝt ràng buӝc là cҫn thiӃt cho nhӳng cҩu trúc như vұy. Hơn nӳa, c nhiӅu ràng khác
nhau đưӧc chӍ rõ bӣi ngưӡi dùng c thӇ đưӧc ³dì sâu´ vào viӋc xӱ lý các u đӗ thӏ
đӇ cҧi thiӋn hiӋu quҧ viӋc khai thác. Phái triӇn 3ng dөng cӫa khai thác đӗ thӏ c thӇ dn
tӟi viӋc to ra nhӳng cҩu trúc danh өc đӗ thӏ hiӋu quҧ và chһt chҿ sӱ dөng nhӳng u
đӗ thӏ phân biӋt và phә biӃn. gì kiӃ sӵ tương tӵ cҩu trúc c thӇ gһp sӵ bùng nә
theo cҩp sӕ nhân các thuӝc tính cӫa đӗ thӏ. Phân tích go nh  và phân lӟp cӫa các bӝ
dӳ liӋu đӗ thӏ c thӇ đưӧc khá phá bӣi sӵ giӳa chúng vӟi phương pháp khai thác u
đӗ thӏ.

Mӝt ng xã hӝi là ӝt bӝ dӳ liӋu hӛn hӧp và đa quan hӋ đưӧc biӇu diӉn bҵng ӝt đӗ
thӏ điӇn hình rҩt lӟn, vӟi nút tương 3ng vӟi đӕi tưӧng và liên kӃt (hoһc cnh) biӇu thӏ
ӕi quan hӋ giӳa các đӕi tưӧng. Mng xã hӝi nhӓ phҧn ҧnh khái niӋ cӫa thӃ giӟi nhӓ,
à đҫu tiên tұp trung vào ng giӳa nhӳng cá nhân đơn lҿ. Chúng c các đһc điӇ
như là giӳa hai nút luôn c ӝt đưӡng đi ngҳn (thưӡng là nhӓ hơn ӝt ngưӥng xác
đӏnh), c khҧ năng go nh  cao. Mng xã hӝi phô bày ӝt vài đһc điӇ nào đ .
Chúng c xu hưӟng tuân theo đӏnh luұt lũy thӯa ұt đӝ, th3 à biӇu thӏ ng trӣ nên

1
tăng lên ӝt cách dҫy đһc qua thӡi gian. Sӵ co đưӡng kính là ӝt đһc điӇ khác, nơi
à nhӳng đưӡng kính hiӋu quҧ thưӡng đưӧc giҧ xuӕng vӟi sӵ phát triӇn cӫa ng.
Đӝ trong và đӝ ngoài điӇn hình theo sau ӝt sӵ phân bӕ đuôi nh. Mӝt ô hình
³cháy lan´ cho sӵ to ra đӗ thӏ đưӧc đưa ra, n kӃt hӧp tҩt cҧ các đһc điӇ này. Khai
thác liên kӃt là ӝt sӵ hӧp lưu cӫa nghiên c3u trong ng xã hӝi, phân tích liên kӃt,
siêu văn bҧn và khai thác Web, khai thác đӗ thӏ, hӑc quan hӋ, và lұp trình lô gic quy
np. Công viӋc khai thác liên kӃt bao gӗ phân lӟp đӕi tưӧng dӵa trên liên kӃt, dӵa
đoán loi đӕi tưӧng, dӵ đoán tӗn ti liên kӃt, điӅu hòa đӕi tưӧng( dӵ đoán hai đӕi tưӧng
trong thӵc tӃ c giӕng nhau hay không) và phát hiӋn nh ( vӟi go nh  đӕi tưӧng).
Mӝt công viӋc khác bao gӗ xác đӏnh đӗ thӏ con( xác đӏnh các đһc điӇ cӫa dӗ thӏ con
trong ng) và khai thác siêu dӳ liӋu. grong dӵ đoán liên kӃt, đӝ đo cho sӵ phân tích
cho sӵ sҩp xӍ các nút ng c thӇ đưӧc sӱ dөng đӇ dӵ đoán và đưa ra hng cӫa liên
kӃt. Ví dө bao gӗ nhӳng đưӡng đi ngҳn nhҩt(đ là đánh giá hng cӫa nhӳng cұp nút
bҵng đưӡng đi ngҳn nhҩt trong ng) và nhӳng hàng x  chung( đ là sӕ lưӧng
nhӳng hàng x  à hai nút chia sҿ, và chҳn hҷn rҵng chúng là dng cӫa ӝt liên kӃt).
Mӝt đӝ đo khác c thӇ dӵa trên toàn bӝ các con đưӡng giӳa hai nút. Mӝt 3ng dөng cӫa
khai thác đӗ thӏ đ là tiӃp thӏ lan truyӅn. giӃp thӏ lan truyӅn á chӍ viӋc tӕi ưu h a ҧnh
hưӣng cӫa ³tӯ-cӫa-iӋng´ chӫ đӝng giӳa nhӳng khác hàng. Bҵng viӋc xe xét nhӳng
tương tác giӳa các khách hàng, n c thӇ đưӧc lӵa chӑn đӇ chi nhiӅu tiӅn hơn cho ӝt
cá nhân nӃu ngưӡi này c nhiӅu ӕi quan hӋ xác hӝi. Dng thҧo luұn cӫa nh  thông
tin là ӝt dng cӫa ng dӵa trên ӕi quan hӋ ³đáp li-đӃn´. Bӣi vì con ngưӡi điӇn
hình đáp li thưӡng xuyên hơn đӃn ӝt tin nhҳn khi hӑ không đӗng ý hơn là hӑ đӗng ý,
giҧi thuұt phân chia đӗ thӏ c thӇ đưӧc dùng đӇ khai thác nhӳng nh  thông tin dӵa
trên ӝt ng như vұy đӇ phân lӟp ӝt cách hiӋu quҧ các tác giҧ trong nh  thông tin
vào nhӳng phe đӕi lұp. Phҫn lӟn nhӳng phương th3c khai thác cӝng đӗng cho rҵng chӍ
c duy nhҩt ӝt loi quan hӋ trong ng, và hơn nӳa, kӃt quҧ khai thác không phө
thuӝc vào nhӳng thông tin à ngưӡi dùng cҫn. Nhӳng trong thӵc tӃ, c đa quan hӋ
giӳa các đӕi tưӧng, nhӳng th3 đưӧc thu lưӧ c dng ӝt ng xã hӝi đa quan hӋ.
Nhӳng chӑn lӑc và trích xuҩt quan hӋ trong nhӳng ng như vұy đánh giá sӵ quan
trӑng cưa nhӳng ӕi quan hӋ khác nhau vӟi ong uӕn tӯ nhӳng thông tin cung cҩp
bӣi ngưӡi dùng như là nhӳng truy vҩn. ghê vào đ , n tì kiӃ sӵ kӃt hӧp cӫa
nhӳng ӕi quan hӋ tӗn ti à c thӇ khá phá ra nhӳng cӝng đӗng ҭn trong ng đa
quan hӋ.

2
Phương th3c khai thác dӳ liӋu đa quan hӋ tì kiӃ nhӳng u à n bao gӗ nhiӅu
bҧng(ӛi bҧng là ӝt quan hӋ) tӯ cơ sӣ dӳ liӋu quan hӋ. Lұp trình logic quy np(ILP)
là ӝt trong nhӳng sӵ ӣ rӝng đươc dùng các loi cӫa các phương th3c phân lӟp đa
quan hӋ. N tì kiӃ các giҧ thiӃt cӫa ӝt đӏnh dng nào đ à c thӇ dӵ đoán nhãn
lӟp cӫa các bӝ đích, dӵa trên tri th3c nӅn. Mһc dù nhiӅu phương pháp ILP đc đưӧc sӵ
phân lӟp chính xác, hҫu hӃt chúng đӅu không c thӇ phát triӇn đưӧc bӣi vì sӵ ӣ rӝng
tính loan cӫa các liên kӃt lұp li. Sӵ lan truyӅn bӝ ID là ӝt phương th3c cho phép to
ra các liên kӃt ҧo giӳa nhӳng quan hӋ khác nhau bҵng sӵ thê bӝ ID cӫa nhӳng bӝ
đích vào nhӳng nhӳng quan hӋ không phҧi là đích. N tiêu tӕn ít chi phí hơn liên kӃt
vұt lý, cҧ vӅ thӡi gian ln không gian. CrossMine và CrossClus là nhӳng phương th3c
phân lӟp và go nh  đa quan hӋ. Cҧ hai sӱ dөng sӵ lan truyӅn bӝ ID đӇ tránh nhӳng
liên kӃt vұt lý. ghê vào đ , CrossClus dùng nhӳng gӧi ý cӫa ngưӡi dùng đӇ ràng
buӝc không gian tì kiӃ

p  ‘ Md  


‘ ×
   
Đӗ thӏ bҩt đҫu c sӵ quan trӑng lӟn dҫn trong nhӳng cҩu trúc c ô hình phưӟc tp,
như là các hӧp chҩt h a hӑc, cҩu trúc Protein, ng sinh vұt, ng xã hӝi, Web, Văn
bҧn XML, luӗng công viӋc, luӗng giao thông, kiӇ soát luӗng chương trình, ng lưӟi
điӋn«

Ví dө:

3
Hình 1: Ví dө các 3ng dөng cӫa đӗ thӏ
Khai thác đӗ thӏ là công viӋc đánh giá, phân tích dӵa trên nhӳng cҩu trúc con phә biӃn.
Các 3ng dөng cӫa khai thác đӗ thӏ như lҩy ra các đһc trưng cӫa các tұp hӧp đӗ thӏ, phân
biӋt các nh  khác nhau cӫa đӗ thӏ, phân lӟp và go nh  đӗ thӏ, xây dӵng chӍ өc
đӗ thӏ, V.v«.

‘ p  V   
    
 
Đҫu tiên ta sӁ giӟi thiӋu khái niӋ đӗ thӏ con: Cho hai đӗ thӏ G(V,E) và G1(V1,E1) ta
n đӗ thӏ G1 là con cӫa đӗ thӏ G nӃu ] V1 V và ]E1 E, vӟi ӑi cnh e=(i,j) thuӝc V
cӫa G, nӃu e thuӝc V1 thì i, j thuӝc E1.

Ví dө: Đӗ thӏ G1 là con cӫa đӗ thӏ G

4
Hình 2: Ví dө đӗ thӏ con
Cho ӝt bӝ đӝ thӏ đã đánh nhãn D ={ G1, G2, «., Gn}, chúng ta đӏnh nghĩa đӝ hӛ trӧ
cӫa g là phҫn tră nhӳng đӗ thӏ trong D, à g là đӗ thӏ con. Mӝt đӗ thӏ phә biӃn là ӝt
đӗ thӏ à đӝ hӛ trӧ cӫa n không thҩp hơn ngưӥng hӝ trӧ thҩp nhҩt.

Ví dө: Dưӟi đây là ví dө vӅ đӗ thӏ con cùng vӟi đӝ hӛ trӧ cӫa n , vӟi đӝ hӛ trӧ là sӕ lҫn
xuҩt hiӋn cӫa đӗ thӏ con trong các đӗ thӏ (1), (2), (3).

Hình 3: Ví dө vӅ đӗ thӏ con và đӝ hӛ trӧ


C hai phương pháp điӇn hình vӅ khai thác cҩu trúc con phә biӃn, ӛi phương pháp c
chiӃn lưӧc to ra các 3ng viên riêng khác nhau. Hai phương pháp đ là:

‡‘ Phương pháp dӵa trên Apriori , vӟi các giҧi thuұt to 3ng viên điӇn hình như là:

±‘ AGM

5
±‘ FSG

±‘ Nӕi liӅn đưӡng đi(path-join)

‡‘ Phương pháp pattern-growth, vӟi giҧi thuұt to 3ng viên điӇn hình như là:

±‘ gSpan

Đҫu tiên ta sӁ giӟi thiӋu phương pháp dӵa trên Apriori và các giҧi thuұt 3ng dөng cӫa
n .

6   ‘V „ „
 
Mӝt giҧi thuұt khai thác nhӳng câu trúc con phә biӃn dӵa trên Apriori chia sӁ nhӳng
đһc trưng vӟi giҧi thuұt khai thác bӝ hng өc phә biӃn dӵa trên Apriori. gì kiӃ đӗ
thӏ phә biӃn bҳt đҫu tӯ đӗ thӏ c kích thưӟc ³nhӓ´, và tiӃn lên tӯ đҩy đi lên ӝt cách
thӫ công bӣi các 3ng viên đưӧc to ra c nhӳng đӍnh, cnh, đưӡng dn ӣ rӝng. Đӏnh
nghĩa kích thưӟc cӫa đӗ thӏ phө thuӝc vào tӯng loi giҧi thuұt đưӧc sӱ dөng. ĐӇ à
xác đӏnh ӝt đӗ thӏ kích thưӟc k+1 c là phә biӃn hay không, n cҫn phҧi kiӇ tra tҩt
cҧ nhӳng đӗ thӏ con c kích thưӟc k phә biӃn à tương x3ng vӟi n đӇ đt đưӧc ӝt
cұn trên cӫa đӝ hӛ trӧ cӫa n .

Ví dө: Ӣ ví dө này thì trưӟc khi các đӗ thӏ K+1 cnh đưӧc to ra thì phҧi đҧ bҧo rҵng
các đӗ thӏ K cnh là nhӳng đӗ thӏ phә biӃn.

6
Hình 4: Mô tҧ phương pháp dӵa trên Apriori
Khung công viӋc cӫa phương th3c khai thác cҩu trúc con phә biӃn dӵa trên Apriori:

7
Hình 5: Mã giҧ cӫa giҧi thuұt AprioriGraph
Đây cũng đưӧc coi như là giҧi thuұt AprioriGraph. Sk là ӝt bӝ cҩu trúc con phә biӃn
vӟi kích thưӟc là k. Apriori thích hӧp vӟi ӝt phương th3c khai thác duyӋt theo 3c.
Ӣ ӛi vòng lұp, n dò tì ӝt cҩu trúc con phә biӃn ӟi và kích thưӟc đưӧc tăng lên
ӝt. Cҩu trúc ӟi đưӧc to ra đҫu tiên bӣi kӃt hӧp hai cái tương tӵ nhau nhӳng c ӝt
sӵ khác biӋt nhӓ ӣ đӗ thӏ con phә biӃn à đã đưӧc tì thҩy ӣ nhӳng lҫn gӑi trưӟc đ
tӟi AprioriGraph. ghӫ tөc to ra 3ng viên này đưӧc ô tҧ ӣ bưӟc 4 và sӵ phә biӃn cӫa
dng đӗ thì ӟi đưӧc đánh dҩu. Nhӳng sӵ tì thҩy à là phә biӃn thưӡng sӱ dөng đӇ
to ra nhӳng 3ng viên lӟn hơn trong nhӳng vòng kӃ tiӃp. Sau đây ta sӁ đi chi tiӃt vào
cái giҧi thuұt 3ng dөng PrioriGraph.

2.1.1.1.1‘Giҧi thuұt AGM


Giҧi thuұt AGM dùng cách to ra 3ng viên dӵa trên đӍnh là cho kích thưӟc cӫa cҩu
trúc con tăng lên ӝt ӣ ӛi vòng lұp cӫa AprioriGraph. Hai đӗ thӏ phә biӃn c cùng

8
kich thưӟc k sӁ đưӧc kӃt hӧp vӟi nhau nӃu như chúng c giӕng nhau ӣ đӗ thӏ con kích
thưӟc k-1, ӣ đây kích thưӟc đӗ thӏ la sӕ lưӧng đӍnh cӫa đӗ thӏ đ . Ӭng viên ӟi sӁ bao
gӗ đӗ thӏ con kích th3c k-1 giӕng nhau và cӝng thê hai đӍnh cӫa hai đӗ thi kich
thưӟc k, bӣi vì không thӇ xác đӏnh đưӧc c ӝt cnh nӕi giӳa hai đӍnh ӟi thê vào
hay không, nên ta c thӇ thê ӝt cnh nӕi hai đӍnh này. Sӕ đӍnh cӫa 3ng viên ӟi
luôn nhiӅu hơn ӝt đӍnh

Ví dө:

Hình 6: Ví dө cӫa giҧ thuұt AGM


2.1.1.1.2‘Giҧi thuұt FSG
Giҧi thuұt FSG thích hӧp vӟi chiӃn lưӧc to ra 3ng viên dӵa trên cnh, n sӁ là tăng
sӕ cnh lên ӝt ӣ ӛi lҫn gӑi hà AprioriGraph. Hai u c kích thưӟc k đưӧc kӃt
hӧp vӟi nhau nӃu và chӍ nӃu n c đӗ thӏ con k-1 cnh giӕng nhau, đӗ thӏ con này đưӧc
gӑi là nhân. Ӣ đây thì kích thưӟc cӫa đӗ thӏ là sӕ cnh. Ӭng viên dưӧc tao ra sӁ c k-1
cnh giӕng vӟi nhân và thê hai cnh cӫa hai u kích thưӟc k, do đ 3ng viên ӟi
luôn c nhiӅu hơn ӝt cnh
Ví dө:

Hình 7: Ví dө cӫa giҧi thuұt FSG


2.1.1.1.3‘Giҧi thuұt đưӡng c cnh nӕi rӡi
Các bưӟc cӫa giҧi thuұt:

9
±‘ Xây dӵng nhӳng đưӡng đi phә biӇn, là nhӳng đưӡng đi à c đӝ hӛ trӧ lӟn hơn
ngưӥng cho trưӟc.
±‘ gӯ nhӳng đương đi phә biӃn này xây dӵng đӗ thӏ vӟi hai đưӡng c cnh nӕi rӡi,
nghĩa là hai đưӡng này không chia sӁ bҩt kǤ cnh chung nào
±‘ giӃp tөc xây dӵng đӗ thӏ vӟi k+1 đưӡng c cnh nӕi rӡi tӯ đӗ thӏ c k đưӡng c
cnh nӕi rӡi
±‘ Lұp li cho tӟi khi nào hӃt đưӡng đi phә biӃn.

Ví dө:

Hình 8: Ví dө vӅ đӗ thӏ vӟi 3 đưӡng c cnh nӕi rӡi


6   6‘V „  „ 

Là phương pháp tì kiӃ cҩu trúc con phә biӃn sӱ dөng phương pháp tì kiӃ theo
chiӅu sau. Khung quy trình cӫa khai thác cҩu trúc con phә biӃn dӵa trên Pattern-
Growth:

10
Hình 9: Mã giҧ cӫa phương pháp PatternGrowthGraph.
Đây cũng đưӧc gӑi là PatternGrowthGraph. Mӛi ӝt lҫn khá phá đӗ thӏ G, n tiӃn
hành ӣ rӝng đӋ quy cho tӟi khi nào tҩt cҧ các đӗ thӏ phә biӃn vӟi G đưӧc nhúng vào
đưӧc tì thҩy. ĐӋ quy sӁ dӯng li nӃu như không c đӗ thӏ phә biӃn nào đưӧc to ra
nӳa.
PatternGrowthGraph đơn giҧn, nhưng không hiӋu quҧ. HiӋu 3ng thҳt cә chai sӁ là
cho n không hiӋu quҧ trong lúc ӣ rӝng. Các đӗ thӏ giӕng nhau c thӇ đưӧc tì thҩy
nhiӅu lҫn. Nhӳng đӗ thӏ này đưӧc gӑi là đӗ thӏ trùng lҩp. ĐiӅu này gây lãng phí không
gian tì kiӃ rҩt lӟn.
Ví dө:

11
Hình 10: Ví dө vӅ đӗ thӏ trùng lҩp trong phương pháp PatternGrowth
ĐӇ giҧ điӅu này cҫn phҧi ӣ rӝng ӝt cách ³bҧo toàn´ đӇ tránh viӋc to ra các đӗ thӏ
trùng lҩp. Dn tӟi viӋc ra đӡi các giҧi thuұt ӟi. ĐiӇn hình là gSpan:
±‘ ghiӃt kӃ đӇ giҧ viӋc to ra các đӗ thӏ trùng lҩp
±‘ Không cҫn phҧi tì kiӃ nhӳng đӗ thӏ đã khá phá ra là c trùng lҩp hay
không
±‘ Bҧo đҧ cho viӋc tì thҩy toàn bӝ đӗ thӏ phә biӃn.
Cách th3c hot đӝng:
±‘ Vӟi cách duyӋt đӗ thӏ, n thích 3ng vӟi tì kiӃ theo chiӅu sau.
±‘ Bҩt đҫu tӯ ӝt đӍnh bҩt kǤ, nhӳng đӍnh đã đi qua thì đưӧc đánh dҩu.
±‘ gұp đӍnh đi qua sӁ đưӧc ӣ rӝng cho tӟi khi ӝt cây tì kiӃ theo chiӅu sau
đҫy đӫ đưӧc xây dӵng.

Sâu đây là các khái niӋ liên quan tӟi phương pháp gSpan.

Mӝt đӗ thӏ sӁ c nhiӅu cây DFS(là cách th3c duyӋt đӗ thӏ theo DFS) khác nhau tùy
theo cách thӵc thi cӫa n , điӇn hình là tùy theo đӍnh xuҩt phát cӫa cách duyӋt. Mӝt đӗ
thӏ G đưӧc chӍ sӕ dưӟi(subscipt) bӣi cây DFS g thì g gӑi là chӍ sӕ dưӟi(subscripting )
DFS cӫa G. gùy theo sӕ lưӧng cây DFS cӫa đӗ thӏ à c nhiӅu chӍ sӕ dưӟi khác nhau.

Ví dө: grong ví dө dưӟi đây, đӗ thӏ a c ba cây DFS, đ là b, c và d. gùy theo đӍnh
xuҩt phát và các duyӋt à c nhӳng cây này.

12
Hình 11: Ví dө vӅ các cây DFS cӫa ӝt đӗ thӏ
PatternGrowthGraph ӣ rӝng ӝt đӗ thӏ phә biӃn trong ӑi trưӡng hӧp c thӇ, điӅu
này c thӇ to ra ӝt sӕ lưӧng lӟn các đӗ thӏ trùng lҩp. Giҧi thuұt gSpan đưa ra ӝt
phương pháp ӣ rӝng phưӟc tp hơn. Phương pháp ӟi này hn chӃ sӵ ӣ rӝng như
sau : Cho đӗ thӏ G và ӝt cây DFS g trong G, ӝt đӍnh ӟi c thӇ đưӧc thê vào giӳa
ӝt đӍnh phҧi nhҩt và ӝt đӍnh khác nҵ trên đưӡng đi phҧi nhҩt gӑi là ӣ rӝng vӅ
sau, hoһc n c thӇ giӟi thiӋu ӝt đӍnh ӟi và kӃt nӕi tӟi ӝt đӍnh nҵ trên đưӡng đi
phҧi nhҩt gӑi là ӣ rӝng vӅ trưӟc.

Ví dө vӅ đưӡng đi phҧi nhҩt và đӍnh bên phҧi nhҩt.

Hình 12: Đưӡng đi phҧi nhҩt và đӍnh phҧi nhҩt


Ví dө vӅ ӣ rӝng vӅ sau và ӣ rӝng tӟi trưӟc:

13
Hình 13: Mӣ rӝng vӅ bên phҧi.
Chúng ta chuyӇn đәi ӛi ӝt chӍ sӕ dưӟi cӫa đӗ thӏ đӃn ӝt chuӛi cnh, gӑi là ã
DFS( DFS code), và chúng ta c thӇ xây dӵng ӝt sӵ sҩp xӃp giӳa nhӳng chuӛi này.
Mөc tiêu đ là chӑn ra ӝt chӍ sӕ dưӟi à to ra chuӛi nhӓ nhҩt như là chӍ sӕ dưӟi cơ
sӣ cӫa chính n . Và chӍ sӕ dưӟi nhӓ nhҩt(cơ sӣ) hay còn gӑi là ã DFS nhӓ nhҩt này
sӁ đi diӋn cho đӗ thӏ đ , 3ng dөng điӅu này chúng ta c thӇ loi các đӗ thӏ giӕng nhau,
bҵng cách chӍ lҩy nhӳng đӗ thӏ c chӍ sӕ dưӟi nhӓ nhҩt. C hai sӵ sҩp xӃp cӫa quy trình
chuyӇn đәi này là:

±‘ Sҩp xӃp theo cnh, liên kӃt cnh trong ӝt chӍ sӕ dưӟi cӫa đӗ thӏ vào ӝt chuӛi
±‘ Sҩp xӃp chuӛi , xây dӵng ӝt sư sҩp xӃp giӳa dãy các cnh.

Ví dө: grong ví dө dưӟi đây gaa0, gaa1, gaa2 là các ã DFS đưӧc to ra tӯ
các chӍ sӕ dưӟi DFS cӫa ӝt đӗ thӏ, ӣ phҫn sau chúng ta sӁ đi tӟi ví dө sҩp xӃp các
chuӛi này đӇ chӑn ra ã DFS nhӓ nhҩt đӇ biӇu thӏ cho đӗ thӏ

14
Hình 14: Ví dө các ã DFS cӫa ӝt đӗ thӏ
ĐӇ xây dӵng ã DFS cӫa tӯng chӍ sӕ dưӟi DFS ta sӱ dөng phương pháp duyӋt cây
theo chiӅu sâu, khi duyӋt thì chúng ta ӣ rӝng vӅ sau trưӟc khi ӣ rӝn tӟi trưӟc. Ví dө
dưӟi đây sӁ chӍ rõ cách xây dӵng ã DFS tӯng bưӟc, theo cách duyӋt theo chiӅu sau

Ví dө: grong ví dө này chúng ta chú ý đánh sӕ th3 tӵ các đӍnh, và ӣ rӝng vӅ sau(cnh
e2) đưӧc thӵc hiӋn trưӟc ӣ rӝng tӟi trưӟc(cnh e3, cnh e5).

Hình 15: Ví dө th3 tӵ to ã DFS theo cách duyӋt cây.


grong vҩn đӅ ӝt đӗ thӏ c nhiӅu ã DFS khác nhau, thì ta sҳp xӃp các ã DFS theo
th3 tӵ tӵ điӇn DFS, dӵa trên các yӃu tӕ vӟi các đӝ ưu tiên giҧ dҫn như sau: 

±‘ gh3 tӵ duyӋt
±‘ Nhãn cӫa đӍnh đҫu
±‘ Nhãn cnh
±‘ Nhãn đӍnh cuӕi

Ví dө:

15
Hình 16: Ví dө sҳp xӃp các ã DFS
Dӵa trên sӵ sҩp xӃp th3 tӵ tӯ điӇn DFS, ã DFS nhӓ nhҩt đươc cho bӣi đӗ thӏ G, đưӧc
viӃt là dfs(G), là nhӓ nhҩt giӳa tҩt cҧ nhӳng ã. Mã DFS nhӓ nhҩt là chӍ sӕ dưӟi cơ sӣ
cӫa đӗ thӏ. Hai đӗ thӏ đҷng cҩu nӃu c chung ã DFS nhӓ nhҩt. NӃu trong quá trình ӣ
rӝng à ã DFS không phҧi nhӓ nhҩt thì chúng ta tӍa đi tӍa đi.

Ví dө: Ӣ ví dө này, ta thҩy c hai chӍ sӕ dưӟi giӕng nhau nhưng chӍ c ӝt ã DFS
nhӓ nhҩt, ta thҩy ã DFS cӫa chӍ sӕ dưӟi đҫu tiên nhӓ hơn ã DFS cӫa chӍ sӕ sau vì
theo th3 tӵ duyӋt đӍnh theo chiӅu sau thì ã DFS đҫu tiên đưӧc duyӋt trưӟc do đ n
nhӓ hơn, ta tiӃn hành tӍa đi ã DFS sau vì n không phҧi nhӓ nhҩt

Hình 17: Ví dө vӅ tӍa cây c ã DFS không phҧi nhӓ nhҩt.


Sau đây là thuұt giҧi tәng quát cӫa phương pháp gSpan:

16
Hình 18: Mã giҧ cӫa phương pháp gSpan.
gSpan ӣ rӝng u tӟi nhӳng con cháu phә biӃn tӟi khi đӝ hӛ trӧ cӫa n nhӓ hơn đӝ
hӛ trӧ nhӓ nhҩt hoһc ã cӫa n không phҧi là nhӓ nhҩt. Sӵ khác biӋt giӳa gSpan và
Pattern-Growth đ là ӣ sӵ ӣ rӝng bên phҧi nhҩt và sӵ chҩ d3t ӣ rӝng cӫa nhӳng
ã DFS không phҧi là nhӓ nhҩt. Giҧi thuұt ӣ trên là ӝt phiên bҧn tiӅ kiӃ theo
chiӅu sau cӫa gSpan.ghӵc tӃ, tiӅ kiӃ theo chiӅu rӝng cũng là viӋc như vұy: vӟi
ӛi đӗ thӏ phә biӃn con ӟi đưӧc tì thҩy ӣ dòng th3 8, thây vì gӑi trưӧc tiӃp gSpan,
chúng ta thê vào ӝt hàng đӧi Q toàn cөc, th3 à c thӇ lưu trӳ tҩt cҧ nhӳng đӗ thӏ
con à n không thӇ ӣ rӝng đưӧc nӳa. Rӗi chúng ta ³gSpan´ ӛi đӗ thӏ con trong Q.
Sӵ thӵc thi cӫa ӝt phiên bҧn cӫa tì kiӃ theo chiӅu rӝng cӫa gSpa rҩt gҫn vӟi tì
kiӃ theo chiӅu sâu, һc dù DFS tӕn ít bӝ nhӟ hơn.
Ví dө gSpan:

±‘ Cho bӝ dӳ liӋu đӗ thӏ (a) và đӝ hӛ trӧ bҵng 2


±‘ Bưӟc1: Là sch đӗ thӏ bҵng cách x a đi các cnh không thӓa ãn đӝ hӛ trӧ
(b)

17
Hình 19: Ví dө là sch đӗ thӏ trong gSpan
±‘ Step 2: gì tҩt cҧ các cnh đơn phә biӃn, là nhӳng cnh c đӝ hӛ trӧ lӟn hơn
hoһc bҵng 2

{(a_5,c_3),(a_6,c_1)} => (0,1,a,c)

{(b_2,c_3),(b_4,c_1)} => (0,1,b,c)

±‘ Sҩp xӃp đӗ thӏ và duyӋt theo chiӅu sau, tùy đӍnh bҳt đҫu à to ra các ã DFS
khác nhau, bҳt đҫu tӯ đӍnh a hoһc b
±‘ Mӣ rӝng dҫn bҵng các the các đӍnh vào, nӃu là đӗ thӏ con phә biӃn còn nӃu
không phҧi phә biӃn thì quay lui
±‘ gӍa nӃu không là nhӓ nhҩt

Hình 20: Loi bӓ đӗ thӏ c ã DFS không phҧi là nhӓ nhҩt trong gSpan
±‘ KӃt quҧ trҧ vӅ u (a,b,c) và thӵc thӇ.

18
6   Լ
„„L
Phương pháp dӵa Phương pháp
trên Priori Pattern-growth
gh3 tӵ tì kiӃ gheo chiӅu rӝng gheo chiӅu sâu
Cách th3c to 3ng viên Priori Phát triӇn u
Loi trӯ viӋc trùng lҩp đӗ thӏ con Bӏ đӝng Chӫ đӝng
gh3 tӵ phá triӇn u Đưӡng đi -> Cây Đưӡng đi -> Cây
-> Đӗ thӏ -> Đӗ thӏ

 ‘ ×
  -     
d 
Nhӳng loi đӗ thӏ con phә biӃn à chúng ta đã thҧo luұn thì chúng chӍ giӳ duy nhҩt
ӝt loi đһc biӋt cӫa nhӳng đӗ thӏ: đã đánh nhãn, vô hưӟng, nhӳng đӗ thӏ liên thông
đơn giҧn à không c bҩt kǤ ràng buӝc cө thӇ nào. Chúng ta cho rҵng dӳ liӋu đưӧc
khai thác ch3a đӵng ӝt bӝ các đӗ thӏ, ӛi bӝ bao gӗ ӝt bӝ các nhãn đӍnh và cnh
vô hưӟng, vӟi không c nhӳng ràng buӝc khác. guy nhiên, trong nhiӅu 3ng dөng hoһc
ngưӡi sӱ dөng c thӇ cҫn áp đһt nhӳng loi ràng buӝc khác nhau trên nhӳng u đưӧc
khai thác hay tì kiӃ nhӳng u cҩu trúc con biӃn đәi. Ví dө, chúng ta c thӇ khai
õ các u, ӛi ӝt cái đ ch3a đӵng ӝt cnh hoһc đӍnh cө thӇ nào đ , hoһc tәng
sӕ lưӧng cӫa đӍnh hoһc cnh nҵ trong ӝt iӅn cө thӇ. Hoһc cái gì nӃu chúng ta tì
kiӃ nhӳng u à bӅ dày trung bình cӫa nhӳng u đӗ thӏ phҧi trên ӝt cái ngưӥng
nào đ ? Mһc dù c thӇ đӇ phát triӇn ӝt giҧi thuұt tùy biӃn cho ӛi trưӡng hӧp như
vұy, c rҩt nhiӅu trưӡng hӧp biӃn đәi cҫn xe xét. ghây vào đ ӝt khung công viӋc
là ӝt sӵ cҫn thiӃt à c thӇ phân lӟp nhӳng ràng buӝc dӵa trên nhӳng u đӗ thӏ.
Nhӳng phương th3c dӵa trên ràng buӝc hiӋu quҧ c thӇ phát triӇn cho khai thác các
u cҩu trúc con và nhӳng biӃn đәi cӫa chúng. grong phҫn này, chúng ta nghiên c3u
ӝt vài u cҩu trúc con biӃn đәi và ràng buӝc và xe xét cách à chúng đưӧc khai
thác.

6  6 ‘× „‹  „„ 


Mӝt điӅu quan trӑng trong nhӳng cҩu trúc con phә biӃn đ là cҩu trúc con phә biӃn
đ ng. Bӣi vì khai thác trên các u đӗ thӏ c thӇ là bùng nә sӕ lưӧng lӟn các u.
Nhҩt là nhӳng bӝ dӳ liӋu dҫy đһc, bӣi vì tҩt cҧ nhӳng đӗ thӏ con cӫa đӗ thӏ phә biӃn là
phә biӃn, các đӗ thӏ con c thӇ đưӧc sinh ra theo quy luұt hà ũ. Ví dө:Giӳa 423 hӧp

19
chҩt h a hӑc đưӧc xác đӏnh trong ӝt bӝ dӳa liӋu chӑn lӑc kháng virut AIDS thì c
gҫn ӝt triӋu các u đӗ thӏ phә biӃn à c đӝ hӝ trӣ tӕi thiӇu là 5%. ĐiӅu này cho
thҩy rҵng viӋc phân tích xa hơn trên nhӳng đӗ thӏ phә biӃn là không thӇ. Do đ chӍ khai
thác trên đӗ thӏ phә biӃn đ ng. Đӗ thӏ G là đ ng khi và chӍ khi không c ӝt đӗ thӏ cha
G¶ nào c chung đӝ hӛ trӧ vӟi n . Ngoài ra chúng ta cũng c thӇ khai thác trên đӗ thӏ
lӟn nhҩt. Đӗ thӏ G là lӟn nhҩt khi và chӍ khi n không c bҩt kǤ ӝt đӗ thӏ cha phә
biӃn nào.

Ví dө:

Hình 21: Ví dө vӅ đӗ thӏ lӟn nhҩt và đӗ thӏ đ ng


Vҩn đӅ cӫa khai thác đӗ thӏ:

20
Hình 22: Vҩn đӅ cӫa khai thác đӗ thӏ
Ý tưӣng phương pháp CloseGraph:

NӃu G và G¶ phә biӃn, G là ӝt đӗ thӏ con cӫa G¶. NӃu trong bҩt kǤ phҫn nào cӫa đӗ
thӏ trong bӝ dӳ liӋu c G xuҩt hiӋn thì G¶ cũng xuҩt hiӋn, thì chúng ta không cҫn phát
triӇn G, bӣi vì không c con nào cӫa G là bao đ ng ngoi trӯ con cӫa G¶. Dӵa trên
nhӳng ý tưӣng này, giҧi thuұt CloseGraph đưӧc đӅ xuҩt, là ӝt giҧi thuұt gSpan đưӧc
ӣ rӝng đӇ khai thác trên nhӳng đӗ thӏ phә biӃn đ ng. Nhӳng thí nghiӋ cho thҩy
CloseGraph to ra ít u đӗ thӏ hơn và hiӋu quҧ hơn gSpan.Ví dө: grong bӝ dӳ liӋu
kháng thӇ vi rút HIV đã n i ӣ trên thì trong 1 triӋu đӗ thӏ phә biӃn thì chӍ c 2000 đӗ
thӏ là phә biӃn đ ng. Cho nên phân lӟp và go nh  trên đӗ thӏ phә biӃn đ ng sӁ đt
đưӧc sӵ chính xác và hiӋu quҧ cao hơn.

6  6 6‘× F’L’
„’ „
Các giҧi thuұt khai thác đӗ thӏ Pattern-growth điӇn hình như Closegraph hay gSpan, c
thӇ rҩt dӉ dàng ӣ rӝng cho khai thác các u cҩu trúc con tùy chӑn. Sau đây là ӝt
vài u tùy chӑn như vұy.

1)‘ Khai thác nhӳng đӗ thӏ không gҳn nhãn hoһc đưӧc gҳn nhãn ӝt phҫn
±‘ Xây dӵng ӝt bӝ nhãn ch3a đӵng nhӳng nhãn gӕc và nhӳng nhãn rӛng ij
±‘ ij c thӇ nӕi vӟi bҩt kǤ nhãn nào hoһc là chӍ vӟi ij
2)‘ Mӣ rӝng đӇ khai thác nhӳng đӗ thӏ không đơn, là đӗ thӏ c :
±‘ Cnh khuyên : ӝt cnh kӃt nӕi vӟi ӝt đӍnh bҵng chính n
±‘ Đa cnh : nhiӅu cnh cùng kӃt nӕi tӟi hai đӍnh giӕng nhau
±‘ Sӵ phát triӇn cӫa đӗ thӏ theo quy luұt cnh sau, cnh khuyên, cnh trưӟc
3)‘ Khai thác các đӗ thӏ c hưӟng

21
Vӟi loi đӗ thӏ này thì ta thê ӝt giá trӏ hưӟng cho ã DFS là +1 nӃu hưӟng tӯ
đӍnh i sang j và -1 nӃu hưӟng ngưӧc li.

4)‘ Khai thác đӗ thӏ không liên thông

grong thӵc tӃ thì đӗ thӏ trong bӝ dӳ liӋu c thӇ không liên thông. Do đ ta c thӇ
thê ӝt đӍnh ҧo đӇ kӃt nӕi nhӳng đӗ thӏ không liên thông trong ӛi đӗ thӏ, và sau
đ dùng các phương pháp ӣ trên đӇ khai thác

6  6 ‘× L’
„„ ’
C rҩt nhiӅu loi ràng buӝc khác nhau tùy vào nhӳng truy vҩn cӫa ngưӡi dùng, các loi
ràng buӝc thưӡng gһp là:

1)‘ ghành phҫn, bӝ, hoһc đӗ thӏ ch3a đӵng các ràng buӝc

Chúng ta c thӇ lҩy ӝt tұp hӧp nhӳng đӗ thӏ con đã cho như là ӝt truy vҩn, sau
đ thӵc thi viӋc chӑn lӵa đҫu tiên bҵng cách sӱ dөng các ràng buӝc, và rӗi khai thác
trên bӝ dӳ liӋu đã chӑn bҵng cách là tăng lên các u tӯ bӝ dӳ liӋu đӗ thӏ con đã
cho đ

2)‘ Ràng buӝc hình hӑc

G c giӳa ӛi cұp cnh phҧi nҵ trong ӝt khoҧng quy đӏnh

±‘ Vi dө: G c nhӓ nhҩt<= Các g c cӫa đӗ thӏ <= G c lӟn nhҩt


3)‘ Ràng buӝc tәng giá trӏ
±‘ Ví dө: gәng đӗ dài cӫa cnh phҧi nhӓ hơn ӝt giá trӏ đӏnh trưӟc nào đ

Mӝt đӗ thӏ truy vҩn c thӇ c đa ràng buӝc

6  6 ‘× L’
„ „L
Mӝt cách đӇ giҧ sô lưӧng các u đưӧc to ra đ là khai thác nhӳng cҩu trúc con phә
biӃn sâp xӍ, kӻ thuұt này cho phép chúng ta biӇu thӏ ӝt vài cҩu trúc con phә biӃn sai
khác ӝt ít bҵng ӝt cҩu trúc con sҩp xӍ duy nhҩt.

6  6 ‘× L’
„ „
Mӝt cҩu trúc con phә biӃn là ӝt đӗ thӏ liên kӃt chһt nӃu nhӳng thông tin qua li giӳa
G và ӛi ӝt đӗ thӏ con à n sӣ hӳu là trên ӝt vài ngưӥng nào đ . Sӕ lưӧng cӫa
nhӳng cҩu trúc con liên kӃt chһt nhӓ hơn sӕ lưӧng nhӳng cҩu trúc con phә biӃn. Do đ ,

22
khai thác nhӳng cҩu trúc con liên kӃt chһt c hiêu quҧ cҳt tӍa nhӳng u dư thӯa(
nhӳng u tương tӵ nhau và c chung ӝt đӝ hӛ trӧ).

6  6 ‘× L’
„
grong sӵ phân tích cӫa khai thác u đӗ thӏ, nhӳng nhà nghiên c3u đã tì thҩy rҵng c
tӗn ti ӝt loi cҩu trúc đӗ thӏ cө thӇ, gӑi là đӗ thӏ quan hӋ. Đ là loi đӗ thӏ:

±‘ Mӛi ӝt node đi diӋn cho ӝt thӵc thӇ riêng biӋt
±‘ Cnh biӇu thӏ ӕi quan hӋ giӳa nhӳng thӵc thӇ đ

Ví dө: grong ng sinh hӑc:

±‘ Nút biӇu thӏ cho gen, protein, enzye.


±‘ Cnh biêu thӏ cho các ӕi quan hӋ, như là kiӇ soát, tương tác, tương đương«

Mӝt u đһc biӋt à chúng ta quan tâ đ là nhӳng đӗ thӏ con liên thông nh phә
biӃn hoһc dày đһc. grong ng xã hӝi, loi u này giúp cho ta xác đӏnh nhӳng nh 
à ӣ đ con ngưӡi đưӧc kӃt hӧp ӝt cách nh Ӂ. grong sinh hӑc áy tính, ӝt đӗ
thӏ con liên thông nh c thӇ biӇu thӏ cho ӝt tұp hӧp gen trong cùng ӝt ô đun
ch3c năng, ví dө: ӝt tұp hӧp cӫa nhӳng gen đһc biӋt trong cùng ӝt quá trình. Mӝt
đӗ thӏ là liên thông nh nӃu và chӍ nӃu ӛi ӝt đӗ thӏ con liên thông cӫa n là liên
thông nh.

Cho ӝt đӗ thӏ G, ӝt cnh cҫu là ӝt tұp hӧp cӫa cnh Ec à E(G) ± Ec thғì sӁ không
còn liên thông nӳa.

Ví dө:

Hình 23: Ví dө vӅ cnh cҫu


Ӣ ví dө này e1 là ӝt cnh cҫu.

23
Mӝt Cҫu nhӓ nhҩt là ӝt tұp hӧp nhӓ nhҩt trong tҩt cҧ cnh cҫu. Cnh liên thông cӫa G
là kích thưӟc nhӓ nhҩt cӫa ӝt Cҫu nhӓ nhҩt. Mӝt đӗ thӏ là dҫy đһc nӃu sӕ cnh liên
thông cӫa n không ít hơn ӝt ngưӥng cҫu nhӓ nhҩt cө thӇ.

C hai phương pháp khai thác nhӳng đӗ thӏ quan hӋ dҫy đһc phә biӃn đ ng à thõa
ãn ӝt ràng buӝc liên thông đưӧc chӍ rõ bӣi ngưӡi dùng:

±‘ Dӵa trên phương pháp pattern-growth. Ví dө: CloseCut


±‘ Dӵa trên phương pháp pattern-reduction. Ví dө: Splat.

2.1.2.6.1‘Phương pháp pattern-growth


Bưӟc 1:gì ӝt đӗ thӏ 3ng viên phә biӃn nhӓ

±‘ X a đӍnh nӃu như đӝ cӫa đӍnh đ nhӓ hơn ràng buӝc liên thông, đӝ ӣ đây là sӕ
cnh nӕi vӟi đӍnh đ , ràng buӝc liên thông là đӝ nhӓ nhҩt à đӝ cӫa ӝt đӍnh
phҧi lӟn hơn
±‘ Phân rã n ra nhӳng đӗ thӏ con à thӓa ãn ràng buӝc liên thông
±‘ Dӯng phân rã khi đӗ thӏ con đã đưӧc đánh dҩu trưӟc đ

Bưӟc 2: Mӣ rӝng 3ng viên này bҵng cách thê cnh ӟi và đӍnh ӟi

Bưӟc 3: Lұp li.

2.1.2.6.2‘Phương pháp Pattern-Reduction


Bưӟc 1: Phân rã nhӳng đӗ thӏ quan hӋ theo nhӳng ràng buӝc liên thông

Ví dө:

24
Hình 24: Phân rã đӗ thӏ trong Patter-Reduction
Bưӟc 2: Giao chúng li vӟi nhau và phân rã ra các đӗ thӏ con kӃt quҧ

Hình 25: Giao đӗ thӏ trong phương pháp Growth-Reduction


‘ p  

    
     V 
  
C rҩt nhiӅu 3ng dөng thú vӏ cӫa viӋc tì kiӃ ra các u c cҩu trúc, nhӳng th3 này
bao gӗ xây dӵng chӍ өc đӗ thӏ trong ӝt cơ sӣ dӳ liӋu đӗ thӏ lӟn, trình diӉn nhӳng
kiӇu tì kiӃ tương tӵ trong nhӳng bӝ dӳ liӋu như vұy, xác đӏnh rõ cҩu trúc cӫa nhӳng
bӝ dӳ liӋu, phân lӟp và go nh  nhӳng cҩu trúc phưӟc tp.

25
6   ‘Y„ ‹ 
Lұp danh өc là ӝt điӅu quan trӑng cho viӋc xӱ lý tì kiӃ và truy vҩn ӝt cách
hiӋu quҧ trong cơ sӣ dӳ liӋu và hӋ thӕng thông tin. guy nhiên, viӋc tiӃp cұn lұp danh
өc theo kiӇu truyӅn thӕng(ӝt chiӅu) thì gһp rҩt nhiӅu thách th3c trong cơ sӣ dӳ liӋu
bao gӗ các đӕi tưӧng phưӟc tp, điӅu này giӕng như đӗ thӏ bӣi vì ӝt đӗ thӏ c thӇ
ch3a đӵng theo ӝt quy luұt sӕ ũ cӫa các đӗ thӏ con. Là không hiӋu quҧ đӇ à xây
dӵng danh өc dӵa trên các đӍnh và cnh, bӣi vì nhӳng đһc trưng như vұy không c
chӑn lӑc và không c khҧ năng phân biӋt các đӗ thӏ. Mһt khác, cҩu trúc các danh өc
đưӧc xây dӵng dӵa trên nhӳng đӗ thӏ con c thӇ dn tӟi sӵ bùng nә sӕ lưӧng cӫa chӍ sӕ
cӫa danh өc. Nhӳng nghiên c3u ӟi đây vӅ danh өc đӗ thӏ đã đưa ra ӝt phương
pháp tiӃp cұn lұp danh өc dӵa trên đưӡng đi. gư tưӣng đ dӵa vào phân tích sau:

Hình 26: gư tưӣng lұp danh өc đӗ thӏ


NӃu đӗ thӏ G ch3a đӵng đӗ thӏ truy vҩn Q, G sӁ ch3a đӵng bҩt kǤ cҩu trúc con nào cӫa
Q

gư tưӣng chính cӫa phương pháp lұp danh өc đưӡng đi:

±‘ LiӋu kê tҩt cҧ nhӳng đưӡng đi tӗn ti nhӓ hơn đӝ dài axL cӫa
a‘ Cơ sӣ dӳ liӋu đӗ thӏ (danh uc nghӏch đҧo)
a‘ Đӗ thӏ truy vҩn
±‘ gính toán nhӳng đӗ thӏ 3ng viên ch3a nhӳng cҩu trúc này
±‘ X a nhӳng u không đúng bҵng viӋc kiӇ tra tính đҷng cҩu

Ví dө:

±‘ Cơ sӣ dӳ liӋu đӗ thӏ

26
Hình 27: Cơ sӣ dӳ liӋu đӗ thӏ đӇ lұp danh өc
Xây dӵng ӝt danh өc nghӏch đҧo giӳa nhӳng đưӡng đi và nhӳng đӗ thӏ:

±‘ Đưӡng đi :
û‘ Đӝ dài 0: C, O, N, S
û‘ Đӝ dài 1: C-C, C-O, C-N, C-S, N-N, S-O
û‘ Đӝ dài 2: C-C-C, C-O-C, C-N-C, ...
û‘ Đӝ dài 3: ...

N N
±‘ Đӗ thӏ truy vҩn :

Hình 28: Đӗ thӏ truy vҩn trong phương pháp lұp danh өc đӗ thӏ
û‘ 0-cnh: SC={a, b, c}, SN={a, b, c}
û‘ 1-cnh: SC-C={a, b, c}, SC-N={a, b, c}
û‘ 2-cnh: SC-N-C = {a, b}, «
û‘ «
±‘ Giao các tұp S li, Chúng ta c nhӳng 3ng viên- đӗ thӏ (a) và đӗ thӏ (b) ± c thӇ
ch3a đӵng đӗ thӏ truy vҩn.

C ӝt vҩn đӅ cӫa phương pháp lұp danh өc, chúng ta hãy xe ví dө sau:

±‘ Cơ sӣ dӳ liӋu đӗ thӏ

27
±‘ Đӗ thӏ truy vҩn

±‘ ChӍ c duy nhҩt đӗ thӏ (c) ch3a đӵng đӗ thӏ truy vҩn. guy nhiên, tuy nhiên nӃu
chúng ta chӍ lұp dnh өc đưӡng đi c đӝ dài nhӓ hơn hoһc bҵng 4: C, C-C, C-
C-C, C-C-C-C, thì chúng ta không thӇ tӍa đӗ thӏ (a) và (b).

ĐӇ giҧi quyӃt vҩn đӅ đ chúng ta dùng phương pháp gIndex, các bưӟc như sau:

±‘ Xác đӏnh các cҩu trúc phә biӃn trong CSDL


±‘ gӍa nhӳng phҫn dư thӯa đӇ duy trì ӝt bӝ nhӓ các cҩu trúc phân biӋt
±‘ Mӝt cҩu trúc con phә biӃn là phân biӋt nӃu đӝ hӛ trӧ cӫa chúng không thӇ
đưӧc sҳp xӍ đưӧc bҵng các giao nhau cӫa các bӝ dӳ liӋu đӗ thӏ à c ch3a
đӵng ӝt trong các đӗ thӏ con cӫa n .
±‘ go ra danh uc nghӏch đҧo giӳa nhӳng cҩu trúc phә biӃn phân biӋt và đӗ thӏ
trong Cơ Sӣ Dӳ LiӋu.

6   6‘
 L’V „  
Nhӳng 3ng dөng trong sinh hӑc và h a hӑc bao gӗ nhӳng truy vҩn tì kiӃ trong dӳ
liӋu c cҩu trúc phưӟc tp và hӛn hӧp. Mһc dù vӟi viӋc lұp danh өc đӗ thӏ, nhӳng các
tì kiӃ như vұy vn gһp các thác th3c bӣi thưӡng rҩt kh đӇ ch thӇ tì kiӃ ӝt
cách so khӟp chính xác cӫa ӝt danh өc, tì kiӃ các cҩu trúc tương tӵ trong nhӳng
cҩu trúc phưӟc tp trӣ nên là ӝt nhân tӕ quan trӑng. ga xét ví dө dưӟi đây.

Ví dө:

Các hӧp chҩt h a hӑc, là các đӗ thӏ c trong cơ sӣ dӳ liӋu.

28
Đӗ thӏ truy vҩn

Hình 29: Ví dө vӅ vҩn đӅ tì kiӃ các câu trúc tương tӵ


HiӇn nhiên ta thҩy rҵng trong các đӗ thӏ trong cơ sӣ dӳ liӋu thì không c đӗ thӏ con nào
so khӟp vӟi đӗ thӏ truy vҩn, do đ cách giҧi quyӃt ³ngây thơ´ nhҩt là:

±‘ Đӏnh dng ӝt bӝ đӗ thӏ con truy vҩn vӟi ӝt hoһc vài cnh bӏ x a đi
±‘ Sau đ sӱ dөng các cách tì kiӃ chính xác

Nhưng nӃu là theo cách trên thì khi ta quyӃt đӏnh x a nhiӅu cnh thì sӁ to lên ӝt sӕ
lưӧng lӟn các cҩu trúc con, do đ chi phí sӁ rҩt lӟn. Nên đӕi vӟi nhӳng đӗ thӏ lӟn thӏ sӕ
cnh đưӧc x a là rҩt ít, chӍ ӝt hoһc hai.

Ví dө: NӃu 3 cnh đưӧc x a trong đӗ thӏ truy vҩn c 20 cnh thì c thӇ to ra  )=

1140 cҩu trúc truy vҩn con.

Mӝt giҧi thuұt lӑc các cҩu trúc dӵa trên thuӝc tính, gӑi là Grafil(Graph siilarity
Filtering) đưӧc pháp triӇn đӇ lӑc hiӋu quҧ nhӳng đӗ thӏ trong ӝt cơ sӣ dӳ liӋu đӗ thӏ
kích cӥ lӟn. Grafil ô hình ӛi đӗ thӏ truy vҩn như ӝt bӝ nhӳng đһc trưng và chuyӇn
đәi nhӳng cnh đã x a vào ³nhӳng đһc trưng không đúng´ trong đӗ thӏ truy vҩn. Và
n còn cho thҩy sӱ dөng quá nhiӅu đһc trưng sӁ không phҧi là đòn bҭy thӵc hiӋn viӋc

29
lӑc. ghӵc vұy, ӝt chiӃn lưӧc kӃt hӧp nhiӅu bӝ lӑc đưӧc phát triӇn, ӣ đây ӛi bӝ lӑc
sӱ dөng ӝt bӝ con phân biӋt và bә sung cho nhau cӫa nhӳng thuӝc tính. Nhӳng bӝ lӑc
đưӧc xây dӵng bӣi ӝt giҧi thuұt go nh  ӝt chiӅu, c phân cҩp à ӛi nh  đһc
trưng vӟi sӵ chӑn lӑc tương tӵ nhau vào ӝt bӝ thuӝc tính

Ý tưӣng chính:

Hình 30: gư tưӣng cӫa phương pháp tì kiӃ cҩu trúc tương tӵ
±‘ gӕi thiӇu ӝt trong các cҩu trúc con phҧi đưӧc ch3a đӵng.
±‘ NӃu đӗ thӏ G ch3a đӵng phҫn chính cӫa ӝt đӗ thӏ truy vҩn Q, G cùng chia sҿ
sӕ lưӧng nhӳng đһc trưng chung vӟi Q
±‘ Cho ӝt tӍ lӋ nӟi lӓng, gính toán sӕ lưӧng tӕi thiӇu các đһc trưng đưӧc bӓ đi !

6   ‘ „³‹ 
Sӵ khá phá ra nhӳng đӗ thӏ phә biӃn và biӃn thӇ cӫa chúng c thӇ đưӧc dùng như
nhӳng tính chҩt cho viӋc phân lӟp. Đҫu tiên, chúng ta khai thác nhӳng u đӗ thӏ phә
biӃn trong bӝ dӳ liӋu huҩn luyӋn. Nhӳng đһc trưng là phә biӃn trong ӝt lӟp nhưng n
c thӇ không phә biӃn trong nhӳng lӟp khác c thӇ đưӧc coi như là nhӳng đһc trưng
phân biӋt cao đӝ(highly). Nhӳng đһc trưng như vұy đưӧc sӱ dөng cho viӋc xây dӵng
ô hình. ĐӇ đt đưӧc sӵ phân lӟp c chҩt lưӧng cao, chúng ta c thӇ điӅu chӍnh nhӳng
ngưӥng dӵa trên đӝ phә biӃn, đӝ phân biӋt, và sӵ liên kӃt đӗ thӏ dӵa trên dӳ liӋu, sӕ
lưӧng và chҩt lưӧng cӫa nhӳng đһc trưng đưӧc to ra, và sӵ chính xác cӫa phân lӟp.
Sau đây là ӝt cách tiӃp cұn phân lӟp dӵa trên đӗ thӏ.

Ý tưӣng chung:

30
±‘ Mӛi đӗ thӏ đưӧc biӇu diӉn bҵng ӝt vector đăc trưng Î = {x1, x2, «, xn}, vӟi xi
là đӝ hӛ trӧ cӫa u th3 i trong đӗ thӏ đ
±‘ Mӛi vector đưӧc kӃt hӧp vӟi ӝt nhãn lӟp
±‘ Phân loi nhӳng vector này vào ӝt không gian vector

6   ‘
„‹ 
ViӋc phân tích go nh  cung đưӧc khá phá vӟi viӋc khai thác nhӳng u đӗ thӏ.
Nhӳng bӝ đӗ thӏ cùng chia sӁ ӝt bӝ lӟn cӫa nhӳng u đӗ thӏ tương tӵ nhau thì đưӧc
xe như là nhӳng sӵ tương tӵ cao đӝ và nên đưӧc nh  li vào nhӳng nh  tương tӵ
nhau. Đӗ thӏ liên thông đưӧc dùng như là ӝt đӝ đo quan trӑng đӇ nh  nhӳng đӗ thӏ
tương tӵ vào ӝt nh . ghê vào đ , ngưӥng hә trӧ nhӓ nhҩt đưӧc sӱ dөng như là
ӝt cách đӇ điӅu chӍnh sӕ lưӧng cӫa nhӳng nh  phә biӃn hay to ra nhӳng nh 
phân cҩp.

 ‘ Ô  ' ! d 
Mng xã hӝi là nơi nhӳng ӕi quan hӋ giӳa các thӵc thӇ đưӧc biӇu diӉn bӟi nhӳng liên
kӃt trong ӝt đӗ thӏ, đưӧc chú ý trong nhӳng thұp niên trӣ li đây. Do đ sӵ phân tích
ng xã hӝi, tӯ ӝt phӕi cҧnh khai thác dӳ liӋu, đưӧc gӑi là phân tích liên kӃt hay khai
thác liên kӃt.

 ‘     "' ! d 


gӯ ӝt điӇ nhìn cӫa khai thác dӳ liӋu, ӝt ng xã hӝi là ӝt bӝ dӳ liӋu hӛn hӧp và
đa quan hӋ đưӧc biӇu diӉn bӣi ӝt đӗ thӏ. Mӝt đӗ thӏ điӇn hình rҩt lӟn, vӟi nhӳng nút
tương đương vơi nhӳng đӕ tưӧng và cnh tương đương vӟi nhӳng liên kӃt biӇu thӏ ӕi
quan hӋ hoһc sӵ tương tác giӳa nhӳng đӕi tưӧng. Cҧ nút và liên kӃt đӅu c nhӳng
thuӝc tính. Đӕi tưӧng c thӇ c nhãn lӟp. Liên kӃt c thӇ c thӇ c ӝt hưӟng và
không yêu cҫu là hai hưӟng.Mng xã hӝi không cҫn thiӃt phҧi trong ngӳ cҧnh xã hӝi,
c rҩt nhiӅu thӃ giӟi thӵc cӫa ng xã hӝi khác nhau.

Ví dө:

±‘ Mng lưӟi cung cҩp điӋn


±‘ Mng điӋn thoi
±‘ Mng lan truyӅn cӫa Vi rút áy tính
±‘ Mng internet
±‘ Mng trích dn và cӝng tác cӫa các nhà khoa hӑc
±‘ V.v«.

31
Hình 31: Các ví dө vӅ ng xã hӝi.
Mӝt loi ng xã hӝi quan trӑng à chúng ta quan tâ đ là ng xã hӝi nhӓ. Mng
xã hӝi nhӓ là ӝt ng xã hӝi tұp trung vào các cá nhân riêng lҿ. Mng xã hӝi nhӓ c
các đһc điӇ như: nút đi diӋn cho các cá nhân riêng lҿ, luôn c tӕi thiӇu ӝt đưӡng đi
ngҳn nӕi hai nút, c khҧ năng go nh  cao. Xe ví dө sau: ga c giҧ thuyӃt là giӳa
hai ngưӡi l thì c ӕi quan hӋ gián tiӃp thông qua quan sӵ quen biӃt ln nhau. Nă
1967, nhà xã hӝi Harvard, Milgra đã tiӃn hành thí nghiӋ cho nhӳng ngưӡi ӣ Kansas
và Nebraska gӣi thư tӟi nhӳng ngưӡi l ӣ Boston thông quan nhӳng ngưӡi à hӑ cho
là biӃt ngưӡi l đ . KӃt quҧ là 50% thành công à b3c thư đi không quá 5 trung gian.
Qua ví dө đ ta thҩy rҵng c ӝt ng xã hӝi nhӓ đưӧc hình thành giӳa nhӳng ngưӡi ӣ
Kansas, Nebraska và Boston, vӟi nút biӇu thӏ cho ӝt ngưӡi, liên kӃt biӇu thӏ cho ӕi
quan hӋ quen biӃt và khoҧng cách quen biӃt giӳa hai ngưӡi không quá 5 ngưӡi trung
gian. Nhӳng đһc điӇ đã n i trên sӁ đưӧc n i kӻ hơn ӣ phҫn sau.

grong ng xã hӝi thì hình dng hay cҩu trúc ng thi luôn luôn tác đӝng tӟi ch3c
năng

Ví dө:

32
±‘ Cҩu trúc cӫa ng xã hӝi tác đӝng trҧi dài cӫa căn bӋnh truyӅn nhiӉ.
±‘ Cҩu trúc cӫa ng lưӟi cung cҩp điӋn ҧnh hưӣng tӟi khҧ năng vӳng chҳc cӫa
viӋc truyӅn tҧi cӫa chính bҧn thân n
±‘ Sӵ cӕ truyӅn tҧi ӣ Cleveland, Ohio, vào ngày 14 thang 4 nă 2003, c tác đӝng
kích đӝng(dây chuyӅn) thông qua ӝt hӋ thӕng ng lưӟi giӳa các liên kӃt, sӵ
cҳt nguӗn cӫa nhà áy năng lưӧng nguyên tӱ ӣ bang Newyork và Ohio, và dn
tӟi sӵ trҧi rӝng cúp điӋn ӣ nhiӅu phҫn các bang ӣ phía bҳc và na Canada, điӅu
này đã ҧnh hưӣng tӟi gҫn 50 triӋu ngưӡi.

Nghiên c3u trên nhӳng xã hӝi nhӓ, vӟi sӵ tách biӋt nhӓ ӕi quan hӋ giӳa các nút, giúp
chúng ta thiӃt kӃ ng ӝt cách tiӋn lӧi nhӳng hiӋu quҧ cho viӋc truyӅn tҧi thông tin
và tài nguyên. Ví dө: N giúp ta thiӃt kӃ các tác nhân tì kiӃ trên Web thông inh
hơn, c thӇ tì kiӃ nhӳng Website tương thích vӟi truy vҩn.

  ‘ p *   
' ! d 
Chúng ta c thӇ xây dӵng nhӳng ô hình to ra đӗ thӏ, c thӇ kӃt hӧp rҩt nhiӅu đһc
điӇ. Nhӳng th3 này c thӇ đưӧc sӱ dөng đӇ tiên đoán là thӇ nào à ӝt đӗ thӏ c
thӇ đưӧc thҩy trong tương lai, trҧ lӡi câu hӓi ³Cái gì ± nӃu´ . Hãy lҩy internet là ví
dө, Chúng ta c thӇ hӓi ³Mng internet sӁ c hình dng như thӃ nào nӃu sӕ lưӧng nút
tăng lên gҩp đôi?´ và ³Sӕ cnh lúc đ sӁ là bao nhiêu?´. ĐiӅu này c thӇ giúp tì ra
nhӳng điӅu bҩt bình thưӡng trong đӗ thӏ đã c , n c thӇ chӍ ra nhӳng thiӃt s t như là
Spa, nhӳng cuӝc tҩn công tӯ chӕi dӏch vө.

Chҩt lưӧng đӇ xác đӏnh các đһc điӇ:

±‘ Đӝ cӫa nút(node¶degree) là sӕ lưӧng cnh gҳn kӃt vӟi ӛi nút


±‘ Khoҧng cách giӳa ӛi cұp nút là đưӡng đi ngҳn nhҩt.
±‘ Đưӡng kính ng là khoҧng cách lӟn nhҩt giӳa nhӳng cұp điӇ
±‘ Khoҧng cách trung bình giӳa các cұp nút.

Mng xã hӝi rҩt khiӃ khi ӣ trng thái tĩnh. Nhӳng biӇu diӉn cӫa đӗ thӏ này cho sư tiӃn
h a như là nút và cnh đưӧc thê vào hoһc x a đi trong suӕt thӡi gian. gәng quát,
ng xã hӝi quan tâ tӟi sӵ phô bҫy nhӳng hiӋn tưӧng sau.

6 6 6 ‘ „’
ĐӇ xe xét đһc điӇ này thì trưӟc chúng ta hãy xe ví dө sau: Cho N(t) là sӕ nút ti
thӡi gian t, E(t) là sӕ liên kӃt ti thӡi gian t, giҧ sӱ rҵng N(t+1) = 2 * N(t), câu hӓi: Dӵ

33
đoán sӕ liên kӃt sӁ như thӃ nào?. Đa sӕ nhiӅu ngưӡi sӁ trҧ lӡi rҵng E(t+1) = 2 * E(t),
nhӳng câu trҧ lӡi đ li sai. Và câu trҧ lӡi : Lӟn hơn gҩp đôi, nhưng sӵ tăng trưӣng đ
sӁ tuân theo Đӏnh luұt lũy thӯa ұt đӝ. C công th3c như sau:

Hình 32: Đӏnh luұt lũy thӯa ұt đӝ


grong đ e(t) là sӕ lưӧng liên kӃt ti thӡi điӇ t, n(t): sӕ lưӧng nút ti thӡi điӇ t, 1<=
a <= 2, nӃu a = 1, phát triӇn ӝt cách tuyӃn tính, nӃu a= 2, tương đương vӟi đӗ thӏ dҫy
đһc cӵc đӝ và đӝ trung bình tăng

Ví dө: grích dn giӳa các báo cáo

Vұt lý:

±‘ Nă 1992:

+ 1,293 trang,

+ 2,717 trích dn

±‘ Nă 2003:

+ 29,555 trang,
Hình 33: Ví dө biӇu đӗ tăng trưӣng
+ 352,807 trích dn theo đӏnh luұt lũy thӯa ұt đӝ

Ӣ ví dө này theo thӡi gian thì sӕ trang tăng và sӕ cnh tăng theo quy luұt lũy thӯa ұt
đӝ, vӟi a = 1.69.

6 6 6 6Լ
V„ „
Đã c nhӳng thí nghiӋ cho thҩy rҵng đưӡng kính tác đӝng dn tӟi sӵ giҧ sút như là
sӵ phát triӇn cӫa ng. Bӣi vì sӵ phát triӇn cӫa đӗ thӏ thì bán kính ngày giҧ xuӕng
dҫn dҫn

Ví dө: grích dn giӳa các báo cáo Vұt lý tӯ nă 1992 ±2003:

34
Hình 34: Ví dө biӇu đӗ vӅ sӵ co đưӡng kính ng
ga thҩy rҵng kích thưӟc cӫa đưӡng kính cӫa ng ngày càng giҧ theo sӵ phát triӇn
cӫa ng, đơn giҧn bӣi vì ng càng phát triӇn thì càng nhiӅu nút và liên kӃt đưӧc
thê vào, do đ khoҧng cách lӟn nhҩt giӳa hai cұp nút sӁ xuҩt hiӋn nhӳng con đưӡng
khác nhau à ngҳn hơn.

6 6 6 ‘L
„ L„
 ’  „ „

Cҩp ngoài c theo sӵ phân bӕ nh phҫn đuôi theo công th3c :

vӟi n là hng, 0<a<2. Ӣ đây, đӝ ngoài cӫa ӝt nút là sӕ liên kӃt đi ra tӯ nút đ , còn
hng(cҩp trong) cӫa ӝt nút là sӕ liên kӃt đi vào nút đ .

Hình 35: Cҩp trong và cҩp ngoài c đuôi phân bӕ nh

35
Các đӝ này đӅu theo quy luұt phân phӕi nh ӣ phҫn đuôi và tӹ lӋ nghӏch vӟi nhau. C
nghĩa là nӃu đӝ ngoài càng lӟn thì hng càng nhӓ và ngưӧc li. Và hai đӝ này đӅu c
xu hưӟng theo quy luұt ³giàu càng giàu thê´.

6 6 6 ‘Ê
„„
Mô hình cháy lan là ӝt ô hình cho viӋc to ra các đӗ thӏ, n lưu giӳ tҩt cҧ nhӳng đһc
điӇ cӫa sӵ tiӃn h a cӫa đӗ thӏ theo thӡi gian. Phương pháp này dӵa trên ý tưӣng là
nút ӟi đưӧc thê vào ng bҵng cách ³đӕt cháy´ thông qua nhӳng cnh đang tӗn ti
theo phương pháp truyӅn nhiӉ. N sӱ dөng hai tha sӕ, p là xác suҩt đӕt cháy tӟi
trưӟc, r là xác suҩt đӕt cháy ngưӧc vӅ, v là đӍnh ӟi ti thӡi điӇ t đưӧc thê vào đӗ
thӏ Gt

ghuұt toán:

1) Chon ngu nhiên đӍnh đi diӋn v

2) Chӑn x liên kӃt(cnh) vӟi w, tùy theo liên kӃt ngoài hay liên kӃt trong à sӱ dөng p
hoһc r, v1,v2,v3 «vx biӇu thӏ cho nút cuӕi cӫa nhӳng cnh đưӧc chӑn

3) tӯ v1,v2,« vx áp dөng bưӟc 2, đӋ quy

Ví dө: Là thӃ nào đӇ xác đӏnh ӝt tác giҧ đưӧc đӅ cұp:

1)gì trang th3 nhҩt và trích dn tӟi n

2)gheo ӝt vài trích dn cӫa n , to ra các trích dn

3) giӃp tөc đӋ quy

 ‘ p#      



  $ 
³Là thӃ nào chúng ta c thӇ khai thác ng xã hӝi?´ Nhӳng phương th3c truyӅn
thӕng cӫa áy hӑc và khai thác dӳ liӋu dӵa trên ӝt ӕi quan hӋ c thӇ không còn
thích hӧp. Dӳ liӋu cӫa ng xã hӝi c khuynh hưӟng hӛn tp, đa quan hӋ, và bán cҩu
trúc. Và kӃt quҧ là, ӝt lĩnh vӵc nghiên c3u ӟi xuҩt hiӋn đưӧc gӑi là khai thác liên
kӃt. Khai thác liên kӃt là ӝt sӵ kӃt hӧp cӫa nghiên c3u trong ng xã hӝi, phân tích
liên kӃt, siêu văn bҧn, khai thác web, khai thác đӗ thӏ, hӑc quan hӋ, lұp trình logic quy
np. N gӗ c các ô hình ô tҧ và dӵ đoán. Dӵa trên nhӳng liên kӃt thì nhiӅu thông
tin đưӧc hiӋn ra đӇ c thӇ khai thác. ĐiӅu này ang tӟi ӝt vài công viӋc tӯ các lĩnh
vӵc khác nhau.

36
6 6  ‘„  õ   „
1) Phân lӟp đӕi tưӧng dӵa trên liên kӃt, c thӇ dӵa trên thuӝc tính, dӵa trên liên kӃt cӫa
n , dӵa trên nhӳng thuӝc tính cӫa nhӳng đӕi tưӧng n liên kӃt Ví dө: grong dӏch tӉ
hӑc, công viӋc dӵ đoán loi bӋnh cӫa bӋnh nhân dӵa trên các đһc điӇ cӫa bӋnh nhân,
và trên nhӳng đһc điӇ cӫa nhӳng ngưӡi khác à bӋnh nhân c tiӃp xúc.

2) Dӵ đoán loi cӫa đӕi tưӧng. Dӵa trên nhӳng thuӝc tính cӫa n và nhӳng liên kӃt cӫa
n , và trên nhӳng thuӝc tính cӫa nhӳng đӕi tưӧng liên kӃt vӟi n . Ví dө: grong iӅn
truyӅn thông, đ là dӵ đoán c ӝt truyӅn thông qua eail, gӑi điӋn hay thư tӯ hay
không?

3) Dӵ đoán loi cӫa Liên kӃt. Dӵa trên nhӳng tính chҩt liên quan tӟi đӕi tưӧng. Ví dө:
Cho ӝt dӳ liӋu Web, chúng ta cӕ gҳng đӇ dӵ đoán liên kӃt trong trang đ là liên kӃt
quҧn cáo hay là liên kӃt chӍ hưӟng hay không?

4) Dӵ đoán liên kӃt c tӗn ti hay không? Ví dө: Dӵ đoán c ӝt liên kӃt giӳa hai
trang Web hay không? Và c ӝt trang trích dn trang còn li hay không?.

5) Ưӟc lưӧng lӵc lưӧng liên kӃt. Chúng ta dӵ đoán sӕ lưӧng cӫa nhӳng liên kӃt tӟi ӝt
đӕi tưӧng. Dӵ đoán sӕ lưӧng cӫa đӕi tưӧng ӣ giӳa đưӡng đi cӫa đӕi tưӧng

6) gái điӅu giҧi đӕi tưӧng. Là dӵ đoán trong thӵc tӃ hai đӕi tưӧng c giӕng nhau hay
không dӵa trên nhӳng thuӝc tính và nhӳng liên kӃt cӫa n . Ví dө: C hai căn bӋnh vӟi
nhӳng biӇu hiӋn bên ngoài giӕng nhau, thì n c thұt sӵ giӕng nhau hay không?

7) gì nh . Dӵ đoán ӝt bӝ nhӳng đӕi tưӧng c đưӧc sӣ hӳu bӣi cùng nhӳng nh 
giӕng nhau, dӵa trên thuӝc tính cӫa n , nhӳng cҩu trúc liên kӃt cӫa n . Ví dө: Mӝt 3ng
dөng cӫa n là sӵ nhұn diӋn ra cӝng đӗng Web, nơi à cӝng đӗng Web là ӝt tұp hӧp
cӫa nhӳng trang Web à cùng tұp trung vào ӝt vҩn đӅ nào đ

8) gì đӗ thӏ con là tì ra nhӳng đһc trưng cӫa đӗ thӏ con trong ng. Ví dө: Mӝt ví
dө tӯ sinh hӑc đ là sӵ khá phá ra nhӳng sӵ tương đương cӫa đӗ thӏ con cho tӟi
nhӳng cҩu trúc protein

9) Khai thác siêu dӳ liӋu. Siêu dӳ liӋu là dӳ liӋu vӅ dӳ liӋu, siêu dӳ liӋu cung cҩp ӝt
dӳ liӋu bán cҩu trúc vӅ nhӳng dӳ liӋu không c cҩu trúc, phân loi tӯ dӳ liӋu văn bҧn
và Web cho đӃn nhӳng cơ sӣ dӳ liӋu đa phương tiӋn. Ví dө:dùng cho so khӟp lưӧc đӗ:

37
như là thuӝc tính custuer_id tӯ ӝt cơ sӣ dӳ liӋu đưӧc so khӟp vӟi cust_nuber tӯ
ӝt cơ sӣ dӳ liӋu khác bӣi vì chúng đӅ cұp tӟi nhӳng thӵc thӇ giӕng nhau

6 6  6‘:   „


ViӋc thӵc thi các công viӋc dn tӟi đưa ra nhiӅu thách th3c như là:

1) Phө thuӝc thӕng kê chӕng vӟi logic:

Hai loi thưӡng trú trên đӗ thӏ:

±‘ Cҩu trúc liên kӃt ± Mӕi quan hӋ logic giӳa các đӕi tưӧng
±‘ Phө thuӝc xác suҩt ± Mӕi quan hӋ thӕng kê giӳa các thuӝc tính

Sӵ kiӇ soát tính nhҩt quán cӫa nhӳng sӵ phuӝc này cũng là ӝt thách th3c cho khai
thác dӳ liӋu đa quan hӋ, nơi à dӳ liӋu đưӧc khai thác trong nhiӅu bҧng. Chúng ta phҧi
nghiên c3u trên nhӳng ӕi quan hӋ logic c thӇ khác nhau giӳa nhӳng đӕi tưӧng, thê
vào đ là chuҭn h a viӋc tì kiӃ trên nhӳng sӵ phө thuӝc vӅ xác suât giӳa các thuӝc
tính. ĐiӅu này tӕn ӝt không gian tì kiӃ khәng lӗ.

2)Xây dӵng đһc trưng. Xây dӵng ӝt thuӝc tính riêng lҿ đӇ biӇu thӏ cho tҩt cҧ nhӳng
thuӝc tính

3) Lӟp chӕng vӟi thӵc thӇ. Phân biӋt sӵ rõ ràng giӳa nhӳng cá nhân riêng lӁ hoһc tұp
hӧp cӫa các cá nhân riêng lҿ.

4) Cӫng cӕ và phân loi tұp hӧp. Là thӃ nào đӇ huҩn luyӋn ӝt ô hình cӫa sӵ phân
lӟp?.

5) gác đӝng sӱ dөng cӫa dӳ liӋu c nhãn và không nhãn. Là sao đӇ khai thác trong
tәng hӧp ӝt trӝn ln cӫa dӳ liӋu c nhãn và không c nhãn?.

6) Dӵ đoán liên kӃt. Dӵ đoán liên kӃt đưӧc đưa ra dӵa trên ӝt sӕ lưӧng cӫa đӝ đo cho
viӋc phân tích nhӳng nút lân cұn trong ng

7) Giҧ thuyӃt xã hӝi đ ng chӕng li ӣ.

Giҧ thuyӃt ³xã hӝi đ ng´ cho rҵng chúng ta biӃt tҩt cҧ các thӵc thӇ tì năng trong
iӅn. ĐiӅu này không phù hӧp vӟi thӵc tӃ vì trong thӵc tӃ tӗn ti nhiӅu, hӛn hӧp các
ng xã hӝi, biӇu thӏ rҩt nhiӅu ӕi quan hӋ khác nhau. Mӝt thách th3c đ là khai thác
nhӳng cӝng đӗng ҭn à hӛn hӧp như trên.

38
8) Khai thác cӝng đӗng tӯ ng đa quan hӋ: khá phá ra các nh  cӫa đӕi tưӧng à
chúng cùng chia sӁ nhӳng tính chat tương tӵ nhau. Vi dө: Liên kӃt nhӳng trang Web,
nơi à ӝt cӝng đӗng đưӧc khá phá c thӇ là ӝt tұp hӧp nhӳng trang Web dӵa trên
ӝt chӫ đӅ đһc biӋt nào đ .

 %‘ ×
 $' ! d 

6 6  ‘
„ „
Mng xã hӝi luôn biӃn đӝng. Mӝt liên kӃt ӟi xuât hiӋn, thì n chӍ ra ӝt ӕi tương
tác ӟi giӳa nhӳng đӕi tưӧng. grong vҩn đӅ cӫa dӵ đoán liên kӃt, chúng ta đưӧc cho
ӝt chөp nhanh cӫa ӝt xã hӝi ӣ thӡi điӇ t và uӕn dӵ đoán nhӳng cnh nào sӁ
đưӧc thê vào ng tӯ khoҧng thӡi gian t tӟi khoҧng thӡi gian t¶. VӅ bҧn chҩt, chúng
ta tì kiӃ đӇ không bao phӫ sӵ ӣ rӝng đӇ sӵ tiӃn h a nào cӫa ng xã hӝi c thӇ
đưӧc ô hình sӱ dөng nhӳng đһc trưng bên trong đӇ à ô hình chính bҧn thân n . Ví
dө, chúng ta xe ӝt ng xã hӝi cӫa sӵ cӝng tác nguӗn tác giҧ giӳa nhӳng nhà khoa
hӑc. gheo trӵc giác, chúng ta c thӇ dӵ đoán rҵng hai nhà khoa hӑc là ³gҫn nhau´ trong
ӝt ng nӃu chҳc hҷn c sӵ cӝng tác trong tương lai. gӯ đ , sӵ dӵ đoán liên kӃt c
thӇ đưӧc nghĩ tӟi như là ӝt sӵ phân phӕi đӃn nhӳng nghiên c3u cӫa ô hình tiӃn h a
ng xã hӝi

giӃp cұn phương pháp dӵ đoán liên kӃt đưӧc đưa ra dӵa trên ӝt vài đӝ đo cho viӋc
phân tích nhӳng th3 ³lân cұn´ cӫa nút trong ng. Phương th3c chung:

±‘ Xác đӏnh trӑng sӕ kӃt nӕi, score(X,Y)


±‘ Danh sách các hng sҩp theo chiӅu giҧ cӫa Score(X,Y)
±‘ Dӵ đoán liên kӃt ӟi trong sӵ sҩp xӃp giҧ dҫn cӫa đӝ tin cұy

Ví dө: hai tác giҧ X và Y không bao giӡ viӃt báo cáo cùng nhau nhưng c nhiӅu đӗng
nhiӋp chung, nên c lӁ hӑ sӁ là đӗng nghiӋp trong tương lai

6 6  6‘×  „ „ 


  „’
„
giӃp thӏ lan truyӅn là ӝt 3ng dөng cӫa khai thác ng xã hӝi đ là khá phá ra là
cách nào nhӳng cá nhân riêng lӁ c thӇ ҧnh hưӣng tӟi hành vi ua cӫa nhӳng ngưӡi
khác. Nhӳng cách tiӃp thӏ truyӅn thӕng như là tiӃp thi trӵc tiӃp, tiӃp thӏ khӕi thì chӍ
quân tâ tӟi nhӳng cá nhân riêng lӁ. giӃp thӏ lan truyӅn á chӍ sӵ tӕi ưu tác đӝng tӯ
iӋng truyӅn nhau giӳa nhӳng khách hàng

Ví dө:

39
Chúng ta c ҧnh hưӣng tӟi bn bè chúng ta hơn là nhӳng ngưӡi l trong viӋc cho cũng
như là nhұn lӡi khuyên vӅ ӝt vҩn đӅ nào đ .

Do đ khi c ӝt đӧt giҧ giá thì thông tin này sӁ đưӧc lan truyӅn rҩt nhanh theo cҩp
sӕ nhân thông quan các ӕi quan hӋ quen biӃt.

Hình 36: Ví dө vӅ tiӃp thi lan truyӅn

Giá trӏ cӫa ng lưӟi cӫa khách hàng là ӝt sӵ tăng lên ong uӕn trong kinh doanh
tӟi nhӳng ngưӡi khác à kӃt quҧ tiӃp thӏ tӯ nhӳng khách hàng đ

Ví dө: nӃu nhӳng khách hàng cӫa chúng ta thuyӃt phөc nhӳng ngưӡi khác xe ӝt bӝ
phi nào đ , rӗi rp chiӃu phi điӅu đưӧc hӧp lý chính đáng đӇ sӱ dөng nhiӅu tiӅn
hơn cho viӋc đưa thê nhӳng bӝ phi cho ngưӡi đ .

Nhӳng nhân tӕ à c thӇ ҧnh hưӣng tӟi giá trӏ ng lưӟi ngưӡi dùng:

40
±‘ Ngưӡi dùng nên cӕ ӝt kӃt nӕi nh trong ng lưӟi và cũng cho sҧn phҭ
ӝt đánh giá tӕt
±‘ Khách hàng nên c nhiӅu ҧnh hưӣng tӟi nhӳng ngưӡi khác hơn là ngưӧc li
±‘ ĐӋ quy ӝt các tӵ nhiên cӫa tӯ truyӅn iӋng

Công viӋc là tì ra tұp hӧp các khách hàng à c thӇ ang li tӕi đa lӧi nhuұn cӫa
ng lưӟi. Dùng giҧi thuұt tì kiӃ leo đӗi đơn giҧn đӇ giҧi quyӃt công viӋc trên.

6 6  ‘× „„  „
Phân tích ng xã hӝi dӵa trên Web c ӕi quan hӋ rҩt gҫn vӟi khai thác Web. Cong
viӋc đ là phân hng các trang Web, dӵa trên các liên kӃt cӫa các trang Web. Hoàn
cҧnh là sӵ khác xa nhau trong các nh  thông tin trên chӫ đӅ thҧo luұn. Mӝt sӵ đăng
bài cӫa nh  thҧo luұn điӇn hình bao gӗ ӝt hoһc ӝt vài dòng trích dn tӯ nhӳng
đăng bài khác theo sau ӝt ý kiӃn cӫa tác giҧ. Nhӳng đánh giá c dng ³liên kӃt đánh
giá´ và to ra ӝt ng lưӟi :

±‘ Nút biӇu thӏ cá nhân riêng lӁ


±‘ Liên kӃt biӇu thӏ ӕi quan hӋ ³đáp li-đӃn´

Mӝt hiӋn tưӧng thú vӏ đ là nhӳng ngưӡi thưӡng xuyên đáp li bҵng ӝt tin nhҳn khi
hӑ không đӗng ý nhiӅu hơn là khi hӑ đӗng ý. Hành vi này tӗn ti trong nhiӅu nh 
thông tin và là ӝt sӵ đӕi lұp sҳc sҧo vӟi đӗ thӏ liên kӃt trang Web, nơi à nhӳng liên
kӃt là ӝt chӍ dn rõ ràng cӫa sӵ đӗng ý hay chӍ là sӵ quan tâ chung. Dӵa trên hành
vi này, c thӇ phân lӟp và phân vùng nhӳng tác giҧ ӝt cách hiӋu quҧ trong nhӳng
nh  thông tin vào nhӳng phe đӕi lұp bҵng sӵ phân tích cҩu trúc đӗ thӏ cӫa nhӳng lӡi
đáp li, đӗng ý hay không đӗng ý.

6 6  ‘× „ ‹„ 


Cӝng đӗng là nhӳng nh  đӕi tưӧng cùng chia sҿ ӝt vài tính chҩt chung, c thӇ đưӧc
xe như là ӝt đӗ thӏ con. Ví dө: gұp hӧp các trang Web trong ӝt chӫ đӅ đһc biӋt
nào đ là ӝt cӝng đӗng

Mng đa quan hӋ:

±‘ C rҩt nhiӅu loi quan hӋ khác nhau giӳa các thӵc thӇ
±‘ Mӛi loi quan hӋ c thӇ đ ng ӝt vai trò riêng biӋt

41
Công viӋc cӫa chúng ta là xác đӏnh ӕi quan hӋ nào đӕng vai trò quan trӑng nhҩt. Ví
dө: Giҧ sӱ ӝt căn bӋnh đang lan truyӅn, chính quyӅn tì cách đӇ tì kiӃ nhӳng th3
c thӇ gây ra truyӅn nhiê. HiӇn nhiên, nhӳng ӕi quan hӋ giӳa nhӳng con ngưӡi
không thӇ c chung ӝt vai trò, c thӇ thích hӧp hơn nӃu cho rҵng tùy vào trưӡng hӧp
cӫa ӕi quan hӋ, như là ³là cùng nơi´ hoһc ³sӕng chung vӟi nhau´ đ ng nhӳng vai
trò nguy hiӇ hơn.

ĐӇ xác đӏnh đưӧc đһc trưng thi chúng ta lӵa chӑn và trích xuҩt quan hӋ trong sӵ phân
tích ng xã hӝi đa quan hӋ. Bҵng các trҧ lӡi đưӧc các câu hӓi như

±‘ grong ӝt ng xã hӝi hӛn hӧp, dӵa vào nhӳng u c nhãn, là thӇ nào đӇ
đӏnh giá sӵ quan trӑng cӫa nhӳng ӕi quan hӋ khác nhau?
±‘ Là sao chúng ta c thӇ tәng hӧp nhӳng ӕi quan hӋ đang tӗn ti?
±‘ Cái nào là so khӟp tӕt nhҩt ӕi quan hӋ cӫa nhӳng u c nhãn?

Ví dө:

Hình 37: Ví dө vӅ sӵ ng cӝng đӗng


grong ba ng trên chúng ta đưa ra đһc trưng đ là bӕn đӕi tưӧng cùng àu thuӝc ӝt
cӝng đӗng, thì chӍ c ng a là thӓa yêu cҫu, tuy nhiên nӃu c đһc trưng khác là hai
đӕi tưӧng cùng àu thuӝc ӝt cӝng đӗng thì rõ ràng chӍ c ng b thӓa ãn yêu cҫu.
Do đ chúng ta thҩy rҵng trong thӃ giӟi thӵc thì câu truy vҩn cӫa ngưӡi dùng rҩt đa
dng.

Mӝt giҧ thuұt đưӧc đӅ xuҩt đ là giҧi thuұt khai thác cӝng đӗng c ô hình nhӳng
công viӋc:

42
Cho ӝt tұp hӧp nhӳng đӕi tưӧng và ӝt bӝ các quan hӋ, c thӇ đưӧc biӇu diӉn như là
ӝt tұp hӧp cӫa nhӳng đӗ thӏ Gi(V,Ei): i= 1,«,n vӟi n là sӕ lưӧng các quan hӋ, V là
tұp hӧp các nút hay là các đӕi tưӧng, Ei là tұp hӧp các cnh vӟi ӕi quan hӋ th3 i.

grӑng lưӧng cӫa các cnh c thӇ đưӧc đӏnh nghĩa theo đӝ lӟn ӕi quan hӋ giӳa hai đӕi
tưӧng, Đӏnh rõ đһc điӇ cӫa ӛi quan hӋ bӣi ӝt đӗ thӏ vӟi a trұn trӑng sӕ. Mi biӅu
thӏ â trұn trӑng sӕ cho Gi. Mӛi yӃu tӕ trong đӗ thӏ phҧn ҧnh ӕi quan hӋ giӳa các cұp
đӕi tưӧng. Mӕi quan hӋ ҭn đưӧc ­ (V,) và  là a trұn trӑng sӕ cӫa ­. Câu truy vҩn
cӫa ngưӡi dùng c dng ӝt tұp các đӕi tưӧng X =[x1,...,x và tұp nhãn cӫa n y =
[y1,«,y. Mӛi đӕi tưӧng đ sӁ chӍ ra ӝt phҫn thông tin ҭn cӫa quan hӋ ­. Mӛi a
trұn sӁ kӃt hӧp vӟi các u đã gҳn nhãn. Vҩn đӅ là tì kiӃ sӵ kӃt hӧp cӫa các a
trұn trӑng sӕ đӇ sҩp xӍ ­ nhҩt

Ví dө: Xét iӅn thư өc, c nhiӅu quan hӋ tӗn ti giӳa các tác giҧ. Mӛi tác giҧ công bӕ
báo cáo tӟi nhiӅu hӝi nghӏ khác nhau, Gi, to ra ӝt ng lưӟi đa quan hӋ. Mu truy
vҩn là ӝt nh  các tác giҧ (X). gì ra quan hӋ ­ ӟi à c thӇ chia sӁ loi tương tӵ
nào đ trong Xi.

‘ ×
 - 
&
 
Cơ sӣ dӳ liӋu quan hӋ là thùng ch3a phә biӃn nhҩt cӫa dӳ liӋu c cҩu trúc. grong ӝt
cơ sӣ dӳ liӋu quan hӋ, sӵ đa quan hӋ đưӧc liên kӃt bên nhau thông qua nhӳng liên kӃt
quan hӋ thӵc thӇ. NhiӅu tiӃp cұn phân lӟp c thӇ duy nhҩt 3ng dөng cho viӋc biӇu diӉn
dӳ liӋu ӝt cách đơn lҿ, nhӳng dng quan hӋ ³phҷng´ à hӑ ong uӕn dӳ liӋu chӍ
c duy nhҩt ӝt bҧng. ĐiӅu này sӁ gây ra ҩt át thông tin cӫa nhӳng liên kӃt và
nhӳng quan hӋ, và trên hӃt là n không thӇ sӱ dөng thông tin cӫa lưӧt đӗ và cҩu trúc cơ
sӣ dӳ liӋu. Và trong nhӳng 3ng dөng thӃ giӟi thӵc thì trong cơ sӣ dӳ liӋu quan hӋ c đa
quan hӋ. Do đ , khai thác dӳ liӋu đa quan hӋ trӣ thành ӝt lĩnh vӵc quan trӑng.

‘ ×
 - 
&
 '
Khai thác dӳ liӋu quan đa quan hӋ á chӍ viӋc khá phá dӳ liӋu ӝt cách trӵc tiӃp tӯ
dӳ liӋu quan hӋ. Phương th3c hai ӓ dӳ liӋu đa quan hӋ tì kiӃ nhӳng u à n
bao gӗ nhiӅu bҧng tӯ ӝt cơ sӣ dӳ liӋu quan hӋ. C nhӳng công viӋc khai thác dӳ
liӋu đa quan hӋ khác nhau, bao gӗ phân lӟp, go nh , khai thác nhӳng u phә
biӃn trên dӳ liӋu đa quan hӋ. Phân lӟp đa quan hӋ á chӍ viӋc xây dӵng ӝt ô hình
phân lӟp à c thӇ sӱ dөng thông tin tӯ nhӳng quan hӋ khác nhau. Go nh  đa quan
hӋ á chӍ nh  các bӝ vào nhӳng nh  sӱ dөng nhӳng thuӝc tính cӫa n cũng như

43
nhӳng bӝ quan hӋ tӟi chúng trong nhӳng ӕi quan hӋ khác nhau. Khai thác nhӳng u
phә biӃn đa quan hӋ á chӍ viӋc tì kiӃ nhӳng u bao gӗ nhӳng hng өc co
liên quan tӟi nhau trong nhӳng quan hӋ khác nhau.

grong ӝt cơ sӣ dӳ liӋu cho phân lӟp đa quan hӋ, c ӝt quan hӋ đích Rt, nhӳng bӝ
cӫa n đưӧc gӑi là nhӳng bӝ đích và đưӧc gҳn nhãn lӟp. Nhӳng ӕi quan hӋ khác là
nhӳng quan hӋ không đích, ӛi quan hӋ c thӇ c ӝt kh a chính và ӝt vài kh a
ngoi. NӃu chúng ta đưa ra ӝt vҩn đӅ hai lӟp, và rӗi đһt ӝt lӟp là lӟp dương lӟp còn
li là lӟp â. ghì công viӋc quan trӑng cho viӋc xây dӵng ӝt phân lӟp đa quan hӋ
chính xác, đӇ tì ra nhӳng đһc trưng trong nhӳng quan hӋ khác nhau c thӇ giúp phân
biӋt nhӳng bӝ đích dương và â.

! 

Hình 38: Ví dө vӅ cơ sӣ dӳ liӋu đa quan hӋ trong 3ng dөng ³Cho Vay´


Chúng ta hãy xét bӝ dӳ liӋu cӫa 3ng dөng vay vӕn. Giҧ sӱ đích là Loan, ӛi bӝ đích c
thӇ là â hoһc dương, đӇ chӍ ra rҵng loan đưӧc trҧ đúng hn. Công viӋc cӫa phân lӟp
đa quan hӋ đ là xây dӵng ӝt giҧ thuyӃt à c thӇ phân nhӳng bӝ đích dương và â
bҵng viӋc sӱ dөng nhӳng thông tin vӅ nhӳng ӕi quan hӋ khác nhau.

44
Hình 39: Ví dө vӅ bӝ đích và nhãn.
Cho phân lӟp tәng quát, chúng ta tì kiӃ giҧ thuyӃt à c thӇ giúp phân biӋt đưӧc
nhӳng bӝ đích dương và â. Dng phә biӃn cӫa nhӳng giҧ thuyӃt phân lӟp đa quan hӋ
là ӝt tұp các luұt. Mӛi luұt là ӝt danh sách các vӏ tӯ, kӃt hӧp vӟi nhãn lӟp. Mӝt vӏ tӯ
là ӝt ràng buӝc cӫa ӝt thuӝc tính trong ӝt quan hӋ. Mӝt vӏ tӯ thưӡng đưӧc xác
đӏnh dӵa trên ӝt đưӡng đi liên kӃt nào đ . Như ví dө dưӟi đây. Mӝt bӝ đích thõa ãn
ӝt luұt nӃu và chӍ nӃu n thõa ãn tҩt cҧ nhӳng vӏ tӯ cӫa luұt đ .

Ví dө:

±‘ Vӏ tӯ sӕ hӑc: ³p1= Loan(L,_,_,_, payent>= 12,_)´ c nghĩa rҵng khoҧng


thӡi gian cӫa sӵ cho vay L không đưӧc nhӓ hơn 12 tháng
±‘ Vӏ tӯ categorical: ³p2 = Loan(L,A,_,_,_,_), Account(A,_,frequence =
onthly,_)´, c đưӡng đi liên kӃt Loan¸Account c frequence là onthly
±‘ Giҧ sӱ luұt cho bӝ đích dương (+) là ³ r = Loan(L,+): -Loan(L,A,_,_,_,_),
Account(A,_,frequency =onthly,_)

=> ta n i bӝ t trong Loan thӓa ãn r khi và chӍ khi bҩt kǤ bӝ nào trong Account
à c thӇ nӕi vӟi t thì cung c frequency là onthly

 ‘ g  (Ô  


&
 
Inductive Logic Prograing là ӝt sӵ ӣ rӝng đưӧc sӱ dөng bӣi hҫu hӃt các phương
pháp đӇ phân loi dӳ liӋu đa quan hӋ. Đ là hӋ thӕng tì kiӃ các giҧ thuyӃt à n c
thӇ dӵ đoán nhãn lӟp cӫa bӝ đích dӵa trên tri th3c nӅn(dӳ liӋu huҩn luyӋn). gri th3c
nӅn đ là nhӳng ӕi quan hӋ (các vӏ tӯ), các bӝ dӳ liӋu(các sӵ kiӋn cơ sӣ). Các hӋ
thӕng ILP nәi tiӃng như là FOIL, Gole, Progol, gILDE, v.v« Ý tưӣng cӫa các
phương pháp:

45
Ǒ Phương pháp tiӃp cұn tӯ trên xuӕng, điӇn hình như là FOIL, ý tưӣng chính là
trong khi còn các u thì tiӃn hành to ra ӝt luұt, sau đ x a nhӳng u thõa
ãn luұt đ . giӃn hành cho tӟi khi hӃt các u.
Ǒ Phương pháp tiӃp cұn tӯ dưӟi lên, điӇn hình như là Gole, ý tưӣng chính là sӱ
dөng ӛi u như ӝt luұt, sau đ to ra luұt ӟi bҵng kӃt hӧp các luұt, cho
tӟi khi không còn c thӇ kӃt hӧp các luұt đưӧc nӳa.
Ǒ Phương pháp Cây quyӃt đӏnh, điӇn hình như là gILDE, ý tưӣng chính là chia tұp
hӧp nguӗn thành các tұp con dӵa theo ӝt kiӇ tra giá trӏ thuӝc tính(thưӡng là
tính theo ӝt đӝ đo nào đ ). Xây dӵng cây vӟi các lá đi diӋn cho các phân loi
còn cành đi diӋn cho các kӃt hӧp cӫa các thuӝc tính dn tӟi phân loi đ . Dӵa
trên cây đӇ đưa ra các luұt tӯ trên xuӕng.

Nhӳng lӧi ích cӫa nhӳng phương pháp này là nhanh, nh, và đӝ chính xác cao.
Nhӳng bҩt lӧi như là không hiӋu quҧ cho cơ sӣ dӳ liӋu c lưӧc đӗ phưӟc tp, không
thích hӧp cho nhӳng thuӝc tính liên tөc.

ga đi sau vào ӝt hӋ thӕng.

6  6 ‘Y   „’  Y „ 


Là ӝt hӋ thӕng:

±‘ gì ӝt bӝ các luұt à n nhҩt quán vӟi dӳ liӋu. Ví dө: §  ()
( )
ĺ  
( )
±‘ Lҫn lưӧc tӯ trên xuӕng, hӑc bao phӫ tuҫn tӵ
±‘ Xây dӵng ӛi luұt bҵng các Heuristic đ là Foil gain ± ӝt dng đһc biӋt cӫa đӝ
đo thông tin(Inforation Gain)

ĐӇ đӏnh giá ӝt vӏ tӯ p, khi uӕn thê vào luұt r hiӋn ti, ta dùng đӝ đo Foil gain:

grong đ P(r) và N(r) biӇu thӏ cho sӕ lưӧng nhӳng bӝ â và dương thõa ãn ӝt luұt r

‘ 
 )d(*
Là kӻ thuұt liên kӃt ҧo, cҧi thiӋn đáng kӇ hiӋu quҧ cӫa phân lӟp đa quan hӋ. ghê vào
bӝ cӫa quan hӋ không phҧi đích nhӳng ID cӫa bӝ đích. gránh đưӧc chi phí cao như kêt

46
hӧp vұt lý dӳ liӋu chuyên đәi và không gian dӳ liӋu thê, cho nên sӁ ít tính toán dư
thӯa. Mang li các hiӋu quҧ như chӍ nhân bҧn duy nhҩt nhӳng bӝ ID, sӱ dөng thӡi gian
và không gian thҩp. Và linh hot như là không nhân bҧn nhӳng ID giӳa nhӳng quan hӋ
không phҧi là đích và nhiӅu tұp hӧp cӫa nhӳng ID c thӇ tiӃp tөc ӝt ӕi quan hӋ,
đưӧc nhân bҧn tӯ nhӳng con đưӡng khác nhau kӃt nӕi khác nhau.

Ví dө:

Hình 40: Ví dө vӅ lan truyӅn bӝ ID.


Ví dө: Dưӟi đây là ӝt 3ng dөng sӱ dөng phương pháp lan truyӅn theo bӝ ID đӇ tính
toán đưa ra các luұt.

Hình 41: Ví dө lan truyӅn bӝ ID trong Ӭng dөng ³Cho Vay´


±‘ Nhӳng vӏ tӯ c thӇ suy ra tӯ hai bҧng trên: + Frequency=µonthly¶: 3 +, 1
±

47
+ Open date < 01/01/95: 2 +, 0
±

±‘ Giҧ sӱ luұt hiӋn ti r : ³Loan(L,+): -Loan(L,A,_,_,_,_)


±‘ P(r) = 3, N(r) = 2
±‘ ghê p= ³Account(A,_,frequence= onthly,_)´

Và ta uӕn tì nhӳng bӝ thӓa ãn p

‘ KӃt quҧ: {1,2,4,5}


‘ P(r+p) = 3, N(r+p) = 1;
‘ Þp dөng công th3c đӇ tính Foil_gain(p)= 3*( Ç log 2 (3 / 5) Á log 2 (3 / 4) )= 0,966

Các trưӡng hӧp phҧn tác dөng như nhân bҧn qua nhӳng hӋ sӕ phân đҫu ra lӟn, c nghĩa
là tҩt cҧ các bӝ trong quan hӋ đích đӅu liên kӃt vӟi tҩt cҧ các bӝ cӫa quan hӋ khác.
Nhân bҧn qua nhӳng liên kӃt dài, yӃu.

%‘ Ô 
&
 +
 )d(*
C ӝt phương pháp rҩt hiӋu quҧ sӱ dөng sӵ lan truyӅn theo bӝ ID đӇ phân lӟp đa
quan hӋ, đ là CrossMine. ĐӇ tích hӧp tӕt hơn các thông tin cӫa lan truyӅn ID,
CrossMine sӱ dөng nhӳng vi tӯ phưӟc tp như là nhӳng thành phҫn cӫa luұt. Mӝt vӏ tӯ
phưӟc tp p đưӧc chia là hai phҫn:

±‘ Đưӡng tiên quyӃt: là vӏ tӯ chӍ ra là cách nào đӇ lan truyӅn theo bӝ ID. Vi dө:
³Loan.account_ID -> Account.account_ID´ chӍ ra nhân bҧn nhӳng ID tӯ Loan
tӟi Account sӱ dөng account_ID.
±‘ Ràng buӝc : vӏ tӯ này chӍ ra ràng buӝc trên quan hӋ tӟi quan hӋ à n đưӧc lan
truyӅn theo bӝ ID, c thӇ là ph trù hoһc sӕ hӑc. Ví dө: ³Account.frequence =
onthly´ .

Ví dө: luұt ³ r = Loan(L,+): -Loan(L,A,_,_,_,_), Account(A,_,frequency =onthly,_)´,


trong CrossMine đưӧc biӇu diӉn thành ³Loan(+) : -[Loan.account_ID ->
Account.account_ID, Account.frequency = onthly´.

Quy trình tәng quát giҧi thuұt bao phӫ tuҫn tӵ CrossMine là trong khi còn đӫ nhӳng bӝ
đích, thì tiӃp tөc to ra ӝt luұt, sau đ x a nhӳng bӝ đích dương thõa ãn luұt đ và
lұp cho tӟi khi nào không còn đӫ bӝ đích. Quy trình này đưӧc biӇu diӉn bӣi hình vӁ
sau:

48
Hình 42: Qua trình bao phӫ các u dương trong phương pháp CrossMine.
ĐӇ to ra ӝt luұt thì chúng ta c nhӳng bưӟc là sau:
Π(true)
gì vӏ tӯ 

 

 foil-gain()> ngưӥng ¬  thê  vào luұt hiӋn ti


 thoát

grong phương pháp CrossMine thì tҩt cҧ các vӏ tӯ trong ӝt quan hӋ c thӇ đưӧc đӏnh
giá dӵa trên nhӳng nhân bҧn ID và dùng foil-gain đӇ đӏnh giá các vӏ tӯ. Vӟi nhӳng
thuӝc tính ph trù thì ta tính foil-gain trӵc tiӃp, còn nhӳng thuӝc tính sӕ hӑc nӃu là
liên tөc thì ta rӡi rc h a tҩt cҧ các giá trӏ, sau đ áp dөng foil-gain đӇ tính.

Dưӟi đây là quy trình chi tiӃt cӫa phương pháp CrossMine:
‡‘ Bҩt đҫu tӯ quan hӋ đích
±‘ ChӍ duy nhҩt quan hӋ đích đưӧc tác đӝng
‡‘ Lұp
±‘ gì kiӃ trong tҩt cҧ các quan hӋ đã tác đӝng
±‘ gì kiӃ trong tҩt cҧ các quan hӋ c thӇ liên kӃt tӟi nhӳng quan hӋ đã
tác đӝng
±‘ ghê nhӳng vӏ tӯ tӕt nhҩt vào luұt hiӋn ti
±‘ Đһt các quan hӋ liên quan đ thành đã tác đӝnh
‡‘ Cho tӟi khi
±‘ Vӏ tӯ tӕt nhҩt không lӟn hơn gain
±‘ Luұt hiên ti quá dài
Ví dө:

49
Hình 43: Ví dө tì kiӃ vӏ tӯ cӫa phương pháp CrossMine
guy nhiên khi thӵc hiӋn phương pháp này ta gһp phҧi hn chӃ như đôi khi không thӇ
tì thҩy nhӳng vӏ tӯ c ích trên nhӳng quan hӋ cӫa ӕi quan hӋ.

Ví dө:

Hình 44: Ví dө vӏ tӯ không phҧi là tӕt


Giҧi pháp cӫa CrossMine đӇ giҧi quyӃt vҩn đӅ đ là khi nhân bҧn ID đӃn ӝt quan hӋ
cӫa ӕi quan hӋ, nhân bҧn nhiӅu hơn ӝt bưӟc đӇ đӃn quan hӋ tiӃp theo cӫa thӵc thӇ.

Nhӳng thí nghiӋ cho thҩy rҵng CrossMine là ӝt phương pháp tùy biӃn cao tӯ
phương pháp nhӳng ILP truyӅn thӕng và n đt đưӧc sӵ chính xác cao.

,‘  


&
   V  
V -
Go nh  đa quan hӋ là quá trình xӱ lý phân vùng nhӳng đӕi tưӧng dӳ liӋu và ӝt bӝ
các nh  dӵa trên nhӳng đһc điӇ chung cӫa chúng, sӱ dөng nhӳng thông tin trong
nhiӅu quan hӋ. CrossClus là ӝt giҧi thuұt cӫa go nh  đa quan hӋ bҵng cách sӱ

50
dөng nhӳng gӧi ý cӫa ngưӡi dùng trong go nh  cũng như sӱ dөng phương pháp lan
truyӅn theo bӝ ID đӇ tránh nhӳng liên kӃt vұt lý.

C ӝt thách th3c cӫa go nh  đa quan hӋ đ là c quá nhiӅu thuӝc tính trong
nhӳng ӕi quan hӋ khác nhau, và chӍ ӝt bӝ phұn nhӓ trong chúng là thích hӧp vӟi
công viӋc go nh .

Ví dө:

Hình 45: Ví dө ӕi quan hӋ cӫa quan hӋ đích vӟi các quan hӋ khác
Mӝt ngưӡi dùng c thӇ quan tâ tӟi ӝt nh  Student sӱ dөng ӝt khía cnh nào đ .
Ngưӡi dùng c thӇ c nhӳng nҳ bҳt tӕt cho nhӳng yêu cҫu 3ng dөng cũng như ngӳ
nghĩa dӳ liӋu cӫa hӑ. Do đ , vӟi sӵ gӧi ý cӫa ngưӡi dùng, һc dù ӣ dng rҩt đơn giҧn,
c thӇ cҧi thiӋn hiӋu quҧ và chҩt lưӧng cӫa go nh  đa quan hӋ nhiӅu chiӅu.
CrossClus cho phép nhӳng truy vҩn cӫa ngưӡi dùng c thӇ ch3a đӵng ӝt quan hӋ
đích và ӝt hay nhiӅu nhӳng thuӝc tính phù hӧp, nhӳng th3 à đi cùng vӟi өc tiêu
go nh  cӫa ngưӡi dùng. ĐӇ tӯ đ c thӇ thu hҽp không gian các ӕi quan hӋ.

Ví dө:

51
Hình 46: Ví dө go nh  vӟi hưӟng dn cӫa ngưӡi dùng
ĐӇ sӱ dөng các thuӝc tính trong nhiӅu quan hӋ cho viӋc go nh , CrossClus đӏnh
nghĩa ra nhӳng thuӝc tính đa quan hӋ. Mӝt thuӝc tính đa quan hӋ đưӧc đӏnh nghĩa bӣi

±‘ Mӝt đưӡng đi liên kӃt.


a‘ Ví dө: Student ĺ Register ĺ OpenCourse ĺ Course
±‘ Mӝt thuӝc tính.
a‘ Ví dө: Course.area
±‘ Mӝt toán tӱ kӃt hӧp(Đӕi vӟi thuӝc tính sӕ)
a‘ Ví dө: su hoһc average

C hai loi thuӝc tính, thuӝc tính đҫu tiên là thuӝc tính ph trù. Vi dө: f = [Student
ĺ Register ĺ OpenCourse ĺ Course, Course.area, null, trong ví dө này ta thҩy thành
phҫn Null là toán tӱ kӃt hӧp, bӣi vì toán tӱ kӃt hӧp này chӍ dùng cho thuӝc tính sӕ hӑc.
ghuӝc tính th3 hai là thuӝc tính sӕ hӑc. Ví dө: ĐiӇ trung bình cӫa student, h =
[Student ĺ Register, Register.grade, average. Ӣ thuӝc tính này tao c thӇ c kӃt quҧ,
ví dө: h(t1) = 3.5.

CrossClus cҫn tì nhӳng thuӝc tính thích hӧp thông qua nhӳng ӕi quan hӋ. Và trong
quá trình tì kiӃ thì c nhӳng thách th3c. C hai thách th3c chính cho quá trình tì
kiӃ. gh3 nhҩt quan hӋ đích Rt c thӇ nӕi vӟi ӛi quan hӋ R không phҧi là đích thông
qua nhӳng con đưӡng liên kӃt khác nhau, ӛi thuӝc tính trong R c thӇ sӱ dөng như là
ӝt thuӝc tính đa quan hӋ. gh3 hai là giӳa ӝt sӕ lưӧng lӟn các thuӝc tính, chӍ c ӝt

52
vài là phù hӧp vӟi nhӳng truy vҩn cӫa ngưӡi dùng, trong khi nhӳng thông tin khác thì
không phù hӧp.

Là sao co thӇ xác đӏnh đưӧc nhӳng thuӝc tính à tránh viӋc tì kiӃ ӣ nhӳng vùng
không thích hӧp trong không gian thuӝc tính?. Cách giҧi quyӃt đ là: Xe lưӧc đӗ
quan hӋ là ӝt đӗ thӏ, vӟi các quan hӋ là nút còn các liên kӃt là cnh. Dùng phương
pháp heuristic, bҳt đҫu tì kiӃ ӣ thuӝc tính gӧi ý cӫa ngưӡi dùng và lұp li tì kiӃ
vӟi nhӳng thuӝc tính c ích ӣ nhӳng quan hӋ hàng x . N sӁ ӣ rӝng không gian tì
kiӃ tӟi nhӳng quan hӋ c quan hӋ, và sӁ không đi sâu vào nhӳng hưӟng ngu nhiên.

Là thӃ nào à CrossClus c thӇ quyӃt đӏnh ӝt thuӝc tính hàng x  là thích hӧp hay
không?. CrossClus sӁ xe xét là thӃ nà à thuӝc tính go nh  nhӳng bӝ đích.
Nhӳng thuӝc tính thích hӧp này sӁ đưӧc chӑn dӵa trên nhӳng thuӝc tính chӍ rõ bӣi
ngưӡi dùng. gӯ tұp hӧp nhӳng thuӝc tính thích hӧp đưӧc tì thҩy, CrossClus lӵa chӑn
ӝt bӝ nhӳng thuӝc tính không dư thӯa à c sӵ tương tӵ giӳa hai thuӝc tính bҩt kǤ
nào không lӟn hơn ӝt khoҧng cho trưӟc. Dùng các Vector tương tӵ đӇ đӏnh giá sӵ
tương tӵ giӳa các thuӝc tính. Giҧ sӱ c N bӝ đích, t1 -> tn, đһt ª  là vector tương tӵ
cӫa thuӝc tính , sӁ c vector chӍ ra sӵ tương tӵ ӣ ӛi cұp nút. Dӵa trên Vector này
đӇ tính toán.

Ví dө:

Hình 47: Các bưӟc tì các thuӝc tính thích hӧp ӣ các quan hӋ khác trong CrossClus.

53
Sӱ dөng CLARANS, ӝt thuұt giҧi k-edoids cho cơ sӣ dӳ liӋu lӟn. Ý tưӣng chính
cӫa CLARANS là xe ӝt không gian tәng thӇ cӫa tҩt cҧ các nh  c thӇ như là ӝt
đӗ thӏ và tì kiӃ ngu nhiên đӇ tì kiӃ nh  tӕt nhҩt trong đӗ thӏ này. N bҳt đҫu
bҵng cách chӑn ngu nhiên k bӝ nhӳng là nhӳng odoid ban đҫu, tӯ đ n xây dӵng
nên k nh . grong ӛi bưӟc, ӝt edoid tӗn ti sӁ đưӧc thây thӃ bӣi ӝt edoid ӟi
đưӧc lӵa chӑn ngu nhiên. NӃu sӵ thây đәi dn tӟi ӝt nh  tӕt hơn, thì edoid ӟi
sӁ đưӧc giӳ li. ghӫ tөc này là ӝt vòng lұp cho tӟi khi nào nhӳng nh  còn li thӵc
sӵ vӳng chҳc.

CrossClus cung cҩp nhӳng kӃt quҧ go nh  cho ngưӡi dùng, đi cùng đ là nhӳng
thông tin vӅ ӛi thuӝc tính. gӯ nhӳng thuӝc tính cӫa nhiӅu quan hӋ, nhӳng đưӡng đi
kӃt nӕi cӫa n , và nhӳng toán tӱ kӃt hӧp, ngưӡi dùng hӑc cách khai thác ӛi nh , và
hiӇu tӕt hơn vӅ kӃt quҧ go nh .

p V  ‘ *
 


¬  ¬  
[1 Jiawei Han, Micheline KaberDataining: Concepts and techniques, 2nd Edition,
Morgan Kaufann Publishers, March 2006.

[2 Graph ining(CS 15-826) Jure Leskovec http://www.cs.cu.edu/jure

[3 Hassan Sayyadi, Shanchan Wu, Graph Mining, Departent of coputer Science,
University of Maryland-College Park.

[4 Ait Shara, Social Networks, INF -38FQ, School of Inforation, University of
gexas at Austin

[5 Xifeng Yan and Jiawei Han, Pattern Mining gSpan: Graph-Based Substructure.

Ǒ http://www-05.ib.co/nl/events/presentations/social_network_analysis.pdf

[6 Donato Malerba, Relational Data Mining, Dipartiento di Inforatica, Università


degli studi di Bari, alerba@di.uniba.it, http://www.di.uniba.it/~alerba/

54
p V ‘ Ô 


p ,‘ g 
  

55

You might also like