You are on page 1of 26

Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 2

MUÏC LUÏC

1. Giôùi thieäu ........................................................................................................3


2. Caùc thuaät toaùn Data Mining cuûa Microsoft.....................................................3
3. Xaây döïng caùc moâ hình Data Mining baèng Analysis Services 2000 ...............6
3.1. Nguoàn döõ lieäu cho moâ hình data mining..................................................6
3.2. Taïo moâ hình data mining .........................................................................7
3.3. Huaán luyeän moâ hình data mining.............................................................8
3.4. Duyeät qua noäi dung cuûa moâ hình data mining .........................................9
3.5. Duøng moâ hình data mining thöïc hieän döï baùo .........................................12
4. Keát luaän .........................................................................................................15
Phuï luïc A: Keát quaû thöû nghieäm ........................................................................16
A.1. Keát quaû thöïc thi treân thuaät toaùn caây quyeát ñònh ...................................16
A.1.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng16
A.1.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng ..........19
A.2. Keát quaû thöïc thi treân thuaät toaùn Clustering (phaân lôùp).........................21
A.2.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng21
A.2.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng ..........23
Phuï luïc B: Moät soá thuaät ngöõ .............................................................................25
Phuï luïc C: Chöông trình demo ..........................................................................26
Taøi lieäu tham khaûo:...........................................................................................27
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 3

Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000
1. Giôùi thieäu
Trong moâi tröôøng thöông maïi ñieän töû ngaøy nay, lónh vöïc data mining ngaøy caøng
thu huùt nhieàu söï quan taâm. Nhôø vaøo caùc phöông tieän töï ñoäng hay baùn töï ñoäng, data
mining khaûo saùt vaø phaân tích treân moät löôïng lôùn döõ lieäu ñeå ruùt ra nhöõng maãu vaø qui
luaät coù yù nghóa. Caùc thoâng tin naøy giuùp caùc coâng ty kinh doanh chaúng haïn nhö hieåu roõ
khaùch haøng hôn ñeå töø ñoù coù caùc chieán löôïc phuø hôïp hôn nhaèm nhaèm caûi thieän hoaït
ñoäng tieáp thò, baùn haøng vaø hoã trôï khaùch haøng. Qua nhieàu naêm hoaït ñoäng, caùc coâng ty
kinh doanh tích luyõ ñöôïc caùc cô sôû döõ lieäu (CSDL) raát lôùn töø caùc öùng duïng nhö Laäp keá
hoaïch söû duïng nguoàn taøi nguyeân cho hoaït ñoäng kinh doanh (Enterprise Resource
Planning (ERP)), Quaûn lyù khaùch haøng (Client Relationship Management (CRM)), hay
töø caùc heä thoáng ñieàu haønh khaùc. Ngöôøi ta tin raèng coù caùc giaù trò chöa ñöôïc khai thaùc
tieàm aån beân trong caùc döõ lieäu naøy. Caùc kyõ thuaät data mining coù theå giuùp laáy ra nhöõng
maãu nhö theá.

Gaàn ñaây Microsoft ñaõ ñöa ra OLE DB cho giao dieän laäp trình öùng duïng (API) Data
Mining vôùi nhieàu data mining provider haøng ñaàu. API naøy ñònh nghóa moät ngoân ngöõ
truy vaán data mining döïa treân cuù phaùp SQL. Caùc moâ hình data mining (Data Mining
Model) ñöôïc xem nhö laø moät daïng ñaëc bieät cuûa baûng quan heä. Caùc tính toaùn döï baùo
ñöôïc xem nhö laø moät daïng ñaëc bieät cuûa pheùp keát. Microsoft SQL Server 2000
Analysis Services cung caáp Microsoft data mining provider döïa treân OLE DB cho
chuaån Data Mining. Provider naøy goàm hai thuaät toaùn data mining: Microsoft Decision
Trees vaø Microsoft Clustering.

2. Caùc thuaät toaùn Data Mining cuûa Microsoft


Hai thuaät toaùn data mining trong SQL Server 2000, Microsoft Decision Trees
(MDT) vaø Microsoft Clustering, laø keát quaû cuûa nhieàu naêm nghieân cöùu taïi Microsoft
Research. Sau ñaây laø trình baøy toùm taét hai thuaät toaùn naøy.

Thuaät toaùn Microsoft Decision Trees (caây quyeát ñònh)


Caây quyeát ñònh coù leõ laø kyõ thuaät phoå bieán nhaát cho vieäc laäp moâ hình döï baùo.
Baûng sau ñaây laø moät taäp döõ lieäu huaán luyeän (training data) ñöôïc duøng ñeå döï baùo credit
risk

Customer Debt level Income level Employment type Credit risk


ID
1 High High Self-employed Bad
2 High High Salaried Bad
3 High Low Salaried Bad
4 Low Low Salaried Good
5 Low Low Self-employed Bad
6 Low High Self-employed Good
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 4

7 Low High Salaried Good


Sau ñaây laø moät caây quyeát ñònh ñöôïc taïo ra töø taäp döõ lieäu naøy:

Trong ví duï naøy, thuaät toaùn Decision Tree xaùc ñònh thuoäc tính quan troïng nhaát laø Debt
level, do ñoù reõ nhaùnh ñaàu tieân ñöôïc thöïc hieän döïa treân debt level. Node vôùi Debt =
High laø node laù (caû ba tröôøng hôïp ñeàu laø bad credit risk). Node vôùi Debt = Low coøn
laãn loän (3 tröôøng hôïp good credit risk, 1 tröôøng hôïp bad credit risk). Tieáp theo,
Employment laø thuoäc tính quan troïng keá tieáp. Töông töï node vôùi Employment =
Salaried laø node laù.

Treân ñaây chæ laø moät ví duï nhoû döïa vaøo döõ lieäu toång hôïp, nhöng noù cho thaáy caây quyeát
ñònh coù theå duøng caùc thuoäc tính coù lieân quan ñeå döï baùo credit risk. Khi phaïm vi cuûa
vaán ñeà ñöôïc môû roäng thì seõ gaây khoù khaên cho vieäc ruùt ra caùc luaät moät caùch thuû coâng.
Thuaät toaùn coù theå chaïy treân haøng traêm thuoäc tính vaø haøng trieäu record ñeå ñöa ra caây
quyeát ñònh moâ taû caùc luaät döï baùo credit risk.

Coù nhieàu thuaät toaùn khaùc nhau vôùi caùc phöông phaùp reõ nhaùnh khaùc nhau ñöôïc duøng ñeå
xaây döïng caây quyeát ñònh. Microsoft Decision Tree laø caây phaân lôùp theo xaùc suaát
(Probabilistic Classification Tree). Noù raát gioáng vôùi C4.5, nhöng maëc ñònh duøng
Bayesian score laøm tieâu chuaãn reõ nhaùnh thay vì Entropy.

Thuaät toaùn Microsoft Clustering


Clustering nghóa laø tìm caùc nhoùm (hay cluster) trong taäp döõ lieäu goàm caùc taäp
con coù caùc record töông töï nhau. Noù khaùc vôùi moâ hình döï baùo ôû choã noù khoâng coù
thuoäc tính ñích trong taäp döõ lieäu. Thuaät toaùn clustering quyeát ñònh thuoäc tính “aån” môùi
naøy baèng caùch khaûo saùt taäp döõ lieäu. Coù nhieàu phöông phaùp phaân nhoùm döõ lieäu. Caùc
thuaät toaùn phoå bieán nhö K-Means, caùc phöông phaùp khoái lieân keát nhieàu taàng, vaø laäp
moâ hình pha troän baèng caùch duøng thuaät toaùn Expectation-Maximization (EM) ñeå lieân
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 5

keát caùc moâ hình pha troän theo xaùc suaát tôùi taäp döõ lieäu. Caùc record cuûa taäp döõ lieäu coù
theå thuoäc veà caùc cluster khaùc nhau tuyø thuoäc vaøo caùch thieát laäp giôùi haïn.

Xeùt moät CSDL nhaân vieân, trong ñoù moãi nhaân vieân goàm ba thuoäc tính: age, salary, vaø
vested amount. Ngöôøi söû duïng muoán coù moät baûng veà ñoä tuoåi trung bình cuûa caùc nhaân
vieân coù vested amount trong khoaûng 100K-200K, 200K-400K, vaø 400K-1000K vaø coù
löông trong khoaûng 50K-100K, 100K-200K, 200K-300K. Ñaây laø loaïi döõ lieäu ba chieàu.
Caùc record cuûa döõ lieäu n-chieàu coù theå ñöôïc xem nhö laø caùc ñieåm trong khoâng gian n-
chieàu. Chaúng haïn, caùc record daïng (age, salary) coù theå ñöôïc xem nhö caùc ñieåm trong
khoâng gian 2-chieàu, vôùi chieàu age vaø chieàu salary. Hình 3a vaø 3b minh hoaï hai caùch
bieåu dieãn cho ví duï naøy.

Vieäc tìm caùc cluster trong khoâng gian nhieàu chieàu (4 chieàu hay lôùn hôn) thì raát phöùc
taïp ñoái vôùi con ngöôøi. Neáu chæ ñôn giaûn bieåu dieãn döõ lieäu baèng caùc ñieåm thì seõ khoâng
giuùp ích gì nhieàu. Tuy nhieân, caùc thuaät toaùn clustering töï ñoäng tìm caùc cluster nhö theá
trong taäp döõ lieäu. Moãi cluster ñöôïc theå hieän bôûi phaân boá cuûa chính noù.

Thuaät toaùn Microsoft Clustering coù cô sôû laø thuaät toaùn Expectation and Maximization
(EM). Thuaät toaùn naøy laëp ñi laëp laïi giöõa hai böôùc. Trong böôùc ñaàu tieân, goïi laø böôùc E
hay “Expectation”, thaønh phaàn cluster cuûa moãi tröôøng hôïp ñöôïc tính ra. Trong böôùc
thöù hai, goïi laø böôùc M hay “Maximization”, caùc thoâng soá (parameter) cuûa caùc moâ hình
ñöôïc öôùc löôïng laïi döïa vaøo caùc thaønh phaàn cluster naøy. EM töông töï vôùi K-Means, vôùi
caùc böôùc chính sau ñaây:
1. Thieát laäp caùc phöông tieän khôûi taïo
2. Gaùn caùc tröôøng hôïp cho moãi phöông tieän baèng caùch söû duïng moät vaøi ñoä ño
khoaûng caùch
3. Tính ra caùc phöông tieän môùi döïa vaøo caùc thaønh vieân cuûa moãi cluster
4. Thieát laäp caùc bieân cho vuøng chöùa môùi döïa vaøo caùc phöông tieän môùi
5. Laëp laïi chu kyø cho ñeán khi hoäi tuï.

EM khaùc vôùi K-Means ôû nhieàu khía caïnh. Ñieåm khaùc bieät chuû yeáu laø EM khoâng xaùc
ñònh bieân roõ raøng giöõa caùc cluster. Moät tröôøng hôïp ñöôïc gaùn cho moãi cluster vôùi moät
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 6

xaùc suaát naøo ñoù. Sau ñaây laø minh hoaï moät vaøi laàn laëp cuûa thuaät toaùn EM cho taäp döõ
lieäu moät chieàu. Giaû söû döõ lieäu trong moãi cluster coù phaân boá Gauss. Caùc phöông tieän
cuûa moãi cluster ñöôïc hoaùn ñoåi nhau sau moãi laàn laëp.

Haàu heát caùc thuaät toaùn Clustering ñeàu phaûi ñoïc taát caû caùc con troû döõ lieäu vaøo boä nhôù,
ñieàu naøy coù theå gaây ra caùc vaán ñeà nghieâm troïng veà khaû naêng taûi cuûa boä nhôù khi xöû lyù
moät taäp döõ lieäu lôùn. Ñeå giaûi quyeát vaán ñeà naøy, thuaät toaùn Microsoft Clustering duøng
moät phaïm vi cô sôû, ôû ñoù choïn löïa löu tröõ caùc phaàn CSDL quan troïng vaø toùm taét caùc
phaàn khaùc. Tö töôûng chuû ñaïo laø ñoïc döõ lieäu vaøo caùc vuøng nhôù theo töøng khoái vaø döïa
vaøo moâ hình data mining ñaõ ñöôïc caäp nhaät ñeå gom caùc tröôøng hôïp gaàn nhau döïa vaøo
phaân boá Gauss, vì theá caùc tröôøng hôïp ñoù ñöôïc neùn laïi. Thuaät toaùn Microsoft Clustering
chæ caàn moät laàn duyeät qua döõ lieäu thoâ.

3. Xaây döïng caùc moâ hình Data Mining baèng Analysis Services 2000
3.1. Nguoàn döõ lieäu cho moâ hình data mining
Xeùt caâu hoûi: haõy chæ ra caùc khaùch haøng coù nhieàu nguy cô rôøi boû ngaân haøng nhaát
döïa treân thoâng tin cuûa khaùch haøng, thoâng tin giao dòch cuûa hoï vôùi ngaân haøng.

Ñeå traû lôøi caâu hoûi naøy, caùc baûng CSDL quan heä sau ñaây ñöôïc duøng ñeán:
- Baûng Customer: chöùa caùc thoâng tin veà khaùch haøng cuûa ngaân haøng bao
goàm: age (tuoåi cuûa khaùch haøng), income (thu nhaäp), educational level
(trình ñoä hoïc vaán), house value (giaù trò nhaø), loan (nôï),…
- Baûng Purchases: chöùa caùc thoâng tin giao dòch cuûa khaùch haøng bao goàm:
checking accounts (taøi khoaûn vaõng lai), money market savings (tieàn gôûi
tieát kieäm), …
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 7

Moâ hình quan heä cho hai baûng naøy nhö sau:

3.2. Taïo moâ hình data mining


Khi taïo moät moâ hình data mining (DMM), baïn phaûi ñònh nghóa caáu truùc vaø caùc
thuoäc tính cho moâ hình. Ñeå ñònh nghiaõ moät DMM môùi trong Microsolf OLE DB for
Data Mining API, duøng leänh CREATE DATA MINING MODEL. Töông töï nhö leänh
CREATE TABLE, leänh taïo moâ hình naøy chæ ñònh nghóa caáu truùc vaø caùc thuoäc tính cuûa
noù, chöù hoaøn toaøn khoâng coù döõ lieäu. Cuõng töông töï nhö theá, leänh naøy ñònh nghóa khoaù,
coät, thuaät toaùn ñöôïc duøng vaø caùc tham soá duøng cho vieäc huaán luyeän DMM sau naøy.

Cuù phaùp ñònh nghóa moâ hình data mining:

CREATE MINING MODEL <teân moâ hình> (<ñònh nghóa caùc coät>) USING <Dòch
vuï>[(<caùc tham soá dòch vuï>)]

Tuy nhieân, do caùc coät cuûa DMM yeâu caàu caùc thoâng tin ñaëc thuø, neân coù moät soá môû
roäng ñöôïc ñöa vaøo cuù phaùp SQL chuaån. Sau ñaây laø moät ví duï aùp duïng cho caáu truùc
baûng ñöôïc moâ taû ôû treân:
CREATE MINING MODEL [Model_MDT_Churn_Prediction]
([Customer Id] LONG KEY,
[Income] DOUBLE CONTINUOUS ,
[Other Income] DOUBLE CONTINUOUS ,
[Loan] DOUBLE CONTINUOUS ,
[Age] DOUBLE CONTINUOUS ,
[Region Name] TEXT DISCRETE ,
[Home Years] DOUBLE CONTINUOUS ,
[House Value] DOUBLE CONTINUOUS ,
[Education Level] TEXT DISCRETE ,
[Home Type] TEXT DISCRETE ,
[Churn Yes No] TEXT DISCRETE PREDICT)
USING Microsoft_Decision_Trees
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 8

Caùc töø khoaù LONG, DOUBLE vaø TEXT ñònh nghóa kieåu döõ lieäu cuûa coät. Tuy
nhieân coù moät vaøi môû roäng so vôùi SQL chuaån. Töø khoaù KEY chæ ñònh coät (caùc coät) laøm
khoaù. Hai töø khoaù CONTINUOUS (lieân tuïc) vaø DISCRETE (rôøi raïc) laø hai giaù trò coù
theå coù cho caùc coät noäi dung. Töø khoaù PREDICT chæ ñònh coät keát quaû döï baùo.

Chuù yù: baïn cuõng coù theå taïo moâ hình data mining töø Analysis Manager, khi ñoù leänh
CREATE MINING MODEL ñöôïc phaùt sinh töï ñoäng.

3.3. Huaán luyeän moâ hình data mining


Sau khi taïo moâ hình data mining, böôùc tieáp theo laø huaán luyeän moâ hình. Huaán
luyeän moâ hình nghóa laø chaïy moâ hình treân döõ lieäu duøng ñeå huaán luyeän (training data)
baèng caùch duøng moät thuaät toaùn ñaëc thuø naøo ñoù. Ñaây laø böôùc toán nhieàu thôøi gian nhaát.
Thuaät toaùn coù theå laëp laïi moät vaøi laàn treân taäp döõ lieäu huaán luyeän ñeå tìm ra caùc maãu aån
beân trong taäp döõ lieäu naøy. OLE DB for Data Mining API che giaáu caùc phöùc taïp cuûa
vieäc huaán luyeän moâ hình baèng caùch cung caáp leänh INSERT nhö laø leänh duøng ñeå huaán
luyeän. Maëc duø coù moät löôïng döõ lieäu khoång loà ñöôïc ñöa vaøo moâ hình data mining trong
giai ñoaïn naøy, nhöng noù khoâng löu tröõ baát kyø döõ lieäu naøo, thay vaøo ñoù noù löu tröõ caùc
maãu cuûa chuùng. Khi moâ hình ñaõ ñöôïc huaán luyeän, öùng duïng khaùch coù theå duyeät qua
noäi dung cuûa moâ hình vaø thöïc hieän caùc truy vaán treân taäp döõ lieäu môùi naøy.

Cuù phaùp cuûa leänh INSERT:


INSERT [INTO] <teân moâ hình>
[ <caùc coät ñöôïc aùnh xaï cuûa moâ hình > ]
<truy vaán döõ lieäu nguoàn>
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 9

Ví duï: Huaán luyeän cho moâ hình Model_MDT_Churn_ Prediction ñöôïc taïo ra ôû
treân.

INSERT INTO [Model_MDT_Churn_ Prediction]


(SKIP, [Income], [Other Income], [Loan], [Age], [Region Name], [Home
Years], [House Value], [Education Level], [Home Type], [Churn Yes No])

OPENROWSET(‘SQLOLEDB’, ’…’, SELECT DISTINCT [CustomerID],


[Income], [OtherIncome], [Loan], [Age], [RegionName], [HomeYears],
[HouseValue], [EducationLevel], [HomeType], [Churn_Yes_No] FROM
Customers)

3.4. Duyeät qua noäi dung cuûa moâ hình data mining
Khi moâ hình ñaõ ñöôïc huaán luyeän, töø Analysis Manager baïn coù theå duyeät qua
noäi dung moâ hình duøng tree browser. Trong browser naøy, noäi dung hieån thò daïng ñoà
hoaï, vaø cho pheùp löôùt qua caùc phaàn noäi dung khaùc nhau. Noäi dung cuûa moät DMM laø
taäp caùc luaät, caùc coâng thöùc, caùc phaân lôùp, caùc phaân boá, caùc node, hay baát kyø thoâng tin
naøo khaùc coù nguoàn goác töø moät taäp döõ lieäu ñaëc bieät baèng caùch duøng kyõ thuaät data
mining.

Tuyø theo kyõ thuaät data mining ñöôïc duøng khi taïo DMM maø loaïi noäi dung coù theå khaùc
nhau giöõa caùc moâ hình. Noäi dung DMM cuûa moät caây quyeát ñònh seõ khaùc vôùi noäi dung
DMM cuûa clustering.

Duyeät qua noäi dung cuûa moâ hình coù theå cung caáp caùc kieán thöùc quan troïng beân trong
döõ lieäu. Trong nhieàu tröôøng hôïp, noù cho pheùp caùc nhaø phaân tích döõ lieäu hieåu ñöôïc caùc
maãu vaø caùc qui luaät vaø döï ñoaùn caùc ñaëc ñieåm cuûa döõ lieäu môùi.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 10

Sau ñaây laø maãu ñöôïc tìm thaáy bôûi thuaät toaùn Decision Trees chaïy treân taäp döõ lieäu
huaán luyeän:

Ta cuõng coù theå duyeät qua taát caû caùc tröôøng hôïp coù theå coù cuûa moâ hình. Xeùt moät moâ
hình DMM vôùi caùc coät nhö sau: Gender (giôùi tính), Age (tuoåi) vaø HairColor (maøu toùc).
Sau khi moâ hình naøy ñöôïc huaán luyeän, coät Gender seõ coù caùc traïng thaùi (giaù trò)
“Male” (nam), “Female” (nöõ), “Missing” (khoâng bieát). Ñoái vôùi coät HairColor, DMM
nhìn thaáy vaø ghi nhôù caùc giaù trò “Black”, “Gray”, vaø “Missing”. Ñoái vôùi coät Age, maëc
duø DMM thaáy taát caû caùc giaù trò lieân tuïc cuûa noù, nhöng khoâng ghi nhôù töøng giaù trò phaân
bieät maø chæ ghi nhôù caùc giaù trò minimum (nhoû nhaát), mean (trung bình), maximum (lôùn
nhaát).

Giaû söû moâ hình ñöôïc xaây döïng ñeå döï baùo coät HairColor töø moät taäp döõ lieäu 100 ngöôøi,
noäi dung cuûa DMM coù theå nhö sau:
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 11

Caâu truy vaán:


SELECT *, PredictProbability(HairColor) FROM HairColorPredictDMM

Coù keát quaû nhö sau:

Gender Age HairColor P(HairColor)


Male 2 Black .667
Male 2 Gray .267
Male 2 NULL .067
Male 91 Black .300
Male 91 Gray .625
Male 91 NULL .075
Male 45 Black .667
Male 45 Gray .267
Male 45 NULL .067
Male NULL Black .600
Male NULL Gray .350
Male NULL NULL .05
Female 2 Black .933
Female 2 Gray .067
Female 2 NULL .000
Female 91 Black .300
Female 91 Gray .625
Female 91 NULL .075
Female 45 Black .933
Female 45 Gray .067
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 12

Gender Age HairColor P(HairColor)


Female 45 NULL .000
Female NULL Black .600
Female NULL Gray .350
Female NULL NULL .05
NULL 2 Black .800
NULL 2 Gray .167
NULL 2 NULL .033
NULL 91 Black .300
NULL 91 Gray .625
NULL 91 NULL .075
NULL 45 Black .800
NULL 45 Gray .167
NULL 45 NULL .033
NULL NULL Black .600
NULL NULL Gray .350
NULL NULL NULL .05

Caâu truy vaán:


SELECT Age, PredictProbability(HairColor) FROM HairColorPredictDMM
WHERE Gender = 'Male' and HairColor = 'Black'
Coù keát quaû nhö sau:

Gender Age HairColor P(HairColor)


Male 2 Black .667
Male 91 Black .300
Male 45 Black .667
Male NULL Black .600

3.5. Duøng moâ hình data mining thöïc hieän döï baùo
Sau khi ñöôïc huaán luyeän, moâ hình coù theå ñöôïc duøng ñeå thöïc hieän caùc döï baùo
treân caùc taäp döõ lieäu môùi.

Trong OLE DB for Data Mining API, leänh duøng ñeå thöïc hieän döï baùo laø leänh
SELECT. Leänh naøy thöïc hieän keát moät moâ hình data mining vôùi moät baûng input môùi.
Pheùp keát ñaëc bieät naøy ñöôïc goïi laø PREDICTION JOIN.

Cuù phaùp toång quaùt cuûa leänh SELECT:


SELECT [FLATTENED] <SELECT-expressions>
FROM <teân moâ hình> PREDICTION JOIN <truy vaán döõ lieäu nguoàn> ON <ñieàu kieän keát>
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 13
[WHERE <WHERE-expression>]

Meänh ñeà <truy vaán döõ lieäu nguoàn>: chæ ñònh taäp döõ lieäu môùi coù caùc thuoäc tính ñöôïc
döï baùo baèng caùch keát hôïp taäp naøy vôùi tri thöùc trong moâ hình DMM.

PREDICTION JOIN: caùc tröôøng hôïp thöïc teá töø <truy vaán döõ lieäu nguoàn> ñöôïc keát
hôïp vôùi taäp caùc tröôøng hôïp coù theå coù töø moâ hình <teân moâ hình> thoâng qua pheùp toaùn
PREDICTION JOIN. Söï keát hôïp cuûa caùc tröôøng hôïp trong döõ lieäu nguoàn vôùi taát caû caùc
tröôøng hôïp coù theå coù thoâng qua PREDICTION JOIN veà maët ngöõ nghóa khaùc vôùi pheùp
keát trong CSDL quan heä chuaån, vì lyù do ñôn giaûn sau ñaây:

- Caùc tröôøng hôïp trong DMM khoâng theå hieän taát caû caùc giaù trò coù theå coù cuûa moät thuoäc
tính (coät) coù kieåu daïng CONTINUOUS, tuy nhieân moät PREDICTION JOIN phaûi keát
hôïp moät giaù trò continuous chính xaùc cuûa moät tröôøng hôïp trong döõ lieäu nguoàn vôùi caùc
giaù trò phaân boá trong DMM. Vôùi ví duï taäp cuûa taát caùc tröôøng hôïp coù theå coù neâu treân,
leänh sau ñaây traû veà khoâng coù record naøo bôûi vì caùc tröôøng hôïp coù theå coù trong DMM
coù coät Age chæ chöùa caùc giaù trò “Minimum”, “Mean”, “Maximum”, vaø “Missing” öùng
vôùi (2, 45, 91, “Missing”):
SELECT * FROM GenderPredictDMM WHERE Gender = 'Male' AND Age = 30

Tuy nhieân, moät PREDICTION JOIN söû duïng caây quyeát ñònh ñöôïc moâ taû cho moâ hình
naøy tìm thaáy moät phaân boá treân HairColor cho phaùi nam 30 tuoåi nhö sau: Black = .667,
Grey = .267, Missing = .067.

- Caùc tröôøng hôïp cuûa DMM theå hieän ñaày ñuû caùc giaù trò coù theå coù cho moät coät ñöôïc
duøng ñeå döï baùo, trong khi ngöôøi thöïc hieän döï baùo thöôøng mong ñôïi moät giaù trò ñôn “toát
nhaát”. Xeùt caâu truy vaán sau:

SELECT * FROM GenderPredictDMM WHERE Gender = 'Male' AND Age = 45

Keát quaû nhö sau:

Gender Age HairColor


Male 45 Black
Male 45 Gray
Male 45 NULL

- PREDICTION JOIN coù theå caàn coù moät vaøi raøng buoäc vaø giaû ñònh khi gaëp caùc giaù trò
khoâng xaùc ñònh ñöôïc (missing) trong tröôøng hôïp nguoàn. Moät PREDICTION JOIN giöõa
moät moâ hình ñôn giaûn vaø moät tröôøng hôïp maø trong ñoù age laø 30, gender khoâng bieát, seõ
cho keát quaû cuûa HairColor laø “Black” vôùi xaùc suaát laø 80%.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 14

Toång quaùt, PREDICTION JOIN seõ choïn moät tröôøng hôïp töø taäp döõ lieäu input, vaø döïa
vaøo ñieàu kieän moâ taû trong meänh ñeà ON ñeå tìm taäp caùc tröôøng hôïp töông öùng trong
DMM.
Meänh ñeà <SELECT-expressions> : laø moät taäp caùc phaùt bieåu phaân caùch bôûi daáu
phaåy, moät phaùt bieåu coù theå laø moät coät ñôn giaûn duøng ñeå tham chieáu, hay chöùa caùc
chöùc naêng döï baùo. Caùc coät coù theå ñöôïc tham chieáu töø DMM hay töø truy vaán döõ lieäu
nguoàn.

ON vaø Ñieàu kieän keát: moãi doøng trong taäp caùc tröôøng hôïp coù theå coù cuûa DMM laø duy
nhaát, neân noù coù theå ñöôïc keát vôùi caùc doøng trong truy vaán nguoàn cuûa caùc tröôøng hôïp
thöïc söï thoâng qua meänh ñeà <ñieàu kieän keát> cuûa töø khoaù ON. Ñieàu kieän keát seõ keát hôïp
caùc coät trong DMM vôùi caùc coät trong truy vaán nguoàn. Ñieàu kieän keát coù moät phaùt bieåu
“=” cho caùc coät ñöôïc keát, vaø caùc phaùt bieåu ñöôïc noái vôùi nhau qua töø khoaù AND trong
tröôøng coù nhieàu coät keát.

Meänh ñeà WHERE : giôùi haïn caùc tröôøng hôïp traû veà töø truy vaán döï baùo.

Ví duï: Haõy döï baùo caùc khaùch haøng coù nhieàu nguy cô rôøi boû ngaân haøng nhaát (=80%)
döïa treân thoâng tin cuûa khaùch haøng:

SELECT FLATTENED
[T1].[CustomerID], [T1].[Income], T1.[OtherIncome], [T1].[Loan], [T1].[Age],
[T1].[RegionName], [T1].[HomeYears], [T1].[HouseValue], [T1].[EducationLevel],
[T1].[HomeType], [T1].[Churn_Yes_No])
FROM
[Model_MDT_Churn_Prediction] AS [M1]
PREDICTION JOIN
OPENROWSET('SQLOLEDB', ’…;data source=D:\customer.mdb',
SELECT DISTINCT [CustomerID], [Income], [OtherIncome], [Loan],
[Age], [RegionName], [HomeYears], [HouseValue], [EducationLevel],
[HomeType], [Churn_Yes_No] FROM Customers)
AS [T1]
ON
[M1]. [Customer Id]= [T1]. [CustomerID]
WHERE PredictProbability([M1]. [Churn_Yes_No]) > 0.8.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 15

4. Keát luaän
Data mining ñang nhanh choùng trôû thaønh moät kyõ thuaät phaân tích ñöôïc söû duïng
roäng raõi. Baùo caùo naøy moâ taû hai thuaät toaùn data mining trong SQL Server 2000
Analysis Services: Microsoft Decision Trees (MDT) vaø Microsoft Clustering. Baùo caùo
cuõng ñöa ra caùch xaây döïng caùc moâ hình data mining giuùp giaûi quyeát caùc vaán ñeà trong
kinh doanh. Caùc keát quaû thöïc nghieäm trong huaán luyeän caùc moâ hình data mining, duøng
caû hai thuaät toaùn vôùi caùc thieát laäp caùc thoâng soá khaùc nhau ñöôïc trình baøy trong phuï luïc
A. Caùc keát quaû naøy chöùng toû hai thuaät toaùn naøy thöïc thi raát nhanh vaø coù theå aùp duïng
treân caùc taäp döõ lieäu lôùn. Chaúng haïn, thuaät toaùn Microsoft Decision Trees toán khoaûng
100 phuùt ñeå huaán luyeän moät moâ hình data ming vôùi 10 trieäu tröôøng hôïp vaø 25 thuoäc
tính.

Vôùi SQL Server 2000 Analysis Services, data mining khoâng coøn laø ñaëc quyeàn cuûa caùc
nhaø thoáng keâ. Ngöôøi söû duïng khoâng caàn bieát ñeán caùc phöùc taïp cuûa caùc thuaät toaùn data
mining. Moãi ngöôøi phaùt trieån CSDL ñeàu coù khaû naêng taïo vaø huaán luyeän caùc moâ hình
data mining vaø nhuùng caùc tính naêng naâng cao vaøo caùc öùng duïng cuûa hoï.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 16

Phuï luïc A: Keát quaû thöû nghieäm

Sau ñaây nhoùm xin trình baøy veà quaù trình chaïy thöû nghieäm khi duøng hai thuaät
toaùn caây quyeát ñònh vaø thuaät toaùn clustering. Vieäc hieåu roõ veà taùc ñoäng cuûa caùc yeáu toá
tôùi thôøi gian thöïc thi thuaät toaùn seõ giuùp caùc nhaø phaùt trieån coù moät söï löïa choïn moâ hình
toái öu nhaát, giaûm thieåu thôøi gian thöïc thi treân maùy.

Khi thöïc thi thuaät toaùn, caùc yeâu toá sau ñaây seõ aûnh höôûng tôùi thôøi gian thöïc thi:
- Soá caùc tröôøng hôïp.
- Soá löôïng caùc thuoäc tính.
- Soá caùc traïng thaùi (giaù trò).
- Soá caùc traïng thaùi cuûa thuoäc tính lieân keát .
- Söï thöa thôùt cuûa baûng (sparseness of the table).
- Soá löôïng phaân lôùp trong thuaät toaùn phaân lôùp.

Trong caùc thöû nghieäm sau, moät thoâng soá seõ ñöôïc thay ñoåi, caùc thoâng soá khaùc ñöôïc giöõ
nguyeân. Thôøi gian thöïc hieân seõ cho chuùng ta bieát veà taùc ñoäng cuûa yeáu toá thay ñoåi ñoù
tôùi quaù trình thöïc thi thuaät toaùn.

A.1. Keát quaû thöïc thi treân thuaät toaùn caây quyeát ñònh

A.1.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng
Thöôøng thì sau khi chuaån bò döõ lieäu, caùc döõ lieäu naøy naèm treân moät baûng. Vaø
caùc döï ñoaùn thöôøng döïa treân baûng naøy.

Taùc ñoäng cuûa soá löôïng caùc thuoäc tính tham gia döï ñoaùn (input Attributes)

Caùc thoâng soá Soá löôïng


Training cases 1 000 000.
Predictable Attribute 1
Input Attributes Varying :10, 20, 50, 100, 200
Number of states 25
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 17

Nhaän xeùt :
- Thôøi gian thöïc thi taêng tuyeán tính khi soá löôïng thuoäc tính taêng.
- Thôøi gian thöïc thi khaù nhanh : 130 phuùt cho 1 trieäu tröôøng hôïp vôùi 200 thuoäc tính.

Taùc ñoäng cuûa kích thöôùc döõ lieäu ( soá caùc tröôøng hôïp) .

Caùc thoâng soá Soá löôïng


Training cases Varying :10 000 ñeán 10 trieäu.
Predictable Attribute 1
Input Attributes 20
Number of states 25
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 18

Nhaän xeùt :
- Thôøi gian thöïc thi taêng tuyeán tính khi soá löôïng caùc tröôøng hôïp taêng.
- Thôøi gian thöïc thi khaù nhanh : 20 giaây cho 10 000 tröôøng hôïp vaø100 phuùt cho 20
trieäu tröôøng hôïp.

Taùc ñoäng cuûa soá löôïng caùc traïng thaùi cuûa thuoäc tính tham gia döï ñoaùn.

Caùc thoâng soá Soá löôïng


Training cases 1 trieäu.
Predictable Attribute 1
Input Attributes 20
Number of states Varying : 2,5,10,25,50

Nhaän xeùt :
- Thôøi gian thöïc thi taêng tuyeán tính khi soá löôïng caùc traïng thaùi nhoû hôn 10.
- Khi soá löôïng caùc traïng thaùi taêng, thuaät toaùn seõ khoù khaên trong vieäc xaùc ñònh döõ
lieäu höõu duïng khi taïo caây. Khi ñoù chieàu cao cuûa caây giaûm vaø daãn ñeán thôøi gian
training giaûm.

Taùc ñoäng cuûa soá löôïng caùc thuoäc tính caàn phaûi döï ñoaùn ( Predictable
Attributes)

Caùc thoâng soá Soá löôïng


Training cases 1 trieäu.
Predictable Attribute Varying :1,2,4,16,32.
Input Attributes 40
Number of states 25
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 19

Nhaän xeùt: thôøi gian thöïc thi taêng hôi maïnh hôn tuyeán tính tuyø thuoäc vaøo soá löôïng caùc
thuoäc tính döï ñoaùn. Nguyeân do laø khi coù nhieàu hôn moät thuoäc tính caàn döï ñoaùn thì vieäc
taïo caây coù theå laøm song song.

A.1.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng
Baûng keát hôïp laø moät khaùi nieäm môùi ñöôïc giôùi thieäu trong OLE DB cho Data
mining. Ñaây laø moät ñaëc tính khaù maïnh, noù cho pheùp traû lôøi nhieàu caâu hoûi döï ñoaùn
phöùc taïp. Ví duï nhö caâu hoûi lieät keâ caùc saûn phaåm khaùc coù theå haáp daãn khaùch haøng döïa
vaøo caùc saûn phaåm maø hoï ñaõ mua. Neáu khoâng coù khaùi nieäm baûng keát hôïp thì vieäc phaân
tích döõ lieäu cho caâu hoûi naøy laø raát khoù khaên.

Taùc ñoäng cuûa soá löôïng caùc traïng thaùi cuûa thuoäc tính trong baûng keát hôïp

Caùc thoâng soá Soá löôïng


Case table
Training cases 200 000.
Predictable Attribute 1
Input Attributes 5
Number of states 25
Nested table
Input Attributes 5
Number of states ( banking product) Varying: 100 ñeán 1000
Products perchased per Custommer 0 Æ50
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 20

Nhaän xeùt :
- Thôøi gian thöïc thi maát nhieàu thôøi gian hôn khi khoâng coù baûng keát hôïp.
- Khi soá löôïng saûn phaåm taêng treân 255 thì thôøi gian baét ñaàu giaûm. Nguyeân do laø khi
ñoù thuaät toaùn söû duïng kyõ thuaät löïa choïn ñaëc ñieåm ñeå loïc ra nhöõng thoâng tin quan
troïng nhaát, coøn nhöõng saûn phaåm coøn laïi thì duøng moâ hình leà (marginal model).
- Khi soá löôïng caùc gía trò khoaù cuûa baûng keát hôïp nhieàu hôn, vaø khi möùc ñoä giao dòch
cuûa khaùch haøng vaãn duy trì nhö cuõ thì caùc trò cuûa khoaù cuûa baûng keát hôïp phaân boá
thöa hôn. Do ñoù, coù ít maãu lieân quan cho moãi khoaù. Caây trôû neân nhoû hôn, vaø thôøi
gian training giaûm.

Taùc ñoäng cuûa soá löôïng saûn phaåm maø khaùch haøng mua.

Caùc thoâng soá Soá löôïng


Case table
Training cases 200 000.
Predictable Attribute 1
Input Attributes 5
Number of states 25
Nested table
Input Attributes 5
Number of states ( banking product) 1000
Products perchased per Custommer 10 Æ50
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 21

Nhaän xeùt: thôøi gian thöïc thi taêng tuyeán tính.

Taùc ñoäng cuûa soá löôïng caùc tröôøng hôïp trong baûng chính.

Caùc thoâng soá Soá löôïng


Case table
Training cases Varying 10 000 Æ 200 000.
Predictable Attribute 1
Input Attributes 5
Number of states 25
Nested table
Input Attributes 5
Number of states ( banking product) 20
Products perchased per Custommer 25

Nhaän xeùt : thôøi gian thöïc thi taêng tuyeán tính.

A.2. Keát quaû thöïc thi treân thuaät toaùn Clustering (phaân lôùp)

A.2.1. Keát quaû thöïc thi Training khi khoâng coù söï lieân keát giöõa caùc baûng
Taùc ñoäng cuûa soá löôïng caùc phaân lôùp (Number of clusters)
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 22

Caùc thoâng soá Soá löôïng


Training cases 1 000 000.
Predictable Attribute 1
Input Attributes 20
Number of states 20
Identifiable clusters 5,10,20

Nhaän xeùt: thôøi gian thöïc thi gaàn tuyeán tính.

Thöïc hieän töông töï ñoái vôùi:


Taùc ñoäng cuûa soá löôïng caùc thuoäc tính tham gia döï ñoaùn

Caùc thoâng soá Soá löôïng


Training cases 1 000 000.
Predictable Attribute 1
Input Attributes 20
Number of states 20
Identifiable clusters 10

Nhaän xeùt :
- Thôøi gian thöïc thi taêng tuyeán tính. Vôùi moät trieäu tröôøng hôïp, toán khoaûng 230 phuùt
vôùi 50 thuoäc tính input.
- Ñoái vôùi caùc bieán lieân tuïc thì toán nhieàu thôøi gian training hôn so vôùi caùc bieán rôøi
raïc. Nguyeân do laø caùc tính toaùn laân caän cho caùc bieán lieân tuïc thì phöùc taïp hôn so
vôùi caùc bieán rôøi raïc.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 23

Taùc ñoäng cuûa kích thöôùc döõ lieäu ( soá caùc tröôøng hôïp) .

Caùc thoâng soá Soá löôïng


Training cases 10 000,25 000, 50 000, 75 000, 100 000, 1 trieäu.
Predictable Attribute 1
Input Attributes 20
Number of states 50
Identifiable clusters 10

Nhaän xeùt :
- Thôøi gian thöïc thi taêng tuyeán tính.
- Toán 100 phuùt cho moät trieäu tröôøng hôïp vaø 910 phuùt cho 10 trieäu tröôøng hôïp. Thuaät
toaùn Microsoft Clustering thì chaäm hôn khoaûng 8 laàn so vôùi thuaät toaùn MDT trong
tröôøng hôïp naøy.

Thöïc hieän töông töï ñoái vôùi Taùc ñoäng cuûa soá löôïng caùc traïng thaùi cuûa thuoäc
tính tham gia döï ñoaùn.

A.2.2. Keát quaû thöïc thi Training khi coù söï lieân keát giöõa caùc baûng
Taùc ñoäng cuûa soá löôïng caùc traïng thaùi cuûa thuoäc tính trong baûng keát hôïp

Caùc thoâng soá Soá löôïng


Case table
Training cases 200 000.
Predictable Attribute 1
Input Attributes 5
Number of states 20
Nested table
Input Attributes 5
Number of states ( banking product) Varying: 100 ñeán 1000
Products perchased per Custommer 25
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 24

Nhaän xeùt :
- Thôøi gian training giaûm khi soá löôïng caùc traïng thaùi taêng. Coù hai lyù do daãn ñeán keát
quaû naøy. Thöù nhaát, thuaät toaùn löïa choïn thuoäc tính ngaên caûn soá thuoäc tính taêng vöôït
quaù 255. Thö hai, khi soá thuoäc tính giaûm, maät ñoä phaân boá cuûa döõ lieäu thaáp. Keát
quaû laø coù khoâng ñuû maãu cho thuaät toaùn ñeå xaùc ñònh caùc cluster taïo thaønh, do ñoù
thuaät toaùn duøng ít laàn laëp hôn.
- Soá caùc thuoäc tính input caøng luùc caøng giaûm laø do söï choïn löïa ñaëc ñieåm. Moät vaøi
thuoäc tính ñöôïc nhoùm laïi vôùi nhau laø do söï phaân boá thöa thôùt cuûa döõ lieäu.

Thöïc hieän töông töï ñoái vôùi:


Taùc ñoäng cuûa soá löôïng saûn phaåm maø khaùch haøng mua
Taùc ñoäng cuûa soá löôïng caùc tröôøng hôïp trong baûng chính.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 25

Phuï luïc B: Moät soá thuaät ngöõ

Phaàn naøy giôùi thieäu ngaén goïn moät soá thuaät ngöõ data mining. Caùc thuaät ngöõ naøy
ñöôïc giôùi thieäu trong Microsoft OLE DB for Data Mining specification.

Data Mining Model (moâ hình data mining):


Moät data mining model thì töông töï vôùi moät baûng quan heä. Noù chöùa caùc coät
khoaù, caùc coät input, vaø caùc coät döï baùo. Moät moâ hình ñöôïc gaén vôùi moät thuaät toaùn data
mining. Sau giai ñoaïn huaán luyeän, moâ hình data mining löu tröõ caùc maãu ñöôïc khaùm
phaù bôûi thuaät toaùn data mining treân taäp döõ lieäu duøng cho vieäc huaán luyeän. Moät moâ
hình data mining coù theå ñöôïc xem nhö laø moät “baûng thöïc söï” chöùa caùc doøng öùng cho
moãi keát hôïp coù theå coù cuûa caùc giaù trò phaân bieät treân töøng coät cuûa moâ hình. Khi ñaõ ñöôïc
huaán luyeän, moâ hình coù theå ñöôïc duøng cho vieäc döï baùo.

Columns (coät):
Moät coät trong moâ hình data mining thì töông töï vôùi moät coät trong moät baûng
quan heä, coøn ñöôïc goïi laø “bieán” hay “thuoäc tính”. Coù ba loaïi coät khaùc nhau trong moâ
hình data mining: coät input, coät döï baùo, hay coät input vaø döï baùo. Moâ hình data mining
söû duïng taäp caùc thuoäc tính input cuûa tröôøng hôïp ñeå döï baùo caùc thuoäc tính output. Trong
baùo caùo naøy, coät vaø thuoäc tính ñöôïc duøng nhö nhau.

States (traïng thaùi):


Moãi thuoäc tính coù theå coù moät taäp caùc giaù trò coù theå coù cuûa noù. Caùc giaù trò naøy
ñöôïc goïi laø traïng thaùi cuûa thuoäc tính.

Cases (tröôøng hôïp):


Data mining lieân quan ñeán vieäc phaân tích caùc tröôøng hôïp. Moät tröôøng hôïp laø
moät thöïc theå thoâng tin cô baûn. Moät tröôøng hôïp coù theå laø ñôn giaûn, chaúng haïn khi phaân
tích loan risk cuûa khaùch haøng, thoâng tin khaùch haøng laø moät tröôøng hôïp. Moät tröôøng
hôïp coù theå phöùc taïp hôn, chaúng haïn moâ hình data mining coù theå döï baùo danh saùch caùc
saûn phaåm khaùch haøng seõ mua döïa vaøo thoâng tin khaùch haøng vaø thoâng tin giao dòch cuûa
hoï. Moâ hình naøy keát keát hôïp thoâng tin khaùch haøng vôùi danh saùch caùc saûn phaåm maø hoï
mua. Loaïi tröôøng hôïp naøy ñöôïc goïi laø tröôøng hôïp keát hôïp (nested case). Trong baùo
caùo naøy, thuaät ngöõ “kích thöôùc maãu” (sample size) ñöôïc duøng ñeå chæ soá caùc tröôøng
hôïp.

Case Tables (baûng tröôøng hôïp) vaø Nested Tables (baûng keát hôïp):
Baûng tröôøng hôïp laø baûng chöùa thoâng tin tröôøng hôïp lieân quan vôùi phaàn döõ lieäu
khoâng ñöôïc keát hôïp. Baûng keáp hôïp laø laø baûng chöùa thoâng tin lieân quan ñeán phaàn döõ
lieäu ñöôïc keát hôïp.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 26

Phuï luïc C: Chöông trình demo

- Chöông trình demo coù theå download taïi:


http://download.microsoft.com/download/biztalkserver/book/1.0/nt5xp/en-
us/sql2kdatamining.msi

Chöông trình naøy coù kích thöôùc laø 32 MB, ñöôïc xuaát baûn thaùng 9-2002.

- Ñóa meàm ñính keøm löu file word cuûa baùo caùo naøy.
Nghieân cöùu coâng cuï Data Mining trong SQL Server 2000 Trang 27

Taøi lieäu tham khaûo:


[1]Performance Study of Microsoft Data Mining Algorithms
Sanjay Soni - UNISYS
Zhaohui Tang - Microsoft
Jim Yang – Microsoft

[2]Caùc Heä Cô soû tri thöùc


GS.TSKH : Hoaøng Kieám
TS:Ñoã Vaên Nhôn.
ThS: Ñoã Phuùc.
2002
[3]Knowledge-Based System
for Engineers and Scientists
Adrian A.Hopegood
1993.

[4] OLE DB for Data Mining Specification Version 1.0


Microsoft Corporation
JULY 2000

You might also like