Professional Documents
Culture Documents
HDSD Clementine
HDSD Clementine
managers
Treams
project
palette
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
1
Khai thác dữ liệu trong kinh doanh
Bạn có thể làm việc (thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một
stream mới. Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên
phải của cửa sổ Clementine.
1.2 Các Palette nodes:
Hầu hết các dữ liệu và công cụ mô hình hóa trong Clementine ở trong bảng các
node, phía dưới cùng của cửa sổ .
Để thêm các node vào dòng dữ liệu, bạn chỉ cần click đúp vào biểu tượng từ các
Palette Nodes hoặc kéo và thả chúng vào stream. Sau đó kết nối chúng để tạo ra một
dòng, đại diện cho dòng chảy của dữ liệu.
Mỗi palette nodes chứa một tập các node liên quan, sử dụng cho các giai đoạn khác
nhau của các hoạt động dòng chảy, chẳng hạn như:
• Sources: Các node đưa dữ liệu vào Clementine.
• Record Ops. Các node thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa
chọn, hợp nhất, và thêm.
• Field Ops. Các node thực hiện các hoạt động trên các items của dữ liệu, như lọc,
thêm các items mới, và xác định các kiểu dữ liệu cho các items nhất định.
• Graphs: Các node biểu đồ/đồ thị mô tả dữ liệu trước và sau khi thực hiện các bước
khai thác dữ liệu.
• Modeling: (Mô hình hóa) Các node sử dụng các thuật toán mô hình hóa có sẵn trong
Clementine, như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ
liệu.
• Output: Các node xuất các dữ liệu, bảng biểu, và kết quả mô hình, có thể được
xem trong Clementine hoặc Export: gửi trực tiếp đến một ứng dụng khác, chẳng hạn như
SPSS hoặc Excel.
1.2.a Giới thiệu Sources nodes:
Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn
chọn nguồn là SPSS, bạn click đúp hoặc chọn biểu tượng SPSS File kéo thả vào Stream
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
2
Khai thác dữ liệu trong kinh doanh
Sau đó bạn click đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
3
Khai thác dữ liệu trong kinh doanh
Types: Mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay
đổi: kiểu giá trị(types), values, missing
Khi có được dữ liệu, chọn apply rồi ok.
Node source Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản nào của Microsoft
Excel.
Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào.
Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa
trong bảng tính Excel. Click vào nút chọn(...) để chọn từ danh sách các phạm vi có sẵn.
Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. Với các
tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được.
Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:
• Index. Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu
bằng 0 cho sheet đầu tiên, 1 cho sheet thứ hai, và như vậy.
• Name. Chỉ định tên của worksheet mà bạn chọn vào. Click vào nút (...) để
chọn từ danh sách các worksheet sẵn.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
4
Khai thác dữ liệu trong kinh doanh
Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên
hoặc với một phạm vi rõ ràng:
• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt
đầu từ góc trên bên trái của vùng dữ liệu. Nếu gặp một hàng trống tiếp theo, bạn có thể
chọn để ngừng đọc (stop reading) hoặc chọn đọc trở lại tất cả dữ liệu đến cuối của bảng
tính (return blank rows), bao gồm cả các hàng trống.
• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc
cột (ví dụ, A3: G178). Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả
các hàng trống.
First row contains field names :Hàng đầu tiên chứa tên biến. Chỉ ra rằng hàng đầu
tiên trong phạm vi quy định nên được sử dụng như trường tên. Nếu không được chọn, tên
trường được tạo ra tự động.
Lưu ý:
Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu (type) dữ liệu số và
chuỗi, một trong hai giá trị đó sẽ bị mất (không có giá trị giống như trong spss) trong
Clementine. Không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn
hợp trong một biến. Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn
bản trong các bảng tính Excel, tạo ra các giá trị (bao gồm số) để đọc.
1.2.b Giới thiệu Record Operations:
Các nút được sử dụng để thay đổi dữ liệu. Các hoạt động này rất quan trọng trong
việc hiểu và chuẩn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các
dữ liệu cho nhu cầu riêng của mình.
The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên
một điều kiện cụ thể. Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định. ví dụ: tp
(thành phố) = 1 (thành phố HCM). Đây là cửa sổ làm việc của node select:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
5
Khai thác dữ liệu trong kinh doanh
Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện.
• Include. Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn.
• Discard. Chọn để loại trừ dòng dữ liệu đáp ứng các điều kiện lựa chọn.
Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự
nhập vào hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính (Expression
Builder) nút bên phải của cửa sổ.
Select node cũng được sử dụng để lấy mẫu. Thông thường, bạn sẽ sử dụng một node
sample cho hoạt động này. Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn
các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng
nút Select. Ví dụ tp (thành phố) = 1 and tuoi = 20.
the sample node: Các node lựa chọn mẫu cho tập hợp các hồ sơ. Một loạt các
cách thức chọn mẫu được hỗ trợ, bao gồm chọn mẫu ngẫu nhiên đơn giản, phân tầng, cả
khối... Lấy mẫu có thể hữu ích để cải thiện kết quả, và để chọn nhóm các hồ sơ/giao dịch
liên quan để phân tích.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
6
Khai thác dữ liệu trong kinh doanh
The balance node: Các node chỉnh cân bằng do sự mất cân bằng trong bộ dữ
liệu, vì vậy nó phù hợp với một điều kiện quy định. Các chỉ thị điều chỉnh cân bằng tỷ lệ
của hồ sơ theo các điều kiện đặt ra.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
7
Khai thác dữ liệu trong kinh doanh
The Aggregate node: Node tổng hợp thay thế một chuỗi các hồ sơ đầu vào
với tóm tắt, tổng hợp hồ sơ đầu ra
The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một
hay nhiều tiêu chí
The merge node: Node Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi
đầu ra duy nhất có chứa một số hoặc tất cả các biến đầu vào. Nó rất hữu ích cho việc sáp
nhập dữ liệu từ nhiều nguốn khác nhau (Merge biến).
The append node: Các node Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp
các bộ dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau (Merge hồ sơ).
the type node: Node xác định kiểu dữ liệu. Thiết lập vai trò của các biến cho
các mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được
lưu trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
8
Khai thác dữ liệu trong kinh doanh
• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read
Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify. Các nhãn mà bạn chỉ
định trong nút hình được hiển thị trong Clementine tùy thuộc vào các lựa chọn bạn thực
hiện trong các thuộc tính của hộp thoại.
• Missing values: Được sử dụng để xác định các giá trị sẽ được coi như là khoảng
trắng.
• Value checking: Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo
rằng giá trị trường phù hợp với phạm vi quy định.
the reclassify node: Phân loại lại, nút chuyển đổi một tập các giá trị rời rạc
khác. Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích.
the bining node: Các node Binning tự động tạo ra thiết lập mới dựa trên các
giá trị số của biến thành giá trị phân loại. Ví dụ, bạn có thể chuyển đổi biến thu nhập
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
9
Khai thác dữ liệu trong kinh doanh
dạng số thành dạng biến các nhóm thu nhập theo trung bình và độ lệch chuẩn.
Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform
SPSS, được thực hiện bằng lệnh cú pháp của SPSS trên các nguồn dữ liệu trong
Clementine.
the Partition node: Các node phân vùng tạo ra một lĩnh vực phân vùng, trong
đó chia tách các dữ liệu vào tập hợp con riêng cho việc thực hiện, thử nghiệm, và kiểm
tra việc xây dựng mô hình.
the transpose node: Các nút Transpose giao hoán đổi các dữ liệu trong các
hàng và cột .
1.2.d Export node:
Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau với các công cụ
phần mềm khác của bạn.
Node xuất SPSS: xuất dữ liệu dạng SPSS, định dạng .SAV. Clementine đặt
tên biến cho một số biến kết quả trong SPSS đôi khi có thể gây ra lỗi vì tên biến trong
SPSS được giới hạn 64 ký tự và không bao gồm một số ký tự, chẳng hạn như dấu cách,
dấu hiệu, đồng đô la ($), và dấu gạch ngang (-). Có hai cách để điều chỉnh những hạn chế
này:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
10
Khai thác dữ liệu trong kinh doanh
Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS
• Bạn có thể đổi tên các biến cho phù hợp với yêu cầu SPSS bằng cách chọn biểu tượng
lọc/ chọn Rename for SPSS để đổi tên hoặc lọc Fields cho SPSS
Export:
Export field names. Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ
Clementine cho một SPSS file SAV.
• Names and variable labels: Tên và nhãn biến. Tên được xuất như tên biến SPSS,
trong khi nhãn được xuất như nhãn biến SPSS.
• Names as variable labels: Tên là nhãn biến. Chọn để sử dụng các tên biến trong
Clementine làm nhãn biến trong SPSS. Clementine cho phép ký tự trong tên biến mà
không hợp lệ trong tên biến của SPSS.
Sau khi đã có đựơc những gì mong muốn chọn Execute.
• Kích đúp vào. Click đôi vào sử dụng nút chuột trái để đặt các node trên khung dòng
và chỉnh sửa các node hiện có.
• Trung-click. Click vào nút chuột giữa và kéo con trỏ để kết nối các node trên khung
dòng. Nhấn chuột phải để ngắt kết nối một node. Nếu bạn không có một con chuột có ba
nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo
chuột.
3.Làm việc với Clementine là một quá trình ba bước:
• Trước tiên, bạn đọc dữ liệu vào Clementine.
• Sau đó, chạy dữ liệu thông qua một loạt các thao tác
• Và cuối cùng, gửi dữ liệu đến một đích đến.
Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các
nguồn khác thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển
đến là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
12
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
13
Khai thác dữ liệu trong kinh doanh
Click đúp vào biểu tượng TwoStep mở ra hộp thoại khai báo như sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
14
Khai thác dữ liệu trong kinh doanh
Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho
lệnh này “phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã
thực hiện lệnh Partition.
Standardize numeric fields: Chuẩn hóa dữ liệu (Nếu dữ liệu của bạn đã được
chuẩn hó rồi thì không cần chọn). Nếu chọn dữ liệu của bạn sẽ được chuẩn hóa trước khi
chạy phân tích cụm để đạt hiệu quả hơn
Exclude outliers: Loại bỏ các giá trị ngoại lệ.
Automatically calculate number of clusters: Tự động tính toán số lượng cụm, mặc
định tối đa là 15 và tối thiểu là 2.
Specify number of clusters: Bạn cũng có thể quyết định số lượng cụm
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể
cả id (thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields
(ở góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là
Use custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
15
Khai thác dữ liệu trong kinh doanh
Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:
Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ
managers/Models sẽ hiện ra kết quả. bạn chỉ cần click đúp vào biểu tượng, nó sẽ được
đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn
click đúp vào biểu tượng trong lưu đồ:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
16
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
17
Khai thác dữ liệu trong kinh doanh
Tôi hi vọng là bạn đọc được thông tin từ hai bảng này. Chỉ lưu ý một điểm ở hình trên
cột cuối cùng hiển thị tầm quan trọng của các biến trong mô hình để có thể gắn trọng số
cho biến và giúp mô hình thực hiện hiệu quả hơn, ở phần sau sẽ giới thiệu bạn biểu đồ
mạng nhện.
Ngoài kết quả có được từ clementine bạn cũng có thể yêu cầu xuất kết quả phân cụm
qua excel: Ở thanh palette chọn Export/Excel, hoặc xem trực tiếp chọn Output/Table và
thực hiện một số khai báo bạn sẽ được báo cáo kết quả phân cụm.
Bạn cũng có thể thử lại kết quả này bằng việc chạy phân tích cụm K-Means và quyết
định số lượng cụm là 2. Ở thanh palette chọn Modeling node/ Segmentation/ chọn K-
Means
Với kỹ thuật K-Means sẽ có bản khai báo sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
18
Khai thác dữ liệu trong kinh doanh
Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh
này “phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã
thực hiện lệnh Partition.
Number of clusters: Xác định số lượng cụm để tạo ra. (Mặc định là 5), Ở đây
chúng ta chọn 2.
Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm.
Show cluster proximity: Khoảng cách giữa các trung tâm cụm.
Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2",
vv), hoặc number số 1,2.
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả id
(thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields (ở
góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use
custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
19
Khai thác dữ liệu trong kinh doanh
Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
20
Khai thác dữ liệu trong kinh doanh
Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ
managers/Models sẽ hiện ra kết quả. Bạn chỉ cần click đúp vào biểu tượng, nó sẽ được
đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn
click đúp vào biểu tượng trong lưu đồ:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
21
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
22
Khai thác dữ liệu trong kinh doanh
Trong mục Sample size chọn Custom/spectife sizes. Hộp thoại Sample Sizes
for Strata:Proportios. Chọn Read values : On-time là “0” Sample size là 1. On-time
là “1” Sample size là 0.1. Nhớ là có chọn Set random Seed là 1 số cố định, để cố
định mẫu. Bạn sẽ có bộ dữ liệu xấp xỉ 50% là trả đúng hạn và 50% là trả trễ hạn.
Bây giờ bạn có thể chọn 1 trong hai kỹ thuật phân tích cụm K-Means hoặc
Twostep với số lượng cụm là 2. Tôi chọn kỹ thuật K-Means và bạn lưu ý là đừng
đưa biến On-time vào Inputs, như hình sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
23
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
24
Khai thác dữ liệu trong kinh doanh
So với cụm 1 cụm 2 có độ tuổi rất trẻ hoặc rất già, tín dụng đa phần là đỏ hoặc
vàng, thu nhập không có khác biệt nhiều, rủi ro cao hơn. Liệu chúng ta có thể kết
luận cụm 1 sẽ bao gồm những người trả nợ đúng hạn và cụm 2 có nguy cơ trả nợ
trễ hạn.
Kết quả phân loại bằng node matrix: Output/Matrix
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
25
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
26
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
27
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
28
Khai thác dữ liệu trong kinh doanh
Model:
Model name: Tên mô hình
Use partitioned data: Sử dụng dữ liệu phân vùng
Method: Phương pháp. Có sáu phương pháp để xây dựng mô hình mạng thần
kinh:
• Quick: Phương pháp này dựa các đặc trưng của dữ liệu thực hiện một cách đơn
giản để tìm được một hình dạng thích hợp (cấu trúc liên kết) cho mạng.
• Dynamic: Phương pháp này tạo ra một cấu trúc liên kết đầu tiên, từ đó bằng cách
thêm và / hoặc loại bỏ các đơn vị ẩn càng lúc sẽ tiến bộ hơn.
• Multiple: Phương pháp này tạo ra nhiều cấu trúc liên kết mạng khác nhau
(các con số chính xác phụ thuộc vào dữ liệu). Các mạng này sau đó được thực hiện
song song. Kết thúc, các mô hình với các lỗi sai lệch thực tế thấp nhất là sẽ là mô
hình cuối.
• Prune. Phương pháp này bắt đầu với một mạng lưới rộng lớn và loại bỏ các đơn
vị yếu nhất trong các lớp ẩn và đầu vào. Phương pháp này thường chậm, nhưng nó
thường mang lại kết quả tốt hơn so với các phương pháp khác.
• RBFN. Mạng lưới cơ sở chức năng bố trí hình tròn (RBFN) sử dụng một kỹ
thuật tương tự như k-Mean là clustering để phân vùng dữ liệu dựa trên giá trị của biến
mục tiêu.
• Exhaustive prune: Phương pháp này có liên quan đến phương pháp Prune. Nó bắt
đầu với một mạng lưới rộng lớn và loại bỏ các đơn vị yếu nhất trong các lớp ẩn và
đầu vào . Với ExhaustivePrune, mạng lưới đào tạo các tham số được lựa chọn để đảm
bảo việc tìm kiếm rất kỹ lưỡng của không gian của các mô hình có thể tìm thấy tốt
nhất. Phương pháp này thường là chậm nhất, nhưng nó thường mang lại kết quả tốt
nhất. Lưu ý rằng phương pháp này có thể mất nhiều thời gian để thực hiện, đặc biệt là
với bộ dữ liệu lớn.
Prevent overtraining: Ngăn chặn làm việc quá sức. Tùy chọn này chia tách các dữ
liệu ngẫu nhiên vào thực hiện riêng biệt và đặt thử nghiệm cho mục đích xây dựng mô
hình. Xác định tỷ lệ dữ liệu được sử dụng để thực hiện trong hộp% mẫu trong nút
mạng thần kinh, và phần còn lại của dữ liệu sẽ được sử dụng để xác nhận.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
29
Khai thác dữ liệu trong kinh doanh
Set random seed: Đặt hạt giống ngẫu nhiên. Một hạt giống ngẫu nhiên cụ thể luôn
luôn tạo ra cùng một trình tự của các giá trị ngẫu nhiên, trong trường hợp thực hiện
các nút mang lại cùng một mô hình tạo ra.
Stop on. Bạn có thể chọn một trong các tiêu chí ngăn chặn sau đây:
• Default. Với thiết lập này, mạng sẽ ngừng thực hiện khi mạng dường như đã
đạt đến trạng thái tối ưu được thực hiện.
• Accuracy: Độ chính xác (%). Với tùy chọn này, chương trình sẽ tiếp tục cho
đến khi xác định là đạt được. Điều này không bao giờ có thể xảy ra, nhưng bạn có thể
làm gián đoạn thực hiện tại bất kỳ điểm nào và lưu các mạng với độ chính xác tốt
nhất đạt được cho đến thời điểm đó.
• Cycles. Với tùy chọn này, chương trình sẽ tiếp tục cho số quy định của chu kỳ
(đi qua các dữ liệu).
• Time: (phút). Với tùy chọn này, chương trình sẽ tiếp tục được ghi rõ thời gian
(theo phút). Lưu ý rằng chương trình có thể vượt quá thời hạn quy định 1 chút để
hoàn thành chu trình hiện hành.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
30
Khai thác dữ liệu trong kinh doanh
Chúng ta dùng thêm node analysis trong output để thể hiện các bảng kết quả dưới
đây.
Hình 5.4:Kết quả phân cụm 5.000 bước trên dữ liệu phân tích
Hình 5.5: Kết quả phân cụm 5.000 bước trên dữ liệu kiểm tra:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
31
Khai thác dữ liệu trong kinh doanh
Hình 5.6: Kết quả phân cụm 20.000 bước trên dữ liệu phân tích:
Hình 5.7: Kết quả phân cụm 20.000 bước trên dữ liệu kiểm tra:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
32
Khai thác dữ liệu trong kinh doanh
Node Cây phân loại và hồi quy (C & R) tạo ra một cây quyết định cho phép
bạn phân loại và dự báo. Phương pháp sử dụng phân vùng đệ quy để phân chia các hồ sơ
đào tạo thành các nhóm có kết quả đầu ra giống nhau. Nó bắt đầu bằng cách kiểm tra các
biến đầu vào để tìm thấy những phân chia tốt nhất, bằng cách giảm thiểu các sai số (tạp
chất) ở từng bước, trong đó một nút được coi là "tinh khiết" nếu 100% các trường hợp
trong nút rơi vào một thể loại cụ thể của biến mục tiêu. Biến mục tiêu và biến dự báo có
thể là định lượng hoặc định tính, tất cả chia tách là nhị phân (chỉ có hai phân nhóm).
Node QUEST cung cấp một phương pháp phân loại nhị phân để xây dựng cây
quyết định, được thiết kế để giảm thời gian xử lý cần thiết hơn C & R , trong khi cũng
làm giảm xu hướng tìm thấy trong các phương pháp phân loại cây để ưu tiên cho những
dự báo cho phép chia tách nhiều hơn. Biến dự báo có thể là dãy số, nhưng biến mục tiêu
phải được phân loại. Tất cả chia tách là nhị phân.
Node CHAID tạo ra cây quyết định sử dụng số liệu thống kê chi bình phương
để xác định tối ưu chia tách. Không giống như các cây C & R và QUEST, CHAID có thể
tạo ra cây nonbinary, có nghĩa là một số chia tách có nhiều hơn hai nhánh. Biến Mục tiêu
và dự báo có thể ở dạng dãy số hoặc phân loại. Nhưng phải mất nhiều thời gian để tính
toán.
Node C5.0 xây dựng hoặc là một cây quyết định, hoặc thiết lập một quy tắc.
Mô hình này hoạt động bằng cách chia tách các mẫu dựa trên các biến cung cấp các
thông tin thu được tối đa ở mỗi cấp. Biến mục tiêu phải được phân loại. Có thể chia thành
nhiều hơn hai nhóm.
Chúng ta sẽ lần lượt thử các mô hình và đánh giá, Các khai báo trong các mô hình
đều như nhau:
Chúng ta sẽ chọn dữ liệu gian lận bảo hiểm làm ví dụ:
Với mô hình C-RT:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
33
Khai thác dữ liệu trong kinh doanh
Fields/ chọn Use custom settings/ Đưa biến outcome vào khung Target, đưa các biến
còn lại: gender,claim,tickets,claims, atty vào khung Inputs
Partition: đưa biến phân vùng vào nếu có
Use frequency field : sử dụng tần số
Use weight field: sử dụng trọng số
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
34
Khai thác dữ liệu trong kinh doanh
Model:
Model name: Xác định tên của mô hình
Use partition data : dữ liệu phân vùng
Output type: bạn muốn mô hình kết quả là một cây Quyết định hoặc thiết lập một
quy tắc.
Group symbolics. Nếu tùy chọn này không được chọn, C5.0 sẽ tạo ra một nút con
cho mỗi giá trị của biến sử dụng để phân chia các nút cha. Ví dụ, nếu C5.0 chia tách
biến COLOR (với các giá trị Red, Green, và Blue), nó sẽ tạo ra một phân chia ba
chiều theo mặc định. Tuy nhiên, nếu tùy chọn này được chọn, và các hồ sơ được hợp
lại COLOR = RED là rất tương tự như hồ sơ hợp COLOR = BLUE, nó sẽ tạo ra một
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
35
Khai thác dữ liệu trong kinh doanh
phân chia hai chiều, với Green trong một nhóm, và Blues và Red với nhau trong
nhóm khác.
Use boosting: Các thuật toán C5.0 có một phương pháp đặc biệt để cải thiện độ
chính xác của nó, gọi là boosting. Nó hoạt động bằng cách xây dựng các mô hình khác
nhau trong một chuỗi. Mô hình đầu tiên được xây dựng theo cách thông thường. Sau đó,
một mô hình thứ hai được xây dựng trong một cách mà nó tập trung vào các hồ sơ đã
được phân loại sai bởi các mô hình đầu tiên. Sau đó, một mô hình thứ ba được xây dựng
để tập trung vào các lỗi của mô hình thứ hai, và như vậy. Cuối cùng, trường hợp được
phân loại bằng cách áp dụng toàn bộ các mô hình , bằng cách sử dụng một thủ tục biểu
quyết để kết hợp những dự đoán riêng biệt vào một tổng thể dự đoán.Nhưng nó cũng đòi
hỏi phải thực hiện lâu . Số lượng thử nghiệm tùy chọn cho phép bạn kiểm soát nhiều mô
hình được sử dụng.
Cross-validate . Nếu tùy chọn này được chọn, C5.0 sẽ sử dụng một tập các mô
hình được xây dựng trên một phần nhỏ của dữ liệu thử nghiệm để ước tính chính xác một
mô hình được xây dựng trên những dữ liệu đầy đủ. Điều này rất hữu ích nếu bộ dữ liệu
của bạn quá nhỏ để chia thành thử nghiệm và kiểm tra. Mô hình xây dựng và xác nhận
chéo được thực hiện cùng một lúc.
Mode:
simple:
Favor: Theo mặc định, C5.0 sẽ cố gắng để xây dựng cây chính xác nhất có thể với
accuracy. Trong một số trường, có thể dẫn đến hiệu suất kém khi mô hình được áp dụng
cho dữ liệu mới. Chọn generality để sử dụng cài đặt thuật toán được ít nhạy cảm với vấn
đề này.
Experted noise (%). Xác định tỷ lệ dự kiến của dữ liệu có sai sót trong việcthực
hiện các thiết lập.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
36
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
38
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
39
Khai thác dữ liệu trong kinh doanh
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
40
Khai thác dữ liệu trong kinh doanh
Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụngđối với khách
hàng.
Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính
Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác
Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời
gian và khu vực.
Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.
Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
41
Khai thác dữ liệu trong kinh doanh
động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới
đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này:
Phân tích dữ liệu đa chiều viễn thông.
Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng
Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông
Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.
Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein
Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.
Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:
- Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
- Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập
- Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.
2. Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT)
Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp
với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu. Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ
khai phá dữ liệu:
Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text,
ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định
dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.
Sự tương thích (Compatibility): Phải biết được DMT chạy trên hệ điều hành nào, môi trường tương tác
webform hay winform.
Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang
lưu trữ dữ liệu ở chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không. Một số Data Source phổ biến
hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.
Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển
khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical
analysis, classification, prediction, clustering, outlier analysis, similarity search…)
Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau:
Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).
Hỗ trợ xử lý với số thuộc tính (Dimension) lớn
Công cụ trực quan hóa dữ liệu (Visualization Tools): Đây là chức năng rất quan trọng đối với một DMT, giúp
biểu diễn tri thức phát hiện được trực quan, dễ hiểu, dễ kiểm tra. Vấn đề trực quan hóa của DMS đề cập đến các
khía cạnh sau:
Trực quan hóa dữ liệu (Data Visualization)
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
42
Khai thác dữ liệu trong kinh doanh
Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization)
Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization)
Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung
cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi
trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI)
3. Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining)
Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm:
- Khai phá dữ liệu Tin sinh học (Biological data mining)
- Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering)
- Khai phá dữ liệu web (Web mining)
- Khai phá dữ liệu phân tán (Distributed Data mining)
- Khai phá dữ liệu thời gian thực (Real time data mining)
- Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web
- Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query
language)
- Khai phá dữ liệu trực quan (Visual Data Mining)
- Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for
mining complex types of data)
- Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and
Information Security in data mining)
4. Một số công cụ khai phá dữ liệu (Data Mining Tools)
License
Software Name Data Mining Tasks
Type
ANGOSS
KnowledgeSTUDIO Commerc Classification Discovery, Cluster Discovery, Data
ial Licence Visualisation, Discovery Visualisation
(Link)
ARMiner Free -
Open Source Association Discovery
(Link) Licence
CART®
(Classification and Commerc
Regression Trees) Classification Discovery
ial Licence
(Link)
(Link)
Molegro Data
Modeller Commerc Cluster Discovery, Regression Discovery, Outlier
ial Licence Discovery, Data Visualisation, Discovery Visualisation
(Link)
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
45