You are on page 1of 45

Khai thác dữ liệu trong kinh doanh

LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU


CLEMENTINE 12.0
1. Cửa sổ làm việc:

managers
Treams

project

palette

Hình 1.1: Cửa sổ làm việc của clementine


File: (stream, managers, project, outputs) khởi tạo, mở các file có sẵn, lưu file…
Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project,
outputs)
Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh
Palette)
View: Tắt/mở thanh công cụ, palette, managers, project.
Tools : Một số các tùy chọn nâng cao: tạo mật khẩu, quản lý các palette…

1.1 Cửa sổ chính: Stream (lưu đồ dòng chảy):


Là khu vực lớn nhất của cửa sổ Clementine và là nơi mà bạn sẽ xây dựng và thao tác
trên dữ liệu. Stream được tạo ra bằng cách giống như vẽ một bản đồ, cách thức để khai
thác dữ liệu. Mỗi hoạt động được đại diện bởi một biểu tượng hoặc node, và các node
liên kết với nhau trong một dòng giống như dòng chảy của dữ liệu thông qua mỗi hoạt
động.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
1
Khai thác dữ liệu trong kinh doanh

Bạn có thể làm việc (thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một
stream mới. Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên
phải của cửa sổ Clementine.
1.2 Các Palette nodes:
Hầu hết các dữ liệu và công cụ mô hình hóa trong Clementine ở trong bảng các
node, phía dưới cùng của cửa sổ .
Để thêm các node vào dòng dữ liệu, bạn chỉ cần click đúp vào biểu tượng từ các
Palette Nodes hoặc kéo và thả chúng vào stream. Sau đó kết nối chúng để tạo ra một
dòng, đại diện cho dòng chảy của dữ liệu.
Mỗi palette nodes chứa một tập các node liên quan, sử dụng cho các giai đoạn khác
nhau của các hoạt động dòng chảy, chẳng hạn như:
• Sources: Các node đưa dữ liệu vào Clementine.
• Record Ops. Các node thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa
chọn, hợp nhất, và thêm.
• Field Ops. Các node thực hiện các hoạt động trên các items của dữ liệu, như lọc,
thêm các items mới, và xác định các kiểu dữ liệu cho các items nhất định.
• Graphs: Các node biểu đồ/đồ thị mô tả dữ liệu trước và sau khi thực hiện các bước
khai thác dữ liệu.
• Modeling: (Mô hình hóa) Các node sử dụng các thuật toán mô hình hóa có sẵn trong
Clementine, như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ
liệu.
• Output: Các node xuất các dữ liệu, bảng biểu, và kết quả mô hình, có thể được
xem trong Clementine hoặc Export: gửi trực tiếp đến một ứng dụng khác, chẳng hạn như
SPSS hoặc Excel.
1.2.a Giới thiệu Sources nodes:
Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn
chọn nguồn là SPSS, bạn click đúp hoặc chọn biểu tượng SPSS File kéo thả vào Stream

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
2
Khai thác dữ liệu trong kinh doanh

Hình 1.2: Chọn nguồn dữ liệu là file SPSS

Sau đó bạn click đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :

Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS

Import file: Chọn đường dẫn cho file dữ liệu


Filter: Mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để phục
vụ cho mục đích của bạn.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
3
Khai thác dữ liệu trong kinh doanh

Types: Mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay
đổi: kiểu giá trị(types), values, missing
Khi có được dữ liệu, chọn apply rồi ok.

Hình 1.4: cửa sổ khai báo dữ liệu file excel

Node source Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản nào của Microsoft
Excel.
Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào.
Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa
trong bảng tính Excel. Click vào nút chọn(...) để chọn từ danh sách các phạm vi có sẵn.
Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống. Với các
tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được.
Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:
• Index. Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu
bằng 0 cho sheet đầu tiên, 1 cho sheet thứ hai, và như vậy.
• Name. Chỉ định tên của worksheet mà bạn chọn vào. Click vào nút (...) để
chọn từ danh sách các worksheet sẵn.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
4
Khai thác dữ liệu trong kinh doanh

Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên
hoặc với một phạm vi rõ ràng:
• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt
đầu từ góc trên bên trái của vùng dữ liệu. Nếu gặp một hàng trống tiếp theo, bạn có thể
chọn để ngừng đọc (stop reading) hoặc chọn đọc trở lại tất cả dữ liệu đến cuối của bảng
tính (return blank rows), bao gồm cả các hàng trống.
• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc
cột (ví dụ, A3: G178). Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả
các hàng trống.
First row contains field names :Hàng đầu tiên chứa tên biến. Chỉ ra rằng hàng đầu
tiên trong phạm vi quy định nên được sử dụng như trường tên. Nếu không được chọn, tên
trường được tạo ra tự động.
Lưu ý:
Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu (type) dữ liệu số và
chuỗi, một trong hai giá trị đó sẽ bị mất (không có giá trị giống như trong spss) trong
Clementine. Không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn
hợp trong một biến. Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn
bản trong các bảng tính Excel, tạo ra các giá trị (bao gồm số) để đọc.
1.2.b Giới thiệu Record Operations:
Các nút được sử dụng để thay đổi dữ liệu. Các hoạt động này rất quan trọng trong
việc hiểu và chuẩn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các
dữ liệu cho nhu cầu riêng của mình.

The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên
một điều kiện cụ thể. Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định. ví dụ: tp
(thành phố) = 1 (thành phố HCM). Đây là cửa sổ làm việc của node select:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
5
Khai thác dữ liệu trong kinh doanh

Hình 1.5: Bảng select

Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện.
• Include. Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn.
• Discard. Chọn để loại trừ dòng dữ liệu đáp ứng các điều kiện lựa chọn.
Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự
nhập vào hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính (Expression
Builder) nút bên phải của cửa sổ.
Select node cũng được sử dụng để lấy mẫu. Thông thường, bạn sẽ sử dụng một node
sample cho hoạt động này. Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn
các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng
nút Select. Ví dụ tp (thành phố) = 1 and tuoi = 20.

the sample node: Các node lựa chọn mẫu cho tập hợp các hồ sơ. Một loạt các
cách thức chọn mẫu được hỗ trợ, bao gồm chọn mẫu ngẫu nhiên đơn giản, phân tầng, cả
khối... Lấy mẫu có thể hữu ích để cải thiện kết quả, và để chọn nhóm các hồ sơ/giao dịch
liên quan để phân tích.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
6
Khai thác dữ liệu trong kinh doanh

Hình 1.5: Bảng sample

Sample method : simple


Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây:
Chọn phương pháp lấy mẫu từ các tùy chọn sau:
• First. Chọn lấy n hồ sơ đầu tiên của dữ liệu. Ví dụ, nếu kích thước mẫu tối đa
được thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên.
• 1-trong-n. Chọn mẫu theo kiểu bước nhảy. Ví dụ, nếu n được thiết lập đến 5,
các hồ sơ sẽ được lấy là 5,10,15,20....
• Random%. Chọn mẫu ngẫu nhiên theo một tỷ lệ phần trăm của dữ liệu. Ví dụ,
nếu bạn thiết lập tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn.

The balance node: Các node chỉnh cân bằng do sự mất cân bằng trong bộ dữ
liệu, vì vậy nó phù hợp với một điều kiện quy định. Các chỉ thị điều chỉnh cân bằng tỷ lệ
của hồ sơ theo các điều kiện đặt ra.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
7
Khai thác dữ liệu trong kinh doanh

The Aggregate node: Node tổng hợp thay thế một chuỗi các hồ sơ đầu vào
với tóm tắt, tổng hợp hồ sơ đầu ra

The recency, frequency, monetary (RFM):

The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một
hay nhiều tiêu chí

The merge node: Node Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi
đầu ra duy nhất có chứa một số hoặc tất cả các biến đầu vào. Nó rất hữu ích cho việc sáp
nhập dữ liệu từ nhiều nguốn khác nhau (Merge biến).

The distinct node: Loại bỏ các hồ sơ

The append node: Các node Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp
các bộ dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau (Merge hồ sơ).

1.2.c. Giới thiệu Field operations:


Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, làm sạch, hoặc xây
dựng dữ liệu để chuẩn bị cho phân tích. Các Field operation chứa nhiều node hữu ích cho
việc chuyển đổi và chuẩn bị này.

the type node: Node xác định kiểu dữ liệu. Thiết lập vai trò của các biến cho
các mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được
lưu trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
8
Khai thác dữ liệu trong kinh doanh

Hình 1.5: Cửa sổ khai báo type

• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read
Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify. Các nhãn mà bạn chỉ
định trong nút hình được hiển thị trong Clementine tùy thuộc vào các lựa chọn bạn thực
hiện trong các thuộc tính của hộp thoại.
• Missing values: Được sử dụng để xác định các giá trị sẽ được coi như là khoảng
trắng.
• Value checking: Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo
rằng giá trị trường phù hợp với phạm vi quy định.

the filter node: Lọai bỏ một số biến

the reclassify node: Phân loại lại, nút chuyển đổi một tập các giá trị rời rạc
khác. Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích.

the bining node: Các node Binning tự động tạo ra thiết lập mới dựa trên các
giá trị số của biến thành giá trị phân loại. Ví dụ, bạn có thể chuyển đổi biến thu nhập

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
9
Khai thác dữ liệu trong kinh doanh

dạng số thành dạng biến các nhóm thu nhập theo trung bình và độ lệch chuẩn.

Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform
SPSS, được thực hiện bằng lệnh cú pháp của SPSS trên các nguồn dữ liệu trong
Clementine.

the Partition node: Các node phân vùng tạo ra một lĩnh vực phân vùng, trong
đó chia tách các dữ liệu vào tập hợp con riêng cho việc thực hiện, thử nghiệm, và kiểm
tra việc xây dựng mô hình.

the restructure node

the transpose node: Các nút Transpose giao hoán đổi các dữ liệu trong các
hàng và cột .
1.2.d Export node:
Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau với các công cụ
phần mềm khác của bạn.

Node xuất SPSS: xuất dữ liệu dạng SPSS, định dạng .SAV. Clementine đặt
tên biến cho một số biến kết quả trong SPSS đôi khi có thể gây ra lỗi vì tên biến trong
SPSS được giới hạn 64 ký tự và không bao gồm một số ký tự, chẳng hạn như dấu cách,
dấu hiệu, đồng đô la ($), và dấu gạch ngang (-). Có hai cách để điều chỉnh những hạn chế
này:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
10
Khai thác dữ liệu trong kinh doanh

Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS

• Bạn có thể đổi tên các biến cho phù hợp với yêu cầu SPSS bằng cách chọn biểu tượng
lọc/ chọn Rename for SPSS để đổi tên hoặc lọc Fields cho SPSS
Export:
Export field names. Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ
Clementine cho một SPSS file SAV.
• Names and variable labels: Tên và nhãn biến. Tên được xuất như tên biến SPSS,
trong khi nhãn được xuất như nhãn biến SPSS.
• Names as variable labels: Tên là nhãn biến. Chọn để sử dụng các tên biến trong
Clementine làm nhãn biến trong SPSS. Clementine cho phép ký tự trong tên biến mà
không hợp lệ trong tên biến của SPSS.
Sau khi đã có đựơc những gì mong muốn chọn Execute.

2. Sử dụng chuột trong Clementine:


Việc sử dụng chuột trong Clementine bao gồm:
• Single-click. Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ
menu, menu ngữ cảnh mở, và truy cập các operation và tùy chọn. Click và giữ node để di
chuyển và kéo các node.
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
11
Khai thác dữ liệu trong kinh doanh

• Kích đúp vào. Click đôi vào sử dụng nút chuột trái để đặt các node trên khung dòng
và chỉnh sửa các node hiện có.
• Trung-click. Click vào nút chuột giữa và kéo con trỏ để kết nối các node trên khung
dòng. Nhấn chuột phải để ngắt kết nối một node. Nếu bạn không có một con chuột có ba
nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo
chuột.
3.Làm việc với Clementine là một quá trình ba bước:
• Trước tiên, bạn đọc dữ liệu vào Clementine.
• Sau đó, chạy dữ liệu thông qua một loạt các thao tác
• Và cuối cùng, gửi dữ liệu đến một đích đến.
Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các
nguồn khác thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển
đến là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
12
Khai thác dữ liệu trong kinh doanh

PHÂN TÍCH CỤM:


Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên.
Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed
Ops) để khai báo lại kiểu scale cho toàn bộ các biến:

Hình 4.1: Strean chuẩn bị dữ liệu


Đây là bước chuẩn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo
của bạn.
Nếu bạn chưa có ý định về số lượng cụm bạn có thể chọn kỹ thuật phân tích cụm
Two Step. Ở thanh palette chọn Modeling node/ Segmentation/ chọn Two Step

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
13
Khai thác dữ liệu trong kinh doanh

Click đúp vào biểu tượng TwoStep mở ra hộp thoại khai báo như sau:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
14
Khai thác dữ liệu trong kinh doanh

Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho
lệnh này “phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã
thực hiện lệnh Partition.
Standardize numeric fields: Chuẩn hóa dữ liệu (Nếu dữ liệu của bạn đã được
chuẩn hó rồi thì không cần chọn). Nếu chọn dữ liệu của bạn sẽ được chuẩn hóa trước khi
chạy phân tích cụm để đạt hiệu quả hơn
Exclude outliers: Loại bỏ các giá trị ngoại lệ.
Automatically calculate number of clusters: Tự động tính toán số lượng cụm, mặc
định tối đa là 15 và tối thiểu là 2.
Specify number of clusters: Bạn cũng có thể quyết định số lượng cụm
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể
cả id (thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields
(ở góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là
Use custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
15
Khai thác dữ liệu trong kinh doanh

Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:

Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ
managers/Models sẽ hiện ra kết quả. bạn chỉ cần click đúp vào biểu tượng, nó sẽ được
đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn
click đúp vào biểu tượng trong lưu đồ:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
16
Khai thác dữ liệu trong kinh doanh

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
17
Khai thác dữ liệu trong kinh doanh

Tôi hi vọng là bạn đọc được thông tin từ hai bảng này. Chỉ lưu ý một điểm ở hình trên
cột cuối cùng hiển thị tầm quan trọng của các biến trong mô hình để có thể gắn trọng số
cho biến và giúp mô hình thực hiện hiệu quả hơn, ở phần sau sẽ giới thiệu bạn biểu đồ
mạng nhện.
Ngoài kết quả có được từ clementine bạn cũng có thể yêu cầu xuất kết quả phân cụm
qua excel: Ở thanh palette chọn Export/Excel, hoặc xem trực tiếp chọn Output/Table và
thực hiện một số khai báo bạn sẽ được báo cáo kết quả phân cụm.
Bạn cũng có thể thử lại kết quả này bằng việc chạy phân tích cụm K-Means và quyết
định số lượng cụm là 2. Ở thanh palette chọn Modeling node/ Segmentation/ chọn K-
Means
Với kỹ thuật K-Means sẽ có bản khai báo sau:
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
18
Khai thác dữ liệu trong kinh doanh

Hình 4.5: Cửa sổ K-Means

Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh
này “phan cum” hay tùy ý bạn.
Use partitioned data: Sử dụng dữ liệu phân vùng. Nếu trước đó dữ liệu của bạn đã
thực hiện lệnh Partition.
Number of clusters: Xác định số lượng cụm để tạo ra. (Mặc định là 5), Ở đây
chúng ta chọn 2.
Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm.
Show cluster proximity: Khoảng cách giữa các trung tâm cụm.
Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2",
vv), hoặc number số 1,2.
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả id
(thật là buồn cười nhỉ). Vì thế, bạn cần phải giới hạn số lượng biến lại. Chọn Fields (ở
góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use
custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
19
Khai thác dữ liệu trong kinh doanh

Hình 4.6: Chọn các biến vào mô hình

Bạn chọn một số biến cần thiết rồi apply/ok. kết quả như sau:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
20
Khai thác dữ liệu trong kinh doanh

Hình 4.7: Cửa sổ khai báo biến

Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute. Bạn để ý trên cửa sổ
managers/Models sẽ hiện ra kết quả. Bạn chỉ cần click đúp vào biểu tượng, nó sẽ được
đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn
click đúp vào biểu tượng trong lưu đồ:

Hình 4.7: Kết quả trung bình cụm

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
21
Khai thác dữ liệu trong kinh doanh

Hình 4.8: Kết quả trung bình cụm bằng hình


Đôi khi ở phân tích cụm bạn có thể kiểm ra xem kết quả phân cụm có phù hợp
với mục tiêu bạn định sẵn không. Ví dụ với dữ liệu xin vay nợ bạn có 2 kết cục trả
nợ đúng hạn và trễ hạn thì liệu kết quả phân cụm phân chia dữ liệu như vậy hay
không (Để kết quả phân loại được tốt dữ liệu đưa vào nên có sự cân bằng của biến
kết quả. Trong bộ dữ liệu xin vay nợ chỉ có 65 quan sát trên 650 quan sát là trả nợ
trễ hạn.
Bạn cần có 1 bước chuẩn bị dữ liệu để có 1 bộ dữ liệu chứa 50% quan sát là trễ
hạn và 50% quan sát là đúng hạn. Bạn có thể dùng node sample, Ở thanh palette
chọn Record Ops/ Sample. Mở hộp thoại khai báo của Sample. Trong hộp thoại Sample,
Sample method: chọn Complex (Lưu ý trước đó biến On-time phải được định dạng kiểu
Type là “Set”. Chọn Cluster and stratify/ Trong phần Stratify chọn biến On-
time/Apply/ok/ok

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
22
Khai thác dữ liệu trong kinh doanh

Trong mục Sample size chọn Custom/spectife sizes. Hộp thoại Sample Sizes
for Strata:Proportios. Chọn Read values : On-time là “0” Sample size là 1. On-time
là “1” Sample size là 0.1. Nhớ là có chọn Set random Seed là 1 số cố định, để cố
định mẫu. Bạn sẽ có bộ dữ liệu xấp xỉ 50% là trả đúng hạn và 50% là trả trễ hạn.
Bây giờ bạn có thể chọn 1 trong hai kỹ thuật phân tích cụm K-Means hoặc
Twostep với số lượng cụm là 2. Tôi chọn kỹ thuật K-Means và bạn lưu ý là đừng
đưa biến On-time vào Inputs, như hình sau:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
23
Khai thác dữ liệu trong kinh doanh

Kết quả phân cụm:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
24
Khai thác dữ liệu trong kinh doanh

So với cụm 1 cụm 2 có độ tuổi rất trẻ hoặc rất già, tín dụng đa phần là đỏ hoặc
vàng, thu nhập không có khác biệt nhiều, rủi ro cao hơn. Liệu chúng ta có thể kết
luận cụm 1 sẽ bao gồm những người trả nợ đúng hạn và cụm 2 có nguy cơ trả nợ
trễ hạn.
Kết quả phân loại bằng node matrix: Output/Matrix

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
25
Khai thác dữ liệu trong kinh doanh

Độ chính xác : (52+26)/(39+26+52+7)=62,9% .

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
26
Khai thác dữ liệu trong kinh doanh

MẠNG THẦN KINH:


Sau khi đã có các bứơc chuẩn bị dữ liệu: Sources(khai báo dữ liệu), type (kiểu dữ
liệu), Partition(phân vùng) nếu cần.
Sử dụng dữ liệu gian lận bảo hiểm để làm ví dụ, hầu hết các mô hình phân loại đạt
hiệu quả kém nếu dữ liệu bị lệch (1.67% có gian lận). Do đó, chọn mẫu 120 ( 60 có gian
lận, 60 không gian lận) để chạy mô hình.
Chọn mô hình Neural Net ở thanh palette :

Hình 5.1: Bảng Neural

Fields/Usecustom settings/ Ở khung Targets bạn sẽ đưa biến Outcom vào, và


khung Inputs bạn đưa các biến Age, Gender,Claim,Tickets,Claims,Atty vào

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
27
Khai thác dữ liệu trong kinh doanh

Hình 5.2: Bảng khai báo biến

Hình 5.3: Bảng tùy chọn neural

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
28
Khai thác dữ liệu trong kinh doanh

Model:
Model name: Tên mô hình
Use partitioned data: Sử dụng dữ liệu phân vùng
Method: Phương pháp. Có sáu phương pháp để xây dựng mô hình mạng thần
kinh:
• Quick: Phương pháp này dựa các đặc trưng của dữ liệu thực hiện một cách đơn
giản để tìm được một hình dạng thích hợp (cấu trúc liên kết) cho mạng.
• Dynamic: Phương pháp này tạo ra một cấu trúc liên kết đầu tiên, từ đó bằng cách
thêm và / hoặc loại bỏ các đơn vị ẩn càng lúc sẽ tiến bộ hơn.
• Multiple: Phương pháp này tạo ra nhiều cấu trúc liên kết mạng khác nhau
(các con số chính xác phụ thuộc vào dữ liệu). Các mạng này sau đó được thực hiện
song song. Kết thúc, các mô hình với các lỗi sai lệch thực tế thấp nhất là sẽ là mô
hình cuối.
• Prune. Phương pháp này bắt đầu với một mạng lưới rộng lớn và loại bỏ các đơn
vị yếu nhất trong các lớp ẩn và đầu vào. Phương pháp này thường chậm, nhưng nó
thường mang lại kết quả tốt hơn so với các phương pháp khác.
• RBFN. Mạng lưới cơ sở chức năng bố trí hình tròn (RBFN) sử dụng một kỹ
thuật tương tự như k-Mean là clustering để phân vùng dữ liệu dựa trên giá trị của biến
mục tiêu.
• Exhaustive prune: Phương pháp này có liên quan đến phương pháp Prune. Nó bắt
đầu với một mạng lưới rộng lớn và loại bỏ các đơn vị yếu nhất trong các lớp ẩn và
đầu vào . Với ExhaustivePrune, mạng lưới đào tạo các tham số được lựa chọn để đảm
bảo việc tìm kiếm rất kỹ lưỡng của không gian của các mô hình có thể tìm thấy tốt
nhất. Phương pháp này thường là chậm nhất, nhưng nó thường mang lại kết quả tốt
nhất. Lưu ý rằng phương pháp này có thể mất nhiều thời gian để thực hiện, đặc biệt là
với bộ dữ liệu lớn.
Prevent overtraining: Ngăn chặn làm việc quá sức. Tùy chọn này chia tách các dữ
liệu ngẫu nhiên vào thực hiện riêng biệt và đặt thử nghiệm cho mục đích xây dựng mô
hình. Xác định tỷ lệ dữ liệu được sử dụng để thực hiện trong hộp% mẫu trong nút
mạng thần kinh, và phần còn lại của dữ liệu sẽ được sử dụng để xác nhận.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
29
Khai thác dữ liệu trong kinh doanh

Set random seed: Đặt hạt giống ngẫu nhiên. Một hạt giống ngẫu nhiên cụ thể luôn
luôn tạo ra cùng một trình tự của các giá trị ngẫu nhiên, trong trường hợp thực hiện
các nút mang lại cùng một mô hình tạo ra.
Stop on. Bạn có thể chọn một trong các tiêu chí ngăn chặn sau đây:
• Default. Với thiết lập này, mạng sẽ ngừng thực hiện khi mạng dường như đã
đạt đến trạng thái tối ưu được thực hiện.
• Accuracy: Độ chính xác (%). Với tùy chọn này, chương trình sẽ tiếp tục cho
đến khi xác định là đạt được. Điều này không bao giờ có thể xảy ra, nhưng bạn có thể
làm gián đoạn thực hiện tại bất kỳ điểm nào và lưu các mạng với độ chính xác tốt
nhất đạt được cho đến thời điểm đó.
• Cycles. Với tùy chọn này, chương trình sẽ tiếp tục cho số quy định của chu kỳ
(đi qua các dữ liệu).
• Time: (phút). Với tùy chọn này, chương trình sẽ tiếp tục được ghi rõ thời gian
(theo phút). Lưu ý rằng chương trình có thể vượt quá thời hạn quy định 1 chút để
hoàn thành chu trình hiện hành.

Hình 5.3:Stream neural

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
30
Khai thác dữ liệu trong kinh doanh

Chúng ta dùng thêm node analysis trong output để thể hiện các bảng kết quả dưới
đây.

Hình 5.4:Kết quả phân cụm 5.000 bước trên dữ liệu phân tích

Hình 5.5: Kết quả phân cụm 5.000 bước trên dữ liệu kiểm tra:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
31
Khai thác dữ liệu trong kinh doanh

Hình 5.6: Kết quả phân cụm 20.000 bước trên dữ liệu phân tích:

Hình 5.7: Kết quả phân cụm 20.000 bước trên dữ liệu kiểm tra:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
32
Khai thác dữ liệu trong kinh doanh

CÂY QUYẾT ĐỊNH:


Gồm có các mô hình C-RT, Chaid,Quest, C5.0

Node Cây phân loại và hồi quy (C & R) tạo ra một cây quyết định cho phép
bạn phân loại và dự báo. Phương pháp sử dụng phân vùng đệ quy để phân chia các hồ sơ
đào tạo thành các nhóm có kết quả đầu ra giống nhau. Nó bắt đầu bằng cách kiểm tra các
biến đầu vào để tìm thấy những phân chia tốt nhất, bằng cách giảm thiểu các sai số (tạp
chất) ở từng bước, trong đó một nút được coi là "tinh khiết" nếu 100% các trường hợp
trong nút rơi vào một thể loại cụ thể của biến mục tiêu. Biến mục tiêu và biến dự báo có
thể là định lượng hoặc định tính, tất cả chia tách là nhị phân (chỉ có hai phân nhóm).

Node QUEST cung cấp một phương pháp phân loại nhị phân để xây dựng cây
quyết định, được thiết kế để giảm thời gian xử lý cần thiết hơn C & R , trong khi cũng
làm giảm xu hướng tìm thấy trong các phương pháp phân loại cây để ưu tiên cho những
dự báo cho phép chia tách nhiều hơn. Biến dự báo có thể là dãy số, nhưng biến mục tiêu
phải được phân loại. Tất cả chia tách là nhị phân.

Node CHAID tạo ra cây quyết định sử dụng số liệu thống kê chi bình phương
để xác định tối ưu chia tách. Không giống như các cây C & R và QUEST, CHAID có thể
tạo ra cây nonbinary, có nghĩa là một số chia tách có nhiều hơn hai nhánh. Biến Mục tiêu
và dự báo có thể ở dạng dãy số hoặc phân loại. Nhưng phải mất nhiều thời gian để tính
toán.

Node C5.0 xây dựng hoặc là một cây quyết định, hoặc thiết lập một quy tắc.
Mô hình này hoạt động bằng cách chia tách các mẫu dựa trên các biến cung cấp các
thông tin thu được tối đa ở mỗi cấp. Biến mục tiêu phải được phân loại. Có thể chia thành
nhiều hơn hai nhóm.
Chúng ta sẽ lần lượt thử các mô hình và đánh giá, Các khai báo trong các mô hình
đều như nhau:
Chúng ta sẽ chọn dữ liệu gian lận bảo hiểm làm ví dụ:
Với mô hình C-RT:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
33
Khai thác dữ liệu trong kinh doanh

Fields/ chọn Use custom settings/ Đưa biến outcome vào khung Target, đưa các biến
còn lại: gender,claim,tickets,claims, atty vào khung Inputs
Partition: đưa biến phân vùng vào nếu có
Use frequency field : sử dụng tần số
Use weight field: sử dụng trọng số

Hình 5.8: Khai báo biến

Hình 5.9: Bảng Model


Model name: Tên mô hình
Use partition data: phân vùng dữ liệu
Mode. phương pháp được sử dụng để xây dựng mô hình.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
34
Khai thác dữ liệu trong kinh doanh

General model: mô hình mặc định


Launch interactive session :cho phép bạn xây dựng các cây của bạn mỗi cấp tại một
thời điểm, chỉnh sửa nhỏ rồi tỉa như mong muốn.
Độ sâu tối đa cây. Xác định số lượng tối đa của các nhánh bên dưới gốc.
C5.0

Hình 5.10: Bảng Model C5.0

Model:
Model name: Xác định tên của mô hình
Use partition data : dữ liệu phân vùng
Output type: bạn muốn mô hình kết quả là một cây Quyết định hoặc thiết lập một
quy tắc.
Group symbolics. Nếu tùy chọn này không được chọn, C5.0 sẽ tạo ra một nút con
cho mỗi giá trị của biến sử dụng để phân chia các nút cha. Ví dụ, nếu C5.0 chia tách
biến COLOR (với các giá trị Red, Green, và Blue), nó sẽ tạo ra một phân chia ba
chiều theo mặc định. Tuy nhiên, nếu tùy chọn này được chọn, và các hồ sơ được hợp
lại COLOR = RED là rất tương tự như hồ sơ hợp COLOR = BLUE, nó sẽ tạo ra một

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
35
Khai thác dữ liệu trong kinh doanh

phân chia hai chiều, với Green trong một nhóm, và Blues và Red với nhau trong
nhóm khác.
Use boosting: Các thuật toán C5.0 có một phương pháp đặc biệt để cải thiện độ
chính xác của nó, gọi là boosting. Nó hoạt động bằng cách xây dựng các mô hình khác
nhau trong một chuỗi. Mô hình đầu tiên được xây dựng theo cách thông thường. Sau đó,
một mô hình thứ hai được xây dựng trong một cách mà nó tập trung vào các hồ sơ đã
được phân loại sai bởi các mô hình đầu tiên. Sau đó, một mô hình thứ ba được xây dựng
để tập trung vào các lỗi của mô hình thứ hai, và như vậy. Cuối cùng, trường hợp được
phân loại bằng cách áp dụng toàn bộ các mô hình , bằng cách sử dụng một thủ tục biểu
quyết để kết hợp những dự đoán riêng biệt vào một tổng thể dự đoán.Nhưng nó cũng đòi
hỏi phải thực hiện lâu . Số lượng thử nghiệm tùy chọn cho phép bạn kiểm soát nhiều mô
hình được sử dụng.
Cross-validate . Nếu tùy chọn này được chọn, C5.0 sẽ sử dụng một tập các mô
hình được xây dựng trên một phần nhỏ của dữ liệu thử nghiệm để ước tính chính xác một
mô hình được xây dựng trên những dữ liệu đầy đủ. Điều này rất hữu ích nếu bộ dữ liệu
của bạn quá nhỏ để chia thành thử nghiệm và kiểm tra. Mô hình xây dựng và xác nhận
chéo được thực hiện cùng một lúc.
Mode:
simple:
Favor: Theo mặc định, C5.0 sẽ cố gắng để xây dựng cây chính xác nhất có thể với
accuracy. Trong một số trường, có thể dẫn đến hiệu suất kém khi mô hình được áp dụng
cho dữ liệu mới. Chọn generality để sử dụng cài đặt thuật toán được ít nhạy cảm với vấn
đề này.
Experted noise (%). Xác định tỷ lệ dự kiến của dữ liệu có sai sót trong việcthực
hiện các thiết lập.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
36
Khai thác dữ liệu trong kinh doanh

Hình 5.10: Stream cây quyết định

Kết quả phân cụm với kỹ thuật C_RT:

Kết quả phân cụm với kỹ thuật Quest:

Kết quả phân cụm với kỹ thuật Chaid:


GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
37
Khai thác dữ liệu trong kinh doanh

Kết quả phân cụm với kỹ thuật C5.0:

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
38
Khai thác dữ liệu trong kinh doanh

PHÂN TÍCH RỔ HÀNG MUA:


Hiệp hội các quy tắc kết hợp một kết luận cụ thể (việc mua một sản phẩm cụ
thể) với một tập hợp các điều kiện (việc mua một số sản phẩm khác). Ví dụ, quy
tắc bia <= cannedveg & frozenmeal (173, 17,0%, 0,84) nói rằng bia thường xảy ra
khi cannedveg và frozenmeal xuất hiện cùng nhau. Quy tắc này là 84% đáng tin
cậy và áp dụng cho 17% hồ sơ mua hàng, hoặc 173 hồ sơ. Hiệp hội các thuật toán
quy tắc tự động tìm các hiệp hội mà bạn có thể tìm thấy bằng cách làm thủ công.
Những bất lợi của thuật toán hội là chúng đang cố gắng tìm các mô hình trong một
không gian tìm kiếm có tiềm năng rất lớn và do đó, có thể đòi hỏi nhiều thời gian
hơn để chạy so với một thuật toán cây quyết định. Các thuật toán sử dụng một
phương pháp tạo và thử nghiệm cho việc tìm kiếm các quy tắc - quy tắc đơn giản
được tạo ra ban đầu, và đây là những xác nhận hợp lệ đối với dữ liệu. Các quy tắc
tốt được lưu trữ và tất cả các quy tắc, thể chế khác nhau, sau đó chuyên sâu.
Chuyên sâu là quá trình thêm điều kiện để quyết định. Những quy định mới này
sau đó được xác nhận hợp lệ đối với các dữ liệu, và quá trình lặp đi lặp lại quy tắc
tốt nhất hoặc phù hợp nhất được tìm thấy. Người sử dụng thường cung cấp một số
giới hạn về số có thể có của tiền đề để cho phép trong một quy tắc, và kỹ thuật
khác nhau dựa trên lý thuyết thông tin.

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
39
Khai thác dữ liệu trong kinh doanh

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
40
Khai thác dữ liệu trong kinh doanh

Khai phá dữ liệu: Ứng dụng, hướng nghiên cứu và công cụ


Data Mining: Applications, Trends &Tools
Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và hiện nay đã có rất nhiều công
cụ thương mại và phi thương mại triển khai các nhiệm vụ của khai phá dữ liệu. Bài viết này giới thiệu về một số lĩnh
vực ứng dụng và các hướng nghiên cứu tiếp theo cũng như một số công cụ khai phá dữ liệu.
1. Ứng dụng của khai phá dữ liệu (Data Mining Applications)
Sau đây là một số lĩnh vực mà Data mining đang được ứng dụng rộng rãi
 Phân tích dữ liệu tài chính (Financial Data Analysis)

 Công nghiệp bán lẻ (Retail Industry)

 Công nghiệp viễn thông (Telecommunication Industry)

 Phân tích dữ liệu sinh học (Biological Data Analysis)

 Phát hiện xâm nhập (Intrusion Detection)

 Một số ứng dụng trong khoa học (Scientific Applications)

Phân tích dữ liệu tài chính (Financial Data Analysis)


Dữ liệu tài chính trong ngân hàng và trong ngành tài chính nói chung thường đáng tin cậy và có chất lượng cao,
tạo điều kiện cho khai phá dữ liệu. Dưới đây là một số ứng dụng điển hình trong khai phá dữ liệu tài chính:

 Dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tín dụngđối với khách
hàng.

 Phân tích hành vi khách hàng (vay, gửi tiền)

 Phân loại và phân nhóm khách hàng mục tiêu cho tiếp thị tài chính

 Phát hiện các hoạt động rửa tiền và tội phạm tài chính khác

Công nghiệp bán lẻ (Retail Industry)


Khai phá dữ liệu có vai trò rất quan trọng trong ngành công nghiệp bán lẻ, do dữ liệu thu thập từ lĩnh vực này
rất lớn từ doanh số bán hàng, lịch sử mua hàng của khách hàng, vận chuyển hàng hóa, tiêu thụ và dịch vụ. Điều tự
nhiên là khối lượng dữ liệu từ ngành công nghiệp này sẽ tiếp tục tăng lên nhanh chóng và dễ dàng thu thập bởi tính
sẵn có trên môi trường Web. Ứng dụng khai phá dữ liệu trong ngành công nghiệp bán lẻ nhằm xây dựng mô hình
giúp xác định xu hướng mua hàng của khách hàng, giúp doanh nghiệp cải thiện chất lượng sản phẩm dịch vụ nhằm
nâng cao sự hài lòng của khách hàng và giữ chân khách hàng tốt. Dưới đây là một số ứng dụng của khai phá dữ
liệu trong ngành công nghiệp bán lẻ:
 Khai phá dữ liệu trên kho dữ liệu khách hàng

 Phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời
gian và khu vực.

 Phân tích hiệu quả của các chiến dịch bán hàng, Marketing.

 Quản trị mối quan hệ khách hàng (CRM).

 Giới thiệu và tư vấn sản phẩm phù hợp cho khách hàng

Công nghiệp viễn thông (Telecommunication Industry)


Công nghiệp viễn thông là một trong những ngành công nghiệp mới nổi, cung cấp nhiều dịch vụ như trên điện
thoại di động, Internet, truyền hình ảnh.... Do sự phát triển mạnh của công nghệ máy tính và mạng máy tính, viễn
thông đang phát triển với tốc độ rất lớn. Đây là lý dotại sao khai phá dữ liệu trở nên rất quan trọng trong lĩnh vực
này.
Khai phá dữ liệu trong ngành công nghiệp viễn thông giúp xác định các mô hình viễn thông,phát hiện các hoạt

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
41
Khai thác dữ liệu trong kinh doanh

động gian lận trong viễn thông, sử dụng tốt hơn nguồn tài nguyên và cải thiện chất lượng dịch vụ viễn thông. Dưới
đây là một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp này:
 Phân tích dữ liệu đa chiều viễn thông.

 Xây dựng các mô hình phát hiện gian lận.

 Phát hiện bất thường trong giao dịch viễn thông.

 Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng

 Sử dụng các công cụ trực quan trong phân tích dữ liệu viễn thông

Phân tích dữ liệu sinh học (Biological Data Analysis)


Khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin -Sinh học(Bioinformatics). Sau đây
là một số ứng dụng của khai phá dữ liệu ứng dụng trong sinh học:

 Lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen.

 Xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein

 Xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền.

Phát hiện xâm nhập bất hợp pháp (Intrusion Detection)


Xâm nhập bất hợp pháp là những hành động đe dọa tính toàn vẹn, bảo mật và tính sẵn sàng của tài nguyên
mạng. Trong thế giới của kết nối, bảo mật đã trở thành vấn đề lớn đối với tồn tại của hệ thống. Với sự phát triển
của internet và sự sẵn có của các công cụ, thủ thuật trợ giúp cho xâm nhập và tấn công mạng, yêu cầu kiểm soát
truy cập bất hợp pháp là yếu tố rất quan trọng đảm bảo cho sự ổn định của hệ thống.

Dưới đây là một số ứng dụng của khai phá dữ liệu có thể được áp dụng để phát hiện xâm nhập:
- Phát triển các thuật toán khai phá dữ liệu để phát hiện xâm nhập.
- Phân tích kết hợp, tương quan và khác biệt để phát hiện xâm nhập
- Phân tích dòng dữ liệu dữ liệu (Analysis of Stream data) để phát hiện bất thường.
2. Lựa chọn công cụ khai phá dữ liệu (Choosing Data Mining Tool - DMT)
Hiện nay có rất nhiều DMT đã được phát triển, vấn đề là làm sao chọn được công cụ khai phá dữ liệu phù hợp
với yêu cầu cụ thể của mỗi dự án khai phá dữ liệu. Việc lựa chọn này dựa trên một số đặc trưng sau của công cụ
khai phá dữ liệu:
Kiểu dữ liệu (Data Types): Mỗi DMT thường xử lý tốt trên những kiểu dữ liệu nhất định (formatted text,
ASCII text, relational database, data warehouse data) vì vậy nên biết được bạn đang cần hệ thống xử lý trên định
dạng dữ liệu nào để chọn công cụ khai phá dữ liệu cho phù hợp.
Sự tương thích (Compatibility): Phải biết được DMT chạy trên hệ điều hành nào, môi trường tương tác
webform hay winform.
Nguồn dữ liệu (Data Sources): Data Sources là nguồn dữ liệu mà DMT sẽ xử lý, phải xác định được bạn đang
lưu trữ dữ liệu ở chuẩn nào nào và DMT có hỗ trợ xử lý dữ liệu ở chuẩn đó không. Một số Data Source phổ biến
hiện nay mà các DMT hỗ trợ như ASCII text files, ODBC connections, OLE DB for ODBC connections.
Chức năng của hệ thống khai phá dữ liệu (Data Mining functions): Xác định các nhiệm vụ mà DMT triển
khai (classification, description, discovery-driven OLAP analysis, association mining, linkage analysis, statistical
analysis, classification, prediction, clustering, outlier analysis, similarity search…)
Khả năng mở rộng (Scalability): Khi chọn một DMT thường quan tâm đến 2 khả năng mở rộng sau:
Khả năng xử lý kích thước cơ sở dữ liệu lớn (mở rộng về số dòng dữ liệu (Database size).
Hỗ trợ xử lý với số thuộc tính (Dimension) lớn
Công cụ trực quan hóa dữ liệu (Visualization Tools): Đây là chức năng rất quan trọng đối với một DMT, giúp
biểu diễn tri thức phát hiện được trực quan, dễ hiểu, dễ kiểm tra. Vấn đề trực quan hóa của DMS đề cập đến các
khía cạnh sau:
 Trực quan hóa dữ liệu (Data Visualization)

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
42
Khai thác dữ liệu trong kinh doanh

 Trực quan hóa tiến trình khai phá dữ liệu (Mining process visualization)

 Trực quan hóa kết quả khai phá dữ liệu (Mining Results Visualization)

Ngôn ngữ truy vấn và tương tác đồ họa với người dùng (Data Mining query language): Xác định DMT cung
cấp cho người dùng ngôn ngữ dùng để truy vấn kết quả từ mô hình khai phá dữ liệu đã được xây dựng trên môi
trường tương tác nào? đồ họa (GUI) hay dòng lệnh (CUI)
3. Các hướng nghiên cứu tiếp theo của Data Mining (Trends in Data Mining)
Sau đây là một số hướng nghiên cứu trong khai phá dữ liệu đang được quan tâm:
- Khai phá dữ liệu Tin sinh học (Biological data mining)
- Khai phá dữ liệu và công nghệ phần mềm (Data mining and software engineering)
- Khai phá dữ liệu web (Web mining)
- Khai phá dữ liệu phân tán (Distributed Data mining)
- Khai phá dữ liệu thời gian thực (Real time data mining)
- Nghiên cứu hợp giữa khai phá dữ liệu, cơ sở dữ liệu, kho dữ liệu và CSDL web
- Chuẩn hóa ngôn ngữ truy vấn khai phá dữ liệu (Standardization of data mining query
language)
- Khai phá dữ liệu trực quan (Visual Data Mining)
- Nghiên cứu các phương pháp mới để khai phá các kiểu dữ liệu phức tạp (New methods for
mining complex types of data)
- Nghiên cứu về chính sách và an toàn thông tin trong khai phá dữ liệu (privacy protection and
Information Security in data mining)
4. Một số công cụ khai phá dữ liệu (Data Mining Tools)

Một số công cụ khai phá dữ liệu

License
Software Name Data Mining Tasks
Type

ANGOSS
KnowledgeSTUDIO Commerc Classification Discovery, Cluster Discovery, Data
ial Licence Visualisation, Discovery Visualisation
(Link)

ARMiner Free -
Open Source Association Discovery
(Link) Licence

Bayes Server Classification Discovery, Cluster Discovery,


Commerc
Regression Discovery, Outlier Discovery, Discovery
(Link) ial Licence
Visualisation, Sequence Analysis

CART®
(Classification and Commerc
Regression Trees) Classification Discovery
ial Licence
(Link)

Data Applied Classification Discovery, Cluster Discovery,


Commerc
Association Discovery, Outlier Discovery, Data
(Link) ial Licence
Visualisation, Discovery Visualisation, Web Analytics

GhostMiner Commerc Classification Discovery, Cluster Discovery, Outlier


(Link) ial Licence Discovery, Data Visualisation

11Ants Model Commerc Classification Discovery, Regression Discovery,


Builder ial Licence Outlier Discovery
GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
43
Khai thác dữ liệu trong kinh doanh

(Link)

Molegro Data
Modeller Commerc Cluster Discovery, Regression Discovery, Outlier
ial Licence Discovery, Data Visualisation, Discovery Visualisation
(Link)

OmniAnalyser Cluster Discovery, Association Discovery, Text


Commerc
Mining, Data Visualisation, Discovery Visualisation,
(Link) ial Licence
Web Analytics, Social Network Analysis

Classification Discovery, Cluster Discovery,


R Free - Regression Discovery, Association Discovery, Text
Open Source Mining, Outlier Discovery, Data Visualisation,
(Link) Licence Discovery Visualisation, Sequence Analysis, Web
Analytics, Social Network Analysis

RapidMiner Free - Classification Discovery, Cluster Discovery,


Open Source Regression Discovery, Association Discovery, Text
(Link) Licence Mining, Outlier Discovery, Data Visualisation

SAS Enterprise Classification Discovery, Cluster Discovery,


Miner Commerc
Regression Discovery, Association Discovery, Outlier
ial Licence
(Link) Discovery, Data Visualisation, Web Analytics

SPAD Data Mining Classification Discovery, Cluster Discovery,


Commerc
Regression Discovery, Association Discovery, Text
(Link) ial Licence
Mining, Data Visualisation, Discovery Visualisation

SPM (Salford Classification Discovery, Cluster Discovery,


Systems Predictive Commerc Regression Discovery, Association Discovery, Outlier
Mining Suite) ial Licence Discovery, Data Visualisation, Discovery Visualisation,
(Link) Sequence Analysis, Web Analytics

Classification Discovery, Cluster Discovery,


Clementine Regression Discovery, Association Discovery, Text
Commerc
Mining, Outlier Discovery, Data Visualisation,
(Link) ial Licence
Discovery Visualisation, Sequence Analysis, Web
Analytics, Social Network Analysis

SQL Server Data Classification Discovery, Cluster Discovery,


Mining Commerc Regression Discovery, Association Discovery, Text
ial Licence Mining, Outlier Discovery, Data Visualisation,
(Link) Discovery Visualisation, Sequence Analysis

Classification Discovery, Cluster Discovery,


STATISTICA Data Regression Discovery, Association Discovery, Text
Miner Commerc
Mining, Outlier Discovery, Data Visualisation,
ial Licence
(Link) Discovery Visualisation, Sequence Analysis, Web
Analytics, Social Network Analysis

Viscovery SOMine Commerc Classification Discovery, Cluster Discovery, Data


GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
44
Khai thác dữ liệu trong kinh doanh

(Link) ial Licence Visualisation, Discovery Visualisation

Classification Discovery, Cluster Discovery,


VisuMap Commerc Association Discovery, Text Mining, Outlier Discovery,
(Link) ial Licence Data Visualisation, Discovery Visualisation, Sequence
Analysis

Weka Free - Classification Discovery, Cluster Discovery,


Open Source Association Discovery, Outlier Discovery, Data
(Link) Licence Visualisation, Discovery Visualisation

GV Th.S Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
45

You might also like