Viscovery SOMine 8.0 Manual Trang 1 1

Machine Translated by Google
Viscovery®
SOMine
Hướng dẫn sử dụng
Viscovery® SOMine 8.0.

Bản quyền © 1998–2022 của Viscovery Software GmbH.
Đã đăng ký Bản quyền.
Sách hướng dẫn này và phần mềm được mô tả ở đây là một phần của thỏa thuận cấp phép và chỉ có thể được
sử dụng hoặc sao chép theo các điều khoản của thỏa thuận nói trên. Hướng dẫn này có thể thay đổi mà
không cần thông báo.
Nội dung của sổ tay hướng dẫn này chỉ được sử dụng để cung cấp thông tin và không cấu thành bất kỳ cam kết nào của
Viscovery. Viscovery sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc điểm không chính xác nào có thể xuất hiện trong
sổ tay hướng dẫn này và trong mọi trường hợp Viscovery sẽ không chịu trách nhiệm về mọi thiệt hại trực tiếp hoặc gián
tiếp phát sinh dưới bất kỳ hình thức nào khi sử dụng sổ tay hướng dẫn này.
Toàn bộ hoặc một phần hướng dẫn này sẽ không được sao chép, sao chụp hoặc sao chép, dịch hoặc chuyển đổi
sang bất kỳ dạng điện tử hoặc dạng đọc bằng máy nào mà không có sự đồng ý trước bằng văn bản của
Viscovery.
Microsoft® và Windows® là các nhãn hiệu đã đăng ký của Tập đoàn Microsoft tại Hoa Kỳ và các quốc gia khác.
SPSS® là thương hiệu của International Business Machines Corporation.
Viscovery® là nhãn hiệu đã đăng ký của Viscovery Software GmbH tại Áo, Hoa Kỳ và các quốc gia khác.
Sản phẩm Viscovery® này sử dụng các mô-đun phần mềm của bên thứ ba sau đây được cài đặt cùng với sản
phẩm:
Nhập và xuất tệp Spssio32.dll, © SPSS Inc., một công ty của IBM.
Các thành phần quốc tế cho Unicode (ICU), © International Business Machines Corporation và các tổ
chức khác.
khrplatform.h – © 2008-2018 The Khronos Group Inc.
Các điều kiện cấp phép cho các mô-đun này có thể được tìm thấy trong thư mục cài đặt.
Công ty phần mềm Viscovery
Kupelwiesergasse 27
1130 Viên
Áo, Châu Âu
Email: office@viscovery.net
https://www.viscovery.net
2
dung
Nội
Nội dung
Các quy ước về tài liệu.................................................................. ............9
Lời nói đầu................................................................................. .................................................11
1. Thông tin chung............................................... ......................13
1.1 Các trường hợp sử dụng Viscovery® .................................................. ...................................13
1.2 Phương pháp Viscovery®. ................................................................. ...................................14
1.2.1 Bản đồ tự tổ chức.. ................................................................. ....................14

1.2.2 Phương pháp cụm dựa trên SOM........... ...................................16 1.2 .3 Phương pháp thống kê
tiêu chuẩn.................................................. ......................18 1.2.4 Lập hồ
sơ........... ................................................................. ......................18 1.2.5
Dự đoán và ghi điểm........... ................................................................. ......19 1.3
Dòng sản phẩm Viscovery® ....................................... ....................20 1.3.1 Đặc tính chung của
Viscovery® SOMine.... ...................................21 1.3.2 Viscovery® SOMine – Trình khám phá trực
quan.................................................................. ....22 1.3.3 Viscovery® SOMine – Phân cụm
và phân loại....................... ..........24 1.3.4 Viscovery® SOMine – Dự đoán và ghi
điểm........... ......................26 1.3.5 Viscovery® SOMine – Dữ liệu doanh
nghiệp........... ......................27 1.3.6 Viscovery® SOMine – Tự động hóa quy trình làm
việc............ ......................28 1.3.7 Mô-đun cấp
phép............. ................................................................. ............29
2 Làm việc với Viscovery ® SOMine.................................................31
2.1 Giới
thiệu................................................................................................. ................................................................. ....31
3 Luồng công việc tiền xử lý dữ liệu.................................................. ..39
3.1 Nhập dữ
liệu.................................................................. ................................................................. ......39
3.1.1 Chọn nguồn dữ liệu.................................................. ....................39 3.1.2 Xác định
kiểu........... ................................................................. ......................42 3.1.3
Chọn thuộc tính........... ................................................................. ............43 3.2 Xác định
thuộc tính.................................. ................................................................. ............46 3.2.1 Xác định thuộc
3
3.3.2 Xóa bản ghi.................................................................. ......................59 3.3.3 Xác định
các thay thế...... ................................................................. ......................63 3.3.4 Xác định

các phép biến đổi........... ................................................................. 64 3.4 Ghi dữ liệu
Mart................................................................. .................................................................
.66 3.4.1 Chọn thuộc tính cần giữ.................................................. ......................66 3.4.2 Ghi dữ
liệu Mart............ ................................................................. ......................66 3.5 Giao
thức tiền xử lý........... ................................................................. ............67 3.5.1 Xuất giao thức tiền
xử lý........... ......................68 3.5.2 Định dạng của Giao thức tiền xử lý............ ...................................68
3.5.3 Nhập tiền xử lý Giao thức................................................................. .......71 3.5.4 Ảnh hưởng
đến các bước trong quy trình làm việc........... .................................73
4 Quy trình khám phá dữ liệu.................................................. ............77
4.1 Chọn Data Mart................................................................. ...................................77 4.2 Ưu tiên
Thuộc tính................................................. ......................77 4.3 Tạo bản
đồ.... ................................................................. .................................................................
81 4.4 Khám phá bản đồ................................................................. ................................................................. ......83
5 Quy trình tạo bộ phân loại.................................................. ..87
5.1 Chọn Data Mart................................................................. ......................................87 5.1. 1
Chọn Data Mart................................................................................. ....................87 5.1.2
Chọn Giá trị Mục tiêu........... ................................................................. ..........87 5.1.3 Xác
định phân vùng dữ liệu........................... ......................88 5.2 Mô hình tính
toán............ ................................................................. ......................90 5.2.1 Ưu tiên các thuộc

tính............ ................................................................. ....90 5.2.2 Xác định các thông số đào
tạo bản đồ........... ......................90 5.3 Tối ưu hóa mô
hình........... ................................................................. ......................92 5.3.1 Xác định chiến lược
tối ưu hóa...... ................................................................. ..92 5.3.2 Kết quả tối ưu hóa phân
loại....................... ......................93 5.4 Xác thực mô

hình........... ................................................................. ......................93 5.4.1 Ghi nhật ký
mất............ ................................................................. ......................94 5.4.2 Lỗi phân

loại............. ................................................................. .................95
6 Quy trình áp dụng trình phân loại.................................................. ...97
6.1 Chọn Data Mart................................................................. ......................................97 6.2 Áp
dụng Người mẫu................................................. .................................................................
.100 6.3 Kiểm tra ứng dụng.................................................. ...................................103 6.4 Phân loại
xuất khẩu ................................................................. ......................106 6.4.1 Ghi vào một tập

tin.... ................................................................. ....................106 6.4.2 Ghi vào cơ sở dữ
liệu.......... ................................................................. ............108
7 Quy trình tạo dự đoán.................................................. 111
7.1 Chọn Data Mart................................................................. ...................................111 7.1.1 Lựa
chọn
Data Mart................................................................................. ......................111
7.1.2 Chọn Giá trị Mục tiêu............. ................................................................. ......112 7.1.3
Xác định phân vùng dữ liệu.................................. ......................112
4
dung
Nội
7.2 Tính toán mô hình toàn cầu.................................................. ......................113 7.2.1 Chọn thuộc
tính mô hình.... ................................................................. ............114 7.2.2 Xác định
tham số hồi quy........... ......................114 7.2.3 Kết quả của hồi quy toàn
cầu............ ................................................................. ..116 7.3 Tính toán mô hình cục
bộ.................................. ...................................122 7.3.1 Xác định chiến lược tối ưu
hóa. ................................................................. ............123 7.3.2 Xác định các thông số
đào tạo bản đồ và ưu tiên các thuộc tính...........125 7.3.3 Tối ưu hóa cục bộ Người
mẫu................................................. ......................128 7.3.4 Kết quả của cửa sổ hồi quy cục
bộ........... ......................131 7.3.5 Cửa sổ chẩn đoán phi tuyến tính..... ...................................132
7.3 .6 Cửa sổ bản đồ................................................................. ....................135 7.3.7
Cửa sổ bản đồ hệ số... ................................................................. ......135 7.4 Xác thực mô
hình................................. ................................................................. ............136

7.4.1 Biểu đồ điểm số........... ................................................................. ............138 7.4.2
Biểu đồ lợi nhuận........... ................................................................. ......139 7.4.3 Lỗi
dự đoán.................................. ...................................140 7.4.4 Cài đặt biểu
đồ ................................................................. ...................................140
8 Quy trình làm việc dự đoán áp dụng.................................................. .143
8.1 Chọn Data Mart................................................................. ...................................143
8.2 Áp dụng mô
hình ................................................................. .................................................................

145 8.3 Kiểm tra ứng dụng................................................................. ...................................148
8.3.1 Điểm và biểu đồ lợi nhuận.................................................................. ......................149

8.3.2 Độ lợi tối ưu........... ................................................................. ....150 8.3.3 Biểu
đồ kịch bản........... ................................................................. ..........150 8.4 Chấm điểm xuất

khẩu........... ................................................................. ............151 8.4.1 Ghi vào một
tập tin........... ................................................................. ......152 8.4.2 Ghi vào cơ sở dữ liệu............................
9 Báo cáo, Hồ sơ dữ liệu và Thống kê.................................157
9.1 Báo cáo................................................................................. ................................................................. ............157
9.2 Bản ghi dữ liệu................................................. ................................................................. ............158
9.3 Thống kê....................... ................................................................. ............159
10 mô hình Viscovery................................................................. ............167
10.1 Kiểm tra mô hình.................................................................. ......................167 10.1.1
Cửa sổ bản đồ.. ................................................................. ......................167 10.1.2

Cửa sổ cụm............ ................................................................. ......................171
10.1.3 Cửa sổ phân đoạn........... .................................................172 10.1.4 Cửa sổ đặc điểm

cụm.................................................. ......173 10.1.5 Cửa sổ hồ sơ
nhóm........... ...................................174 10.1.6 Thống kê Cửa

sổ................................................. ......................178 10.1.7 Cửa sổ ghi dữ
liệu........... ................................................................. ............179 10.1.8 Cửa sổ nhật
ký sản xuất........... ......................180 10.1.9 Thuộc

tính........... ................................................................. ......................181 10.1.10
Thuộc tính của Data Mart............ ................................................................. ......183
10.1.11 Bản đồ hệ số........... ................................................................. .184 10.2 Phân
đoạn và cụm................................................................. ......................185 10.2.1 Phương pháp

cụm............ ................................................................. ......................186
5
10.2.2 Tạo phân đoạn.................................................................. ......................189
10.2.3 Xác định cụm........... ................................................................. ......191 10.3

Khung nhìn của mô
hình................................................. ................................................................. ...........196
10.3.1 Phạm vi nhóm........... ................................................................. ....196 10.3.2

Nhóm mô tả................................................. ......................196 10.3.3 Thanh trạng
thái.... ................................................................. ......................197 10.3.4 Sự
sắp xếp............ ................................................................. ......................197
10.3.5 Dấu phân cách............ ................................................................. ......................199

10.3.6 Bóng và đường viền........... ................................................................. ......199
10.3.7 Nút gần nhất........... ...................................201 10.3 .8 Giám sát quá
trình.................................................................. ......................202 10.4 Chỉnh sửa bản
đồ............. ................................................................. ....................203 10.4.1
Sử dụng Nhãn............ ................................................................. ......................204
10.4.2 Chọn nút........... ................................................................. ............208 10.4.3 Đánh dấu đường đi........... .
11 Tự động hóa quy trình làm việc của Viscovery.................................215
11.1 Giới
thiệu................................................................................. ................................................................. ..215
12 Công cụ và Tùy chọn.................................................. ............231
12.1 Siêu thị dữ liệu xuất khẩu................................................................. ...................................231

12.2 Sạch sẽ Thư mục................................................................................. ...................................235
12.3 Tùy chọn... ................................................................. .................................................236
Tham khảo nhanh................................................................................. ............247
Bảng chú giải................................................. ...................................257
Ruột thừa................................................. .................................261
A.1 Thuật toán Kohonen................................................................................. ......................261
A.2 Triển khai Viscovery® SOM... ................................................................. ........263
6
dung
Nội
A.3 Yêu cầu đối với tệp dữ liệu đầu vào.................................................. ......................267
A.4 Làm việc với công thức........... ................................................................. ............273
A.5 Biểu thức chính quy........... ................................................................. ...........279
A.6 Kích thước SOM........... ................................................................. ....283 A.7 Phương

pháp cụm................................................. ................................................................. ....285
A.8 Bộ dữ liệu để dự đoán và cho điểm....................... ......................293 A.9 Dự đoán SOM cục
bộ............ ................................................................. ......................295 A.10 Chức
năng Trọng lượng........... ................................................................. ......................301
Mục lục................................................. ...................................303
7
Quy ước tài liệu
Các quy ước sau đây được sử dụng trong suốt hướng dẫn này:
Thực đơn | Các từ lệnh in đậm có ký tự ống biểu thị một mục menu (Com-mand) được chọn từ menu
(Menu).
Tên Các từ in đậm thường đề cập đến tên của lệnh, menu, di-alog, cửa sổ,
hành
phát
được
liệu
Tài
tab hoặc tên trình hướng dẫn.
C
TÊN TỪ KHÓA Các từ hoặc ký tự viết hoa nhỏ biểu thị một phím trên bàn phím cần
được nhấn.
Đầu vào Các từ in nghiêng cho biết dữ liệu nhập của người dùng, được nhập hoặc chọn từ các
tùy chọn khác nhau. Trong một số trường hợp, chữ in nghiêng được sử dụng để giới
thiệu thuật ngữ mới.
Thẩm quyền giải quyết

Những từ in đậm và in nghiêng trong văn bản đề cập đến một phần trong tài liệu này.
tâm trí.
Thực đơn Menu để chọn Lệnh
Lệnh Lệnh để truy cập một chức năng
Cái nút phím tắt trên thanh công cụ tương ứng với lệnh
Chìa khóa
TỔNG HỢP PHÍM để truy cập lệnh
Mẹo: hướng dẫn bổ sung giúp làm việc với Viscovery SOMine dễ dàng hơn.
Lưu ý: những thông tin quan trọng bạn cần ghi nhớ.
Cảnh báo: thông tin về điều gì đó bạn không nên làm.
Ảnh chụp màn hình trong hướng dẫn này minh họa tất cả các tính năng được cung cấp bởi Viscovery SOMine. Nếu
không phải tất cả các mô-đun đều được cấp phép cho một cài đặt cụ thể (xem 1.3.7 Mô-đun cấp phép), các cửa sổ
trong phần mềm có thể khác với ảnh chụp màn hình được hiển thị trong hướng dẫn này.
9
lại
làm
P
Lời nói đầu
Viscovery Software GmbH là nhà cung cấp giải pháp khai thác dữ liệu hàng đầu trong hơn 25 năm. Sản phẩm
chính của chúng tôi, bộ khai thác dữ liệu Viscovery SOMine, kết hợp nhiều năm kinh nghiệm với công nghệ
tiên tiến.
Viscovery® SOMine là gì?
Viscovery SOMine là bộ khai thác dữ liệu hiệu suất cao, được thiết kế để phân tích dự đoán, khai thác dữ
liệu khám phá, phân tích thống kê, phân cụm trực quan, phân loại, dự đoán và tính điểm. Nó được phân
phối dưới dạng phần mềm tiêu chuẩn mô-đun với môi trường dự án tích hợp đầy đủ và xử lý quy trình làm
việc trực quan. Cách tiếp cận thân thiện với người dùng của nó cho phép các nhà phân tích có nền tảng rất
khác nhau, chẳng hạn như quan hệ khách hàng, tài chính, sản xuất hoặc nghiên cứu khoa học, sử dụng một
cách thuận tiện các lợi thế của học máy và thống kê cũng như tận dụng lợi thế từ dữ liệu của họ cho ứng
dụng cụ thể của họ.
Sử dụng tính sẵn có ngày càng tăng của dữ liệu!
Thông qua tiến bộ kỹ thuật, ngày càng có nhiều dữ liệu có sẵn cho người dùng thương mại và khoa học. Cho dù đó là
thông qua Internet of Things trong Công nghiệp 4.0, tạo ra các luồng dữ liệu khổng lồ và có độ phân giải cao hay thông
qua các nền tảng truyền thông xã hội với dữ liệu văn bản và hình ảnh phi cấu trúc, lượng dữ liệu thú vị và có thể
truy cập đang tăng lên và ngày càng phức tạp. cũng như về khối lượng. Nguồn tài nguyên khổng lồ này mang đến cơ hội
lớn cho người dùng khám phá những lợi ích mới và bổ sung bằng cách sử dụng công cụ khai thác dữ liệu thích hợp.
Cách tiếp cận độc đáo của Viscovery SOMine để trình bày và phân tích dữ liệu dựa trên bản đồ tự tổ chức
(SOM) cho phép nhận dạng và sử dụng các phần phụ thuộc chưa biết trước đây trong dữ liệu. Phần mềm có khả
năng mở rộng từ các ứng dụng Dữ liệu nhỏ, với vài trăm bản ghi, lên tới hàng triệu bản ghi trong ứng dụng
Dữ liệu lớn. Hơn nữa, có thể làm việc với hàng nghìn biến cùng một lúc.
Hãy cho tôi biết tuổi của bạn và tôi biết bạn là ai?
Nhiều ứng dụng thông minh kinh doanh vẫn dựa vào các biểu đồ đơn giản chỉ so sánh hai biến số, chẳng hạn
như độ tuổi của khách hàng và doanh thu trung bình. Các ứng dụng trong thế giới thực phức tạp hơn thế này.
Chỉ sự kết hợp của nhiều thuộc tính khác nhau của một người, trạng thái quy trình hoặc một văn bản mới
có thể đưa ra hồ sơ thuyết phục cho tình huống cụ thể.
Viscovery SOMine giải quyết thách thức này bằng cách biểu diễn các phân phối dữ liệu đa chiều phức tạp
trong không gian nhận thức hai chiều dễ hiểu, trong đó các bản ghi dữ liệu được sắp xếp theo độ tương tự
theo tất cả các thuộc tính của chúng (chứ không chỉ một hoặc hai). Những khách hàng, bệnh nhân và đoạn
văn bản tương tự sẽ ở cạnh nhau và được nhóm lại thành các cụm có ý nghĩa. Các phương pháp dự đoán của
Viscovery cũng sử dụng cách biểu diễn theo thứ tự này để thu được các mô hình ưu việt cho việc phân loại
và dự đoán.
11
Hưởng lợi từ Tự động hóa và Tích hợp!
Thế giới thay đổi với tốc độ nhanh chóng và các mô hình dự đoán phải được cập nhật để mang lại lợi
ích tối ưu. Khi có dữ liệu mới, quá trình cập nhật nhanh có thể rất quan trọng.
Quá trình tiền xử lý dữ liệu, tính toán mô hình và ứng dụng mô hình có thể được tự động hóa hoàn toàn
trong Viscovery SOMine để nhanh chóng tích hợp thông tin mới cho các phân loại và dự đoán tiếp theo.
Ngoài ra, Viscovery One(2)One Engine có thể được sử dụng để tích hợp trực tiếp các mô hình Viscovery
vào khung hoạt động của doanh nghiệp, từ đó cung cấp tất cả thông tin cần thiết theo thời gian thực
cho người vận hành tại các trung tâm cuộc gọi, để giám sát trong các phòng điều khiển và để các bác
sĩ đến thăm bệnh nhân của họ.
Nhóm Viscovery chúc bạn thành công khi sử dụng Viscovery SOMine!
12
1. Thông tin chung
1.1 Trường hợp sử dụng Viscovery®
chung
Thông
Trong nhiều ứng dụng khoa học và kinh doanh, thành công đòi hỏi phải giải phóng sức mạnh của thông tin nội tại có
tin
trong dữ liệu sẵn có bằng cách khai thác sức mạnh dự đoán của nó, cũng như bằng cách hiểu sâu sắc về dữ liệu và truyền
1.
đạt về nó một cách hiệu quả. Cho dù vấn đề là giảm thiểu thời gian tiếp thị, tính toán rủi ro, phân tích tính năng
sản phẩm hay tìm hiểu sở thích của khách hàng, phân tích dự đoán đã trở thành một công cụ quan trọng cho sự thành công
của các ngành dựa trên dữ liệu.
Độ chính xác dự đoán và cách tiếp cận trực quan, trực quan của phần mềm Viscovery đã được áp dụng một cách có
lợi cho nhiều ứng dụng — từ nghiên cứu cơ bản đến khai thác dữ liệu tiên tiến trong môi trường công nghiệp.
Sau đây, chúng tôi liệt kê một số ngành mà phần mềm Viscovery đã được sử dụng, cùng với các ví dụ ứng dụng
tương ứng.
Khoa học đời sống
Phân tích biểu hiện gen, lập hồ sơ kiểu hình, hồ sơ trao đổi chất, chẩn đoán y tế và phân loại bệnh, hồ
sơ bệnh nhân, phân tích điều trị, nghiên cứu lâm sàng
Viễn thông
Mô hình hóa hành vi khách hàng, phân khúc khách hàng, phân tích chiến dịch tiếp thị, phân tích rời bỏ và
giữ chân khách hàng, phân tích giá trị trọn đời, phân tích hoạt động mạng, dự đoán hiệu suất hệ thống
Tài chính
Phân tích rủi ro, phát hiện gian lận, thu hút và giữ chân khách hàng, phân khúc thị trường, dự đoán bán
chéo, phân tích danh mục đầu tư, phân tích thị trường, dự đoán chứng khoán, dự báo chỉ số
Bảo hiểm
Phân tích rời bỏ, thu hút và giữ chân khách hàng, phân tích bán kèm và bán thêm, phân tích chiến dịch,
phân tích rủi ro, phân tích khiếu nại, phát hiện gian lận, lập mô hình hành vi khách hàng, phân tích hiệu
quả kinh doanh, tối ưu hóa danh mục đầu tư
Đặt hàng qua thư và bán lẻ
Phân khúc khách hàng, lập hồ sơ khách hàng, chấm điểm khách hàng, phân tích giỏ hàng, tiếp thị vi mô,
thiết kế và phân tích chiến dịch, tối ưu hóa tiếp thị trực tuyến, dự báo nhu cầu
Sản xuất
Giám sát trạng thái hệ thống, kiểm soát dự đoán, kỹ thuật sản phẩm, tối ưu hóa quy trình, phân tích lỗi,
đảm bảo chất lượng, phân loại sản phẩm, dự báo nhu cầu
Dịch vụ truyền thông và trực tuyến
Thiết kế chiến dịch, phân khúc khách hàng, phân tích người đăng ký, lập hồ sơ người dùng, ngăn chặn sự
thay đổi, quảng cáo theo thời gian thực
13
Các tổ chức phi lợi nhuận

Lập hồ sơ nhà tài trợ, phân khúc nhóm mục tiêu, phân tích chiến dịch, tối ưu hóa lưu lượng truy cập,
phân tích khảo sát
Nghiên cứu đại chúng và khoa học
Khai thác văn bản, phân tích trắc lượng thư mục và phân loại tài liệu, nhận dạng hình ảnh, phân loại
đối tượng, phân tích môi trường và bền vững, phân tích nhân khẩu học, phân tích biểu quyết, pháp y,
phân tích tài chính công
1.2 Phương pháp Viscovery®
Viscovery SOMine sử dụng SOM để biểu diễn và trực quan hóa dữ liệu. Các phương pháp thống kê cổ điển (ví
dụ: thống kê mô tả, phân tích tương quan, phân tích thành phần chính, biểu đồ của anh ấy, kiểm tra ý nghĩa
thống kê, biểu đồ hình hộp, biểu đồ phân tán) được sử dụng rộng rãi trong SOMine để phân tích toàn bộ hoặc
một phần dữ liệu cơ bản. Để phân tích cụm, có thể chọn các thuật toán phân cụm khác nhau tận dụng thứ tự
SOM. Dự đoán được thực hiện bằng cách sử dụng các mô hình tuyến tính toàn cầu, hồi quy logistic toàn cầu và
các mô hình tuyến tính từng phần bằng cách sử dụng cấu trúc liên kết SOM của SOM được tối ưu hóa lặp đi
lặp lại.
Trong phần sau, chúng tôi sẽ giới thiệu ngắn gọn về các phương pháp được sử dụng trong Viscovery SOMine.
Làm thế nào để làm việc với các phương pháp này trong phần mềm sẽ là nội dung được đề cập ở các chương tiếp
theo.
1.2.1 Bản đồ tự tổ chức
Ý tưởng về SOM bắt nguồn từ Teuvo Kohonen, người đã đưa nguyên tắc tổ chức cơ bản của mạng lưới thần kinh
sinh học vào hình thức toán học, thuật toán Kohonen.
Phương pháp này là một dạng mạng nơ ron nhân tạo không giám sát đặc biệt mạnh mẽ và có thể được xem như một
kỹ thuật hồi quy không tham số giúp chuyển đổi không gian dữ liệu đa chiều thành trừu tượng hóa chiều thấp
hơn. Việc biểu diễn dữ liệu dựa trên ứng dụng thuật toán Ko-honen được gọi bằng thuật ngữ chung là bản đồ
tự tổ chức (SOM).
SOM là một cách rất nhỏ gọn để thể hiện việc phân phối dữ liệu. SOM bao gồm các nút được đặt trên lưới thông thường
(thường là hai chiều). Mỗi nút có một vectơ tham chiếu liên quan, tương ứng với các giá trị thuộc tính trung bình của
các bản ghi mà nó đại diện. Mọi bản ghi dữ liệu có thể được gán cho nút phù hợp nhất của nó - tức là cho nút có vectơ
tham chiếu gần nhất với vectơ dữ liệu của bản ghi.
Vì SOM biểu thị dữ liệu trong không gian nhận thức hai chiều trực quan nên các dữ liệu phụ thuộc có thể
được hiểu và khám phá dễ dàng. Hơn nữa, biểu diễn SOM có thể được sử dụng để triển khai các mô hình thống
kê và dự đoán trên đó.
Có thể tìm thấy phần giới thiệu ngắn gọn về thuật toán Kohonen trong A.1 Thuật toán Kohonen. Để có một
cuộc khảo sát toàn diện về SOM, chúng tôi giới thiệu cho người đọc “Bản đồ tự tổ chức”
(Springer Series in Information Sciences) của T. Kohonen, Springer, tái bản lần thứ 3 , 2001.
Cách đọc SOM
Ví dụ sau đây cung cấp giải thích ngắn gọn minh họa ý tưởng cơ bản về biểu diễn và trực quan hóa dữ liệu
bằng SOM.
14
Hãy tưởng tượng 1000 người trên một sân bóng. Chúng tôi xác định một số thuộc tính (ví dụ: giới tính, tuổi
tác, tình trạng gia đình, thu nhập) và yêu cầu những người trong hiện trường tiến gần hơn đến những người
khác giống họ nhất dựa trên tất cả các thuộc tính này. Sau một thời gian, mọi người trên sân đều được bao
quanh bởi những người có chung giá trị thuộc tính. Cấu hình này là một ví dụ về cách biểu diễn hai chiều
của các điểm dữ liệu đa chiều.
Bây giờ hãy tưởng tượng rằng, nhìn qua đám đông, bạn yêu cầu mọi người giương một lá cờ có màu sắc tùy
theo độ tuổi của họ (xanh lam cho <20, xanh lá cây cho 20 đến 29, vàng cho 30 đến 39, cam cho 40 đến 49,
chung
Thông
và đỏ cho 50 và qua). Mẫu màu mà bạn nhìn thấy tương ứng với sự phân bố của thuộc tính “Tuổi” trong sân
bóng đá. Tiếp theo, bạn yêu cầu đám đông giữ nguyên vị trí và giương cao lá cờ màu tùy theo thu nhập của
tin
1.
họ, v.v. cho các thuộc tính khác. Đối với mỗi thuộc tính, bạn chụp ảnh phân bố màu trong trường. Mẫu màu
này tương ứng với hình ảnh bản đồ được mã hóa màu được hiển thị trong phần mềm Viscovery:
Cuối cùng, bạn có thể đặt tất cả các bức ảnh cạnh nhau và kiểm tra sự phụ thuộc. Ví dụ: bạn có thể thấy
các nhóm người trẻ tuổi hơn (xanh dương/xanh lục) cũng như các nhóm người lớn tuổi hơn (cam/đỏ). Hơn nữa,
bạn có thể phát hiện một số mối tương quan giữa các nhóm tuổi và các nhóm thu nhập: ví dụ, thu nhập cao
hơn xảy ra ở các nhóm lớn tuổi hơn. Tiếp tục theo cách này, bạn sẽ khám phá thêm các mối quan hệ lại giữa
các thuộc tính đã xác định.
Bối cảnh sinh học của SOM
Ý tưởng đằng sau sự phát triển của mạng lưới thần kinh tự tổ chức là mô hình hóa các quá trình thông tin
cơ bản được quan sát thấy trong các cuộc kiểm tra sinh lý thần kinh. Việc thực thi các kết nối khớp thần
kinh của tế bào thần kinh vỏ não dựa trên phản ứng của tế bào thần kinh đối với kích thích đầu vào. Trong
quá trình này, từng tế bào thần kinh (hoặc nhóm tế bào thần kinh) trở nên nhạy cảm với các mẫu vốn có
trong các tín hiệu cảm giác. Đặc biệt, các tế bào thần kinh lân cận có xu hướng học các mẫu tín hiệu tương tự.
Mối quan hệ trừu tượng tồn tại giữa tín hiệu đầu vào (cảm giác) và khả năng thích ứng khớp thần kinh của
tế bào thần kinh đã được Teuvo Kohonen mô hình hóa về mặt toán học vào năm 1982. Quy tắc học tập này, được
gọi là thuật toán Kohonen, đơn giản đến mức đáng ngạc nhiên. Hành vi tự tổ chức của địa phương
15
ior của vỏ não đã được tái tạo thành công bằng thuật toán Kohonen trong các thí nghiệm mô phỏng rời rạc với các
trường nơ-ron chứa hàng nghìn nơ-ron.
Ưu điểm thực tế của việc biểu diễn dữ liệu SOM
Những ưu điểm chính của biểu diễn SOM bao gồm:
Nếu chỉ quan tâm đến việc phân phối dữ liệu thì không cần phải lưu trữ lâu dài toàn bộ tập dữ liệu. Chỉ cần
nhớ các vectơ tham chiếu của tất cả các nút và số lượng bản ghi khớp với mỗi nút là đủ.
Khi một bản ghi dữ liệu mới được trình bày cho SOM, nó có thể dễ dàng được định vị trong “khung cảnh” của bản đồ
mà không cần thực hiện lại quy trình đặt hàng. Chỉ cần tìm ra kết quả phù hợp nhất bằng cách tìm kiếm vectơ tham
chiếu có khoảng cách nhỏ nhất đến vectơ thuộc tính của bản ghi mới là đủ. Bằng cách này, bản đồ có thể được sử
dụng để phân loại nhanh chóng số lượng lớn các bản ghi.
Một nút đại diện cho một số bản ghi có giá trị rất giống nhau và do đó có thể được hiểu là một cụm vi mô. Vì
các nút lân cận tương tự nhau nên chúng ta có thể sử dụng các giá trị nút để thu được phân cụm trên bản đồ.
Trong các mô hình dự đoán, người ta giả định rằng một số biến giải thích ảnh hưởng đến kết quả của biến mục tiêu;
do đó, các bản ghi tương tự trong các biến giải thích sẽ thể hiện hành vi tương tự trong biến mục tiêu. Trong
Viscovery SOMine, các nút được sắp xếp theo mức độ giống nhau của các biến giải thích. Thứ tự này cho phép các
mô hình dự đoán tốt hơn.
1.2.2 Phương pháp cụm dựa trên SOM
Trong nhiều ứng dụng, cần tổ chức các tập dữ liệu thành các nhóm cụm có ý nghĩa, sao cho các bản ghi trong cùng
một cụm tương đối giống nhau, trong khi các bản ghi trong các cụm khác khá khác biệt với chúng. Trong Viscovery
SOMine, việc phân vùng toàn bộ dữ liệu thành nhiều cụm được gọi là phân đoạn.
Thuật toán SOM gán các bản ghi dữ liệu cho các nút khác nhau theo tính tương tự. Do đó, các nút đã tạo thành các
cụm vi mô. Trên thực tế, việc huấn luyện SOM tương đương với một dạng làm mịn của phân cụm K-means nổi tiếng,
trong đó K biểu thị số lượng nút. Tuy nhiên, trong hầu hết các trường hợp, người dùng không muốn làm việc với
hàng trăm hoặc hàng nghìn cụm vi mô mà thích một số cụm riêng biệt mô tả các nhóm quan trọng nhất trong dữ liệu.
Trong Viscovery, các phương pháp cụm SOMine được áp dụng cho các nút biểu diễn SOM, với tần số bản ghi được đưa
vào dưới dạng hàm trọng số. Ưu điểm của phương pháp này là các bản ghi đã được phân cụm trước vào các nút. Một
số phương pháp làm việc trên dữ liệu gốc khó áp dụng đối với các tập Dữ liệu lớn nhưng có thể dễ dàng áp dụng
cho các nút. Do đặc tính sắp xếp của SOM nên sự khác biệt giữa làm việc trên các nút và làm việc trên dữ liệu
gốc là không đáng kể.
Có ba phương pháp phân cụm khác nhau có sẵn trong Viscovery SOMine: cụ thể là Ward, K-means và Connectivity. Mỗi
trong số chúng đều có một phiên bản đơn giản (bỏ qua cấu trúc liên kết SOM) và trong một phiên bản kết hợp cấu
trúc liên kết SOM và từ đó tạo ra các cụm được kết nối. Các cụm kết nối được mong muốn trong nhiều ứng dụng thực
tế. Phiên bản tạo cụm kết nối được biểu thị bằng tiền tố “SOM-” bổ sung, ví dụ SOM-Ward.
16
Phương pháp Ward, có nguồn gốc từ Joe H. Ward, Jr., là một phương pháp cụm kết tụ có thứ bậc. Nó bắt đầu với các nút
đơn lẻ dưới dạng cụm vi mô và hợp nhất các cụm (vi mô) thành các cụm lớn hơn, từng bước một. Để quyết định cụm (vi
mô) nào được hợp nhất trong mỗi bước, thuật toán Ward sử dụng khoảng cách Ward giữa tất cả các cặp cụm. Hai cụm có
khoảng cách Ward nhỏ nếu phương sai thống kê của các bản ghi bên trong liên kết của hai cụm này nhỏ. Hai cụm có
khoảng cách Ward nhỏ nhất sẽ được hợp nhất trong mỗi bước. Phương pháp này khá hiệu quả đối với các giá trị ngoại lệ
và tạo ra các cụm có kích thước gần giống nhau trong hầu hết các trường hợp thực tế.
chung
Thông
Khi sử dụng phương pháp Ward đơn giản, một số cụm có thể không được kết nối trong SOM. Phương pháp SOM-Ward đảm bảo
tin
1.
các cụm được kết nối với nhau, với chi phí chênh lệch bên trong cụm cao hơn một chút.
Để biết thêm thông tin về các phương pháp Ward và SOM-Ward, chúng tôi giới thiệu cho người đọc phần A.7.1 Phân cụm
Ward.
K-mean là một phương pháp phân cụm dựa trên trọng tâm không phân cấp, được giới thiệu lần đầu tiên bởi Hugo Steinhaus
và Stuart Lloyd. K tâm của cụm được khởi tạo trên bản đồ và mỗi nút được liên kết với tâm của cụm gần nó nhất trong
khoảng cách Euclide. Sau đó, trọng tâm của cụm được cập nhật bằng cách tính giá trị trung bình của tất cả các bản
ghi thuộc các nút liên kết với cụm tương ứng và quy trình này được lặp lại cho đến khi hội tụ. Viscovery SOMine sử
dụng một số cách khởi tạo khác nhau để gần đúng mức tối thiểu chung. Để tìm số cụm K tối ưu, Viscovery SOMine tính
toán các phân đoạn cho tất cả các giá trị hợp lý của K và cung cấp chỉ báo cụm, cho biết các giá trị tốt nhất cho K.
Khi sử dụng phương pháp K-means đơn giản, một số cụm có thể không được kết nối trong SOM.
Phương pháp SOM-K-mean đảm bảo các cụm được kết nối, với chi phí là phương sai bên trong các cụm cao hơn một chút.
Để biết thêm thông tin về các phương pháp K-mean và SOM-K-mean, chúng tôi giới thiệu cho người đọc về Phân cụm K-Means
A.7.2.
Phân cụm kết nối là phương pháp phân cụm dựa trên mật độ được phát minh bởi Viscovery. Phân cụm kết nối hoạt động với
các giá trị kết nối thay vì khoảng cách. Các giá trị kết nối phụ thuộc vào khoảng cách và tần số ghi lại của các nút
SOM. Để xác định sự tương đồng của cụm, các biện pháp kết nối giữa các nút cụm được sử dụng theo cách tiếp cận đa
liên kết. Ngoài ra, Viscovery SOMine còn cung cấp một thuật toán tự động phát hiện các giải pháp ổn định bằng cách so
sánh mật độ bên trong một cụm và so sánh nó với mật độ trên ranh giới của cụm. Với thuật toán này, các cụm nhỏ gọn
có thể được xác định ở bất kỳ giai đoạn nào của cây tổng hợp.
Khi sử dụng phương pháp Kết nối đơn giản, một số cụm có thể không được kết nối trong SOM. Phương pháp Kết nối SOM đảm
bảo các cụm được kết nối với chi phí là mức độ kết nối bên trong các cụm thấp hơn một chút.
Để biết thêm thông tin về các phương pháp Kết nối và Kết nối SOM, chúng tôi giới thiệu cho người đọc phần Phân cụm
kết nối A.7.3.
Ngoài phân cụm thuật toán, Viscovery SOMine còn cung cấp khả năng xác định thủ công hoặc điều chỉnh các cụm để điều
chỉnh chúng theo ứng dụng cụ thể. Xem phần 10.2.3 Xác định cụm để biết khả năng phân cụm thủ công.
17
1.2.3 Phương pháp thống kê tiêu chuẩn
Các phương pháp thống kê sau đây có thể được áp dụng cho tất cả các tập hợp con của bản ghi, được biểu thị bằng ar -
sự kết hợp bitrary của các nút SOM, bao gồm toàn bộ dữ liệu, cụm, nút và các lựa chọn tùy ý.
Thống kê mô tả
Giá trị trung bình, tổng, độ lệch chuẩn, tối đa và tối thiểu
Phân tích tương quan

Tương quan tuyến tính (Pearson) cho mọi tổ hợp thuộc tính.
Phân tích thành phần chính

Phương pháp tìm đặc trưng chủ đạo cho tổ hợp thuộc tính tùy ý
Biểu đồ
Hiển thị các thuộc tính số và danh nghĩa
Bảng tần số
Danh sách tần số và phân phối tích lũy
Biểu đồ hình hộp
Hiển thị để kiểm tra và so sánh phân bổ thuộc tính theo phạm vi trung vị, trong tứ phân vị và
các giá trị ngoại lệ
Đồ thị phân tán

Hiển thị để kiểm tra sự phụ thuộc giữa mọi kết hợp của tối đa ba thuộc tính; đối với các điểm dữ
liệu và giá trị nút; đường xu hướng
1.2.4 Lập hồ sơ
Lập hồ sơ là một công cụ để so sánh hai nhóm dữ liệu được lựa chọn theo phương pháp thống kê
sự khác biệt đáng kể trong các thuộc tính dữ liệu. Giá trị hồ sơ p định lượng sự khác biệt của
hai phương tiện so với các biến thể thống kê trong dữ liệu. Một tên khác thường được sử dụng cho
giá trị hồ sơ là kích thước hiệu ứng. Nó có hai phiên bản khác nhau có thể được lựa chọn bởi
người dùng: Hedges' g* và Glass' Δ (delta) (xem 12.3 Tùy chọn).
Đối với mỗi biến, giá trị hồ sơ được xác định như sau:
mtest mref
P := ,
S
kiểm tra, giới thiệu
trong đó mtest là giá trị trung bình của tập hợp con kiểm tra đã chọn và mref là giá trị trung bình của tập tham
chiếu do người dùng chọn. s là thước đo độ lệch chuẩn của biến.
Đối với Glass' Δ s = sref, độ lệch chuẩn trên bộ tham chiếu được sử dụng.
Đối với g* của Hedges, độ lệch chuẩn gộp được sử dụng, nghĩa là,
2
(nref 1) sref2 + (ntest 1) stest
2
= ,
+
giây
nref ntest 2
18
trong đó stest là độ lệch chuẩn của tập hợp con kiểm tra, sref là độ lệch chuẩn của bộ tham chiếu do người dùng
chọn và ntest và nref là số lượng bản ghi trong các bộ tương ứng.
Ý nghĩa thống kê của sự khác biệt được đánh giá thông qua kiểm định t hai phía áp dụng cho độ tương phản thống
kê mô tả hai tập hợp con và giao điểm của chúng (xem 10.1.5 Cửa sổ hồ sơ nhóm). Khi làm việc với nhiều thuộc
tính, có thể tùy ý áp dụng hiệu chỉnh thử nghiệm nhiều lần (xem 12.3 Tùy chọn).
chung
Thông
Cửa sổ hồ sơ của Viscovery SOMine hiển thị một số thống kê mô tả cho nhóm thử nghiệm, các giá trị hồ sơ cũng như
tin
giá trị p và giá trị t của các thử nghiệm t. Ngoài ra, sự khác biệt tương đối của các giá trị trung bình so với
1.
giá trị trung bình của nhóm tham chiếu cũng được hiển thị.
1.2.5 Dự đoán và ghi điểm
Dự đoán là ước tính các giá trị hoặc sự kiện chưa biết, thường nằm trong tương lai. Bằng cách dự đoán những giá
trị then chốt thiết yếu của doanh nghiệp, bạn có thể hành động chủ động và đạt được những lợi thế quan trọng.
Các phương pháp dự đoán của Viscovery SOMine cung cấp cho bạn cơ sở vững chắc và chính xác cho các quyết định
của mình. Tất cả các ngành và lĩnh vực nghiên cứu đều cung cấp các trường hợp sử dụng để dự đoán. Chúng tôi giới
thiệu cho người đọc 1.1 Trường hợp sử dụng Viscovery® cho một số ứng dụng mẫu.
Nói chung, để đưa ra dự đoán, phải tìm ra sự phụ thuộc giữa giá trị mục tiêu (giá trị bạn muốn dự đoán) và tập
hợp các biến giải thích (mọi thứ có thể có ảnh hưởng đến biến mục tiêu và có thể được sử dụng để dự đoán).
Như một quy trình cơ bản, Viscovery SOMine cung cấp các hồi quy tuyến tính đa biến. Tuy nhiên, một vấn đề phức tạp
thường gặp đối với việc dự đoán là sự phụ thuộc giữa biến mục tiêu và biến giải thích có thể không tuyến tính và ảnh
hưởng của các biến giải thích khác nhau là không giống nhau trên toàn bộ tập dữ liệu.
Để giải quyết vấn đề này, Viscovery SOMine kết hợp thứ tự dữ liệu của SOM với các phương pháp dự đoán thống kê
để tính toán các mô hình dự đoán tối ưu cho từng nhóm nhỏ có khả năng có ảnh hưởng đồng nhất. Giá trị mục tiêu
có thể được dự đoán chính xác hơn đáng kể đối với một nhóm con đồng nhất so với toàn bộ dữ liệu không đồng nhất.
Để biết thêm chi tiết về phương pháp dự đoán SOM cục bộ, xem A.9 Dự đoán SOM cục bộ.
Bổ sung cho phương pháp này, Viscovery SOMine cung cấp các hồi quy logistic toàn cầu bằng cách sử dụng các quy
trình R nổi tiếng. Để biết thêm chi tiết về hồi quy logistic, hãy xem 7.2.2 Xác định tham số hồi quy, Hồi quy
logistic với R.
Để đánh giá độ chính xác của dự đoán trên các mô hình khác nhau, Viscovery SOMine cung cấp nhiều tính năng, chẳng
hạn như bộ kiểm tra và mô hình ngẫu nhiên và xác định, độ tin cậy thống kê, hệ số xác định, lỗi dự đoán, biểu đồ
điểm, biểu đồ lợi nhuận và biểu đồ kịch bản.
Trong một số trường hợp, bản thân các giá trị dự đoán chính xác không thú vị nhưng điều quan trọng là xác định
các bản ghi có giá trị dự đoán cao nhất hoặc nhỏ nhất. Ví dụ, đây là trường hợp khi phải tìm ra khách hàng có
tiềm năng bán chéo cao nhất hoặc trạng thái sản xuất có rủi ro liên quan cao nhất.
Trong những trường hợp này, việc chia dữ liệu thành các nhóm điểm thường rất hữu ích . Ban đầu, tất cả các bản
ghi được xếp hạng – hoặc cho điểm – theo giá trị dự đoán của biến mục tiêu (tức là từ cao nhất đến thấp nhất).
Các bản ghi dữ liệu sau đó được chia thành các nhóm điểm riêng biệt theo điểm số của chúng, để xác định các hành
động thích hợp cho các bản ghi dữ liệu trong các nhóm khác nhau. Xem 8.3 Kiểm tra ứng dụng để biết thêm chi tiết.
19
1.3 Dòng sản phẩm Viscovery®
Bộ khai thác dữ liệu Viscovery SOMine cho phép các nhà phân tích, nhà khoa học dữ liệu, nhà nghiên cứu,
chuyên gia và người dùng doanh nghiệp thực hiện các dự án phân tích dự đoán theo cách tích hợp và định
hướng kinh doanh – từ tiền xử lý, thăm dò và lập mô hình đến ứng dụng mô hình và đánh giá dữ liệu. kết
quả. Các tác vụ định kỳ có thể được tự động hóa hoàn toàn bằng gói công cụ Tự động hóa quy trình làm việc.
Bằng cách sử dụng Viscovery One(2)One Engine, các mô hình được xây dựng trong Viscovery SOMine có thể được tích
hợp vào phần mềm máy khách hiện có.
Viscovery SOMine bao gồm các thành phần sau:
Viscovery® SOMine – Visual Explorer

Mô-đun cốt lõi này cung cấp các phương pháp tiền xử lý dữ liệu, tạo và trực quan hóa các biểu diễn dữ
liệu SOM, tính toán và trực quan hóa các cụm, đồng thời cung cấp các công cụ cơ bản để khai thác dữ
liệu khám phá và phân tích thống kê.
Viscovery® SOMine – Cluster and Classify Mô-đun mở

rộng này xây dựng, áp dụng và đánh giá các mô hình phân loại, cung cấp các thuật toán cụm bổ sung và
các công cụ bổ sung để khai thác dữ liệu khám phá và phân tích thống kê.
Viscovery® SOMine – Dự đoán và cho điểm Mô-đun mở

rộng này xây dựng, áp dụng và đánh giá các mô hình dự đoán và cho điểm.
Viscovery® SOMine – Dữ liệu doanh nghiệp

Mô-đun mở rộng này cung cấp tính năng tiền xử lý nâng cao, khối lượng dữ liệu không giới hạn, tích
hợp dữ liệu với cơ sở dữ liệu bên ngoài và các định dạng bổ sung.
Viscovery® SOMine – Tự động hóa quy trình làm việc Gói

công cụ này tự động hóa các quy trình tiền xử lý, lập mô hình, xác thực, ứng dụng và đánh giá.
Ngoài ra, Viscovery® One(2)One Engine có sẵn để sử dụng các mô hình Viscovery SOMine trong các ứng dụng khách. Thành
phần này không phải là một phần của Bộ khai thác dữ liệu Viscovery SOMine. Ở đây, chúng tôi đề cập ngắn gọn đến các
thuộc tính cơ bản của nó để cung cấp đầy đủ nhưng sẽ không đi sâu vào chi tiết hơn trong hướng dẫn sử dụng này.
One(2)One Engine cung cấp các API để tích hợp trực tuyến và thời gian thực các mô hình Viscovery vào phần
mềm người dùng. Nó cung cấp một thư viện hàm cho C/C++ và COM để áp dụng các mô hình Viscov-ery cho các
bản ghi mới. Vì One(2)One Engine được tích hợp hoàn toàn trong ứng dụng khách nên nó không cung cấp giao
diện người dùng bổ sung.
Thông tin dự đoán, chẳng hạn như giá trị mục tiêu dự đoán, thành viên lớp và giá trị điểm, cũng như thông
tin cụm và nút bổ sung có thể được gọi lại trong thời gian thực từ bản ghi mô hình Viscovery theo bản ghi.
Các ứng dụng điển hình đạt hiệu suất 100.000 quyết định mỗi giây (mở rộng quy mô bằng phần cứng).
Sơ đồ sau đây trình bày sơ đồ cách Viscovery SOMine và Viscovery

Một (2)Một Engine tương tác với người dùng, dữ liệu và mô hình:
20
chung
Thông
tin
1.
Các phần sau đây cung cấp danh sách đầy đủ các chức năng và tính năng có sẵn trong Viscovery SOMine.
1.3.1 Đặc tính chung của Viscovery® SOMine
Viscovery SOMine là bộ phần mềm theo mô-đun và định hướng quy trình công việc để khai thác dữ liệu khám phá và phân tích dự
đoán. Nó dựa trên SOM kết hợp với số liệu thống kê đa biến.
Môi trường dự án
Công việc phân tích được tổ chức trong các dự án, cung cấp sự điều hướng tập trung thông qua ứng dụng-
sự
Người dùng được bảo vệ khỏi cốt lõi công nghệ và các thuật toán thống kê để cho phép
hoạt động có định hướng và hiệu quả
Các dự án bao gồm tối đa 6 quy trình công việc liên quan đến nhập và tiền xử lý dữ
liệu, tạo và khám phá SOM, phân loại, dự đoán và tính điểm Các quy
trình công việc của dự án có thể được xử lý tùy ý với sự tương tác tối thiểu
của người dùng Chức năng Thư mục sạch giúp quản trị dễ dàng nội dung lỗi thời
Định hướng quy trình làm việc
Quy trình làm việc chuyên dụng, mỗi quy trình gồm 4 bước, với các nhiệm
vụ rõ ràng Đã kiểm tra cài đặt mặc định
cho từng bước Phân nhánh quy trình làm việc cho phép tạo ra các biến
thể mô hình Phân loại nhánh quy trình làm việc với chức năng
kéo và thả Chức năng cho phép sao chép tham số hóa giữa các bước quy trình công việc khác nhau
Báo cáo và tài liệu
Báo cáo tức thời, theo yêu cầu cho từng bước của quy trình làm việc cũng như toàn bộ quy trình làm việc
21
Báo cáo động về sự khác biệt giữa các bước trong quy trình phân nhánh Tài
liệu tích hợp cho các dự án Nhật ký sản
xuất của các mô hình đã tạo Chức năng
thêm mô tả và nhận xét chi tiết cho các thuộc tính, cụm và mod-
các
Khả năng sử dụng
Cửa sổ bật lên thông tin trên toàn hệ thống, cũng như các menu ngữ cảnh hỗ trợ trong
những nơi vui vẻ
Nhiều công cụ xử lý, chẳng hạn như tìm kiếm nhanh các chuỗi và bảng có thể được sắp xếp
Chuyển các lựa chọn thuộc tính và lưu giữ thứ tự thuộc tính giữa các danh sách bằng bản sao và
dán
Chức năng lưu kết hợp các cửa sổ hiển thị với các thuộc tính được chọn dưới dạng Sắp xếp-
tinh thần
Nhiều tùy chọn để thiết lập các tùy chọn cho biểu đồ, bảng biểu, số liệu thống kê, mô hình hóa và trực quan-
hóa
Trợ giúp trực tuyến và hướng dẫn sử dụng toàn diện
Cấu hình phần mềm mô-đun
Mô-đun lõi của Visual Explorer để xử lý trước dữ liệu, khám phá và mô hình hóa cơ bản Cụm và
phân loại, dự đoán và cho điểm các mô-đun mở rộng để khám phá, lập mô hình, ứng dụng và đánh giá nâng
cao Mô-đun mở rộng dữ liệu doanh
nghiệp cho các tính năng xử lý dữ liệu và nhập dữ liệu nâng cao,
bao gồm dữ liệu rất nhiều chiều và đồ sộ Một số Dịch vụ
tự động hóa quy trình làm việc để tự động hóa các quy trình công việc tương ứng
Định dạng dữ liệu độc quyền
Tệp dự án Viscovery (*.visdm), chứa tất cả thông tin liên quan của Viscovery
Dự án phân tích SOmine, bao gồm tất cả các cài đặt tiền xử lý và các cài đặt khác
Tệp dữ liệu Viscovery (*.dms), chứa tiền xử lý và thông tin meta khác cho
dữ liệu
Liên kết các tệp dữ liệu Viscovery (*.dmd), chứa các phần dữ liệu được nhập, tối ưu
thu nhỏ để truy cập nhanh
Các tệp mô hình Viscovery SOMine (*.som), chứa biểu diễn dữ liệu SOM, bao gồm các cài đặt tiền xử
lý, công thức, cụm và định nghĩa mô hình dự đoán Các định dạng tệp mô hình và dự án
Viscovery trước đó (*.vsp, *.csp, *. vpp, *.visdm và *.som từ phiên bản 4, 5, 6 và 7 của Viscovery
SOMine, Viscovery Profiler và Viscovery Pre-dictor) có thể được nhập
1.3.2 Viscovery® SOMine – Visual Explorer
Visual Explorer là mô-đun cốt lõi của Viscovery SOMine và có thể xử lý các tập dữ liệu lên tới 100.000
bản ghi, mỗi bản ghi có 100 biến. Mô-đun này là bắt buộc đối với tất cả các mô-đun khác.
Visual Explorer cung cấp tất cả các chức năng cơ bản, chẳng hạn như tiền xử lý dữ liệu, tính toán SOM
và phân cụm cơ bản. Các tính năng khám phá chính và phân tích thống kê cũng được bao gồm. Mô-đun này
cung cấp Dữ liệu tiền xử lý và quy trình Khám phá dữ liệu để nhập dữ liệu, xử lý trước dữ liệu cũng
như tạo và khám phá SOM.
22
Tiền xử lý dữ liệu
Quản lý tên và loại biến Tham chiếu chéo đến các
tài liệu bên ngoài thông qua các liên kết Định nghĩa các biến
mới bằng ngôn ngữ công thức hoặc tập lệnh R có sẵn Định nghĩa và quản lý tự động các biến
danh nghĩa (đơn và đa giá trị) Chuyển đổi các biến Xử lý các ngoại lệ Loại bỏ các bản ghi dữ liệu có
điều kiện Đặc điểm kỹ thuật thay thế
cho các phạm vi giá trị đặc
chung
Thông
biệt và các giá trị bị thiếu Lấy mẫu thống kê
tin
và xác định và lấy mẫu quá nhiều bản ghi Trình duyệt bản ghi dữ liệu để hiển thị dữ liệu
1.
gốc từ bất kỳ bước quy trình làm việc đang hoạt động nào
Số liệu thống kê
Mô tả (trung bình, độ lệch chuẩn, giá trị nhỏ nhất, lớn nhất, tổng, thiếu) Tương quan tuyến tính
Phân tích thành phần chính
Biểu đồ Bảng tần số Biểu đồ hộp
Biểu đồ phân tán
Có sẵn ở bất kỳ bước
quy trình làm
việc nào
Biểu diễn dữ liệu thông qua SOM
Tính toán hiệu suất cao của SOM theo lô dựa trên thuật toán Kohonen cổ điển Biểu diễn dữ liệu SOM hai
chiều trên lưới lục giác Lịch trình đào tạo được xác định trước với kích thước
bản đồ, độ chi tiết, độ căng và nhiệt độ có thể lựa chọn
pháp luật
Tự động chuẩn hóa các biến với các tùy chọn chia tỷ lệ bổ sung Ảnh hưởng trọng số
của các thuộc tính riêng lẻ trên bản đồ sắp xếp thứ tự thông qua mức độ ưu tiên của thuộc tính Tự động bù
các mối tương quan trong dữ liệu Xử lý rõ ràng các giá trị bị
thiếu trong tất cả các giai đoạn tạo mô hình Cài đặt tùy chọn các tham số mặc định cho
tạo bản đồ
Trực quan hóa và thăm dò SOM
Trực quan hóa mang tính tương tác về phân bố thuộc tính và các giá trị đặc trưng trong bản đồ
xuống
Tự động mã hóa màu của các thuộc tính với thang màu được điều chỉnh bằng chuyển đổi hoặc các tùy chọn đen
trắng Chú thích
bản đồ bằng nhãn Vẽ thủ công các quỹ đạo

và lựa chọn trên bản đồ Các tùy chọn khác nhau để chọn và bỏ chọn các
vùng bản đồ (theo màu- quy mô, khoảng, cụm,

vân vân.)
Hiển thị hình thu nhỏ từ các tài liệu bên ngoài qua cửa sổ bản đồ Hiển thị các nút
lân cận gần nhất từ nút hoạt động trên bản đồ Sắp xếp các thuộc tính trong
cửa sổ bản đồ theo mức độ tương tự hoặc mức độ ưu tiên Trình duyệt bản ghi dữ liệu để hiển
thị dữ liệu gốc từ một vùng được chọn trong bản đồ Mở tài liệu bên ngoài bằng cách nhấp vào một
vùng trên bản đồ Nhập và xuất nhãn bản đồ, lựa chọn và đường dẫn từ/đến các
tệp bên ngoài
23
Phân tích cụm thị giác
Tự động thực hiện các phương pháp phân cụm kết tụ có thứ bậc (Ward, SOM-
Phường)
Lựa chọn phương pháp phân cụm ưa thích và số lượng cụm ban đầu trước khi tạo bản đồ Trực quan hóa
tích hợp ranh giới cụm, tâm cụm và cấu trúc bên trong Hiển thị các cụm riêng biệt với mã màu
tùy chọn của các cụm (phẳng, bóng mờ hoặc U-ma-
trix)
Hiển thị phương tiện cụm cho tất cả các thuộc tính trong khung thống kê
Tạo nhãn bản đồ từ tên cụm
Giao diện dữ liệu có sẵn
Nhập và xuất các tệp văn bản phẳng được phân cách bằng tab (*.txt) và các tệp Microsoft Excel
(*.xlsx) Nhập các tệp văn bản phẳng được phân tách bằng dấu cách (*.txt) và các tệp Excel
97/2000/2003 ( *.xls) Chức năng sao chép và dán thông minh giữa dữ liệu nội bộ Viscovery và phần
mềm bên ngoài Xuất các giá trị nút SOM dưới dạng bảng
1.3.3 Viscovery® SOMine – Phân cụm và phân loại
Cluster and Classify là mô-đun mở rộng để khai thác dữ liệu khám phá, phân tích và phân loại cụm trực quan.
Nó yêu cầu mô-đun lõi Viscovery SOMine Visual Explorer và có thể tùy ý kết hợp với các mô-đun khác của bộ phần
mềm.
Cluster and Classify cung cấp nhiều tính năng để khám phá nâng cao mô hình SOM và để định nghĩa tương tác các phân
đoạn thay thế. Ngoài ra, hai quy trình công việc mới, quy trình Tạo Trình phân loại và quy trình Áp dụng Trình phân
loại, được thêm vào mô-đun này và hướng dẫn người dùng cách tạo, ứng dụng và đánh giá các mô hình phân loại.
Lập hồ sơ và so sánh nhóm
Tạo các nhóm thử nghiệm và nhóm tham khảo từ các cụm, nút, tập hợp các nút gần nhất,
hoặc lựa chọn tùy ý
Xác định các sai lệch đáng kể bằng cách sử dụng hồ sơ tương tác Đánh giá sự khác biệt
giữa hai nhóm tùy ý bằng cách sử dụng độ tương phản thống kê Đánh giá các mô tả nhóm không tầm
thường bằng biểu đồ “Hồ sơ” và khung “Cụm”
Thống kê dữ liệu tương tác cho các vùng bản đồ tùy ý
Thống kê mô tả Biểu đồ
thuộc tính Phân tích tương
quan Phân tích thành
phần chính Bảng tần số Biểu đồ
hộp Biểu đồ phân tán
Đặc điểm cụm
Tự động so sánh các cụm hiện có về sự khác biệt đáng kể về thuộc tính
có nghĩa
Hiển thị các thuộc tính đặc trưng cho từng cụm dựa trên cấu hình cụm
24
Tùy chọn hiển thị từng thuộc tính trong cụm có giá trị cực trị
Giám sát trạng thái hệ thống
Mô phỏng động các quỹ đạo quá trình trong mô hình SOM Đọc tuần tự các
bản ghi từ tệp dữ liệu được sắp xếp theo thời gian Lựa chọn vận
tốc và độ dài vết của mô phỏng
chung
Thông
Nhiều phân đoạn
tin
1.
Tạo các phân đoạn bổ sung trong mô hình SOM hiện có Các phương pháp phân
cụm mới: K-means, SOM-K-means, Connectivity và SOM-Connectivity Lựa chọn tương tác phương pháp cụm, số
lượng cụm và thuộc tính cho các phân đoạn mới
sự phát biểu
Quản lý và so sánh các phân khúc hiện có trong “Segmentation” chuyên dụng
cửa sổ
Cụm tương tác
Điều chỉnh thủ công ranh giới cụm bằng cách nối và xóa các cụm Định nghĩa một cụm
mới hoặc phần mở rộng của cụm hiện có với một lựa chọn tùy ý
khu vực
Tự động xác định tên cụm từ một thuộc tính danh nghĩa Chú thích và đổi tên cụm
Gán các công thức xử lý hậu kỳ cho các cụm
Phân loại
Phân vùng dữ liệu xác định và ngẫu nhiên thành một tập dữ liệu mô hình và tối đa hai dữ liệu thử nghiệm
bộ
Tạo các mô hình phân loại với quy trình Tạo Trình phân loại chuyên dụng So sánh các mô
hình khác nhau trên dữ liệu mô hình và dữ liệu thử nghiệm tùy chọn Áp dụng mô
hình phân loại và cụm cho dữ liệu mới với Áp dụng Trình phân loại
quy trình
công việc Lựa chọn một phân đoạn làm công cụ phân
loại Cập nhật và xuất mô hình tối ưu với dữ liệu phù hợp Tự động tạo và
quản lý ngẫu nhiên các nhóm kiểm soát Phân loại nhanh các bản ghi dữ liệu của một siêu
dữ liệu mới, bao gồm cả việc đánh giá hậu kỳ
công thức ngừng

Xuất kết quả phân loại và đối với mỗi bản ghi, thống kê cụm liên quan và ánh xạ giá trị nút sang tệp văn
bản phẳng được phân tách bằng tab (*.txt) và tệp Microsoft Excel (*.xlsx)
Đánh giá phân loại và hành động thực hiện
Trực quan hóa các phân phối dữ liệu được áp dụng trên mô hình SOM Đặc
tả tên lớp thực tế trong một thuộc tính bổ sung cho mục đích kiểm tra hoặc đánh giá Trực quan hóa bổ
sung về lỗi phân loại trên bản đồ nếu có thành viên lớp thực tế
được biết đến
Tính toán ma trận nhầm lẫn, độ chính xác, độ chính xác, độ nhạy và độ đặc hiệu để đánh giá ứng dụng mô
hình và so sánh với nhóm đối chứng
25
1.3.4 Viscovery® SOMine – Dự đoán và ghi điểm
Dự đoán và Điểm là mô-đun mở rộng dành cho mô hình dự đoán, xác thực, dự đoán và tính điểm. Nó yêu cầu mô-đun lõi
Viscovery SOMine Visual Explorer và có thể tùy ý kết hợp với các mô-đun khác của bộ phần mềm.
Dự đoán và Điểm số cung cấp hai quy trình làm việc bổ sung: quy trình làm việc Tạo Dự đoán hướng dẫn người dùng cách tạo và
xác thực các mô hình dự đoán tuyến tính và phi tuyến tính, quy trình làm việc Áp dụng Dự đoán hướng dẫn thông qua định nghĩa
và ứng dụng mô hình dự đoán và tính điểm cho dữ liệu mới và thông qua đánh giá kết quả cho điểm và các hành động được thực
hiện.
Dự đoán và Điểm kết hợp công nghệ SOM phi tuyến tính với thống kê tuyến tính thông thường: chất lượng
dự đoán được cải thiện đáng kể so với các phương pháp dự đoán thông thường bằng cách sử dụng hồi quy
cục bộ trong các cụm dữ liệu.
Mô hình hồi quy toàn cầu
Phân vùng dữ liệu xác định và ngẫu nhiên thành tập huấn luyện và tối đa hai dữ liệu kiểm tra
bộ
Tính toán các mô hình toàn cầu dưới dạng hồi quy logistic đa tuyến tính (từng bước) hoặc (chính quy)
sions
Tùy chọn xấp xỉ logistic của các biến mục tiêu nhị phân trong mô hình tuyến tính
Thống kê mô hình cho kết quả hồi quy và ước tính chung cho hệ số xác định, sai số chuẩn và khoảng dự
đoán cho mức độ tin cậy đã chọn Hệ số Beta cho các biến độc lập, bao gồm
thống kê t, dung sai và “tuyến tính trong
sự lưu loát” trên biến mục tiêu
Lưu trữ các mô hình hồi quy tuyến tính dưới dạng mã PMML trong các tệp phụ trợ *.vxm, có thể
được nhập trực tiếp vào các công cụ hỗ trợ PMML từ các nhà cung cấp khác
Hồi quy cục bộ và phân tích phi tuyến tính
Dựa trên quy trình được cấp bằng sáng chế kết hợp công nghệ SOM với các mô hình “hộp trắng” thống kê, được thiết
kế để giải thích phương sai dư trong mô hình tuyến tính toàn cầu Xấp xỉ sự phụ thuộc phi tuyến
tính của biến mục tiêu từ các biến độc lập với tuyến tính cục bộ từng phần hồi quy, được tính toán cho các tập hợp
con dữ liệu cục bộ trên SOM
Tự động tối ưu hóa kích thước của các tập hợp con dữ liệu cục bộ này, với việc tham số hóa để tránh
quá vừa vặn
Tự động lặp lại các ưu tiên thuộc tính để thể hiện tối ưu các phụ thuộc phi tuyến tính
trong SOM
Trực quan hóa kết quả SOM và các hệ số hồi quy liên quan cho các mô hình cục bộ, cũng như các ước tính thống kê bổ
sung, chẳng hạn như mức ý nghĩa, phương sai được giải thích và phần dư
Biểu đồ với mô tả trung bình của các mô hình cục bộ, cũng như các ước tính phương sai và hệ số khuếch đại cho mô
hình tổng thể
Chẩn đoán phi tuyến tính cung cấp các ước tính cho mô hình tổng thể, chẳng hạn như giảm lỗi do giải
quyết các vấn đề phi tuyến tính và “ảnh hưởng phi tuyến tính” của các biến độc lập lên biến mục
tiêu
Xác nhận đồ họa và so sánh các mô hình
Xác thực trực quan và định lượng bằng biểu đồ điểm, biểu đồ lợi nhuận và lỗi dự đoán Chia
biểu đồ thành tối đa 1000 nhóm So sánh giá trị dự đoán
với giá trị thực tế cho từng mô hình
26
Hiển thị tất cả các mô hình được tạo từ cùng một dữ liệu trong cùng một biểu
đồ So sánh hiệu suất của các mô hình khác nhau, sử dụng dữ liệu mô hình hoặc bộ dữ liệu thử nghiệm
Định nghĩa và ứng dụng mô hình tính điểm
Hướng dẫn xác định và áp dụng các mô hình tính điểm thông qua ứng dụng Apply chuyên dụng
Quy trình dự đoán
Định nghĩa tương tác của “nhóm điểm” trong biểu đồ mô hình để chỉ định các thước đo khác nhau
chung
Thông
đến tập hợp con dữ liệu
tin
Định nghĩa các hàm mục tiêu bằng ngôn ngữ công thức có sẵn (ví dụ: bằng cách tính toán “giá trị khách
1.
hàng” từ giá trị dự đoán, để chọn quy mô chiến dịch tối ưu) Áp dụng mô hình tính điểm
cho các siêu dữ liệu mới bằng cách tính toán hàng loạt giá trị dự đoán
ue
Tự động tạo và quản lý các nhóm đối chứng một cách ngẫu nhiên Xuất kết quả
dự đoán, nhóm điểm và, tùy chọn, giá trị hàm mục tiêu sang tab-
các tệp văn bản phẳng được phân tách (*.txt) và tệp Microsoft Excel (*.xlsx)
Đánh giá kết quả ứng dụng
Đặc tả các thuộc tính bổ sung trong kho dữ liệu đánh giá, chứa giá trị thực tế (dự đoán được tính
toán) và, tùy chọn, chỉ báo nhóm kiểm soát, cho mục đích kiểm tra hoặc đánh giá
Điểm, mức tăng, mức tăng tối ưu và biểu đồ kịch bản để so sánh kết quả từ ứng dụng với nhóm kiểm soát
So sánh giá trị thực tế và
giá trị dự đoán cho ứng dụng, nhóm kiểm soát hoặc en-
dữ liệu lốp xe
Hiển thị đồng thời trong biểu đồ các thuộc tính khác có sẵn trong đánh giá
siêu thị dữ liệu tion
1.3.5 Viscovery® SOMine – Dữ liệu doanh nghiệp
Dữ liệu doanh nghiệp là mô-đun mở rộng để kết nối với môi trường doanh nghiệp và xử lý dữ liệu khổng lồ
cũng như tiền xử lý mở rộng. Nó yêu cầu mô-đun lõi Viscovery SOMine Visual Explorer và có thể tùy ý kết
hợp với các mô-đun khác của bộ phần mềm.
Dữ liệu doanh nghiệp cho phép xử lý các tập dữ liệu với số lượng bản ghi và biến không giới hạn trong
bộ hoàn chỉnh.
Kết nối cơ sở dữ liệu
Giao diện ODBC/OLEDB để truy cập tất cả các hệ thống cơ sở dữ liệu phổ biến, chẳng hạn như Oracle và
Máy chủ SQL
Nhập dữ liệu ở bước “Nhập dữ liệu” từ các bảng và dạng xem cơ sở dữ liệu
Xuất kết quả phân loại và tính điểm cũng như các siêu dữ liệu Viscovery sang bảng cơ sở dữ liệu
Giao diện dữ liệu bổ sung
Nhập và xuất các tệp SPSS (*.sav) và các tệp XML Viscovery (*.xml) Nhập dữ liệu
từ các tệp văn bản được phân tách bằng dấu phẩy (*.csv)
Nhập các tệp mô hình SOM_PAK gốc (*.cod)
27
Xuất dữ liệu siêu thị Viscovery
Xuất các kho dữ liệu được tạo trong quy trình Tiền xử lý dữ liệu sang tệp văn bản hoặc cơ sở dữ liệu ta -
phước lành
Tùy chọn sử dụng các thay thế và biến đổi đã xác định cho các thuộc tính được xuất Tùy
chọn thay thế các giá trị bị thiếu bằng giá trị nút SOM cho các thuộc tính được xuất Tùy chọn
xuất các biến danh nghĩa dưới dạng giá trị phân đôi
Tham gia chức năng
Nối các tệp dữ liệu và/hoặc bảng cơ sở dữ liệu trực tiếp trong bước “Nhập dữ liệu”
Nối dữ liệu từ nhiều nguồn dữ liệu trên các cột tùy ý (“nối ngoài bên trái”) Làm nổi bật các
thuộc tính nối có thể có và xung đột tên
Xử lý dữ liệu lớn và nhiều chiều
Lấy mẫu ngẫu nhiên các tập dữ liệu lớn đến kích thước nhỏ hơn trong siêu dữ liệu Viscovery Áp
dụng phép hiệu chỉnh nhiều thử nghiệm của Stewamini-Hochberg để điều chỉnh các thước đo độ tin cậy thống kê nếu một số
lượng lớn các thuộc tính được sử dụng để mô tả các cụm hoặc để so sánh các nhóm
Giao thức tiền xử lý
Nhập và xuất các cài đặt tiền xử lý của quy trình làm việc Dữ liệu tiền xử lý từ/đến một
tài liệu bảng tính
Tổng quan ngắn gọn về tất cả các tham số (“giao thức tiền xử lý”), có thể được chỉnh sửa bên ngoài hệ
thống Viscovery Tổ chức
thành một bảng với các cột nội dung được xác định trước, cho phép đặc tả các định nghĩa biến, thiết lập các
phạm vi biến được phép, định nghĩa các xử lý các ngoại lệ và bất thường, đồng thời bổ sung các mô tả,
hỗ trợ đặc tả rõ ràng về các tùy chọn tiền xử lý
1.3.6 Viscovery® SOMine – Tự động hóa quy trình làm việc
Dịch vụ tự động hóa quy trình làm việc tạo thành một gói công cụ có sẵn để bổ sung cho các mô-đun SOMine
của Vis-covery. Gói này cung cấp các dịch vụ chuyên dụng để thực thi tự động từng loại trong số sáu loại
quy trình công việc của Viscovery SOMine. Nó yêu cầu các mô-đun Viscovery tương ứng bằng cách sử dụng quy
trình làm việc cụ thể:
Visual Explorer cho quy trình tiền xử lý dữ liệu và khám phá dữ liệu Phân cụm
và phân loại cho quy trình Tạo phân loại và áp dụng phân loại Dự đoán và ghi điểm cho
quy trình Tạo dự đoán và áp dụng quy trình dự đoán
Tự động thực hiện quy trình công việc
Tự động tạo mô hình và ứng dụng “ở chế độ nền” vào thời gian đã lên lịch Thực hiện các quy trình
công việc dưới dạng “nhiệm vụ” thay mặt cho người dùng mà không cần thêm trợ giúp
tầm nhìn
Cập nhật các trung tâm dữ liệu và các mô hình dự đoán sử dụng dữ liệu mới từ các nguồn dữ liệu
được xác định Áp dụng các mô hình phân loại hoặc tính điểm cho dữ liệu liên quan và xuất kết quả để loại bỏ
mục tiêu bị phạt
Đồng bộ hóa nhất quán các nhiệm vụ phụ thuộc lẫn nhau trong quá trình thực hiện tự động
28
Lập kế hoạch nhiệm vụ
Tạo tác vụ bằng cách kéo luồng công việc đã hoàn thành từ khung dự án vào luồng công việc
khung tự động hóa
Đặc tả nguồn dữ liệu đầu vào và đích dữ liệu đầu ra cho từng tác vụ Thực hiện một lần
hoặc định kỳ vào các thời điểm đã được lên lịch (hàng tháng, hàng tuần, hàng ngày, định kỳ tùy ý hoặc chỉ một lần)
Đặc điểm kỹ thuật về
thời gian thực hiện đầu tiên và cuối cùng Định nghĩa về sự phụ
chung
Thông
thuộc có thể có giữa các nhiệm vụ được liệt kê (kết quả của một nhiệm vụ đóng vai trò là đầu vào
tin
cho các nhiệm vụ khác)
1.
Tùy chọn “Bắt đầu ngay” và “Hủy tác vụ” để bắt đầu và dừng xử lý tác vụ ngay lập tức
một cách khéo léo
Tái sử dụng hoặc sửa đổi các tác vụ đã hoàn thành bằng cách kéo vào ngăn dự án dưới dạng quy trình công việc
Đặc tả địa chỉ email để gửi thông báo
Trình bày và báo cáo
Hiển thị lịch để tổng quan hàng ngày, hàng tuần hoặc hàng tháng về các nhiệm vụ đã lên lịch
Hiển thị sự phụ thuộc giữa các nhiệm vụ Đánh dấu
trạng thái nhiệm vụ (đã lên lịch, hiện đang hoạt động, đã hoàn thành, bị vô hiệu hóa, bị hủy hoặc
thất bại)
Truy xuất báo cáo của tất cả các bước quy trình công việc trong các nhiệm vụ
đã hoàn thành Thông báo qua email sau khi thực hiện nhiệm vụ, bao gồm trạng thái kết quả và báo cáo
1.3.7 Mô-đun cấp phép
Các tính năng và khả năng của Viscovery SOMine được phân chia thành các mô-đun. Danh sách các mô-đun có sẵn để cài đặt
Viscovery SOMine cụ thể được xác định trong giấy phép, được kích hoạt bằng cách sử dụng khóa cấp phép một người dùng
hoặc thông qua máy chủ cấp phép mạng.
Viscovery SOMine có sẵn với giấy phép vĩnh viễn hoặc, cách khác, với giấy phép có thời hạn trong một khoảng thời gian
nhất định.
Giấy phép một người dùng được ràng buộc với tài khoản người dùng trên một máy tính và có thể được chuyển sang hệ thống máy
tính khác mỗi năm một lần. Giấy phép mạng cho phép vận hành phần mềm cho số lượng người dùng đồng thời tối đa được xác định
và yêu cầu cài đặt bổ sung Máy chủ cấp phép Vis-covery. Mỗi người dùng được cấp phép có thể vận hành một phiên bản tương
tác của phần mềm tại một thời điểm.
Để hiển thị các mô-đun được cấp phép cho quá trình cài đặt của bạn, hãy chọn Trợ giúp | Về. Các mô-đun có sẵn được liệt
kê trong cửa sổ xuất hiện. Bấm vào bất kỳ đâu trong cửa sổ để đóng nó.
Để hiển thị chi tiết cấp phép, cập nhật danh sách các mô-đun có sẵn cho một giấy phép hoặc để thay đổi mã cấp phép hoặc
máy chủ cấp phép mạng, hãy chọn Trợ giúp | Giấy phép. Hộp thoại Viscovery SOMine Li-Hương xuất hiện. Hộp thoại hiển
thị chủ sở hữu giấy phép, ngày hết hạn và danh sách các mô-đun được cấp phép và cho phép chỉ định loại giấy phép (giấy
phép một người dùng, giấy phép thả nổi hoặc giấy phép miễn phí) cũng như chi tiết giấy phép (khóa cấp phép hoặc địa chỉ
máy chủ cấp phép).
Chọn loại giấy phép bằng cách nhấp vào Giấy phép người dùng đơn, Giấy phép nổi qua máy chủ giấy phép mạng hoặc Giấy phép
miễn phí cho Visual Explorer (mô-đun cơ bản). Nhập khóa cấp phép hoặc tên máy chủ (và tùy chọn số cổng TCP) của máy
chủ cấp phép mạng. Sau đó bấm vào Áp dụng.
29
Cần có kết nối Internet để kích hoạt giấy phép một người dùng hoặc yêu cầu lại giấy phép miễn
phí. Viscovery SOMine xác minh giấy phép theo thời gian
thời gian mà kết nối Internet cũng được yêu cầu. Nếu giấy phép không thể được xác minh trong
vòng 30 ngày kể từ lần xác minh thành công trước đó, giấy phép sẽ không còn hiệu lực cho đến
khi có thể xác minh lại.
Để cập nhật danh sách các mô-đun có sẵn cho giấy phép một người dùng sau khi có mô-đun bổ sung
đã mua hoặc sau khi thời hạn cấp phép được gia hạn, hãy đảm bảo rằng khóa cấp phép chính xác là al -
đã được chỉ định sẵn và nhấp vào Áp dụng.
Chi tiết cấp phép mới sẽ được hiển thị trong hộp thoại Giấy phép Viscovery SOMine . Tuy nhiên, các tùy chọn
cấp phép mới sẽ được kích hoạt sau đó khi Viscovery SOMine được khởi động.
Do đó, hãy nhấp vào Đóng rồi nhấp vào Tệp | Thoát để đóng Viscovery SOMine.
Ảnh chụp màn hình trong sổ tay hướng dẫn này minh họa tất cả các tính năng do Viscovery cung cấp
SOM của tôi. Các cửa sổ được hiển thị khi bạn cài đặt phần mềm có thể
khác với các ảnh chụp màn hình được cung cấp trong sách hướng dẫn này, tùy thuộc vào các mô-đun
được cấp phép.
30
2 Làm việc với Viscovery® SOMine
Trong phần này sẽ trình bày tổng quan chung về Viscovery SOMine. Hướng dẫn làm việc với quy trình làm việc của
dự án SOMine được cung cấp.
2.1 Giới thiệu
Viscovery SOMine được sử dụng để tính toán các mô hình khai thác dữ liệu khám phá, xác định cụm, tạo hồ sơ cho
cụm và các lựa chọn dữ liệu do người dùng xác định, tính toán và áp dụng các mô hình phân loại cũng như tính
toán và áp dụng các mô hình dự đoán.
Các bản ghi dữ liệu được sắp xếp theo mức độ tương tự tổng thể của chúng trong SOM (xem 1.2.1 Bản đồ tự tổ
chức) và được nhóm tự động theo các phương pháp thống kê khác nhau. Giao diện người dùng đồ họa cho phép người
dùng điều chỉnh các cụm theo cách thủ công. Các mô tả và công thức xử lý hậu kỳ thể hiện kiến thức chuyên môn
được dễ dàng chỉ định.
cover
việc
Viscovery SOMine cung cấp các khả năng được cấp bằng sáng chế độc đáo cho cả dự đoán và tính điểm tuyến tính và
Min
Vis
với
Làm
SO
phi tuyến tính.
e
®
2
Quy trình Viscovery SOMine được cấp bằng sáng chế kết hợp công nghệ SOM phi tuyến tính với thống kê tuyến tính
thông thường (ví dụ: phân tích hồi quy, phân tích thành phần chính và ma trận tương quan). Dữ liệu được sắp xếp
theo mức độ tương tự tổng thể bằng công nghệ SOM và được chia nhỏ dần thành các nhóm chỉ chứa các đối tượng
rất giống nhau. Hành vi của các nhóm đồng nhất này có thể được dự đoán chính xác hơn nhiều so với việc chỉ sử
dụng một nhóm cho toàn bộ tập dữ liệu không đồng nhất.
Hồi quy cục bộ được sử dụng trong các nhóm dữ liệu đồng nhất, do đó cải thiện đáng kể chất lượng dự đoán so với
các phương pháp dự đoán thông thường. Tập hợp các hồi quy cục bộ cung cấp một mô hình dự đoán đã được xác thực,
mô hình này cuối cùng có thể được áp dụng cho các bản ghi dữ liệu mới để dự đoán các giá trị mục tiêu hoặc để
chấm điểm các bản ghi dữ liệu theo giá trị ước tính của chúng.
Các giá trị dự đoán có thể được sử dụng ngay lập tức trong các ứng dụng hoặc sau đó có thể được nhập vào mô hình
phân đoạn toàn diện hơn.
Có thể hiển thị các chế độ xem đồ họa khác nhau (ví dụ: biểu đồ, biểu đồ lợi nhuận, biểu đồ điểm số và biểu đồ
kịch bản) và các giá trị thống kê có liên quan khác (ví dụ: lỗi dự đoán ước tính). Bằng cách tự động phân chia
dữ liệu thành các tập dữ liệu huấn luyện và kiểm tra cũng như kiểm tra từng mô hình được huấn luyện, sẽ có sẵn
hỗ trợ tối ưu cho việc xác thực các mô hình. Các biến thể mô hình dự đoán khác nhau có thể dễ dàng được so sánh
với nhau.
Viscovery SOMine cung cấp giao diện cho cơ sở dữ liệu phổ biến và có thể dễ dàng liên kết với cơ sở dữ liệu người dùng.
Tất cả các hoạt động được thực hiện với quy trình công việc dễ sử dụng. Hệ thống này cho phép phân cụm, phân
loại, dự đoán, tính điểm và phân tích phi tuyến tính theo định hướng quy trình công việc trong môi trường dự án
để tạo, áp dụng và đánh giá các mô hình phân loại và dự đoán.
Quy trình làm việc Tiền xử lý dữ liệu được sử dụng để nhập dữ liệu, xử lý trước dữ liệu đã nhập (một khía cạnh
quan trọng của việc lập mô hình) và ghi dữ liệu đã xử lý vào kho dữ liệu.
Một định dạng tệp Viscovery Data Mart cụ thể được sử dụng cho data mart và được yêu cầu cho việc lập mô hình
tiếp theo với Viscovery SOMine. Định dạng tệp này được tối ưu hóa đặc biệt cho việc thực hiện -
31
và độc lập với phạm vi đa dạng của các định dạng dữ liệu gốc. Một dự án có thể chứa nhiều kho dữ
liệu khác nhau do Viscovery SOMine quản lý nội bộ.
Trong quy trình làm việc Khám phá dữ liệu , một mô hình phân đoạn sẽ được tạo. Một mô hình bao gồm
hai phần: bản đồ và định nghĩa các cụm. Bản đồ là thứ tự hai chiều của các bản ghi dữ liệu theo
mức độ giống nhau của các thuộc tính đã chọn. Cụm là một tập hợp các bản ghi dữ liệu tương tự nhau
đến mức chúng có thể được xử lý giống nhau. Tập hợp các cụm trong bản đồ được gọi là phân đoạn.
Sau khi chọn một trung tâm dữ liệu, các thuộc tính tạo thành một phần của mô hình sẽ được xác
định cũng như các tham số sẽ được sử dụng để huấn luyện bản đồ. Sau khi hoàn thành quá trình đào
tạo, bản đồ sẽ được hiển thị với tính năng phân cụm tự động. Dựa trên việc phân cụm này, các cụm
có thể được xử lý và các cấu hình tương ứng có thể được hiển thị. Các công thức xử lý hậu kỳ dành
riêng cho cụm, thể hiện kiến thức chuyên môn, có thể được gán cho các cụm.
Trong quy trình Tạo Trình phân loại , các mô hình phân loại được xây dựng dựa trên dữ liệu lịch sử mà lớp thực được
biết đến. Mô hình phân loại bao gồm một SOM được xây dựng từ các thuộc tính giải thích và phân phối các biến lớp trên
SOM. SOM cấu thành một thứ tự hai chiều của các bản ghi dữ liệu theo mức độ tương tự của phần giải thích đã chọn
tại - cống, từ đó tạo ra các cụm vi mô (nút) đồng nhất. Trong mỗi cụm vi mô này, một phân bố lớp khác nhau được lưu
trữ mà sau này có thể được sử dụng để phân loại dữ liệu mới bằng phương pháp phân loại áp dụng định lý Bayes.
Trong quy trình làm việc Áp dụng Trình phân loại , bạn có thể áp dụng mô hình cho dữ liệu của mình
và lưu kết quả phân loại để xử lý tiếp.
Cần có hai tệp làm đầu vào cho quy trình làm việc Áp dụng Trình phân loại : mô hình (được tạo trong quy trình Tạo
Trình phân loại hoặc quy trình làm việc Khám phá dữ liệu ) và kho dữ liệu ứng dụng (chứa các bản ghi dữ liệu, ví dụ:
khách hàng, mà mô hình sẽ được áp dụng) . Siêu dữ liệu ứng dụng được tạo trong quy trình làm việc Dữ liệu tiền xử lý
và thường không phải là siêu dữ liệu được sử dụng để tạo mô hình. Khi mô hình được áp dụng cho kho dữ liệu ứng dụng,
các bản ghi dữ liệu được phân loại thành các lớp/cụm. Kết quả được ghi vào một tập tin ứng dụng hoặc cơ sở dữ liệu.
Quy trình làm việc Áp dụng Trình phân loại cũng được sử dụng để đánh giá ứng dụng bằng cách so
sánh các thuộc tính kết quả của các bản ghi dữ liệu đã tham gia vào ứng dụng với kết quả của các
bản ghi dữ liệu của cùng một lớp/cụm không tham gia (tức là nhóm kiểm soát).
Trong quy trình Tạo dự đoán , các mô hình hồi quy tuyến tính, logistic và cục bộ toàn cầu được xây
dựng trên dữ liệu lịch sử đã biết kết quả (ví dụ: phản hồi). Một mô hình tuyến tính toàn cầu bao
gồm một hồi quy tuyến tính đa biến. Một mô hình logistic bao gồm một phép hồi quy logistic đa
biến. Mô hình hồi quy cục bộ bao gồm hai phần: SOM và tập hợp các hồi quy. SOM cấu thành một thứ
tự hai chiều của các bản ghi dữ liệu theo mức độ giống nhau của các thuộc tính đã chọn, từ đó tạo
ra các cụm vi mô (nút) đồng nhất. Đối với mỗi cụm vi mô này, một hồi quy tuyến tính riêng biệt
được tính toán, gọi là “hồi quy cục bộ”.
Sau khi chọn data mart, các tham số để tạo mô hình sẽ được chỉ định. Khi các mô hình đã được tạo
(sử dụng dữ liệu mô hình), mỗi mô hình sẽ được đánh giá trực quan (sử dụng dữ liệu thử nghiệm) và
chất lượng của các mô hình khác nhau được tạo trong dự án sẽ được so sánh với sự trợ giúp của một
số loại biểu đồ.
Trong quy trình làm việc Áp dụng Dự đoán , mô hình tốt nhất sẽ được chọn và áp dụng cho dữ liệu
chưa xác định được kết quả. Kết quả là một dự đoán.
32
Kho dữ liệu ứng dụng (tức là kho dữ liệu chứa các bản ghi dữ liệu sẽ được áp dụng), được tạo trong quy trình
làm việc Dữ liệu tiền xử lý . Bằng cách áp dụng mô hình dự đoán, một giá trị được dự đoán cho mọi bản ghi dữ
liệu trong kho dữ liệu ứng dụng và được ghi vào kho dữ liệu.
Dựa trên việc chấm điểm các giá trị dự đoán, có thể xác định các nhóm điểm. Các nhóm điểm khác nhau thường được
xử lý khác nhau trong một ứng dụng. Mục đích của ứng dụng chấm điểm là xác định các bản ghi dữ liệu có giá trị
cao nhất hoặc thấp nhất (ví dụ: khách hàng có khả năng rời bỏ hoặc mua hàng cao) bằng cách giải quyết càng ít
càng tốt (để tiết kiệm tài nguyên). Các nhóm điểm được xuất sang một tệp hoặc cơ sở dữ liệu.
Quy trình làm việc Áp dụng Dự đoán cũng được sử dụng để đánh giá dự đoán, tính điểm và ứng dụng. Chất lượng của
dự đoán được đánh giá bằng cách so sánh các giá trị dự đoán với giá trị thực tế của bản ghi dữ liệu ngay khi
chúng có sẵn. Liệu ứng dụng có hiệu quả hay không có thể được đánh giá bằng cách so sánh giá trị kết quả của các
bản ghi dữ liệu đã tham gia vào ứng dụng với kết quả của các bản ghi dữ liệu của cùng một nhóm điểm không tham
gia vào ứng dụng (tức là nhóm kiểm soát).
Hướng dẫn sử dụng quy trình làm việc được đưa ra trong Phần 3 ( Quy trình làm việc tiền xử lý dữ liệu), 4 ( Quy
trình khám phá dữ liệu), 5 (Tạo quy trình làm việc Phân loại), 6 (Áp dụng quy trình làm việc Trình phân loại),
7 (Tạo quy trình làm việc Dự đoán) và 8 (Áp dụng quy trình làm việc Dự đoán ).
cover
việc
Min
Vis
với
Làm
Phần 9 giải thích cách tạo báo cáo cho tài liệu dự án và cách sử dụng các công cụ thống kê mà Viscovery SOMine
SO
e
®
2
cung cấp.
Phần 10 giải thích mô hình thu được từ các quy trình Khám phá dữ liệu, Tạo bộ phân loại và Tạo bộ dự đoán , bao
gồm cách làm việc với bản đồ và các thông tin khác có sẵn trong mô hình cũng như cách tạo phân đoạn và xác định
cụm.
Phần 11 giải thích cách xử lý quy trình công việc theo định kỳ, thông qua Viscovery SOMine - Tự động hóa quy trình làm
việc.
Phần 12 mô tả các tính năng khác nhau.
Phụ lục chứa thông tin bổ sung về định dạng tệp đầu vào, cú pháp công thức, cú pháp biểu thức chính quy, thông
tin cơ bản hơn về SOM, thuật toán phân cụm, hồi quy cục bộ và hàm trọng số. Ngoài ra, Bảng chú giải thuật ngữ
còn cung cấp giải thích về các vấn đề quan trọng
điều kiện.
2.2 Bắt đầu
2.2.1 Cách quản lý dự án
Để bắt đầu làm việc với Viscovery SOMine, một dự án mới được tạo hoặc một dự án hiện có được mở. Tất cả các hành
động được thực hiện đều ảnh hưởng đến dự án hiện tại cho đến khi một dự án khác được tạo hoặc mở.
Để tạo dự án mới, chọn Tệp | Mới, nhấn phím CTRL+N hoặc nhấp vào nút trên thanh công cụ. Cửa sổ Dự án mới xuất
hiện.
33
Nhập vị trí dự án sẽ được lưu trữ và nhập Tên dự án để xác định dự án.
Để tạo dự án, nhấp vào nút OK . Tệp Dự án Viscovery SOMine được tạo (< Tên dự án>.visdm). Nếu thư
mục được nhập vào Vị trí chưa tồn tại thì nó sẽ được tạo.
Một cửa sổ Dự án mới xuất hiện, cung cấp các tab sau: Tiền xử lý dữ liệu, Khám phá dữ liệu, Tạo
bộ phân loại, Áp dụng bộ phân loại, Tạo bộ dự đoán và Áp dụng bộ dự đoán để truy cập các quy
trình công việc tương ứng (xem hình bên dưới). Mỗi tab quy trình công việc cho phép tạo nhiều quy
trình công việc cho dự án: ví dụ: bạn có thể tạo một số kho dữ liệu trong tab Dữ liệu chuẩn bị
xử lý và một số mô hình trong tab Khám phá dữ liệu .
Một dự án hiện có có thể được mở bằng cách chọn Tệp | Mở..., nhấp vào biểu tượng hoặc nhấn phím
CTRL+O .
Để lưu dự án, chọn Tệp | Lưu hoặc nhấp vào biểu tượng. Ngoài ra, để lưu nó dưới tên mới, hãy chọn
Tệp | Lưu thành.
Việc lưu dự án vào một thư mục mới không sao chép các nội dung được dự án tham
chiếu (siêu dữ liệu, mô hình, tệp dữ liệu, v.v.) vào thư mục mới. Người dùng có
trách nhiệm đảm bảo rằng các tệp được tham chiếu không bị xóa trong suốt thời gian
thực hiện dự án.
Chọn Tệp | Close để đóng dự án hiện tại.
2.2.2 Sử dụng quy trình công việc
Các quy trình công việc (Tiền xử lý dữ liệu, Khám phá dữ liệu, Tạo trình phân loại, Áp dụng trình
phân loại, Tạo bộ dự đoán và Áp dụng bộ dự đoán) thường được sử dụng theo thứ tự xuất hiện trong
dự án. Trong hình bên dưới, quy trình làm việc Dữ liệu tiền xử lý đang mở.
Mỗi quy trình làm việc bao gồm bốn bước. Mục đích của các bước được chỉ ra ở đầu cột bước. Các
bước được mã hóa màu:
34
Các bước xanh đã hoàn thành và không thể thay đổi (không hiển thị ở trên). Bấm đúp vào một bước màu
xanh lá cây sẽ hiển thị thông tin đồ họa liên quan (biểu đồ, bản đồ) hoặc mở báo cáo cho bước đó
(báo cáo sau cũng có sẵn bằng cách chọn Xem | Báo cáo bước).
Các bước màu vàng có thể được thực hiện tiếp theo. Bấm đúp vào một bước màu vàng sẽ mở ra hộp thoại
để chỉ định tham số hóa cho bước đó. Ngoài ra, việc xử lý hầu hết các bước màu vàng có thể được bắt
đầu bằng cách chọn Xử lý ngay từ menu ngữ cảnh.
Các bước có một phần màu xanh và vàng hiện đang được xử lý. Lượng màu xanh lá cây biểu thị tiến trình
tính toán. Việc tính toán có thể bị gián đoạn bằng cách chọn Hủy bỏ quá trình xử lý từ menu ngữ
cảnh hoặc bằng cách nhấn phím ESC hoặc CTRL+BREAK .
Không thể thực hiện các bước trắng vì bước trước đó phải được hoàn thành trước.
Các bước này không phản hồi khi nhấp đúp.
Việc nhấp vào một bước sẽ biến bước đó thành bước hiện tại, được biểu thị bằng khung tối. Đồng thời,
hàng trên cùng của các bước kế tiếp của nó cũng được chọn, biểu thị bằng một khung mỏng. Mục đích của
việc này trở nên rõ ràng khi một giải pháp thay thế được tạo ra (xem bên dưới).
cover
Mặc dù bước đã hoàn thành (màu xanh lá cây) không thể thay đổi nhưng có thể xóa nó bằng cách chọn bước
việc
Min
Vis
với
Làm
đó và nhấn phím DEL , chọn Edit | Lệnh xóa hoặc chọn Xóa từ menu ngữ cảnh. Khi một bước đã hoàn thành
SO
e
®
2
bị xóa, tất cả các bước tiếp theo (được biểu thị bằng mũi tên) cũng bị xóa. Một bước chỉ có thể bị xóa
khi có sẵn một đường dẫn thay thế.
Một đường dẫn thay thế trong quy trình làm việc có thể phân nhánh ngay trước bước hiện tại bằng cách chọn Chỉnh sửa
| Tạo Giải pháp thay thế, nhấp vào biểu tượng hoặc chọn Tạo Giải pháp thay thế từ menu ngữ cảnh.
Bước đầu tiên của lộ trình thay thế mới trở thành bước hiện tại và được biểu thị bằng màu vàng, các bước
mới còn lại được biểu thị bằng màu trắng.
Khi một đường dẫn thay thế được tạo, tất cả cài đặt của các bước hiện được chọn sẽ được sao chép sang
đường dẫn mới. Vì hàng trên cùng của các bước liên tiếp được chọn tự động nên cài đặt cho các bước này
cũng được sao chép sang đường dẫn mới. Đôi khi điều này là không mong muốn và cần phải cài đặt các bước
không ở mức cao nhất. Để sao chép các bước mong muốn, hãy chọn bước đầu tiên, sau đó chọn bước cuối
cùng trong cùng nhánh sẽ được sao chép trong khi nhấn phím SHIFT . (Điều này cũng sẽ chọn các bước trung
gian.) Các bước được chọn theo cách này được biểu thị bằng một khung mỏng.
35
Một quy trình làm việc mới có thể được tạo bằng cách phân nhánh từ bước đầu tiên của quy trình công việc hiện có (Chỉnh sửa
| Tạo thay thế). Cài đặt của các bước ban đầu (đã chọn) được sao chép sang bước mới
quy trình làm việc.
Cài đặt của các bước riêng lẻ có thể được sao chép sang các bước chưa hoàn thành (màu vàng) cùng loại bằng cách
chọn bước nguồn (có thể ở một nhánh khác hoặc thậm chí trong một dự án khác) và
chọn Chỉnh sửa | Sao chép. Chọn bước đích và chọn Chỉnh sửa | Dán hoặc dán thuộc tính
từ menu ngữ cảnh.
Chọn Chỉnh sửa | Đặt lại hoặc Đặt lại từ menu ngữ cảnh sẽ áp dụng cài đặt mặc định cho bước quy trình làm việc
chưa hoàn chỉnh.
Thao tác đặt lại áp dụng cho tất cả các bước đã chọn ngoài bước hiện tại
bươ c chân.
Nhiều bước tự động nhận được một tên duy nhất bắt nguồn từ bước trước đó. Bạn
có thể thay đổi tên của một bước bằng cách chọn Chỉnh sửa | Thuộc tính…, Thuộc tính… từ menu ngữ cảnh hoặc bằng
cách nhấn phím ALT+ENTER . Hộp thoại Thuộc tính Bước xuất hiện.
Nhập Tiêu đề (tức là tên) cũng như Nhận xét tùy chọn cho bước này. Bình luận cho phép
thông tin bổ sung liên quan đến bước này sẽ xuất hiện trong báo cáo. Ngoài ra, tên và chú thích hiển thị chú giải
công cụ sẽ xuất hiện khi con trỏ chuột được đặt qua bước (điều này có thể
bị tắt trong tab Xem của tùy chọn, xem 12.3 Tùy chọn).
Phần Sự khác biệt so với giải pháp thay thế ở trên cung cấp bản tóm tắt các cài đặt đã được
đã thay đổi giữa bước hiện tại và bước kế tiếp trước đó.
Danh sách đầy đủ dữ liệu được sử dụng trong bước quy trình công việc đã hoàn thành (màu xanh lá cây) có thể được
hiển thị bằng cách chọn Bản ghi dữ liệu trong menu ngữ cảnh hoặc chọn Xem | Bản ghi dữ liệu. (xem Phần 9.2
Bản ghi dữ liệu).
Thông tin thống kê cho bước quy trình công việc đã hoàn thành (màu xanh lá cây) có thể được hiển thị bằng cách chọn
Thống kê trong menu ngữ cảnh hoặc chọn Xem | Thống kê (xem Phần 9.3 Thống kê).
Bạn có thể mở cửa sổ Báo cáo tóm tắt các hành động (lựa chọn, cài đặt) được thực hiện cho bước quy trình công
việc đã hoàn thành (màu xanh lá cây) bằng cách chọn Báo cáo trong menu ngữ cảnh hoặc bằng cách
chọn Xem | Báo cáo bước.
36
Bạn có thể thay đổi thứ tự của các nhánh quy trình công việc bằng cách nhấp và kéo lên hoặc xuống. Việc sắp
xếp lại này chỉ có thể thực hiện được trong một nhánh (tức là bước trước đó không thay đổi).
Bạn có thể sao chép toàn bộ quy trình làm việc sang các dự án khác nhau bằng cách nhấp vào bước đầu tiên của
quy trình làm việc cần sao chép và chọn Chỉnh sửa | Sao chép. Mở dự án đích và chọn Chỉnh sửa | Dán Quy
trình công việc hoặc chọn Dán Quy trình công việc từ menu ngữ cảnh của dự án. Ngoài ra, hãy kéo bước đầu
tiên của quy trình làm việc nguồn vào dự án đích. Toàn bộ quy trình làm việc với tất cả các nhánh của nó
được sao chép vào trang quy trình công việc đích (trang này được kích hoạt tự động nếu cần - sary). Các dự
án nguồn và đích không cần phải liên quan dưới bất kỳ hình thức nào.
Việc sao chép quy trình công việc theo cách này sẽ không sao chép nội dung được tham chiếu bởi
quy trình công việc (trung tâm dữ liệu, mô hình, tệp dữ liệu, v.v.) ngay cả khi dự án nguồn và
dự án đích nằm trong các thư mục khác nhau. Người dùng có trách nhiệm đảm bảo rằng các tệp
được tham chiếu không bị xóa trong thời gian tồn tại bản sao quy trình công việc.
2.2.3 Giới thiệu về cài đặt bước quy trình công việc
cover
Bấm đúp vào một bước màu vàng sẽ mở ra hộp thoại để chỉ định tham số hóa cho bước đó.
việc
Các cài đặt thường được chia thành nhiều trang. Các nút gần cuối hộp thoại cho phép tiến và lùi qua các
Min
Vis
với
Làm
SO
trang cài đặt.
e
®
2
Nhấn Next để chuyển sang trang tiếp theo. Nhấn Back để quay lại trang trước. Ở trang cuối cùng, nút Tiếp
theo được thay thế bằng Hoàn tất. Bằng cách bấm vào Hoàn tất, các cài đặt sẽ được áp dụng cho bước quy trình
công việc, hộp thoại sẽ đóng và quá trình xử lý bước quy trình công việc bắt đầu.
Bằng cách bấm Đóng, các cài đặt sẽ được áp dụng cho bước quy trình làm việc, hộp thoại sẽ đóng nhưng quá
trình xử lý bước quy trình làm việc chưa bắt đầu. Bước quy trình công việc vẫn chưa hoàn thành (màu vàng).
Cách sử dụng điển hình của tùy chọn này là khi không có đủ thông tin để hoàn tất cài đặt
của bước hiện tại. Sau đó, bạn có thể đóng hộp thoại để lấy thông tin cần thiết, chẳng hạn
như bằng cách kiểm tra kết quả của các bước quy trình công việc khác trong dự án. Sau đó,
bạn có thể quay lại bước quy trình làm việc và tiếp tục cài đặt.
Mặc dù việc sử dụng Đóng không bắt đầu xử lý, các cài đặt được cung cấp cho đến nay trong
hộp thoại vẫn được kiểm tra tính nhất quán giống như khi sử dụng Hoàn tất . Không thể rời
khỏi hộp thoại bằng nút Đóng miễn là cài đặt không chính xác hoặc không nhất quán.
Nhấp vào Hủy để loại bỏ tất cả các thay đổi được thực hiện kể từ khi hộp thoại được nhập và để đóng hộp thoại. Những
thay đổi được thực hiện trên tất cả các trang của hộp thoại sẽ bị loại bỏ, không chỉ những thay đổi trên trang hiện tại.
Bước quy trình công việc vẫn chưa hoàn thành (màu vàng).
37
3 Quy trình xử lý dữ liệu tiền xử lý
Quy trình làm việc Dữ liệu tiền xử lý nhập dữ liệu, xử lý trước dữ liệu (một khía cạnh quan trọng của
việc tạo mô hình) và ghi dữ liệu đã xử lý trước vào kho dữ liệu.
Để lập mô hình tiếp theo với Viscovery SOMine, dữ liệu phải ở định dạng tệp mart dữ liệu Viscovery. Định
dạng tệp này được tối ưu hóa về hiệu suất và cho phép dữ liệu đã xử lý độc lập với nhiều định dạng dữ
liệu gốc được sử dụng. Một dự án có thể chứa nhiều trung tâm dữ liệu được Viscovery SOMine quản lý nội bộ.
Siêu thị dữ liệu Viscovery bao gồm các cột và hàng. Mỗi cột đại diện cho một thuộc tính và mỗi hàng đại
diện cho một bản ghi dữ liệu. Các thuộc tính có loại Văn bản hoặc Giá trị.
Để tạo một siêu dữ liệu mới, hãy mở một dự án, chọn tab Dữ liệu tiền xử lý và hoàn tất quy trình làm việc bằng cách thực
hiện các bước sau: Nhập dữ liệu, Xác định thuộc tính, Điều chỉnh biểu đồ của anh ấy, Viết Data Mart. Thông tin về các bước
trình
việc
công
này được cung cấp trong các phần sau.
quy
Tái
lý
xử
P.
T.
3
3.1 Nhập dữ liệu
Với bước Nhập dữ liệu của quy trình làm việc Dữ liệu tiền xử lý , các nguồn dữ liệu gốc được chọn và nhập
vào dự án.
Để bắt đầu nhập dữ liệu, bấm đúp vào bước Nhập dữ liệu màu vàng . Nếu không có bước Nhập dữ liệu màu
vàng , hãy tạo quy trình làm việc Dữ liệu tiền xử lý mới bằng cách nhấp vào bước Nhập dữ liệu đã hoàn
thành (màu xanh lá cây) và chọn Chỉnh sửa | Tạo sự thay thế.
3.1.1 Chọn nguồn dữ liệu
Hộp thoại Nhập dữ liệu xuất hiện, cho phép bạn chỉ định một hoặc nhiều vị trí của tệp hoặc kết nối tới cơ sở dữ
liệu.
Khi nhập dữ liệu từ một tệp, có thể chọn các loại tệp sau:
Tệp văn bản (*.txt)

Tệp Microsoft Excel (*.xlsx và *.xls) Tệp
giá trị được phân tách bằng dấu phẩy (CSV) (*.csv)
Tệp XML Viscovery (*.xml) Tệp
SPSS (*. sav) Kho dữ
liệu Viscovery hiện có (*.dms)
Khi một tệp có bất kỳ phần mở rộng nào khác được chọn, Viscovery SOMine sẽ cố gắng mở tệp dưới dạng tệp
văn bản. Yêu cầu định dạng chi tiết cho tệp đầu vào được nêu trong A.3 Yêu cầu đối với tệp dữ liệu đầu
vào.
Khi dữ liệu được nhập từ nhiều nguồn, các nguồn dữ liệu sẽ được nối.
39
Để chỉ định nguồn dữ liệu đầu tiên, hãy nhấp vào nút Tệp… để chỉ định tệp dữ liệu hoặc nút
Cơ sở dữ liệu… để chỉ định kết nối cơ sở dữ liệu.
Nhập từ một tệp
Nhấp vào nút Tệp… để duyệt đến tệp. Tên tệp đã chỉ định sẽ được thêm vào danh sách nguồn dữ liệu:
Khi chọn một tệp Microsoft Excel chứa nhiều trang tính, các trang tính sẽ được liệt kê bên
dưới. Chọn trang tính chứa dữ liệu. (Đối với các loại tệp khác hoặc nếu chỉ có một trang
tính, phần này vẫn ẩn.) Bấm vào trang tính mà dữ liệu sẽ được nhập từ đó.
40
Nhập từ bảng cơ sở dữ liệu
Nhấp vào nút Cơ sở dữ liệu… để mở hộp thoại Liên kết dữ liệu của Microsoft . Chỉ định kết
nối theo quy ước của Microsoft. Tab Kết nối của hộp thoại này thường cung cấp tùy chọn Cho
phép lưu mật khẩu . Tùy chọn này phải được kích hoạt khi cần xác minh mật khẩu để truy cập
cơ sở dữ liệu.
Một mục cơ sở dữ liệu được thêm vào danh sách các nguồn dữ liệu:
trình
việc
công
quy
Tái
lý
xử
P.
T.
3
Chọn bảng dữ liệu chứa dữ liệu cần nhập từ danh sách bảng Chọn cơ sở dữ liệu .
Chỉ định nguồn dữ liệu để tham gia
Sau khi nguồn dữ liệu đầu tiên được chỉ định, các nguồn dữ liệu bổ sung có thể được chỉ định tùy ý. Nhấp vào nút Tệp…
hoặc Cơ sở dữ liệu… để thêm nhiều nguồn dữ liệu hơn vào danh sách:
41
Khi có nhiều nguồn dữ liệu, thao tác nối sẽ được áp dụng để tạo bảng dữ liệu phẳng.
Chi tiết được mô tả trong phần 3.1.3 Chọn thuộc tính bên dưới.
Thứ tự của các nguồn dữ liệu quan trọng. Đặc biệt, nguồn dữ liệu đầu tiên xác định các bản ghi mà trung tâm dữ liệu
cuối cùng sẽ có. Các nguồn dữ liệu thứ hai và tiếp theo chỉ thêm các thuộc tính chứ không thêm hoặc xóa bản ghi dữ
liệu. Sử dụng các nút và để thay đổi thứ tự của các nguồn dữ liệu.
Để thay đổi tên tệp hoặc kết nối cơ sở dữ liệu của nguồn dữ liệu, hãy nhấp vào nút. Sử dụng nút để xóa nguồn dữ
liệu khỏi danh sách.1
Sau khi chọn nguồn dữ liệu, nhấn Next để tiếp tục.
3.1.2 Xác định kiểu
Các loại dữ liệu có thể được xác định cho các nguồn dữ liệu tệp ngoại trừ các dữ liệu Viscovery.
Cửa sổ Xác định loại thuộc tính xuất hiện cho từng nguồn dữ liệu cho phép xác định loại thuộc
tính. Sử dụng nút Tiếp theo để tiếp tục xem danh sách các nguồn dữ liệu. Khi dữ liệu được nhập từ
trung tâm dữ liệu Viscovery hoặc cơ sở dữ liệu, các định nghĩa loại cũng được nhập và loại không
thể thay đổi; do đó, cửa sổ Xác định loại thuộc tính bị bỏ qua đối với các loại nguồn dữ liệu này.
Dữ liệu nguồn cho loại nào đang được xác định sẽ được đặt tên trong chú thích cửa sổ. Tên của các
thuộc tính xuất hiện dưới dạng tiêu đề cột.
Một thuộc tính có thể thuộc loại Giá trị (số) hoặc Văn bản (ký tự). Loại được chỉ định trong tiêu
đề cột ( for Value; cho Văn bản).
Một số không phù hợp để tính toán (ví dụ: số nhận dạng sản phẩm) phải được xác định là Văn bản. Đối
với những con số như vậy, độ lớn không có ý nghĩa; tức là việc một số nhỏ hơn một số khác là không
liên quan.
1
Việc xóa một mục khỏi danh sách sẽ không xóa tệp dữ liệu.
42
Theo mặc định, loại thuộc tính được đặt thành Văn bản, nếu không có giá trị nào trong 500 bản ghi dữ
liệu đầu tiên có thể được hiểu là số. Nếu không, loại được đặt thành Giá trị.
Khi thực hiện bước Nhập dữ liệu xảy ra trong một đường dẫn thay thế, Viscovery SOMine cố gắng sử dụng
các định nghĩa loại từ bước ban đầu (tức là bước đã được sao chép để tạo đường dẫn thay thế): các
thuộc tính có cùng tên được đặt thành cùng một loại.
Một số tệp dữ liệu chứa dữ liệu ở dòng đầu tiên (thay vì chứa tên thuộc tính). Khi nhập dữ liệu từ một tệp dữ liệu như
vậy, hãy bỏ chọn tùy chọn Dòng đầu tiên chứa tên thuộc tính .
Để thay đổi loại thuộc tính, hãy nhấp vào tên thuộc tính (tiêu đề cột trong bảng) trong bảng và nhấp
vào nút radio Văn bản hoặc Giá trị .
Để thay đổi loại của nhiều thuộc tính cùng một lúc, hãy nhấn phím CTRL trong khi nhấp
vào thuộc tính trước khi chọn loại.
trình
việc
công
quy
Tái
Để xem thêm 500 bản ghi dữ liệu, hãy nhấp vào Thêm. Độ dài mặc định của thuộc tính loại Văn bản được
lý
xử
P.
T.
3
đặt thành độ dài của giá trị dài nhất trong bản ghi dữ liệu đã xem. Độ dài của thuộc tính có thể được
chỉ định rõ ràng bằng cách nhập nó vào trường Độ dài .
3.1.3 Chọn thuộc tính
Sau khi xác định các loại thuộc tính, nhấn Next để tiếp tục. Trong bước Chọn thuộc tính , có thể chọn
các thuộc tính được đưa vào kho dữ liệu, có thể điều chỉnh tên và loại thuộc tính cũng như có thể chỉ
định mô tả về các thuộc tính.
Các thuộc tính được nhóm theo nguồn dữ liệu. Dòng tiêu đề cho biết nguồn dữ liệu mà từ đó các at -
cống phẩm được liệt kê bên dưới bắt nguồn. Dòng tiêu đề sẽ bị bỏ qua nếu chỉ có một nguồn dữ liệu.
Nhấp vào hộp kiểm ở bên trái tên thuộc tính sẽ chọn hoặc bỏ chọn thuộc tính để đưa vào siêu thị dữ liệu.
43
Vì các tệp dữ liệu nguồn thường rất lớn nên tài nguyên có thể được lưu bằng cách loại
bỏ các thuộc tính không được sử dụng cho mô hình hóa.
Các thuộc tính không được đưa vào ở bước này (tức là đã bỏ chọn) sẽ không thể được đưa vào kho dữ
liệu sau đó và do đó, không thể được tích hợp vào mô hình dựa trên kho dữ liệu.
Sửa đổi thuộc tính thuộc tính
Để thay đổi tên hoặc loại thuộc tính và chỉ định mô tả, trước tiên hãy chọn hàng rồi nhấp vào nút
Thuộc tính hoặc nhấp đúp vào hàng thuộc tính để mở hộp thoại Thuộc tính thuộc tính .
Để đổi tên một thuộc tính, hãy thay đổi mục nhập Tên . Một thuộc tính có thể được đổi tên miễn là
tên mới là duy nhất trong danh sách (ngay cả đối với các thuộc tính sẽ không có trong kho dữ liệu).
Khi một thuộc tính được đổi tên, tên gốc sẽ được liệt kê trong cột Tên gốc của hộp thoại Chọn Thuộc
tính .
Trong phần Loại , chỉ định loại thuộc tính. Một thuộc tính có thể thuộc loại Giá trị (số) hoặc Văn
bản (ký tự).
Các tùy chọn khác có sẵn khi thuộc tính thuộc loại Văn bản.
Số ký tự tối đa được phép cho thuộc tính văn bản được nhập vào Độ dài tối đa của văn bản. Chỉ số
lượng ký tự được chỉ định mới được dành riêng trong kho dữ liệu. Nếu giá trị của thuộc tính này
trong nguồn dữ liệu dài hơn giá trị tối đa thì các giá trị bị cắt bớt sẽ được lưu trữ trong dữ liệu
mart.
Sẽ rất hữu ích nếu bật tùy chọn Tên tệp hoặc liên kết tài nguyên web khi văn bản là liên kết trang
web hoặc tên của tài liệu hoặc tệp trên máy tính, chẳng hạn như Ảnh\p0742.jpg hoặc http://www.exam-
ple.com /houses/Florida/Tampa1.html. Kích hoạt tùy chọn này có ba tác dụng:
44
Các giá trị xuất hiện dưới dạng siêu liên kết trong cửa sổ bản ghi dữ liệu (xem 9.2 Bản ghi dữ liệu). Khi nhấp
vào liên kết, Viscovery SOMine sẽ mở trang web được tham chiếu trong trình duyệt web hoặc tài liệu được
tham chiếu trong trình xem hoặc trình chỉnh sửa được định cấu hình cho loại tài liệu.
Khi nhấp vào một nút trong ảnh bản đồ, Viscovery SOMine sẽ mở trang web hoặc tài liệu được tham chiếu bởi
một trong các bản ghi dữ liệu mà nút đó là nút phù hợp nhất.
Hình thu nhỏ của các tài liệu được tham chiếu có thể được hiển thị trong cửa sổ bật lên xuất hiện trên ảnh bản đồ
khi con chuột trỏ vào một nút bản đồ, như được mô tả trong 10.1.1 Cửa sổ Bản đồ.
Nếu tên của tài liệu trong thuộc tính văn bản là tương đối, tức là chỉ phần hoặc các phần cuối cùng, hãy chỉ định
- ify trong tiền tố vị trí tùy chọn nơi tệp được lưu trữ. Ví dụ: đối với các tệp nằm trên máy tính, có thể sử
dụng tiền tố đường dẫn, chẳng hạn như C:\Medical Analysis\Documents . Đối với một trang web, có thể sử dụng tiền
tố URL, chẳng hạn như http://www.example.com/houses/ .
trình
việc
công
quy
Tái
Mô tả thuộc tính có thể được chỉ định trong trường Mô tả . Mô tả thuộc tính được bao gồm trong bất kỳ mô hình nào
lý
xử
P.
T.
3
được tạo bằng data mart.
Bấm OK để áp dụng những thay đổi được thực hiện trong hộp thoại và quay lại hộp thoại Chọn Thuộc tính .
Nhấp vào Hủy để hủy mọi thay đổi.
Chỉ định thuộc tính tham gia
Khi có nhiều nguồn dữ liệu được chỉ định, Viscovery SOMine sẽ áp dụng thao tác nối để tạo một bảng dữ liệu phẳng
duy nhất từ các nguồn dữ liệu được chỉ định. Bắt đầu với nguồn thứ hai, các nguồn dữ liệu lần lượt được nối với
nguồn dữ liệu đầu tiên (hoặc kết quả của thao tác nối trước đó) bằng cách sử dụng phép nối ngoài bên trái tự
nhiên.
“Tự nhiên” ngụ ý rằng các thuộc tính có tên giống hệt nhau phải tồn tại trong hai nguồn dữ liệu được nối. Trong
Viscovery SOMine, đây phải là một thuộc tính duy nhất và duy nhất, được gọi là khóa ngoại, cũng phải được chọn để
đưa vào kho dữ liệu. Trong hộp thoại Chọn thuộc tính , thuộc tính khóa ngoại được biểu thị bằng nền màu:
45
Đôi khi, khóa ngoại không thể được xác định ngay lập tức. Trong trường hợp này, các thuộc tính
trong nguồn dữ liệu cần nối được biểu thị bằng nền đỏ trong hộp thoại Chọn Thuộc tính .
Ví dụ: trước khi đạt được trạng thái trong hình trên, thông tin sau đã được hiển thị:
Các lỗi sau đây được biểu thị theo cách này:
Không có thuộc tính nào có cùng tên.
Có nhiều thuộc tính có cùng tên và nhiều thuộc tính tại - cống nạp được chọn.
Có một thuộc tính duy nhất có cùng tên nhưng nó không được chọn.
Thuộc tính khóa ngoại là thuộc tính duy nhất được chọn.
Để giải quyết lỗi, lựa chọn thuộc tính hoặc tên thuộc tính phải được điều chỉnh cho đến khi có
thuộc tính được chọn duy nhất có cùng tên trong cả hai nguồn dữ liệu được nối.
So sánh hai hình trước, có thể thấy thuộc tính khóa ở nguồn dữ liệu thứ hai đã được đổi tên để
khớp với thuộc tính khóa ở nguồn dữ liệu thứ nhất.
Trong hộp thoại Chọn Thuộc tính , nhấp vào Kết thúc để hoàn tất quá trình nhập.
3.2 Xác định thuộc tính
Bước Xác định thuộc tính của quy trình làm việc Dữ liệu tiền xử lý cho phép xác định các thuộc
tính mới có giá trị được tính toán từ dữ liệu đã nhập, thứ tự của các thuộc tính cũng như thuộc
tính danh nghĩa (nghĩa là chuyển đổi thuộc tính văn bản thành thuộc tính nhị phân phù hợp cho
mô hình hóa). ). Ngoài ra, tổng quan thống kê ban đầu về dữ liệu đã chọn được cung cấp.
Bấm đúp vào bước Xác định thuộc tính màu vàng của quy trình làm việc Dữ liệu tiền xử lý để mở
hộp thoại Xác định thuộc tính mới .
46
3.2.1 Xác định thuộc tính mới
Cửa sổ Xác định thuộc tính mới xuất hiện, trong đó các thuộc tính mới được tính toán từ các thuộc tính được
nhập từ nguồn có thể được xác định và nơi các thuộc tính có thể được sắp xếp lại.
trình
việc
công
quy
Tái
lý
xử
P.
T.
3
Bảng liệt kê các bản ghi dữ liệu đã được nhập từ nguồn dữ liệu. Theo mặc định chỉ có 500 bản ghi dữ liệu đầu
tiên được liệt kê. Để xem 500 bản ghi tiếp theo, hãy nhấp vào nút Thêm .
Các thuộc tính mới có thể được chỉ định bằng ngôn ngữ công thức tích hợp hoặc thông qua tập lệnh được viết
bằng ngôn ngữ R.
Chỉ định công thức
Để xác định một thuộc tính được tính toán mới, hãy nhấp vào tiêu đề cột của thuộc tính nơi sẽ chèn thuộc
tính mới, sau đó nhấp vào nút Thêm để mở hộp thoại Thuộc tính được tính toán để chỉ định loại thuộc tính và
nhập công thức để tính toán thuộc tính ( xem hình bên dưới). Thuộc tính mới được xác định sẽ xuất hiện ở bên
phải cột được nhấp vào.
Để sửa đổi công thức được sử dụng để tính toán một thuộc tính, hãy chọn cột cho thuộc tính được tính toán
bằng cách nhấp vào tiêu đề cột và nhấp vào nút Chỉnh sửa để mở hộp thoại Thuộc tính được tính toán .
47
Nhập tên của thuộc tính vì nó sẽ xuất hiện trong danh sách thuộc tính. Tên phải là duy nhất đối với
nguồn dữ liệu: nó không thể giống với bất kỳ thuộc tính nguồn nào.
Chỉ định loại giá trị sẽ được tạo ra bởi tính toán:
Giá trị - kết quả của công thức phải là số; các giá trị không phải là số sẽ không tự động được
chuyển đổi thành số nhưng thay vào đó sẽ dẫn đến một giá trị bị thiếu.
Văn bản - kết quả của công thức phải là văn bản; các giá trị không phải văn bản sẽ không tự động
được chuyển đổi thành văn bản mà thay vào đó sẽ dẫn đến một giá trị bị thiếu (đối với các giá
trị văn bản, giá trị này khác với một chuỗi trống). Trong trường Độ dài văn bản , chỉ định số
lượng ký tự cần phân bổ cho thuộc tính trong kho dữ liệu. Kết quả công thức dài hơn độ dài quy
định sẽ bị cắt ngắn. Tùy chọn Tên tệp hoặc liên kết tài nguyên web cho phép Viscovery SOMine
diễn giải kết quả công thức dưới dạng tham chiếu đến tài liệu. Nếu tham chiếu đó là đường dẫn
tương đối thì tiền tố vị trí tùy chọn có thể được chỉ định. Để biết thêm chi tiết về tùy chọn
này, hãy xem 3.1.3 Chọn thuộc tính.
Nhập thông tin bổ sung tùy chọn về thuộc tính vào trường Mô tả . Mô tả này được bao gồm trong bất kỳ
mô hình nào được tính toán từ trung tâm dữ liệu.
Chỉ định Công thức cho thuộc tính mới như sau. Chọn các thuộc tính từ danh sách Biến , liệt kê tất cả các thuộc tính
trong nguồn dữ liệu cũng như các thuộc tính được tính toán (các thuộc tính này có tiền tố là ký hiệu @). Chọn các hàm
từ danh sách Hàm chứa tất cả các hàm có thể được sử dụng trong công thức. Xem A.4 Làm việc với Công thức để biết thêm
thông tin về công thức for-mul.
48
Khi nhấp vào OK, công thức sẽ được xác thực về tính chính xác về mặt cú pháp và được kiểm tra để
đảm bảo rằng tất cả các tên hàm và biến được tham chiếu đều được biết. Một cột mới xuất hiện
trong hộp thoại Xác định thuộc tính mới , hiển thị cột cho thuộc tính mới chứa giá trị được tính toán-
ue.
trình
việc
công
quy
Tái
lý
xử
P.
T.
3
Khi kết quả là một giá trị bị thiếu, ô tương ứng sẽ trống.
Nếu xảy ra lỗi tính toán, thông báo lỗi sẽ được hiển thị trong cột thuộc tính mới thay vì giá
trị được tính toán. Khi các giá trị tính toán được ghi vào kho dữ liệu, mọi lỗi trong tính toán
đều được coi là giá trị bị thiếu.
Để tạo bản sao của cột chứa các giá trị được tính toán, hãy nhấp vào tiêu đề cột để chọn và nhấp
vào nút Nhân bản . Thông thường, nút Chỉnh sửa được sử dụng sau đó để sửa đổi công thức của thuộc
tính được sao chép.
Để xóa cột chứa các giá trị được tính toán, hãy nhấp vào tiêu đề cột để chọn và nhấp vào nút Xóa .
Chỉ định tập lệnh R
R là ngôn ngữ kịch bản thường được các nhà khoa học dữ liệu sử dụng. Tùy chọn chỉ định tập lệnh R
để xử lý trước dữ liệu được cung cấp cho người dùng đã quen thuộc với R. Để biết tài nguyên học
tập về R, hãy xem www.r-project.org. Để sử dụng ngôn ngữ tập lệnh R trong Viscovery SOMine, R phải
được cài đặt trên máy tính và đường dẫn đến bộ xử lý R phải được chỉ định (xem Giao diện R trong
Tùy chọn 12.3).
Tập lệnh R có thể được sử dụng để tính toán các thuộc tính mới bằng cách xử lý các bản ghi dữ
liệu đã được nhập ở bước Nhập dữ liệu trước đó . Nhấp vào tập lệnh R để gọi di-alog Chỉnh sửa
tập lệnh R.
49
Viết tập lệnh R ở khu vực bên phải. Nếu đây là lần đầu tiên hộp thoại được nhập, một tập lệnh
mẫu sẽ được cung cấp chứa hướng dẫn cách tương tác với Viscovery SOMine.
Để giảm lượng dữ liệu được truyền vào R, hãy xóa dấu kiểm khỏi danh sách thuộc tính ở bên trái.
Nhấp vào Nhập… để đọc tập lệnh R từ một tệp. Văn bản trong vùng chỉnh sửa được thay thế bằng
nội dung của tệp đã chọn. Lưu ý rằng tập lệnh R trong hộp thoại không được cập nhật tự động khi
nội dung tệp được thay đổi thông qua trình chỉnh sửa bên ngoài. Tuy nhiên, thông báo bên dưới
vùng tập lệnh sẽ cho biết tệp nào đã được nhập và liệu có sự khác biệt giữa tập lệnh và tệp hay
không. Nhấp vào Xuất… để ghi tập lệnh R trong vùng chỉnh sửa vào tệp. Nếu tập lệnh bị thay đổi,
nó sẽ không được tự động xuất lại nhưng thông báo bên dưới khu vực tập lệnh giờ đây sẽ theo dõi
xem tập lệnh đã chỉnh sửa có giống với tệp đã xuất hay không. Trong cả hai trường hợp (nhập
hoặc xuất tập lệnh) Viscovery SOMine sẽ xử lý tập lệnh hiển thị trong vùng chỉnh sửa chứ không
phải tập lệnh trong tệp.
Tập lệnh R tương tác với Viscovery SOMine thông qua các khung dữ liệu R với các tên được xác định trước.
Dữ liệu đầu vào cho tập lệnh có sẵn trong biến vdm.in, là đối tượng của lớp data.frame. Chỉ các
thuộc tính trong nguồn dữ liệu mới có sẵn làm đầu vào cho tập lệnh R đã được chọn trong danh
sách ở bên trái; các thuộc tính được tạo bằng công thức không có sẵn.
Các cột trong vdm.in có thể được truy cập bằng cách sử dụng ký hiệu vdm.in$name, vdm.in$`name`
hoặc vdm.in["name"], trong đó tên là tên thuộc tính. Mặc dù có thể sử dụng một chỉ mục như
vdm.in[2] nhưng điều đó không được khuyến khích vì các chỉ mục phải được thay đổi khi lựa chọn
thuộc tính trong danh sách bên trái bị thay đổi.
Tập lệnh phải tạo ra một đối tượng thuộc lớp data.frame, đối tượng này được đặt trong biến
vdm.out. Thông thường, tập lệnh sẽ sử dụng hàm R data.frame để tạo kết quả.
Điều quan trọng nhất là thứ tự của các bản ghi được tìm thấy trong vdm.in không bị thay đổi khi
kết quả được tính toán để lưu trữ trong vdm.out, vì không có cơ chế nào có thể truyền lại thứ
tự đã cập nhật cho Viscovery SOMine. Đặc biệt, Viscovery SOMine không điều tra row.names(vdm.out).
Ngoài ra, số lượng bản ghi trong kết quả vdm.out phải giống hệt với số lượng bản ghi trong
vdm.in.
Tập lệnh cũng chịu trách nhiệm tạo tên cột, thường bằng cách gán danh sách tên cho tên (vdm.out)
(nhưng bất kỳ phương pháp nào khác đạt được hiệu quả tương tự đều được phép-
50

Viscovery SOMine 8.0 Manual Trang 1 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Viscovery SOMine 8.0 Manual Trang 1 1

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Viscovery® SOMine 8.0.

SPSS® là thương hiệu của International Business Machines Corporation.

khrplatform.h – © 2008-2018 The Khronos Group Inc.

Công ty phần mềm Viscovery

Các quy ước về tài liệu.................................................................. ............9

Lời nói đầu................................................................................. .................................................11

1. Thông tin chung............................................... ......................13

1.1 Các trường hợp sử dụng Viscovery® .................................................. ...................................13

1.2 Phương pháp Viscovery®. ................................................................. ...................................14

1.2.1 Bản đồ tự tổ chức.. ................................................................. ....................14

tiêu chuẩn.................................................. ......................18 1.2.4 Lập hồ

sơ........... ................................................................. ......................18 1.2.5

Dự đoán và ghi điểm........... ................................................................. ......19 1.3

quan.................................................................. ....22 1.3.3 Viscovery® SOMine – Phân cụm

và phân loại....................... ..........24 1.3.4 Viscovery® SOMine – Dự đoán và ghi

điểm........... ......................26 1.3.5 Viscovery® SOMine – Dữ liệu doanh

việc............ ......................28 1.3.7 Mô-đun cấp

phép............. ................................................................. ............29

2 Làm việc với Viscovery ® SOMine.................................................31

thiệu................................................................................................. ................................................................. ....31

3 Luồng công việc tiền xử lý dữ liệu.................................................. ..39

liệu.................................................................. ................................................................. ......39

3.1.1 Chọn nguồn dữ liệu.................................................. ....................39 3.1.2 Xác định

kiểu........... ................................................................. ......................42 3.1.3

Chọn thuộc tính........... ................................................................. ............43 3.2 Xác định

thuộc tính.................................. ................................................................. ............46 3.2.1 Xác định thuộc

3.3.2 Xóa bản ghi.................................................................. ......................59 3.3.3 Xác định

các thay thế...... ................................................................. ......................63 3.3.4 Xác định

3.5.3 Nhập tiền xử lý Giao thức................................................................. .......71 3.5.4 Ảnh hưởng

đến các bước trong quy trình làm việc........... .................................73

4 Quy trình khám phá dữ liệu.................................................. ............77

4.1 Chọn Data Mart................................................................. ...................................77 4.2 Ưu tiên

Thuộc tính................................................. ......................77 4.3 Tạo bản

đồ.... ................................................................. .................................................................

81 4.4 Khám phá bản đồ................................................................. ................................................................. ......83

5 Quy trình tạo bộ phân loại.................................................. ..87

5.1 Chọn Data Mart................................................................. ......................................87 5.1. 1

Chọn Data Mart................................................................................. ....................87 5.1.2

Chọn Giá trị Mục tiêu........... ................................................................. ..........87 5.1.3 Xác

định phân vùng dữ liệu........................... ......................88 5.2 Mô hình tính

toán............ ................................................................. ......................90 5.2.1 Ưu tiên các thuộc

tạo bản đồ........... ......................90 5.3 Tối ưu hóa mô

hình........... ................................................................. ......................92 5.3.1 Xác định chiến lược

loại....................... ......................93 5.4 Xác thực mô

mất............ ................................................................. ......................94 5.4.2 Lỗi phân

6 Quy trình áp dụng trình phân loại.................................................. ...97

6.1 Chọn Data Mart................................................................. ......................................97 6.2 Áp

dụng Người mẫu................................................. .................................................................

xuất khẩu ................................................................. ......................106 6.4.1 Ghi vào một tập

liệu.......... ................................................................. ............108

7 Quy trình tạo dự đoán.................................................. 111

7.1 Chọn Data Mart................................................................. ...................................111 7.1.1 Lựa

7.1.2 Chọn Giá trị Mục tiêu............. ................................................................. ......112 7.1.3

Xác định phân vùng dữ liệu.................................. ......................112

tính mô hình.... ................................................................. ............114 7.2.2 Xác định

cầu............ ................................................................. ..116 7.3 Tính toán mô hình cục

bộ.................................. ...................................122 7.3.1 Xác định chiến lược tối ưu

hóa. ................................................................. ............123 7.3.2 Xác định các thông số

7.3 .6 Cửa sổ bản đồ................................................................. ....................135 7.3.7

Cửa sổ bản đồ hệ số... ................................................................. ......135 7.4 Xác thực mô

hình................................. ................................................................. ............136

Biểu đồ lợi nhuận........... ................................................................. ......139 7.4.3 Lỗi