You are on page 1of 22

NHÓM

RAPIDKHAI PHÁ DỮ LIỆU


Miner THUẬT
20

TOÁN
KMEANs
GV HƯỚNG DẪN: NGUYỄN THỊ PHƯƠNG BẮC
NHÓM KHAI PHÁ DỮ LIỆU
20

THÀNH VIÊN TRONG NHÓM


1. Nguyễn Tiến Đạt
2. Đỗ Thị Hương
3. Nguyễn Thị Thanh Thanh Nhàn
4. Bùi Thị Phương Thảo
NHÓM KHAI PHÁ DỮ LIỆU
20
NỘI DUNG
GIỚI THIỆU VỀ TIỂN XỬ LÝ
01 RAPIDMINER 02 DỮ LIỆU

THUẬT TOÁN DEMO TRÊN TẬP


03 KMEANS 04 DỮ LIỆU THỰC TẾ
NHÓM KHAI PHÁ DỮ LIỆU
20

1.GIỚI THIỆU VỀ RAPIDMINER


NHÓM KHAI PHÁ DỮ LIỆU
20
1.GIỚI THIỆU VỀ RAPIDMINER

1.1.Giới thiệu chung

- RapidMiner là phần mềm mã


nguồn mở được viết trên nền
tảng Java, cung cấp môi trường
cho học máy, khai phá dữ liệu,
khai phá dữ liệu văn bản, phân
tích kinh doanh,…
NHÓM KHAI PHÁ DỮ LIỆU
20

1.2.Giao diện
RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20
NHÓM KHAI PHÁ DỮ LIỆU
20
NHÓM KHAI PHÁ DỮ LIỆU
20

1.2.Đặc điểm chính RapidMiner


- Phân tích khám phá các mối quan
hệ dữ liệu
- Tải và chuyển đổi dữ liệu nhiều mô
hình (Extract, Transform,
Load (ETL)). ​
NHÓM KHAI PHÁ DỮ LIỆU
20

1.2.Đặc điểm chính(tiếp)


- Xử lý dữ liệu và trực quan dữ liệu.​
- Xây dựng các mô hình dự báo và
phân tích thống kê.
- Đánh giá và triển khai dữ liệu.​
NHÓM KHAI PHÁ DỮ LIỆU
20
2.TIỀN XỬ LÝ DỮ LIỆU
- Trong qui trình khai phá dữ liệu, công việc xử lý dữ
liệu trước khi đưa vào các mô hình là rất cần thiết,
bước này làm cho dữ liệu có được ban đầu qua thu
thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp
dụng được (thích hợp) với các mô hình khai phá dữ
liệu (data mining model) cụ thể.
NHÓM KHAI PHÁ DỮ LIỆU
20

CÁC CÔNG VIỆC CỤ THỂ TRONG TIỀN


XỬ LÝ DỮ LIỆU

Làm sạch dữ liệu


0 0 Tích hợp dữ liệu
1 2

Rời rạc hóa dữ liệu


0 0 Thu gọn, làm giảm
4 3 dữ liệu
NHÓM KHAI PHÁ DỮ LIỆU
20

Hình ảnh minh họa quá trình tiền xử lý dữ liệu của RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

Hình ảnh minh họa quá trình tiền xử lý dữ liệu của RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

Hình ảnh minh họa quá trình tiền xử lý dữ liệu của RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

Hình ảnh minh họa quá trình tiền xử lý dữ liệu của RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

Hình ảnh minh họa quá trình tiền xử lý dữ liệu của RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

THUẬT TOÁN
03 KMEANS
Phân cụm dữ liệu với RapidMiner
NHÓM KHAI PHÁ DỮ LIỆU
20

1. Import data vào RapidMiner​
2. Dùng Gerenate Attributer để tiến hành tiền xử lý
dữ liệu trên một số thuộc tính (giá thành, số lượng)
3. Dùng Numerical to polynomoinal để chuyển đổi
dữ liệu
4. Dùng Select attributer để lọc bớt data​
5. Dùng thuật toán K - means để phân cụm dữ liệu
NHÓM KHAI PHÁ DỮ LIỆU
20

04 DEMO TRÊN TẬP


DỮ LIỆU THỰC TẾ
NHÓM KHAI PHÁ DỮ LIỆU
20

THANKS FOR
LISTENING !
Do you have any questions?

You might also like