BTVN 5

Uploaded by

Lê Thị Diệu Linh

0% found this document useful (0 votes)

2 views4 pages

AAAAAAAAAAAAAAAA

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

AAAAAAAAAAAAAAAA

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views4 pages

BTVN 5

Uploaded by

Lê Thị Diệu Linh

AAAAAAAAAAAAAAAA

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 4

Search inside document

BTVN 5: PHÂN CỤM DỮ LIỆU

Họ tên: Lê Thị Diệu Linh

MSSV: 31221025135
Lab 1-Phân cụm dữ liệu (Clustering)
1. File dữ liệu từ file Supermarket_Data.xlxs và chọn một cột target phù hợp
Bước 1: Trong Orange, chọn File rồi add file Supermarket_Data.xlxs. Sau đó, chọn Outlet-Type
là biến target.

Bước 2: Xử lí dữ liệu
 Ta thấy một số dữ liệu trong bảng bị thiếu, cần bổ sung. Từ File, kéo thả chọn Preprocess
=> chọn Impute Missing Values => Chọn Average/Most frequent

 Ta nhận ra số lượng dữ liệu quá lớn, ta cần giảm bớt số

lượng dữ liệu. Từ Preprocess, kéo thả chọn Data
Sampler. Ở mục Sampling Sampler, trong Fixed
proportion of data, chọn 55% => nhấn Sample Data, ta
được dữ liệu mới với 4688 biến.
2. Sử dụng phương pháp Hierarchical clustering và k-Means phân cụm dữ liệu
a. Chụp màn hình xây dựng mô hình

b. Theo kết quả của Hierachical Clustering nên chọn phân cụm như thế nào, giải thích và
chụp hình minh chứng kết quả bên dưới.
Các bước phân cụm bằng Hierarchical Clustering
Bước 1: Để tính khoảng cách
Từ Data Sampler, kéo thả chọn Distances. Trong Distance Metric, chọn Euclidean.
Bước 2: Để phân cụm dựa trên phân cấp
Từ Distances, kéo thả chọn Hierarchical, xuất hiện hộp thoại Hierachical Clustering
Trong Linkage chọn Complete; trong top N chọn 2 để phân thành 2 cụm
Bước 3: Để đánh giá chỉ số phân cụm cho phương pháp Hierarchical
Từ lệnh Hierarchical Clustering, kéo thả chọn Silhoutte Plot, xuất hiện hộp thoại Silhoutte Plot
Trong mục Distance, chọn Euclidean; trong mục Grouping, chọn Cluster
Kết quả:
Nhận xét: Kết quả cho thấy chỉ số Silhouette Plot lớn nhất có giá trị xấp xỉ 0,819 (tiến tới gần 1)
nên ta thấy việc chia dữ liệu thành 2 cụm là khá hợp lí. Tuy nhiên, nhiều biến vẫn cho chỉ số
Silhouetee Plot âm nên phương pháp phân cụm Hierarchical Clustering chưa thật sự là phương
pháp phù hợp.
c. Theo kết quả của k-Means nên choni phân cụm như thế nào, giải thích và chụp hình
minh chứng kết quả bên dưới
Các bước phân cụm bằng k-Means
Bước 1: Xác định độ dừng của các cụm dữ liệu
Từ lệnh Data Sampler, kéo thả chọn Interactive k-Means, bấm Run Simulation để tự động điều
chỉnh các cụm
Bước 2: Phân cụm dựa trên phân hoạch
Từ Data Sampler, kéo thả chọn k-Means => xuất hiện hộp thoại k-Means
Chọn From 2 to 10 => chỉ số Silhouette Scores tốt nhất ở kết quả 2 cụm (0,149)

Bước 3: Đánh giá chỉ số phân cụm của k-Means

Từ k-Means, kéo thả chọn Silhouette Plot => xuất hiện hộp thoại Silhouette Plot
Trong mục Distance chọn Euclidean; trong mục Grouping chọn Cluster
Bước 4: Kéo thả chọn Data Table để xem kết quả
Kết quả:
Nhận xét: Ta thấy chỉ số Silhouette Plot trong hai cụm có giá trị tiến tới gần 1 (0,579 và 0,578)
nên ta nhận thấy việc chia dữ liệu thành 2 cụm là phù hợp. Bên cạnh đó, ta thấy tất cả chỉ số
Silhouette đều dương => phương pháp phân cụm k-Means là phương pháp phân cụm tốt cho bộ
dữ liệu.
 Kết luận: Ta nên chọn phương pháp phân cụm bằng k-Means để phân cụm cho dữ liệu
Supermarket_Data.

Báo cáo môn khai phá dữ liệu
Document9 pages
Báo cáo môn khai phá dữ liệu
Tiến Cù Huy
No ratings yet
Gom Nhom
Document47 pages
Gom Nhom
Nguyễn Hoàng Khả Di
No ratings yet
BTVN2
Document6 pages
BTVN2
THUY TIEN TINA
No ratings yet
S2 - Lê Ngọc Mai
Document6 pages
S2 - Lê Ngọc Mai
Le Mai
No ratings yet
4 - Gom Nhom Du Lieu
Document47 pages
4 - Gom Nhom Du Lieu
Vũ Chiến
No ratings yet
4 - Gom Nhom Du Lieu
Document47 pages
4 - Gom Nhom Du Lieu
QUỲNH HUỲNH TRẦN TRÚC
No ratings yet
5 - Gom Nhom Du Lieu-T
Document47 pages
5 - Gom Nhom Du Lieu-T
Tieu Trung
No ratings yet
Phân cụm dữ liệu
Document2 pages
Phân cụm dữ liệu
Ha Ngo
No ratings yet
Bài Tiểu Luận Nhóm
Document23 pages
Bài Tiểu Luận Nhóm
Thanh Ngân Phạm Lê
No ratings yet
Bài tập về nhà chương 5 - ST7
Document8 pages
Bài tập về nhà chương 5 - ST7
Nguyên Mai
No ratings yet
D Án KHDL Chương 2
Document16 pages
D Án KHDL Chương 2
Ngọc Ngô Minh
No ratings yet
KHDL
Document19 pages
KHDL
hungnguyen.31211024151
No ratings yet
KTra
Document1 page
KTra
VY HỒ THỊ YẾN
No ratings yet
Nguyen Duc Huy Nhap Mon Hoc May
Document15 pages
Nguyen Duc Huy Nhap Mon Hoc May
Phạm Hải Nam
No ratings yet
2.4 - 2.6 Udth
Document13 pages
2.4 - 2.6 Udth
Võ Thị Tuyết Ngân
No ratings yet
Bài tập về nhà - Phân cụm dữ liệu
Document6 pages
Bài tập về nhà - Phân cụm dữ liệu
Bùi Phương Uyên
No ratings yet
2.2.1 Tiền xử lý dữ liệu: 2.2 Tổng hợp các phương pháp sử dụng
Document13 pages
2.2.1 Tiền xử lý dữ liệu: 2.2 Tổng hợp các phương pháp sử dụng
Anh Nguyễn Quỳnh
No ratings yet
S2 PhamKhanhChi
Document9 pages
S2 PhamKhanhChi
fromaghere
No ratings yet
5 - Gom Nhom Du Lieu-T
Document48 pages
5 - Gom Nhom Du Lieu-T
Tram Anhh
No ratings yet
Iv. Kết Quả Mô Hình: Preprocess -> impute mising Values -> Remove rows with missing values
Document8 pages
Iv. Kết Quả Mô Hình: Preprocess -> impute mising Values -> Remove rows with missing values
Trang Thu
No ratings yet
Khai phá dữ liệu
Document44 pages
Khai phá dữ liệu
cute panda channel
No ratings yet
KTra 1
Document1 page
KTra 1
AN DOAN BAO
No ratings yet
Đồ Án Khoa Học Dữ Liệu
Document16 pages
Đồ Án Khoa Học Dữ Liệu
ĐẠT HÀ QUANG
No ratings yet
5 - Gom Nhom Du Lieu-T
Document48 pages
5 - Gom Nhom Du Lieu-T
Huyền Phạm
No ratings yet
Bao Cao
Document11 pages
Bao Cao
Nguyễn Trung Hải
No ratings yet
Báo Cáo K Means Cluster
Document7 pages
Báo Cáo K Means Cluster
HUY NGUYEN QUANG
No ratings yet
Báo Cáo BTL Môn Python
Document19 pages
Báo Cáo BTL Môn Python
Như Đức
No ratings yet
Tai Lieu NCKH NC - KHOA NANG CAO
Document48 pages
Tai Lieu NCKH NC - KHOA NANG CAO
Dương Nguyễn
No ratings yet
BTL BA cuối-kỳ
Document22 pages
BTL BA cuối-kỳ
Nguyễn Đức Thắng
No ratings yet
BÀI TẬP 4
Document6 pages
BÀI TẬP 4
HẠNH CAO THỊ MỸ
No ratings yet
BTL XSTK NG Kieu Dung DT03 Group2
Document42 pages
BTL XSTK NG Kieu Dung DT03 Group2
Thiện Hà
No ratings yet
MLP303x Classification
Document9 pages
MLP303x Classification
đức ngọc trần
No ratings yet
BaiMau DuLieuThuCap
Document20 pages
BaiMau DuLieuThuCap
BÌNH NGUYỄN NGỌC XUÂN
No ratings yet
KHOA HỌC DỮ LIỆU
Document5 pages
KHOA HỌC DỮ LIỆU
Anh Khôi Nguyễn
No ratings yet
Phân tích Kho dữ liệu
Document15 pages
Phân tích Kho dữ liệu
Trịnh Phạm
No ratings yet
Nhóm-4 BTL AI 212IS42A19
Document36 pages
Nhóm-4 BTL AI 212IS42A19
linhtrieu1702
100% (1)
Chương Iii
Document12 pages
Chương Iii
Bảo Trân Nguyễn
No ratings yet
ĐỀ TÀI: Thuật toán K-mean và ứng dụng vào bài toán phân lớp đối tượng khách hàng trong kinh doanh
Document19 pages
ĐỀ TÀI: Thuật toán K-mean và ứng dụng vào bài toán phân lớp đối tượng khách hàng trong kinh doanh
phamchauanh125
No ratings yet
UCC&CCC
Document15 pages
UCC&CCC
Mai Hương Nguyễn
No ratings yet
Mau Do An
Document10 pages
Mau Do An
Nguyễn Yến Nhi Lê
No ratings yet
Doc-Data New Final
Document21 pages
Doc-Data New Final
Việt Anh
No ratings yet
ĐỀ CƯƠNG ÔN TẬP TIN HỌC 7 CÔ TUYẾT
Document6 pages
ĐỀ CƯƠNG ÔN TẬP TIN HỌC 7 CÔ TUYẾT
minhthuy2056
No ratings yet
Bài 5 Xu Ly Ket Qua Thi Nghiem
Document13 pages
Bài 5 Xu Ly Ket Qua Thi Nghiem
samlai2k3
No ratings yet
Machine Learning
Document29 pages
Machine Learning
Nguyễn Hoàng
No ratings yet
Chapter - 2 - Data - Preprocessing Exercise
Document17 pages
Chapter - 2 - Data - Preprocessing Exercise
Van Anh
No ratings yet
BAO CAO BTL XSTK đã chỉnh
Document42 pages
BAO CAO BTL XSTK đã chỉnh
Dương Đàm
No ratings yet
Machine Learning - Các PP Đánh Giá Classifier
Document13 pages
Machine Learning - Các PP Đánh Giá Classifier
Haodtt
No ratings yet
Project1 Nguyen Huy Hoan
Document12 pages
Project1 Nguyen Huy Hoan
Huy Hoàn
No ratings yet
1. Tiền xử lý dữ liệu
Document20 pages
1. Tiền xử lý dữ liệu
Nguyễn Thảo Ly
No ratings yet
Báo Cáo K - Means Phan H NG Doanh
Document10 pages
Báo Cáo K - Means Phan H NG Doanh
Doanh Phan
No ratings yet
Bai 2 Q7 Updated
Document41 pages
Bai 2 Q7 Updated
Tiến Nguyễn Trọng
No ratings yet
TT KHDL 1
Document5 pages
TT KHDL 1
nhuquynhnguyen27072004
No ratings yet
Ly Thuyet - QUERY
Document9 pages
Ly Thuyet - QUERY
Nam Phương
No ratings yet
BT Hóa Lư NG T
Document9 pages
BT Hóa Lư NG T
Hang Do Thi Minh
No ratings yet
DS
Document3 pages
DS
hanh nguyen
No ratings yet
Khdl Phần Lý Thuyết
Document21 pages
Khdl Phần Lý Thuyết
tinhle.31221023009
No ratings yet
ChuyenDe FINAL Ne
Document61 pages
ChuyenDe FINAL Ne
Đào Hồng
No ratings yet
Phanlop - Nguyễn Phúc Tín
Document5 pages
Phanlop - Nguyễn Phúc Tín
tinnguyen1447
No ratings yet
Tiền xử lý dữ liệu (Horse Colic dataset)
Document10 pages
Tiền xử lý dữ liệu (Horse Colic dataset)
Cu Bin
No ratings yet
Thống Kê Trong Công Nghiệp
From Everand
Thống Kê Trong Công Nghiệp
Phong Nguyễn Như
Rating: 5 out of 5 stars
5/5 (1)
Homework
Document2 pages
Homework
Lê Thị Diệu Linh
No ratings yet
Book Lịch Tuần Sau
Document2 pages
Book Lịch Tuần Sau
Lê Thị Diệu Linh
No ratings yet
Bài Tập Nhóm Số 1 - Nhóm 1
Document4 pages
Bài Tập Nhóm Số 1 - Nhóm 1
Lê Thị Diệu Linh
No ratings yet
Nhật ký mentoring
Document5 pages
Nhật ký mentoring
Lê Thị Diệu Linh
No ratings yet
Bài Thu Ho CHH
Document18 pages
Bài Thu Ho CHH
Lê Thị Diệu Linh
100% (1)
Chương 1
Document4 pages
Chương 1
Lê Thị Diệu Linh
No ratings yet
Tình huống tcdn
Document25 pages
Tình huống tcdn
Lê Thị Diệu Linh
No ratings yet
Recap Bu I 5
Document2 pages
Recap Bu I 5
Lê Thị Diệu Linh
No ratings yet
Bài tập nhóm Trắc nghiệm Chương V - Nhóm 1
Document14 pages
Bài tập nhóm Trắc nghiệm Chương V - Nhóm 1
Lê Thị Diệu Linh
No ratings yet
Chapter 1 Tổng quan về thuế và quyền đánh thuế
Document33 pages
Chapter 1 Tổng quan về thuế và quyền đánh thuế
Lê Thị Diệu Linh
No ratings yet
Chương Trình Khung TMDT 2023
Document4 pages
Chương Trình Khung TMDT 2023
Lê Thị Diệu Linh
No ratings yet