You are on page 1of 5

Họ và Tên : Đặng Đình Duy

Lớp : PM25.11

BÀI TẬP VÀ THỰC HÀNH HỌC PHẦN DATA MINING


(BUỔI 1)
Câu hỏi và Bài tập
Phần tự học
1. Kỹ thuật khai phá dữ liệu là gì?
Kỹ thuật khai phá dữ liệu là một quy trình phức tạp và đa dạng, tập trung
vào việc tìm kiếm thông tin hữu ích, mô hình hoặc tri thức tiềm ẩn từ các tập
dữ liệu lớn và phức tạp. Điều này thường liên quan đến việc áp dụng các
phương pháp và kỹ thuật phân tích dữ liệu để tìm ra các mẫu, quy luật hoặc
mối tương quan mà người ta chưa biết đến. Kỹ thuật khai phá dữ liệu thường
điều tra dữ liệu từ nhiều góc độ khác nhau và cung cấp cái nhìn mới về cách
dữ liệu được tổ chức và tương tác.
2. Nhiệm vụ chính của quá trình khai phá dữ liệu?
Nhiệm vụ chính của quá trình khai phá dữ liệu là:
 Phát hiện thông tin ẩn: Kỹ thuật khai phá dữ liệu tập trung vào việc
tìm ra thông tin tiềm ẩn, mà thường không thể dễ dàng nhận biết từ dữ
liệu ban đầu. Điều này có thể bao gồm việc khám phá các mẫu tương
quan phức tạp hoặc khám phá tri thức mới từ dữ liệu.
 Mô hình hóa dữ liệu: Khi đã khai phá dữ liệu, mục tiêu có thể là xây
dựng các mô hình dự đoán hoặc phân loại dựa trên dữ liệu đã được
tiền xử lý. Điều này có thể giúp trong việc dự đoán các sự kiện tương
lai hoặc phân loại dữ liệu mới.
 Phát hiện tương quan: Một nhiệm vụ quan trọng trong khai phá dữ
liệu là tìm ra các mối tương quan hoặc liên hệ giữa các thuộc tính
trong tập dữ liệu. Điều này có thể giúp hiểu rõ hơn về cách các yếu tố
tác động lẫn nhau và có thể dẫn đến việc tìm ra các thông tin quan
trọng.
3. Trình bày các nét khác nhau cơ bản giữa kỹ thuật khai phá dữ liệu với các
phương pháp như máy học, thống kê?
Sự khác nhau cơ bản giữa kỹ thuật khai phá dữ liệu, máy học và thống
kê:
Họ và Tên : Đặng Đình Duy

Lớp : PM25.11

 Khai phá dữ liệu: Điểm chính là tìm kiếm thông tin mới, không biết
trước từ dữ liệu. Khai phá dữ liệu thường không đòi hỏi kiến thức sâu
về dữ liệu và có thể dẫn đến việc tạo ra các giả thuyết mới cho việc
nghiên cứu.
 Máy học: Tập trung vào việc xây dựng các mô hình dự đoán dựa trên
dữ liệu đã có. Điều này yêu cầu một tập dữ liệu lớn để huấn luyện mô
hình và thường đòi hỏi kiến thức trước về dữ liệu để chọn và tinh
chỉnh mô hình.
 Thống kê: Tập trung vào việc phân tích dữ liệu thông qua việc áp
dụng các phương pháp thống kê. Thống kê thường được sử dụng để
xác định tính chất của dữ liệu, kiểm tra giả thuyết và đưa ra nhận định
dựa trên các mẫu dữ liệu nhất định.
4. Các bước của quá trình khai phá dữ liệu?
Các bước của quá trình khai phá dữ liệu thường bao gồm:

 Xác định mục tiêu khai phá: Xác định rõ mục tiêu cụ thể của việc
khai phá dữ liệu là gì. Điều này giúp tập trung vào việc thu thập và xử
lý dữ liệu thích hợp.
 Thu thập dữ liệu: Quá trình này bao gồm việc thu thập dữ liệu từ các
nguồn khác nhau, có thể là cơ sở dữ liệu, tệp tin văn bản, hay cả dữ
liệu từ cảm biến.
 Tiền xử lý dữ liệu: Dữ liệu thường không hoàn hảo và có thể chứa lỗi
hoặc nhiễu. Bước tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, xử lý
giá trị thiếu, chuẩn hóa dữ liệu và biến đổi dữ liệu để chuẩn bị cho các
bước khai phá tiếp theo.
 Áp dụng các kỹ thuật khai phá dữ liệu: Bước này thực hiện việc sử
dụng các kỹ thuật khai phá dữ liệu như gom nhóm (clustering), phân
loại (classification), phát hiện tương quan (association), phân tích
dạng chuỗi thời gian (time series analysis),...
 Hiển thị và đánh giá kết quả: Sau khi áp dụng các kỹ thuật, kết quả
thường được trình bày dưới dạng biểu đồ, mô hình, hoặc thông tin hữu
Họ và Tên : Đặng Đình Duy

Lớp : PM25.11

ích cho người dùng. Đánh giá tính hợp lý và đáng tin cậy của kết quả
là một phần quan trọng để đảm bảo rằng thông tin được rút ra là có
giá trị.
5. Hãy cho ví dụ ứng dụng kỹ thuật khai phá dữ liệu trong thực tế?
Ví dụ ứng dụng khai phá dữ liệu trong thực tế: Một ví dụ cụ thể là trong
lĩnh vực bán lẻ. Hãy tưởng tượng bạn là chủ cửa hàng và bạn có dữ liệu về
lịch sử giao dịch của khách hàng, bao gồm các mặt hàng họ đã mua và thời
gian mua hàng. Bằng cách sử dụng kỹ thuật khai phá dữ liệu, bạn có thể phát
hiện ra các mẫu mua hàng, ví dụ như liệu có các mặt hàng thường được mua
cùng nhau không? Hay có mối tương quan nào giữa thời gian mua hàng và
loại sản phẩm được chọn không? Những thông tin này có thể giúp bạn tối ưu
hóa việc tổ chức cửa hàng và quản lý hàng tồn kho.
6. Trình bày các thách thức trong khai phá dữ liệu
Thách thức trong khai phá dữ liệu:

 Dữ liệu thiếu và nhiễu: Dữ liệu thường không hoàn hảo, có thể bị


thiếu thông tin hoặc chứa nhiễu gây ảnh hưởng đến kết quả.
 Quá nhiều dữ liệu: Xử lý các tập dữ liệu lớn có thể đòi hỏi tài nguyên
tính toán và thời gian đáng kể.
 Không chắc chắn và không rõ ràng: Trong quá trình khai phá, không
phải lúc nào các kết quả cũng rõ ràng và chắc chắn. Điều này có thể
đòi hỏi sự kiên nhẫn và khả năng hiểu biết sâu về dữ liệu.
 Vấn đề quyền riêng tư và bảo mật: Sử dụng dữ liệu cá nhân có thể
đặt ra vấn đề về quyền riêng tư và cần phải tuân thủ các quy định liên
quan đến bảo mật thông tin.

Phần Làm trên lớp


Thực hành:
Họ và Tên : Đặng Đình Duy

Lớp : PM25.11

1. Hãy tìm kiếm các ứng dụng của Data mining trên mạng Internet
2. Tìm hiểu các độ đo và dạng chuẩn hóa được sử dụng trong phần mềm khai phá
dữ liệu của Weka tại địa chỉ:
http://www.cs.waikato.ac.nz/ml/weka/
http://www.cs.waikato.ac.nz/ml/weka/downloading.html

Mô tả ứng dụng Data Mining đã được công bố theo từng bước DM: Dự đoán thị
trường chứng khoán

Ứng dụng: Dự đoán biến động giá cổ phiếu trong thị trường chứng khoán.

Bước 1: Xác định mục tiêu khai phá

Mục tiêu là dự đoán biến động giá cổ phiếu trong tương lai dựa trên lịch sử giao dịch và
các chỉ số thị trường.

Bước 2: Thu thập và chuẩn bị dữ liệu

Thu thập dữ liệu lịch sử giá cổ phiếu, chỉ số thị trường như chỉ số Dow Jones, thông tin
tài chính công ty và các yếu tố kinh tế. Chuẩn bị dữ liệu bằng cách loại bỏ dữ liệu thiếu,
xử lý nhiễu, và tạo các biến đặc trưng mới như biến đổi giá cổ phiếu.

Bước 3: Tiền xử lý dữ liệu

Thực hiện tiền xử lý dữ liệu bằng cách chuẩn hóa dữ liệu số, chuyển đổi dữ liệu rời rạc
thành dạng số, và tách tập dữ liệu thành tập huấn luyện và tập kiểm tra.

Bước 4: Áp dụng các kỹ thuật khai phá dữ liệu

Sử dụng các thuật toán dự đoán như hồi quy tuyến tính, cây quyết định, và mạng nơ-ron
để xây dựng mô hình dự đoán biến động giá cổ phiếu. Sử dụng kỹ thuật gom nhóm để
phát hiện các nhóm cổ phiếu có biểu đồ giá tương tự.

Bước 5: Hiển thị và đánh giá kết quả

Hiển thị kết quả dự đoán trên biểu đồ giá cổ phiếu thực tế và so sánh với dữ liệu thực tế.
Sử dụng các độ đo như RMSE (Root Mean Square Error) để đánh giá độ chính xác của
mô hình.

Mô tả yêu cầu ứng dụng WEKA:


Họ và Tên : Đặng Đình Duy

Lớp : PM25.11

Weka là một phần mềm mã nguồn mở cho khai phá dữ liệu và học máy. Để thực hiện
ứng dụng trên Weka, bạn cần:

I. Nhập dữ liệu: Weka hỗ trợ nhiều định dạng dữ liệu như ARFF, CSV, v.v. Bạn cần
nhập dữ liệu lịch sử giao dịch cổ phiếu và các chỉ số thị trường vào Weka.

II. Tiền xử lý dữ liệu: Weka cung cấp các bộ lọc cho tiền xử lý dữ liệu, ví dụ như bộ
lọc chuẩn hóa, lựa chọn thuộc tính, loại bỏ nhiễu. Bạn cần sử dụng các bộ lọc này
để chuẩn bị dữ liệu cho việc xây dựng mô hình.

III. Áp dụng các thuật toán khai phá dữ liệu: Weka cung cấp nhiều thuật toán khai phá
dữ liệu như hồi quy, phân loại, gom nhóm. Bạn cần áp dụng các thuật toán này để
xây dựng mô hình dự đoán biến động giá cổ phiếu.

IV. Hiển thị và đánh giá kết quả: Weka cung cấp các công cụ để hiển thị kết quả dự
đoán và đánh giá hiệu suất mô hình. Bạn có thể so sánh dự đoán với dữ liệu thực
tế và sử dụng các độ đo như RMSE để đánh giá mô hình.

You might also like