Professional Documents
Culture Documents
Lớp : PM25.11
Lớp : PM25.11
Khai phá dữ liệu: Điểm chính là tìm kiếm thông tin mới, không biết
trước từ dữ liệu. Khai phá dữ liệu thường không đòi hỏi kiến thức sâu
về dữ liệu và có thể dẫn đến việc tạo ra các giả thuyết mới cho việc
nghiên cứu.
Máy học: Tập trung vào việc xây dựng các mô hình dự đoán dựa trên
dữ liệu đã có. Điều này yêu cầu một tập dữ liệu lớn để huấn luyện mô
hình và thường đòi hỏi kiến thức trước về dữ liệu để chọn và tinh
chỉnh mô hình.
Thống kê: Tập trung vào việc phân tích dữ liệu thông qua việc áp
dụng các phương pháp thống kê. Thống kê thường được sử dụng để
xác định tính chất của dữ liệu, kiểm tra giả thuyết và đưa ra nhận định
dựa trên các mẫu dữ liệu nhất định.
4. Các bước của quá trình khai phá dữ liệu?
Các bước của quá trình khai phá dữ liệu thường bao gồm:
Xác định mục tiêu khai phá: Xác định rõ mục tiêu cụ thể của việc
khai phá dữ liệu là gì. Điều này giúp tập trung vào việc thu thập và xử
lý dữ liệu thích hợp.
Thu thập dữ liệu: Quá trình này bao gồm việc thu thập dữ liệu từ các
nguồn khác nhau, có thể là cơ sở dữ liệu, tệp tin văn bản, hay cả dữ
liệu từ cảm biến.
Tiền xử lý dữ liệu: Dữ liệu thường không hoàn hảo và có thể chứa lỗi
hoặc nhiễu. Bước tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, xử lý
giá trị thiếu, chuẩn hóa dữ liệu và biến đổi dữ liệu để chuẩn bị cho các
bước khai phá tiếp theo.
Áp dụng các kỹ thuật khai phá dữ liệu: Bước này thực hiện việc sử
dụng các kỹ thuật khai phá dữ liệu như gom nhóm (clustering), phân
loại (classification), phát hiện tương quan (association), phân tích
dạng chuỗi thời gian (time series analysis),...
Hiển thị và đánh giá kết quả: Sau khi áp dụng các kỹ thuật, kết quả
thường được trình bày dưới dạng biểu đồ, mô hình, hoặc thông tin hữu
Họ và Tên : Đặng Đình Duy
Lớp : PM25.11
ích cho người dùng. Đánh giá tính hợp lý và đáng tin cậy của kết quả
là một phần quan trọng để đảm bảo rằng thông tin được rút ra là có
giá trị.
5. Hãy cho ví dụ ứng dụng kỹ thuật khai phá dữ liệu trong thực tế?
Ví dụ ứng dụng khai phá dữ liệu trong thực tế: Một ví dụ cụ thể là trong
lĩnh vực bán lẻ. Hãy tưởng tượng bạn là chủ cửa hàng và bạn có dữ liệu về
lịch sử giao dịch của khách hàng, bao gồm các mặt hàng họ đã mua và thời
gian mua hàng. Bằng cách sử dụng kỹ thuật khai phá dữ liệu, bạn có thể phát
hiện ra các mẫu mua hàng, ví dụ như liệu có các mặt hàng thường được mua
cùng nhau không? Hay có mối tương quan nào giữa thời gian mua hàng và
loại sản phẩm được chọn không? Những thông tin này có thể giúp bạn tối ưu
hóa việc tổ chức cửa hàng và quản lý hàng tồn kho.
6. Trình bày các thách thức trong khai phá dữ liệu
Thách thức trong khai phá dữ liệu:
Lớp : PM25.11
1. Hãy tìm kiếm các ứng dụng của Data mining trên mạng Internet
2. Tìm hiểu các độ đo và dạng chuẩn hóa được sử dụng trong phần mềm khai phá
dữ liệu của Weka tại địa chỉ:
http://www.cs.waikato.ac.nz/ml/weka/
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
Mô tả ứng dụng Data Mining đã được công bố theo từng bước DM: Dự đoán thị
trường chứng khoán
Ứng dụng: Dự đoán biến động giá cổ phiếu trong thị trường chứng khoán.
Mục tiêu là dự đoán biến động giá cổ phiếu trong tương lai dựa trên lịch sử giao dịch và
các chỉ số thị trường.
Thu thập dữ liệu lịch sử giá cổ phiếu, chỉ số thị trường như chỉ số Dow Jones, thông tin
tài chính công ty và các yếu tố kinh tế. Chuẩn bị dữ liệu bằng cách loại bỏ dữ liệu thiếu,
xử lý nhiễu, và tạo các biến đặc trưng mới như biến đổi giá cổ phiếu.
Thực hiện tiền xử lý dữ liệu bằng cách chuẩn hóa dữ liệu số, chuyển đổi dữ liệu rời rạc
thành dạng số, và tách tập dữ liệu thành tập huấn luyện và tập kiểm tra.
Sử dụng các thuật toán dự đoán như hồi quy tuyến tính, cây quyết định, và mạng nơ-ron
để xây dựng mô hình dự đoán biến động giá cổ phiếu. Sử dụng kỹ thuật gom nhóm để
phát hiện các nhóm cổ phiếu có biểu đồ giá tương tự.
Hiển thị kết quả dự đoán trên biểu đồ giá cổ phiếu thực tế và so sánh với dữ liệu thực tế.
Sử dụng các độ đo như RMSE (Root Mean Square Error) để đánh giá độ chính xác của
mô hình.
Lớp : PM25.11
Weka là một phần mềm mã nguồn mở cho khai phá dữ liệu và học máy. Để thực hiện
ứng dụng trên Weka, bạn cần:
I. Nhập dữ liệu: Weka hỗ trợ nhiều định dạng dữ liệu như ARFF, CSV, v.v. Bạn cần
nhập dữ liệu lịch sử giao dịch cổ phiếu và các chỉ số thị trường vào Weka.
II. Tiền xử lý dữ liệu: Weka cung cấp các bộ lọc cho tiền xử lý dữ liệu, ví dụ như bộ
lọc chuẩn hóa, lựa chọn thuộc tính, loại bỏ nhiễu. Bạn cần sử dụng các bộ lọc này
để chuẩn bị dữ liệu cho việc xây dựng mô hình.
III. Áp dụng các thuật toán khai phá dữ liệu: Weka cung cấp nhiều thuật toán khai phá
dữ liệu như hồi quy, phân loại, gom nhóm. Bạn cần áp dụng các thuật toán này để
xây dựng mô hình dự đoán biến động giá cổ phiếu.
IV. Hiển thị và đánh giá kết quả: Weka cung cấp các công cụ để hiển thị kết quả dự
đoán và đánh giá hiệu suất mô hình. Bạn có thể so sánh dự đoán với dữ liệu thực
tế và sử dụng các độ đo như RMSE để đánh giá mô hình.