You are on page 1of 2

Câu 1: Từ đâu dẫn đến DataMining

- Ngày nay phần lớn các đơn vị, lĩnh vực đều được áp dụng CNTT
- Công nghệ lưu trữ phát triển: khả năng lưu trữ đến hàng GB, TB, PB
- Dữ liệu từ các nguồn: web(Business), youtube (Society and evryone), remote censing(Science),
=> chúng ta giàu về dữ liệu
- chung ta có thể tìm thấy tri thức từ dữ liệu đó
- phải phân tích như thế nào mới được tri thức
- vì vậy rất cần các công cụ mạnh mẽ và linh hoạt để tự động khám phá thông tin có giá trị từ lượng dữ liệu khổng lồ, chuyển đổi dữ liệu
đó thành tri thức của doanh nghiệm
=> từ đó hình thành lĩnh vực mới là: “Data Mining”
Câu 2: Quy trình khai phá dữ liệu:
B1: Làm sạch dữ liệu: Loại bỏ dữ liệu nhiễu và dữ liệu mâu thuẫn, điền dữ liệu thiếu…
B2: Tích hợp dữ liệu: Kết hợp dữ liệu từ nhiều nguồn khác nhau
B3: Lựa chọn dữ liệu: Chọn lựa dữ liệu từ CSDL có liên quan đến tác vụ phân tích
B4: Biến đổi dữ liệu: Biến đổi dữ liệu về dạng phù hợp cho hoạt động khai phá dữ liệu
B5: Khai phá dữ liệu: Là bước cơ bản nhất. áp dụng các phương thức thông tin để rút trích tri thức
B6: Đánh giá mẫu: Xác định các mẫu tin cậy, đại diện cho tri thức (dựa vào các độ đo, tri thức nền…)
B7: Biểu diễn tri thức: Các kĩ thuật trực quan hóa và biểu diễn tri thức được dùng để đưa tri thức đến vs người dùng
Từ B1->B5 gọi là Giai đoạn tiền xử lý
Câu 3: Outlier?
- là đối tượng ngoại lai, không tuân theo những hành vi phổ biến của tập thể hay mô hình của dữ liệu
- Thông thường các outlier bị loại bỏ vì chúng gây nhiễu thông tin, làm mất ý nghĩa của kết quả thuật toán mining
- Nhưng trong 1 số TH chúng được dùng để phát hiện những vấn để bất thường cần giải quyết, ví dụ phát hiện gian lận trong tín dụng khi
số lượng rút/nạp tiền của ai đó cao hơn rất nhiều so với bình quân
Câu 4: Ứng dụng của DM
- Phân tích thị trường và chứng khoáng: hỗ trợ đưa ra quyết định đúng
- Phát hiện gian lận: dễ dàng phát hiện TH bất thường nhờ vào dữ liệu thực tế
- Quản lý rủi ro và phân tích doanh nghiệp: hỗ trợ đưa ra dự báo chính xác

- Phân tích giá trị của khách hàng: tăng khả năng thấu hiểu khách hàng để lập kế hoạch bán hàng sao cho hiệu quả

Câu 5: Mô tả và dự đoán:

- Mô tả: Đặt tả những tính chất chung của dữ liệu trong CSDL, gồm có

+ Mô tả lớp/Khái niệm: đặt tả dữ liệu và mô tả sự khác nhau về dữ liệu

+ Khai phá mẫu phổ biến, các kết hợp và sự liên quan

+Phân tích Outlier: tìm ra các đối tượng ngoại lai hiện diện trong dữ liệu
+Gôm cụm:

- Dự đoán: sử dụng dữ liệu hiện có để suy diễn (dự đoán) giá trị chưa biết hoặc giá trị tương lai, gồm có

+Phân loại

+ Hồi quy

- Mô tả: thuật toán Apriori, FP-Growth, Eclat

- Dự đoán: thuật toán naive bayes, cây quyết định

You might also like