You are on page 1of 5

CÂU HỎI VẤN ĐÁP

(Học phần Khai phá dữ liệu)

Câu 1: Phân biệt giữa Khai phá dữ liệu (Data Mining) và Học máy (Machine Learning)?

Factors Data Mining Machine Learning

Cơ sở dữ liệu truyền thống với dữ liệu phi cấu


Nguồn gốc Nó có một thuật toán và dữ liệu hiện có.
trúc.

Trích xuất thông tin từ một lượng dữ liệu Giới thiệu Thông tin mới từ dữ liệu
Ý nghĩa
khổng lồ. cũng như kinh nghiệm trước đó.

Khai thác dữ liệu trách nhiệm được sử dụng Học máy dạy cho máy tính cách học và
Nhiệm vụ
để lấy các quy tắc từ dữ liệu hiện có. hiểu các quy tắc

So với học máy, khai thác dữ liệu có thể tạo Nó có nhiều ứng dụng khác nhau, được
ra kết quả với khối lượng dữ liệu ít hơn, được sử dụng trong tìm kiếm web, lọc thư
Ứng dụng
sử dụng trong phân tích cụm, cần một lượng rác, chấm điểm tín dụng, thiết kế máy
lớn dữ liệu để có được kết quả chính xác. tính, v.v.

Nó được tự động hóa, một khi được


Nó liên quan đến sự can thiệp của con người
Nature thiết kế và thực hiện, không cần nỗ lực
nhiều hơn đối với hướng dẫn sử dụng.
của con người.

Nó có thể được sử dụng trong một khu


Phạm vi Áp dụng trong các lĩnh vực hạn chế.
vực rộng lớn.

Câu 2: Hãy nêu cấu trúc của tập tin ARFF?

Tập tin ARFF mô tả vật thể trong không gian n-chiều. Được chia thành 2 phần:

+ Phần đầu tập tin (Header): gồm các quy định, mở đầu bằng từ khóa @relation và tên của tập dữ liệu.
Sau đó là phần thuộc tính @attribute, khai báo tên của các trường dữ liệu và kiểu dữ liệu tương ứng
(như numeric, nominal, string, date,syntax,…)

+ Phần chứa dữ liệu (Data): gồm các giá trị dữ liệu tương ứng với các thuộc tính.
Câu 3: Thiết lập giá trị min_sup (độ hỗ trợ tối thiểu) và min_conf (độ tin cậy tối thiểu) để khai

phá luật kết hợp như thế nào thì phù hợp?

Min support càng nhỏ => thu được càng nhiều tập thường xuyên (kích thước mục càng lớn), là điều kiện
tiên quyết cho việc thu được số tập luật kết hợp càng nhìu.

Từ đó, confidence thu hẹp lại tập thường xuyên, dựa trên tần suất xuất hiện. Độ tin cậy càng cao càng có
ít tập luật kết hợp (thường >50%)

Câu 4: Đối với khai phá luật kết hợp, ngoài 2 độ đo phổ biến là độ hỗ trợ (support) và độ tin cậy

(confidence) còn có những độ đo nào khác?

- MetricType: Có 4 loại metricType, ngoài Confidence thì có Lift (độ nâng) , Leverage (độ tận dụng) và Conviction
(độ thuyết phục).

- Numrules: Số luật muốn tìm (các luật sẽ được sắp xếp theo thứ tự giảm dần của metric score)

- SignificanceLevel: Mức ý nghĩa (chỉ dùng khi metricType là confidence)

Câu 5: Hãy nêu các bước cơ bản của quy trình khai phá luật kết hợp?

- Bước 1: Trích chọn dữ liệu (data selection)

Trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses).

- Bước 2: Tiền xử lý dữ liệu (data preprocessing)

Làm sạch dữ liệu, rút gọn dữ liệu, rời rạc hoá dữ liệu để cho dữ liệu được nhất quán, đầy đủ, được rút
gọn và được rời rạc hoá.

- Bước 3: Biến đổi dữ liệu (data transformation)

Chuẩn hoá và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai
phá ở bước sau.

- Bước 4: Khai phá dữ liệu (data mining)

Là bước quan trọng và tốn nhiều thời gian nhất của quá trình khám phá tri thức, áp dụng các kỹ thuật
khai phá (phần lớn là các kỹ thuật của machine learning) để khai phá, trích chọn được các mẫu (pattern)
thông tin, các mối liên hệ đặc biệt trong dữ liệu.

- Bước 5: Đánh giá và biểu diễn tri thức (knowledge representation & evaluation)

Dùng các kỹ thuật hiển thị dữ liệu để trình bày các mẫu thông tin (tri thức) và mối liên hệ đặc biệt trong
dữ liệu đã được khai phá ở bước trên, biểu diễn theo dạng gần gũi với người sử dụng như: đồ thị, cây,
bảng biểu, luật,… Qua đó, đánh giá những tri thức khai phá được theo những tiêu chí nhất định.
Câu 6: Tại sao nói phương pháp phân lớp k-lân cận là phương pháp phân lớp “lười biếng”

(lazy)?

Vì phương pháp phân lớp này không có trải qua quá trình học mà đi dựng thẳng luôn. Thế nên nó không
học một điều gì từ tập dữ liệu học, mọi tính toán được thực hiện khi nó cần dự đoán nhãn của dữ
liệu mới.

Câu 7: Hãy trình bày cách đánh giá, lựa chọn các mô hình phân lớp thông qua phân tích đồ thị

ROC của các mô hình này.

- Đường cong nào nằm ở trên thì performance của mô hình phân lớp đó ưu việt hơn so với bộ nằm bên
dưới.

Câu 8: Hãy so sánh cấu trúc cây quyết định với cấu trúc cây nhị phân.

- Giống nhau: đều có nút gốc (nút cha) và các nhánh (nút con).

- Khác nhau:

+ Cây nhị phân: Mỗi nút cha có nhiều nhất 2 nút con là nút con bên trái và nút con bên phải.

+ Cây quyết định: có thể là cây nhị phân hoặc không phải, có thể có nhiều hơn 2 nút con.

Câu 9: Hãy nêu các phép đo dùng để lựa chọn thuộc tính thường được sử dụng trong quá trình

xây dựng cây quyết định.

- Information gain, gain ratio hay gini index.

Câu 10: Cho tập dữ liệu gồm m thực thể được mô tả bởi n thuộc tính (chiều). Hãy mô tả một

cách tổng quát cách dùng phép đo Information gain để lựa chọn thuộc tính phân tách dữ liệu

trong quá trình xây dựng cây quyết định.

Gain(S,A) = entropy(S) -  (¿ ¿)

Với: |S|= m

|S(v)| là số thuộc tính xuất hiện của tập thực thể (có n thuộc tính)

A nào có kết quả cho Gain cao nhất => được chọn làm thuộc tính phân tách cho nút gốc.
Câu 11: Cho một cây quyết định (xem đề thi), hãy chuyển thành tập luật tương ứng.

Ví dụ để hiểu:

Câu 12: Nêu công thức tính xác suất Naïve Bayes ở trường hợp tổng quát? Cho ví dụ minh hoạ?

Câu 13: Hãy mô tả cấu trúc mạng nơ-ron nhân tạo?

-Mỗi tầng của mạng neural gồm các nút.

-Ở tầng vào, số nút tương ứng với số thuộc tính của các tập dữ liệu.

-Tiếp theo là tầng ẩn giấu. Dữ liệu đầu ra của tầng ẩn giấu này có thể là dữ liệu đầu vào của tầng ẩn giấu
kế tiếp. Kết quả của tầng ẩn giấu cuối cùng là đầu vào cho tầng kết quả (đầu ra). Số các tầng ẩn giấu
được xác định một cách võ đoán (chủ quan). Thông thường số tầng ẩn giấu được chọn là 1.

Câu 14: Nêu ưu điểm của mô hình SVM?

Ưu điểm:
- Xử lý trên không gian số chiều cao.
- Tiết kiệm bộ nhớ.
- Tính linh hoạt.

=> Là phương pháp hiệu quả cho bài toán phân lớp dữ liệu, nó là 1 công cụ đắc lực cho
các bài toán về xử lý ảnh, phân loại văn bản, phân tích các quan điểm.

Câu 15: Có bao nhiêu phương pháp kết hợp? Liệt kê.

Có 4 phương pháp kết hợp: (i) Bagging; (ii) Boosting; (iii), Voting; và (iv) Stacking.

Câu 16: Tư tưởng của phương pháp kết hợp?

- Xây dựng mô hình ra quyết định theo hướng tham vấn ý kiến các chuyên gia khác nhau.

- Một mô hình phân lớp theo phương pháp kết hợp:


+ Gồm 1 hoặc nhiều mô hình phân lớp cơ sở (vd: Naïve bayes, SVM, …)

+ Mỗi mô hình cơ sở được xem như là một chuyên gia

+ Mỗi phương pháp lấy ý kiến của các mô hình cơ sở sẽ tạo ra mỗi phương pháp kết hợp khác nhau (vd:
boosting, bagging, …)

Câu 17: Hãy trình bày cách thức hoạt động của phương pháp: (i) Bagging; (ii) Boosting; (iii)

Voting; và (iv) Stacking.

Câu 18: Hãy mô tả bài toán phân cụm. Nêu sự khác biệt giữa phân lớp và phân cụm.

Phân cụm (clustering) là quá trình gộp dữ liệu vào các nhóm hay các lớp mà những dữ liệu được xếp
cùng nhóm có độ tương tự nhau cao trong khi chúng sẽ rất khác biệt so với những dữ liệu được xếp vào
nhóm (hay lớp) khác. Những khác biệt (dissimilarities) được đánh giá dựa trên các giá trị thuộc tính
được dùng để mô tả các đối tượng. Thông thường, các phép tính khoảng cách được sử dụng để thực
hiện mục đích này.

Phân tích cụm (cluster analysis) được ứng dụng rộng rãi trong nhiều lĩnh vực như: nghiên cứu thị
trường, nhận dạng mẫu, phân tích dữ liệu và xử lý ảnh. Ví dụ: trong kinh doanh, phân cụm có thể giúp
chúng ta khám phá các nhóm khách hàng khác nhau dựa trên hành vi mua hàng của họ.

You might also like