Professional Documents
Culture Documents
Câu 2: Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là:
a. Khai phá dữ liệu hoặc Khai thác dữ liệu
b. Khai phá luật kết hợp
c. Khai phá tập mục thường xuyên
d. Khai phá tri thức từ dữ liệu lớn
Câu 3: Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là:
a. Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu
dụng tiềm năng) từ tập dữ liệu lớn
b. Khai phá dữ liệu
c. Khai thác dữ liệu
d. Tìm kiếm dữ liệu
Câu 11: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 12: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 13: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 14: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 15: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 16: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 17: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence
= 50%.
Luật kết hợp nào thỏa mãn các điều kiện đã cho:
a. A-->C
b. A-->D
c. A--> E
d. AB-->C
Câu 18: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence
= 50%.
Luật kết hợp nào thỏa mãn các điều kiện đã cho:
a. B-->E
b. A-->D
c. A--> E
d. AB-->C
Luật kết hợp nào thỏa mãn các điều kiện đã cho:
a. A-->C
b. A-->D
c. A--> E
d. AB-->C
Câu 20: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence
= 50%.
Câu 21: Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp
sau:
a. A--> B, B--> A, không tính luật AB --> và --> AB
b. A-->B, B--> A, A--> và --> B
c. A--> B
d. B--> A
Câu 22: Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m
Câu 23: Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p
a. 2 đường đi
b. 1 đường đi
c. 3 đường đi
d. 4 đường đi
Câu 25: Phương pháp nào không phải là phương pháp phân lớp:
a. Chia các đối tượng thành từng lớp để giảng dạy
Khoa CNTT – Data Mining 7
b. Phân lớp dựa trên Cây quyết định
c. Phân lớp dựa trên xác suất Bayes
d. Phân lớp dựa trên Mạng Nơron
Câu 26: Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp ?
a. 4 thuộc tính
b. 3 thuộc tính
c. 5 thuộc tính
d. 6 thuộc tính
Câu 27: Cho tập ví dụ học như bảng. Thuộc tính kết luận Play Ball có bao nhiêu giá trị:
a. 2 giá trị
b. 3 giá trị
c. 5 giá trị
d. 1 giátrị
Câu 28: Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:
Câu 29: Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá
trị thì cây quyết định có bao nhiêu nhánh?
a. 3 nhánh
b. 2 nhánh
c. Nhiều nhánh
d. Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được
Câu 30: Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa
các ví dụ học thành mấy bảng con:
a. n bảng con
b. 2 bảng con
c. không phải chia
d. Thành nhiều bảng tùy theo giá trị của n
Câu 31: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học
này thành mấy bảng con:
a. 2 bảng
b. 3 bảng
c. không cần chia
d. Tùy theo thuộc tính được chọn
Câu 32: Cho giá trị của A là 3500, Sử dụng phương pháp chuẩn hóa Tỷ lệ Thập phân–
decimal scale, giá trị của A sau khi chuẩn hóa là:
a. 0.35
b. 3.5
c. 0.015
Khoa CNTT – Data Mining 9
d. Giá trị khác
Câu 33: ID3 sử dụng hàm hàm nào để xác định thuộc tính làm gốc phân nhánh trong
quá trình xây dựng cây quyết định:
a. Emtropy và Gain
b. Entropy
c. Gain
d. Gainratio
Câu 34: Đường kính của cụm được định nghĩa là khoảng cách giữa 2 phần tử xa nhau
nhất trong cùng 1 cụm. Cho 1 cụm gồm các phần tử C={x1, x2, x3, x4} với x1(0,0),
x2(1,0), x3(6,0), x4(10, 0)
a. d=10
b. d=4
c. d=6
d. d=1
Câu 35: Cho miền giá trị của A từ -186 đến 917. Sử dụng phương pháp chuẩn hóa Tỷ lệ
Thập phân– decimal scale, miền giá trị của A sau khi chuẩn hóa là: a. - 0.186 đến 0.917
Câu 37: Thuật ngữ tiếng Anh nào có nghĩa là phân cụm dữ liệu
a. Data Clustering
b. Data Classification
c. Association Rule
d. Data Mining
Câu 38: Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu
a. Data Mining
b. Data Clustering
c. Data Classification
d. Association Rule
Câu 39: Thuật ngữ tiếng Anh nào có nghĩa là Phân lớp dữ liệu
a. Data Classification
b. Data Clustering
c. Data Mining
d. Association Rule
Câu 40: Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm:
a. 1 cách
b. 0 cách
c. 2 cách
d. N cách
Câu 41: Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia
cụm:
a. 0 cách
b. m cách
c. 2 cách
d. N cách
Câu 43: Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn:
a. Chọn ngẫu nhiên
b. Chọn k phần tử nằm ở tâm
c. Chọn k các phần tử có giá trị nhỏ nhất
d. Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu
Câu 44: Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó:
a. k<=N
b. k=N
c. k>N
d. k khác N
Câu 45: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Khoảng cách giữa 2 phần tử x1 và x2 bằng bao nhiêu:
a. bằng 1
b. bằng 2
c. bằng 0
d. bằng 9
Câu 46: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Khoảng cách giữa 2 phần tử x1 và x5 bằng bao nhiêu:
a. bằng 5
Khoa CNTT – Data Mining 12
b. bằng 2
c. bằng 0
d. bằng 9
Câu 47: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được
chọn để gom thành 1 cụm:
a. x1 và x2
b. x1 và x3
c. x2 và x3
d. x3 và x5
Câu 48: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự.
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào
được chọn để gom thành 1 cụm:
a. x1 và x2
b. x1 và x3
c. x2 và x3
d. x3 và x5
Câu 49: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5
hỏi có mấy cụm được sinh ra:
Câu 50: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5
hỏi có mấy cụm được sinh ra:
a. 1 cụm
b. 2 cụm
c. 3 cụm
d. 4 cụm
Câu 51: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5
hỏi có mấy cụm được sinh ra:
Câu 52: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 1.5
hỏi có mấy cụm được sinh ra:
a. 4 cụm
b. 2 cụm
c. 1 cụm
d. 5 cụm
Câu 53: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 0.5
hỏi có mấy cụm được sinh ra:
Câu 56: Phần mềm nào sau đây sử dụng minh họa thuật toán Apriori
a. Phần mềm Weka
b. Phần mềm Project
c. Phần mềm Prolog
d. Phần mềm Spy bot
Câu 57: Phần mềm Weka cài đặt một số thuật toán trong lĩnh vực nào?
a. Data Mining
b. Tìm kiếm văn bản
c. Trí tuệ nhân tạo
d. Học máy
Câu 60: Giá trị Gain của thuộc tính A trong tập S ký hiệu là?
a. Gain(S,A)
b. Gain(A,S)
c. Gain(entropy,S, A)
d. Gain(S,A,entropy)
Câu 61: Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai
đoạn sau:
a. Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và
biểu diễn tri thức
b. Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
c. Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật
kết hợp
d. Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức
Câu 63: Một số bài toán điển hình trong khai phá dữ liệu là:
Khoa CNTT – Data Mining 17
a. Khai phá luật kết hợp, phân loại, phân cụm, hồi qui...
b. Khai phá luật kết hợp, xây dựng máy tìm kiếm...
c. Web mining, Text mining, mạng nơron…
d. Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...
Câu 64: Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng
nhất):
a. Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường
xuyên thay đổi...
b. Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung...
c. Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế...
d. Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi...
Câu 65: Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:
a. Machine Learning, Visualization, Statistics, Databases…
b. Machine Learning, Programming, Statistics, Databases…
c. Machine Learning, Visualization, Statistics, BioInfomatics…
d. Support Vector Machine, Clustering, Statistics, Databases…
Câu 68: Một số ứng dụng tiềm năng của Khai phá dữ liệu:
a. Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích
các sai hỏng, Khai thác Web, Khai thác văn bản (text mining)…
b. Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet...
c. Phân tích tâm lí khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính...
Khoa CNTT – Data Mining 18
d. Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm
kiếm...
Câu 74: Các bài toán thuộc làm sạch dữ liệu là:
a. Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu
không nhất quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
b. Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư
thừa tạo ra sau tích hợp dữ liệu.
c. Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.
d. Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng
Câu 75: Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các
đặc trưng được lựa chọn:
a. 2^n -1
b. 2^n
c. Vô số tập con
d. n^2
Câu 77: Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5, ?). Dấu
hỏi là giá trị của thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các
thuộc tính của bản ghi hiện có, hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:
a. 5
b. 6
c. 9
d. Giá trị khác
Câu 78: Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp ‘Bỏ qua bản ghi có
giá trị thiếu’ chỉ thích hợp khi:
a. Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu
Khoa CNTT – Data Mining 20
b. Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu
c. Có thể bỏ qua tất cả các bản ghi bị thiếu
d. Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu
Câu 79: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các
mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao
dịch chứa tất cả các mục có trong X. Độ hỗ trợ của tập mục X được định nghĩa là:
a. Support(X)=Số lượng giao dịch hỗ trợ X / N
b. Support(X)=Số lượng giao dịch hỗ trợ X
c. Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong
CSDL
d. Support(X)=Số lượng giao dịch hỗ trợ X *100%
Câu 80: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các
mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp
X Y được định nghĩa là:
a. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ
X
b. Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y
c. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ
Y
d. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N
Câu 81: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các
mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp
X Y được định nghĩa là:
a. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N
b. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
c. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
d. Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y
Câu 82: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các
mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc
I. Tập mục X được gọi là tập mục thường xuyên (frequent itemset) nếu:
a. Support(X)>=Min_Supp
b. Support(X)<=Min_Supp
c. Support(X)=Min_Supp
Khoa CNTT – Data Mining 21
d. Support(X: Min_Supp/N
Câu 83: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các
mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối
thiểu. X, Y là tập chứa các mục thuộc I. Luật kết hợp XY được chọn nếu:
a. Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
b. Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
c. Support(XY)<Min_Supp, Confidence(XY)<Min_Conf
d. Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
Câu 84: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:
a. F:4, C:4, A:3, C:3, M:3, P:3
b. C:4, A:3, C:3, M:3, P:3
c. F:4, C:4
d. A:3, C:3, M:3, P:3
Câu 85: Cho CDSL giao dịch như hình vẽ, Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Câu 86: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Câu 87: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Câu 88: Cho CDSL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Câu 89: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3 (60%)
và độ tin cậy tối thiểu Min_Confidence = 100%.
Câu 90: Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra
(không tính tập rỗng) là:
a. 2^N - 1
b. 2^N
c. N
d. Vô số tập mục
Câu 91: Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối
thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau
Câu 92: Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu
Min_Sup và độ tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa
mãn điều kiện về độ hỗ trợ tối thiểu và độ tin cậy tối thiểu vì:
a. Conference(AB-->C) >= Conference(A-->BC)
b. Conference(AB-->C) <= Conference(A-->BC)
c. Conference(AB-->C: Conference(A-->BC)
d. Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay
không
Câu 93: Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây
là sai:
a. Support(ABC) < Support(ABCD)
b. Support(ABC) >= Support(ABCD)
c. Support(AB) >= Support(ABC)
d. Support(AB) <= Support(A)
Câu 95: Giả sử ta có các tập mục thường xuyên {A,B}, {A,C}, {B,D} chứa 2-item. Sử
dụng thuật toán Apriori để ghép các tập mục có 2-item thành các tập mục có 3-item ,
các ứng viên sinh ra có 3-item là:
a. {A, B, C}, {A, B, D}
b. {A, B, C}, {A, B, D}, {A, B, C, D}
c. {A, B, C}, {B, C, D}
d. {A, B, C}, {C, B, D}
Câu 97: Cho tập L3={abc, abd, ade, ace} là các tập mục thường xuyên chứa 3-item.
Để tạo các ứng viên chứa 4-item abcd, ta cần ghép các tập chứa 3-item nào với nhau?
a. abc và abd
b. abc và ade
c. abc và ace
d. abd và ade
Câu 98: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence
= 50%.
Luật kết hợp nào không thỏa mãn điều kiện đề bài:
a. BA-->E
b. BC -->E
c. C--> E
d. B-->C
Câu 99: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%), Min_Cofidence
= 50%.
Câu 100: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%.
Câu 101: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 102: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 103: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 104: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 105: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%.
Sử dụng thuật toán Apriori, sau lần duyệt thứ nhất, các danh sách L1 chứa các tập mục
thường xuyên có 1-item được tạo ra là
a. L1={{A}, {B}, {C}, {E}}
b. L1={{A}, {B}, {C}, {D}}
c. L1={{A}, {B}, {D}, {E}}
d. L1={{A}, {D}, {C}}
Câu 107: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 108: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Sử dụng thuật toán Apriori để tìm các tập mục thường xuyên, số lần duyệt CSDL là:
a. 3 lần
b. 2 lần
c. 4 lần
d. 1 lần
Câu 109: Cho FP-Tree như hình vẽ, mũi tên nét đứt biểu thị cho:
Câu 110: Cho FP-Tree như hình vẽ, cơ sở điều kiện của nút P là:
Câu 111: Cho FP-Tree như hình vẽ, cơ sở điều kiện của nút M là:
Câu 112: Cho FP-Tree như hình vẽ, cơ sở điều kiện của nút a là:
a. {f:3, c:3}
b. {f:4, c:3}
c. {f:4, c:3, a:3}
d. {f:3, c:3, a:3
Câu 114: Cho cây quyết định như hình vẽ. Hãy cho biết Refund=’No’, MarSt =
‘Married’, TaxInc=’80K’ thì kết luận có giá trị gì?
Câu 115: Cho cây quyết định như hình vẽ. Hãy cho biết Refund=’Yes’, MarSt =
‘Married’, TaxInc=’40K’ thì kết luận có giá trị gì?
a. No
b. Yes
c. Không phân lớp được
d. Thiếu thông tin để kết luận
Câu 116: Cho cây quyết định như hình vẽ. Hãy cho biết Refund=’No’, MarSt =
‘Single’, TaxInc=’140K’ thì kết luận có giá trị gì?
a. Yes
b. No
c. Không phân lớp được
d. Thiếu thông tin để kết luận
a. Yes
b. No
c. Không phân lớp được
d. Married
Câu 118: Cho cây quyết định như hình vẽ. Có bao nhiêu luật sinh ra từ cây quyết định
trên:
a. 4 luật
b. 2 luật
c. 1 luật
d. Nhiều luật
Câu 119: Có thể sử dụng phân lớp dựa trên mạng Nơron nhân tạo. Vậy mạng Nơron
nhân tạo là gì?
a. Là mô hình toán học mô phỏng theo mạng Nơron sinh học để giải quyết các bài toán
b. Là mạng máy tính có tốc độ truyền thông cao
c. Là mạng Nơron do con người tạo ra
Câu 120: Cho tập ví dụ học như bảng. Entropy của kết luận C= Play Ball là:
a. Entropy(C)=1
b. Entropy(C)=3
c. Entropy(C)=0.5
d. Entropy(C)=6
Câu 121: Cho tập ví dụ học như bảng. Entropy của thuộc tính Outlook = ‘Sunny’ là:
Câu 122: Cho tập ví dụ học như bảng. Entropy của thuộc tính Outlook là:
a. 2/3
b. 1/3
c. 0/3
d. Giá trị khác
Câu 124: Cho tập ví dụ học như bảng. P(Play Ball= ‘No’ | Outlook=’Overcast’) là:
a. 0/3
b. 1/3
c. 2/3
d. Giá trị khác
Câu 125: Cho tập ví dụ học như bảng. P(Play Ball= ‘No’ | Wind =’Weak’) là:
a. 2/3
b. 1/3
c. 0/3
d. Giá trị khác
a. 1/2
b. 1/3
c. 0/3
d. Giá trị khác
Câu 127: Cho tập ví dụ học như bảng. P(Wind= ‘Weak’) là:
a. 4/6
b. 3/6
c. 2/6
d. Giá trị khác
Câu 128: Độ phân biệt (độ lộn xộn) của kết luận C với thuộc tính A được tính theo công
thức:
a. Gain(C,A)=Entropy(C)-Entropy(A)
b. Gain(C,A)=Entropy(C)+Entropy(A)
c. Gain(C,A)=Entropy(A)-Entropy(C)
d. Gain(C,A)=Entropy(C)*Entropy(A)
Câu 129: Kết luận nào trong các kết luận sau là sai:
a. Thuật toán Quilan chọn ngẫu nhiên 1 thuộc tính để làm gốc cây quyết định
b. Độ phân biệt (độ lộn xộn) của một thuộc tính với kết luận C cao nhất thì Entropy của
nó thấp nhất
c. Thuật toán học khái niệm CLS chọn ngẫu nhiên 1 thuộc tính để làm gốc cây quyết
định
Câu 130: Kết luận C gồm 2 giá trị Yes và No. Entropy(C: 1 nói nên điều gì:
a. Số kết luận ‘Yes’=Số kết luận ‘No’
b. Số kết luận ‘Yes’ =0
c. Số kết luận ‘No’ =0
d. Không kết luận được điều gì
Câu 131: Kết luận C gồm 2 giá trị Yes và No. Entropy(C: 0 nói nên điều gì:
a. Số kết luận ‘Yes’=0 hoặc Số kết luận ‘No’
b. Số kết luận ‘Yes’ = Số kết luận ‘No’
c. Số kết luận ‘No’ =1 và Số kết luận ‘Yes’ = 1
d. Không kết luận được điều gì
Câu 132: Khi sử dụng thuật toán Quilan để xây dựng cây quyết định. Tại mỗi bước của
thuật toán ta chọn thuộc tính nào trong số các thuộc tính còn lại để làm gốc phân nhánh?
Câu 133: Khi sử dụng thuật toán CLS (Concept Learning System) để xây dựng cây
quyết định. Tại mỗi bước của thuật toán ta chọn thuộc tính nào trong số các thuộc tính
còn lại để làm gốc phân nhánh?
a. Chọn ngẫu nhiên
b. Thuộc tính có độ phân biệt thấp nhất
c. Thuộc tính có Entropy cao nhất
d. Thuộc tính có độ phân biệt cao nhất
Câu 134: Entropy là một đại lượng có miền giá trị là:
a. [0 ; 1]
b. (0 ; 1)
c. Miền giá trị là tập số nguyên dương
d. Miền giá trị là tập số thực dương
Câu 136: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Có bao nhiêu tổ hợp
gồm có 1 thuộc tính:
a. 4 tổ hợp
b. 5 tổ hợp
c. 6 tổ hợp
d. 2 tổ hợp
Câu 137: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Có bao nhiêu tổ hợp
gồm có 2 thuộc tính phân biệt:
a. 6 tổ hợp
b. 5 tổ hợp
c. 4 tổ hợp
d. 2 tổ hợp
Câu 138: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Có bao nhiêu tổ hợp
gồm có 3 thuộc tính phân biệt:
Câu 139: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Có bao nhiêu tổ hợp
gồm có 4 thuộc tính phân biệt:
a. 1 tổ hợp
b. 4 tổ hợp
c. 6 tổ hợp
d. 2 tổ hợp
Câu 140: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play
Ball=’No’, xét tổ hợp 1 thuộc tính. Tổ hợp thuộc tính nào là tổ hợp lớn nhất:
a. Humidity=’High’
b. Wind=’Weak’
c. Outlook=’Sunny’
d. Humidity=’Normal
a. 2 luật
b. 3 luật
c. 1 luật
d. 4 luật
Câu 142: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play
Ball=’No’ ta tìm được các luật sau:
a. If Humidity=’High’ Then Play Ball = ‘No’ và If Outlook = ‘Rain’ Then Play Ball =
‘No’
b. If Humidity=’High’ Then Play Ball = ‘No’
c. If Humidity=’Normal’ Then Play Ball = ‘No’và If Outlook = ‘Rain’ Then Play Ball =
‘No’
d. If Outlook=’Sunny’ Then Play Ball = ‘No’và If Wind = ‘Strong’ Then Play Ball =
‘No’
Câu 143: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play
Ball=’Yes’ ta tìm được các luật sau:
Câu 144: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play
Ball=’Yes’ ta tìm được mấy luật:
a. 2 luật
b. 3 luật
c. 1 luật
d. 0 luật
Câu 145: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Tập ví dụ học trên sinh
ra ít nhất mấy luật
Câu 146: Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA. Với bảng Play
Ball=’Yes’, xét tổ hợp 1 thuộc tính. Tổ hợp thuộc tính nào là tổ hợp lớn nhất:
a. Outlook=’Overcast’
b. Wind=’Weak’
c. Outlook=’Sunny’
d. Humidity=’Normal
Câu 150: Cho 2 điểm trong mặt phẳng toạ độ Oxy, cho 2 điểm A(x1, y1), B(x2, y2).
Khoảng cách Ơclit giữa 2 điểm này là:
a. d=sqr(sqrt(x1-x2)+sqrt(y1-y2)) trong đó sqr là hàm bình phương, sqrt là hàm lấy căn.
Câu 151: Cho hai điểm A(0,1), B(4, 4). Sử dụng độ đo khoảng cách Ơclit thì khoảng
cách giữa 2 điểm là
a. d(A,B)=5
b. d(A,B)=3
c. d(A,B)=4
d. d(A,B)=1
Câu 152: Cho tập C={x1, x2,. ..xk} gồm k phần tử, mỗi phần tử là một vector trong
không gian N chiều. Vector trung bình mC của tập C là một vector trong không gian N
chiều được định nghĩa là:
a. mC= (x1+x2+...+xk)/k
b. mC= (x1+x2+...+xk)
c. mC= (x1+x2+...+xk)/N
d. mC= (x1+x2+...+xk)/k*N
Câu 153: Trong thuật toán phân cụm k-mean, sau khi chọn được k điểm làm tâm, phần
tử x sẽ được gán vào cụm C sao cho:
a. Khoảng cách từ x đến tâm cụm C là nhỏ nhất
b. Khoảng cách từ x đến tâm cụm C là lớn nhất
c. Khoảng cách từ x đến tâm cụm C bằng 0
Khoa CNTT – Data Mining 43
d. Khoảng cách từ x đến tâm cụm C bằng k
Câu 154: Trong thuật toán k-mean, sau khi gán các đối tượng vào k cụm cần phải:
a. Tính lại tâm của các cụm
b. Tính khoảng cách giữa các phần tử trong cụm
c. Tìm một số phần tử đại diện của cụm
d. Trộn các cụm lại với nhau để số cụm sinh ra là ít nhất
Câu 155: Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4). Sử dụng thuật toán phân cụm
k-mean để chia 4 điểm vào 2 cụm. Kết quả phân cụm là:
a. C1={A, B} ; C2={C, D}
b. C1={A, C} ; C2={B, D}
c. C1={A, B, C} ; C2={D}
d. C1={A, B, D} ; C2={C}
Câu 156: Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4), E( 1, 0). Sử dụng thuật toán
phân cụm k-mean để chia 5 điểm vào 2 cụm. Kết quả phân cụm là:
a. C1={A, B, E} ; C2={C, D}
b. C1={A, C, E} ; C2={B, D}
c. C1={A, B, C} ; C2={D, E}
d. C1={A, B, D} ; C2={C, E}
Câu 157: Cho cụm C gồm các điểm A(1, 1), B(2, 1), C(3,1). Giả sử đại diện của cụm là
một điểm (vector trung bình). Vetor trung bình của cụm là: a. mC = (2 ; 1)
b. mC = (2 ; 0)
c. mC = (2.5 ;1.5)
d. mC=(0 ; 0)
Câu 158: Cho cụm C gồm các điểm A(1, 1), B(2, 4), C(6,1). Giả sử tâm của cụm là
vector trung bình. Tâm của cụm là:
a. mC = (3 ; 2)
b. mC = (2 ; 3)
c. mC = (2.5 ;1.5)
d. mC=(6 ; 1)
Câu 159: k-Mean phù hợp với các cụm có hình dạng nào sau đây:
Khoa CNTT – Data Mining 44
a. Dạng hình cầu
b. Cụm dài và mảnh
c. Các cụm có các điểm phân bố ngẫu nhiên
d. Hình dạng bất kỳ
Câu 160: Phát biểu nào sau đây không là nhược điểm của thuật toán K-mean
a. Thuật toán khó cài đặt
b. Không đảm bảo đạt được tối ưu toàn cục
c. Khó phát hiện các loại cụm có hình dạng phức tạp và nhất là các dạng cụm không
lồi
d. Cần phải xác định trước số cụm k
Câu 162: Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân cụm k-
mean:
a. Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm
b. Cần phải xác định trước số cụm cần sinh ra
c. k-mean phù hợp với các cụm có dạng hình cầu
d. Vector được chọn làm tâm của mỗi cụm là vector trung bình của cụm đó
Câu 163: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage), sau khi gom x1 và x2 thành cụm
C={x1, x2} thì khoảng cách giữa cụm C và x3 bằng bao nhiêu:
a. bằng 2
b. bằng 3
c. bằng 0
d. bằng 9
Khoa CNTT – Data Mining 45
Câu 164: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage), sau khi gom x1 và x2 thành cụm
C={x1, x2} thì khoảng cách giữa x3 và x4 bằng bao nhiêu:
a. bằng 3
b. bằng 2
c. bằng 0
d. bằng 9
Câu 165: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự. Sử dụng
thuật toán liên kết đầy đủ (Complete Linkage), sau khi gom x1 và x2 thành cụm C={x1,
x2} thì khoảng cách giữa cụm C và x3 bằng bao nhiêu:
a. bằng 9
b. bằng 3
c. bằng 1
d. bằng 2
Câu 166: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng
3.5, các cụm sinh ra là
Câu 167: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng
2.5, các cụm sinh ra là
Câu 168: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng
1.5, các cụm sinh ra là
Câu 169: Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5,
các cụm sinh ra là
Câu 170: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage), sau khi gom x1 và x2 thành
cụm C={x1, x2} thì khoảng cách giữa x3 và x4 bằng bao nhiêu:
Câu 171: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage). Bước đầu tiên ta gom x1, x2, vào cụm
C1, ma trận không tương tự P1 sinh ra là ma trận cấp mấy:
a. cấp 4
b. cấp 5
c. cấp 1
d. cấp 3
Câu 172: Kết quả của quá trình phân cụm phân cấp là:
a. Một sơ đồ ngưỡng tương tự (hoặc không tương tự).
b. Một danh sách các cụm
c. Một cây nhị phân biểu diễn quá trình gom cụm
d. k cụm được sinh ra, với k cho trước
Câu 173: Chọn phát biểu sai trong các phát biểu sau:
a. Thuật toán phân cụm phân cấp phụ thuộc vào trình tự đưa các phần tử vào phân cụm
b. Cắt sơ đồ ngưỡng tương tự hoặc không tương tự tại một ngưỡng nào đó, ta sẽ được
danh sách các cụm
c. Single Linkage, Complete Linkage là 2 trường hợp đặc biệt của thuật toán phân cấp d.
Kết quả phân cụm phụ thuộc vào việc chọn đặc trưng, chọn độ đo gần gũi, chọn đại diện
của cụm và chọn thuật toán phân cụm
b. L1={abc}, L2={aed}
c. L1={abc}, L2={ebd}
d. L1={gbc}, L2={abd}
Câu 175: Thuật toán Apriori : Ghép 2 tập mục có 4-tems với nhau, ta sẽ được tập mục
có bao nhiêu item :
a. 5-items
b. 6-items
c. 7-items
d. 8-items
Câu 176: Thuật toán Apriori : Cho 2 tập mục L1={abcd}, L2={abck}. Ghép L1 và L2
với nhau thành tập mục L, ta được tập mục nào sau đây?
a. L={abcdk}
b. L={abc}
c. L={dk}
d. L={abck}
Câu 177: Cho tập mục thường xuyên L={ABCDE}, giả sử tất cả các luật kết hợp sinh
ra đều thỏa mãn điều kiện, hỏi có bao nhiêu luật kế hợp được sinh ra?
a. Có 30 luật
b. Có 20 luật
c. Có 5 luật
d. Có 32 luật
Câu 178: FP-Tree: Có 2 đường đi từ gốc tới nút p là: abcd:2 và abce:2. Cây điều kiện
FP của nút p là:
a. {abc:4}|p
b. {abc:2}|p
c. {abcde:4}|p
d. {de:4}|p
Câu 180: Cho các điểm A(1, 1), B(2, 1), C(4, 3), D(5, 4), E(0,0). Sử dụng thuật toán
phân cụm k-mean để chia 5 điểm vào 2 cụm. Cụm C1 được hình thành gồm 3 phần tử
A, B, E. Vector trung bình (trọng tâm) của cụm là: a. mC1=(1, 2/3)
b. mC1=(0, 2/3)
c. mC1=(1, 3)
d. mC1=(1, 2)
Câu 181: Đường kính của cụm được định nghĩa là khoảng cách giữa 2 phần tử xa nhau
nhất trong cùng 1 cụm. Cho 1 cụm gồm các phần tử C={x1, x2, x3, x4} với x1(10, 0),
x2(1, 0), x3(6, 0), x4(4, 0)
a. d=9
b. d=8
c. d=10
d. d=2
Câu 182: Khoảng cách giữa 2 cụm C1, C2 được định nghĩa là khoảng cách giữa 2 phần
tử x thuộc C1 và y thuộc C2 sao khoảng cách giữa x và y là lớn nhất. Cho 2 cụm
C1={x1, x2}, C2={x3, x4, x5}, với x1(0, 0), x2(1, 0), x3(6, 0), x4(4, 0), x5(3,0), khoảng
cách giữa 2 cụm này là:
a. d=6
b. d=4
c. d=2
d. d=1
Câu 183: Khoảng cách giữa 2 cụm C1, C2 được định nghĩa là khoảng cách giữa 2
phần tử x thuộc C1 và y thuộc C2 sao khoảng cách giữa x và y là bé nhất. Cho 2 cụm
C1={x1, x2}, C2={x3, x4, x5}, với x1(0, 0), x2(1, 0), x3(6, 0), x4(4, 0), x5(3,0),
khoảng cách giữa 2 cụm này là:
a. d=2
Khoa CNTT – Data Mining 51
b. d=4
c. d=6
d. d=1
Câu 184: Khoảng cách giữa 2 cụm C1, C2 được định nghĩa là giá trị trung bình của mọi
khoảng cách giữa 2 phần tử x thuộc C1 và y thuộc C2. Cho 2 cụm C1={x1, x2},
C2={x3, x4}, với x1(0, 0), x2(1, 0), x3(6, 0), x4(4, 0), khoảng cách giữa 2 cụm này là:
a. d=4.5
b. d=4.0
c. d=6.0
d. d=1.5
Câu 185: Cho tập dữ liệu gồm m phần tử, mỗi phần tử là một vector trong không gian n
chiều, cần phân tập này thành k cụm theo thuật toán k-mean. Điều kiện nào sau đây phải
thỏa mãn trong mối quan hệ giữa m, n và k
a. m>=k
b. m<k
c. m=k+n
d. k>m+n
Câu 186: Trong thuật toán liên kết đơn sử dụng ma trận, cho ma trận không tương tự P0
cấp 5 x 5. Khi 2 cụm được trộn với nhau thành 1 cụm thì ma trận P1 có cấp là bao
nhiêu?
a. Cấp 4 x 4
b. Cấp 3 x 3
c. Cấp 5 x 5
d. Cấp 2 x 2
Câu 187: Trong thuật toán liên kết đơn sử dụng ma trận, ở một bước nào đó tập dữ liệu
đang phân thành 4 cụm, vậy cần xây dựng ma trận không tương tự cấp mấy?
a. Cấp 4 x 4
b. Cấp 3 x 3
c. Cấp 5 x 5
d. Cấp 2 x 2
Câu 188: Hoveland và Hind giới thiệu thuật toán CLS lần đầu tiên vào năm bao nhiêu?
Câu 189: Kết quả của thuật toán CLS là đưa ra cây quyết định dựa trên:
a. Các mẫu mô tả quyết định
b. Các ngày để quan tâm
c. Các con số tính toán
d. Tất cả đều sai
Câu 190: Thuật toán ID3 được cung cấp vào thời gian nào của thế kỷ XX ?
a. Thập niên 70
b. Thập niên 50
c. Thập niên 60
d. Thập niên 90
Câu 191: Công thức để tính Information Gain của tập dữ liệu S và thuộc tính A là :
a. Gain(S, A)=Entropy(S)-Entropy(A)
b. Gain(S, A)=Info(A)+Entropy(A)
c. Gain(S, A)=Entropy(A)-Info(A)
d. Gain(S, A)=Entropy(A)-Entropy(S)
Câu 194: Với công thức tính Gain thông thường không phù hợp với tình huống nào ?
a. Với các thuộc tính có rất nhiều giá trị
Khoa CNTT – Data Mining 53
b. Không phụ hợp với ba thuộc tính
c. Không phù hợp với tập chỉ có duy nhất một mẫu
d. Mọi trường hợp đều phù hợp
Câu 195: Tập dữ liệu S gồm các thuộc tính A, B, C, D. Gain(S, A)=0.3, Gain(S,B)=0.6,
Gain(S,C)=0.14, Gain(S,D)=0.99. Thuộc tính nào được chọn để phân nhánh?
a. Thuộc tính D
b. Thuộc tính A
c. Thuộc tính B
d. Thuộc tính C
Câu 197: Tiến trình Khai phá tri thức – KDD gồm các bước như sau:
a. Lựa chọn dữ liệu, tiền xử lí dữ liệu, chuyển dạng, khai phá dữ liệu, trình diễn dữ liệu
b. Lựa chọn dữ liệu, chuyển dạng, khai phá dữ liệu, tiền xử lí dữ liệu, trình diễn dữ liệu
c. Lựa chọn dữ liệu, khai phá dữ liệu, trình diễn dữ liệu tiền, xử lí dữ liệu
d. Lựa chọn dữ liệu, khai phá dữ liệu, trình diễn dữ liệu
Câu 198: Sự bùng nổ của dữ liệu trong những năm gần đây có nhiều nguyên nhân,
trong đó có những nguyên nhân sau (chọn đáp án đúng nhất):
a. Công nghệ phần cứng phát triển mạnh, năng lực số hóa của con người ngày càng
cao, bùng nổ công nghệ mạng, tác nhân tạo mới dữ liệu ngày càng nhiều...
b. Khoa khọc kỹ thuật ngày càng tiến bộ, nguồn nhân lực ngành Công nghệ thông tin
ngày càng đông, nhu cầu khai thác thông tin ngày càng nhiều...
c. Thông tin thu thập từ việc nghiên cứu các hành tinh, thông tin chống khủng bố,
thông tin quảng cáo ngày càng nhiều...
d. Dữ liệu quảng cáo ngày càng nhiều, bùng nổ các mạng xã hội,...
Câu 201: Các bài toán chính trong ‘Tiền xử lí dữ liệu’ là:
a. Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ liệu, Rút gọn dữ liệu, Rời rạc dữ
liệu
b. Làm sạch dữ liệu, Tích hợp dữ liệu, Chuyển dạng dữ liệu, Rời rạc dữ liệu
c. Phân lớp, Tìm luật kết hợp, Gom cụm
d. Lựa chọn đặc trưng, Tìm thuật toán để Khai phá dữ liệu
Câu 202: Xếp thùng - Binning - là phương pháp rời rạc hóa đơn giản nhất. Phương pháp
này gồm có:
a. Phân hoạch cân bằng bề rộng Equal-width và Phân hoạch cân bằng theo chiều sâu
Equal-depth
b. Xếp thùng theo chiều sâu và Xếp thùng làm trơn theo giá trị nhỏ nhất
c. Làm trơn theo giá trị lớn nhất và làm trơn theo giá trị nhỏ nhất d. Làm
trơn theo biên phải và làm trơn theo biên trái
Câu 204: Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34.
Chia tập dữ liệu trên thành 3 thùng. Kết quả chia thùng theo chiều sâu là:
a. Bin 1: 4, 8, 9, 15; Bin 2: 21, 21, 24, 25; Bin 3: 26, 28, 29, 34
b. Bin 1: 4, 4, 4, 4; Bin 2: 21, 21, 21, 21; Bin 3: 26, 26, 26, 26
c. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34
d. Bin 1: 15, 15, 15, 15; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
Câu 205: Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34.
Chia tập dữ liệu trên thành 3 thùng theo chiều sâu. Kết quả chia thùng làm trơn theo
trung bình là:
a. Bin 1: 9, 9, 9, 9; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
b. Bin 1: 4, 4, 4, 4; Bin 2: 21, 21, 21, 21; Bin 3: 26, 26, 26, 26
c. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34
d. Bin 1: 15, 15, 15, 15; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
Câu 206: Cho tập dữ liệu được xếp theo giá: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34.
Chia thành 3 thùng theo chiều sâu. Kết quả phương pháp chia thùnglàm trơn theo biên
là:
a. Bin 1: 4, 4, 4, 15; Bin 2: 21, 21, 25, 25; Bin 3: 26, 26, 26, 34
b. Bin 1: 4, 4, 4, 4; Bin 2: 21, 21, 21, 21; Bin 3: 26, 26, 26, 26
c. Bin 1: 9, 9, 9, 9; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
d. Bin 1: 15, 15, 15, 15; Bin 2: 23, 23, 23, 23; Bin 3: 29, 29, 29, 29
Câu 207: Phương pháp xếp thùng phân hoạch cân bằng theo bề rộng là:
a. Chi miền giá trị thành N đoạn có độ dài như nhau
b. Chia miền xác định thành N đoạn ‘’đều nhau về số lượng’’ các đoạn có xấp xỉ số ví
dụ mẫu.
c. Lựa chọn số phần tử ngẫu nhiên và xếp và N thùng
d. Các phần tử có giá trị như nhau sẽ được xếp vào cùng 1 thùng
Câu 208: Trong quá trình Tiền xử lí dữ liệu người ta thường dùng một số phương pháp
chuẩn hóa dữ liệu sau:
a. Min-Max, z-Score, Tỷ lệ thập phân – decimal scale
b. 2NF, 3NF, BCNF
Khoa CNTT – Data Mining 56
c. Đưa về hệ đếm thập phân, Hệ nhị phân, hệ Hecxa
d. Chuẩn hóa về dữ liệu văn bản, hình ảnh, âm thanh
Câu 211: Công thức chuẩn hóa theo phương pháp Min-Max nào đúng:
a. Đáp án A
b. Đáp án B
c. Đáp án C
d. Đáp án D
Câu 212: Công thức chuẩn hóa theo Tỷ lệ thập phân nào đúng:
Câu 213: Cho miền giá trị từ 12000 đến 98000, Sử dụng phương pháp Min-Max để
chuẩn hóa về đoạn [0.0 ; 1.0]. Giá trị 73000 được chuẩn hóa là:
a. 0.716
b. 0.800
c. 0.500
d. Giá trị khác
Câu 214: Cho miền giá trị từ 120 đến 980, Sử dụng phương pháp Min-Max để chuẩn
hóa về đoạn [0.0 ; 10]. Giá trị 550 được chuẩn hóa là:
a. 5.0
b. 8.0
c. 9.0
d. Giá trị khác
Câu 215: Cho miền giá trị của A từ -986 đến 917, Sử dụng phương pháp chuẩn hóa Tỷ
lệ Thập phân– decimal scale, miền giá trị của A sau khi chuẩn hóa là: a. - 0.986 đến
0.917
b. 0.0 đến 1.0
c. 0.0 đến 9.17
d. Giá trị khác
Câu 216: Cho giá trị của A là 1500, Sử dụng phương pháp chuẩn hóa Tỷ lệ Thập phân–
decimal scale, giá trị của A sau khi chuẩn hóa là:
Khoa CNTT – Data Mining 58
a. 0.15
b. 1.5
c. 0.015
d. Giá trị khác
Câu 217: Phát biểu nào đúng về Phương pháp phân tích thành phần chính (Principal
Component Analysis-PCA):
a. Chỉ áp dụng cho dữ liệu số và dùng khi số chiều vector lớn
b. Chỉ áp dụng cho dữ liệu văn bản và dùng khi số chiều vector lớn
c. áp dụng cho mọi loại dữ liệu
d. Tìm đặc trưng quan trọng của tập dữ liệu
Câu 218: Phát biểu nào đúng về Phương pháp phân tích thành phần chính (Principal
Component Analysis-PCA:
a. Cho N vector dữ liệu k-chiều, tìm c (<= k) vector trực giao tốt nhất để trình diễn dữ
liệu. Tập dữ liệu gốc được rút gọn thành N vector dữ liệu c chiều: c thành phần chính
(chiều được rút gọn). Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector thành phần
chính.
b. Cho N vector dữ liệu k-chiều, tìm c (<= k) vector đại diện để trình diễn dữ liệu. Tập
dữ liệu gốc được rút gọn thành N vector dữ liệu c chiều: c thành phần chính (chiều được
rút gọn). Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector thành phần chính. c. Cho
N vector dữ liệu k-chiều, tìm c (<= k) vector trực giao tốt nhất để trình diễn dữ liệu. Tập
dữ liệu gốc được rút gọn thành N vector dữ liệu k chiều: k thành phần chính (chiều được
rút gọn). Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector thành phần chính.
d. Cho N vector dữ liệu k-chiều, tìm c (<= k) vector để trình diễn dữ liệu. Tập dữ liệu
gốc được rút gọn thành 1 vector dữ liệu c chiều: c thành phần chính (chiều được rút
gọn). Mỗi vector dữ liệu là tổ hợp tuyến tính của các vector thành phần chính.
Câu 221: Cho X, Y là các tập mục, X là tập con của Y thì ta có:
a. Support(X)>=Support(Y)
b. Support(X)<=Support(Y)
c. Support(X) =Support(Y)
d. Không so sánh được Support(X) và Support(Y)
Câu 223: Cho X không là tập mục thường xuyên thì với mọi tập Y chứa X ta có kết
luận:
a. Y không là tập mục thường xuyên
b. Y là tập mục thường xuyên
c. X là tập mục thường xuyên
d. Không thể kết luận được điều gì
Câu 224: Cho X ={A,B,C} là tập mục thường xuyên, Y={A, B} ta có kết luận:
a. Y là tập mục thường xuyên
b. Y không là tập mục thường xuyên
c. C là tập mục thường xuyên
d. X không là tập mục thường xuyên
Câu 226: Cho X ={A, B} không là tập mục thường xuyên, Y = {A, B, C} ta có kết
luận:
a. Y không là tập mục thường xuyên
b. Y là tập mục thường xuyên
c. X là tập mục thường xuyên
d. C không là tập mục thường xuyên
Câu 227: Cho X ={X1, X2, …, Xn } là tập các mục. Y là tập con của X. Nếu tất cả các
mục Xi đều không là tập mục không thường xuyên thì ta có kết luận:
a. Y không là tập mục thường xuyên
b. Y là tập mục thường xuyên
c. X là tập mục thường xuyên
d. Tập X – Y là tập mục thường xuyên
Câu 229: Cho tập mục thường xuyên X có độ dài k (k mục), từ tập X có thể sinh ra bao
nhiêu luật kết hợp:
Khoa CNTT – Data Mining 61
a. 2^k-2, không tính luật X và X
b. 2^k không tính luật X và X
c. k luật
d. Vô số luật kết hợp
Câu 230: Cho tập mục thường xuyên X={A, B, C}, từ tập X có thể sinh ra bao nhiêu
luật kết hợp:
a. 6 luật, không tính luật X và X
b. 8 luật, không tính luật X và X
c. 3 luật
d. 1 luật
Câu 231: Cho tập mục thường xuyên X={A, B, C, D}, từ tập X có thể sinh ra bao nhiêu
luật kết hợp:
a. 14 luật, không tính luật X và X
b. 16 luật, không tính luật X
c. 3 luật
d. 1 luật
Câu 232: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Sử dụng thuật toán Apriori, sau lần duyệt thứ hai, danh sách L2 chứa các tập mục
thường xuyên có 2-item được tạo ra là:
a. L2={{A,C}, {B,C}, {B,E}, {C,E}}
b. L2={{ A,D}, {B,D}, {B,E}, {C,E}}
c. L2= {{B,C}, {B,E}, {C,E}}
d. L2= {{A,C}, {C,E}}
Câu 233: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Câu 234: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).
Sử dụng thuật toán Apriori, cho L2={{A,C}, {B,C}, {B,E}, {C,E}} là danh sách các tập
mục thường xuyên có 2-item. Giả sử tập mục {A,B} và {A,E} không là tập mục thường
xuyên. Sau khi ghép các tập mục thường xuyên 2-item với nhau để được danh sách L3
chứa các tập mục thường xuyên có 3-item, L3 là: a. L3={{B, C, E}}
b. L3={{A,B, C} và {A,C,E}}
c. L3={{A,C,E} và {B,C,E }}
d. L3={{A,B,C,}}
Câu 239: Cho FP-Tree như hình vẽ, cây điều kiện FP của nút f là:
a. Cây rỗng
b. {f:4}
c. {f:4, c:1}
d. {f:3, c:3, a:3
Câu 240: Cho FP-Tree như hình vẽ, cây điều kiện FP của nút C là:
Câu 241: Cho FP-Tree như hình vẽ, cây điều kiện FP của nút a là:
a. {f:4, c:3}
b. {f:3, c:3}
c. {f:4, c:3, a:3}
d. {f:3, c:3, a:3
Câu 242: Cho đồ thị như hình vẽ, đồ thị trên biểu diễn gì ?
a. Với cùng số lượng giao dịch như nhau, thời gian thực thi của thuật toán FP-Growth
luôn nhiều hơn thời gian thực thi của thuật toán Apriori
b. Với cùng số lượng giao dịch như nhau, thời gian thức thi thuật toán FP-Growth luôn
ít hơn thời gian thực thi thuật toán Apriori
c. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth
d. Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ.
Câu 244: Cho đồ thị như hình vẽ. Nhận xét nào sau đây là sai:
Câu 245: Cho đồ thị như hình vẽ, đồ thị trên biểu diễn gì ?
a. So sánh giữa Thời gian thực thi (tính bằng giây) của 2 thuật toán FP-Growth và
Apriori trên 2 Database D1 và Database D2
b. So sánh giữa Thời gian thực thi (tính bằng giây) của 2 thuật toán FP-Growth và
Apriori theo ngưỡng của độ hỗ trợ trên 2 Database D1 và Database D2
c. So sánh 2 thuật toán FP-Growth và Apriori theo ngưỡng độ tin cậy
d. Mối quan hệ giữa 2 thuật toán FP-Growth và Apriori
a. Với cùng ngưỡng của độ hỗ trợ, thời gian thực thi của thuật toán FP-Growth luôn
nhiều hơn thời gian thực thi của thuật toán Apriori
b. Với cùng ngưỡng của độ hỗ trợ, thời gian thức thi thuật toán FP-Growth luôn ít hơn
thời gian thực thi thuật toán Apriori
c. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth
d. Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ.
Câu 247: Cho đồ thị như hình vẽ. Nhận xét nào sau đây là sai:
a. Với cùng ngưỡng độ hỗ trợ, thời gian thức thi thuật toán FP-Growth luôn ít hơn thời
gian thực thi thuật toán Apriori
b. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth
Câu 248: Hãy cho biết đáp án nào trong các đáp án trên là đúng:
a. Đáp án B
b. Đáp án A
c. Đáp án C
d. Đáp án D
Câu 249: Hãy cho biết đáp án nào trong các đáp án trên là đúng:
a. Đáp án B
b. Đáp án A
c. Đáp án C
d. Đáp án D
Câu 250: Hãy cho biết đáp án nào trong các đáp án trên là đúng:
Câu 253: Cho 3 điểm x, y, z. Độ đo khoảng cách d phải thỏa mãn các điều kiện nào:
a. d(x,y)>0 ; d(x,y)=d(y,x) ; d(x,y) =0 ; d(x,y)<=d(x,z)+d(z,y)
b. d(x,y)>=0 ; d(x,y)<=d(x,z)+d(z,y)
c. d(x,y)>=0 ; d(x,y)=d(y,x) ; d(x,x) =0 ; d(x,y)<=d(x,z)+d(z,y)
d. d(x,y)>=0 ; d(x,x) =0 ; d(x,y)<=d(x,z)+d(z,y)
Câu 254: Khi chọn đại diện cho cụm, có thể chọn các đại diện sau:
a. Đại diện điểm, đại diện siêu cầu
b. Đại diện siêu phẳng, đại diện điểm
c. Đại diện điểm, đại diện siêu phẳng và đại diện siêu cầu
d. Đại diện siêu cầu, đại siêu phẳng
Câu 255: Có N phần tử cần chia thành m cụm, mỗi cụm có ít nhất 1 phần tử. Gọi
S(N,m) là số cách chia N phần tử vào m cụm. Công thức nào sau đây cho ta tổng số
cách chia cụm:
a. S(N, m) = m.S(N, m) + S(N - 1, m - 1)
b. S(N, m) = N.S(N - 1, m) + S(N - 1, m - 1)
c. S(N, m) = m.S(N - 1, m) + S(N - 1, m - 1)
d. S(N, m) = S(N - 1, m) + m.S(N - 1, m - 1)
Câu 256: Có N phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Công thức
nào sau đây cho ta tổng số cách chia cụm:
a. S(N,2) = 2^N - 1
Câu 257: Có N phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Công thức
nào sau đây cho ta tổng số cách chia cụm:
a. S(N,2) = 2^N - 1
b. S(N,2) = 2^(N-1)
c. S(N,2) = 2^(N-1) - 1
d. S(N,2) = 2^N
Câu 258: Có 4 phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Hỏi có bao
nhiêu cách chia cụm:
a. 16 cách
b. 15 cách
c. 7 cách
d. 1 cách
Câu 259: Có 5 phần tử cần chia thành 2 cụm, mỗi cụm có ít nhất 1 phần tử. Hỏi có bao
nhiêu cách chia cụm:
a. 7 cách
b. 32 cách
c. 15 cách
d. 1 cách
Câu 260: Hãy chọn định nghĩa đúng về Ma trận không tương tự:
a. Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không
tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) có giá trị là i*j
b. Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận
không tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) bằng 0
c. Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận không
tương tự P(X) là ma trận cấp N N mà phần tử nằm ở vị trí (i, j) bằng độ không tương tự
d(xi,xj) giữa hai vector xi và xj.
d. Cho tập X gồm N phần tử {x1, x2, …, xN}, mỗi phần tử là một vector. Ma trận
không tương tự P(X) là ma trận cấp N N mà phần tử nằm trên đường chéo chính bằng 0,
các phần tử khác có giá trị bất kỳ
Câu 264: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như sau:
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage). Bước đầu tiên ta gom x1, x2
hình vào cụm C1={x1, x2}, bước thứ 2 ta sẽ thực hiện thế nào: a. Gom x3 với C1
b. Gom x4 với C1
c. Gom x3 với x5
d. Gom x3 với x4
Câu 265: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Câu 266: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage). Bước đầu tiên ta gom x1, x2 vào cụm
C1, ma trận không tương tự P1 được sinh ra có dòng thứ nhất liệt kê từ trái sang phải là:
a. 0 ; 9 ; 8 ; 7
b. 1 ; 9 ; 6 ; 5
c. 1 ; 2 ; 6 ; 6
d. 0 ; 2 ; 6 ; 5
Câu 267: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage). Bước đầu tiên ta gom x1, x2
vào cụm C1, ma trận không tương tự P1 được sinh ra có dòng thứ nhất liệt kê từ trái
sang phải là:
a. 0 ; 2 ; 6 ; 5
Câu 268: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đơn (Single Linkage). Bước đầu tiên gom x1 và x2 hình
thành cụm C1={x1, x2}; bước 2 ta gom C1 và x3 hình thành cụm C2={x1, x2, x3}.
Hỏi bước thứ 3, ta sẽ gom thế nào:
a. Gom x4 với C1
b. Gom x4 với x5
c. Gom x5 với C1
d. Gom x4 với C2
Câu 269: Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình.
Sử dụng thuật toán liên kết đầy đủ (Complete Linkage). Bước đầu tiên gom x1 và x2
hình thành cụm C1={x1, x2}; bước 2 ta gom x3 và x4 hình thành cụm C2={x3, x4}.
Hỏi bước thứ 3, ta sẽ gom thế nào:
a. Gom x3 với C2
b. Gom x3 với x5
c. Gom x5 với C2
d. Gom C1 với x5
Câu 270: Phát biểu nào đúng về thuật toán liên kết đơn:
a. Chọn 2 cụm gần nhau nhất Ci, Cj để trộn với nhau thành cụm Cp. Khoảng cách giữa
cụm mới Cp và các cụm còn lại Cq là d(Cp,Cq)=Max{d(Ci,Cq); d(Cj,Cq)}