You are on page 1of 7

1.

Lựa chọn nào sau đây không phải là một bước trong quy trình khai thác dữ liệu:
A. Evaluation C. Data mining
B. Data understanding D. Data preparation

2. Để tính chỉ số EMA của chứng khoán người ta sử dụng phương pháp nào sau đây:
A. Tất cả đều sai C. Hồi quy (Regression)
B. San bằng mũ (Exponential Smoothing) D. Trung bình trượt (Moving Average)

3. Kết quả mà khoa học dữ liệu hướng tới


A. Dữ liệu, thông tin và tri thức C. Thông tin và tri thức
B. Dữ liệu và tri thức D. Dữ liệu và thông tin

4. Thuộc tính “Loại khách hàng” có giá trị: “VIP”, “Premium” và “Economic” là thuộc tính thuộc kiểu
dữ liệu nào sau đây:
A. Xếp hạng/thứ tự C. Liên tục
B. Rời rạc D. Định danh

5. Để tìm hiểu điều gì nên làm tiếp theo, người quản lý yêu cầu thông tin kết quả có được từ việc
A. phân tích mô tả (Descriptive Analytics) C. phân tích dự đoán (Predictive Analytics)
B. phân tích chuẩn đoán (Diagnostic Analytics) D. phân tích quy luật (Prescriptive Analytics)

6. Để dự đoán xu hướng tăng/giảm của một mã chứng khoán bất kỳ dự trên thông tin về giá cả,
lượng cổ phiếu mua vào và bán ra của các ngày trước đó. Ta sử dụng công cụ nào sau đây:
A. San bằng mũ (Exponential Smoothing) C. Trung bình trượt (Moving Average)
B. Hồi quy (Regression) D. Tất cả đều sai

7. Tiền xử lý dữ liệu không bao gồm các bước nào sau đây:
A. Rút gọn dữ liệu C. Làm sạch dữ liệu
B. Chuyển đổi dữ liệu D. Thu thập dữ liệu
8. Chọn phát biểu sai
A. Data mining là một trong những phương pháp phân tích dữ liệu của khoa học dữ liệu
B. Bigdata là công nghệ lưu trữ, xử lý và khai thác dữ liệu có dung lượng lớn (volume), đa dạng
(variety), đòi hỏi tốc độ cao (velocity) và có tính xác thực (veracity)
C. Internet vạn vật khiến cho lượng dữ liệu được thu thập tăng lên nhanh chóng
D. AI sử dụng kết quả của khoa học dữ liệu để thông minh hơn, chính xác hơn

9. Phân tích giỏ hàng là một kỹ thuật khai thác dữ liệu ________
A. Có giám sát C. Phân tích mô tả
B. Không giám sát D. Phân tích chẩn đoán

10. Công cụ thống kê nào được sử dụng để thao tác trên dữ liệu hai chiều:
A. Consolidate C. PivotTable
B. Subtotal D. Tất cả đều đúng

11. Có mấy cách xử lý khi dữ liệu bị thiếu:


A. 5 C. 4
B. 6 D. 3

12. Phương pháp chọn mẫu dữ liệu nào sau đây thường dùng để khắc phục tình trạng over-fitting
A. Chọn mẫu ngẫu nhiên (Random sampling) C. Hold-out
B. Huấn luyện và kiểm thử trên cùng tập dữ D. Đánh giá chéo (K-fold cross validation)
liệu (Test on train data)

13. Để tìm hiểu điều gì sẽ xảy ra, người quản lý yêu cầuthông tin kết quả có được từ việc _____
A. phân tích quy luật (prescriptive analytics)
B. phân tích dự đoán (predictive analytics)
C. phân tích mô tả (descriptive analytics)
D. phân tích chuẩn đoán (diagnostic analytics)
14. Một người nghi ngờ bị bệnh lao đi thực nghiệm xét nghiệm kiểm tra lao. Nếu kết quả xét nghiệm
cho thấy người này bị lao trong khi anh tathật sự không mắc bệnh này thì trường hợpnày trong
đánh giá phân lớp gọi là
A. Tỷ lệ bỏ sót C. Độ nhạy
B. Độ phủ D. Tỷ lệ báo động nhầm

15. Phân lớp dữ liệu thuộc phương pháp


A. Bán giám sát C. Phương pháp lai
B. Có giám sát D. Không giám sát
16. Công cụ thống kê nào được sử dụng để tổng hợp dữ liệu đa chiều:
A. Consolidate C. PivotTable
B. Tất cả đều đúng D. Subtotal

17. Giá trị tại phần tử (i;j) trong ma trận nhầm lẫn cho biết
A. Số lượng mẫu i không được phân vào mẫu j
B. Số lượng mẫu j phân lớp nhầm vào mẫu i
C. Số lượng mẫu i phân lớp nhầm vào mẫu j
D. Số lượng mẫu j được phân vào mẫu j

18. Thuật toán gom cụm nào sau đây cho phép một phần tử dữ liệu có thể thuộc về một hoặc nhiều
cụm khác nhau
A. Fuzzy C-mean C. K-mean
B. Diana D. Agnes

19. Thuật toán gom cụm nào sau đây không cần biết trước số cụm
A. K-mean C. Fuzzy C-mean
B. DBSCAN D. Diana hoặc Agnes

20. Để biết điều gì đã xảy ra, người quản lý yêu cầu thông tin kết quả có được từ việc_____
A. phân tích dữ đoán (predictive analytics)
B. phân tích quy luật (prescriptive analytics)
C. phân tích mô tả (descriptive analytics)
D. phân tích chuẩn đoán (diagnostic analytics)

21. Một phương pháp gom cụm tốt là phương pháp cho kết quả gom cụm mà trong đó
A. Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp
B. Độ tương đồng bên trong cụm thấp, đồng thời độ tương đồng giữa các cụm cao
C. Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm cao
D. Độ tương đồng bên trong cụm thấp, đồng thời độ tương đồng giữa các cụm thấp

22. Khi nào thì ta cần rời rạc hóa dữ liệu:


A. Dữ liệu bị thiếu C. Dữ liệu thuộc kiểu số học
B. Dữ liệu thuộc kiểu nhị phân D. Dữ liệu thuộc kiểu định danh

23. Nhập số đếm của bạn tại lớp cho bài kiểm tra này.

24. Thuật toán nào sau đây cho phép xử lý trên nhiều kiểu dữ liệu/ loại dữ liệu khác nhau:
A. Logistic regression C. Mạng nơ ron
B. SVM D. Cây quyết định

25. So sánh kết quả giữa các thuật toán phân cụm khác nhau để xem xét tính hiệu quả của mô hình
phân cụm thuộc loại đánh giá nào sau đây:
A. Đánh giá tương đối C. Đánh giá ngoài
B. Đánh giá trong D. Tất cả đều sai

26. Để tìm hiểu lý do tại sao một điều gì đó đã xảy ra, người quản lý yêu cầu thông tin kết quả có
được từ việc _____
A. phân tích mô tả (descriptive analytics) C. phân tích quy luật (prescriptive analytics)
B. phân tích dự đoán (predictive analytics) D. phân tích chuẩn đoán (diagnostic
analytics)
27. Khoa học dữ liệu là một lĩnh vực giao thoa giữa
A. toán học/ thống kê C. khoa học máy tính
B. kiến thức chuyên ngành D. tất cả đều đúng

28. Thuật toán phân liệu tham gia vào quá trình nào trong mô hình phân lớp dữ liệu:
A. huấn luyện C. dự đoán
B. kiểm thử D. đánh giá

29. Phân cụm dữ liệu thuộc phương pháp


A. phương pháp lai C. bán giám sát
B. không giám sát D. có giám sát

30. Trích xuất những tri thức kinh doanh được ẩn chứa bên trong dữ liệu và cung cấp cho
nhữngngười cần nó là mục đích của ________
A. BI (Business Intelligence – Kinh doanh thông minh)
B. ML (Machine learning – Máy học)
C. DA (Data analytic – Phân tích dữ liệu)
D. AI (Artificial Intelligence – Trí tuệ nhân tạo)

31. Các nguồn dữ liệu có thể có trong các thành phần của BI (Business Intelligence) là:
A. Purchased Data C. Tất cả các nguồn dữ liệu nêu trên
B. Operational Data

32. Quy trình khai thác dữ liệu gồm mấy bước


A. 5 bước C. 4 bước
B. 3 bước D. 6 bước

33. Các cấpđộ ứng dụng BI được liệt kê từ thấp đến cao là:
A. Informing – Deciding – Problem solving – Project Management
B. Informing – Problem solving – Project Management – Deciding
C. Project Management – Problem solving – Deciding – Informing
D. Informing – Problem solving – Deciding – Project Management

34. Định dạng dữ liệu nào sau đây khác với các loại dữ liệu còn lại
A. Dữ liệu âm thanh C. Dữ liệu video
B. Dữ liệu ảnh D. Dữ liệu số

35. Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc khác nhau, ta sử dụng:
A. Tự làm bằng tay C. PivotTable
B. Subtotal D. Consolidate

36. Đối với bài toán phân lớp đa nhãn/đa lớp thì chỉ số đánh giá nào thường được dùng để đánhgiá
độ hiệu quả của mô hình phân lớp
A. F1 – score C. Recall
B. Precision D. Accuracy

37. Trong orange, biến có kiểu dữ liệu categorical là để chỉ các thuộc tính:
A. Liên tục
B. Rời rạc
C. Định lượng
D. Số học

38. Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số
lượng cụm cụ thể ta cần làm gì?
A. Chọn số lượng cụm k trên hộp thoại.
B. Chọn phương pháp tính khoảng cách trước khi chọn thuật toán.
C. Chọn đường cắt phù hợp trên cây phân cấp kết quả.
D. Không cần làm gì cả

39. Trong Orange, đối với thuật toán K-mean, tham số đầu vào nào sau đây dùng để kiểm soát trong
trường hợp dữ liệu hội tụ chậm hoặc không hội tụ:
A. Số lượng cụm (number of cluster)
B. Khởi tạo các phần tử đại diện của cụm (Initialization)
C. Số lần chạy (re-runs)
D. Số lần lặp tối đa (maximum iterations)

You might also like