Professional Documents
Culture Documents
Lựa chọn nào sau đây không phải là một bước trong quy trình khai thác dữ liệu:
A. Evaluation C. Data mining
B. Data understanding D. Data preparation
2. Để tính chỉ số EMA của chứng khoán người ta sử dụng phương pháp nào sau đây:
A. Tất cả đều sai C. Hồi quy (Regression)
B. San bằng mũ (Exponential Smoothing) D. Trung bình trượt (Moving Average)
4. Thuộc tính “Loại khách hàng” có giá trị: “VIP”, “Premium” và “Economic” là thuộc tính thuộc kiểu
dữ liệu nào sau đây:
A. Xếp hạng/thứ tự C. Liên tục
B. Rời rạc D. Định danh
5. Để tìm hiểu điều gì nên làm tiếp theo, người quản lý yêu cầu thông tin kết quả có được từ việc
A. phân tích mô tả (Descriptive Analytics) C. phân tích dự đoán (Predictive Analytics)
B. phân tích chuẩn đoán (Diagnostic Analytics) D. phân tích quy luật (Prescriptive Analytics)
6. Để dự đoán xu hướng tăng/giảm của một mã chứng khoán bất kỳ dự trên thông tin về giá cả,
lượng cổ phiếu mua vào và bán ra của các ngày trước đó. Ta sử dụng công cụ nào sau đây:
A. San bằng mũ (Exponential Smoothing) C. Trung bình trượt (Moving Average)
B. Hồi quy (Regression) D. Tất cả đều sai
7. Tiền xử lý dữ liệu không bao gồm các bước nào sau đây:
A. Rút gọn dữ liệu C. Làm sạch dữ liệu
B. Chuyển đổi dữ liệu D. Thu thập dữ liệu
8. Chọn phát biểu sai
A. Data mining là một trong những phương pháp phân tích dữ liệu của khoa học dữ liệu
B. Bigdata là công nghệ lưu trữ, xử lý và khai thác dữ liệu có dung lượng lớn (volume), đa dạng
(variety), đòi hỏi tốc độ cao (velocity) và có tính xác thực (veracity)
C. Internet vạn vật khiến cho lượng dữ liệu được thu thập tăng lên nhanh chóng
D. AI sử dụng kết quả của khoa học dữ liệu để thông minh hơn, chính xác hơn
9. Phân tích giỏ hàng là một kỹ thuật khai thác dữ liệu ________
A. Có giám sát C. Phân tích mô tả
B. Không giám sát D. Phân tích chẩn đoán
10. Công cụ thống kê nào được sử dụng để thao tác trên dữ liệu hai chiều:
A. Consolidate C. PivotTable
B. Subtotal D. Tất cả đều đúng
12. Phương pháp chọn mẫu dữ liệu nào sau đây thường dùng để khắc phục tình trạng over-fitting
A. Chọn mẫu ngẫu nhiên (Random sampling) C. Hold-out
B. Huấn luyện và kiểm thử trên cùng tập dữ D. Đánh giá chéo (K-fold cross validation)
liệu (Test on train data)
13. Để tìm hiểu điều gì sẽ xảy ra, người quản lý yêu cầuthông tin kết quả có được từ việc _____
A. phân tích quy luật (prescriptive analytics)
B. phân tích dự đoán (predictive analytics)
C. phân tích mô tả (descriptive analytics)
D. phân tích chuẩn đoán (diagnostic analytics)
14. Một người nghi ngờ bị bệnh lao đi thực nghiệm xét nghiệm kiểm tra lao. Nếu kết quả xét nghiệm
cho thấy người này bị lao trong khi anh tathật sự không mắc bệnh này thì trường hợpnày trong
đánh giá phân lớp gọi là
A. Tỷ lệ bỏ sót C. Độ nhạy
B. Độ phủ D. Tỷ lệ báo động nhầm
17. Giá trị tại phần tử (i;j) trong ma trận nhầm lẫn cho biết
A. Số lượng mẫu i không được phân vào mẫu j
B. Số lượng mẫu j phân lớp nhầm vào mẫu i
C. Số lượng mẫu i phân lớp nhầm vào mẫu j
D. Số lượng mẫu j được phân vào mẫu j
18. Thuật toán gom cụm nào sau đây cho phép một phần tử dữ liệu có thể thuộc về một hoặc nhiều
cụm khác nhau
A. Fuzzy C-mean C. K-mean
B. Diana D. Agnes
19. Thuật toán gom cụm nào sau đây không cần biết trước số cụm
A. K-mean C. Fuzzy C-mean
B. DBSCAN D. Diana hoặc Agnes
20. Để biết điều gì đã xảy ra, người quản lý yêu cầu thông tin kết quả có được từ việc_____
A. phân tích dữ đoán (predictive analytics)
B. phân tích quy luật (prescriptive analytics)
C. phân tích mô tả (descriptive analytics)
D. phân tích chuẩn đoán (diagnostic analytics)
21. Một phương pháp gom cụm tốt là phương pháp cho kết quả gom cụm mà trong đó
A. Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp
B. Độ tương đồng bên trong cụm thấp, đồng thời độ tương đồng giữa các cụm cao
C. Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm cao
D. Độ tương đồng bên trong cụm thấp, đồng thời độ tương đồng giữa các cụm thấp
23. Nhập số đếm của bạn tại lớp cho bài kiểm tra này.
24. Thuật toán nào sau đây cho phép xử lý trên nhiều kiểu dữ liệu/ loại dữ liệu khác nhau:
A. Logistic regression C. Mạng nơ ron
B. SVM D. Cây quyết định
25. So sánh kết quả giữa các thuật toán phân cụm khác nhau để xem xét tính hiệu quả của mô hình
phân cụm thuộc loại đánh giá nào sau đây:
A. Đánh giá tương đối C. Đánh giá ngoài
B. Đánh giá trong D. Tất cả đều sai
26. Để tìm hiểu lý do tại sao một điều gì đó đã xảy ra, người quản lý yêu cầu thông tin kết quả có
được từ việc _____
A. phân tích mô tả (descriptive analytics) C. phân tích quy luật (prescriptive analytics)
B. phân tích dự đoán (predictive analytics) D. phân tích chuẩn đoán (diagnostic
analytics)
27. Khoa học dữ liệu là một lĩnh vực giao thoa giữa
A. toán học/ thống kê C. khoa học máy tính
B. kiến thức chuyên ngành D. tất cả đều đúng
28. Thuật toán phân liệu tham gia vào quá trình nào trong mô hình phân lớp dữ liệu:
A. huấn luyện C. dự đoán
B. kiểm thử D. đánh giá
30. Trích xuất những tri thức kinh doanh được ẩn chứa bên trong dữ liệu và cung cấp cho
nhữngngười cần nó là mục đích của ________
A. BI (Business Intelligence – Kinh doanh thông minh)
B. ML (Machine learning – Máy học)
C. DA (Data analytic – Phân tích dữ liệu)
D. AI (Artificial Intelligence – Trí tuệ nhân tạo)
31. Các nguồn dữ liệu có thể có trong các thành phần của BI (Business Intelligence) là:
A. Purchased Data C. Tất cả các nguồn dữ liệu nêu trên
B. Operational Data
33. Các cấpđộ ứng dụng BI được liệt kê từ thấp đến cao là:
A. Informing – Deciding – Problem solving – Project Management
B. Informing – Problem solving – Project Management – Deciding
C. Project Management – Problem solving – Deciding – Informing
D. Informing – Problem solving – Deciding – Project Management
34. Định dạng dữ liệu nào sau đây khác với các loại dữ liệu còn lại
A. Dữ liệu âm thanh C. Dữ liệu video
B. Dữ liệu ảnh D. Dữ liệu số
35. Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc khác nhau, ta sử dụng:
A. Tự làm bằng tay C. PivotTable
B. Subtotal D. Consolidate
36. Đối với bài toán phân lớp đa nhãn/đa lớp thì chỉ số đánh giá nào thường được dùng để đánhgiá
độ hiệu quả của mô hình phân lớp
A. F1 – score C. Recall
B. Precision D. Accuracy
37. Trong orange, biến có kiểu dữ liệu categorical là để chỉ các thuộc tính:
A. Liên tục
B. Rời rạc
C. Định lượng
D. Số học
38. Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số
lượng cụm cụ thể ta cần làm gì?
A. Chọn số lượng cụm k trên hộp thoại.
B. Chọn phương pháp tính khoảng cách trước khi chọn thuật toán.
C. Chọn đường cắt phù hợp trên cây phân cấp kết quả.
D. Không cần làm gì cả
39. Trong Orange, đối với thuật toán K-mean, tham số đầu vào nào sau đây dùng để kiểm soát trong
trường hợp dữ liệu hội tụ chậm hoặc không hội tụ:
A. Số lượng cụm (number of cluster)
B. Khởi tạo các phần tử đại diện của cụm (Initialization)
C. Số lần chạy (re-runs)
D. Số lần lặp tối đa (maximum iterations)