Professional Documents
Culture Documents
Thứ tự (1) Data transformation và (2) Data Integration trong quy trinh phân tích? Cùng 1
bước
Đặc trưng Volume của Big Data thể hiện về mặt? Dung lượng/ khối lượng info lưu trữ
Cho 2 phát biểu sau, chọn ans đúng? Google là hình thức lưu trữ trên cloud
Muốn thực hiện Thống kê = Descriptive Stat trên phần mềm thì ta dùng? Descriptive Stat
Bài toán tìm giá trị tối ưu của hàm mục tiêu với nhiều ràng buộc được giải quyết bởi? Solver
Bài toán phân tích độ nhạy 2 chiều trong excel được giải quyết bằng Data Table
Có thể so sánh Data mining với việc ‘đãi cát tìm vàng’ vì? Ko phải tập data nào cũng chưa
quy luật hữu ích
Công việc khai khoáng data đòi hỏi phải có hiểu biết về? Business và Data
Thứ tự của 2 bước xây dựng và đánh giá mô hình trong quy trình khai khoáng dữ liệu? ko có
thứ tự nhất định
Supervised learning có đặc điểm? all đều sai (tạo tri thức, có đầu vào, ko có đầu ra và các
cụm)
Unsupervised learning có đặc điểm? phân tích các đầu vào mới vào các cụm theo các đặc
trung của đầu vào đó
Qui tình khai thác dữ liệu CRISP-DM gồm mấy giai đoạn chính? 6
Hàm hồi quy logistic thường dùng cho bài toán? Phân lớp (classification)
Các phương pháp đánh giá mô hình phân lớp? good fitting, underfitting và overfitting
Pivot table là công cụ? lập báo cáo, tổng hợp data
Ưu điểm của thuật toán cây quyết định? dễ hiểu, diễn giải kết quả, áp dụng cho nhiều kiểu dữ
liệu khác nhau, không cần chuẩn hóa dữ liệu, không bị tác động bởi vấn đề dữ liệu bị thiếu,
phân lớp nhanh
Thuật toán SVM trong orange được áp dụng cho bài toán phân lớp dữ liệu là viết tắt của
Support vector machine
Muốn đọc data từ 1 file dữ liệu thì có các bước gì? Data file and data table
Trong orange, đối với thuật toán K-mean, tham số đầu vào nào …trường hợp quá trình phân
cụm dữ liệu hội tụ chậm hoặc ko hội tụ? số lần lặp tối đa (maximum iteration)
Feature là đặc trưng của dữ liệu; Target là thuộc tính phân lớp cả dữ liệu
Định dạng tệp tin dữ liệu mặc định của orange là tab
Select rows để trích xuất dữ liệu cho sắn, theo đk cho trước
Thuộc tính target của biến dữ liệu có thể hiểu là biến chịu ảnh hưởng các biến khác tỏng mô
hình
Phương pháp ko giám sát là phương pháp mà? các mục tiêu đầu ra ko có
F1 score là giá trị trung bình điều hòa (harmonic mean) của 2 độ do, gồm precision và recall
Damping factor theo phương pháp san bằng mũ (exponential smoothing) mang? Giá trị điều
chỉnh sự bất ổn dữ liệu
Data prep là giai đoạn 3; Big data là dữ liệu lớn, đa nguồn gốc và đa định dạng
Lọc và gom nhóm cùng lúc trong excel, dùng chức năng Pivot table
Phương pháp được sử dụng trong excel để thực hiện giải bài toán tối thiểu chi phí: Solver và
Goalset
Đâu không phải là phương pháp được hỗ trợ bởi excel để thực hiện dự báo: Forecast (chỉ có
hàm ko có phương pháp)
2 phương pháp có thể thấy được quy luật: hồi quy và cây quyết định
Thường sau bước thuật toán phân lớp sẽ đến bước gì? Đánh giá và lựa chọn thuật toán tốt
nhất
Để đánh giá độ chính xác của phương pháp phân lớp, đâu là phương pháp sai? Mô hình phức
tạp nhất (đúng confusion matrix, auc. accuracy)
Thể nào là phương pháp k-fold cross validation? Chia dữ liệu thành k tập con và đảm bảo tất
cả tập con đều đánh giá