Professional Documents
Culture Documents
1. Big Data là gì ?
Câu 1: Từ nào dưới đây không phù hợp để mô tả dữ liệu trong Big Data?
1. Dữ liệu có thể được thu thập theo thời gian thực
2. Khối lượng rất lớn
3. Phức tạp
4. Tất cả dữ liệu là không có cấu trúc
Câu 2: Đơn vị thường được dùng để đo khối lượng dữ liệu trong BigData là gì?
1. megabyte (MB) hay gigabyte (GB)
2. terabyte (TB) hay petabyte (PB)
3. gigabyte (GB) hay terabyte (TB)
4. megabyte (MB)
Câu 3: Đặc trưng nào dưới đây không thuộc 5Vs trong Big Data ?
1. Khối lượng
2. Tốc độ
3. Sạch sẽ
4. Mật độ giá trị lớn
Câu 4: Đặc trưng "Giá trị" của Big Data có ý nghĩa như thế nào?
1. Giá trị lớn nhưng mật độ thấp
2. Giá trị lớn và dễ dàng thu thập
3. Giá trị chỉ có trong IoT
4. Phân tích và xử lý dễ dàng để có được giá trị cao
Câu 5: Đặc trưng "Đa dạng" của Big Data có ý nghĩa như thế nào?
1. Đa dạng về đối tượng mà dữ liệu thể hiện
2. Đa dạng về lượng thông tin mà dữ liệu đem lại
3. Đa dạng về cấu trúc, hình dáng dữ liệu
4. Đa dạng công cụ và phương pháp xử lý dữ liệu
Câu 6: Đặc trưng "Tốc độ" của Big Data có ý nghĩa như thế nào?
1. Phân tích dữ liệu nhanh
2. Thu thập và truyền tải dữ liệu nhanh
3. Dữ liệu tăng nhanh
4. Cả 3 phương án trên đều đúng
Câu 7: Đặc trưng "Khối lượng" của Big Data có ý nghĩa như thế nào?
1. Khối lượng dữ liệu rất lớn
2. Khối lượng truy cập rất lớn
3. Khối lượng công việc lớn
4. Khối lượng truy cập vô hạn
Câu 8: Câu "Dữ liệu bị thay đổi khi truyền tới Trung tâm dữ liệu" thể hiện đặc trưng
nào của Big Data?
1. Khối lượng
2. Tốc độ
3. Xác thực
4. Đa dạng
Câu 11: Cơ sở dữ liệu nào được sử dụng trong khi xử lý dữ liệu lớn?
1. SQL
2. noSQL
3. Lưu trữ thô
4. Tất cả phương án được nêu ra
2. Thách thức của Big Data
Câu 1: Tại sao việc biểu diễn dữ liệu là một khó khăn trong Big Data?
1. Vì dữ liệu đa dạng, không đồng nhất
2. Vì dữ liệu quá lớn
3. Vì nhu cầu xử lý dữ liệu nhanh
4. Vì dữ liệu sẽ hết giá trị sau một khoảng thời gian
Câu 2: Việc biểu diễn dữ liệu là cần thiết trong Big Data là vì ...
1. nó giúp là giảm dữ liệu dư thừa
2. nó giúp thuật toán phân tích hoạt động nhanh hơn
3. nó giúp chúng ta hiểu hơn về dữ liệu, từ đó phân tích hiệu quả hơn
4. nó gây cản trở phân tích, làm sai, thậm chí còn làm mất nội dung dữ liệu
Câu 4: "Dữ liệu có khối lượng lớn nhưng mật độ giá trị thấp" là vấn đề mà thách
thức nào cần giải quyết?
1. Biểu diễn dữ liệu
2. Quản lý vòng đời dữ liệu
3. Cơ chế phân tích
4. Giảm dư thừa và nén dữ liệu
Câu 5: "Dữ liệu lớn, tăng nhanh chóng và có tính tươi mới" là vấn đề mà thách thức
nào cần giải quyết?
1. Biểu diễn dữ liệu
2. Quản lý vòng đời dữ liệu
3. Cơ chế phân tích
4. Giảm dư thừa và nén dữ liệu
Câu 6: Đâu không phải lý do để chúng ta cần phát triển các phương pháp quản lý
vòng đời dữ liệu tốt?
1. Loại bỏ dữ liệu cũ, hết quá trị
2. Đưa ra quyết định đúng, hiệu quả
3. Giảm chi phí lưu trữ dữ liệu
4. Gia tăng sự tham gia kết hợp giữa các chuyên gia
Câu 7: Tại sao chúng ta cần nâng cao khả năng và cơ chế phân tích?
1. Vì chúng ta cần phân tích dữ liệu có khối lượng lớn, không đồng nhất trong một thời gian hưu hạn để
đưa ra những giá trị mong muốn
2. Vì chúng ta cần giảm không gian lưu trữ dữ liệu có khối lượng lớn.
3. Vì chúng ta muốn hiểu rõ hơn về dữ liệu, làm cho dữ liệu có ý nghĩa hơn cho phân tích máy tính và sự giải thích
người dùng
4. Vì để quyết định chính xác dữ liệu nào cần lưu trữ, dữ liệu nào được loại bỏ
Câu 8: Đâu không i để trung tâm dữ liệu của mình xuống đáy biển (Biển Bắc gần quần
đảo Orkney)?
1. Tiết kiệm chi phí bảo trì máy tính
2. Tiết kiệm chi phí làm mát hệ thống
3. Tiết kiệm chi phí dọn dẹp hệ thống
4. Phân tích và xử lý dữ liệu nhanh hơn
Câu 9: Tại sao chúng ta cần nâng cao khả năng quản lý năng lượng trong
BigData?
1. Dữ liệu có khối lượng khủng lồ
2. Vì để quyết định chính xác dữ liệu nào cần lưu trữ, dữ liệu nào được loại bỏ
3. Vì chúng ta cần giảm không gian lưu trữ dữ liệu có khối lượng lớn.
4. Vì sự gia tăng của dung lượng dữ liệu và nhu cầu phân tích, xử lý, lưu trữ và truyền tải big data ngày
càng nhiều năng lượng.
Câu 10: Do nhu cầu thuật toán xử lý dữ liệu và cơ sở lưu trữ dữ liệu phải có khả năng
xử lý các tập dữ liệu ngày càng mở rộng và phức tạp hơn, chúng ta đương đầu với
thách thức nào? (chọn phương án đúng nhất)
1. Biểu diễn dữ liệu
2. Quản lý năng lượng
3. Khả năng mở rộng và thay đổi
4. Sự hợp tác
Câu 11: Do phân tích dữ liệu lớn là một nghiên cứu liên ngành, khi nghiên cứu và phân
tích big data, chúng ta đương đầu với thách thức nào?
1. Khả năng mở rộng và thay đổi
2. Sự hợp tác
3. Các công nghệ liên quan
3.1 Điện toán đám mây
Câu 6. Vai trò chính của Điện toán đám mây đối với Big Data là gì?
1. Là phương pháp thu dữ liệu
2. Là kỹ thuật truyền dẫn dữ liệu
3. Là phương pháp phân tích, xử lý dữ liệu
4. Là công nghệ lưu trữ dữ liệu
3.2. IoT
Câu 1: IoT là gì ?
1. mạng kết nối các đồ vật và thiết bị thông qua cảm biến, phần mềm và các công nghệ khác, cho phép các đồ vật
và thiết bị thu thập và trao đổi dữ liệu với nhau.
2. Internet vạn vật
3. Internet of Things
4. Tất cả phương án đã đề cập là đúng
Câu 2: IoT sử dụng internet để có thể kết nối và giao tiếp với những đối tương nào ?
1. Thiết bị cảm biến
2. Camera an ninh
3. Thiết bị di động như điện thoại
4. Tất cả phương án đã đề cập là đúng
Câu 3: Những ứng dụng nào không phải là ứng dụng của IoT ?
1. Máy bay tưới phân bón có người lái
2. Cửa hàng Amazon go
3. Nhà thông minh
4. Đồng hồ thông minh
Câu 4: Đâu là một trong những tính năng chính mà IoT có mối liên hệ chặt chẽ và cùng
nhau phát triển với Big Data?
1. Thiết bị cảm biến phong phú
2. Thông minh
3. Tự động phản hồi
4. Có thể điều khuyển từ xa
Câu 5: Đâu là một trong những tính năng chính mà IoT có mối liên hệ chặt chẽ và cùng
nhau phát triển với Big Data?
1. Kết nối qua internet
2. Dữ liệu thường là bán cấu trúc hoặc không cấu trúc
3. Tự động hóa
4. Có thể điều khuyển từ xa
Câu 6: Đâu là một trong những tính năng chính mà IoT có mối liên hệ chặt chẽ và cùng
nhau phát triển với Big Data?
1. Kết nối qua internet
2. Tiện lợi cho người dùng
3. Tự động hóa
4. Dữ liệu chỉ có ích khi được phân tích
Câu 7: Đặc trưng nào của Big Data mà không liên quan tới IoT nhất trong các đặc
trưng dưới đây?
1. Độ lớn
2. Xác thực
3. Đa dạng
4. Giá trị
Câu 8: Dữ liệu lớn và IoT phải được kết nối với nhau qua gì?
1. Cảm biến, mạng internet, con người
2. Chip xử lý, cảm biến, mạng internet
3. Cảm biến, mạng internet
4. Con người, mạng internet, máy tính
Câu 9: Tại sao IoT có ý nghĩa mật thiết với đặc trưng "Độ lớn" của Big Data
1. Tiện lợi sử dụng cho con người
2. Thiết bị phong phú và thông minh
3. Thông minh và tự động
4. Thiết bị phong phú, thu và xử lý thời gian thực
Câu 10: Ngành nghề nào dưới đây không ứng dụng được IoT để gia tăng hiệu quả?
1. Ngành nông nghiệp
2. Ngành bán lẻ
3. Logistic
4. Không có ngành nào đã nêu
Câu 11. Vai trò chính của IoT đối với Big Data là gì?
1. Là phương pháp thu dữ liệu
2. Là kỹ thuật truyền dẫn dữ liệu
3. Là phương pháp phân tích, xử lý dữ liệu
4. Là công nghệ lưu trữ dữ liệu
3.3. AI
Câu 1. AI là gì?
1. là Artificial intelligence
2. là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự động hóa các hành vi thông minh như
con người.
3. là một ngành thuộc lĩnh vực khoa học máy tính (Computer science)
4. Tất cả đáp án đã nêu.
Câu 2. Trong y tế hiện nay, đâu là ứng dụng mà AI có thể làm hoặc hỗ trợ được ?
1. Chụp ảnh X-quang
2. Đo điện não đồ
3. Chẩn đoán bệnh
4. Trả bệnh án
Câu 4. AI có vai trò như thế nào đối với Big Data?
1. Là phương pháp thu dữ liệu
2. Là kỹ thuật truyền dẫn dữ liệu
3. Là phương pháp phân tích, xử lý dữ liệu
4. Tất cả các vai trò được nêu
3.4 Hadoop
Câu 4. Công nghệ, mô hình lập trình nào dưới đây không được Hadoop sử dụng?
1. Pregel
2. HDFS
3. YARN
4. MapReduce
Câu 5. Tại sao Hadoop quan trọng đối với Big Data?
1. Vì nó có khả năng phân tích dữ liệu nhờ những thuật toán và công nghệ mạnh mẽ
2. Vì nó có khả năng truyền tải dữ liệu nhanh, đáp ứng nhu cầu cho dữ liệu lớn
3. Vì nó có khả năng lưu trữ và xử lý dữ liệu lớn, linh hoạt và dễ mở rộng
4. Tất cả những lý do đã đề cập đều đúng
Câu 3. Các phương pháp thường được sử dụng để thu thập dữ liệu:
1. Log file
2. Cảm biến
3. Thu thập dữ liệu trên mạng: web crawler
4. Tất cả các phương án được đưa ra
Câu 7. Truyền tải nào phụ thuộc vào kết nối vật lý, chíp, bộ nhớ trong trung tâm dữ
liệu\
1. Inter-DCN
2. Intra-DCN
3. WDM
4. OFDM
Câu 8. Tại sao chúng ta cần tiền xử lý dữ liệu trước khi lưu trữ?
1. Vì sự đa dạng dữ liệu và nhiễu
2. Vì nó làm giảm lãng phí lưu trữ
3. Vì dữ liệu không đồng nhất
4. Tất cả các phương án được đưa ra
Câu 9: Kỹ thuật "Tích hợp" trong tiền xử lý dữ liệu nhằm mục đích ...
1. kết hợp dữ liệu từ các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về dữ liệu
2. xác định dữ liệu không chính xác, không đầy đủ, ... sau đó sửa đổi hoặc xóa dữ liệu đó để cải thiện chất lượng dữ
liệu
3. loại bỏ dữ liệu lặp đi lặp lại, giảm dư thừa dữ liệu, tránh lãng phí không gian lưu trữ
4. Tất cả các phương án được đưa ra
Câu 10: Kỹ thuật "Dọn dẹp" trong tiền xử lý dữ liệu nhằm mục đích ...
1. kết hợp dữ liệu từ các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về dữ liệu
2. xác định dữ liệu không chính xác, không đầy đủ, ... sau đó sửa đổi hoặc xóa dữ liệu đó để cải thiện chất
lượng dữ liệu
3. loại bỏ dữ liệu lặp đi lặp lại, giảm dư thừa dữ liệu, tránh lãng phí không gian lưu trữ
4. Tất cả các phương án được đưa ra
Câu 11: Kỹ thuật "Loại bỏ dư thừa" trong tiền xử lý dữ liệu nhằm mục đích
...
1. kết hợp dữ liệu từ các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về dữ liệu
2. xác định dữ liệu không chính xác, không đầy đủ, ... sau đó sửa đổi hoặc xóa dữ liệu đó để cải thiện chất lượng dữ
liệu
3. loại bỏ dữ liệu lặp đi lặp lại, giảm dư thừa dữ liệu, tránh lãng phí không gian lưu trữ
4. Tất cả các phương án được đưa ra
Câu 12: Trong tiền xử lý dữ liệu, chúng ta sử dụng danh sách định danh để làm gì?
1. Loại bỏ những giữ liệu lặp đi lặp lại
2. Nén dữ liệu
3. Dọn dẹp những dữ liệu lỗi
4. Không phải đáp án nào đã nêu
5. Phân tích dữ liệu truyền thống
Câu1: Phương pháp phân tích cụm (Cluster analys) là ...
1. phương pháp nhóm các đối tượng, phân loại đối tượng theo một số tính năng
2. phương pháp nghiên cứu có giám sát
3. phương pháp không có sự huấn luyện dữ liệu
4. Tất cả phương án trên đều đúng
Câu 3: Phương pháp phân tích tương quan (Correlation analys) là ...
1. phương pháp phân tích để xác định luật luật của các quan hệ
2. gồm 2 loại là tương quan hàm và sự tương quan
3. phương pháp mô tả mối quan hệ giữa nhiều phần tử với chỉ vài nhân tố
4. Tất cả phương án trên đều đúng
Câu 6: Trong hoàn cảnh dịch bệnh, chúng ta nhóm các vùng bệnh thành các vùng
xanh, cảm, đỏ theo số lượng ca mắc COVID. Chúng ta sử dụng phương pháp chính
gì?
1. Phân tích cụm
2. Phân tích nhân tố
3. Phân tích hồi quy
4. Phân tích tương quan
Câu 7: Bạn có trong tay dữ liệu bán hàng của một của hàng, bạn muốn tìm xem mối
quan hệ mua hàng của các sản phẩm bán được với mặt hàng bánh mỳ thông qua một
bộ dữ liệu các đơn hàng đã bán. Bạn cần sử dụng phương
pháp gì?
1. Phân tích cụm
2. Phân tích nhân tố
3. Phân tích hồi quy
4. Phân tích tương quan
Câu 8: Bạn có dữ liệu bán nhà gồm rất nhiều ngôi nhà và giá có các đặc trưng như số
lượng phòng ngủ, số tầng, diện tích đất, nhà mặt đường ... và giá nhà.
Bạn có một ngôi nhà và muốn bán nó. Với các thông số có thể đo đạt và tính toán, bạn
muốn dự đoán giá nhà của mình thì bạn cân sử dụng phương pháp gì?
1. Phân tích cụm
2. Phân tích nhân tố
6. Phân tích dữ liệu BigData
Câu 1: Bloom Filter ....
1. là một cấu trúc dữ liệu xác suất
2. là một phương pháp phân tích thống kê
3. gồm một loạt các hàm băm
4. là một phương pháp kiểm thử
Câu 2: Điền vào ô trống: Bloom Filter kiểm tại một phần tử.................trong cơ sở dữ
liệu.
1. chắc chắn tồn tại
2. chắc chắn không tồn tại
3. có thể tồn tại
4. có thể tồn tại hoặc chắc chắn không tồn tại
Câu 4: Tại sao tồn tại dương tính giả khi kiểm tra một phần tử có tồn tại hay không?
1. Nhầm lẫn trong thiết kế thuật toán
2. Không quan tâm thứ tự đâu ra các hàm băm
3. Dữ liệu quá lớn đến lỗi không xác định được
4. Tính chất của hàm băm với đầu ra nhỏ
Câu 5: "Đầu vào là một nội dung có kích thước, độ dài bất kỳ rồi sử dụng
những thuật toán, công thức toán học để biến thành đầu ra tiêu chuẩn có độ dài nhất
định" là nói về gì?
1. Thuật toán tìm kiếm
2. Thuật toán băm
3. Hồi quy
4. Cây trie
Câu 9: Câu "một cấu trúc dữ liệu sử dụng cây có thứ tự, dùng để lưu trữ một mảng
liên kết của các xâu ký tự" và "mỗi nút liên kết với một xâu ký tự sao cho các xâu ký
tự của tất cả các nút con của một nút đều có chung một tiền tố" là nói về cái gì?
1. Hàm băm
2. Trie
3. Cây tiền tố
4. Bloom Filter
Câu 2: Xét 1 cơ sở dữ liệu giao tác có tập các mục là 𝐼 = {𝑁, 𝑃 , 𝑄, 𝑋, 𝑌 , 𝑍} . Nếu
tập {𝑃 , 𝑄, 𝑋} KHÔNG là tập mục thường xuyên thì kết luận nào sau đây chắc
chắn đúng?
1. {𝑋, 𝑌 , 𝑃 } là tập mục thường xuyên
2. {𝑋, 𝑌 , 𝑃 , 𝑄} là không phải tập mục thường xuyên
3. {𝑄} là tập mục thường xuyên
4. Tất cả tập chứa {𝑃 , 𝑄, 𝑋} không là tập mục thường xuyên
Câu 3: Xét 1 cơ sở dữ liệu giao tác có tập các mục là 𝐼 = {𝑁, 𝑃 , 𝑄, 𝑋, 𝑌 , 𝑍} . Nếu
tập {𝑃 , 𝑄, 𝑋} có độ hỗ trợ là 0.5 thì các kết luận dưới đây, kết luận nào là không
thể có ?
1. Tập {𝑃 , 𝑄, 𝑋, 𝑌 } có độ hỗ trợ là 0.3
2. Tập {𝑃 , 𝑄} có độ hỗ trợ là 0.3
3. Tập {𝑄, 𝑋, 𝑌 } có độ hỗ trợ là 0.3
4. Tập {𝑋, 𝑌 , 𝑃 } có độ hỗ trợ là 0.6
Câu 1: Xét 1 cơ sở dữ liệu giao tác có tập các mục là 𝐼 = {𝑁, 𝑃 , 𝑄, 𝑋, 𝑌 , 𝑍} . Nếu
tập {𝑁, 𝑃 , 𝑄, 𝑋} là tập mục thường xuyên thì kết luận nào sau đây chắc chắn
đúng?
1. {𝑋, 𝑌 , 𝑃 } là tập mục thường xuyên
2. {𝑋, 𝑃 , 𝑁} là tập mục thường xuyên
3. {} là tập mục thường xuyên
4. Tất cả tập chứa {𝑃 , 𝑄, 𝑋, 𝑌 } là tập mục thường xuyên
Câu 2: Xét 1 cơ sở dữ liệu giao tác có tập các mục là 𝐼 = {𝑁, 𝑃 , 𝑄, 𝑋, 𝑌 , 𝑍} . Nếu tập
{𝑄, 𝑋} KHÔNG là tập mục thường xuyên thì kết luận nào sau đây chắc chắn đúng?
1 1 0 0 1 1 0
1 1 1 1 0 0 1
0 0 0 1 1 0 1
0 1 1 0 1 1 1
Câu 1: Cho bảng quyết định DS cụ thể như trên, kết luận nào sau đây đúng?
n p q x y z d
1 1 0 0 1 1 0
1 1 1 1 0 0 1
0 0 0 1 1 0 1
1 1 0 0 1 1 1
Câu 2: Cho bảng quyết định DS cụ thể như trên, kết luận nào sau đây đúng?