Professional Documents
Culture Documents
► Vấn đề:
❑ Định dạng đầu vào đa dạng (dữ liệu đa dạng & không đồng
nhất)
❑ Quy mô lớn: Terabyte, Petabyte
❑ Song song hóa
w1 w2 w3
r1 r2 r3
“Result” Combine
► Yêu cầu:
❑ Viết mã giả để giải bài toán này
❑ Viết lại với 3 Threads song song cùng xử lý
the, 1
brown, 1
the quick fox, 1 brown, 2
brown fox Map
fox, 2
Reduce how, 1
now, 1
the, 1 the, 3
fox, 1
the, 1
the fox ate
the mouse Map
quick, 1
how, 1
now, 1 ate, 1 ate, 1
brown, 1 mouse, 1 cow, 1
Reduce
mouse, 1
how now quick, 1
Map cow, 1
brown cow
BUSINESSCó
INFORMATION
cách nào tốiTECHNOLOGY
ưu hóa để tính nhanh hơn?
27
Tối ưu hóa
► Sử dụng combiner:
❑ Cho các khóa lặp lại
❑ Các tác vụ tổng hợp: sum, count, max,..
❑ Giúp giảm kích thước của dữ liệu trung gian
► Vi dụ:
❑ def combiner(key, values):
❑ output(key, sum(values))
the, 1
brown, 1
the quick fox, 1 brown, 2
brown fox Map
fox, 2
Reduce how, 1
now, 1
the, 3
the, 2
fox, 1
the fox ate
the mouse Map
quick, 1
how, 1
now, 1 ate, 1 ate, 1
brown, 1 mouse, 1 cow, 1
Reduce
mouse, 1
how now quick, 1
Map cow, 1
brown cow