Professional Documents
Culture Documents
MSSV: 19133061
jps
wget https://raw.githubusercontent.com/drolando/CloudsLabs/master/pig/sample-
input/NETWORK_TRAFFIC/tstat-sample.txt
Exercise 1:
Kết quả được lưu trong part-r-00000
Ngoài cách lưu kết quả thực thi ra file output/ex1 thì chúng ta có dùng các hàm Describe, illustrate để
mô tả biến kết quả B hoặc Dump C để xem trực tiếp kết quả thực thi của C.
Để tiện cho việc thực thi chúng ta ta tạo file script_ex1.pig với nội dung như sau
…
Chuẩn bị dữ liệu trên hdfs
Kiểm tra dữ liệu bằng hdfs dfs -cat ‘đường dẫn’
1. Lệnh GROUP BY có nhiệm vụ gom nhóm các phần tử, cấu trúc 1 nhóm là:
Map phase chỉ định khóa để nhóm, reduce phace tiếng hành quá trình grouping
2. Foreach dùng để duyệt tuần tự từng dòng dữ liệu để thực hiện các operations.
Có thể trong cả hai phase Foreach được áp dụng trong exercise này.
3. Mô tả ngắn gọn cách hoạt động của Pig:
+ Pig Latin script được biên dịch thành các MapReduce jobs và được thực thi bằng Hadoop
+ Mô hình Lazy execution được áp dụng: không có process nào được thực hiện khi xây dựng các
kế hoạch logic.
Trình biên dịch chuyển đổi các lệnh logic thành các MapReduce jobs
Tối ưu hóa
Hoặc chúng ta cũng có thể xác định số reducers cụ thể để chạy một tiến trình
6. Có một nguyên tắc đơn giản về số lượng mappers. Càng có nhiều file sau quá trình spit càng
có nhiều mappers Số mapper không cố định. Chúng ta có thể giảm số lượng mappers
bằng cách cấu hình pig.maxCombinedSplitSize.
Exercise 2.
#Exercise được chạy bằng mapreduce mode
Copy file script_ex1.pig để sử dụng với tên gọi mới script_ex2.pig
Chỉ giữ lại phần load data (biến A), phần còn lại chỉnh sửa như sau
Kết quả sau khi khởi chạy
#Không có kết quả trả về về vì không có TCP nào có fqdn chứa ‘google.it’
Thử thay đổi nội dung chuỗi dùng để match
Trả lời câu hỏi (Đã trả lời trong Exercise 1):
Mặc định có 1 reducers được sử dụng. Chúng ta có thể thay đổi số reducers mặc định bằng lệnh sau
Hoặc chúng ta cũng có thể xác định số reducers cụ thể để chạy một tiến trình
Exercise 3:
Tương tự như Exercise 2, tạo bản sao từ file script_ex2.pig với tên gọi mới script_ex3.pig và nội
dung thay đổi như hình dưới
Kết quả chạy file với mode mapreduce
Exercise 6:
Tương tự các bài trước cũng copy 1 file với tên file là script_ex6.pig và chỉnh sửa với nội dung
Không có sample nào mà win_min_c == 1460 Không thể tính phần trăm
Thử đổi đề thành win_min_c == 5840
Có thể dùng số liệu này để tính Cấu hình script_ex7.pig như hình dưới
Kết quả thực thi (25%)
…
Kết quả thực thi: