Professional Documents
Culture Documents
Apache
Airflow
GVHD: ThS. Nguyễn Hồ Duy Tri
SVTH:
19520814 - Nguyễn Thị Phương Nhi
19521425 - Nguyễn Quốc Khánh
20521643 - Bùi Thị Thanh Ngân
20522090 - Phạm Lê Trưởng
Tổng quan về
Case Study
Apache Airflow
Cách hoạt động
Apache
Airflow
Setup Demo
Apache Airflow
Apache Airflow
Cung cấp tính năng xác thực và phân quyền Có tính năng xác thực và phân quyền, nhưng
mạnh mẽ không mạnh mẽ
Hỗ trợ tích hợp với nhiều nguồn dữ liệu và công Có tích hợp với nhiều công nghệ xử lý dữ liệu thời
cụ khác nhau như Hadoop, Spark, Hive, gian thực, nhưng không có mức độ tích hợp sâu
BigQuery,… như Airflow
Mỗi operator đại diện cho một công việc cụ thể trong quy trình, ví dụ như
đọc dữ liệu từ một nguồn dữ liệu, xử lý dữ liệu, hoặc ghi dữ liệu vào một nguồn
dữ liệu khác.
10
ExternalTaskSensor
11
12
Scheduler đọc các tệp DAG, kích hoạt các tác vụ theo các phần phụ
thuộc và theo dõi việc thực thi chúng. Nó luôn đồng bộ với tất cả các quy
trình công việc được lưu trong thư mục DAG và kiểm tra xem có thể bắt đầu
bất kỳ tác vụ nào hay không. Theo mặc định, việc tra cứu đó diễn ra mỗi
phút một lần nhưng bạn có thể định cấu hình tham số này.
Khi một tác vụ nhất định đã sẵn sàng để thực thi, người lập lịch sẽ gửi nó cho
executor
13
14
15
16
17
Apache Crunch và Apache Spark đang chạy nhiều quy trình trích xuất, đào tạo và đánh giá
tính năng. Và Sift có một đường dẫn dữ liệu nhập và xuất dữ liệu từ các cụm HBase và các
nguồn dữ liệu khác. Sift đã viết nhiều tập lệnh Java, shell và Python để xử lý tất cả các bước
này
Thật khó để theo dõi tất cả các quy trình và tập lệnh này bởi:
Các công cụ khác không cung cấp cách thể hiện sự phụ thuộc giữa các công việc định kỳ
Việc theo dõi tiến trình nhiệm vụ hoặc triển khai chức năng dừng và khởi động lại từ các
điểm tùy ý trong biểu đồ phụ thuộc là điều không hề đơn giản.
18
Example DAG
19
20
Example GantChart
21
22
Airflow
23
24
25