Professional Documents
Culture Documents
ETL - SSIS
2
NỘI DUNG CHÍNH
3 Tải dữ liệu
3
ETL (1)
4
ETL (2)
5
Các thách thức ETL
6
ETL – Vùng Stagging (1)
Vùng Stagging: Vùng đệm dùng để xử lý dữ liệu trong quá trình ETL
Chỉ các tiến trình ETL mới có quyền đọc, ghi vào vùng stagging.
Người dùng thông thường và các báo cáo không được phép truy cập vào vùng staging
7
ETL – Vùng Stagging (2)
8
Trích chọn dữ liệu (1)
9
Trích chọn dữ liệu (2)
10
Trích chọn dữ liệu (3)
Xây dựng ánh xạ logic: Xây dựng ánh xạ kết nối dữ liệu nguồn và dữ liệu đích
Pha khám phá dữ liệu: Thu thập và tài liệu hóa các hệ thống nguồn dữ liệu: databases, tables, relations,
cardinality, keys, data types
Pha Phát hiện các dị thường trong dữ liệu nguồn
11
Trích chọn dữ liệu (4)
12
Chuyển đổi dữ liệu (1)
13
Chuyển đổi dữ liệu (2)
14
Chuyển đổi dữ liệu (3)
15
Tải dữ liệu (1)
Tải dữ liệu : Tiến trình tải dữ liệu có thể chia thành 2 dạng sau:
Tải lần đầu
Cung cấp các bảng dimension
Cung cấp các bảng fact
Tải các lần sau
Phải được lập kế hoạch và xử lý theo một thứ tự nhất định để đảm bảo tính toàn vẹn, hoàn chỉnh
và đáp ứng các mức tin cậy
Là bước lập kế hoạch cẩn thận nhất trong tiến trình vận hành DWH. Ở đây có thể xảy ra:
• Lỗi trùng lặp dữ liệu
• Tăng sự không nhất quán trong dữ liệu
Cần phân biệt dữ liệu cập nhật và chèn thêm
Tải dữ liệu cập nhật
Tải chèn thêm sử dụng bulk loaders
Xây dựng lại các chỉ mục
16
Tải dữ liệu (2)
17
SQL Server Integration Service
18
Kiến trúc SSIS
19
Các thành phần SSIS (1)
20
Các thành phần SSIS (2)
Control Flow
21
Điều kiện thực hiện trong Control Flow
22
Ví dụ Control Flow
23
Các thành phần SSIS (2)
Data Flow
24
Kiểu dữ liệu của data (1)
25
Kiểu dữ liệu của data (2)
26
27