You are on page 1of 19

Nguyễn Hoàng Ân – annh@buh.edu.

vn
Kho dữ liệu và
Hệ thống hỗ trợ
ra quyết định
Chương 4: Tích hợp dữ liệu
Nội dung
1. Tổng quan về tích hợp dữ liệu
2. Tiến trình tích hợp, chuyển đổi và tải (ETL)

Nguyễn Hoàng Ân – annh@buh.edu.vn


3. Một số vấn đề trong tích hợp dữ liệu
4. Giới thiệu về công cụ SSIS
5. Tích hợp dữ liệu với công cụ SSIS

Data Warehouse and Decision support systems


Nguyễn Hoàng Ân – annh@buh.edu.vn
1. Tổng quan về tích
hợp dữ liệu
▪ Khái niệm
▪ Phương pháp và công nghệ tích hợp dữ liệu
3

Data Warehouse and Decision support systems


1.1 Khái niệm
✓Tích hợp dữ liệu (Data Integration) là sự phối hợp giữa kỹ thuật
và quy trình kinh doanh để kết hợp dữ liệu từ các nguồn khác

Nguyễn Hoàng Ân – annh@buh.edu.vn


nhau vá biến chúng trở thành các thông tin có ý nghĩa và giá trị
(https://www.ibm.com/analytics/data-integration)
✓Còn theo dataintegration.info, tích hợp dữ liệu là quá trình kết
hợp dữ liệu từ nhiều nguồn được lưu trữ bằng cách sử dụng
nhiều công nghệ khác nhau để cung cấp một cái nhìn thống nhất
cho toàn bộ dữ liệu của doanh nghiệp
(https://www.dataintegration.info/data-integration)

Data Warehouse and Decision support systems


1.2 Phương pháp và công nghệ tích hợp dữ liệu
Tích hợp dữ liệu là một khuôn
khổ các ứng dụng

Nguyễn Hoàng Ân – annh@buh.edu.vn


(applications), công cụ (tools),
kỹ thuật (techniques) và công
nghệ (technologies) và dịch vụ
quản lý (management services)
nhằm cung cấp một cái nhìn
thống nhất và nhất quán về dữ
liệu kinh doanh của doanh
nghiệp, các quy trình kinh
doanh và người dùng doanh
White, Colin, A roadmap to enterprise data integration, 2006 nghiệp (White, 2006) 5

Data Warehouse and Decision support systems


1.2 Phương pháp và công nghệ tích hợp dữ liệu
✓Ứng dụng là các giải pháp được tùy chỉnh hoặc do nhà cung cấp
phát triển sử dụng một hoặc nhiều công cụ tích hợp dữ liệu

Nguyễn Hoàng Ân – annh@buh.edu.vn


✓Công cụ là các giải pháp thương mại hỗ trợ một hoặc nhiều
công nghệ tích hợp dữ liệu. Các công cụ này được sử dụng để
xây dựng ứng dụng tích hợp dữ liệu.
✓Công nghệ sẽ thực hiện một hoặc nhiều kỹ thuật tích hợp dữ
liệu
✓Kỹ thuật là phương pháp tiếp cận độc lập để thực hiện tích hợp
dữ liệu.
✓Dịch vụ quản lý sẽ hỗ trợ quản lý chất lượng dữ liệu, siêu dữ
liệu, và các hoạt động của hệ thống tích hợp dữ liệu. 6

Data Warehouse and Decision support systems


1.2.1 Kỹ thuật tích hợp dữ liệu

Nguyễn Hoàng Ân – annh@buh.edu.vn


7

Data Warehouse and Decision support systems


White, Colin, A roadmap to enterprise data integration, 2006
1.2.1 Kỹ thuật tích hợp dữ liệu
✓Hợp nhất dữ liệu (Data consolidation): dữ liệu được thu thập từ
nhiều nguồn khác nhau và được tích hợp vào một chứa duy nhất.

Nguyễn Hoàng Ân – annh@buh.edu.vn


✓Liên hiệp dữ liệu (Data Federation): Cung cấp một khung nhìn
ảo (View) duy nhất từ nhiều nguồn dữ liệu khác nhau. Phương
pháp này luôn kéo dữ liệu (pull) từ nhiều nguồn dữ liệu khác
nhau theo yêu cầu.
✓Lan truyền dữ liệu (Data Propagation): Sao chép dữ liệu từ nơi
này đến nơi khác. Các ứng dụng dạng này thường hoạt động trực
tuyến và đẩy dữ liệu (push) đến vi trí cần sao chép. Việc cập nhật
dữ liệu có thể được truyền theo phương thức đồng bộ hoặc bất
đồng bộ.
8

Data Warehouse and Decision support systems


1.2.2 Công nghệ tích hợp dữ liệu
✓Công nghệ ETL (Extract, Tranform, Load)
✓Công nghệ EII (Enterprise Information Integration)

Nguyễn Hoàng Ân – annh@buh.edu.vn


✓Công nghệ EAI (Enterprise application integration)

Data Warehouse and Decision support systems


Nguyễn Hoàng Ân – annh@buh.edu.vn
2. Tích hợp dữ liệu
với tiến trình ETL

10

Data Warehouse and Decision support systems


2. Tích hợp dữ liệu với tiến trình ETL

Trích xuất (Extract): Lấy dữ liệu từ nhiều nguồn khác nhau,


nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô.

Nguyễn Hoàng Ân – annh@buh.edu.vn


Chuyển đổi (Transform): quá trình phức tạp để biến đổi dữ liệu
nguồn, làm cho phù hợp và chuyển vào cơ sở dữ liệu đích.
Đây là bước quan trọng nhất, thực hiện hầu hết các nhiệm vụ
của tiến trình ETL.

Tải dữ liệu (Load): Đẩy dữ liệu đã được chuyển đổi vào kho dữ
liệu.
11

Data Warehouse and Decision support systems


2.2 Các vấn đề khi tích hợp dữ liệu
✓Vấn đề cập nhật dữ liệu trong thời hoan thực:
▪ Dữ liệu thường cập nhật theo lô (batch), được lập lịch để thực hiện vào

Nguyễn Hoàng Ân – annh@buh.edu.vn


thời gian thấp điểm.
▪ Việc cập nhật theo thời gian thực có nhiều khó khăn.
✓Vấn đề không nhất quán quản lý dữ liệu khi thực hiện truy vấn.

12

Data Warehouse and Decision support systems


4. Giới thiệu về công cụ SSIS

Nguyễn Hoàng Ân – annh@buh.edu.vn


13

Data Warehouse and Decision support systems


Kiến trúc SSIS

Nguyễn Hoàng Ân – annh@buh.edu.vn


14

Data Warehouse and Decision support systems


SQL Server Data Tools
✓Packages (gói)
✓Control Flow (Stores containers and Tasks)

Nguyễn Hoàng Ân – annh@buh.edu.vn


✓Data Flow (Source, Destination, Transformations)
✓Event Handler (sending of messages, Emails)
✓Package Explorer (Offers a single view for all in package)
✓Parameters (User Interaction)

15

Data Warehouse and Decision support systems


Nguyễn Hoàng Ân – annh@buh.edu.vn
16

Data Warehouse and Decision support systems


Control Flow

Nguyễn Hoàng Ân – annh@buh.edu.vn


17

Data Warehouse and Decision support systems


Nguyễn Hoàng Ân – annh@buh.edu.vn
18

Data Warehouse and Decision support systems


Tham khảo
✓Cơ sở dữ liệu mẫu AdventureWorks
▪ Sử dụng AdventureWorks2012.bak và AdventureWorksDW2012.bak

Nguyễn Hoàng Ân – annh@buh.edu.vn


✓Hướng dẫn công cụ SSIS (SQL Server Integration Services)
✓Hướng dẫn thực hành (Integration Services Tutorials):

19

Data Warehouse and Decision support systems

You might also like