You are on page 1of 29

Kho dữ liệu và Hệ thống hỗ trợ ra

quyết định
Chương 1:
Tổng quan về kho dữ liệu

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 1


Nội dung
1. Giới thiệu về kho dữ liệu
2. Kiến trúc kho dữ liệu
3. Lợi ích của kho dữ liệu trong kinh doanh
4. Kho dữ liệu trong kinh doanh thông minh (BI)

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 2


1. Giới thiệu về kho dữ liệu

➢Có nhiều các định nghĩa khác nhau về KDL,


nhưng không có cách nào là nghiêm ngặt:
▪ Một cơ sở dữ liệu hỗ trợ quyết định được bảo trì tách
biệt từ cơ sở dữ liệu hoạt động của tổ chức
▪ Hỗ trợ xử lí thông tin bằng cách cung cấp một nền
tảng vững chắc cho việc hợp nhất và dữ liệu lịch sử
để phân tích
➢Theo W. H. Inmon: “Kho dữ liệu là tập dữ liệu
hướng chủ đề, tích hợp, gắn với thời gian và ít
thay đổi để hỗ trợ quá trình ra quyết định của
nhà quản lí”
Nguyễn Hoàng Ân Data Warehouse and Decision support systems 5
1.1 Kiến trúc cơ bản của kho dữ liệu

Oracle9 i. Data Warehousing Guide, Release 2 (9.2)


Nguyễn Hoàng Ân Data Warehouse and Decision support systems 6
1.2. Các đặc tính của kho dữ liệu

➢Hướng chủ đề (Subject-Oriented)


➢Có tính tích hợp (Integrated)
➢Gắn với thời gian (Time Variant)
➢Ít thay đổi (Non-Volatile)

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 7


1.2. Các đặc tính của KDL (tt)

➢Hướng chủ đề

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 8


1.2. Các đặc tính của kho dữ liệu

➢Tích hợp

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 9


Tích hợp

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 10


OLTP vs. OLAP

➢OLTP (on-line transaction processing): Xử lí giao


dịch trực tuyến
▪ Nhiệm vụ chính của Hệ quản lí cơ sở dữ liệu quan hệ
(relational DBMS) truyền thống.
▪ Dùng cho các tác nghiệp hằng ngày (Day-to-day
operations): mua sắm, quản lí tồn kho, ngân hàng, quản lí
lương, đăng ký, kế toán,…
➢OLAP (on-line analytical processing): Quá trình
phân tích trực tuyến
▪ Nhiệm vụ chính của hệ thống kho dữ liệu
▪ Phân tích dữ liệu và làm quyết định (decision making)

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 11


OLTP vs OLAP
OLTP OLAP
Người dùng Thư lý, chuyên viên Chuyên viên tri thức
CNTT
Chức năng Tác nghiệp hàng ngày Hỗ trợ quyết định
Thiết kế CSDL Hướng ứng dụng Hướng chủ đề
Dữ liệu Hiện thời, cập nhật Lịch sử, tóm tắt, tích hợp đa
chi tiết, quan hệ phẳng chiều, hợp nhất
biệt lập
Sử dụng Lặp Dò tìm (ad-hoc)
Truy cập Đọc/ghi Nhiều duyệt
Chỉ mục/băm theo khóa
chính
Đơn vị thao tác Giao dịch ngắn,đơn giản Câu hỏi phức tạp
# bản ghi truy cập Chục Triệu
#người dùng Nghìn Trăm
Kích thước CSDL 100MB-GB 100GB-TB
Đơn vị đo Thông lượng giao dịch Thông lượng truy vấn, đáp ứng
Nguyễn Hoàng Ân
2. Kiến trúc kho dữ liệu

▪ Kiến trúc 2 lớp khái quát (Generic Two-Level


Architecture)
▪ Data Mart độc lập (Independent Data Mart)
▪ Data Mart phụ thuộc và kho lưu trữ dữ liệu hoạt
động (Dependent Data Mart and Operational
Data Store)
▪ Data Mart luận lý và KDL tích cực (Logical Data
Mart and @ctive Warehouse)
▪ Kiến trúc dữ liệu 3 lớp (Three-Layer data
architecture)

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 13


2.1.Kiến trúc 2 lớp khái quát

L
One,
company-
T wide
warehouse

Periodic extraction ➔ data is not completely current in warehouse


Nguyễn Hoàng Ân Trích xuấtData kỳ ➔ dữand
địnhWarehouse liệuDecision
khôngsupport
cập nhật đầy đủ trong kho
systems 14
Công cụ ETL

➢ETL: Rút trích (Extraction), Chuyển đổi


(Transformation), tải (Loading)
➢Rút trích:
▪ Rút trích từ những nguồn sẵn có bên trong hoặc ngoài
▪ Những phiên bản phụ thuộc thời gian của dữ liệu
▪ Chọn lựa dữ liệu: Dựa trên thiết kế DW
➢Chuyển đổi:
▪ Chuyển đổi dữ liệu từ các hệ thống cũ, các định dạng khác
thành định dạng của KDL
➢Tải:
▪ Sắp xếp, tóm tắt, hợp nhất, tính toán, kiểm tra toàn vẹn,
xây dựng chỉ mục và phân hoạch

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 15


ETL Process

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 16


2.2. Data Mart độc lập

Separate ETL for each Data access complexity


independent data mart due to multiple data
ETL riêng cho từng marts Độ phức tạp truy cập dữ liệu
trung tâm dữ liệu
Data Warehouse and Decision support do có nhiều kho dữ liệu 17
Nguyễn Hoàng Ân systems
độc lập
Data mart con của DW

➢Hệ thống tập tất cả dữ liệu được yêu cầu bởi một
phòng ban chuyên biệt trong công ty (như tiếp thị,
hậu cần,…)
➢Được sử dụng để phân tích BI
➢Một kho dữ liệu mức phòng ban (departmental
data warehouse)
➢Data warehouses và data marts có khung công
nghệ giống nhau

18
Nguyễn Hoàng Ân Data Warehouse and Decision support systems
Dữ liệu Mart
Phạm vi

Ứng dụng DSS cụ thể
• Phân cấp theo khu vực người dùng
Hữu cơ, có thể không có kế hoạch
Dữ liệu
• Một số lịch sử, chi tiết và tóm tắt
• Không chuẩn hóa cao
Đối tượng
• Một chủ đề chính được người dùng quan tâm
Nguồn
• Ít nguồn nội bộ và bên ngoài
Các đặc điểm khác
hạn chế
Định hướng dự án
Cuộc sống ngắn ngủi
Bắt đầu nhỏ, trở nên lớn
• Cấu trúc đa, bán phức tạp, cùng phức tạp

Kho dữ liệu
Phạm vi
• Ứng dụng độc lập
• Tập trung, có thể toàn doanh nghiệp
• Đã lên kế hoạch
Dữ liệu
• Lịch sử, chi tiết và tóm tắt
• Không chuẩn hóa nhẹ
Đối tượng
• Nhiều môn học
Nguồn
• Nhiều nguồn nội bộ và bên ngoài
Các đặc điểm khác
Linh hoạt
• Định hướng dữ liệu
• Sống thọ
Lớn
• Cấu trúc phức hợp đơn

Nguyễn Hoàng Ân
2.2 Data Mart độc lập (tt)

➢Data mart độc lập: data mart chứa dữ liệu được


rút trích từ môi trường hoạt động mà không có
ảnh hưởng của KDL
➢Hạn chế của Data mart độc lập:
▪ Mỗi data mart cần một ETL riêng
▪ Các data mart không tương thích nhau
▪ Không thể drill-down
▪ Tốn nhiều chi phí khi có ứng dụng mới
▪ Tốn chi phí để làm data mart tương thích nhau

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 20


2.3. Data Mart phụ thuộc và kho lưu
trữ dữ liệu hoạt động

corporate information factory (CIF)

T
E
Simpler data access
Các kho dữ liệu phụ thuộc được tải
Single ETL for enterprise data từ EDW
warehouse (EDW) ETL đơn cho kho dữ liệu
doanh nghiệp (EDW)
Dependent data marts
Nguyễn Hoàng Ân loaded from EDW
Data Warehouse and Decision support systems 21
2.3.Data Mart phụ thuộc và kho lưu trữ
dữ liệu hoạt động (tt)

➢Data mart phụ thuộc: Data mart được nạp dữ


liệu dành riêng từ KDL doanh nghiệp và điều hòa
dữ liệu
➢Kho lưu trữ dữ liệu hoạt động (Operational
data store - ODS): Một cơ sở dữ liệu có tính tích
hợp, hướng chủ đề, có thể cập nhật, giá trị hiện
tại, rộng khắp tổ chức, chi tiết được thiết kế để
dành cho người dùng tác nghiệp như họ làm quá
trình hỗ trợ quyết định
➢Kho dữ liệu doanh nghiệp (Enterprise data
warehouse (EDW)

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 22


2.4. Data Mart luận lý và KDL tích cực

T
E data mảrt KHÔNG phải là cơ sở dữ liệu riêng biệt mà là các
khung nhìn logic của kho dữ liệu
➔ Tạo kho dữ liệu mới dễ dàng hơn

Near real-time ETL for Data marts are NOT separate


databases, but logical views of the
@ctive Data Warehouse
data warehouse
Nguyễn Hoàng Ân Data Warehouse and ➔ Easier
Decision to create
support new data marts
systems 23
2.4. Data Mart luận lý và KDL tích
cực (tt)
➢Logical data mart = relational view
➢Base tables: customer, product, order, orderline
➢Create views:
CREATE VIEW invoice AS
SELECT customer.customer_ID, customer_addr,
order.order_ID, product.product_ID, product.price,
order.quantity, product.price*order.quantity
FROM customer, order, orderline, product
WHERE customer.customer_ID= order.customer_ID,
AND order.order_ID= orderline.order_ID, product.product_ID =
orderline.product_ID

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 24


2.4. Data Mart luận lý và KDL tích
cực (tt)
➢KDL tích cực:
▪ Một kho dữ liệu mức tổ chức chứa dữ liệu gần thời
gian thực (near-real-time) của dữ liệu giao dịch từ
những hệ thống bản ghi, phân tích KDL, tiếp nối gần
thời gian thực từ qui trình nghiệp vụ đến KDL và
những hệ thống bản ghi để có những hành động trung
gian có thể hồi đáp lại các sự kiện kinh doanh
▪ Ứng dụng: Dò tìm lỗi

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 25


2.5. Kiến trúc dữ liệu 3 lớp

26
Nguyễn Hoàng Ân Data Warehouse and Decision support systems
2.5. Kiến trúc dữ liệu 3 lớp (tt)

➢Dữ liệu điều hòa (Reconciled data): dữ liệu có


tính chi tiết, là dữ liệu hiện tại được dự định như
nguồn đơn nhất, chính thức cho tất cả ứng dụng
hỗ trợ quyết định
➢Dữ liệu chuyển giao (Derived data): Dữ liệu được
chọn lựa, định dạng và tổng hợp cho ứng dụng
hỗ trợ quyết định cho người dùng cuối
➢Siêu dữ liệu (Metadata): dữ liệu kỹ thuật và kinh
doanh để mô tả thuộc tính hoặc tính chất của dữ
liệu khác

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 27


3. Lợi ích của kho dữ liệu trong kinh
doanh

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 28


4. Kho dữ liệu trong kinh doanh
thông minh
➢Kinh doanh thông mình (Business Intelligence) là
gì?
Business Intelligence (BI) thường được gọi là kinh doanh thông minh hay trí tuệ doanh
nghiệp. Đây là hệ thống quản lý công nghệ thông tin liên quan đến việc thu thập, tổ chức,
phân tích và biến đổi dữ liệu kinh doanh thành thông tin có giá trị để hỗ trợ quyết định và
định hướng chiến lược kinh doanh cho doanh nghiệp.

Nguyễn Hoàng Ân Data Warehouse and Decision support systems 29


4.1. Quá trình khám phá tri thức
Pattern Evaluation/
Presentation

Data Mining Patterns

Task-relevant Data

Data Warehouse Selection/Transformation

Data
Cleaning
Data Integration

Data
Nguyễn Hoàng ÂnSources Data Warehouse and Decision support systems 30
4.2 Kho dữ liệu trong kinh doanh
thông minh
Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business


Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Nguyễn Hoàng Ân Data Warehouse and Decision support systems 31

You might also like