You are on page 1of 49

CƠ SỞ DỮ LIỆU NÂNG CAO

CHƯƠNG 2:
CẤU TRÚC VÀ CƠ SỞ HẠ
TẦNG CỦA KHO DL

GV: HỒ THỊ THANH TUYẾN


NỘI DUNG CHÍNH

1. CÁC TÍNH NĂNG CỦA KHO DỮ LIỆU

2. KHO DỮ LIỆU VÀ CƠ SỞ DỮ LIỆU

3. KIẾN TRÚC CỦA KHO DỮ LIỆU

4. CƠ SỞ HẠ TẦNG CỦA KHO DỮ LIỆU

2
CÁC TÍNH NĂNG CỦA
KHO DỮ LIỆU

3
HƯỚNG CHỦ ĐỀ (Subject-oriented)

Trong hệ thống tác nghiệp, dữ liệu


được tổ chức theo các ứng dụng cụ thể
hoặc theo các quy trình kinh doanh.
Trong KDL, dữ liệu được lưu trữ theo
các chủ đề kinh doanh trong thế giới
thực chứ không phải theo các ứng
dụng.
Dữ liệu trong kho dữ liệu được tổ chức
theo cách sao cho tất cả các bộ dữ liệu
liên quan đến cùng một chủ đề hoặc sự
kiện kinh doanh trong thế giới thực. Textbook: pg.25 4
DỮ LIỆU TÍCH HỢP (Integrated data)

Dữ liệu của KDL đến từ nhiều hệ thống tác


nghiệp khác nhau với những định dạng khác
nhau khiến cho dữ liệu không đồng nhất.
Cần chuẩn hóa DL trước khi đưa vào KDL.
Một số mục cần phải được chuẩn hóa và
thống nhất:
Quy ước đặt tên

Thuộc tính dữ liệu
Cách đo lường (đơn vi, phương pháp) Textbook: pg.26 5
DỮ LIỆU BIẾN ĐỔI THỜI GIAN
(Time-variant data)

Dữ liệu tác nghiệp mang giá trị hiện tại.


Dữ liệu trong KDL là để phục vụ mục tiêu ra quyết định, do đó cần lưu trữ cả DL quá
khứ và hiện tại.
Mọi CTDL trongg KDL đều chứa yếu tố thời gian. Tính chất thay đổi theo thời gian
của DL trong kho DL giúp:
Cho phép phân tích quá khứ
Liên hệ với thông tin hiện tại
Có khả năng dự đoán tương lai
6
DỮ LIỆU KHÔNG BIẾN ĐỔI
(Nonvolatile Data)

Dữ liệu tác nghiệp được đưa vào


KDL định kỳ sau mỗi khoảng thời
gian cụ thể.
Dữ liệu trong KDL là không thể
thay đổi:
Không cập nhật
Không thể xóa

7
ĐỘ MỊN/CHI TIẾT DỮ LIỆU
(Data Granularity)

Trong hệ thống tác nghiệp, dữ liệu ở


mức độ chi tiết nhất.
Dữ liệu trong KDL là dữ liệu có thể tổng
hợp ở nhiều mức độ khác nhau tùy thuộc
vào yêu cầu truy vấn.
Mức độ chi tiết càng thấp (lưu trữ nhiều)
thì độ mịn của dữ liệu càng cao
 Do đó, phải cân nhắc độ mịn dựa vào loại
dữ liệu và hiệu quả mong đợi đối với nhu
cầu truy vấn.

8
KHO DỮ LIỆU VÀ CSDL
9
Thảo luận nhóm:
1. Phân tích điểm giống và khác nhau
giữa CSDL và KDL
2. Phân biệt DW và Data mart

10
CSDL Vs. KDL

ĐỊNH NGHĨA

Cơ sở dữ liệu là một tập hợp các dữ Kho dữ liệu là một hệ thống thông tin
liệu có tổ chức, thường được lưu trữ và lưu trữ lịch sử và giao hoán dữ liệu từ
truy cập từ hệ thống máy tính. Nó được một hoặc nhiều nguồn. Nó được thiết kế
thiết kế để xây dựng và nhập dữ liệu cho để phân tích, báo cáo, tích hợp dữ liệu
một nhiệm vụ cụ thể. giao dịch từ các nguồn khác nhau.

11
CSDL Vs. KDL

Tiêu chí CSDL Kho DL

Mục đích Ghi lại và lưu trữ Phân tích DL

Phương pháp xử lý Xử lý giao dịch trực tuyến Xử lý phân tích trực tuyến
(OLTP) (OLAP).
Nhiệm vụ Giúp thực hiện các hoạt động Cho phép phân tích tình hình
cơ bản cho doanh nghiệp doanh nghiệp
và ra quyết định CL
Hướng Hướng ứng dụng Hướng chủ đề

Phạm vi Trong một ứng dụng Tập hợp nhiều ứng dụng

Cập nhật DL Thời gian thực Định kỳ

Thao tác Đọc, xóa, cập nhật Chỉ đọc 12


DATA MART

13
DATA MART

Một Data mart là một cơ sở dữ liệu hoặc tập hợp các cơ sở dữ liệu
riêng biệt, mỗi nhóm có một trọng tâm cụ thể.
Data mart là một tập con của EDW hoặc chứa một phần dữ liệu từ
EDW, vì vậy chu trình tải (Load cycle) của DW không nhanh hơn chu
trình tải của EDW (cung cấp dữ liệu cho Data mart).
Data mart có thể được xây dựng theo 2 phương pháp cơ bản sau:
Xây dựng một nền tảng riêng biệt với DW
Tạo các khung nhìn từ DW

14
Data Warehouse Vs. Data mart

15
TEXTBOOK:PG.30
KIẾN TRÚC KHO DỮ LIỆU
16
CÁC THÀNH PHẦN CHÍNH

Có 6 khối/thành phần (building


blocks):
 Data source
 Data Staging
 Data Storage
 Metadata
 Information Delivery
 Management & Control

17
CÁC THÀNH PHẦN CHÍNH

Gồm 3 giai đoạn chính:


 Data Acquistion
 Data Storage
 Information Delivery

18
DATA ACQUISTION
( Thu thập dữ liệu)

Bao gồm hai thành phần:


Data source và Data Stagin
Thực hiện các chức năng:
Data Extraction
Data Transformation
Data Staging
19
Textbook: pg.150
NGUỒN DỮ LIỆU
(Source Data Component)

Nguồn DL bao gồm:


Dữ liệu sản xuất (production data) từ các hoạt động tác nghiệp của DN
Dữ liệu nội bộ (Internal data) gồm các thông tin riêng tư: hồ sơ khách
hàng, tài liệu…
Dữ liệu lưu trữ (Archived Data) dữ liệu quá khứ của DN
Dữ liệu bên ngoài (External Data)

20
DÀN DỮ LIỆU
(Data Staging Component)

Là thành phần làm cho dữ liệu sẵn sàng để có thể truy vấn. Bao gồm 3 chức
năng chính:
Rút trích dữ liệu
Chuyển đổi dữ liệu
Truyền dữ liệu

21
DATA STORAGE
(Lưu trữ dữ liệu)
Bao gồm thành phần lưu trữ dữ liệu (Data
Storage Component) và Metadata.
Được tính từ bắt đầu quá trình truyền dữ liệu
vào Kho dữ liệu.
Thực hiện các chức năng liên quan đến:
Truyền dữ liệu
Sao lưu và khôi phục
Bảo mật
Giám sát và tinh chỉnh DL
….. 22
THÀNH PHẦN LƯU TRỮ DỮ LIỆU

DL trong KDL được lưu trữ tách biệt với


DL của các hệ thống tác nghiệp.
Là những kho DL riêng chỉ đọc.
Dữ liệu phải được “mở”
Sử dụng hệ quản trị CSDL đa chiều.

23
SIÊU DỮ LIỆU
(Metadata Component)
Siêu dữ liệu trong KDL tương tự như từ điển dữ liệu
hoặc danh mục dữ liệu trong cơ sở dữ liệu hệ thống
quản lý.
Là dữ liệu mô tả dữ liệu.
Bao gồm:
Operational metadatasiêu dữ liệu tác nghiệp
Extraction and transformation metadata
End-user metadata
24
INFORMATION DELIVERY
(Phân phối thông tin)

 Cung cấp các phương thức sử dụng dữ liệu


cho người dùng, phổ biến nhất là OLAP
 Hỗ trợ phân tích đa chiều bằng cách sử
dụng các khối thông tin (information
cubes)

25
Textbook: pg.154
PHÂN PHỐI THÔNG TIN
(Information Delivery Component)

Cung cấp thông tin rộng rãi cho cộng đồng


người dùng kho dữ liệu.
Vấn đề xác thực
Sử dụng một vài cơ chế phân phối thông tin:
Cung cấp các báo cáo và truy vấn trực
tuyến
Cung cấp báo cáo định kỳ qua email.

26
Textbook: pg.154
THÀNH PHẦN ĐIỀU KHIỂN VÀ QUẢN LÝ
(Management and Control Component)

Nằm trên tất cả các thành phần khác.


Điều phối các dịch vụ và hoạt động trong kho dữ liệu:
Kiểm soát quá trình chuyển đổi dữ liệu và truyền dữ liệu vào KDL
Kiểm duyệt việc cung cấp thông tin cho người dùng
Hoạt động với các hệ thống quản lý cơ sở dữ liệu và cho phép dữ liệu được lưu trữ
đúng cách
Tương tác với thành phần siêu dữ liệu để thực hiện các chức năng quản lý và kiểm
soát

27
THÀNH PHẦN ĐIỀU KHIỂN VÀ QUẢN LÝ
(Management and Control Component)

28
KIẾN TRÚC KHO DỮ LIỆU

Information Sources Data Warehouse OLAP Servers cung cấp các hàm Clients của người dùng, cái mà họ
nguồn thông tin Server (Tier 2) (Tier 3) thấy được
(Tier 1)
e.g., MOLAP
Semistructured Analysis
Sources Data serve
Warehouse
extract Query/Reporting
transform
load serve
refresh
e.g., ROLAP
Operational
serve Data Mining
DB’s

Staging area Data Marts 29


BÀI TẬP VỀ NHÀ

Giải quyết review question chapter 2 (pg.43)


Bài tập 1-5 chapter 2 (pg.43, 44)

30
CÁC LOẠI KIẾN TRÚC KHO DỮ LIỆU

Textbook: pg.33 31
KHO DỮ LIỆU TẬP TRUNG
(Centralized Data Warehouse)

 Kiến trúc này xem xets các yêu cầu thông


tin cấp doanh nghiệp.
 Dữ liệu chuẩn hóa mức nguyên tử ở mức
độ chi tiết thấp nhất được lưu trữ ở dạng
chuẩn 3.
 Truy vấn và ứng dụng truy cập dữ liệu
chuẩn hóa trong kho dữ liệu trung tâm.
 Không có data mart riêng biệt.
có 1 kho dl chung cho doanh nghiệp 32
CÁC CHỢ DỮ LIỆU ĐỘC LẬP
(Independent Data Marts)
 Kiểu kiến trúc này phát triển trong các công ty
có các các bộ phận/đơn vị phát triển dữ liệu
riêng phục vụ cho mục đích cụ thể của riêng.
 Không có siêu dữ liệu thống nhất giữa các data
mart.
 Các khối dữ liệu này không phụ thuộc vào
nhau.
 Tiêu chuẩn dữ liệu không nhất quán.
 Gây khó khăn cho phân tích 33

không có kho dữ liệu tập trung


FEDERATED

 Nguyên nhân: sử dụng dữ liệu của hệ thống sẵn



 Là kiểu kiến trúc được liên kết trong đó dữ liệu
có thể được tích hợp về mặt vật lý hoặc logic
thông qua các trường khóa chung, siêu dữ liệu
chung, truy vấn phân tán và các phương pháp
khác.
 Trong kiểu kiến trúc này, không có một kho dữ
34
liệu tổng thể.
HUB-and-SPOKE

Kho dữ liệu toàn doanh nghiệp


Dữ liệu nguyên tử ở dạng chuẩn 3 và được lưu
vào kho dữ liệu tập trung.
Hiện diện các dữ liệu phụ thuộc được lấy từ
kho dữ liệu tập trung
Hầu hết các truy vấn được hướng đến dữ liệu
phụ thuộc mặc dù kho dữ liệu tập trung có thể
được sử dụng để truy vấn.
Kiểu kiến trúc này là kết quả của việc áp dụng
cách tiếp cận từ trên xuống để phát triển kho
dữ liệu. 35
Data-Mart Bus

 Theo cấu trúc mạch nối (Bus Architecture)


 Tập các bảng fact và dimension cùng với mối
liên kết giữa chúng (theo các quy trình nghiệp
vụ) tạo nên các chợ dữ liệu (Data Mart)
 Mỗi hàng row đại diện cho một qui trình
nghiệp vụ
 Mỗi cột column tương ứng một chiều của
nghiệp vụ.
 Bảng chiều dimension là bảng tra cứu trong
mô hình dữ liệu đa chiều.
 Các ưu điểm: Hiệu quả, dễ sử dụng, dễ mở
rộng, tiêu chuẩn hóa, tăng cường khả năng báo
cáo…. 36

không có kho dư liệu tập trung


BÀI TẬP VỀ NHÀ

Giải quyết review question chapter 7 (pg.160)


Bài tập 1-5 chapter 7 (pg.161)

37
CƠ SỞ HẠ TẦNG KHO DỮ
LIỆU
38
CƠ SỞ HẠ TẦNG TÁC NGHIỆP
(Operational Infrastructure)

CSHT tác nghiệp hỗ trợ từng thành phần kiến trúc KDL bao
gồm:
Con người
Quy trình
Huấn luyện
Phần mềm quản lý

39
CƠ SỞ HẠ TẦNG VẬT LÝ
(Physical Infrastructure)

Phần cứng và hệ điều hành tạo nên môi


trường điện toán cho kho dữ liệu.
Một số tiêu chí chung khi lựa chọn phần
cứng cho KDL:
Khả năng mở rộng
Sự hỗ trợ từ các nhà cung cấp phần
cứng
Sự tham khảo về nhà cung cấp.
Textbook: pg. 166
Sự ổn định của nhà cung cấp
40
CƠ SỞ HẠ TẦNG VẬT LÝ
(Physical Infrastructure)

Một số tiêu chí chung khi lựa chọn hệ điều hành cho KDL:
Khả năng mở rộng
Tính bảo mật
Độ tin cậy.
Tính khả dụng
Tính đa nhiệm ưu tiên
Sử dụng cách tiếp cận đa tiến trình
Sự bảo vệ bộ nhớ
41
CÁC PLATFORM CHO KHO DỮ LIỆU

Single platform:
Mọi tính năng từ back-end đến front-end
đều triển khai trên cùng một platform:
mainframe, minicomputer, server
Linux…Là nền tảng của các KDL sơ khai.
Hybrid platform
Khi single platform không đáp ứng được
với các HTTT hiện đại thì giải pháp đa
nền tảng sẽ là giải pháp khả thi. 42
PLATFORM CHO THU THẬP DỮ LIỆU

Textbook: pg.171

43
PLATFORM CHO DÀN DỮ LIỆU

Textbook: pg.172

44
PLATFORM CHO CHUYỂN DỮ LIỆU

Textbook: pg.173

45
KIẾN TRÚC CLIENT/SERVER CHO KDL

Textbook: pg.174

46
BỘ CÔNG CỤ HỖ TRỢ

Textbook: pg.185

47
BÀI TẬP THẢO LUẬN NHÓM:
1. Các mục tiêu và tính năng của các công cụ hỗ trợ Kho dữ
liệu? (pg.186-188)
2. Các thiết bị kho dữ liệu (Data warehouse appliances) pg. 188-
189
BÀI TẬP VỀ NHÀ:
Review question Chapter 8 (pg.191)
Bài tập 1, 2, 5 Chapter 8 (pg.1922)

48
Q&A

49

You might also like