You are on page 1of 36

Machine Translated by Google

Số 1 Võ Văn Ngân, Q. Thủ Đức, TP.HCM, VN ĐT: +84 8


37221223, Fax: +84 8 38960640

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

KHO DỮ LIỆU

(DAWH430784)

CÁC KHÁI NIỆM

Giảng viên: ThS. Nguyễn Văn Thành

DAWH430784 16/1/2024 1
Machine Translated by Google

ĐỀ CƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Động lực cho kho dữ liệu

Định nghĩa kho dữ liệu

OLTP so với OLAP

Mô hình đa chiều

Hoạt động OLAP

Kiến trúc kho dữ liệu

DAWH430784 2
Machine Translated by Google

Động lực cho DWH


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Các tổ chức phải đối mặt với những thách thức ngày càng
phức tạp để đạt được các mục tiêu hoạt động nên cần các
công cụ phân tích để hỗ trợ ra quyết
định. Cơ sở dữ liệu giao dịch vận hành
hoặc truyền thống
không đáp ứng yêu cầu phân tích dữ liệu Được thiết kế/
tối ưu hóa để
hỗ trợ hoạt động kinh doanh hàng ngày; mối quan tâm
chính: các kỹ thuật truy cập và phục hồi đồng thời
để đảm bảo tính nhất quán của dữ liệu. Chứa dữ
liệu chi tiết, không bao gồm dữ liệu lịch sử và hoạt
động kém đối với các truy vấn phức tạp liên quan đến
nhiều bảng hoặc tổng hợp khối lượng dữ liệu lớn.

DAWH430784 3
Machine Translated by Google

Động lực cho DWH


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Để phân tích hành vi của một tổ chức, dữ liệu từ


một số hệ thống vận hành phải được tích hợp. Khó
thực hiện
do có nhiều khác biệt về định nghĩa và nội dung
dữ liệu

Yêu cầu về địa chỉ kho dữ liệu khi ra quyết định


Được điền từ
cơ sở dữ liệu vận hành và nguồn dữ liệu bên ngoài

Dữ liệu được tích hợp và chuyển


đổi Tối ưu hóa cho báo cáo và tích hợp định kỳ

DAWH430784 4
Machine Translated by Google

Kho dữ liệu
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Kho dữ liệu là bản sao của dữ liệu giao dịch được cấu
trúc cụ thể để truy vấn và phân tích.
Ralph Kimball
Kho dữ liệu là một tập hợp hướng chủ
đề, tích hợp,
biến đổi
theo thời gian và
không biến đổi

dữ liệu để hỗ trợ các quyết định quản lý dữ liệu


Bill Inmon

DAWH430784 5
Machine Translated by Google

DWH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Định hướng chủ đề: Được tổ chức xung quanh các thực thể
kinh doanh (ví dụ: khách hàng, sản phẩm và nhân viên)
thay vì các quy trình kinh doanh. Tích hợp: nhiều

phép biến đổi để thống nhất dữ liệu nguồn từ các nguồn dữ


liệu độc lập (đơn vị đo, định dạng dữ liệu, quy ước đặt
tên) Biến đổi theo thời gian: dữ liệu lịch sử, ảnh

chụp nhanh của quy trình nghiệp vụ được ghi lại tại các thời
điểm khác nhau.

Không biến đổi: dữ liệu mới được bổ sung định kỳ,


dữ liệu hiện có không bị thay đổi.

DAWH430784 6
DWH trong Khám phá tri thức (KDD)
Machine Translated by Google

Quá trình
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Đánh giá mẫu

Khai thác dữ liệu

Dữ liệu liên quan đến nhiệm vụ

Kho dữ liệu Lựa chọn

Làm sạch dữ liệu

Tích hợp dữ liệu

Cơ sở dữ liệu 7
DAWH430784
Machine Translated by Google

DWH trong kinh doanh thông minh


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Tăng tiềm năng hỗ trợ các quyết

định kinh doanh


Người dùng cuối

Phán quyết

Làm

Trình bày dữ liệu


Việc kinh doanh

Nhà phân tích

Kỹ thuật hình dung

Dữ liệu
Khai thác dữ liệu
Khám phá thông tin Nhà phân tích

Khám phá dữ liệu


Tóm tắt thống kê, truy vấn và báo cáo

Tiền xử lý/tích hợp dữ liệu, kho dữ liệu


cơ sở dữ liệu

Nguồn dữ liệu

Giấy, Tập tin, Tài liệu web, Thí nghiệm khoa học, Hệ thống cơ sở dữ liệu
số 8

DAWH430784
Machine Translated by Google

OLTP so với OLAP


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Cơ sở dữ liệu hoạt động ( hệ thống xử lý giao


dịch trực tuyến hoặc OLTP), không phù hợp để
phân tích dữ liệu. Chứa
dữ liệu chi tiết, không bao gồm dữ liệu lịch
sử, hoạt động kém đối với các truy vấn phức
tạp do chuẩn hóa.

Xử lý phân tích trực tuyến (OLAP): Cho phép


người dùng đưa ra quyết định thực hiện phân
tích dữ liệu tương tác.

DAWH430784 9
Machine Translated by Google

OLTP so với OLAP


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Xử lý
giao dịch (OLTP)
• Dữ liệu sơ cấp từ
các giao dịch

• Hoạt động hàng ngày và


các quyết định ngắn hạn

Xử lý thông tin
kinh doanh (OLAP)
• Dữ liệu thứ cấp được chuyển
đổi

• Các quyết định trung và


dài hạn

10
DAWH430784
Machine Translated by Google

OLTP so với OLAP


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

đặc trưng hoạt động Kho dữ liệu (OLAP)


Cơ sở dữ liệu (OLTP)

Tiền tệ Hiện hành lịch sử

Mức độ chi tiết Cá nhân Cá nhân và tóm tắt


Định hướng Quá trình Chủ thể

Hồ sơ theo yêu cầu Ít Hàng ngàn

Mức độ bình thường hóa Hầu hết bình thường hóa Bình thường hóa thoải mái

Cập nhật cấp độ Rất dễ bay hơi Chủ yếu được làm mới (không

biến động)

Mô hình dữ liệu quan hệ Quan hệ (lược đồ sao)


và đa chiều (khối dữ
liệu)
11
DAWH430784

Machine Translated by Google

So sánh lược đồ OLTP và OLAP


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Cơ sở dữ liệu hoạt động Kho dữ liệu


Cửa hàng
Quản lý
Mã cửa hàng
Mục

Mã mặt hàng Quản lý cửa hàng

Cửa hàngĐường phố


Người lao động Tên mục

Mặt hàngĐơn vịGiá Cửa HàngThành Phố

EmpKhông Cửa hàngBán hàng Cửa hàngTiểu bang


Sản phẩmThương hiệu

EmpFirstName Cửa hàngZip


MụcDanh mục
EmpHọ Cửa hàngQuốc gia

... ID chia
Mặt hàngBán hàng Việc bán hàng

Tên Div
Bán hàngKhông
Trình quản lý Div
Đơn vị bán hàng

Bán HàngDollar

Chi phí bán hàng


Nhận Khách hàng
thời gian mờ
ID giám sát
Thời gianKhông

Sản phẩm Tên giám sát


Thời gian bán hàng
Thời gianNgày
Khách hàng CustPhone
Thời gianTháng
sản phẩmKhông
Đặt hàng bán hàng
Đường Cust
Thời gianQuý
CustKhông Tên sản phẩm
CustThành Phố Thời gianNăm
CustFirstName Số đơn đặt hàng sản phẩmQOH
Địa điểm Chứa
CustState
ngày đặt hàng Thời gianNgày trong tuần
Người trông coiHọ ...
CustZip Thời gianNăm tài chính
... ...
CustNation

Số lượng

12
DAWH430784
Machine Translated by Google

Mô hình đa chiều
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

DW và OLAP sử dụng chế độ xem dữ liệu đa chiều

Được biểu diễn dưới dạng khối dữ liệu hoặc siêu


khối Kích thước: Các góc nhìn để phân tích
dữ liệu Ô (sự kiện): Chứa các thước đo và giá trị cần được
phân tích Milano 24 18 28 14
(Thành
phố)
hàng
Cửa Roma 33 25 23 25
Đẹp 12 20 24 33
Paris
14 23 18
Q1 21 10 18 35 đo giá
trị
12 20 17
Q2 27 14 11 30
kích thước
iu

n ờQ
a h(
i T
g

10 33 18
Q3 26 12 35 32

Q4 14 20 47 31

trò chơi DVD


sách băng đĩa

Danh mục sản phẩm) 13


DAWH430784
Machine Translated by Google

Hệ thống phân cấp

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Độ chi tiết của dữ liệu: mức độ chi tiết mà tại đó các thước đo
được thể hiện cho từng chiều của khối Dữ liệu được phân

tích ở các mức độ chi tiết khác nhau (trừu tượng hóa)

cấp độ)
Hệ thống phân cấp liên kết các khái niệm cấp thấp (chi tiết) với
cấp cao hơn (khái niệm chung) Ví

dụ: Cửa hàng – Thành phố – Vùng/Tỉnh – Quốc gia Cho

hai cấp độ liên quan trong một hệ thống phân cấp, cấp thấp hơn
được gọi là cấp con, cấp cao hơn được gọi là

cấp độ gốc Các phiên bản của các cấp này được gọi là thành viên

14
DAWH430784
Machine Translated by Google

Hệ thống phân cấp

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Ví dụ
Hệ thống phân

cấp của sản phẩm,


Thời gian và
Khách hàng
kích thước

15
DAWH430784
Machine Translated by Google

Hệ thống phân cấp

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Thành viên của hệ thống phân cấp Cửa hàng Thành phố
Vùng/Tỉnh Quốc gia
Kích thước cửa hàng Tất cả

Cấp quốc gia Pháp ... Nước Ý

Vùng đất/ Ile-de-France Provence-Alpes- Lazio


... ... vùng Lombardia
Cấp tỉnh Côte d'Azur

Cấp thành phố Paris Đẹp la Mã Milano

Cấp độ cửa hàng Cửa hàng 1 Cửa hàng 2 Cửa hàng 3 ... Cửa hàng 10 Cửa hàng 11 Cửa hàng 12

16
DAWH430784
Machine Translated by Google

Đo lường tổng hợp và


Khả năng tóm tắt Các
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

thước đo được tổng hợp khi sử dụng hệ thống phân cấp để trực
quan hóa dữ liệu ở các mức độ trừu tượng khác

nhau Khả năng tóm tắt đề cập đến việc tổng hợp chính xác các
thước đo khối dọc theo hệ thống phân cấp thứ nguyên

Điều kiện tóm tắt: Tính rời


rạc của các trường hợp: việc nhóm các trường hợp ở một cấp
độ đối với cấp độ gốc ở cấp độ tiếp theo phải dẫn đến các
tập hợp rời rạc
Tính đầy đủ: tất cả các phiên bản đều được bao gồm trong hệ
thống phân cấp và mỗi phiên bản có liên quan đến một

cấp độ cha ở cấp độ tiếp theo Sử dụng đúng các hàm tổng hợp
(điều kiện “loại đo”): Loại biện pháp xác định loại hàm tổng
hợp có thể được áp dụng.
17
DAWH430784
Machine Translated by Google

Phân loại đo lường


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Mỗi thước đo được liên kết với một hàm tổng hợp kết hợp
nhiều giá trị thước đo thành một giá trị duy nhất Các
thước đo có thể được phân loại theo cách chúng
có thể được tổng hợp: Các thước

đo cộng (đo lường lưu lượng hoặc tốc độ ): Có thể được tóm tắt một cách có ý nghĩa bằng cách sử
dụng phép cộng dọc theo tất cả các thứ nguyên Ví dụ: số

tiền bán hàng có thể được tóm tắt khi đi ngang qua các thứ bậc trong thứ nguyên Cửa hàng,
Thời gian và Sản phẩm

Các thước đo bán cộng (các thước đo tồn kho hoặc mức độ ): Có thể được tóm tắt một cách có ý
nghĩa bằng cách sử dụng phép cộng dọc theo một số (không phải tất cả) kích thước

Ví dụ: số lượng hàng tồn kho, có thể được tổng hợp trong thứ nguyên Cửa hàng,
nhưng không thể tổng hợp theo chiều Thời gian Các thước đo

không cộng gộp ( các thước đo giá trị trên mỗi đơn vị): Không thể tóm tắt một cách có ý nghĩa bằng
cách sử dụng phép cộng theo bất kỳ chiều nào Ví dụ: giá mặt hàng, chi phí trên

mỗi đơn vị, tỷ giá hối đoái

18
DAWH430784
Machine Translated by Google

Phân loại thước đo khác


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Các thước đo phân phối : được xác định bằng hàm tổng hợp
có thể được tính toán theo cách phân tán
Kết quả của việc áp dụng hàm phân phối cho toàn bộ tập dữ
liệu giống như kết quả của việc áp dụng nó (không nhất
thiết giống nhau) cho n giá trị tổng hợp của n tập hợp
con.

Ví dụ: tổng, min, max và count (không có số đếm riêng


biệt) Độ đo đại số : được xác định bằng hàm tổng hợp có thể
được biểu thị dưới dạng hàm vô hướng của phân phối
những cái

Ví dụ: trung bình (có thể được tính bằng tổng và số)
Các thước đo toàn diện : Không thể tính được từ các tập hợp
con khác.
Ví dụ: trung vị, mốt và thứ hạng
19
DAWH430784
Machine Translated by Google

Hoạt động OLAP: Cuộn lên


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Chuyển các thước đo chi tiết thành thước đo tóm tắt khi

một thước đo được nâng lên trong hệ thống phân cấp

Milano 24 18 28 14
(Thành
phố)
hàng
Cửa la Mã 33 25 23 25 Nước Ý 57 43 51 39
Đẹp 12 20 24 33 Pháp
Paris Q1 33 30 42 68
14 23 18 41
Q1 21 10 18 35
Triển khai lên cấp Quốc gia Q2 27 14 11 30
12 20 17 37
Q2 27 14 11 30

ờQ
iu

na h(
iT
g
Q3 26 12 35 32
iu h(
ờQ
ai T
g

51

n

10 33 18
Q3 26 12 35 32
Q4 14 20 47 31
Q4 14 20 47 31
trò chơi DVD
trò chơi DVD sách băng đĩa

sách băng đĩa


Danh mục sản phẩm)
Danh mục sản phẩm)

20
DAWH430784
Machine Translated by Google

Hoạt động OLAP : Xem chi tiết


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Ngược lại với thao tác cuộn lên, tức là nó chuyển từ cấp
độ tổng quát hơn sang cấp độ chi tiết trong hệ
thống phân cấp
Milano 8 6 9 5 10 8 11
Milano 24 18 28 14
la Mã 8
la Mã 33 25 23 25
(Thành
phố)
hàng
Cửa

Đẹp 4 7 8 10
(Thành
phố)
hàng
Cửa

Đẹp 12 20 24 33
Paris
Paris
14 23 18 7 2 6 13
Đi sâu vào
Tháng một

Q1 21 10 18 35 14 10 6

12 20 17 Cấp tháng Tháng Hai 8 4 số 8 12


Q2 27 14 11 30 9 7 3 ...
ờQ
iu

na h(
i T
g

...
10 33 18 tháng 3 6 4 4 10

iuờQ
a h(
i T
g
12


n
Q3 26 35 32 ...

... ... ... ... ...


Q4 14 20 47 31 5 14 8

4 tháng 12 4 16 7
trò chơi DVD
sách băng đĩa trò chơi DVD

Danh mục sản phẩm) sách băng đĩa

Danh mục sản phẩm)


21
DAWH430784
Machine Translated by Google

Hoạt động OLAP: Xoay hoặc Xoay


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Xoay các trục của khối để cung cấp cách trình bày dữ
liệu thay thế

Milano 24 18 28 14
DVD 35 30 32 31
(Thành
phố)
hàng
Cửa
la Mã 33 25 23 25 phẩm)
Danh
sản
mục
Sách 18 11 35 47
Đẹp 12 20 24 33
trò 10 14 12 20
Paris
chơi CD
14 23 18
Q1 21 10 18 35 17 21 10
Paris 21 27 26 14
12 20 17
Q2 27 14 11 30 28 20 33
Trục Đẹp 12 14 11 13
ờQ
iu

na h(
iT
g

10 33 18

gốah
n
h ửp
à
T C
h
(
12

hn)
à
Q3 26 35 32 19 47 18
la Mã 33 28 35 32

Q4 14 20 47 31
Milano 24 23 25 18

trò chơi DVD


Q1 Q2 Q3 Q4
sách băng đĩa

Thời gian (Quý)


Danh mục sản phẩm)

22
DAWH430784
Machine Translated by Google

Hoạt động OLAP : Cắt lát


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Thực hiện lựa chọn trên một chiều của khối lập
phương, tạo ra một khối con

Milano 24 18 28 14
(Thành
phố)
hàng
Cửa la Mã 33 25 23 25 Q1 21 10 18 35
Đẹp 12 20 24 33
Paris Q2 27 14 11 30
14 23 18
Q1 21 10 18 35

iu

n ờQ
a h(
i T
g
Q3 26 12 35 32
12 20 17
Q2 27 14 11 30 Lát trên Store.City = 'Paris'
Q4 14 20 47 31
iu

n ờQ
a h(
i T
g

10 33 18
Q3 26 12 35 32
trò chơi DVD

Q4 14 20 47 31 sách băng đĩa

Danh mục sản phẩm)


trò chơi DVD
sách băng đĩa

Danh mục sản phẩm)

23
DAWH430784
Machine Translated by Google

Hoạt động OLAP: Xúc xắc


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Xác định vùng chọn trên hai hoặc nhiều chiều, do đó


xác định lại một khối con

Milano 24 18 28 14
phố)
hàng
Cửa
la Mã
(Thành
33 25 23 25
Đẹp 12 20 24 33 Đẹp 12 20 24 33
(Thành
phố)
hàng
Cửa

Paris
Paris
14 23 18
Q1 21 10 18 35
Xúc xắc trên Store.Country = Q1 21 10 18 35
14

ia
n hg
ời T
12 20 17
27 14 11 30 'Pháp' và Time.Quarter= 'Q1' hoặc 'Q2'

Mt(
p
Q2

t)
n ộư
ầ h
Q2 27 14 11 30
iu

n ờQ
a h(
i T
g

10 33 18
Q3 26 12 35 32 trò chơi DVD

sách băng đĩa


Q4 14 20 47 31
Danh mục sản phẩm)
trò chơi DVD
sách băng đĩa

Danh mục sản phẩm)

24
DAWH430784
Machine Translated by Google

Hoạt động OLAP - Tóm tắt


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Hoạt động Mục đích Sự miêu tả

Lát cắt Tập trung sự chú ý vào Thay thế một thứ nguyên bằng một
một tập hợp con các thứ nguyên giá trị thành phần hoặc bằng bản

tóm tắt các giá trị đo của nó

Xúc xắc Tập trung sự chú ý vào một Thay thế một thứ nguyên bằng một
tập hợp con các giá trị thành viên tập hợp con các thành viên

Truy sâu xuống Nhận thêm chi tiết về một thứ Điều hướng từ cấp độ tổng quát hơn
nguyên đến cấp độ cụ thể hơn

Cuộn lên Tóm tắt chi tiết về một Điều hướng từ cấp độ cụ thể hơn
chiều đến cấp độ tổng quát hơn
Trục Trình bày dữ liệu Sắp xếp lại kích thước trong khối
theo thứ tự khác dữ liệu

25
DAWH430784
Machine Translated by Google

Kiến trúc kho dữ liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Từ trên

xuống • Kho dữ liệu doanh


nghiệp • Mức độ tích hợp
cao hơn • Tập trung
hợp lý • Phạm vi dự án lớn hơn

Từ dưới lên

• Siêu thị dữ liệu độc


lập • Mức độ tích hợp
thấp hơn • Phân cấp hợp
lý • Phạm vi dự án nhỏ hơn

26
DAWH430784
Machine Translated by Google

Kiến trúc từ dưới lên


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Bộ
Cấp siêu thị dữ liệu
phận người dùng

Cơ sở dữ liệu
hoạt động

Chuyển đổi

quá trình

Dữ liệu Mart

Cơ sở dữ liệu
hoạt động

Nguồn dữ

liệu ngoài

Dữ liệu Mart

27
DAWH430784
Machine Translated by Google

Kiến trúc từ trên xuống


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Kho dữ liệu Bộ
Cấp siêu thị dữ liệu
máy chủ phận người dùng

Cơ sở dữ liệu
hoạt động
Dàn dựng Khai thác
Khu vực
quá trình

Chuyển đổi

quá trình

Dữ liệu Mart
Cơ sở dữ liệu
hoạt động

Dữ liệu chi
tiết và tóm tắt

EDM

Nguồn dữ

liệu ngoài Kho dữ liệu


Dữ liệu Mart

28
DAWH430784
Machine Translated by Google

Kiến trúc tổng hợp

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

29
DAWH430784
Machine Translated by Google

Kiến trúc tổng hợp

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Nguồn dữ liệu

Cơ sở dữ liệu vận hành

Các nguồn thông tin nội bộ hoặc bên ngoài khác (ví dụ: tệp) Tầng phụ trợ

Công cụ Extraction-Transformation-Loading (ETL) để thao tác dữ liệu


từ các nguồn

Khu vực tổ chức dữ liệu: Cơ sở dữ liệu trung gian nơi thực hiện thao

tác Tầng OLAP

Máy chủ OLAP: Hỗ trợ dữ liệu và hoạt động đa chiều Tầng giao

diện người dùng: Xử lý phân tích và trực quan hóa dữ liệu Bao gồm các
công cụ OLAP, công cụ báo cáo, công cụ thống kê, công cụ khai thác
dữ liệu, …

30
DAWH430784
Machine Translated by Google

Khai thác-Chuyển đổi-Tải


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Khai thác: Thu thập dữ liệu từ nhiều dữ liệu không đồng nhất
nguồn dữ liệu

Có thể là cơ sở dữ liệu hoạt động hoặc tập tin ở nhiều định dạng khác nhau

Có thể là nội bộ hoặc bên ngoài tổ chức

Sử dụng các API như ODBC, JDBC, … để đạt được khả


năng tương tác

Chuyển đổi: Sửa đổi dữ liệu cho phù hợp với dữ liệu
định dạng kho

Dọn dẹp: Loại bỏ lỗi, mâu thuẫn, chuyển đổi định dạng

Tích hợp: Đối chiếu dữ liệu từ nhiều nguồn khác nhau

Tổng hợp: Tóm tắt dữ liệu theo mức độ chi tiết (mức độ chi tiết) của
DW

Đang tải: Cung cấp DW dữ liệu đã chuyển đổi


31
DAWH430784
Cũng bao gồm việc làm mới kho dữ liệu tại một thời điểm cụ thể
Machine Translated by Google

Cấp kho dữ liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Kho dữ liệu doanh nghiệp: DW tập trung bao gồm tất


cả các khu vực trong một tổ chức

Data mart: DW chuyên biệt hướng tới một khu vực chức năng hoặc
nhóm người dùng cụ thể
Dữ liệu của họ có thể được lấy từ DW của doanh nghiệp hoặc được thu thập từ
nguồn dữ liệu

Kho lưu trữ siêu dữ liệu: Mô tả nội dung của DW


Siêu dữ liệu nghiệp vụ: Ý nghĩa (ngữ nghĩa) của dữ liệu, quy tắc tổ chức,

chính sách, hạn chế,…

Siêu dữ liệu kỹ thuật: Dữ liệu được cấu trúc/lưu trữ như thế nào trong máy tính

• Nguồn dữ liệu, kho dữ liệu và siêu thị dữ liệu: lược đồ logic và


vật lý, thông tin bảo mật, thông tin giám sát …
• Quy trình ETL: Dòng dữ liệu (theo dõi nguồn), quy tắc, mặc định, quy
tắc làm mới và xóa, thuật toán tóm tắt, …
32
DAWH430784
Machine Translated by Google

Cấp OLAP

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Máy chủ OLAP cung cấp chế độ xem đa chiều


từ DW và siêu thị dữ liệu
Có thể là ROLAP, MOLAP hoặc HOLAP

Hầu hết các sản phẩm cơ sở dữ liệu đều cung cấp phần mở rộng OLAP

và các công cụ liên quan để thao tác với các hình khối

Tuy nhiên, chưa có ngôn ngữ chuẩn hóa để truy vấn dữ liệu
khối

Oracle sử dụng Java và ngôn ngữ truy vấn OLAP DML


SQL Server sử dụng .NET và ngôn ngữ truy vấn MDX

XMLA (XML để phân tích) nhằm mục đích cung cấp một ngôn
ngữ chung để trao đổi dữ liệu đa chiều
33
DAWH430784
Machine Translated by Google

Cấp độ giao diện người dùng

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Công cụ OLAP: Cho phép khám phá và thao tác


tương tác dữ liệu kho
Tạo điều kiện thuận lợi cho việc xây dựng các truy vấn đặc biệt (không có kiến

thức trước về chúng)

Công cụ báo cáo: Cho phép tạo, gửi và quản lý báo cáo
(trên giấy và trên web)
Sử dụng các truy vấn được xác định trước

Công cụ thống kê: Dùng để phân tích và trực quan


hóa dữ liệu khối bằng phương pháp thống kê

Công cụ khai thác dữ liệu: Cho phép người dùng phân tích
dữ liệu để khám phá các mẫu, xu hướng, cho phép dự đoán
34
DAWH430784
Machine Translated by Google

Bản tóm tắt


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

Động lực cho kho dữ liệu

Định nghĩa kho dữ liệu

OLTP so với OLAP

Mô hình đa chiều

Hoạt động OLAP


Kiến trúc kho dữ liệu

35
DAWH430784
Machine Translated by Google

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM

DAWH430784 16/1/2024 37

You might also like