Professional Documents
Culture Documents
KHO DỮ LIỆU
(DAWH430784)
DAWH430784 16/1/2024 1
Machine Translated by Google
ĐỀ CƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM
Mô hình đa chiều
DAWH430784 2
Machine Translated by Google
Các tổ chức phải đối mặt với những thách thức ngày càng
phức tạp để đạt được các mục tiêu hoạt động nên cần các
công cụ phân tích để hỗ trợ ra quyết
định. Cơ sở dữ liệu giao dịch vận hành
hoặc truyền thống
không đáp ứng yêu cầu phân tích dữ liệu Được thiết kế/
tối ưu hóa để
hỗ trợ hoạt động kinh doanh hàng ngày; mối quan tâm
chính: các kỹ thuật truy cập và phục hồi đồng thời
để đảm bảo tính nhất quán của dữ liệu. Chứa dữ
liệu chi tiết, không bao gồm dữ liệu lịch sử và hoạt
động kém đối với các truy vấn phức tạp liên quan đến
nhiều bảng hoặc tổng hợp khối lượng dữ liệu lớn.
DAWH430784 3
Machine Translated by Google
DAWH430784 4
Machine Translated by Google
Kho dữ liệu
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM
Kho dữ liệu là bản sao của dữ liệu giao dịch được cấu
trúc cụ thể để truy vấn và phân tích.
Ralph Kimball
Kho dữ liệu là một tập hợp hướng chủ
đề, tích hợp,
biến đổi
theo thời gian và
không biến đổi
DAWH430784 5
Machine Translated by Google
DWH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM
Định hướng chủ đề: Được tổ chức xung quanh các thực thể
kinh doanh (ví dụ: khách hàng, sản phẩm và nhân viên)
thay vì các quy trình kinh doanh. Tích hợp: nhiều
chụp nhanh của quy trình nghiệp vụ được ghi lại tại các thời
điểm khác nhau.
DAWH430784 6
DWH trong Khám phá tri thức (KDD)
Machine Translated by Google
Quá trình
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM
Cơ sở dữ liệu 7
DAWH430784
Machine Translated by Google
Phán quyết
Làm
Dữ liệu
Khai thác dữ liệu
Khám phá thông tin Nhà phân tích
Nguồn dữ liệu
Giấy, Tập tin, Tài liệu web, Thí nghiệm khoa học, Hệ thống cơ sở dữ liệu
số 8
DAWH430784
Machine Translated by Google
DAWH430784 9
Machine Translated by Google
Xử lý
giao dịch (OLTP)
• Dữ liệu sơ cấp từ
các giao dịch
Xử lý thông tin
kinh doanh (OLAP)
• Dữ liệu thứ cấp được chuyển
đổi
10
DAWH430784
Machine Translated by Google
Mức độ bình thường hóa Hầu hết bình thường hóa Bình thường hóa thoải mái
Cập nhật cấp độ Rất dễ bay hơi Chủ yếu được làm mới (không
biến động)
... ID chia
Mặt hàngBán hàng Việc bán hàng
Tên Div
Bán hàngKhông
Trình quản lý Div
Đơn vị bán hàng
Bán HàngDollar
Số lượng
12
DAWH430784
Machine Translated by Google
Mô hình đa chiều
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VÀ GIÁO DỤC TP.HCM
10 33 18
Q3 26 12 35 32
Q4 14 20 47 31
Độ chi tiết của dữ liệu: mức độ chi tiết mà tại đó các thước đo
được thể hiện cho từng chiều của khối Dữ liệu được phân
tích ở các mức độ chi tiết khác nhau (trừu tượng hóa)
cấp độ)
Hệ thống phân cấp liên kết các khái niệm cấp thấp (chi tiết) với
cấp cao hơn (khái niệm chung) Ví
hai cấp độ liên quan trong một hệ thống phân cấp, cấp thấp hơn
được gọi là cấp con, cấp cao hơn được gọi là
cấp độ gốc Các phiên bản của các cấp này được gọi là thành viên
14
DAWH430784
Machine Translated by Google
Ví dụ
Hệ thống phân
15
DAWH430784
Machine Translated by Google
Thành viên của hệ thống phân cấp Cửa hàng Thành phố
Vùng/Tỉnh Quốc gia
Kích thước cửa hàng Tất cả
Cấp độ cửa hàng Cửa hàng 1 Cửa hàng 2 Cửa hàng 3 ... Cửa hàng 10 Cửa hàng 11 Cửa hàng 12
16
DAWH430784
Machine Translated by Google
thước đo được tổng hợp khi sử dụng hệ thống phân cấp để trực
quan hóa dữ liệu ở các mức độ trừu tượng khác
nhau Khả năng tóm tắt đề cập đến việc tổng hợp chính xác các
thước đo khối dọc theo hệ thống phân cấp thứ nguyên
cấp độ cha ở cấp độ tiếp theo Sử dụng đúng các hàm tổng hợp
(điều kiện “loại đo”): Loại biện pháp xác định loại hàm tổng
hợp có thể được áp dụng.
17
DAWH430784
Machine Translated by Google
Mỗi thước đo được liên kết với một hàm tổng hợp kết hợp
nhiều giá trị thước đo thành một giá trị duy nhất Các
thước đo có thể được phân loại theo cách chúng
có thể được tổng hợp: Các thước
đo cộng (đo lường lưu lượng hoặc tốc độ ): Có thể được tóm tắt một cách có ý nghĩa bằng cách sử
dụng phép cộng dọc theo tất cả các thứ nguyên Ví dụ: số
tiền bán hàng có thể được tóm tắt khi đi ngang qua các thứ bậc trong thứ nguyên Cửa hàng,
Thời gian và Sản phẩm
Các thước đo bán cộng (các thước đo tồn kho hoặc mức độ ): Có thể được tóm tắt một cách có ý
nghĩa bằng cách sử dụng phép cộng dọc theo một số (không phải tất cả) kích thước
Ví dụ: số lượng hàng tồn kho, có thể được tổng hợp trong thứ nguyên Cửa hàng,
nhưng không thể tổng hợp theo chiều Thời gian Các thước đo
không cộng gộp ( các thước đo giá trị trên mỗi đơn vị): Không thể tóm tắt một cách có ý nghĩa bằng
cách sử dụng phép cộng theo bất kỳ chiều nào Ví dụ: giá mặt hàng, chi phí trên
18
DAWH430784
Machine Translated by Google
Các thước đo phân phối : được xác định bằng hàm tổng hợp
có thể được tính toán theo cách phân tán
Kết quả của việc áp dụng hàm phân phối cho toàn bộ tập dữ
liệu giống như kết quả của việc áp dụng nó (không nhất
thiết giống nhau) cho n giá trị tổng hợp của n tập hợp
con.
Ví dụ: trung bình (có thể được tính bằng tổng và số)
Các thước đo toàn diện : Không thể tính được từ các tập hợp
con khác.
Ví dụ: trung vị, mốt và thứ hạng
19
DAWH430784
Machine Translated by Google
Chuyển các thước đo chi tiết thành thước đo tóm tắt khi
Milano 24 18 28 14
(Thành
phố)
hàng
Cửa la Mã 33 25 23 25 Nước Ý 57 43 51 39
Đẹp 12 20 24 33 Pháp
Paris Q1 33 30 42 68
14 23 18 41
Q1 21 10 18 35
Triển khai lên cấp Quốc gia Q2 27 14 11 30
12 20 17 37
Q2 27 14 11 30
ờQ
iu
)ý
na h(
iT
g
Q3 26 12 35 32
iu h(
ờQ
ai T
g
51
)ý
n
10 33 18
Q3 26 12 35 32
Q4 14 20 47 31
Q4 14 20 47 31
trò chơi DVD
trò chơi DVD sách băng đĩa
20
DAWH430784
Machine Translated by Google
Ngược lại với thao tác cuộn lên, tức là nó chuyển từ cấp
độ tổng quát hơn sang cấp độ chi tiết trong hệ
thống phân cấp
Milano 8 6 9 5 10 8 11
Milano 24 18 28 14
la Mã 8
la Mã 33 25 23 25
(Thành
phố)
hàng
Cửa
Đẹp 4 7 8 10
(Thành
phố)
hàng
Cửa
Đẹp 12 20 24 33
Paris
Paris
14 23 18 7 2 6 13
Đi sâu vào
Tháng một
Q1 21 10 18 35 14 10 6
...
10 33 18 tháng 3 6 4 4 10
iuờQ
a h(
i T
g
12
)ý
n
Q3 26 35 32 ...
4 tháng 12 4 16 7
trò chơi DVD
sách băng đĩa trò chơi DVD
Xoay các trục của khối để cung cấp cách trình bày dữ
liệu thay thế
Milano 24 18 28 14
DVD 35 30 32 31
(Thành
phố)
hàng
Cửa
la Mã 33 25 23 25 phẩm)
Danh
sản
mục
Sách 18 11 35 47
Đẹp 12 20 24 33
trò 10 14 12 20
Paris
chơi CD
14 23 18
Q1 21 10 18 35 17 21 10
Paris 21 27 26 14
12 20 17
Q2 27 14 11 30 28 20 33
Trục Đẹp 12 14 11 13
ờQ
iu
)ý
na h(
iT
g
10 33 18
gốah
n
h ửp
à
T C
h
(
12
hn)
à
Q3 26 35 32 19 47 18
la Mã 33 28 35 32
Q4 14 20 47 31
Milano 24 23 25 18
22
DAWH430784
Machine Translated by Google
Thực hiện lựa chọn trên một chiều của khối lập
phương, tạo ra một khối con
Milano 24 18 28 14
(Thành
phố)
hàng
Cửa la Mã 33 25 23 25 Q1 21 10 18 35
Đẹp 12 20 24 33
Paris Q2 27 14 11 30
14 23 18
Q1 21 10 18 35
iu
)ý
n ờQ
a h(
i T
g
Q3 26 12 35 32
12 20 17
Q2 27 14 11 30 Lát trên Store.City = 'Paris'
Q4 14 20 47 31
iu
)ý
n ờQ
a h(
i T
g
10 33 18
Q3 26 12 35 32
trò chơi DVD
23
DAWH430784
Machine Translated by Google
Milano 24 18 28 14
phố)
hàng
Cửa
la Mã
(Thành
33 25 23 25
Đẹp 12 20 24 33 Đẹp 12 20 24 33
(Thành
phố)
hàng
Cửa
Paris
Paris
14 23 18
Q1 21 10 18 35
Xúc xắc trên Store.Country = Q1 21 10 18 35
14
ia
n hg
ời T
12 20 17
27 14 11 30 'Pháp' và Time.Quarter= 'Q1' hoặc 'Q2'
Mt(
p
Q2
t)
n ộư
ầ h
Q2 27 14 11 30
iu
)ý
n ờQ
a h(
i T
g
10 33 18
Q3 26 12 35 32 trò chơi DVD
24
DAWH430784
Machine Translated by Google
Lát cắt Tập trung sự chú ý vào Thay thế một thứ nguyên bằng một
một tập hợp con các thứ nguyên giá trị thành phần hoặc bằng bản
Xúc xắc Tập trung sự chú ý vào một Thay thế một thứ nguyên bằng một
tập hợp con các giá trị thành viên tập hợp con các thành viên
Truy sâu xuống Nhận thêm chi tiết về một thứ Điều hướng từ cấp độ tổng quát hơn
nguyên đến cấp độ cụ thể hơn
Cuộn lên Tóm tắt chi tiết về một Điều hướng từ cấp độ cụ thể hơn
chiều đến cấp độ tổng quát hơn
Trục Trình bày dữ liệu Sắp xếp lại kích thước trong khối
theo thứ tự khác dữ liệu
25
DAWH430784
Machine Translated by Google
Từ trên
Từ dưới lên
26
DAWH430784
Machine Translated by Google
Bộ
Cấp siêu thị dữ liệu
phận người dùng
Cơ sở dữ liệu
hoạt động
Chuyển đổi
quá trình
Dữ liệu Mart
Cơ sở dữ liệu
hoạt động
Nguồn dữ
liệu ngoài
Dữ liệu Mart
27
DAWH430784
Machine Translated by Google
Kho dữ liệu Bộ
Cấp siêu thị dữ liệu
máy chủ phận người dùng
Cơ sở dữ liệu
hoạt động
Dàn dựng Khai thác
Khu vực
quá trình
Chuyển đổi
quá trình
Dữ liệu Mart
Cơ sở dữ liệu
hoạt động
Dữ liệu chi
tiết và tóm tắt
EDM
Nguồn dữ
28
DAWH430784
Machine Translated by Google
29
DAWH430784
Machine Translated by Google
Nguồn dữ liệu
Các nguồn thông tin nội bộ hoặc bên ngoài khác (ví dụ: tệp) Tầng phụ trợ
Khu vực tổ chức dữ liệu: Cơ sở dữ liệu trung gian nơi thực hiện thao
Máy chủ OLAP: Hỗ trợ dữ liệu và hoạt động đa chiều Tầng giao
diện người dùng: Xử lý phân tích và trực quan hóa dữ liệu Bao gồm các
công cụ OLAP, công cụ báo cáo, công cụ thống kê, công cụ khai thác
dữ liệu, …
30
DAWH430784
Machine Translated by Google
Khai thác: Thu thập dữ liệu từ nhiều dữ liệu không đồng nhất
nguồn dữ liệu
Có thể là cơ sở dữ liệu hoạt động hoặc tập tin ở nhiều định dạng khác nhau
Chuyển đổi: Sửa đổi dữ liệu cho phù hợp với dữ liệu
định dạng kho
Dọn dẹp: Loại bỏ lỗi, mâu thuẫn, chuyển đổi định dạng
Tổng hợp: Tóm tắt dữ liệu theo mức độ chi tiết (mức độ chi tiết) của
DW
Data mart: DW chuyên biệt hướng tới một khu vực chức năng hoặc
nhóm người dùng cụ thể
Dữ liệu của họ có thể được lấy từ DW của doanh nghiệp hoặc được thu thập từ
nguồn dữ liệu
Siêu dữ liệu kỹ thuật: Dữ liệu được cấu trúc/lưu trữ như thế nào trong máy tính
Cấp OLAP
Hầu hết các sản phẩm cơ sở dữ liệu đều cung cấp phần mở rộng OLAP
và các công cụ liên quan để thao tác với các hình khối
Tuy nhiên, chưa có ngôn ngữ chuẩn hóa để truy vấn dữ liệu
khối
XMLA (XML để phân tích) nhằm mục đích cung cấp một ngôn
ngữ chung để trao đổi dữ liệu đa chiều
33
DAWH430784
Machine Translated by Google
Công cụ báo cáo: Cho phép tạo, gửi và quản lý báo cáo
(trên giấy và trên web)
Sử dụng các truy vấn được xác định trước
Công cụ khai thác dữ liệu: Cho phép người dùng phân tích
dữ liệu để khám phá các mẫu, xu hướng, cho phép dự đoán
34
DAWH430784
Machine Translated by Google
Mô hình đa chiều
35
DAWH430784
Machine Translated by Google
DAWH430784 16/1/2024 37