You are on page 1of 25

om

.c
KHÁI NIỆM CHUNG VỀ

ng
co
an
KHO DỮ LIỆU
th
ng

o
du
u

KHAI PHÁ DỮ LIỆU


cu

1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
1
Nội dung

om
Khái niệm về kho dữ liệu.

.c
1.

Mô hình dữ liệu đa chiều

ng
2.

co
3. Kiến trúc của kho dữ liệu.

an
Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến.
th
4. ng
5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu.
o
du

6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết


u

định.
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
2
Khái niệm về kho dữ liệu

om
 Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu.

.c
 Dữ liệu được tích hợp.

ng
co
 Dữ liệu được thu thập từ nhiều nguồn:

an
 Khác về không gian,
Khác về thời gian, th
ng

o
 Khác về thể hiện và cấu trúc.
du

Lưu trữ dữ liệu, thông tin, tri thức và siêu dữ liệu


u


cu

phục vụ cho phân tích.


 Các tổ chức có thể chết đuối trong dữ liệu nhưng
đói thông tin.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
3
Khái niệm về kho dữ liệu

om
Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực

.c

hẹp gọi là Data Mart.

ng
co
 Một Data warehouse có thể hình thành nhiều Data

an
Mart.
th
ng
 Thuật ngữ Data Warehousing: Quá trình xây dựng
o
du

và sử dụng một kho dữ liệu.


u
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
4
Khái niệm về kho dữ liệu

om
 Công cụ ETL (Extract – Transform – Load):

.c
 Rút trích (Extract):

ng
co
 Rút trích thông tin từ những nguồn đã có,

an
 Những phiên bản phụ thuộc thời gian của dữ liệu,
 Chọn lựa dữ liệu.
th
ng
Chuyển đổi (Transform):
o

du

 Chuyển đổi các định dạng khác nhau về định dạng


u
cu

cho trước.
 Tải (Load)
 Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
5
Các đặc tính của kho dữ liệu

om
 Dữ liệu hướng chủ thể:

.c
 Dữ liệu hướng theo từng nhóm đối tượng: khách

ng
hang, bệnh nhân, sản phẩm, …

co
an
 Tập trung vào việc mô hình hóa và phân tích các

th
dữ liệu cho các nhà sản xuất quyết định
o ng
 Chuyển từ hướng ứng dụng sang hướng hỗ trợ
du

quyết định.
u
cu

 Không dùng cho các hoạt động hang ngày hoặc


xử lý giao dịch.

CuuDuongThanCong.com https://fb.com/tailieudientucntt
6
Các đặc tính của kho dữ liệu

om
 Tính tích hợp:

.c
 Dữ liệu được tập hợp từ nhiều nguồn: có thể

ng
co
khác kiểu, khác cấu trúc, …

an
 Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu
trúc, tập tin phẳng, … th
o ng
 Cần được chuẩn hóa để đảm bảo tính nhất quán
du

trong quy ước đặt tên, …


u
cu

 Việc chuẩn hóa cần thực hiện trước khi tích hợp.

CuuDuongThanCong.com https://fb.com/tailieudientucntt
7
Các đặc tính của kho dữ liệu

om
 Dữ liệu biến thời gian.

.c
 Thông tin về quá khứ, hiện tại,

ng
co
 So sánh dữ liệu theo chiều thời gian,

an
 Hỗ trợ quyết định cho tương lai.
th
Thành phần thời gian có thể tường minh hoặc
ng

o
ngầm định.
du

Dữ liệu mang tính bền vững, chỉ đọc (non volatile):


u


cu

 Có thể thêm vào, nhưng không thay thế,


 Phục vụ việc nghiên cứu, phân tích
CuuDuongThanCong.com https://fb.com/tailieudientucntt
8
Sự cần thiết của kho dữ liệu

om
 Phục vụ các phân tích dữ liệu phức tạp:

.c
 Phân tích định hướng,

ng
co
 Phân tích chuỗi thời gian,

an
 Phân tích rủi ro.
th
Hỗ trợ khám phá thông tin, tri thức ẩn.
ng

o
 Hỗ trợ ra quyết định.
du
u
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
9
Mô hình dữ liệu đa chiều

om
 Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép

.c
nhìn dữ liệu dưới hình thức của một khối dữ liệu

ng
co
 Một khối dữ liệu cho phép dữ liệu được mô hình và

an
được nhìn trong nhiều chiều bởi:
th
Các bản chiều (Dimension Tables) như Item
ng

o
(item_name, brand, type); time(day, week, month).
du

Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một
u


cu

cuboid cơ sở.

CuuDuongThanCong.com https://fb.com/tailieudientucntt
10
Mô hình dữ liệu đa chiều

om
 Cube: một lưới các cuboid

.c
ng
co
an
th
o ng
du
u
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
11
Mô hình dữ liệu đa chiều

om
 Mô hình ý niệm của Kho dữ liệu

.c
 Lược đồ hình sao (Star schema): Một bảng sự kiện ở

ng
giữa nối đến một tập bảng chiều

co
Lược đồ hình bông tuyết (Snowflake schema): Là lược

an

th
đồ tinh chế từ lược đồ hình sao (một vài chiều có sự
ng
phân cấp được chuẩn hóa thành một tập các bảng chiều
o
du

nhỏ hơn).
u
cu

 Chòm sao sự kiện (Fact constellation): Nhiều bảng sự


kiện chia sẽ các bảng chiều. Một cách gọi khác cho lược
đồ này Galaxy schema (lược đồ thiên hà)
CuuDuongThanCong.com https://fb.com/tailieudientucntt
12
Mô hình dữ liệu đa chiều

om
 Lược đồ hình sao

.c
Bảng sự kiện chứa dữ

ng
liệu sự kiện hoặc định

co
lượng

an
th
ng
Quan hệ 1:N của
o
bảng chiều và bảng
du

sự kiện
u
cu

Bảng chiều chứa các mô tả


về các chủ thể của nghiệp
vụ 13
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Mô hình dữ liệu đa chiều

om
 Lược đồ chòm sao sự kiện

.c
ng
co
an
th
o ng
du
u
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
14
Mô hình dữ liệu đa chiều
Lược đồ hình bông tuyết

om

time

.c
item
time_key

ng
day item_key supplier

co
day_of_the_week Sales Fact Table item_name supplier_key
month brand

an
time_key supplier_type
quarter type

th
year ng item_key supplier_key

branch_key
o
location
du

branch
location_key
location_key
u

branch_key
cu

units_sold street
branch_name
city_key city
branch_type
dollars_sold
city_key
avg_sales city
province_or_street
Measures country 15
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Kiến trúc của kho dữ liệu

om
Kiến trúc 2 lớp khái quát (Generic Two-Level

.c
1.

ng
Architecture).

co
2. Data Mart độc lập (Independent Data Mart).

an
Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp
th
3. ng
(Dependent Data Mart and Operational Data Store).
o
du

4. Data Mart luận lý và Kho dữ liệu tích cực (Logical


u

Data Mart and @ctive Warehouse).


cu

5. Kiến trúc dữ liệu ba lớp (Three-Layer data


architecture)
CuuDuongThanCong.com https://fb.com/tailieudientucntt
16
Kiến trúc của kho dữ liệu

om
2. Kiến trúc 2 lớp khái quát :

.c
ng
co
an
th
ng
L
o
du
u

T
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
17
Kiến trúc của kho dữ liệu

om
Data Mart độc lập:

.c
2.

ng
co
an
th
o ng
du
u
cu

T
E L

CuuDuongThanCong.com https://fb.com/tailieudientucntt
18
Kiến trúc của kho dữ liệu

om
Data Mart độc lập:

.c
2.

Dữ liệu được rút trích từ môi trường hoạt động mà

ng

co
không có ảnh hưởng của kho dữ liệu.

an
 Hạn chế của Data Mart độc lập:
th
ng
 Mỗi Data Mart độc lập cần một ETL riêng,
o
du

 Các Data Mart không tương thích nhau,


u

 Tốn nhiều chi phí để có một ứng dụng mới,


cu

 Tốn chi phí để làm cho các Data Mart tương thích
nhau.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
19
Kiến trúc của kho dữ liệu

om
3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:

.c
ng
co
an
th
ng
L
o
du
u
cu

T
E

CuuDuongThanCong.com https://fb.com/tailieudientucntt
20
Kiến trúc của kho dữ liệu

om
3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:

.c
 Data Mart phụ thuộc:

ng
co
 Data Mart được nạp dữ liệu dành riêng từ kho dữ

an
liệu doanh nghiệp.
Kho lưu trữ dữ liệu hoạt động: th
ng

o
 Một cơ sở dữ liệu tích hợp hướng chủ thể, có thể
du

cập nhật.
u
cu

 Được thiết kế dành cho người dung tác nghiệp


trong quá trình làm hỗ trợ quyết định.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
21
Kiến trúc của kho dữ liệu

om
4. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:

.c
ng
co
an
th
o ng
du
u

L
cu

E
CuuDuongThanCong.com https://fb.com/tailieudientucntt
22
Kiến trúc của kho dữ liệu

om
4. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:

.c
 Data Mart luận lý:

ng
co
 Là Data Mart dưới góc nhìn lược đồ quan hệ.

an
 Kho dữ liệu tích cực:
th
Chứa dữ liệu gần thời gian thực (near real time) của
ng

o
dữ liệu giao dịch,
du

Ứng dụng dò tìm lỗi.


u


cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
23
Kiến trúc của kho dữ liệu

om
5. Kiến trúc dữ liệu 3 lớp:

.c
ng
co
an
th
o ng
du
u
cu

CuuDuongThanCong.com https://fb.com/tailieudientucntt
24
Kiến trúc của kho dữ liệu

om
5. Kiến trúc dữ liệu 3 lớp:

.c
 Dữ liệu hòa hợp (Reconcile data):

ng
co
 Dữ liệu có tính chi tiết.

an
 Dữ liệu chính thức cho tất cả ứng dụng hỗ trợ quyết định.
 Dữ liệu chuyển giao (Derived data):
th
ng
Dữ liệu được chọn chuyển cho người dùng cuối trong
o

du

ứng dụng hỗ trợ quyết định.


u
cu

 Siêu dữ liệu (Metadata):


 Dùng để đặc tả dữ liệu khác.

CuuDuongThanCong.com https://fb.com/tailieudientucntt
25

You might also like