Professional Documents
Culture Documents
Kho-Du-Lieu-Va-Khai-Pha-Du-Lieu - Nguyen-Ngoc-Duy - Chuong-3 - Cong-Nghe-Kho-Du-Lieu-Va-Phan-Tich-Truc-Tuyen - p1 - (Cuuduongthancong - Com)
Kho-Du-Lieu-Va-Khai-Pha-Du-Lieu - Nguyen-Ngoc-Duy - Chuong-3 - Cong-Nghe-Kho-Du-Lieu-Va-Phan-Tich-Truc-Tuyen - p1 - (Cuuduongthancong - Com)
.c
KHÁI NIỆM CHUNG VỀ
ng
co
an
KHO DỮ LIỆU
th
ng
VÀ
o
du
u
1
CuuDuongThanCong.com https://fb.com/tailieudientucntt
1
Nội dung
om
Khái niệm về kho dữ liệu.
.c
1.
ng
2.
co
3. Kiến trúc của kho dữ liệu.
an
Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến.
th
4. ng
5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu.
o
du
định.
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
2
Khái niệm về kho dữ liệu
om
Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu.
.c
Dữ liệu được tích hợp.
ng
co
Dữ liệu được thu thập từ nhiều nguồn:
an
Khác về không gian,
Khác về thời gian, th
ng
o
Khác về thể hiện và cấu trúc.
du
cu
om
Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực
.c
ng
co
Một Data warehouse có thể hình thành nhiều Data
an
Mart.
th
ng
Thuật ngữ Data Warehousing: Quá trình xây dựng
o
du
CuuDuongThanCong.com https://fb.com/tailieudientucntt
4
Khái niệm về kho dữ liệu
om
Công cụ ETL (Extract – Transform – Load):
.c
Rút trích (Extract):
ng
co
Rút trích thông tin từ những nguồn đã có,
an
Những phiên bản phụ thuộc thời gian của dữ liệu,
Chọn lựa dữ liệu.
th
ng
Chuyển đổi (Transform):
o
du
cho trước.
Tải (Load)
Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
5
Các đặc tính của kho dữ liệu
om
Dữ liệu hướng chủ thể:
.c
Dữ liệu hướng theo từng nhóm đối tượng: khách
ng
hang, bệnh nhân, sản phẩm, …
co
an
Tập trung vào việc mô hình hóa và phân tích các
th
dữ liệu cho các nhà sản xuất quyết định
o ng
Chuyển từ hướng ứng dụng sang hướng hỗ trợ
du
quyết định.
u
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
6
Các đặc tính của kho dữ liệu
om
Tính tích hợp:
.c
Dữ liệu được tập hợp từ nhiều nguồn: có thể
ng
co
khác kiểu, khác cấu trúc, …
an
Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu
trúc, tập tin phẳng, … th
o ng
Cần được chuẩn hóa để đảm bảo tính nhất quán
du
Việc chuẩn hóa cần thực hiện trước khi tích hợp.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
7
Các đặc tính của kho dữ liệu
om
Dữ liệu biến thời gian.
.c
Thông tin về quá khứ, hiện tại,
ng
co
So sánh dữ liệu theo chiều thời gian,
an
Hỗ trợ quyết định cho tương lai.
th
Thành phần thời gian có thể tường minh hoặc
ng
o
ngầm định.
du
cu
om
Phục vụ các phân tích dữ liệu phức tạp:
.c
Phân tích định hướng,
ng
co
Phân tích chuỗi thời gian,
an
Phân tích rủi ro.
th
Hỗ trợ khám phá thông tin, tri thức ẩn.
ng
o
Hỗ trợ ra quyết định.
du
u
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
9
Mô hình dữ liệu đa chiều
om
Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép
.c
nhìn dữ liệu dưới hình thức của một khối dữ liệu
ng
co
Một khối dữ liệu cho phép dữ liệu được mô hình và
an
được nhìn trong nhiều chiều bởi:
th
Các bản chiều (Dimension Tables) như Item
ng
o
(item_name, brand, type); time(day, week, month).
du
Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một
u
cu
cuboid cơ sở.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
10
Mô hình dữ liệu đa chiều
om
Cube: một lưới các cuboid
.c
ng
co
an
th
o ng
du
u
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
11
Mô hình dữ liệu đa chiều
om
Mô hình ý niệm của Kho dữ liệu
.c
Lược đồ hình sao (Star schema): Một bảng sự kiện ở
ng
giữa nối đến một tập bảng chiều
co
Lược đồ hình bông tuyết (Snowflake schema): Là lược
an
th
đồ tinh chế từ lược đồ hình sao (một vài chiều có sự
ng
phân cấp được chuẩn hóa thành một tập các bảng chiều
o
du
nhỏ hơn).
u
cu
om
Lược đồ hình sao
.c
Bảng sự kiện chứa dữ
ng
liệu sự kiện hoặc định
co
lượng
an
th
ng
Quan hệ 1:N của
o
bảng chiều và bảng
du
sự kiện
u
cu
om
Lược đồ chòm sao sự kiện
.c
ng
co
an
th
o ng
du
u
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
14
Mô hình dữ liệu đa chiều
Lược đồ hình bông tuyết
om
time
.c
item
time_key
ng
day item_key supplier
co
day_of_the_week Sales Fact Table item_name supplier_key
month brand
an
time_key supplier_type
quarter type
th
year ng item_key supplier_key
branch_key
o
location
du
branch
location_key
location_key
u
branch_key
cu
units_sold street
branch_name
city_key city
branch_type
dollars_sold
city_key
avg_sales city
province_or_street
Measures country 15
CuuDuongThanCong.com https://fb.com/tailieudientucntt
Kiến trúc của kho dữ liệu
om
Kiến trúc 2 lớp khái quát (Generic Two-Level
.c
1.
ng
Architecture).
co
2. Data Mart độc lập (Independent Data Mart).
an
Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp
th
3. ng
(Dependent Data Mart and Operational Data Store).
o
du
om
2. Kiến trúc 2 lớp khái quát :
.c
ng
co
an
th
ng
L
o
du
u
T
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
17
Kiến trúc của kho dữ liệu
om
Data Mart độc lập:
.c
2.
ng
co
an
th
o ng
du
u
cu
T
E L
CuuDuongThanCong.com https://fb.com/tailieudientucntt
18
Kiến trúc của kho dữ liệu
om
Data Mart độc lập:
.c
2.
ng
co
không có ảnh hưởng của kho dữ liệu.
an
Hạn chế của Data Mart độc lập:
th
ng
Mỗi Data Mart độc lập cần một ETL riêng,
o
du
Tốn chi phí để làm cho các Data Mart tương thích
nhau.
CuuDuongThanCong.com https://fb.com/tailieudientucntt
19
Kiến trúc của kho dữ liệu
om
3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:
.c
ng
co
an
th
ng
L
o
du
u
cu
T
E
CuuDuongThanCong.com https://fb.com/tailieudientucntt
20
Kiến trúc của kho dữ liệu
om
3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:
.c
Data Mart phụ thuộc:
ng
co
Data Mart được nạp dữ liệu dành riêng từ kho dữ
an
liệu doanh nghiệp.
Kho lưu trữ dữ liệu hoạt động: th
ng
o
Một cơ sở dữ liệu tích hợp hướng chủ thể, có thể
du
cập nhật.
u
cu
om
4. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:
.c
ng
co
an
th
o ng
du
u
L
cu
E
CuuDuongThanCong.com https://fb.com/tailieudientucntt
22
Kiến trúc của kho dữ liệu
om
4. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:
.c
Data Mart luận lý:
ng
co
Là Data Mart dưới góc nhìn lược đồ quan hệ.
an
Kho dữ liệu tích cực:
th
Chứa dữ liệu gần thời gian thực (near real time) của
ng
o
dữ liệu giao dịch,
du
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
23
Kiến trúc của kho dữ liệu
om
5. Kiến trúc dữ liệu 3 lớp:
.c
ng
co
an
th
o ng
du
u
cu
CuuDuongThanCong.com https://fb.com/tailieudientucntt
24
Kiến trúc của kho dữ liệu
om
5. Kiến trúc dữ liệu 3 lớp:
.c
Dữ liệu hòa hợp (Reconcile data):
ng
co
Dữ liệu có tính chi tiết.
an
Dữ liệu chính thức cho tất cả ứng dụng hỗ trợ quyết định.
Dữ liệu chuyển giao (Derived data):
th
ng
Dữ liệu được chọn chuyển cho người dùng cuối trong
o
du
CuuDuongThanCong.com https://fb.com/tailieudientucntt
25