You are on page 1of 26

Kỹ thuật xử lý phân tích

trực tuyến (OLAP)


Cấu hình cơ bản trong phân tích dữ liệu CRM
OLAP (Online Analytical Processing)
Xử lý phân tích dữ liệu trực tuyến

• OLAP là kỹ thuật phân tích được sử dụng để truy xuất và phân tích
dữ liệu đã được lưu trữ trong kho dữ liệu (Data warehouse)
• Dữ liệu trong phân tích OLAP được tổ chức theo cấu trúc đa chiều,
gọi là khối (cube), cho phép khai thác được nhiều góc độ và thực
hiện các phân tích đa dạng
• OLAP là kỹ thuật để truy xuất dữ liệu chủ yếu trong công nghệ kho
dữ liệu, đáp ứng được các tiêu chí: trực tuyến, nhanh chóng, trực
quan và hiệu quả

3
Một số khái niệm cơ bản trong OLAP

1. Data cube – Khối dữ liệu đa chiều


2. Schema – Lược đồ
3. Hierarchies - Phân cấp
4. OLAP Operations - Các thao tác OLAP

4
1. Data cube – Khối dữ liệu đa chiều

Cấu trúc của khối dữ liệu được xác định bởi tập hợp các
Chiều (Dimension) và Độ đo (Measure)
- Mỗi chiều mô tả một đặc trưng nào đó của dữ liệu, cung cấp
thông tin và ngữ cảnh cho dữ liệu.
VD: Với dữ liệu về doanh thu theo từng khu vực, thời gian và
dòng sản phẩm thì khu vực, thời gian và dòng sản phẩm là các
chiều, mô tả thông tin của đại lý bán hàng, thời gian bán hàng và
chi tiết về hàng hóa
- Độ đo chứa dữ liệu chủ điểm muốn phân tích, là những đại
lượng có thể tính toán được. Đây là mục tiêu của phân tích
và phải xác định trước khi tiến hành triển khai OLAP
VD: Doanh thu, tỷ lệ chuyển đổi KH, chi phí marketing, số lượng
hàng hóa bán được…

5
Product – Chocolate

Data Cube Date – May 2018


Region – South East
Measure – Sales
Date

Region

Product

Ô dữ
How much Chocolate did liệu
we sell màu
in the đỏEast
South choin biết thông
May 2018? tin gì?
Một số khái niệm cơ bản trong OLAP

2. Schema – Lược đồ

• Lược đồ là mô hình biểu diễn của kho dữ liệu.


• Hầu hết DW hiện nay đều lưu trữ dữ liệu theo mô hình dữ liệu đa chiều
(Multidimensional data model) với 3 dạng:
o Lược đồ hình sao – Star schema
o Lược đồ bông tuyết – Snowflake schema
o Chòm sao sự kiện – Fact constellations hay Lược đồ thiên hà –
Galaxy schema

7
Một số khái niệm cơ bản trong OLAP

2. Schema – Lược đồ

• Lược đồ hình sao là mô hình phổ biến nhất, bao gồm 1 Bảng sự kiện
(Fact table) và các Bảng chiều (Dimension table) kết nối với nhau:
• Bảng sự kiện nằm ở trung tâm, dùng để theo dõi biến động của dữ
liệu – tương đương với dữ liệu của các độ đo. Bảng sự kiện cũng
bao gồm các khóa ngoại đó là các khóa chính của cả bảng chiều
(time_key; item_key; branch_key…)
• Bảng Chiều là các bảng mô tả các đặt trưng của các chiều – tương
đương với thông tin của các chiều

8
Minh họa Lược đồ hình sao

9
Một số khái niệm cơ bản trong OLAP

3. Hierarchies - Phân cấp:

• Là khái niệm mô tả sự phân cấp thứ bậc


(mức độ chi tiết) của dữ liệu
Với chiều thời gian:
day<week<month<quarter<year.
Với chiều khu vực:
street<city<province_or_state<country.
• Là khái niệm cần thiết để tổng hợp hay
chi tiết từng hạng mục dữ liệu trong DW
trong khi phân tích dữ liệu
10
Phân cấp dữ liệu

11
Một số khái niệm cơ bản trong OLAP

4. OLAP Operations: Các tác vụ/ thao tác OLAP

- Roll-up (Cuộn)
- Drill-down (Đào sâu)
- Slice (Cắt lát)
- Dice (Cắt khối)
- Pivot (Xoay)

12
4. OLAP Operations: Các tác vụ/ thao tác OLAP

Roll-up (Cuộn): thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu
Ví dụ: Tổng hợp doanh thu các năm vừa qua từ báo cáo tháng

13
4. OLAP Operations: Các tác vụ/ thao tác OLAP

Drill-down (Đào sâu): thao


tác ngược lại với Roll-up,
cung cấp dữ liệu ở mức chi
tiết theo các chiều dữ liệu

• Ví dụ: Xem chi tiết tỷ lệ


chuyển đổi khách hàng của
các tháng thay vì năm/quý

14
4. OLAP Operations: Các tác vụ/ thao tác OLAP

Slice (Cắt lát): thực hiện “cắt” lấy một “lát” dữ liệu theo 1 chiều nào đó của
khối dữ liệu
Ví dụ: Xem tình hình kinh doanh của chi nhánh A

15
4. OLAP Operations: Các tác vụ/ thao tác OLAP

Dice (Cắt khối): thực hiện “cắt” lấy một “khối con” dữ liệu của khối dữ liệu
Ví dụ: Xem doanh thu, chi phí của sản phẩm X và Y trong 3 tháng đầu năm

16
4. OLAP Operations: Các tác vụ/ thao tác OLAP

Pivot (Xoay): cho phép xoay


Khối dữ liệu theo các chiều, từ đó
cung cấp cho người sử dụng nhiều
góc nhìn vào dữ liệu
Ví dụ: Tổng hợp doanh thu theo
chiều nhân viên chuyển sang tổng
hợp doanh thu theo chiều sản phẩm

17
1

Thảo luận
Điền các tác vụ OLAP tại 3
các mũi tên (đánh số thứ tự)
4

5
Ngôn ngữ truy vấn Kho dữ liệu MDX (MultiDimensional eXpressions)

Syntax (basic)
SELECT <measures|dimensions> [on columns|rows]
FROM <Cube>
[WHERE <Slicing conditions>]

How to use MDX?


Create Datawarehouse (OLAP|Cube) using SSIS
Using MDX to query Data in the cube

18
Các bước triển khai 1 dự án OLAP

 Create data source - Tạo nguồn dữ liệu


 Create Data source view - Tạo chế độ xem nguồn dữ liệu
 Create a Data Cube - Tạo một khối dữ liệu
 Setting OLAP parameters - Cài đặt các thông số OLAP
 Deploy OLAP - Triển khai OLAP
 Analyzing the result - Phân tích kết quả

19
Bài tập
1. Giả sử kho dữ liệu được thiết kế theo 3 chiều: thời gian; nhân viên;
khách hàng và độ đo là doanh thu. Trong đó các chiều được thiết kế
phân cấp như sau:
• Thời gian: ngày, tháng, quý và năm
• Nhân viên: tên nhân viên, bộ phận, chi nhánh.
• Khách hàng: tên khách hàng, nhóm khách hàng

a. Vẽ lược đồ hình sao mô tả kho dữ liệu trên


b. Bắt đầu với cấp độ thấp nhất tại mỗi chiều, nêu các tác vụ
OLAP để liệt kê doanh thu tại mỗi chi nhánh theo các nhóm
khách hàng vào năm 2022

19
a. Lược đồ hình sao

Bảng chiều Bảng chiều


Bảng sự kiện
Thời gian Nhân Viên
Thoigian_id Thoigian_id Nhanvien_id
Ngày Nhanvien_id Tên nhân viên
Tháng Khachhang_id Bộ phận
Quý Doanh thu Chi nhánh
Năm

Bảng chiều
Khách hàng
Khachhang_id
Tên khách hàng
Nhóm khách hàng
b, Bắt đầu với cấp độ thấp nhất tại mỗi chiều, nêu các tác
vụ OLAP để liệt kê doanh thu tại mỗi chi nhánh theo các
nhóm khách hàng vào năm 2022

- Roll-up chiều thời gian từ ngày sang năm


- Slice chiều thời gian = 2022
- Roll-up chiều nhân viên từ tên nhân viên sang chi nhánh
- Roll-up chiều khách hàng từ tên khách hàng sang nhóm
khách hàng

19
Bài tập
2. Giả sử kho dữ liệu được thiết kế theo 3 chiều: thời gian; khu vực;
khách hàng để theo dõi hiệu quả chăm sóc khách hàng thông qua chi
phí phục vụ và mức độ hài lòng. Trong đó các chiều được thiết kế phân
cấp như sau:
• Thời gian: ngày, tháng, quý và năm
• Khu vực: phường, quận, thành phố, quốc gia
• Khách hàng: tên khách hàng, nhóm khách hàng

a. Vẽ lược đồ hình sao mô tả kho dữ liệu trên


b. Bắt đầu với cấp độ thấp nhất tại mỗi chiều, nêu các tác vụ OLAP
để xem hiệu quả chăm sóc đối với nhóm khách hàng cá nhân tại các
thành phố qua các năm.
19
a. Lược đồ hình sao

19
b. Các tác vụ OLAP cho biết hiệu quả chăm sóc đối với
nhóm khách hàng cá nhân tại các thành phố qua các năm

- Roll-up chiều khách hàng từ tên khách hàng sang nhóm


khách hàng
- Slice chiều khách hàng = cá nhân
- Roll-up chiều thời gian từ ngày sang năm
- Roll-up chiều khu vực từ phường sang thành phố

19

You might also like