Datawarehouse

Data warehouse là gì ?
1. Data Warehouse là một hệ thống lưu trữ dữ liệu được thiết kế để hỗ trợ việc phân
tích và ra quyết định trong các tổ chức.
2. Là cơ sở dữ liệu tách biệt, tối ưu hóa cho việc truy vấn.
3. Thuận lợi cho việc phân tích từ nhiều nguồn khác nhau.
Tại sao cần Data warehouse:
1. Tích hợp dữ liệu, tổng hợp dữ liệu từ các nguồn như cơ sở dữ liệu giao dịch, hệ
thống CRM, hệ thống ERP, tệp dẫn xuất, thành một cơ sở dữ liệu chung giúp dễ
dàng phân tích và truy xuất thông tin.
2. Hiệu suất truy vấn tốt, tốt vấn so với truy vấn từ nguồn dữ liệu gốc
3. Đã được chuẩn hóa dữ liệu.
4. Theo dõi và lưu trữ lịch sử dữ liệu từ trước đó đến hiện tại thuận tiện cho việc
phân tích số liệu từ dữ liệu.
5. Hỗ trợ khai thác thông tin bằng các công cụ BI, OLAP, Data Mining, và các báo
cáo => nhìn thấy được mô hình , xu hướng.
Đây là một công cụ quan trọng giúp tổ chức , lưu trữ, và phân tích dữ liệu một cách hiệu quả.
Sự khác nhau giữa Data warehouse và OLPT(Online Transaction Processing) :
Mục Tiêu:
1. OLTP: được thiết kế để hỗ trợ quản lý giao dịch hang ngày của doanh nghiệp,
như thêm , xóa , sửa dữ liệu. OLTP cung cấp tính năng ghi và đọc nhanh , đảm
bảo tính toàn vẹn dữ liệu.
2. Data Warehouse: được thiết kế ra để hỗ trợ phân tích dữ liệu và ra quyết định
chiến lược trong quá trình dài hạn.
Thiết kế dữ liệu:
1. OLTP : được thiết kế với cấu trúc dữ liệu chi tiết và bảng phân mảnh để đảm bảo hiệu suất
tốt cho việc thực hiện các giao dịch hàng ngày. Sử dụng normalized để tránh lặp dữ liệu
và đảm bảo tính toàn vẹn dữ liệu.
2. Data warehouse: được thiết kế với cấu trúc dữ liệu định hướng tới hiệu suất truy vấn và
phân tích tốt hơn. Thường sử dụng cấu trúc dạng sao denorminalized như Star Schema
để giảm thời gian truy vấn.
Tính chất ghi đọc:

1. OLTP: Cơ sở dữ liệu giao dịch tập trung vào tính năng ghi và đọc đồng thời, có
thể xử lý hàng loạt các giao dịch nhỏ và cập nhật dữ liệu liên tục. OLTP đảm bảo
tính toàn vẹn và nhất quán của dữ liệu trong thời gian thực.
2. Data Warehouse: Data Warehouse tập trung vào truy vấn dữ liệu phức tạp và phân
tích dự liệu từ nhiều nguồn khác nhau. Thông thường, việc ghi dữ liệu vào Data
Warehouse xảy ra ít hơn và dữ liệu thường được cập nhật một cách định kỳ.
Data mart là gì ?
Data Mart là một phần của Data Warehouse, nó là một cơ sở dữ liệu con hoặc một phần nhỏ hơn của
hệ thống Data Warehouse. à một bản sao hoặc một phần của dữ liệu trong Data Warehouse, được tổ
chức và tối ưu hóa để phục vụ nhu cầu phân tích cụ thể của một bộ phận hoặc phòng ban trong doanh
nghiệp.
Có 2 loại Data mart:
1.Data Mart phân vùng theo chủ đề (Subject-Oriented Data Mart): Được xây dựng để phục vụ
cho một chủ đề cụ thể hoặc một lĩnh vực trong tổ chức, chẳng hạn như bán hàng, tài chính, marketing,
hay sản xuất. Data Mart phân vùng theo chủ đề tập trung vào việc cung cấp dữ liệu có liên quan và đã
được tổ chức cho các nhóm người dùng có nhu cầu phân tích chung.
2. Data Mart phân vùng theo phạm vi người dùng (User-Oriented Data Mart): Được tối ưu hóa
để phục vụ cho một nhóm người dùng cụ thể trong tổ chức, chẳng hạn như bộ phận marketing hoặc bộ
phận kinh doanh. Data Mart phân vùng theo phạm vi người dùng được xây dựng dựa trên nhu cầu
phân tích đặc thù của một nhóm người dùng cụ thể và cung cấp các thông tin tùy chỉnh và đáp ứng
nhu cầu cụ thể của họ.
Lợi ích của data mart:
1. Hiệu suất tốt vì tập trung vào đúng đối tượng cần sử dụng
2. Được xây dựng từ data warehouse , đảm bảo tích hợp và dữ liệu, đảm bảo tích nhất quán.
3. Quản lý dẽ dàng, tăng tính linh hoạt.
KIẾN TRÚC DATA WAREHOUSE:
1. DATA STAGING AREA: Data Staging Area (Khu vực lưu trữ tạm thời dữ liệu) là nơi
dữ liệu từ các nguồn khác nhau được nhập vào trước khi được xử lý và tải vào Data
Warehouse chính. Khu vực này thường được sử dụng để chuyển đổi, làm sạch và tích
hợp dữ liệu từ các nguồn khác nhau thành một định dạng chung và phù hợp cho
Data Warehouse. Quá trình này thường được gọi là ETL (Extract, Transform, Load).
2. DATA WARE HOUSE: Data Warehouse là phần trung tâm của kiến trúc, nơi lưu trữ
dữ liệu tổng hợp từ các nguồn khác nhau. Nó là cơ sở dữ liệu tối ưu hóa để hỗ trợ
việc truy vấn và phân tích dữ liệu bằng cách sử dụng cấu trúc dữ liệu định hướng tới
hiệu suất, chẳng hạn như Star Schema hoặc Snowflake Schema. Data Warehouse đảm
bảo tích hợp, lịch sử hóa và lưu trữ dữ liệu một cách có tổ chức.
3. DATA MART:
4. OLAP CUBE: OLAP Cube là một cấu trúc đa chiều dữ liệu, cho phép người dùng
thực hiện các phân tích đa chiều và định hướng, giúp tập trung vào việc thực hiện các
phân tích nhanh chóng và tương tác trên dữ liệu trong Data Warehouse. OLAP Cube
thường được sử dụng bởi các công cụ Business Intelligence (BI) để trực quan hóa dữ
liệu và tạo báo cáo tổng hợp.
5. META DATA: Metadata là các thông tin mô tả về dữ liệu trong Data Warehouse,
chẳng hạn như cấu trúc dữ liệu, các quan hệ giữa các bảng, nội dung của các cột dữ
liệu, và các quy tắc xử lý dữ liệu. Metadata giúp người dùng hiểu và tìm hiểu về dữ
liệu trong Data Warehouse và hỗ trợ quá trình truy vấn và phân tích dữ liệu.
6. CÔNG CỤ PHÂN TÍCH DATA : BI
STAR SCHEMA: Star Schema là một cấu trúc lưu trữ dữ liệu trong Data Warehouse,
trong đó có một bảng trung tâm được gọi là "Bảng Fakts" (Fact Table) và các bảng chi tiết
liên quan được gọi là "Bảng Kích thước" (Dimension Tables). Bảng Fakts chứa các thông
tin số liệu và các chỉ số con trỏ đến các bảng kích thước, nhằm mục đích giảm bớt dữ
liệu trùng lặp và tối ưu hóa việc truy xuất dữ liệu.
SNOWFLAKE SCHEMA: Snowflake Schema: Snowflake Schema là một biến thể của Star
Schema, trong đó bảng kích thước của Star Schema được phân tách thành các bảng con
với cấu trúc bậc hơn. Điều này làm cho cấu trúc dữ liệu trông giống như một bông tuyết
(snowflake), nơi mà các bảng kích thước chia ra thành nhiều bảng nhỏ hơn liên kết với
nhau.
Lựa chọn giữa Star Schema và Snowflake Schema phụ thuộc vào yêu cầu cụ thể của
dự án và các yếu tố vận hành. Nếu dự án có nhu cầu phân mảnh dữ liệu và tối ưu
không gian lưu trữ, Snowflake Schema có thể là một lựa chọn tốt. Tuy nhiên, nếu
hiệu suất truy vấn và đơn giản hóa cấu trúc dữ liệu là ưu tiên, thì Star Schema có thể
được ưu tiên hơn.
NGÔN NGỮ TRUY VẤN:
Phổ biến nhất là SQL(Structured querry language) và MDX( multidimensional

Expression)
1. SQl: ngôn ngữ truy vấn , cập nhật và quản lý cơ sở dữ liệu.

2. MDX: ngôn ngữ dành riêng cho việc làm với hệ thống OLAP ( online analytical
processing) và các OLAP Cube. MDX cho phép truy vấn, phân tích dữ liệu đa
chiều, và kích thước trong hệ thống OLAP.
ETL ( Extract, transform , load)
ETL là quá trình quan trọng trong việc chuẩn bị và tích hợp dữ liệu vào data warehouse. Gồm
3 bước:
Extract: bước này liên quan đến trích xuất dữ liệu , chẳng hạn như cơ sở giao dịch, tệp dẫn xuất, hệ
thống CRM, hệ thống ERP. Dữ liệu sẽ được trích xuất và lưu vào khu vực tạm thời(Data Staging Area).
Transform: bước này liên quan đến quá trình biến đổi, làm sạch và chuẩn hóa dữ liệu. Bước này, dữ
liệu từ khu vực Data Staging Area được chuyển đổi định dạng và phù hợp với mô hình dữ liệu Data
Warehouse. Biến đổi bao gồm loại bỏ dữ liệu trùng lập, xử lý dữ liệu tối thiểu, đổi dịnh dạng dữ liệu.
Load: bước cuối cùng của quá trình là nạp dữ liệu đã biến đổi vào Data Warehouse hoặc Data mart.
Dữ liệu được nạp vào các bảng và cấu trúc dữ liệu đã được thiết kế trong Data warehouse để sẵn
sàng cho việc truy vấn và phân tích.
CÔNG NGHỆ DATA WAREHOUSE:
1.Các hệ quản trị cơ sở dữ liệu Data Warehouse: Oracle , Microsoft SQL, Server, PostgreSQL
2.Công nghệ OLAP ( online Analytical Processing) và công cụ OLAP như Microsft Analysis Services
3.Data Mining và các công cụ hỗ trợ dữ liệu.
THIẾT KẾ TỐI ƯU HÓA VÀ TRUY VẤN:
1. Thiết kế cấu trúc dữ liệu phù hợp

2. Tối ưu hóa các câu lệnh truy vấn
3. Sử dụng chỉ số( Indexes)
4. Quản lý bộ nhớ Cache
5. Tối ưu lập lich truy vấn
6. Sử dụng phân tích vùng và chỉnh sửa dữ liệu.
AN NINH BẢO MẬT DỮ LIỆU:
1. Bảo vệ dữ liệu trong data warehouse khỏi các mối đe dọa bảo mật và truy cập trái phép..
2. Quản lý dữ liệu dựa trên vai trò phân quyền.
HIỂU VỀ BIG DATA VÀ DATA LAKES:
Big data là thuật ngữ được sử dụng để chỉ các tập dữ liệu rất lớn và phức tạp , không thể được xử lý
bằng và quản lý bằng phương pháp truyền thống. Big Data có ba yếu tố chính:
Volume ( lượng dữ liệu lớn) , Velocity ( tốc độ sinh dữ liệu nhanh) , Variety( đa dạng về định dạng dữ
liệu)
Data Lakes là một kiểu lưu trữ dữ liệu phi cấu trúc, và không giới hạn trong việc chứa dữ liệu từ
nguồn khác nhau, bao gồm cả dữ liệu có cấu trúc , bán cấu trúc và phi cấu trúc. Khác với Data
warehouse truyền thống , Data Lake không yêu cầu việc xác định cấu trúc dữ liệu trước khi lưu trữ.
Dữ liệu được lưu trữ trực tiếp dạng Raw Data mà không cần chuẩn hóa hay biến đổi trước khi lưu
trữ. Giúp việc lưu trữ nhanh chóng và không giới hạn về định dạng vào cấu trúc.
Meta Data là một siêu dữ liệu chứa các thông tin mô tả dữ liệu trong Data Lakes chẳng hạn như
nguồn gốc, định dạng, cấu trúc, và các quy tắc xử lý dữ liệu. Meta data giúp người dung hiểu và quản
lý dữ liệu trong Data Lakes.
Schema on Read: Data Lakes sử dụng mô hình “Schema on Read” thay vì “ Schema on write” như
trong Data Warehouse. Khi dữ liệu được truy xuất và đọc từ Data Lakes, nó được chuẩn hóa và biến
đổi thành cấu trúc dữ liệu phù hợp để truy vấn.
BI được sử dụng để truy xuất và phân tích và trực quan hóa dữ liệu từ data Lakes.

Datawarehouse

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Datawarehouse

Uploaded by

Copyright:

Available Formats

Data warehouse là gì ?

Tính chất ghi đọc:

KIẾN TRÚC DATA WAREHOUSE:

NGÔN NGỮ TRUY VẤN:

Phổ biến nhất là SQL(Structured querry language) và MDX( multidimensional

1. SQl: ngôn ngữ truy vấn , cập nhật và quản lý cơ sở dữ liệu.

ETL ( Extract, transform , load)

3.Data Mining và các công cụ hỗ trợ dữ liệu.

THIẾT KẾ TỐI ƯU HÓA VÀ TRUY VẤN:

1. Thiết kế cấu trúc dữ liệu phù hợp

AN NINH BẢO MẬT DỮ LIỆU:

HIỂU VỀ BIG DATA VÀ DATA LAKES:

You might also like