Professional Documents
Culture Documents
I. Giới thiệu
Năm 1996 – Ralph Kimball đã phát hành cuốn Bộ công cụ kho dữ liệu: Hướng dẫn
hoàn chỉnh về mô hình hóa chiều (The Data Warehouse Toolkit) đây là cuốn mà cũng đã
được phát hành lại rất nhiều lần, và bán rất chạy trên thị trường và với phương pháp chủ
đạo là dimensional (star schema hoặc snowflake).
Dữ liệu có thể lưu trữ dưới dạng OLAP trong thiết kế Kimball hay còn có tên khác đó
là star schema. Kimball là một trong ba phương pháp luận khi thiết kế 1 data warehouse:
Inmon, Kimball và Data Vault) hoặc là dữ liệu có thể lưu trữ bằng các công nghệ
NoQuery như là HBase, Cassandra, …Kimball là một trong ba phương pháp luận khi
thiết kế 1 data warehouse (gồm Inmon, Kimball và Data Vault) hoặc là dữ liệu có thể lưu
trữ bằng các công nghệ NoQuery như là HBase, Cassandra, …
Kimball và Inmon đã đi theo hai trường phái khác nhau - nhưng ngày nay sự phổ
biến của Data Mart và Dimemsional (Kimball) nhiều hơn là Enterprise Warehouse
(Inmon). Có lẽ là vì Enterprise Warehouse hơi khó hiểu và khó vận hành hơn cho các nhà
tư vấn, cùng với các IT.
Hướng tiếp cận của Kimball cho rằng nên xây dựng dựa theo các quy trình kinh
doanh, các data mart được tạo ra có liên quan đến các lĩnh vực cụ thể. Kho dữ liệu là sự
tổng hợp của các data mart riêng lẻ trong tổ chức. Kimball đã phát biểu vào năm 1997:
"Kho dữ liệu không gì khác hơn là sự kết hợp của tất cả các data mart"
II. Các thành phần trong kiến trúc DW/BI của Kimball
Như hình bên dưới, kiến trúc DW/BI của Kimball gồm có 4 thành phần riêng biệt cần
xem xét:
- Hệ thống nguồn hoạt động (Operational source systems)
- Hệ thống ETL (ETL system)
- Khu vực trình bày dữ liệu (Data presentation area)
- Các ứng dụng trí tuệ kinh doanh (Business intelligence applications)
Các thành phần cốt lõi trong kiến trúc DW/BI Kimball
4. Các ứng dụng trí tuệ kinh doanh (Business intelligence applications)
Đây là thành phần cuối cùng của kiến trúc. Thuật ngữ ứng dụng BI (BI Applications)
dùng để nói đến các khả năng được cung cấp cho người dùng tại doanh nghiệp, sử dụng
khu vực trình bày để hỗ trợ các phân tích và ra quyết định. Tất cả ứng dụng BI đều truy
vấn dữ liệu trong khu vực trình bày, truy vấn là điểm mấu chốt để sử dụng dữ liệu cho
việc ra quyết định.
Ứng dụng BI có thể đơn giản như một công cụ truy vấn hoặc phức tạp như một mô
hình khai phá dữ liệu phức tạp. Chỉ một tỷ lệ nhỏ người dùng trong doanh nghiệp có thể
sử dụng công cụ truy vấn một cách hiệu quả, hầu hết còn lại truy cập dữ liệu thông qua
các ứng dụng và mẫu được tạo sẵn mà không yêu cầu tạo truy vấn. Một số ứng dụng
phức tạp hơn, như công cụ dự báo, có thể tải kết quả dữ liệu về ngược lại hệ thống nguồn
vận hành, hệ thống ETL hoặc khu vực trình bày.
III. Phép ẩn dụ nhà hàng cho kiến trúc DW/BI của Kimball
Sau đây là phép ẩn dụ về tính tương đồng của nhà hàng đối với kiến trúc DW/BI của
Kimball.
ETL có vai trò như phòng bếp (back room)
Hệ thống ETL tương tự như nhà bếp của nhà hàng. Nhà bếp như một thế giới riêng,
các đầu bếp sẽ lấy các nguyên liệu thô và chế biến thành món ăn ngon, hợp khẩu vị với
thực khách. Nhưng trước khi một nhà hàng có thể hoạt động, cần có thời gian và đầu tư
để thiết kế bố cục, các thành phần trong không gian nhà bếp.
Nhà bếp được thiết kế phải đáp ứng được một số mục tiêu. Đầu tiên, bố cục phải có
tính hiệu quả, khi nhà hàng đã kín chỗ và khách hàng đều đói thì không có thời gian cho
việc di chuyện lãng phí. Mục tiêu thứ hai là cần có chất lượng đồng nhất. Để đạt được
điều này, đầu bếp cần tạo ra một lần công thức cho một loại nước sốt đặc biệt, thay vì
mang các nguyên liệu ra bàn, khi khách hàng chắc chắn sẽ tạo ra vô vàn các biến thể.
Cuối cùng, các thức ăn được giao cho khách cần có tính toàn vẹn cao. Việc khách hàng
ngộ độc là vô cùng nguyên hiểm, vì vậy cần được thiết kế một cách toàn vẹn, như việc
chuẩn bị salad không nên trên cùng một bề mặt nơi xử lý thịt sống.
Các đầu bếp cũng luôn cố gắng để có những nguyên liệu thô tốt nhất có thể. Các sản
phẩm phải đáp ứng các tiêu chuẩn chất lượng và sẽ bị từ chối nếu không đáp ứng tiêu
chuẩn tối thiểu. Nhà hàng cũng sửa đổi thực đơn của họ dựa trên các nguyên liệu chất
lượng sẵn có.
Các nhân viên nhà bếp là các chuyên gia trong việc sử dụng các công cụ của họ, họ
sử dụng dễ dàng và đảm bảo các hoạt động trong bếp không xảy ra sự cố. Môi trường
xung quanh nhà bếp là khá nguy hiểm, vì vậy khách hàng không nên đến khu vực này.
Các đầu bếp cũng sẽ không bị phân tâm bởi yêu cầu của thực khách. Để ngăn chặn sự
xâm nhập, hầu hết các nhà hàng đều có cửa đóng kín để ngăn cách nhà bếp với khu vực
phục vụ thực khách. Ngay cả với mô hình nhà hàng bếp mở, cũng có những rào chắn
hoặc tường kính ngăn cách. Thực khách dù có thể nhìn thấy một phần nhà bếp, nhưng sẽ
có những nơi khuất tầm nhìn, nơi việc chuẩn bị ít bị trông thấy hơn.
Hệ thống ETL cũng giống như nhà bếp. Dữ liệu nguồn được chuyển đổi thành thông
tin có ý nghĩa, có thể được trình bày rõ ràng. Hệ thống ETL phải mất thời gian để thiết kế
và xây dựng trước khi có dữ liệu vào từ nguồn. Hệ thống được đảm bảo thông lượng, nó
phải chuyển đổi dữ liệu một cách hiệu quả, giảm các tác động không cần thiết.
Hệ thống ETL cũng quan tâm đến chất lượng dữ liệu, tính toàn vẹn và tính nhất quán.
Dữ liệu được kiểm tra chất lượng trước khi đi vào, các điều kiện để đảm bảo đầu ra có
tính toàn vẹn cao và các quy tắc nghiệp vụ để thu được các giá trị nhất quán.
Lưu ý: Một DW/BI được thiết kế hiệu quả sẽ chuyển đổi công việc trong ứng dụng
BI (front room) để phù hợp và có ích cho các xử lý trong hệ thống ETL (back room).
Tương tự như nhà bếp, công việc được thực hiện nhiều lần bởi người dùng doanh nghiệp
(front room), trong khi công việc được thực hiện một lần bởi nhân viên (back room).
Cuối cùng, các hoạt động diễn ra trong hệ thống ETL mà người dùng không nhìn
thấy, khi dữ liệu đã được kiểm tra chất lượng và đã sẵn sàng, dữ liệu sẽ được đưa qua
ngưỡng cửa để vào khu vực trình bày DW/BI.
Tham khảo
https://www.youtube.com/watch?v=Tff34jj_V-0
https://arjunjune.wordpress.com/2017/03/20/bill-inmon-vs-ralph-kimball/
https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/