You are on page 1of 7

ĐẠI HỌC NGÂN HÀNG TP.

HỒ CHÍ MINH

BÁO CÁO MÔN:


Kho dữ liệu và hệ thống hỗ trợ ra quyết định

GVHD: Nguyễn Hoàng Ân


Thành viên nhóm:
Nguyễn Phúc Nhân-030632161552
Ngô Hoàng Nam-030632161357
Kimball’s DW/BI Architecture
Hãy xây dựng sự hiểu biết của bạn về các hệ thống DW/BI và mô hình kích thước các
nguyên tắc cơ bản bằng cách điều tra các thành phần của môi trường ĐW/BI dựa trên
kiến trúc Kimball. Bạn cần tìm hiểu ý nghĩa chiến lược của từng thành phần đẻ tránh
nhầm lẫn vai trò và chức năng của chúng.
Như hình minh họa trong hình 1-7, có bốn thành phần riêng biệt và khác biệt để xem xét
trong môi trường DW/BI:
 Hệ thống nguồn hoạt động.
 Hệ thống ETL.
 Dữ liệu khu vực thuyết trình.
 Các ứng dụng kinh doanh thông minh.
I) Hệ thống nguồn hoạt động
Đây là các hệ thống hồ sơ hoạt động ghi lại các giao dịch của doanh nghiệp. Hãy coi hệ
thống nguồn như bên ngoài kho dữ liệu vì có lẽ bạn có rất ít hoặc không kiểm soát được
nội dung và định dạng của dữ liệu trong các hoạt động của hệ thống này. Các ưu tiên
chính của hệ thống nguồn là hiệu suất xử lý và tính khả dụng. Các truy vấn hoạt động
chống lại hệ thống nguồn hạn chế, một bản ghi tại một thời điểm. Kho dữ liệu, kinh
doanh thông minh và sơ đồ mô hình thứ nguyên 19 là một phần của giao dịch thông
thường và bị hạn chế nghiêm trọng trong các yêu caafau của chúng đối với hệ thống hoạt
động. Có thể an toàn khi giả định rằng các hệ thống nguồn không được truy vấn theo
những cách rộng rãi và không mong muốn mà các hệ thống DW/BI thường được truy
vấn. Hệ thống nguồn duy trì ít dữ liệu lịch sử, một kho dữ liệu tốt có thể giảm bớt phần
lớn trách nhiệm đại diện cho quá khứ của hệ thống nguồn. Trong nhiều trường hợp, hệ
thống nguồn là các ứng dụng có mục đích đặc biệt mà không có bất kỳ cam kết chia sẽ dữ
liệu chung nào như sản phẩm, khách hàng, địa lý hoặc lịch với các hệ thống hoạt động
khác trong tổ chức. Tất nhiên, một hệ thống lập kế hoạch nguồn lực doanh nghiệp (ERP)
đa ứng dụng rộng rãi hoặc hệ thống quản lý dữ liệu tổng thể hoạt động có thể giúp giải
quyết những thiếu sót này.
Hình 1-7: Các yếu tố cốt lõi của kiến trúc DW/BI Kimball.
II) Hệ thống trích xuất, chuyển đổi và tải
Hệ thống trích xuất, chuyển đổi và tải (ETL) của môi trường DW/BI bao gồm một vùng
làm việc, cấu trúc dữ liệu được khởi tạo và một tập hợp các quy trình. Hệ thống ETL là
tất cả mọi thứ giữa các hệ thống nguồn hoạt động và khu vực trình bày DW/BI. Chúng ta
trình bày chi tiết về kiến trúc của thống ETL và các kỹ thuật liên quan trong chương 19:
Hệ thống con và kỹ thuật ETL, nhưng chúng tôi muốn giới thiệu phần cơ bản của câu đố
hệ thống DW/BI tổng thể.
Giải nén là bước đầu tiên trong quá trình đưa dữ liệu vào môi trường kho dữ liệu. Giải
nén có nghĩa là đọc và hiểu dữ liệu nguồn và sao chép dữ liệu cần thiết vào hệ thống ETL
để thao tác thêm. Lúc này, dữ liệu đã thuộc về kho dữ liệu. Sau khi dữ liệu được trích
xuất sang hệ thống ETL, có rất nhiều khả năng biến đổi, chẳng hạn như làm sạch dữ liệu
(sữa lỗi chính tả, giải quyết miền, giải quyết các vấn đề hỗn hợp miền, xử lý các phần tử
bị thiếu hoặc phân tích cú pháp thành các định dạng chuẩn), kết hợp dữ liệu từ nhiều
nguồn và loại bỏ dữ liệu trùng lặp. Hệ thống dữ liệu từ nhiều nguồn và loại bỏ dữ liệu
trùng lặp. Hệ thống ETL tăng thêm giá trị cho dữ liệu với các tác vụ làm sạch và tuân thủ
này bằng cách thay đổi và nâng cao dữ liệu. Ngoài ra, các hoạt động này có thể được kiến
trúc để tạo siêu dữ liệu chẩn đoán, cuối cùng dẫn đến việc tái cấu trúc quy trình nghiệp vụ
để cải thiện chất lượng dữ liệu trong hệ thống nguồn theo thời gian.
Bước cuối cùng của quy trình ETL là cấu trúc vật lý và tải dữ liều vào các mô hình chiều
mục tiêu của khu vực trình bày. Bởi vì nhiệm vụ chính của hệ thống ETL là cung cấp các
bảng thứ nguyên và dữ kiện trong bước phân phối, các hệ thống con này rất quan trọng.
Nhiều hệ thống con trong các hệ thống con này tập trung vào xử lý bảng thứ nguyên,
chẳng hạn như gán khóa thay thế, tra cứu mã để cung cấp mô tả thích hợp, tách hoặc kết
hợp các cột để trình bày các giá trị dữ liệu thích hợp hoặc kết hợp các cấu trúc bảng biểu
mẫu thông thường thư ba cơ bản thành các thư nguyên không chuẩn hóa được chú ý.
Ngược lại, các bảng thực tế thường lớn và tốn thời gian để tải, nhưng việc chuẩn bị chúng
cho khu vực trình bày thường là ngay lật tức. Khi các bảng thứ nguyên đã được cập nhật,
lập chỉ mục, cung cấp các tổng thể thích hợp và đảm bảo chất lượng hơn nữa, công đồng
doanh nghiệp sẽ thông báo rằng dữ liệu mới đã được xuất bản.
Vẫn còn những băn khoăn trong ngành về việc liệu dữ liệu trong hệ thống ETL có nên
được chuyển đổi thành cấu trúc chuẩn hóa vật lý trước khi tải vào cấu trúc chiều của khu
vực trình bày để truy vấn và báo cáo hay không. Hệ thống ETL thường bị chi phối bởi
các hoạt động đơn giản là sắp xếp và xử lý tuần tự. Trong nhiều trường hợp, hệ thống
ETL không dựa trên công nghệ quan hệ mà thay vào đó có thể dựa trên hệ thống các tệp
phẳng. Sau khi xác thực dữ liệu để tuân thủ các quy tắc kinh doanh một đối một và nhiều
đối với một, có thể vô nghĩa đối với thực hiện bước cuối cùng của việc xây dựng cơ sở dữ
liệu vật lý 3NF, ngay trước khi chuyển đổi dữ liệu một lần nữa thành các cấu trúc không
chuẩn hóa cho khu vực trình bày BI.
Tuy nhiên, có những trường hợp dữ liệu đến trước ngưỡng cữa của hệ thống ETL ở định
dạng quan hệ 3NF. Trong những tình huống này, các nhà phát triển hệ thống ETL có thể
thoải mái hơn khi thực hiện các tác vụ làm sạch và chuyển đổi bằng sử dụng các cấu trúc
chuẩn hóa. Mặc dù cơ sở dữ liệu chuẩn hóa để xử lý ETL có thể chấp nhận được, nhưng
chúng ta có một số dè dặt về cách tiếp cận này. Việc tạo ra cả cấu trúc chuẩn hóa cho
ETL có thể chấp nhận được, nhưng chúng tôi có một số dè dặt về cách tiếp cận này. Việc
tạo ra cả cấu trúc chuẩn hóa cho ETL và cấu trúc chiều để trình bày có nghĩa là dữ liệu có
khả năng được trích xuất, chuyển đổi và tải hai lần – một lần vào cơ sở dữ liệu chuẩn hóa
và sau đó lại tải mô hình chiều. Rõ rang, quy trình hai bước này đòi hỏi nhiều thời gian
hơn để tải hoặc cập nhật dữ liệu đình kỳ và nhiều dung lượng hơn để lưu trữ nhiều bản
sao của dữ liệu. Điểm mấu chốt, điều này thường dẫn đến nhu cầu phát triển lớn hơn, hỗ
trợ liên tục và ngân sách nền tảng phần cứng. Kho dữ liệu, kinh doanh thông minh và sơ
đồ mô hình thứ nguyên 21.
Thật không may, một số sáng kiến DW/BI đã thất bại thảm hại vì họ tập trung tất cả năng
lượng và nguồn lực của mình vào việc xây dụng các cấu trúc chuẩn hóa hơn là phân bổ
thời gian để phát triển một khu vực trình bày chiều hỗ trợ ra quyết định kinh doanh được
cải thiện. Mặc dù tính nhất quán của dữ liệu trong toàn doanh nghiệp là mục tiêu cơ bản
của môi trường DW/BI, nhưng có thể có các cách tiếp cận hiệu quả và ít tốn kém hơn so
với việc tạo các bảng chuẩn hóa trong hệ thống ETL, nếu các cấu trúc này chưa tồn tại.
Chú thích: Có thể chấp nhận việc tạo cơ sở dữ liệu chuẩn hóa để hỗ trợ các quy trình
ETL. Tuy nhiên, đây không phải là mục tiêu cuối cùng. Các cấu trúc chuẩn hóa phải phù
hợp với các truy vấn của người dung vì chúng liên quan đến 2 mục tiêu là khả năng hiểu
và hiệu suất.
III) Khu vực trình bày để hỗ trợ kinh doanh thông minh
Khu vực trình bày DW/BI là nơi dữ liệu được sắp xếp, lưu trữ và cung cấp cho người
dùng, người viết báo cáo và các ứng dụng BI phân tích các truy vấn trực tiếp. Bởi vì hệ
thống ETL phòng sau là không có giới hạn, khu vực trình bày là môi trường DW/BI theo
như cộng đồng doanh nghiệp có liên quan, đó là tất cả những gì doanh nghiệp nhìn thất
và chạm vào thông qua các công cụ truy cập và ứng dụng BI của họ. Tựa đề làm việc ban
đầu trước khi phát hành cho ấn bản đầu tiên của Bộ công cụ kho dữ liệu là lấy dữ liệu ra.
Đây là tất cả những gì khu vực trình bày với các mô hình chiều của nó.
Chúng tôi có một số ý kiến mạnh mẽ về khu vực trình bày. Trước hết, chúng tôi nhấn
mạnh rằng dữ liệu được trình bày, lưu trữ và truy cập trong các lược đồ chiều, hoặc lược
đồ sao quan hệ hoặc khối OLAP. May mắn thay, ngành công nghiệp này đã phát triển
đến mức chúng ta không còn phải bàn cãi về cách tiếp cận này nữa. Nó đã kết luận rằng
mô hình chiều là kỹ thuật khả thi nhất để cung cấp dữ liệu cho người dùng DW/Bi.
Mối quan tâm thứ hai của chúng tôi về khu vực trình bày là nó phải chứa dữ liệu chi tiết,
nguyên tử. Dữ liệu nguyên tử được yêu cầu để chống lại các cuộc tấn cộng từ các truy
vấn đột xuất không thể đoán trước của người dùng. Mặc dù khu vực trình bày cũng có thể
chứa dữ liệu tổng hợp nâng cao hiệu suất, những không đủ khả năng để cung cấp các bản
tóm tắt này không có dữ liệu chi tiết cơ bản ở dạng chiều. Nói cách khác, hoàn toàn
không thể chấp nhận được nếu chỉ lưu trữ dữ liệu tóm tắt trong các mô hình chiều trong
khi dữ liệu nguyên tử bị khóa trong các mô hình chuẩn hóa. Không thực tế khi mong đợi
một người dùng đi sâu vào dữ liệu thứ nguyên gần như đến mức chi tiết nhất và sau đó
đánh mất lợi ích của bản trình bày thứ nguyên ở bước cuồi cùng. Mặc dù người dùng và
ứng dụng DW/BI có thể hiếm khi xem một mục hàng trong một đơn đặt hàng, nhưng họ
có thể rất quan tâm đến các đơn đặt hàng của tuần trước đối với các sản phẩm có kích
thước nhất định (hoặc hương vị, loại gói hoặc nhà sản xuất) cho những khách hàng lần
đầu tiên mua với 6 tháng qua (hoặc cư trú tại một tiểu bang nhất định hoặc có các điều
khoản tín dụng nhất định). Dữ liệu chi tiết nhất phải có sẵn trong khu vực trình bày để
người dùng có thể đặt những câu hỏi chính xác nhất có thể. Vì yêu cầu của người dùng là
không thể đoán trước được và thay đổi liên tục, bản phải cung cấp quyền truy cập vào các
chi tiết tinh tế để họ có thể tổng hợp để giải quyết các câu hỏi tại thời điểm này.
Khu vực dữ liệu trình bày nên được cấu trúc xung quanh các sự kiện đo lường quy trình
kinh doanh. Cách tiếp cận này phù hợp một cách tự nhiên với các hệ thống thu thập dữ
liệu nguồn hoạt động. Mô hình chiều phải tương thích với các sự kiện thu thập dữ liệu vật
lý. Chúng không nên được thiết kế để cung cấp báo cáo trong ngày. Các quy trình kinh
doanh của doanh nghiệp vượt qua ranh giới của các bộ phận và chức năng của tổ chức.
Nói cách khác, bên nên xây dựng một bảng nguyên tử thay vì điền vào các cơ sở dữ liệu
bán hàng cho các nhóm bán hàng, tiếp thị, hậu cần và tài chính.
Tất cả các cấu trúc kích thước phải được xây dựng bằng các kích thước phổ biến, phù
hợp. Đây là cơ sở của kiến trúc bus kho dữ liệu doanh nghiệp được mô tả trong chương 4.
Tuân thủ kiến trúc bus là điểm đóng góp cuối cùng trong nền đất cho khu vực trình bày.
Không có các kích thước được chia sẻ và tuân thủ, một mô hình chiều sẽ trở thành một
ứng dụng độc lập. Các tập dữ liệu bếp riêng biệt không thể liên kết với nhau là nguyên
nhân của phong trào DW/BI vì chúng duy trì các quan điểm không tương thích về doanh
nghiệp. Nếu bạn có hy vọng xây dựng một môi trường DW/BI tích hợp và mạnh mẽ, bạn
phải cam kết với kiến trúc bus doanh nghiệp. Khi các mô hình kích thước đã được thiết
kế với các kích thước phù hợp, chúng có thể được kết hợp và sử dụng với nhau một cách
dễ dàng. Khu vực trình bày trong giải pháp DW/BI dành cho doanh nghiệp lớn cuối cùng
bao gồm hàng chục mô hình chiều với nhiều bảng kích thước liên quan được chia sẻ trên
các bảng dữ liệu.
Sử dụng kiến trúc bus là bí quyết để xây dựng hệ thống DW/BI phân tán. Khi kiến trúc
bus được sử dugnj làm khuôn khổ, bạn có thể phát triển kho dữ liệu doanh nghiệp theo
cách lặp đi lặp lại nhanh nhẹn, phi tập trung, phạm vi thực tế.
Chú thích: Dữ liệu trong vùng trình bày có thể truy vấn của hệ thống DW/BI phải có
chiều, nguyên tử (được bổ sung bởi các tổng hợp nâng cao hiệu suất), tập trung vào quy
trình nghiệp vụ và tuân theo kiến trúc bus kho dữ liệu doanh nghiệp. Dữ liệu không được
cấu trúc theo cách giải thích dữ liệu của từng bộ phận.

You might also like