Thành viên nhóm: Nguyễn Phúc Nhân-030632161552 Ngô Hoàng Nam-030632161357 Kimball’s DW/BI Architecture Hãy xây dựng sự hiểu biết của bạn về các hệ thống DW/BI và mô hình kích thước các nguyên tắc cơ bản bằng cách điều tra các thành phần của môi trường ĐW/BI dựa trên kiến trúc Kimball. Bạn cần tìm hiểu ý nghĩa chiến lược của từng thành phần đẻ tránh nhầm lẫn vai trò và chức năng của chúng. Như hình minh họa trong hình 1-7, có bốn thành phần riêng biệt và khác biệt để xem xét trong môi trường DW/BI: Hệ thống nguồn hoạt động. Hệ thống ETL. Dữ liệu khu vực thuyết trình. Các ứng dụng kinh doanh thông minh. I) Hệ thống nguồn hoạt động Đây là các hệ thống hồ sơ hoạt động ghi lại các giao dịch của doanh nghiệp. Hãy coi hệ thống nguồn như bên ngoài kho dữ liệu vì có lẽ bạn có rất ít hoặc không kiểm soát được nội dung và định dạng của dữ liệu trong các hoạt động của hệ thống này. Các ưu tiên chính của hệ thống nguồn là hiệu suất xử lý và tính khả dụng. Các truy vấn hoạt động chống lại hệ thống nguồn hạn chế, một bản ghi tại một thời điểm. Kho dữ liệu, kinh doanh thông minh và sơ đồ mô hình thứ nguyên 19 là một phần của giao dịch thông thường và bị hạn chế nghiêm trọng trong các yêu caafau của chúng đối với hệ thống hoạt động. Có thể an toàn khi giả định rằng các hệ thống nguồn không được truy vấn theo những cách rộng rãi và không mong muốn mà các hệ thống DW/BI thường được truy vấn. Hệ thống nguồn duy trì ít dữ liệu lịch sử, một kho dữ liệu tốt có thể giảm bớt phần lớn trách nhiệm đại diện cho quá khứ của hệ thống nguồn. Trong nhiều trường hợp, hệ thống nguồn là các ứng dụng có mục đích đặc biệt mà không có bất kỳ cam kết chia sẽ dữ liệu chung nào như sản phẩm, khách hàng, địa lý hoặc lịch với các hệ thống hoạt động khác trong tổ chức. Tất nhiên, một hệ thống lập kế hoạch nguồn lực doanh nghiệp (ERP) đa ứng dụng rộng rãi hoặc hệ thống quản lý dữ liệu tổng thể hoạt động có thể giúp giải quyết những thiếu sót này. Hình 1-7: Các yếu tố cốt lõi của kiến trúc DW/BI Kimball. II) Hệ thống trích xuất, chuyển đổi và tải Hệ thống trích xuất, chuyển đổi và tải (ETL) của môi trường DW/BI bao gồm một vùng làm việc, cấu trúc dữ liệu được khởi tạo và một tập hợp các quy trình. Hệ thống ETL là tất cả mọi thứ giữa các hệ thống nguồn hoạt động và khu vực trình bày DW/BI. Chúng ta trình bày chi tiết về kiến trúc của thống ETL và các kỹ thuật liên quan trong chương 19: Hệ thống con và kỹ thuật ETL, nhưng chúng tôi muốn giới thiệu phần cơ bản của câu đố hệ thống DW/BI tổng thể. Giải nén là bước đầu tiên trong quá trình đưa dữ liệu vào môi trường kho dữ liệu. Giải nén có nghĩa là đọc và hiểu dữ liệu nguồn và sao chép dữ liệu cần thiết vào hệ thống ETL để thao tác thêm. Lúc này, dữ liệu đã thuộc về kho dữ liệu. Sau khi dữ liệu được trích xuất sang hệ thống ETL, có rất nhiều khả năng biến đổi, chẳng hạn như làm sạch dữ liệu (sữa lỗi chính tả, giải quyết miền, giải quyết các vấn đề hỗn hợp miền, xử lý các phần tử bị thiếu hoặc phân tích cú pháp thành các định dạng chuẩn), kết hợp dữ liệu từ nhiều nguồn và loại bỏ dữ liệu trùng lặp. Hệ thống dữ liệu từ nhiều nguồn và loại bỏ dữ liệu trùng lặp. Hệ thống ETL tăng thêm giá trị cho dữ liệu với các tác vụ làm sạch và tuân thủ này bằng cách thay đổi và nâng cao dữ liệu. Ngoài ra, các hoạt động này có thể được kiến trúc để tạo siêu dữ liệu chẩn đoán, cuối cùng dẫn đến việc tái cấu trúc quy trình nghiệp vụ để cải thiện chất lượng dữ liệu trong hệ thống nguồn theo thời gian. Bước cuối cùng của quy trình ETL là cấu trúc vật lý và tải dữ liều vào các mô hình chiều mục tiêu của khu vực trình bày. Bởi vì nhiệm vụ chính của hệ thống ETL là cung cấp các bảng thứ nguyên và dữ kiện trong bước phân phối, các hệ thống con này rất quan trọng. Nhiều hệ thống con trong các hệ thống con này tập trung vào xử lý bảng thứ nguyên, chẳng hạn như gán khóa thay thế, tra cứu mã để cung cấp mô tả thích hợp, tách hoặc kết hợp các cột để trình bày các giá trị dữ liệu thích hợp hoặc kết hợp các cấu trúc bảng biểu mẫu thông thường thư ba cơ bản thành các thư nguyên không chuẩn hóa được chú ý. Ngược lại, các bảng thực tế thường lớn và tốn thời gian để tải, nhưng việc chuẩn bị chúng cho khu vực trình bày thường là ngay lật tức. Khi các bảng thứ nguyên đã được cập nhật, lập chỉ mục, cung cấp các tổng thể thích hợp và đảm bảo chất lượng hơn nữa, công đồng doanh nghiệp sẽ thông báo rằng dữ liệu mới đã được xuất bản. Vẫn còn những băn khoăn trong ngành về việc liệu dữ liệu trong hệ thống ETL có nên được chuyển đổi thành cấu trúc chuẩn hóa vật lý trước khi tải vào cấu trúc chiều của khu vực trình bày để truy vấn và báo cáo hay không. Hệ thống ETL thường bị chi phối bởi các hoạt động đơn giản là sắp xếp và xử lý tuần tự. Trong nhiều trường hợp, hệ thống ETL không dựa trên công nghệ quan hệ mà thay vào đó có thể dựa trên hệ thống các tệp phẳng. Sau khi xác thực dữ liệu để tuân thủ các quy tắc kinh doanh một đối một và nhiều đối với một, có thể vô nghĩa đối với thực hiện bước cuối cùng của việc xây dựng cơ sở dữ liệu vật lý 3NF, ngay trước khi chuyển đổi dữ liệu một lần nữa thành các cấu trúc không chuẩn hóa cho khu vực trình bày BI. Tuy nhiên, có những trường hợp dữ liệu đến trước ngưỡng cữa của hệ thống ETL ở định dạng quan hệ 3NF. Trong những tình huống này, các nhà phát triển hệ thống ETL có thể thoải mái hơn khi thực hiện các tác vụ làm sạch và chuyển đổi bằng sử dụng các cấu trúc chuẩn hóa. Mặc dù cơ sở dữ liệu chuẩn hóa để xử lý ETL có thể chấp nhận được, nhưng chúng ta có một số dè dặt về cách tiếp cận này. Việc tạo ra cả cấu trúc chuẩn hóa cho ETL có thể chấp nhận được, nhưng chúng tôi có một số dè dặt về cách tiếp cận này. Việc tạo ra cả cấu trúc chuẩn hóa cho ETL và cấu trúc chiều để trình bày có nghĩa là dữ liệu có khả năng được trích xuất, chuyển đổi và tải hai lần – một lần vào cơ sở dữ liệu chuẩn hóa và sau đó lại tải mô hình chiều. Rõ rang, quy trình hai bước này đòi hỏi nhiều thời gian hơn để tải hoặc cập nhật dữ liệu đình kỳ và nhiều dung lượng hơn để lưu trữ nhiều bản sao của dữ liệu. Điểm mấu chốt, điều này thường dẫn đến nhu cầu phát triển lớn hơn, hỗ trợ liên tục và ngân sách nền tảng phần cứng. Kho dữ liệu, kinh doanh thông minh và sơ đồ mô hình thứ nguyên 21. Thật không may, một số sáng kiến DW/BI đã thất bại thảm hại vì họ tập trung tất cả năng lượng và nguồn lực của mình vào việc xây dụng các cấu trúc chuẩn hóa hơn là phân bổ thời gian để phát triển một khu vực trình bày chiều hỗ trợ ra quyết định kinh doanh được cải thiện. Mặc dù tính nhất quán của dữ liệu trong toàn doanh nghiệp là mục tiêu cơ bản của môi trường DW/BI, nhưng có thể có các cách tiếp cận hiệu quả và ít tốn kém hơn so với việc tạo các bảng chuẩn hóa trong hệ thống ETL, nếu các cấu trúc này chưa tồn tại. Chú thích: Có thể chấp nhận việc tạo cơ sở dữ liệu chuẩn hóa để hỗ trợ các quy trình ETL. Tuy nhiên, đây không phải là mục tiêu cuối cùng. Các cấu trúc chuẩn hóa phải phù hợp với các truy vấn của người dung vì chúng liên quan đến 2 mục tiêu là khả năng hiểu và hiệu suất. III) Khu vực trình bày để hỗ trợ kinh doanh thông minh Khu vực trình bày DW/BI là nơi dữ liệu được sắp xếp, lưu trữ và cung cấp cho người dùng, người viết báo cáo và các ứng dụng BI phân tích các truy vấn trực tiếp. Bởi vì hệ thống ETL phòng sau là không có giới hạn, khu vực trình bày là môi trường DW/BI theo như cộng đồng doanh nghiệp có liên quan, đó là tất cả những gì doanh nghiệp nhìn thất và chạm vào thông qua các công cụ truy cập và ứng dụng BI của họ. Tựa đề làm việc ban đầu trước khi phát hành cho ấn bản đầu tiên của Bộ công cụ kho dữ liệu là lấy dữ liệu ra. Đây là tất cả những gì khu vực trình bày với các mô hình chiều của nó. Chúng tôi có một số ý kiến mạnh mẽ về khu vực trình bày. Trước hết, chúng tôi nhấn mạnh rằng dữ liệu được trình bày, lưu trữ và truy cập trong các lược đồ chiều, hoặc lược đồ sao quan hệ hoặc khối OLAP. May mắn thay, ngành công nghiệp này đã phát triển đến mức chúng ta không còn phải bàn cãi về cách tiếp cận này nữa. Nó đã kết luận rằng mô hình chiều là kỹ thuật khả thi nhất để cung cấp dữ liệu cho người dùng DW/Bi. Mối quan tâm thứ hai của chúng tôi về khu vực trình bày là nó phải chứa dữ liệu chi tiết, nguyên tử. Dữ liệu nguyên tử được yêu cầu để chống lại các cuộc tấn cộng từ các truy vấn đột xuất không thể đoán trước của người dùng. Mặc dù khu vực trình bày cũng có thể chứa dữ liệu tổng hợp nâng cao hiệu suất, những không đủ khả năng để cung cấp các bản tóm tắt này không có dữ liệu chi tiết cơ bản ở dạng chiều. Nói cách khác, hoàn toàn không thể chấp nhận được nếu chỉ lưu trữ dữ liệu tóm tắt trong các mô hình chiều trong khi dữ liệu nguyên tử bị khóa trong các mô hình chuẩn hóa. Không thực tế khi mong đợi một người dùng đi sâu vào dữ liệu thứ nguyên gần như đến mức chi tiết nhất và sau đó đánh mất lợi ích của bản trình bày thứ nguyên ở bước cuồi cùng. Mặc dù người dùng và ứng dụng DW/BI có thể hiếm khi xem một mục hàng trong một đơn đặt hàng, nhưng họ có thể rất quan tâm đến các đơn đặt hàng của tuần trước đối với các sản phẩm có kích thước nhất định (hoặc hương vị, loại gói hoặc nhà sản xuất) cho những khách hàng lần đầu tiên mua với 6 tháng qua (hoặc cư trú tại một tiểu bang nhất định hoặc có các điều khoản tín dụng nhất định). Dữ liệu chi tiết nhất phải có sẵn trong khu vực trình bày để người dùng có thể đặt những câu hỏi chính xác nhất có thể. Vì yêu cầu của người dùng là không thể đoán trước được và thay đổi liên tục, bản phải cung cấp quyền truy cập vào các chi tiết tinh tế để họ có thể tổng hợp để giải quyết các câu hỏi tại thời điểm này. Khu vực dữ liệu trình bày nên được cấu trúc xung quanh các sự kiện đo lường quy trình kinh doanh. Cách tiếp cận này phù hợp một cách tự nhiên với các hệ thống thu thập dữ liệu nguồn hoạt động. Mô hình chiều phải tương thích với các sự kiện thu thập dữ liệu vật lý. Chúng không nên được thiết kế để cung cấp báo cáo trong ngày. Các quy trình kinh doanh của doanh nghiệp vượt qua ranh giới của các bộ phận và chức năng của tổ chức. Nói cách khác, bên nên xây dựng một bảng nguyên tử thay vì điền vào các cơ sở dữ liệu bán hàng cho các nhóm bán hàng, tiếp thị, hậu cần và tài chính. Tất cả các cấu trúc kích thước phải được xây dựng bằng các kích thước phổ biến, phù hợp. Đây là cơ sở của kiến trúc bus kho dữ liệu doanh nghiệp được mô tả trong chương 4. Tuân thủ kiến trúc bus là điểm đóng góp cuối cùng trong nền đất cho khu vực trình bày. Không có các kích thước được chia sẻ và tuân thủ, một mô hình chiều sẽ trở thành một ứng dụng độc lập. Các tập dữ liệu bếp riêng biệt không thể liên kết với nhau là nguyên nhân của phong trào DW/BI vì chúng duy trì các quan điểm không tương thích về doanh nghiệp. Nếu bạn có hy vọng xây dựng một môi trường DW/BI tích hợp và mạnh mẽ, bạn phải cam kết với kiến trúc bus doanh nghiệp. Khi các mô hình kích thước đã được thiết kế với các kích thước phù hợp, chúng có thể được kết hợp và sử dụng với nhau một cách dễ dàng. Khu vực trình bày trong giải pháp DW/BI dành cho doanh nghiệp lớn cuối cùng bao gồm hàng chục mô hình chiều với nhiều bảng kích thước liên quan được chia sẻ trên các bảng dữ liệu. Sử dụng kiến trúc bus là bí quyết để xây dựng hệ thống DW/BI phân tán. Khi kiến trúc bus được sử dugnj làm khuôn khổ, bạn có thể phát triển kho dữ liệu doanh nghiệp theo cách lặp đi lặp lại nhanh nhẹn, phi tập trung, phạm vi thực tế. Chú thích: Dữ liệu trong vùng trình bày có thể truy vấn của hệ thống DW/BI phải có chiều, nguyên tử (được bổ sung bởi các tổng hợp nâng cao hiệu suất), tập trung vào quy trình nghiệp vụ và tuân theo kiến trúc bus kho dữ liệu doanh nghiệp. Dữ liệu không được cấu trúc theo cách giải thích dữ liệu của từng bộ phận.