You are on page 1of 24

Chương 3

GIỚI THIỆU DỰ ÁN KHO DỮ LIỆU

Triển khai kho dữ liệu (Data Warehouse) trong doanh


nghiệp được xem như là dự án công nghệ thông tin có quy mô
lớn và trải qua nhiều giai đoạn khác nhau. Để thành công, doanh
nghiệp không những cần chú trọng đến khía cạnh kỹ thuật, mà
yêu cầu về nghiệp vụ kinh doanh và người dùng cũng đóng vai
trò rất quan trọng. Vì vậy, chương này sẽ giới thiệu tổng quan về
các bước trong việc triển khai dự án kho dữ liệu và phân tích
dữ liệu.

3.1. Giới thiệu dự án kho dữ liệu


Việc triển khai thành công dự án nhà kho dữ liệu phụ thuộc
rất nhiều vào việc tích hợp các quy trình, giai đoạn, công việc và
thành phần khác nhau, trong đó cần phải có sự kết hợp giữa
công nghệ thông tin và nghiệp vụ kinh doanh. Việc xây dựng
nhà kho dữ liệu cần phải theo định hướng kinh doanh của tổ
chức và đáp ứng yêu cầu nghiệp vụ. Theo hình 3.1, đầu tiên, dự
án Data Warehouse cần tập trung vào việc lập kế hoạch cho dự
án, và giai đoạn này giúp đánh giá mức độ sẵn sàng của tổ chức
trong quá trình triển khai dự án, bao gồm nguồn nhân lực, quy
trình nghiệp vụ và cơ sở hạ tầng. Kết quả của giai đoạn một là
tài liệu xác định mục tiêu, phạm vi, nguồn lực, thời gian và kết
quả cần đạt được.
Giai đoạn hai sẽ xác định yêu cầu nghiệp vụ kinh doanh;
trên thực tế thì giai đoạn một và hai có thể diễn ra song song,
nhằm đảm bảo việc hoạch định dự án được xác định rõ ràng,
cũng như phù hợp với các yêu cầu về khía cạnh kinh doanh và
nghiệp vụ. Lý do là nhân viên tại các phòng ban và các yêu cầu
nghiệp vụ kinh doanh có ảnh hưởng lớn đến các quá trình tiếp

35
theo trong dự án, như thiết kế, xây dựng và triển khai giải pháp.
Vì vậy, kết quả đầu ra tại giai đoạn hai là bảng mô tả chi tiết về
hoạt động nghiệp vụ và các yêu cầu, cũng như là các chuẩn đánh
giá về khía cạnh người dùng đối với hệ thống sau khi dự án Data
Warehouse đã triển khai thực tế.

Hình Error! No text of specified style in document..1. Vòng đời


phát triển dự án Data Warehouse
(Kimball & Ross, 2013)

Sau khi yêu cầu nghiệp vụ đã được thu thập và phân tích,
theo hình 3.1 thì bước tiếp theo sẽ bao gồm ba luồng song
song,trong đó, luồng trên cùng liên quan đến khía cạnh kỹ thuật.
Cụ thể đây là thiết kế kiến trúc kỹ thuật hình thành nền tảng kiến
trúc trong việc tích hợp nhiều giải pháp công nghệ trong dự án
Data Warehouse, và lựa chọn những giải pháp phù hợp với từng
tổ chức khác nhau. Kết quả của giai đoạn này là danh sách các
giải pháp, công nghệ của các tổ chức cung cấp giải pháp, ứng
dụng kèm theo các chi tiết, đánh giá về từng giải pháp đó.
Kế đến là luồng ở giữa đề cập đến luồng dữ liệu. Trong đó,
toàn bộ các yêu cầu nghiệp vụ đã khảo sát và phân tích ở giai
đoạn hai sẽ được mô hình hóa trong mô hình đa chiều. Từ đó,
mô hình đa chiều sẽ được chuyển đổi thành kiến trúc vật lý; và
36
tại đây, các vấn đề liên quan đến chiến lược cải thiện tốc độ truy
vấn (như bảng chỉ mục index, phân khu partition, tính toán tổng
hợp aggregation …) cần được xem xét. Cuối cùng nhưng cũng
không kém phần quan trọng là tiến trình ETL (Extracting
Transforming and Loading) được thiết kế và phát triển. Kết quả
của các giai đoạn này là các thiết kế bảng dữ liệu, ràng buộc,
mối liên hệ và quá trình xử lý ETL để chuyển đổi dữ liệu từ các
nguồn khác nhau vào Data Warehouse.
Luồng giai đoạn dưới cùng đề cập đến luồng ứng dụng, đây
là giai đoạn thiết kế và phát triển các ứng dụng Business
Intelligence, cụ thể là các phân tích, báo cáo phục vụ cho hoạt
động ra quyết định của nhà quản lý. Giai đoạn này cũng được
phân tích, thiết kế dựa trên yêu cầu nghiệp vụ của từng phòng
ban và từng đối tượng sử dụng.
Sau khi ba luồng song song này được hoàn thành thì bước
cuối cùng là triển khai thực tế và bảo trì và quan trọng hơn là
đánh giá thành công của dự án Data Warehouse đối với việc đáp
ứng yêu cầu hoạt động nghiệp vụ kinh doanh. Từ đó, những hạn
chế, cải tiến sẽ được phân tích và tiến hành lập kế hoạch cho dự
án Data Warehouse ở cấp độ cao hơn.

3.2. Tổng quan về quy trình thực hiện dự án

3.2.1. Lập kế hoạch dự án


Tương tự như những dự án công nghệ thông tin khác, dự án
Data Warehouse cũng cần được lên kế hoạch, cụ thể gồm 3 giai
đoạn là xác định dự án Data Warehouse và phạm vi; tập trung
vào hoạt động lập kế hoạch dự án và hoạch định nguồn nhân
lực; xem xét các rủi ro khi triển khai dự án.

37
3.2.2. Xác định dự án và phạm vi
Để xác định dự án Data Warehouse, cần trả lời các câu hỏi
về ý nghĩa của việc xây dựng dự án này và việc cần phải bắt đầu
từ đâu. Một trong những yếu tố quan trọng để đánh giá mức độ
sẵn sàng của tổ chức khi thực hiện dự án, đặc biệt có liên quan
đến công nghệ thông tin, phụ thuộc phần lớn vào ban quản
lý/giám đốc điều hành của tổ chức đó. Trong trường hợp người
quản lý hiểu rõ về lợi ích to lớn của dự án Data Warehouse trong
việc tập hợp, lưu trữ, quản lý nguồn dữ liệu tin cậy và hệ thống
các báo cáo, phân tích sẽ giúp ra quyết định kinh doanh tốt hơn,
thì rất thuận lợi cho việc xác định dự án. Lý do là cần phải có
một định hướng duy nhất đối với việc thực hiện dự án.
Tuy nhiên, trên thực tế thì mỗi người quản lý sẽ có những
nhu cầu khác nhau về thông tin cần phân tích, vì thế dự án cần
phải ưu tiên sao cho những nhu cầu nào quan trọng nhất sẽ được
thực hiện trước, với điều kiện là không đòi hỏi quá nhiều nguồn
lực và thời gian. Một tình huống nữa cũng rất thường xảy ra, đó
là người quản lý không am hiểu về nhu cầu phân tích dữ liệu, và
không biết mình cần được cung cấp loại thông tin nào để ra
quyết định. Tình huống này được xem là phức tạp nhất, bởi vì
lúc này nhà điều hành không nhận ra giá trị mà hệ thống thông
tin sẽ mang lại cho tổ chức, cho nên họ sẽ dễ dàng từ bỏ dự án
và vì vậy mà tỷ lệ thất bại của dự án Data Warehouse sẽ rất cao.
Năm yếu tố chính tạo nên nền tảng để xây dựng Data
Warehouse thành công đó chính là: (1) Sự hợp tác, tài trợ từ ban
điều hành/quản lý kinh doanh trong tổ chức nhờ vào tầm nhìn về
các lợi ích tiềm năng to lớn của Data Warehouse, từ đó họ sẽ
thuyết phục, chứng minh với các đối tượng khác về việc đầu tư
vào dự án. (2) Nhà quản lý cần xác định Data Warehouse đóng
vai trò là yếu tố thúc đẩy kinh doanh, để từ đó tổ chức có động
lực, điều kiện để hoạt động kinh doanh tốt hơn. Lý do là Data
Warehouse mang đến nhiều tri thức mới và hỗ trợ ra quyết định

38
đúng đắn, kịp thời. (3) DW sẽ đồng thời cải thiện mối quan hệ
giữa các phòng IT và kinh doanh, bởi vì Data Warehouse giúp
gắn kết các ứng dụng công nghệ thông tin nhằm đáp ứng nhu
cầu kinh doanh thực tiễn của tổ chức. (4) Hình thành nhu cầu và
thói quen ứng dụng các phân tích dữ liệu vào kinh doanh và (5)
có khả năng thực hiện về mặt kỹ thuật khi triển khai trong
tổ chức.

3.2.2.1. Phạm vi dự án và mục tiêu


Sau khi nhận được sự đồng thuận của ban quản lý/điều hành
công ty về dự án, bước tiếp theo cần phải xem xét về phạm vi dự
án sao cho phù hợp với kinh phí xây dựng và triển khai.
Đầu tiên, việc xác định phạm vi dự án cần được thực hiện
bởi người đại diện của hai phòng ban chính là Hệ thống thông
tin (Information System - IS) và Kinh doanh, bởi vì khi đã hiểu
rõ các yêu cầu nghiệp vụ cần đáp ứng trong dự án Data
Warehouse thì điều này sẽ giúp việc xác định phạm vi dự án hợp
lý hơn. Cần lưu ý rằng, ngày chuyển giao sản phẩm và những
sản phẩm/kết quả cần phải hoàn tất theo đúng thời hạn đã đưa ra.
Thứ hai là phạm vi của dự án ban đầu cần phải được quản lý
dễ dàng, và một gợi ý là nên bắt đầu dự án với quy mô nhỏ. Khái
niệm “lifecycle” đề cập đến vòng lặp trong quá trình phát triển
của Data Warehouse; trong đó, dự án nên bắt đầu với quy mô
nhỏ, được thiết kế phù hợp với nhu cầu kinh doanh thay đổi của
doanh nghiệp và thời gian xây dựng Data Warehouse khoảng từ
bốn đến tám tháng. Vì vậy, cần xem xét đến hai yếu tố là số
lượng hệ thống dữ liệu nguồn và số lượng người dùng để đảm
bảo dự án thuộc quy mô nhỏ. Trong đó, dữ liệu nguồn được hiểu
như là dữ liệu được lưu trữ ở một hệ thống bên ngoài và cần
được chuyển đổi để đưa vào hệ thống đang xây dựng. Vì vậy, dữ
liệu nguồn thuộc nhiều hệ thống lưu trữ khác nhau thì sẽ rất

39
phức tạp và cũng chính là nguyên nhân dẫn đến phạm vi của dự
án khó được kiểm soát.
Thứ ba là cần phải tập trung vào một dữ liệu nguồn để đáp
ứng hoạt động phân tích trong một yêu cầu nghiệp vụ kinh
doanh. Trước đây, dự án Data Warehouse được xây dựng để đáp
ứng cho nhiều phòng ban hay quy trình nghiệp vụ khác nhau,
chẳng hạn như phòng Kinh doanh và marketing và sản xuất, …
với lý do là tiết kiệm thời gian và chi phí trong triển khai dự án.
Tuy nhiên, phương pháp này sẽ gây lãng phí thời gian hơn và
nhiều dữ liệu sẽ không được sử dụng hoặc không đáp ứng đủ
nhu cầu phân tích. Hơn nữa, nếu như có bất kỳ nhu cầu thay đổi
hay mở rộng Data Warehouse thì việc này sẽ khó khăn hơn vì
ảnh hưởng đến hoạt động của nhiều phòng ban. Cho nên, phạm
vi dự án chỉ nên tập trung vào một quy trình kinh doanh nhất
định, như phân tích hóa đơn khách hàng hay hoạt động thanh
toán chi trả … và hạn chế việc triển khai đồng thời nhiều dự án.
Thứ tư là giới hạn số lượng người dùng truy cập vào Data
Warehouse, trung bình thì chỉ nên có khoảng 25 người dùng có
thể truy cập vào các phân tích mang tính quản trị, chiến lược.
Thứ năm là hình thành các chỉ số đánh giá thành công của
dự án Data Warehouse sau khi xác định được phạm vi của dự
án. Mục đích là giúp các nhà quản lý, người triển khai, vận hành
đều nắm rõ về những kỳ vọng trong quản trị kinh doanh đối với
dự án. Tuy nhiên, những chỉ số này cần phải có khả năng dễ đo
lường, dễ thống kê thành con số.

3.2.2.2. Phát triển và quản lý kế hoạch dự án


Trong kế hoạch của dự án Data Warehouse cần xác định rõ
tất cả các công việc có liên quan đến từng giai đoạn trong
Lifecycle theo hình 3.1. Người quản lý dự án (project manager)
cần ước lượng về thời gian và nguồn lực cho mỗi giai đoạn, và

40
chi tiết hơn là đối với từng công việc nhỏ trong từng giai đoạn,
cũng như là khoảng thời gian trễ hạn chấp nhận được nhưng vẫn
đảm bảo toàn bộ tiến trình dự án. Ngoài ra, việc thay đổi yêu cầu
từ phía người sử dụng cũng là yếu tố làm chậm quá trình thực
hiện dự án. Vì vậy, người quản lý có thể lựa chọn một số giải
pháp như tăng thêm thời gian thực hiện và phạm vi của dự án
hoặc vẫn giữ phạm vi dự án như ban đầu nhưng thêm một số
thay đổi hoặc chuyển các yêu cầu mới cho phiên bản sau của sản
phẩm. Tuy nhiên, tất cả những quyết định trên đều cần được
xem xét và đồng thuận từ các cấp quản lý, ban điều hành và
người sử dụng.

3.2.3. Xác định yêu cầu nghiệp vụ


Hoạt động xác định yêu cầu nghiệp vụ đóng vai trò rất quan
trọng từ khi bắt đầu dự án đến khi kết thúc. Việc xác định đúng
yêu cầu nghiệp vụ sẽ có ảnh hưởng đến rất nhiều giai đoạn khác
của dự án. Cụ thể là đối với giai đoạn hoạch định dự án thì yêu
cầu nghiệp vụ giúp người quản lý dự án xác định dễ dàng hơn về
phạm vi và mục tiêu dự án. Ngoài ra, yêu cầu nghiệp vụ rõ ràng
và chi tiết sẽ giúp xác định những loại dữ liệu nào cần được lưu
trữ trong Data Warehouse, các ràng buộc, cách thức được tổ
chức lưu trữ và mức độ cập nhật thường xuyên. Vì vậy, giai
đoạn này có ảnh hưởng lớn đến ba luồng giai đoạn tiếp theo là
luồng công nghệ, luồng dữ liệu và luồng ứng dụng. Nếu như có
bất kỳ sự thiếu sót nào về thu thập hay phân tích yêu cầu nghiệp
vụ thì điều này sẽ gây ảnh hưởng lớn đến việc xây dựng kho dữ
liệu, cụ thể là thiếu một vài trường dữ liệu hay định dạng dữ liệu
sai, thậm chí là thiếu bảng lưu trữ dữ liệu. Bên cạnh đó, những
sự thiếu sót còn ảnh hưởng đến chất lượng của ứng dụng và vì
thế không đáp ứng đầy đủ yêu cầu của người sử dụng. Quan
trọng hơn là điều đó có thể ảnh hưởng đến thời gian thực hiện dự

41
án nếu như những dữ liệu còn thiếu lại cần phải được sử dụng
ngay trong dự án này.
Để nắm rõ yêu cầu nghiệp vụ, trước tiên cần phỏng vấn đối
tượng người dùng, cụ thể là về công việc, mục tiêu, những khó
khăn và phương thức ra quyết định trong hiện tại, cũng như
trong tương lai. Bên cạnh việc lấy yêu cầu từ người dùng của các
phòng ban kinh doanh, cũng rất cần phỏng vấn nhân sự của bộ
phận “IT” để nhận diện yêu cầu nghiệp vụ cùng với mức độ sẵn
sàng của dữ liệu đáp ứng đối với yêu cầu đó.
Có hai phương pháp cơ bản để thu thập yêu cầu và phân tích
dữ liệu hoạt động, đó là phỏng vấn và thiết kế kết hợp người
dùng (JAD - Join Application Design), trong đó phỏng vấn chia
thành hai loại là phỏng vấn cá nhân và nhóm nhỏ. Ưu điểm của
phương pháp phỏng vấn là có được sự đồng thuận của các bên
tham gia cho nên đảm bảo được về chất lượng nguồn dữ liệu, và
mọi cuộc phỏng vấn đều được ghi âm nên sẽ không có bất kỳ
thông tin nào bị bỏ sót. Phương pháp thiết kế kết hợp người
dùng là một hình thức phỏng vấn nhóm, trong đó một phiên làm
việc JAD sẽ bao gồm một nhóm người phỏng vấn có số lượng
giới hạn và chọn lọc, được tổ chức ở một nơi tách biệt cùng với
các công cụ trợ giúp. Phương pháp này có ưu điểm là thúc đẩy
việc phát triển ý tưởng, giảm thiểu thời gian thu thập thông tin
nhờ vào việc sắp xếp thời gian thuận tiện để mọi người trong
nhóm được phỏng vấn cùng một lúc.
Kết quả của giai đoạn xác định yêu cầu bao gồm:
(1) Các tài liệu mô tả yêu cầu nghiệp vụ. Sau khi bước
khảo sát được hoàn tất, toàn bộ dữ liệu ghi nhận được trình bày
dưới dạng tài liệu. Trong đó bao gồm các tài liệu mô tả yêu cầu
(requirement document) như business requirement mô tả về sản
phẩm/hệ thống/tính năng cần thực hiện để đạt được mục tiêu

42
kinh doanh/hoạt động của tổ chức; luồng xử lý quy trình, mô
hình hóa và chỉ định các yếu tố có thể ảnh hưởng đến hệ thống;
business rules and constraints mô tả chuẩn quy tắc cần tuân thủ
về dữ liệu, quy trình, báo cáo,… các tài liệu này có thể được
trình bày dưới dạng phát biểu hay mô hình hóa; table items trình
bày các vấn đề cần được thảo luận thêm, được thể hiện dưới
dạng danh sách câu hỏi mở hay các mục “action to be taken”
(cần được nghiên cứu thêm); và parking lot items liệt kê các câu
hỏi/chủ đề tuy không liên quan trực tiếp đến quá trình thu thập
yêu cầu nhưng có liên quan đến dự án, có thể được sử dụng cho
phần cải tiến, mở rộng hệ thống hoặc những việc khác nữa.
(2) Ma trận ghi vết. Ma trận được trình bày trong file excel
và thể hiện phần so sánh giữa các yêu cầu nghiệp vụ với từng
mục tiêu của dự án. Vì vậy, ma trận này rất quan trọng cho việc
rà soát lại toàn bộ thông tin đã thu thập được, cũng như chỉ ra
những mục tiêu nào của dự án còn thiếu sót và chưa được thu
thập thông tin.
(3) Cập nhật lại kế hoạch dự án. Sau khi thực hiện các văn
bản và rà soát ma trận, bước cuối cùng là cập nhật lại dự án nếu
như quá trình lên kế hoạch bị sai sót hay chưa nhận diện đầy đủ
các rủi ro phát sinh.

3.2.4. Luồng công nghệ

3.2.4.1. Thiết kế kiến trúc kỹ thuật


Sau khi hoạt động xác định yêu cầu kinh doanh hoàn thành,
bước tiếp theo là thiết kế những yếu tố luận lý và vật lý của Data
Warehouse. Từ bản thiết kế này, các bước phân tách và di
chuyển dữ liệu (extracting and transforming) sẽ được thực hiện,
cùng với ước lượng chung về nhu cầu quản trị của Hệ quản trị
cơ sở dữ liệu và giả định về chức năng của sản phẩm cuối cùng.

43
Mô hình dữ liệu đa chiều (dimensional modeling) là tên gọi
của kỹ thuật thiết kế được sử dụng trong Data Warehouse, trong
đó tập trung vào việc trình diễn dữ liệu trong một nền tảng cho
phép tăng tốc độ truy xuất dữ liệu. Mỗi mô hình đa chiều đều
được hình thành từ một bảng dữ liệu chứa nhiều khóa hay còn
gọi là bảng sự kiện (fact table) và tập hợp các bảng có cấu trúc
nhỏ hơn được gọi là bảng chiều (dimension tables). Mỗi bảng
chiều sẽ chứa một khóa chính và gắn kết với khóa ngoại của
bảng sự kiện theo mối liên hệ 1 - n. Có thể nói đây là cấu trúc
của mô hình hình sao (Star schema), ngoài ra, bảng fact còn
chứa thêm các cột dạng số, và được dùng để tính toán, tổng hợp,
thống kê. Mô hình đa chiều sẽ được trình bày kỹ hơn trong
chương tiếp theo.
Lợi ích của mô hình đa chiều là cấu trúc đơn giản, thiết kế
chuẩn và dễ dàng cho các thao tác viết câu lệnh truy xuất dữ
liệu. Ngoài ra, cấu trúc này thể hiện các ràng buộc, các logic/quy
tắc trong kinh doanh ở khía cạnh đơn giản nhất và giảm thiểu số
lượng phép kết hợp giữa nhiều bảng khác nhau, vì vậy tốc độ
truy vấn cũng nhanh hơn. Bên cạnh đó, cấu trúc này rất phù hợp
cho việc mở rộng để đáp ứng với nhu cầu thay đổi trong hoạt
động kinh doanh. Cụ thể là nếu như thêm nhiều bảng chiều
nhằm mô tả cho bảng sự kiện thì cũng không làm ảnh hưởng đến
những bảng chiều khác, cũng như là bảng sự kiện có sẵn.
Trong quá trình tiến hành xây dựng các Data Mart, tại một
thời điểm vẫn có thể triển khai đồng thời nhiều hoạt động xây
dựng Data Mart riêng biệt. Và khi hoàn thành, các Data Mart
vẫn có thể phối hợp với nhau và tạo nên Data Warehouse thống
nhất. Mô hình đa chiều trên thực tế thường chứa bốn đến mười
lăm bảng chiều, trong đó, bảng sự kiện chứa đựng dữ liệu quan
sát thực tế và ghi nhận dưới kiểu con số, các thuộc tính thường là
dạng chữ để mô tả các tính chất của đối tượng và các thuộc tính

44
dạng chữ này được lưu trữ trong các bảng chiều. Trong đó, bảng
chiều “Thời gian” đóng vai trò quan trọng trong Data
Warehouse, cụ thể là nó chứa các thuộc tính mô tả giá trị thời
gian như ngày, tuần, tháng, quý, năm. Một số lưu ý được đề nghị
như: (1) hạn chế việc thay đổi khóa chính của bảng chiều như
Product hay Customer, thay vào đó là cập nhật mô tả
(description) của đối tượng trên và có ba lựa chọn: hoặc là (loại
1) ghi nhận dữ liệu đè lên dữ liệu, cũ hoặc là (loại 2) tạo thêm
một bảng chiều ghi nhận dòng dữ liệu mới, hoặc là (loại 3) tạo
thêm thuộc tính chứa giá trị cũ và lưu dữ liệu mới. (2) Cũng có
nhiều tình huống cần thay đổi bảng chiều thường xuyên hoặc
định kỳ, khi đó nên sử dụng giải pháp loại 2 vì nó hỗ trợ tốt quá
trình ghi nhận toàn bộ dữ liệu lịch sử thay đổi.

3.2.4.2. Lựa chọn và phát triển các ứng dụng phân tích
Có hai khía cạnh cần xem xét khi lựa chọn sản phẩm là cần
phải đáp ứng yêu cầu kinh doanh và kỹ thuật. Trên thực tế, nhiều
dự án Data Warehouse tập trung nhiều vào khía cạnh kỹ thuật
mà bỏ qua các yêu cầu nghiệp vụ. Vì vậy, trong quá trình kiểm
tra thử (testing) và triển khai sử dụng thử nghiệm các tính năng
của hệ thống, chúng đã không nhận được sự ủng hộ của người
dùng. Tiếp theo, cần có những đánh giá về mặt kỹ thuật: (1) Nền
tảng phần cứng cần phải có khả năng mở rộng và lưu trữ tốt,
trong đó, có thể kết hợp nhiều nền tảng khác nhau bao gồm
servers cho khu vực chuẩn bị dữ liệu, Data Mart và ứng dụng.
(2) Nền tảng hệ quản trị cơ sở dữ liệu đối với Data Warehouse
vừa và nhỏ thì cốt lõi là dữ liệu quan hệ. (3) Công cụ cho hoạt
động chuẩn bị dữ liệu chiếm phần lớn chi phí trong Data
Warehouse. (4) Cuối cùng là công cụ truy cập dữ liệu để hỗ trợ
cho nhiều yêu cầu khác nhau.
Quá trình lựa chọn bao gồm các hoạt động sau:
45
(1) Phát triển ma trận trong lựa chọn sản phẩm:
Tất cả các yêu cầu về kinh doanh và kỹ thuật đều có mức độ
quan trọng khác nhau, được đánh giá dưới dạng như “bắt buộc
phải có” hoặc “có thì sẽ tốt” hay dùng con số từ 1 đến 5 như
trong bảng 3.1. Dưới đây là của ma trận lựa chọn sản phẩm:

Bảng Error! No text of specified style in document..1. Ma trận


lựa chọn sản phẩm
Feature Product
Feature Product 1 …
Weight 2
Vùng chứa dữ liệu:
-Hỗ trợ trích lọc dữ liệu
từ nhiều nguồn dữ liệu và 85
nền tảng Warehouse như
RDBMS, IDMS, DB2
-Hỗ trợ chức năng copy 85
và phát sinh dữ liệu lặp
Metadata và chuẩn:
-Lưu trữ metadata 85
-Hỗ trợ TCP/IP, FPT 25

(2) Lựa chọn nhà cung cấp dịch vụ:


Có thể đưa ra một số tiêu chí để lựa chọn nhà cung cấp phù
hợp như sau: Thứ nhất là có sự hỗ trợ như cung cấp tài liệu
hướng dẫn/hỗ trợ sử dụng dành cho từng đối tượng khác nhau
như người dùng ở phòng ban kinh doanh, người lập trình, người
quản trị hệ thống, … Thứ hai là về vấn đề đào tạo và tư vấn, cần
có những tư vấn viên hỗ trợ người dùng thao tác với hệ thống.
Cuối cùng là sự hỗ trợ về mặt kỹ thuật để xử lý tất cả vấn đề về
kỹ thuật phát sinh từ phía người dùng lẫn hệ thống.

46
(3) Thực hiện các nghiên cứu thị trường về nhà cung cấp
dịch vụ:
Mục tiêu của hoạt động này giúp cho tổ chức lựa chọn được
nhà cung cấp dịch vụ phù hợp nhất. Tổ chức có thể tìm kiếm
thông tin trên web, tham dự các buổi trình diễn “showcase” hoặc
hội thảo “seminar”, … Sau đó, tổ chức cần chọn lọc lại danh
sách phù hợp với yêu cầu nghiệp vụ và kỹ thuật của mình. Tiếp
theo là đánh giá các nhà cung cấp thông qua hệ thống các câu
hỏi nhằm tìm ra sự phù hợp của nhà cung cấp cho các yêu cầu
của công ty, mở một cuộc đối thoại trực tiếp giữa các nhà cung
cấp để tìm ra những điểm mạnh.

(4) Lựa chọn nền tảng và giải pháp công nghệ trong dự án:
Việc lựa chọn công nghệ phù hợp với tổ chức là một công
việc khó khăn. Phần dưới đây sẽ trình bày một số yếu tố cần lưu
ý trong quá trình lựa chọn nền tảng và giải pháp DBMS
phù hợp:
Đầu tiên, cần xem xét đến phạm vi hoạt động của tổ chức.
Đối với một số công ty có quy mô lớn hơn luôn yêu cầu triển
khai hệ thống Data Warehouse, nhằm đáp ứng nhu cầu của
nhiều phòng ban, bao gồm cả tài chính, nhân sự, … Một số công
ty triển khai đồng thời nhiều nền tảng Data Warehouse; ví dụ
như RDBMS (relational database system) kết hợp với analytical
DBMS (database system). Trong đó, những câu lệnh cập nhật dữ
liệu hay truy vấn đơn giản sẽ được thực hiện với RDBMS; trong
khi đó, OLAP (online analytical processing) và truy vấn phức
tạp được thực hiện với analytical DBMS. Tùy theo vào quy mô
của dự án, số lượng người dùng truy cập đồng thời và một số
tiêu chí khác sẽ ảnh hưởng đến quyết định lựa chọn một trong
những nền tảng là IBM DB2, SAP, Oracle, hoặc Microsoft,…

47
Một số nhận định cho rằng “Oracle là công cụ lưu trữ
database tốt nhất trên thế giới” hay “DB2 là công cụ database
tuyệt vời nhất được thiết kế” hay “SQL Server là không giới
hạn”, … Có thể nói rằng, việc lựa chọn nền tảng không phải là
vấn đề quan trọng, tuy nhiên có thể cân nhắc về thói quen sử
dụng và chi phí đầu tư. Đồng thời có thể xem xét các nhà cung
cấp giải pháp toàn diện như Oracle, IBM và Microsoft, để giảm
thiểu việc sử dụng nhiều ứng dụng khác nhau từ nhiều nhà cung
cấp khác nhau. Đối với Oracle, có thể chọn công cụ Oracle
Exadata Database Machine, trong đó sử dụng Oracle Database
12c. Ưu điểm là giảm thiểu việc tích hợp up-front system và hỗ
trợ công nghệ lưu trữ, tính toán và mạng tối ưu. Ngoài ra, đối với
IBM DB2 thì có thể lựa chọn IBM PureData System for
Analytics; hoặc lựa chọn Microsoft Azure SQL Data Warehouse
có tích hợp với Microsoft SQL Server ecosystem.
Một số tổ chức có quy mô nhỏ vẫn có thể lựa chọn nền tảng
công nghệ đám mây Data Warehouse as a service (DWaaS). Với
công nghệ này sẽ giúp giảm thiểu chi phí quản trị hệ thống, bản
quyền, chi phí triển khai, … Một số dịch vụ như Amazon
Redshift hay IBM dashDB cung cấp giải pháp toàn diện về
Data Warehouse.
Thứ hai là xem xét đến nhu cầu về độ sẵn sàng và tốc độ
truy xuất nhanh chóng. Một số tổ chức mong muốn đạt được cả
hai yêu cầu trên, vì vậy DwaaS không phải là lựa chọn tốt nhất
bởi vì nó phụ thuộc quá nhiều vào mạng Internet. Thay vào đó là
các giải pháp như IBM DB2 Analytics Accelerator add-on dành
cho z/OS hoặc BLU Acceleration capabilities dành cho LUW.
Bên cạnh đó, một số công cụ như IBM PureData, Teradata
Active EDW and Oracle Exadata với ưu điểm là hoạt động quản
trị và cải thiện tốc độ được hỗ trợ tối ưu. Ngoài ra, có thể xem
xét IBM dashDB chuyên về xử lý dữ liệu phi cấu trúc và có tích
hợp với IBM Cloudant, hỗ trợ tối ưu cho lưu trữ và truy cập

48
JSON và NoSQL data. Mặt khác, Microsoft Azure SQL Data
Warehouse cung cấp khả năng phân tích nhiều loại dữ liệu, bao
gồm dữ liệu quan hệ, bán cấu trúc được lưu trữ trong Hadoop và
sử dụng ngôn ngữ Transact-SQL.
Sau khi đã lựa chọn giải pháp DBMS phù hợp, kế đến là lựa
chọn giải pháp cho ETL tool. Một số loại ETL tool được phân
định như sau: ETL tools tập trung vào tiến trình extracting và
loading, tuy nhiên cần tích hợp với công cụ chuyển đổi dữ liệu
khác; ETL hoặc ETL tools chỉ chấp nhận một loại input và
output nhất định, ví dụ như flat file hoặc vài thể loại đặc biệt nào
khác; ETL tools chuyên thực hiện chuyển đổi dữ liệu nhưng có
khuyết điểm là không hỗ trợ được nhiều định dạng dữ liệu đa
dạng; và cuối cùng là ETL tools với đầy đủ ba tính năng nhưng
đây cũng là công cụ có chi phí cao nhất.
Việc xây dựng riêng công cụ ETL có thể lựa chọn một trong
hai dạng là GUI-based và code-based. Trong đó, code-based tool
được sử dụng rất phổ biến, chẳng hạn như Perl có thể được sử
dụng là code-based ETL tool, và là ngôn ngữ tổng quát phù hợp
với nhiều transaction code language thuộc nền tảng DBMS khác
nhau như Oracle PL/SQL, Microsoft SQL Server T-SQL, …
Ngoài ra, tổ chức có thể lựa chọn ETL tool có sẵn từ các nhà
cung cấp dịch vụ và cân nhắc các yếu tố liên quan đến chi phí,
bảo trì, hỗ trợ, đào tạo, … Cụ thể chúng ta có thể lựa chọn một
số giải pháp như sau: Oracle Warehouse Builder (OWB) 11gR2,
DB2 Infosphere Warehouse Edition 9.1 hay SQL Server
Integration Services (SSIS) 2012 đã bao gồm ETL tool. Lưu ý là
việc lựa chọn giải pháp ETL cần phải phù hợp với lựa
chọn DBMS.
Sau khi lựa chọn giải pháp ETL tool, bước cuối cùng là BI
tools. Trong đó, BI tools có rất nhiều loại như reporting,
desktop/traditional BI, multidimensional tool, data mining và
49
data visualization tool. Việc lựa chọn BI tools cần xem xét dựa
trên yêu cầu của nghiệp vụ kinh doanh để đảm bảo các công cụ
hỗ trợ tốt cho các hoạt động phân tích, lập báo cáo trong quá
trình hỗ trợ ra quyết định. Một lưu ý cần xem xét khi lựa chọn
BI tools là: giải pháp phải được thiết kế phù hợp với từng lĩnh
vực kinh doanh, có khả năng truy cập ở bất kỳ lúc nào, bất kỳ vị
trí nào và bởi bất kỳ thiết bị nào như điện thoại thông minh, máy
tính bảng hay laptop, … Một số giải pháp được gợi ý sử dụng
như SAP Business Intelligence, Oracle Hyperion system hay
Oracle Business Intelligence enterprise edition, Microsoft
Business Intelligence tools và tổ chức có thể lựa chọn phù hợp
với sự lựa chọn nền tảng DBMS.

3.2.5. Luồng dữ liệu

3.2.5.1. Xây dựng mô hình dữ liệu đa chiều


Một Data Mart có thể được xây dựng từ tập hợp bảng sự
kiện, lấy ví dụ trong ngân hàng, Data Mart gồm tập hợp các
bảng sự kiện liên quan đến hoạt động của tài khoản như rút tiền,
gửi tiền, tính phí tháng, tổng số giao dịch, số lượng khách hàng
trong hàng đợi. Hơn nữa, thiết kế Data Warehouse có nghĩa là
xây dựng tập hợp Data Mart và bảng chiều; Data Mart có thể kết
hợp việc xây dựng dữ liệu từ duy nhất một nguồn hoặc nhiều
nguồn khác nhau cũng như có thể trùng lắp dữ liệu giữa các
Data Mart khác nhau.
(1) Liệt kê các Data Mart
Bắt đầu với việc liệt kê tất cả Data Mart có dữ liệu từ một
nguồn duy nhất. Tiếp theo, kết hợp nhiều Data Mart từ một
nguồn dữ liệu thành một Data Mart từ nhiều nguồn khác nhau
phù hợp với quy trình nghiệp vụ nhất định. Lấy ví dụ như dữ
liệu của công ty viễn thông được phân thành các Data Mart như

50
sau: hóa đơn thanh toán của khách hàng, hóa đơn ghi nhận dịch
vụ, báo cáo xử lý vấn đề, đơn yêu cầu sử dụng dịch vụ và thanh
toán, danh sách nhân sự và thanh toán lương, hóa đơn mua hàng
từ nhà cung cấp, quản lý kho sản phẩm, quản lý khách hàng. Có
thể kết hợp quản lý khách hàng, kho sản phẩm, hóa đơn dịch vụ,
báo cáo vấn đề trong Data Mart ghi vết hoạt động cung cấp dịch
vụ. Bên cạnh đó, có thể kết hợp quản lý thanh toán của khách
hàng, đơn yêu cầu sử dụng dịch vụ, ghi nhận khuyến mãi trong
Data Mart quản lý mối quan hệ khách hàng (customer
relationship management).
(2) Liệt kê danh sách bảng chiều
Danh sách Data Mart và bảng chiều có thể được xây dựng
độc lập với nhau, nhưng để thuận lợi thì cần xây dựng Data Mart
trước, sau đó là bảng chiều. Việc hình thành các bảng chiều
không đòi hỏi nhiều phân tích chuyên sâu; mà ngược lại là liệt
kê các chiều có thể liên kết với bảng sự kiện. Lấy ví dụ trong
Data Mart về hóa đơn thanh toán của khách hàng bao gồm các
bảng chiều như sau: khách hàng, thời gian, dịch vụ,
chi nhánh,…
(3) Xây dựng các điểm giao nhau
Sau khi liệt kê danh sách Data Mart và bảng chiều cần có,
bước tiếp theo là sắp xếp lên ma trận, trong đó dòng thể hiện các
Data Mart và cột thể hiện bảng chiều. Tại mỗi ô giao nhau giữa
Data Mart và bảng chiều, nếu như có tồn tại mối liên kết thì
đánh dấu các vị trí này.

Bảng Error! No text of specified style in document..2. Bảng các


điểm giao nhau
Time Customer Service
Customer billing x x x
Service Orders x x x

51
Purchase orders x

Bảng phân tích 3.2 sẽ giúp người đọc liệt kê tất cả Data
Mart và bảng chiều có thể xảy ra và mối liên hệ giữa chúng.
(4) Xây dựng bảng sự kiện: bao gồm 4 bước sau:
Bước 1: Lựa chọn Data Mart: trong số danh sách Data
Mart liệt kê, chọn một Data Mart bất kỳ và từ đó xây dựng bảng
sự kiện.
Bước 2: Khai báo khóa ngoại chiều dữ liệu sẽ mô tả từng
dòng dữ liệu trong bảng sự kiện. Lấy ví dụ bảng sự kiện thể hiện
tổng doanh thu hàng ngày của từng chi nhánh, việc xác định
“hàng ngày”, “chi nhánh” chính là xác định khóa ngoại chiều dữ
liệu. Việc xác định hợp lý các khóa ngoại chiều dữ liệu trong
bảng sự kiện sẽ góp phần cho thiết kế đa chiều trong Data Mart
tránh được các thiếu sót có thể xảy ra.
Bước 3: Chọn bảng chiều sau khi đã xác định khóa ngoại
chiều dữ liệu. Trong ví dụ về hóa đơn thanh toán của khách
hàng, có thể chọn chiều dữ liệu là hóa đơn thanh toán của khách
hàng mỗi tháng đối với từng dịch vụ cụ thể. Vì thế, bảng chiều
có thể là khách hàng, dịch vụ, thời gian.
Bước 4: Chọn bảng sự kiện chứa thông tin sự kiện. Ví dụ
về hóa đơn thanh toán khách hàng, giả sử rằng có bảng chiều mô
tả dịch vụ để xác định từng loại phí cho các loại dịch vụ khác
nhau, vì vậy giá trị “sự kiện” có thể là số lượng sử dụng và giá
trị của dịch vụ.

3.2.5.2. Xây dựng mô hình vật lý


Kiến trúc đóng vai trò rất quan trọng trong quá trình xây
dựng và phát triển dự án Data Warehouse. Bảng 3.3 thể hiện
khung kiến trúc của Data Warehouse, các cột trình bày về dữ
liệu, kỹ thuật và kiến trúc; các dòng thể hiện yêu cầu nghiệp vụ,
mô hình kiến trúc, mô hình chi tiết và triển khai.

52
Mỗi cột trong bảng 3.3 xác định một vùng của kiến trúc,
trong đó:
(1) Vùng kiến trúc của dữ liệu: Nội dung của Data
Warehouse là dữ liệu và cung cấp tất cả thông tin, tri
thức thông qua báo cáo, biểu đồ, xu hướng,… để hỗ trợ
ra quyết định. Vùng kiến trúc của dữ liệu là danh sách
dữ liệu quan trọng và cần thiết trong kinh doanh, bản
thiết kế logic và vật lý của dữ liệu, các tính toán tổng
hợp, phân cấp,… được thiết kế theo nhu cầu
kinh doanh.
(2) Vùng kiến trúc kỹ thuật: bao gồm các quy trình và công
cụ để thao tác dữ liệu. Vùng kiến trúc này sẽ trả lời cho
câu hỏi “bằng cách nào” để lấy dữ liệu từ nhiều nguồn
khác nhau, và đưa vào báo cáo theo chuẩn phục vụ cho
yêu cầu nghiệp vụ cụ thể. Trong đó gồm hai phần chính
là front room và back room, cụ thể là back room chịu
trách nhiệm đối với việc thu thập và chuẩn bị dữ liệu và
front room là chuyển đổi dữ liệu.
(3) Kiến trúc hạ tầng: bao gồm tất cả nền tảng để lưu trữ
toàn bộ dữ liệu và thực hiện xử lý, cụ thể là phần cứng
và hệ điều hành.

Bảng Error! No text of specified style in document..3. Khung


kiến trúc của Data Warehouse
Kỹ thuật (How)
Mức độ Dữ liệu Kiến trúc
dữ liệu (What) Front (How)
Back Room
Room
Yêu cầu Loại dữ liệu Bằng cách Vấn đề nào Các yêu cầu
nghiệp vụ nào cần thiết nào để lấy trong kinh về phần
và kiểm và tốt hơn để dữ liệu, doanh là cứng và hệ
toán ra quyết định? chuyển đổi quan trọng thống quan
Loại dữ liệu để sẵn sàng nhất? Bằng trọng nhất?
nào về tài sản cho các báo cách nào để

53
được trình bày cáo phân đo lường
trong báo cáo tích? chúng?
tài chính?
Mô hình Mô hình đa Các yêu cầu Người dùng Dữ liệu
kiến trúc chiều: đối về truy xuất sẽ cần gì khi được lấy ở
và văn bản tượng nào dữ liệu của lấy thông tin đâu và xuất
quan trọng báo cáo từ các báo ra như thế
nhất (bảng sự trong cáo? Cần nào? Hệ
kiện và bảng khoảng thời phải tham thống có đủ
chiều) và mối gian nhất gia khóa khả năng
liên hệ giữa định? Dữ học, tập lưu trữ dữ
chúng? liệu được huấn như liệu?
lưu trữ ở thế nào?
đâu?

Tiếp theo, mỗi dòng trong bảng 3.3 xác định mức độ chi tiết
của văn bản, bản vẽ tại nhiều cấp độ khác nhau.
(1) Cấp độ yêu cầu nghiệp vụ: Đây là cấp độ không bàn về
mặt kỹ thuật, bao gồm yêu cầu nghiệp vụ từ người
dùng, kinh phí, các công nghệ hiện đại.
(2) Cấp độ mô hình kiến trúc: Mô hình kiến trúc mô tả công
nghệ cụ thể để đáp ứng cho yêu cầu nghiệp vụ, bao
gồm: xác định việc tương tác giữa các công nghệ với
nhau, quản trị hệ thống và nguồn nhân lực để đáp ứng
nhu cầu triển khai, vận hành.
(3) Cấp độ mô hình chi tiết: Xác định các mô hình chứa
đựng thông tin hướng dẫn chi tiết cho quá trình triển
khai, bao gồm chi tiết về chức năng cần hoàn thành tại
mỗi giai đoạn.
(4) Cấp độ triển khai: bao gồm định nghĩa ngôn ngữ lập
trình, mã codes và phần mềm hỗ trợ.
Kiến trúc của Back room bao gồm:

54
(1) Source systems: xác định các nguồn lưu trữ dữ liệu để
cung cấp đầu vào cho Data Warehouse, bao gồm hệ
thống client/server ERP, reporting instance, operational
data store.
(2) Data staging: bao gồm flat files, bảng quan hệ,…
(3) Presentation server: xác định nơi mà dữ liệu được lưu
trữ để phục vụ cho hoạt động truy xuất dữ liệu, hệ thống
báo cáo và các ứng dụng khác.
Kiến trúc của Front room bao gồm:
(1) Access tool data store: là công cụ hỗ trợ truy xuất dữ
liệu và có thể có server riêng để lưu trữ kết quả truy xuất
dữ liệu và báo cáo chuẩn.
(2) Reporting data store: Data Mart và application model
phục vụ cho truy xuất báo cáo, mô hình phân tích
dự báo.
(3) Downstream system: lưu trữ dữ liệu mang tính lịch sử
trong Data Warehouse, đó có thể là những phân tích,
mô hình được thực hiện nhiều lần trong quá khứ nhưng
cần lưu trữ để phục vụ cho hoạt động phân tích khác.

3.2.5.3. Thu thập dữ liệu


Bước đầu tiên cần thực hiện là tạo ra sơ đồ mô tả quy trình
từ lúc bắt đầu đến kết thúc, bao gồm việc trích lọc dữ liệu từ
nhiều nguồn dữ liệu khác nhau, xác định dữ liệu và chuyển đổi
dữ liệu vào Data Warehouse. Tiếp theo là kiểm tra, lựa chọn
công cụ thu thập dữ liệu, và lên kế hoạch chi tiết về trình tự từng
bảng cần được thực hiện chuyển đổi dữ liệu. Sau đó, khu vực xử
lý (data staging area) là nơi mà dữ liệu thô sẽ được đưa vào, làm
sạch, kết hợp, lưu trữ và xuất ra tại tầng trình diễn dữ liệu. Tuy
nhiên, nhiều sự kiểm tra ràng buộc được thực hiện tại khu
vực này.
55
Kế tiếp là xây dựng và kiểm tra việc chuyển đổi dữ liệu vào
bảng chiều. Bắt đầu với bảng chiều tĩnh (static dimension table),
có hai phương pháp để trích lọc dữ liệu từ nguồn dữ liệu: file
hoặc stream. Nếu nguồn dữ liệu là hệ thống cũ lâu đời thì có thể
sử dụng file; nhưng nếu sử dụng công cụ và dữ liệu lưu trữ trong
cơ sở dữ liệu thì có thể dùng stream. Tiếp theo, việc chuyển đổi
dữ liệu có thể là chuyển kiểu dữ liệu, xác định khóa và xác định
mối liên hệ giữa các bảng chiều. Cuối cùng là chuyển dữ liệu
vào bảng chiều thông qua bulk loader.
Kế đến là xây dựng và kiểm tra việc chuyển đổi dữ liệu vào
bảng sự kiện. Đầu tiên, trích lọc dữ liệu từ các bảng sự kiện lịch
sử, tìm kiếm khóa của bảng sự kiện, xử lý giá trị null. Sau đó, dữ
liệu trong bảng sự kiện cần được tái cấu trúc và thực hiện
chuyển đổi dữ liệu từ nguồn. Trong đó, cần xác định và xử lý dữ
liệu sai hay còn gọi là “random/noise values”, chuyển dữ liệu
dạng chuỗi số liên tục thành các dạng số theo nhóm bằng
phương pháp rời rạc hóa, chuyển dữ liệu dạng chuỗi thành dạng
số, … Dữ liệu trong bảng sự kiện phức tạp hơn so với bảng
chiều bởi tính cập nhật liên tục bao gồm thêm mới, chỉnh sửa,
xóa dòng dữ liệu. Cho nên, việc chuyển đổi dữ liệu cần thực
hiện tuần tự và tạo các log ghi nhận dữ liệu thay đổi. Ngoài ra,
bảng sự kiện chứa lượng lớn dữ liệu, vì vậy cần tạo các index,
thực hiện phân khu dữ liệu, và quá trình chuyển đổi dữ liệu có
thể thực hiện đồng thời trên nhiều phân khu dữ liệu khác nhau.
Bên cạnh đó, có thể thực hiện thêm các tính toán tổng hợp dựa
trên bảng sự kiện và tạo cube tính toán.

3.2.6. Luồng ứng dụng


Luồng ứng dụng bao gồm (1) đặc tả ứng dụng người dùng
cuối và (2) phát triển ứng dụng người dùng cuối. Cụ thể là (1)
xác định tập tiêu chuẩn, yêu cầu của các ứng dụng dành cho đối
tượng người dùng cuối, đây được xem như là tập hợp các ứng
dụng có liên kết chặt chẽ với nhau tạo nên hệ thống. Trong đó,
56
các đặc tả mô tả mẫu báo cáo, phương thức tính toán và thông số
được thiết kế dựa trên bảng mô tả yêu cầu nghiệp vụ và đảm bảo
có sự thống nhất giữa nhóm phát triển ứng dụng, người phân
tích và người dùng cuối. Tiếp theo, (2) việc phát triển bao gồm
cấu hình siêu dữ liệu và xây dựng các báo cáo dashboard, phân
tích KPI, hoặc cao cấp hơn là những ứng dụng giúp đưa ra dự
báo, phân tích mối quan hệ giữa các thành phần/yếu tố.

3.2.7. Triển khai và bảo trì


Data Warehouse, sau quá trình xây dựng thành công, cần tập
trung hơn vào việc hỗ trợ đối tượng người sử dụng thuộc phòng
ban nghiệp vụ. Hoạt động này đóng vai trò không kém phần
quan trọng trong dự án, nhờ vào hoạt động tập huấn và hướng
dẫn sử dụng hệ thống, bao gồm thao tác các công cụ, dữ liệu và
phân tích. Bên cạnh đó, việc quản lý Data Warehouse bao gồm
quản trị hạ tầng kỹ thuật, cải thiện tốc độ truy xuất và tính toán
dữ liệu, bảo trì dữ liệu và meta data. Ngoài ra, hoạt động đo
lường và đánh giá Data Warehouse dựa trên các chỉ số đo lường
thành công đã đặt ra ban đầu, đồng thời ghi nhận các quyết định
đã thực hiện dựa trên các phân tích, mô hình, quy luật kết luận từ
ứng dụng business intelligence.
Hoạt động phát triển Data Warehouse được thực hiện theo
quy trình Data Warehouse lifecycle: lên kế hoạch, xác định yêu
cầu nghiệp vụ, hạ tầng kỹ thuật, thiết kế đa chiều, chuẩn bị và
thu thập dữ liệu, thiết kế ứng dụng và phát triển, triển khai và
đánh giá kết quả.

Tóm lại

Chương ba trình bày về các giai đoạn trong dự án xây dựng


và triển khai Data Warehouse tại doanh nghiệp, bao gồm từ
bước khởi đầu là hoạch định dự án để xác định rõ phạm vi, từ đó
xác định yêu cầu nghiệp vụ cần phải đáp ứng. Tiếp theo, từ hoạt
57
động phân tích yêu cầu nghiệp vụ, tiến hành xây dựng thiết kế
kiến trúc kỹ thuật, mô hình đa chiều và thiết kế vật lý của Data
Warehouse. Ngoài ra, hoạt động thu thập và chuẩn bị dữ liệu
được thực hiện nhằm chuyển đổi dữ liệu từ nhiều nguồn khác
nhau vào Data Warehouse và đảm bảo theo một quy định, cấu
trúc nhất định. Cuối cùng là hoạt động bảo trì hệ thống và đánh
giá sau triển khai, cũng như việc lên kế hoạch cho những cải tiến
cần thực hiện trong dự án tiếp theo.
Câu hỏi
1. Dự án triển khai kho dữ liệu trong doanh nghiệp là gì?
2. Anh/chị hãy trình bày các giai đoạn chính trong triển khai
dự án kho dữ liệu.
3. Tại sao hai giai đoạn là xác định dự án và phạm vi và xác
định yêu cầu nghiệp vụ có thể được thực hiện song song?
4. Anh/chị hãy trình bày về luồng công nghệ, luồng dữ liệu
và luồng ứng dụng trong dự án kho dữ liệu.

58

You might also like