Professional Documents
Culture Documents
Chương 3 TR 35-58
Chương 3 TR 35-58
35
theo trong dự án, như thiết kế, xây dựng và triển khai giải pháp.
Vì vậy, kết quả đầu ra tại giai đoạn hai là bảng mô tả chi tiết về
hoạt động nghiệp vụ và các yêu cầu, cũng như là các chuẩn đánh
giá về khía cạnh người dùng đối với hệ thống sau khi dự án Data
Warehouse đã triển khai thực tế.
Sau khi yêu cầu nghiệp vụ đã được thu thập và phân tích,
theo hình 3.1 thì bước tiếp theo sẽ bao gồm ba luồng song
song,trong đó, luồng trên cùng liên quan đến khía cạnh kỹ thuật.
Cụ thể đây là thiết kế kiến trúc kỹ thuật hình thành nền tảng kiến
trúc trong việc tích hợp nhiều giải pháp công nghệ trong dự án
Data Warehouse, và lựa chọn những giải pháp phù hợp với từng
tổ chức khác nhau. Kết quả của giai đoạn này là danh sách các
giải pháp, công nghệ của các tổ chức cung cấp giải pháp, ứng
dụng kèm theo các chi tiết, đánh giá về từng giải pháp đó.
Kế đến là luồng ở giữa đề cập đến luồng dữ liệu. Trong đó,
toàn bộ các yêu cầu nghiệp vụ đã khảo sát và phân tích ở giai
đoạn hai sẽ được mô hình hóa trong mô hình đa chiều. Từ đó,
mô hình đa chiều sẽ được chuyển đổi thành kiến trúc vật lý; và
36
tại đây, các vấn đề liên quan đến chiến lược cải thiện tốc độ truy
vấn (như bảng chỉ mục index, phân khu partition, tính toán tổng
hợp aggregation …) cần được xem xét. Cuối cùng nhưng cũng
không kém phần quan trọng là tiến trình ETL (Extracting
Transforming and Loading) được thiết kế và phát triển. Kết quả
của các giai đoạn này là các thiết kế bảng dữ liệu, ràng buộc,
mối liên hệ và quá trình xử lý ETL để chuyển đổi dữ liệu từ các
nguồn khác nhau vào Data Warehouse.
Luồng giai đoạn dưới cùng đề cập đến luồng ứng dụng, đây
là giai đoạn thiết kế và phát triển các ứng dụng Business
Intelligence, cụ thể là các phân tích, báo cáo phục vụ cho hoạt
động ra quyết định của nhà quản lý. Giai đoạn này cũng được
phân tích, thiết kế dựa trên yêu cầu nghiệp vụ của từng phòng
ban và từng đối tượng sử dụng.
Sau khi ba luồng song song này được hoàn thành thì bước
cuối cùng là triển khai thực tế và bảo trì và quan trọng hơn là
đánh giá thành công của dự án Data Warehouse đối với việc đáp
ứng yêu cầu hoạt động nghiệp vụ kinh doanh. Từ đó, những hạn
chế, cải tiến sẽ được phân tích và tiến hành lập kế hoạch cho dự
án Data Warehouse ở cấp độ cao hơn.
37
3.2.2. Xác định dự án và phạm vi
Để xác định dự án Data Warehouse, cần trả lời các câu hỏi
về ý nghĩa của việc xây dựng dự án này và việc cần phải bắt đầu
từ đâu. Một trong những yếu tố quan trọng để đánh giá mức độ
sẵn sàng của tổ chức khi thực hiện dự án, đặc biệt có liên quan
đến công nghệ thông tin, phụ thuộc phần lớn vào ban quản
lý/giám đốc điều hành của tổ chức đó. Trong trường hợp người
quản lý hiểu rõ về lợi ích to lớn của dự án Data Warehouse trong
việc tập hợp, lưu trữ, quản lý nguồn dữ liệu tin cậy và hệ thống
các báo cáo, phân tích sẽ giúp ra quyết định kinh doanh tốt hơn,
thì rất thuận lợi cho việc xác định dự án. Lý do là cần phải có
một định hướng duy nhất đối với việc thực hiện dự án.
Tuy nhiên, trên thực tế thì mỗi người quản lý sẽ có những
nhu cầu khác nhau về thông tin cần phân tích, vì thế dự án cần
phải ưu tiên sao cho những nhu cầu nào quan trọng nhất sẽ được
thực hiện trước, với điều kiện là không đòi hỏi quá nhiều nguồn
lực và thời gian. Một tình huống nữa cũng rất thường xảy ra, đó
là người quản lý không am hiểu về nhu cầu phân tích dữ liệu, và
không biết mình cần được cung cấp loại thông tin nào để ra
quyết định. Tình huống này được xem là phức tạp nhất, bởi vì
lúc này nhà điều hành không nhận ra giá trị mà hệ thống thông
tin sẽ mang lại cho tổ chức, cho nên họ sẽ dễ dàng từ bỏ dự án
và vì vậy mà tỷ lệ thất bại của dự án Data Warehouse sẽ rất cao.
Năm yếu tố chính tạo nên nền tảng để xây dựng Data
Warehouse thành công đó chính là: (1) Sự hợp tác, tài trợ từ ban
điều hành/quản lý kinh doanh trong tổ chức nhờ vào tầm nhìn về
các lợi ích tiềm năng to lớn của Data Warehouse, từ đó họ sẽ
thuyết phục, chứng minh với các đối tượng khác về việc đầu tư
vào dự án. (2) Nhà quản lý cần xác định Data Warehouse đóng
vai trò là yếu tố thúc đẩy kinh doanh, để từ đó tổ chức có động
lực, điều kiện để hoạt động kinh doanh tốt hơn. Lý do là Data
Warehouse mang đến nhiều tri thức mới và hỗ trợ ra quyết định
38
đúng đắn, kịp thời. (3) DW sẽ đồng thời cải thiện mối quan hệ
giữa các phòng IT và kinh doanh, bởi vì Data Warehouse giúp
gắn kết các ứng dụng công nghệ thông tin nhằm đáp ứng nhu
cầu kinh doanh thực tiễn của tổ chức. (4) Hình thành nhu cầu và
thói quen ứng dụng các phân tích dữ liệu vào kinh doanh và (5)
có khả năng thực hiện về mặt kỹ thuật khi triển khai trong
tổ chức.
39
phức tạp và cũng chính là nguyên nhân dẫn đến phạm vi của dự
án khó được kiểm soát.
Thứ ba là cần phải tập trung vào một dữ liệu nguồn để đáp
ứng hoạt động phân tích trong một yêu cầu nghiệp vụ kinh
doanh. Trước đây, dự án Data Warehouse được xây dựng để đáp
ứng cho nhiều phòng ban hay quy trình nghiệp vụ khác nhau,
chẳng hạn như phòng Kinh doanh và marketing và sản xuất, …
với lý do là tiết kiệm thời gian và chi phí trong triển khai dự án.
Tuy nhiên, phương pháp này sẽ gây lãng phí thời gian hơn và
nhiều dữ liệu sẽ không được sử dụng hoặc không đáp ứng đủ
nhu cầu phân tích. Hơn nữa, nếu như có bất kỳ nhu cầu thay đổi
hay mở rộng Data Warehouse thì việc này sẽ khó khăn hơn vì
ảnh hưởng đến hoạt động của nhiều phòng ban. Cho nên, phạm
vi dự án chỉ nên tập trung vào một quy trình kinh doanh nhất
định, như phân tích hóa đơn khách hàng hay hoạt động thanh
toán chi trả … và hạn chế việc triển khai đồng thời nhiều dự án.
Thứ tư là giới hạn số lượng người dùng truy cập vào Data
Warehouse, trung bình thì chỉ nên có khoảng 25 người dùng có
thể truy cập vào các phân tích mang tính quản trị, chiến lược.
Thứ năm là hình thành các chỉ số đánh giá thành công của
dự án Data Warehouse sau khi xác định được phạm vi của dự
án. Mục đích là giúp các nhà quản lý, người triển khai, vận hành
đều nắm rõ về những kỳ vọng trong quản trị kinh doanh đối với
dự án. Tuy nhiên, những chỉ số này cần phải có khả năng dễ đo
lường, dễ thống kê thành con số.
40
chi tiết hơn là đối với từng công việc nhỏ trong từng giai đoạn,
cũng như là khoảng thời gian trễ hạn chấp nhận được nhưng vẫn
đảm bảo toàn bộ tiến trình dự án. Ngoài ra, việc thay đổi yêu cầu
từ phía người sử dụng cũng là yếu tố làm chậm quá trình thực
hiện dự án. Vì vậy, người quản lý có thể lựa chọn một số giải
pháp như tăng thêm thời gian thực hiện và phạm vi của dự án
hoặc vẫn giữ phạm vi dự án như ban đầu nhưng thêm một số
thay đổi hoặc chuyển các yêu cầu mới cho phiên bản sau của sản
phẩm. Tuy nhiên, tất cả những quyết định trên đều cần được
xem xét và đồng thuận từ các cấp quản lý, ban điều hành và
người sử dụng.
41
án nếu như những dữ liệu còn thiếu lại cần phải được sử dụng
ngay trong dự án này.
Để nắm rõ yêu cầu nghiệp vụ, trước tiên cần phỏng vấn đối
tượng người dùng, cụ thể là về công việc, mục tiêu, những khó
khăn và phương thức ra quyết định trong hiện tại, cũng như
trong tương lai. Bên cạnh việc lấy yêu cầu từ người dùng của các
phòng ban kinh doanh, cũng rất cần phỏng vấn nhân sự của bộ
phận “IT” để nhận diện yêu cầu nghiệp vụ cùng với mức độ sẵn
sàng của dữ liệu đáp ứng đối với yêu cầu đó.
Có hai phương pháp cơ bản để thu thập yêu cầu và phân tích
dữ liệu hoạt động, đó là phỏng vấn và thiết kế kết hợp người
dùng (JAD - Join Application Design), trong đó phỏng vấn chia
thành hai loại là phỏng vấn cá nhân và nhóm nhỏ. Ưu điểm của
phương pháp phỏng vấn là có được sự đồng thuận của các bên
tham gia cho nên đảm bảo được về chất lượng nguồn dữ liệu, và
mọi cuộc phỏng vấn đều được ghi âm nên sẽ không có bất kỳ
thông tin nào bị bỏ sót. Phương pháp thiết kế kết hợp người
dùng là một hình thức phỏng vấn nhóm, trong đó một phiên làm
việc JAD sẽ bao gồm một nhóm người phỏng vấn có số lượng
giới hạn và chọn lọc, được tổ chức ở một nơi tách biệt cùng với
các công cụ trợ giúp. Phương pháp này có ưu điểm là thúc đẩy
việc phát triển ý tưởng, giảm thiểu thời gian thu thập thông tin
nhờ vào việc sắp xếp thời gian thuận tiện để mọi người trong
nhóm được phỏng vấn cùng một lúc.
Kết quả của giai đoạn xác định yêu cầu bao gồm:
(1) Các tài liệu mô tả yêu cầu nghiệp vụ. Sau khi bước
khảo sát được hoàn tất, toàn bộ dữ liệu ghi nhận được trình bày
dưới dạng tài liệu. Trong đó bao gồm các tài liệu mô tả yêu cầu
(requirement document) như business requirement mô tả về sản
phẩm/hệ thống/tính năng cần thực hiện để đạt được mục tiêu
42
kinh doanh/hoạt động của tổ chức; luồng xử lý quy trình, mô
hình hóa và chỉ định các yếu tố có thể ảnh hưởng đến hệ thống;
business rules and constraints mô tả chuẩn quy tắc cần tuân thủ
về dữ liệu, quy trình, báo cáo,… các tài liệu này có thể được
trình bày dưới dạng phát biểu hay mô hình hóa; table items trình
bày các vấn đề cần được thảo luận thêm, được thể hiện dưới
dạng danh sách câu hỏi mở hay các mục “action to be taken”
(cần được nghiên cứu thêm); và parking lot items liệt kê các câu
hỏi/chủ đề tuy không liên quan trực tiếp đến quá trình thu thập
yêu cầu nhưng có liên quan đến dự án, có thể được sử dụng cho
phần cải tiến, mở rộng hệ thống hoặc những việc khác nữa.
(2) Ma trận ghi vết. Ma trận được trình bày trong file excel
và thể hiện phần so sánh giữa các yêu cầu nghiệp vụ với từng
mục tiêu của dự án. Vì vậy, ma trận này rất quan trọng cho việc
rà soát lại toàn bộ thông tin đã thu thập được, cũng như chỉ ra
những mục tiêu nào của dự án còn thiếu sót và chưa được thu
thập thông tin.
(3) Cập nhật lại kế hoạch dự án. Sau khi thực hiện các văn
bản và rà soát ma trận, bước cuối cùng là cập nhật lại dự án nếu
như quá trình lên kế hoạch bị sai sót hay chưa nhận diện đầy đủ
các rủi ro phát sinh.
43
Mô hình dữ liệu đa chiều (dimensional modeling) là tên gọi
của kỹ thuật thiết kế được sử dụng trong Data Warehouse, trong
đó tập trung vào việc trình diễn dữ liệu trong một nền tảng cho
phép tăng tốc độ truy xuất dữ liệu. Mỗi mô hình đa chiều đều
được hình thành từ một bảng dữ liệu chứa nhiều khóa hay còn
gọi là bảng sự kiện (fact table) và tập hợp các bảng có cấu trúc
nhỏ hơn được gọi là bảng chiều (dimension tables). Mỗi bảng
chiều sẽ chứa một khóa chính và gắn kết với khóa ngoại của
bảng sự kiện theo mối liên hệ 1 - n. Có thể nói đây là cấu trúc
của mô hình hình sao (Star schema), ngoài ra, bảng fact còn
chứa thêm các cột dạng số, và được dùng để tính toán, tổng hợp,
thống kê. Mô hình đa chiều sẽ được trình bày kỹ hơn trong
chương tiếp theo.
Lợi ích của mô hình đa chiều là cấu trúc đơn giản, thiết kế
chuẩn và dễ dàng cho các thao tác viết câu lệnh truy xuất dữ
liệu. Ngoài ra, cấu trúc này thể hiện các ràng buộc, các logic/quy
tắc trong kinh doanh ở khía cạnh đơn giản nhất và giảm thiểu số
lượng phép kết hợp giữa nhiều bảng khác nhau, vì vậy tốc độ
truy vấn cũng nhanh hơn. Bên cạnh đó, cấu trúc này rất phù hợp
cho việc mở rộng để đáp ứng với nhu cầu thay đổi trong hoạt
động kinh doanh. Cụ thể là nếu như thêm nhiều bảng chiều
nhằm mô tả cho bảng sự kiện thì cũng không làm ảnh hưởng đến
những bảng chiều khác, cũng như là bảng sự kiện có sẵn.
Trong quá trình tiến hành xây dựng các Data Mart, tại một
thời điểm vẫn có thể triển khai đồng thời nhiều hoạt động xây
dựng Data Mart riêng biệt. Và khi hoàn thành, các Data Mart
vẫn có thể phối hợp với nhau và tạo nên Data Warehouse thống
nhất. Mô hình đa chiều trên thực tế thường chứa bốn đến mười
lăm bảng chiều, trong đó, bảng sự kiện chứa đựng dữ liệu quan
sát thực tế và ghi nhận dưới kiểu con số, các thuộc tính thường là
dạng chữ để mô tả các tính chất của đối tượng và các thuộc tính
44
dạng chữ này được lưu trữ trong các bảng chiều. Trong đó, bảng
chiều “Thời gian” đóng vai trò quan trọng trong Data
Warehouse, cụ thể là nó chứa các thuộc tính mô tả giá trị thời
gian như ngày, tuần, tháng, quý, năm. Một số lưu ý được đề nghị
như: (1) hạn chế việc thay đổi khóa chính của bảng chiều như
Product hay Customer, thay vào đó là cập nhật mô tả
(description) của đối tượng trên và có ba lựa chọn: hoặc là (loại
1) ghi nhận dữ liệu đè lên dữ liệu, cũ hoặc là (loại 2) tạo thêm
một bảng chiều ghi nhận dòng dữ liệu mới, hoặc là (loại 3) tạo
thêm thuộc tính chứa giá trị cũ và lưu dữ liệu mới. (2) Cũng có
nhiều tình huống cần thay đổi bảng chiều thường xuyên hoặc
định kỳ, khi đó nên sử dụng giải pháp loại 2 vì nó hỗ trợ tốt quá
trình ghi nhận toàn bộ dữ liệu lịch sử thay đổi.
3.2.4.2. Lựa chọn và phát triển các ứng dụng phân tích
Có hai khía cạnh cần xem xét khi lựa chọn sản phẩm là cần
phải đáp ứng yêu cầu kinh doanh và kỹ thuật. Trên thực tế, nhiều
dự án Data Warehouse tập trung nhiều vào khía cạnh kỹ thuật
mà bỏ qua các yêu cầu nghiệp vụ. Vì vậy, trong quá trình kiểm
tra thử (testing) và triển khai sử dụng thử nghiệm các tính năng
của hệ thống, chúng đã không nhận được sự ủng hộ của người
dùng. Tiếp theo, cần có những đánh giá về mặt kỹ thuật: (1) Nền
tảng phần cứng cần phải có khả năng mở rộng và lưu trữ tốt,
trong đó, có thể kết hợp nhiều nền tảng khác nhau bao gồm
servers cho khu vực chuẩn bị dữ liệu, Data Mart và ứng dụng.
(2) Nền tảng hệ quản trị cơ sở dữ liệu đối với Data Warehouse
vừa và nhỏ thì cốt lõi là dữ liệu quan hệ. (3) Công cụ cho hoạt
động chuẩn bị dữ liệu chiếm phần lớn chi phí trong Data
Warehouse. (4) Cuối cùng là công cụ truy cập dữ liệu để hỗ trợ
cho nhiều yêu cầu khác nhau.
Quá trình lựa chọn bao gồm các hoạt động sau:
45
(1) Phát triển ma trận trong lựa chọn sản phẩm:
Tất cả các yêu cầu về kinh doanh và kỹ thuật đều có mức độ
quan trọng khác nhau, được đánh giá dưới dạng như “bắt buộc
phải có” hoặc “có thì sẽ tốt” hay dùng con số từ 1 đến 5 như
trong bảng 3.1. Dưới đây là của ma trận lựa chọn sản phẩm:
46
(3) Thực hiện các nghiên cứu thị trường về nhà cung cấp
dịch vụ:
Mục tiêu của hoạt động này giúp cho tổ chức lựa chọn được
nhà cung cấp dịch vụ phù hợp nhất. Tổ chức có thể tìm kiếm
thông tin trên web, tham dự các buổi trình diễn “showcase” hoặc
hội thảo “seminar”, … Sau đó, tổ chức cần chọn lọc lại danh
sách phù hợp với yêu cầu nghiệp vụ và kỹ thuật của mình. Tiếp
theo là đánh giá các nhà cung cấp thông qua hệ thống các câu
hỏi nhằm tìm ra sự phù hợp của nhà cung cấp cho các yêu cầu
của công ty, mở một cuộc đối thoại trực tiếp giữa các nhà cung
cấp để tìm ra những điểm mạnh.
(4) Lựa chọn nền tảng và giải pháp công nghệ trong dự án:
Việc lựa chọn công nghệ phù hợp với tổ chức là một công
việc khó khăn. Phần dưới đây sẽ trình bày một số yếu tố cần lưu
ý trong quá trình lựa chọn nền tảng và giải pháp DBMS
phù hợp:
Đầu tiên, cần xem xét đến phạm vi hoạt động của tổ chức.
Đối với một số công ty có quy mô lớn hơn luôn yêu cầu triển
khai hệ thống Data Warehouse, nhằm đáp ứng nhu cầu của
nhiều phòng ban, bao gồm cả tài chính, nhân sự, … Một số công
ty triển khai đồng thời nhiều nền tảng Data Warehouse; ví dụ
như RDBMS (relational database system) kết hợp với analytical
DBMS (database system). Trong đó, những câu lệnh cập nhật dữ
liệu hay truy vấn đơn giản sẽ được thực hiện với RDBMS; trong
khi đó, OLAP (online analytical processing) và truy vấn phức
tạp được thực hiện với analytical DBMS. Tùy theo vào quy mô
của dự án, số lượng người dùng truy cập đồng thời và một số
tiêu chí khác sẽ ảnh hưởng đến quyết định lựa chọn một trong
những nền tảng là IBM DB2, SAP, Oracle, hoặc Microsoft,…
47
Một số nhận định cho rằng “Oracle là công cụ lưu trữ
database tốt nhất trên thế giới” hay “DB2 là công cụ database
tuyệt vời nhất được thiết kế” hay “SQL Server là không giới
hạn”, … Có thể nói rằng, việc lựa chọn nền tảng không phải là
vấn đề quan trọng, tuy nhiên có thể cân nhắc về thói quen sử
dụng và chi phí đầu tư. Đồng thời có thể xem xét các nhà cung
cấp giải pháp toàn diện như Oracle, IBM và Microsoft, để giảm
thiểu việc sử dụng nhiều ứng dụng khác nhau từ nhiều nhà cung
cấp khác nhau. Đối với Oracle, có thể chọn công cụ Oracle
Exadata Database Machine, trong đó sử dụng Oracle Database
12c. Ưu điểm là giảm thiểu việc tích hợp up-front system và hỗ
trợ công nghệ lưu trữ, tính toán và mạng tối ưu. Ngoài ra, đối với
IBM DB2 thì có thể lựa chọn IBM PureData System for
Analytics; hoặc lựa chọn Microsoft Azure SQL Data Warehouse
có tích hợp với Microsoft SQL Server ecosystem.
Một số tổ chức có quy mô nhỏ vẫn có thể lựa chọn nền tảng
công nghệ đám mây Data Warehouse as a service (DWaaS). Với
công nghệ này sẽ giúp giảm thiểu chi phí quản trị hệ thống, bản
quyền, chi phí triển khai, … Một số dịch vụ như Amazon
Redshift hay IBM dashDB cung cấp giải pháp toàn diện về
Data Warehouse.
Thứ hai là xem xét đến nhu cầu về độ sẵn sàng và tốc độ
truy xuất nhanh chóng. Một số tổ chức mong muốn đạt được cả
hai yêu cầu trên, vì vậy DwaaS không phải là lựa chọn tốt nhất
bởi vì nó phụ thuộc quá nhiều vào mạng Internet. Thay vào đó là
các giải pháp như IBM DB2 Analytics Accelerator add-on dành
cho z/OS hoặc BLU Acceleration capabilities dành cho LUW.
Bên cạnh đó, một số công cụ như IBM PureData, Teradata
Active EDW and Oracle Exadata với ưu điểm là hoạt động quản
trị và cải thiện tốc độ được hỗ trợ tối ưu. Ngoài ra, có thể xem
xét IBM dashDB chuyên về xử lý dữ liệu phi cấu trúc và có tích
hợp với IBM Cloudant, hỗ trợ tối ưu cho lưu trữ và truy cập
48
JSON và NoSQL data. Mặt khác, Microsoft Azure SQL Data
Warehouse cung cấp khả năng phân tích nhiều loại dữ liệu, bao
gồm dữ liệu quan hệ, bán cấu trúc được lưu trữ trong Hadoop và
sử dụng ngôn ngữ Transact-SQL.
Sau khi đã lựa chọn giải pháp DBMS phù hợp, kế đến là lựa
chọn giải pháp cho ETL tool. Một số loại ETL tool được phân
định như sau: ETL tools tập trung vào tiến trình extracting và
loading, tuy nhiên cần tích hợp với công cụ chuyển đổi dữ liệu
khác; ETL hoặc ETL tools chỉ chấp nhận một loại input và
output nhất định, ví dụ như flat file hoặc vài thể loại đặc biệt nào
khác; ETL tools chuyên thực hiện chuyển đổi dữ liệu nhưng có
khuyết điểm là không hỗ trợ được nhiều định dạng dữ liệu đa
dạng; và cuối cùng là ETL tools với đầy đủ ba tính năng nhưng
đây cũng là công cụ có chi phí cao nhất.
Việc xây dựng riêng công cụ ETL có thể lựa chọn một trong
hai dạng là GUI-based và code-based. Trong đó, code-based tool
được sử dụng rất phổ biến, chẳng hạn như Perl có thể được sử
dụng là code-based ETL tool, và là ngôn ngữ tổng quát phù hợp
với nhiều transaction code language thuộc nền tảng DBMS khác
nhau như Oracle PL/SQL, Microsoft SQL Server T-SQL, …
Ngoài ra, tổ chức có thể lựa chọn ETL tool có sẵn từ các nhà
cung cấp dịch vụ và cân nhắc các yếu tố liên quan đến chi phí,
bảo trì, hỗ trợ, đào tạo, … Cụ thể chúng ta có thể lựa chọn một
số giải pháp như sau: Oracle Warehouse Builder (OWB) 11gR2,
DB2 Infosphere Warehouse Edition 9.1 hay SQL Server
Integration Services (SSIS) 2012 đã bao gồm ETL tool. Lưu ý là
việc lựa chọn giải pháp ETL cần phải phù hợp với lựa
chọn DBMS.
Sau khi lựa chọn giải pháp ETL tool, bước cuối cùng là BI
tools. Trong đó, BI tools có rất nhiều loại như reporting,
desktop/traditional BI, multidimensional tool, data mining và
49
data visualization tool. Việc lựa chọn BI tools cần xem xét dựa
trên yêu cầu của nghiệp vụ kinh doanh để đảm bảo các công cụ
hỗ trợ tốt cho các hoạt động phân tích, lập báo cáo trong quá
trình hỗ trợ ra quyết định. Một lưu ý cần xem xét khi lựa chọn
BI tools là: giải pháp phải được thiết kế phù hợp với từng lĩnh
vực kinh doanh, có khả năng truy cập ở bất kỳ lúc nào, bất kỳ vị
trí nào và bởi bất kỳ thiết bị nào như điện thoại thông minh, máy
tính bảng hay laptop, … Một số giải pháp được gợi ý sử dụng
như SAP Business Intelligence, Oracle Hyperion system hay
Oracle Business Intelligence enterprise edition, Microsoft
Business Intelligence tools và tổ chức có thể lựa chọn phù hợp
với sự lựa chọn nền tảng DBMS.
50
sau: hóa đơn thanh toán của khách hàng, hóa đơn ghi nhận dịch
vụ, báo cáo xử lý vấn đề, đơn yêu cầu sử dụng dịch vụ và thanh
toán, danh sách nhân sự và thanh toán lương, hóa đơn mua hàng
từ nhà cung cấp, quản lý kho sản phẩm, quản lý khách hàng. Có
thể kết hợp quản lý khách hàng, kho sản phẩm, hóa đơn dịch vụ,
báo cáo vấn đề trong Data Mart ghi vết hoạt động cung cấp dịch
vụ. Bên cạnh đó, có thể kết hợp quản lý thanh toán của khách
hàng, đơn yêu cầu sử dụng dịch vụ, ghi nhận khuyến mãi trong
Data Mart quản lý mối quan hệ khách hàng (customer
relationship management).
(2) Liệt kê danh sách bảng chiều
Danh sách Data Mart và bảng chiều có thể được xây dựng
độc lập với nhau, nhưng để thuận lợi thì cần xây dựng Data Mart
trước, sau đó là bảng chiều. Việc hình thành các bảng chiều
không đòi hỏi nhiều phân tích chuyên sâu; mà ngược lại là liệt
kê các chiều có thể liên kết với bảng sự kiện. Lấy ví dụ trong
Data Mart về hóa đơn thanh toán của khách hàng bao gồm các
bảng chiều như sau: khách hàng, thời gian, dịch vụ,
chi nhánh,…
(3) Xây dựng các điểm giao nhau
Sau khi liệt kê danh sách Data Mart và bảng chiều cần có,
bước tiếp theo là sắp xếp lên ma trận, trong đó dòng thể hiện các
Data Mart và cột thể hiện bảng chiều. Tại mỗi ô giao nhau giữa
Data Mart và bảng chiều, nếu như có tồn tại mối liên kết thì
đánh dấu các vị trí này.
51
Purchase orders x
Bảng phân tích 3.2 sẽ giúp người đọc liệt kê tất cả Data
Mart và bảng chiều có thể xảy ra và mối liên hệ giữa chúng.
(4) Xây dựng bảng sự kiện: bao gồm 4 bước sau:
Bước 1: Lựa chọn Data Mart: trong số danh sách Data
Mart liệt kê, chọn một Data Mart bất kỳ và từ đó xây dựng bảng
sự kiện.
Bước 2: Khai báo khóa ngoại chiều dữ liệu sẽ mô tả từng
dòng dữ liệu trong bảng sự kiện. Lấy ví dụ bảng sự kiện thể hiện
tổng doanh thu hàng ngày của từng chi nhánh, việc xác định
“hàng ngày”, “chi nhánh” chính là xác định khóa ngoại chiều dữ
liệu. Việc xác định hợp lý các khóa ngoại chiều dữ liệu trong
bảng sự kiện sẽ góp phần cho thiết kế đa chiều trong Data Mart
tránh được các thiếu sót có thể xảy ra.
Bước 3: Chọn bảng chiều sau khi đã xác định khóa ngoại
chiều dữ liệu. Trong ví dụ về hóa đơn thanh toán của khách
hàng, có thể chọn chiều dữ liệu là hóa đơn thanh toán của khách
hàng mỗi tháng đối với từng dịch vụ cụ thể. Vì thế, bảng chiều
có thể là khách hàng, dịch vụ, thời gian.
Bước 4: Chọn bảng sự kiện chứa thông tin sự kiện. Ví dụ
về hóa đơn thanh toán khách hàng, giả sử rằng có bảng chiều mô
tả dịch vụ để xác định từng loại phí cho các loại dịch vụ khác
nhau, vì vậy giá trị “sự kiện” có thể là số lượng sử dụng và giá
trị của dịch vụ.
52
Mỗi cột trong bảng 3.3 xác định một vùng của kiến trúc,
trong đó:
(1) Vùng kiến trúc của dữ liệu: Nội dung của Data
Warehouse là dữ liệu và cung cấp tất cả thông tin, tri
thức thông qua báo cáo, biểu đồ, xu hướng,… để hỗ trợ
ra quyết định. Vùng kiến trúc của dữ liệu là danh sách
dữ liệu quan trọng và cần thiết trong kinh doanh, bản
thiết kế logic và vật lý của dữ liệu, các tính toán tổng
hợp, phân cấp,… được thiết kế theo nhu cầu
kinh doanh.
(2) Vùng kiến trúc kỹ thuật: bao gồm các quy trình và công
cụ để thao tác dữ liệu. Vùng kiến trúc này sẽ trả lời cho
câu hỏi “bằng cách nào” để lấy dữ liệu từ nhiều nguồn
khác nhau, và đưa vào báo cáo theo chuẩn phục vụ cho
yêu cầu nghiệp vụ cụ thể. Trong đó gồm hai phần chính
là front room và back room, cụ thể là back room chịu
trách nhiệm đối với việc thu thập và chuẩn bị dữ liệu và
front room là chuyển đổi dữ liệu.
(3) Kiến trúc hạ tầng: bao gồm tất cả nền tảng để lưu trữ
toàn bộ dữ liệu và thực hiện xử lý, cụ thể là phần cứng
và hệ điều hành.
53
được trình bày cáo phân đo lường
trong báo cáo tích? chúng?
tài chính?
Mô hình Mô hình đa Các yêu cầu Người dùng Dữ liệu
kiến trúc chiều: đối về truy xuất sẽ cần gì khi được lấy ở
và văn bản tượng nào dữ liệu của lấy thông tin đâu và xuất
quan trọng báo cáo từ các báo ra như thế
nhất (bảng sự trong cáo? Cần nào? Hệ
kiện và bảng khoảng thời phải tham thống có đủ
chiều) và mối gian nhất gia khóa khả năng
liên hệ giữa định? Dữ học, tập lưu trữ dữ
chúng? liệu được huấn như liệu?
lưu trữ ở thế nào?
đâu?
Tiếp theo, mỗi dòng trong bảng 3.3 xác định mức độ chi tiết
của văn bản, bản vẽ tại nhiều cấp độ khác nhau.
(1) Cấp độ yêu cầu nghiệp vụ: Đây là cấp độ không bàn về
mặt kỹ thuật, bao gồm yêu cầu nghiệp vụ từ người
dùng, kinh phí, các công nghệ hiện đại.
(2) Cấp độ mô hình kiến trúc: Mô hình kiến trúc mô tả công
nghệ cụ thể để đáp ứng cho yêu cầu nghiệp vụ, bao
gồm: xác định việc tương tác giữa các công nghệ với
nhau, quản trị hệ thống và nguồn nhân lực để đáp ứng
nhu cầu triển khai, vận hành.
(3) Cấp độ mô hình chi tiết: Xác định các mô hình chứa
đựng thông tin hướng dẫn chi tiết cho quá trình triển
khai, bao gồm chi tiết về chức năng cần hoàn thành tại
mỗi giai đoạn.
(4) Cấp độ triển khai: bao gồm định nghĩa ngôn ngữ lập
trình, mã codes và phần mềm hỗ trợ.
Kiến trúc của Back room bao gồm:
54
(1) Source systems: xác định các nguồn lưu trữ dữ liệu để
cung cấp đầu vào cho Data Warehouse, bao gồm hệ
thống client/server ERP, reporting instance, operational
data store.
(2) Data staging: bao gồm flat files, bảng quan hệ,…
(3) Presentation server: xác định nơi mà dữ liệu được lưu
trữ để phục vụ cho hoạt động truy xuất dữ liệu, hệ thống
báo cáo và các ứng dụng khác.
Kiến trúc của Front room bao gồm:
(1) Access tool data store: là công cụ hỗ trợ truy xuất dữ
liệu và có thể có server riêng để lưu trữ kết quả truy xuất
dữ liệu và báo cáo chuẩn.
(2) Reporting data store: Data Mart và application model
phục vụ cho truy xuất báo cáo, mô hình phân tích
dự báo.
(3) Downstream system: lưu trữ dữ liệu mang tính lịch sử
trong Data Warehouse, đó có thể là những phân tích,
mô hình được thực hiện nhiều lần trong quá khứ nhưng
cần lưu trữ để phục vụ cho hoạt động phân tích khác.
Tóm lại
58