You are on page 1of 7

Reference and Master Data Management

1. Giới thiệu

Master Data là các dữ liệu về các thực thể chính trong hoạt động của doanh nghiệp cung cấp thông
tin, ngữ cảnh cho việc phát sinh các dữ liệu khác của doanh nghiệp. Ví dụ: dữ liệu khách hàng, dữ liệu về
nhân sự…

Reference Data là các dữ liệu dùng để mô tả, phân loại và bổ sung thông tin cho các dữ liệu khác
( bao gồm cả Master Data). Ví dụ: danh sách các trạng thái khách hàng, danh mục hàng hoá, bảng mã các
quốc gia… Reference Data ít thay đổi hơn, thường ít biến độ hơn và có kích thước nhỏ hơn Master Data.

Reference & Master Data đều cung cấp thêm thông tin cho việc thêm mới và sử dụng các loại dữ
liệu khác. Quản trị Master Data (MDM) yêu cầu việc kiểm soát giá trị và việc định danh đối tượng của
Dữ liệu chủ, đảm bảo việc sử dụng dữ liệu của các thực thể trọng yếu một cách nhất quán, chính xác và
đầy đủ. Quản trị Reference Data (RDM) yêu cầu việc kiểm soát các thông tin theo vùng dữ liệu và định
nghĩa của chúng, đảm bảo các hệ thống có thể truy cập vào đẩy đủ, chính xác bộ khái niệm được quản lý
2. Sơ đồ ngữ cảnh

3. Các chỉ tiêu kỹ thuật


3.1. Data Matching, Cleansing and Erichment

Chỉ tiêu kỹ thuật Mô tả Mức độ quan Ví dụ


trọng

Cho phép người dùng config các mẫu, rules, gắn CAO Người dùng có thể cấu hình 2
Cấu hình rules để phát weights đo lường => xác định các bản ghi của records được coi là trùng nhau
hiện dữ liệu giống nhau nếu giá trị của “col1” và “col2”
cùng một đối tượng giống nhau.

Sử dụng các thuật toán đề Sử dụng thuật toán xác suất thống kê => trả về CAO Thuật toán matching dữ liệu trên
phát hiện các dữ liệu công cụ IBM InfoSphere MDM:
các bản ghi tương tự nhau
giống nhau https://www.ibm.com/support/
pages/probabilistic-matching-
ibm-infosphere-master-data-
management

Merge các bản ghi khác nhau nhưng cùng của CAO
một đối tượng tuân thủ theo các quy định được
Merge các bản ghi giống
đặt ra
nhau

Phát hiện missing values, cho phép cấu hình xử TRUNG


BÌNH
lý missing values; chuẩn hoá các dữ liệu khác
nhau về cùng forms
Cleansing data

Cho phép người dùng cấu hình các thuộc tính, TRUNG
BÌNH
thông tin cho bộ dữ liệu
Erichment

Các bản ghi bị cho là trùng nhau được lưu trữ lại CAO
Lưu lịch sử bản ghi
để kiểm tra và truy vết
matching

Có thể reverse các bản ghi bị merge với nhau CAO


Reverse dữ liệu bị merge trong trường hợp có sai sót

3.2. Data Governace and Sharing


Chỉ tiêu kỹ thuật Mô tả Mức độ quan Ví dụ
trọng

Cho phép phân quyền người Phân quyền các bộ dữ liệu theo users, roles CAO
dùng theo các bộ dữ liệu

Cho phép tạo cấu hình dùng để Dữ liệu được ghi vào master data cần được CAO
validate dữ liệu đầu vào validate theo các chỉ tiêu được cấu hình về
( formats, ranges, ...) format, types....

Các phiên bản được quản lý và có thể reverse CAO


Lưu, quản lý các phiên bản trong trường hợp cần thiết; người dùng có thể
Master Data, Reference Data so sánh sự thay đổi giữa các phiên bản với
nhau
Chia sẻ dữ liệu cho các hệ thống Cho phép tạo, quản lý việc chia sẻ dữ liệu qua CAO
khác thông qua APIs APIs

3.3. Phân tích và báo cáo

Chỉ tiêu kỹ thuật Mô tả Mức độ quan Ví dụ


trọng

Theo dõi, báo cáo chất lượng bản ghi Master TRUNG BÌNH
Báo cáo chất lượng dữ liệu
và Ref Data

Theo dõi lịch sử update dữ liệu, lịch sử cập TRUNG BÌNH


Báo cáo lịch sử
nhật dữ liệu theo các Source, theo các Output

Báo cáo số lượng tham chiếu dữ liệu, tình trạng TRUNG BÌNH
Báo cáo tình trạng chia sẻ dữ liệu
dữ liệu được chia sẻ qua các hệ thống

Báo cáo các dữ liệu được phát hiện matching TRUNG BÌNH
Phát hiện, cảnh báo các nguy cơ và merge với nhau, hỗ trợ người dùng đánh giá
dữ liệu và nhanh chóng phát hiện các dữ liệu không
chính xác

3.4. Data intergration


Các chỉ tiêu tương tự nội dung tư vấn Data Intergration

4. Khảo sát VTNET

Qua quá trình khảo sát, VTNET hiện chưa có hệ thống quản lý tập trung cho Master Data và
Reference Data. Hiện các nguồn dữ liệu để xây dựng Master Data và Reference Data vẫn đang nằm trên
nhiều hệ thống khách nhau, chưa có sự đồng nhất giữa các hệ thống. Khảo sát xác định được các nhóm dữ
liệu Master Data đề xuất cho VTNET bao gồm:

- Dữ liệu khách hàng: cần tạo ra bảng dữ liệu chung nhất cho toàn bộ khách hàng trên các dịch
vụ khác nhau của VTNET ( cần tổng hợp được khách hàng trên tất cả kênh bán)
- Dữ liệu về sản phẩm/ dịch vụ: Danh sách các dịch vụ đang được VTNET cung cấp. Hiện tại
chưa có dữ liệu này trên CSDL nào, hiện VTNET có file Pdf “Sổ tay kĩ thuật" trong đó có
thông tin về các sản phẩm dịch vụ
- Dữ liệu nhân sự: VTNet không quản lý riêng thông tin nhân sự, thông tin tất cả nhân sự đều
thuộc hệ thống thông tin quản trị chung của tập đoàn
- Dữ liệu hạ tầng: Toàn bộ thông tin về các thiết bị phần cứng đang được quản lý trên hệ thống
NIMS

5. Đề xuất cải thiện

5.1. Phương pháp thiết kế Reference Data

5.1.1. Cấu trúc Reference Data

- Cấu trúc dạng List:

Bảng danh sách đơn giản gồm có 1 cột mã ID, 1 cột tên và có thể có thêm một cột mô tả định
nghĩa của các đối tượng. Ví dụ: danh sách các trạng thái của khách hàng (gồm cột ID, tên trạng
thái, mô tả trạng thái); bảng mã code các quốc gia (Mã quốc gia, Tên quốc gia)...

- Cấu trúc bảng tham chiếu:

Bảng danh sách bao gồm các cột chứa các định nghĩa của cùng một đối tượng trên các hệ thống
hoặc ngôn ngữ khác nhau. Ví dụ: bảng lưu thông tin các thành phố trên cả nước, trong đó có cột
A lưu tên viết tắt của thành phố trên hệ thống A, cột B trên hệ thống B …

- Parent-child list:

Bảng danh sách trong đó có cột Parent để lưu thông tin quan hệ cha-con của các đối tượng. Ví dụ
bảng danh sách các chỉ tiêu tài chính, trong đó có cột id: mã chỉ tiêu - cột parentId: chỉ tiêu cha
của một chỉ tiêu

5.1.2. Các nguồn để xây dựng Reference Data

- Dữ liệu trên các hệ thống nội bộ: các Reference Data nằm trên các hệ thống nội bộ của công ty.
Các dữ liệu cần được quản lý để đảm bảo việc sử dụng chính xác và đồng nhất giữa các hệ thống,
bên cạnh đó vẫn cho phép các hệ thống có sự linh hoạt sử dụng cho cùng một khái niệm. Ví dụ:
các sản phẩm có các khái niệm khác nhau cho cùng trạng thái của khách hàng, người quản lý gặp
khó khăn trong việc xác định số lượng khách hàng mà công ty đang phục vụ. => Giải pháp: tạo
một Reference Data cho trạng thái khách hàng, trong đó có mô tả các trạng thái Active/Inactive…
tương ứng trên mỗi Hệ thống.
- Dữ liệu tham chiếu ngành: các dữ liệu tham chiếu được tạo và quản lý bởi các tổ chức chuyên
môn ngành hoặc chính phủ. Quản lý các dữ liệu này tạo ra sự đồng bộ trong việc sử dụng các
thuật ngữ trong nội bộ doanh nghiệp và trong việc chia sẻ dữ liệu với bên ngoài.
- Dữ liệu địa lý: các dữ liệu hỗ trợ việc phân nhóm đối tượng hoặc phân tích dữ liệu theo địa lý. Ví
dụ: các dữ liệu về nhân khẩu học hỗ trợ doanh nghiệp phân nhóm khách hàng, dữ liệu về mức độ
phân bổ dân cư hỗ trợ VTNET đặt các trạm BTS, các dữ liệu thời tiết hỗ trợ việc triển khai
phương án phòng ngừa bảo vệ khi có thảm hoạ thiên nhiên…

5.2. Phương pháp thiết kế Master Data

5.2.1. Xác định dữ liệu chủ và các thông tin của chúng

- Các nhóm đối tượng nào thường xuyên được tham chiếu, được nhắc tới ảnh hưởng trực tiếp đến
quá trình vận hành của doanh nghiệp
- Các đối tượng đó được mô tả, định nghĩa, xác định bởi những dữ liệu gì ?
- Các dữ liệu đó được lưu trữ trên hệ thống nào, cấu trúc và độ chi tiết của dữ liệu trên.
- Dữ liệu hiện đang được tạo từ đâu, các hệ thống khác truy cập tới và sử dụng các trường dữ liệu
như thế nào
- Chất lượng của dữ liệu và sự khác nhau của chúng trên các source

5.2.2. Phân loại các Master Data

- Master Data của các thực thể: Master Data lưu trữ thông tin tổng quan của một cá nhân, tổ chức
và vai trò của chúng đối với hoạt động kinh doanh của VTNET. Ví dụ dữ liệu chủ về danh sách,
thông tin toàn bộ khách hàng trong doanh nghiệp. Việc quản trị dữ liệu chủ nhóm này gặp các
thách thức do mức độ phức tạp về vai trò và mối quan hệ đối tượng với doanh nghiệp; khó khăn
trong việc phát hiện các đối tượng bị lặp lại; số lượng data source ( ví dụ dữ liệu khách hàng tại
VTNET đang lưu trên rất nhiều hệ thống khác nhau) và sự khác biệt về cấu trúc giữa các source;
mức độ quan trọng và yêu cầu độ chính xác của dữ liệu.
- Master Data của dữ liệu tài chính: Gồm danh sách hợp đồng, dự án, thông tin doanh thu, chi phí.
Dữ liệu chủ tài chính phục vụ cho việc giám sát, quản lý ngân sách, dự án và từ đó ra các quyết
định kinh doanh.
- Master data cho các sản phẩm: hỗ trợ việc quản lý giám sát thông tin quản trị sản phẩm, vòng đời
của sản phẩm…

Ngoài ra còn có Location Master Data, Industry Master Data

5.3. Ví dụ

Master Data chứa đối tượng là thông tin công việc, source từ hệ thống GNOC

- Tên bảng: Thông tin công việc


- Danh sách cột:
- wo_code: Mã WO
- wo_content: Nội dung WO
- create_date: Ngày tạo
- wo_system_id: Id hệ thống tạo
- ft_id: Id Ft
- cd_id: Id đơn vị tạo
- status_id: mã trạng thái
- start_time: thời gian bắt đầu
- finish_time: thời gian kết thúc

Bảng Reference Data danh sách các đơn vị hành chính

- Tên bảng: Danh sách đơn vị hành chính


- Các cột:
- id: mã đơn vị
- level: cấp đơn vị
- parent_id: mã đơn vị cha
- name: tên đơn vị hành chính
6. Tài liệu tham khảo

[1] DAMA DMBOK (Chapter 11. Reference & Master Data)

[2] Bộ tiêu chuẩn Quản lý Dữ liệu chủ và dữ liệu tham chiếu - Ban CNTT Tập đoàn
[3] Gartner - Definition of Master Data Management.
https://www.gartner.com/en/information-technology/glossary/master-data-management-
mdm

You might also like