You are on page 1of 369

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING

KHOA CÔNG NGHỆ THÔNG TIN

Hội thảo

Phân tích dữ liệu, quản trị dữ liệu


thông minh trong các tổ chức
và các vấn đề liên quan

Tp.HCM, ngày 17/05/2021


MỤC LỤC

MỤC LỤC ........................................................................................................................................ i


MỘT SỐ VẤN ĐỀ VỀ CHUYỂN ĐỔI SỐ VÀ ỨNG DỤNG TRONG DOANH NGHIỆP ... 1
Tôn Thất Hòa An ...................................................................................................................... 1
ỨNG DỤNG PHÂN TÍCH TIÊN TIẾN TRONG KINH DOANH ......................................... 12
Nguyễn Quốc Thanh .............................................................................................................. 12
AN NINH GIAO DỊCH TÀI CHÍNH NHỮNG THÁCH THỨC ĐỐI VỚI CÔNG NGHỆ
TÀI CHÍNH .................................................................................................................................. 23
Trần Trọng Hiếu ..................................................................................................................... 23
PHÂN TÍCH DỮ LIỆU VÀ ỨNG DỤNG PHÂN TÍCH DỮ LIỆU CHO DOANH NGHIỆP
........................................................................................................................................................ 35
Nguyễn Quốc Thanh .............................................................................................................. 35
TRÌNH BÀY DỮ LIỆU ĐỒ THỊ TRONG TRỰC QUAN HÓA DỮ LIỆU .......................... 43
Vũ Thị Thanh Hương.............................................................................................................. 43
CÔNG CỤ ỨNG DỤNG PHÂN TÍCH DỮ LIỆU CHO DOANH NGHIỆP .......................... 56
Nguyễn Chí Đạt ...................................................................................................................... 56
PHÂN TÍCH DỮ LIỆU KINH DOANH VỚI POWER BI ...................................................... 66
Trương Đình Hải Thụy, Nguyễn Thị Thanh Tâm .................................................................... 66
QUẢN LÝ DỮ LIỆU THÔNG MINH TRONG LĨNH VỰC NGÂN HÀNG VÀ CÁC GIẢI
PHÁP ............................................................................................................................................. 76
Đinh Nguyễn Thúy Nguyệt..................................................................................................... 76
LỢI ÍCH VÀ THÁCH THỨC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU VÀ DỮ LIỆU LỚN
TRONG KIỂM TOÁN BÁO CÁO TÀI CHÍNH ...................................................................... 85
Lê Thị Kim Thoa ..................................................................................................................... 85
KINH DOANH THÔNG MINH (BUSINESS INTELLIGENCE) VÀ GIẢI PHÁP POWER
BI CHO DOANH NGHIỆP ......................................................................................................... 93
Đinh Nguyễn Thúy Nguyệt..................................................................................................... 93
THỰC TRẠNG QUẢN TRỊ DỮ LIỆU TRONG NGÂN HÀNG THƯƠNG MẠI VIỆT
NAM ............................................................................................................................................ 105
Lê Thị Kim Thoa ................................................................................................................... 105
TÌM HIỂU VỀ BA – CHUYÊN VIÊN PHÂN TÍCH NGHIỆP VỤ ...................................... 114
Hoàng Thị Mỹ Nhân, Nguyễn Chí Đạt .................................................................................. 114
QUẢN TRỊ DỮ LIỆU LỚN TRONG HỆ THỐNG IoT VỚI CÔNG NGHỆ ĐIỆN TOÁN
ĐÁM MÂY, SƯƠNG MÙ, BIÊN ............................................................................................. 123
Trần Trọng Hiếu ...................................................................................................................... 123
CHUYỂN ĐỔI SỐ TRONG KINH DOANH .......................................................................... 137
Nguyễn Diên Duẫn ............................................................................................................... 137
GIẢI PHÁP NHÀ MÁY THÔNG MINH CHO DOANH NGHIỆP ..................................... 145
Nguyễn Huy Khang .............................................................................................................. 145
ỨNG DỤNG CỦA BIG DATA TRONG TIẾP THỊ KỸ THUẬT SỐ (DIGITAL
MARKETING) ........................................................................................................................... 156
Nguyễn Thanh Bình................................................................................................................. 156

i
QUẢN LÝ DỮ LIỆU THÔNG MINH TRONG LĨNH VỰC TÀI CHÍNH, NGÂN HÀNG
...................................................................................................................................................... 166
Nguyễn Huy Khang .............................................................................................................. 166
ỨNG DỤNG CỦA BIG DATA TRONG ĐO LƯỜNG SỰ GẮN KẾT CỦA NGƯỜI TIÊU
DÙNG ĐỐI VỚI CÁC THƯƠNG HIỆU ................................................................................. 176
Nguyễn Thanh Bình................................................................................................................. 176
TÌM HIỂU CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU ............................................................ 186
Nguyễn Thanh Trường......................................................................................................... 186
CƠ HỘI PHÁT TRIỂN TRÍ TUỆ NHÂN TẠO TRONG KIỂM TOÁN ............................. 196
Huỳnh Ngọc Thành Trung .................................................................................................... 196
NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI - SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU
TRỮ DỮ LIỆU LAKEHOUSE ................................................................................................. 206
Bùi Mạnh Trường ................................................................................................................ 206
KHẢO SÁT MỘT SỐ GIẢI PHÁP QUẢN LÝ DỮ LIỆU THÔNG MINH SỬ DỤNG
TRONG NGÀNH NGÂN HÀNG ............................................................................................. 222
Trần Thanh San .................................................................................................................... 222
QUẢN LÝ BIG DATA TRONG MÔI TRƯỜNG KINH DOANH HIỆN ĐẠI .................... 231
Nguyễn Thị Trần Lộc ............................................................................................................ 231
TRÍ TUỆ NHÂN TẠO VÀ ĐỘ TIN CẬY CỦA THÔNG TIN KẾ TOÁN .......................... 244
Huỳnh Ngọc Thành Trung .................................................................................................... 244
TĂNG TỐC VIỆC PHÂN TÍCH CHUỖI THỜI GIAN VỚI PHƯƠNG PHÁP MÁY HỌC
TỰ ĐỘNG HÓA ......................................................................................................................... 256
Bùi Mạnh Trường ................................................................................................................ 256
PHÂN TÍCH DỮ LIỆU TRONG DOANH NGHIỆP VỪA VÀ NHỎ .................................. 268
Trương Đình Hải Thụy ......................................................................................................... 268
QUẢN LÝ CHẤT LƯỢNG DỮ LIỆU KINH DOANH ......................................................... 278
Trần Anh Sơn ....................................................................................................................... 278
NHU CẦU NGUỒN NHÂN LỰC PHÁT TRIỂN KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ
NHÂN TẠO TRONG THỜI ĐẠI KINH TẾ SỐ .................................................................... 296
Trương Xuân Hương, Lâm Hoàng Trúc Mai, Trần Thanh San ............................................. 296
NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG .............................................. 306
Nguyễn Thanh Trường......................................................................................................... 306
VAI TRÒ CỦA QUẢN LÝ DỮ LIỆU TRONG KINH DOANH ........................................... 318
Trần Anh Sơn ....................................................................................................................... 318
KHO DỮ LIỆU TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH TẠI
CÁC CƠ QUAN - DOANH NGHIỆP (Enterprise Data Warehouse in Smart Data Analytics
and Management) ...................................................................................................................... 336
VÕ XUÂN THỂ ...................................................................................................................... 336
CÁC ĐỘ ĐO KHOẢNG CÁCH TRÊN CHUỖI DỮ LIỆU THỜI GIAN ỨNG DỤNG
TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH ...................................... 350
VÕ XUÂN THỂ ...................................................................................................................... 350

ii
MỘT SỐ VẤN ĐỀ VỀ CHUYỂN ĐỔI SỐ
VÀ ỨNG DỤNG TRONG DOANH NGHIỆP

Tôn Thất Hòa An


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: antth@ufm.edu.vn

Tóm tắt: Khái niệm chuyển đổi số ra đời trong kỷ nguyên Công nghệ thông tin với sự
bùng nổ của Internet và ngày càng trở nên phổ biến. Khái niệm này mô tả việc số hóa, ứng
dụng công nghệ số vào tất cả các khía cạnh của doanh nghiệp nhằm thay đổi toàn diện
cách thức mà một doanh nghiệp hoạt động, tăng hiệu qủa hợp tác, tối ưu hóa hiệu suất làm
việc và mang lại giá trị cho khách hàng. Bài viết nhằm tìm hiểu và trình bày một số vấn đề
về chuyển đổi số và ứng dụng trong doanh nghiệp hiện nay để góp phần xây dựng cơ sở
nhận thức và hoạt động chuyển đổi số trong định hướng đào tạo của nhà trường cũng như
ứng dụng trong thực tiễn.

Từ khóa: chuyển đổi số, số hóa

1. CHUYỂN ĐỔI SỐ LÀ GÌ?

Chuyển đổi số (Digital transformation) hiểu theo cách tổng quát là việc vận dụng tính
luôn đổi mới, nhanh chóng của kỹ thuật, công nghệ thông tin để giải quyết vấn đề. Khái
niệm này được ra đời trong thời đại bùng nổ internet, mô tả những hoạt động đổi mới một
cách mạnh mẽ và toàn diện trong cách thức hoạt động của toàn tổ chức, doanh nghiệp, ở tất
cả những khía cạnh như cung ứng, sản xuất, hợp tác, mối quan hệ khách hàng hoặc thậm
chí là tạo ra những doanh nghiệp mới với cách thức hoạt động mới mẻ hoàn toàn.

2. CÁC KHÁI NIỆM CƠ BẢN

Có ba khái niệm chủ yếu cần phân biệt là Số hóa (Digitization) , Ứng dụng số hóa
(Digitalization) và Chuyển đổi số (Digital transformation). Sự liên quan của các khái niệm
này được minh họa trong Hình 1 và được trình bày bên dưới đây.

1
Chuyển đổi mô hình
Chuyển đổi số kinh doanh
(Digital
transformation
Sử dụng dữ liệu số hóa
Ứng dụng số hóa
để tối ưu hoạt động
(Dizitilization)

Số hóa Số hóa thông tin, quy


(Digitization) trình, công việc

Hình 1. Minh họa các khái niệm


2.1. Số hóa:

Số hóa là một trong những bước đầu của quá trình chuyển đổi số. Khái niệm số hóa
đề cập đến công việc cụ thể là: chuyển thể dữ liệu ở dạng giấy truyền thống thành những
dữ liệu số trên máy tính. Hay nói cách khác là chuyển mọi thông tin sang dạng kỹ thuật số.
Việc số hóa đã diễn ra và đang được dùng phổ biến hiện nay với hình thức nhập liệu hoặc
các thiết bị số hóa khác như máy scan, máy ghi âm, camera, … Đây cũng là bước bắt buộc
phải có nếu doanh nghiệp muốn tham gia vào chuyển đổi số.

Số hóa rất quan trọng trong việc xử lý, lưu trữ và truyền dữ liệu. Nó cho phép tất cả
các dạng thông tin (dạng vật lý) được lưu trữ dưới dạng dữ liệu số để dễ dàng truy cập, chia
sẻ và truyền đi rất thuận tiện, nhanh chóng.

Một ví dụ về số hóa là việc chuyển đổi hình ảnh thực sang dữ liệu số của hệ thống
camera để lưu trữ trên các đám mây như hình 2.

Camera DVR Router Cloud

Thu nhận ảnh thực Số hóa ảnh Truyền ảnh Lưu trữ ảnh
số số
Hình 2. Chuyển đổi ảnh thực sang tín hiệu số và lưu trên đám mây.

2.2. Ứng dụng số hoá:

Ứng dụng số hóa là quy trình sử dụng thông tin đã được số hóa để làm cho cách thức
hoạt động đơn giản, nhanh chóng và hiệu quả hơn.
2
Sau khi có những dữ liệu ở dạng số hóa, công việc của ứng dụng số hóa là dùng những
phần mềm hoặc công cụ hỗ trợ để xử lý hoặc tối ưu số liệu. Những công việc trước đây
được làm thủ công như đếm, ghi chú, thống kê, tìm kiếm thông tin,... thì ngày nay sẽ được
giảm thiểu ở mức tối đa vì có sự trợ giúp của công nghệ thông tin thông qua các phần mềm
máy tính. Ví dụ: việc gọi điện cho khách hàng sẽ được hệ thống ghi chú và lưu lại ngày,
giờ thay cho tư vấn viên, cũng như hệ thống sẽ tự động trong quá trình thống kê dữ liệu, dữ
liệu cá nhân của từng khách hàng sẽ được chia nhóm, phân loại,... hỗ trợ cho quá trình báo
cáo lấy số liệu mà không cần đến nguồn nhân lực. Hình 3 minh họa một số phần mềm ứng
dụng số hóa.

Phần mềm quản trị tiếp thị doanh nghiệp

Phần mềm quản trị hệ thống doanh nghiệp Phần mềm quản trị kế toán doanh nghiệp
Hình 3. Hình ảnh minh họa một số phần mềm ứng dụng số hóa doanh nghiệp

3
2.3. Chuyển đổi số:

Chuyển đổi số là sự thay đổi toàn diện của mô hình và tổ chức kinh doanh bằng các
thông tin kỹ thuật số. Nó làm thay đổi cách thức kinh doanh và có thể tạo ra các lớp doanh
nghiệp hoàn toàn mới như hình 4.

Nhà bán lẻ lớn Nhà cung cấp Nhà chiếu phim Công ty taxi lớn Mạng xã hội
nhất thế giới chỗ ở lớn nhất lớn nhất thế giới nhất thế giới phổ biến nhất
thế giới thế giới

Hình 4. Lớp doanh nghiệp hoàn toàn mới dựa trên chuyển đổi số

Chuyển đổi số sẽ giúp các công ty xem xét lại mọi thứ họ làm, từ hệ thống nội bộ đến
tương tác của đối tác, khách hàng cả trực tuyến và trực tiếp. Chuyển đổi số là một quá trình
hoàn thiện bao gồm nhiều bước khác nhau với nhiều mục tiêu trung gian được kết nối nhằm
tối ưu hóa liên tục qua các quy trình, bộ phận và hệ sinh thái kinh doanh của thời đại siêu
kết nối.

3. TÁC ĐỘNG CỦA CHUYỂN ĐỔI SỐ ĐỐI VỚI DOANH NGHIỆP

Chuyển đổi số trong doanh nghiệp là quá trình thay đổi từ mô hình truyền thống sang
doanh nghiệp số, bằng cách áp dụng công nghệ mới như dữ liệu lớn (Big data), Internet vạn
vật (IOT), điện toán đám mây (Cloud)…thay đổi phương thức điều hành, lãnh đạo, quy
trình làm việc, văn hóa công ty…

Chuyển đổi số hứa hẹn mang lại lợi ích so sánh đến các doanh nghiệp dám triển khai
quy trình sản xuất hàng loạt khi bước vào kỷ nguyên số của thế kỷ 20 và những ảnh hưởng
của nó đến cơ sở hạ tầng công nghệ thông tin của doanh nghiệp là tất yếu. Trong một nền
kinh tế chia sẻ, những tiến bộ trong công nghệ số trao quyền như nhau cho cả cá nhân và
doanh nghiệp. Rào cản giữa vật lý và ‘ảo’ đang được làm mờ đi với tốc độ nhanh chóng để
cả hai được đan xen vào nhau, cùng cung cấp trải nghiệm khách hàng. Đó là một kỷ nguyên
mà các khoản thanh toán được thực hiện bằng một cú chạm trên chiếc smartphone, hàng
hóa được đặt trên web và được giao phi biên giới, viễn cảnh con người sẽ sớm di chuyển
bằng những chiếc xe tự lái được vận hành thông qua các máy chủ cách xa hàng ngàn dặm.
4
Ba đặc điểm của chuyển đổi số có tác động đến doanh nghiệp:

➢ Cung cấp quy mô


Với những tiến bộ trong công nghệ kỹ thuật số, mỗi doanh nghiệp có thể là một tổ
chức toàn cầu. Các doanh nghiệp có thể phục vụ nhiều phân khúc vượt qua các ranh giới
địa lý theo quy mô mà trước đây không thể tưởng tượng được. Ngày nay, các tổ chức có
một khả năng phi thường để nắm bắt, lưu trữ, xử lý và hưởng lợi từ khối lượng dữ liệu
khổng lồ. Ví dụ, hiện một phần ba doanh thu của Amazon đến từ “ Ngày Thứ Hai Điện
Tử”(Cyber Monday), khoảng 3 tỷ đô la Mỹ.

➢ Tốc độ vô song
Các tổ chức có thể nhanh chóng thâm nhập vào các thị trường mới hơn mà không cần
sửa đổi gì đối với platform kinh doanh kỹ thuật số của họ. Lấy Uber làm ví dụ, chỉ trong
năm năm kể từ khi ra mắt, doanh nghiệp đã hoạt động ở 58 quốc gia và hơn 300 thành phố.
Tức là, cứ sau sáu ngày thì doanh nghiệp lại mở rộng sang một thành phố mới.

➢ Tính không đồng nhất


Số hóa đã tạo điều kiện cho các ngành công nghiệp đang ở ngã ba đường khám phá
những cơ hội mới. Do đó, các tổ chức hiện có thể đáp ứng nhu cầu của các phân khúc thị
trường khác nhau - thường không được xem xét trong các ngành công nghiệp bản địa của
họ. Ví dụ, Nike đang mạo hiểm đầu tư vào lĩnh vực quản lý sức khỏe trong khi một bưu
chính và hậu cần tổ chức như UPS lại có bước đột phá khi đầu tư vào các giải pháp quản lý
tài chính.

4. TẠI SAO PHẢI CHUYỂN ĐỔI SỐ VÀ CÁC LỢI ÍCH

Nhiều chuyên gia cũng như các công trình nghiên cứu cho thấy rằng chuyển đổi số là
xu thế không thể đảo ngược, nếu đứng ngoài, doanh nghiệp sớm muộn sẽ thất bại. Lý do
không phải là vì xu hướng nên các doanh nghiệp chuyển đổi số mà chuyển đổi số thực sự
mang lại rất nhiều lợi ích cho mọi mặt hoạt động của các công ty: từ điều hành quản lý đến
nghiên cứu, kinh doanh….

Tầm quan trọng của chuyển đổi số được thể hiện ở nhiều khía cạnh như: cắt giảm chi
phí vận hành, tiếp cận được nhiều khách hàng hơn trong thời gian dài hơn, lãnh đạo ra quyết
định nhanh chóng và chính xác hơn nhờ hệ thống báo cáo thông suốt kịp thời. Qua đó, hiệu

5
quả hoạt động và tính cạnh tranh của tổ chức, được nâng cao. Một doanh nghiệp số được
chuyển đổi thành công thường nhận được nhiều lợi ích như sau:

➢ Cung cấp thông tin chi tiết từ dữ liệu


Chuyển đổi số giúp nhân sự trong doanh nghiệp có quyền truy cập vào lượng dữ liệu
khổng lồ. Họ có thể theo dõi tất cả các loại chỉ số, như hiệu quả của quy trình, tỷ lệ chuyển
đổi kênh, giá trị lâu dài của khách hàng, sự hài lòng của khách hàng và nhiều chỉ số khác.

Nó không chỉ cho phép doanh nghiệp sắp xếp dữ liệu của mình một cách trực quan
và dễ dàng truy cập mà còn cho phép đưa ra quyết định dựa trên dữ liệu. Điều này cho phép
các nhà quản lý đưa ra các quyết định chính xác, nhanh chóng hơn.

➢ Nâng cao tính cạnh tranh của doanh nghiệp


Chuyển đổi số đã trở thành vấn đề sống còn trong kỷ nguyên 4.0 phát triển không
ngừng. Đó không phải là vấn đề của sự lựa chọn, mà là điều cần thiết để duy trì tính cạnh
tranh.

Deborah Ancona, giáo sư quản lý tại Viện Công nghệ Massachusetts (MIT) và là
người sáng lập Trung tâm Lãnh đạo cho biết: “Sự thúc đẩy chuyển đổi kỹ thuật số đang
tăng tốc trong một thế giới mà các công ty ngày càng cạnh tranh về sự đổi mới, tốc độ và
khả năng thích ứng.

Một khảo sát cho thấy rằng đa số công ty đồng ý rằng công nghệ số là cần thiết để
đạt được mục tiêu chuyển đổi số của họ. Rõ ràng là các doanh nghiệp phải lựa chọn công
nghệ phù hợp để đáp ứng mục tiêu chuyển đổi số của họ và làm hài lòng khách hàng. Các
công cụ 4.0 được xây dựng để đáp ứng nhu cầu hiện đại của khách hàng và các công ty cần
tìm ra giải pháp phù hợp để nâng cao trải nghiệm và đáp ứng các yêu cầu của khách hàng
trong hiện tại và tương lai.

➢ Nâng cao trải nghiệm của khách hàng


Theo Accenture – công ty tư vấn quản lý chuyên cung cấp dịch vụ chiến lược, tư vấn,
kỹ thuật số, công nghệ và hoạt động của Ireland cho biết, hơn 90% khách hàng có nhiều
khả năng mua hàng từ các thương hiệu gọi tên họ, biết lịch sử mua hàng và đưa ra các đề
xuất sản phẩm dựa trên sở thích của họ. Nói một cách ngắn gọn – khách hàng yêu cầu cá
nhân hóa và nó không thể đạt được trên quy mô lớn nếu không sử dụng kỹ thuật số.

6
Công nghệ kỹ thuật số có thể cung cấp cho bạn thông tin chi tiết về dữ liệu lịch sử
của khách hàng, bao gồm các tương tác, sở thích và mức độ tương tác của họ.

Hơn nữa, họ cung cấp các phương tiện để phân tích dữ liệu này nhanh chóng nhằm
cá nhân hóa trải nghiệm khách hàng nhằm đáp ứng tốt hơn nhu cầu và mong đợi của khách
hàng.

➢ Tăng cường liên kết giữa các phòng ban


Chuyển đổi số cho phép nhân sự giữa các bộ phận trong toàn bộ công ty giao tiếp tốt
và thường xuyên hơn. Nhờ việc sử dụng các nền tảng quản trị doanh nghiệp tự động, các
phòng ban có thể dễ dàng chia sẻ tất cả các loại thông tin, tài liệu dễ dàng bất cứ ở đâu, bất
cứ khi nào. Nhờ đó giúp cải thiện khả năng cộng tác.

➢ Nâng cao hiệu quả hoạt động và giảm chi phí


Công nghệ số giúp các doanh nghiệp tiết kiệm tối đa chi phí cho các hoạt động của
mình. Ví dụ, thực tế ảo cho phép nhân viên kiểm tra và xem xét các quy trình hoặc sản
phẩm mới mà không cần phải xây dựng chúng trước, vì tất cả được thể hiện trực quan trên
hình ảnh kỹ thuật số.

Trong khi đó, vấn đề lưu trữ dữ liệu có thể được giải quyết bằng điện toán đám mây
và có thể được quản lý bởi các nhà cung cấp bên ngoài. Điều này giúp nhân viên của doanh
nghiệp có nhiều thời gian hơn để tập trung vào các dự án, công việc khác mang lại nhiều
giá trị kinh doanh hơn và bớt lo lắng về việc lưu trữ dữ liệu.

Nhìn chung, bằng việc ứng dụng chuyển đổi số, doanh nghiệp có thể tự động hóa các
tác vụ và quy trình mà trước đây thực hiện theo cách thủ công và rất tốn thời gian, ví dụ:
Thu thập dữ liệu khách hàng, quản lý tài chính, quản trị công việc, nhân sự, lập báo cáo,…

Điều này sẽ có tác động tích cực đến năng suất và cải thiện sự hài lòng của nhân viên,
vì họ sẽ không còn phải thực hiện các nhiệm vụ đơn điệu và sẽ có thể sử dụng tốt hơn các
kỹ năng của mình.

➢ Giúp nhân viên làm việc hiệu quả hơn


Công nghệ kỹ thuật số ngày nay cho phép nhân viên truy cập thông tin mọi lúc mọi
nơi, chúng đóng vai trò then chốt trong việc giúp nhân viên đảm nhận vai trò của họ một
cách hiệu quả hơn. Ngoài ra, công nghệ kỹ thuật số còn cung cấp một cơ hội quý giá cho
các chức năng kinh doanh cốt lõi như tài chính và nhân sự, giúp hạn chế các quy trình thủ

7
công và tự động hóa các lĩnh vực chính như bảng lương, cho phép các nhà lãnh đạo tập
trung vào các cơ hội kinh doanh rộng lớn hơn.

➢ Nâng cao chất lượng dịch vụ


Khách hàng bên trong lẫn khách hàng bên ngoài của doanh nghiệp, trong môi trường
chuyên nghiệp có xu hướng đòi hỏi ngày một tăng đối với trải nghiệm khách hàng. Việc
không có sự liên kết thông tin một cách liền mạch giữa các phòng ban khiến cho quá trình
làm việc của cả tổ chức bị đứt quãng, tắc nghẽn, khiến khách hàng gặp khó khăn trong thao
tác, dẫn đến sự không hài lòng và giảm doanh thu. Do đó, doanh nghiệp cần thực hiện
chuyển đổi số để phục vụ nghiệp vụ chuyên môn của mình mà đồng thời vẫn có thể giao
tiếp với bộ phận khác khiến thông tin được minh bạch và rõ ràng hơn.

➢ Nâng cao tính minh bạch và hiệu quả trong quản trị doanh nghiệp
Việc ngồi chờ nhân viên gửi báo cáo qua email hoặc bản cứng thường khiến tiến quá
trình làm việc của các CEO cũng như nhân viên bị đình trệ. Ngày nay, tổ chức hoàn toàn
có thể chủ động truy cập các loại báo cáo mà mình muốn bất cứ lúc nào: nhân viên ghi nhận
bán hàng, kế toán ghi nhận doanh số hay biến động nhân sự ở các bộ phận, CEO truy xuất
báo cáo.

5. LÀM CÁCH NÀO ĐỂ CHUYỂN ĐỔI SỐ

Theo [2] chuyển đổi số là một chủ đề rộng đòi hỏi năng lực về chiến lược và tầm
nhìn, con người và văn hóa, quy trình và quản trị cũng như công nghệ và khả năng có thể
được minh họa như Hình 5.

Chuyển đổi số

Chiến lược và Con người và Quy trình và Công nghệ và


tầm nhìn văn hóa quản trị khả năng

Chiến lược số Đổi mới kỹ thuật Các công cụ hỗ trợ


Các kỹ năng số
số công nghệ đột phá
Tiêu điểm kỹ Khả năng lãnh Thay đổi cách Kiến trúc nền tảng
thuật số đạo quản lý và mô hình k. doanh

Đầu tư Văn hóa Quản trị Làm chủ dịch vụ


kỹ thuật số

Hình 5. Các chủ đề trong chuyển đổi số.

8
Trước khi bắt đầu thực hiện chuyển đổi số cần xác định, đánh giá và chọn lựa lộ trình
cho doanh nghiệp như sau:

- Xác định mục tiêu chuyển đổi số (chiến lược và tầm nhìn)

• Trong giai đoạn sớm, mục tiêu chuyển đổi số của doanh nghiệp nhắm vào các
mục tiêu hẹp trong các lĩnh vực cụ thể như nơi làm việc kỹ thuật số và cải thiện
hoạt động.

• Ở giai đoạn phát triển, mục tiêu chuyển đổi số của doanh nghiệp bao gồm suy
nghĩ lại và thiết kế lại quy trình kinh doanh của doanh nghiệp cũng như các sáng
kiến chọn lọc liên quan đến trãi nghiệm khách hàng kỹ thuật số.

• Đối với giai đoạn trưởng thành, mục tiêu chuyển đổi số của doanh nghiệp Bao
gồm suy nghĩ lại và thiết kế lại các mô hình và quy trình kinh doanh của doanh
nghiệp.

- Tìm hiểu chọn lựa công nghệ đột phá phù hợp (công nghệ và khả năng)

• Trong giai đoạn sớm, doanh nghiệp thường xuyên sử dụng các công nghệ SMAC
(Social, Mobile, Analytics, Cloud)

• Ở giai đoạn phát triển, doanh nghiệp cũng thường xuyên sử dụng các công nghệ
SMAC đồng thời chọn các trình hỗ trợ tiếp theo (như IoT và tự động hóa thông
minh) cho các ứng dụng kinh doanh kỹ thuật số của doanh nghiệp

• Đối với giai đoạn trưởng thành tiếp tục sử dụng các công nghệ SMAC cũng như
một bộ chiến lược của các trình hỗ trợ tiếp theo (như IoT và tự động hóa thông
minh) cho các ứng dụng kinh doanh kỹ thuật số của doanh nghiệp.

- Xây dựng mô hình kinh doanh nền tảng (công nghệ và khả năng)

• Trong giai đoạn sớm các doanh nghiệp thường không sử dụng hoặc kế hoạch cho
các mô hình kinh doanh nền tảng

• Ở giai đoạn phát triển, các doanh nghiệp thường tích cực điều tra các mô hình
kinh doanh nền tảng và kiến thúc kỹ thuật của chúng

• Đối với giai đoạn trưởng thành, các mô hình kinh doanh nền tảng đã là một phần
cốt lõi của chiến lược chuyển đổi số.

9
- Làm chủ dịch vụ số (công nghệ và khả năng) liên quan đến cách thiết kế, phát triển,
triển khai, quản lý và liên tục phát triển các dịch vụ kỹ thuật số phù hợp

• Trong giai đoạn sớm, doanh nghiệp thường nắm vững một hoặc hai trong số các
khả năng chính

• Ở giai đoạn phát triển, các doanh nghiệp có thể nắm vững ba hoặc bốn khả năng
chính

• Đối với giai đoạn trưởng thành, các doanh nghiệp thường nắm vững năm hoặc sáu
khả năng chính.

- Tổ chức đổi mới kinh doanh kỹ thuật số (quy trình và quản trị)

• Trong giai đoạn sớm, doanh nghiệp có các chương trình đổi mới hạn chế và/hoặc
phân mảnh trên toàn tổ chức

• Ở giai đoạn phát triển, doanh nghiệp có một chương trình đổi mới toàn doanh
nghiệp chính thức nhưng chưa điều chỉnh nó cho các mục tiêu chuyển đổi số của
doanh nghiệp

• Đối với giai đoạn trưởng thành, doanh nghiệp có một chương trình đổi mới toàn
doanh nghiệp chính thức, đã được điều chỉnh phù hợp cho các mục tiêu chuyển
đổi số của doanh nghiệp và cho phép đổi mới liên tục và hợp tác

- Thúc đẩy lộ trình tiến nhanh đến nền tảng tương lai (con người và văn hóa).

• Trong giai đoạn sớm, doanh nghiệp có văn hóa không thích rủi ro và kỹ năng số
hạn chế

• Ở giai đoạn phát triển, doanh nghiệp có một nền văn hóa chấp nhận rủi ro và các
kỹ năng kỹ thuật số vừa phải

• Đối với giai đoạn trưởng thành, doanh nghiệp có văn hóa tiếp nhận rủi ro và kỹ
năng kỹ thuật số mạnh mẽ.

6. KẾT LUẬN

Như đã đề cập ở trên “chuyển đổi số là xu thế không thể đảo ngược”. Như vậy nó hầu
như bắt buộc đối với mọi tổ chức, doanh nghiệp từ nhỏ đến lớn. Tuy nhiên chuyển đổi số
là một chủ đề rộng lớn và phức tạp, đòi hỏi rất nhiều nguồn lực và nhiều thách thức đặt ra.

10
Vì vậy, việc chuyển đổi số doanh nghiệp nói riêng và các tổ chức xã hội nói chung cần có
chủ trương, chính sách hướng dẫn của nhà nước, nguồn lực đào tạo và tri thức của các
trường đại học, viện nghiên cứu và đặc biệt là các doanh nghiệp chuyển đổi số cần nghiên
cứu, xem xét các mô hình hoạt động, quy trình và công nghệ hiện tại và tương lai phù hợp
để thực hiện chuyển đổi số thành công

TÀI LIỆU THAM KHẢO

[1] https://vi.wikipedia.org/wiki/Chuyển_đổi_số

[2] https://smartfactoryvn.com/digital-transformation/chuyen-doi-so-la-gi/

[3] https://manufacturingdx.com/chuyen-doi-so-trong-nganh-san-xuat-nhung-thach-thuc-cho-
doanh-nghiep-viet-nam/?utm_source=Google&utm_medium=chuyen-doi-
so&utm_campaign=Google%20Keyword&gclid=Cj0KCQjwvr6EBhDOARIsAPpqUPEqtrBXBT
Uf6KmIus-ey0dk3Av3eP3OznEENCTk4mVlkK5BgTsoJcoaAkiOEALw_wcB

[4] https://fsivietnam.com.vn/chuyen-doi-so-tai-fsi-nhung-thanh-cong-dau-tien-20694/

[5] https://dx.mic.gov.vn/

[6] https://amis.misa.vn/5577/chuyen-doi-so-la-gi/

[7] https://a1digihub.com/chuyen-doi-so-la-gi/

[8] https://fsivietnam.com.vn/chuyen-doi-so-la-gi/

11
ỨNG DỤNG PHÂN TÍCH TIÊN TIẾN TRONG KINH DOANH

Nguyễn Quốc Thanh


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: nqthanh@ufm.edu.vn

Tóm tắt: Mọi người đều nói về data analytics (phân tích dữ liệu), tuy nhiên điều mà
các nhà quản lý kinh doanh thương mại điện tử, đặc biệt chuỗi cung ứng muốn biết đó là
liệu họ có thể mang lại sự đổi mới trong cách vận hành của họ hay không. Lời giải nằm
trong bài phân tích dưới đây. Qua bài phân tích, bạn đọc sẽ hiểu rõ hơn cách khai thác Big
data (dữ liệu lớn) và data analytics thông qua bài phân tích rất thực tiễn dưới đây. Với từ
khóa “advanced analytics” (phân tích tiên tiến), chúng ta sẽ nhận được hơn 23 triệu kết
quả trong vòng chưa đầy một giây. Rõ ràng, việc sử dụng phân tích tiên tiến là một trong
những chủ đề nóng hiện nay trên báo chí kinh doanh và chắc chắn là mối quan tâm hàng
đầu của các nhà quản lý, đặc biệt quản lý chuỗi cung ứng.

Từ khóa: data analytics, advanced analytics, big data, chuỗi cung ứng, phân tích tiên
tiến

1. ADVANCED ANALYTICS LÀ GÌ?

Phân tích tiên tiến là một thuật ngữ chung cho một nhóm các phương pháp và công
cụ cao cấp có thể giúp bạn khai thác nhiều hơn dữ liệu của mình. Các khả năng dự đoán
của phân tích tiên tiến có thể được sử dụng để dự báo các xu hướng, sự kiện và hành vi.
Điều này mang lại cho các tổ chức khả năng thực hiện các mô hình thống kê nâng cao như
tính toán “điều gì xảy ra nếu”, cũng như các khía cạnh khác nhau trong tương lai của các
hoạt động.

Một số lĩnh vực tạo nên sự kỳ diệu của phân tích tiên tiến bao gồm học máy và trí tuệ
nhân tạo, phân tích ngữ nghĩa và đồ thị, khai thác dữ liệu và văn bản, xử lý sự kiện phức
tạp, đối sánh mẫu, phân tích dự đoán, trực quan hóa dữ liệu, phân tích cảm tính, mạng và
phân tích cụm , thống kê đa biến, mô phỏng, mạng nơ-ron và danh sách này không ngừng
phát triển khi các kỹ thuật mới được phát minh và điều chỉnh cho phù hợp với thế giới phân
tích dữ liệu.

Khai thác dữ liệu, một khía cạnh quan trọng của phân tích tiên tiến, là một phương
pháp tự động trích xuất thông tin có thể sử dụng từ bộ dữ liệu thô khổng lồ. Phân tích dữ
12
liệu lớn được sử dụng để tìm kiếm thông tin chi tiết hiện có và tạo kết nối giữa các điểm và
tập dữ liệu, cũng như làm sạch dữ liệu. Phân tích dự đoán có thể sử dụng các tập hợp rõ
ràng này và thông tin chi tiết hiện có để ngoại suy và đưa ra các dự đoán và dự đoán về hoạt
động, xu hướng và hành vi tiêu dùng trong tương lai.

2. PHÂN TÍCH TIÊN TIẾN (ADVANCED ANALYTICS) VÀ PHÂN TÍCH HÀNG


HÓA (COMMODITY ANALYTICS)

Vậy chính xác, sự khác biệt giữa phân tích tiên tiến và phân tích hàng hóa là gì? Theo
Bill Franks, tác giả của quyển “Taming The Big Data Tidal Wave”, mục đích của phân tích
hàng hóa là “cải thiện quy trình tại nơi kết thúc mà không cần lập bất kỳ mô hình nào cả,
một quy trình lập mô hình hàng hóa kết thúc khi bạn tìm thấy một cái gì đó đủ tốt”.

Một định nghĩa khác của phân tích hàng hóa là “mô hình mà có thể được thực hiện
với các công cụ thường có sẵn mà không cần bất kỳ kiến thức chuyên ngành về phân tích
dữ liệu.” Phần lớn những gì đang được thực hiện là thông qua các bảng tính Excel trên toàn
bộ các phân tích hàng hóa.

Một ví dụ về phân tích hàng hóa có thể đưa ra ở đây là một nghiên cứu về lý do tại
sao các lô hàng lại bị trễ. Trong nghiên cứu này, người phân tích thu thập các dữ liệu sau
đây vào một bảng tính:

Và dựa vào dữ liệu đó, người phân tích kết luận như sau:

13
Vậy, người phân tích này kiến nghị điều gì? Cải thiện tình trạng các đơn đặt hàng bị
xử lý trễ để ngăn chặn các lô hàng chậm giao.

Tuy nhiên, một nhà phân tích (hay một nhà khoa học dữ liệu) thành thạo trong phân
tích dự báo (predictive analytics) sẽ nghĩ đến một câu hỏi khác, chẳng hạn như “Liệu xử lý
trễ có dự báo đơn hàng chậm giao?”. Trong trường hợp này, người phân tích sẽ phải thu
thập thêm thông tin chi tiết: Ví dụ, có bao nhiêu đơn đặt hàng bị xử lý chậm so với đúng
giờ, và có bao nhiêu đơn đặt hàng đến đúng giờ so với đến sớm.

Tập hợp dữ liệu thu thập được sẽ trông giống như bảng dưới đây:

Để trình bày thông tin theo cách dễ hiểu hơn, một nhà khoa học dữ liệu có thể minh
họa theo định dạng của hình dưới đây:

Trên thực tế, việc một đơn hàng bị xử lý trễ không phải là yếu tố dự báo liệu đơn
hàng đó có đến đúng giờ hay không . Vì vậy, cải thiện thời gian xử lý đơn hàng có thể là
một hành động tốt nhất, nhưng cần phải nhận thức rằng đối với vấn đề cải thiện đơn hàng
chậm giao, 81% nỗ lực này là lãng phí.
14
Nếu nhìn vào vấn đề theo sơ đồ cây ra quyết định, chúng ta sẽ nhận được hình này:

Điều chúng ta muốn là phát triển một mô hình cho phép chúng ta dự đoán đơn đặt
hàng trễ mà không cần nắm bắt rất nhiều đơn đặt hàng đúng hạn. Tuy nhiên, thử nghiệm đã
được tạo ra (các đơn đặt hàng xử lý trễ) không chỉ ghi nhận các đơn đặt hàng được tô màu
đỏ trong hình bên trên (95 đơn đặt hàng trễ) mà còn ghi nhận các đơn đặt hàng được tô màu
xanh lá cây (405 đơn đặt hàng xử lý trễ nhưng đến đúng giờ). Nói cách khác, đây là một
thử nghiệm với một tỷ lệ lỗi cao và chúng ta cần phải cải tiến nhiều hơn.

Đến đây, chúng ta hãy giả định rằng một chuyên gia về vấn đề này cho biết nếu có
“thủ tục hải quan nhanh chóng tại cửa khẩu” sẽ tác động lớn đến kết quả giao hàng. Vì vậy
dữ liệu được làm mới, thêm vào “thủ tục hải quan nhanh chóng tại cửa khẩu” và mô hình
được xây dựng lại, bây giờ cây ra quyết định sẽ trông giống như hình bên dưới.

15
Như bạn có thể thấy, thử nghiệm đến đây đã nắm bắt được phần lớn các đơn đặt hàng
chậm trễ, đồng thời loại trừ các đơn đặt hàng đúng hạn. Chúng ta giờ đã có một thử nghiệm
có thể dự đoán 90% những đơn đặt hàng trễ (90 đơn đặt hàng màu đỏ) trong khi chỉ có 5
đơn đặt hàng đúng hạn. Đây là mức giảm rất đáng kể từ 405 đơn đặt hàng đúng hạn bị đưa
vào do lỗi trong cách tiếp cận trước.

Chúng ta cũng thấy rằng có một “nhóm” (cluster) các đơn đặt hàng trễ mà mô hình
này không nhận diện ra (vòng tròn màu xanh lá cây), điều này cho thấy rằng cần thực hiện
những nghiên cứu xa hơn với dữ liệu bổ sung để cải tiến mô hình để dự đoán những lỗi này.
Kết quả sẽ đem lại phân tích đầu ra như trong hình bên dưới:

16
Ban quản lý giờ đây có một phép phân tích vững chắc để từ đó đưa ra quyết định.
Nếu một đơn đặt hàng sẽ bị xử lý trễ, điều quan trọng là “thủ tục hải quan nhanh chóng tại
cửa khẩu” phải được bảo đảm cho lô hàng đó.

3. THÚC ĐẨY ĐỔI MỚI TRONG CHUỖI CUNG ỨNG THÔNG QUA CÁC PHÂN
TÍCH TIÊN TIẾN

Bên trên là một ví dụ đơn giản về sự khác biệt giữa các phân tích dự báo và phân tích
hàng hóa truyền thống. Trong thực tế, chúng ta thường không biết các biến số thúc đẩy một
kết quả trong chuỗi cung ứng. Nhà phân tích có lẽ đã phải lấy một tập hợp dữ liệu của các
lô hàng mà có thể lên đến hàng chục lĩnh vực (các biến khác nhau như thời gian xử lý, thời
tiết, tình trạng thông quan, v.v) của hàng ngàn đơn đặt hàng rồi nhập chúng vào máy tính
hoặc phần mềm khai thác/xử lý dữ liệu. Phần mềm sau đó sẽ chạy một thuật toán cây ra
quyết định để tạo ra cây mô hình như ta thấy ở trên.

Mức độ của những hiểu biết rút ra từ phân tích đó sâu sắc đến mức nào sẽ phụ thuộc
nhiều vào kỹ năng của người phân tích, chất lượng của dữ liệu và bao nhiêu dữ liệu có sẵn.
Trong trường hợp này, các kỹ năng của nhà phân tích không chỉ về mặt kỹ thuật (tức là họ
biết rõ phần mềm và thống kê như thế nào), mà còn về kiến thức chuỗi cung ứng. Hiểu biết
nghiệp vụ vững chắc cho phép một nhà phân tích có thể hiểu hoặc giải thích các kết quả
phân tích và truyền đạt những kết quả theo cách mà người ta có thể hiểu các phát hiện được
đưa ra và thực hiện được chúng.

Đổi mới chuỗi cung ứng xuất phát từ việc tìm kiếm yếu tố thúc đẩy, mang lại kết quả
cho chuỗi cung ứng mà không được biết đến rộng rãi trong ngành, và sau đó thực hiện quá
trình thay đổi xung quanh những nhân yếu đó. Theo Rich Karlgaard và Michael Malone
trong cuốn “Team Genius”, kích thước tối ưu của một đội ngũ phân tích có thể tạo ra mức
độ đổi mới đó là 7 đến 9 nhà phân tích làm việc hiệu suất cao.

Chúng tôi cũng nhận thấy đây là số lượng tối ưu bởi vì có vẻ như đây là mức mà có
đủ sự đa dạng các kỹ năng để cho phép sự hợp tác chéo về chuyên môn và chia sẻ ý tưởng
mà không làm rối vấn đề. Bạn có thể bắt đầu với một đội nhỏ hơn để phát triển một công
cụ sáng tạo nào đó, tuy nhiên một đội phải được tập hợp với số lượng này mới phát triển
khả năng phân tích đổi mới cho tổ chức của bạn.

Case study về Đổi mới thống kê: nhóm “Strategic Planning and Modeling – SpaM”
của HP (nhóm lập mô hình và kế hoạch chiến lược)
17
Nhóm lập mô hình và kế hoạch chiến lược của HP được Harvard Business Review
đánh giá trong bài “Building an Innovation Factory” là một thực hành tốt nhất trong đổi
mới.

Nhiều yếu tố được xác định là chìa khóa thành công của nhóm này, một nhóm chuyên
phát triển các giải pháp phân tích cho các vấn đề kinh doanh. Một thước đo quan trọng của
thành công này là số lượng đáng kể các bằng sáng chế đạt được về các thuật toán cũng như
các giải thưởng trong lĩnh vực hoạt động nghiên cứu và phân tích.

Những yếu tố thành công mà sẽ được liệt kê dưới đây cần được nhân rộng để tạo ra
một nhóm phân tích đổi mới thành công.

• Nhóm phải đảm bảo tính trung lập trong tổ chức.

Điều này có thể được tạo ra bằng cho phép nhóm báo cáo lên cấp quản lý cao nhất
có thể trong tổ chức chuỗi cung ứng để nhóm không bị xem là một phần của một phe này
hay phe khác trong tổ chức chuỗi cung ứng. Thông thường, nhóm SPaM báo cáo với Phó
chủ tịch cấp cao của chuỗi cung ứng.

• Tập trung vào các vấn đề kinh doanh

Nhóm nghiên cứu tạo ra các giải pháp phân tích cho các vấn đề kinh doanh có tầm
quan trọng và có giá trị cao. Các nguồn lực được tập trung hoàn toàn vào việc phát triển
các giải pháp sáng tạo cho các vấn đề đang tồn tại.

• Phổ biến những điều quan trọng học được cho tổ chức

Một trong những nhiệm vụ của nhóm nghiên cứu là phổ biến những thực hành tốt
nhất và bài học kinh nghiệm cho tổ chức. Điều này cho phép nhóm phân tích có thể nhân
rộng những nổ lực của mình để nâng cao giá trị kinh doanh nhiều hơn từ các giải pháp đã
được phát triển.

Để đồng hành với Team Genius, nhóm SPaM vốn có 10-12 thành viên trong nhóm,
trong đó nhóm nhỏ hơn 5-7 được phân công chiến lược đến nơi họ có thể mang lại ảnh
hưởng lớn nhất cho HP.

Phân tích tiên tiến: Bắt đầu

Có 3 thành tố chính là chìa khóa để tiến hành thành công một sáng kiến phân tích tiên
tiến. Đó là: có được đúng người; đúng dữ liệu và có được những công cụ tốt nhất với giá

18
hợp lý. Giả định rằng tổ chức này đã cởi mở với ý tưởng về phân tích tiên tiến nhưng vẫn
khá hoài nghi rằng có thể tiếp cận nó thông qua những hiểu biết và giá trị được một nhóm
phân tích đưa ra. Hoài nghi này có thể nhanh chóng được giải quyết bằng việc đội ngũ phân
tích sẽ mang lại những hiểu biết mới về kinh doanh mà có thể biến thành các cơ hội tiết
kiệm chi phí hoặc tạo ra doanh thu.

• Đúng người

Để nắm bắt được giá trị của dữ liệu thông qua phân tích tiên tiến, bận rất cần có những
con người phù hợp, những người có cả kiến thức kinh doanh, kiến thức kỹ thuật, sự tò mò
bẩm sinh và kỹ năng kể chuyện. Phần lớn hiện nay ngừoi ta tập trung vào sự thiếu hụt các
nhà khoa học dữ liệu, nhưng nếu bạn chỉ vừa mới bắt đầu với phân tích tiên tiến, việc thuê
một tiến sỹ với kiến thức khoa học dữ liệu cao cấp có thể là một việc quá mức cần thiết.

Ngoài ra, nếu bạn không có các hệ thống để cung cấp cho họ dữ liệu mà họ cần, có
thể họ sẽ thấy như chính mình đang làm công việc thiết kế dữ liệu (data engineering): tìm
ra nơi chứa dữ liệu, làm sạch dữ liệu và thiết lập nền tảng cơ bản. Một nhà khoa học dữ liệu
mới ra trường lúc nào cũng tìm kiếm những làn sóng mới có thể sẽ thấy công việc này thiếu
thách thức và vì vậy bạn khó có thể giữ chân họ.

Thay vào đó, đầu tiên hãy thử tìm kiếm tài năng trong nội bộ tổ chức của bạn: Hãy
hỏi xem có nhà phân tích có kinh nghiệm nào đang đảm nhận công việc phân tích hàng đầu
không, họ có thể được đào tạo thêm với kỹ năng phân tích tiên tiến. Một người như thế sẽ
là quen thuộc hơn với tình trạng của công ty; họ cũng sẽ biết được nơi để tìm kiếm dữ liệu
và những khu vực giới hạn nào họ nên tránh. Tùy thuộc vào mức độ phức tạp của công ty
bạn, một nhân viên mới có thể mất một năm để học cách thích nghi với công ty.

Đào tạo một ứng viên mạnh trong nội bộ có thể mất ít thời gian hơn rất nhiều. Bằng
chứng chỉ ra rằng dễ dàng hơn để đào tạo các kỹ năng phân tích hơn là phát triển kinh
nghiệm về kinh doanh và kiến thức về tổ chức cho một ứng cử viên. Điều này cũng có lợi
ích đó là tạo ra con đường thăng tiến cho nhân viên nội bộ, điều mà sẽ hỗ trợ giữ chân
những nhân viên tốt nhất về năng lực phân tích cho tổ chức của bạn.

• Dữ liệu tốt

Xu thế hiện nay đó là các lãnh đạo doanh nghiệp đang nhảy vào lĩnh vực dữ liệu
khổng lồ (Big Data). Tuy nhiên, khi bạn mới bắt đầu và đang cố gắng xây dựng những

19
thành quả nhỏ để nhân rộng lên những thực hành phân tích, dữ liệu sạch (Clean data) sẽ có
giá trị hơn dữ liệu lớn (Big Data). 100.000 hồ sơ với 40 hoặc 50 biến có thể vừa với bảng
tính thông thường (spreadsheets). Tuy nhiên đối với các tập dữ liệu lớn hơn hoặc nhiều lớp
dữ liệu liên kết, cơ sở dữ liệu thể hiện mối liên hệ (relational database) như MS Access có
thể làm tốt công việc này.

Mặc dù có thể sẽ tuyệt vời khi bạn tạo ra một “hồ” dữ liệu (data lake*) sử dụng công
cụ như Hadoop , nhưng bước đầu tiên có lẽ chứng minh rằng phân tích dữ liệu có thể tạo ra
giá trị cho công ty. Ban đầu, phần lớn các công việc phân tích là thiết kế dữ liệu (data
engineering): Nhóm tìm kiếm dữ liệu, làm sạch nó, sắp xếp lại các nguồn khác nhau và đảm
bảo rằng dữ liệu có thể sử dụng được. Khi bạn mở rộng quy mô thành công, bạn có thể đưa
vào một hệ thống phức tạp hơn khi cần thiết.

• Đúng công cụ

Để có được những công cụ đúng không có nghĩa là bạn phải chi tiêu rất nhiều tiền.
Có khá nhiều các công cụ phân tích rất mạnh mẽ, nguồn mở, như R và Weka. Phiên bản
dùng thử của phần mềm thương mại sẽ cho phép nhóm của bạn để có một thử nghiệm để
xem liệu các công cụ này có thể mang lại giá trị cho tổ chức của bạn hay không.

Đến lúc mở rộng quy mô, hãy xem xét các ứng dụng đám mây (Cloud applications)
cho phép bạn chỉ trả tiền cho năng lực bạn cần. Đối với tổ chức vừa mới bắt đầu, lựa chọn
này có thể cho phép bạn tiến hành nhanh hơn và rẻ hơn.

Hãy theo dõi hồ sơ kinh doanh thành công để đi đến quyết định có mua một công cụ
hoặc đầu tư vào phần cứng hay không. Nhưng quan trọng nhất là: không đánh giá thấp giá
trị của các ứng dụng mã nguồn mở; bạn có thể ngạc nhiên trước những gì bạn có thể thực
hiện với một đội ngũ các nhà phân tích năng động và các phần mềm mã nguồn mở.

Bắt đầu nhỏ, hãy bắt đầu với những gì bạn có

Trong các ví dụ trên, tác giả tập trung vào các phân tích dự báo . Tuy nhiên, phân tích
tiên tiến (advanced analytics) có phạm vi lớn hơn nhiều: phân tích đồ họa, lập mô hình tiên
tiến và phân tích địa lý chỉ là một vài ví dụ. Tuy bắt đầu có vẻ đáng sợ, nhưng bạn có thể
khởi động một dự án với một vài chi phí thấp, thao tác đơn giản như minh họa ở trên.

20
Bắt đầu nhỏ với những gì bạn có (và những gì bạn có thể có miễn phí) giúp bạn xây
dựng kiến thức về những gì có hiệu quả cho tổ chức của bạn. Lấy những thành quả nhỏ để
mở cánh cửa, sau đó liên tục thúc đẩy các nguồn lực để có được những thành công lớn hơn.

Phân tích tiên tiến là một cách để nắm bắt giá trị kinh doanh: cái mà nó mang lại,
không phải chi phí, mà là tiền.

Sử dụng phân tích tiên tiến để giải quyết các vấn đề trong chuỗi cung ứng

Dưới đây là 3 áp dụng của phân tích dữ liệu rất phổ biến để giải quyết các vấn đề
trong chuỗi cung ứng, không chỉ trong HP, mà trong chuỗi cung ứng của nhiều công ty
khác. Tuy phân tích dữ liệu đã được sử dụng cho nhiều vấn đề trong chuỗi cung ứng, 3 áp
dụng sau đây có thể được thực hiện nhanh chóng mang lại hiệu quả tức thì.

Kiểm soát chất lượng

Phương pháp kiểm soát chất lượng truyền thống liên quan đến việc nhìn vào chỉ số
nào trên một dây chuyền lắp ráp mà tại đó sẽ dự đoán sản phẩm không đạt. Phân tích tiên
tiến nhìn vào các kết hợp của những tiêu chí thông qua như thế nào có thể dẫn đến không
đạt.

Ví dụ: Một sản phẩm có hai chỉ số để đo lường chất lượng. Chỉ số A phải được thông
qua trong vòng 10% mục tiêu và tiêu chí B phải vượt qua trong vòng 5% mục tiêu. Phân
tích tiên tiến có thể được sử dụng để xác định rằng nếu chỉ số A trong phạm vi 8% đến 9%,
sản phẩm sẽ bị đánh rớt nếu chỉ số B nằm trong khoảng 3% đến 4%.

Giữ chân nhân viên

Trong cuốn sách của mình với nhan đề “Predictive analytics: The power to predict
who will click, buy, lie, or die”, Eric Siegel nhấn mạnh việc sử dụng các phân tích tiên tiến
của HP để phát triển các điểm nguy cơ trong đó xác định khả năng một nhân viên sẽ rời
khỏi công ty và sau đó sử dụng những điểm số này để xác định nhân viên có giá trị cao –
nguy cơ cao mà công ty sẽ phải cố gắng giữ chân.

Cải thiện dịch vụ khách hàng

Với các sản phẩm được kết nối internet, có thể dễ dàng biết được mức độ sử dụng
của một sản phẩm. Thông qua việc sử dụng các thuật toán phân nhóm (clustering), bạn có
thể nhóm các khách hàng với các đặc tính tương tự.

21
Sau đó bạn có thể nhìn vào các hồ sơ sử dụng của một khách hàng và xác định xem
liệu có một vấn đề với sản phẩm của họ khi so sánh với những người cùng nhóm (và khắc
phục nó trước khi nó trở thành một vấn đề kinh doanh), đồng thời cũng phân tích việc sử
dụng sản phẩm phụ trợ và/hoặc các dịch vụ hỗ trợ của họ để xem sản phẩm của họ có đang
vận hành một cách tối ưu không.

4. KẾT LUẬN

Thương mại điện tử ngày càng phát triển dựa trên nền tảng công nghệ. Các nghiên
cứu về dữ liệu lớn, phân tích dữ liệu, trí tuệ nhân tạo ngày càng hỗ trợ tốt cho lĩnh vực kinh
tế thương mại, Việc nghiên cứu về phân tích tiên tiến cũng không nằm ngoài dòng chảy đó.
Bài viết đã cho thấy được ứng dụng của phân tích dữ liệu hỗ trợ trong quản lý chuỗi cung
ứng thông qua một case study. Qua đó có thể ứng dụng và mở rộng hơn nữa trường hợp
này cho các mô hình khác.

TÀI LIỆU THAM KHẢO

[1]. Shawn Tay, 2016, Supply Chain & Big Data + Analytics = Innovation,
supplychain247.com

[2]. Intel Tecnologies, Advanced Data Analytics: Making Your Business Smarter,
intel.vn.

[3]. https://en.wikipedia.org/wiki/Analytics

22
AN NINH GIAO DỊCH TÀI CHÍNH 1
NHỮNG THÁCH THỨC ĐỐI VỚI CÔNG NGHỆ TÀI CHÍNH

Trần Trọng Hiếu


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: tt.hieu@ufm.edu.vn

Tóm tắt: Trước sự phát triển và ứng dụng công nghệ 4.0 trong mọi lĩnh vực kinh tế trên thế
giới; các doanh nghiệp trong khối ngành Tài chính Việt Nam cũng nhanh chóng bắt kịp công nghệ
tài chính. Tuy nhiên, có nhiều rủi ro tiềm ẩn trong các hoạt động tài chính trong môi trường mạng
internet đưa tới những thiệt hại cho doanh nghiệp tài chính cũng như khách hàng. Bài tham luận
này trình bày: tổng quan về Công nghệ Tài chính - FinTech, những thách thức đối với các giao
dịch tài chính, đề xuất một số giải pháp trong an ninh giao dịch tài chinh. Với cách diễn giải –
tổng hợp thông tin, minh chứng số liệu cũng như đề xuất giải pháp; bài tham luận có thể góp phần
cải thiện về an ninh – bảo mật trong giao dịch tài chinh, trong bối cảnh các doanh nghiệp tài chính
Việt Nam đang ứng dụng và phát triển Fintech.

Từ khóa: An ninh Giao dịch Tài chính, Công nghệ Tài chính.

1. TỔNG QUAN

Công nghệ Tài chính, gọi tắt trong tiếng Anh là Finech, là từ ghép của các thuật ngữ
Finance -“tài chính” và Technology- “công nghệ”; với ý nghĩa ban đầu là đề cập đến bất kỳ
doanh nghiệp tài chính nào sử dụng công nghệ, nhằm để nâng cao hoặc tự động hóa các
dịch vụ và quy trình tài chính. Ngày nay, Công nghệ tài chính được đề cập đến như là các
công nghệ mới đã và đang được áp dụng trong khối tài chính – kinh tế nhằm: cải tiến các
phương pháp tài chính truyền thống và tăng sức cạnh tranh, đẩy mạnh hiệu quả trong việc
cung cấp các dịch vụ tài chính.

Theo thống kê trong 7 tháng đầu năm 2020, tổng số lượng giao dịch qua hệ thống
thanh toán điện tử liên ngân hàng đạt 82,2 triệu, số lượng giao dịch thanh toán qua Internet
đạt 240,9 triệu giao dịch với giá trị đạt 15,2 triệu tỷ đồng, số lượng giao dịch thanh toán
qua điện thoại di động đạt 574,4 triệu giao dịch với giá trị đạt 5,9 triệu tỷ đồng. Với những
thống kê nhiều triển vọng đã trình bày trên, và kèm theo đó là các nguy cơ luôn tiềm ẩn đối

1
Financial Transaction Security
23
với khối tài chính. Theo thông tin được chia sẻ từ Công ty An ninh mạng Viettel (VCS),
trong năm 2020 đến nay, đã phát hiện 1.656 tên miền giả mạo và 1.299 tên miền lừa đảo
(1.210 tên miền nước ngoài và 89 tên miền tại Việt Nam) với tổng cộng 26.055 người dùng
bị ảnh hưởng. (Nguồn:antoanthongtin.gov.vn – 01/2021)

Hiện nay, cũng theo dự báo của các chuyên gia, các cuộc tấn công có chủ đích vẫn là
xu thế về an ninh mạng-bảo mật giao dịch tài chính trong năm 2021. Đặc biệt, ngân hàng
và các tổ chức tài chính sẽ là mục tiêu hấp dẫn của giới tội phạm mạng, nhằm đánh cắp dữ
liệu và tiền của người dùng.

Biểu đồ 1: Thống kê tổng giá trị (USD) giao dịch tài chính trên thế giới bị mất do các Attacker

(Nguồn VIC – 2019)

Theo Cục An ninh mạng và Phòng, chống tội phạm sử dụng công nghệ cao - thuộc
Bộ Công an, đã ghi nhận dấu hiệu gia tăng đột biến về tần suất, quy mô, số lượng các đợt
tấn công mạng nhằm vào khối tài chính tại Việt Nam trong năm 2021. Các đợt tấn công
thường tập trung vào các cơ quan trọng yếu, tập đoàn kinh tế, tài chính quan trọng với nhiều
phương thức, thủ đoạn tinh vi, nguy hiểm, mà trong đó thiệt hại về tài chính trong giao dịch
tài chính rất lớn. Các loại hình tấn công mà tin tặc có thể thực hiện là: phát tán tập tin có
nhúng mã độc gửi qua thư điện tử, khai thác những “lỗ hổng” của hệ thống, cài-cắm virus
do thám lây nhiễm qua thiết bị lưu trữ di động, giả mạo giao diện của các doanh nghiệp tài
chính-ngân hàng, tấn công qua các nguồn cung cấp chuỗi cung ứng (Icloud, Software,
Hardware, Certificate Supply,…).

24
Biểu đồ 2: Tỷ lệ các hình thức tấn công tài chính

(Nguồn: Cục An ninh mạng và Phòng, chống tội phạm – 01/2021)

Như đã trình bày, có thể thấy các giải pháp, công nghệ bảo đảm an toàn, an ninh mạng
trong các lĩnh vực trọng yếu của khối kinh tế - tài chính cần phải chú trọng đến: hạ tầng
thanh toán, tăng cường trao đổi và hợp tác doanh nghiệp-người dùng nhằm cải thiện năng
lực bảo mật thông tin tài chính, đẩy mạnh công tác phát hiện và xử lý các rủi ro về an toàn
thông tin- an ninh mạng,…; nhằm giúp các doanh nghiệp tài chính có định hướng tối ưu
hóa trong việc xây dựng chiến lược đầu tư hệ thống bảo mật-an ninh mạng một cách hiệu
quả nhất.

2. NHỮNG THÁCH THỨC ĐỐI VỚI GIAO DỊCH TÀI CHÍNH

2.1. Sự phát triển liên tục của các cuộc tấn công an ninh mạng

Một trong những thách thức lớn nhất của an ninh mạng là bản chất liên tục phát triển
của các rủi ro an ninh. Trong bối cảnh công nghệ phát triển không ngừng, khi mà các công
nghệ mới xuất hiện và công nghệ được sử dụng theo những cách mới hoặc khác nhau, thì
các tin tặc tìm đủ mọi cách tấn công an ninh mạng sẽ ngày càng tinh vi hơn. Mối tương
quan liên tục phát triển giữa công nghệ và việc tấn công của tin tặc; có thể đây chính là
thách thức đối với các tổ chức nói chung và khối tài chính nói riêng. Điều này đòi hỏi các
doanh nghiệp tài chính cần: cập nhật các hệ thống giám sát an ninh mạng, tìm ra các lỗ
hổng của phần cứng-phần mềm và qui trình xử lý,..; từ đó đề ra các phương pháp hữu hiệu
để bảo vệ hệ thống tài chính điện tử cho doanh nghiệp.

25
Hình 1: Minh hoạ số lượt tấn công mạng tại Việt Nam và một số quốc gia trong khu vực Đông
Nam Á (Nguồn Kaspersky-2020)

2.2. Chuỗi cung ứng dịch vụ cho hoạt động tài chính

Trong quá trình triển khai và hoạt động các dịch vụ tài chính đối với người dùng, các
tổ chức tài chính thường “viện” đến bên thứ ba – là những nhà cung cấp chuỗi cung ứng.
Mối tương quan mang tính hỗ tương giữa doanh nghiệp tài chính và nhà cung ứng trong
giao dịch tài chính, sẽ đem đến một số hiệu quả nhất định:

• Các nhà cung ứng dịch vụ: vì công việc chuyên dụng nên sẽ ngày càng chuyên nghiệp
hơn, có thể được xếp hạng tín nhiệm cao từ doanh nghiệp tài chính (là bên mua dịch vụ);
tăng lợi nhuận nếu có nhiều bên mua đặt hàng, kéo theo là khấu hao nhanh, giảm chi phí
vốn cạnh tranh và chuyên tâm phát triển công nghệ mới.

• Doanh nghiệp tài chính mua cung ứng dich vụ: sẽ tận dụng tính chuyên nghiệp bên
cung ứng, nên sẽ tối ưu hóa qui trình-xử lý, tăng hiệu suất phục vụ cho người dùng, giảm
chi phí đầu tư, dễ dàng phát triển các sản phẩm-dịch vụ tài chính mới.

Tuy nhiên. các doanh nghiệp tài chính cũng phải đối mặt với những thách thức đến
từ những dịch vụ cung ứng cho các hoạt động tài chính:

+ Đối với việc quản lý thông tin – dữ liệu, thì phần lớn các tổ chức tài chính hiện
nay sử dụng dịch vụ lưu trữ nư iCloud. Khi đó, dữ liệu-thông tin có thể bị thay
đổi- mất cắp do các tin tặc tấn công vào chính cơ sở dữ liệu của bên cung ứng
quản lý (nhưng không biết); hay trong quá trình truyền dữ liệu để xử lý giao dịch.
Đôi khi, trong nhiều trường hợp lừa đảo không lường trước là chính nhân viên
ngay trong doanh nghiệp cung ứng dịch vụ,
26
+ Đối với những phần cứng hay phần mềm được các nhà cung ứng thực hiện cung
cấp cho các tổ chức tài chính:

o Đối với phần mềm thì chưa hoàn thiện việc an ninh-bảo mật trong 1 số mắt
xích yếu trong qui trình giao dịch như: chứng thực các bên, xác minh chính
chủ,… Hiện nay, một số các phần mềm-hệ thống quản trị được thiết kế trên
mã nguồn mở; đây chính là điểm yếu mà tin tặc khai thác để tấn công cơ sở
dữ liệu.

o Đối với phần cứng: chưa được thiết kế chuyên dụng kỹ thuật, chưa phối hợp
kiểm chứng các cổng với giao thức của hệ thống; có những lỗ hổng bảo mật
không lường trước, tạo kẽ hở cho các attackers xâm nhập.

• Ngoài ra, rủi ro tấn công trên chính thiết bị công nghệ mà người dùng sử dụng; chẳng
hạn thiết bị công nghệ hay dùng hiện nay trong giao dịch tài chính là điện thoại thông minh
có hoà mạng internet. Những điện thoại này được sử dụng trong các giao dịch tài chính
như: ebanking, thương mại điện tử, giao dịch chứng khoán,… Tuy nhiên, các điện thoại
thông minh được chính nhà sản xuất tích hợp tự động nhờ bên thứ ba một số dịch vụ như:
dọn dẹp tự động, quản lý ứng dụng,… Điều nay vô tình đã tạo kẽ hở để lọt những thông tin
nhạy cảm về tài chính của người dùng.

Hình 2: Mô hình tấn công khai thác lỗ hổng bảo mật trên các thiết bị định tuyến (Router)

2.3. Quá trình xử lý giao dịch tài chính

Hầu hết các tổ chức tài chính hiện nay đều đang phát triển và ứng dụng công nghệ,
tạo nhiều phương thức giao tiếp phục vụ khách hàng hiệu quả nhất, thông qua: các ứng

27
dụng cài đặt trên điện thoại thông minh, các trang web xử lý giao dịch trực tuyến,… Tuy
nhiên, trong quá trình xử lý giao dịch tài chính có thể bị tin tặc tấn công qua nhiều phương
thức như sau:

+ Các tin tặc thường tán phát mã độc qua thư điện tử, tin nhắn,… như là các “mồi nhử”;
có thể là những tập tin chứa nội dung liên quan đến các thông giao dịch tài chính như:
khuyến mãi, khai thêm thông tin xác nhận. Đến khi thư điện tử được mở, thì mã độc
sẽ được kích hoạt, từ đó tin tặc kiểm soát hoàn toàn máy tính, lấy được các thông tin
người dùng. Ngoài ra, để mở rộng phạm vi kiểm soát, thu thập thông tin, một số mã
độc có tính năng tự lây nhiễm vào các thiết bị lưu trữ ngoài để tìm cơ hội lây lan, xâm
nhập hệ thống các thiết bị công nghệ khác của người dùng để giao dịch tài chính.

+ Các trang web giả lập như của các doanh nghiệp tài chính được các tin tặc tạo ra để
lừa người dùng sơ ý vào khai báo thông tin theo yêu cầu của trang web.

+ Việc người dùng sử dụng điện thoại thông minh không có tính bảo mật cao: không
khoá màn hình, không tạo màn hình bảo mật khi vào ứng dụng tài chính và có thể bị
mất điện thoại,…đã vô tình lộ các thông tin tài chính trên chính điện thoại của người
dùng.

+ Hiện nay, một số hình thức tấn công mới nổi và phát triển nhanh là: (1) lừa đảo lợi
dụng lỗ hổng của mã xác thực 1 lần (One Time Password - OTP) thông qua kỹ thuật
xã hội như tin nhắn và điện thoại thông minh. Đây là loại mật khẩu sử dụng một lần
và được coi là lớp bảo vệ thứ hai cho các tài khoản ngân hàng sử dụng khi chứng thực
giao dịch tài chính. Dựa vào đó, các tin tặc đã giả mạo là người chủ của mã xác thực
OTP để chiếm dụng tài khoản và lấy cắp tiền của người sử dụng. (2) Ngoài ra, đã xuất
hiện những vụ việc liên quan đến kỹ thuật giả mạo sâu (Deepfake) thông qua công
nghệ Trí tuệ nhân tạo (AI-Artificial Intelligence) để giả mạo chứng thực nhân thân
(qua hình ảnh mặt, chữ ký,…). (3)Tấn công có chủ đích (APT-Advanced Persistent
Threat) cũng phát triển nhanh chóng trong năm 2020 tại Viêt Nam; với 8 ngân hàng,
2 tổ chức chứng khoán và 293 tổ chức/cá nhân là nạn nhân của loại hình tấn công này
(Nguồn: VSC -2020).

28
Hình 3: Sơ đồ lây nhiễm của hình thức tấn công chuỗi cung ứng

3 MỘT SỐ GIẢI PHÁP TRONG AN NINH GIAO DỊCH TÀI CHÍNH

3.1. Giải pháp ứng dụng công nghệ

Hiện nay, rất nhiều mô hình công nghệ bảo mật mới đang được nghiên cứu, đẩy mạnh
và phát triển ứng dụng trong các quá trình giao dịch tài chính; thông qua các thiết bị công
nghệ nối kết mạng Internet1, có tải-cài đặt các tiện ích-ứng dụng (App. - Application); thông
qua các dịch vụ tài chính di động (Mobile Financial Services-MFS), thì điện thoại thông
minh (Smart Phone - hay các thiết bị có hoà mạng khác) được sử dụng trong các giao dịch
tài chính do các doanh nghiệp ngân hàng cung cấp các dịch vụ: nhận chuyển tiền và chi trả
với các đối tác; thông báo thông tin dư-nợ tài khoản,.. Bên cạnh đó, phần lớn các hoạt động
thương mại di động (Mobile Commerce) cũng được đẩy mạnh các hoạt động: đặt-mua hàng
và thanh toán trực tuyến, bán-theo dõi hàng theo thời gian thực, quảng cáo-tiếp thị-khuyến
mãi trên online,…

➢ Công nghệ Mã (Code) chứng thực trong công việc xác nhận: sản phẩm, hàng hoá, quản
lý kho hay vận chuyển, cũng như giao dịch tài chính, thông qua phát triển các loại mã
(code) xác nhận, ví dụ như:

+ Loại mã vạch 1D - Bar code: là loại mã đơn giản có kèm theo số; chủ yếu dùng xác
nhận hàng hoá, bưu chính, kho, vận chuyển,… như: UPC ( Uniform Product Code),
Postnet, Code 39, Code 128 , ISBN (International Standard Book Number), Codabar
(dung trong thư viện, y tế,…),…

1
Desktop, Laptop, Notebook, Ibook, Smartphone,…

29
Hình 4: Các loại Code 1D – UPC, Postnet, Code 39, Code 128, ISBN, CodaBar

+ Loại mã vạch 2D: là loại mã hình 2 chiều hình dạng ma trận 2 chiều, bao hao chứa
được nhiều thông tin hơn gồm ký tự số lẫn văn bản; chẳng hạn như: PDF417- dùng
cho thẻ/ vé với hình dạng chữ nhật; với hình dạng vuông thì có: Maxicode (có lưới
nhận dạng lục giác), Data Matrix (gồm các ô vuông đại diện 1 bit). Hiện nay đang
phổ biến trong giao dịch tài chính đó là dạng QR Code tích hợp nhiều thông tin về
nhân thân, .

Hình 5: Các loại Code 2D – Maxicode, Data Matrix và QR Code.

➢ Công nghệ Blockchain trong quản lý tài chính

Hiện nay, đã có nhiều ngân hàng và các tổ chức tài chính đã nghiên cứu, ứng dụng
công nghệ Blockchain vào các hoạt động nghiệp vụ tài chính. Với những ưu điểm nổi trội
của công nghệ Blockchain như:

+ Tính minh bạch và bền vững dữ liệu: của các đối tượng tham gia giao dịch tài chính,
cung cấp sự rõ ràng nhân thân tới toàn bộ người trong mạng lưới. Khi đó, nếu ứng
dụng công nghệ Blockchain trong việc lưu trữ dữ liệu, thì các tin tặc khó lòng có thể
đánh cắp hay thay đổi thông tin dữ liệu người dùng.

+ Xử lý dữ liệu sát theo thời gian thực: trong quá trình xác nhận các đối tượng tham
gia giao dịch tài chính. Các attacker sẽ không đủ thời gian để thao tác: bẻ khoá, tìm
lỗ hổng bảo mật,… trong hệ thống. Điều này đã làm tăng hiệu suất bảo mật và an
ninh của toàn hệ thống.

30
+ Loại bỏ nhà cung cấp dịch vụ trung gian: về lưu trữ iCloud, xác thực đối tượng-giao
dịch,… thông qua cấu trúc phi tập trung cơ sở dữ liệu trong công tác lưu trữ. Cũng
chính cấu trúc phi tập trung cơ sở dữ liệu và đông bộ hoá theo thời gian thực, đã giúp
tránh các tình huống mất: dữ liệu, bị tin tặc thay đổi dữ liệu (nếu có).

Vì thế, công nghệ Blockchain được xem là phương án tạo ra hệ thống an toàn, cắt
giảm chi phí và tiết kiệm thời gian trễ để bảo mật. Điều đặc biệt là khi nhiều tổ chức tài
chính đã hình thành các liên minh để thương mại hóa công nghệ Blockchain trong qui trình
xử lý các dịch vụ tài chính; thì sẽ đạt hiệu suất cao trong: quản lý, bảo mật-an ninh hệ thống,
dễ dàng phát triển thêm nhiều dịch vụ an toàn cho người dùng.

Hình 6: Ứng dụng công nghệ Blockchain trong tự động đồng bộ qua mã QR.

➢ Công nghệ mã hóa Dữ liệu

Mã hóa dữ liệu là phần rất cơ bản nhưng cực kỳ quan trọng trong các biện pháp an
ninh mạng hiệu quả. Tất cả dữ liệu được lưu trữ trực tuyến hay trên máy tính của tổ chức
tài chính đều phải được mã hóa. Khi đó, tin tặc khó có thể đánh cắp và sử dụng dữ liệu giao
dịch tài chính.

Mục đích của việc mã hóa dữ liệu là bảo vệ sự bảo mật dữ liệu số khi nó được lưu trữ
trên các hệ thống máy tính và truyền qua internet hoặc các mạng máy tính khác. Các thuật
toán mã hóa thường cung cấp những yếu tố bảo mật then chốt như: (1) Tính xác thực cho
phép xác minh nguồn gốc của dữ liệu, (2) Tính toàn vẹn chứng minh rằng nội dung của dữ
liệu không bị thay đổi kể từ khi nó được gửi đi và (3) Tính không thu hồi: đảm bảo rằng
người gửi không thể hủy việc gửi dữ liệu.

31
Mã hóa dữ liệu bao gồm việc tạo dữ liệu được mã hoá tại nơi gửi cũng như việc chứng
nhận-giải mã hoá dữ liệu tại nơi nhận phải được xử lý tiệm cận với thời gian thực, thì hiệu
quả giao dịch tài chính mới được nâng cao, không làm mất thời gian cho quá trình giao
dịch. Để đạt được điều đó cân có sự “hiệu quả đồng bộ” phối hợp tốt giữa các phần liên
quan trong hệ thống: phần cứng, phần mềm, mạng và giao thức,…

Với những tổ chức tài chính, thì việc sử dụng mã hóa dữ liệu là điều cần thiết. Thực
hiện tốt công việc mã hoá dữ liệu trong giao dịch tài chính, đồng thời kết hợp với công nghệ
chứng thực, sẽ giúp tránh được những thiệt hại cho doanh ghiệp tài chính cũng như người
dung; khi những thông tin tài chính nếu vô tình bị lộ ra ngoài, và tin tặc cũng khó lòng bị
giải mã dữ liệu ngay lập tức, để chiếm đoạt tài sản

3.2. Giải pháp đến từ yếu tố con người

➢ Đối với các doanh nghiệp khối tài chính

Công tác chia sẻ các nguy cơ, cảnh báo rủi ro sớm và chỉ ra phương thức an toàn
thông tin kịp thời trong khối tài chính là cần thiết. Trong bối cảnh phải đối diện với các
nguy cơ về bảo mật ngày một gia tăng; các doanh nghiệp tài chính hiện nay cần có công cụ
để chia sẻ nguy cơ và cảnh báo các nguy cơ tấn công an ninh mạng, vì các: dịch vụ, giao
dịch, hoạt động của doanh nghiệp tài chính luôn luôn là mục tiêu tấn công hoặc đã là nạn
nhân của tin tặc mà không hề hay biết. Ngoài ra, tin tặc luôn tìm kiếm các chiến thuật và
kỹ thuật cho các chiến dịch tấn công có chủ đích luôn được thay đổi đa dạng. Tuy nhiên, số
lượng các nhóm tấn công chỉ là hữu hạn; cho nên tội phạm mạng có sử dụng các hình thức
tấn công nào, mà các tổ chức tài chính giải quyết được vấn đề thời gian phát hiện (Mean
time to Detect - MTTD) và thời gian phản hồi (Mean time to Respond - MTTR) thì bài toán
bảo mật cho khối tài chính sẽ không còn là bài toán khó.

➢ Đầu tư cho công tác an ninh – bảo mật tài chính

Các doanh nghiệp tài chính phải luôn nâng cấp công nghệ, bắt kịp những tiến bộ mới
nhất trong công tác an ninh – bảo mật cho các hoạt động tài chính. Trang bị các hệ thống
hỗ trợ giám sát giao dịch điện tử; điều tra-chứng thực các thông tin-dữ liệu giao dịch kịp
thời. Triển khai từng bước tổng hợp - phân tích dữ liệu của khách hàng và từ đó xây dựng
bộ quy tắc chứng thực khách hàng, để mau chóng phát hiện và ngăn chặn sớm các tin tặc
gian lận. Bên cạnh đó, xây dựng các tiêu chí và phần mềm để xác định các giao dịch bất

32
thường dựa vào thời gian thực, vị trí truy cập dữ liệu, tần suất giao dịch bất trường, số tiền
giao dịch, số lần đăng nhập sai quá quy định hoặc các dấu hiệu bất thường khác.

Ngoài ra, trong khối tài chính cần phải xây dựng trung tâm điều hành an ninh mạng
để theo dõi, giám sát và ngăn chặn kịp thời các hành vi xâm nhập, tấn công mạng giao dịch;
thường xuyên thực hiện công tác đánh giá các điểm yếu, lỗ hổng của hệ thống Công nghệ
thông tin. Đồng thời, cần phải xây dựng - triển khai diễn tập các quy trình, kịch bản ứng
phó với các sự cố an toàn thông tin mạng.

➢ Đối với người dùng

Để phòng tránh những rủi ro không đáng có, người dùng cần phải thực hiện những
biện pháp sau:

Người dùng tuyệt đối không cung cấp các thông tin mang tính bảo mật các dịch vụ
ngân hàng điện tử (như: mật khẩu truy cập, OTP, mật khẩu truy cập địa chỉ e-mail cá nhân)
cho bất cứ ai và bằng bất cứ hình thức nào (nhắn tin, trả lời điện thoại, tiết lộ trực tiếp...).
Chỉ báo thông tin cá nhân trừ khi chủ động gọi điện đến hotline để được trợ giúp từ phía
doanh nhiệp tài chính.

Tránh truy cập các website không đáng tin cậy, hoặc vào bất kỳ đường dẫn nào yêu
cầu cung cấp, cập nhật thông tin cá nhân và thông tin giao dịch tài chính. Sau khi kết thúc
sử dụng dịch vụ hoặc hoàn thành các giao dịch tài chính trực tuyến, phải tiến hành đăng
xuất tài khoản. Ngoài ra, người dùng tuyệt đối không chọn chế độ lưu mật khẩu đăng nhập
(như Internet Banking) trên thiết bị sử dụng chung, máy tính công cộng…

Người dùng cần bảo vệ và thay đổi thường xuyên mật khẩu truy cập các giao dịch tài
chính như: ngân hàng điện tử, thẻ tài chính, e-mail,… và việc cài đặt mật khẩu phải đảm
bảo nguyên tắc an toàn. Ngoài ra, cần sử dụng máy tính cá nhân có cài đặt cập nhật các
phần mềm diệt virus để truy cập các dịch vụ tài chính trực tuyến một cách an toàn.

Người dùng phải sử dụng các phần mềm có bản quyền; thường xuyên cập nhật hệ
điều hành, phần mềm mới từ nhà cung cấp, tránh cập nhật từ các nguồn giả mạo.

Người dùng phải bảo vệ thẻ tài chính, tuyệt đối không cho người khác mượn thẻ. Để
tránh rủi ro, không nên để số tiền quá lớn hoặc đặt hạn mức thấp nhất có thể cho thẻ tín
dụng. Bên cạnh đó, người dùng nên chủ động ngừng kích hoạt dịch vụ Internet Banking khi

33
không có nhu cầu sử dụng và chỉ kích hoạt trở lại khi cần dùng; đăng ký dịch vụ SMS
Banking để nắm bắt kịp thời giao dịch phát sinh.

4. TỔNG KẾT

Hiện nay, công nghệ tài chính đóng vai trò quan trọng trong chiến lược dài hạn của
các doanh nghiệp tài chính, nhằm nâng cao hiệu quả hoạt động, quản lý rủi ro và từ đó có
nhiều cơ hội hơn cho phát triển ra ngoài khu vực. Vì thế, đầu tư vào công nghệ tài chính là
việc cần thiết; bên cạnh đó là cần phải chú trọng các vấn đề về bảo mật giao dịch, tăng
cường an ninh mạng. Khi những giải pháp giảm thiểu rủi ro được các doanh nghiệp tài
chính quan tâm đầu tư, giúp người dùng an tâm sử dụng sản phẩm, dịch vụ tài chính số,
giảm thiểu dùng tiền mặt. Kết quả là lợi nhuận và hiệu quả tài chính được nâng cao, có
nhiều cơ hội tốt phát triển một cách mạnh mẽ và bền vững; cũng là góp phần phát triển
chung trong nền kinh tế, xã hội của đất nước Việt Nam.

TÀI LIỆU THAM KHẢO


[1] KPMG Report (02/2021), “Pulse of Fintech, H2’20”
[2] Nguyễn Thị Hiền, Nguyễn thị Minh Ngọc, “Xu hướng phát triển FINTECH trên thế
giới, những cơ hội, thách thức đặt ra với ngành ngân hàng và thực tiễn tại Việt Nam”,
ISBN: 978-604-922-684-7
[3] https://home.kpmg/
[4] https://vi.wikipedia.org
[5] https://www.researchgate.net
[6] https://vietnetco.vn/
[7] https:// antoanthongtin.gov.vn

34
PHÂN TÍCH DỮ LIỆU VÀ ỨNG DỤNG PHÂN TÍCH DỮ LIỆU
CHO DOANH NGHIỆP

Nguyễn Quốc Thanh


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: nqthanh@ufm.edu.vn

Tóm tắt: Ngành nghề phân tích dữ liệu (Data Analytics) đang là một trong những nghề nóng
nhất và phát triển nhanh trên toàn thế giới. Bài viết tìm hiểu về nghành nghề phân tích dữ liệu, các
số liệu cần phân tích, việc áp dụng phân tích dữ liệu trong kinh doanh cũng như tìm hiểu qua các
công cụ phần mềm hỗ trợ cho các kỹ sư phân tích dữ liệu trong tương lai.

Từ khóa: data analytics, phân tích dữ liệu, công cụ phân tích dữ liệu

1. PHÂN TÍCH DỮ LIỆU (DATA ANALYTICS) LÀ GÌ?

Trước tiên, chúng ta cần làm rõ khái niệm về Data Analysis – phân tích dữ liệu là gì?
Nói một cách ngắn gọn, phân tích dữ liệu là quá trình chọn lọc dữ liệu; rồi sau đó tìm kiếm,
thu thập thông tin quan trọng và tổng hợp số liệu dựa trên số lượng lớn các thông tin hỗn
độn.

Bạn có thể hiểu theo cách đơn giản, đây là quá trình chuyển dữ liệu thô thành dữ liệu
có thể dùng được và đưa đến kết luận.

Quy trình phân tích dữ liệu giờ đây, được tự động hóa thành quy trình và thuật toán
để chuyển từ số liệu thô thành dữ liệu dùng được.

Kỹ thuật phân tích giúp chúng ta tổng hợp dữ liệu và đưa đến kết luận cuối cùng.
Thông tin này có thể sử dụng để tối ưu hóa các quy trình và tăng hiệu quả tổng thể của
doanh nghiệp trong việc quản lý toàn bộ hệ thống.

Ví dụ: hình bên dưới là một mẫu báo cáo dữ liệu về bán hàng trên facebook, khi được
công cụ A1 Analytics phân tích và cho ra kết quả là những số liệu trực quan được thể hiện
bằng đồ thị

35
Hình 1: Báo cáo dữ liệu trên facebook sử dụng công cụ A1 Analytics

2. KHẢ NĂNG ỨNG DỤNG CỦA PHÂN TÍCH DỮ LIỆU (DATA ANALYTICS)

Phân tích dự đoán

Phân tích dự đoán là phân tích dữ liệu hiện tại để dự báo và tránh các tình huống có
vấn đề trước. Các nhà sản xuất rất quan tâm đến việc giám sát hoạt động của công ty và
hiệu suất cao của nó. Tìm cách tốt nhất có thể để xử lý các vấn đề có lỗi, khắc phục khó
khăn hoặc ngăn chặn chúng xảy ra là những cơ hội tuyệt vời cho các nhà sản xuất sử dụng
phân tích dự đoán. Việc thực hiện phân tích dự đoán cho phép xử lý tổn thất (sản xuất thừa,
thời gian nhàn rỗi, hậu cần, hàng tồn kho, …). Do đó, hãy tập trung vào các giải pháp khả
thi do phân tích dự đoán mang lại.

Dự đoán lỗi và bảo trì phòng ngừa

Cả hai mô hình dự đoán này đều nhằm mục đích dự báo thời điểm khi thiết bị không
thực hiện được nhiệm vụ. Kết quả là, mục tiêu thứ cấp có thể đạt được – để ngăn chặn
những thất bại này xảy ra hoặc ít nhất là để giảm số lượng của chúng. Điều này trở nên khả
thi với nhiều kỹ thuật dự đoán. Bảo trì phòng ngừa thường được áp dụng cho các thiết bị
vẫn đang hoạt động để giảm khả năng hỏng hóc của nó. Có hai loại bảo trì phòng ngừa
chính: dựa trên thời gian và dựa trên việc sử dụng. Sức mạnh lớn nhất của bào trì phòng
ngừa là lập kế hoạch. Có trong tay những dự đoán liên quan đến những rắc rối trong tương
lai với thiết bị, nhà sản xuất có thể lên kế hoạch nghỉ ngơi hoặc ngừng hoạt động để sửa

36
chữa. Việc nghỉ như vậy thường được thực hiện để tránh sự chậm trễ và thất bại đáng kể,
thường được gây ra bởi các vấn đề quan trọng hơn có thể phát sinh.

Dự báo nhu cầu và quản lý hàng tồn kho

Dự báo nhu cầu (demand forecast) là một quá trình phức tạp liên quan đến phân tích
dữ liệu và công việc lớn của kế toán viên và chuyên gia. Hơn nữa, nó dường như có mối
quan hệ mạnh mẽ với quản lý hàng tồn kho. Một thực tế đơn giản có thể giải thích mối liên
hệ này – dự báo nhu cầu sử dụng dữ liệu của chuỗi cung ứng. Có rất nhiều lợi ích của việc
dự báo nhu cầu cho các nhà sản xuất. Trước hết, nó mang lại cơ hội kiểm soát hàng tồn kho
tốt hơn và giảm nhu cầu lưu trữ một lượng đáng kể các sản phẩm vô dụng. Bên cạnh đó,
phần mềm quản lý hàng tồn kho trực tuyến giúp thu thập dữ liệu có thể được sử dụng nhiều
để phân tích thêm. Một yếu tố quan trọng hơn là đầu vào dữ liệu cho dự báo nhu cầu có thể
được cập nhật liên tục. Do đó, dự báo có liên quan có thể được thực hiện. Lợi ích bổ sung
nằm ở việc cải thiện mối quan hệ giữa nhà cung cấp và nhà sản xuất, vì cả hai đều có thể
điều tiết hiệu quả cổ phiếu và quy trình cung ứng của họ. Dự báo nhu cầu và quản lý hàng
tồn kho có tính đến nhiều yếu tố, trong đó có các yếu tố bên ngoài như nền kinh tế hoặc thị
trường, nguồn nguyên liệu thôi, … Bằng cách này, chúng ta có thể có được cái nhìn phức
tạp hơn về hiệu quả kinh doanh sản xuất của mình và lập kế hoạch thêm.

Tối ưu hóa giá thành sản xuất

Sản xuất và bán sản phẩm liên quan đến việc tính đến nhiều yếu tố và tiêu chí ảnh
hưởng đến giá sản phẩm. Tất cả các yếu tố bắt đầu với giá ban đầu của nguyên liệu thô và
đến chi phí phân phối đóng góp vào giá sản phẩm cuối cùng. Và điều gì xảy ra khi khách
hàng thấy mức giá này quá cao hoặc quá thấp? Tối ưu hóa giá là quá trình tìm giá tốt nhất
có thể cho cả nhà sản xuất và khách hàng, không quá cao và không quá thấp. Các giải pháp
tối ưu hóa giá hiện đại có thể tăng lợi nhuận của bạn một cách hiệu quả. Các công cụ này
tổng hợp và phân tích giá cả và dữ liệu chi phí cả từ các nguồn nội bộ và các đối thủ cạnh
tranh của bạn và rút ra các biến thể giá tối ưu hóa. Trong điều kiện thị trường cạnh tranh
cao và thay đổi nhu cầu của khách hàng, tối ưu hóa giá cả trở thành bắt buộc và phát triển
thành một quá trình liên tục.

Phân tích bảo hành

Các nhà sản xuất OEM đang chi một khoản tiền đáng kể mỗi năm cho việc hỗ trợ yêu
cầu bảo hành. Yêu cầu bảo hành tiết lộ thông tin có giá trị về chất lượng và độ tin cậy của
37
sản phẩm. Chúng giúp tiết lộ những cảnh báo sớm hoặc khiếm khuyến của sản phẩm. Sử
dụng dữ liệu này, nhà sản xuất có thể cải tiến các sản phẩm hiện có hoặc phát triển những
sản phẩm mới, hiệu quả và tốt hơn. Các giải pháp phân tích bảo hành hiện đại giúp các nhà
sản xuất xử lý khối lượng lớn dữ liệu liên quan đến bảo hành từ nhiều nguồn khác nhau và
áp dụng kiến thức này để khám phá các vấn đề bảo hành đang gia tăng và lý do xảy ra.

Robot hóa

Robot đang thay đổi bộ mặt sản xuất. Ngày nay, đó là một nguyên nhân phổ biến để
sử dụng robot thực hiện các nhiệm vụ thông thường và những thứ có thể gây khó khăn hoặc
nguy hiểm cho con người. Các nhà sản xuất có xu hướng đầu tự ngày càng nhiều tiền vào
việc robot hóa các doanh nghiệp của họ mỗi năm. Các mô hình robot được hỗ trợ bởi trí tuệ
nhân tạo (Artificial Intelligent) giúp đáp ứng nhu cầu ngày càng tăng. Hơn nữa, robot công
nghiệp phần lớn góp phần tăng chất lượng sản phẩm. Hàng năm, các mô hình nâng cấp
robot đến khu vực sản xuất để cách mạng hóa dây chuyền sản xuất. Và hiện tại, robot sản
xuất đang có giá cả phải chăng cho các doanh nghiệp hơn bao giờ hết.

Phát triển sản phẩm

Dữ liệu lớn đã mang lại cơ hội lớn cho các công ty sản xuất liên quan đến phát triển
sản phẩm. Các nhà sản xuất sử dụng lợi thế của dữ liệu lớn để hiểu khách hàng hơn, đáp
ứng nhu cầu của khách hàng và cả nhu cầu của họ. Do đó, dữ liệu có thể được sử dụng để
phát triển các sản phẩm mới hoặc để cải thiện các sản phẩm hiện có. Sử dụng dữ liệu lớn
để phát triển sản phẩm, các nhà sản xuất có thể thiết kế một sản phẩm với giá trị khách hàng
tăng lên và giảm thiểu rủi ro liên quan đến việc giới thiệu sản phẩm mới ra thị trường.
Những hiểu biết có thể hành động được tính đến trong khi lập mô hình và lập kế hoạch. Dữ
liệu này có thể tăng cường quá trình ra quyết định. Ngoài ra, các công cụ quản lý dữ liệu
được áp dụng rộng rãi để tối ưu hóa các khía cạnh hoạt động của chuỗi phân phối. Xử lý
phản hồi của khách hàng và cung cấp dữ liệu này cho các nhà tiếp thị sản phẩm có thể đóng
góp vào giai đoạn tạo ý tưởng. Do đó, một sản phẩm mới sẽ hữu ích hơn cho khách hàng
và có lợi hơn cho các nhà sản xuất có thể được phát triển.

Ứng dụng thị giác máy tính

Các công nghệ hỗ trợ trí tuệ nhân tạo và các ứng dụng thị giác máy tính đã tìm thấy
việc sử dụng chúng trong sản xuất ở giai đoạn kiểm soát chất lượng. Về mặt này, nhận dạng
đối tượng và phát hiện, phân loại đối tượng được chứng minh là rất hiệu quả. Thông thường,
38
giám sát kiểm soát chất lượng được thực hiện bởi mọi người. Tuy nhiên, hiện nay người ta
thường dựa vào thị giác máy tính hơn là thị giác con người. Các hệ thống giám sát này
thường bao gồm phần cứng và phần mềm máy tính, máy ảnh và ánh sáng để chụp ảnh. Sau
đó, những hình ảnh này được so sánh với các tiêu chuẩn để xác định sự khác biệt. Trong số
các lợi thế chính của các ứng dụng là: kiểm soát chất lượng cao được cải thiện, giảm chi
phí lao động, khả năng xử lý tốc độ cao, khả năng hoạt động liên tục 24/7.

Quản lý rủi ro chuỗi cung ứng

Chuỗi cung ứng luôn luôn phức tạp và không thể đoán trước. Rủi ro luôn là một phần
của qui trình sản xuất và phân phối sản phẩm. Sử dụng phân tích dữ liệu lớn để quản lý rủi
ro chuỗi cung ứng có thể khá có lợi cho các nhà sản xuất. Với sự trợ giúp của phân tích dữ
liệu, các công ty có thể dự đoán sự chậm trễ tiềm ẩn và tính toán xác suất của các vấn đề có
lỗi. Các công ty sử dụng kết quả của phân tích dữ liệu để xác định các nhà cung cấp dự
phòng và phát triển các kế hoạch dự phòng. Để theo kịp xu hướng thay đổi liên tục, việc áp
dụng phân tích dữ liệu thời gian thực là rất cần thiết. Dự đoán và quản lý rủi ro có thể xảy
ra là rất quan trọng cho hoạt động của một doanh nghiệp sản xuất thành công.

Trở lại thị trường Marketing & Sale tại Việt Nam trong mấy năm qua, một mặt thổi
phồng quá mức về Big Data, Machine Learning (trong khi ứng dụng trong thực tế rất hạn
chế), một mặt bị chán nản bởi nạn mua bán thông tin (rồi spam sms, email, messenger tràn
lan)….Tuy nhiên có nhiều doanh nghiệp đã ứng dụng Data Analytics rất thành công và tạo
ra tăng trưởng vượt bậc. Ví dụ: The Coffee House hiểu rất rõ hành vi của tất cả khách hàng
bằng cách thu thập dữ liệu giao dịch tại quán, app, đặt hàng online… từ đó đưa ra các chiến
dịch marketing/sale cá nhân hoá cho từng nhóm khách, từng sản phẩm và từng thời điểm.
Ví dụ sáng nay, Bình Thạnh âm u như sắp đổ mưa thì sẽ cần code gì cho thật “chill” và
push tới nhóm nào trên app để ra được lượng đặt hàng tốt nhất. Việc đó dĩ nhiên không thể
tự ngồi đoán..

3. HIỂU PHÂN TÍCH DỮ LIỆU NHƯ THẾ NÀO?

Đây là thuật ngữ rộng bao gồm nhiều loại phân tích khác nhau. Bất kỳ thông tin nào
cũng cần kỹ thuật phân tích dữ liệu để có được cái nhìn sâu sắc và sử dụng để cải thiện kết
quả kinh doanh. Ví dụ: Các xí nghiệp sản xuất thường phải dùng cách phân tích thủ công
để kiểm tra các hoạt động của một dây chuyền sản xuất, lên lịch sản xuất, thống kê số lượng
hàng, kiểm tra hết hàng, sản xuất hàng mới, thì giờ đây các dữ liệu sẽ được công cụ phân
39
tích làm toàn bộ, từ việc thống kê đến lên kế hoạch tiếp theo. Tóm lại, quá trình phân tích
luôn cần đến cho dù bạn đang làm lĩnh vực gì. Đặc điểm chung bạn phải tuân thủ theo các
bước:

Bước đầu tiên, xác định các yêu cầu dữ liệu hoặc cách để phân loại nhóm. Dữ liệu
có thể được phân tách theo độ tuổi, nhân khẩu học, thu nhập hoặc giới tính. Giá trị dữ liệu
có thể là số hoặc nhóm được phân chia.

Bước thứ hai, là quá trình thu thập dữ liệu. Bạn có thể thực hiện bước này từ nhiều
nguồn khác nhau như: mạng internet, picture, video, môi trường xung quanh, hoặc thông
qua nhân sự. Sau khi dữ liệu được thu thập, bạn phải tổ chức để tổng hợp và phân tích. Thực
hiện trên một bảng tính hoặc một dạng phần mềm khác có thể lấy dữ liệu thống kê.

Bước cuối cùng, kiểm tra lại toàn bộ số liệu đã được phân tích. Điều này có nghĩa là
nó được kiểm tra và đảm bảo không có sự trùng lặp hoặc lỗi không đầy đủ. Bước này giúp
bạn sửa lại lỗi trước khi đi đến bước phân tích cuối cùng và ra quyết định.

4. CÁC LOẠI SỐ LIỆU CẦN PHÂN TÍCH

Dữ liệu phân tích được chia thành bốn loại cơ bản sau:

Descriptive analytics (phân tích mô tả): Đây là quá trình phân tích dựa trên khoảng
thời gian nhất định. Dựa trên số lượt xem trang, Doanh số tháng này…

Diagnostic analytics (phân tích chẩn đoán): Tập trung vào phân tích chuyên sâu, tại
sao nó xảy ra. Điều này liên quan đến đầu vào dữ liệu và một vài giả thuyết. Thời tiết có
ảnh hưởng đến doanh số bán bia không? Chiến dịch tiếp thị có ảnh hưởng đến doanh số
không?

Predictive analytics (phân tích dự báo): Dự đoán điều gì xảy ra trong tương lai. Điều
đó có gây ảnh hưởng tới doanh số cuối cùng? Có bao nhiêu mô hình dự báo kết quả?

Prescriptive analytics (phân tích chuẩn đoán): Giúp bạn đưa đến kết luận quá trình
hoạt động có đang thực sự hiệu quả.

Một số lĩnh vực đã áp dụng phân tích dữ liệu bao gồm ngành bán hàng, du lịch và
khách sạn, bất động sản… nơi công việc chồng chéo mà không thể tổng hợp và xử lý nhanh
chóng. Thu thập dữ liệu khách hàng và tìm ra vấn đề để từ đó tìm ra cách khắc phục và đưa
đến kết luận cuối cùng. Các nhà bán lẻ thu thập và phân tích giúp họ xu hướng thị trường,
giới thiệu sản phẩm và đề ra các chiến dịch mới tăng trưởng lợi nhuận.
40
5. CÔNG CỤ CHO CÁC NHÀ PHÂN TÍCH DỮ LIỆU

Lập trình R

Lập trình R là một công cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu. Nó
là một ngôn ngữ lập trình và bạn hoàn toàn có thể phân tích dữ liệu với R. Ngôn ngữ R là
một platform-independent do đó chúng ta có thể sử dụng nó cho bất kỳ hệ điều hành nào.
Việc cài đặt R cũng miễn phí vì thế chúng ta có thể sử dụng mà không cần phải mua bản
quyền.

Tableau

Tableau là công cụ thực hiện các nghiệp vụ phân tích một cách nhanh chóng, đơn
giản và trực quan dành cho tất cả mọi người. Đối với các phòng ban nghiệp vụ, để sử dụng
dữ liệu để định hướng các hoạt động kinh doanh phải cần một môi trường có thể phân tích
và xử lý dưới dạng đồ họa. Tuy nhiên nhiều trường hợp, để làm được điều đó thì cần phải
có kỹ năng và kiến thức lập trình, nên có rất nhiều yêu cầu phân tích, report gửi đến phòng
IT hoặc phòng ban chuyên môn. Các yêu cầu đó dù có được gửi sớm đi chăng nữa cũng
không thể thực hiện phân tích được thực hiện ngay vì còn liên quan đến vấn đề nhân lực và
thời gian, do vậy có thể dẫn đến sự chậm trễ của các hoạt động (quyết định) kinh doanh.
Mặt khác, Nếu chỉ report bằng excel dựa trên các ký tự và con số thì sẽ rất khó để đưa ra
cái nhìn trực quan. Hiện tại thì có rất nhiều tool phân tích dữ liệu được gọi là giải pháp BI
(Business Intelligence). Trong đó Tableau là một công cụ BI được nhiều người trong và
ngoài nước Nhật sử dụng.

Python

Python là một ngôn ngữ lập trình scripting phổ biến và hết sức thú vị. Nó không phải
ngôn ngữ có tốc độ thực thi nhanh như Assembly, C, C ++ … Nó được chọn làm ngôn ngữ
lập trình đầu tiên để dạy cho những người chưa biết lập trình hoặc thanh thiếu niên. Google,
Microsoft, và nhiều tập đoàn, công ty tin học sử dụng để vận hành hệ thống dịch vụ của
mình. Các nhà nghiên cứu khóa học, nhà phân tích dữ liệu lớn cũng thích sử dụng Python
cho công việc của mình, vì nó được việc, không màu mè, học nhanh, dùng luôn.

SAS

Đây là một trong những bộ chương trình chuyên dụng phục vụ cho xử lý và phân tích
số liệu thống kê rất thông dụng trên thế giới. SAS rất mạnh trong lĩnh vực quản lý dữ liệu,

41
cho phép người sử dụng thao tác dữ liệu hầu như với mọi cách có thể. SAS cũng đưa vào
thủ tục Proc sql cho phép thực hiện mọi câu hỏi Sql (Structured query language) trên file
dữ liệu.

Excel

Excel nằm trong bộ công cụ văn phòng Microsoft Office gồm nhiều phần mềm hỗ trợ
viết văn bản, thuyết trình, quản lý email hay bảng tính như Excel. Phần mềm này giúp tạo
ra các bảng tính, cùng các tính năng, công cụ hỗ trợ người dùng tính toán dữ liệu nhanh,
chính xác với số lượng hàng triệu ô tính.

RapidMiner

Rapidminer được biết đến là mã nguồn mở, áp dụng trên môi trường Machine
learning và Data mining và sử dụng ngôn ngữ lập trình Java. Được sử dụng theo mô hình
Client/Server với máy chủ là on-premise hoặc public cloud/ private cloud. Các nhà nghiên
cứu thị trường, các công ty lớn thường dùng RapidMiner, vì nó tiện dụng, dễ dùng, không
cần biết đến đầu ra Output mà có thể cho ra khuôn mẫu theo thẻ Label hoặc Target.

5. KẾT LUẬN

Trong lĩnh vực sản xuất đang thực hiện những thay đổi đáng kể do sự phát triển của
các công nghệ và sự xuất hiện của các giải pháp máy học và trí tuệ nhân tạo. Bài viết đã
cung cấp một số ví dụ sinh động về trường hợp sử dụng khoa học dữ liệu cho sản xuất cùng
với những lợi ích mà chúng mang lại cho các doanh nghiệp. Cùng với dự báo rủi ro, nhu
cầu và yêu cầu của thị trường, phân tích dữ liệu có thể giúp theo kịp các tiêu chuẩn chất
lượng cao và số liệu chất lượng. Hơn nữa, việc kết hợp các kỹ thuật dữ liệu thông minh vào
sản xuất có thể giúp dự báo các tổn thất hoặc sự cố không mong muốn. Dữ liệu lớn có thể
giúp đạt được nhiều mục tiêu kinh doanh được đặt ra bởi các nhà sản xuất đã mất rất ít thời
gian và tiền bạc hơn bao giờ hết.

TÀI LIỆU THAM KHẢO

[1] Smart Factory Marketing, Một số ứng dụng của phân tích dữ liệu trong sản xuất và công
nghiệp, smartfactoryvn.com, 2021.
[2] Intel Tecnologies, Advanced Data Analytics: Making Your Business Smarter, intel.vn.
[3] https://en.wikipedia.org/wiki/Analytics

42
TRÌNH BÀY DỮ LIỆU ĐỒ THỊ TRONG TRỰC QUAN HÓA DỮ LIỆU

Vũ Thị Thanh Hương


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: vtthuong@ufm.edu.vn

Tóm tắt: Trong nền kinh tế đang từng bước chuyển đổi số hiện nay, phân tích và thấu hiểu
những dữ liệu có sẵn giúp doanh nghiệp nhận thấy được nhưng sai xót, khiếm khuyết trong quá
khứ và tìm ra phương án giải quyết, đồng thời khám phá ra những cơ hội mới để phát triển doanh
nghiệp. Một trong những bước quan trọng trong quá trình phân tích dữ liệu là trực quan hóa dữ
liệu… Trực quan hóa dữ liệu là bước quan trọng của bất kì quy trình phân tích hay khai phá dữ
liệu và là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực với mục
đích truyền đạt, trình bày một cách đơn giản, hiệu quả, thu hút những thông tin, dữ liệu đến
người đọc. Bài viết tập trung vào nội dung trình bày dữ liệu trong trực quan hóa dữ liệu.

Từ khóa: trực quan hóa dữ liệu, dữ liệu, phân tích dữ liệu

1. MỞ ĐẦU

Dữ liệu là tài sản quý giá của doanh nghiệp cần được chế biến để chuyển hóa thành
giá trị sử dụng. Hầu hết các nhà quản trị hiện nay đều quan tâm đến vấn đề xây dựng văn
hóa đưa ra các quyết định kinh doanh dựa trên dữ liệu. Hầu hết các bộ phận trong doanh
nghiệp như sales & marketing, quản trị nhân sự, quản lý vận hành, quản lý tài chính, quản
lý rủi ro và kiểm toán…đều cần trực quan hóa dữ liệu nhằm cho mục đích báo cáo nội bộ,
cung cấp các báo cáo cho khách hàng hoặc các ấn phẩm marketing, giúp người đọc những
thông tin quan trọng khó nhìn thấy ngay lập tức trong dữ liệu thô. Để chuyển hóa tạo ra giá
trị từ dữ liệu thô ban đầu, thông thường cần có ba giai đoạn sau:

- Dữ liệu (Data): là những dữ liệu thô tạo ra từ thực tế, thường ở dạng số (number)
hoặc dạng văn bản (text) trích xuất từ cơ sở dữ liệu của doanh nghiệp. Dữ liệu có thể là
định lượng hoặc định tính.

- Thông tin (Information): là ‘dữ liệu’ được xử lý, tổng hợp, sắp xếp thành một định
dạng có cấu trúc và cung cấp nhiều ngữ cảnh cụ thể để tạo ra thông tin có ý nghĩa. Dữ liệu
mà không có ngữ cảnh thì ít có giá trị.

43
- Những hiểu biết giá trị (Insights): đây là kết quả từ việc phân tích thông tin và rút
ra kết luận, từ đó mang đến những hiểu biết có giá trị đối với doanh nghiệp để giúp nhà
quản trị đưa ra những quyết định kinh doanh.

Trực quan hóa dữ liệu (data vizualization) là kỹ thuật trình bày số liệu và thông tin
bằng hình ảnh, thông thường là các biểu đồ, đồ thị hoặc dưới dạng các báo cáo dashboard.
Mục tiêu chính của trực quan hóa dữ liệu là truyền đạt thông tin hiệu quả đến người đọc
thông qua các phương tiện đồ họa; minh họa bằng hình ảnh cung cấp cho người đọc những
thông tin quan trọng khó nhìn thấy ngay lập tức trong dữ liệu thô.

Việc thực hiện trực quan hóa dữ liệu và phân tích thông tin là các bước sau cùng của
quy trình khai thác dữ liệu, sau khi đã thu thập, xử lý và tổ chức dữ liệu, và do đó, kết quả
của việc trình bày dữ liệu phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu cũng như
mức độ chuẩn hóa của các thông tin đầu vào. Mục đích của trực quan hóa dữ liệu là biến
các nguồn dữ liệu thành những thông tin được thể hiện một cách trực quan, dễ quan sát, dễ
hiểu, để truyền đạt rõ ràng những hiểu biết đầy đủ từ dữ liệu đến người xem, người đọc.
Trực quan dữ liệu là công cụ hỗ trợ dành cho các chuyên gia, nhà phân tích để hiểu được
về xư liệu, tóm tắt được những thông tin có giá trị trong bộ dữ liệu một cách nhanh chóng.
Khái niệm của trực quan dữ liệu đơn giản, nhưng để hiểu được bản chất cỉa nó chúng ta
phải tìm hiểu qua các dạng đồ thị, biểu đồ được trình bày ở mục sau của bài viết.

2. PHƯƠNG PHÁP TÓM TẮT, TRÌNH BÀY DỮ LIỆU

Tóm tắt, trình bày dữ liệu là một phần nằm trong trực quan hóa dữ liệu vì nó liên
quan đến việc thể hiện, mô tả dữ liệu định tính, định lượng dưới các dạng đồ thị phù hợp.

2.1. Trình bày dữ liệu định tính

Dữ liệu định tính phản ánh tính chất, hay loại hình, không có biểu hiện trực tiếp bằng
con số. Ví dụ giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, học thức,…
Với biến định tính chúng ta có thể đếm số quan sát cho từng loại (tần số) và tính % cho mỗi
loại trong tổng thể (tần suất).

Để thể hiện dữ liệu định tính dướng dạng các đồ thị, biểu đồ thì trước hết dữ liệu định
tính phải được tóm tắt, và sắp xếp dưới các bảng phân phối tần số gọi là Frequency
Distributiob Table.

44
Phân tổ hoặc nhóm (class) là quá trình chúng ta căn cứ vào một hay một số biến đặc
trưng cụ thể nào đó để sắp xếp các đơn vị quan sát vào các tổ, nhóm có đặc điểm khác nhau,
tức là chia mẫu hoặc tổng thể thành các tổ nhóm có tính chất khác nhau.

Ví dụ dữ liệu về loại nước giải khát được tiêu thụ phổ biến bởi 50 sinh viên một
trường đại học tại Tp. Hồ Chí Minh như sau:

Bảng 1. Dữ liệu về loại nước giải khát


1 Dasani 11 Sting 21 Pepsi 31 Dasani 41 C2
2 Dasani 12 Coca-cola 22 Pepsi 32 Pepsi 42 Sting
3 Sting 13 Dasani 23 Dasani 33 Twister 43 Pepsi
4 Coca-cola 14 Coca-cola 24 Sting 34 Dasani 44 C2
5 Pepsi 15 Sting 25 Pepsi 35 C2 45 Coca-cola
6 Dasani 16 Pepsi 26 Coca-cola 36 Coca-cola 46 Dasani
7 Sting 17 Pepsi 27 Dasani 37 Dasani 47 C2
8 Dasani 18 Dasani 28 Twister 38 Sting 48 Sting
9 Sting 19 Pepsi 29 Sting 39 Pepsi 49 Sting
10 Twister 20 Sting 30 Twister 40 Sting 50 C2

Chúng ta lấy thử một mẫu 50 quan sát như trên bảng trên, ta nhận thấy số loại nước
ngọt không quá nhiều, gồm có 6 loại là: Dasani, Coca-cola, Pepsi, Sting, Twister, C2. Ta
phân 6 tổ, mỗi tổ là 1 nhãn hiệu nước giải khát như sau:

Bảng 2. Phân phối tần suất của nước giải khát


Loại nước giải khát Tần số Tần số tương đối Tần suất Tần suất tích lũy
Dasani 12 0.24 24 24
Coca-cola 6 0.12 12 36
Sting 10 0.2 20 56
Pepsi 4 0.08 8 64
Twister 13 0.26 26 90
C2 5 0.1 10 100
Tổng 50 1 100

Trường hợp lấy mẫu lớn trên 50 hay xem xét tổng thể tất cả sinh viên trong trường
thì dữ liệu loại nước giải khát sẽ rất đa dạng về nhãn hiệu không chỉ có 6 loại ở trên, do đó

45
để thống kê hiệu quả, đồ thị, biểu đồ vẽ ra phù hợp, chúng ta có thể chia tổ theo những
nhóm ví dụ cụ như sau:

- Nước khoáng (Dasani, Lavie, Aquafina,…)

- Nước giải khát có gas (Coca-cola, Pepsi, Sprite,…)

- Nước tăng lực (Sting, Wake-up 247, Rồng Đỏ,...)

- Nước ép trái cây (Twister, Nutri Boost, Aloe Vera Juice,…)

- Các loại nước giải khát khác (C2, Ô long,…)

Lưu ý đối với dữ định lượng được chuyển đổi thành dữ liệu định tính đề khảo sát về
phân phối tần số cũng có thể được chia tổ/ nhóm. Ví dụ thu thập dữ liệu về thu nhập bình
quân hàng tháng của 50 hộ gia đình rất đa dạng về phạm vi để tóm tắt đơn giản ta có thể
chia tổ nhóm theo:

- Thu nhập dưới 5 triệu: 6 hộ

- Từ 5 triệu đến 10 triệu: 12 hộ

- Từ 10 triệu đến 15 triệu: 23 hộ

- Trên 15 triệu: 9 hộ

Trở lại với Bảng 2:

- Tần số (Frequenc/ Frequency of Class) là quan sát của một nhóm trong mẫu hoặc
tổng thể.

- Tần số tương đối (Relative Frequency) là tần số quan sát mà mỗi nhóm chiếm được
trong mẫu hoặc tổng thể ,tức là lấy số quan sát của từng nhóm chia cho tổng đơn vị
mẫu hoặc tổng thể

- Tần suất (Class Percentage): là tỷ lệ % mỗi nhóm chiếm trong mẫu, lấy tần số tương
đối nhân cho 100.

- Tần suất tích lũy (Cumulatove Percent) được tính bằng cách cộng dồn các tần suất
theo thứ tự từ tổ nhóm đầu tiên đến cuối cùng. Tần suất tích lũy được áp dụng chủ
yếu cho các dữ liệu định lượng có phân tổ trên bảng phân phối tần số do nó có ý
nghĩa phân tích còn đối với dữ liệu định tính (biến định danh) ta lấy ví dụ ở trên thì
thường không được áp dụng.

46
Những dạng đồ thị sử dụng trong trực quan hóa dữ liệu được chia làm 5 loại chính,
phụ thuộc vào mục đích, thông tin mà chúng ta muốn biết:

- Comparision: đồ thị cho biết sự hơn kém nhau giữa các đối tượng nghiên cứu

- Composition: đồ thị thể hiện cụ thể từng thành phần cấu tạo nên một nhóm, một
vùng,… và mỗi thành phần ấy chiếm tỷ lệ như thế nào

- Distribution: đồ thị xem xét về phân phối dữ liệu, mức độ phân tán, mức độ tập trung
của dữ liệu, hay xác định các điểm bất thường, giá trị ngoại lệ của dữ liệu.

- Trend: đồ thị thể hiện về xu hướng biến động của đối tượng nghiên cứu trong dữ
liệu.

- Realtionship/ Correlation: đồ thị thể hiện về mối quan hệ, tương quan giữa 2 hay
nhiều đối tượng nghiên cứu trong dữ liệu

Để trực quan dữ liệu định tính theo cách phân phối tần số, chúng ta cần vẽ các biểu
đồ cột đứng hoặc ngang (Bar chart/ Column chart), biểu đồ tròn (Pie Chart), biểu đồ Pareto

Các biểu đồ được minh họa như sau:


• Bar chart/ Column chart:

Hình 1. Biểu đồ cột đứng thể hiện tần số của mỗi loại nước giải khát

Ở cột đứng, cột ngang “Tần số”, chúng ta có thể thay bằng “tần suất” với giá trị tần
suất của mỗi loại nước giải khác để vẽ biểu đồ

47
Hình 2. Biểu đồ cột ngang thể hiện tần số của mỗi loại nước giải khát

Biểu đồ cột đứng hay cột ngang thể hiện tần số của mỗi loại, mỗi đối tượng và thể
hiện sự so sánh giữa chúng. Biểu đồ cột là biểu đồ đơn giản, trực quan nhất, người xem dễ
thấy rõ được cái nào giá trị lớn nhất, bé nhất, sự hơn kém giữa (thông thường được sắp xếp
theo thứ tự)
• Pie chart

Biểu đồ hình tròn áp dụng cho trường hợp số lượng các thành phần riêng lẻ không
quá nhiều, chỉ từ 5 thành phần, trường hợp có nhiều hơn 5 thành phần thì giá trị hay tỷ lệ
% giữa các thành phần phải khác biệt rõ rệt để dễ so sánh. Biểu đồ tròn phải đảm bảo yếu
tố trực quan, nghĩa là người xem có thể thấy nhanh chóng thành phần nào chiếm tỷ lệ lớn
nhất, bé nhất, thành phần nào hơn thành phần nào, và tốt hơn là để con số % đó lên đồ thị,
đặc biệt tránh trường hợp gây nhầm lẫn, khó hiểu cho người xem ví dụ như phần có tỷ lệ
26% lại được vẽ giống như gần bằng phần có tỷ lệ 30%. Biểu đồ tròn có rất nhiều ứng dụng
nhưng không phải vì thế mà chúng ta có thể sử dụng tùy tiện mà cần xem xét đến tính hợp
lý và hiệu quả trong trực quan hóa dữ liệu.

Biểu đồ hình tròn hay còn gọi là hình bánh thể hiện tốt tần suất, nhưng không thể hiện
được tần số của từng loại nước giải khát. Biểu đồ hình tròn giống như một cái bánh và mỗi
lát bánh cho mỗi loại. Kích thước của một lát tương ứng với tỷ lệ phần trăm số quan sát
hay còn gọi là tần suất của nó trong tổng thể hoặc mẫu. Biểu đồ tròn cũng thể hiện được sự
hơn kém giữa các phần nhưng không rõ bằng biểu đồ cột

48
Hình 3. Biểu đồ tròn thể hiện tần suất của mỗi loại nước giải khát
• Pareto chart

Là loại biểu đồ cột mà các cột của nó được sắp xếp theo thứ tự từ thấp đến cao theo
tần số còn các giá trị tần suất tích lũy được biểu diễn bằng đường thẳng được đặt tên theo
nhà kinh tế học người Ý Vilfredo Pareto (1848-1923)

Hình 4. Biểu đồ Pareto thể hiện sự sắp xếp tần số của các loại nước giải khát

Biểu đồ Pareto thường được sử dụng trong lĩnh vực kinh doanh để xác định các kết
quả phổ biến nhất, chẳng hạn như xác định các sản phẩm có doanh số cao nhất hoặc xác
định các loại khiếu nại phổ biến nhất mà trung tâm chăm sóc khách hàng nhận được. Mục
đích của biểu đồ Pareto đó là tìm ra trong một nhóm các nguyên nhân những nguyên nhân
quan trọng nhất. Trong kiểm soát chất lượng, biểu đồ này thường được dùng để biểu diễn
những nguyên nhân gây ra lỗi phổ biến nhất, loại lỗi xuất hiện phổ biến nhất hoặc nguyên
nhân phổ biến nhất khiến cho khách hàng phàn nàn.

49
• Scatter plot

Biểu đồ phân tán Scatter plot thể hiện mối quan hệ giữa hai biến định lượng khác
nhau hoặc nó có thể thể hiện xu hướng phân phối của dữ liệu, ngoài ra còn có thể tìm ra các
giá trị ngoại lệ, và kiểm tra tính tương đồng của các bộ dữ liệu. Với những ưu điểm của
mình, biểu đồ phân tán được sử dụng phổ biến trong lĩnh vực khoa học dữ liệu từ khai mỏ
dữ liệu, phân tích dữ liệu đến học máy khi khối lượng dữ liệu phải phân tích là rất nhiều.
Tuy nhiên, nếu người xem, người đọc không am hiểu về lĩnh vực dữ liệu, hay chưa quen
đọc biểu đồ phân tán sẽ không hiểu được mặc dù đây là một trong những biểu đồ trực quan
dữ liệu tốt nhất

Hình 5. Biểu đồ Scatter lot thể hiện mối liên hệ giữa chỉ số thể trọng (BMI) và lượng chất béo
của cơ thể (% fat)

Hình 6. Biểu đồ Scatter plot thể hiện mối liên hệ giữa mức độ hài lòng của khách hàng và
thời gian phản hồi khách hàng

50
• Bubble chart

Biểu đồ Bubble chart giống như biểu đồ Scatter plot nhưng có thêm biến thứ 3, được
thể hiện bằng các chấm tròn. Biến thêm vào có thể là biến định lượng hoặc biến định tính.

Các chấm trên Scatter plot thường là các chấm nhỏ và ít thấy rõ sự khác biệt giữa
chúng, còn trong đồ thị Bubble các chấm tròn phải khác biệt, có độ lớn hay bé quy ước dựa
trên giá trị định lượng của biến thêm vào. Chính vì thế trên đồ thị này chúng ta có thể thấy
các chấm tròn to, chấm tròn nhỏ khác nhau như những bọt bong bóng, nên được đặt tên là
Bubble chart

Mục đích sử dụng Bubble chart bao gồm cả mục đích sử dụng của Scatter plot, bên
cạnh đó Bubble chart cho chúng ta thấy thêm mối liên hệ giữa các biến thêm vào so với 2
biến cố định của Scatter plot trước đó, hay so sánh trực tiếp giữa các giá trị của biến thêm
vào, xem xét sự quan hệ của nhiều biến sẽ giúp tìm ra nhiều thông tin hữu ích hơn.
• Area chart

Area chart giống biểu đồ đường là thể hiện xu hướng biến động của đối tượng dữ liệu
theo thời gian, nhưng khác biệt ở chỗ Area chart có thể thể hiện giá trị định lượng giữa các
đường vẽ của các biến dữ liệu hay các thành phần có trong một tổng, tập hợp nào đó bằng
một dải màu sắc, các dải màu này sẽ chồng lên nhau để tạo thafnhn giá trị của một tổng, tập
hợp nào đó. Mục đích của Area chart chính là tìm hiểu về xu hướng biến động tổng thể, cả
xu hướng biến động của từng thành phần, và chênh lệch giữa chúng như thế nào theo thời
gian, thành phần nào chiếm nhiều, hay chiếm ít trong tổng thể, hoặc thành phần nào hơn
thành phần nào.

Hình 7. Minh họa cho Area chart

51
Trên hình là biểu đồ thể hiện biến động của tổng lợi nhuận từ chuỗi cửa hàng tạp hóa,
trong đó bao gồm biến động của lợi nhuận của từng cửa hàng gộp lại thành tổng lợi nhuận.
• Waterfall chart

Biểu đồ Waterfall là một biểu đồ trực quan thông tin được sử dụng để cho thấy giá
trị ban đầu bị ảnh hưởng bới các giá trị trung gian như thế nào để dẫn đến giá trị cuối cùng.
Các giá trị có thể là âm hoặc dương

Hình 8. Waterfall chart mô tả quá trình Gross Revenue tăng giảm như thế nào bởi yếu tố gì
cho đến giá trị Net Income sau cùng.

2.2. Trình bày dữ liệu định lượng

Trường hợp dữ liệu định lượng ít ví dụ độ tuổi của 30 sinh viên đang học tại trường
Đại học X Thành phố Hồ Chí Minh (từ bậc đại học trở lên) như sau:

28 22 25 21 26 24 23 30 31 33 19 20 22 27 30 19 28 31 22 27 37 35 22 19 22 23 26 28 25 36

Để tóm tắt chúng ta sử dụng biểu đồ thân và lá, với lá là số liệu bên phải của các giá
trị dữ liệu có thể là một hay hai chữ số hàng đơn vị hàng chục, còn nhánh lá là số liệu bên
trái của các giá trị liệu phải là một hay hai chữ số hàng chục hàng trăm. Tóm Tắt dữ liệu:

Số bên trái 1, 2, 3 là nhánh ở vị trí hàng chục, số bên phải là hàng đơn vị, là lá. Biểu
đồ nhánh lá được thực hiện trong SPSS có kết quả như sau:

52
Hình 5. Biểu đồ nhánh lá

Trường hợp dữ liệu định lượng được thu thập nhiều hơn (có nhiều đơn vị quan sát),
phạm vi giá trị rộng hơn, đa dạng mà biểu đồ nhánh lá không thể hiện hết hay nói cách khác
chúng ta khó nhận thấy được vấn đề, thông tin tổng quan từ dữ liệu, cảm thấy rối mắt, biểu
đồ nhánh và lá lúc này chưa trực quan dữ liệu tốt nhất mà chỉ dừng lại ở mức tóm tắt giá trị
từ dữ liệu mà thôi.

Nếu muốn biến đổi dữ liệu định lượng thành dữ liệu định tính để xem xét phân phối
tần số trường hợp số quan sát trong dữ liệu là rất lớn thì chúng ta cần phân bổ với mỗi tổ
có khoảng cách đều nhau. Công thức như sau:

với h là trị số khoảng cách tổ/nhóm; K là số tổ; Xmax mà giá trị lớn nhất, Xmin là giá
trị nhỏ nhất. Công thức K=(2 x n)1/3 với n là tổng số quan sát

Bảng 3. Dữ liệu sản lượng lúa của 50 hộ dân

Chúng ta có số liệu về năng suất lúa của 50 hộ dân (tạ/ha), số liệu không thể trình bày
dưới dạng biểu đồ nhánh, lá vì sẽ không hiệu quả. Chúng ta tiến hành phân tổ theo công
thức:

K=(2 x 50)1/3 = 4.64 xấp xỉ 5 tổ, tức 5 nhóm, h = (54 -30)/5 = 4.8 xấp xỉ 5 tổ

Chúng ta có bảng tần số như sau, và có thể tiến hành vẽ đồ thì Histogram (đồ thị phân
phối tần số cho biến định lượng) với biểu đồ cột và biểu đồ tần suất tích lũy tương tự như
phần dữ liệu định tính.
53
Bảng 4. Phân phối tần số của sản lượng lúa 50 hộ dân

Sản lượng lúa (tạ/ha) Số hộ (tần số) Tần suất (%) Tần suất tích lũy

30-35 9 18 18

35-40 11 22 40

40-45 13 26 66

45-50 8 16 82

50-55 9 18 100

Tổng 50 100

Hình 6. Đồ thị Histogram thể hiện năng suất lúa của 50 hộ nông dân

Lưu ý đối với đồ thị Histogram thì khoảng cách giữa các cột là không có vì năng suất
lúa là dữ liệu định lượng liên tục, tổ có giá trị lớn nhất chính là giá trị nhỏ nhất của tổ tiếp
theo, đây là sự khác biệt so với biểu đồ cột của dữ liệu định tính và biểu đồ cột của dữ liệu
định lượng phân tổ nhưng không có khoảng cách tổ rõ rệt.

Đối với biểu đồ phân phối tần suất tích lũy, thì lưu ý thêm ở dữ liệu định lượng biểu
đồ này không được gọi là biểu đồ Pareto, vì các cột tần suất không sắp xếp theo thứ tự từ
cao nhất đến thấp nhất.

Bảng phân phối tần suất tích lũy hay biểu đồ phân phối tần suất tích lũy sẽ cho chúng
ta biết có bao nhiêu phần trăm số quan sát nhỏ hơn hoặc bằng một trị số nào đó của biến
khảo sát, ví dụ dựa vào đồ thị dưới đây, chúng ta có thể thấy có 66% số hộ có năng suất
dưới 45 tạ/ha.

54
Đây cũng là lí do ở phần trình bày dữ liệu định tính, tần suất tích lũy được áp dụng
chủ yếu cho dữ liệu định lượng vì nó có mang lại ý nghĩa phân tích rõ ràng hơn.

3. KẾT LUẬN

Trực quan hóa dữ liệu có vai trò quan trọng trong kỷ nguyên dữ liệu lớn với việc đầu
tư ngày một nhiều vào các ứng dụng phân tích và trực quan hóa dữ liệu của các doanh
nghiệp. Thực tế, não bộ con người xử lý nội dung bằng hình ảnh nhanh hơn so với chữ và
số liệu rất nhiều lần. Chính nhờ vào đặc trưng này, trực quan hóa dữ liệu có thể giúp gia
tăng lợi thế cạnh tranh, tăng trưởng doanh thu và lợi nhuận của các doanh nghiệp thông
qua:

- Tìm hiểu nhu cầu, phân tích ứng xử của khách hàng nhằm hỗ trợ các quyết định chiến
lược: chính sách giá, thị trường và sản phẩm tiềm năng…

- Giảm thiểu, tối ưu chi phí hoạt động.

- Đơn giản hóa các dữ liệu, thông tin phức tạp, giúp người đọc dễ dàng và nhanh chóng
nắm bắt được xu hướng của thông tin, tập trung vào các nội dung quan trọng nhất, và
các mối quan hệ của các yếu tố, từ đó đưa ra các quyết định quản trị phù hợp.

TÀI LIỆU THAM KHẢO

[1]. Cole Nussbaumer Knaflic, Storytelling with data: Wiley, 2020

[2]. Kieran Healy, Data Visualization A Practice Introduction, 2020

55
CÔNG CỤ ỨNG DỤNG PHÂN TÍCH DỮ LIỆU CHO DOANH NGHIỆP

Nguyễn Chí Đạt


Phòng Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: nguyenchidat@ufm.edu.vn

Tóm tắt: Nghề phân tích dữ liệu nói riêng và cơ sở dữ liệu nói chung đang là một trong
những nghề nóng và phát triển nhanh trên toàn thế giới cùng với dữ liệu lớn, trí tuệ nhân tạo, vạn
vật kết nối. Bài viết tìm hiểu về nghề phân tích dữ liệu, các số liệu cần phân tích, cũng như tìm hiểu
các phần mềm hỗ trợ cho việc phân tích dữ liệu.

Từ khóa: phân tích dữ liệu, phần mềm phân tích dữ liệu, data analytics

1. PHÂN TÍCH DỮ LIỆU LÀ GÌ?

Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ
liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định.
Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới
nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học
xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp
đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn.

Khai thác dữ liệu là một kỹ thuật phân tích dữ liệu cụ thể tập trung vào mô hình thống
kê và khám phá tri thức cho mục đích dự đoán thay vì hoàn toàn mô tả, trong khi kinh doanh
thông minh bao gồm phân tích dữ liệu dựa chủ yếu vào tổng hợp, tập trung chủ yếu vào
thông tin kinh doanh.[2]

Trong các ứng dụng thống kê, phân tích dữ liệu có thể được chia thành thống kê mô
tả, phân tích dữ liệu khám phá (EDA) và phân tích dữ liệu xác nhận (CDA). EDA tập trung
vào việc khám phá các tính năng mới trong dữ liệu trong khi CDA tập trung vào xác nhận
hoặc làm sai lệch các giả thuyết hiện có. Phân tích dự đoán tập trung vào việc áp dụng các
mô hình thống kê để dự báo hoặc phân loại dự đoán, trong khi phân tích văn bản áp dụng
các kỹ thuật thống kê, ngôn ngữ và cấu trúc để trích xuất và phân loại thông tin từ các nguồn
văn bản, một loại dữ liệu phi cấu trúc. Tất cả các phương thức bên trên là các dạng khác
nhau của phân tích dữ liệu.

Tích hợp dữ liệu là tiền thân của phân tích dữ liệu, và phân tích dữ liệu được liên kết
chặt chẽ để trực quan hóa dữ liệu và phổ biến dữ liệu.

56
2. PHÂN TÍCH DỮ LIỆU LÀM GÌ?

Chuyên viên phân tích dữ liệu (Data Analyst) là người thực hiện các phân tích sâu dữ
liệu (deep dive analytics) ở dạng đồ thị, biểu đồ, sơ đồ, bảng biểu và báo cáo; sau đó sử
dụng các dữ liệu đó để xác định xu hướng và tạo mô hình dự đoán những gì có thể xảy ra
trong tương lai. Các công việc chính bao gồm sử dụng các công cụ lắng nghe Internet để
thu thập dữ liệu từ các nguồn tin tức và mạng xã hội, phân tích dữ liệu và viết báo cáo, phân
tích thông tin về thương hiệu và các vấn đề xã hội, dự báo và nắm bắt xu hướng trong tương
lai, trình bày các nội dung trên bằng bảng số liệu, biểu đồ, bản đồ và đề xuất các hình thức
minh họa hợp lý khác, tối ưu các chiến dịch Marketing, Sales dựa trên dữ liệu đã thu thập
được, báo cáo thường xuyên cho quản lý và tương tác trực tiếp với khách hàng về diễn biến
các sự kiện liên quan tới thương hiệu khách hàng.

Yêu cầu công việc thường đòi hỏi tốt nghiệp đại học các ngành liên quan như Digital
Marketing, Market Research, Toán, Khoa học máy tính, Quản trị thông tin, Công nghệ
thông tin, Thống kê, ... Kỹ năng sử dụng các công cụ phân tích dữ liệu và code cơ bản để
xử lý các mô hình dự báo (predictive models), kỹ năng sử dụng các công cụ visualize để
chuyển hóa dữ liệu thành graphics, kỹ năng chuyển hóa dữ liệu thành actionable insight, có
kỹ năng phân tích sắc bén, khả năng thu thập, tổ chức, phân tích và phổ biến lượng lớn
thông tin một cách chi tiết và chính xác, kỹ năng lập kế hoạch, kiểm soát việc thực hiện kế
hoạch, Cẩn thận, kiên nhẫn, chịu khó, ham học hỏi, có tinh thần trách nhiệm, ham học hỏi,
trung thực, cẩn thận, nhạy bén với xu thế xã hội.

3. CÁC LOẠI SỐ LIỆU CẦN PHÂN TÍCH

Dữ liệu phân tích được chia thành bốn loại cơ bản sau:

Descriptive analytics (phân tích mô tả): Đây là quá trình phân tích dựa trên khoảng
thời gian nhất định. Dựa trên số lượt xem trang, Doanh số tháng này…

Diagnostic analytics (phân tích chuẩn đoán): Tập trung vào phân tích chuyên sâu, tại
sao nó xảy ra. Điều này liên quan đến đầu vào dữ liệu và một vài giả thuyết. Thời tiết có
ảnh hưởng đến doanh số bán bia không? Chiến dịch tiếp thị có ảnh hưởng đến doanh số
không?

Predictive analytics (phân tích dự báo): Dự đoán điều gì xảy ra trong tương lai. Điều
đó có gây ảnh hưởng tới doanh số cuối cùng? Có bao nhiêu mô hình dự báo kết quả?

57
Prescriptive analytics (phân tích chuẩn đoán): Giúp bạn đưa đến kết luận quá trình
hoạt động có đang thực sự hiệu quả.

Một số lĩnh vực đã áp dụng phân tích dữ liệu bao gồm ngành bán hàng, du lịch và
khách sạn, bất động sản… nơi công việc chồng chéo mà không thể tổng hợp và xử lý nhanh
chóng. Thu thập dữ liệu khách hàng và tìm ra vấn đề để từ đó tìm ra cách khắc phục và đưa
đến kết luận cuối cùng. Các nhà bán lẻ thu thập và phân tích giúp họ xu hướng thị trường,
giới thiệu sản phẩm và đề ra các chiến dịch mới tăng trưởng lợi nhuận.

4. CÔNG CỤ HỖ TRỢ PHÂN TÍCH DỮ LIỆU

4.1. RapidMiner

Rapidminer là một mã nguồn mở, là một môi trường cho Machine learning và Data
mining và được viết bằng ngôn ngữ lập trình Java. Chúng sử dụng mô hình Client/Server
với máy chủ là on-premise hoặc public cloud hoặc private cloud. Rapidminer cung cấp các
lược đồ Learning Schemas, các mô hình và các thuật toán, và có thể được mở rộng bằng
ngôn ngữ R và Python. Các nhà nghiên cứu thị trường, các công ty lớn thường áp dụng
RapidMiner vào công việc, vì nó tiện dụng, dễ dùng, không cần biết đến đầu ra Output mà
có thể cho ra khuôn mẫu theo thẻ Label hoặc Target.

Các thuật toán trong Data mining được chia thành 2 loại:

Thuật toán Learning được giám sát: Là các thuật toán yêu cầu đã có đầu ra Output
(hoặc gọi là Label hay Target). Một số mô hình thuộc thuật toán này có thể kể đến như:
Naïve Bayes, cây quyết định (Decision Tree), mạng thần kinh (Neural Networks), SVM
(Support Vector Machine), mô hình hồi quy (Logistic Regression),...

Thuật toán Learning không được giám sát: Là các thuật toán không bắt buộc phải biết
trước đầu ra Output nhưng có thể tìm kiếm các khuôn mẫu hoặc các xu hướng mà không
có Label hoặc Target, như mô hình K-Mean Clustering, Anomaly Detection, Association
Mining.

Với Rapidminer, có thể giúp lập trình viên tải và chuyển đổi dữ liệu (Extract,
Transform, Load (ETL)), xử lý dữ liệu và trực quan dữ liệu, xây dựng các mô hình dự báo
và phân tích thống kê, đánh giá và triển khai dữ liệu.

Ưu điểm của phần mềm Rapidminer

- Tải và tự động chuyển đổi dữ liệu (Extract, Transform, Load (ETL));


58
- Xử lý và trực quan hóa dữ liệu;

- Xây dựng các mô hình dự báo và phân tích thống kê chi tiết;

- Đánh giá và triển khai hóa dữ liệu.

4.2. Tableau

Tableau là phần mềm hỗ trợ phân tích (Data Analyst) và trực quan hóa dữ liệu (Data
Visualization) và là công cụ của giải pháp Business Intelligence. Tableau giúp người dùng
nghiệp vụ (business users) tổng hợp các dữ liệu, chuyển những liệu này từ các dãy số thành
những hình ảnh, biểu đồ trực quan, xây dựng các dashboard và các phân tích (self-services).
Tableau trình bày trực quan dữ liệu, rất đơn giản và hiệu quả giúp cho bạn có cái nhìn tổng
quan về tình hình kinh doanh của doanh nghiệp, và ở mỗi một tiêu chí lại cung cấp cho bạn
các góc nhìn khác nhau. Điều này giúp ích rất nhiều cho các manager khi đưa ra một quyết
định giải quyết các vấn đề trong vận hành doanh nghiệp hàng ngày.

Một số tính năng của phần mềm Tableau có thể liệt kê như:

- Thu gom, tổng hợp dữ liệu, xây dựng metadata cung cấp cho người dùng nghiệp
vụ (business users) để chuẩn bị phân tích dữ liệu;

- Dễ dàng tạo ra các phân tích dữ liệu sử dụng với hơn 40 loại biểu đồ, bao gồm
các biểu đồ mô tả các lý thuyết kinh tế như mô hình 80/20, phân tích phân khúc
khách hàng RFM, bản đồ hành chính của Việt Nam,..;

- Hỗ trợ tạo các truy vấn bằng thao tác đơn giản;

- Vận hành trên nền tảng công nghệ in-memory nhằm đảm bảo tốc độ phân tích với
lượng dữ liệu lớn của doanh nghiệp;

- Tạo ra các dashboard tương tác trên các biểu đồ, tham biến, tooltip, drill up, drill
down, liên kết dashboard, giải thích dữ liệu và hỏi dữ liệu giúp cho bạn luôn nắm
bắt được thông tin với các góc nhìn khác nhau;

- Sử dụng phần mềm Tableau trên các máy di động iOS & Android để phân tích và
truy xuất các phân tích & dashboard;

- Khả năng mở rộng dễ dàng đáp ứng yêu cầu mở rộng của doanh nghiệp, độ phức
tạp của các nghiệp vụ hiện tại.

59
Nhu cầu sử dụng phần mềm Tableau ngày nay khá phổ biến, bởi công việc phân tích
dữ liệu mang lại rất nhiều lợi ích cho doanh nghiệp. Tùy vào đặc thù của từng lĩnh vực mà
Tableau có thể hỗ trợ những tính năng phù hợp.

Ưu điểm của phần mềm Tableau

- Có phiên bản miễn phí;

- Có thể tương tác với bất kì loại dữ liệu nào từ Excel, Data Warehouse cho tới Dữ
liệu Website;

- Khả năng cập nhật dữ liệu theo thời gian thực;

- Làm dữ liệu trở nên trực quan bằng nhiều cách như biểu đồ hay thậm chí là cả
một Dashboard, tốt hơn bất kỳ phần mềm mềm nào khác trên thị trường;

- Hệ thống xử lý Big Data của Tableau rất mạnh mẽ.

4.3. Ngôn ngữ lập trình Python

Python là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, do
Guido van Rossum tạo ra và lần đầu ra mắt vào năm 1991. Python được thiết kế với ưu
điểm mạnh là dễ đọc, dễ học và dễ nhớ. Python là ngôn ngữ có hình thức rất sáng sủa, cấu
trúc rõ ràng, thuận tiện cho người mới học lập trình. Cấu trúc của Python còn cho phép
người sử dụng viết mã lệnh với số lần gõ phím tối thiểu. Vào tháng 7 năm 2018, Van
Rossum đã từ chức Leader trong cộng đồng ngôn ngữ Python sau 30 năm lãnh đạo.

Python hoàn toàn tạo kiểu động và dùng cơ chế cấp phát bộ nhớ tự động; do vậy nó
tương tự như Perl, Ruby, Scheme, Smalltalk, và Tcl. Python được phát triển trong một dự
án mã mở, do tổ chức phi lợi nhuận Python Software Foundation quản lý. Ban đầu, Python
được phát triển để chạy trên nền Unix. Nhưng theo thời gian, Python dần mở rộng sang mọi
hệ điều hành từ MS-DOS đến Mac OS, OS/2, Windows, Linux và các hệ điều hành khác
thuộc họ Unix. Mặc dù sự phát triển của Python có sự đóng góp của rất nhiều cá nhân,
nhưng Guido van Rossum hiện nay vẫn là tác giả chủ yếu của Python. Ông giữ vai trò chủ
chốt trong việc quyết định hướng phát triển của Python.

Python là một ngôn ngữ lập trình scripting phổ biến và hết sức thú vị. Nó không phải
ngôn ngữ có tốc độ thực thi nhanh như Assembly, C, C++… Nó được chọn làm ngôn ngữ
lập trình đầu tiên để dạy cho những người chưa biết lập trình hoặc thanh thiếu niên. Google,
Microsoft, và nhiều tập đoàn, công ty tin học sử dụng để vận hành hệ thống dịch vụ của
60
mình. Các nhà nghiên cứu khóa học, nhà phân tích dữ liệu lớn cũng thích sử dụng Python
cho công việc của mình, vì nó được việc, không màu mè, học nhanh, dùng luôn.

Ưu điểm của ngôn ngữ lập trình Python

- Được đánh giá là dễ học, dễ viết, dễ duy trì và được cung cấp dưới dạng mã nguồn
mở;

- Có những thư viện học máy (Machine learning) tốt như: Scikitlearn, Theano,
Tensorflow và Keras;

- Khả năng thu thập trên nhiều nền tảng như SQL server, tập liệu MongoDB, JSON;

- Xử lý dữ liệu dạng văn bản rất tốt.

4.4. Ngôn ngữ lập trình R

R là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán và đồ họa
thống kê. Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy
cảm hứng từ Scheme. R do Ross Ihaka và Robert Gentleman tạo ra tại Đại học Auckland,
New Zealand, đến nay do R Development Core Team chịu trách nhiệm phát triển. Tên của
ngôn ngữ một phần lấy từ chữ cái đầu của hai tác giả (Robert Gentleman và Ross Ihaka),
một phần cũng là cách chơi chữ từ tên S.

Ngôn ngữ R đã trở thành một tiêu chuẩn trên thực tế (de facto) giữa các nhà thống kê
cho thấy sự phát triển của phần mềm thống kê, và được sử dụng rộng rãi để phát triển phần
mềm thống kê và phân tích dữ liệu.

R có chứa nhiều loại kỹ thuật thống kê (mô hình hóa tuyến tính và phi tuyến, kiểm
thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm,...) và đồ họa. R,
giống như S, được thiết kế xoay quanh một ngôn ngữ máy thực thụ, và nó cho phép người
dùng thêm các tính năng bổ sung bằng cách định nghĩa các hàm mới. Cũng có một số khác
biệt quan trọng đối với S, nhưng nhiều mã viết bằng S vẫn chạy được mà không cần thay
đổi. Nhiều hệ thống trong R được viết bằng chính ngôn ngữ của nó, giúp cho người dùng
dễ theo dõi các giải thuật. Để thực hiện công việc chuyên về tính toán, R có thể liên kết
được với ngôn ngữ C, C++ và Fortran để có thể được gọi trong khi chạy. Người dùng thông
thạo có thể viết mã C để xử lý trực tiếp các đối tượng của R.

R cũng có tính mở rộng cao bằng cách sử dụng các gói cho người dùng đưa lên cho
một số chức năng và lĩnh vực nghiên cứu cụ thể. Do được thừa hưởng từ S, R có nền tảng
61
lập trình hướng đối tượng mạnh hơn đa số các ngôn ngữ tính toán thống kê khác. Việc mở
rộng R cũng dễ dàng nhờ các luật đóng khối từ vựng.

Một điểm mạnh khác của R là nền tảng đồ họa của nó, có thể tạo ra những đồ thị chất
lượng cao cùng các biểu tượng toán học. R cũng có đinh dạng văn bản riêng tương tự như
LaTeX, dùng để cung cấp tài liệu hướng dẫn toàn diện, có trực tuyến ở các định dạng khác
nhau và cả bản in.

Dù R được dùng chủ yếu bởi những nhà thống kê và những người sử dụng khác đòi
hỏi một môi trường tính toán thống kê và phát triển phần mềm, nó cũng có thể dùng làm
một công cụ tính toán ma trận tổng quát với các kết quả đo đạc cạnh tranh so với GNU
Octave và đối thủ thương mại của nó, MATLAB. Giao diện RWeka đã được thêm vào phần
mềm khai phá dữ liệu phổ biến Weka, cho phép đọc/ghi định dạng arff vì vậy cho phép sử
dụng tính năng khai phá dữ liệu trong Weka và thống kê trong R.

Ưu điểm của ngôn ngữ lập trình R

- Công cụ dẫn đầu trong ngành phân tích, được rộng rãi sử dụng trong việc mô hình
hóa dữ liệu;

- Thao tác dễ dàng với dữ liệu của bạn và trình bày chúng theo nhiều cách khác
nhau;

- Sử dụng SAS về dung lượng dữ liệu (Data Capacity);

- Chạy trên đa nền tảng (UNIX, Windows và MacOS);

- Có hơn 11,556 packages có thể được cài đặt tự động theo nhu cầu của người dùng.

4.5. SAS (Statistical Analysis Software)

SAS, viết tắt của Statistical Analysis Software. Nó được tạo ra vào năm 1960 và được
sử dụng cho hệ thống BI (business intelligence), Predictive Analysis (phân tích dự đoán),
Descriptive & Prescriptive Analysis (phân tích mô tả và đề xuất), quản lý dữ liệu, v.v... Kể
từ đó, nhiều thủ tục và thành phần thống kê mới đã được giới thiệu trong phần mềm này.

Đây là một trong những bộ chương trình chuyên dụng phục vụ cho xử lý và phân tích
số liệu thống kê rất thông dụng trên thế giới. SAS rất mạnh trong lĩnh vực quản lý dữ liệu,
cho phép người sử dụng thao tác dữ liệu hầu như với mọi cách có thể. SAS cũng đưa vào

62
thủ tục Proc sql cho phép thực hiện mọi câu hỏi Sql (Structured query language) trên file
dữ liệu.

Có 4 loại phần mềm SAS:

- SAS cho Windows;

- SAS Enterprise Guide (EG): Một IDE giống GUI, với các trình hướng dẫn để hỗ
trợ viết code cho các quy trình khác nhau;

- SAS Enterprise Miner (EM): Một công cụ khai thác dữ liệu phân tích nâng cao,
nhằm giúp người dùng nhanh chóng phát triển các mô hình mô tả và đề xuất,
thông qua quy trình khai thác dữ liệu;

- SAS STAT Software: Phần mềm SAS này được sử dụng riêng cho các quy trình
thống kê và bao gồm một loạt các tính năng.

Ưu điểm của SAS

- Là môi trường dành cho lập trình và ngôn ngữ thao tác dữ liệu (Data manipulation)
dẫn đầu trong ngành phân tích dữ liệu;

- Dễ dàng kết nối, quản trị và phân tích số liệu từ bất kỳ nguồn dữ liệu nào;

- Có nhiều modules cho web, mạng xã hội và phân tích marketing, hiện đang được
sử dụng rộng rãi cho việc hồ sơ hóa khách hàng tiềm năng;

- Có khả năng về dự đoán hành vi, quản lý và tối ưu hóa giao tiếp.

4.6. Knime

KNIME được biết đến là phần mềm chuyên cung cấp các tính năng phân tích, khai
thác dữ liệu và tổ chức công việc theo cấu trúc nhất định theo giao diện chuyên nghiệp, trực
quan hóa.

Công cụ này hỗ trợ hơn +1000 module và khả năng xử lý nhiều loại dữ liệu như XML,
JSON, hình ảnh, tài liệu, v.v.

Bên cạnh đó KNIME còn hỗ trợ khả năng tổng hợp dữ liệu và trình bày phân tích
dưới các dạng bảng biểu, đồ thị, bản đồ.

Ưu điểm của phần mềm KNIME

- Phân tích và tự động khai thác dữ liệu bằng 1 cú click;


63
- Tổ chức công việc theo cấu trúc có sẵn;

- Hỗ trợ hơn 1000 module;

- Xử lý nhiều loại dữ liệu XML, JSON, v.v…;

- Thay đổi đặc tính của các node;

- Khai thác các thuật toán AI ( tự học theo) và thuật toán dự đoán theo cách chuyên
nghiệp.

4.7. Orange

Orange là công cụ sử dụng mã nguồn mở. Giúp tổng hợp và đem lại cái nhìn trực
quan hóa dữ liệu. Hỗ trợ tạo ra những dashboard có biểu đồ, đồ thị… giúp người mới có
thể dễ dàng sử dụng. Orange là giải pháp phần mềm Self-Service Business Intelligence
Software với chức năng và chi phí phù hợp cho các doanh nghiệp từ nhỏ và vừa (SMEs) tới
các doanh nghiệp lớn. Phần mềm Orange được đánh giá cao bởi cả người dùng lẫn chuyên
gia trong lĩnh vực Business Intelligence Software. Ngoài ra, có thêm nhiều tiện ích mở rộng
khác.

Ưu điểm của Orange

- Dành cho tất cả mọi người, ngay cả khi bạn mới bắt đầu sử dụng;

- Thực hiện phân tích dữ liệu: Biến dữ liệu thô thành dữ liệu đơn giản hóa;

- Tạo ra nhiều bảng template đẹp và tiện dụng;

- Lấy source từ nhiều nguồn để phân tích nâng cao.

4.8. OpenRefine

OpenRefine là chương trình chạy trên nền tảng Java: đây là ứng dụng máy tính sử
dụng trình duyệt website và làm việc trên giao diện đồ họa. Bạn không cần sửa đổi tập dữ
liệu gốc. Tất cả hành động đều dễ dàng được đảo ngược trong OpenRefine và bạn có thể
nắm bắt hành động của mình. Ngoài ra, còn có chức năng chia sẻ tài liệu này với ấn phẩm
dưới dạng tài liệu bổ sung. Bạn có thể quay lại dự án để chọn nơi bạn rời đi hoặc xuất dữ
liệu sang một tệp mới.

Ưu điểm của phần mềm Open Refine

- Tổng quan hóa và đồng bộ dữ liệu;

64
- Giải quyết sự không nhất quán trong tập dữ liệu;

- Giúp chia dữ liệu thành nhiều phần nhỏ;

- Khớp dữ liệu cục bộ với các tập dữ liệu khác;

- Tăng cường tập dữ liệu với dữ liệu từ nhiều nguồn khác;

- Lưu tập hợp các bước làm dữ liệu để phát lại trên cùng một tệp.

5. KẾT LUẬN

Bài viết phân tích nghề phân tích dữ liệu nói chung và ngành nghề dữ liệu nói
riêng. Bài viết tập trung tìm hiểu các phần mềm, ngôn ngữ lập trình phổ biến hiện nay
hỗ trợ tốt cho nghành nghề phân tích dữ liệu, làm rõ những điểm mạnh của các phần
mềm.

TÀI LIỆU THAM KHẢO

[1] https://vi.wikipedia.org/wiki/Phân_tích _dữ_liệu


[2] vi.wikipedia.org/wiki/R_(ngôn_ngữ_lập_trình)
[3] https://en.wikipedia.org/wiki/Analytics
[4] www.tableau.com
[5] vi.wikipedia.org/wiki/Python_(ngôn_ngữ_lập_trình)

65
PHÂN TÍCH DỮ LIỆU KINH DOANH VỚI POWER BI

Trương Đình Hải Thụy, Nguyễn Thị Thanh Tâm


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: tdh.thuy@ufm.edu.vn
Khoa Kinh tế Quản trị, bộ môn Hệ thống thông tin quản lý, Trường Đại học Hoa Sen
Email: tam.nguyenthithanh@hoasen.edu.vn

Tóm tắt: Dữ liệu (data) chính là tài nguyên quan trọng nhất của doanh nghiệp. Và ở thời đại
Công nghệ 4.0 với nhiều công nghệ mới nổi như IOT, AI, máy học – Machine Learning, Big data…
thì tài nguyên này là vô tận và không ngừng tăng lên. Dữ liệu chính là tài sản chiến lược, có tính
chất quyết định lên hoạt động kinh doanh, cần phải được quản lý. Do đó, dữ liệu và quản trị dữ
liệu có vai trò vô cùng quan trọng đối với mọi tổ chức trong nền kinh tế.

Từ khóa: Power BI, phân tích dữ liệu kinh doanh, BI.

1. ĐẶT VẤN ĐỀ

Tại Việt Nam, khái niệm quản trị dữ liệu và phân tích dữ liệu đã xuất hiện khá sớm,
tuy nhiên quá trình xây dựng hệ thống quản trị dữ liệu gặp nhiều khó khăn và thách thức
như: dữ liệu được thu thập từ nhiều nguồn, có rất nhiều loại dữ liệu trong hệ thống, nghiệp
vụ phức tạp, khuôn khổ pháp lý hỗ trợ cho việc khai thác dữ liệu lớn, bảo mật thông tin cho
khách hàng và điều quan tâm nữa là nguồn nhân lực chưa đáp ứng được yêu cầu.

2. PHÂN TÍCH DỮ LIỆU KINH DOANH THÔNG MINH

Business Intelligence (BI) kết hợp phân tích kinh doanh, khai thác dữ liệu, trực quan
hóa dữ liệu, công cụ, cơ sở hạ tầng, các phương pháp phân tích … giúp cho tổ chức xem
xét kỹ hơn các dữ liệu bán lẻ một cách đa chiều từ đó dự đoán được nhu cầu khách hàng,
đưa ra các quyết định kinh doanh. Ví dụ điển hình như Starbucks – một thương hiệu cà phê
nổi tiếng - đã sử dụng BI để phân tích báo cáo ngành về mức độ tiêu thụ đồ uống tại nhà và
cách khách hàng đặt mua sản phẩm ở trong cửa hàng Starbucks, công ty đã sử dụng thông
tin này để tạo ra K-Cup và đồ uống đóng chai để bán tại các hàng tạp hóa và điều này đã
giúp tăng cường thương hiệu và doanh thu; hay Starbucks đã sử dụng phương pháp phân
tích dự đoán trong việc đẩy mạnh bán hàng nhờ các bảng điện tử hiển thị theo phân tích tại
cửa hàng.

Hiện nay Power BI là một trong những công cụ BI được dùng để thực hiện các công
việc phân tích dữ liệu. Nó là nền tảng hàng đầu trong việc phân tích dữ liệu và ứng dụng
66
thành công BI (Business Intelligence). Power BI là nền tảng phân tích và báo cáo mạnh mẽ,
chi phí thấp, nổi tiếng vì tính đơn giản và hiệu quả của nó.

Power BI là gì?
Power BI là tên gọi chung của một bộ các ứng dụng và dịch vụ trên nền tảng đám
mây với giao diện thân thiện. Power BI là quá trình trực quan hóa dữ liệu từ nhiều nguồn
khác nhau để trở thành những báo cáo dashboard có thể tương tác trực tiếp. Power BI giúp
dễ dàng tạo những bảng điều khiển chi tiết dễ đọc, dễ phân tích thông tin, chia sẻ thông tin
và vẫn duy trì tính bảo mật. Power BI giúp người dùng tìm hiểu sâu hơn về dữ liệu, tìm
nhanh, nhóm, dự báo, phân cụm dữ liệu và người dùng có toàn quyền kiểm soát mô hình
dữ liệu (Data model). Bên cạnh đó, Power BI còn cung cấp những tính năng cao hơn như
trực quan hóa bản đồ địa lý tương tác được Bing Maps cung cấp và khả năng phân tích dự
đoán thông qua các tập lệnh và hình ảnh R, Microsoft Azure Machine Learning và Azure
Stream Analytics. Power BI được tạo ra tử nền tảng của trí tuệ nhân tạo (AI) và máy học
(ML). Power BI tích hợp chặt chẽ với các sản phầm lưu trữ thông tin phổ biến khác của
Microsoft như Microsoft Excel, Azue và SQL Server cùng các giải pháp quản lý của
Microsoft gồm Microsoft Flow (quản lý quy trình) và Microsoft Dynamics (giải pháp ERP).

Các công cụ của Power BI có thể được dùng với nhiều mục đích khác nhau như:

- Power BI có thể kết nối và chuyển đổi dữ liệu rất dễ dàng. Nó có thể truy cập dữ liệu
từ hàng trăm nguồn như Excel, các hệ quản trị cơ sở dữ liệu truyền thống như SQL Server,
Oracle, dữ liệu từ CRM, từ các phần mềm quản lý, …, kho dữ liệu đám mây như Google
BigQuery hay Azue,… và xử lý các dữ liệu đó thành các thông tin dễ hiểu hơn;

- Power BI là một công cụ mạnh khi xử lý lượng dữ liệu lớn, nó không chỉ cho phép
mô hình hóa dữ liệu và phân tích dữ liệu dựa trên thời gian thực (real-time analytics) mà
còn cho phép người dùng tùy chỉnh sử dụng theo ý muốn;

- Power BI là một ứng dụng trong hệ sinh thái của Microsoft do đó nó có khả năng tích
hợp cao các Power BI trong cộng đồng doanh nghiệp sử dụng Microsoft Office trên toàn
cầu. Việc triển khai và vận hành ứng dụng mang tính bảo mật cao và tích hợp dữ liệu được
đảm bảo tuyệt đối cho người dùng.

67
Hình 1: Power BI là hệ thống đa nền tảng, đa thiết bị

Power BI hiện đang cung cấp 3 giải pháp khác nhau như sau: (1) Power BI Desktop
dùng cho desktop/laptop; (2) dịch vụ phần mềm SaaS online Power BI Service và (3) ứng
dụng Power BI Mobile dành cho các thiết bị di động tương thích với cả ba hệ điều hành
Windows, iOS và Android. Cả ba giải pháp này đều cho phép người dùng tạo, chia sẻ và
khai thác insight cho doanh nghiệp một cách hiệu quả.

Power BI Service là gì: Power BI Service là một giải pháp phân tích kinh doanh dựa
trên đám mây và cung cấp các dịch vụ liên quan như nhau. Các dịch vụ Power BI bao gồm
chia sẻ và xem các báo cáo và bảng điều khiển Power BI trên các nền tảng dựa trên đám
mây như trang web Power BI (Workspace). Người dùng có thể truy cập các báo cáo BI mà
họ quan tâm để phân tích trên trang web Power BI bằng email công việc. Power BI Service
là một nền tảng dựa trên web từ đó có thể chi sẻ các báo cáo được thực hiện trên Power BI
Desktop, cộng tác với các người dùng khác và tạo bảng điều khiển. Dịch vụ Power BI
Service có sẳn trong ba phiên bản: phiên bản miễn phí, phiên bản Pro và phiên bản
Premium.

Sau đây là một vài tính năng của Power BI Service và Power BI Mobile:
Hỗ trợ các bộ dữ liệu sơ cấp cho báo cáo được phân loại: Power BI Report Builder
có khả năng kết nối với bộ dữ liệu Power BI, do đó bất kỳ ai cũng có thể kết nối và xuất
báo cáo cục bộ với bất kỳ bộ dữ liệu Power BI nào.

68
Tính khả dụng chung của các tập hợp Power BI: các tập hợp phân quyền cho phép
từng user có những quyền phân tích tương ứng trên bộ dữ liệu (DataSet) quy mô, đầy đủ và
đa dạng. Đồng thời các tổ chức có quyền kiểm soát tốt hơn cấu trúc hạ tầng BI, tạo sự cân
bằng tối ưu giữa chi phí, hiệu suất và độ chính xác của dữ liệu. Ngoài ra các tập hợp BI còn
có thể sử dụng cho các mô hình ngữ nghĩa cấp doanh nghiệp trong các tổ chức, tập đoàn
lớn với yêu cầu bảo mật chi tiết bằng cách tận dụng tính năng Tầng/Lớp bảo mật (Row
Level Security – RLS) của Power BI.

Gửi thông báo lỗi làm mới cho người dùng khác: đây là một tính năng mới trong
Scheduled Refresh. Việc gửi thông báo làm mới cho người dùng khác là rất quan trọng, nó
cho phép theo dõi các lần làm mới theo lịch trình một cách đáng tin cậy.

Cấu trúc của Power BI:


Data Sources: Power BI cho phép người dùng kết nối dữ liệu từ nhiều nguồn khác
nhau như file, database hay các dịch vụ online.

Power BI Gateway: cổng Power BI cho phép người dùng lấy dữ liệu theo thời gian
thực và đảm bảo bằng Azure Service Bus.

Power BI Desktop: ứng dụng miễn phí.

Mobile Reports Publisher: với SQL Server Mobile Report Publisher, người dùng có
thể tạo các báo cáo Dashboard trên các thiết bị di động dễ dàng và nhanh chóng.

Power BI Publisher for Excel: Power BI hỗ trợ phân tích trong excel bởi công cụ
Power Query, Power Pivot và Power View.

Power BI Mobile Apps: hỗ trợ người dùng truy cập và xem các dashboard trên các
thiết bị di động. Đây là một điểm rất thuận tiện cho người dùng.

Power BI Service: đây là ứng dụng đám mây, cho phép đăng tải báo cáo Power BI và
trực quan hóa dữ liệu.

Power BI dashboards: dashboards là một tính năng của Power BI Service. Người
dùng có thể tạo và thiết kế những báo cáo dashboard tùy chỉnh dữ liệu theo thời gian thực
24/7.

Luồng công việc trong Power BI:

(i) Power BI được bắt đầu bằng các kết nối với các nguồn dữ liệu;

69
(ii) Xây dựng báo cáo trong Power BI Desktop;

(3i) Xuất báo cáo Power BI Desktop lên Power BI service và chia sẻ cho người dùng
cuối trong dịch vụ Power BI và thiết bị di động có thể xem và tương tác.

Các công cụ chính của Power BI bao gồm Power Query để trích xuất và chuyển đổi
dữ liệu; Power Pivot để mô hình hóa và phân tích; và Power View và Map để trực quan hóa
dữ liệu.

Một số tiện ích của Power BI:


Tương tác trực quan, dễ dàng tích hợp với các phần mềm tin học khác: Power BI
mang lại giá trị nhờ khả năng trực quan hoàn hảo và Dashboard điều khiển tương tác đem
lại cái nhìn toàn cảnh về hiệu suất của doanh nghiệp. Power BI tích hợp chặt chẽ với các
phần mềm lưu trữ thông tin phổ biến khác của Microsoft khác như Microsoft Excel, Azure
và SQL Server cùng các giải pháp quản lý của Microsoft gồm Microsoft Flow (quản lý quy
trình) và Microsoft Dynamics (giải pháp ERP)

Truy cập không giới hạn vào dữ liệu cục bộ và dữ liệu đám mây: Power BI có thể
thực hiện data mashup, kết hợp dữ liệu từ nhiều nguồn khác nhau và phân tích dữ liệu bán
cấu trúc (semi – structured data). Power BI có thể kết nối được với mọi loại hình kho lưu
trữ dữ liệu tại chổ khác nhau như SQL Server, Oracle hoặc Hadoop. Đối với kho dữ liệu
điện toán đám mây như Google BigQuery hay Azue, Power BI đã có sẳn các trình kết nối
được nhà phát triển xây dựng trước nhằm tạo nên trải nghiệm đa nhiệm nhất.

Power BI cho phép truy cập báo cáo và dashboard ngay lập tức: Power BI cho phép
chia sẽ thông tin dữ liệu và báo cáo với người khác, không bị phụ thuộc vào thời gian hay
thiết bị. Hệ thống này cũng có tính linh hoạt vì nó hoạt động với các hệ điều hành Windows,
iOS và Android.

Tích hợp không giới hạn với ứng dụng của bên thứ ba: Power BI có thể tích hợp trong
bất kỳ hệt sinh thái phần mềm nào.

Chia sẻ an toàn các báo cáo và phân tích dữ liệu: người dùng có thể gửi các báo cáo
trực quan trực tiếp lên mạng internet và gửi email cho những bên liên quan. Power BI cho
phép phân quyền trên báo cáo, phân quyền trên các vùng dữ liệu đặc thù.

Khả năng mô hình hóa dữ liệu: Mô hình hóa dữ liệu là một trong những chức năng
được sử dụng để kết nối nhiều nguồn dữ liệu trong phần mềm Power BI. Với tính năng này,
70
người dùng có thể tạo các tính toán tùy chỉnh trên những dashboard hiện có, kết quả tính
toán sẽ được trình bày trực tiếp trong các báo cáo quản trị trực quan. Tính năng này giúp
Power BI phù hợp với tất cả các lĩnh vực kinh doanh, trong mọi hoạt động của doanh nghiệp
từ vận hành đến quản lý hiệu suất nhân viên, quản lý dòng tiền… có thể áp dụng để xây
dựng mọi mẫu báo cáo quản trị trong tất cả doanh nghiệp, phòng ban.

Thêm nguồn dữ liệu: Power BI có thể kết nối với hơn 60 giải pháp phổ biến như
Spark, Hadoop, SAP. Người dùng không cần phải mô hình hóa dữ liệu trong hệ thống nguồn
mà dữ liệu có thể được tích hợp trực tiếp với phần mềm Power BI.

Không đòi hỏi phải có kiến thức lập trình: một điểm cộng cho Power BI là người
dùng không cần có kiến thức lập trình. Với những người có nhiệm vụ thực hiện phân tích
dữ liệu theo yêu cầu cụ thể thì Power BI chính là một sự lựa chọn sáng suốt, Power BI giúp
thực hiện công việc một cách đơn giản, dễ dàng, thực hiện phân tích, tính toán nhanh, khả
năng hiển thị lớn giúp tiết kiệm thời gian.

Tài liệu hướng dẫn sử dụng rõ ràng: hầu hết mọi người đều quen thuộc với giao diện
của Microsoft do đó sẽ nhanh chóng làm quen với Power BI. Bên cạnh đó Microsoft cũng
cung cấp rất nhiều bản chỉ dẫn, video, bài viết… nhằm tối đa hóa tiềm năng công cụ.

Khả năng tìm kiếm thông minh: một trong những tính năng nổi trội của Power BI là
chức năng tìm kiếm thông minh. Với tính năng này, người dùng có thể đưa ra những câu
hỏi như tìm kiếm với Google, Yahoo, Bing… và xem kết quả, biểu đồ liên quan đến truy
vấn. Tiện ích thông minh này cho phép quét các thông tin chi tiết ẩn trong vài giây, và cũng
có thể tìm ra được mối tương quan, các ngoại lệ, xu hướng theo mùa, xu hướng theo thời
vụ … và các yếu tố chính khác.

Tích hợp Microsoft Excel tuyệt vời, đảm bảo rất quen thuộc với người dùng excel, bất
kỳ người dùng excel nào cũng dễ dàng kết nối các truy vấn, mô hình dữ liệu và báo cáo
excel với bảng điều khiển Power BI, giúp nhanh chóng thu thập, phân tích, xuất bản và chia
sẻ dữ liệu kinh doanh.

Kết nối dữ liệu thông minh: Power BI cho phép nhập dữ liệu từ nhiều nguồn khác
nhau (với hơn 70 nguồn dữ liệu trên thực tế). Có thể kết nối dữ liệu với các tập dữ liệu, cơ
sở dữ liệu Excel, SQL Server, nguồn Azure, nguồn dựa trên đám mây, các dịch vụ trực
tuyến như Google Analytics, Facebook, zalo.. Ngoài ra Power BI cũng có thể truy cập trực

71
tiếp các nguồn dữ liệu lớn. Người dùng có được một nền tảng cấp độ doanh nghiệp đáng
tin cậy, có độ mở rộng cao và bảo mật.

Hiện nay Power BI có tích hợp Python và R – là 2 ngôn ngữ lập trình cho phép người
dùng có thể ứng dụng các kiến thức thống kê, mô hình dữ liệu để đưa ra dự đoán trong
tương lai. Microsoft đang đầu tư vào bốn phạm vi trọng tâm phát triển “văn hóa dữ liệu”
gồm:

(1) Self – service analytics cho mọi người: người dùng có khả năng tự xử lý và phân
tích dữ liệu mà không cần nhiều kiến thức chuyên môn về lập trình và phân tích dữ liệu.
Microsoft đầu tư các tính năng đựa trên tiêu chí đơn giản được tích hợp với Office 365 và
được cập nhật thường xuyên;

(2) Nền tảng BI cho doanh nghiệp lớn: cho phép doanh nghiệp tạo nên nền tảng BI
toàn cầu;

(3) Phân tích dữ liệu lớn với Azure Data Services;

Và (4) trí tuệ nhân tạo kế hợp BI: việc đưa AI vào BI nhằm hỗ trợ người dùng trong
việc khám phá dữ liệu, hiểu được ý nghĩa tiềm ẩn của dữ liệu.

Ứng dụng của Power BI trong doanh nghiệp


Đối với doanh nghiệp, việc phân tích, phân luồng dữ liệu trong hoạt động kinh doanh,
vận hành rất quan trọng, mang tính sống còn của doanh nghiệp. Các vấn đề mà hầu như cấp
quản lý hiện nay đang gặp phài là (1) quá nhiều báo cáo riêng lẻ dẫn đến không nhìn thấy
được bất kỳ insight nào về tổng quan và về bức tranh toàn cảnh marketing, bán hàng..; (2)
và cũng vì nhiều báo cáo riêng lẻ nên khó đánh giá được hiệu quả Marketing so với KPI
đặt ra; (3) dữ liệu bị phân mành, không tập hợp, nằm rải rác ở các nền tảng khác nhau như
Facebook Ads, Google Ads, Google Sheet,…Một trong những giải pháp để giải quyết các
vấn đề mà doanh nghiệp đang gặp phải là nhiều doanh nghiệp trên thế giới và ở Việt Nam
sử dụng Power BI – Power Business Intelligence – như một nền tảng tối ưu trong việc phân
tích kinh doanh phục vụ cho các yêu câu cụ thể. Với Power BI, nhà quản lý có thể nhận biết
được thông tin cốt lõi từ dữ liệu, tạo nên “văn hóa doanh nghiệp”, đưa ra các quyết định
kinh doanh,

Sau đây là một số ứng dụng của Power BI trong hoạt động của doanh nghiệp:

72
- Đưa các thông tin của doanh nghiệp lên dashboard: với Power BI, tất cả các dữ liệu
đều được hiển thị như là một bảng điều khiển hoặc những báo cáo tổng quát, biểu đồ
theo thời gian;

- Tạo ra các báo cáo có tính tương tác cao: Power BI cung cấp các công cụ để chuyển
đổi, phân tích và hiển thị dữ liệu, chia sẻ báo cáo;

- Phân tích mức độ ổn định: với Power BI cho phép tạo ra mô hình tái sử dụng dữ liệu
(reuseable data) để đảm bảo sự nhất quán giữa các báo cáo, tiến hành các dự đoán,
đưa ra các xu thế trong tương lai dựa vào các dữ liệu hiện tại và quá khứ;

- Nhúng báo cáo và các ứng dụng: Power BI cho phép tích hợp các ứng dụng khác, các
báo cáo tương tác và biểu đồ thời gian thực…

Mô hình Power BI trong doanh nghiệp vừa và nhỏ

Hình 2: Mô hình Power BI cho các doanh nghiệp vừa và nhỏ (SME)

(Nguồn: https://powerbi.soft365.vn)

Để thiết lập mô hình đầu tiên, người dùng cần kết nối các nguồn dữ liệu doanh nghiệp
với Power BI. Sau khi kết nối các nguồn dữ liệu và mô hình hóa dữ liệu, người dùng bắt
đầu tạo báo cáo và biểu đồ trực quan hóa tương tác với dữ liệu và có thể chia sẻ các biểu
đồ đó. Cụ thể quy trình như sau:

o Kết nối dữ liệu nguồn vào Power BI Desktop;


73
o Thiết lập mô hình;
o Tạo các báo cáo và biểu đồ trực quan hóa dữ liệu;
o Đăng báo cáo lên Power BI service để trực quan hóa dữ liệu và xây dựng các
dashboard;
o Chia sẻ dashboard với thành viên liên quan như nhà quản trị, những người có liên
quan đến công việc;
o Xem và tương tác với các báo cáo, các dashboard trên ứng dụng Power BI Mobile.
Một số vấn đề cần lưu ý khi doanh nghiệp triển khai Power BI:
Sau đây là một số lỗi phổ biến mà các doanh nghiệp thường mắc phải khi triển khai
phân tích dữ liệu với Power BI:

- Bỏ qua tính năng phân tích dữ liệu chuyên sâu của Power BI: thường người dùng chỉ
tập trung vào các con số thô, không phải dữ liệu chi tiết; thay vì chỉ hiển thị các con
số, các báo cáo thường có KPI (Key Performance Indicator – chỉ số đánh giá thực hiện
công việc), xu hướng, chi tiết, khả năng tương tác và phân tích tương lai. Việc hiển
thị chi tiết này rất có ý nghĩa cho các nhà quản lý, cung cấp hướng đi cho doanh
nghiệp.

- Một số doanh nghiệp đã quen thuộc với quy trình điển hình cho các báo cáo là gửi
yêu cầu cho bộ phận IT và IT sẽ viết các câu truy vấn SQL để lấy dữ liệu cho yêu cầu
này và dữ liệu này sẽ được thể hiện dưới dạng bảng hoặc biểu đồ. Với Power BI, sẽ
giúp thực hiện yêu cầu này một cách nhanh chóng và có thể thể hiện dữ liệu dưới
những biểu đồ trực quan hóa dữ liệu, Power BI chủ yếu được thiết kế cho người dùng
doanh nghiệp do đó có các tính năng vay mượn các phương pháp hay nhất từ công
nghệ thông tin.

- Không sử dụng mô hình dữ liệu hoặc bỏ qua các báo cáo tự phục vụ: mô hình dữ liệu
của Power BI chứa tất cả các siêu dữ liệu cần thiết để báo cáo, bao gồm logic nghiệp
vụ và chuyển đổi dữ liệu. Tuy nhiên việc tạo và duy trì các mối quan hệ này mất rất
nhiều thời gian, với Power BI người dùng có thể sử dụng lại các mô hình dữ liệu và
giữ một nguồn nhất định cho nhiều báo cáo. Hơn nữa, người dùng có thể kết nối và
xây dựng báo cáo áp dụng Power BI của riêng họ bằng cách sử dụng các mô hình tùy
chỉnh.

74
- Xem Power BI là một sản phẩm độc lập, không phải là một phần của dữ liệu lớn hoặc
giải pháp AI: Power BI là một công cụ thông tin chi tiết về doanh nghiệp, đó là một
cách để phục vụ và truyền đạt thông tin trong tổ chức. Ngoài ra người dùng có thể đưa
vào phân tích dự đoán, cũng như các quy trình ETL, lưu trữ và bảo mật dữ liệu.

- Ở một vài doanh nghiệp hiện nay yêu cầu chuyển đổi tất cả báo cáo excel sang Power
BI, tuy nhiên 2 sản phẩm này khác nhau và có những công dụng, thế mạnh khác nhau,
do đó chúng ta nên sử dụng kết hợp cả hai để nhận những kết quả tối ưu nhất.

- Chỉ dùng Power BI cho những báo cáo đột xuất. Khi sử dụng Power BI, chúng ta nên
xây dựng các mô hình dữ liệu có thể được sử dụng lại được thiết kế cho nhiều báo
cáo.

3. KẾT LUẬN

Tóm lại, với những tính năng nổi bật, hoạt động linh hoạt cũng như khả năng xử lý
lượng dữ liệu lớn, xử lý đa nguồn dữ liệu, Power BI là một công cụ đắc lực hỗ trợ cho các
nhà quản lý trong việc xây dựng chiến lược, lập kế hoạch, nâng cao năng lực kinh doanh,
nâng cao vị thế cạnh tranh của doanh nghiệp. Hiện nay rất nhiều doanh nghiệp trên thế giới
và ở nước ta đang sử dụng Power BI như một nền tảng tối ưu trong phân tích dữ liệu phục
vụ cho các yêu cầu cụ thể, với Power BI doanh nghiệp sẽ nhận biết được các thông tin cốt
lõi từ dữ liệu, tạo nên “văn hóa dữ liệu”, đưa ra các quyết định kinh doanh thay vì sự cảm
tính chủ quan.

TÀI LIỆU THAM KHẢO

[1] https://congthuong.vn/quan-ly-du-lieu-thong-minh-huong-de-phat-trien-vung-manh-
hien-dai-144578.html
[2] Allberto Ferrari, Marco Russo, Introducing Microsoft Power BI, Microsoft Press,
2016. ISBN: 978-1-5093-0228-4
[3] https://csc.edu.vn/tin-hoc-van-phong/tin-tuc/kien-thuc-tin-hoc-thvp/Vi-sao-nen-chon-
Power-BI-de-phan-tich-kinh-doanh-7248
[4] https://powerbi.soft365.vn/mo-hinh-power-bi-cho-doanh-nghiep-vua-va-nho/
[5]. https://gitiho.com/blog/power-bi-la-gi-va-uu-diem-cua-no-huong-dan-cach-cai-
dat.html
[6] https://dtmconsulting.vn/phan-tich-du-lieu-trong-kinh-doanh-va-marketing/

75
QUẢN LÝ DỮ LIỆU THÔNG MINH TRONG LĨNH VỰC NGÂN HÀNG
VÀ CÁC GIẢI PHÁP

Đinh Nguyễn Thúy Nguyệt


Khoa Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: dntnguyet@ufm.edu.vn

Tóm tắt: Cuộc cách mạng công nghiệp lần thứ 4 (CMCN 4.0) đang diễn ra mạnh mẽ trên
phạm vi toàn thế giới, mô hình doanh nghiệp số, chính phủ số, nền kinh tế số và xã hội số đã trở
thành đích đến của nhiều quốc gia, tổ chức. Chuyển đổi số vì thế đang lan tỏa trên mọi mặt của
đời sống kinh tế, xã hội, thu hút sự quan tâm của tất cả các chủ thể trong nền kinh tế và ngày càng
khẳng định là một xu thế tất yếu. Trong đó, dữ liệu được coi vấn đề vô cùng quan trọng, là nguồn
cung cấp năng lượng cho chuyển đổi số, dữ liệu có thể trở thành tài nguyên mới cho phát triển
kinh tế toàn cầu. Đối với ngành Ngân hàng, một trong những ngành sở hữu khối lượng dữ liệu lớn,
cũng là ngành đi đầu trong hành trình chuyển đổi mô hình hoạt động theo xu hướng số thì quản lý
dữ liệu trở thành vấn đề sống còn. Ưu thế sẽ thuộc về các ngân hàng làm chủ các nguồn dữ liệu
thông qua việc quản lý, sử dụng chúng một cách thông minh trên cơ sở ứng dụng các thành tựu
khoa học công nghệ mới.

Từ khóa: quản lý dữ liệu thông minh, QLDLTM

1. QUẢN LÝ DỮ LIỆU THÔNG MINH VÀ LỢI ÍCH TRONG LĨNH VỰC NGÂN
HÀNG

Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, phép đo, quan sát hoặc chỉ
là mô tả về sự vật. Dữ liệu bao gồm hai loại chính: dữ liệu có cấu trúc và dữ liệu không có
cấu trúc. Dữ liệu có cấu trúc (structured data) là loại dữ liệu có thể được tổ chức, lưu trữ,
truy cập và xử lý trong một cấu trúc xác định. Dữ liệu không có cấu trúc (unstructured data)
là dữ liệu được diễn đạt theo cách tự nhiên của con người, không có định nghĩa ban đầu về
cách thức tổ chức nội dung dữ liệu. Dữ liệu không có cấu trúc có nguồn gốc đa dạng, bao
gồm nội dung trong các tài liệu văn bản, hình ảnh, video, âm thanh, các bản ghi hoạt động
web, nhật ký (logs)… Dữ liệu không có cấu trúc chiếm phần lớn khối lượng dữ liệu của các
tổ chức, doanh nghiệp.

Dữ liệu là tài sản rất quan trọng của doanh nghiệp, được sử dụng để đưa ra quyết định
kinh doanh chính xác, cải thiện chiến dịch tiếp thị, tối ưu hóa hoạt động kinh doanh. Tất cả
nhằm hướng tới mục tiêu tăng doanh thu, giảm chi phí. Nếu quản lý dữ liệu không phù hợp,

76
hoặc dữ liệu không nhất quán sẽ làm hạn chế khả năng chạy các ứng dụng phân tích thông
minh và tệ hơn là dẫn đến các kết quả bị lỗi, sai lệch gây ảnh hưởng đến việc ra quyết định.

Quản lý dữ liệu thông minh (QLDLTM) là việc thực hiện quy trình thu thập, quản lý,
khai thác, sử dụng dữ liệu một cách thông minh trên cơ sở các công nghệ của cuộc CMCN
4.0, giúp thuận tiện cho việc phân tích, xử lý dữ liệu, áp dụng kết quả phân tích vào thực
tế. Việc QLDLTM có thể cung cấp cho các tổ chức những giải pháp tối ưu, phù hợp với
nhu cầu của từng khách hàng.

Trong bối cảnh hiện nay, trước áp lực cạnh tranh gay gắt, các ngân hàng luôn phải
tìm kiếm các công cụ hiệu quả để tăng doanh thu và giảm thiểu chi phí. Dữ liệu trở thành
một tài sản quý giá, sử dụng dữ liệu hiệu quả sẽ làm gia tăng đáng kể lợi nhuận và đảm bảo
sự phát triển bền vững của các ngân hàng. Dữ liệu sẽ làm thay đổi bản chất của toàn bộ các
dịch vụ tài chính ngân hàng. Ngân hàng tương lai với mô hình định hướng dữ liệu (data-
driven) sẽ xây dựng nên góc nhìn toàn cảnh 360 độ về khách hàng để tăng cường khả năng
cung cấp dịch vụ cũng như tuân thủ pháp lý của mình.

QLDLTM cho phép các ngân hàng gia tăng các sản phẩm bán chéo thông qua các
chiến dịch tiếp thị có chủ đích, đồng thời có thể thực hiện chấm điểm tín dụng một cách tự
động, nhanh chóng và chính xác. Bên cạnh đó, góp phần giảm thiểu các chi phí phục vụ
khách hàng, các chi phí tiếp thị và đặc biệt là cho phép dự đoán các hành vi gian lận và đưa
ra các cảnh báo sớm, từ đó các tổ chức có thể chủ động đưa ra các giải pháp phòng ngừa.

Những lợi ích mà QLDLTM mang lại cho các ngân hàng có thể kể đến như sau:

- Giúp nâng cao năng suất hoạt động, cải thiện dịch vụ ngân hàng: hệ thống quản lý
dữ liệu cung cấp một quy trình rõ ràng để có thể hỗ trợ truy cập thông tin nhanh chóng, dễ
dàng chia sẻ thông tin và sử dụng khi cần thiết, giảm được thời gian tìm kiếm, xác định
được những thông tin, dữ liệu ngân hàng đang có hoặc đã thu thập để truy cập, sử dụng cho
các mục đích khác nhau. Việc xử lý các thông tin nhanh chóng hơn cũng giúp nâng cao
năng suất hoạt động của các ngân hàng. Các phân tích theo thời gian về lịch sử hoạt động
giúp các ngân hàng việc lên kế hoạch trong tương lai.

- Kiểm soát dữ liệu, đảm bảo chất lượng và an toàn cho các nguồn thông tin, dữ liệu:
đối với cách quản lý dữ liệu thông thường, sau khi thu thập, dữ liệu phải luân chuyển đến
những nơi khác do nhu cầu sử dụng của các đơn vị thành viên trong ngân hàng, dẫn đến
việc sao chép dữ liệu, phát sinh các vấn đề về bảo mật, tạo nên sự cồng kềnh trong cách
77
thức hoạt động, làm chậm tiến độ khai thác dữ liệu... Hệ thống QLDLTM cho phép ngân
hàng lữu trữ dữ liệu vào những nơi thống nhất, tạo điều kiện tiếp cận và cấp quyền truy cập
cho các nhân viên từ các phòng, ban, trung tâm khác, đảm bảo mức độ bảo mật cao hơn.
Một hệ thống QLDLTM được áp dụng các công cụ, phần mềm kỹ thuật tiên tiến và được
vận hành bởi đội ngũ chuyên gia công nghệ thông tin, các vấn đề phát sinh khi cập nhật dữ
liệu mới hàng ngày sẽ được giải quyết và tạo khả năng tiếp cận, sử dụng dữ liệu mới.

- Quản trị rủi ro: QLDLTM giúp ngân hàng dựa trên phân tích về các hành vi của
người sử dụng trong thời gian thực để giảm thiểu những rủi ro tiềm ẩn. Nhà quản trị ngân
hàng cần đánh giá được mức độ tin cậy của khách hàng vì việc thiếu hiểu biết về khách
hàng có thể dẫn đến những rủi ro trong quá trình cung cấp sản phẩm, dịch vụ. QTDLTM
có thể giúp các ngân hàng xây dựng một mô hình chấm điểm tín dụng khách hàng để đánh
giá rủi ro tín dụng và thiết lập hệ thống nhận diện gian lận và đưa ra lời cảnh báo sớm.

- Duy trì các quan hệ khách hàng thường xuyên, tìm kiếm khách hàng tiềm năng: hệ
thống công nghệ có thể thu thập và phân tích lịch sử giao dịch của khách hàng, từ đó, xác
định được chính xác phương thức khuyến mại và gắn kết lợi ích phù hợp với khách hàng
để giữ chân khách hàng. Hệ thống QLDLTM có thể phân tích và ước tính được giá trị kinh
tế của mỗi khách hàng đem lại cho ngân hàng trong tương lai. Một hệ thống có thể được
cài đặt chương trình để đánh giá một cá nhân có thu nhập cao và sử dụng nhiều hơn các sản
phẩm gia tăng, trên cơ sở đó, ngân hàng có thể nhận định được các khách hàng tiềm năng
và có các chiến lược thu hút khách hàng.

- Quản lý dữ liệu lớn dễ dàng hơn: dữ liệu lớn (Big Data) đem lại nhiều khó khăn và
thách thức trong việc quản lý của các ngân hàng. QLDLTM sẽ giúp việc triển khai quản lý
Big Data dễ dàng hơn. Dữ liệu sẽ được lưu trữ, sử dụng hiệu quả hơn, đảm bảo chất lượng
dữ liệu, an toàn, bảo mật dữ liệu, hạn chế vấn đề bỏ sót, thất lạc dữ liệu giá trị, tăng tốc quá
trình xử lý và phân tích, nhanh chóng đạt được giá trị, thông tin hữu ích từ nguồn dữ liệu.

2. HIỆN TRẠNG ỨNG DỤNG QUẢN LÝ DỮ LIỆU THÔNG MINH TRONG LĨNH
VỰC NGÂN HÀNG TẠI VIỆT NAM

Các ngân hàng trên thế giới hiện nay đã nhận biết được tiềm năng, sức mạnh to lớn
của dữ liệu và chủ động nắm bắt cơ hội, tận dụng được nguồn tài nguyên này. Dữ liệu được
tận dụng triệt để nhằm tối ưu hóa hành trình và trải nghiệm khách hàng, tối ưu hóa hoạt
động nghiệp vụ, quản trị nội bộ của ngân hàng. Vì thế, nhiều ngân hàng lớn trên thế giới đã
78
thực hiện tốt việc thu thập, quản lý, khai thác, sử dụng dữ liệu một cách thông minh trên cơ
sở các công nghệ của cuộc CMCN 4.0.

Tại Việt Nam, phần lớn các ngân hàng đã nhận định được tầm quan trọng của việc
ứng dụng QLDLTM. Một số ngân hàng thương mại bắt đầu chú ý tới việc quản trị dữ liệu
từ trước năm 2010. Theo kết quả khảo sát của công ty tư vấn PwC Việt Nam vào cuối năm
2019 với 33 đại diện lãnh đạo ngân hàng tại Việt Nam, 88% câu trả lời đồng ý rằng quản
trị dữ liệu là nền tảng cơ sở để các ngân hàng nâng cao năng lực cạnh tranh thông qua phát
triển ngân hàng số và khả năng phân tích nâng cao. Tuy nhiên, phần lớn các ngân hàng Việt
Nam vẫn đang trong giai đoạn đầu tiên trong lộ trình triển khai QLDLTM.

Theo báo cáo tại Hội thảo khoa học với chủ đề “Quản trị dữ liệu thông minh trong
lĩnh vực ngân hàng, tài chính” được tổ chức ngày 29/9/2020 tại Hà Nội, ngành Ngân hàng
đã luôn chủ động trong việc tiếp cận các nghiên cứu, xây dựng chính sách, tạo điều kiện để
ứng dụng sức mạnh của dữ liệu trong công tác quản lý và phát triển các sản phẩm dịch vụ,
tạo động lực thúc đẩy quá trình chuyển đổi số trong lĩnh vực ngân hàng. Khảo sát tháng
9/2020 của Ngân hàng nhà nước Việt Nam, 50% các ngân hàng đã xây dựng kho dữ liệu
tập trung (Data warehouse), 27% đã xây dựng các hồ dữ liệu (Data lake) để thu thập dữ liệu
thô đến từ các điểm tiếp xúc số, khoảng 50% các ngân hàng đã ứng dụng phân tích dữ liệu
để tối ưu hóa quy trình vận hành, tăng hiệu quả hoạt động, quản trị rủi ro,...

Một số ngân hàng thương mại đã thành lập các bộ phận quản lý dữ liệu chuyên biệt,
có thể kể đến như: BIDV thành lập bộ phận MIS & ALCO từ năm 2008, thành lập Trung
tâm ngân hàng số cuối năm 2019 và đang chuẩn bị thành lập Trung tâm phân tích kinh
doanh và quản lý dữ liệu; VPBank thành lập Trung tâm Phân tích Kinh doanh (BICC) từ
năm 2013; VietinBank thành lập Hội đồng Quản lý Dữ liệu từ 2019…

Thời gian qua, các ngân hàng đã chú trọng đầu tư, triển khai các hệ thống quản lý,
lưu trữ dữ liệu như: ngân hàng TMCP Ngoại thương (VCB) đã hợp tác Công ty tư vấn PwC
chuyển đổi ngân hàng số. Đây là một trong những dự án số hóa trọng tâm VCB đã và đang
triển khai nhằm phục vụ mục tiêu chiến lược chuyển đổi số hóa khép kín của ngân hàng,
giúp thúc đẩy phát triển mạnh mẽ các mô hình kinh doanh sáng tạo dựa trên số hóa nhằm
đạt được các mục tiêu kinh doanh, phục vụ tốt hơn cho khách hàng thông qua các trải
nghiệm số hóa sử dụng nền tảng dữ liệu và công nghệ. Ngân hàng TMCP Công thương Việt
Nam (Vietinbank) luôn chú trọng hạ tầng công nghệ thông tin, vừa qua, đã đưa vào sử dụng

79
giải pháp Quản lý định danh, truy cập cho 20.000 nhân viên khi kết nối với nhiều ứng dụng
khác nhau; xây dựng dự án Kho dữ liệu doanh nghiệp (EDW).

Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam (Agribank) với mục tiêu
phát triển sản phẩm dịch vụ và kênh thanh toán trên nền tảng công nghệ số làm định hướng
phát triển bền vững, đã luôn chủ động nâng cấp, trang bị cơ sở hạ tầng kỹ thuật công nghệ,
phần mềm quản trị dữ liệu Exadata; hệ thống hợp nhất lưu trữ và sao lưu disk-to-disk; triển
khai gói thầu cung cấp thiết bị lưu trữ dữ liệu lịch sử giao dịch Core Banking...; đa dạng
hóa các sản phẩm dịch vụ cũng như kênh cung ứng dịch vụ ngân hàng mới dựa trên nền
tảng công nghệ, Agribank đã đổi mới toàn diện từ quy trình cung cấp sản phẩm dịch vụ, đổi
mới hệ thống kênh phân phân phối, mở rộng danh mục sản phẩm, dịch vụ cho khách hàng
với chi phí thấp hơn… Ngân hàng TMCP Quân đội (MBbank) hợp tác với Infosys, Amigo
triển khai dự án kho dữ liệu tập trung và công cụ báo cáo quản trị (Data Warehouse)…

Bên cạnh những kết quả đạt được, việc ứng dụng QLDLTM vẫn còn nhiều khó khăn,
thách thức. Quá trình xây dựng hệ thống quản lý dữ liệu gặp phải những vấn đề như: có rất
nhiều loại dữ liệu trong hệ thống; logic nghiệp vụ phức tạp; nguồn nhân lực chưa đáp ứng
được yêu cầu; khuôn khổ pháp lý hỗ trợ công tác khai thác dữ liệu lớn, đảm bảo an toàn,
bảo mật dữ liệu cho khách hàng chưa đầy đủ... Môi trường pháp lý thay đổi tương đối nhanh
như yêu cầu về bảo mật thông tin khách hàng; quy định về các dịch vụ mới như eKYC,
P2P; phát triển tiền kỹ thuật số... Ngoài ra, quy mô và chất lượng dữ liệu chưa đủ lớn; việc
thiếu đội ngũ lãnh đạo am hiểu về dữ liệu và nghệ thuật kinh doanh, thay đổi tư duy kinh
doanh theo hướng quyết định, hoạt động trên cơ sở thông tin, dữ liệu cũng là những thách
thức trong khai thác dữ liệu.

3. MỘT SỐ GIẢI PHÁP ĐỂ ỨNG DỤNG QUẢN LÝ DỮ LIỆU THÔNG MINH HIỆU
QUẢ

Có thể nhận thấy quản lý dữ liệu hiện nay là rất cần thiết với các ngân hàng bởi vai
trò và ý nghĩa quan trọng tới sự phát triển và khả năng cạnh tranh của ngân hàng trên thị
trường. Tuy hoạt động quản lý dữ liệu nhận được nhiều sự hỗ trợ từ các đối tác và các công
cụ công nghệ thông minh nhưng đây là hoạt động có rất nhiều thách thức. Để QLDLTM
hiệu quả cho các lĩnh vực nói chung và ngành Ngân hàng nói riêng, cần rất nhiều nỗ lực
của cả hệ thống, trong đó, cần tập trung vào các nhiệm vụ dưới đây:

80
Một, thiết lập tầm nhìn và chiến lược cho hoạt động quản lý dữ liệu. Trước khi triển
khai thu thập, quản lý dữ liệu phải xác định rõ các mục tiêu trong kinh doanh; phải xây
dựng kế hoạch cụ thể, các chính sách, hệ thống quy tắc cho từng quá trình, chức năng trong
QLDLTM. Các ngân hàng cần có lộ trình xây dựng khung quản trị dữ liệu với đầy đủ các
chính sách, quy tắc, quy trình, cấu trúc tổ chức ... Sau đó, các ngân hàng cần văn bản hoá
các nội dung của khung quản trị dữ liệu và phổ biến tới toàn thể cán bộ nhân viên để hoạt
động quản trị dữ liệu được thấu hiểu và nhận được sự hỗ trợ từ toàn hệ thống.

Hai, các ngân hàng nên thành lập một đơn vị chuyên trách, chịu trách nhiệm về quản
lý dữ liệu để đảm bảo sự thống nhất, tin cậy và tính chịu trách nhiệm cao của dữ liệu cũng
như các báo cáo phân tích. Ngân hàng cần phải có cơ chế để đảm bảo rằng bộ phận này
được điều hành bởi lãnh đạo cao cấp, nhân sự làm việc cho bộ phận chuyên trách này cũng
phải có nền tảng kiến thức và hiểu biết sâu rộng cũng như có độ nhanh nhạy cao trong việc
áp dụng công nghệ vào công việc. Ngoài ra, cũng người lãnh đạo cần làm gương cho các
nhân viên về việc thay đổi thói quen, quan tâm việc quản lý dữ liệu nhiều hơn. Để QLDLTM
hiệu quả phụ thuộc nhiều vào người lãnh đạo và văn hoá nội bộ của một tổ chức.

Ba, cần có quy định rõ ràng, phải tạo ra sự minh bạch cho việc kết nối dữ liệu, chia
sẻ và sử dụng dữ liệu. Các ngân hàng cần xây dựng phần mềm và cơ sở dữ liệu dùng chung
phục vụ công tác nghiên cứu, quy hoạch và quản lý trong từng lĩnh vực cùng với cơ chế
hợp lý cho quản lý và chia sẻ dữ liệu tại các đơn vị thành viên trong hệ thống ngân hàng;
đưa ra cơ chế quản lý và chia sẻ cho cơ sở dữ liệu dùng chung. Để thực hiện tốt việc này,
các ngân hàng cần đánh giá hiện trạng các cơ sở dữ liệu, xác định các yêu cầu dữ liệu, phân
loại và chuẩn hóa các dạng số liệu lưu trữ; xây dựng cơ chế chia sẻ, trao đổi dữ liệu dùng
chung và phân tích lựa chọn công nghệ phù hợp cho cơ sở dữ liệu.

Bốn, cần thúc đẩy phát triển, tạo sự bứt phá về hạ tầng công nghệ hỗ trợ cho sự phát
triển ngân hàng; xây dựng các chính sách khuyến khích phát triển sản phẩm, dịch vụ tài
chính ngân hàng dựa trên công nghệ số. Đồng thời ứng dụng những thành tựu CMCN 4.0,
gắn liền với việc vận hành, cung cấp các sản phẩm, dịch vụ hiện đại phù hợp với thị hiếu
của khách hàng hiện nay, trong đó tập trung khai thác vạn vật kết nối (IoT), Big Data, AI...
Thực hiện bảo trì các hệ thống công nghệ thông tin quan trọng như hệ thống MIS, các hệ
thống hợp nhất và lưu trữ, hệ thống máy chủ nâng cao, phần mềm quản trị lưu trữ Exadata...

81
Triển khai các dự án về hạ tầng, thiết bị: Cung cấp hệ thống máy chủ cơ sở dữ liệu tập trung
cho các ứng dụng ngoài hệ thống Core Banking; bổ sung thiết bị hạ tầng lưu trữ tập trung.

Năm, chú trọng vấn đề an ninh, bảo mật. Chuyển đổi số đem đến nhiều cơ hội lớn,
tuy nhiên, đi kèm với đó là các vấn đề đảm bảo an ninh, an toàn cho các hệ thống. Ngày
nay, xu thế tội phạm công nghệ cao tấn công vào lĩnh vực ngân hàng, tài chính tại Việt Nam
đang ngày càng tăng cả về số lượng lẫn mức độ tinh vi, phức tạp và gây ra nhiều hệ lụy
nghiêm trọng. Do vậy, bên cạnh xây dựng nền tảng hạ tầng dữ liệu, cần xem xét bảo mật
dữ liệu theo ba hướng: chính sách bảo đảm bảo vệ dữ liệu; văn hoá (tuyên truyền, giảm rủi
ro về đạo đức) và ứng dụng công nghệ kết hợp như AI, học máy (Machine learning)…

Sáu, có chính sách phát triển nguồn nhân lực phù hợp, trang bị kiến thức về phương
pháp, quy tắc bảo mật dữ liệu, kỹ năng làm việc với dữ liệu cho người lao động; nâng cao
chất lượng đào tạo nguồn nhân lực công nghệ cao, có khả năng ứng dụng công nghệ thông
tin, phương thức làm việc hiện đại, có năng lực đề xuất, tham mưu xây dựng chiến lược,
định hướng, chính sách... Các ngân hàng nên có thể cân nhắc bổ sung vị trí bổ sung chức
danh vị trí giám đốc điều hành dữ liệu (CDO) trong ngân hàng, đồng thời cần làm rõ chức
năng nhiệm vụ của CDOs cũng như các yêu cầu cụ thể về năng lực. Thông lệ quốc tế và
báo cáo của PWC đã khẳng định vai trò rất quan trọng của các CDOs với những sáng kiến
đột phá về quản lý dữ liệu như ứng dụng các nguyên tắc mới thông qua trí tuệ nhân tạo, dữ
liệu lớn, và các phương pháp trích xuất báo cáo tự động…

Bảy, tiếp tục mở rộng hợp tác với các ngân hàng trên thế giới và khu vực thông qua
các hội thảo khoa học, trao đổi cán bộ đào tạo, bồi dưỡng, giới thiệu thành tựu và sản phẩm
trên tinh thần cầu thị hợp tác bình đẳng và tôn trọng lẫn nhau. Tại Châu Âu và một số quốc
gia có quy định tiếp cận theo hướng bắt buộc chia sẻ dữ liệu ngân hàng như Chỉ thị Dịch
vụ thanh toán thứ hai (Payment Service Directive 2 - PSD2), Nền tảng API mở (Open API
Framework) của Cơ quan tiền tệ Hồng Kông (HKMA), Luật về quyền sở hữu dữ liệu của
người tiêu dùng (Consumer Data Right) của Úc..., các sáng kiến ngân hàng mở và xu hướng
các ngân hàng kết nối, hợp tác với Fintech phát triển rất mạnh. Các tiêu chuẩn kỹ thuật, dữ
liệu cũng như an toàn bảo mật trong việc sử dụng Giao diện lập trình ứng dụng (Application
Programming Interface - API) được ban hành tạo điều kiện thuận lợi cho ngành ngân hàng
mở được ban hành, đi đầu là Tiêu chuẩn Ngân hàng mở (Open banking standard) của Anh.

82
Tám, xác định các tiêu chí rõ ràng để đánh giá chất lượng của dữ liệu. Tích hợp,
chuyển đổi dữ liệu, sử dụng các phương pháp, kỹ thuật linh hoạt để chuẩn bị dữ liệu tốt hơn
cho quá trình phân tích. Chất lượng dữ liệu đóng vai trò quan trọng vì đây là một trong số
các yếu tố quyết định tới chất lượng báo cáo phân tích cho dù ngân hàng sử dụng các công
cụ hiện đại như trí tuệ nhân tạo (Artificial Intelligence) hay dữ liệu lớn (Big Data). Dữ liệu
chất lượng sẽ giúp ngân hàng duy trì và nâng cao tính cạnh tranh trong hệ thống cũng như
đảm bảo tính tuân thủ. Dữ liệu nên được lọc, phân loại, làm sạch và lưu trữ một cách hợp
lý. Công việc này hiện nay được sự hỗ trợ rất lớn từ các công cụ số hoá, góp phần làm tự
động hoá, giảm thiểu lỗi cũng như thời gian, nguồn lực để thu thập dữ liệu.

Chín, kiến nghị, đề xuất với Chính phủ, nghiên cứu, xem xét, ban hành luật về bảo
vệ dữ liệu người dùng, luật về bảo vệ quyền riêng tư dữ liệu người dùng nhằm tạo hành
lang pháp lý rõ ràng, đồng bộ về quản lý dữ liệu toàn nền kinh tế, bảo vệ quyền lợi người
tiêu dùng, qua đó, thúc đẩy ngân hàng mở tại Việt Nam.

4. KẾT LUẬN

Việc sử dụng dữ liệu thông minh giúp tăng hiệu quả quản lý hơn rất nhiều lần, nhất
là trong thời đại công nghệ số 4.0, quản lý dữ liệu thông minh giúp cải thiện chất lượng
nguồn dữ liệu mà mỗi ngân hàng thu thập, giúp ngân hàng nhìn thấy một bức tranh tổng
thể về thị trường tài chính tiền tệ và nhu cầu của khách hàng, qua đó đưa ra quyết định,
chiến lược kinh doanh đúng, thúc đẩy tăng doanh số và lợi nhuận cho ngân hàng. Giải pháp
chung được đưa ra đối với hầu hết các ngân hàng thương mại Việt Nam là đổi mới công
nghệ cốt lõi, xây dựng hệ thống quản lý dữ liệu để lưu trữ dữ liệu, khai thác và cung cấp
những thông tin cần thiết trong hoạt động của ngân hàng, qua đó, các ngân hàng thật sự tận
dụng được thế mạnh do dữ liệu mang lại trong hoạt động kinh doanh..

TÀI LIỆU THAM KHẢO

[1] http://tapchinganhang.com.vn/quan-tri-du-lieu-trong-ngan-hang-va-goi-y-cho-viet-
nam.htm
[2] https://www.pwc.com/vn/en/media/media-articles/200929-thoibaonganhang-quan-li-
du-lieu.pdf
[3] http://tapchinganhang.gov.vn/giai-phap-quan-ly-du-lieu-thong-minh-hieu-qua-cho-
cac-ngan-hang-tai-viet-nam.htm
[4] https://ocd.vn/quan-ly-du-lieu/
83
[5] https://aita.gov.vn/quan-tri-du-lieu-yeu-cau-can-thiet-trong-xay-dung-co-so-du-lieu
[6] https://thitruongtaichinhtiente.vn/to-chuc-quan-tri-du-lieu-trong-ngan-hang-thuong-
mai-cac-thong-le-quoc-te-va-ham-y-cho-viet-nam-28699.html
[7] http://tapchinganhang.gov.vn/phat-trien-cong-nghe-so-trong-linh-vuc-ngan-hang-tai-
chinh.htm

84
LỢI ÍCH VÀ THÁCH THỨC ỨNG DỤNG PHÂN TÍCH DỮ LIỆU
VÀ DỮ LIỆU LỚN TRONG KIỂM TOÁN BÁO CÁO TÀI CHÍNH

Lê Thị Kim Thoa


Khoa Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: ltkthoa@ufm.edu.vn

Tóm tắt: Cách mạng công nghiệp 4.0 (CMCN 4.0) sẽ là cơ hội để các công ty kế toán, kiểm
toán nâng cao chất lượng dịch vụ, mở rộng thị trường sang các nước khác nhờ kết nối internet.
Cuộc cách mạng này còn tạo điều kiện cho việc khai thác dữ liệu, nâng cao độ tin cậy của việc lập
báo cáo thông qua các hệ thống tự động kiểm toán và kế toán theo nhu cầu. Tuy nhiên, để áp dụng
được những công nghệ mới vào thực tiễn hoạt động thì cần phải có sự cân nhắc và tính toán kỹ
lưỡng những mặt tích cực và hạn chế tiềm ẩn của những công nghệ mới mà doanh nghiệp sử dụng.
Bài viết sau giới thiệu về dữ liệu lớn và phân tích dữ liệu, xu hướng ứng dụng phân tích dữ liệu và
dữ liệu lớn (Big Data) trong kiểm toán báo cáo tài chính, đồng thời đưa ra những lợi ích và khó
khăn đối với doanh nghiệp kiểm toán khi áp dụng.

Từ khóa: Phân tích dữ liệu, dữ liệu lớn, kiểm toán báo cáo tài chính

1. ĐẶT VẤN ĐỀ
Trong trong kỷ nguyên công nghệ số, dữ liệu và thông tin đã trở thành chiến lược và
quản trị dữ liệu là yêu cầu cấp thiết đối với mọi tổ chức. Các tổ chức luôn luôn sử dụng
thông tin để hỗ trợ trong quá trình ra quyết định và quản lý hoạt động. Vì vậy thông tin cần
phải kịp thời, chính xác và đáng tin cậy.

Hiện nay của các công ty trên thế giới và tại Việt Nam đã và đang ứng dụng phân tích
dữ liệu (Data Analytics - DA) và Big Data trong hoạt động nghề nghiệp của mình và công
ty kiểm toán cũng không nằm ngoại lệ. Những công nghệ mới giúp ích cho kiểm toán viên
(KTV) trong việc phân tích dữ liệu phục vụ quá trình kiểm toán báo cáo tài chính (BCTC).
Đối với bất cứ doanh nghiệp (DN) nào, khi đứng trước lựa chọn áp dụng một công cụ mới,
họ đều phải đánh giá những lợi ích và thách thức của việc áp dụng chúng.

Bài viết đã nêu ra những cơ hội, thách thức từ việc ứng dụng DA và dữ liệu lớn trong
kiểm toán báo cáo tài chính với mong muốn đóng góp một cái nhìn đa chiều hơn cho các
doanh nghiệp kiểm toán Việt Nam trước thách thức áp dụng công nghệ mới trong thực tiễn
nghề nghiệp.

85
2. TỔNG QUAN VỀ BIG DATA VÀ PHÂN TÍCH DỮ LIỆU
2.1. Khái niệm về Big data
Xuất hiện từ những năm cuối thế kỷ 20, Dữ liệu lớn (Big Data) là một thuật ngữ dùng
để chỉ lượng dữ liệu khổng lồ và phức tạp. Big Data được tạo ra bởi các Chính phủ, tổ chức,
doanh nghiệp từ các ngành nghề khác nhau, các cá nhân và thiết bị điện tử, mà công cụ xử
lý dữ liệu truyền thống không còn đáp ứng được nữa.

Theo Gartner Research (2014): “Big Data là tài sản thông tin, mà những thông tin
này có khối lượng dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới
để xử lý hiệu quả nhằm đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn
sâu trong dữ liệu và tối ưu hóa được quá trình xử lý dữ liệu”.

Các đặc điểm về khối lượng dữ liệu (Volume), tốc độ dữ liệu xử lý cần được phân
tích (Velocity) và dữ liệu đa dạng (Variety) mô tả các chức năng làm cho dữ liệu lớn trở
nên độc đáo. Tuy nhiên, như Gartner (2013) giải thích, dữ liệu lớn phải được phân tích hoặc
xử lý một cách sáng tạo để trợ giúp cho việc ra quyết định hữu ích, phù hợp.

2.2. Khái niệm về phân tích dữ liệu


Phân tích dữ liệu là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý
nghĩa trong dữ liệu. Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại,
phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên
cứu hoạt động để định lượng hiệu suất.

Trong DA, số lượng lớn dữ liệu được thu thập và khảo sát đảm bảo đầy đủ để giải
quyết các câu hỏi nghiên cứu cụ thể. Sau đó, các dữ liệu đó được phân tích thông qua các
phần mềm thống kê để xác định mô hình hoặc mối quan hệ của các dữ liệu. Bước tiếp theo
chính là phân tích và diễn giải kết quả của các công cụ xử lý này - đây là bước đòi hỏi phải
có trình độ chuyên môn cao trong lĩnh vực của nhà nghiên cứu. Việc phân tích kết quả dữ
liệu chỉ có thể được hoàn thành bởi các cá nhân với khả năng phân tích hành vi một cách
chuyên sâu như nhận dạng mẫu và tư duy phản biện, vì vậy không thể tự động hóa hoàn
toàn quy trình phân tích dữ liệu được.

Trong thời đại công nghệ kỷ nguyên, nhiều tập đoàn lớn đã có những chiến lược và
hành động để đưa ứng dụng công nghệ mới vào hoạt động kinh doanh. Ví dụ như Tập đoàn
VinGroup đã đầu tư xây dựng Viện Nghiên cứu dữ liệu lớn (Vingroup Big Data Institute)
vào năm 2018 nhằm nghiên cứu các lĩnh vực mũi nhọn trong ngành Dữ liệu lớn, đồng thời
86
nghiên cứu các công nghệ mới có tính ứng dụng cao, áp dụng trực tiếp vào sản phẩm
(VinGroup). Trong đầu năm 2020, Tập đoàn FPT đã triển khai thành công việc xây dựng
hệ thống và phân tích dữ liệu lớn cho Ngân hàng TPBank, đây là hợp đồng đầu tiên về Big
Data của FPT cho các ngân hàng tại Việt Nam, bao gồm các phần chính: Kho dữ liệu Data
Lake được xây dựng dựa trên nền tảng mở Hortonworks Data Platform (HDP)- lưu trữ dữ
liệu lớn, từ nhiều nguồn, bao gồm các nhóm dữ liệu thô và phi cấu trúc; Nền tảng xây dựng
mô hình học máy Watson Studio Local, kết hợp thiết bị IBM Integrated Analytics System
(IIAS) tối ưu cho việc phân tích dữ liệu với tốc độ cao, giảm thời gian huấn luyện mô hình.
Trong thời gian tới, FPT IS sẽ tiếp tục triển khai tư vấn giải pháp Big Data Analyst cho các
ngân hàng Hàng Hải (MSB), Techcombank, Vietinbank, BIDV, Trung tâm Thông tin tín
dụng (CIC)… (theo FPT Information System) cho thấy các DN đã và đang sẵn sàng để ứng
dụng những giải pháp về DA và Big Data trong các hoạt động kinh doanh chính của họ.

Mỗi ngày, nền kinh tế thế giới tạo ra 2.5 exabyte dữ liệu (tương đương dữ liệu chứa
trên 625 triệu đĩa DVD), và rất nhiều ngành nghề với chiến lược trong tương lai sẽ ứng
dụng Big Data và DA trong hoạt động sản xuất kinh doanh của mình.

2.3. Xu hướng ứng dụng phân tích dữ liệu và dữ liệu lớn trong kiểm toán báo cáo tài
chính
Theo quy định trong Chuẩn mực kiểm toán Việt Nam VSA 200: “Mục đích của kiểm
toán BCTC là làm tăng độ tin cậy của người sử dụng đối với BCTC, thông qua việc kiểm
toán viên đưa ra ý kiến về việc liệu BCTC có được lập, trên các khía cạnh trọng yếu, phù
hợp với khuôn khổ về lập và trình bày BCTC được áp dụng hay không”. Để có cơ sở đưa
ra các ý kiến đánh giá này, KTV cần phải tìm hiểu về hệ thống kiểm soát nội bộ của đơn
vị, quy trình làm việc và hệ thống thông tin mà đơn vị sử dụng. Trong khi thực tế hiện nay,
nhiều công ty, tập đoàn lớn đã ứng dụng các tiến bộ kỹ thuật và có đầy đủ cơ sở hạ tầng để
phát triển và xây dựng hệ thống dữ liệu lớn giúp phân tích dữ liệu một cách hiệu quả phục
vụ cho hoạt động sản xuất, kinh doanh và ra các quyết định kinh tế. Như vậy các KTV và
doanh nghiệp kiểm toán cần phải có những hiểu biết và kỹ năng cần thiết để có thể phân
tích các bộ dữ liệu này của DN.

Dữ liệu là trung tâm của kế toán, và do đó dữ liệu lớn có thể giúp kế toán mang lại
nhiều giá trị hơn cho DN. KTV nội bộ hay độc lập cần đi đầu trong ứng dụng dữ liệu lớn
và DA vào thực tiễn nghề nghiệp. Khả năng phân tích toàn bộ tập dữ liệu, mà trong một số
trường hợp có hàng tỷ giao dịch trong sổ kế toán, đang thay đổi cách tiếp cận truyền thống
87
để kiểm toán, dựa trên việc chọn mẫu. KTV cũng có thể sử dụng một loạt các công cụ phân
tích để trực quan hóa dữ liệu, kết nối dữ liệu tài chính, phi tài chính và so sánh kết quả dự
đoán với thực tế.

Dữ liệu lớn và phân tích dữ liệu có liên quan đến kiểm toán BCTC vừa là một thách
thức lớn nhưng cũng có khả năng tạo ra những giải pháp cho chính hoạt động này, đó là
công nghệ mới. Phân tích dữ liệu trong kiểm toán độc lập là sự phát triển từ phần mềm kiểm
toán được triển khai bởi các hãng kiểm toán lớn trên thế giới vào cuối những năm 1990.
Công nghệ ngày nay đang sử dụng đã được hỗ trợ bởi sự phát triển trong các giao diện này
và thông qua chương trình kiểm toán của hàng trăm biến thể trên các khối xây dựng tạo nên
các hệ thống ERP (Enterprise Resource Planning Systems) lớn như Oracle và SAP, cũng
như các hệ thống nhỏ hơn.

Dung lượng của dữ liệu được lưu trữ trong máy tính trong những năm qua liên tục
tăng, cùng với những tiến bộ gần đây về tốc độ xử lý, lưu trữ đám mây và sự gia tăng của
mạng xã hội giúp cho con người dễ dàng truy cập vào dữ liệu và đặc điểm của dữ liệu để
có thể hiểu biết hơn về dữ liệu và lưu trữ chúng cho việc sử dụng sau này. Đồng thời, phần
mềm được sử dụng để phân tích lượng lớn dữ liệu (công cụ khai thác dữ liệu) cũng như
công cụ trực quan hóa dữ liệu phức tạp có thể giúp cho các cá nhân có khả năng tốt hơn
trong việc nắm được bản chất, tính hữu ích của dữ liệu.

Hiện nay, các công ty lớn đã xây dựng các máy chủ của riêng để chứa khối lượng dữ
liệu được phân tích và một số yếu tố như trích xuất và xác thực dữ liệu được vận hành trong
các trung tâm chuyên biệt, một số trong số đó ở nước ngoài. Và cả 4 hãng kiểm toán lớn
nhất thế giới- Big4 đều đã thực hiện những ứng dụng này. Mục đích là để cải thiện chất
lượng kiểm toán nhưng chính những hiểu biết do phân tích dữ liệu cung cấp lại thường có
giá trị to lớn đối với quản lý. Tuy nhiên, hầu hết các hãng kiểm toán nhỏ hơn do chưa đủ
điều kiện đầu tư nên thường thực hiện thông qua Google Analytics và Excel.

Với những công ty kiểm toán Việt Nam là thành viên của các hãng kiểm toán quốc
tế lớn, có uy tín trên thế giới việc áp dụng DA và Big Data trong kiểm toán cũng sẽ được
“thừa hưởng” những công cụ này trong hoạt động. Tuy nhiên, số lượng này không nhiều.
Hầu hết các DN kiểm toán Việt Nam, đặc biệt các công ty vừa và nhỏ, thì chưa có đủ điều
kiện để áp dụng công nghệ này vào thực tiễn nghề nghiệp. Vì vậy, độ sâu và rộng của DA,
dữ liệu lớn và quy trình phân tích bị hạn chế bởi thời gian và chi phí, bao gồm chi phí lưu

88
trữ dữ liệu và các hạn chế của công nghệ. Việc ứng dụng DA và dữ liệu lớn trong hoạt động
kiểm toán đang thực sự cần thiết do nhu cầu về thu thập và quản lý dữ liệu về thông tin
khách hàng và bằng chứng cũng như hồ sơ kiểm toán, tuy nhiên sẽ có nhiều thách thức cần
phải vượt qua trước khi được áp dụng vào thực tế

3. LỢI ÍCH VÀ THÁCH THỨC ỨNG DỤNG DA VÀ BIG DATA TRONG KIỂM
TOÁN BÁO CÁO TÀI CHÍNH

3.1. Lợi ích ứng dụng DA và Big Data trong kiểm toán báo cáo tài chính

❖ KTV có thể kiểm tra số lượng nghiệp vụ nhiều hơn

Trong kiểm toán, bằng chứng kiểm toán luôn cần phải đạt được hai yêu cầu về tính
thích hợp và đầy đủ. DA và dữ liệu lớn có thể cải thiện chất lượng cuộc kiểm toán bằng
cách tăng tính đầy đủ của các bằng chứng thu thập. Hiện nay, KTV áp dụng phương pháp
tiếp cận cuộc kiểm toán dựa trên đánh giá rủi ro và chọn mẫu các giao dịch để xác định số
dư các tài khoản, các giao dịch có được trình bày hợp lý hay không. DA và Big Data sẽ cho
phép KTV tự động kiểm tra các giao dịch và về mặt lý thuyết, 100% mẫu có thể được chọn
kiểm tra. Đối với các dữ liệu và các yếu tố đo lường phi tài chính mà thực tiễn kiểm toán
hiện tại sử dụng không nhiều trong các cuộc kiểm toán, nhưng tương lai sẽ có các công cụ
được phát triển để chạy các mô hình và phân tích dự đoán để giúp KTV phát hiện các rủi
ro kinh doanh và khu vực cần tập trung kiểm toán trong quá trình lập kế hoạch, trong việc
phát hiện gian lận, và giúp đánh giá khả năng hoạt động liên tục của tổ chức.

❖ Chất lượng kiểm toán được gia tăng

Trong tương lai, với việc sử dụng các công cụ phân tích dữ liệu, KTV sẽ có khả năng
kiểm tra 100% các giao dịch của khách hàng. Họ cũng có thể sắp xếp, lọc, và phân tích
hàng chục nghìn hoặc hàng triệu giao dịch để phát hiện ra các bất thường trong qui trình
nghiệp vụ, dễ dàng để tập trung vào các khu vực cần quan tâm và đi sâu vào các khu vực
có rủi ro cao nhất. Điều này hơn hết sẽ giúp KTV đánh giá rủi ro và phát hiện các xu hướng
thông qua quá trình kiểm toán. Với các dữ liệu thông minh của mỗi năm, kiểm toán sẽ thu
thập được những vấn đề cần lưu ý từ các năm trước, đưa ra những khu vực chứa đựng rủi
ro cao và xây dựng một nền tảng kiến thức để thông báo những thông tin tốt hơn cho các
công ty và các nhà đầu tư của họ

89
❖ Gian lận dễ dàng được phát hiện

Các doanh nghiệp sử dụng dữ liêu lớn và DA sẽ dễ dàng phát hiện gian lận vì các
công cụ phần mềm cho phép KTV phân tích các bộ dữ liệu lớn một cách hiệu quả, có thể
được áp dụng với chi phí rất thấp cho các công ty kiểm toán. Những công cụ này, được gọi
là kỹ thuật kiểm toán có sự trợ giúp của máy tính (CAAT). "Kỹ thuật kiểm toán hỗ trợ bằng
máy tính" đã được chấp thuận bởi Liên đoàn Kế toán Quốc tế (IFAC) trong ấn bản năm
2001 (Ciprian-Costel 2014). Các công ty kiểm toán và chuyên gia kiểm toán đã được giới
thiệu nhiều về kỹ thuật này. Các kỹ thuật này đã được cải thiện để hỗ trợ cho các KTV thực
hiện các công việc kiểm toán của họ, tùy thuộc vào thông tin kế toán trên máy vi tính.

❖ Khả năng sử dụng dữ liệu phi tài chính

Việc phân tích dữ liệu trong kiểm toán là khả năng sử dụng dữ liệu phi tài chính và
dữ liệu bên ngoài để cung cấp thông tin tốt hơn cho giai đoạn lập kế hoạch kiểm toán và
kiểm toán hiệu quả hơn. Dữ liệu phi tài chính bao gồm dữ liệu mà công ty tập hợp trong
nội bộ như dữ liệu nguồn nhân lực, dữ liệu khách hàng, dữ liệu thị trường… bên ngoài các
loại bằng chứng BCTC mà KTV thường phân tích. Bên cạnh đó, KTV có thể phát triển các
mô hình có thể dự đoán các sự kiện trong tương lai, thường được gọi là phân tích dự đoán,
sẽ giúp cho KTV có thể hỗ trợ, tư vấn cho khách hàng tốt hơn trong việc đưa ra các quyết
định chiến lược về doanh nghiệp của họ. Dữ liệu bên ngoài được xác định rộng hơn và có
thể bao gồm dữ liệu về các yếu tố và xu hướng kinh tế vĩ mô rộng, dữ liệu ngành, dữ liệu
về đối thủ cạnh tranh và dữ liệu được thu thập thông qua các phương tiện truyền thông xã
hội. Các nền tảng truyền thông xã hội có thể được sử dụng để phân phối các thông tin tài
chính cũng như phi tài chính, và tất cả thông tin này có thể được nắm bắt và lưu trữ trong
cơ sở dữ liệu để sử dụng sau này. Truyền thông xã hội cũng cho phép các công ty nắm bắt
dữ liệu về khách hàng, nhân viên hoặc nhà đầu tư. Dữ liệu này sau đó có thể được sử dụng
để xây dựng các mô hình có thể dự đoán các sự kiện trong tương lai, chẳng hạn như lỗi
hoặc sai phạm trong các báo cáo. Nhược điểm của CAAT truyền thống là không thể nhập
thông tin phi tài chính như mạng xã hội, email công ty, các bài báo… được xem là thiết yếu
để thu được lợi ích đầy đủ từ phương pháp DA trong các cuộc kiểm toán.

3.2. Những thách thức của DA và Big Data đối với kiểm toán báo cáo tài chính

Mặc dù có nhiều lợi ích từ sử dụng DA và Big Data trong kiểm toán, nhưng cũng có
thách thức không nhỏ. Những thách thức này chủ yếu thuộc vào ba vấn đề lớn như sau:
90
❖ Thứ nhất việc đào tạo và tính chuyên môn hóa của KTV

Hiện nay các cơ sở đào tạo KTV vẫn chưa thực sự chú trọng về các kỹ năng như nhận
dạng mẫu và cách đánh giá sự bất thường. Thông thường, KTV mới tốt nghiệp đại học được
đánh giá sẽ thành thạo trong việc hiểu cách áp dụng các quy tắc kế toán và hiểu rủi ro kiểm
toán liên quan đến các tài khoản cụ thể. Các KTV rất thành thạo việc hạch toán một giao
dịch bán hàng chưa thu tiền và hiểu về khả năng doanh thu và các khoản phải thu bị khai
khống như thế nào. Nhưng họ thường không được đào tạo để xem xét liệu các giao dịch đó
có hợp lý không hoặc để xây dựng mô hình ước tính về doanh thu mà sau đó sẽ cho phép
họ nhận ra khi nào có sự bất thường xảy ra, hoặc quan trọng hơn là làm thế nào để theo dõi
sự bất thường khi nó được phát hiện. Ngoài ra đối với KTV việc sử dụng các công nghệ
mới vào kiểm toán cũng là một vấn đề rất khó khăn vì họ chưa được tiếp cận và chưa được
thực hành nhiều trong các cơ sở đào tạo. Vì vậy KTV sẽ thiếu những kỹ năng cần thiết để
áp dụng một cách phù hợp các kỹ thuật DA, và các doanh nghiệp kiểm toán sẽ phải bắt đầu
mở rộng dịch vụ tư vấn để thu hút và thuê các nhà khoa học dữ liệu với kỹ năng DA.

Một số phương pháp các công ty kiểm toán có thể thực hiện để giải quyết các lỗ hổng
về chuyên môn của KTV như: đào tạo KTV về các kỹ thuật DA hoặc thuê ngoài, phần lớn
việc DA từ các trung tâm phân tích của ngước ngoài, và việc thuê ngoài này chỉ cung cấp
cho KTV đầu ra của DA để cung cấp thông tin cho việc ra quyết định liệu có cần thực hiện
các thủ tục kiểm toán bổ sung hay không. Tuy nhiên, vấn đề này cũng đặt ra những thách
thức, đó là độ tin cậy của các bên thuê ngoài, sự đồng ý của khách hàng cho một bên thứ
ba có được thông tin của họ là khó khăn lớn.

❖ Thứ hai là tính khả dụng, tính phù hợp và tính trung thực của nguồn dữ liệu

Thách thức thứ hai tập trung vào tính khả dụng của nguồn dữ liệu, quyền sở hữu dữ
liệu và tính trung thực của dữ liệu. Nhiều khách hàng muốn bảo mật các quyền riêng tư cho
nên không muốn chia sẻ dữ liệu cho KTV.

Vì vậy, đây là một nhược điểm tiềm ẩn trong việc khai thác dữ liệu để phát hiện gian
lận và có rất nhiều khách hàng không cho phép KTV truy cập trực tiếp vào cơ sở dữ liệu
của họ. Vì dữ liệu lớn có thể đến từ cả nguồn bên trong và bên ngoài, do đó KTV cần phải
đánh giá liệu dữ liệu có nguồn gốc từ một nguồn an toàn và liệu nó có thể bị giả mạo trước
khi KTV thu thập được hay không

91
❖ Thứ ba là kỳ vọng của các cơ quan quản lý và người sử dụng BCTC

Trong những năm qua, nghề kiểm toán đã giải quyết được khoảng cách kỳ vọng giữa
sự trông đợi về kết quả và ý nghĩa kiểm toán của những người sử dụng với những chuẩn
mực đòi hỏi KTV phải đáp ứng. Khoảng cách về kỳ vọng xảy ra khi người dùng tin rằng
KTV đảm bảo rằng BCTC được trình bày trung thực hợp lý về mọi mặt, nhưng trong thực
tế, KTV chỉ cung cấp một mức độ đảm bảo hợp lý dựa trên cơ sở chọn mẫu các giao dịch
để kiểm tra thử nghiệm. Khi đã ứng dụng các công nghệ mới vào kiểm toán, thì hội đồng
quản trị và người sử dụng BCTC sẽ yêu cầu các KTV ở một tiêu chuẩn cao hơn về phát
hiện gian lận và trách nhiệm pháp lý trong việc phát hiện các sai phạm của BCTC.

4. KẾT LUẬN

Dữ liệu là trái tim, là trung tâm của kế toán và việc ứng dụng dữ liệu lớn và DA hiện
nay sẽ giúp cho kế toán truyền tải được nhiều giá trị của DN hơn đến người sử dụng thông
tin. Và vì thế, đây là điều tất yếu mà hoạt động kiểm toán cần phải tiên phong để kiểm soát
được việc ứng dụng trong thực tiễn nghề nghiệp. Bài viết tác giả đã giới thiệu về dữ liệu
lớn và phân tích dữ liệu, xu hướng ứng dụng phân tích dữ liệu và dữ liệu trong kiểm toán
báo cáo tài chính, đồng thời đưa ra những lợi ích và khó khăn đối với doanh nghiệp kiểm
toán khi áp dụng.

TÀI LIỆU THAM KHẢO


[1] https://marketingai.admicro.vn/big-data-la-gi/#nguon-goc-va-su-phat-trien-cua-big-
data

[2].https://vi.wikipedia.org/wiki/Ph%C3%A2n_t%C3%ADch_d%E1%BB%AF_li%E1%
BB%87u_(Analytics)

[3] Nguyễn Vĩnh Khương (2017), Ảnh hưởng dữ liệu lớn đến nghề nghiệp kế toán, Tạp
chí Nghiên cứu khoa học kiểm toán

[4]. Nguyễn Thị Thanh Mai (2020), Ứng dụng phân tích dữ liệu và dữ liệu lớn trong kiểm
toán báo cáo tài chính - lợi ích và thách thức đối với các doanh nghiệp kiểm toán, Tạp chí
Khoa học và đào tạo ngân hàng.

92
KINH DOANH THÔNG MINH (BUSINESS INTELLIGENCE)
VÀ GIẢI PHÁP POWER BI CHO DOANH NGHIỆP

Đinh Nguyễn Thúy Nguyệt

Khoa Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: dntnguyet@ufm.edu.vn

Tóm tắt: Trong thời đại công nghệ 4.0, sự tham gia của máy móc kỹ thuật và phần mềm vào
quá trình kinh doanh của doanh nghiệp là điều tất yếu. Kinh doanh thông minh (Business
Intelligence – BI) là sự kết hợp của phân tích kinh doanh, khai thác, trực quan hóa dữ liệu, công
cụ và cơ sở hạ tầng dữ liệu, cũng như các phương pháp hay nhất để giúp các tổ chức đưa ra quyết
định dựa trên dữ liệu (data-driven decisions). Bài viết giới thiệu một số công cụ BI (BI Tools) và
giải pháp Power BI nói riêng, một sản phẩm công nghệ không thể thiếu của doanh nghiệp hiện đại,
hỗ trợ doanh nghiệp hiển thị và phân tích dữ liệu, từ đó khám phá ra những thách thức, cơ hội trên
thị trường.

Từ khoá: business intelligence, BI, kinh doanh thông minh, Power BI

1. TỔNG QUAN VỀ BUSINESS INTELLIGENCE (BI)

➢ Các định nghĩa

Business Intelligence tạm dịch là Kinh doanh thông minh hay trí tuệ doanh nghiệp
(viết tắt là BI). Có rất nhiều định nghĩa về BI, mỗi định nghĩa đề cập đến một đặc trưng nổi
bật của BI.

Định nghĩa 1: Business Intelligence đề cập đến các kỹ năng, quy trình, công nghệ, ứng
dụng được sử dụng để hỗ trợ ra quyết định.

Định nghĩa 2: BI là công cụ để chuyển đổi những dữ liệu thô thành những thông tin có
nghĩa, phục vụ cho mục tiêu phân tích kinh doanh.

Định nghĩa 3: BI là các ứng dụng và công nghệ giúp chuyển đổi dữ liệu doanh nghiệp thành
hành động.

Định nghĩa 4: BI là công nghệ giúp doanh nghiệp hiểu biết về quá khứ và dự đoán tương
lai.

Tóm lại, có thể hiểu BI là quy trình và công nghệ mà các doanh nghiệp sử dụng để
kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể

93
đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Công nghệ BI
(BI Technology) cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp từ quá khứ,
hiện tại và các dự đoán tương lai. Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định
tốt hơn. Vì vậy một hệ thống BI (BI System) còn được gọi là hệ thống hỗ trợ quyết định
(Decision Support System -DSS).

➢ BI có lợi ích gì

BI giúp doanh nghiệp kiểm soát thông tin một cách chính xác, hiệu quả từ đó có thể
hỗ trợ phân tích, khai thác dữ liệu, dự đoán về xu hướng của giá cả dịch vụ, hành vi khách
hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm
gia tăng khả năng cạnh tranh của doanh nghiệp.

Có thể kể đến một số lợi ích thiết thực dễ dàng nhận thấy thông qua việc ứng dụng
BI trong doanh nghiệp như:

- Giúp các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để thích ứng
với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh

- Hỗ trợ nhà quản trị tối đa trong việc đưa ra các quyết định kinh doanh nhanh chóng,
kịp thời, hiệu quả

- Xác định được vị thế và khả năng cạnh tranh của doanh nghiệp

- Phân tích hành vi khách hàng

- Xác định mục đích và chiến lược Marketing

- Dự đoán tương lai của doanh nghiệp

- Xây dựng chiến lược kinh doanh

- Giữ chân được khách hàng cũ và dự đoán khách hàng tiềm năng

- Đáp ứng nhu cầu thu thập báo cáo của các bộ phận

- Cung cấp cái nhìn tổng thể toàn doanh nghiệp

- Hỗ trợ tối đa công tác điều hành, tiết kiệm thời gian và chi phí cho quản trị

- Góp phần thay đổi kỹ năng điều hành, phục vụ khách hàng tốt hơn

- Tạo lợi thế cạnh tranh, gia tăng cơ hội tìm kiếm và nắm bắt các cơ hội kinh doanh

94
- Hỗ trợ người dùng nội bộ trong đánh giá, cải thiện và tối ưu hóa khả năng cũng như
quy trình hoạt động của tổ chức

➢ BI dành cho ai (BI Users)

Rất nhiều người dùng có thể hưởng lợi từ BI, một số đối tượng sau là những người
nhận được nhiều lợi ích nhất từ BI bao gồm:

- Ban quản trị (Executives)

- Người ra quyết định kinh doanh (Business Decision Makers)

- Khách hàng (Customers)

- Phân tích viên (Analysts)

Không chỉ vậy, lý do mà các công nghệ BI nên được phổ biến trong nhiều doanh
nghiệp là:

- Nó hỗ trợ hầu hết các doanh nghiệp thuộc tất cả các kích cỡ và lĩnh vực khác nhau

- Đặc biệt mang lại lợi ích với các doanh nghiệp trong ngành hàng hóa tiêu dùng, F&B

- Mang lại lợi ích tối đa khi được kết hợp với các ứng dụng ERP

➢ Các thành phần chính của BI

- Data sources (nguồn dữ liệu): CRM, dữ liệu từ các nền tảng quảng cáo (Facebook,
Google, Ad networks), Google Analytics, ERP, payment gateway… Tùy thuộc vào
việc cần phân tích, sẽ lựa chọn những nguồn dữ liệu phù hợp để tích hợp vào.

- ETL: là 1 phần mềm có tác dụng Extract (trích xuất), Transform (biến đổi) và Load
(đẩy) dữ liệu vào database. Có thể nói ETL là trái tim của data warehouse vì nó đảm
bảo cho cả hệ thống vận hành trơn tru và chính xác. Vậy nên quyết định sử dụng
ETL nào khá là quan trọng.

- Data warehouse: là cơ sở dữ liệu được thiết kế theo mô hình khác với cơ sở dữ liệu
giao dịch hằng ngày. Dữ liệu của Data warehouse chỉ có thể đọc và chỉ được update
bởi gói ETL chuyển đổi dữ liệu từ Data Sources vào Data Warehouse.

- Dashboards/Visualization Tools: công cụ trực quan hóa và tạo dashboard là hai tính
năng giúp người dùng có thể tổng hợp các dữ liệu một các nhanh chóng và dễ dàng.
BI Dashboard theo dõi kinh doanh là một công cụ quản lý dữ liệu thông qua hình

95
thức trực quan hóa dữ liệu. KPIs được hiển thị trong các BI Dashboard sinh động và
trực quan bằng các biểu đồ đa dạng để người sử dụng có thể nhìn thấu được insights
từ số liệu. Các Dashboard trực quan đều được sử dụng công nghệ để cấu trúc thành
các biểu đồ hoàn chỉnh và số liệu được cập nhật theo thời gian thực. Các biểu đồ
trong Dashboard được cấu thành từ sự kết hợp giữa các trường (dimension) và chỉ
số (metric) tương thích với nhau để phục vụ cho từng ngành hàng, nhu cầu của từng
doanh nghiệp.

2. MỘT SỐ CÔNG CỤ BI ĐƯỢC DÙNG PHỔ BIẾN HIỆN NAY

➢ Tableau

Tableau là công cụ trực quan dữ liệu có giao diện thân thiện với người dùng, dễ dàng
sử dụng các tính năng cơ bản. Khi thiết kế Dashboard, cần tạo ra một worksheet và kéo nó
vào container. Một ưu điểm của Tableau là phần mềm này có cộng đồng khá đông đảo,
người dùng có thể dễ dàng trang bị các kiến thức, kỹ năng và kinh nghiệm từ những người
dùng khác. Tableau hỗ trợ nhiều nguồn dữ liệu như Relational database, NoSQL database,
Multi-dimensional database, Big Data Platform, File data sources (Execl,csv, txt, Json, pdf,
mdb, Tableau).

Sử dụng công nghệ trực quan độc nhất, Tableau có thể nhanh chóng phân tích dữ liệu
bằng cách thể hiện kết quả phân tích bằng màu sắc, hình dạng, kích thước. Giá thành của
Tableau tương ứng với số lượng người dùng. Mức giá này sẽ phù hợp với các doanh nghiệp
lớn thay vì các doanh nghiệp vừa và nhỏ.

➢ FineReport

Với giao diện gần giống Excel và khả năng kéo thả các đối tượng, FineReport là công
cụ rất phù hợp cho những người mới bắt đầu. Bất kì ai đã từng dùng Excel đều có thể nhanh
chóng sử dụng phần mềm này. FineReport cung cấp các điều khiển phong phú giúp dễ dàng
nhập dữ liệu lớn thông qua các biểu mẫu trực tiếp vào cơ sở dữ liệu, với các chức năng như
xác nhận dữ liệu và lưu trữ tạm thời. Ngoài ra, nó còn hỗ trợ nhập dữ liệu Excel trực tuyến
và theo đợt.

Người dùng có thể dễ dàng tạo các báo cáo phức tạp với FineReport. Tuy nhiên, khi
phân tích đa chiều, cần phải tạo một báo cáo cho từng chiều để có thể thiết lập nhiều chi

96
tiết cho một ô dữ liệu. Vì FineReport không có tính năng đề xuất biểu đồ, người dùng sẽ
phải tự lựa chọn loại biểu đồ phù hợp với nhu cầu.

FineReport miễn phí cho cá nhân. Đối với doanh nghiệp, khung giá sẽ phụ thuộc vào
các mô-đun chức năng và người dùng, dao động trong khoảng giữa Tableau và Power BI.

➢ Power BI

Là công cụ BI của Microsoft, nâng các công cụ trực quan dữ liệu của Excel Pivot
Table và Excel lên một tầm cao mới. Được cung cấp video và tài liệu học tập khá chi tiết
để giúp người dùng nhanh chóng làm quen. Power BI có thể kết nối với bất kì phần mềm
Office nào của Microsoft.

Power BI hỗ trợ R, sử dụng khả năng phân tích và trực quan phong phú của R để trình
bày và phân tích dữ liệu nâng cao như dự báo. Bản miễn phí bị giới hạn lượng dữ liệu có
thể xử lý. Khi đã đạt dung lượng 2GB, phải nâng cấp lên bản trả phí để giảm thời gian xử
lý. Nếu doanh nghiệp có ngân sách nhỏ và tìm kiếm mức giá phải chăng, Power BI chính
là câu trả lời. Tuy nhiên, Power BI không hỗ trợ phân quyền đa cấp, không thể kiểm soát
mức độ chi tiết của cấp độ cột được người dùng xem và không kiểm soát hoàn chỉnh quyền
nhóm.

➢ QlikView

QlikView là công cụ BI có giao diện trực quan, đi kèm tính năng tìm kiếm thông
minh, không cần xây dựng khối, phù hợp cho phân tích ad hơn là các phân tích hằng ngày.

QlikView tính toán dữ liệu trong khi dữ liệu chuyển từ backend sang fontend. Vì
không có dữ liệu được tổng hợp hoặc tính toán trước được lưu trữ, nên bộ nhớ hệ thống có
thể được lưu và tốc độ truyền dữ liệu nhanh. Người dùng có thể tìm dữ liệu cả trực tiếp và
gián tiếp. Trực tiếp, có thể nhập dữ liệu và lấy thông tin, gián tiếp, nhập nội dung liên quan
đến dữ liệu mong muốn và nhận tất cả dữ liệu liên quan.

QlikView không thân thiện với người dùng không có kỹ thuật, hạn chế này có thể
khiến người dùng cuối khó khăn để làm quen. Tính năng map charts không hỗ trợ sẵn trong
QlikView.

➢ Sisense

Sisense có giao diện trực quan, vận hành theo cơ chế kéo thả. Cộng đồng online đông
đảo, dù không quá đông như Tableau nhưng tài nguyên ở đây đủ để người mới có thể làm
97
quen và sử dụng. Sisense có tốc độ xử lý nhanh, đặt bất kì câu hỏi nào sẽ nhận câu trả lời
ngay lập tức mà không cần quay lại bản vẽ cho các truy vấn mới nhờ phần mềm động cơ
trong chip.

Sisense dễ dàng tích hợp với các ứng dụng bên thứ ba như Google Adwords, Excel,
Zendesk và Salesforce. Tuy nhiên, lượng biểu đồ bị giới hạn, các tính năng báo cáo và trực
quan có phần cơ bản so với các công cụ khác. Khi làm việc nhóm, chỉ có chủ sở hữu của
thư mục và bảng điều khiển có thể công bố các thay đổi

3. GIẢI PHÁP PHÂN TÍCH DỮ LIỆU POWER BI CHO DOANH NGHIỆP

Power BI là công cụ khai thác dữ liệu kinh doanh của Microsoft dành cho lĩnh vực
BI, dùng để phân tích và trực quan hóa dữ liệu, cung cấp thông tin chi tiết. Người dùng có
thể sử dụng nó để lấy dữ liệu từ nhiều hệ thống trong đám mây và tại on-premises, đồng
thời tạo trang tổng quan theo dõi các chỉ số quan tâm nhất hoặc đi sâu vào và đặt câu hỏi
về ý nghĩa của các dữ liệu này với doanh nghiệp/ hoạt động kinh doanh.

Giao diện của Power BI khá trực quan đối với những người dùng quen thuộc với
Excel và khả năng tích hợp sâu với các sản phẩm khác của Microsoft khiến Microsoft Power
BI trở thành một công cụ tự phục vụ rất linh hoạt mà không cần phải qua đào tạo chuyên
sâu trước.

Một số lý do khiến Power BI trở thành một công cụ mạnh mẽ, hữu ích và được ứng
dụng rộng khắp có thể kể đến như:

- Tương tác trực quan, dễ dàng tích hợp với các phần mềm tin học khác: Nhằm hỗ trợ
các chuyên gia phân tích, Power BI cung cấp Dashboard để điều hướng “kéo và thả”
dữ liệu theo mong muốn, cùng kho thư viện trực quan khổng lồ cho phép tạo những
báo cáo lớn một cách đơn giản và trích xuất cực nhanh. Nằm trong dòng sản phẩm
doanh nghiệp của hãng Microsoft, Power BI tích hợp chặt chẽ với các sản phẩm lưu
trữ thông tin phổ biến khác của Microsoft như Microsoft Excel, Azure và SQL Server
cùng các giải pháp quản lý của Microsoft gồm Microsoft Flow (quản lý quy trình) và
Microsoft Dynamics (giải pháp ERP).

- Truy cập không giới hạn vào dữ liệu cục bộ và dữ liệu đám mây: Power BI có thể thực
hiện data mashup, kết hợp dữ liệu từ nhiều nguồn khác nhau và phân tích dữ liệu bán
cấu trúc (semi-structured data). Người dùng có thể truy cập liền mạch mọi lúc, mọi

98
nơi, không bị giới hạn không gian và thời gian làm việc. Power BI có thể kết nối được
với mọi loại hình kho lưu trữ dữ liệu tại chỗ khác nhau như SQL Server, Oracle hoặc
Hadoop. Đối với kho lưu trữ điện toán đám mây như Google BigQuery hay Azure,
Power BI có sẵn các trình kết nối được nhà phát triển xây dựng trước nhằm tạo nên
trải nghiệm đa nhiệm nhất.

- Power BI cho phép truy cập báo cáo và dashboards ngay lập tức: Power BI cho phép
chia sẻ thông tin dữ liệu và báo cáo với người khác, không bị phụ thuộc vào điều kiện
địa lý, thời gian hay thiết bị. Hệ thống này cũng có tính linh hoạt vì nó hoạt động với
các hệ điều hành hàng đầu – Windows, iOS và Android. Khi những người có quyền
truy cập tiến hành chỉnh sửa, cập nhật dữ liệu, hệ thống sẽ thông báo ngay đến chủ sở
hữu để nhanh chóng phân tích kịp thời.

- Tích hợp không giới hạn với ứng dụng của bên thứ ba: Power BI có thể được tích hợp
trong bất kỳ hệ sinh thái phần mềm nào. Nhờ đó, Power BI có thể kết nối với rất nhiều
phần mềm và công cụ phổ biến của bên thứ ba. Hiện tại, Microsoft vẫn liên tục nghiên
cứu mở rộng khả năng kết nối của hệ thống này, cho phép người dùng nhập thêm
nhiều cơ sở dữ liệu và nguồn dữ liệu.

- Chia sẻ an toàn các báo cáo và phân tích dữ liệu: Người dùng có thể xuất các báo cáo
trực quan trực tiếp lên mạng Internet và gửi qua email cho những người liên quan. Để
đảm bảo an ninh, có thể thiết lập giới hạn quyền truy cập vào báo cáo hoặc thiết lập
các vùng dữ liệu đặc thù, chỉ cho phép những người nhất định truy cập.

- Khả năng mô hình hóa dữ liệu: Mô hình hóa dữ liệu là một trong những chức năng
được sử dụng để kết nối nhiều nguồn dữ liệu trong phần mềm Power BI, bằng các mối
liên kết nhằm chỉ ra các nguồn dữ liệu có mối liên hệ với nhau ra sao. Nhờ đó, những
bản báo cáo giữa các phòng ban không còn rời rạc mà mang tính thống nhất, tổng thể.
Tính chất này của Power BI phù hợp với tất cả các lĩnh vực kinh doanh, trong hoạt
động vận hành cũng như quản lý hiệu suất nhân viên, kiểm soát dòng tiền… có thể áp
dụng để xây dựng mọi mẫu báo cáo quản trị trong tất cả doanh nghiệp, phòng ban.

- Không đòi hỏi phải có kiến thức lập trình: Đối với những ai thường xuyên phải thực
hiện nhiệm vụ phân tích theo yêu cầu cụ thể, Power BI chính là nền tảng giúp làm
công việc hàng ngày một cách đơn giản, dễ dàng, thực hiện phân tích, tính toán nhanh,

99
khả năng hiển thị lớn giúp tiết kiệm thời gian. Khác với nhiều phần mềm quản trị,
người dùng không cần thiết phải có kiến thức lập trình để làm việc với công cụ này.

- Tài liệu hướng dẫn sử dụng sẵn có: Hầu hết người dùng Việt Nam đã quá quen với
giao diện của Microsoft, do đó sẽ nhanh chóng làm quen với Power BI mà không mất
quá nhiều thời gian. Để hỗ trợ người dùng tìm ra giải pháp làm việc tốt nhất, Microsoft
cũng cung cấp sẵn rất nhiều bản chỉ dẫn, video, bài viết… nhằm tối đa hóa tiềm năng
công cụ.

- Khả năng tìm kiếm thông minh: Chức năng tìm kiếm thông minh Q&A của Power BI
là một trong những tiện ích nổi trội, thường xuyên được nhắc đến nhất. Với chức năng
này, người dùng có thể đưa ra những câu hỏi tự nhiên như khi đang “search” trên các
nền tảng tìm kiếm Google, Yahoo, Bing,… và xem kết quả, biểu đồ liên quan đến truy
vấn. Tiện ích này cho phép quét các thông tin ẩn chỉ trong vài giây, thậm chí có thể
chỉ ra được mối tương quan, các trường hợp ngoại lệ hoặc cho thấy xu hướng.

➢ Ai sử dụng Power BI

Mặc dù Power BI là một công cụ BI tự phục vụ mang lại phân tích dữ liệu cho nhân
viên, nó chủ yếu được sử dụng bởi các nhà phân tích dữ liệu và các chuyên gia phân tích
thông tin kinh doanh, những người tạo ra các mô hình dữ liệu trước khi phổ biến báo cáo
trong toàn tổ chức. Tuy nhiên, những người không có nền tảng phân tích vẫn có thể sử dụng
Power BI và tạo báo cáo.

Microsoft Power BI được sử dụng bởi cả đại diện bộ phận và ban quản lý, với các
báo cáo và dự báo được tạo ra để hỗ trợ các đại diện tiếp thị và bán hàng, đồng thời cung
cấp dữ liệu cho việc quản lý về cách bộ phận hoặc cá nhân nhân viên đang tiến triển đến
mục tiêu nào đó.

Ngoài ra, Power BI còn cung cấp cổng quản trị cho quản trị viên để giúp định cấu
hình việc triển khai Power BI, cũng như giám sát sử dụng và giấy phép.

➢ Các tính năng chính của Power BI

Microsoft đã thêm một số tính năng phân tích dữ liệu vào Power BI kể từ khi phát
hành và vẫn tiếp tục như vậy. Một số tính năng quan trọng nhất bao gồm:

100
- Trí tuệ nhân tạo (AI): Người dùng có thể truy cập nhận dạng hình ảnh và phân tích
văn bản trong Power BI, tạo mô hình học máy (machine learning) sử dụng khả năng
học máy tự động và tích hợp với Azure Machine Learning.

- Hỗ trợ triển khai hybrid: Tính năng này cung cấp các trình kết nối tích hợp cho phép
các công cụ Power BI kết nối với một số nguồn dữ liệu khác nhau từ Microsoft,
Salesforce và các nhà cung cấp khác.

- Thông tin chi tiết nhanh (quick insights): Tính năng này cho phép người dùng tạo tập
hợp con dữ liệu và tự động áp dụng phân tích cho thông tin đó.

- Hỗ trợ mô hình dữ liệu chung: Sự hỗ trợ của Power BI cho mô hình dữ liệu chung cho
phép sử dụng tập hợp các lược đồ dữ liệu được chuẩn hóa và có thể mở rộng (thực
thể, thuộc tính và mối quan hệ).

- Tích hợp Cortana: Tính năng này, đặc biệt phổ biến trên thiết bị di động, cho phép
người dùng truy vấn dữ liệu bằng lời nói theo ngôn ngữ tự nhiên và truy cập kết quả,
sử dụng Cortana, trợ lý kỹ thuật số của Microsoft.

- Tùy chỉnh: Tính năng này cho phép các nhà phát triển thay đổi giao diện của các công
cụ báo cáo và trực quan hóa mặc định cũng như nhập các công cụ mới vào nền tảng.

- API để tích hợp: Tính năng này cung cấp cho nhà phát triển mã mẫu (sample code)
và các API để nhúng bảng điều khiển Power BI vào các sản phẩm phần mềm khác.

- Chuẩn bị dữ liệu tự phục vụ: Sử dụng Power Query, các nhà phân tích kinh doanh có
thể nhập, chuyển đổi, tích hợp và làm phong phú dữ liệu lớn (big data) vào dịch vụ
web Power BI. Dữ liệu đã nhập có thể được chia sẻ trên nhiều mô hình Power BI, báo
cáo và trang tổng quan.

- Chế độ xem mô hình hóa: Chế độ này cho phép người dùng chia các mô hình dữ liệu
phức tạp theo lĩnh vực chủ đề thành các sơ đồ riêng biệt, chọn nhiều đối tượng và đặt
các thuộc tính chung, xem và sửa đổi các thuộc tính trong ngăn thuộc tính và đặt các
thư mục hiển thị để sử dụng các mô hình dữ liệu phức tạp đơn giản hơn.

➢ Các bản cập nhật của Power BI

Power BI ban đầu được gọi là Project Crescent và được phát hành vào tháng 7 năm
2011, đi kèm với SQL Server, tên mã là Denali. Sau đó, nó được đổi tên thành Power BI
và được công bố vào tháng 9 năm 2013 với tên gọi Power BI cho Office 365 (nay là
101
Microsoft 365). Khởi đầu dựa trên các tính năng của Excel như Power Query, Power Pivot
và Power View, Microsoft đã thêm nhiều tính năng theo thời gian, bao gồm các tùy chọn
bảo mật và kết nối dữ liệu cấp doanh nghiệp. Power BI được phát hành dưới dạng sản phẩm
độc lập vào tháng 7 năm 2015.

Hiện nay, Microsoft cập nhật ứng dụng Power BI với tính năng và cải tiến mới hàng
tháng. Để nhận các bản cập nhật, người dùng có thể tải xuống phiên bản mới nhất từ trang
Power BI hoặc người dùng Windows 10 có thể tải Power BI Desktop từ Windows Store.

➢ Các thành phần chính của Power BI


Power BI bao gồm một bộ sưu tập các ứng dụng và có thể được sử dụng trên máy tính
để bàn (desktop), dưới dạng sản phẩm SaaS (phần mềm dưới dạng dịch vụ) hoặc trên thiết
bị di động. Power BI Desktop là phiên bản On-premise, Power BI Service là dịch vụ dựa
trên đám mây và mobile Power BI chạy trên thiết bị di động, điện thoại và máy tính bảng.
Các thành phần khác nhau của Power BI nhằm cho phép người dùng tạo và chia sẻ
thông tin chi tiết về doanh nghiệp theo cách phù hợp với vai trò của họ.
Được bao gồm trong Power BI là một số thành phần giúp người dùng tạo và chia sẻ
báo cáo dữ liệu.

- Power Query: một công cụ chuyển đổi và tổ hợp dữ liệu.

- Power Pivot: một công cụ lập mô hình dữ liệu dạng bảng bộ nhớ.

- Power View: một công cụ trực quan hóa dữ liệu.

- Power Map: công cụ trực quan hóa dữ liệu không gian hình học 3D.

- Power Q&A: công cụ trả lời các câu hỏi.

Ngoài ra, có hàng chục nguồn dữ liệu kết nối với Power BI, từ các tệp (Excel, PDF,
Thư mục SharePoint, XML), cơ sở dữ liệu (Cơ sở dữ liệu SQL Server, Cơ sở dữ liệu Oracle,
Cơ sở dữ liệu IBM, Amazon Redshift, Google BigQuery), v.v. , khả năng kết nối dữ liệu
Azure và nhiều dịch vụ trực tuyến (Dynamics 365, Báo cáo Salesforce, Google Analytics,
Adobe Analytics, Facebook và các dịch vụ khác).

➢ Sử dụng Power BI như thế nào

Power BI Desktop là nơi các nhà phân tích và người dùng khác có thể tạo kết nối dữ
liệu, mô hình dữ liệu và báo cáo. Power BI Service là nơi có thể chia sẻ các báo cáo đó, vì
vậy những người dùng khác có thể xem và tương tác với các báo cáo.
102
Xây dựng báo cáo Power BI bắt đầu bằng cách kết nối các nguồn dữ liệu. Sau đó,
người dùng truy vấn dữ liệu để tạo báo cáo dựa trên nhu cầu của họ. Báo cáo được xuất bản
lên Power BI Service và được chia sẻ để người dùng trên cloud và thiết bị di động có thể
xem và tương tác với báo cáo. Có thể thêm quyền để cung cấp cho đồng nghiệp khả năng
chỉnh sửa báo cáo hoặc tạo trang tổng quan hoặc giới hạn khả năng chỉnh sửa của họ.

Để sử dụng tốt Power BI, người dùng cần trang bị nhiều kiến thức khác nhau như:

- Mô hình hóa dữ liệu. Đây là quá trình lấy dữ liệu thô và chuyển hóa thành mô hình
dữ liệu dễ phân tích hơn. Power BI có một công cụ mang tính cách mạng giúp người
dùng thực hiện điều này được gọi là Power Pivot. Khi tìm hiểu cách sử dụng Power
Pivot, người dùng sẽ dần tiến đến mục tiêu thành thạo Power BI.

- Thu thập dữ liệu: Tóm lại, đây là quá trình tìm nạp dữ liệu từ bất cứ nơi nào nó tồn
tại, nhập dữ liệu vào Power BI, sau đó làm sạch và định hình dữ liệu để đáp ứng nhu
cầu của người dùng. Công cụ chính thực hiện quá trình này là Power Query.

- Trực quan hóa dữ liệu: Một khi người dùng đã tải dữ liệu của mình và có cơ sở dữ
liệu được thiết kế để trả lời các câu hỏi kinh doanh, bước cuối cùng, sẽ Power trực
quan hóa dữ liệu để người dùng dễ hiểu hơn. Ở bước này, người dùng cần trang bị cho
mình kỹ năng để có thể trực quan hóa dữ liệu và tạo các báo cáo BI một cách nhanh
chóng, chính xác và đẹp mắt.

4. KẾT LUẬN

Dữ liệu chính là tài nguyên quan trọng nhất của một doanh nghiệp, và tài nguyên này
là vô tận và sẽ không ngừng tăng lên. Nhưng doanh nghiệp sẽ bỏ phí nguồn tài nguyên này
nếu như họ không thể khai thác được nguồn dữ liệu mà họ có. Đó là lý do tại sao chúng ta
cần đến các phần mềm BI (Business Intelligence software) để khai thác những thông tin
quan trọng đến từ những dữ liệu này. Khi kinh doanh thông minh thì sẽ có cái nhìn toàn
diện về dữ liệu của tổ chức mình và sử dụng dữ liệu đó để thúc đẩy sự thay đổi, loại bỏ sự
kém hiệu quả, giúp doanh nghiệp nhanh chóng thích ứng với những thay đổi của thị trường.

TÀI LIỆU THAM KHẢO

[1] https://vinsep.com/kien-thuc/microsoft-kien-thuc/power-platforms/power-bi-la-gi/
[2] https://www.office365vietnam.info/2018/10/09/huong-dan-su-dung-microsoft-power-
bi/
103
[3] https://taca.edu.vn/10-ly-do-khien-power-bi-la-giai-phap-phan-tich-du-lieu-toi-uu-
nhat-cho-doanh-nghiep/
[4] https://www.tsg.net.vn/tu-van-va-phan-tich-du-lieu-thong-minh-cung-power-bi/
[5] https://www.hyperlogy.com/vi/tong-quan-ve-business-intelligence-bi/
[6] https://topdev.vn/blog/business-intelligence-la-gi/
[7] https://www.bacs.vn/vi/blog/cong-cu-ho-tro/top-5-business-intelligence-tools-bi-tools-
cho-doanh-nghiep-trong-nam-2020-8769.html
[8] https://a1digihub.com/power-bi-la-gi/

104
THỰC TRẠNG QUẢN TRỊ DỮ LIỆU
TRONG NGÂN HÀNG THƯƠNG MẠI VIỆT NAM

Lê Thị Kim Thoa


Khoa Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: ltkthoa@ufm.edu.vn

Tóm tắt: Dữ liệu và quản trị dữ liệu có vai trò vô cùng quan trọng đối với mọi tổ chức trong
nền kinh tế. Đối với ngành ngân hàng tài chính, một trong những ngành sở hữu khối lượng dữ liệu
lớn, cũng là ngành đi đầu trong hành trình chuyển đổi mô hình hoạt động theo xu hướng số thì
quản trị dữ liệu trở thành vấn đề sống còn. Đặc biệt, trong thời đại cách mạng công nghiệp 4.0,
dữ liệu có thể trở thành tài nguyên mới cho phát triển kinh tế toàn cầu.

Từ khóa: Quản trị dữ liệu, giải pháp, ngân hàng thương mại

1. ĐẶT VẤN ĐỀ

Trong trong kỷ nguyên công nghệ số, dữ liệu trở thành tài sản chiến lược và quản trị
dữ liệu là yêu cầu cấp thiết đối với mọi tổ chức trong nền kinh tế. Đối với ngành tài chính,
ngân hàng, một trong những ngành sở hữu khối lượng dữ liệu lớn, cũng là ngành đi đầu
trong hành trình chuyển đổi mô hình hoạt động theo xu hướng số thì quản trị dữ liệu trở
thành vấn đề sống còn. Dữ liệu được tận dụng triệt để nhằm tối ưu hóa hành trình và trải
nghiệm khách hàng trên các điểm tiếp xúc số cũng như tối ưu hóa hoạt động nghiệp vụ,
quản trị nội bộ của ngân hàng.

Bài viết đã giới thiệu về quản trị dữ liệu và nêu ra thực trạng quản trị dữ liệu và một
số giải pháp xây dựng hệ thống quản trị dữ liệu trong ngân hàng thương mại Việt nam.

2. TỔNG QUAN VỀ QUẢN TRỊ DỮ LIỆU

2.1. Khái niệm về quản trị dữ liệu

Quản trị dữ liệu (data governance) là thành phần cốt lõi của quản lý dữ liệu (Data
management). Theo IBM Global Business Services, quản trị dữ liệu bao gồm các chính
sách, quy tắc, quy trình, cấu trúc tổ chức và công nghệ được đưa vào như một phần của
chương trình quản trị, cho phép ngân hàng tận dụng dữ liệu như một tài sản của ngân hàng.
Cùng chung quan điểm này, Stringfellow (2018) cho rằng quản trị dữ liệu là thuật ngữ được
sử dụng để mô tả tất cả các quy trình và quản lý dữ liệu của một tổ chức nhất định, bao gồm

105
chất lượng dữ liệu, bảo vệ dữ liệu và sử dụng dữ liệu. Rene Abraham và cộng sự (2019)
cho rằng quản trị dữ liệu xác định một khung chức năng chéo để quản lý dữ liệu như một
tài sản chiến lược của tổ chức bằng việc làm rõ các quy định và trách nhiệm giải trình cho
việc ra quyết định của tổ chức về dữ liệu của mình. Hơn nữa, quản trị dữ liệu chính thức
hóa các chính sách, tiêu chuẩn, quy trình dữ liệu và giám sát việc tuân thủ. Khung quản trị
đưa ra những giải thích cụ thể về sứ mệnh/nhiệm vụ và mục tiêu của chương trình, những
công cụ và tiêu chí để đo lường mức độ thành công của chương trình, cũng như những quy
định cụ thể về nhiệm vụ đưa ra quyết định ….

Quản trị dữ liệu có 2 mục tiêu chính, bao gồm: (i) Hài hòa dữ liệu trong toàn hệ thống
thông qua quy trình phối hợp và chia sẻ giữa các bộ phận trong ngân hàng; (ii) Đảm bảo dữ
liệu được sử dụng đúng cách bằng việc tránh đưa lỗi dữ liệu vào hệ thống và hạn chế khả
năng lạm dụng dữ liệu cá nhân về khách hàng và thông tin nhạy cảm.

Thực tế cho thấy, trong nhiều năm phần lớn các ngân hàng sử dụng dữ liệu rải rác từ
khắp các bộ phận trong hệ thống. Các bộ phận riêng biệt triển khai các hệ thống xử lý giao
dịch chuyên biệt mà không có sự phối hợp tập trung với dữ liệu toàn ngân hàng. Chính vì
vậy, quản trị dữ liệu được hình thành nhằm tập hợp và thống nhất dữ liệu trong toàn hệ
thống ngân hàng. Hơn nữa, quản trị dữ liệu sẽ thiết lập các chính sách thống nhất về việc
sử dụng dữ liệu cũng như thiết lập cơ chế phân quyền và giám sát việc sử dụng dữ liệu
nhằm đạt được sự cân bằng giữa việc thu thập, sử dụng dữ liệu và nhiệm vụ bảo mật. Ngoài
ra, quản trị dữ liệu còn chịu trách nhiệm về tính chính xác của dữ liệu và các báo cáo phân
tích cũng như tính tuân thủ trong việc thu thập, xử lý và sử dụng dữ liệu.

Rouse (2007) cho rằng lợi ích của quản trị dữ liệu mang lại cho ngân hàng là rất lớn,
bao gồm: (i) Chất lượng dữ liệu được cải thiện; (ii) Chi phí quản lý dữ liệu thấp hơn; (iii)
Tăng quyền truy cập vào dữ liệu cần thiết cho những người có liên quan; (iv) Cải thiện việc
ra quyết định kinh doanh bằng cách cung cấp các báo cáo phân tích chất lượng, từ đó sẽ
dẫn đến lợi thế cạnh tranh và tăng doanh thu và lợi nhuận. Như vậy, quản trị dữ liệu ngày
càng trở nên quan trọng hơn khi các ngân hàng ngày càng dựa vào phân tích dữ liệu để tối
ưu hoá hoạt động, thúc đẩy quá trình ra quyết định kinh doanh cũng như thúc đẩy đổi mới,
hiện đại hoá tất cả các hoạt động, sản phẩm và dịch vụ của ngân hàng, và đặc biệt các ngân
hàng phải đối mặt với các quy định bảo mật dữ liệu.

106
2.2 Yêu cầu dữ liệu và vai trò của quản trị dữ liệu

Dữ liệu đang trở thành tài sản quý giá nhất trong mọi doanh nghiệp trên thế giới.
Bằng chứng là các doanh nghiệp công nghệ thông tin đang dần trở thành những ông chủ
mới của nền kinh tế toàn cầu. Trong lĩnh vực tài chính, các NHTM được mô tả là các công
ty công nghệ có các bảng cân đối kế toán đặc biệt. Bởi vì, chúng được phép thu thập thông
tin của khách hàng khi thực hiện giao dịch, từ đó, có được kho dữ liệu khổng lồ của các
khách hàng. Khi công nghệ mới được sử dụng rộng rãi, khả năng kiếm lợi nhuận từ dữ liệu
của các NHTM tăng lên đáng kể. Song, để làm được điều này, các NHTM phải giải quyết
được 4 vấn đề cốt lõi về đặc điểm của dữ liệu.

- Tính sẵn có. Các NHTM cần chắc chắn rằng các dữ liệu được lưu trữ, phân loại và
đảm bảo được duy trì ổn định theo cách thức giúp truy cập thuận tiện nhất. Các công đoạn
xử lý phải được thiết lập một cách chi tiết, cẩn thận rõ ràng tránh việc phải thường xuyên
làm sạch và cấu trúc lại dữ liệu trên từng ứng dụng để phục vụ các công tác phân tích, đánh
giá. Nếu mọi công đoạn được thực hiện đúng, đảm bảo tính sẵn có của dữ liệu thì việc thu
thập, tiếp nhận các dữ liệu từ nhiều kênh khác nhau sẽ trở nên dễ dàng hơn rất nhiều.

- Tính khả dụng. Cùng với việc đảm bảo tính sẵn có, các NHTM cần đảm bảo rằng
dữ liệu được định dạng phù hợp với mục tiêu sử dụng của nhiều bộ phận khác nhau. Yêu
cầu khả dụng này phải đáp ứng đối với mọi dữ liệu của bản thân NHTM cũng như các dữ
liệu thu thập từ các đơn vị bên ngoài để có thể kết hợp sử dụng một cách dễ dàng trong các
hoạt động của ngân hàng.

- Tính toàn vẹn. Tính toàn vẹn dữ liệu được định nghĩa là dữ liệu phải được lấy từ
nguồn hợp pháp và được quản lý theo cách thích hợp để tránh sai lệch, đảm bảo tính tin
cậy. Độ chính xác và chất lượng của dữ liệu là các thuộc tính bắt buộc với dữ liệu để đảm
bảo đầu ra đúng. Để đảm bảo tính toàn vẹn của dữ liệu trong quá trình xử lý, các NHTM
nên theo dõi và thống kê được các dòng dữ liệu cũng như kiểm soát việc chỉnh sửa/thay đổi
dữ liệu không làm mất đi tính toàn vẹn của dữ liệu.

- Tính bảo mật. Tính bảo mật của dữ liệu được đảm bảo nếu quyền truy cập dữ liệu
được quản lý nghiêm ngặt cùng với đẩy mạnh việc phòng/chống truy cập dữ liệu trái phép.
Các bộ phận tạo ra dữ liệu là chủ sở hữu của các bộ dữ liệu được hình thành và có thể có
quyền cho phép các đơn vị khác truy cập/chia sẻ bộ dữ liệu đó. Các NHTM phải phân định

107
trách nhiệm rõ ràng đối với việc bảo mật dữ liệu tại các bộ phận khác nhau và tại các thời
điểm khác nhau trong quá trình tạo và xử lý dữ liệu.

Để đáp ứng được các tiêu chuẩn về dữ liệu này, các NHTM phải xây dựng quy trình
quản trị dữ liệu phù hợp. Quản trị dữ liệu giúp các NHTM đạt được những mục đích sau:

- Quản trị dữ liệu giúp các NHTM tuân thủ đúng được các quy định pháp lý. Hiện nay,
các quy định mới ngày càng tập trung vào vấn đề quản lý dữ liệu, đặc biệt liên quan
đến việc đảm bảo quyền riêng tư và bảo mật đối với các thông tin của khách hàng. Do
đó, quản trị dữ liệu giúp các NHTM đáp ứng được các yêu cầu pháp lý này để tồn tại.

- Quản trị dữ liệu tạo điều kiện để các NHTM đảm bảo an toàn trong hoạt động khi
đáp ứng được các tiêu chuẩn pháp lý về xây dựng hệ thống dữ liệu, thông tin nội bộ.
Đặc biệt là giúp kiểm soát các rủi ro liên quan đến không gian mạng. Các loại rủi ro
ngày càng gia tăng, mở rộng phát triển và bản chất của rủi ro thay đổi nhanh chóng.
Nhất là khi các rủi ro này còn đi kèm với rủi ro về danh tiếng do sự phát triển mạnh
mẽ của truyền thông trong giai đoạn hiện nay.

- Quản trị dữ liệu làm thay đổi đến lực lượng lao động, mô hình kinh doanh… Bởi vì,
các công nghệ như trí tuệ nhân tạo, sổ cái phân tán, tự động hóa quá trình giao dịch…
sẽ làm thay đổi nhanh chóng vai trò của thông tin trong hoạt động của các doanh
nghiệp nói chung và các tổ chức tài chính nói riêng. Khi đó, các doanh nghiệp nói
chung và các NHTM nói riêng sẽ trở thành một tổ chức quyết định dựa trên dữ liệu.

- Quản trị dữ liệu giúp nâng cao khả năng cạnh tranh của các tổ chức tài chính. Trong
xu hướng các doanh nghiệp của nền kinh tế đều phát triển để trở thành các tổ chức
vận hành, quyết định dựa trên thông tin thì khai thác được dữ liệu hiệu quả hơn chính
là thế mạnh cạnh tranh mới của các NHTM. Bởi vì, khi đó, các NHTM sẽ ra quyết
định nhanh hơn, tiết kiệm được chi phí hơn cũng như mang đến nhiều giá trị hơn cho
khách hàng.

Do đó, quản trị dữ liệu sẽ ảnh hưởng đến hoạt động của toàn bộ tổ chức tài chính vì
vậy các tổ chức phải có chiến lược rõ ràng đối với quản trị dữ liệu ở mọi cấp độ. Mỗi NHTM
cần dựa vào đặc điểm về chiến lược kinh doanh, mô hình tổ chức, thiết kế hệ thống công
nghệ, đầu tư vốn, cũng như ảnh hưởng đến thay đổi trong cấu trúc quản lý, báo cáo và vận
hành… để xây dựng khung quản trị dữ liệu riêng.

108
3. THỰC TRẠNG QUẢN TRỊ DỮ LIỆU TẠI CÁC NGÂN HÀNG VIỆT NAM

Tại Việt Nam, một số NHTM bắt đầu chú ý tới việc quản trị dữ liệu từ trước năm
2010. Mặc dù vậy, đến thời điểm hiện nay, phần lớn các ngân hàng vẫn đang ở giai đoạn
đầu của lộ trình triển khai quản trị dữ liệu toàn ngân hàng. Hầu hết các ngân hàng hiểu giá
trị của dữ liệu, tuy nhiên việc coi dữ liệu là “tài sản chiến lược” cũng chưa được định hình
rõ nét, dẫn đến chưa hình thành được văn hóa sử dụng dữ liệu trong hoạt động kinh doanh.

Theo báo cáo của PwC (2016), 69% các định chế tài chính không có quy trình cụ thể
để đảm bảo việc sử dụng hết thông tin. Các dữ liệu của ngân hàng phần lớn vẫn còn ở tình
trạng phân tán, lượng thông tin rác khá lớn, chất lượng dữ liệu vẫn còn chưa cao; mô hình
tổ chức, hiện tại phần lớn các ngân hàng đang chưa có một đơn vị độc lập, chuyên trách
quản trị và khai thác dữ liệu…

Khảo sát của PwC năm 2019 cũng cho thấy, chưa đến một nửa số NHTM có chính
sách và quy trình quản lý dữ liệu toàn hàng hay quy định vai trò của các bên có liên quan
đến dữ liệu. Hơn 66% trong số 33 lãnh đạo của các NHTM cho biết quy định các tiêu chí
đánh giá để đo lường chất lượng dữ liệu chưa được vận hành. Chỉ 18% NHTM đã xây dựng
kiến trúc công nghệ (nền tảng, công cụ…) để hỗ trợ quản lý dữ liệu toàn hàng.

Quy mô và chất lượng dữ liệu chưa đủ lớn/tốt; đội ngũ lãnh đạo am hiểu về dữ liệu
và nghệ thuật kinh doanh; thay đổi tư duy kinh doanh theo hướng quyết định, hoạt động
trên cơ sở thông tin, dữ liệu cũng là những thách thức trong khai thác dữ liệu được TS. Cấn
Văn Lực đề cập tới.

Bên cạnh những hạn chế về quản trị dữ liệu, các NHTM cũng đã đạt được những
thành tựu nhất định bước đầu trong việc ứng dụng công nghệ mới để cải thiện hiệu quả hoạt
động như: Nhằm tăng cường các điểm tương tác và tiếp cận khách hàng, hầu hết các NHTM
đều đã, đang ứng dụng công nghệ tiên tiến, giải pháp mới vào hoạt động thanh toán nhằm
tăng tốc độ thanh toán, tăng cường an toàn, bảo mật dịch vụ, gia tăng trải nghiệm và sự hài
lòng của khách hàng như: Xác thực sinh trắc học (vân tay, khuôn mặt); Thanh toán trên nền
mã phản hồi nhanh (QR code); Thanh toán an toàn, thuận tiện qua mã hóa thông tin thẻ;
Thanh toán phi tiếp xúc; Giải pháp chấp nhận thanh toán linh hoạt trên thiết bị di động...

Hàng loạt NHTM triển khai các hoạt động hướng đến ngân hàng số và việc quản trị
dữ liệu như: Vietcombank thử nghiệm mô hình kinh doanh số, thúc đẩy nhanh quá trình số
hóa, chuyển đổi số và đa dạng các dịch vụ ngân hàng điện tử; TPBank triển khai LiveBank
109
giúp khách hàng đăng ký vân tay và nhận diện khuôn mặt trong vòng 1 phút và công nghệ
định danh điện tử (eKYC) giúp khách hàng đăng ký, đăng nhập tài khoản trong vòng 5 giây;
VIB ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào quy trình phát hành thẻ tín dụng dành
riêng cho mua sắm trực tuyến Online Plus...

Tính đến cuối tháng 8/2020, số tài khoản cá nhân đạt 95,6 triệu, tăng 45,5% so với
cùng kỳ năm 2016; Tổng lượng thẻ lưu hành đạt 109 triệu thẻ. Mạng lưới ATM, POS phủ
sóng đến tất cả địa bàn tỉnh trên cả nước với 19.541 ATM và 274.539 POS. Số lượng và
giá trị thanh toán qua kênh Internet đạt 282,4 triệu giao dịch với 17,4 triệu tỷ đồng (tăng
262,5% và 353,1% so với cùng kỳ năm 2016); Số lượng và giá trị thanh toán qua kênh điện
thoại di động đạt 682,3 triệu giao dịch với gần 7,2 triệu tỷ đồng (tăng 980,9% và 793,6%
so với cùng kỳ năm 2016); Thanh toán qua POS đạt hơn 218 triệu món với 382,86 nghìn tỷ
đồng (tăng tương ứng 176,45% và 139,52% so với cùng kỳ năm 2016); Thanh toán qua
ATM đạt 660 triệu món với 1.818,58 nghìn tỷ đồng (tăng tương ứng 38,65% và 53,77% so
với cùng kỳ năm 2016)…

Hiện nay, Việt Nam hiện có khoảng 30 triệu người sử dụng hệ thống thanh toán ngân
hàng qua internet mỗi ngày. Tốc độ tăng trưởng về lượng giao dịch trên mobile banking tại
Việt Nam là 200%. Giá trị giao dịch tiền với riêng kênh điện thoại di động hiện đạt khoảng
300 nghìn tỷ đồng/ngày.

4. GIẢI PHÁP THÚC ĐẨY QUẢN TRỊ DỮ LIỆU TRONG TÀI CHÍNH - NGÂN
HÀNG VIỆT NAM

4.1. Đối với các cơ quan quản lý

Tiếp tục hoàn thiện hệ thống khuôn khổ pháp lý cho các dịch vụ ngân hàng mới sẽ
nhanh chóng hoàn thiện trong thời gian tới, để các ngân hàng có đầy đủ hành lang pháp lý
nhằm phát triển các sản phẩm số kết hợp dữ liệu thông minh để khách hàng có thể ra quyết
định nhanh chóng. Đặc biệt, việc hoàn thiện các hành lang pháp lý để đảm bảo an ninh, an
toàn thông tin, dữ liệu khách hàng là vô cùng quan trọng trong công tác quản lý dữ liệu lĩnh
vực ngân hàng, tài chính; tạo nền tảng cho việc ứng dụng các công nghệ chủ chốt của cuộc
Cách mạng công nghiệp 4.0, hướng tới sự phát triển vững mạnh, hiện đại của ngân hàng
trong tương lai.

Tạo những cơ sở dữ liệu lớn, dữ liệu thông minh nhờ mức độ tích hợp dịch vụ cao
trong hệ sinh thái tài chính và thực hiện chuyển đổi dữ liệu vào đám mây giúp đẩy nhanh
110
quá trình chuyển đổi. Đồng thời, cần xây dựng tiêu chuẩn thống nhất về mã QR cho thị
trường, xây dựng hệ thống chia sẻ thông tin liên ngân hàng, hoàn thiện các công nghệ liên
quan đến việc sử dụng văn bản điện tử thay cho văn bản giấy, đẩy mạnh ứng dụng chữ ký
điện tử.

4.2. Đối với Ngân hàng Nhà nước

Trong bối cảnh quản trị dữ liệu là xu hướng tất yếu đối với các NHTM, NHNN đã
bước đầu quan tâm đến vấn đề này. Các nội dung yêu cầu đối với hệ thống quản trị dữ
liệu được lồng ghép trong các quy định về an toàn hoạt động của các NHTM tại Thông tư
41/2016/TT-NHNN ngày 30/12/2016 quy định tỷ lệ an toàn vốn đối với ngân hàng, chi
nhánh ngân hàng nước ngoài và Thông tư 13/2018/TT-NHNN ngày 18/05/2018 quy định
về hệ thống kiểm soát nội bộ của ngân hàng thương mại, chi nhánh ngân hàng nước ngoài.
Mặc dù vậy, để các tổ chức tín dụng (TCTD) có thể thực thi hiệu quả, NHNN có thể cân
nhắc đưa ra thêm các hướng dẫn về xây dựng hệ thống quản trị dữ liệu cho các TCTD.
Trong đó, quy định hướng dẫn của NHNN nên tập trung vào việc gợi mở các đặc điểm thiết
yếu đối với quản trị dữ liệu của các TCTD:

Thứ nhất, yêu cầu các NHTM xây dựng bộ máy quản trị dữ liệu hiệu quả. Theo đó,
chức năng về quản trị dữ liệu nên được nhìn nhận như một phần không thể thiếu trong hoạt
động kinh doanh của NHTM. Bởi vì, trên thực tế triển khai tại các quốc gia khác, các chức
năng này không chỉ nhằm đáp ứng các yêu cầu về quy định an toàn mà còn giúp các NHTM
tạo ra được các lợi thế kinh doanh mới.

Thứ hai, yêu cầu NHTM phải đảm bảo được chất lượng các dữ liệu mà họ sở hữu, sử
dụng. Đây là nội dung rất quan trọng để đảm bảo rằng các dữ liệu của từng NHTM nói
riêng và của hệ thống nói chung có chất lượng. Kho dữ liệu của từng NHTM có thể góp
phần tạo thành được hệ thống dữ liệu quốc gia, giúp ích cho hoạt động ra quyết định điều
hành của NHNN.

Thứ ba, khuyến khích các NHTM thực hiện ứng dụng mạnh mẽ các công nghệ mới
trong quản trị dữ liệu. Các NHTM sẽ có thể hưởng lợi rất lớn khi dựa vào công nghệ mới
để dần dần thay đổi được mô thức kinh doanh cũ, tiết giảm đáng kể chi phí ra quyết định,
tạo ra lợi thế cạnh tranh khác biệt và am hiểu khách hàng để thiết kế được các sản phẩm
cạnh tranh hơn.

111
4.3. Đối với các ngân hàng thương mại

Hoạt động quản trị dữ liệu là mang lại lợi ích đầu tiên và lớn nhất đối với bản thân
các NHTM. Trong bối cảnh cạnh tranh nội ngành đang ngày càng gay gắt và cả nước đang
xây dựng các cơ sở dữ liệu chung về dân cư, doanh nghiệp…, các NHTM cần nhanh chóng
tận dụng được lợi thế từ dữ liệu để có thể tìm ra được thế mạnh mới cho hoạt động kinh
doanh. Dựa trên nghiên cứu về hệ thống quản trị dữ liệu tại phần trên, một số đề xuất với
các NHTM được gợi ý như sau:

Hiểu được và ý thức rõ ràng về tầm quan trọng, vai trò cũng như các yêu cầu về quản
trị dữ liệu trong tương lai dài hạn của NHTM. Từ đó, các quyết định về việc phân bổ nguồn
lực, xây dựng chiến lược dài hạn về công nghệ, kinh doanh… sẽ được thực thi trên cơ sở
cân nhắc đầy đủ các yếu tố. Khi đó, các NHTM mới có thể sẵn sàng cho những sự thay đổi
cần thiết trong hoạt động để tận dụng được các giá trị của dữ liệu có thể mang lại.

Triển khai việc quản trị dữ liệu trong NHTM theo đúng nhu cầu, đòi hỏi thực tế tại
từng NHTM. Quá trình triển khai quản trị dữ liệu của NHTM nên bao gồm bốn bước là:
Thiết lập cấu trúc quản trị; xây dựng các chính sách, quy trình; vận hành và thực thi các
chính sách; kiểm soát hiệu quả của quản trị dữ liệu. Tùy theo đặc điểm của từng NHTM,
các lãnh đạo của NHTM sẽ cân nhắc vào nguồn lực để xây dựng được bộ máy, quy trình
quản trị dữ liệu một cách phù hợp với mục đích sử dụng. Trong quá trình đó, các NHTM
nên tham khảo những phương thức thực hiện quản trị dữ liệu của các NHTM quốc tế đi liền
với tuân thủ các quy định pháp lý về an toàn, bảo mật thông tin khách hàng…

Đẩy mạnh ứng dụng công nghệ trong quản trị dữ liệu tại các NHTM giúp khai thác
hiệu quả tài nguyên dữ liệu. Các NHTM Việt Nam đang có nhiều lợi thế để khai thác được
các dữ liệu từ cả các nguồn bên ngoài, bên cạnh các dữ liệu nội bộ. Nhưng để tận dụng
được chúng, không chỉ yêu cầu các NHTM quản trị dữ liệu tốt mà còn cần đẩy mạnh các
công nghệ mới như học máy, trí tuệ nhân tạo… vào quá trình xử lý và ra quyết định. Khi
đó, thế mạnh của quản trị dữ liệu tốt mới thật sự được phát huy tối đa.

5. KẾT LUẬN

Với xu hướng phát triển của nền kinh tế nói chung, quản trị dữ liệu tốt đang dần trở
thành công cụ giúp hoạt động của các doanh nghiệp trở nên hiệu quả hơn. Trong đó, các
NHTM cần đặc biệt chú ý đến vấn đề này còn bởi yêu cầu về an toàn, bảo mật với dữ liệu
khách hàng. Do đó, đầu tư cho quản trị dữ liệu cũng nên được xem là một khoản đầu tư
112
mang tính chiến lược đối với các NHTM và cần được thực hiện một cách bài bản, nghiêm
túc ngay từ đầu.
TÀI LIỆU THAM KHẢO

[1] http://doanhnghiepvn.vn/chuyen-doi-so/cong-nghe-24h/quan-tri-du-lieu-thong-minh-
van-de-song-con-trong-linh-vuc-tai-chinh-ngan-hang/20201001083646739
[2] http://tapchinganhang.gov.vn/quan-ly-du-lieu-thong-minh-vai-tro-tien-phong-trong-
hanh-trinh-so-hoa-ngan-hang.htm
[3] https://vjst.vn/vn/tin-tuc/4012/quan-tri-du-lieu-thong-minh-trong-linh-vuc-tai-chinh--
ngan-hang.aspx
[4] https://thoibaonganhang.vn/quan-ly-du-lieu-thong-minh-vai-tro-tien-phong-trong-
hanh-trinh-so-hoa-ngan-hang-106903.html
[5] https://thitruongtaichinhtiente.vn/to-chuc-quan-tri-du-lieu-trong-ngan-hang-thuong-
mai-cac-thong-le-quoc-te-va-ham-y-cho-viet-nam-28699.html

113
TÌM HIỂU VỀ BA – CHUYÊN VIÊN PHÂN TÍCH NGHIỆP VỤ

Hoàng Thị Mỹ Nhân, Nguyễn Chí Đạt


Khoa Lý luận Chính trị, Trường Đại học Tài chính –Marketing
Phòng Công nghệ Thông tin, Trường Đại học Tài chính –Marketing
Email: hoangnhan@ufm.edu.vn, nguyenchidat@ufm.edu.vn

Tóm tắt: Sự phát triển của thương mại điện tử đi cùng sự phát triển của các công nghệ trí
tuệ nhân tạo, mạng máy tính, thiết bị di động, dữ liệu lớn,… Nghề chuyên viên phân tích nghiệp vụ
trở nên cần thiết cho cuộc cách mạng công nghệ 4.0. Bài viết tìm hiểu về nghề Business Analyst,
công việc và các kỹ năng cần thiết cho khi làm nghề này.

Từ khóa: BA, Business Analyst, phân tích nghiệp vụ

1. BUSSINESS ANALYST LÀ GÌ?

Business Analyst hay còn được viết tắt là “BA”, có nghĩa là một “Chuyên viên phân
tích nghiệp vụ”. Business Analyst chính là người đứng giữa, kết nối khách hàng với bên
kinh doanh và đội kỹ thuật của doanh nghiệp. Hiện nay Business Analyst được chia làm 3
nhánh có chuyên môn chính như sau:

Management Analyst (Chuyên gia tư vấn quản lý): Chuyên gia tư vấn quản lý là
người chuyên đề xuất các cách để cải thiện hiệu quả của công ty hoặc tổ chức. Họ tư vấn
cho các nhà quản lý về cách làm cho các tổ chức hoặc công ty có lợi hơn thông qua việc
giảm chi phí và tăng doanh thu.

Systems Analyst (Chuyên viên phân tích hệ thống): Chuyên viên phân tích hệ thống
là người phân tích và thiết kế kỹ thuật để giải quyết các vấn đề kinh doanh sử dụng technical.
Nhóm người này xác định những cải tiến cần thiết của công ty, thiết kế hệ thống để thực
hiện những thay đổi đó, đào tạo và chuyển giao cho người khác sử dụng hệ thống.

Data Analyst (Chuyên viên phân tích dữ liệu): chuyên viên phân tích dữ liệu là người
sẽ thu thập thông tin và kết quả, sau đó trình bày những dữ liệu này ở dạng đồ thị, biểu đồ,
sơ đồ hoặc bảng biểu và báo cáo lên trên. Tiếp theo họ sẽ sử dụng các dữ liệu này để xác
định xu hướng và dựng mô hình để dự đoán những gì có thể xảy ra.

114
Hình 1: Công việc của một Business Analyst – Business Analyst

2. BUSINESS ANALYST LÀM GÌ?

Công việc của Business Analyst chia làm những giai đoạn như sau:

Bước 1. Làm việc với khách hàng, nghe và hiểu mong muốn của họ. Từ đó gợi ý, lên
yêu cầu, phân tích và đề xuất những giải pháp phù hợp, tạo dựng các quy trình, mô hình
hóa các quy trình, tài liệu hóa các yêu cầu và xác nhận thông tin yêu cầu với khách hàng.

Bước 2. Bước chuyển giao thông tin cho nội bộ nhóm. Bao gồm cả các nhóm phát
triển dự án như quản lý dự án, phát triển dự án, kiểm thử phần mềm, … hay những nhóm
liên quan cho dù đó là nhóm làm cái module nhỏ nhất.

Bước 3. Quản lý sự thay đổi của các yêu cầu từ khách hàng. Bản chất của business là
luôn thay đổi, vì vậy sẽ có những yêu cầu theo thời gian cần phải được cập nhật lại. Do đó,
Business Analyst cần phải phân tích được những ảnh hưởng của sự thay đổi đó đến tổng
thể hệ thống và phải quản lý được sự thay đổi đó qua từng phiên bản được cập nhật trong
tài liệu.

Công việc của Business Analyst được thực hiện dưới rất nhiều vai trò khác nhau
nhưng mỗi người sẽ thực hiện ở một mức độ khác nhau. Theo BABOK ver3.0, công việc
IT Business Analyst được thực hiện bởi 6 vai trò sau.

115
Business Requirement Analyst, người đảm nhiệm vai trò này thường sẽ là người đưa
ra các giải pháp ngay thời điểm ban đầu làm việc với khách hàng. Giải pháp ở đây rất đa
dạng, có thể là: thay đổi chính sách công ty, điều chỉnh quy trình nghiệp vụ hoặc huấn luyện
cho nhân viên. Sau đó mới là đề xuất áp dụng phần mềm, hệ thống hay một giải pháp công
nghệ. Cũng có thể áp dụng nhiều giải pháp với nhau để giải quyết bài toán mà doanh nghiệp
đang gặp phải. Người giữ vai trò này thường là Project Manager, Senior Business Analyst
hoặc Principle Business Analyst. Nói chung thường phải là người có kinh nghiệm và trình
độ thì mới đảm nhiệm tốt vai trò này. Vai trò này xuất hiện thường xuyên nhất trong giai
đoạn Pre-Sales. Thường thì các quản lý dự án hoặc những người làm Business Analyst giàu
kinh nghiệm sẽ tham gia vào quá trình này. Họ sẽ tiếp nhận các vấn đề và yêu cầu ban đầu
của doanh nghiệp. Phân tích một bức tranh toàn cảnh và đưa ra 1 giải pháp tổng quan phù
hợp nhất.

System Analyst, System Analyst thường là vai trò dành cho những người làm kỹ
thuật. Những người này có nhiều kinh nghiệm và rất am hiểu về hệ thống. System Analyst
thường là chuyên gia về một khái niệm kỹ thuật hoặc một phương pháp kỹ thuật phức tạp
nào đó. Như blockchain chẳng hạn. Họ thường tham gia vào các dự án có độ phức tạp về
kỹ thuật cao. Thường có một số dự án liên quan đến dữ liệu phân tán, đưa hệ thống lên mây
hoặc tích hợp hệ thống sẽ cần sự tham gia rất nhiều của các System Analyst. System Analyst
sẽ phân tích hệ thống hiện tại, xem xét các yêu cầu và thiết kế một kiến trúc hệ thống mới
dựa trên những gì đã có.

Business System Analyst, đây là vai trò chính yếu và nổi trội nhất của một người làm
Business Analyst. Theo trình tự timeline của dự án, một người có vai trò Business System
Analyst sẽ có những nhiệm vụ chính như sau: Moi móc và khai thác thông tin từ các
Stakeholders về chức năng và yêu cầu của dự án. Có thể thông qua email, phỏng vấn trực
tiếp hoặc demo hệ thống; Làm tài liệu. Đây là một trong những công việc và kỹ năng rất
quan trọng của Business Analyst. Document thì có rất nhiều loại, mỗi loại dành riêng cho
một Stakeholder; Truyền đạt thông tin. Business Analyst phải đảm bảo được tất cả
Stakeholders đã hiểu đúng các vấn đề. Mà một dự án thì có rất nhiều vấn đề, và có rất nhiều
thông tin cần truyền tải. Business Analyst có kỹ năng ăn nói tốt, giải quyết mâu thuẫn và
giải quyết vấn đề tốt thì thông tin trong dự án được truyền đi rất mượt và nhất quán. Business
System Analyst là vai trò thường gặp nhất đối với một người BA.

116
Functional Analyst, vai trò của người này gần giống như Business System Analyst.
Nhưng thay vì phát triển mới một sản phẩm giải pháp từ hư vô (build from scratch), người
làm Functional Analyst sẽ dựa trên một sản phẩm hay một platform sẵn có. Từ đó cấu hình
hoặc cài đặt sao cho sản phẩm đó tương thích được với yêu cầu của khách hàng. Giúp giải
quyết bài toán mà doanh nghiệp gặp phải. Trên thị trường có rất nhiều ông lớn cung cấp
các sản phẩm hoặc nền tảng sẵn có như: Microsoft, SAP, Oracle, Sharepoint, Salesforce, ...

Agile Analyst, người giữ vai trò Agile Analyst sẽ có trách nhiệm đảm bảo người được
chuyển giao thông tin một cách chính xác, kịp thời và phù hợp với các đối tượng
Stakeholder. Ngoài ra, Agile Analyst là vai trò không thể thiếu trong các dự án triển khai
theo phương pháp Agile như Scrum chẳng hạn. Chuyển giao những gì đã cam kết với khách
hàng là một trong những yếu tố cực kỳ quan trọng trong dự án Agile. Do đó Agile Analyst
đóng một vai trò rất quan trọng trong dự án kiểu như vậy.

Service Request Analyst, thường thì Business Analyst sẽ giữ vai trò này trong giai
đoạn triển khai giải pháp cho khách hàng (transition). Người giữ vai trò Service Request
Analyst sẽ có nhiệm vụ huấn luyện cho những người dùng cuối, thực hiện các buổi User
Acceptance Test (UAT), xử lý khi gặp lỗi nếu có và có thể là tiếp nhận thêm những yêu cầu
tính năng mới từ phía khách hàng.

Business Analyst có 6 vai trò khác nhau, nhưng không phải mỗi người chỉ được đảm
nhận một vai trò. Mà là một người làm Business Analyst phải đảm nhận nhiều vai trò cùng
một lúc. Thường thì Business Requirement Analyst là vai trò dành cho Project Manager
hoặc Business Analyst nhiều năm kinh nghiệm. Còn hầu như một người làm Businesss
Analyst bình thường đều đảm nhận các vai trò còn lại. Riêng những người nào có vai trò
Business System Analyst thì sẽ không có vai trò Functional Analyst. Và ngược lại, người
làm Functional Analyst sẽ không làm Business System Analyst. Nhưng các vai trò khác
vẫn được đảm bảo.

3. CÁC KỸ NĂNG CẦN CÓ CỦA MỘT BUSINESS ANALYST

Communication Skills - Kỹ năng giao tiếp

Bởi bản chất của công việc, các Business Analyst dành rất nhiều thời gian tương tác
với người sử dụng, khách hàng, người quản lý và đội dự án phần mềm. Thành công của
một dự án có thể phụ thuộc vào các Business Analyst giao tiếp rõ ràng các chi tiết như yêu
cầu dự án, thay đổi yêu cầu và kết quả thử nghiệm. Kỹ năng ngoại ngữ thành thạo và khả
117
năng giao tiếp bằng văn bản là kỹ năng thiết yếu đầu tiên trong sự nghiệp của một Business
Analyst. Các Business Analyst cần giao tiếp rõ ràng các chi tiết như yêu cầu dự án, thay
đổi yêu cầu và kết quả test, đây là các yếu tố quan trọng quyết định thành công của một dự
án hay không. Ngoài ra kỹ năng ngoại ngữ và khả năng sử dụng văn bản để giao tiếp cũng
là kỹ năng thiết yếu đầu tiên trong sự nghiệp của một Business Analyst. Với bản chất của
công việc, các Business Analyst dành rất nhiều thời gian tương tác với người sử dụng,
khách hàng, người quản lý và đội nhóm làm phần mềm.

Technical Skills - Kỹ năng công nghệ

Để xác định các giải pháp kinh doanh, một Business Analyst nên biết những gì là các
ứng dụng công nghệ thông tin đã và đang được sử dụng, những gì là kết quả mới có thể đạt
được thông qua các nền tảng công nghệ thông tin hiện tại và những công nghệ gì đang được
ứng dụng mới nhất. Kiểm tra phần mềm (testing) và phân tích thiết kế hệ thống kinh doanh
cũng là những kỹ năng phân tích kỹ thuật quan trọng. Để đạt được sự tôn trọng và tạo ra
một cảm giác tự tin giữa ứng dụng công nghệ thông tin và người sử dụng nghiệp vụ cuối
cùng đòi hỏi một Business Analyst cần phải có sự tự tin về kinh doanh và công nghệ, và
cần chứng tỏ một khả năng kỹ thuật cao, mạnh mẽ. Để giao tiếp với khách hàng bạn cần
dùng ngôn ngữ kinh doanh, còn để giao tiếp với đội nhóm kỹ thuật thì chắc chắn bạn phải
có kỹ năng này.

Analytical Skills - Kỹ năng phân tích

Kỹ năng làm nên một Business Analyst tốt bao gồm các kỹ năng phân tích xuất sắc
để xác định các nhu cầu kinh doanh của khách hàng được hiểu đúng và truyển đạt chính
xác với các đội nhóm khi chuyển vào các ứng dụng. Mặc khác, công việc của Business
Analyst đôi lúc phải phân tích số liệu, tài liệu, các kết quả khảo sát với người sử dụng đầu
tiên và quy trình làm việc để xác định quá trình xử lý để khắc phục vấn đề kinh doanh của
khách hàng. Kỹ năng phân tích mạnh là lợi thế của một Business Analyst thành công.

Problem Solving Skills - Kỹ năng xử lý vấn đề

Khả năng xử lý vấn đề không chỉ là kỹ năng duy nhất của riêng nghề Business Analyst
mà còn là một kỹ năng cần thiết để tạo nên thành công của mọi nghề nghiệp. Như với hầu
hết các vai trò khác trong ngành công nghệ thông tin, công việc của các Business Analyst
thường xuyên thay đổi. Khi các chuyên gia đang làm việc để phát triển các giải pháp kinh
doanh của khách hàng, không có gì là bảo đảm 100% có thể đoán trước được - do đó việc
118
tìm ra cách nhanh nhất để nhanh chóng giải quyết vấn đề và tiến tới hoàn thành thành công
của dự án là một trong những điều quan trọng của một Business Analyst giỏi.

Decision Making Skills - Kỹ năng ra quyết định

Một kỹ năng phân tích nghiệp vụ quan trọng khác là kỹ năng đưa ra quyết định. Là
một người tư vấn quản lý và cố vấn cho các lập trình viên, các chuyên viên phân tích nghiệp
vụ là người đưa ra các ý kiến và đưa ra hướng xử lý đầu tiên trong một loạt các vấn đề kinh
doanh của khách hàng có liên quan và quyết định đó có thể xác định khả năng tồn tại của
một doanh nghiệp. Một Business Analyst nên có khả năng đánh giá tình hình tốt, tiếp nhận
đầu vào từ các bên liên quan như khách hàng và các bộ phận trong doanh nghiệp của khách
hàng và chọn ra một hướng xử lý hợp lý hợp pháp nhất với tình hình của các bên liên quan.

Managerial Skills - Kỹ năng quản lý

Một kỹ năng khác mà chuyên viên phân tích nghiệp vụ cần có là kỹ năng quản lý dự
án công nghệ thông tin. Lập kế hoạch phạm vi dự án, chỉ đạo các nhân viên tham gia vào
dự án, xử lý các yêu cầu thay đổi từ phía khách hàng, dự báo ngân sách, kinh phí cho dự án
và giữ tất cả mọi người trong dự án trong vòng ràng buộc thời gian quy định chỉ là một số
trong những kỹ năng quản lý mà một chuyên viên phân tích nghiệp vụ nên có.

Negotiation and Persuasion Skills - Kỹ năng đàm phán và thuyết phục

Một chuyên viên phân tích nghiệp vụ như là cầu nối giữa các nhà phát triển và người
sử dụng, khách hàng và các công ty, các nhà quản lý và công nghệ thông tin. Tìm kiếm sự
cân bằng giữa mong muốn cá nhân, nhu cầu kinh doanh và lợi ích khách hàng, và sau đó
tương tác với nhiều loại đối tượng để hướng tới một giải pháp hoặc giải pháp tích hợp mà
có tác dụng cả với nghiệp vụ kinh doanh của khách hàng thì cần phải có một kỹ năng đàm
phán và thuyết phục chuyên nghiệp. Khi cạnh tranh cho các dự án của khách hàng, kỹ năng
đàm phán của một chuyên viên phân tích nghiệp vụ phải sử dụng thường xuyên để đạt được
mục tiêu, đạt được một kết quả có lợi cho công ty và một giải pháp làm việc tốt cho cả
khách hàng, đối tác. Để duy trì các mối quan hệ trong một tổ chức và với các đối tác bên
ngoài đòi hỏi một Business Analyst phải có kỹ năng đàm phán và thuyết phục mạnh mẽ

4. LÀM THẾ NÀO ĐỂ TRỞ THÀNH CHUYÊN VIÊN PHÂN TÍCH NGHIỆP VỤ?

Nếu bạn làm việc lâu trong nghề Business Analyst, bạn sẽ có cơ hội cọ xát với nhiều
lĩnh vực khác nhau. Chính điều này sẽ giúp bạn tích luỹ kinh nghiệm cho bản thân, tìm ra

119
cách giải quyết công việc hiệu quả hơn, mất ít thời gian hơn, đồng thời giúp bạn phát triển
nhanh hơn trong nghề đã chọn. Hiện nay không phải chỉ có những người thuộc lĩnh vực
công nghệ thông tin mới làm được công việc này. Vậy đối với từng đối tượng ở các lĩnh
vực ngành nghề khác nhau, thì họ sẽ cần bổ sung kiến thức gì để trở thành một chuyên viên
phân tích nghiệp vụ chuyên nghiệp?

Để trả lời câu hỏi này, tạm thời tôi sẽ chia ra 3 nhóm đối tượng với các xuất phát điểm
khác nhau như sau:

Nhóm thứ 1: Bao gồm những người chỉ chuyên về lĩnh vực công nghệ thông tin (Ví
dụ: Database, Developer, Tester, Designer, ...)

Nhóm thứ 2: Bao gồm những người chuyên về các lĩnh vực khác lĩnh vực công nghệ
thông tin (Ví dụ: quản trị, kế toán, bán hàng, dịch vụ,...)

Nhóm thứ 3: Bao gồm những người vừa có kiến thức về công nghệ thông tin, vừa
nắm được kiến thức cơ bản ở các lĩnh vực khác (Ví dụ: quản lý hệ thống thông tin, quản lý
quy trình phần mềm, hệ thống thông tin kế toán, …)

Cùng phân tích kỹ hơn cho từng nhóm đối tượng để tìm ra họ cần những gì để trở
thành một Business Analyst.

Đối với nhóm thứ 1, nhóm những người chỉ chuyên về lĩnh vực công nghệ thông tin,
họ có thể là lập trình viên (developer), chuyên viên kiểm thử phần mềm (QC, Tester),…
Kiến thức của họ chuyên về kỹ thuật, nên nếu muốn trở thành một chuyên viên phân tích
nghiệp vụ, họ cần bổ sung thêm những kiến thức cơ bản về các nghiệp vụ phi kỹ thuật (Ví
dụ như kế toán, quản trị, nhân sự, tài chính,…). Thường thì những người thuộc lĩnh vực
này sẽ dễ dàng hơn trong việc trở thành một Business Analyst. Bởi ngoài kiến thức nền
tảng chuyên về công nghệ thông tin, thì tuỳ vào từng lĩnh vực dự án và tuỳ vào mức độ
chuyên sâu của lĩnh vực đó, mà họ sẽ chỉ cần tìm hiểu thêm những kiến thức liên quan và
chuyên sâu đến cỡ nào đó mà thôi. Business Analyst xuất thân từ công nghệ thông tin
thường làm trong các công ty outsource, hay các công ty chuyên về phần mềm, bởi những
công ty này đòi hỏi kiến thức về kỹ thuật cao hơn nhằm đưa ra những giải pháp phù hợp và
có được sản phẩm bàn giao tốt nhất. Tuy nhiên, đa phần thì dân công nghệ thông tin thường
có kỹ năng mềm (soft skills) không tốt mấy, nên để làm chuyên viên phân tích nghiệp vụ
tốt hơn, họ cần cải thiện rất nhiều về những kỹ năng này, đặc biệt là kỹ năng giao tiếp
(communication skills) và kỹ năng tương tác (interactive skills).
120
Nhóm thứ 2, nhóm những người chuyên về các lĩnh vực khác công nghệ thông tin.
Nhóm đối tượng này bao gồm những người ở các lĩnh vực như nhân sự, tài chính, kế toán,
ngân hàng, du lịch,… Họ không chuyên, đôi khi không hiểu được các thuật ngữ, cũng như
những vấn đề liên quan đến kỹ thuật. Vậy để trở thành chuyên viên phân tích nghiệp vụ, họ
cần cố gắng rất nhiều. Ngoài nền tảng chuyên môn về kinh tế sẵn có, họ cần học, hiểu thêm
và nắm được những công cụ, kỹ thuật liên quan đến công nghệ thông tin mà một Business
Analyst thường sử dụng. Đồng thời, họ cũng cần tìm hiểu thêm những thuật ngữ thông dụng
về kỹ thuật để có thể thực hiện tốt vai trò “cầu nối” của mình. Lợi thế thường thấy của nhóm
đối tượng này đó là về kỹ năng mềm, đa phần những người thuộc lĩnh vực kinh tế họ sẽ có
xu hướng năng động, linh hoạt và kỹ năng giao tiếp cũng tốt hơn. Business Analyst không
xuất thân từ kỹ thuật thường làm trong các công ty, tổ chức, doanh nghiệp chỉ liên quan đến
một lĩnh vực chuyên môn nào đó nhất định. Bởi thông thường ở những nơi này thì Business
Analyst vẫn đóng vai trò cầu nối, nhưng sản phẩm cuối cùng mà Business Analyst cùng
nhóm phát triển phần mềm tạo ra phục vụ cho mục đích sử dụng nội bộ. Do đó, Business
Analyst lúc này cần có kiến thức chuyên sâu về nghiệp vụ hơn.

Nhóm thứ 3, nhóm những người vừa có kiến thức về công nghệ thông tin, vừa nắm
được kiến thức cơ bản ở các lĩnh vực khác. Những người thuộc nhóm này thường là những
lập trình viên, quản lý dự án lâu năm, đã trải qua nhiều dự án ở các lĩnh vực khác nhau,
hoặc họ được đào tạo với chuyên ngành Hệ thống thông tin quản lý (MIS – Management
Information System). Kiến thức chuyên môn của họ sẽ bao quát hết mọi lĩnh vực (vừa công
nghệ thông tin, vừa kinh tế). Do đó, nhóm đối tượng này sẽ dễ dàng trở thành chuyên viên
phân tích nghiệp vụ nhất. Điều họ cần làm là bổ sung thêm các kỹ năng mà bản thân còn
yếu mà thôi.

5. KẾT LUẬN

Bài viết đã giới thiệu nghề Business Analyst – chuyên viên phân tích dữ liệu, đã cho
thấy một hướng lựa chọn khác nữa với mức độ tương thích khá cao cho sinh viên học ngành
hệ thống thông tin quản lý. Chọn lựa được một công việc phù hợp với sở thích, hoàn cảnh
và khả năng của bản thân không phải là quá khó. Hi vọng bài viết này sẽ giúp cho bạn tìm
được một hướng đi mới trên con đường sự nghiệp

TÀI LIỆU THAM KHẢO

[1] http://business-analyst.net/guide/analyst.html
121
[2] http://www.villanovau.com/resources/business-analysis/business-analyst-role/#.V-
JF9iF97Dc
[3] http://www.bacs.vn/vi/blog/nghe-nghiep/ba-con-duong-khong-chi-danh-rieng-cho-
cac-it-ers-528.html
[4]. https://vi.wikipedia.org/wiki/Phân_tích _dữ_liệu
[5]. https://en.wikipedia.org/wiki/Analytics

122
QUẢN TRỊ DỮ LIỆU LỚN TRONG HỆ THỐNG IoT1
VỚI CÔNG NGHỆ ĐIỆN TOÁN ĐÁM MÂY, SƯƠNG MÙ, BIÊN

Trần Trọng Hiếu


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: tt.hieu@ufm.edu.vn

Tóm tắt: Công nghệ 4.0 hiện nay đang được phát triển và ứng dụng rộng rãi, trong đó mạng
lưới vạn vật kết nối Internet (IoT - Internet of Things) đang được nghiên cứu trong nhiều lĩnh vực
của cuộc sống. Trong đó việc quản trị và xử lý dữ liệu lớn một cách thông minh trong hệ thống IoT
là một vấn đề đang được quan tâm nghiên cứu. Bài tham luận này trình bày: tổng quan về Mạng
lưới vạn vật kết nói Internet và các công nghệ quản trị dữ liệu lớn: điện toán đám mây, điện toán
sương mù và điện toán biên; giới thiệu một số ứng dụng trong hệ thống IoT vận hành với ba công
nghệ quản trị dữ liệu lớn đã trình bày. Với cách diễn giải – tổng hợp thông tin, minh hoạ ứng dụng
có liên quan các công nghệ đã trình bày; bài tham luận mong có thể là rõ hơn cách quản trị dữ
liệu của ba công nghệ trong hệ thống IoT đã và đang được phát triển trên thế giới hiện nay.

Từ khóa: Mạng lưới vạn vật, Điện toán đám mây, Điện toán sương mù, Điện toán biên

1. TỔNG QUAN
1.1. Mạng lưới vạn vật kết nối Internet

Năm 2013, tổ chức Global Standards Initiative on Internet of Things (IoT-GSI) đã


định nghĩa IoT (Internet of Things - Mạng lưới vạn vật kết nối Internet) là "hạ tầng cơ sở
toàn cầu phục vụ cho xã hội thông tin, hỗ trợ các dịch vụ thông qua điện toán xử lý chuyên
sâu thông qua các vật thể (cả thực lẫn ảo) được kết nối với nhau nhờ vào công nghệ thông
tin và truyền thông hiện hữu được tích hợp," và với mục đích ấy một "vật" là "một thứ trong
thế giới thực (vật thực) hoặc thế giới thông tin (vật ảo), mà vật đó có thể được nhận dạng
và được tích hợp vào một mạng lưới truyền thông". (Nguồn: wikipedia)

Như vậy mạng lưới vạn vật kết nối Internet, được hiểu như là mạng lưới nhiều thiết
bị kết nối Internet trong các liên mạng. Trong đó các thiết bị được sử dụng hàng ngày, các
phương tiện, các phòng-nhà,… được xem là những "thiết bị kết nối" và được xử lý và vận
hành như là các "thiết bị thông minh". Các thiết bị này được thiết kế “nhúng” với các bộ

1
Internet of Things

123
phận điện tử, phần mềm, cảm biến, cơ cấu tự vận hành cùng với khả năng kết nối mạng
máy tính điều khiển giúp cho các thiết bị này có thể thu thập và truyền tải dữ liệu, tất cả các
nối kết đó được xem như là hệ thống IoT.

Theo đó, trong hệ thống IoT cho phép các vật thể sử dụng sẽ được cảm nhận hoặc
được điều khiển từ xa thông qua hạ tầng mạng hiện hữu, tạo cơ hội cho thế giới thực được
tích hợp trực tiếp hơn vào hệ thống điện toán, hệ quả là hiệu năng, độ tin cậy và lợi ích kinh
tế được tăng cường bên cạnh việc giảm thiểu sự can dự của con người.

Khi hệ thống IoT được trang bị thêm cảm biến và cơ cấu tự động chấp hành, thì hệ
thống vận hành theo công nghệ này trở thành một dạng thức của hệ thống ảo - thực; hay
được hiểu tự động tương tác giữa hệ thống máy tính điều khiển đến các thiết bị. Khi đó,
tính tổng quát tự động hoá hoạt động sẽ được ứng dụng công nghệ trong các hoạt động
trong xã hội, bao gồm: điện lưới thông minh, nhà máy điện ảo, nhà thông minh, vận tải
thông minh và thành phố thông minh,.v.v. Trong ngữ cảnh đó, Mỗi vật được nhận dạng
riêng biệt trong hệ thống điện toán nhúng và có khả năng phối hợp với nhau trong cùng hạ
tầng liên mạng Internet. Việc kết nối liên mạng trên thực tế hiện nay đã được phát triển qua
nhiều công nghệ, có thể thực hiện qua hệ thống Wi-Fi, mạng viễn thông băng rộng tốc độ
nhanh (*G), Bluetooth, ZigBee, hồng ngoại…

Theo các chuyên gia dự báo tính đến


năm 2020, hệ thống IoT sẽ bao gồm khoảng
chừng trên 30 tỉ vật thể: thiết bị, phương tiện,
cơ sở vật chất,… Khi tự động hóa có kết nối
internet được triển khai đại trà ra nhiều lãnh
vực, hệ thống IoT được dự báo sẽ tạo ra lượng
dữ liệu lớn (Big Data) từ đa dạng nguồn, kéo
theo sự cần thiết cho việc: kết tập dữ liệu
nhanh, gia tăng nhu cầu đánh chỉ mục, lưu trữ, Hình 1: Mô hình Mạng lưới vạn vật kết nối
Internet - IoT (nguồn: wikipedia)
và xử lý các dữ liệu này hiệu quả hơn.

1.2. Công nghệ Điện toán Đám mây – Cloud Computing

Công nghệ điện toán đám mây là vấn đề thiết yếu đặt ra theo yêu cầu về các tài nguyên
cho hệ thống máy tính; đặc biệt là khả năng lưu trữ trên đám mây dữ liệu (iCloud) và đồng
thời là khả năng tính toán tự động xử lý dữ liệu mà không cần sự quản lý chủ động trực tiếp
124
của người dùng. Hiện nay, điện toán đám mây được mô tả như là các trung tâm dữ liệu, với
vai trò sẵn sàng phục vụ cho nhiều người dùng thông qua mạng lưới Internet. Hiện nay,
đám mây dữ liệu với sức chứa cực lớn, đang dần chiếm ưu thế trong việc lưu trữ dữ liệu,
với chức năng phân phối đến nhiều vị trí từ các máy chủ trung tâm.

Trên thực tế, các đám mây dữ liệu có thể được giới hạn và cung cấp sẵn có cho nhiều
cấp độ cần sử dụng: đám mây dữ liệu riêng cho doanh nghiệp, đám mây phổ quát cho công
cộng. Điều này mang đến nhiều ưu điểm: giảm thiểu chi phí đầu tư cho việc lưu trữ; cho
phép người dùng chạy các ứng dụng tương tác dữ liệu với tốc độ nhanh hơn; việc quản lý
dữ liệu quản lý đối với người dùng sẽ dễ dàng - bảo trì tốt hơn; hệ quả kéo theo là việc đầu
tư cho một máy tính sẽ rẻ hơn-khi không còn chi phí cho thiết bị lưu trữ riêng lẻ. Khi điện
toán đám mây được ứng dụng rộng rãi, các đám mây dữ liệu sẽ được quản trị một cách
chuyên nghiệp hơn, mang tính phổ quát trong xã hội sử dụng nhiều thiết bị công nghệ như
hiện nay.

➢ Kiến trúc công nghệ đám mây

Hình 2: Kiến trúc các thanh phần trong công nghệ điện toán đám mây

- Thành phần Front End: là phía khách hàng, gồm các cơ sở hạ tầng của máy khách
(Client Infrastructure) tương tác với các dịch vụ do điện toán đám mây cung cấp cho
người dùng thông qua các giao diện đồ hoạ (Graphic User Interface-GUI) mà máy
tính khách hàng sử dụng. Bên cạnh đó còn có cả các ứng dụng được người dùng sử
dụng để yêu cầu truy cập các dịch vụ của nền tảng điện toán đám mây. Giao diện
người dùng có thể được thể hiện trên: các máy chủ web (bao gồm Chrome, Firefox,
Internet explorer, v.v.), máy tính bàn, máy tính bảng và thiết bị di động.
125
- Thành phần Back End: về phía cung cấp dịch vụ vận hành; bao gồm các ứng dụng
(Application); có thể là bất kỳ phần mềm hoặc nền tảng nào mà khách hàng muốn truy
cập. Bên cạnh đó, khối Dịch vụ đám mây (Service) quản lý các loại dịch vụ mà người
dùng truy cập. Vậy, thành phần Back End giữ nhiệm vụ quản lý tất cả các tài nguyên
và cung cấp dịch vụ điện toán đám mây khi được người dùng yêu cầu; với nhiệm vụ
cụ thể đó là: quản trị một lượng lớn dữ liệu lưu trữ, với những cơ chế bảo mật, các
máy ảo, mô hình triển khai cung cấp dịch vụ, máy chủ vận hành, cơ chế kiểm soát lưu
lượng dữ liệu, v.v.

➢ Các dịch vụ công nghệ đám mây:

(1) Dịch vụ cung cấp cơ sở hạ tầng như một dịch vụ (IaaS- Infrastructure as a
Service): khi đó khách hàng sẽ được cung cấp cơ sở hạ tầng CNTT hoàn chỉnh cần thiết cho
việc xây dựng hệ thống, chẳng hạn như hệ thống mạng, máy chủ và hệ điều hành v.v.; cần
thiết cho hệ thống máy của người dùng hoạt động tốt, thông qua đường truyền Internet. Với
IaaS, người dùng chọn các thông số kỹ thuật phần cứng và phần mềm cần có, thiết lập hệ
điều hành, v.v., xây dựng cơ sở hạ tầng CNTT và phát triển ứng dụng cho nhu cầu của
người dùng.

- Các tính năng của IaaS bao gồm: người dùng không phải chuẩn bị môi trường phát
triển riêng biệt, linh hoạt lựa chọn các thông số kỹ thuật phần cứng và hệ điều hành
cần thiết cho dịch vụ và sử dụng chúng từ hệ thống mạng. Cho phép khách hàng mở
rộng tài nguyên máy chủ về cả số lượng máy lẫn công năng máy một cách linh hoạt.
Không phát sinh sửa chữa sự cố xảy ra trong phần cứng thực tế hoặc chi phí nâng cấp
hệ thống.

- Dịch vụ IaaS tiêu biểu: Google Compute Engine (GCE).

(2) Nền tảng như một dịch vụ (PaaS- Platform as a Service): là dịch vụ cho phép
người dùng sử dụng platform (môi trường phát triển) cho ứng dụng thông qua hệ thống
mạng. Dịch vụ PaaS cung cấp một bộ phần mềm trung gian kết nối hệ điều hành và ứng
dụng cần thiết cho việc: phát triển hệ thống, hệ thống quản lý cơ sở dữ liệu, ngôn ngữ lập
trình và hệ điều hành web server v.v.

Với SaaS, phần mềm cố định được sử dụng như một dịch vụ, nhưng với PaaS, ứng
dụng được phát triển trong nội bộ công ty có thể được sử dụng, nên đặc trưng của Paas là
cho phép sử dụng ứng dụng linh hoạt hơn.Do đó, các developer có thể tập trung vào phát
126
triển phần mềm mà không cần xây dựng platform (nền tảng); khi đó đám mây lưu trữ đối
tượng, sắp xếp, cơ sở dữ liệu, thời gian chạy, v.v. Tất cả những thông tin này có thể nhận
trực tiếp từ nhà cung cấp đám mây. Họ có trách nhiệm cấu hình và sử dụng nó.

- Các tính năng của PaaS bao gồm: Vì môi trường cần thiết cho người dùng phát triển
đã được chuẩn bị trước, nên chi phí phát triển và thời gian làm việc có thể giảm thiểu.
Việc bảo trì platform, sao lưu, v.v. được quản lý bởi đám mây, do đó người dùng
không cần phải cài đặt cấu hình và quản lý chúng. Môi trường cơ sở hạ tầng được
chuẩn bị trên đám mây, vì vậy nó có thể được sử dụng ngay lập tức. Người dùng có
thể tập trung vào phát triển vì toàn bộ môi trường cơ sở hạ tầng đã được cung cấp bởi
các dịch vụ đám mây một cách linh hoạt phát triển (so với SaaS) và có thể sử dụng
các chương trình của riêng của mình.

- Dịch vụ PaaS tiêu biểu: Google App Engine (GAE), Windows Azure.

(3) Các ứng dụng hoặc phần mềm như một dịch vụ (SAAS - Software as a Service),
là dịch vụ cho phép người dùng sử dụng phần mềm (software) thông qua hệ thống nối kết
mạng (network system). Thông qua đám mây, dịch vụ SaaS cung cấp những phần mềm
đang được vận hành bởi các công ty đám mây. Do đó, các nhà phát triển không cần tiến
hành các cài đặt đặc biệt như máy chủ hoặc chuẩn bị tài nguyên, và có thể phát triển phần
mềm cần thiết thông qua Internet.

Người dùng đang sử dụng ứng dụng đang chạy trên đám mây với tất cả các thiết lập
nên cơ sở hạ tầng là trách nhiệm của nhà cung cấp dịch vụ. Để SAAS hoạt động, cơ sở hạ
tầng (IAAS) và nền tảng (PAAS) phải được hoàn thiện.

- Các tính năng của SaaS bao gồm: khách hàng không cần cài đặt phần mềm mà sử
dụng trực tiếp trên Internet. Ngoài ra, dữ liệu có thể được lưu trữ trên Internet và có
thể được truy cập mà không cần xác lập cố định một thiết bị như máy tính để bàn,
điện thoại thông minh hoặc máy tính bảng v.v. Ngoài ra, có thể có nhiều người dùng
và có thể chia sẻ và sử dụng cùng một dữ liệu. Nếu sử dụng các ứng dụng nâng cao
có thể được cài đặt và vận hành ngay lập tức.

- Một số dịch vụ SaaS tiêu biểu: G Suite, Gmail, Hangouts, GoogleDrive,…

(4) Dịch vụ cung cấp cho môi trường máy tính Desktop ( Desktop as a Service –
DaaS) là các yếu tố tạo nên máy tính desktop, như: phần mềm, dữ liệu nội bộ, … sẽ được

127
truy cập từ đám mây cung cấp. Môi trường desktop được cung cấp bởi DaaS cũng được gọi
là “cloud desktop” hoặc “desktop ảo”. DaaS được chia thành ba loại theo hình thức cung
cấp dịch vụ, cụ thể như sau.

- Private cloud DaaS (đám mây riêng DaaS): sử dụng môi trường desktop phụ thuộc
vào môi trường điện toán đám mây, nhưng được thiết kế riêng- chỉ dành cho một tổ
chức, doanh nghiệp, khách hàng cụ thể. Chính vì được xây dựng riêng theo đơn đặt
hàng, tạo một môi trường độc lập, nên môi trường Private cloud DaaS có đặc tính bảo
mật rất cao. Bên cạnh đó, môi trường Private cloud DaaS sẽ không có hạn chế về tùy
chỉnh hành vi đối với khách hàng. Khi đó, khách hàng có thể linh hoạt lựa chọn phần
mềm và nền tảng do yêu cầu hoạt động của đơn vị mình.

- Virtual private cloud DaaS (đám mây riêng DaaS ảo): cũng sử dụng môi trường
desktop được phân phối bởi các dịch vụ xây dựng trên IaaS hoặc PaaS do các nhà
cung cấp dịch vụ cung cấp theo các yêu cầu cụ thể, cho nên loại hình này có đặc tính
tùy biến uyển chuyển và có tính bảo mật cao.

- Public cloud DaaS (đám mây công cộng DaaS): sử dụng môi trường desktop ảo, trong
đó các nhà cung cấp dịch vụ chọn các thành phần chung nhất cấu thành desktop, bao
gồm cả phần mềm; cung cấp cho nhiều khách hàng sử dụng. Vì thế, Public cloud DaaS
có đặc tính là: không cho phép tùy chỉnh, nhưng loại hình này có ưu điểm là chi phí
sử dụng thấp.

Hình 3: Lợi nhuận ($bn) từ các dịch vụ điện toán đám mây 2014-2020 (nguồn: Forbes)

➢ Một số tính năng vượt trội của công nghệ điện toán đám mây

o Khả năng mở rộng của điện toán đám mây khi đám mây dữ liệu được tổ chức và
được cung cấp bằng cách sử dụng mô hình điện toán phân tán.

128
o Tính uyển chuyển hay độ co giãn: được hiểu về dung lượng mà người dung cần sử
dụng. Với tính năng này cho phép khách hàng được khai báo mức sử dụng và chi
trả tiền cho tài nguyên đã sử dụng. Trong điện toán đám mây, độ co giãn được định
nghĩa là mức độ mà một hệ thống có thể thích ứng với sự thay đổi khối lượng công
việc. Do đó bất cứ lúc nào các tài nguyên có sẵn luôn đáp ứng nhu cầu hiện tại của
khách hàng.

o Nguồn tổng hợp: trong trường hợp nhiều tài nguyên được cùng sử dụng bởi nhiều
tổ chức khác nhau. Các tài nguyên trên đám mây dữ liệu được tổng hợp để phục vụ
nhiều người tiêu dùng khác nhau thông qua mô hình nhiều người cùng thuê, với
các tài nguyên đa dạng và phân bổ lại theo nhu cầu của người dùng.

o Tự phục vụ: do chính khách hàng sẽ được cung cấp giao diện dễ sử dụng, thông
qua đó người dùng có thể chọn dịch vụ mong muốn. Một người tiêu dùng có thể tự
cung cấp các khả năng tính toán, như thời gian máy chủ và lưu trữ mạng,…khi cần
mà không cần sự tương tác của con người.

o Chi phí thấp: sẽ tính cho khách hàng dựa trên số lượng tài nguyên máy tính sử dụng
nhờ đó mà người dùng không cần phải chi phí mua cơ sở hạ tầng lưu trữ đắt tiền.

o Khắc phục lỗi: điện toán đám mây cho phép tự khôi phục trong trường hợp một
phần qui trình trong hệ thống đám mây không phản hồi.

➢ Các mô hình phân phối đám mây dữ liệu: hiện


nay chủ yếu có hai loại mô hình triển khai đám
mây dữ liệu cho người dùng:

o Đám mây chung: với ngữ cảnh đám mây


dữ liệu đươc tổ chức – phân phối chung
trên mạng internet, các dịch vụ được mở
Hình 4: Mô hình phân phối
cho mọi người trong cộng đồng cùng sử đám mây dữ liệu
dụng.

o Đám mây riêng: khi đó, đám mây dữ liệu được tổ chức riêng và được vận hành
phục vụ cho một tổ chức. Việc quản trị điện toán đám mây có thể được quản lý nội
bộ hoặc bởi bên thứ ba; vị trí lưu trữ có thể được lưu trữ bên trong nội bộ hay dịch
vụ bên ngoài.

129
o Đám mây lai: trong trường hợp khách hàng cần lưu trữ những dữ liệu quan trọng
có dung lượng trung bình thấp trên đám mây dữ liệu nội bộ; còn phần dữ liệu mang
tính đại trà-không quan trọng và có dung lượng rất lớn thì khách hàng sẽ thuê ngoài
đám mây dữ liệu để lưu trữ.

1.3. Công nghệ Điện toán Sương mù – Fog Computing


Điện toán sương mù được xem như là mở rộng khái niệm cũng như vận hành của
điện toán đám mây lên một tầm cao mới, khiến cho việc thực hiện điện toán đám mây trở
thành một điều dễ tiếp cận và phục vụ tốt cho hệ thống IoT, cũng như các ứng dụng khác
có yêu cầu tương tác sát thời gian thực.

Hệ thống điện toán sương mù cũng được thiết kế trong môi trường mạng phân tán và
được liên kết chặt chẽ với điện toán đám mây, kết nối hệ thống IoT. Khi đó, cơ sở hạ tầng
công cộng như một nhà cung cấp dịch vụ đám mây (IaaS) có thể được coi là điểm cuối cho
người dùng phải thiết kế hoàn thiện và mang tính toàn cầu để phục vụ cho khối lượng dữ
liệu lớn trong hệ thống IoT. Các vị trí ứng dụng công nghệ sương mù trong liên mạng; là
tại các vị trí ranh giới nối kết giữa dịch vụ đám mây và các thiết bị ứng dụng công nghệ
biên; là tại nơi xử lý trung chuyển dữ liệu được tạo ra từ các thiết bị trong hệ thống IoT.

Một môi trường trong công nghệ sương mù phải được cài đặt-xử lý trí tuệ nhân tạo
(Artificial Intelligence –AI) tại mạng cục bộ (Local Area Netwwork-LAN) sẽ giảm thiểu thời
gian truyền dữ liệu, trong ngữ cảnh khối dữ liệu lớn. Với kiến trúc này, việc truyền dữ liệu
từ các điểm cuối sẽ đến các điểm nối kết giao thức-gateway, kế sau đó dữ liệu lại được
truyền đến các bộ phận xử lý và phải được truyền trở lại.

➢ Vận hành dữ liệu giữa hệ thống điện toán sương mù với hệ thống điện toán đám
mây: trong điện toán sương mù, việc vận chuyển dữ liệu từ mọi thứ lên đám mây cần
trải qua một số bước.

(1) Đầu tiên, tín hiệu điện tử phát sinh được nối với các điểm Input / Output của bộ
điều khiển tự động hóa (như Programmable Logic Controller - PLC). Bộ điều khiển tự
động thực hiện một chương trình hệ thống điều khiển để tự động hóa các dữ liệu.

(2) Bước tiếp theo, dữ liệu từ chương trình hệ thống điều khiển được gửi đến máy
chủ OPC (Object Linking and Embedding for Process Control) hoặc giao thức gateway,
giúp chuyển đổi dữ liệu thành giao thức mà các hệ thống Internet hiểu, như giao thức MQTT

130
(Message Queue Telemetry Transport) - hoặc giao thức HTTP (HyperText Transfer
Protocol).

(3) Sau đó, dữ liệu được gửi đến một hệ thống khác, như: các nút xử lý công nghệ
sương mù, hoặc nối kết gateway của hệ thống IoT trên mạng LAN; vì đã được cài đặt xử
lý theo AI nên việc thu thập dữ liệu, thực hiện xử lý và phân tích mang lại hiệu quả hơn
trong việc trung chuyển dữ liệu giữa hệ thống đám mây và các thiết bị liên kết trong mạng
LAN hay trong mạng WAN trong hệ thống IoT.

Hình 5: Sự nối kết giữa hệ thống đám mây với hệ thống biên qua hệ thống sương mù.

➢ Lợi ích của điện toán sương mù

Sự phát triển của điện toán sương mù mang lại cho người dùng nhiều lựa chọn hơn
trong việc xử lý dữ liệu tại địa điểm tuỳ ý theo yêu cầu, thông qua hệ thống mạng phân tán.
Công nghệ sương mù thu thập-phân tích-xử lý dữ liệu có tính chất AI, nên mang lại hiệu
quả cao đối với: một số ứng dụng, hay dữ liệu cần phải được xử lý nhanh nhất sát với thời
gian thực. Chính vì trung chuyển dữ liệu nhanh tức thời, công nghệ sương mù đang được
ứng dụng phát triển qua phần mềm hay tích hợp trong mạch xử lý, nhằm đáp ứng hiệu quả
trong hệ thống IoT với dữ liệu lớn.

1.4. Công nghệ Điện toán Biên – Edge Computing

Điện toán biên chính là một phần mở rộng dựa trên các công nghệ cũ hơn như mạng
ngang hàng, dữ liệu phân tán, công nghệ mạng tự phục hồi và các dịch vụ cloud từ xa. Công
nghệ điện toán biên được hỗ trợ bởi phần cứng công nghệ cao (như công nghệ nano) với
thành phần lưu trữ đệm, xử lý nhanh theo hướng AI, nhằm tăng hiệu suất và tối ưu hóa cao
131
hệ thống hay các thiết bị. Đối với các bộ xử lý được sử dụng trong các thiết bị điện toán
biên cũng được cung cấp tính bảo mật phần cứng và được cải thiện mức hao tốn năng lượng
thấp.

Điện toán biên được cung cấp xử lý mang tính AI nên khi hoà nhập xử lý trong hệ
thống IoT, hay trong một hệ thống điện toán đám mây. Ngoài ra, điện toán biên còn có
nhiều lợi thế hơn so với các kiến trúc truyền thống như: phần cứng ứng dụng công nghệ cao
(như nano, nén mạch,..), tối ưu hóa việc sử dụng tài nguyên, hiệu suất vận hành cao, giảm
thiểu rủi ro khi giao tiếp xử lý dữ liệu lớn,….

➢ Lợi ích của điện toán biên

Việc thực hiện các tính toán xử lý thông minh ở biên mạng giúp giảm lưu lượng
mạng, giúp giảm nguy cơ tắc nghẽn dữ liệu. Ngoài ra, điện toán biên cũng cải thiện bảo
mật dữ liệu bằng cách mã hóa dữ liệu khi chuyển giao trong liên mạng, đồng thời tối ưu
hóa và bảo toàn dữ liệu trong quá trình chuyển giao với hệ thống sương mù cũng như thiết
bị công nghệ.

Hình 6: Sự phát triển và dự báo lợi nhuận đến 2023 của công nghệ biên trên thế giới
(ngiồn: marketersmedia)

2. MỘT SỐ ỨNG DỤNG TRONG HỆ THỐNG IOT VẬN HÀNH VỚI BA CÔNG
NGHỆ QUẢN TRỊ DỮ LIỆU (nêu trên)
Trên thực tiễn thì hệ thống IoT sẽ phải cung cấp kết nối chuyên sâu cho các thiết bị,
hệ thống và dịch vụ. Mối kết nối này phải mang hiệu quả tốc đọ thật vượt trội, hỗ trợ đa
dạng giao thức, chuẩn xác phân giải tên miền (domain name), và đa dạng các ứng dụng trên
sự đa dang của các thiết bị công nghệ. Ngoài ra, còn có sự kết nối với các thiết bị nhúng
(như cảm biến, đếm thời gian,…) với tất cả các vật dụng thông minh. Khi đó, thế giới sẽ
132
được kỳ vọng mở ra kỷ nguyên tự động hóa trong hầu hết các ngành, từ những ứng dụng
chuyên sâu như: điện lưới thông minh, quản lý thành phố thông minh, thiết bị tự vận hành,…
Sự nối kết đó thông qua việc định danh riêng cho: mỗi thiết bị, mỗi con người, mỗi đối
tượng hiện hữu trong hệ thống IoT; và tất cả đều phải được thiết kế để có khả năng: truyền
tải, trao đổi thông tin, dữ liệu qua một mạng duy nhất mà không cần đến sự tương tác trực
tiếp giữa người với người, hay người với máy tính.

Hình 7: Mô hình số lượng và kiến trúc liên kết-vận hành giữa ba công nghệ quản trị dữ liệu:
công nghệ đám mây, công nghệ sương mù và công nghệ biên
Các thiết bị công nghệ trong hệ thống IoT đang phát triển ngày tràn ngập thế
giới. Trên thực tế, các nghiên cứu cho thấy có thể hơn 75 tỷ thiết bị sẽ hoạt động vào năm
2025 (nguồn: smartfactoryvn). Từ trợ lý giọng nói thông minh đến đèn hiệu trong cửa hàng,
các thương hiệu đang thử nghiệm các điểm tiếp xúc để cải thiện trải nghiệm của khách hàng
và thu thập dữ liệu theo những cách mới và sáng tạo.

Vấn đề đặt ra là với dòng dữ liệu khổng lồ được thu thập từ mỗi thiết bị. Làm thế nào
và ở đâu với số lượng dữ liệu lớn và lâu dài như vậy có thể được xử lý ? Điện toán đám
mây bị hạn chế bởi: khoảng cách xa và bị khối lượng dữ liệu lưu trữ lớn, do đó rất cần
những thuật ngữ điện toán biên và điện toán sương mù để hỗ trợ giải quyết xử lý-trung
chuyển dữ liệu với các thiết bị công nghệ.

Ví dụ minh chứng cho điểm yếu của điện toán đám mây là: nếu đăng ký mua hàng
trên Amazon hay viết mail qua Gmail, thì những dữ liệu đó phải được gửi đến cho Trung
tâm dữ liệu của Amazon hoặc Google xử lý. Chẳng hạn khi soạn thảo văn bản trên Google
Docs, thì mỗi lần nhập văn bản, thì văn bản đó sẽ được gửi đến Trung tâm dữ liệu của
Google cách xa hàng trăm-ngàn cây số. Vì thế cần phải đưa dữ liệu-thông tin lên đám mây
để xử lý, trong trường hợp đám mây bị quả tải hoặc đường truyển không tốt, có thể sẽ phải

133
đợi một thời gian sau mới nhận được hồi đáp. Khi đó công nghệ sương mù và công nghệ
biên sẽ hỗ trợ đắc lực trong việc: phân tích độ ưu tiên, tập hợp dữ liệu, lưu trữ tạm chờ trung
chuyển, mã hoá dữ liệu, điều phối thông minh,… đều được xử lý theo tính chất AI và với
tốc độ cao đường truyền không dây (như 5G); kết quả tốc độ xử lý toàn hệ thống IoT sẽ sát
với thời gian thực.

Hình 8: Xu hướng 10 ứng dụng hàng đầu trên thế giới trong hệ thống IoT trong 2020
(nguồn: IoT Analytics)

➢ Xe tự hành

Hiện nay, xe tự lái đại diện cho một trong những trường hợp minh chứng xử lý biên
của hệ thống IoT. Một tình huống đơn giản là xe tự lái không thể dựa vào một máy chủ từ
xa để quyết định xem nó có cần dừng lại (trong thời gian thực) khi có người đi bộ băng qua
đường phía trước nó hay không?. Vì thế, quyết định cần phải được đưa ra ngay lập tức. Dữ
liệu phải được xử lý theo tình huống tại chỗ (on-premise) đã lập sẵn, bất kể có kết nối
internet hay không! Và tình huống này vẫn phải được gửi về đám mây để làm căn cứ thông
báo cho các xe tự lái khái đang di chuyển trên đường.

Trong trường hợp là vật cản là cố định, được thuật toán xác định theo khoảng cho
phép thì thông tin này sẽ được lưu trữ trên đám mây và tất cả các xe tự lái sẽ tự cập nhật
trong danh sách vật cản trong lưu trữ biên. Cũng theo phương thức như thế, hệ thống biên
các thiết bị công nghệ sẽ cập nhật các thông tin để hỗ trợ tư hành về: thời tiết, sự cố trên
đường, … và tất cả được xử lý nhanh chóng nhờ hệ thống sương mù phân tích-trung chuyển
dữ liệu được cài đặt trải khắp theo khoảng cách-diện tích có thể quản lý được.

134
Một trong những kỹ thuật để xử lý thông tin cho xe tự lái, là bản đồ động cục bộ
(Local Dynamic Map - LDM), do Viện Tiêu chuẩn Viễn thông Châu Âu (the European
Telecommunications Standards Institute-ETSI) thiết kế. Phương thức này sẽ lưu trữ dữ liệu
giữa các yếu tố khác nhau như: bản đồ độ nét cao, thời tiết và thông tin giao thông thành
bốn các lớp đặc trưng, được lưu trữ-điều phối tại các trung tâm LDM.

Hình 9: Mô hình cắt lớp xử lý thông tin theo kỹ thuật LDM (nguồn: ETSI)

➢ Thiết bị chăm sóc sức khỏe

Một điển hình trong lĩnh vực các thiết bị theo dõi sức khỏe; trong ngữ cảnh, được sử
dụng trong điều trị từ xa để theo dõi các tình trạng bệnh mãn tính của bệnh nhân. Ví dụ,
máy đo nhịp tim phải có khả năng lưu trữ và phân tích dữ liệu sức khỏe một cách độc lập;
khi thấy có nhịp tim khác thương so với nhịp tim chuẩn (đã được lưu trữ trong). Khi đó, có
thể ngay lập tức cung cấp thông tin trên đám mây và kích hoạt chuỗi phản ứng cần thiết cho
bác sĩ chăm sóc từ xa và đồng thời cảnh báo cho bệnh nhân phải thông báo trực tiếp đến
bác sĩ để giúp đỡ.

Khi đó, các dữ liệu-thông tin được lưu trữ-phân tích-xử lý theo AI được: (1) các thiết
bị trong thiết bị công nghệ thuộc hệ thống công nghệ biên; (2) đồng thời được hỗ trợ truyền
tải thông qua thiết bị công nghệ sương mù như các nút-trạm trong môi trường mạng không
dây – tốc độ truyền cao; khi đó sẽ tăng tốc độ xử lý sát thời gian thực trong hệ thống IoT.

Đối với việc chăm sóc sức khoẻ cho con người, thì xử lý theo thời gian thực được đặt
lên hàng đầu trong công nghệ quản trị dữ liệu nói chung. Một tình huông điển hình là: phẫu
thuật có hỗ trợ robot, khi đó là khi mỗi nano giây có thể có nghĩa là sự khác biệt giữa sống

135
và chết đối với người bệnh. Những robot này cần có khả năng tự phân tích dữ liệu để cung
cấp hỗ trợ trong phẫu thuật một cách an toàn, nhanh chóng và chính xác. Từ đây, thấy được
tầm quan trọng ccủa ba công nghệ đã đề cập trên.

Hình 10: Mô hình chăm sóc sức khoẻ từ xa trong hệ thống IoT

3. KẾT LUẬN

Hiện nay, các công nghệ quản trị dữ liệu hoạt động trong môi trường liên mạng không
dây-tốc độ nhanh, đang được xem là một công nghệ “chìa khóa” cho tốc độ xử lý theo thời
gian thực trong hệ thống IoT. Các công nghệ quản trị dữ liệu hiện cũng đã và đang được
củng cố thêm xử lý theo AI, đồng thời các phần cứng tích hợp cảm biến-đa chức năng; giúp
cho nền công nghệ thông minh-tự động đang được nghiên cứu và phát triển trong độ tin
cậy-hiệu quả cao. Khi đó, thế giới sẽ có nhiều ứng dụng thông minh phục vụ cho đời sống
con người, nhằm phát triển kinh tế - xã hội ở mức công nghệ hiện đại trong tương lai gần.

TÀI LIỆU THAM KHẢO

[1] Aelee Yoo ,Sooyeon Shin,Junwon Lee, Changjoo Moon (11/2020) “Implementation
of a Sensor Big Data Processing System for Autonomous Vehicles in the C-ITS
Environment”. Department of Smart Vehicle Engineering, Intelligent Data Processing
laboratory, Konkuk University, Korea
[2] https://smartfactoryvn.com/
[3] https://vi.wikipedia.org
[4] https://bkhost.vn/https://topdev.vn
[5] https://vn.cloud-ace.com/

136
CHUYỂN ĐỔI SỐ TRONG KINH DOANH

Nguyễn Diên Duẫn


Khoa Kế toán. Trường Đại học Tài chính - Marketing
Email: nguyenduan@ufm.edu.vn

Tóm tắt: Trong thời gian gần đây, chúng ta thường thấy báo chí, truyền thông và các bộ ban
ngành thường nhắc đến thuật ngữ “chuyển đổi số” với tần suất rất cao, đặc biệt là Bộ Thông tin
Truyền thông của Việt Nam nhấn mạnh tầm quan trọng của chuyển đổi số trong toàn xã hội nói
chung và các doanh nghiệp kinh doanh nói riêng. Bài viết tập trung thảo luận về mô hình chuyển
đổi số và quá trình chuyển đối số của một doanh nghiệp kinh doanh.

Từ khóa: chuyển đổi số, transform information

1. CHUYỂN ĐỔI SỐ LÀ GÌ?

Theo định nghĩa của Wikipedia, chuyển đổi số có nghĩa là mọi hoạt động dựa trên
nền tảng “không giấy tờ” đến “các ứng dụng của công nghệ kỹ thuật số trong xã hội loài
người”. Xét theo khía cạnh kinh doanh của chuyển đổi số thì cũng đã thu hút rất nhiều sự
quan tâm, chú ý của các doanh nghiệp, từ doanh nghiệp đi tư vấn, đến doanh nghiệp ứng
dụng, từ cơ quan chức năng thuộc chính phủ đến các đơn vị trực thuộc địa phương.

Tất nhiên, sự bùng nổ về việc sử dụng thuật ngữ “chuyển đổi số” cho thấy đây là một
phạm trù đang được quan tâm nhiều, và vấn đề nghiên cứu đang được đề cao trong giai
đoạn này. Nhưng việc không hiểu đúng định nghĩa, bản chất hay nội hàm của thuật ngữ
“chuyển đổi số” cũng có thể dẫn đến sự nhầm lẫn trong nền kinh tế hoặc thị trường ở quy
mô rộng. Và kết quả là chúng ta không áp dụng được đúng, không chính xác, không đồng
đều vì vậy, các ứng dụng công nghệ đó không hoặc chưa đem lại các kết quả đáng tin cậy,
không tăng hiệu suất cho nền kinh tế vĩ mô và hiệu quả kinh doanh ở doanh nghiệp vi mô.

Chuyển đổi số trong kinh doanh là sự thay đổi tổ chức (bao gồm cơ cấu tổ chức, chức
năng của bộ phận) thông qua việc sử dụng các công nghệ số và mô hình kinh doanh để cải
thiện hiệu quả kinh doanh một cách nhanh chóng, đáng kể dựa trên quy mô của từng bộ
phận hoặc toàn bộ doanh nghiệp. Trong định nghĩa này đã đưa ra một thuật ngữ là “sự thay
đổi mang tính tổ chức”, chúng ta cần hiểu thêm về định nghĩa này: Chuyển đổi số là rất cần
thiết trong sự thay đổi trong kỷ nguyên số hóa đang diễn ra, và sự thay đổi khi áp dụng
chiến lược chuyển đổi số là chuyển đổi mang tính tổ chức, là sự thay đổi quan trọng và căn

137
bản nhất. Sự thay đổi mang tính tổ chức có liên quan đến toàn bộ tổ chức của doanh nghiệp
hoặc của một tổ chức, nó bao gồm con người, quy trình, chiến lược, cấu trúc của tổ chức,
nguyên lý cạnh tranh của doanh nghiệp, nơi mà tập trung hầu hết các mặt của cơ hội và
thách thức do chuyển đổi số đem lại.

Ví dụ như mô hình Internet kết nối vạn vật và Internet kết nối vạn dịch vụ đã và đang,
tiếp tục làm thay đổi hầu hết các ngành kinh tế vĩ mô và doanh nghiệp ở mức vi mô ở hầu
hết các quốc gia trên toàn cầu. Nếu chúng ta nắm bắt được các lợi ích và giá trị, quy luật
của chuyển đổi số, chúng ta sẽ tạo ra sự thay đổi nhanh chóng, tăng năng suất lao động,
tăng giá trị lao động, cải thiện quy trình hiệu quả và nâng cao trải nghiệm khách hàng.

Mặt khác, chúng ta cũng cần hiểu rằng: chuyển đổi số không có nghĩa là thay thế phủ
định một cách sạch trơn và triệt để (theo quan điểm triết học) về những công nghệ trước đó,
doanh nghiệp hoặc tổ chức vẫn cần giữ lại những công nghệ phù hợp, giá trị văn hóa và
tinh thần phù hợp. Doanh nghiệp, tổ chức cần thay đổi một cách logic, hợp lý, mạnh mẽ và
phù hợp với điều kiện của doanh nghiệp

2. MÔ HÌNH CHUYỂN ĐỔI SỐ TRONG KINH DOANH


Chuyển đổi kinh doanh theo hướng kỹ thuật số là khi mọi hoạt động kinh doanh đều
được xây dựng dựa trên nền tảng kỹ thuật số. Điều này cho thấy chúng ta cần tập trung vào
công nghệ kỹ thuật số nhằm tạo động lực cho các sự chuyển đổi khác như chính trị, xã hội,
văn hóa và kinh tế cũng phải chuyển đổi theo hướng “số hóa” hoặc “lên mây”. Các mô hình
công nghệ và mô hình kinh doanh cần phải làm nền tảng cho sự phát triển trong quá trình
chuyển đổi số, đòi hỏi sự linh hoạt chứ không được cố định một cách cứng nhắc. Chúng ta
thay đổi theo thời gian và ở một mức độ nào đó, hoặc thay đổi theo từng ngành nghề và khu
vực kinh tế chứ không thể thay đổi trên diện rộng ngay lập tức được, vì điều kiện về nguồn
lực không cho phép.

Thực tế hiện nay có một số công nghệ quan trọng và đáng kể nhất đối với chuyển đổi
số trong kinh doanh có thể kể đến như:

Các công cụ phân tích và các ứng dụng, bao gồm cả phân tích dữ liệu lớn;

Các công cụ di động và ứng dụng di động;

Các nền tảng được xây dựng dựa trên các nền tảng gốc có thể chia sẻ, ví dụ như đám
mây, chợ ứng dụng;

138
Các công cụ mạng xã hội và ứng dụng marketing online;

Internet kết nối vạn vật bao gồm cả các thiết bị thông minh.

Các công nghệ kỹ thuật số này có ảnh hưởng sâu sắc đến cách thức tổ chức và ngành
công nghiệp đang chuyển đổi, thường là kết quả của những mô hình kinh doanh dựa trên
những công nghệ mới. Có thể lấy ngành dịch vụ y tế và chăm sóc sức khỏe ra làm ví dụ,
truyền thông mạng xã hội và các ứng dụng y tế đã làm tăng khả năng lưu trữ thông tin giữa
bệnh nhân với cơ sở y tế, làm giảm sự sai sót thông tin giữa bệnh nhân với các nhân viên y
tế. Điều này làm cho việc chẩn đoán, khám bệnh và chữa bệnh trở nên nhanh hơn, hiệu quả
hơn và tiết kiệm chi phí hơn. Thậm chí, công nghệ cho phép bác sỹ hội chẩn y khoa từ xa,
thăm khám từ xa, sau đó dùng máy in 3D để in các phần còn thiếu sót, sai sót trong cơ thể,
dùng các siêu rô bốt hoặc các thiết bị siêu nhỏ để thực hiện các hoạt động y tế cứu chữa cho
người bệnh. Hoặc dữ liệu lớn sẽ cho biết khu vực nào có bệnh dịch tiếp theo và từ đó đưa
ra các biện pháp phòng ngừa hiệu quả.

Sự thay đổi mang tính tổ chức khi kết hợp với công nghệ số có khả năng cải thiện
hiệu suất trong nhiều lĩnh vực. Cụ thể, doanh nghiệp có thể đạt được việc nâng cao hiệu
quả kinh doanh trong các lĩnh vực như sau: tăng doanh thu, giảm chi phí, đổi mới nhanh
hơn, thành công hơn trong việc sáng tạo, hiệu quả hơn trong việc thu thập và học hỏi các
kinh nghiệm, chia sẻ và sử dụng, tăng cường sự tham gia của khách hàng và dịch vụ khách
hàng, và cuối cùng là chống lại sự gián đoạn kỹ thuật số. Những cải tiến về mặt hiệu suất
này có thể được định lượng vì các chỉ số có thể đo lường được và được báo cáo một cách
nhanh chóng và hiệu quả.

3. QUÁ TRÌNH CHUYỂN ĐỔI SỐ

Chuyển đổi số trong kinh doanh không phải là một trạng thái đứng im mà nó là một
quá trình, và quá trình này được định hướng bởi các câu hỏi dưới đây:

Tại sao phải thực hiện chuyển đổi số?

Câu hỏi tại sao phải chuyển đổi số chính là bước đầu của một quá trình chuyển đổi
của doanh nghiệp, tổ chức. Chúng ta đều biết rằng, chuyển đổi số là một quá trình khó khăn
và thử thách, các doanh nghiệp và tổ chức cần phải nhận thức một cách rõ ràng và phải đáp
ứng kịp thời một cách tốt nhất quá trình thay đổi này. Và các doanh nghiệp, tổ chức khác
nhau sẽ có những thách thức khác nhau, nhưng các nguy cơ và thách thức xảy đến nhiều

139
hơn với ngành bán lẻ, ngành dịch vụ và ngành truyền thông, nghành công nghệ hơn vì
những ngành này gần nhất với khái niệm “kỹ thuật số”.

Ví dụ như người tiêu dùng ngày nay thường tìm kiếm và tra cứu thông tin một cách
rất cẩn thận và đa dạng trước khi ra quyết định mua hàng. Họ tìm kiếm và so sánh giá cả,
chất lượng, khuyến mại, và các ý kiến của khách hàng đã sử dụng sản phẩm, từ đó tối ưu
hóa lợi ích cho chính họ. Khách hàng sử dụng điện thoại di động, tìm kiếm trên mạng
Internet không dây hoặc 4G, 5G và ra quyết định mua cũng bằng chiếc điện thoại hoặc máy
tính của mình. Đây cũng là một nguyên nhân dẫn đến việc chúng ta phải thực hiện chuyển
đổi số sớm vì hành vi của khách hàng hiện nay thay đổi rất nhanh.

Động lực để phải thay đổi và bước vào giai đoạn chuyển đổi số cũng có thể đến từ
các hãng dẫn đầu thị trường và các đối thủ cạnh tranh mới với các dịch vụ ngày càng nâng
cao, mô hình kinh doanh mới, giá tốt hơn, thời gian và chi phí thấp hơn, khách hàng hài
lòng hơn. Có thể kể đến những công ty như Google, Microsoft, Amazon hay Apple đang
dẫn đầu thị trường những sản phẩm phần cứng hoặc dịch vụ phần mềm với hệ sinh thái dịch
vụ đa dạng và tự chủ của mình, họ đã làm chủ cuộc chơi trong quá trình chuyển đổi số. Nếu
chúng ta không nhìn theo họ, học hỏi và làm theo họ thì chúng ta sẽ bị tụt hậu rất sâu và rất
lâu ở phía sau của quá trình chuyển đổi này. Bản thân những hãng này cũng có thể bị tụt
hậu nếu bị xẩy chân ở những thương vụ đầu tư sai hoặc chuyển đổi không kịp trong quá
trình cạnh tranh với thị trường.

Một áp lực khác cũng là động lực cho sự thay đổi có thể đến từ những công nghệ mới
và tiên tiến, những công nghệ mới nổi hoặc công nghệ của tương lai cho phép những doanh
nghiệp sở hữu công nghệ đó có thể tạo ra được những đột phá và độc quyền khai thác các
yếu tố này trong thời gian dài, tạo lợi thế cạnh tranh lớn trên thị trường. Rõ ràng và dễ hiểu,
những công nghệ mới này có thể cung cấp thêm các điểm khác biệt cạnh tranh nếu được áp
dụng trước, hoặc được nội địa hóa và tích hợp theo những cách mới. Ví dụ như hãng bán lẻ
Amazon.com là gã khổng lồ số một nước Mỹ trong thị trường bán lẻ trực tuyến lại mở rộng
ảnh hưởng bằng cách tạo ra các điểm bán truyền thống (mua lại chuỗi Whole Foods, mở
chuỗi bán lẻ Amazon Go với nhiều công nghệ bán hàng điện tử rất mới tại cửa hàng vật lý
và không sử dụng người bán), trong khi đó hoạt động bán lẻ trực tuyến của Amazon.com
lại kết hợp với các giải pháp giao hàng mới như giao hàng bằng máy bay không người lái,
giao hàng bằng xe tải không người lái, giao hàng tại các điểm nhận hàng là tủ thông minh…

140
Một ví dụ khác để làm rõ vấn đề này hơn, hãng Microsot đã dần dịch chuyển và thay đổi
các dịch vụ là các phần mềm cài đặt trên máy tính hoặc thiết bị di động phải cài đặt trở
thành các dịch vụ trực tuyến (không cần cài đặt), thay vì người dùng trả phí mua phần mềm
trọn đời thì nay sẽ trả phí theo dạng “thuê bao hàng tháng” và hướng tới các thiết bị di động
sử dụng các ứng dụng và dịch vụ trực tuyến của hãng. Điều này đã làm tăng doanh thu của
hãng lên rất nhiều so với trước đây và khách hàng lưu trữ dữ liệu trực tuyến trên đám mây
rất thuận tiện.

Chuyển đổi số là chuyển đổi điều gì?

Quá trình chuyển đổi số sẽ diễn ra trong nhiều giai đoạn và biến đổi nhiều thứ. Vậy
những thứ sẽ biến đổi là thứ gì và phải ưu tiên theo thứ tự. Cụ thể chuyển đổi số bao gồm
việc chuyển đổi các yếu tố sau:

Chuyển đổi mô hình kinh doanh: Trả lời cho câu hỏi doanh nghiệp, tổ chức kiếm tiền
bằng cách nào?

Cấu trúc của doanh nghiệp, tổ chức: Doanh nghiệp và tổ chức được tổ chức sắp xếp
như thế nào?

Con người hay nhân sự của doanh nghiệp và tổ chức: Những ai, số lượng là bao nhiêu,
cần những trình độ và kỹ năng gì, sắp xếp công việc cho nhân sự, ứng dụng những công
nghệ gì cho nhân sự…?

Quy trình hóa và số hóa quy trình: trả lời cho câu hỏi doanh nghiệp hoặc tổ chức sẽ
tạo ra những quy trình gì mới, và làm sao để số hóa được quy trình đó?

Năng lực ứng dụng và phát triển công nghệ thông tin: làm sao doanh nghiệp có thể
kiểm soát thông tin, học tập và ứng dụng công nghệ mới (ví dụ như dữ liệu lớn, trí tuệ thông
minh nhân tạo, in 3D…) vào trong hoạt động sản xuất, kinh doanh của mình?

Chuyển đổi sản phẩm và dịch vụ: trả lời cho câu hỏi, doanh nghiệp hoặc cá nhân hoặc
tổ chức kinh doanh thì bán sản phẩm gì, dịch vụ gì cho thị trường? Sản phẩm và dịch vụ đó
có yếu tố số hóa và chuyển đổi như thế nào? Ví dụ từ máy ảnh phim lên máy ảnh số, từ máy
ảnh số lên điện thoại di động có chức năng chụp hình?

Mô hình tương tác với truyền thông xã hội: trả lời cho câu hỏi doanh nghiệp hoặc tổ
chức sẽ tương tác với khách hàng hiện tại, khách hàng mục tiêu, cổ đông, báo chí và những
người quan tâm khác như thế nào, bằng kênh nào…?
141
Bằng cách trả lời các câu hỏi theo lộ trình trên, quá trình chuyển đổi số sẽ đi theo
đúng hướng, đúng người, đúng nơi, đúng chỗ, đúng thời điểm.

Tình huống nghiên cứu: Quá trình chuyển đổi số của hãng thời trang danh tiếng nước
Anh Burberry từ năm 2005 đến năm 2016. Vào năm 2005, hãng thời trang danh tiếng
Burberry phải đối mặt với rất nhiều thử thách, bao gồm chi phí tăng cao, sự phân mảnh về
thị trường tiêu dùng thời trang xa xỉ và quá trình sản xuất gặp nhiều khó khăn do nhu cầu
tiêu thụ suy giảm, sản phẩm tồn kho cao, giá bán sản phẩm trên toàn cầu không thống nhất
(do định giá khác nhau giữa các thị trường)… Nhưng vấn đề lớn nhất của thương hiệu
Burberry lại vấn đề ổn định về hình ảnh thương hiệu, vì đối với thời trang cao cấp thì hình
ảnh thương hiệu rất quan trọng. Hãng có nguy cơ đánh mất hình ảnh thương hiệu thời trang
cao cấp và phong cách lịch thiệp của hãng, thay vào đó là cảm nhận “rẻ tiền hơn, bình dân
hơn”. Sau nhiều năm suy giảm doanh thu, thì CEO điều hành mới của hãng Burberry đã
xây dựng tầm nhìn dài hạn về sự chuyển đổi số trong công ty. CEO của Burberry đã xây
dựng chiến lược chuyển đổi số dựa trên các yếu tố của mô hình này. Cụ thể, hãng chuyển
đổi mô hình kinh doanh bằng cách lựa chọn khách hàng trẻ tại khu vực châu Á và các thị
trường mới nổi. Để đáp ứng được sự chuyển đổi này, công ty cần phải thấu hiểu các khách
hàng mới bằng nhiều phương thức khác nhau, và trong đó, Burberry tập trung vào các mạng
xã hội phổ biến nhất tại Châu Á và từng thị trường khác nhau.

Với kết quả này, Burberry London xếp hạng top 10 thương hiệu xa xỉ được yêu thích
nhất, doanh thu tăng đáng kể và giá trị cổ phiếu cũng tăng lên mức khoảng 10 lần so với
năm 2002.

4. CHUYỂN ĐỔI SỐ THÀNH CÔNG

Để chuyển đổi số thành công, chúng ta cần hội tụ đủ ba yếu tố: Gồm sự nhận thức
mạnh mẽ về chuyển đổi số của doanh nghiệp, kết hợp với khả năng ra quyết định mang tính
chiến lược và khả năng áp dụng nhanh chóng từ doanh nghiệp.

Sự nhận thức:

Đối với doanh nghiệp hoặc tổ chức thì sự nhận thức là khả năng tổ chức, doanh nghiệp
đó có thể hoặc có khả năng nhìn nhận tương lai, đoán được tương lai hoặc đi theo xu hướng
của tương lai vì rủi ro bị công nghệ bỏ lại phía sau là rất cao trong bối cảnh Internet và khoa
học công nghệ bùng nổ như hiện nay.

142
Một ví dụ về sự thay đổi chậm chạp đã giết chết mô hình kinh doanh của hãng
Blockbuster – một hệ thống cho thuê phim, hãng này bị phá sản vì không kịp chuyển đổi
số, khi mà hiện nay việc tìm thấy một máy tính có đầu đọc đĩa DVD cũng là điều khó khăn.
Hay là khách hàng không còn xem phim nữa? Không phải vậy, khách hàng xem phim nhiều
hơn, xem mọi lúc, mọi nơi, nhưng họ xem trên máy tính, tivi thông minh và ứng dụng trên
điện thoại di động của họ với dịch vụ cho thuê phim trực tuyến. Chỉ cần một tài khoản là
bạn có thể đăng nhập xem bất kỳ bộ phim nào với rất nhiều nền tảng và thiết bị xem phim
khác nhau.

Khả năng ra quyết định chiến lược:

Các quyết định chiến lược đều mang tính rủi ro, quyết định đúng thì thành công, quyết
định sai thì thất bại hoặc bị phá sản. Các quyết định của ban lãnh đạo ngày nay không chỉ
phụ thuộc vào cảm tính, sự sáng tạo và óc quyết đoán, mà còn phải dựa trên rất nhiều dữ
liệu thống kê và số liệu phân tích, các báo cáo chỉ ra xu hướng ngắn hạn, xu hướng dài hạn.

Để đưa ra được các quyết định thành công, ban lãnh đạo doanh nghiệp phải hiểu rõ
tình hình nội bộ, các công nghệ mới, đặc biệt ứng dụng công nghệ cho phép làm việc từ xa,
thời gian trả lời các câu hỏi của nhân sự, khách hàng, xử lý các biến đổi trong quá trình
kinh doanh như thế nào.

Khả năng ứng dụng:

Khả năng ứng dụng nhanh chóng các công nghệ mới thể hiện qua việc, khi doanh
nghiệp ra quyết định sử dụng một hệ thống công nghệ nào đó từ phần cứng đến phần mềm,
hoặc sử dụng một mô hình mới sau quá trình thuê tư vấn, thì doanh nghiệp và đội ngũ của
doanh nghiệp cần phải áp dụng được, ứng dụng được và nâng cao hiệu quả làm việc trong
doanh nghiệp. Cụ thể sẽ phụ thuộc vào tốc độ ứng dụng và khả năng thực hiện hệ thống đó
trong doanh nghiệp. Có thể với những hệ thống lớn, hệ thống phức tạp quá trình học hỏi
mất khoảng 1 năm hoặc nhiều hơn, nhưng quá trình thực hiện và ứng dụng thành công có
thể mất nhiều thời gian hơn nữa.

Quá trình này sẽ diễn ra theo quy trình vòng: Thực hiện, thất bại, điều chỉnh, thực
hiện lại, thử lại và dần dần mọi thứ trở nên tốt hơn. Thực tế, kể cả những hãng rất thành
công trong quá trình chuyển đổi số hoặc những hãng đó trở thành biểu tượng cho những
doanh nghiệp khác học hỏi thì vẫn có thể thất bại. Tiêu biểu như hãng Microsoft đã không
thành công với sản phẩm phần cứng điện thoại di động dù đã mua lại Nokia và xây dựng
143
cả hệ điều hành cho thiết bị di động dựa trên nền tảng hệ điều hành Windows vốn đã quen
thuộc với người dùng trên toàn thế giới. Hãng công nghệ Google vẫn thất bại với chính
mạng xã hội Google Wave, thất bại đến hai lần, dù họ đã cố gắng cho ra mắt mạng xã hội
mới là Google Plus.

5. KẾT LUẬN

Chuyển đổi số trong kinh doanh là làm kinh doanh thì phải chuyển đổi, mà phải
chuyển đổi theo hướng kỹ thuật số, tóm lại là tất cả về sự thay đổi. Doanh nghiệp, tổ chức
và cả những người khởi nghiệp kinh doanh cũng cần phải chuẩn bị cho sự thay đổi sẽ diễn
ra liên tục và vô cùng khắc nghiệt này. Chuyển đổi có thể vẫn không thành công nếu chuyển
đổi sai cách hoặc chưa nắm rõ quá trình chuyển đổi, cách thức chuyển đổi, nhưng nếu không
chuyển đổi thì chắc chắn thất bại.

Thực tế hiện nay, trên thế giới cũng như tại Việt Nam cũng có không ít các doanh
nghiệp đánh giá không đúng tầm quan trọng của chuyển đổi số nên đã bị rơi vào giai đoạn
gián đoạn số (tức là không chịu chuyển đổi) và có nguy cơ bị tụt hậu và phá sản rất lớn, đặc
biệt là những công ty hoạt động và kinh doanh trong lĩnh vực công nghệ, truyền thông kỹ
thuật số, giải trí, bán lẻ và bán lẻ mô hình mới.

Hiểu được yêu cầu của quá trình chuyển đổi số trong kinh doanh thì mới áp dụng
thành công các yếu tố của quá trình chuyển đổi. Tất nhiên, trong khi áp dụng mô hình
chuyển đổi số vào hoạt động kinh doanh thì cũng không thể áp dụng đúng cho tất cả các
doanh nghiệp khác nhau, quy mô khác nhau, năng lực và kinh nghiệm khác nhau, khả năng
tài chính khác nhau. Mô hình mà tác giả giới thiệu trong bài này với mong muốn đưa ra
một cách tiếp cận cơ bản và các doanh nghiệp có thể đi đúng hướng trong quá trình chuyển
đổi số và sớm chuyển đổi số thành công.

TÀI LIỆU THAM KHẢO

[1] https://digital.hbs.edu/platform-rctom/submission/burberrys-digital-transformation/
[2] Châu An, 2019, Chuyển đổi số là gì, vnexpress.net
[3] Nguyễn Phan Anh, 2020, Mô hình chuyển đổi số, pamarketing.vn
[4] https://en.wikipedia.org/wiki/Digital_transformation

144
GIẢI PHÁP NHÀ MÁY THÔNG MINH CHO DOANH NGHIỆP

Nguyễn Huy Khang


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: nhkhang@ufm.edu.vn

Tóm tắt: Tâm điểm của cuộc cách mạng công nghiệp lần thứ 4 chính là các nhà máy thông
minh. Mô hình cho phép mỗi doanh nghiệp tăng năng suất, tính linh hoạt và hiệu quả, rút ngắn
thời gian đưa sản phẩm ra thị trường, tăng khả năng cạnh tranh. Cùng lúc, người tiêu dùng sẽ
hưởng lợi ích từ các sản phẩm có chất lượng cao, giá cả cạnh tranh và đặc biệt là được cá nhân
hóa theo ý muốn. Vì vậy các doanh nghiệp không thể đứng ngoài xu hướng triển khai mô hình nhà
máy thông minh. Từ nhận thức trên, buộc mỗi đơn vị phải có sự chuẩn bị kỹ lưỡng trong ứng dụng
công nghệ thông minh tại các khu vực nhà máy.

Từ khóa: Chất lượng, Chi phí, Tiến độ giao hàng, Cách mạng công nghiệp 4.0.

1. TẠI SAO TRIỂN KHAI NHÀ MÁY THÔNG MINH TRỞ THÀNH XU THẾ TẤT
YẾU TRONG BỐI CẢNH HIỆN NAY?

Cuộc cách mạng công nghiệp 4.0 (CMCN 4.0) có tác động đến mọi lĩnh vực và toàn
bộ nền kinh tế trên toàn cầu. Đối với ngành công nghiệp, khởi nguồn của cuộc cách mạng
kể trên, công nghệ 4.0 đang phá vỡ hầu hết nền tảng sản xuất truyền thống và tạo ra sự thay
đổi lớn theo cách phi tuyến tính với tốc độ chưa từng thấy, đặc biệt là khu vực nhà máy.

Trong xu thế trên, doanh nghiệp sản xuất Việt có nhiều lợi thế để tham gia vào chuỗi
cung ứng toàn cầu. Tuy nhiên, doanh nghiệp sản xuất phải nỗ lực nâng cấp mình, mạnh dạn
chuyển đổi số để nâng cao chất lượng sản phẩm, đáp ứng nhu cầu ngày càng khắt khe của
thị trường quốc tế. Ngoài ra các đơn vị cũng cần trang bị cho mình khả năng ứng phó linh
hoạt để đáp ứng kỳ vọng ngày càng tăng của người tiêu dùng về thời gian giao hàng nhanh
hơn, thêm nhiều tùy chọn để tùy chỉnh sản phẩm, minh bạch hơn và chi phí thấp hơn. Do
đó, việc triển khai nhà máy thông minh là một chiến lược khôn ngoan không chỉ doanh
nghiệp lớn với vốn đầu tư FDI cao mà còn cả những đơn vị với quy mô vừa và nhỏ cũng
cần cân nhắc.

2. ĐẶC TRƯNG CỦA MỘT NHÀ MÁY THÔNG MINH

Mô hình nhà máy thông minh hỗ trợ các doanh nghiệp sản xuất thu thập dữ liệu một
cách có định hướng để góp phần kiểm soát QCD (Quality – Chất lượng, Cost – Chi phí,

145
Delivery – Tiến độ giao hàng) trên toàn bộ chuỗi giá trị, giúp nâng cao lợi thế cạnh tranh
của doanh nghiệp, góp phần mở rộng phạm vi cơ hội gia nhập thị trường quốc tế. Điều này
được xây dựng thông qua 12 đặc trưng hàng đầu của mọi nhà máy thông minh.

2.1. Tự động hóa

CMCN 4.0 bùng nổ với sự ra đời của máy móc thông minh kết hợp với robot công
nghiệp cùng những chiếc xe tự hành AGV đã góp phần mở rộng và nâng cao khả năng tự
động hóa trong các nhà máy sản xuất hiện nay. Từ việc vận hành quá trình sản xuất một
cách tự động, con người không phải tham gia hoặc tham gia rất ít vào quá trình sản xuất.

2.2. Thông minh

Thiết bị thông minh được sử dụng phổ biến trong nhà máy 4.0 như cảm biến, RFID,
thiết bị quét mã QR Code… nhằm thu thập dữ liệu trực tiếp trong quá trình sản xuất – vận
hành, phục vụ quản lý năng suất dây chuyền sản xuất, vị trí hàng hóa, kho, chuỗi logistic….

2.3. Kết nối

Tính kết nối được coi đặc tính nổi bật nhất và tạo ra sự khác biệt của Smart Factory
so với những mô hình nhà máy trong các cuộc Cách mạng Công nghiệp trước đó. Trong
đó, mạng lưới internet vạn vật trong công nghiệp (IIoT) được coi là xương sống trong việc
kết nối dữ liệu từ tầng máy móc vận hành tới tầng công nghệ thông tin. Cùng với OPC –
UA (một giao thức chuẩn của công nghệ 4.0), sự kết nối giữa máy móc – phần mềm càng
được dễ dàng mở rộng để xử lý dữ liệu thành những thông tin quan trọng cho mục đích
giám sát – quản lý sản xuất. Từ đây, mỗi doanh nghiệp có thể kết nối và xử lý dữ liệu liên
tục từ hoạt động sản xuất và kinh doanh cũng như từ các nhà cung cấp và khách hàng cho
phép cái nhìn toàn diện, thúc đẩy hiệu quả mạng lưới cung ứng tổng thể cao hơn.

2.4. Thời gian thực

Kết nối đa chiều giữa máy móc – thiết bị – con người đã tạo nên một nhà máy sản
xuất thông minh có sự điều hành và giám sát trong thời gian thực. giúp doanh nghiệp giải
quyết các bài toán về sử dụng nguồn lực hiệu quả, tối ưu hóa hiệu suất thiết bị tổng thể và
quản lý chuỗi cung ứng chặt chẽ.

2.5. Trực quan hóa

Mục tiêu chính của trực quan hóa dữ liệu là truyền đạt thông tin hiệu quả đến người
đọc thông qua các phương tiện đồ họa. Tại nhà xưởng, dữ liệu từ dây chuyền máy móc
146
được ghi nhận trực tiếp và ngay lập tức trên các máy tính bảng công nghiệp (hoặc màn hình
số cỡ lớn). Việc trực quan hóa tại hiện trường sản xuất không chỉ giúp những nhà quản lý
mà còn chính các công nhân có thể cập nhật tức thì tình trạng sản xuất mỗi ngày và xử lý
sự cố bất thường kịp thời. Ngoài ra, toàn bộ dây chuyền và quá trình sản xuất còn được trực
quan hóa tại các phòng điều hành, giúp theo dõi & kiểm soát tổng thể từ xa mọi hoạt động
tại nhà xưởng trong thời gian thực.

2.6. Số hóa

Trong nhà máy thông minh, hệ thống MES & hệ thống ERP là hai nền tảng công nghệ
không thể thay thế, giúp số hóa toàn bộ quy trình quản trị lõi và hoạt động vận hành trong
nhà máy, tạo ra một dòng chảy thống nhất, xuyên suốt giữa các phòng ban chức năng với
xưởng sản xuất. Từ đây, dữ liệu doanh nghiệp trở nên nhất quán và tức thời.

2.7. Chủ động

“Dự đoán” và “Lập kế hoạch” là hai khả năng ưu việt được ứng dụng triệt để trong
các nghiệp vụ bảo trì, quản lý chất lượng, quản lý vật tư… tại nhà máy thông minh. Chính
những đặc điểm này đã chuyển đổi nhà máy sản xuất lên một cấp độ cao hơn, từ thụ động
sang chủ động.

2.8. Linh hoạt

Khi có biến động thị trường, những nhà máy thông minh có thể thích nghi và đáp ứng
linh hoạt không chỉ những thay đổi về mặt vật lý (bố trí nhà xưởng), mà còn đảm bảo các
yêu cầu về cân đối năng lực sản xuất và thời gian thực hiện.

2.9. Toàn diện

Hệ thống báo cáo thông minh – Business Intelligence – kết nối và phân tích chuyên
sâu những dữ liệu thu thập được tại tất cả các tầng vận hành để tạo ra những lát cắt trực
quan bằng biểu đồ (dashboard) về toàn bộ hoạt động sản xuất kinh doanh của doanh của
doanh nghiệp. Bức tranh toàn diện này sẽ giúp nhà quản lý điều hành công việc từ xa và ra
quyết định chiến lược nhanh chóng.

2.10. Tối ưu hóa

Có thể nói, sự tổng hòa các yếu tố tri thức, công nghệ, con người đã tạo nên những
thế hệ nhà máy thông minh có sức mạnh vượt trội về năng lực và chất lượng sản xuất, không
những thế còn có khả năng tối ưu hóa chi phí và tiến độ giao hàng
147
3. KIẾN TRÚC NHÀ MÁY THÔNG MINH PHỔ BIẾN HIỆN NAY

Mô hình nhà máy thông minh chính là chiến lược có vị trí quan trọng trong công cuộc
chuyển mình theo xu thế hiện đại mà cuộc cách mạng 4.0 tạo ra.

Hình: Kiến trúc của mô hình nhà máy chuẩn thông minh hiện nay

Sau đây là những thành tố được coi là nền tảng quan trọng nhất cấu thành một mô
hình nhà máy chuẩn thông minh:

3.1. Tầng 1: Tự động hóa máy móc

Đây là tầng diễn ra ở khu vực sản xuất với nhiệm vụ là điều khiển, giám sát và thu
thập dữ liệu phục vụ cho các tầng phía trên. Đây cũng được coi là tầng tự động hóa trong
mô hình nhà máy thông minh.

Đối với những máy móc trong nhà máy chưa thể thu thập dữ liệu, doanh nghiệp sẽ sử
dụng bộ chuyển đổi tiên tiến cho từng thiết bị.

3.2. Tầng 2: IIoT (Industrial Internet of Things)

Được hiểu là Internet vạn vật trong công nghiệp, IIoT cũng có chung nhiệm vụ với
tầng số 1 đó là sử dụng cảm biến để thu thập thông tin tình trạng máy móc, thống kê sản
lượng sản xuất của thiết bị theo thời gian thực, từ đó cung cấp dữ liệu cho các tầng phía
trên sử dụng và phân tích. Một số công cụ tiêu biểu của tầng IIoT có thể kể đến như Sensor,
QR code, Workstation,…

IIoT là đại diện cho tầng kết nối với khả năng ưu việt đó là gia tăng hiệu quả, tầm ảnh
hưởng, tiết kiệm thời gian, chi phí cho các tổ chức. Những kết nối nhạy bén từ các thiết bị

148
trong nhà máy mà không cần sự can thiệp của con người chính là điểm nổi bật mà IIoT đem
lại trong nhà máy của bạn.

3.3. Tầng 3: MES (Manufacturing Execution System)

MES – Hệ thống điều hành và thực thi sản xuất là yếu tố kết nối giữa hoạt động sản
xuất tại nhà máy với bộ phận quản lý thông qua việc lấy dữ liệu trực tiếp từ máy móc. Tầng
này được triển khai đến đội ngũ quản lý sản xuất, quản lý chất lượng và công nhân vận
hành máy. Bằng cách này mỗi doanh nghiệp có thể cập nhật hoạt động sản xuất tức thời
thay vì phải chờ đến khi kết thúc công đoạn sản xuất theo phương thức truyền thống. MES
thúc đẩy quá trình kiểm tra sản phẩm, thu thập dữ liệu, tối ưu hóa nguồn lực và quản lý chất
lượng trong nhà máy một cách trực tiếp và theo thời gian thực. Từ đó, hệ thống MES tạo ra
và cung cấp quy trình quản lý sản xuất tối ưu trong các mô hình nhà máy thông minh.

3.4. Tầng 4: ERP (Enterprise Resource Planning)

ERP là một giải pháp có thể hỗ trợ quản lý một cách hiệu quả các tài nguyên doanh
nghiệp trên toàn bộ nhà máy. Tầng này triển khai cho các phòng ban chức năng như Mua
hàng, Bán hàng, Tài chính kế toán, Kế hoạch.

Với mục tiêu tạo ra sự hợp tác và thúc đẩy hiệu quả giữa các bộ phận trong phân
xưởng, đảm bảo sự kết nối dữ liệu từ tầng sản xuất lên tới khu vực quản trị,… phần mềm
ERP đã trở thành công cụ quan trọng hàng đầu trong mô hình nhà máy thông minh.

3.5. Tầng 5: BI (Business Intelligence)

Tầng thứ 5 là Hệ thống báo cáo quản trị thông minh, hỗ trợ ra quyết định. Tầng này
sử dụng cho Ban lãnh đạo và các cấp quản lý.

BI dựa trên luồng dữ liệu từ dưới phân xưởng gửi lên khối văn phòng thông qua các
tầng trong nhà máy, từ đây hỗ trợ Nhà quản trị có cái nhìn trực quan về mọi hoạt động diễn
ra trong doanh nghiệp. Tính ưu việt của tầng BI trong mô hình nhà máy của tương lai đó là
hệ thống phân tích trực quan thông qua các biểu đồ và màn hình thông minh. Từ đó người
quản trị có thể đưa ra những quyết định mang tính chiến lược, đem lại hiệu quả lâu hơn.

4. YẾU TỐ CÔNG NGHỆ CẤU THÀNH NHÀ MÁY SẢN XUẤT THÔNG MINH

Nhà máy sản xuất thông minh được định nghĩa là cơ sở sản xuất có sự kết nối liền
mạch của các bước sản xuất riêng lẻ, từ các giai đoạn lập kế hoạch đến các bước nhỏ trong
quy trình sản xuất. Trong tương lai gần, máy móc và thiết bị sẽ có thể cải thiện các quy
149
trình thông qua tự tối ưu hóa; hệ thống sẽ tự động thích ứng với hồ sơ lưu lượng và môi
trường mạng. Trong đó, 4 yếu tố công nghệ trọng yếu cấu thành mô hình nhà máy sản xuất
thông minh, bao gồm: tự động hóa, kết nối dữ liệu, số hóa quả trị và báo cáo thông minh.

4.1. Tự động hóa

Cập nhật và ứng dụng tự động hóa vào sản xuất là điều kiện tiên quyết trong việc xây
dựng nhà máy sản xuất thông minh không chỉ với các doanh nghiệp Việt Nam mà còn trên
toàn thế giới. Tự động hóa hiểu đơn giản là việc tích hợp các hệ thống điều khiển vào các
thiết bị vận hành như máy móc, quy trình lắp ráp trong nhà máy để điều khiển nghiệp vụ tự
động. Việc tích hợp này sẽ hạn chế sự can thiệp của con người vào quy trình sản xuất, từ
đó giảm thiểu sai sót không đáng có và duy trì ổn định các thông số sản xuất.

Tự động hóa có thể được ứng dụng để kiểm soát và điều chỉnh các thông số hoạt động
của tất cả các thiết bị, máy móc trong nhà máy, từ những cơ cấu, máy móc đơn giản đến hệ
thống điều khiển công nghiệp lớn với thông số từ hàng chục ngàn phép đo đầu vào và tín
hiệu điều khiển đầu ra. Trong các hệ thống tự động hóa công nghiệp, người ta thường sử
dụng các bộ Programmable Logic Controller (PLC). PLC có thể xem là những máy tính
đơn giản để hỗ trợ người thiết lập hệ thống tạo ra các chương trình điều khiển dựa trên
những thuật toán điều khiển logic và các sự kiện kích thích từ những hệ thống bên ngoài
như các cảm ứng (sensor) hoặc các thông tin ghi nhận lại tại các trạm HMI (Human Machine
Interface), MMI (Machine Machine Interface).

Trong bối cảnh của cuộc Cách mạng Công nghiệp lần thứ tư, các hệ thống tự động
hóa sẽ được kết nối với xử lý dữ liệu ở mức doanh nghiệp của nhà máy sản xuất thông
minh như ERP hay MES. Khi đó bộ điều khiển sẽ không chỉ có khả năng phản ứng trước
các sự kiện mà còn có một số khả năng dự đoán sự kiện trước khi nó xảy ra.

4.2. Kết nối thiết bị

Một nhà máy sản xuất thông mình phải tạo lập được một hệ sinh thái IIoT, nơi mọi
thiết bị, máy móc và/hoặc quy trình được kết nối thông qua các hệ thống truyền thông dữ
liệu. Như vậy, mọi thông tin trong quá trình vận hành nhà máy có thể tổng hợp và xử lý
trên đám mây hoặc hệ thống server vật lý đặt tại nhà máy. Công nghệ này giúp doanh nghiệp
cập nhật chuẩn xác và liên tục nguồn dữ liệu vận hành phong phú, giàu thông tin của tất cả
các thành tố trong hệ sinh thái.

150
Trong mô hình nhà máy thông minh, hệ thống kết nối dữ liệu đóng vai trò cầu nối
giữa hệ thống vận hành sản xuất (OT) và hệ thống công nghệ thông tin quản trị hệ thống
(IT). Nhờ ứng dụng các công nghệ mới của IIoT, hệ thống OT phức tạp và kém hiệu quả sẽ
được vận hành trên một nền tảng thống nhất. Điều này thúc đẩy nhu cầu sử dụng các hệ
thống tính toán, lưu trữ, phân tích dữ liệu,… mà IT với sở trường và thành tựu của mình có
thể phối hợp mang lại lợi ích, giải quyết vấn đề. Đồng thời qua sự tích hợp này IT có thể
mở rộng được khả năng hiển thị, kiểm soát, quản lý đến khu vực OT từ đó đáp ứng cao hơn
chiến lược dài hạn của doanh nghiệp.

4.3. Số hóa quản trị

Quản trị sản xuất thời đại 4.0 là sự kết hợp của hai hệ thống MES – Hệ thống điều
hành sản xuất và ERP – Phần mềm hoạch định nguồn lực doanh nghiệp. Mô hình nhà máy
sản xuất thông minh kiểu này bao gồm lớp trên cùng là hệ thống ERP, dùng để quản tri các
đơn đặt hàng, hóa đơn vật liệu, kiểm soát hàng tồn kho,… Tiếp sau đó, thông tin sẽ được
chuyển xuống lớp MES để tập trung điều hành các hoạt động trên sàn nhà máy như quy
trình sản xuất, quản trị hồ sơ lô điện tử, phân phối sản xuất hoặc quản lý thiết bị. Với mô
hình quản trị hai lớp như vậy, nhà quản trị doanh nghiệp có thể dễ kiểm soát, lên kế hoạch
và thực thi các kế hoạch sản xuất, đồng thời tối ưu hóa nguồn lực và giảm chi phí.

Việc chia tầng quản trị tập trung trên một hệ thống như vậy sẽ giúp kiểm soát tốt hoạt
động của từng bộ phận trong công ty đồng thời đảm bảo tính kết nối vững chắc của thông
tin giữa các bộ phận có liên quan với nhau. Khi hệ thống quản trị được kết hợp với những
thông tin thu thập theo thời gian thực có thể cung cấp một cái nhìn tổng quan về các hoạt
động của doanh nghiệp từ đó hỗ trợ chủ doanh nghiệp đưa ra quyết định chính xác nhất tại
mọi thời điểm.

Các doanh nghiệp sản xuất còn nhận được thêm rất nhiều lợi ích khi ứng dụng số hóa
trong quản trị. Hiệu quả dễ nhận thấy nhất là giúp giảm giấy tờ, nguồn lực lưu trữ đồng thời
giảm mất mát, sai sót số liệu. Với hệ thống quản trị được số hóa, vai trò của con người thay
thế dần từ người thực thi chuyển sang người quản lý, điều này giúp tránh được những sai
sót không đáng có do sự bất cẩn của con người.

4.4. Báo cáo thông minh

Ngành công nghiệp sản xuất nổi tiếng là phức tạp với vô số khía cạnh của chuỗi cung
ứng, vận hành máy móc và hậu cần liên quan. Vì vậy, việc tạo ra một nền tảng chung, nơi
151
tất cả các thông tin được tổng hợp là chưa đủ. Để duy trì lợi nhuận, các thông tin này cần
được tổng hợp và phân tích để tìm ra những thông tin có ý nghĩa. Đây là lúc Báo cáo thông
minh (BI) phát huy tác dụng.

Báo cáo thông minh (BI) là một quy trình tích hợp công nghệ mà các doanh nghiệp
dùng để kiểm soát khối lượng dữ liệu khổng lồ đến từ nhiều nguồn khác nhau và khai thác
nguồn dữ liệu đó một cách hiệu quả, tạo ra những tri thức mới giúp cho các nhà quản lý có
thể đưa ra các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình. Hiểu một
cách đơn giản, BI giúp chuyển dữ liệu thô thành các bảng báo cáo, các biểu đồ, các hình
ảnh trực quan giúp người dùng hiểu dữ liệu một cách dễ dàng hơn, từ đó cung cấp một cái
nhìn toàn cảnh về hoạt động của doanh nghiệp trong suốt thời gian hoạt động cũng như dự
báo xu thế thị trường trong thời gian tới.

Đối với nhà máy sản xuất thông minh, BI có thể cung cấp Khả năng đánh giá hiệu
suất của máy móc thiết bị, hiểu những nguyên nhân dẫn tới thời gian chết trong quy trình
sản xuất, theo dõi hiệu suất sản xuất và cảnh báo những vấn đề có thể phát sinh khi vận
hành sản xuất trong thời gian thực. Những tính năng này sẽ giúp các công ty sản xuất thu
hẹp khoảng cách giữa các hệ thống và hỗ trợ cách tiếp cận dựa trên dữ liệu để ra quyết định
trong quy trình.

5. CÁC CÔNG NGHỆ SẢN XUẤT THÔNG MINH ĐƯỢC ỨNG DỤNG NĂM 2020

Trong một báo cáo của mình, PwC – đơn vị kiểm toán hàng đầu thế giới, đánh giá
rằng, trong năm năm tới đây, 85% các công ty công nghiệp sẽ triển khai các công nghệ 4.0
trong tất cả các bộ phận kinh doanh quan trọng. Không khó để giải thích xu hướng này, bởi
trong tương lai gần, các nhà sản xuất sẽ phải đối mặt với áp lực ngày càng tăng về chi phí,
hiệu quả và đảm bảo chất lượng. Và ứng dụng các công nghệ sản xuất thông minh như IoT,
AI, Học máy, … là giải pháp duy nhất cho vấn đề này.

Các công nghệ được áp dụng vào sản xuất thông minh trong năm 2020 như sau:

5.1. Phân tích dữ liệu từ IIoT

Internet vạn vật cho ngành công nghiệp (IIoT) đã không chỉ dừng lại ở khái niệm
công nghệ mà đã và đang được áp dụng và triển khai ngày một rộng rãi trong các ngành
công nghiệp. Một cuộc khảo sát của gã khổng lồ IIoT – Microsoft cho thấy 94% các công
ty cho biết họ sẽ thực hiện chiến lược IIoT vào năm 2021. Trên thực tế, IDC dự đoán rằng

152
chi tiêu cho công nghệ IoT sẽ đạt tới một nghìn tỷ đô la Mỹ vào năm 2022. Các lĩnh vực
lớn nhất đầu tư vào công nghệ mới này bao gồm sản xuất riêng biệt, sản xuất theo quy trình,
vận tải và sản phẩm tiện ích.

Trong năm 2020, bài toán không còn là có nên áp dụng IIoT cho doanh nghiệp không,
mà đã chuyển thành, làm sao để có được công nghệ phân tích dữ liệu mạnh mẽ nhất. Các
doanh nghiệp sản xuất sẽ phải tham gia vào cuộc chạy đua trong việc tận dụng các công cụ
phân tích tinh vi để xác định các vấn đề, cơ hội và giải pháp kinh doanh. Các nhà sản xuất
chậm chân, tiếp tục theo đuổi chủ nghĩa kinh nghiệm và phân tích dựa trên cảm tính sẽ sớm
phải rời khỏi cuộc chơi.

5.2. Học máy và AI

Các ứng dụng của AI và học máy cũng đóng vai trò ngày một quan trọng hơn trong
ngành phân tích dữ liệu. Hai công nghệ này sẽ đưa sản xuất lên một tầm cao mới. Theo các
chuyên gia, AI và Học máy cung cấp ba giá trị trọng tâm là tốc độ, quy mô và sự thuận tiện.

Tốc độ và quy mô nói lên lợi thế của việc phân tích các tập dữ liệu khổng lồ một cách
tự động so với việc phân công nhiệm vụ cho các chuyên gia phân tích dữ liệu, vốn không
đảm bảo được tính chính xác và ổn định. Giờ đây, AI và thuật toán học máy đã có khả năng
xử lý tốt các tập dữ liệu có cấu trúc phức tạp và khối lượng cực lớn. Sự phát triển này giúp
rút ngắn thời gian xử lý và phân tích các tập dữ liệu phức tạp từ vài năm xuống vài ngày.

Về mặt thuận tiện, việc bổ sung AI và Máy học vào công cụ phân tích giúp chúng trở
nên trực quan, dễ sử dụng và đáng tin cậy hơn. Kế thừa những thành tựu của năm 2019, tốc
độ và độ chính xác của các thuật toán này có thể sẽ cải thiện đáng kể vào năm 2020.

5.3. Sự phát triển của điện toán biên (edge computing) và điện toán lai (hybrid
computing)

Trong một vài năm trở lại đây, khi nghĩ đến việc lưu trữ và xử lý dữ liệu, người ta
nhắc nhiều đến điện toán đám mây. Tuy nhiên, sau một thời gian ứng dụng trong các doanh
nghiệp sản xuất, đám mây đã bắt đầu xuất hiện một vài nhược điểm như: tồn tại độ trễ nhất
định do quá trình truyền tải dữ liệu, yêu cầu đường truyền internet ổn định. Đó là lúc mà
người ta tìm tới mô hình xử lý dữ liệu mới là Điện toán biên và điện toán lai.

Edge Computing (Điện toán biên) phù hợp với các trường hợp xử lý dữ liệu đòi hỏi
phản hồi chính xác và tức thì trong thời gian thực như điều khiển xe tự lái, các thiết bị theo

153
dõi sức khỏe cá nhân. Khi đó, các ứng dụng không thể chờ dữ liệu được gửi đến máy chủ
đám mây, được xử lý và sau đó nhận hướng dẫn cho các hành động tiếp theo. Thay vào đó,
dữ liệu được xử lý và phân tích càng gần các thiết bị được kết nối càng tốt. Ước tính đến
năm 2020, 45% dữ liệu được tạo bởi các thiết bị IoT sẽ được lưu trữ, xử lý, phân tích và
hành động khi ở gần hoặc ở cạnh bên.

Điện toán biên có ưu thế hơn hẳn điện toán đám mây về thời gian đáp ứng và độ tin
cậy ngay cả trong điều kiện mạng kém. Tuy nhiên, trên thực tế, phần nhiều các trường hợp
IoT sử dụng trong ngành công nghiệp cần lưu trữ và xử lý một khối dữ liệu khổng lồ, nên
đòi hỏi một trung tâm tập trung như đám mây. Yêu cầu này đã khiến người ta sáng tạo mô
hình điện toán lai, giải pháp kết hợp giữa các khả năng của điện toán đám mây và biên: Xử
lý ở cạnh, lưu trữ và phân tích tại đám mây.

Mô hình điện toán lai sẽ cho phép các công ty tận dụng tốt nhất đám mây công cộng
và riêng tư bằng cách tích hợp chúng. Người dùng có thể lưu trữ dữ liệu nhạy cảm trên các
máy chủ đám mây riêng và sử dụng các nhà cung cấp dịch vụ đám mây công cộng để chạy
các ứng dụng và phân tích.

Theo các báo cáo thị trường, trong năm 2020 này, phần lớn các công ty công nghiệp
và sản xuất có xu hướng sử dụng mô hình điện toán lai khi có kế hoạch đầu tư vào phát
triển sản xuất thông minh.

5.4. Công nghệ 5G

Tiếp nối nhiều thử nghiệm nhỏ lẻ của công nghệ 5G trên toàn thế giới trong năm
2019, năm 2020 sẽ đánh dấu sự bùng nổ của công nghệ này bằng việc triển khai hàng loạt
5G ở quy mô lớn. Điều này có khả năng tác động lớn đến nền sản xuất thông minh. 5G nếu
được áp dụng sẽ phá bỏ rào cản của tốc độ và cường độ truyền dữ liệu trên internet và cho
phép các nhà sản xuất giảm thiểu độ trễ và cải thiện giao tiếp theo thời gian thực.

Tuy không phải nhà sản xuất nào cũng có đủ tiềm lực và điều kiện để tận dụng lợi ích
của 5G nhưng, những người tiên phong ứng dụng công nghệ này sẽ có cơ hội tuyệt vời để
cải thiện quy trình sản xuất và nâng cao hiệu xuất.

6. KẾT LUẬN

Trên thực tế, nhiều nhà máy ở Việt Nam vẫn đang loay hoay chưa biết bắt đầu từ đâu
để triển khai thành công mô hình nhà máy thông minh theo chuẩn quốc tế; Có thể thấy, các

154
xu hướng công nghệ sản xuất thông minh của năm 2020 thiên về kế thừa những thành tựu
đã đạt được trong thời gian trước. Tuy nhiên, cần nhấn mạnh, sự khác biệt nằm ở chỗ, số
lượng doanh nghiệp và mức độ ứng dụng các công nghệ này trên thực tế sản xuất. Tại Việt
Nam, tuy chưa nhiều ghi nhận nhiều trường hợp ứng dụng thành công công nghệ 4.0 trong
hệ thống sản xuất, tuy nhiên, về tầm nhìn chiến lược, nhiều doanh nghiệp đã chuẩn bị sẵn
sàng nguồn lực để đón đầu xu hướng này

TÀI LIỆU THAM KHẢO

[1]. S. Russell, P. Norvig, Artificial Intelligence: A Modern Approach, 3rd Global Edition,
Pearson, 2016.
[2]. J. McCarthy, M.L. Minsky, N. Rochester, C.E. Shannon, “A Proposal for the
Dartmouth summer conference on artificial intelligence”, AI Magazine, 1955
[3]. Alan Mackworth & David Lynton Poole, Artificial Intelligence-Foundations of
Computational Agents, 2006
[4]. A.S. Rao, G. Verweij, “Sizing the prize: What’s the real value of AI for your business
and how can you capitalise”, PwC Report, 2017.
[5]. Stuart Russell & Peter Norvig, Artificial Intelligence-A Modern Approach, 2009.

155
ỨNG DỤNG CỦA BIG DATA TRONG TIẾP THỊ KỸ THUẬT SỐ
(DIGITAL MARKETING)

Nguyễn Thanh Bình


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: ntbinh@ufm.edu.vn

Tóm tắt: Trong kỷ nguyên công nghệ, sự phát triển vượt bậc của công nghệ thông tin, khoa
học & công nghệ và sự phổ biến của các thiết bị Internet, điện thoại di động đã dẫn đến một sự
bùng nổ của dữ liệu - những dữ liệu đến từ chính những tương tác của con người trên đa dạng các
thiết bị kỹ thuật số, dữ liệu được tạo ra với tốc độ chóng mặt được gọi là Big Data. Bên cạnh đó,
sự phát triển của thương mại điện tử, Digital Marketing đã ngày càng khẳng định ưu thế vượt trội
so với những phương thức marketing truyền thống trước đây chỉ giới hạn trong phạm vi địa lý nhất
định. Digital Marketing giúp thông điệp truyền thông của doanh nghiệp vượt ra ngoài giới hạn về
địa lý, đạt đến những hiệu quả giao tiếp với khách hàng tối ưu nhất. Trong khuôn khổ bài viết này,
tôi cung cấp tổng quan về Big Data, Digital Marketing, kết quả khảo sát nhận thức của doanh
nghiệp về Big data, những thuận lợi khó khăn trong việc ứng dụng Big Data vào hoạt động Digital
Marketing.

Từ khóa: Big Data, dữ liệu lớn, Digital Marketing

1. KHÁI NIỆM VỀ BIG DATA

Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp mà các
phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.

Theo Gartner: Dữ liệu lớn là những nguồn thông tin có đặc điểm chung khối lượng
lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai
thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa
quy trình.

2. PHÂN LOẠI DỮ LIỆU LỚN

Dữ liệu lớn bao gồm dữ liệu truyền thống và dữ liệu phi truyền thống

➢ Dữ liệu truyền thống bao gồm:

- Dữ liệu của công ty dưới dạng báo cáo hàng năm, hồ sơ theo qui định, số liệu bán
hàng và thu nhập và các cuộc hội nghị bằng điện thoại (conference calls).

156
- Dữ liệu được tạo ra trên thị trường tài chính, bao gồm giá và khối lượng giao dịch.

- Thống kê của chính phủ.

➢ Dữ liệu phi truyền thống bao gồm:

- Dữ liệu từ cá nhân: Bài đăng trên các mạng xã hội, các đánh giá trực tuyến, email và
việc truy cập trang web.

- Dữ liệu từ các doanh nghiệp: Hồ sơ ngân hàng và dữ liệu máy quét bán lẻ.

- Dữ liệu từ các thiết bị điện tử: Dữ liệu được tạo ra từ nhiều loại thiết bị, bao gồm điện
thoại thông minh, máy ảnh, micrô, đầu đọc nhận dạng tần số vô tuyến (RFID), cảm biến
không dây và vệ tinh.

Khi Internet và các thiết bị nối mạng ngày càng phát triển, việc sử dụng các nguồn
dữ liệu phi truyền thống đã tăng lên, bao gồm thông tin trên các mạng xã hội, email và các
phương thức giao tiếp bằng văn bản, lưu lượng truy cập trang web, trang tin tức trực tuyến
và các nguồn thông tin điện tử khác.

3. ĐẶC TRƯNG CỦA DỮ LIỆU LỚN

Dữ liệu lớn có 5 đặc trưng cơ bản như sau (mô hình 5V):

Hình 1: 5 đặc trưng của Big Data

(1) Khối lượng dữ liệu (Volume):

Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, khối lượng dữ liệu rất lớn. Kích cỡ
của Big Data đag từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng
vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp

157
dữ liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với
dữ liệu lớn chúng ta sẽ sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được
dữ liệu lớn.

(2) Tốc độ (Velocity):

Tốc độ có thể hiểu theo 2 khía cạnh:

(a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy
cập tìm kiếm trên web bán hàng của Amazon);

(b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý
ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ
biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe
như hiện nay phần lớn dữ liệu lớn được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày
nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.

(3) Đa dạng (Variety):

Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay
hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, bài hát, dữ
liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…). Big Data cho phép liên kết
và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người
dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

(4) Độ tin cậy/chính xác (Veracity)

Một trong những tính chất phức tạp nhất của Dữ liệu lớn là độ tin cậy/chính xác của
dữ liệu. Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội
(Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người
dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một
khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính
chất quan trọng của BigData.

(5) Giá trị (Value)

Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng
dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin
mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu lớn hay
không. Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu
158
tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu
lớn mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự
báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan
đến y tế.

Với những đặc tính trên, Big Data có vao trò vô cùng quan trọng, chi phối mọi khía
cạnh của các lĩnh vực kinh tế, thể hiện qua những lợi ích giá trị không thể phủ nhận gồm:
quản lý và phân tích khách hàng, giảm chi phí và rủi ro, hỗ trợ việc ra quyết định của doanh
nghiệp nhanh và chính xác hơn, từ đó các doanh nghiệp có thể nâng cao hiệu quả kinh
doanh của mình. Đối với khách hàng, với việc tương tác cá nhân hóa Big Data giúp khách
hàng dễ dàng tìm kiếm sản phẩm phù hợp nhất với nhu cầu tiêu dùng. Nhờ vậy, khách hàng
còn có thể rút ngắn được thời gian tìm kiếm sản phẩm trong khi có được những sản phẩm
đúng nhu cầu. Bên cạnh đó Big Data có thể được ứng dụng một cách hiệu quả trong
marketing, đặc biệt là Digital Marketing.

4. DIGITAL MARKETING

4.1 Khái niệm

Theo SAS Software & Business Dictionary, Digital Marketing là chiến lược quảng
bá sản phẩm hoặc thương hiệu thông qua một hoặc nhiều hình thức truyền thông điện tử.

Theo Smith (2007) định nghĩa Digital Marketing là việc sử dụng công nghệ kỹ thuật
số để tạo ra một phương thức truyền thông tích hợp, đạt được mục tiêu và có thể đo lường
được nhằm mục đích tìm kiếm được khách hàng và giữ chân khách hàng lâu dài.

Như vậy, có các khái niệm Digital Marketing khác nhau, tuy nhiên nhìn chung các
khái niệm trên đều thể hiện được: Digital Marketing là một bộ phận của marketing sử dụng
các công nghệ kỹ thuật số để tương tác và tạo ra giá trị cho khách hàng, đồng thời xây dựng
mối quan hệ lâu dài với khách hàng để doanh nghiệp tạo được giá trị lợi nhuận từ khách
hàng. Sự phối hợp hài hòa giữa Digital Marketing và Marketing truyền thống sẽ tối ưu hóa
hiệu quả hoạt động Marketing của doanh nghiệp.

4.2 Đặc điểm

Một số hình thức của Digital marketing chính gồm: marketing trên nền Internet như
email marketing, websites, thương mại điện tử, quảng cáo trên Internet bằng các hình thức
Pop up, qua công cụ tìm kiếm trực tuyến, qua các mạng xã hội, các trang web chia sẻ thông

159
tin; marketing qua thiết bị di động (mobile marketing) với các hình thức như tin nhắn, qua
các ứng dụng dành cho thiết bị di động, điện thoại thông minh và các hình thức marketing
qua các thiết bị kỹ thuật số ngoài trời...

Tốc độ phát triển nhanh và tầm ảnh hưởng ngày càng lớn của Internet tới người dùng
cùng với xu hướng sử dụng thiết bị kỹ thuật số ngày càng tăng đã tạo ra những ưu thế vượt
trội của Digital marketing so với marketing ruyền thống trong việc tạo ra các kênh truyền
thông hiệu quả, nhanh chóng và đa chiều kết nối với người tiêu dùng mọi lúc, mọi nơi với
chi phí hợp lý. Công nghệ kỹ thuật số ngày càng phát triển và trở nên phổ biến, người tiêu
dùng có xu hướng sử dụng nhiều công nghệ kỹ thuật số trong việc tìm kiếm trực tuyến các
sản phẩm mà họ quan tâm.

Việc tìm kiếm thông tin trực tuyến đã để lại các dấu vết kỹ thuật số trong Big Data.
Bên cạnh đó, sử dụng Digital Marketing có thể giúp các doanh nghiệp do lường được hiệu
quả thông qua việc thống kê số lần người dùng Internet và điện thoại di động cấm vào quảng
cáo trên mạng hoặc bất kì đường liên kết nào, tính toản được chi phí cho mỗi lần người
dùng xem quảng cáo, tỷ lệ số lần người dùng xem với số lần quảng cáo đó xuất hiện trên
Internet... Kết quả này được cụ thể hóa bằng các con số chính xác trong khi marketing
truyền thống chỉ cho ra các kết quả định tính.

Bằng việc sử dụng Big data vào Digital marketing các doanh nghiệp có thể dễ dàng
tập hợp được các thông tin về khách hàng như hành vi, sở thích của họ, những sản phẩm
mà khách hàng dạng quan tâm, tìm kiếm, hành vi tiêu dùng của khách hàng trong quá khứ
và ý định mua hàng trong tương lai...

Từ những dữ liệu này các phân tích sẽ giúp doanh nghiệp dự báo xu hướng tiêu dùng
một cách chính xác hơn, phân loại và xác định nhóm khách hàng mục tiêu, từ đó tiếp cận
khách hàng thông qua công nghệ kỹ thuật số một cách nhanh chóng, thuận lợi với các thông
tin mà khách hàng thực sự quan tâm.

5. TÌNH HÌNH ỨNG DỤNG BIG DATA TRONG HOẠT ĐỘNG DIGITAL
MARKETING TẠI CÁC DOANH NGHIỆP VIỆT NAM

Phần lớn các công ty, tập đoàn nghiên cứu, phân tích, ứng dụng Big Data đều tập
trung ở khu vực châu Mỹ và châu Âu, đặc biệt là tại Mỹ. Phần còn lại của thế giới, theo
một nghiên cứu thống kê khác của The Economist Intelligence Unit Limited (2013) với sự

160
tham gia khảo sát của 14% công ty của ASEAN, 6% công ty của Trung Quốc, 15% công ty
Án Độ, 29% công ty của Hồng Kông, 30% công ty của ANZ, 6% còn lại của khu vực tham
gia khảo sát

Việc ứng dụng Big Data tại khu vực này chậm hơn rất nhiều so với thế giới, trong đó
có Việt Nam, và hơn một nửa các công ty được khảo sát tại khu vực này không có bất kỉ kế
hoạch hay chuẩn bị một chu trình phát triển ứng dụng nào có liên quan đến Big Data. Mặc
dù hầu hết các công ty khảo sát đều tin tưởng và ý thức được lợi ích tử phân tích Big biết
nền tảng về các khía cạnh của Digital Data trong việc tăng trưởng 25% hoặc hơn trong lợi
nhuận kinh doanh, nhưng 91% các công ty này cho rằng chính vấn đề nội bộ là nguyên
nhân chính cản trở họ ứng dụng Big Data. Ba yếu tố chính căn trở Big Data là thiếu giao
tiếp giữa các ngành trong nội bộ công ty (46%), thiếu phần mềm (42%), thiếu kĩ năng
(40%).

Để hiểu rõ hơn mức độ nhận biết về Big Data, tình hình ứng dụng và xu hướng ứng
dụng Big Data vào hoạt động Digital Marketing tại các doanh nghiệp Việt Nam, do các số
liệu thống kê chưa có nên các tác giả tiến hành phỏng vấn và khảo sát lãnh đạo các doanh
nghiệp và chuyên viên phòng marketing. Khảo sát được tiến hành trong thời gian từ tháng
10/2014 đến tháng 11/2014 với hình thức phỏng vấn trực tiếp và qua phiếu khảo sát. Kết
quả thu được 168 phiếu hợp lệ.

Dữ liệu được xử lý bằng phần mềm Excel và thu được kết quả như sau:

5.1. Về thực trạng hoạt động Digital Marketing tại các doanh nghiệp Việt Nam

Theo kết quả khảo sát thực tế, tại các doanh nghiệp Việt Nam, hầu hết các doanh
nghiệp đều có sử dụng Digital Marketing trong việc xúc tiến sản phẩm, dịch vụ của doanh
nghiệp. Cụ thể, có 73% câu trả lời nhận được là “Có sử dụng” Digital Marketing, còn lại
15% câu trả lời “Chưa sử dụng và 13% câu trả lời “Không chắc” có sử dụng hay không. Lý
do các doanh nghiệp Việt Nam ứng dụng Digital Marketing vì 53% đối tượng cho rằng
Digital Marketing giúp tương tác tốt nhất với khách hàng, 41% đối tượng cho rằng họ sử
dụng Digital Marketing sẽ hỗ trợ kinh doanh qua Internet; 6% còn lại cho rằng lí do khác.

Hơn 50% doanh nghiệp khảo sát cho rằng Digital Marketing thật sự đóng góp vai trò
rất quan trọng đối với sự phát triển của doanh nghiệp; 88% đối tượng khảo sát “chắc chắn”
tiếp tục sử dụng Digital Marketing trong tương lai; 0% đối tượng khảo sát phủ nhận hiệu
quả Digital Marketingmang lại cho doanh nghiệp. Để giải thích cho xu hướng hầu hết các
161
doanh nghiệp tiếp tục sử dụng Digital Marketing cho hoạt động truyền thông, quảng bá của
doanh nghiệp họ vì những hiệu quả tích cực mà Digital Marketing mang lại. Một trong
những hiệu quả sử dụng của Digital Marketing được nhiều người đồng ý là Digital
Marketing giúp doanh nghiệp tăng độ nhận biết thương hiệu (53% ý kiến đồng ý), giúp
doanh nghiệp thu hút lượng lớn khách hàng mục tiêu (55% ý kiến đồng ý) và giúp họ dễ
dàng tương tác với khách hàng hơn (với 53% ý kiến đồng ý).

Nhìn chung, với kết quả khảo sát như trên, có thể nhận thấy hoạt động Digital
Marketing tại các doanh nghiệp Việt Nam đang được ứng dụng rộng rãi và sẽ còn tiềm năng
phát triển mạnh trong tương lai với những lợi ích tối ưu hóa hoạt động truyền thông mà
Digital Marketing mang đến. Tuy nhiên song song đó, vẫn còn một số doanh nghiệp chưa
ý thức được vai trò của Digital Marketing trong thời đại phát triển mạnh của công nghệ kỹ
thuật số, dù chiếm phần trăm rất ít.

5.2. Tình trạng sử dụng Big Data vào hoạt động Digital Marketing tại các doanh
nghiệp Việt Nam

Đối với những doanh nghiệp có sử dụng Big Data, khi được hỏi sâu về tình trạng sử
dụng hiện tại, kết quả nhận được như sau: Có 24% doanh nghiệp đang triển khai Big Data,
34% đang trong giai đoạn lên kế hoạch sử dụng Big Data, phần còn lại đang cân nhắc sử
dụng Big Data và thử nghiệm hiệu quả sử dụng Big Data. Những con số này thể hiện rất rõ
thực trạng sử dụng Big Data tại các doanh nghiệp có hoạt động Digital Marketing, và một
dấu hiệu cho thấy Big Data đã và đang thật sự thể hiện được vai trò của mình cũng như
tiềm năng lớn mạnh tại các doanh nghiệp Việt Nam.

Có đến 83% số người đồng ý cho rằng bộ phận marketing là bộ phận sử dụng Big
Data chủ yếu nhất, kế đến là bộ phận nghiên cứu và phát triển với 46%, sau đó là 33% đối
với bộ phận quản lý sản phẩm. Từ dây, có thể nhìn thấy thêm một thực tế ở Việt Nam, đó
là Big Data chủ yếu được sử dụng trong việc tối ưu hóa hiệu quả hoạt động Digital
Marketing, là một công cụ đắc lực cho marketing xúc tiến sản phẩm đến nhiều đối tượng
khách hàng hơn.

Những người được khảo sát cho rằng, vai trò quản lý và sử dụng Big Datta chủ yếu
thuộc về cấp lãnh đạo trong công ty như giám đốc điều hành (với 50% ý kiến đồng ý) và
quản lý (với 33% ý kiến đồng ý), và có 38% các vị trí về điều hành công nghệ thông tin tại
doanh nghiệp.
162
Về những thách thức khi sử dụng Big Data, các doanh nghiệp cho rằng họ gặp không
ít khó khăn, vấn đề ngân sách và nguồn nhân lực. Đây là những rào cản lớn nhất của các
doanh nghiệp Việt Nam trong việc phát triển ứng dụng Big Data nói chung và Digital
Marketing nói riêng. Hơn 50% người được khảo sát cho rằng nguyên nhân gây khó khăn
đến từ việc thiếu nhân lực chất lượng có khả năng vận hành Big Data và gần một nửa (46%)
do thiếu hụt ngân sách. Còn lại là những vấn đề liên quan đến công như khả năng tích hợp
các hệ thống với nhau (33%), hoặc hạn chế khả năng bảo mật dữ liệu do trình độ công nghệ
của chính doanh nghiệp còn kém (chiếm đến 38%). Nếu có thể giải quyết được hai vấn đề
lớn này, có thể Big Data đã là một trong những xu hướng phát triển mạnh hiện nay tại các
doanh nghiệp Việt Nam.

Khi đưa ra những định hướng giải pháp sử dụng Big Data trong tương lại, 58% người
đồng ý cho rằng giải pháp chủ yếu nhất để giúp doanh nghiệp khắc phục các trở ngại trên
là công tác huấn luyện nội bộ cho doanh nghiệp về việc nâng cao nhận thức về Big Data,
giải pháp khả thi tiếp theo 50% ý kiến cho rằng dùng nguồn lực từ hỗ trợ bên ngoài hoặc
thuê ngoài quản lý. Nhìn chung giải pháp xoay quanh vấn đề giải quyết việc nguồn nhân
lực không đủ chất lượng và hiểu biết Big Data để xây dựng dự án Big Data thật hữu hiệu
cho tình hình phát triển của doanh nghiệp, đặc biệt trong lĩnh vực Digital Marketing do
83% người cho rằng marketing là bộ phận tương tác nhiều nhất với Big Data.

Qua nghiên cứu tình hình ứng dụng Big Data trong hoạt động Digital Marketing tại
các doanh nghiệp Việt Nam có thể rút ra một số kết quả đạt được và hạn chế như sau:

Kết quả đạt được

Hoạt động Digital Marketing đang ngày càng khẳng định vai trò tại các doanh nghiệp
Việt Nam và được sử dụng rộng rãi tại các doanh nghiệp này để tăng trưởng kinh doanh.

Các doanh nghiệp đã nhận biết nhất định về Big Data, và nhận thức đúng những giá
trị lợi ích mà Big Data mang lại cho hoạt động Digital Marketing của doanh nghiệp.

Một số doanh nghiệp đã bắt đầu triển khai vận hành Big Data vào hoạt động Digital
Marketing của doanh nghiệp.

Các doanh nghiệp nhận thức được tầm quan trọng của việc đầu tư đội ngũ nhân lực
trong tương lai về Big Data và có xu hướng phần lớn sẽ đầu tư phát triển nhân lực các nhà
khoa học dữ liệu lớn trong những năm tới.

163
Hạn chế

Vẫn còn nhiều doanh nghiệp không biết về Big Data cũng như không nhận ra những
giá trị tiềm năng từ Big Data, đi sau sự phát triển của thế giới rất nhiều.

Đối với các doanh nghiệp đã vận hành hay đang trong quá trình thử nghiệm ứng dụng
của Big Data vào hoạt động Digital Marketing, các doanh nghiệp đang gặp nhiều khó khăn:
ngân sách không cho phép khai thác một lĩnh vực mới chưa có quá nhiều thành công nổi
bật, nguồn nhân lực chưa đáp ứng yêu cầu, nền tảng công nghệ để xử lý, quản lý và ứng
dụng dữ liệu còn thấp

Hầu hết các doanh nghiệp Việt Nam đều có tâm lý chờ đợi, không tiên phong ứng
dụng Big Data một cách mạnh dạn, mà muốn đứng sau nhìn các doanh nghiệp khác trải
nghiệm, điều này dẫn đến một hệ lụy gây trì trễ và kém phát triển so với thế giới. Để có thể
khai thác tốt Big Data trong hoạt động Digital Marketing, cần nhiều thời gian và sự đầu tư
của các cơ quan chức năng.

6. KẾT LUẬN

Big Data và Digital Marketing đều là những xu hướng tất yếu trong kỷ nguyên công
nghệ số, bởi sự phát triển nhanh chóng của mạng lnternet và các thiết bị kỹ thuật số. Nhờ
vào trình độ phát triển khoa học - kỹ thuật và công nghệ, nhiều công ty đã gặt hái được
những thành công vượt bậc trong việc chủ động tiên phong ứng dụng Big Data vào hoạt
động Digital Marketing; ngoài ra, thế giới đã có những nghiên cứu xây dựng các nền tảng
công nghệ bước đầu hỗ trợ công tác thu gom, lưu trữ và phân tích Big Data để hỗ trợ các
doanh nghiệp giải quyết bài toán Big Data của mình.

Tại Việt Nam, sự phát triển của Big Data vẫn còn gặp nhiều hạn chế về mặt nguồn
nhân lực chưa đủ trình độ, năng lực khai thác Big Data. Tuy nhiên, với sự phổ biến của các
hoạt động Digital Marketing dựa trên cơ hội thuận lợi từ việc bùng nổ Internet và mạng xã
hội, cũng như các thiết bị di động được sử dụng rộng rãi hơn; kèm theo đó là sự nhận biết
nhất định về Big Data chính là điều kiện thuận lợi để các doanh nghiệp Việt Nam khai thác
Big Data và ứng dụng trong Digital Marketing.

TÀI LIỆU THAM KHẢO

[1] https://en.wikipedia.org/wiki/Big_data
[2] https:// Big Datauni.com/
164
[3] https://viettelidc.com.vn/tin-tuc/du-lieu-lon-big-data-la-gi
[4] https://blog.kt.city/digital-marketing-la-gi
[5] Nguyễn Thị Thu Hà, Hồ Thanh Thủy, Big Data trong hoạt động Digital Marketing của các
doanh nghiệp Việt Nam.2015, Tạp chí Kinh tế và Hội nhâp số 73 (05/2015)
[6] Ks. Nguyễn Công Hoan, Tổng Quan Về Dữ Liệu Lớn (Bigdata), Trung Tâm Thông tin Khoa
học thống kê (Viện KHTK), 2015, Trung tâm Thông tin Khoa học thống kê (Viện KHTK)
[7] ThS. Phạm Đức Tú, Big Data, Phòng NCPT Ứng dụng Viễn thông, 2014
[8]. Nguyễn Anh Duy & Nguyễn Phúc Quỳnh Như, Dữ liệu lớn: Cách thức khai thác cơ hội từ dữ
liệu? Trường hợp Amazon, Trường Đại học Kinh tế-Tài chính TP.HCM, 2019.

165
QUẢN LÝ DỮ LIỆU THÔNG MINH
TRONG LĨNH VỰC TÀI CHÍNH, NGÂN HÀNG

Nguyễn Huy Khang


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: nhkhang@ufm.edu.vn

Tóm tắt: Tổ chức Gartner dự kiến năm 2021, các tổ chức lớn sẽ đưa dữ liệu vào danh mục
Bảng cân đối kế toán và quản lý dữ liệu được coi như những tài sản quan trọng. Vì vậy, việc ý thức
rằng dữ liệu là tài sản chiến lược, có tính chất quyết định đến hoạt động kinh doanh, cần được
quản lý trong lĩnh vực ngân hàng cũng không phải là ngoại lệ. Dữ liệu và quản trị dữ liệu có vai
trò vô cùng quan trọng đối với mọi tổ chức trong nền kinh tế. Đối với ngành Ngân hàng tài chính,
một trong những ngành sở hữu khối lượng dữ liệu lớn, cũng là ngành đi đầu trong hành trình
chuyển đổi mô hình hoạt động theo xu hướng số thì quản trị dữ liệu trở thành vấn đề sống còn.
Đặc biệt, trong thời đại cách mạng công nghiệp lần thứ 4, dữ liệu có thể trở thành tài nguyên mới
cho phát triển kinh tế toàn cầu.

Từ khóa: Quản trị dữ liệu, Cách mạng công nghiệp 4.0

1. TÍNH CẤP THIẾT CỦA VIỆC QUẢN LÝ DỮ LIỆU THÔNG MINH TRONG
LĨNH VỰC NGÂN HÀNG

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 đang diễn ra mạnh mẽ trên phạm vi
toàn cầu, mô hình doanh nghiệp số, chính phủ số, nền kinh tế số và xã hội số đã trở thành
đích đến của nhiều tổ chức, quốc gia. Chuyển đổi số vì thế đang lan tỏa trên mọi mặt của
đời sống kinh tế, xã hội, thu hút sự quan tâm của tất cả các chủ thể trong nền kinh tế, ngày
càng khẳng định là một xu thế lớn không thể đảo ngược. Trong đó, dữ liệu được coi là “dầu
mỏ mới”, là nguồn cung cấp năng lượng cho chuyển đổi số.

Cùng với sự gia tăng của khối lượng và độ phức tạp dữ liệu là sự phát triển của các
nền tảng số hóa, các ứng dụng thu thập, lưu trữ, chia sẻ dữ liệu thông qua tương tác liên
tục, trực tuyến các thiết bị kết nối và người dùng. Điều này đòi hỏi phải đầu tư lớn về hạ
tầng công nghệ - kỹ thuật, ứng dụng mạnh mẽ kỹ thuật số để thu thập, lưu trữ, xử lý phân
tích và chia sẻ. Quan trọng hơn, cần phải quản trị thông minh khối lượng dữ liệu khồng lồ
này để bảo vệ quyền lợi và đem lại lợi ích cho các bên liên quan trong chuỗi giá trị dữ liệu.

Trong lĩnh vực ngân hàng, các ngân hàng trên thế giới đã nhận biết được tiềm năng,
sức mạnh to lớn của dữ liệu và chủ động nắm bắt cơ hội tận dụng được nguồn năng lượng
166
này. Nhiều ngân hàng đã thực hiện tốt việc thu thập, quản lý, khai thác, sử dụng dữ liệu một
cách thông minh trên cơ sở các công nghệ 4.0. Dữ liệu được tận dụng triệt để nhằm tối ưu
hóa hành trình và trải nghiệm khách hàng trên các điểm tiếp xúc số cũng như tối ưu hóa
hoạt động nghiệp vụ, quản trị nội bộ của ngân hàng.

Phát biểu tại hội thảo, Phó Thống đốc ngân hàng nhà nước Nguyễn Kim Anh cho
biết, tại Việt Nam, Đảng và Nhà nước cũng đã ban hành nhiều chủ trương, định hướng và
chính sách phát triển tạo điều kiện thuận lợi cho mọi lĩnh vực ngành nghề trong nền kinh tế
có thể chủ động trước những tác động to lớn của cách mạng công nghiêp 4.0.

Gần đây nhất, Chính phủ đã ban hành Chương trình hành động của Chính phủ thực
hiện một số chủ trương, chính sách chủ động tham gia cuộc cách mạng công nghiệp lần thứ
tư (Nghị quyết 50/NQ-CP ngày 17/4/2020 của Chính phủ thực hiện Nghị quyết 52-NQ/TW
ngày 27/9/2019 của Bộ Chính trị). Trong đó, Đảng và Nhà nước đã đặt ra mục tiêu “tận
dụng có hiệu quả các cơ hội do cuộc Cách mạng công nghiệp lần thứ tư đem lại để thúc đẩy
quá trình đổi mới mô hình tăng trưởng, cơ cấu tại nền kinh tế gắn với thực hiện các đột phá
chiến lược và hiện đại hóa đất nước. Đặc biệt, Nghị quyết xác định một trong các nhiệm vụ
là “tập trung phát triển các ngành ưu tiên có mức độ sẵn sàng cao, trong đó bao gồm lĩnh
vực tài chính- ngân hàng”.

“Ý thức được vấn đề đó, trong thời gian qua, ngành ngân hàng đã luôn chủ động
trong việc tiếp cận các nghiên cứu, xây dựng chính sách, tạo điều kiện để ứng dụng sức
mạnh của dữ liệu trong công tác quản lý và phát triển các sản phẩm dịch vụ, tạo động lực
thúc đẩy quá trình chuyển đổi số trong lĩnh vực ngân hàng”, Phó Thống đốc Nguyễn Kim
Anh chia sẻ.

2. YÊU CẦU VỚI DỮ LIỆU VÀ VAI TRÒ CỦA QUẢN TRỊ DỮ LIỆU

Dữ liệu đang trở thành tài sản quý giá nhất trong mọi doanh nghiệp trên thế giới.
Bằng chứng là các doanh nghiệp công nghệ thông tin đang dần trở thành những ông chủ
mới của nền kinh tế toàn cầu. Trong lĩnh vực tài chính, các ngân hàng thương mại (NHTM)
được mô tả là các công ty công nghệ có các bảng cân đối kế toán đặc biệt. Bởi vì, chúng
được phép thu thập thông tin của khách hàng khi thực hiện giao dịch, từ đó, có được kho
dữ liệu khổng lồ của các khách hàng. Khi công nghệ số được sử dụng rộng rãi, khả năng
kiếm lợi nhuận từ dữ liệu của các NHTM tăng lên đáng kể. Song, để làm được điều này,
các NHTM phải giải quyết được 4 vấn đề cốt yếu nhất về đặc điểm của dữ liệu. Cụ thể:
167
2.1. Thứ nhất, tính sẵn có:

Các NHTM cần chắc chắn rằng các dữ liệu được lưu trữ, phân loại và đảm bảo được
duy trì ổn định theo cách thức giúp truy cập thuận tiện nhất. Các công đoạn xử lý phải được
thiết lập một cách chi tiết, cẩn thận rõ ràng tránh việc phải thường xuyên làm sạch và cấu
trúc lại dữ liệu trên từng ứng dụng để phục vụ các công tác phân tích, đánh giá. Nếu mọi
công đoạn được thực hiện đúng, đảm bảo tính sẵn có của dữ liệu thì việc thu thập, tiếp nhận
các dữ liệu từ nhiều kênh khác nhau sẽ trở nên dễ dàng hơn rất nhiều.

2.2. Thứ hai, tính khả dụng:

Cùng với việc đảm bảo tính sẵn có, các NHTM cần đảm bảo dữ liệu được định dạng
phù hợp với mục tiêu sử dụng của nhiều bộ phận khác nhau. Yêu cầu khả dụng này phải
đáp ứng đối với mọi dữ liệu của bản thân NHTM cũng như dữ liệu thu thập từ các đơn vị
bên ngoài để có thể kết hợp sử dụng một cách dễ dàng trong hoạt động của ngân hàng.

2.3. Thứ ba, tính toàn vẹn:

Tính toàn vẹn của dữ liệu được định nghĩa là dữ liệu phải được lấy từ nguồn hợp pháp
và được quản lý theo những cách thích hợp để tránh sai lệch, đảm bảo tính tin cậy. Độ chính
xác và chất lượng của dữ liệu là các thuộc tính bắt buộc với dữ liệu để đảm bảo đầu ra đúng.
Để đảm bảo tính toàn vẹn của dữ liệu trong quá trình xử lý, các NHTM nên theo dõi và
thống kê được các dòng dữ liệu cũng như kiểm soát việc chỉnh sửa/thay đổi dữ liệu không
làm mất đi tính toàn vẹn của dữ liệu.

2.4. Thứ tư, tính bảo mật:

Tính bảo mật của dữ liệu được đảm bảo nếu quyền truy cập dữ liệu được quản lý
nghiêm ngặt cùng với đẩy mạnh việc phòng/chống truy cập dữ liệu trái phép. Các bộ phận
tạo ra các dữ liệu là chủ sở hữu của các bộ dữ liệu được hình thành và có thể có quyền cho
phép các đơn vị khác truy cập/chia sẻ bộ dữ liệu đó. Các NHTM phải phân định trách nhiệm
rõ ràng đối với việc bảo mật dữ liệu tại các bộ phận khác nhau và tại các thời điểm khác
nhau trong quá trình tạo và xử lý dữ liệu.

Để đáp ứng được các tiêu chuẩn về dữ liệu này, các NHTM phải xây dựng quy trình
quản trị dữ liệu phù hợp. Khi đó, các NHTM không chỉ có thể làm chủ được kho dữ liệu
của mình mà còn có thể nhận được những thay đổi tích cực trên các khía cạnh sau:

168
- Quản trị dữ liệu giúp đảm bảo rằng các NHTM tuân thủ đúng được các quy định pháp
lý. Hiện nay, các quy định mới ngày càng tập trung vào vấn đề quản lý dữ liệu, đặc biệt liên
quan đến việc đảm bảo quyền riêng tư và bảo mật đối với các thông tin của khách hàng. Do
đó, quản trị dữ liệu giúp các NHTM đáp ứng được các yêu cầu pháp lý này để tồn tại.

- Quản trị dữ liệu tạo điều kiện để các NHTM đảm bảo an toàn trong hoạt động khi đáp
ứng được các tiêu chuẩn pháp lý về xây dựng hệ thống dữ liệu, thông tin nội bộ. Đặc biệt
là giúp kiểm soát các rủi ro liên quan đến không gian mạng. Các loại rủi ro ngày càng gia
tăng, mở rộng phát triển và bản chất của rủi ro thay đổi nhanh chóng. Nhất là khi các rủi ro
này còn đi kèm với rủi ro về danh tiếng do sự phát triển mạnh mẽ của truyền thông trong
giai đoạn hiện nay.

- Quản trị dữ liệu làm thay đổi sâu sắc đến lực lượng lao động, mô hình kinh doanh…
Bởi vì, các công nghệ như trí tuệ nhân tạo, sổ cái phân tán, tự động hóa quá trình giao
dịch… sẽ làm thay đổi nhanh chóng vai trò của thông tin trong hoạt động của doanh nghiệp
nói chung và các tổ chức tài chính nói riêng. Khi đó, doanh nghiệp nói chung và NHTM
nói riêng sẽ trở thành một tổ chức quyết định dựa trên dữ liệu.

- Quản trị dữ liệu giúp nâng cao khả năng cạnh tranh của các tổ chức tài chính. Trong
xu hướng các doanh nghiệp của nền kinh tế đều phát triển để trở thành các tổ chức vận
hành, quyết định dựa trên thông tin thì khai thác được dữ liệu hiệu quả hơn chính là thế
mạnh cạnh tranh mới của các NHTM. Bởi vì, khi đó, các NHTM sẽ ra quyết định nhanh
hơn, tiết kiệm được chi phí hơn cũng như mang đến nhiều giá trị hơn cho khách hàng.

Do đó, quản trị dữ liệu sẽ ảnh hưởng đến hoạt động của toàn bộ tổ chức tài chính và
các tổ chức tài chính phải có chiến lược rõ ràng đối với quản trị dữ liệu ở mọi cấp độ. Mỗi
NHTM cần dựa vào đặc điểm về chiến lược kinh doanh, mô hình tổ chức, thiết kế hệ thống
công nghệ, đầu tư vốn, cũng như ảnh hưởng đến thay đổi trong cấu trúc quản lý, báo cáo
và vận hành… để xây dựng khung quản trị dữ liệu riêng.

3. MỘT SỐ MÔ HÌNH VỀ HỆ THỐNG QUẢN TRỊ DỮ LIỆU

3.1. Data Management Capability Assessment Model-DCAM

EDM council đã đưa ra tài liệu về đánh giá năng lực quản lý dữ liệu toàn cầu (Data
Management Capability Assessment Model - DCAM) từ năm 2014. Tài liệu đưa ra những

169
gợi ý, hướng dẫn về việc thiết lập các tiêu chuẩn đối với việc quản lý dữ liệu trong mọi tổ
chức của nền kinh tế.

Theo đó, quản trị dữ liệu là quy trình thiết lập các tiêu chuẩn, xác định các quy tắc,
đưa ra các chính sách và áp dụng toàn diện để đảm bảo đạt được hiệu quả quản lý thông tin
một cách tối đa. Quản trị dữ liệu đặt ra các quy định về việc lựa chọn, tạo nguồn lực và các
thứ tự sử dụng dữ liệu cũng như đảm bảo việc tuân thủ các quy định pháp lý. Như vậy, nói
một cách đơn giản, quản trị dữ liệu là chính thức hóa và xác định các quyền hạn trong việc
thực hiện truyền tải các thông tin trong toàn tổ chức và quản trị dữ liệu được coi như một
chức năng kinh doanh của tổ chức.

Những đặc điểm của một quy trình quản trị dữ liệu tốt trong doanh nghiệp bao gồm:

➢ Thứ nhất, quản trị dữ liệu bao gồm các hướng dẫn đầy đủ cho việc xử lý dữ liệu trong
doanh nghiệp trong từng khâu thực hiện, quy tắc, quy trình và cả nhân lực thực hiện. Hay
là xác định cách thức dữ liệu được thu thập, phân phối, sử dụng sao cho hợp lý, lưu trữ
và/hoặc định kỳ xóa, giới hạn việc truy cập/sử dụng. Nếu nhìn nhận theo các hoạt động thì
quản trị dữ liệu gồm các công đoạn là xác định các quy tắc quản trị, thiết lập các quyền truy
cập và sử dụng thông qua việc ban hành các chính sách và quy trình.

Yêu cầu đối với quản trị dữ liệu của tổ chức là phải đảm bảo tính đa chiều và bao
gồm các hoạt động liên quan đến chiến lược, vận hành, kiến trúc dữ liệu, ứng dụng công
nghệ thông tin, chất lượng và quy trình dữ liệu. Đồng thời, quản trị dữ liệu cũng đảm bảo
rằng các bộ phận như công nghệ, kinh doanh cũng như vận hành… phải có trách nhiệm và
vai trò rõ ràng đối với việc duy trì, đảm bảo chất lượng và tính phù hợp của các dữ liệu
được sử dụng. Tất cả những bộ phận trên cần được kết nối với một khung chung về quản
trị hiệu quả của toàn bộ doanh nghiệp, bao gồm các nội dung về quản lý dữ liệu trong văn
hóa tổ chức cũng như quản lý được việc ứng dụng các khung quản trị khác.

Đồng thời, một trong các chức năng chính của quản trị dữ liệu là để quản trị những
yêu cầu đối với đội ngũ nhân sự để áp dụng được quy trình và các công nghệ trong việc
quản lý dữ liệu hiệu quả. Do đó, nhân lực để quản lý dữ liệu phải có hiểu biết về công nghệ,
kinh nghiệm hoạt động kinh doanh và cả các chuyên gia về quản lý dữ liệu.

➢ Thứ hai, để đảm bảo quản trị dữ liệu không chỉ giúp tạo ra sự ổn định trong hoạt động
mà phải đảm bảo là được duy trì và phát triển qua thời gian, bộ máy quản trị dữ liệu cần
phải được xây dựng phù hợp với đặc điểm hoạt động của doanh nghiệp. Mô hình của quản
170
trị dữ liệu trong tổ chức quyết định cách thức mà chương trình quản lý dữ liệu được quản
lý, đầu tư và thực thi. Nó định nghĩa hệ thống cấp bậc quản lý và cấu trúc mô hình quản trị
dữ liệu bao gồm cách thức mà con người làm việc và các quy trình được vận hành.

Thiết lập hệ thống quản lý hiệu quả là yêu cầu thiết yếu để đảm bảo rằng quản trị dữ
liệu thành công. Các nhà quản lý sẽ khuyến khích xây dựng cả mục tiêu và cấu trúc của
chương trình quản lý dữ liệu từ giai đoạn đầu. Vì vậy, có thể thành lập hội đồng quản trị dữ
liệu bao gồm các lãnh đạo cấp cao nhất của doanh nghiệp để có thể đánh giá tổng quan
được mối liên hệ giữa kinh doanh, công nghệ và vận hành. Từ đó, đưa ra được chiến lược
trong ưu tiên phát triển các mảng dữ liệu kinh doanh của doanh nghiệp và đưa ra các quyết
định cuối cùng nhằm giải quyết các mâu thuẫn phát sinh.

Để chắc chắn rằng các nguyên tắc quản lý dữ liệu được định nghĩa và thực thi trong
toàn bộ tổ chức, các nhóm nghiệp vụ có thể được hình thành. Nhiệm vụ của các nhóm này
là để đảm bảo quản trị được luồng công việc, kết hợp các dữ liệu, đảm bảo chất lượng của
dữ liệu được dùng để phân tích, thực hiện các báo cáo đánh giá và cung cấp những đánh
giá/phân tích số liệu.

➢ Thứ ba, kiểm soát quá trình thực hiện quản trị dữ liệu là nội dung quan trọng cuối
cùng. Quản lý thi hành giúp thiết lập những kỳ vọng và yêu cầu để đảm bảo rằng mục tiêu
của chương trình được ưu tiên tối đa mặc dù có thể xảy ra những gián đoạn trong quá trình
kinh doanh và vận hành. Khi đó, các hoạt động đầu tư vào các nguồn lực có thể được tiến
hành kịp thời đi kèm với những điều chỉnh cần thiết để đảm bảo phù hợp với vòng đời của
dữ liệu. Sau khi được áp dụng, quy trình quản trị dữ liệu cần phải được đánh giá, đo lường
và điều chỉnh dựa trên hoạt động kinh doanh thực tế và đảm bảo rằng nó thích hợp hoàn
toàn với hoạt động vận hành của doanh nghiệp.

Các tiêu chí đo lường có thể được sử dụng để xác định khoảng cách giữa thực trạng
và các giá trị kỳ vọng (chênh lệch); mối quan hệ giữa các biến quản trị dữ liệu (nguồn lực)
và đo lường các chương trình dữ liệu so sánh với mục tiêu (kết quả). Những yếu tố này có
thể được chuyển đổi thành các tiêu chí đo lường cụ thể như chi phí của việc sửa các lỗi,
thời gian để sắp xếp lại dữ liệu, các cơ hội để hợp nhất hệ thống, giảm số lượng chuyển đổi,
khả năng phản hồi nhanh chóng tới khách hàng, mở rộng kinh doanh, giảm chi phí/rủi ro
trong hoạt động… Trên cơ sở đó, quản trị dữ liệu sẽ liên tục được gia tăng hiệu quả và phù
hợp với những thay đổi của doanh nghiệp (nếu có).

171
Thiết lập chương trình quản trị dữ liệu có nhiều khác biệt giữa các tổ chức, nhưng
quá trình này cơ bản sẽ bao gồm bốn bước như sau:

(i) Thiết lập cấu trúc quản trị. Mục đích của quản trị là xác định và tổ chức các chức
năng/nhiệm vụ cho từng bộ phận quản lý dữ liệu. Sau khi xác định được các công việc và
nhóm phụ trách, tổ chức cần có kế hoạch triển khai rõ ràng để đảm bảo rằng các cấu trúc
quản trị, mô hình tổ chức và quy trình tổng thể sẽ được vận hành trơn tru. Các cấp quản lý
cũng cần có mối liên hệ theo chiều dọc và chiều ngang để đảm bảo rằng có sự đầu tư thích
đáng cho quá trình quản lý dữ liệu đối với từng nội dung để quản trị diễn ra thành công.

(ii) Hệ thống chính sách. Các chính sách chính thống là yếu tố quan trọng nhất trong
quản trị dữ liệu. Các chính sách quản trị dữ liệu giúp đảm bảo rằng các nguyên tắc quản lý
dữ liệu được định nghĩa đầy đủ, tuân thủ nghiêm ngặt. Nội dung của chính sách sẽ giúp chỉ
ra cách thức dữ liệu được thu thập, duy trì, di chuyển và sử dụng bên trong tổ chức. Nếu
được soạn thảo và chỉnh sửa, thống nhất trong toàn bộ tổ chức, các chính sách mới có thể
được vận hành một cách hiệu quả và mang lại giá trị cho tổ chức.

(iii) Vận hành bộ máy và thực thi các chính sách. Vận hành trên thực tế với cấu trúc
quản trị và hệ thống chính sách đã xây dựng là việc thực tế triển khai từng nội dung công
việc. Cụ thể là việc tiến hành điều khiển các chức năng, thiết lập các trạm kiểm soát và các
điểm kết nối cần thiết, thiết lập một quy trình phê duyệt dữ liệu chính thức trong toàn bộ
quá trình quản trị dữ liệu.

(iv) Giám sát và đo lường hiệu quả của quản trị dữ liệu. Để đảm bảo rằng hoạt động
của quy trình quản trị dữ liệu đạt được những mục tiêu, chúng phải được đánh giá để đảm
bảo phù hợp với các chính sách phát triển hiện tại cũng như thích hợp với chiến lược kinh
doanh dài hạn của doanh nghiệp. Việc đo lường thường xuyên là yêu cầu bắt buộc. Cách
thức đo lường phải xem xét với toàn bộ tiến trình và mức độ thích hợp của mô hình/chính
sách... Tiêu chí đo lường có thể bao gồm các lĩnh vực như đo lường mức độ đáp ứng của
các chính sách, chi phí của việc chỉnh sửa những sai lệch trong dữ liệu, thời gian được sử
dụng để hợp nhất dữ liệu và sử dụng tốt hơn các nguồn dữ liệu đang có, giảm số lượng
chuyển đổi, hợp nhất các dữ liệu…

Mặc dù cấu trúc hoạt động của các doanh nghiệp rất khác nhau tùy thuộc vào ngành
nghề hoạt động, quản trị dữ liệu đều có đặc điểm chung là thực hiện những nhiệm vụ rõ

172
ràng, liên hệ chặt chẽ với các mục tiêu kinh doanh cũng như cần có sự sắp xếp hợp lý để
đảm bảo thành công trong dài hạn.

3.2. Mô hình tại Trung Quốc

Các NHTM thực hiện xây dựng hệ thống quản trị dữ liệu theo những hướng dẫn chi
tiết của cơ quan chức năng. Ngay từ tháng 7/2018, Trung Quốc đã ban hành hướng dẫn
thực hiện quản trị dữ liệu tại các NHTM. Mục tiêu của quy định này là cung cấp các hướng
dẫn cho các tổ chức tài chính ngân hàng thực hiện tăng cường quản trị dữ liệu, cải thiện
chất lượng dữ liệu, tăng cường hiểu biết về giá trị của dữ liệu và nâng cao hiệu quả quản lý
và vận hành, chuyển dịch từ tăng trưởng tốc độ cao đến phát triển chất lượng cao...

➢ Thứ nhất, mô hình thực hiện quản trị dữ liệu trong các tổ chức tài chính ngân hàng
phải được xác định rõ, nhằm loại bỏ sự mơ hồ về quyền hạn và nhiệm vụ giữa các bộ phận
khác nhau và tạo ra quy trình quản lý dữ liệu thống nhất.

Việc triển khai khung quản trị dữ liệu được hướng dẫn chi tiết tại hướng dẫn này.
Theo đó, các tổ chức tài chính ngân hàng phải xây dựng một hệ thống từ trên xuống và có
sự phối hợp chặt chẽ để quản trị dữ liệu, phân bổ trách nhiệm giữa ban giám đốc, ban giám
sát và đội ngũ quản lý cấp cao. Cụ thể, hội đồng quản trị phải đưa ra chiến lược quản trị dữ
liệu, thống nhất được các vấn đề cốt lõi nhất của quản trị dữ liệu và có sự phân giao trách
nhiệm rõ ràng giữa các bộ phận. Giám đốc điều hành cấp cao có trách nhiệm thiết lập: hệ
thống quản trị dữ liệu; cơ chế kiểm soát chất lượng dữ liệu; và các cơ chế khuyến khích và
trách nhiệm cần thiết. Ủy ban giám sát phải theo dõi và đánh giá được hiệu quả quản trị dữ
liệu của Ban điều hành cũng như các bộ phận liên quan. Thêm nữa, các ngân hàng nên thiết
lập chức danh giám đốc dữ liệu (Chief Data Officer - CDO). Chức danh này có thể do một
thành viên ban lãnh đạo nắm giữ, tùy thuộc vào nhu cầu của ngân hàng. Song, dù thuộc ban
lãnh đạo hay không, các CDO này đều phải đáp ứng được các tiêu chí về năng lực quản trị
dữ liệu (thông qua các bằng cấp cụ thể do Ngân hàng Trung ương Trung Quốc quy định).

➢ Thứ hai, các tổ chức tài chính ngân hàng phải thiết lập một hệ thống quản lý dữ liệu
và quản lý chất lượng dữ liệu toàn diện, đáp ứng được các yêu cầu sau:

(i) Các NHTM phải bố trí đủ nguồn lực cho quản trị dữ liệu, thiết lập chính sách quản
lý dữ liệu phù hợp. Những chính sách này nên được mở rộng quy định đến việc quản lý và
tổ chức, trách nhiệm và nghĩa vụ của các bên liên quan, kiểm soát an ninh, bảo trì hệ thống,
kiểm soát chất lượng dữ liệu và hệ thống giám sát.
173
(ii) Các NHTM phải tuân thủ theo các quy định về bảo vệ dữ liệu của khách hàng.
Nếu thu thập bất kỳ dữ liệu cá nhân nào, các NHTM phải tuân theo yêu cầu và quy định
bảo vệ dữ liệu có liên quan và tuân thủ các tiêu chuẩn quốc gia liên quan đến bảo mật thông
tin cá nhân.

(iii) Đảm bảo tính trung thực, chính xác, liên tục và đầy đủ của dữ liệu, cũng như phải
liên tục thực hiện cập nhật dữ liệu. Các NHTM phải thiết lập hệ thống giám sát tại chỗ và
kiểm tra chất lượng dữ liệu thường xuyên (ít nhất 1 lần mỗi năm).

Ngoài ra, bộ quy tắc này thể hiện sự khuyến khích của cơ quan chức năng đối với
hoạt động ứng dụng các công nghệ tiến bộ và gia tăng thu nhập từ việc khai thác dữ liệu.
Theo đó, các NHTM được định hướng sử dụng các ứng dụng mới trong hoạt động kinh
doanh, quản lý rủi ro và kiểm soát nội bộ. Từ đó, các NHTM sẽ nắm bắt hiệu quả rủi ro, tối
ưu hóa các quy trình kinh doanh cũng như thúc đẩy được sự phát triển dựa trên khai thác
tối đa nguồn dữ liệu họ có.

3.3. Giải pháp xây dựng hệ thống quản trị dữ liệu tại các ngân hàng ở Việt Nam

Hoạt động quản trị dữ liệu là mang lại lợi ích đầu tiên và lớn nhất đối với các NHTM.
Trong bối cảnh cạnh tranh giữa các ngân hàng đang ngày càng gay gắt và cả nước đang xây
dựng các cơ sở dữ liệu chung về dân cư, doanh nghiệp…, các NHTM cần nhanh chóng tận
dụng được lợi thế từ dữ liệu để có thể tìm ra được thế mạnh mới cho hoạt động kinh doanh
qua các giải pháp sau:

➢ Xây dựng được ý thức rõ ràng về tầm quan trọng, vai trò cũng như các yêu cầu về
quản trị dữ liệu trong tương lai dài hạn của NHTM. Từ đó, các quyết định về việc phân bổ
nguồn lực, xây dựng chiến lược dài hạn về công nghệ, kinh doanh… sẽ được thực thi trên
cơ sở cân nhắc đầy đủ các yếu tố. Khi đó, các NHTM mới có thể sẵn sàng cho những sự
thay đổi cần thiết trong hoạt động để tận dụng được các giá trị của dữ liệu có thể mang lại.

➢ Triển khai việc quản trị dữ liệu trong NHTM theo đúng nhu cầu, đòi hỏi thực tế tại
từng NHTM. Quá trình triển khai quản trị dữ liệu của NHTM nên bao gồm bốn bước là:
Thiết lập cấu trúc quản trị; xây dựng các chính sách, quy trình; vận hành và thực thi các
chính sách; kiểm soát hiệu quả của quản trị dữ liệu. Tùy theo đặc điểm của từng NHTM,
các lãnh đạo của NHTM sẽ cân nhắc vào nguồn lực để xây dựng được bộ máy, quy trình
quản trị dữ liệu một cách phù hợp với mục đích sử dụng. Trong quá trình đó, các NHTM

174
nên tham khảo những phương thức thực hiện quản trị dữ liệu của các NHTM quốc tế đi liền
với tuân thủ các quy định pháp lý về an toàn, bảo mật thông tin khách hàng…

➢ Đẩy mạnh ứng dụng công nghệ trong quản trị dữ liệu tại các NHTM giúp khai thác
hiệu quả tài nguyên dữ liệu. Các NHTM Việt Nam đang có nhiều lợi thế để khai thác được
các dữ liệu từ cả các nguồn bên ngoài, bên cạnh các dữ liệu nội bộ. Nhưng để tận dụng
được chúng, không chỉ yêu cầu các NHTM quản trị dữ liệu tốt mà còn cần đẩy mạnh các
công nghệ mới như học máy, trí tuệ nhân tạo… vào quá trình xử lý và ra quyết định. Khi
đó, thế mạnh của quản trị dữ liệu tốt mới thật sự được phát huy tối đa.

4. KẾT LUẬN

Quản trị dữ liệu đang là yêu cầu thiết yếu trong hoạt động của các ngân hàng thương
mại. Giải pháp chung được đưa ra đối với hầu hết các ngân hàng thương mại Việt Nam là
đổi mới công nghệ cốt lõi để lưu trữ và cung cấp những thông tin cần thiết trong hoạt động
của ngân hàng. Nhưng điều này là chưa đủ để giúp các ngân hàng thật sự tận dụng được thế
mạnh của dữ liệu mang lại trong hoạt động kinh doanh mà yêu cầu về quản trị dữ liệu thông
minh trong lĩnh vực này đòi hỏi phải có sự vào cuộc từ nhiều phía, cần sự hỗ trợ từ các Bộ,
Ban, Ngành.

TÀI LIỆU THAM KHẢO

[1]. EY (2018), Data governance: securing the future of financial services.


[2]. Norton Rose Fulbright, Guidelines on Data Governance for Banking Financial, 2018.
[3]. Deutsche Bank, Data Governance: How responsibility becomes an opportunity, 2019.
[4]. EDM council, Data management Capability Accessment model (DCAM), 2014.
[5]. https://cib.db.com/
[6]. https://www.ey.com/
[7]. https://www.nortonrosefulbright.com/

175
ỨNG DỤNG CỦA BIG DATA TRONG ĐO LƯỜNG SỰ GẮN KẾT CỦA
NGƯỜI TIÊU DÙNG ĐỐI VỚI CÁC THƯƠNG HIỆU

Nguyễn Thanh Bình


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: ntbinh@ufm.edu.vn

Tóm tắt: Trong thời đại 4.0 hiện nay, với sự phát triển của các phương tiện truyền thông
xã hội (Social Media) giúp cho việc gắn kết với thương hiệu của người tiêu dùng trở nên nhanh
chóng, thuận tiện và tức thời. Điều này, một mặt giúp cho các doanh nghiệp dễ dàng tương tác với
khách hàng, người tiêu dùng; mặt khác doanh nghiệp lại gặp khó khăn trong việc thu thập, đo
lường và phân tích về những hành vi tương tác này khi mà phương pháp truyền thống vốn dĩ đòi
hỏi nhiều nguồn lực, thời gian và chi phí. Sự ra đời và phát triển mạnh mẽ của Dữ liệu lớn (Big
Data) mang đến một công cụ hiệu quả trong việc thu thập và phân tích dữ liệu, đặc biệt là dữ liệu
trên Internet. Trong đó, sự đo lường sự gắn kết của người dùng với các thương hiệu đang được
quan tâm đặc biệt, nhất là trong giai đoạn thương mại điện tử đang phát triển mạnh mẽ như hiện
nay. Khái niệm gắn kết người tiêu dùng với thương hiệu ngày càng nhận được nhiều sự quan tâm
của cả giới học thuật lẫn ứng dụng. Trong khuôn khổ bài báo cáo này tôi giới thiệu ứng dụng của
Big Data trong đo lường sự gắn kết của người tiêu dùng.

Từ khóa: Big Data, dữ liệu lớn, Digital Marketing

1. KHÁI NIỆM VỀ BIG DATA

Theo wikipedia: Big Data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp mà các
phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.

Theo Gartner: Dữ liệu lớn là những nguồn thông tin có đặc điểm chung khối lượng
lớn, tốc độ nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai
thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa
quy trình.

2. PHÂN LOẠI DỮ LIỆU LỚN

Dữ liệu lớn bao gồm dữ liệu truyền thống và dữ liệu phi truyền thống

➢ Dữ liệu truyền thống bao gồm:

- Dữ liệu của công ty dưới dạng báo cáo hàng năm, hồ sơ theo qui định, số liệu bán
hàng và thu nhập và các cuộc hội nghị bằng điện thoại (conference calls).

176
- Dữ liệu được tạo ra trên thị trường tài chính, bao gồm giá và khối lượng giao dịch.

- Thống kê của chính phủ.

➢ Dữ liệu phi truyền thống bao gồm:

- Dữ liệu từ cá nhân: Bài đăng trên các mạng xã hội, các đánh giá trực tuyến, email và
việc truy cập trang web.

- Dữ liệu từ các doanh nghiệp: Hồ sơ ngân hàng và dữ liệu máy quét bán lẻ.

- Dữ liệu từ các thiết bị điện tử: Dữ liệu được tạo ra từ nhiều loại thiết bị, bao gồm điện
thoại thông minh, máy ảnh, micrô, đầu đọc nhận dạng tần số vô tuyến (RFID), cảm biến
không dây và vệ tinh.

Khi Internet và các thiết bị nối mạng ngày càng phát triển, việc sử dụng các nguồn
dữ liệu phi truyền thống đã tăng lên, bao gồm thông tin trên các mạng xã hội, email và các
phương thức giao tiếp bằng văn bản, lưu lượng truy cập trang web, trang tin tức trực tuyến
và các nguồn thông tin điện tử khác.

3. ĐẶC TRƯNG CỦA DỮ LIỆU LỚN

Dữ liệu lớn có 5 đặc trưng cơ bản như sau (mô hình 5V):

Hình 1: 5 đặc trưng của Big Data

(1) Khối lượng dữ liệu (Volume):

Đặc điểm tiêu biểu nhất của dữ liệu lớn là khối lượng dữ liệu rất lớn. Kích cỡ của Big
Data đag từng ngày tăng lên, tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục
terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu.

177
Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với dữ liệu
lớn phải sử dụng công nghệ “đám mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn.

(2) Tốc độ (Velocity):

Tốc độ có thể hiểu theo 2 khía cạnh:

(a) Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy
cập tìm kiếm trên web bán hàng của Amazon);

(b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu được xử lý
ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ
biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe
như hiện nay phần lớn dữ liệu lớn được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày
nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.

(3) Đa dạng (Variety):

Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay
hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, vi deo, bài hát, dữ
liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe…). Big Data cho phép liên kết
và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người
dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

(4) Độ tin cậy/chính xác (Veracity)

Một trong những tính chất phức tạp của dữ liệu lớn là độ tin cậy/chính xác của dữ
liệu. Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội (Social
Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile
làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn.
Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng
của BigData.

(5) Giá trị (Value)

Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng
dữ liệu lớn thì việc đầu tiên cần phải làm đó là xác định được giá trị của thông tin mang lại
như thế nào, khi đó chúng ta mới có quyết định nên triển khai dữ liệu lớn hay không. Nếu
dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ liệu lớn.
Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ, từ
178
khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được
chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế.

4. SỰ KHÁC BIỆT GIỮA DỮ LIỆU LỚN VỚI DỮ LIỆU TRUYỀN THỐNG

Dữ liệu lớn khác với dữ liệu truyền thống (ví dụ, kho dữ liệu - Data Warehouse) ở 4
điểm cơ bản: Dữ liệu đa dạng hơn; lưu trữ dữ liệu lớn hơn; truy vấn nhanh hơn; độ chính
xác cao hơn.

(1) Dữ liệu đa dạng hơn: Khai thác dữ liệu truyền thống (Dữ liệu có cấu trúc), chúng
ta thường phải trả lời các câu hỏi: Dữ liệu lấy ra kiểu gì? định dạng dữ liệu như thế nào?
Đối với dữ liệu lớn, không phải trả lời các câu hỏi trên. Khi khai thác, phân tích dữ liệu lớn
chúng ta không cần quan tâm đến kiểu dữ liệu và định dạng của chúng; điều quan tâm là
giá trị mà dữ liệu mang lại có đáp ứng được cho công việc hiện tại và tương lai không.

(2) Lưu trữ dữ liệu lớn hơn: Lưu trữ dữ liệu truyền thống vô cùng phức tạp và luôn
đặt ra câu hỏi lưu như thế nào? dung lượng kho lưu trữ bao nhiêu là đủ? gắn kèm với câu
hỏi đó là chi phí đầu tư tương ứng. Công nghệ lưu trữ dữ liệu lớn hiện nay đã phần nào có
thể giải quyết được vấn đề trên nhờ những công nghệ lưu trữ đám mây, phân phối lưu trữ
dữ liệu phân tán và có thể kết hợp các dữ liệu phân tán lại với nhau một cách chính xác và
xử lý nhanh trong thời gian thực.

(3) Truy vấn dữ liệu nhanh hơn: Dữ liệu lớn được cập nhật liên tục, trong khi đó
kho dữ liệu truyền thống thì lâu lâu mới được cập nhật và trong tình trạng không theo dõi
thường xuyên gây ra tình trạng lỗi cấu trúc truy vấn dẫn đến không tìm kiếm được thông
tin đáp ứng theo yêu cầu.

(4) Độ chính xác cao hơn: Dữ liệu lớn khi đưa vào sử dụng thường được kiểm định
lại với những điều kiện chặt chẽ, số lượng thông tin được kiểm tra thường rất lớn, đảm bảo
về nguồn lấy dữ liệu không có sự tác động của con người vào thay đổi số liệu thu thập.

5. KHÓ KHĂN KHI SỬ DỤNG DỮ LIỆU LỚN

Các khó khăn khi sử dụng dữ liệu lớn, bao gồm: Chất lượng, khối lượng và tính phù
hợp của dữ liệu. Các câu hỏi cần đặt ra khi sử dụng dữ liệu lớn:

1. Tập dữ liệu có sai số từ việc lựa chọn đối tượng (Selection bias), thiếu dữ liệu hoặc
có dữ liệu ngoại lai (Data outliers) không?

2. Khối lượng dữ liệu thu thập có đủ hay không?


179
3. Dữ liệu có phù hợp cho việc phân tích hay không?

Trong hầu hết các trường hợp, dữ liệu phải được lấy từ nguồn ban đầu, sau đó làm
sạch và sắp xếp trước khi phân tích. Quá trình này rất khó khăn đối với dữ liệu phi truyền
thống do các đặc điểm phi cấu trúc của dữ liệu liên quan, thường mang tính định tính (ví
dụ: Văn bản, ảnh và video) hơn là định lượng.

6. NHỮNG CƠ HỘI VÀ THÁCH THỨC KHI ỨNG DỤNG BIG DATA

Cơ hội

(1) Tiếp cận và nghiên cứu về dữ liệu lớn sẽ giúp cho chúng ta có thêm phương án
giải quyết, xử lý và đối phó với những thách thức đối với sản xuất số liệu thống kê chính
thức trong hiện tại và tương lai. Những nghiên cứu thực nghiệm cần phải được tiến hành
để khám phá những ứng dụng tiềm năng của dữ liệu lớn trong số liệu thống kê chính thức,
và nghiên cứu thực nghiệm đó phải là một phần trong quy trình sản xuất số liệu thống kê.

(2) Nghiên cứu về dữ liệu lớn phải có cơ sở hạ tầng công nghệ thông tin hiện đại, đáp
ứng yêu cầu xử lý khối lượng lớn dữ liệu và nhanh, đồng thời có thể tập hợp dữ liệu từ
nhiều nguồn khác nhau. Thực hiện được điều này ta có được đội ngũ nguồn lực về quản lý
và khai thác Big Data vững vàng về chuyên môn và được trải qua kinh nghiệm thực tế.

(3) Tiếp cận và nghiên cứu về dữ liệu lớn sẽ giúp chúng ta có được những văn bản
pháp lý bổ sung có thể giúp cho cơ quan thống kê chính thức có điều kiện để thực hiện được
khai thác dữ liệu thông qua hồ sơ hành chính, ngoài ra dữ liệu cũng được bảo đảm và giữ
bí mật nhờ những văn bản pháp lý bổ sung này.

(4) Sử dụng dữ liệu lớn đem lại niềm tin của cộng đồng với thống kê chính thức do
quá trình trình sản xuất số liệu thống kê chính thức với dữ liệu lớn hoàn toàn không có sự
tác động chủ ý của con người.

Thách thức

(1)Tài chính

Nhiều đơn vị, tổ chức không đo lường được vấn đề sẽ phát sinh trong quá trình triển
khai thực hiện, dự toán kinh phí chưa chính xác, do vậy dự án không thực hiện được. Để
triển khai được thành công, yếu tố tài chính có ý nghĩa rất quan trọng, một số tập đoàn
thương mại lớn có tiềm lực tài chính vững chắc đã xây dựng thuận lợi hệ thống dữ liệu Big
Data như IBM, website bán hàng thương mại điện tử Amazon ...
180
(2) Chính sách, quy định Luật pháp về truy cập và sử dụng dữ liệu

Việc sử dụng và khai thác dữ liệu lớn phụ thuộc vào luật quy định của mỗi quốc gia.

Ví dụ: ở Canada người dùng được tiếp cận dữ liệu từ cả hai tổ chức chính phủ và phi
chính phủ, nhưng ở những nước khác như Ireland thì phải được sự cho phép từ các cơ quan
chính phủ. Điều này có thể dẫn đến những hạn chế để truy cập vào một số loại dữ liệu lớn.

(3) Trình độ khai thác và quản lý dữ liệu

Do luật pháp quy định sử dụng và khai thác ở mỗi quốc gia là khác nhau nên cách
quản lý là cũng khác nhau tuy nhiên, Một vấn đề liên quan đến quản lý thông tin hiện nay
là nguồn nhân lực. Khoa học dữ liệu lớn đang phát triển mạnh trong những tổ chức tư nhân,
trong khi đó bộ phận này chưa được liên kết với những tổ chức của chính phủ một cách
chặt chẽ dẫn đến việc quản lý vẫn còn nhiều vướng mắc..

(4) Hạ tầng Công nghệ thông tin

Cần cải thiện tốc độ dữ liệu truy cập vào các dữ liệu hành chính nghĩa là có thể sử
dụng giao diện ứng dụng của Chương trình chuyên sâu tiêu chuẩn (API) để truy cập dữ liệu.
Bằng cách này, có thể kết nối các ứng dụng cho dữ liệu thu về và xử lý dữ liệu trực tiếp với
dữ liệu hành chính. Ngoài ra hệ thống khai thác dữ liệu lớn cũng phải được tính toán để có
thể kết nối vào được kho cơ sở dữ liệu truyền thống, đó cũng là một trong những thách thức
lớn cần được giải quyết.

7. ỨNG DỤNG CỦA BIG DATA TRONG SỰ ĐO LƯỜNG SỰ GẮN KẾT CỦA
NGƯỜI TIÊU DÙNG ĐỐI VỚI
CÁC THƯƠNG HIỆU

Big Data được ứng dụng trong rất


nhiều lĩnh vực khác nhau như: Ngân
hàng, Giáo dục, Chính phủ, Chăm sóc
sức khỏe, … trong khuôn khổ bài viết
này tác giả chỉ đề cập ứng dụng của Big
Data trong sự đo lường sự gắn kết của
người tiêu dùng đối với các thương hiệu
thông qua trang Web của hai công ty lớn
Hình 2: Các lĩnh vực có thể khai thác Big Data
nhất Việt Nam trong lĩnh vực bán lẻ điện (nguồn Dzone.com)
181
thoại di động (www.thegioididong.com và www.fptshop.com.vn) trong khoảng thời gian:
từ tháng 3/2017 đến 6/2017

7.1. Khái niệm gắn kết và cách thức đo lường

Trong lĩnh vực marketing, khái niệm gắn kết vẫn đang trong giai đoạn phát triển, vẫn
còn thiếu sự rõ ràng và sự đồng thuận về định nghĩa, hình thức, thuộc tính và cách thức ứng
dụng. Theo Dictionary.com (2017): "Gắn kết là hành động gắn kết hoặc trạng thái gắn kết".
Trong marketing, các học giả khác nhau đã giải quyết theo những cách rất khác nhau và đôi
khi mâu thuẫn về khái niệm này, hoặc tập trung vào "hành động" của sự gắn kết, hoặc về
"trạng thái" của việc gắn kết (trạng thái thuộc về tâm lý).

Khái niệm gắn kết cần được xem xét trong bối cảnh phụ thuộc và phải ánh quá trình
mà cường độ gắn kết có thể phát triển và dao động theo thời gian. Theo Hollebeek (2011a,
2011b), sự tương tác hai chiều giữa các đối tượng gắn kết có liên quan và các đối tượng
trong các ngữ cảnh cụ thể làm tăng mức độ gắn kết cụ thể tại một thời điểm cụ thể, đại diện
cho các trạng thái gắn kết liên quan, vốn dĩ thay đổi nhưng bao hàm quá trình tương tác.

Xem xét dựa trên quan điểm nhị nguyên (valence), Van Doorn và cộng sự (2010) lập
luận rằng khái niệm gắn kết phải được phân loại là tích cực hoặc tiêu cực.

Gắn kết của người tiêu dùng với thương hiệu còn được hình thành dựa trên động cơ
thúc đẩy. Động cơ thúc đẩy được định nghĩa là "trạng thái bên trong của sự kích động cung
cấp năng lượng cần thiết để đạt được mục đích" (Higgins & Scholer, 2009) hoặc là "những
lý do dẫn đến hành vi" (Guay và cộng sự, 2010). Theo ý tưởng của Von Krogh và cộng sự
(2012), nên xem xét gắn kết của người tiêu dùng với thương hiệu là một quá trình tạo động
lực, được hình thành bởi những động cơ bên trong, nội tại và bên ngoài; trong đó các động
cơ bên ngoài cũng bắt nguồn từ những khía cạnh quan trọng của thực hành xã hội (ví dụ:
phương tiện truyền thông xã hội).

7.2 Tổng quan về tình hình đo lường gắn kết người tiêu dùng với thương hiệu bằng
Big Data

Hiện nay để đo lường gắn kết người tiêu dùng với thương hiệu bằng Big Data, trong
giới ứng dụng sử dụng các công cụ đo lường được gọi là “Lắng nghe mạng xã hội” (Social
listening tool); là công cụ giúp lắng nghe và theo dõi người dùng trên mạng xã hội; hoạt
động theo quy trình dựa trên: cơ chế thu thập, tiêu chuẩn hóa và xử lý ngôn ngữ tự nhiên.

182
7.2.1. Khái niệm và phương pháp đo lường

Cơ chế “lắng nghe” này hướng đến công nghệ có những đặc tính sau: Quét các mạng
xã hội, các blog, diễn đàn, trang tin tức chuyên biệt để tìm kiếm thông tin trao đổi liên quan
đến từ khóa hoặc nhóm từ khóa cho sẵn. Sử dụng qui trình xử lý ngôn ngữ tự nhiên có xét
đến yếu tố cảm xúc (sentiment) để phân tích các kết quả thu được từ quá trình quét ở trên.

7.2.2. Ứng dụng Big Data trong đo lường gắn kết

Các công cụ “Công cụ lắng nghe mạng xã hội” rất đa dạng với những khả năng khác
nhau, và mang lại nhiều tính năng khá toàn diện như:

Hiểu về khách hàng tiềm năng

Từ kết quả của việc “lắng nghe” chúng ta sẽ có sự hiểu biết về khách hàng tiềm năng:
họ đang nghĩ gì, quan tâm đến vấn đề gì...

Chăm sóc khách hàng tiềm năng

Kết quả của việc “lắng nghe” giúp biết được khách hàng đang không hài lòng vấn đề
gì, từ đó chúng ta có cách thức xử lý phù hợp.

Kích hoạt khách hàng tiềm năng

Phân phối quảng cáo cho người hâm mộ thương hiệu với tính năng lựa chọn Khách
hàng tiềm năng (Custom Audiences)

Kích hoạt Người ảnh hưởng (Influencer)

Phân tích đối thủ cạnh tranh

Share of voice (SoV: mức độ thương hiệu được nhắc đến so với đối thủ) là một thước
đo phổ biến về tính cạnh tranh giữa các nhãn hàng lớn. Với “Công cụ lắng nghe mạng xã
hội”, người làm marketing có thể phát triển những hiểu biết về SoV ở góc độ tổng quát,
cũng như ở góc độ chuyên sâu hơn dựa trên các phân khúc địa lý, kênh giao tiếp (tin tức,
diễn đàn, blog,…) và nhân khẩu học (tuổi tác, giới tính,…).

Tối ưu hóa chiến dịch marketing

Hoạt động tiếp thị nội dung (Content marketing) đối với các tập đoàn lớn thường tập
trung xoay quanh các cụm từ khóa, tag lines hay hashtags then chốt. “Công cụ lắng nghe
mạng xã hội” cho phép người làm marketing theo dấu mức độ lan truyền của các cụm từ
này hiệu quả hơn.
183
7.2.3. Các công cụ lắng nghe mạng xã hội ở Việt Nam

Boomerang (www.boomerang.net.vn)

Social Heat (www.socialheat.younetmedia.com)

Buzzmetrics (www.buzzmetrics.vn)

Ngoài ra chúng ta có thể kể thêm các công cụ lắng nghe mạng xã hội của các công ty
khác như là: iMonitor (www.imonitor.com.vn), SMCC (www.smcc.vn), và Click Media
(www.weareclick.vn).

7.2.4. Dịch vụ của các công cụ lắng nghe mạng xã hội tại Việt Nam

- Trung tâm quản lý mạng xã hội (Social Media Command Center)

- Lắng nghe thương hiệu (hoặc công ty)

- Quản trị danh tiếng thương hiệu trên mạng xã hội

- Lắng nghe và so sánh đối thủ cạnh tranh

- Lắng nghe và đánh giá chiến dịch truyền thông

- Chăm sóc khách hàng trên mạng xã hội (Social Care)

- Nghiên cứu khách hàng và thị trường trên mạng xã hội

7.2.5. Tổng kết và đánh giá về các công cụ lắng nghe mạng xã hội

- Giá thành cao.

- Chưa tập trung vào nhu cầu chuyên biệt của khách hàng.

- Yêu cầu thử nghiệm (demo) rất khó.

- Nguồn dữ liệu chưa tạo tính tin cậy, bị lặp lại dữ liệu.

7.2.6. Kết quả

Từ việc thành công trong việc áp dụng Big Data trong xây dựng công cụ đo lường
mức độ gắn kết của người tiêu dùng đối với thương hiệu; tác giả rút ra những kết luận sau:

- Chúng ta hoàn toàn có thể đo lường được gắn kết của người tiêu dùng đối với các
thương hiệu trên các phương tiện truyền thông xã hội (Social Media).

- Từ đó, chúng ta sẽ có được công cụ hữu ích trong việc theo dõi lắng nghe thương
hiệu cũng như theo dõi được đối thủ cạnh tranh.
184
Cũng thông qua công cụ đo lường này, bằng cách so sánh với các dữ liệu thứ cấp (của
các công ty nghiên cứu thị trường và từ công bố của các doanh nghiệp), tác giả cũng tìm
thấy mối liên quan giữa gắn kết người tiêu dùng với thương hiệu và các nhân tố khác như:
hiệu quả của các chiến dịch marketing, doanh số bán ra của các thương hiệu, doanh số bán
ra của dòng sản phẩm, thị phần của thương hiệu.

Bên cạnh đó, phương pháp và công cụ này cũng có những lợi ích về: tính nhanh chóng
(tức thời), tính cập nhật, phân tích đa dạng, nhiều chiều và hữu ích cho nhiều đối tượng
khác nhau hơn là so với phương pháp truyền thống.

8. KẾT LUẬN

Trong bài báo này tác giả trình bày những thông tin cơ bản về Big Data, những lợi
ích mà Big Data mang lại cho chúng ta. Bên cạnh đó cũng chỉ ra những thách thức khi triển
khai áp dụng khai thác Big Data. Đồng thời, bài báo đã trình bày những kết quả đạt được
trong việc áp dụng công cụ Big Data làm phương pháp đo lường gắn kết của người tiêu
dùng với thương hiệu, như là một phương pháp thu thập và phân tích dữ liệu hỗ trợ cho các
phương pháp truyền thống hiện tại

TÀI LIỆU THAM KHẢO

[1] https://en.wikipedia.org/wiki/Big_data
[2] https:// Big Datauni.com/
[3] https://viettelidc.com.vn/tin-tuc/du-lieu-lon-big-data-la-gi
[4] Ks. Nguyễn Công Hoan, Tổng Quan Về Dữ Liệu Lớn (Bigdata), Trung Tâm Thông
tin Khoa học thống kê (Viện KHTK), 2015.
[5] ThS. Phạm Đức Tú, Big Data, Phòng NCPT Ứng dụng Viễn thông, 2014
[6] Nguyễn Anh Duy & Nguyễn Phúc Quỳnh Như, Dữ liệu lớn: Cách thức khai thác cơ
hội từ dữ liệu? Trường hợp Amazon, Trường Đại học Kinh tế-Tài chính TP.HCM,
2019.
[7]. Nguyễn Huy Bình, Đo Lường Sự Gắn Kết Của Người Tiêu Dùng Đối Với Các Thương Hiệu
Bằng Big Data, luận văn Thạc Sỹ trường Đại Học Kinh tế Đà Nẵng, 2017

185
TÌM HIỂU CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU

Nguyễn Thanh Trường


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: nt.truong@ufm.edu.vn

Tóm tắt: Phân tích dữ liệu (data analytics) là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình
hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, đưa ra kết luận và hỗ trợ việc ra quyết định. Phân
tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác
nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong
thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra các quyết định khoa học hơn
và giúp doanh nghiệp hoạt động hiệu quả hơn.

Trong bài này, chúng ta cùng tìm hiểu sơ lược qua các công cụ phân tích dữ liệu tập trung vào 2
khía cạnh: Các công cụ (Có thể là thương mại) dành cho các doanh nghiệp hoặc người dùng không cần
kiến thức lập trình và Ngôn ngữ lập trình dành cho người dùng có chút ít kiến thức về lập trình có thể
phát huy hiệu quả phân tích dữ liệu.

Từ khóa: Phân tích dữ liệu, data analytics

1. GIỚI THIỆU

Nhu cầu ngày càng tăng và tầm quan trọng của phân tích dữ liệu trên thị trường đã
tạo ra nhiều cơ hội trên toàn thế giới. Việc chọn lọc các công cụ phân tích dữ liệu hàng đầu
gặp khó khăn vì các công cụ nguồn mở phổ biến hơn, thân thiện với người dùng và hướng
đến hiệu suất hơn so với phiên bản trả phí. Có nhiều công cụ nguồn mở không yêu cầu bất
kỳ mã hóa nào và quản lý để mang lại kết quả tốt hơn so với các phiên bản trả phí, như Lập
trình R trong khai thác dữ liệu và Tableau public, Python trong trực quan hóa dữ liệu. Sau
đây chúng ta cùng điểm qua một số công cụ phân tích dữ liệu hàng đầu, cả mã nguồn mở
và phiên bản trả phí, dựa trên mức độ phổ biến, khả năng học hỏi và hiệu suất của chúng.

2. CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU

2.1. Tableau Public

Tableau Public là một phần mềm miễn phí kết nối bất kỳ nguồn dữ liệu
nào có thể là Kho dữ liệu của công ty, Microsoft Excel hoặc dữ liệu dựa
trên web và tạo trực quan hóa dữ liệu, bản đồ, bảng điều khiển, v.v. với các bản cập nhật
theo thời gian thực hiển thị trên web. Chúng cũng có thể được chia sẻ thông qua phương

186
tiện truyền thông xã hội hoặc với khách hàng. Nó cho phép truy cập để tải xuống tập tin ở
các định dạng khác nhau. Nếu muốn thấy sức mạnh của hoạt cảnh, thì chúng ta phải có
nguồn dữ liệu rất tốt. Khả năng Dữ liệu lớn của Tableau khiến chúng trở nên quan trọng và
người dùng có thể phân tích và trực quan hóa dữ liệu tốt hơn bất kỳ phần mềm trực quan
hóa dữ liệu nào khác trên thị trường.

Các sản phẩm Tableau truy vấn cơ sở dữ liệu quan hệ, phân tích xử lý trực tuyến khối,
cơ sở dữ liệu đám mây và bảng tính để tạo trực quan hóa dữ liệu kiểu đồ thị. Phần mềm
cũng có thể trích xuất, lưu trữ và truy xuất dữ liệu từ một công cụ dữ liệu trong bộ nhớ.

Các sản phẩm củaTableau gồm:

- Tableau Desktop

- Tableau Server

- Tableau Online

- Tableau Prep Builder (Released in 2018)

- Tableau Vizable (Consumer data visualization mobile app released in 2015)

- Tableau Public (free to use)

- Tableau Reader (free to use)

- Tableau Mobile

- Tableau CRM

Tableau có chức năng lập bản đồ, và có thể vẽ các tọa độ kinh độ và vĩ độ cũng như
kết nối với các tập tin không gian như Esri Shapefiles, KML (Keyhole Markup Language)
và GeoJSON để hiển thị địa lý tùy chỉnh. Mã hóa địa lý tích hợp cho phép các địa điểm
hành chính (quốc gia, tiểu bang / tỉnh, quận / huyện), mã bưu chính, Quận Quốc hội Hoa
Kỳ, CBSA / MSA của Hoa Kỳ, Mã vùng, Sân bay và các khu vực thống kê của Liên minh
Châu Âu (mã NUTS) đến được ánh xạ tự động. Các khu vực địa lý có thể được nhóm lại
để tạo lãnh thổ tùy chỉnh hoặc mã hóa địa lý tùy chỉnh được sử dụng để mở rộng vai trò địa
lý hiện có trong sản phẩm.

2.2. SAS

SAS (trước đây là “Statistical Analysis System" - Hệ thống


Phân tích Thống kê) là một bộ phần mềm thống kê được phát triển
187
bởi Viện SAS để quản lý dữ liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình
báo, điều tra tội phạm, và phân tích dự đoán.

SAS được phát triển tại Đại học Bang North Carolina từ năm 1966 cho đến năm 1976,
khi Viện SAS được hợp nhất. SAS đã được phát triển thêm vào những năm 1980 và 1990
với việc bổ sung các thủ tục thống kê mới, các thành phần mới được bổ sung. Giao diện trỏ
và nhấp đã được thêm vào phiên bản 9 vào năm 2004. Một sản phẩm phân tích truyền thông
xã hội đã được thêm vào năm 2010.

Tính đến năm 2011, bộ sản phẩm lớn nhất của SAS là dòng sản phẩm dành cho khách
hàng thông minh. Nhiều mô-đun SAS dành cho web, mạng xã hội và phân tích tiếp thị có
thể được sử dụng để lập hồ sơ khách hàng và khách hàng tiềm năng, dự đoán hành vi của
họ cũng như quản lý và tối ưu hóa thông tin liên lạc. SAS cũng cung cấp Khung gian lận
SAS. Chức năng chính của khung là giám sát các giao dịch trên các ứng dụng, mạng và đối
tác khác nhau và sử dụng phân tích để xác định các điểm bất thường có dấu hiệu gian lận.
SAS Enterprise GRC (Quản trị, Rủi ro và Tuân thủ) cung cấp mô hình rủi ro, phân tích kịch
bản và các chức năng khác để quản lý và hình dung rủi ro, tuân thủ và các chính sách của
công ty. Ngoài ra còn có bộ sản phẩm Quản lý rủi ro doanh nghiệp SAS được thiết kế chủ
yếu cho các ngân hàng và tổ chức dịch vụ tài chính.

2.3. Apache Spark

Apache Spark là một công cụ phân tích hợp nhất mã nguồn mở để xử


lý dữ liệu quy mô lớn. Spark cung cấp một giao diện để lập trình toàn
bộ các cụm với tính song song dữ liệu ngầm và khả năng chịu lỗi. Ban đầu được phát triển
tại Đại học California, AMPLab của Berkeley, cơ sở mã Spark sau đó được tặng cho Tổ
chức Phần mềm Apache, tổ chức này đã duy trì nó kể từ đó.

Spark và các RDD (resilient distributed dataset) của nó được phát triển vào năm 2012
đáp ứng các hạn chế trong mô hình tính toán cụm MapReduce, mô hình này buộc cấu trúc
luồng dữ liệu tuyến tính cụ thể trên các chương trình phân tán: Các chương trình
MapReduce đọc dữ liệu đầu vào từ đĩa, ánh xạ hàm trên dữ liệu, giảm kết quả của bản đồ
và lưu trữ kết quả giảm trên đĩa. Các RDD của Spark hoạt động như một tập hợp làm việc
cho các chương trình phân tán cung cấp một dạng bộ nhớ dùng chung phân tán bị hạn chế.

188
Spark cũng bao gồm một thư viện - MLlib, cung cấp một tập hợp các thuật toán máy
tiến bộ cho các kỹ thuật khoa học dữ liệu lặp đi lặp lại như Phân loại, Hồi quy, Lọc cộng
tác, Phân cụm, v.v.

2.4. Excel

Excel là một công cụ phân tích cơ bản, phổ biến và được sử dụng rộng rãi hầu
như trong tất cả các ngành công nghiệp. Cho dù bạn là chuyên gia về SAS, R
hay Tableau, bạn vẫn sẽ cần sử dụng Excel. Excel trở nên quan trọng khi có yêu cầu phân
tích dữ liệu nội bộ của khách hàng. Nó phân tích nhiệm vụ phức tạp tóm tắt dữ liệu với bản
xem trước của bảng tổng hợp giúp lọc dữ liệu theo yêu cầu của khách hàng. Excel có tùy
chọn phân tích kinh doanh nâng cao giúp hỗ trợ khả năng lập mô hình có các tùy chọn được
tạo sẵn như phát hiện mối quan hệ tự động, tạo các thước đo DAX (Data Analysis
Expressions) và phân nhóm thời gian.

Excel cung cấp một số lệnh, hàm và công cụ giúp bạn dễ dàng thực hiện các tác vụ
phân tích dữ liệu phức tạp. Excel cho phép bạn thực hiện các phép tính phức tạp khác nhau
một cách dễ dàng.

Các công cụ phân tích dữ liệu đa năng của Excel:

Data Consolidation

Dùng tổng hợp dữ liệu từ nhiều nguồn khác nhau và trình bày một báo cáo. Dữ liệu
có thể nằm trong các trang tính của cùng một sổ làm việc hoặc trong các sổ làm việc khác
nhau. Với công cụ dữ liệu Excel Consolidation, bạn có thể thực hiện việc này trong một vài
bước đơn giản.

What-If Analysis

What-If Analysis cung cấp các công cụ để xử lý các tình huống phân tích dữ liệu sau:

- Goal Seek

- Data Table

- Scenario Manager

Tối ưu hóa với Excel Solver Add-in

Solver được sử dụng để xử lý các tình huống tìm kiếm mục tiêu phức tạp. Trong
những trường hợp như vậy, ngoài các đầu vào và đầu ra, sẽ có các ràng buộc hoặc giới hạn
189
được xác định áp đặt đối với các giá trị đầu vào có thể có. Hơn nữa, Solver được sử dụng
để tạo ra một giải pháp tối ưu.

Excel có một Add-in Solver giúp bạn giải quyết những vấn đề phức tạp như vậy.

Nhập dữ liệu vào Excel

Phân tích dữ liệu của bạn có thể phụ thuộc vào các nguồn dữ liệu bên ngoài khác
nhau. Trong Excel, bạn có thể nhập dữ liệu từ các nguồn dữ liệu khác nhau, chẳng hạn như
Cơ sở dữ liệu Microsoft Access, Trang Web, Tập tin văn bản, Bảng SQL Server, Khối phân
tích SQL Server, Tập tin XML, v.v.

Data Model

Mô hình Dữ liệu trong Excel được sử dụng để tích hợp dữ liệu từ nhiều bảng trong
sổ làm việc hiện tại và / hoặc từ dữ liệu đã nhập và / hoặc từ các nguồn dữ liệu được kết nối
với sổ làm việc thông qua các kết nối dữ liệu. Mô hình dữ liệu được sử dụng một cách minh
bạch trong các báo cáo PivotTable, PivotChart, PowerPivot và Power View.

Pivot Table

Khi bạn có thể tích hợp Mô hình Dữ liệu với Pivot Table, bạn có thể thực hiện phân
tích dữ liệu mở rộng bằng cách đối chiếu, kết nối, tóm tắt và báo cáo dữ liệu từ một số
nguồn khác nhau. Vì bạn có thể nhập bảng từ các nguồn dữ liệu bên ngoài và tạo PivotTable,
nên có thể cập nhật tự động các giá trị trong Pivot Table bất cứ khi nào dữ liệu trong các
nguồn dữ liệu được kết nối được cập nhật.

Power Pivot

Bạn có thể sử dụng Power Pivot để truy cập, phân tích và báo cáo dữ liệu từ nhiều
nguồn dữ liệu khác nhau. Power Pivot có thể giúp bạn xử lý dữ liệu lớn một cách dễ dàng
và tạo ra các báo cáo phân tích hấp dẫn.

PowerPivot cung cấp cho bạn các lệnh để quản lý Mô hình Dữ liệu, thêm bảng Excel
vào Mô hình Dữ liệu, để thêm các trường được tính toán trong Bảng Dữ liệu, để xác định
KPI, v.v.

Khám phá dữ liệu với Power View

Power View cung cấp tính năng khám phá tương tác, trực quan hóa và phân tích dữ
liệu lớn. Nhờ các tùy chọn trực quan hóa linh hoạt, bạn chắc chắn có thể tìm thấy tùy chọn

190
cung cấp cho dữ liệu của bạn nền tảng hoàn hảo, trong đó bạn có thể khám phá dữ liệu, tóm
tắt và báo cáo.

Khám phá dữ liệu với Hierarchies

Nếu dữ liệu của bạn có cấu trúc phân cấp, chúng có thể được xác định trong Mô hình
dữ liệu được phản ánh trong Power View hoặc xây dựng cấu trúc phân cấp trong chính
Power View.

3. CÁC NGÔN NGỮ LẬP TRÌNH PHÂN TÍCH DỮ LIỆU

3.1. Lập trình R

R là công cụ phân tích hàng đầu trong ngành và được sử dụng rộng rãi
để thống kê và lập mô hình dữ liệu. Nó có thể dễ dàng thao tác dữ liệu
của bạn và trình bày theo nhiều cách khác nhau. Nó đã vượt quá SAS theo nhiều cách như
dung lượng dữ liệu, hiệu suất và kết quả. R biên dịch và chạy trên nhiều nền tảng viz -
UNIX, Windows và MacOS. Nó có 11.556 gói và cho phép bạn duyệt các gói theo danh
mục. R cũng cung cấp các công cụ để tự động cài đặt tất cả các gói theo yêu cầu của người
dùng, cũng có thể được lắp ráp tốt với Dữ liệu lớn.

R là một ngôn ngữ và môi trường cho tính toán thống kê và đồ họa. Đây là một dự án
GNU tương tự như ngôn ngữ và môi trường S được phát triển tại Phòng thí nghiệm Bell
(trước đây là AT&T, nay là Lucent Technologies) bởi John Chambers và các đồng nghiệp.
R có thể được coi là một cách triển khai khác của S. Có một số khác biệt quan trọng, nhưng
nhiều mã được viết cho S chạy không thay đổi dưới R.

R cung cấp nhiều loại thống kê (mô hình tuyến tính và phi tuyến, kiểm tra thống kê
cổ điển, phân tích chuỗi thời gian, phân loại, phân cụm, …) và các kỹ thuật đồ họa, và có
khả năng mở rộng cao. Ngôn ngữ S thường là phương tiện được lựa chọn để nghiên cứu
phương pháp luận thống kê và R cung cấp một lộ trình Nguồn mở để tham gia vào hoạt
động đó.

Một trong những điểm mạnh của R là sự dễ dàng có thể tạo ra các ô chất lượng xuất
bản được thiết kế tốt, bao gồm các ký hiệu và công thức toán học nếu cần. Sự cẩn thận đã
được thực hiện đối với các mặc định cho các lựa chọn thiết kế nhỏ trong đồ họa, nhưng
người dùng vẫn có toàn quyền kiểm soát.

191
R có sẵn dưới dạng Phần mềm Miễn phí theo các điều khoản của Giấy phép Công
cộng GNU của Tổ chức Phần mềm Tự do ở dạng mã nguồn. Nó biên dịch và chạy trên
nhiều nền tảng UNIX và các hệ thống tương tự (bao gồm FreeBSD và Linux), Windows và
MacOS.

R analytics (hoặc ngôn ngữ lập trình R) là một phần mềm mã nguồn mở miễn phí
được sử dụng cho tất cả các loại dự án khoa học dữ liệu, thống kê và trực quan hóa. Ngôn
ngữ lập trình R mạnh mẽ, linh hoạt và có thể được tích hợp vào các nền tảng BI (Business
intelligence), để giúp bạn tận dụng tối đa dữ liệu quan trọng của doanh nghiệp.

Những tích hợp này bao gồm mọi thứ từ các chức năng thống kê đến các mô hình dự
đoán, chẳng hạn như hồi quy tuyến tính. R cũng cho phép xây dựng và chạy các mô hình
thống kê bằng cách sử dụng dữ liệu Sisense, tự động cập nhật các mô hình này khi thông
tin mới chảy vào mô hình.

Ngôn ngữ được xây dựng đặc biệt cho phân tích thống kê và khai thác dữ liệu. R
analytics không chỉ được sử dụng để phân tích dữ liệu mà còn để tạo ra phần mềm và ứng
dụng có thể thực hiện phân tích thống kê một cách đáng tin cậy. Ngoài các công cụ thống
kê tiêu chuẩn, R bao gồm một giao diện đồ họa. Do đó, nó có thể được sử dụng trong một
loạt các mô hình phân tích bao gồm các thử nghiệm thống kê cổ điển, mô hình tuyến tính /
không tuyến tính, phân nhóm dữ liệu, phân tích chuỗi thời gian, …

Các nhà thống kê thích sử dụng R vì nó tạo ra các biểu đồ và đồ họa sẵn sàng để xuất
bản, với ký hiệu và công thức toán học chính xác. Nó khá phổ biến vì các hình ảnh trực
quan của nó: đồ thị, biểu đồ, hình ảnh, … Các nhà phân tích BI có thể sử dụng các loại hình
ảnh trực quan này để giúp mọi người hiểu xu hướng, ngoại lệ và các mẫu trong dữ liệu.

Một lý do khác cho sự phổ biến của nó là tập lệnh dòng lệnh của nó cho phép người
dùng lưu trữ các phương pháp phân tích phức tạp theo từng bước, để được sử dụng lại sau
này với dữ liệu mới.

Thay vì phải cấu hình lại bài kiểm tra, người dùng có thể gọi lại nó một cách đơn
giản. Điều này làm cho nó hữu ích cho các mục đích xác nhận và xác nhận. Các nhà nghiên
cứu có thể khám phá các mô hình thống kê để xác nhận chúng hoặc kiểm tra công việc hiện
có của họ để tìm các lỗi có thể xảy ra. Mặc dù được biết đến như một ngôn ngữ phức tạp
hơn, nhưng nó vẫn là một trong những ngôn ngữ phổ biến nhất để phân tích dữ liệu.

192
Quan trọng hơn, việc sử dụng R thay vì phần mềm đóng gói có nghĩa là các công ty
có thể xây dựng các cách để kiểm tra lỗi trong các mô hình phân tích trong khi dễ dàng sử
dụng lại các truy vấn hiện có và phân tích đặc biệt. Trong học thuật và các lĩnh vực thiên
về nghiên cứu hơn, R là một công cụ vô giá, vì những lĩnh vực nghiên cứu này thường yêu
cầu mô hình độc đáo và cụ thể cao.

Ví dụ nhỏ về cách viết một chương trình:

Tính tổng bình phương (sum of squares): 12 + 22 + 32 + 42 + 52 = ?

Thay vì chúng ta khai báo các biến và dùng vòng lặp for để tính tổng theo cách lập
trình thông thường thì với R ta thực hiện:

> x<-c(1,2,3,4,5)
> x<- c(1,2,3,4,5)
> x <- c(1,2,3,4,5)
> sum(x^2)
[1] 55
>
3.2. Python

Python là một ngôn ngữ kịch bản hướng đối tượng, dễ đọc, viết, bảo trì
và là một công cụ mã nguồn mở miễn phí. Nó được phát triển bởi Guido
van Rossum vào cuối năm 1980, hỗ trợ cả phương pháp lập trình chức
năng và cấu trúc.

Phython rất dễ học vì nó rất giống với JavaScript, Ruby và PHP. Ngoài ra, Python có
các thư viện máy học rất tốt. Scikitlearn, Theano, Tensorflow và Keras. Một tính năng quan
trọng khác của Python là nó có thể được lắp ráp trên bất kỳ nền tảng nào như máy chủ SQL,
cơ sở dữ liệu MongoDB hoặc JSON. Python cũng có thể xử lý dữ liệu văn bản rất tốt.

Python là một công cụ ngày càng phổ biến để phân tích dữ liệu. Trong những năm
gần đây, một số thư viện đã đạt đến độ chín muồi, cho phép người dùng R và Stata tận dụng
vẻ đẹp, tính linh hoạt và hiệu suất của Python mà không phải hy sinh chức năng mà các
chương trình cũ này đã tích lũy trong nhiều năm.

Python là một ngôn ngữ lập trình đa mục đích phổ biến được sử dụng rộng rãi vì tính
linh hoạt của nó, cũng như bộ sưu tập thư viện phong phú của nó, có giá trị cho phân tích
và tính toán phức tạp.
193
Khả năng mở rộng của Python có nghĩa là nó có hàng nghìn thư viện dành riêng cho
phân tích, bao gồm cả Thư viện phân tích dữ liệu Python được sử dụng rộng rãi (còn được
gọi là Pandas). Đối với hầu hết các phần, các thư viện phân tích dữ liệu trong Python ít nhất
phần nào có nguồn gốc từ thư viện NumPy, bao gồm hàng trăm phép tính toán học, phép
toán và hàm. Các công cụ phân tích Python đã trở nên phổ biến do ngôn ngữ máy tính được
áp dụng rộng rãi và tính linh hoạt của nó khi phát triển các giải pháp đa diện.

Ngoài ra, khả năng hiệu suất của Python cao hơn nhiều so với các ngôn ngữ phổ biến
khác được sử dụng trong phân tích dữ liệu và khả năng tương thích của nó với nhiều ngôn
ngữ khác có nghĩa là nó đơn giản là thuận tiện hơn trong hầu hết các trường hợp. Việc sử
dụng tương đối nhẹ bộ nhớ và các tài nguyên xử lý khác của Python có nghĩa là nó có thể
nhanh chóng vượt xa các ngôn ngữ như MatLab hoặc R, những ngôn ngữ được xây dựng
đặc biệt cho phân tích thống kê.

Cách thức sử dụng Python để phân tích dữ liệu:

- Một trong những cách sử dụng phổ biến nhất của Python là khả năng tạo và quản lý
cấu trúc dữ liệu một cách nhanh chóng - chẳng hạn như Pandas cung cấp rất nhiều công
cụ để thao tác, phân tích và thậm chí biểu diễn cấu trúc dữ liệu và bộ dữ liệu phức tạp.
Điều này bao gồm chuỗi thời gian và các cấu trúc dữ liệu phức tạp hơn như hợp nhất, xoay
vòng và các bảng cắt để tạo ra các khung nhìn và quan điểm mới trên các tập hợp hiện có.

- Cách khác, các công cụ như Scikit-Learn (còn được gọi là Sklearn) cung cấp các
công cụ phân tích nâng cao kết hợp với khả năng máy học phức tạp. Điều này cho phép
người dùng xây dựng các mô hình phức tạp hơn, thực hiện các phép hồi quy đa biến và
phức tạp hơn, cũng như tiền xử lý dữ liệu. Được kết hợp với các thư viện như iPython và
chính NumPy, những công cụ này có thể tạo thành nền tảng của một bộ phân tích dữ liệu
mạnh mẽ.

- Ngoài ra, người dùng có thể sử dụng Python để viết các thuật toán phân tích dữ liệu
của riêng mình có thể được tích hợp trực tiếp vào các công cụ kinh doanh thông minh của
mình thông qua API.

Ví dụ nhỏ về cách viết một chương trình:

In dãy Fibonacci bằng python:

194
Thay vì chúng ta khai báo các biến và gán từng biến, dùng hoán vị hoặc dùng đệ quy
để xuất dãy Fibonacii theo cách lập trình thông thường thì với R ta thực hiện:

>>> a, b=0,1
>>> while a<10:
print(a)
a, b=b, a+b
0
1
1
2
3
5
8
Hoặc xác định vị trí kết thúc:

>>> a, b=0,1
>>> while a<1000:
print(a, end=',')
a, b=b, a+b
0,1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,

4. KẾT LUẬN

Trong bài này, chúng ta đã tìm hiểu sơ lược qua các công cụ phân tích dữ liệu tập
trung vào 2 khía cạnh: Các công cụ thường dành cho người dùng không cần kiến thức lập
trình dễ dàng thao tác trực quan trên công cụ hoặc kết hợp các hàm. Trong khi R và Python
là các Ngôn ngữ lập trình có kết hợp với các gói tích hợp thêm nên người dùng nếu có kiến
thức về lập trình có thể phát huy tối đa hiệu quả phân tích dữ liệu.

TÀI LIỆU THAM KHẢO

[1] http://wikipedia.org
[2] https://www.sisense.com/
[3] https://www.tutorialspoint.com/
[4] https://www.r-project.org/
[5] Wes McKinney, “Python for Data Analysis”. O’Reilly Media, Inc, 2017
[6]. Nguyễn Văn Tuấn, “Phân tích dữ liệu với R”. NXB tổng hợp TP. HCM, 2014

195
CƠ HỘI PHÁT TRIỂN TRÍ TUỆ NHÂN TẠO TRONG KIỂM TOÁN

Huỳnh Ngọc Thành Trung


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: hnttrung@ufm.edu.vn

Tóm tắt: : Môi trường kiểm toán hiện nay có đặc điểm là có quá nhiều vụ kiện tụng và các
xét đoán về trách nhiệm kiểm toán viên. Các công ty kiểm toán phải xem xét lại việc thiết kế các
quy trình kiểm toán. Nhiệm vụ tương tác với khách hàng kiểm toán là một phần quan trọng của
quá trình kiểm toán thường bị bỏ qua. Cải thiện nhiệm vụ này có thể là chìa khóa để kiểm soát rủi
ro kiểm toán. Bài tham luận giới thiệu các vấn đề kế toán và kiểm toán, nhu cầu ứng dụng công
nghệ trí tuệ nhân tạo (Artificial intelligence, AI) vào ngành này. Bao gồm các vấn đề kế toán hiện
tại, sự phát triển AI khi ứng dụng hệ chuyên gia vào kiểm toán và dịch vụ đảm bảo có hiệu quả.

Từ khóa: Trí tuệ nhân tạo, Trí tuệ nhân tạo trong kế toán và tài chính, Ứng dụng AI trong
kiểm toán

1. GIỚI THIỆU

Lĩnh vực kế toán đã có lịch sử ứng dụng trí tuệ nhân tạo (AI) từ năm 1987. Các nhà
nghiên cứu kế toán đã áp dụng nhiều công nghệ AI và kỹ thuật công nghệ khác nhau với
một số thành công cho các nhiệm vụ, cụ thể trong báo cáo và phân tích tài chính, cũng như
trong kiểm toán và dịch vụ đảm bảo, trong các lĩnh vực khác. Lĩnh vực phát triển tốt nhất
của AI trong lĩnh vực kế toán liên quan đến việc phát triển và sử dụng các hệ thống chuyên
gia. Thật không may, những hệ thống chuyên gia này đã không phát huy hết tiềm năng của
chúng.

Việc mở rộng nghiên cứu hệ chuyên gia và các ứng dụng AI, cho các nhiệm vụ kế
toán bắt đầu vào những năm 1980. Các ứng dụng này đã được đề xuất, nghiên cứu và phát
triển trong kiểm toán, thuế, kế toán quản trị, kế toán và phân tích tài chính.

1.1. Nhiệm vụ kiểm toán và dịch vụ đảm bảo

Các nhiệm vụ kế toán viên liên quan đến một loạt các quyết định có cấu trúc, bán cấu
trúc và phi cấu trúc. Trọng tâm của kiểm toán và đảm bảo liên quan đến các quyết định và
phân tích ít cấu trúc hơn, bao gồm các rủi ro và thiếu thông tin gây ra. Lý do mà kế toán là
một nghề được công nhận do bản chất của nó là một lĩnh vực chuyên nghiệp, đòi hỏi trình

196
độ học vấn, kinh nghiệm và chuyên môn. Không có gì ngạc nhiên khi nghiên cứu về kế
toán thường được các kế toán viên thực hiện thành công nhất.

Hai lĩnh vực kế toán liên quan chính là (i) lĩnh vực kiểm toán và dịch vụ đảm bảo và
(ii) lĩnh vực báo cáo và phân tích tài chính. Cả hai lĩnh vực kế toán rộng lớn này đều gặp
phải những vấn đề giống nhau là rủi ro ngày càng tăng và sự không chắc chắn. Ngoài ra,
hiện nay có những vụ bê bối và thất bại, mối đe dọa kiện tụng luôn hiện hữu.

1.2. Môi trường kiểm toán

Môi trường của kiểm toán và dịch vụ đảm bảo, được cho là phần quan trọng và dễ
thấy nhất của nghề kế toán, một trong những môi trường không chắc chắn và kiện tụng.
Trong bối cảnh các thất bại kiểm toán cao cấp với những tác động lớn về tài chính, chính
phủ và các cơ quan chuyên môn đã và đang thực hiện những thay đổi trong các quy định,
quy tắc và đào tạo cho kế toán viên. Cả kiểm toán viên và người được kiểm toán hiện phải
tuân theo vô số quy tắc và những cạm bẫy tiềm ẩn mà cách đây vài năm chưa rõ ràng. Tại
Hoa Kỳ, một ban giám sát mới của chính phủ hiện giám sát nghề nghiệp và quốc hội đã
thông qua một đạo luật, đạo luật Sarbanes – Oxley năm 2002, nêu bật những rủi ro của kiểm
toán và tạo ra nhiều nhiệm vụ và vấn đề liên quan đến kiểm toán để điều tra. Những thay
đổi của liên minh Châu Âu đối với chỉ thị số 8 nhằm cung cấp những thay đổi tương tự. Ở
New Zealand, các dự thảo gần đây về kiểm soát chất lượng nhằm đạt được sự hội tụ quốc
tế với các tiêu chuẩn kiểm toán quốc tế và tiêu chuẩn dịch vụ đảm bảo. Rõ ràng, áp lực cung
cấp các dịch vụ kiểm toán và đảm bảo chất lượng là rất cao.

1.3. Nhu cầu nghiên cứu trí tuệ nhân tạo

AI rất quan trọng đối với tương lai của nghề kế toán. Với tư cách là người cung cấp
thông tin và người đánh giá rủi ro, kế toán viên cần các công cụ mới để tăng hiệu quả cho
nhiệm vụ của họ, đặc biệt là trong bối cảnh kiểm toán và dịch vụ đảm bảo.

Các nghiên cứu về AI trong kế toán hầu như chỉ được thực hiện bởi các nhà nghiên
cứu kế toán. Phần lớn các tác giả này là chuyên gia về một hoặc nhiều lĩnh vực của kế toán,
nhưng họ thiếu kiến thức nền tảng và kinh nghiệm về AI. Nhiều người đã đến với AI thông
qua nền tảng chung về hệ thống thông tin. Những người khác chỉ đơn giản nhận ra sự cần
thiết của các ứng dụng AI trong lĩnh vực nhiệm vụ mà họ nghiên cứu và đã tự đào tạo về
lĩnh vực AI cho mục đích thực hiện nghiên cứu đó.

197
Các tài liệu về AI trong kế toán hầu như chỉ được viết bởi các nhà nghiên cứu kế toán
này. Một số nhà nghiên cứu AI xác định cơ hội nghiên cứu trong các ứng dụng kinh doanh,
thậm chí không đề cập đến các lĩnh vực kiểm toán và dịch đảm bảo. Với một vài trường
hợp ngoại lệ có thể xảy ra, như sự tồn tại giữa miền ứng dụng của kiểm toán và dịch vụ
đảm bảo và miền công nghệ của AI.

Một cơ hội lớn tồn tại cho công việc liên ngành giữa các chuyên gia lĩnh vực kế toán
và các chuyên gia ứng dụng AI. Sự hợp tác này có thể thúc đẩy sự phát triển của AI trong
kế toán về phía trước một cách đáng kể. Bằng cách kết hợp những người hiểu biết về các
lĩnh vực kế toán có thể được hưởng lợi tốt nhất từ việc phát triển AI với những người hiểu
biết về các ứng dụng và công nghệ AI, có thể hoặc áp dụng cho các vấn đề cụ thể, ngành
này có thể chứng kiến sự bùng nổ của nghiên cứu và phát triển hiệu quả, vượt xa lý thuyết
và sự phát triển mẫu đặc trưng.

2. KIỂM TOÁN VÀ DỊCH VỤ ĐẢM BẢO

Bản chất của kiểm toán cung cấp động lực cho việc sử dụng AI. Kiểm toán và dịch
vụ đảm bảo liên quan đến việc đánh giá rủi ro, các quyết định phi cấu trúc và bán cấu trúc
nhưng thường lặp lại, thông tin không đầy đủ và không chắc chắn. Abdolmohammadi
(1991); Abdolmohammadi và Usoff (2001) đã nghiên cứu nhận thức của kiểm toán viên về
các trợ giúp quyết định được sử dụng cho các nhiệm vụ kiểm toán. Điều thú vị là, các kết
quả cho thấy rằng, bất kể độ phức tạp của nhiệm vụ, các kiểm toán viên thích xử lý của con
người hơn các công cụ hỗ trợ quyết định hoặc hệ thống dựa trên kiến thức bởi một biên độ
rất rộng. Tuy nhiên, ngày nay, ý tưởng cho rằng các chuyên gia có những giới hạn không
còn là một lý thuyết chưa được kiểm chứng. Nhớ lại những vụ bê bối của Enron,
WorldCom, Tyco, Parmalat, AIG, ... và sự sụp đổ của Arthur Andersen là bằng chứng.

Về mặt tích cực, Thibodeau (2003) đã nghiên cứu khả năng chuyển giao của kiến
thức nhiệm vụ kiểm toán. Ông kết luận rằng, kiến thức được phát triển trong một công ty
kiểm toán có thể được chuyển giao theo nhiệm vụ và bối cảnh ngành. Rõ ràng, việc nắm
bắt, chuyển giao và chia sẻ kiến thức kiểm toán trong toàn công ty có khả năng nâng cao
hiệu quả hoạt động của công ty.

Các biện pháp hỗ trợ quyết định được sử dụng trong kiểm toán có thể có những hậu
quả sâu rộng và không chỉ để nâng cao hiệu lực và hiệu quả kiểm toán. Dillard và Yuthas
(2001) đề xuất về đạo đức trách nhiệm đối với việc sử dụng hệ thống chuyên gia đánh giá.
198
Lowe và cộng sự (2002) đã nghiên cứu việc kiểm toán viên sử dụng các hỗ trợ ra quyết
định ảnh hưởng như thế nào đến đánh giá của hội thẩm về trách nhiệm pháp lý của kiểm
toán viên. Các bồi thẩm đoàn quy trách nhiệm thấp hơn cho các kiểm toán viên dựa vào các
hỗ trợ quyết định có độ tin cậy cao, ngay cả khi trợ giúp không chính xác. Rõ ràng, việc
xây dựng các biện pháp hỗ trợ đưa ra quyết định tốt có thể ảnh hưởng đến trách nhiệm pháp
lý của kiểm toán viên theo nhiều cách. Thứ nhất, các biện pháp hỗ trợ quyết định tốt có thể
giúp kiểm toán viên đưa ra quyết định tốt hơn và do đó tránh được trách nhiệm pháp lý do
kết quả kiểm toán thất bại. Thứ hai, các biện pháp hỗ trợ quyết định tốt có thể giúp kiểm
toán viên tránh được trách nhiệm pháp lý trong trường hợp kiểm toán thất bại.

Ngược lại, việc tuân thủ quá mức các trợ giúp quyết định có thể dẫn đến khó khăn
cho kiểm toán viên. Anderson và cộng sự (2003) đã nghiên cứu tiềm năng của các kiểm
toán viên dựa vào các trợ giúp quyết định so với thông tin từ khách hàng. Kiểm toán viên
có xu hướng đánh giá các giải trình được cung cấp bởi các trợ giúp quyết định là đầy đủ
hơn so với các giải trình do khách hàng cung cấp. Cần có nhiều nghiên cứu hơn về sự phụ
thuộc vào trợ giúp quyết định. Swinney (1999) đã phát hiện ra vấn đề tương tự của việc
tuân thủ quá mức, đặc biệt là khi đầu ra phủ định. Trong một nghiên cứu hơi khác, Murphy
và Yetmar (1996) đã nghiên cứu ảnh hưởng của việc sử dụng hệ chuyên gia của kiểm toán
viên cấp dưới đối với các quyết định của cấp trên. Việc sử dụng hệ chuyên gia của cấp dưới
đã ảnh hưởng đến niềm tin của cấp trên (khả năng xảy ra cao hơn), nhưng việc sử dụng của
cấp trên không ảnh hưởng đến niềm tin của họ về kết luận của chính họ. Ye và Johnson
(1995) nhận thấy kiểm toán viên có nhiều khả năng chấp nhận các khuyến nghị của hệ
chuyên gia hơn nếu giải trình được cung cấp.

2.1. Ứng dụng trí tuệ nhân tạo

Nhiều loại lý thuyết ra quyết định và công nghệ AI đã được áp dụng cho các vấn đề
kiểm toán và dịch vụ đảm bảo. Tuy nhiên, ứng dụng đó phần lớn còn thưa thớt và hầu như
chỉ dừng lại ở mức lý thuyết. Một số hệ chuyên gia đã được sử dụng tại các công ty kế toán
công, chẳng hạn như ADAPT (Gillett, 1993), cố vấn lập kế hoạch kiểm toán của Deloitte
Touche, Price Waterhouse's Planet, Arthur Andersen’s WinProcess và KPMG's KRisk. Hầu
hết các hệ thống này đề cập đến việc đánh giá rủi ro.

Không phải tất cả các ứng dụng của AI để vấn đề kiểm toán đã được chứng minh là
thành công trong thời gian dài. Năm 1995, Arthur Andersen được cho là đã phát triển một

199
hệ thống giúp đánh giá rủi ro kiện tụng liên quan đến khách hàng kiểm toán (Berton, 1995).
Lịch sử cho thấy rằng cuối cùng nó không có lợi.

Ngược lại, AI hầu như chỉ được áp dụng thành công cho các nhiệm vụ nhiều hơn, có
cấu trúc, có thể lập trình và lặp đi lặp lại, trong đó thu thập chuyên môn của con người
không phải là một khó khăn quá lớn. Ví dụ, các tài liệu trên hệ chuyên gia cho các nhiệm
vụ kiểm toán mà ngày từ những năm 1980 giữa (Abdolmohammadi, 1987; Gal và Steinbart,
1987; Hansen và Messier, 1987; Brown và Murphy, 1990; DENNA và cộng sự, 1991;
Brown và Coakley, 2000).

Đặc biệt, trong kiểm toán, vấn đề không chắc chắn đã thúc đẩy sự phát triển của các
lĩnh vực nghiên cứu mới, chẳng hạn như lý thuyết Dempster-Shafer và các hàm. Tuy nhiên,
sự tiến hành trong việc áp dụng các hệ thống thông minh vào các vấn đề kiểm toán vẫn
chưa được ấn tượng. Do đó, phần này của bài tham luận sẽ xác định các nhiệm vụ kiểm
toán mà các ứng dụng AI nên phát triển.

Abdolmohammadi (1991) đã nghiên cứu 332 nhiệm vụ mà kiểm toán viên thực hiện.
Mặc dù số lượng nhiệm vụ tiềm năng nhiều nhưng không phải tất cả đều phù hợp để ứng
dụng AI. Một số rất có cấu trúc và khá thường xuyên, chẳng hạn như tính toán tỷ lệ hàng
tồn kho. Mặt khác, có cấu trúc ít hơn nhiều và dựa vào thông tin không chắc chắn, không
đầy đủ, chẳng hạn như xác định mối quan tâm liên tục.

2.2. Nhiệm vụ kiểm toán

Các nhiệm vụ kiểm toán gợi ra một loạt các đặc điểm. Hơn 400 nhiệm vụ kiểm toán
riêng lẻ đã được xác định. Mặc dù việc nghiên cứu các trợ giúp quyết định kiểm toán đã
diễn ra trong nhiều năm, nhưng không có mô hình hệ thống nào xác định các nhiệm vụ
kiểm toán để phát triển trợ giúp quyết định (Abdolmohammadi, 1991). Một số nhiệm vụ
chính như sau:

- Các thủ tục xem xét phân tích: các thủ tục soát xét phân tích do kiểm toán viên thực
hiện nhằm mục đích thu thập bằng chứng kiểm toán. Họ có thể sử dụng nhiều kỹ thuật
khác nhau. Koskivaara (2004) đánh giá việc sử dụng mạng nơ-ron cho những mục
đích này.

- Phân loại: một số nhiệm vụ kiểm toán, phần lớn là vấn đề phân loại: Đây là nợ phải
thu hay nợ khó đòi? Đây là một giao dịch hợp pháp hay một giao dịch đáng nghi vấn?

200
Welch và cộng sự (1998) đã nghiên cứu hành vi ra quyết định của kiểm toán viên
trong bối cảnh gian lận và đề xuất bằng các thuật toán di truyền là một cách tiếp cận
thích hợp để giải quyết những vấn đề này.

Viaene và cộng sự (2002) đã thử nghiệm một số kỹ thuật AI để phát hiện các yêu cầu
gian lận bảo hiểm. Kết quả chỉ ra các kỹ thuật phi tuyến tính (ví dụ như mạng nơ-ron) không
hoạt động tốt như các kỹ thuật tuyến tính. Hiệu suất kém của các kỹ thuật phi tuyến tính
được cho là do thiếu dữ liệu cụ thể về miền trong kịch bản thử nghiệm, hạn chế và dẫn đến
kết luận rằng, nếu người dùng có kiến thức và kỹ năng cụ thể trong lĩnh vực, các kỹ thuật
phi tuyến tính cung cấp sự linh hoạt hơn trong việc phát triển phân loại gian lận.

- Đánh giá mức độ trọng yếu: cũng là một kiểu phân loại. Comunale và Sexton (2005)
đề xuất phương pháp tiếp cận hệ chuyên gia mờ nguyên mẫu sơ cấp để đánh giá tính
trọng yếu như một biến liên tục. Steinbart (1987) đã mô tả hệ chuyên gia được phát
triển để đưa ra các đánh giá trọng yếu trong giai đoạn lập kế hoạch.

- Đánh giá kiểm soát nội bộ: Với sự ra đời của Sarbanes – Oxley, việc đánh giá các
kiểm soát nội bộ càng trở nên quan trọng hơn đối với công tác kiểm toán. Meservey
và cộng sự (1986) đã phát triển mô hình tính toán của quá trình xem xét kiểm soát nội
bộ của một kiểm toán viên và thực hiện nó như hệ chuyên gia. Changchit và Holsapple
(2001) đã phát triển hệ chuyên gia để hỗ trợ đánh giá kiểm soát nội bộ của các nhà
quản lý và mô tả sự miễn cưỡng của các nhà quản lý khi sử dụng nó. Changchit và
Holsapple (2004) nhận thấy rằng hệ chuyên gia về kiến thức kiểm soát nội bộ của
kiểm toán viên là một phương tiện hữu hiệu và hiệu quả để chuyển giao kiến thức cho
các nhà quản lý. Một mô hình mờ được phát triển bởi de Korvin và cộng sự (2004) để
đánh giá rủi ro từ các mối đe dọa của kiểm soát nội bộ.

- Đánh giá rủi ro: nhiều nhiệm vụ kiểm toán tổng hợp để đánh giá rủi ro. Đánh giá rủi
ro liên quan đến việc đối sánh mô hình và xác định các sai lệch hoặc biến thể.
Ramamoorti và cộng sự (1999), Chiu và Scott (1994) đề xuất việc sử dụng mạng nơ-
ron để hỗ trợ đánh giá rủi ro. Lin và cộng sự (2003) đã đánh giá mạng nơ-ron mờ tích
hợp để phát hiện gian lận tài chính và thấy rằng nó hoạt động tốt hơn hầu hết các mô
hình thống kê và mạng nơ-ron nhân tạo trước đây. Davis và cộng sự (1997) mô tả hệ
thống nguyên mẫu để đánh giá rủi ro kết hợp cả công nghệ mạng nơ-ron và hệ chuyên
gia. Hwang và cộng sự (2004) áp dụng lý luận dựa trên tình huống để đánh giá rủi ro

201
kiểm soát nội bộ. Eining và Jones (1997) nhận thấy rằng việc dựa vào hệ thống chuyên
gia đã nâng cao khả năng của kiểm toán viên để phân biệt giữa các mức độ rủi ro gian
lận trong quản lý khác nhau và nhất quán hơn trong việc lựa chọn các hành động kiểm
toán tiếp theo. Peters (1990) đã phát triển và triển khai hệ chuyên gia để đánh giá rủi
ro vốn có trong quá trình lập kế hoạch kiểm toán.

- Các quyết định liên quan: kiểm toán viên đưa ra quyết định về tính không chắc chắn
của hoạt động liên tục, khi khách hàng có nguy cơ thất bại hoặc gặp mối đe dọa tính
liên tục của khách hàng. Quyết định này là một nhiệm vụ kiểm toán phi cấu trúc có
thể được hưởng lợi từ việc sử dụng các mô hình quyết định. Thông thường, quyết định
bao gồm cả phán đoán định tính và phân tích định lượng.

Biggs và cộng sự (1993) đã phát triển hệ chuyên gia để đánh giá liên tục. Mạng nơ-
ron được đề xuất như một mô hình thay thế tiềm năng. Lenard và cộng sự (1995), Koh
(2004), Etheridge và cộng sự (2000) đã so sánh ba kỹ thuật mạng nơ-ron cho các quyết định
liên quan. Các hệ thống kết hợp, sử dụng cả mô hình thống kê và hệ chuyên gia, cũng đã
được phát triển. Lenard và cộng sự (2001), Lenard và cộng sự (2000) mô tả một hệ thống
kết hợp các hệ thống thống kê, chuyên gia và phân cụm mờ để hỗ trợ các quyết định liên
tục. Phân cụm mờ và mô hình lai được sử dụng bởi Lenard và cộng sự (2000) để mô hình
hóa các quá trình ra quyết định của kiểm toán viên liên quan đến phân tích hoạt động liên
tục.

- Dự đoán phá sản: một nhóm nghiên cứu lớn đang điều tra việc sử dụng AI trong dự
đoán phá sản. Zhang và cộng sự (1999) phát triển một khuôn khổ cho việc sử dụng
mạng nơr-on trong dự đoán phá sản và xem xét kỹ lưỡng các tài liệu còn tồn tại trước
năm 1999. McKee và Lensberg (2002) kết hợp lập trình di truyền và lý thuyết tập hợp
thô để phát triển hệ thống lai về dự đoán phá sản. Anandarajan và cộng sự (2001) sử
dụng mạng nơ-ron để dự đoán sự phá sản ở các công ty gặp khó khăn về tài chính và
nhận thấy rằng các mô hình phi tuyến tính chính xác hơn các mô hình tuyến tính truyền
thống. Pendharkar (2005) sử dụng một số kỹ thuật AI (mạng nơ-ron, lập trình di truyền
và cây phân lớp) để phát triển các mô hình dự đoán phá sản nhị phân.

- Tổng hợp bằng chứng kiểm toán: Srivastava và các đồng nghiệp (Srivastava và Shafer,
1992; Dutta và Srivastava 1993; Gillett và Srivastava, 2000) đã điều tra việc sử dụng
các hàm và xác suất để tổng hợp bằng chứng kiểm toán.

202
2.3. Công nghệ và kỹ thuật AI

Với tất cả các nghiên cứu về chuyên gia kiểm toán, việc sử dụng chúng phải được
phổ biến ngay bây giờ. Tuy nhiên, chúng đã không phát huy hết tiềm năng vì vấn đề thiếu
tính trung lập của người dùng (O'Leary, 2003). Do đó, các phương pháp tiếp cận AI khác,
phức tạp hơn cần được nghiên cứu cho các nhiệm vụ kiểm toán.

Các thuật toán di truyền được đề xuất bởi Welch và cộng sự, như một ứng dụng hữu
ích, tiềm năng để lập mô hình hành vi của kiểm toán viên trong các quyết định về gian lận.
Lensberg và cộng sự, áp dụng lập trình di truyền để dự đoán phá sản. Điều này cũng có thể
hữu ích trong các quyết định liên quan.

Mạng nơ-ron đã được đề xuất như một ứng dụng tốt cho một loạt các nhiệm vụ kiểm
toán. Do khả năng mô hình hóa các mối quan hệ phi tuyến tính và xử lý dữ liệu không đầy
đủ, mạng nơ-ron có thể đặc biệt hữu ích cho các nhiệm vụ đánh giá rủi ro. Việc áp dụng
chúng vào kiểm toán nội bộ sẽ làm tăng khả năng của kiểm toán viên nội bộ trong việc đưa
ra các khuyến nghị về kiểm soát quá trình và tái thiết kinh doanh. Fanning và cộng sự, sử
dụng mạng nơ-ron để đánh giá rủi ro gian lận trong quản lý. Chiu và Scott, cũng thúc đẩy
việc sử dụng mạng nơ ron để đánh giá rủi ro.

Koh (2004) đề xuất việc sử dụng mạng nơ-ron và khai thác dữ liệu cho các dự đoán
về mối quan tâm liên tục. Koh phát hiện ra rằng mạng nơ-ron và cây quyết định là những
công cụ mạnh mẽ trong việc phân tích các mối quan hệ phức tạp, phi tuyến tính và tương
tác liên quan đến phân tích mối quan tâm. Koskivarra (2000) sử dụng mạng nơ-ron để lập
mô hình số dư hàng tháng cho một công ty sản xuất.

Ví dụ:

Bảng Dữ liệu

Document No. Doc. type Account type Username Saturday Sunday Finding
2000000131 KR K Ahansen 0 1 0
2000000132 KR K Kbridge 0 1 0
2000000133 KR K Khamad 1 0 1
2000000175 DZ D Lappiah 1 0 0
2000000176 DZ D Mlincoln 0 1 1

203
Hình: Áp dụng cây quyết định

Chúng ta có thể thấy rất rõ ràng trong những trường hợp nào chúng ta cần xem xét
kỹ hơn và phân loại dữ liệu tương lai cho phù hợp. Tất nhiên, các tiêu chí được hiển thị
không nhất thiết phải là "Finding", nhưng các thuật toán tương ứng có thể tính đến các xác
suất bổ sung của "Finding" nhất định nếu khả năng không rõ ràng. Là một kiểm toán viên,
cần tập trung vào các hóa đơn của nhà cung cấp (KR) được đăng vào thứ bảy và các khoản
thanh toán của khách hàng (DZ) được đăng bởi tên người dùng bắt đầu bằng “K”.

Hệ thống mờ có thể đặc biệt hữu ích đối với một số nhiệm vụ kiểm toán vì sự cho
phép các yếu tố định tính. Đối với các quyết định trọng yếu, điều này có thể tốt hơn nhiều
so với các quy tắc ngón tay cái định lượng điển hình (Comunale và Sexton, 2005).

Deshmukh và cộng sự, cung cấp một khuôn khổ để phát triển các hệ thống mờ để
đánh giá rủi ro gian lận trong quản lý. Framework của họ xây dựng dựa trên nghiên cứu về
cờ đỏ kiểm toán và lý thuyết tập mờ. Deshmukh và cộng sự nghiên cứu để xây dựng và thử
nghiệm hệ thống mờ được phát triển từ framework.

Hệ thống hybrid, vì một số nhiệm vụ kiểm toán liên quan đến việc sử dụng cả phân
tích định lượng và định tính, các hệ thống kết hợp có thể phù hợp. Lenard và cộng sự, đã
phát triển hệ thống kết hợp giữa mô hình thống kê với hệ chuyên gia để giả định các phán
đoán liên quan. Các nhiệm vụ kiểm toán khác có thể được hưởng lợi từ cách tiếp cận này.
May và cộng sự, đã áp dụng cách tiếp cận tương tự để kiểm toán yêu cầu bồi thường tại
Blue Cross, trong một ứng dụng thương mại. Davis và cộng sự, đã xây dựng mạng lưới
chuyên gia hỗn hợp nguyên mẫu, kết hợp hệ chuyên gia và mạng nơ-ron, để đánh giá rủi ro
kiểm soát. Stefanowski và Wilk, sử dụng hệ thống kết hợp giữa các quy tắc quyết định và

204
học tập dựa trên tình huống để phân loại các đơn đăng ký tín dụng kinh doanh theo năm
mức độ rủi ro.

3. KẾT LUẬN

Các nhiệm vụ kiểm toán rất nhiều và phức tạp. Hầu hết các nghiên cứu AI trong kiểm
toán và kế toán đã được thực hiện bởi các nhà nghiên cứu kế toán và không có sự tham gia
của các chuyên gia AI. Nghiên cứu về AI cho các nhiệm vụ này sẽ được cải thiện nếu các
nhà nghiên cứu kế toán và các nhà nghiên cứu AI vượt qua giới hạn kỷ luật và làm việc
cùng nhau. Các nhà nghiên cứu kế toán phải thu hẹp khoảng cách giữa lĩnh vực kinh doanh
và kế toán cũng như lĩnh vực khoa học máy tính và AI, hợp tác với các nhà nghiên cứu AI
để cải thiện việc kiểm toán và dịch vụ đảm bảo.

Các nghiên cứu AI trong kiểm toán và kế toán đều liên quan đến công nghệ hệ chuyên
gia. Rõ ràng, các ứng dụng AI phức tạp hơn có thể được tạo ra để giải quyết một số vấn đề
kiểm toán một cách đầy đủ hơn. Các nhà nghiên cứu AI nắm giữ chìa khóa để giải quyết
một số vấn đề về nhiệm vụ kiểm toán và dịch vụ đảm bảo thông qua việc sử dụng các kỹ
thuật AI như logic mờ, mạng nơ-ron và có lẽ các lĩnh vực khác của AI chưa từng được áp
dụng trong bối cảnh kế toán.

Các nhiệm vụ kiểm toán viên, chẳng hạn như thủ tục soát xét phân tích, đánh giá tính
trọng yếu, quyết định liên tục và đánh giá rủi ro, rất phức tạp và quan trọng. Thực hiện
những nhiệm vụ này kém sẽ gây ra hậu quả nghiêm trọng. Tiềm năng cải tiến thông qua
việc phát triển và sử dụng các ứng dụng AI phức tạp, chẳng hạn như hệ chuyên gia, lập
trình di truyền, mạng nơ-ron, hệ thống mờ và hệ thống lai, cần được nghiên cứu để hạn chế
các rủi ro trên.

TÀI LIỆU THAM KHẢO


[1]. https://onlinelibrary.wiley.com/
[2]. https://www.zapliance.com
[3]. https://zephyrnet.com
[4]. https://www.slideshare.net/donewenlong/kim-ton-15895463
[5]. https://www.vcci.com.vn/ung-dung-cong-nghe-cao-tri-tue-nhan-tao-trong-kiem-toan
http://raw.rutgers.edu/MiklosVasarhelyi/Resume%20Articles/BOOKS/B13.%20artificial
%20intelligence.pdf

205
NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI -
SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU TRỮ DỮ LIỆU LAKEHOUSE

Bùi Mạnh Trường


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email bmtruong@ufm.edu.vn

Tóm tắt: Dữ liệu luôn sinh ra và tồn tại trong suốt quá trình hoạt động của tổ chức ở mọi
cấp độ vận hành và hoạt động của mình. Sự phát triển của công nghệ đã làm thay đổi mô hình hoạt
động cũng như những kế hoạch và chiến lược hoạt động của các tổ chức đã nâng tầm quan trọng
của dữ liệu các loại nhằm giúp các tổ chức hiểu rõ mình, đối thủ và khách hàng của mình. Các tổ
chức hàng đầu thế giới hiện nay hiểu được tầm quan trọng của việc xây dựng dữ liệu chất lượng
cao có thể truy cập được, sử dụng được và có độ tin cậy cao. Các nền tảng kiến trúc dữ liệu mới
xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ
chức khi xây dựng các lợi thế cạnh tranh của mình.

Từ khóa: Data, Data warehouse, Data lake, specialized systems, Lake house, on-premise,
cloud

1. GIỚI THIỆU

Khi dữ liệu trở nên quan trọng với doanh nghiệp, nhu cầu cần biết họ có dữ liệu nào
và làm sao để kiếm được tiền từ dữ liệu này, đây chính là nền tảng cho sự phát triển thành
công. Điều này cũng đúng với tất cả doanh nghiệp, bất kể là doanh nghiệp công nghệ truyền
thống hay không. Nhu cầu này không chỉ quan trọng hơn trong thời gian tới, thậm chí khi
dữ liệu được tạo ra và sử dụng nó một cách hiệu quả trở thành một lợi thế cạnh tranh.

Việc tập trung tăng số luọng các chuyên gia dữ liệu làm việc chung với nhau thành
một đội hoặc thành một cộng đồng để xây dựng dữ liệu của riêng tổ chức đó, vì các chuyên
gia dữ liệu làm việc độc lập sẽ không tạo được thành quả. Sự hợp sức giữa các phòng ban
chức năng khác nhau trong chia sẻ và đóng góp dữ liệu cũng rất quan trọng.

Theo cách truyền thống, các vai trò chính của dữ liệu tồn tại riêng biệt so với 04 lĩnh
vực nghề nghiệp về dữ liệu bao gồm : Nhà khoa học dữ liệu, kỹ sư dữ liệu, kiến trúc sư dữ
liệu và nhà phân tích dữ liệu. Mặc dù các vai trò này là các thành phần trong một tổ chức
nhưng trước đây lại hoàn toàn phụ thuộc vào các bộ công cụ và quy trình khác nhau và làm
việc với dữ liệu trong kho dữ liệu riêng biệt. Hình thức tổ chức này khiến cho độ phức tạp

206
và chi phí doanh nghiệp tăng cao, cũng như mất thời gian nhiều hơn và khó khăn hơn để
trích xuất ý nghĩa từ dữ liệu khi các chuyên gia về dữ liệu hoạt động riêng lẻ.

Ngày nay, các doanh nghiệp hàng đầu coi trọng dữ liệu đang chuyển đổi theo hướng
ứng dụng một kiến trúc thống nhất hơn để đáp ứng nhu cầu của các chuyên gia về dữ liệu.

2. TẦM QUAN TRỌNG CỦA NỀN TẢNG ĐÁM MÂY VỚI CÁC DOANH NGHIỆP
COI TRỌNG DỮ LIỆU

Theo khảo sát của hãng McKinsey vào năm 219 cho thấy các doanh nghiệp có tốc độ
tăng trưởng lợi nhuận cao nhất trong 03 năm gần đây nhất đã đóng góp tối thiểu 20% vào
sự phát triển trực tiếp các phát minh sáng tạo về dữ liệu của họ. Các doanh nghiệp ăn nên
làm ra này sử dụng chiến lược kiềng 03 chân, đầu tiên họ liên kết các chiến lược dài hạn và
rõ ràng về dữ liệu. Tiếp theo, họ nuôi dưỡng văn hóa lấy dữ liệu làm trung tâm bằng việc
biến dữ liệu thành một phần của công việc của mỗi nhân viên trong doanh nghiệp và đào
tạo các nhân viên quản lý dữ liệu đúng cách. Cuối cùng, các doanh nghiệp sử dụng các nền
tảng dữ liệu hiện đại để hỗ trợ các hoạt động liên quan đến dữ liệu tại mọi cấp độ công việc.

Năm 2020, hãng O’Reilly hợp tác với hãng Databricks thực hiện khảo sát toàn cầu
với hơn 3.000 chuyên gia dữ liệu để xác định tình trạng cấu trúc nền tảng dữ liệu đám mây
hiện đại. Người trả lời khảo sát được yêu cầu đánh giá cấu trúc nền tảng dữ liệu hiện tại,
đặc biệt là các thách thức họ gặp phải và những thách thức này ảnh hưởng thế nào tới doanh
nghiệp và đội ngũ chuyên gia dữ liệu tại mỗi doanh nghiệp. Người trả lời khảo sát cũng
được yêu cầu đề xuất các tiêu chí được xem là quan trọng khi đánh giá nhiều loại kiến trúc
dữ liệu mới. Kết quả của cuộc khảo sát cũng cho thấy 81% người trả lời khảo sát thừa nhận
rằng tổ chức của họ chuyển mình để thích nghi với các dịch vụ đám mây và cơ sở hạ tầng
của kiến trúc đám mây cho phù hợp với một số chức năng trong tổ chức của mình, điều này
cho thấy thế giới dữ liệu đang đắm chìm trong nền tảng đám mây. Chỉ có khoảng 2 trong
10 tổ chức (19%) không chuyển bất kỳ khối lượng dữ liệu nào lên nền tảng đám mây.

Kiến trúc nền tảng dữ liệu mà các doanh nghiệp đang sử dụng bao gồm nền tảng lưu
trữ dữ liệu tại chỗ hoặc nền tảng lưu trữ dữ liệu trên đám mây hoặc kết hợp cả hai nền tảng
này. Kết quả của cuộc khảo sát các doanh nghiệp hiện nay như sau :

1. Kho dữ liệu (Data warehouses) : 57%


2. Hồ dữ liệu (Data lakes) : 53%
3. Hệ thống đặc thù (Specialized systems) : 54%
207
Bao gồm các Hệ quản trị cơ sở dữ liệu đặc thù như SAS ERP và Oracle PeopleSoft
hoạt động tại chỗ, còn Salesforce và Workday hoạt động trên nền tảng đám mây.

4. Không áp dụng nền tảng nào : 04%

Kết quả trên cho thấy nhiều doanh nghiệp đang vận hành công tác quản lý dữ liệu của
mình trên nhiều kiến trúc nền tảng lưu trữ dữ liệu, tất nhiên điều này cũng dẫn đến một số
khó khăn như sau :

a. Sự phức tạp trong vận hành.

Hơn 70% doanh nghiệp thừa nhận rằng việc duy trì cơ sở hạ tầng ổn định và các nơi
dữ liệu hoạt động trong môi trường như vậy thực sự là bài toán nan giải, khó khăn. Đây
cũng là khó khăn lớn nhất khi vận hành đồng thời nhiều kiến trúc dữ liệu.

b. Đảm bảo chất lượng dữ liệu

Khi dữ liệu được thu thập và lưu trữ tại nhiều nơi lưu trữ khác nhau tất yếu sẽ khó
tránh khỏi sự trùng lặp và không đồng nhất. Điều này chắc chắn sẽ ảnh hưởng nghiêm trọng
tới các quyết định trong kinh doanh khi các quyết định đều dựa vào dữ liệu được lưu trữ
trong Kho dữ liệu hoặc Hồ dữ liệu. Doanh nghiệp cần dữ liệu có độ tin cậy cao khi ra những
quyết định của mình. Kết quả của cuộc khảo sát là 67% cho thấy nhu cầu cấp bách của
doanh nghiệp về khó khăn này.

c. Quản lý dữ liệu

Yêu cầu về quản lý dữ liệu cũng có tầm quan trọng tương ứng so với việc đảm bảo
chất lượng (66%) đó là phải đảm bảo được tính bảo mật và số lượng dữ liệu tăng lên theo
thời gian. Việc quản lý ngày càng quan trọng vì liên quan đến những dữ liệu có tính riêng
tư và cũng vì các quy định bảo vệ dữ liệu nhạy cảm ngày càng nhiều để tránh các cá nhân
truy cập bất hợp pháp.

d. Chi phí vận hành.

Khó khăn cuối cùng cũng tác động đáng kể tới các doanh nghiệp khi vận hành nhiều
nơi lưu trữ dữ liệu đó là chi phí duy trì hoạt động này (60%).

Từ thực tiễn vận hành và sử dụng một hoặc nhiều các kiến trúc nền tảng dữ liệu phục
vụ cho hoạt động một phần hoặc toàn diện các chức năng trong doanh nghiệp, cùng những
khó khăn kể trên, đa số các doanh nghiệp hiện nay đang chủ động tìm kiếm và đánh giá các

208
kiến trúc dữ liệu mới để tối ưu các hệ thống hiện tại của mình. Để hiểu rõ hơn về kiến trúc
nền tảng dữ liệu mà các doanh nghiệp hiện đang ứng dụng và tại sao họ vẫn mong muốn
tìm kiếm các giải pháp hiện đại, ta sẽ tìm hiểu từng kiến trúc nền tảng dữ liệu cũng như lợi
ích và khó khăn của từng nền tảng kiến trúc dữ liệu đó. Ba kiến trúc nền tảng dữ liệu cần
xem xét sẽ là Kho dữ liệu, Hồ dữ liệu và Hệ thống dữ liệu đặc thù, cả ba kiến trúc nền tảng
này có thể hoạt động tại chỗ hoặc trên đám mây.

2.1. Kho dữ liệu

Kho dữ liệu là nơi lưu trữ trung tâm tích hợp dữ liệu từ nhiều nguồn khác nhau và
được sử dụng trong phân tích và báo cáo kinh doanh. Kho dữ liệu được coi là nền tảng của
năng lực doanh nghiệp để thúc đẩy dữ liệu cho ứng dụng Trí tuệ kinh doanh (Business
Intelligence). Một đặc tính quan trọng của kho dữ liệu là tính cấu trúc cao. Dữ liệu được
lưu trữ trong kho dữ liệu chuẩn bị và chuyển đổi, làm sạch, xóa dữ liệu trùng lắp và được
định dạng phù hợp với tiêu chuẩn theo yêu cầu. Thực ra, dữ liệu thường không được đưa
vào Kho dữ liệu nếu các chuyên gia dữ liệu không đảm bảo dữ liệu sẽ được sử dụng như
thế nào và với mục đích gì. Phần lớn các kho dữ liệu, dù tại chỗ hoặc trên đám mây, vẫn
tuân thủ theo hướng dẫn và bộ khung do Ralph Kimball & Bill Inmon quy định từ giữa
những thập kỷ 1980.

Về cơ bản, kho dữ liệu thay đổi cách doanh nghiệp phân tích dữ liệu và ra quyết định
cấp chiến lược. Trước khi có kho dữ liệu, dữ liệu giao dịch và vận hành được lưu trữ riêng
lẻ gây khó khăn khi đảm bảo tính đồng bộ và thống nhất về mặt ngữ nghĩa trong toàn quy
mô tổ chức cũng như khi giao dữ liệu cho nhân sự trong doanh nghiệp để thực hiện công
việc, cuối cùng là không thể có cái nhìn toàn cảnh về hoạt động của doanh nghiệp. Ngày
nay, kho dữ liệu trở nên rất phổ biến và là nền tảng dữ liệu được sử dụng nhiều nhất.

Mặc dù kho dữ liệu truyền thống vận hành tại chỗ, kho dữ liệu đám mây đang phát
triển nhanh chóng với những lợi thế về chi phí, khả năng mở rộng quy mô cũng như giải
phóng tổ chức khỏi sự ràng buộc khi phải mua sắm, triển khai và duy trì cơ sở hạ tầng cần
thiết để vận hành kho dữ liệu.

Lợi ích của Kho dữ liệu

Lợi ích quan trọng nhất của Kho dữ liệu là giúp các tổ chức ra quyết định tốt hơn,
ngoài ra nó cũng giúp các chuyên gia dữ liệu và người sử dụng dữ liệu thực hiện tốt chức
năng nhiệm vụ của mình trong tổ chức. Các lợi ích có thể kể ra như sau :
209
a. Góp phần xây dựng trí tuệ kinh doanh

Việc tập trung dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu và cấp quyền
truy cập cho những nhân sự có thẩm quyền trong tổ chức có nghĩa là tổ chức không còn
phải phụ thuộc vào bản năng của nhân viên hoặc những nhà quản lý để ra các quyết định
quan trọng, vì dữ liệu thực sự có thể hỗ trợ những quyết định này.

b. Cải thiện hoạt động truy vấn dữ liệu

Những truy vấn thường xuyên từ nhân sự trong tổ chức có thể làm sập cơ sở hạ tầng
phân tích như kho dữ liệu nhỏ và các cơ sở dữ liệu truyền thống vốn có nhiều hạn chế. Kho
dữ liệu có thể quản lý hiệu quả hơn các truy vấn, giảm tải cho toàn bộ hệ sinh thái.

c. Cải thiện dữ liệu và chất lượng quyết định

Dữ liệu được chuyển đổi trước khi được đưa vào kho dữ liệu, nghĩa là dữ liệu từ nhiều
nguồn sẽ được chuyển định dạng chuẩn và nhân sự trong tổ chức có thể xem, truy cập.
Thông tin đồng nhất cho phép nhân sự lèo lái công việc theo hướng mục tiêu chung và
thống nhất trong tổ chức.

d. Công bằng với dữ liệu

Gần đây, nhờ sự phát triển của bản thân cơ sở dữ liệu cũng như các công cụ phân tích
và trực quan, các tổ chức coi trọng dữ liệu hàng đầu đã nỗ lực dân chủ hóa dữ liệu toàn diện
trên quy mô toàn tổ chức bằng việc cho phép nhiều hơn nữa nhân sự trong tổ chức được
quyền truy cập kho dữ liệu. Điều này cũng vô tình gây ra khó khăn lớn nhất cho kho dữ liệu
đó là khả năng mở rộng quy mô.

Thách thức của kho dữ liệu

Mặc dù lợi ích của kho dữ liệu là rất to lớn, song song đó vẫn tồn tại một số thách
thức không nhỏ. Kho dữ liệu thường là một cơ sở dữ liệu khổng lồ nên việc thiết kế và triển
khai đòi hỏi khối lượng công việc rất lớn trong việc hoạch định, cộng tác và liên kết cả hai
nguồn lực là con người và tài nguyên. Sau đây là các thách thức của kho dữ liệu :

a. Chi phí thực hiện cao

Chi phí cao luôn là trở ngại lớn nhất khi lựa chọn giải pháp kho dữ liệu, dù triển khai
tại chỗ hoặc trên nền tảng đám mây. Đối với việc triển khai tại chỗ, chi phí bản quyền cao
luôn khiến cho chi phí chung tăng cao. Tiếp theo là chi phí vận hành, bao gồm các nhiệm
210
vụ như mua sắm, cài đặt và duy trì hạ tầng cơ sở cho kho dữ liệu tại tổ chức. Khi kho dữ
liệu nở rộng to lớn hơn thì chắc chắn sẽ cần thêm nhân lực và tài nguyên vận hành. Đặc
biệt khi rơi vào những khoảng thời gian cao điểm cùng với khối lượng công việc cũng tăng
lên rất lớn tương ứng với các khoảng thời gian cao điểm, nhưng để đảm bảo chức năng tính
toán và lưu trữ, cơ sở hạ tầng dữ liệu của các tổ chức đôi khi bị quá tải, ví dụ các nhà bán
lẻ phải chuẩn bị cho những khoảng thời gian cao điểm này trong mùa mua sắm hoặc kỳ
nghỉ lễ dài ngày.

Nếu chọn hình thức phổ biến hơn là thuê nền tảng dữ liệu đám mây thì các tổ chức
chỉ phải thanh toán đúng theo nhu cầu mong muốn của mình. Dù hình thức này tiết kiệm
được chi phí vận hành cho những tài nguyên không dùng tới nhưng vẫn phải chịu chi phí
cao khi kho dữ liệu phát triển to lớn.

b. Vận hành phức tạp

Vận hành kho dữ liệu thực sự rất phức tạp. Đối với kho dữ liệu tại chỗ, bộ phận tin
học và đội ngũ dữ liệu tham gia toàn diện vào việc triển khai, nâng cấp và công tác bảo mật
cùng với các hoạt động khác. Điều này rất cần thiết vì các nền tảng dữ liệu cần được tinh
chỉnh thường xuyên để đảm bảo sự ổn định trong các hoạt động của tổ chức theo thời gian,
đặc biệt khi khối lượng dữ liệu tăng lên để giúp kho dữ liệu không dễ bị tổn thương, thiếu
hiệu quả và không hoạt động đúng.

Việc vận hành kho dữ liệu nền tảng đám mây cũng rất phức tạp dù đã được hỗ trợ cả
về chi phí và hạ tầng cơ sở. Giống như các dịch vụ đám mây và giải pháp đám mây khác,
thị trường kho dữ liệu đám mây vẫn đang trong quá trình hoàn thiện. Các nhà cung cấp dịch
vụ khác nhau sẽ áp dụng các cơ cấu tính phí khác nhau, việc hỗ trợ tiếp cận cơ sở hạ tầng
cũng khác nhau. Một số tác vụ cấp độ nghiệp vụ bắt buộc phải tuân thủ thỏa thuận mức
dịch vụ (Service-Level Agreement) để tích hợp kho dữ liệu cả hai hình thức tại chỗ và đám
mây với các quy trình tác vụ hiện tại nhằm đảm bảo tính bảo mật và khả năng phục hồi sự
cố toàn vẹn và nhanh chóng.

Một số tổ chức đã thực hiện theo hình thức là đầu tiên đưa dữ liệu vào hồ dữ liệu để
nhiều dòng dữ liệu sẽ đưa dữ liệu này đi vào hoặc đi ra các kho dữ liệu. Trong trường hợp
các kho dữ liệu có thay đổi, các dòng dữ liệu này sẽ đưa dữ liệu quay trở ngược lại hồ dữ
liệu theo yêu cầu.

211
Khả năng mở rộng quy mô

Khả năng mở rộng quy mô là một bài toán rất thực tế của kho dữ liệu tại chỗ và cũng
là khó khăn chính. Bộ phận tin học phải thận trọng để đảm bảo có đủ tài nguyên tại mọi
thời điểm, đặc biệt khi gặp phải sự xung đột bất ngờ trong đường truyền. Việc mở rộng quy
mô là nhiệm vụ rất tốn thời gian và tốn kém tài nguyên vì thường kéo theo việc mua sắm
và cài đặt phần cứng mới.

Đối với kho dữ liệu đám mây việc mở rộng quy mô không phải là vấn đề, vì các tổ
chức có thể mua sắm nhiều máy tính hay dung lượng lưu trữ nhiều hơn bất cứ khi nào cần
thiết, ngay cả khi đường truyền đông đúc. Tuy nhiên, khả năng mở rộng quy mô vẫn là một
khó khăn vì rất khó để duy trì hàng trăm, hàng nghìn dòng dữ liệu để cung cấp dữ liệu cho
các Kho dữ liệu lớn khi xây dựng các loại báo cáo khác nhau. Ngoài ra còn có 02 yếu tố
khác là suy yếu khả năng mở rộng quy mô đó là :

- Phần lớn khách hàng đều có nhiều nhà cung cấp giải pháp Kho dữ liệu trong kiến trúc
dữ liệu của mình.

- Kiến trúc dữ liệu được chia ra cho nhiều nhà cung cấp giải pháp đám mây.

Hệ thống độc quyền khép kín

Nhiều kho dữ liệu tại chỗ không tương tác tốt với các hệ thống khác, việc phong tỏa
này sẽ gây rất nhiều khó khăn khi tổ chức muốn chuyển đổi qua giải pháp kho dữ liệu khác.

Ngay cả với hệ thống đám mây cũng không tránh khỏi tình trạng khó khăn này, các
nhà cung cấp hệ thống đám mây khác nhau có những chức năng, năng lực khác nhau, ví dụ
khi chuyển đổi dữ liệu kho dữ liệu từ dịch vụ đám mây Google Cloud qua Microsoft Azure
cũng không phải là quy trình liên tục.

Từ khi xuất hiện kỷ nguyên kỹ thuật số việc nhà cung cấp phong tỏa chức năng hoạt
động của kho dữ liệu gây khó khăn cho các tổ chức khi các nhà sản xuất phần cứng và phần
mềm luôn muốn cột chân các tổ chức đã hợp tác với mình. Khó khăn này vẫn tiếp tục làm
phiền lòng các chuyên gia dữ liệu trong thời đại dữ liệu đóng vai trò quan trọng.

Thiếu sự hỗ trợ của các nhà khoa học dữ liệu và Máy học

Kho dữ liệu được xây dựng dựa trên công nghệ đã hơn 40 tuổi và chỉ được thiết kế
để xử lý dữ liệu có cấu trúc. Các loại dữ liệu khác như âm thanh, video và chuỗi ký tự trong
ngôn ngữ tự nhiên cùng các kiểu dữ liệu phi cấu trúc khác không phù hợp với lược đồ kho
212
dữ liệu. Sự phổ biến của những kiểu dữ liệu này ngày càng tăng lên cũng là dữ liệu đầu vào
của lĩnh vực khoa học dữ liệu và máy học, là tiền đề cho sự trỗi dậy của nền tảng hồ dữ liệu
và xuất hiện thêm những khó khăn khác khi các tổ chức phải cố gắng duy trì cả hai nền tảng
hồ dữ liệu và kho dữ liệu trong kiến trúc dữ liệu của tổ chức.

2.2 Hồ dữ liệu

Hồ dữ liệu là hệ thống dữ liệu hay còn gọi là nơi lưu trữ dữ liệu được lưu trữ với dạng
thô, tự nhiên, thường là dạng file hoặc các đối tượng blob (Binary Large OBject). Hồ dữ
liệu lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc theo dạng thô, bao gồm dữ liệu có cấu trúc
từ các cơ sở dữ liệu quan hệ hoặc cơ sở dữ liệu giao dịch (dòng và cột), dữ liệu bán cấu trúc
(file dữ liệu dạng csv, nhật ký dữ liệu lịch sử, XML, JSON), dữ liệu phi cấu trúc (thư điện
tử, văn bản, file văn bản định dạng PDF) và dữ liệu nhị phân (hình ảnh, âm thanh, video).
Mục tiêu của hồ dữ liệu là chuyển đổi tất cả dữ liệu có sẵn này và khai thác chúng để xây
dựng các báo cáo, biểu diễn trực quan hóa và thực hiện phân tích nâng cao và ứng dụng
máy học để cuối cùng đạt được lợi thế cạnh tranh trong kinh doanh.

Hồ dữ liệu và kho dữ liệu đôi khi bị hiểu nhầm giống nhau vì cùng đặc tính sau đây:

- Là trung tâm lưu trữ dữ liệu;

- Có thể hoạt động trên nền tảng tại chỗ hoặc trên nền tảng đảm mây;

- Các tổ chức sử dụng 02 phương pháp này phân phối rộng rãi dữ liệu trong tổ chức.

Sự khác biệt lớn nhất giữa Hồ dữ liệu và Kho dữ liệu là kiểu dữ liệu và các bài toán
tình huống được xử lý, ngoài ra còn có những khác biệt như sau :

Bảng: Những khác biệt giữa Hồ dữ liệu và Kho dữ liệu

Hồ dữ liệu Kho dữ liệu

Dữ liệu cấu trúc, bán cấu Dữ liệu cấu trúc và bán cấu
Kiểu dữ liệu lưu trữ và xử lý
trúc, phi cấu trúc trúc

Mục đích của dữ liệu Không rõ ràng Cụ thể theo tình huống

Nhà khoa học dữ liệu và kỹ


Người sử dụng Người sử dụng thông thường
sư dữ liệu

Cấu trúc Mềm dẻo và dễ thay đổi Cứng nhắc và khó thay đổi

213
Lợi ích của hồ dữ liệu

Hồ dữ liệu có một số lợi ích đáng kể so với kho dữ liệu như sau :

a. Hồ dữ liệu có thể chấp nhận và lưu trữ tất cả dữ liệu của doanh nghiệp

Không thể nào biết trước được dữ liệu nào sẽ cần khai thác theo các nhu cầu của lĩnh
vực Khoa học dữ liệu và Máy học hoặc thậm chí Trí tuệ kinh doanh, vì thế tất cả dữ liệu
sinh ra trong suốt quá trình hoạt động của tổ chức hoặc được tổ chức thu thập sẽ được lưu
trữ vào Hồ dữ liệu, đây chính là độ mềm dẻo của Hồ dữ liệu. Dữ liệu cũng được lưu trữ vô
thời hạn tạo điều kiện cho tổ chức có thể kiểm tra và tái kiểm tra dữ liệu lịch sử khi cần.

b. Hồ dữ liệu có thể lưu trữ và xử lý tất cả các dữ liệu

Trước đây luồng dữ liệu như nhật ký dữ liệu lịch sử máy chủ vận hành trang web, số
liệu từ các thiết bị cảm ứng, hoạt động của các mạng xã hội, chuỗi ký tự và hình ảnh rất
khó khăn và tốn kém để lưu trữ và phân tích, hồ dữ liệu chấp nhận tất cả dữ liệu này.

c. Hồ dữ liệu cho phép tất cả người dùng truy cập toàn bộ dữ liệu

Có 03 loại người sử dụng dữ liệu tiêu biểu: Người sử dụng của tổ chức, nhà phân tích
dữ liệu và nhà khoa học dữ liệu (nhà Khoa học dữ liệu, Kỹ sư dữ liệu và các chuyên gia dữ
liệu). Trước đây, kho dữ liệu phục vụ 03 loại người sử dụng dữ liệu này tùy theo nhu cầu
và công việc của mỗi loại người sử dụng, đặc biệt các Nhà khoa học dữ liệu thường không
sử dụng Kho dữ liệu do những hạn chế của nó, họ thường quan tâm vào phân tích thống kê
sâu bằng các công cụ Trí tuệ nhân tạo. Trong khi đó Hồ dữ liệu phục vụ 03 loại người sử
dụng dữ liệu công bằng nhau.

d. Hồ dữ liệu có thể thay đổi dễ dàng

Hồ dữ liệu lưu trữ tất cả dữ liệu dạng thô và cho phép tất cả người dùng truy cập và
sử dụng dữ liệu theo kiểu của họ và quan trọng là Hồ dữ liệu sử dụng khung schema-on-
read và quy trình Trích xuất-Nạp dữ liệu thô-Chuyển đổi khi cần (Extract – Load -
Transform), điều này cho phép người dùng xây dựng mô hình, khai phá dữ liệu và lược đồ
theo yêu cầu. Bất cứ kết quả khi xử lý dữ liệu nào không hữu ích có thể dễ dàng loại bỏ mà
không làm thay đổi cấu trúc dữ liệu hoặc sự can thiệp hỗ trợ của bộ phận tin học, điều này
giúp Hồ dữ liệu mềm dẻo vô hạn vì nó không đòi hỏi thay đổi cấu trúc để trả lời các yêu
cầu mới.

214
e. Hồ dữ liệu có thể cung cấp nhiều giải pháp khả thi nhanh chóng

Hồ dữ liệu lưu trữ tất cả dữ liệu và kiểu dữ liệu vì nó cho phép tất cả người dùng truy
cập dữ liệu trước khi nó được cấu trúc và chuyển đổi, người dùng thu được kết quả nhanh
hơn mà không cần các chuyên gia dữ liệu làm sạch và tiêu chuẩn hóa dữ liệu cho họ. Thật
không may, hồ dữ liệu cũng trở thành các đầm lầy dữ liệu vì nó không khác gì mớ hổ lốn
chứa khối lượng dữ liệu lớn nhưng không tương thích với bất kỳ tiêu chuẩn nào.

Khó khăn của Hồ dữ liệu

a. Quản lý dữ liệu

Do khối lượng dữ liệu to lớn bên trong hồ dữ liệu, các loại người dùng sẽ chìm đắm
vào dữ liệu, truy vấn, sử dụng và lập báo cáo tùy thích, điều này được xem là thách thức
đáng kể khi muốn đảm bảo dữ liệu được bảo mật và riêng tư.

b. Dữ liệu lộn xộn và không tin cậy

Do hồ dữ liệu tích lũy dữ liệu liên tục cùng nhiều cấu trúc và định dạng khác nhau
nên việc bảo vệ dữ liệu ổn định và sạch là nhiệm vụ rất khó khăn. Kiến trúc hồ dữ liệu
hướng tới việc phân phối dữ liệu với ít ràng buộc về định dạng và quy mô của dữ liệu được
lưu trữ hơn so với kho dữ liệu. Hồ dữ liệu cũng mất thời gian để ghi nhận việc truyền dữ
liệu khi người sử dụng yêu cầu, điều này thể hiện trong các truy vấn cho thấy dữ liệu không
đồng nhất cho tới khi các nút trong hHồ dữ liệu đồng nhất. Ngoài ra, hồ dữ liệu cũng không
có bất kỳ cơ chế cảnh bảo người dùng khi việc truyền dữ liệu thất bại, thậm chí cũng phải
mất nhiều tuần hoặc tháng để phát hiện các tập con dữ liệu bị hư hỏng hoặc không toàn vẹn.

c. Vận hành phức tạp

Hồ dữ liệu tại chỗ có cùng khó khăn trong vận hành tương tự kho dữ liệu tại chỗ, việc
bảo đảm kết quả hoạt động và bảo mật là yêu cầu hàng đầu và bộ phận tin học phải luôn
giữ cho hồ dữ liệu hoạt động đúng chức năng, hệ thống hoạt động luôn đạt tối ưu bất cứ lúc
nào mới được gọi là thành công. Việc xây dựng, chuyển đổi hoặc duy trì hồ dữ liệu trên
nền tảng đám mây hoạt động hiệu quả cũng là một khó khăn, đặc biệt khi tổ chức phải quản
lý cả nền tảng tại chỗ và nền tảng đám mây. Ngoài ra, các giải pháp sử dụng nhiều nền tảng
đám mây ngày nay đang trở nên phổ biến vì 03 lý do sau :

- Các tổ chức thường cần đa dạng hóa cơ sở hạ tầng nhằm tương thích với các quy
định hoặc giảm thiểu rủi ro.
215
- Việc ra quyết định độc lập trong các tổ chức lớn thường khiến cho các bộ phận khác
nhau sẽ đầu tư vào các giải pháp của các nhà cung cấp nền tảng đám mây khác nhau.

- Hoạt động Sát nhập và Thâu tóm (Merger and Acquisition) buộc các tổ chức đi thâu
tóm phải chấp nhận các công nghệ có sẵn của các tổ chức bị thâu tóm.

Tóm lại, dù có nhiều khó khăn khi ứng dụng hồ dữ liệu khác với những khó khăn khi
sử dụng kho dữ liệu, các tổ chức vẫn đang có xu hướng chuyển sang hồ dữ liệu vì tính mềm
dẻo và khả năng truy cập tất cả dữ liệu đang có.

2.3 Hệ thống đặc thù

Do có những ứng dụng muốn sử dụng nơi lưu trữ dữ liệu lớn để phục vụ các kiểu dữ
liệu cụ thể nên xuất hiện kiến trúc nền tảng dữ liệu được gọi là hệ thống đặc thù, ví dụ như
ứng dụng Salesforce là nơi lưu trữ dữ liệu lớn mà nhiều doanh nghiệp ứng dụng để quản lý
dữ liệu trong hệ thống Quản lý Quan hệ Khách hàng (Customer Relationship Management),
ứng dụng Workday lưu trữ dữ liệu để quản lý công tác nhân sự.

Lợi ích chính của hệ thống đặc thù là dữ liệu được kiểm soát chặt chẽ và tổ chức theo
những yêu cầu đặc thù trong ứng dụng của nhà cung cấp nền tảng. Có nhiều cách rất hay
đề truy vấn hệ thống và thiết lập các báo cáo theo những chủ đề được quan tâm nhất.

Thách thức hiện nay là khi tổ chức muốn tích hợp dữ liệu của một trong những hệ
thống đặc thù này với hệ thống khác, ví dụ kết hợp dữ liệu hóa đơn tính tiền trong kho dữ
liệu của nền tảng tại chỗ với dữ liệu khách hàng đang được lưu trữ trong nền tảng đám mây
như Salesforce.

Các tổ chức đang ứng dụng kiến trúc nền tảng dữ liệu hệ thống đặc thù cho rằng khó
khăn lớn nhất gặp phải là vận hành phức tạp. Ngoài ra còn có khó khăn khác cũng rất quan
trọng là Sự tích hợp, dù API cho phép việc tích hợp trở nên dễ dàng hơn nhưng cũng là việc
khó khăn khi loại bỏ nhiều nơi lưu trữ dữ liệu có thể phát sinh từ các hệ thống đặc thù này.
Việc ánh xạ dữ liệu, làm chủ dữ liệu, loại bỏ dữ liệu trùng lắp và quan trọng nhất là di
chuyển dữ liệu từ các định dạng có tính chất độc quyền, hiếm gặp có lẽ là những khó khăn
của hệ thống đặc thù.

3. ẢNH HƯỞNG CỦA DỮ LIỆU TRONG KINH DOANH

Dữ liệu tạo sự khác biệt. Đây chính là nhận thức và tuyên bố của các tổ chức khi nói
về vai trò của dữ liệu trong việc hỗ trợ các hoạt động của tổ chức, trong việc xây dựng kế
216
hoach hành động, chiến lược phát triển và trong việc xây dựng các lợi thế cạnh tranh của
mình. Đòi hỏi của các tổ chức đối với các kiến trúc nền tảng lưu trữ dữ liệu hiện đại có thể
tóm tắt như sau :

1. Dữ liệu phải được lưu trữ tập trung.

2. Dữ liệu phải có tính mở

3. Kiến trúc nền tảng lưu trữ dữ liệu phải tương thích, phù hợp, bảo vệ các đặc trưng
của các hoạt động sản xuất kinh doanh trong tổ chức.

Đây được xem là yếu tố rất quan trọng.

4. Kiến trúc nền tảng lưu trữ phải hoạt động được trên nền tảng đám mây toàn diện.

Đây được xem là yếu tố bắt buộc phải có.

5. Hiệu quả trong hoạt động, trong vận hành với chi phí hợp lý.

6. Hỗ trợ tất cả người sử dụng.

Phần lớn các tổ chức ưu tiên tầm nhìn dài hạn khi đầu tư vào dữ liệu hơn là các thành
quả trong ngắn hạn như là giảm chi phí kinh doanh hoặc tăng trưởng doanh thu, điều này
phản ánh quan điểm chung của các tổ chức là khả năng sử dụng dữ liệu hiệu quả cao và
hiệu suất cao sẽ giúp các tổ chức tiếp tục phát triển trong tương lai. Trong nhiều năm qua,
các khuôn mẫu quản lý dữ liệu hỗ trợ kiểu dữ liệu mới đã và đang phát triển. Kể từ khi xuất
hiện cuối thập niên 1980, kho dữ liệu đã tiến hóa để thích nghi với nhu cầu hỗ trợ ra quyết
định và trí tuệ kinh doanh của các tổ chức. Mặc dù kho dữ liệu hoạt động rất tốt với dữ liệu
có cấu trúc nhưng các tổ chức ngày nay đang lưu trữ khối lượng khổng lồ dữ liệu có cấu
trúc và bán cấu trúc để sử dụng, đó là lý do tại sao các tổ chức đã bắt đầu xây dựng hồ dữ
liệu từ đầu những thập kỷ 2010.

Dù hồ dữ liệu lưu trữ dữ liệu thô hỗ trợ cả dữ liệu có cấu trúc và bán cấu trúc. Hồ dữ
liệu có thể lưu trữ khối lượng lớn dữ liệu nhưng không thể hỗ trợ các giao dịch, quản lý dữ
liệu yếu và thiếu tính ổn định và độc lập cũng gây khó khăn khi kết hợp việc thêm dữ liệu
mới và đọc dữ liệu cũng như thực hiện công việc theo lô và truyền dữ liệu. Điều này khiến
cho hồ dữ liệu không như hứa hẹn nhưng mong muốn của các tổ chức có nhiều hệ thống
dữ liệu đang hoạt động mạnh mẽ và mềm dẻo vẫn rất cao gồm khả năng xử lý nhiều bài
toán tình huống đa dạng bao trùm cả năng lực phân tích SQL, giám sát theo thời gian thực
cùng lĩnh vực Khoa học dữ liệu, Trí tuệ nhân tạo và Máy học.
217
Sự phát triển của Trí tuệ nhân tạo thời gian gần đây tập trung vào xử lý dữ liệu phi
cấu trúc như chuỗi ký tự, hình ảnh và video, nhưng kho dữ liệu không thể lưu trữ những
kiểu dữ liệu này và hồ dữ liệu không phải giải pháp tối ưu cho các bài toán tình huống.
Trong nhiều tình huống, các tổ chức triển khai và quản lý nhiều hệ thống, có thể gồm một
hồ dữ liệu và vài kho dữ liệu cùng các Hệ thống đặc thù như cơ sở dữ liệu hình ảnh, đồ họa,
chuỗi thời gian hoặc dòng dữ liệu.

Từ những khó khăn kể trên, một cấu trúc mới xuất hiện là một lựa chọn đáng chú ý
so với các kiến trúc di sản trước đây được gọi là Lakehouse.

3.1. Lakehouse

Lakehouse là sự kết hợp những đặc trưng tốt nhất của hồ dữ liệu và kho dữ liệu,
Lakehouse có cấu trúc dữ liệu và những đặc trưng quản lý dữ liệu tương tự như kho dữ liệu
nhưng sử dụng bộ phận lưu trữ mềm dẻo, chi phí thấp. Nói cách khác, Lakehouse giống
như kho dữ liệu nếu kho dữ liệu được thiết kế trong thời đại bây giờ, thời đại mà bộ lưu trữ
dữ liệu có độ tin cậy cao, chi phí thấp có thể gọi là nơi lưu trữ đối tượng.

Mỗi nền tảng lưu trữ dữ liệu đều có điểm mạnh và điểm yếu khác nhau được tóm tắt
trong hình sau :

Hình: Tóm tắt điểm mạnh, điểm yếu của mỗi nền tảng
218
3.2 Đặc trưng của Lakehouse

a. Hỗ trợ giao dịch

Lakehouse thường sử dụng SQL cùng nhiều dòng dữ liệu để liên tục ghi và đọc dữ
liệu đồng thời. Lakehouse hỗ trợ nguyên tắc ACID trong giao dịch (Atomicity – Độ chi tiết
tối đa, Consistency – Đồng nhất, Isolation – Độc lập, Durability – Độ bền vững) để đảm
bảo sự nhất quán về chất lượng dữ liệu.

b. Tuân thủ lược đồ và Quản lý

Lakehouse hỗ trợ việc tuân thủ lược đồ và sự phát triển của các nền tảng lưu trữ dữ
liệu, bao gồm các mô hình lược đồ của kho dữ liệu như lược đồ Ngôi sao, lược đồ Bông
tuyết. Lakehouse cũng có khả năng thực hiện tích hợp dữ liệu cùng với vận hành cơ chế
hậu kiểm và quản lý mạnh mẽ.

c. Hỗ trợ Trí tuệ kinh doanh

Lakehouse hỗ trợ các tổ chức vận hành các công cụ trí tuệ kinh doanh trực tiếp trên
các Hồ dữ liệu của mình. Việc này giúp cập nhật dữ liệu kịp thời, giảm độ trễ và giảm chi
phí khi lưu trữ cũng như hỗ trợ các bản sao dữ liệu trong cả hồ dữ liệu và kho dữ liệu.

d. Lưu trữ tách biệt với tính toán

Do bộ phận Lưu trữ và bộ phận Tính toán sử dụng các cluster bộ nhớ khác nhau nên
Lakehouse có thể mở rộng quy mô hoạt động phục vụ đồng thời nhiều người sử dụng và
quy mô dữ liệu lớn hơn.

e. Độ mở

Định dạng bộ nhớ mà Lakehouse sử dụng (ví dụ như Apache Parquet, Delta Lake và
Apache HUDI) là mở và được chuẩn hóa và cung cấp API để nhiều loại công cụ và cơ chế
(gồm Máy học và các thư viện của ngôn ngữ lập trình Python/R) có thể truy cập trực tiếp
dữ liệu một cách hiệu quả.

f. Hỗ trợ đa dạng các kiểu dữ liệu gồm cả dữ liệu có cấu trúc và phi cấu trúc

Lakehouse có thể dùng để lưu trữ, lọc, phân tích và truy cập các kiểu dữ liệu cần thiết
để phục vụ các ứng dụng đòi hỏi dữ liệu có cấu trúc, dữ liệu phi cấu trúc gồm hình ảnh,
video và chuỗi ký tự.

219
g. Hỗ trợ nhiều loại khối lượng dữ liệu

Lakehouse hỗ trợ tất cả các bài toán tình huống và nhiều loại khối lượng dữ liệu thuộc
các lĩnh vực như Khoa học dữ liệu, Máy học, SQL và phân tích. Nhiều công cụ có thể cần
để hỗ trợ những loại khối lượng dữ liệu này, nhưng chúng cũng đòi hỏi phải cùng nơi lưu
trữ dữ liệu.

h. Đường truyền dữ liệu khép kín

Các loại báo cáo theo thời gian thực là quy chuẩn của nhiều tổ chức, Lakehouse hỗ
trợ truyền dữ liệu mà không cần yêu cầu các hệ thống riêng lẻ chuyên dùng cho các ứng
dụng dữ liệu theo thời gian thực như các nền tảng dữ liệu khác.

Tất cả các đặc trưng quan trọng này giúp cho Lakehouse đang thu hút được rất nhiều
sự chú ý và quan tâm so với chỉ có kho dữ liệu hoặc hồ dữ liệu.

4. KẾT LUẬN

Các công ty thành công nhất trong những thập kỷ tới sẽ là những công ty dữ liệu, dù
những công ty này hoạt động kinh doanh trong những ngành nghề cụ thể khác nhau, ví dụ
các tổ chức ngân hàng ở Việt Nam ngày nay đã nhanh chóng xây dựng các bộ phân nghiên
cứu về dữ liệu với những dữ liệu của mình để từ đó xây dựng các kế họach, chiến lược thậm
chí tham mưu, đóng góp vào việc xây dựng những chính sách của nhà nước hoặc các nhà
bán lẻ, đặc biệt là các nhà bán lẻ trực tuyến cũng sử dụng dữ liệu để “giam cầm” khách
hàng của mình và “buộc” họ phải trung thành với mình vì các nhà bán lẻ hiểu rất rõ mọi
nhu cầu, sở thích và mong muốn của khách hàng để từ đó dồn khách hàng vào các tấm lưới
khổng lồ không thể chạy thoát.

Để thực hiện thành công cuộc cách mạng chuyển đổi số đòi hỏi các tổ chức phải tập
hợp được tất cả người dùng, tập hợp được tất cả dữ liệu và cung cấp các công cụ dữ liệu
cùng hạ tầng cơ sở để có được sự hiểu biết sâu sắc từ dữ liệu. Các tổ chức cũng chỉ cần một
nền tảng duy nhất để lưu trữ và vận hành các hoạt động dựa trên dữ liệu được xây dựng trên
các tiêu chuẩn mở nhằm phục vụ mọi bộ phận và đội ngũ nhân sự trong tổ chức. Đối với
các tổ chức còn đang lưỡng lự với các nền tảng dữ liệu do các khó khăn hiện hữu có thể áp
dụng cách tiếp cận mới đang nổi lên hoặc đưa toàn bộ giải pháp của nền tảng tại chỗ lên
nền tảng đám mây, nhưng nếu không sử dụng nền tảng đám mây một cách toàn diện, các

220
tổ chức có thể tự mình thay thế các kiến trúc dữ liệu đã lỗi thời bằng một kiến trúc khác mà
không làm thay đổi những ưu thế của mình trong dài hạn.

Ngoài ra, các tổ chức cũng cần quản lý các nền tảng lưu trữ và khai thác dữ liệu của
mình quan trọng như quản lý tổ chức, trong đó luôn quan tâm, đầu tư cho công tác bảo mật
trong toàn nền tảng, đặc biệt với nền tảng đám mây khi phải xử lý khối lượng dữ liệu khổng
lồ cần phải được kiểm soát chặt chẽ.

Việc tự động hóa trong công tác mở rộng quy mô hoạt động cũng cần phải được ưu
tiên xem xét, đánh giá toàn diện trong mỗi tổ chức nhằm phục vụ cho các nhu cầu, các hoạt
động của tổ chức vận hành liên tục, an toàn và hiệu quả tại mọi thời điểm hoạt động nhằn
nâng cao năng lực hoạt động sản xuất, kinh doanh và xây dựng được lợi thế cạnh tranh
mạnh mẽ, bền vững trong nền kinh tế cạnh tranh mang tính toàn cầu ngày nay

TÀI LIỆU THAM KHẢO

[1]. Matt Aslett, AWS re:Invests lake house architecture for data and analytics, S&P
Global, 01/05/2021.
[2]. Micheal Armbrust, Ali Ghodsi, Reynold Xin, Matei Zaharia, Lakehouse : A new
generation of open platforms that unify data warehousing and advanced analytics,
CIDR, 01/2021.
[3]. M. Armbrust, T. Das, L. Sun, B. Yavuz, S. Zhu, M. Murthy, J. Torres, H. van Hovell,
A. Ionescu, A. undefineduszczak, M. undefinedwitakowski, M. Szafrański, X. Li, T.
Ueshin, M. Mokhtar, P. Boncz, A. Ghodsi, S. Paranjpye, P. Senster, R. Xin, M. Zaharia,
Delta Lake: High-performance ACID table storage over cloud object stores, VLDB,
2020
[4]. D. Davis, AI unleashes the power of unstructured data,
https://www.cio.com/article/3406806/, 2019.
[5]. Darja Solodovnikova and Laila Niedrite, towards a data warehouse architecture for
managing big data evolution, Science and Technology publications Ltds, 2018.
[6]. Dariusz DymekEmail authorWojciech KomnataPiotr Szwed, Proposal of a new data
warehouse architecture reference model, Communications in Computer and Information
Science, Springer, 2015.
[7]. Yourdon, E., Modern structured analysis, 2nd edition. Prentice Hall PTR, Upper Saddle
River, 2000.
[8]. Dymek, D., Komnata, W., Kotulski, L., Szwed, P., Data warehouse architectures.
reference model and formal architecture description, AGH University of Science and
Technology Press, 2015.
221
KHẢO SÁT MỘT SỐ GIẢI PHÁP QUẢN LÝ DỮ LIỆU THÔNG MINH
SỬ DỤNG TRONG NGÀNH NGÂN HÀNG

Trần Thanh San

Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: san.tranthanh@ufm.edu.vn

Tóm tắt: Trong thời đại phát triển mạnh mẽ của ngành công nghệ thông tin, với tính ưu việt
của công nghệ số đang diễn ra mạnh mẽ trên thế giới, với sự linh hoạt, tính áp dụng cao đã hình
thành các mô hình công nghệ số được áp dụng rộng rãi cho nhiều ngành nghề, các doanh nghiệp
cũng đã và đang chuyển sang mô hình quản lý các hoạt động theo hình thức số hóa như: doanh
nghiệp số, chính phủ số, nền kinh tế số và xã hội số đã trở thành đích đến của nhiều quốc gia và
các tổ chức. Việc chuyển đổi mô hình số vì thế đang lan tỏa trên mọi mặt của đời sống kinh tế, xã
hội, thu hút sự quan tâm của tất cả các chủ thể trong nền kinh tế và ngày càng khẳng định là một
xu thế tất yếu. Trong đó, dữ liệu được coi vấn đề vô cùng quan trọng, là nguồn cung cấp năng
lượng cho chuyển đổi số, dữ liệu có thể trở thành tài nguyên mới cho phát triển kinh tế toàn cầu

Từ khóa: quản lý dữ liệu thông minh, dữ liệu thông minh.

1. ĐÔI NÉT VỀ QUẢN LÝ DỮ LIỆU THÔNG MINH VÀ CÁC THAO TÁC

Dữ liệu được hiểu đơn giản là tập hợp các thông tin đã được chọn lọc và chuẩn hóa
theo một tiêu chí nào đó (tùy theo nhu cầu sử dụng).

Dữ liệu thông minh là tập hợp các dữ liệu được tạo ra, được lưu trữ, truyền đi hoặc
nhận được bởi phương tiện điện tử. Đối với các tổ chức, việc quản lý lượng dữ liệu ngày
càng nhiề và càng phức tạp. Vì vậy, việc xử lý dữ liệu dưới dạng dữ liệu thông minh là xu
hướng tất yếu.

Theo đánh giá của tổ chức Gartner (Mỹ), hiện nay, các tổ chức lớn trên thế giới đều
đã nhận thức được tầm quan trọng của dữ liệu thông minh, dự kiến năm 2021, các tổ chức
lớn sẽ đưa dữ liệu vào danh mục bảng cân đối kế toán và quản lý dữ liệu như tài sản của
các tổ chức. Dữ liệu thông minh chính là nguồn tài nguyên cần được khai phá, quản lý, sử
dụng hiệu quả, góp phần quan trọng cho phát triển công nghệ.

Quản lý dữ liệu thông minh (QLDLTM) là việc thực hiện quy trình thu thập, quản lý,
khai thác, sử dụng dữ liệu một cách thông minh trên cơ sở các công nghệ giúp thuận tiện
cho việc phân tích, xử lý dữ liệu sau giai đoạn phân tích, góp phần cho việc xây dựng, tổ
222
chức, bảo trì, kiểm soát hệ thống, quá trình xử lý dữ liệu như thu thập, lưu trữ, chọn lọc,
chuyển đổi, phân tích, kiểm soát các hoạt động có trong vòng đời dữ liệu từ xác định mục
tiêu kinh doanh đến trực quan hóa dữ liệu, áp dụng kết quả phân tích vào thực tế. Việc
QLDLTM có thể cung cấp cho các tổ chức những giải pháp tối ưu, phù hợp với nhu cầu
của từng cơ sở vận hành.

3. KHẢO SÁT MỘT SỐ NGÀNH TIÊU BIỂU SỬ DỤNG DỮ LIỆU THÔNG MINH
(DLTM)

3.1. Đối với ngành ngân hàng:

Ngân hàng là một trong những ngành sở hữu khối lượng dữ liệu lớn, cũng là ngành
đi đầu trong hành trình chuyển đổi mô hình hoạt động theo xu hướng số thì quản lý dữ liệu
trở thành vấn đề sống còn. Ưu thế sẽ thuộc về các ngân hàng làm chủ các nguồn dữ liệu
thông qua việc quản lý, sử dụng chúng một cách thông minh trên cơ sở ứng dụng các thành
tựu khoa học công nghệ mới.

3.2. Lợi ích QLDLTM trong lĩnh vực ngân hàng:

Trong bối cảnh hiện nay, trước áp lực cạnh tranh gay gắt, các ngân hàng luôn phải
tìm kiếm các công cụ hiệu quả để tăng doanh thu và giảm thiểu chi phí. Dữ liệu trở thành
một tài sản quý giá, sử dụng hiệu quả dữ liệu sẽ làm gia tăng đáng kể lợi nhuận và đảm bảo
sự phát triển bền vững của các ngân hàng. QLDLTM cho phép các ngân hàng gia tăng các
sản phẩm bán chéo thông qua các chiến dịch tiếp thị có chủ đích, đồng thời có thể thực hiện
chấm điểm tín dụng một cách tự động, nhanh chóng và chính xác. Bên cạnh đó, góp phần
giảm thiểu các chi phí phục vụ khách hàng, các chi phí tiếp thị và đặc biệt là cho phép dự
đoán được các hành vi gian lận và đưa ra các cảnh báo sớm, từ đó các tổ chức có thể chủ
động đưa ra các giải pháp phòng ngừa.

Việc QTDLTM giúp các ngân hàng có thể tận dụng nguồn dữ liệu lớn đang nắm giữ
bao gồm các thông tin về khách hàng, lịch sử giao dịch, các kênh giao dịch. Bên cạnh đó,
các ngân hàng có thêm nhiều nguồn dữ liệu khác như dữ liệu từ các nhà khai thác thiết bị
di động, dữ liệu về các hành vi trực tuyến hay mạng xã hội…

Theo PwC Đông Nam Á (2019), các ngân hàng có thể tiếp cận quản lý dữ liệu theo
hai phương pháp chủ đạo: (1) đổi mới sáng tạo và tự động hóa quy trình kinh doanh; (2)
kiểm soát dữ liệu phục vụ mục đích tuân thủ và cải thiện hiệu quả hoạt động.

223
3.3. Những lợi ích mà QLDLTM mang lại cho các ngân hàng có thể kể đến như sau:

Giúp nâng cao năng suất hoạt động, cải thiện dịch vụ ngân hàng: Việc QLDLTM làm
cho các dữ liệu không phải di chuyển nhiều trước khi được quản lý, giúp các ngân hàng
nâng cao năng suất hoạt động, vì thế, nhân viên làm công nghệ trong các ngân hàng có thể
làm việc hiệu quả hơn khi được giảm bớt gánh nặng từ các nhiệm vụ cung cấp dữ liệu lặp
đi lặp lại hàng ngày. Dữ liệu được lưu trữ sẵn tại những vị trí cố định, nhân viên từ các đơn
vị thành viên sẽ nhanh chóng, dễ dàng truy cập, tiếp cận dữ liệu, tìm hiểu thông tin cần cho
công việc. Bên cạnh đó, hệ thống quản lý dữ liệu cũng cung cấp một quy trình rõ ràng để
có thể hỗ trợ truy cập thông tin nhanh chóng, hỗ trợ nhân viên dễ dàng chia sẻ thông tin và
cách thức lưu trữ để truy xuất, sử dụng khi cần thiết.

Kiểm soát dữ liệu, đảm bảo chất lượng và an toàn cho các nguồn thông tin, dữ liệu:
Việc quản lý dữ liệu thông thường, sau khi thu thập, dữ liệu phải luân chuyển đến những
nơi khác do nhu cầu sử dụng của các đơn vị thành viên trong ngân hàng, dẫn đến việc sao
chép dữ liệu, phát sinh các vấn đề về bảo mật, tạo nên sự cồng kềnh trong cách thức hoạt
động, dữ liệu bị thiếu đồng bộ do cá nhân nhân việc làm việc thiếu xót,… làm chậm tiến độ
khai thác dữ liệu... Hệ thống QLDLTM cho phép ngân hàng lữu trữ dữ liệu vào những nơi
thống nhất, tạo điều kiện tiếp cận và cấp quyền truy cập cho các nhân viên từ các phòng,
ban, trung tâm khác, đảm bảo mức độ bảo mật cao hơn. Việc hệ thống QLDLTM được áp
dụng các công cụ, phần mềm kỹ thuật tiên tiến và được vận hành bởi đội ngũ chuyên gia
công nghệ thông tin, các vấn đề phát sinh khi cập nhật dữ liệu mới hàng ngày sẽ được giải
quyết và tạo khả năng tiếp cận, sử dụng dữ liệu mới và có khả năng ngăn chặn truy cập trái
phép, thao túng hoặc sử dụng dữ liệu và thông tin trái quy tắc; đảm bảo dữ liệu có thể được
sử dụng hiệu quả để tăng thêm giá trị cho các ngân hàng.

Mặc dù dữ liệu được lưu trữ vào những nơi thống nhất, cố định, nhằm hạn chế việc
di chuyển dữ liệu, nhưng vẫn có trường hợp dữ liệu được chia sẻ hay luân chuyển từ hệ
thống này sang hệ thống khác, từ file này sang file khác, hay các sự cố từ hệ thống, máy
móc... có thể dẫn đến việc những dữ liệu giá trị bị mất mát, thất lạc. Các công cụ Data
management của hệ thống QLDLTM có thể giúp hạn chế vấn đề này bằng việc hỗ trợ sao
lưu (back up) dữ liệu, từ đó dữ liệu bị mất sẽ được tìm lại dễ dàng hơn.

Quản trị các rủi ro: QLDLTM giúp các ngân hàng dựa trên phân tích về các hành vi
của người sử dụng trong thời gian thực để giảm thiểu những rủi ro tiềm ẩn. Qua các phân

224
tích đó, các nhà quản trị ngân hàng sẽ đánh giá được mức độ tin cậy của khách hàng vì việc
thiếu hiểu biết về khách hàng có thể dẫn đến những rủi ro trong quá trình cung cấp sản
phẩm, dịch vụ. QTDLTM giúp ngân hàng xây dựng một mô hình chấm điểm tín dụng khách
hàng để đánh giá rủi ro tín dụng và thiết lập hệ thống nhận diện gian lận và đưa ra lời cảnh
báo sớm cho các nhà quản trị nhằm khắc phục các khả năng rủi ro một cách tốt nhất.

Tạo và duy trì các quan hệ khách hàng thường xuyên, tìm kiếm khách hàng tiềm năng:
Hệ thống QLDLTM có thể thu thập và phân tích lịch sử giao dịch của khách hàng,… Qua
đó, xác định được chính xác phương thức khuyến mại và gắn kết lợi ích phù hợp với khách
hàng để giữ chân khách hàng, phân tích và ước tính được giá trị kinh tế của mỗi khách hàng
đem lại cho ngân hàng trong tương lai đồng thời đánh giá một cá nhân có thu nhập cao và
sử dụng nhiều hơn các sản phẩm gia tăng, trên cơ sở đó, ngân hàng có thể nhận định được
các khách hàng Vip tiềm năng và có các chiến lược thu hút khách đầu tư từ khách hàng.

Việc quản lý dữ liệu lớn dễ dàng hơn: Dữ liệu lớn (Big Data) đem lại nhiều khó khăn
và thách thức trong việc quản lý của các ngân hàng. QLDLTM giúp việc triển khai quản lý
Big Data dễ dàng hơn. Dữ liệu ẽ được lưu trữ, sử dụng hiệu quả hơn, đảm bảo chất lượng
dữ liệu, an toàn, bảo mật dữ liệu, hạn chế vấn đề bỏ sót, thất lạc dữ liệu giá trị, tăng tốc quá
trình xử lý và phân tích, nhanh chóng đạt được giá trị, thông tin hữu ích từ nguồn dữ liệu.

4. MỘT SỐ QLDLTM TẠI CÁC NƯỚC TRÊN THẾ GIỚI

Việc sử dụng dữ liệu thông minh và QLDLTM tạo niềm năng khai thác to lớn đối với
nhiều ngành nghề chứ không chỉ riêng ngành ngân hàng. Với khả năng hoạt động tốt, hiệu
quả cao mà nó mang lại nên được sử dụng khá nhiều trong các lĩnh vực khác nhau như
ngành giáo dục (hệ thống e-learning), ngành sản xuất ô tô (cơ chế tự động hóa), ngành nông
nghiệp (quản lý tưới tiêu, chăm sóc cây trồng),…

Đối với ngành cụ thể như ngành ngân hàng, các ngân hàng trên thế giới hiện nay đã
nhận biết được tiềm năng, sức mạnh to lớn của dữ liệu và chủ động nắm bắt cơ hội, tận
dụng được nguồn tài nguyên này. Dữ liệu được tận dụng triệt để nhằm tối ưu hóa hành trình
và trải nghiệm khách hàng, tối ưu hóa hoạt động nghiệp vụ, quản trị nội bộ của ngân hàng.
Vì thế, nhiều ngân hàng lớn trên thế giới đã thực hiện tốt việc thu thập, quản lý, khai thác,
sử dụng dữ liệu một cách thông minh trên cơ sở của sự phát triển của ngành công nghệ
thông tin.

225
Một hệ thống QLDLTM bao gồm: trung tâm dữ liệu (Data Center) là trái tim của
toàn bộ hệ thống, là nơi tập trung nhiều thành phần tin học (phần cứng, phần mềm, hệ thống
mạng, trí tuệ nhân tạo,…) làm chức năng lưu trữ, xử lý toàn bộ dữ liệu hệ thống với khả
năng sẵn sàng và độ ổn định cao. Trên thế giới, có nhiều nước cũng sử dụng Big Data để
cải thiện hệ thống an sinh xã hội như Mỹ, Úc, Trung Quốc, Việt Nam, …

Tại Trung Quốc

Chính phủ Trung Quốc đã sớm xây dựng một trung tâm dữ liệu quốc gia lớn, mang
tính tích hợp với mục đích nâng cao giá trị sử dụng các nguồn dữ liệu khổng lồ hiệu quả và
an toàn hơn. Trung tâm này nhằm thúc đẩy việc chia sẻ các nguồn dữ liệu công cộng tốt
hơn, cho phép mở rộng hơn nữa phạm vi ứng dụng, đặc biệt trong các lĩnh vực tín dụng,
giao thông vận tải, y tế, việc làm...

Riêng trong kinh doanh, Trung Quốc là nước có thị trường bán lẻ quan trọng. Dữ liệu
lớn đang là "mỏ vàng" của các nhà bán lẻ nước này. Khi người tiêu tìm hiểu một sản phẩm
nào đó, hay ghé thăm một cửa hàng, hoặc thực hiện mua hàng,… thì các dữ liệu được ghi
nhận và thu thập lại sẽ là tiềm năng giúp các nhà kinh doanh khai thác, mở rộng thị trường.
Việc thu thập những dữ liệu này được lưu trữ, tập trung vào phân tích hợp lý, chúng hoàn
toàn có thể đem lại nhiều lợi ích về kinh tế, y tế, giáo dục...

Tại Australia

Chính phủ Australia đã chú trọng vào việc phát triển và quản lý nguồn dữ liệu (kể từ
năm 2015), tập trung vào việc tìm kiếm các nguồn tài nguyên dữ liệu mở và hỗ trợ các cơ
quan quản lý gắn kết với các ngành công nghiệp, các tổ chức phi chính phủ và các chính
quyền các tiểu bang trong việc phát hành và sử dụng dữ liệu sẵn có của các cơ quan quản
lý. Theo đó, các cơ quan quản lý phải đăng tải các thông tin dữ liệu lên cổng thông tin chung
của Chính phủ tại website: www.data.gov.au, cho phép các trường đại học, doanh nghiệp,
các tổ chức hiệp hội, các tổ chức phi chính phủ được truy cập và sử dụng chúng.

Mặt khác, Ủy ban Dịch vụ công cộng Australia (Australia Public Service
Commission) cũng được thành lập để điều phối chương trình hoạt động, cùng với các cơ
quan khác thuộc các ngành công nghiệp, các học viện để xây dựng năng lực phân tích dữ
liệu quốc gia.

226
Hiện nay, Australia đã xây dựng chiến lược xây dựng hệ thống dữ liệu công cộng như
một kho dữ liệu chung và có thể sẵn sàng chia sẻ.

Tại Singapore

Singapore được đánh giá là một quốc gia thông minh bậc nhất thế giới, khi công
nghệ trở thành chìa khóa phát triển, Robot thay thế con người trong một số lĩnh vực, các
ứng dụng di động được triển khai mạnh mẽ, đồng bộ cơ sở dữ liệu và giám sát thông minh
để cải thiện chất lượng dịch vụ công.

Vào năm 2014, Chính phủ Singapore đã nhận định rõ về tầm quan trọng của việc thúc
đẩy "quốc gia thông minh" và đã đưa ra các chương trình hành động với mục tiêu nhằm kết
nối người dân với các doanh nghiệp và các cơ quan chính phủ để khuyến khích và phát triển
các giải pháp QLDLTM thông qua những tiến bộ công nghệ, nhằm khai thác dữ liệu tiện
ích nhất. Các chương trình cụ thể như sau:

Phát triển nền tảng dữ liệu thanh toán điện tử: nền tảng hợp nhất cho thanh toán di
động PayNow. Nền tảng này cho phép chuyển khoản ngang hàng bằng số điện thoại di động
hoặc số thẻ căn cước sử dụng Mã QR thống nhất, được gọi là Mã phản ứng nhanh Singapore
(SGQR) được triển khai trên toàn quốc trong năm 2020, cho phép người bán chấp nhận cả
thanh toán trong nước và nước ngoài, được thực hiện trên nhiều ví điện tử khác nhau.

Phát triển hệ thống nhận dạng số quốc gia (NDI): Đây là hệ thống cơ sở dữ liệu thống
nhất lưu giữ thông tin công dân, được tích hợp với các hệ thống của Chính phủ để cho phép
dễ dàng truy cập và tương tác giữa các cơ quan, doanh nghiệp và công dân. Cơ sở dữ liệu
được cung cấp bởi cổng thông tin trực tuyến bảo mật SingPass và MyInfo - SingPass để
truy cập các dịch vụ điện tử của Chính phủ.

Phát triển hệ thống dữ liệu giáo dục về trí thông minh nhân tạo (AI): Nhận định tầm
quan trọng của các công nghệ chủ chốt, Chính phủ Singapore triển khai các chương trình
cung cấp kiến thức cho người dân về AI bằng việc tổ chức các dự án truyên truyền miễn
phí về tiềm năng của công nghệ AI như: Dự án "AI cho mọi người”; dự án "AI cho ngành
công nghiệp"…

QLDLTM tại các ngân hàng Việt Nam

Các ngân hàng đã nhận định được tầm quan trọng của việc ứng dụng QLDLTM. Theo
khảo sát của Công ty tư vấn PwC (2019) với 33 đại diện lãnh đạo ngân hàng Việt Nam về

227
mức độ trưởng thành trong quản lý dữ liệu, có đến 88% câu trả lời đồng ý rằng QLDLTM
là nền tảng cơ sở để các ngân hàng nâng cao năng lực cạnh tranh. Tuy nhiên, phần lớn các
ngân hàng Việt Nam vẫn đang trong giai đoạn đầu tiên trong lộ trình triển khai QLDLTM.

Tại Hội thảo khoa học với chủ đề “Quản trị dữ liệu thông minh trong lĩnh vực ngân
hàng, tài chính” được tổ chức ngày 29/9/2020 tại Hà Nội, Phó Thống đốc Ngân hàng Nhà
nước (NHNN) Việt Nam Nguyễn Kim Anh đã cho biết, trong thời gian qua, ngành Ngân
hàng đã luôn chủ động trong việc tiếp cận các nghiên cứu, xây dựng chính sách, tạo điều
kiện để ứng dụng sức mạnh của dữ liệu trong công tác quản lý và phát triển các sản phẩm
dịch vụ, tạo động lực thúc đẩy quá trình chuyển đổi số trong lĩnh vực ngân hàng. Trong
cuộc khảo sát vào tháng 9/2020 của NHNN Việt Nam, 50% các ngân hàng đã xây dựng kho
dữ liệu tập trung (Data warehouse), 27% đã xây dựng các hồ dữ liệu (Data lake) để thu thập
dữ liệu thô đến từ các điểm tiếp xúc số, khoảng 50% các ngân hàng đã ứng dụng phân tích
dữ liệu để tối ưu hóa quy trình vận hành, tăng hiệu quả hoạt động, quản trị rủi ro,...

Một số ngân hàng đã chú trọng đầu tư, triển khai các hệ thống quản lý, lưu trữ dữ
liệu: Ngân hàng TMCP Ngoại thương (VCB) đã hợp tác Công ty tư vấn PwC chuyển đổi
ngân hàng số. Đây là một trong những dự án số hóa trọng tâm VCB đã và đang triển khai
nhằm phục vụ mục tiêu chiến lược chuyển đổi số hóa khép kín của ngân hàng, giúp thúc
đẩy phát triển mạnh mẽ các mô hình kinh doanh sáng tạo dựa trên số hóa nhằm đạt được
các mục tiêu kinh doanh, phục vụ tốt hơn cho khách hàng thông qua các trải nghiệm số hóa
sử dụng nền tảng dữ liệu và công nghệ.

Ngân hàng TMCP Công thương Việt Nam (Vietinbank) luôn chú trọng hạ tầng công
nghệ thông tin, vừa qua, đã đưa vào sử dụng giải pháp Quản lý định danh, truy cập cho
20.000 nhân viên khi kết nối với nhiều ứng dụng khác nhau.

Ngân hàng Nông nghiệp và Phát triển nông thôn Việt Nam (Agribank) với mục tiêu
phát triển sản phẩm dịch vụ và kênh thanh toán trên nền tảng công nghệ số làm định hướng
cho phát triển bền vững, đã luôn chủ động nâng cấp, trang bị cơ sở hạ tầng kỹ thuật công
nghệ, phần mềm quản trị dữ liệu Exadata …

5. MỘT SỐ KHÓ KHĂN, THÁCH THỨC

Theo báo cáo của PWC, có đến 69% các định chế tài chính chưa có quy trình cụ thể
để đảm bảo việc sử dụng hết các thông tin có liên quan, mặc dù một số quốc gia đã có
những biện pháp tốt về việc quản lý, sử dụng, bảo vệ nguồn dữ liệu.
228
Tại một số nước ở châu Âu:

Các tổ chức, cá nhân phải tuân thủ theo quy định bảo vệ dữ liệu chung của liên minh
châu Âu (General Data Protection Regulation- GDPR

Tại Hoa Kỳ:

Đạo luật bảo mật người tiêu dùng của California (California Consumer Privacy Act-
CCPA), nếu vi phạm các quy định hay đạo luật trên, các cá nhân, tổ chức, phải đối mặt với
mức phạt lên tới 4% tổng doanh thu toàn cầu hàng năm của họ.

Tại Việt Nam

Khái niệm quản lý dữ liệu đã xuất hiện khá sớm, tuy nhiên, quá trình xây dựng hệ
thống quản lý dữ liệu gặp phải nhiều khó khăn và thách thức như:

- Có rất nhiều loại dữ liệu trong hệ thống gây khó khăn cho việc đồng bộ

- Thao tác nghiệp vụ có quá nhiều phức tạp

- Nguồn nhân lực chưa đáp ứng được yêu cầu

- Khuôn khổ pháp lý hỗ trợ công tác khai thác dữ liệu lớn, đảm bảo an toàn, bảo mật
dữ liệu cho khách hàng chưa đầy đủ...

Bên cạnh đó còn tồn tại một số vấn đề như:

- Chất lượng dữ liệu: có thể bị tác động và ảnh hưởng bởi tất cả quy trình và chức
năng có trong quản lý dữ liệu, bất kể một quy trình nào không tốt thì chất lượng dữ
liệu sẽ bị giảm, kết quả phân tích sai lệch, làm tăng tỷ lệ thất bại của các kế hoạch,
chiến lược các ngân hàng đã đề ra.

- Rủi ro bảo mật và tính minh bạch của dữ liệu: có thể xuất phát từ nguồn dữ liệu chất
lượng thấp, không chính xác, không đầy đủ hoặc đã cũ. Dữ liệu cũng có rủi ro vì nó
có thể bị hiểu sai về ý nghĩa, giá trị và bị sử dụng sai mục đích.

- Yêu cầu cao về kỹ thuật, công nghệ: dữ liệu ngày nay được lưu trữ trên hệ thống
phần mềm, các hoạt động quản lý dữ liệu bị ảnh hưởng mạnh mẽ bởi công nghệ.
Quản lý dữ liệu được đi đôi với công nghệ, vì thế, các ngân hàng sẽ chịu áp lực về
việc đổi mới hạ tầng công nghệ.

229
5. KẾT LUẬN

QLDLTM là việc thiết thực nhằm mục đích đơn giản hóa các thao tác người sử dụng
mà nhằm quản lý dữ liệu một cách hiệu quả, mang lại kết quả nhanh chóng, chính xác. Song
song với việc hạn chế các thiếu xót trong quá trình khai thác dữ liệu với phạm vi lớn do
nhiều nguyên nhân khách quan, các vấn đề cần giải quyết cùng các chế độ chính sách để hỗ
trợ cho việc triển khai và sử dụng.

Việc xây dựng các ứng dụng trong việc QLDLTM là một công việc phức tạp, đòi hỏi
sự tham gia của nhiều chuyên gia trong nhiều lĩnh vực liên quan, cùng phân tích các vấn đề
về dữ liệu, chuẩn hóa, mô hình,… bên cạnh đó cần có sự đầu tư và giải pháp từ nhiều ban
ngành, chính phủ.

Với phạm vi bài viết và một số kiến thức hạn hẹp, tác giả cố gắng trình bày sơ lược
về QLDLTM cùng các vấn đề liên quan không khỏi có những sai xót. Mong rằng sẽ có cơ
hội để được trao đổi, thảo luận, nghiên cứu thêm để kiến thức ngày càng phong phú hơn.

TÀI LIỆU THAM KHẢO

[1] Vietnam Report (2019), Khảo sát các Ngân hàng Thương Mại ở Việt Nam
[2] Phan Thanh Đức và cộng sự (2019), Ứng dụng dữ liệu lớn trong hoạt động quản trị quan
hệ khách hàng tại các NHTM Việt Nam, Tạp chí Khoa học & Đào tạo Ngân hàng số 203.
[3] Hội thảo “Quản trị dữ liệu thông minh trong lĩnh vực ngân hàng, tài chính”

230
QUẢN LÝ BIG DATA TRONG MÔI TRƯỜNG KINH DOANH HIỆN ĐẠI

Nguyễn Thị Trần Lộc


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: ntt.loc@ufm.edu.vn

Tóm tắt: Thế giới đang sống trong thời đại kỷ nguyên mới, chứng kiến sự thay đổi chóng mặt
của xu hướng phát triển công nghệ trong công cuộc cách mạng công nghệ 4.0, từ đó Big data,
thương mại điện tử là những khái niệm quen thuộc trong tất cả các lĩnh vực. Trong thế giới trực
tuyến hiện đang là không gian thị trường lớn nhất cho các doanh nghiệp trên toàn thế giới, Dữ liệu
lớn (Big Data) đang chứng tỏ là bộ công cụ mạnh mẽ nhất để họ sở hữu và sử dụng. Vì vậy việc
quản lý BigData và khai thác được BigData hiệu quả là những vấn đề mà hầu như doanh nghiệp
nào cũng quan tâm.

Từ khóa: bigdata, dữ liệu lớn, công nghệ thông tin

Sự tiến bộ vượt bậc của khoa học và công nghệ, đến sự ra đời của các kênh truyền
thông đòi hỏi một hệ thống dữ liệu cực lớn mang tính toàn cầu như mạng xã hội và các thiết
bị công nghệ tiên tiến đã đặt ra thách thức không hề nhỏ cho các nền công nghiệp khác nhau
phải tìm ra cách khác xử lý dữ liệu.

1. KHÁI NIỆM BIG DATA

Theo định nghĩa của Gartner: “Big Data là tài sản thông tin, mà những thông tin này
có khối lượng dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới để
xử lý hiệu quả nhằm đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn
sâu trong dữ liệu và tối ưu hóa được quá trình xử lý dữ liệu”

Những tập hợp dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc (structured
data), dữ liệu không cấu trúc (unstructured data) và dữ liệu bán cấu trúc (semistructured
data), mỗi tập hợp có chút khác biệt.

Hiểu theo cách đơn giản, thuật ngữ “Big Data” là một tập hợp dữ liệu rất lớn mà các
kỹ thuật điện toán thông thường không thể xử lý được. Thuật ngữ “Big Data” không chỉ đề
cập tới dữ liệu mà còn chỉ cơ cấu tổ chức dữ liệu, các công cụ và công nghệ liên quan.

Dữ liệu tạo thành các kho dữ liệu lớn có thể đến từ các nguồn bao gồm các trang web,
phương tiện truyền thông xã hội, ứng dụng dành cho máy tính để bàn, ứng dụng trên thiết

231
bị di động, các thí nghiệm khoa học, thiết bị cảm biến ngày càng tăng và các thiết bị khác
trong mạng lưới thiết bị kết nối Internet (IoT- internet of things).

Big Data gồm 5 đặc trưng sau đây:

- Volume: Khối lượng dữ liệu cực lớn.

- Variety: Nhiều loại dữ liệu đa dạng.

- Velocity: Tốc độ mà dữ liệu cần phải được xử lý và phân tích nhanh.

- Veracity: Tính xác thực ảnh hưởng đến sự phân tích chính xác.

- Value: Có giá trị.

Big data là tập hợp dữ liệu lớn và phức tạp vượt khả năng của những ứng dụng và
công cụ truyền thống so với data bình thường. Điều thực sự mang lại giá trị từ các tổ chức
dữ liệu lớn là phân tích dữ liệu. Nếu không có phân tích, nó chỉ là một tập dữ liệu thô bình
thường. Ngoải ra, Big data còn ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất (data
mining) thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu
khoa học, dự đoán trong tương lai.

2. QUẢN LÝ BIG DATA

Hiện nay, các lĩnh vực khác nhau từ ngành công nghệ phần mềm đến lập trình và
Logistics đều sử dụng ứng dụng của Big Data trong hoạt động của mình. Điển hình là các
ông lớn từ Software AG, IBM, Dell đã sẵn sàng chi hàng tỉ USD để đầu tư cho sự phát triển
công nghệ "dữ liệu lớn".

Để có thể lưu trữ dữ liệu thông tin khổng lồ như Big Data, chúng cần được sử dụng
các công nghệ đặc biệt. Từ năm 2011, Big Data đã có thể sử dụng với một số dạng công
nghệ như Crowdsourcing, các thuật toán liên quan đến gen và di truyền, công nghệ xử lý
ngôn ngữ tự nhiên (điển hình như Siri hay Google Voice), mô hình hóa…

Ngoài ra, một số công nghệ khác được sử dụng trong Big Data như kỹ thuật điện toán
đám mây, công nghệ Internet. Các công nghệ này giúp hoạt động nghiên cứu thông tin và
lưu trữ dữ liệu từ “Big Data” dễ dàng hơn. Ở cấp độ cao, cơ sở hạ tầng của tổ chức bao gồm
hệ thống lưu trữ và các máy chủ được thiết kế cho Big Data, phần mềm quản lý và tích hợp
dữ liệu, phần mềm kinh doanh thông minh (business intelligence) và phân tích dữ liệu, các
ứng dụng Big Data. Phần lớn cơ sở hạ tầng này sẽ có mặt tại chỗ vì các công ty muốn tiếp

232
tục tận dụng các khoản đầu tư trung tâm dữ liệu của mình. Tuy nhiên, ngày càng có nhiều
tổ chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu dữ liệu lớn của họ.
Tác dụng của đám mây trong quản lý Big Data:

- Cloud cung cấp các công cụ để trích xuất dữ liệu. Từ đó, bằng việc phân tích dữ liệu
lớn, thì mục tiêu và các quyết định của kinh doanh được xác định.

- Ứng dụng Big Data trên nền tảng Cloud giúp các tổ chức quản lý hiệu quả nhiều
công cụ phần mềm và phần cứng.

- Cloud đã tăng tốc độ quản lý và truy cập cơ sở dữ liệu chứa khối lượng lớn hồ sơ.

Thu thập dữ liệu yêu cầu phải có nguồn. Rất nhiều trong số những ứng dụng sau như
các ứng dụng web, các kênh truyền thông xã hội, ứng dụng di động và lưu trữ email đã
được cài sẵn. Nhưng khi IoT trở nên phổ biến hơn, các công ty có thể sẽ cần triển khai cảm
biến trên tất cả các thiết bị, phương tiện và sản phẩm để thu thập dữ liệu, cũng như các ứng
dụng mới tạo ra dữ liệu người dùng. (Phân tích dữ liệu theo định hướng IoT có các kỹ thuật
và công cụ chuyên biệt của nó.)

Để lưu trữ tất cả dữ liệu đến, các tổ chức cần phải có đủ dung lượng lưu trữ tại chỗ.
Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lake (kho lưu trữ khối lượng
dữ liệu thô rất lớn ở định dạng gốc cho đến khi người dùng doanh nghiệp cần dữ liệu) và
lưu trữ trên đám mây.

Các công cụ cơ sở hạ tầng bảo mật bao gồm việc mã hóa dữ liệu, xác thực người dùng
và các điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động của doanh
nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

Hiện nay, công nghệ Big Data cũng như công nghệ Blockchain được đầu tư với nguồn
tài chính khổng lồ để phát huy và có thêm nhiều ứng dụng công nghệ mới..

3. CÁC BƯỚC ỨNG DỤNG BIG DATA CHO DOANH NGHIỆP

Nhiều doanh nghiệp chưa có chiến lược Big Data rõ ràng thường có xu hướng thu
thập được càng nhiều thông tin càng tốt, càng chi tiết, càng chính xác càng tốt. Lượng dữ
liệu này được hi vọng sẽ có thể giúp đội ngũ chuyên gia phân tích dữ liệu trong tương lai
đưa ra những thông tin có giá trị trong điều hành doanh nghiệp. Tuy nhiên, điều này gây áp
lực lên hệ thống hạ tầng công nghệ thông tin của doanh nghiệp, và cũng không giúp được
nhiều cho các chuyên gia phân tích. Vậy nên chiến lược xây dựng Big Data trong doanh
233
nghiệp nên bắt đầu từ việc đặt câu hỏi, những thông tin nào cần thiết, và có khả năng đem
lại giá trị trước khi bàn tới việc thu thập chúng từ đâu và như thế nào.

Tầm quan trọng của Big Data không nằm ở việc khối lượng data thu thập được mỗi
ngày, mà ở chiến lược sử dụng chúng để đem lại những thông tin có giá trị. Giá trị ở đây
thể hiện ở việc, nó giúp giảm chi phí, rút ngắn thời gian, hỗ trợ hoạt động kinh doanh và hỗ
trợ nhà quản trị trong công tác ra quyết định. Dưới đây là gợi ý 5 bước cơ bản để triển khai
chiến lược ứng dụng Big Data cho doanh nghiệp.

Bước 1: Định hình chiến lược dữ liệu lớn: Ở cấp độ cao, chiến lược dữ liệu lớn là
một kế hoạch được thiết kế để giúp doanh nghiệp giám sát và cải thiện cách thức thu thập,
lưu trữ, quản lý, chia sẻ và sử dụng dữ liệu trên toàn bộ hệ thống. Với nền kinh tế số, nơi
mà các quyết định kinh doanh phụ thuộc nhiều vào dữ liệu, chiến lược dữ liệu lớn đúng đắn
có thể tạo tiền đề cho sự thành công cho bất kì doanh nghiệp nào. Nếu doanh nghiệp nhận
thức được đúng mức về tầm quan trọng này, cách thức tiếp cận mọi ứng dụng công nghệ
của họ sẽ cần phải thay đổi. Thay vì quan tâm đầu tiên đến việc phần mềm này có thể giúp
ích trực tiếp gì cho doanh nghiệp, người ta nên đặt câu hỏi, ứng dụng này mang lại những
dữ liệu gì có giá trị cho bức tranh thông tin chung.

Bước 2: Xác định các nguồn dữ liệu cần thiết: Việc ra đời của các mạng xã hội đã
làm thay đổi toàn bộ hướng tiếp cận dữ liệu của các doanh nghiệp. Hệ thống dữ liệu vận
hành trong nội tại doanh nghiệp vẫn chiếm vai trò chủ chốt trong chiến lược Big Data. Tuy
nhiên, doanh nghiệp hiện nay ngày càng quan tâm tới những thông tin trên nền tảng mạng
xã hội hoặc tự thu thập trên các kênh sở hữu của doanh nghiệp hoặc thông qua các dịch vụ
lắng nghe mạng xã hội. Ngoài ra, các dữ liệu được thu thập từ các nguồn dữ liệu công khai

234
hoặc các đơn vị nghiên cứu dữ liệu khác cũng là cơ sở quan trọng đối với các quyết định
kinh doanh.

Bước 3: Truy cập, quản lý và lưu trữ dữ liệu: Hiện nay, nền tảng công nghệ để đáp
ứng nhu cầu nhanh chóng để truy cập, quản lý và lưu trữ dữ liệu lớn của các doanh nghiệp.
Và tùy vào quy mô và định hướng chiến lược dữ liệu, mà doanh nghiệp có thể lựa chọn đầu
tư vào các hệ thống xử lý với mức độ khác nhau. 3 yếu tố cần cân nhắc khi xây dựng hệ
thống cơ sở hạ tầng phục vụ quản trị Big Data là: tính linh hoạt, tốc độ và sức mạnh xử lý.

Bước 4: Phân tích dữ liệu: Với các công nghệ hiệu suất cao như điện toán biên, điện
toán mạng lưới kết hợp với các thuật toán kỹ thuật cao như AI, hay Machine Learning,
doanh nghiệp có thể lựa chọn sử dụng tối đa dữ liệu mà mình thu thập được để phân tích.
Một cách tiếp cận khác là chọn lọc thông tin trước khi đưa ra phân tích. Dù bằng cách nào,
phân tích dữ liệu lớn sẽ giúp các công ty đạt được giá trị và hiểu biết sâu sắc từ dữ liệu.

Bước 5: Đưa ra quyết định dựa trên dữ liệu: Khi hệ thống quản trị hoạt động hiệu
quả, đầu ra của nó là những phân tích đáng tin cậy và các quyết định đáng tin cậy. Để duy
trì tính cạnh tranh, các doanh nghiệp cần nắm bắt toàn bộ giá trị của dữ liệu lớn và đưa ra
quyết định dựa trên bằng chứng xác thực được đưa ra bởi dữ liệu lớn thay vì bản năng hoặc
kinh nghiệm.

4. TÌNH HÌNH THƯƠNG MẠI ĐIỆN TỬ VIỆT NAM HIỆN NAY1

Theo Báo cáo Chỉ số Thương mại điện tử Việt Nam 2020, tốc độ tăng trưởng trung
bình của thương mại điện tử giai đoạn 2016 – 2019 khoảng 30%. Do đó, quy mô thương
mại điện tử bán lẻ hàng hoá và dịch vụ tiêu dùng tăng từ 4 tỷ USD năm 2015 lên khoảng
11,5 tỷ USD năm 2019. Báo cáo dự đoán tốc độ tăng trưởng của năm 2020 tiếp tục duy trì
ở mức trên 30% và đạt quy mô 15 tỷ USD.

Đại dịch Covid-19 đã tác động to lớn và toàn diện tới kinh tế - xã hội của đất nước
trong đó có thương mại điện tử. Vượt qua khó khăn nghiêm trọng bởi đại dịch này thương
mại điện tử vẫn đứng vững, thậm chí có sự bứt phá trong một số lĩnh vực. Tháng 5 năm
2020 ngay sau giai đoạn một của đại dịch lắng xuống, Hiệp hội thương mại điện tử Việt
Nam (VECOM) đã tiến hành khảo sát nhanh tác động của đại dịch và có báo cáo: dịch

1
Theo Báo cáo chỉ số thương mại điện tử Việt Nam năm 2020 của Hiệp hội thương mại điện tử Việt Nam

235
Covid-19 nhanh chóng làm thay đổi thói quen tiêu dùng và mua sắm. Người tiêu dùng tiến
hành mua sắm trực tuyến nhiều hơn. Trong giai đoạn cách ly cao điểm từ tháng Hai đến
tháng Tư năm 2020, kênh mua sắm này trở thành kênh duy nhất để tiếp cận một số hàng
hoá và dịch vụ. Điểm nổi bật là trong khủng hoảng doanh nghiệp trở nên năng động hơn
trong việc ứng dụng công nghệ thông tin. Các doanh nghiệp nhanh chóng thay đổi bộ máy
tổ chức và hoạt động kinh doanh của mình. Nhiều doanh nghiệp đã đẩy mạnh chuyển đổi
số, đào tạo nguồn nhân lực, khai thác tốt các nền tảng trực tuyến trong điều hành nội bộ và
kết nối với khách hàng.

Kết quả khảo sát nhanh của VECOM vào tháng Năm năm 2020 tiếp tục được củng
cố cho cả năm 2020 và đầu năm 2021. Một mặt, các doanh nghiệp đã năng động, thích nghi
và quan tâm hơn tới kinh doanh trực tuyến. Mặt khác, cộng đồng người tiêu dùng mua sắm
trực tuyến tăng nhanh. Kết hợp cả hai yếu tố này dẫn tới nhiều lĩnh vực kinh doanh trực
tuyến duy trì được sự ổn định và tăng trưởng tốt, bao gồm bán lẻ hàng hoá trực tuyến, gọi
xe và đồ ăn, giải trí trực tuyến, tiếp thị trực tuyến, thanh toán trực tuyến, đào tạo trực tuyến.
Ước tính chung năm 2020 thương mại điện tử nước ta tăng trưởng khoảng 15% và đạt quy
mô khoảng 13,2 tỷ USD.

Theo Báo cáo Thương mại điện tử Đông Nam Á 2020 của Google, Temasek và
Bain&Company, thương mại điện tử Việt Nam năm 2020 tăng 16% và đạt quy mô trên 14
tỷ USD. Trong đó, lĩnh vực bán lẻ hàng hoá trực tuyến tăng 46%, gọi xe và đồ ăn công nghệ
tăng 34%, tiếp thị, giải trí và trò chơi trực tuyến tăng 18%, riêng lĩnh vực du lịch trực tuyến
giảm 28%. Báo cáo này cũng dự đoán tốc độ tăng trưởng trung bình giai đoạn 2020 – 2025
là 29% và tới năm 2025 quy mô thương mại điện tử nước ta đạt 52 tỷ USD. Liên quan tới
bán lẻ hàng hoá trực tuyến, theo khảo sát của VECOM sản lượng bưu gửi qua dịch vụ
chuyển phát năm 2020 tăng 47%. Những doanh nghiệp chuyển phát hàng đầu có mức tăng
trưởng bưu gửi từ 30% tới 60%. Tuy nhiên, tốc độ tăng trưởng doanh thu từ dịch vụ chuyển
phát thấp hơn so với tốc độ tăng sản lượng.

Trong đại dịch Covid-19 lĩnh vực thanh toán trực tuyến tiếp tục tăng trưởng mạnh.
Theo Hội thẻ Ngân hàng Việt Nam, trong 6 tháng đầu năm 2020 các ngân hàng đã phát
hành mới là 10,3 triệu thẻ các loại, nâng tổng số thẻ ở Việt Nam lên 103,4 triệu. Trong đó,
số thẻ quốc tế là 15 triệu và thẻ nội địa là 88,4 triệu. Doanh số thanh toán chi tiêu theo kênh
thương mại điện tử sáu tháng đầu năm 2020 tăng trưởng 17%. Trong đó, doanh số thanh

236
toán chi tiêu thẻ nội địa theo kênh thương mại điện tử tăng tới 81%. Ngược lại, chi tiêu thẻ
quốc tế tại kênh thương mại điện tử giảm 16%. Điều này phản ảnh sự suy giảm mạnh mẽ
của du khách quốc tế cũng như khó khăn khi mua hàng trực tuyến từ nước ngoài về Việt
Nam.

Hoạt động kinh doanh của các ví điện tử cũng tăng trưởng mạnh mẽ. Năm 2020 số
lượng giao dịch của ví điện tử hàng đầu Việt Nam là MOMO đạt hơn 403 triệu giao dịch,
giá trị giao dịch đạt khoảng 14 tỷ USD. Cả số lượng và giá trị giao dịch đều tăng trên 3,5
lần so với năm 2019. Hơn nữa, trong đại dịch nhưng số lượng người dùng đăng ký ví điện
tử này đạt 23 triệu, tăng gần 2 lần so với 2019.

Trong khi các lĩnh vực kinh doanh trực tuyến khác đều trụ vững và có sự tăng trưởng
đáng kể thì lĩnh vực du lịch trực tuyến giảm sâu. Theo Tổng cục Thống kê, lượng khách
quốc tế đến Việt Nam năm 2020 ước khoảng 3,8 triệu, giảm 78,7% so với năm trước.

5. ỨNG DỤNG BIG DATA VÀO THƯƠNG MẠI ĐIỆN TỬ

Big data đang ngày càng phố biến và trở nên quan trọng với tất cả các doanh nghiệp
thương mại điện tử, là công cụ phân tích, hỗ trợ các doanh nghiệp từ marketing đến bán
hàng, chăm sóc khách hàng.

5.1. Ứng dụng phân tích Big Data để thu hút và duy trì khách hàng

Khách hàng được xem như nguồn tài sản quan trọng và quý giá nhất của mọi doanh
nghiệp. Không có một doanh nghiệp nào có thể khẳng định được sự thành công của họ mà
thiếu đi yếu tố khách hàng. Tuy nhiên, trong thời kỳ cạnh tranh như hiện tại, để thu hút và
duy trì được khách hàng là điều vô cùng khó khăn. Nếu doanh nghiệp không nhanh chóng
tiếp thu những gì khách hàng cần và tìm kiếm, họ sẽ rất dễ dàng đưa ra sản phẩm với chất
lượng không tốt, không phù hợp với nhu cầu của khách hàng. Và điều này sẽ ảnh hưởng
đến thành công của doanh nghiệp.

237
Việc sử dụng Big Data cho phép doanh nghiệp quan sát những xu hướng phát triển
mới, gắn liền với khách hàng. Theo như lý thuyết, doanh nghiệp càng thu được nhiều dữ
liệu hơn, thì càng dễ dàng hơn trong việc xác định thứ khách hàng thực sự cần. Trong thế
giới công nghệ hoá hiện đại hoá ngày nay, doanh nghiệp có thể dễ dàng thu nhập dữ liệu
của khách hàng nếu có nhu cầu. Điều này có nghĩa là tất cả những gì cần thiết đó chính là
có một hệ thống Big Data chuẩn hoá và được mở rộng hoá. Hiểu được nhu cầu của khách
hàng sẽ giúp doanh nghiệp của bạn tiến xa hơn và phát triển hơn nữa trong tương lai. Cách
thức ứng dụng Big Data:

- Xác định các yêu cầu của khách hàng, tập trung thực hiện nhu cầu của họ.

- Phân tích hành vi, sự quan tâm của khách hàng tạo ra các sản phẩm hướng đến khách
hàng.

- Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình tiếp thị tối
ưu.

- Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ, từ đó, việc nhắm mục tiêu
các chiến dịch quảng cáo có thể chính xác và đạt hiệu quả cao.

5.2. Ứng dụng phân tích Big Data để giải quyết các vấn đề về quảng cáo và cung cấp
cái nhìn rõ nét hơn về Marketing

Big data sẽ giúp doanh nghiệp tạo ra nhiều trải nghiệm cá nhân tốt hơn cho người
dùng, chăm sóc khách hàng cũng như đáp ứng nhu cầu của khách hàng nhanh chóng hơn
bao giờ hết. Cụ thể hơn chính là ứng của trí tuệ nhân tạo – chatbots. Tuy nhiên, những người
làm marketing cũng không phụ thuộc hoàn toàn vào chatbots mà thay vào đó, họ kỳ vọng
ở việc thu thập và tổng hợp dữ liệu khách hàng để có thể tạo ra những trải nghiệm tốt nhất
cho khách hàng. Những lợi ích của việc phân tích Big Data trong Marketing

- Đánh giá giá trị của các công cụ và kênh Marketing hiện tại của doanh nghiệp:
Khi xem xét kỹ trang web, phương tiện truyền thông xã hội, công cụ tự động hóa, nền
tảng phân tích và cơ sở dữ liệu khách hàng của tồ chức, doanh nghiệp có thể tận dụng
tốt hơn các nền tảng này? Có những lựa chọn tốt hơn cho nhu cầu của doanh nghiệp?
Việc xem xét kỹ lưỡng các công cụ và kênh này sẽ đảm bảo doanh nghiệp được trang
bị đầy đủ để đưa công ty đến thành công.

238
- Đảm bảo tính liên kết: Nền tảng dữ liệu khách hàng (CDP) có thể hoạt động như
một mô liên kết, kết hợp các nền tảng này lại với nhau, cung cấp cho doanh nghiệp
cái nhìn toàn diện về toàn bộ cơ sở khách hàng của tồ chức đó.

- Tối ưu hóa trải nghiệm khách hàng: Phân tích Big Data giúp doanh nghiệp có một
vốn dữ liệu được trang bị kỹ càng hơn, sâu sắc hơn, nhờ đó tồ chức có thể dễ dàng
xác định các điểm yếu và cơ hội để cải thiện. Doanh nghiệp cũng có thể cung cấp trải
nghiệm cá nhân hóa, phù hợp hơn cho những khách hàng tiềm năng.

Sau nhiều năm phát triển, ngành công nghệ marketing và quảng cáo đã có thể giữ lấy
lượng lớn Big Data cho doanh nghiệp. Điều này liên quan đến việc quan sát các hoạt động
trực tuyến, giám sát điểm giao dịch bán hàng và đảm bảo phát hiện nhanh chóng những
thay đổi trong xu hướng của khách hàng. Đạt được những hiểu biết sâu sắc về hành vi của
khách hàng sẽ giúp thu thập và phân tích dữ liệu của khách hàng.

Một chiến dịch marketing và quảng cáo thành công đó chính là chiến dịch được nhắm
sẵn mục tiêu và mang tính cá nhân hoá hơn, thông qua các dữ liệu thu thập được. Điều này
giúp cho các doanh nghiệp có thể tiết kiệm được thời gian cũng như chi phí bỏ ra. Phân tích
Big Data là một phương pháp tốt cho các nhà quảng cáo vì các doanh nghiệp có thể sử dụng
dữ liệu này để hiểu hành vi mua bán của khách hàng. Cách thức ứng dụng Big Data:

- Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh. Điều này
giúp xác định cơ hội tốt để tiếp tục tiến hành các kế hoạch kinh doanh tiếp theo

- Có thể xác định người dùng trên các phương tiện truyền thông xã hội và nhắm mục
tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi tác và sở thích

- Tạo báo cáo cho chiến dịch quảng cáo:hiệu suất, khách hàng và giải pháp để tạo kết
quả tốt hơn

- Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và nuôi dưỡng
chu trình khách hàng

- Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cách để nội dung để xếp hạng
trang web doanh nghiệp cao hơn trên google (SEO).

- Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng hiện có để
nhắm mục tiêu các khách hàng tương tự và kiếm được lợi nhuận.

239
5.3. Sử dụng Big Data để quản lý rủi ro

Doanh nghiệp càng lớn càng đòi hỏi quy trình quản lý rủi ro càng cần phải cẩn thận
và kỹ lưỡng hơn nữa. Về cơ bản, một kế hoạch quản lý rủi ro là một khoản đầu tư quan
trọng cho bất kỳ doanh nghiệp hay lĩnh vực nào. Có thể thấy trước một rủi ro tiềm ẩn và
giảm thiểu nó trước khi nó xảy ra là rất quan trọng nếu doanh nghiệp vẫn duy trì được lợi
nhuận. Các chuyên gia cho rằng, vượt qua được rủi ro là điều quan trọng hơn việc doanh
nghiệp có thể đảm bảo rằng họ không gặp bất cứ rủi ro nào.

Cho đến nay, việc phân tích Big Data đã góp phần rất lớn vào việc phát triển các giải
pháp quản lý rủi ro. Các công cụ có sẵn cho phép các doanh nghiệp định lượng và mô hình
hóa rủi ro mà họ phải đối mặt hàng ngày. Xem xét tính sẵn có ngày càng cao và tính đa
dạng của số liệu thống kê, phân tích dữ liệu lớn có tiềm năng rất lớn để nâng cao chất lượng
của các mô hình quản lý rủi ro. Do đó, doanh nghiệp có thể đạt được các chiến lược giảm
thiểu rủi ro thông minh hơn và đưa ra các quyết định chiến lược một cách thành công hơn.

5.4. Ứng dụng phân tích Big Data trong quản lý chuỗi cung ứng.

Quản lý chuỗi cung ứng là một trong những vấn đề phức tạp nhất của mọi công ty
cũng như doanh nghiệp. Ứng dụng Big Data giúp doanh nghiệp đưa ra mạng lưới cung cấp
với độ chính xác, rõ ràng và chi tiết hơn. Bất kỳ sản phẩm nào để đến tay của người tiêu
dùng cũng đều phải trải qua một hành trình một chu trình – còn gọi là chuỗi cung ứng, cần
có sự phối hợp của rất nhiều khâu: từ nhà cung cấp nguyên vật liệu, đến các nhà máy gia
công sản phẩm, rồi đến tay các đơn vị vận chuyển, phương tiện vận chuyển, tiếp đến là các
trung tâm phân phối, các cửa hiệu bán sỉ, bán lẻ… Mỗi một khâu thông qua đều đi kèm
những rủi ro thường gặp: vấn đề thiếu sót hàng hóa, sai sót khi gia công, kho bãi và vận
chuyển,…Thông thường, doanh nghiệp rất khó nắm bắt và quản lý những thông tin này.
Tuy nhiên, thông qua việc áp dụng các phân tích Big Data, các nhà cung cấp có thể thoát
khỏi những hạn chế phải đối mặt trước đó như sai sót trong việc kiểm tra hàng hoá vì không
có đủ thông tin khách hàng, thiếu số lượng nhà vận chuyển hay cung ứng vì không có đủ
dữ liệu,…

Hệ thống chuỗi cung ứng hiện đại dựa trên Big Data cho phép doanh nghiệp có nhiều
sự lựa chọn hơn, với mạng lưới nhà cung cấp, nhà phân bố, bán lẻ sản phẩm rộng rãi hơn .
Nhờ đó việc quản lý chuỗi cung ứng trở nên dễ dàng và thuận tiện hơn bao giờ hết.

240
5.5. Theo dõi quản lý giao hàng

Dữ liệu lớn đã giúp cải thiện việc theo dõi các lô hàng giao hàng thông qua các phân
tích thời gian thực về thời tiết, giao thông và vị trí địa chất. Các cảm biến có thể được đặt
trong các gói để giúp xác định các điều kiện và thời gian giao hàng của gói và chuyển thông
tin đó trở lại cho khách hàng. Những thống kê này rất quan trọng đối với các khách hàng
có hàng hóa giá cao, dễ hỏng hoặc nhạy cảm với thời gian. Phân tích này dễ thực hiện mà
không cần thêm bất kỳ thay đổi đáng kể nào vào đường cung hiện tại của tổ chức

6. CÁC BƯỚC KHAI THÁC BIG DATA ĐỂ ĐEM LẠI HIỆU QUẢ TRONG
DOANH NGHIỆP

Theo chuyên gia tiếp thị chuyên về chiến lược định hướng dữ liệu Marina Erulkar -
Giám đốc, nhà sáng lập Công ty Tiếp thị Hampstead Solutions, sau đây là các bước giúp
chủ doanh nghiệp khai thác hiệu quả sức mạnh của Big data:

6.1. Đặt mục tiêu rõ ràng trong khai thác Big Data

Trong quá trình quản trị doanh nghiệp, các doanh nghiệp cần đặt ra những mục tiêu
và mốc thời gian rõ ràng cho việc khai thác Big Data. Bởi các một doanh nghiệp ngoài mục
tiêu thu hút khách hàng mục tiêu trong ngắn hạn, thì cũng cần một mục tiêu khác dài hạn
hơn để tăng doanh thu từ những khách hàng này. Việc xác định rõ mục tiêu cùng thời gian
thực hiện sẽ khiến việc quản trị doanh nghiệp trở nên khoa học và có thể tập trung nguồn
lực để hoàn thành mục tiêu đầu tiên. Sau đó các doanh nghiệp có thể thực hiện riêng lẻ hoặc
song song mục tiêu thứ hai là tăng trưởng khách hàng. Bên cạnh đó, việc xây dựng mục
tiêu sẽ giúp các doanh nghiệp đạt hiệu quả tăng trưởng theo từng giai đoạn như dự kiến và
đảm bảo kết quả đo lường thực sự có giá trị và kịp thời.

6.2. Tập trung vào các dữ liệu cần thiết trong Big Data

Các doanh nghiệp muốn khai thác tốt nguồn Big Data (dữ liệu lớn) thì phải tập trung
tối đa vào dự định và mục tiêu đã đề ra của mình. Điều đó có nghĩa là doanh nghiệp phải
tập trung chọn lọc những thông tin cần thiết, phù hợp với yêu cầu và bỏ qua những thông
tin khác.

6.3. Big Data – Đo lường thường xuyên

Trong quá trình quản trị, các doanh nghiệp nên thường xuyên sử dụng các chỉ số KPI
và các số liệu có liên quan đến mục tiêu tiếp thị. Những kết quả được báo cáo liên tục giúp
241
doanh nghiệp dễ dàng nắm bắt những xu hướng và cơ hội mới. Dữ liệu mỗi doanh nghiệp
tạo ra đều mang tính độc nhất và trở thành lợi thế cạnh tranh cho chính doanh nghiệp đó.
Những thông tin có được từ các chỉ số KPI và nhiều số liệu khác có liên quan đến mục tiêu
chính là cơ sở để đưa ra những quyết định tiếp thị quan trọng. Ví dụ, những số liệu về sự
phản hồi của khách hàng đối với thông điệp của doanh nghiệp (số lần mở đường dẫn, nhấp
chuột), mức độ nhận biết (lượng truy cập website, thời gian ở lại trang), phí chuyển đổi từ
khách hàng tiềm năng thành người mua hàng, kết quả bán hàng… đều góp phần phục vụ
cho mục tiêu thu hút khách hàng. Hay thông qua hệ thống xử lý Big Data, Sendo.vn – trang
thương mại điện tử đã phân tích dữ liệu khách hàng, lịch sử đơn hàng… giúp nắm bắt xu
hướng mua sắm của người tiêu dùng, điều hướng sản phẩm, kết nối người mua và bán nhanh
hơn. Hơn nữa, các đánh giá, nhận xét và mức độ tương tác của người dùng đối với sản phẩm
được đưa vào hệ thống để xử lý. Sendo.vn sẽ nhận biết sản phẩm nào có chất lượng tốt để
ưu tiên hiển thị cho khách hàng.

6.4. Hiểu rõ chất lượng của Big data (dữ liệu lớn)

Cá nhân chủ doanh nghiệp trong quá trình quản trị cần phải tự tin khi sử dụng dữ liệu
lớn để đưa ra những quyết định mang tính chiến lược. Và để đánh giá chất lượng dữ liệu
thì doanh nghiệp phải dựa vào nguồn dữ liệu, thời điểm thu thập cũng như độ chính xác của
chúng. Nếu sử dụng dữ liệu chưa được tổng hợp, phân tích đầy đủ và chính xác thì những
kết quả hoặc dự báo được đưa ra dựa trên những dữ liệu này đều không đáng tin cậy. Bên
cạnh đó, các doanh nghiệp cần có sự so sánh, kiểm nghiệm với các cơ sở chuyên môn khác
để đảm bảo thông tin đáng tin cậy. Google một đại công cụ tìm kiếm có một dịch vụ riêng
biệt gọi là Google Flu Trends, vào năm 2009 đã sử dụng dữ liệu Big Data của mình để phân
tích và dự đoán xu hướng ảnh hưởng, lan truyền của dịch cúm H1N1. Kết quả này rất sát
với kết quả do hai hệ thống cảnh báo cúm độc lập Sentinel GP và HealthStat đưa ra. Thường
các dữ liệu được cập nhật gần như theo thời gian thực và sẽ được đối chiếu với số liệu từ
những trung tâm dịch bệnh ở nhiều nơi trên thế giới.

6.5. Doanh nghiệp phải có tầm nhìn xa

Trong quá trình quản trị, nếu doanh nghiệp dựa vào dữ liệu lớn để thấy khách hàng
có nhiều phản ứng tích cực với các chiến lược giá ưu đãi. Vậy doanh nghiệp có nên tiếp tục
đưa ra giá ưu đãi để thu hút thêm khách hàng? Đối với doanh nghiệp như doanh nghiệp
nhỏ, việc hạ giá liên tục không phải là lựa chọn khôn ngoan. Do đó, việc kiểm tra với các

242
yếu tố khác sẽ góp phần tạo ra kết quả dữ liệu đó có thể dẫn đến những quyết định khác
hợp lý và hiệu quả hơn.

6.6. Lặp đi lặp lại quá trình phân tích, tổng hợp

Dựa trên những thông tin dữ liệu đã phân tích, tổng hợp, Các doanh nghiệp sẽ có khả
năng nắm bắt cơ hội một cách nhanh chóng và dễ dàng. Nhất là các doanh nghiệp có quy
mô nhỏ. Việc lặp đi lặp lại quá trình này giúp doanh nghiệp liên tục tiến bộ trong việc định
hướng dữ liệu, từ đó tạo ra kết quả kinh doanh ngày càng khả quan.

KẾT LUẬN

Nói tóm lại Big data là một thách thức đặt ra cho các tổ chức, các doanh nghiệp trong
thời đại số hiện nay. Một khi làm chủ được BigData sẽ giúp doanh nghiệp triển khai
marketing hiệu quả, tiếp cận được các khách hàng tiềm năng, thúc đẩy bán hàng, quản lý
rủi ro và quản lý được chuỗi cung ứng… Big data dẫn đến phân tích mạnh mẽ hơn, các nhà
quảng cáo cũng có thể theo dõi tỷ lệ chuyển đổi và các yếu tố khác tinh vi hơn. thế giới thì
sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với
chi phí thấp hơn.

TÀI LIỆU THAM KHẢO

[1]. Big Data – Làm thế nào doanh nghiệp tận dụng tốt nguồn dữ liệu lớn? (erpviet.vn)

[2]. Top 9 ứng dụng thực tế nổi bật của dữ liệu lớn big data (izisolution.vn)

[3]. Big data là gì ? Ứng dụng dữ liệu lớn vào sản xuất? (baoanjsc.com.vn)

[4]. https://tapchicongthuong.vn/bai-viet/nghien-cuu-ve-loi-ich-cua-du-lieu-lon-big-data-
voi-doanh-nghiep-thuong-mai-dien-tu-trong-nuoc-va-the-gioi-64331.htm

[5]. https://subiz.com.vn/blog/big-data-doanh-nghiep-thuong-mai-dien-tu.html

243
TRÍ TUỆ NHÂN TẠO VÀ ĐỘ TIN CẬY CỦA THÔNG TIN KẾ TOÁN

Huỳnh Ngọc Thành Trung


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: hnttrung@ufm.edu.vn

Tóm tắt: Cung cấp thông tin kế toán phù hợp và đáng tin cậy là trách nhiệm chính của kế
toán. Độ tin cậy và tính phù hợp của thông tin kế toán phụ thuộc nhiều vào hệ thống kiểm soát nội
bộ tốt cũng như các đặc điểm về đạo đức và tính liêm chính của nhà quản lý và nhân viên. Bài
tham luận chỉ ra cách trí tuệ nhân tạo hoạt động một cách sáng tạo với hệ thống kiểm soát nội bộ
để giúp nhà quản lý tạo thông tin kế toán chất lượng cao bằng cách giảm rủi ro thông tin. Bất chấp
nhiều loại nghiên cứu được đề xuất sử dụng trí tuệ nhân tạo trong kế toán và kiểm toán, nhưng
không có nghiên cứu nào trực tiếp chỉ ra cách giảm thiểu rủi ro thông tin bằng trí tuệ nhân tạo.
Nghiên cứu mang lại lợi ích cho các công ty trong việc cắt giảm nhiều chi phí và tổn thất do không
cung cấp thông tin kế toán đáng tin cậy, giúp nhà quản lý đưa ra quyết định tốt hơn và về tổng thể
cải thiện hoạt động của đơn vị. Bài tham luận đề xuất mô hình chung được áp dụng cho tất cả các
loại hình doanh nghiệp về cách sử dụng trí tuệ nhân tạo để tự động hóa việc loại bỏ điểm yếu của
hệ thống kiểm soát nội bộ. Do đó, điều này làm giảm rủi ro kiểm soát, rủi ro phát hiện và tăng chất
lượng kiểm toán bằng cách giảm rủi ro thông tin kế toán.

Từ khóa: Trí tuệ nhân tạo, Thông tin kế toán, Hệ thống kiểm soát nội bộ, Độ tin cậy

1. GIỚI THIỆU

Viện Kế toán Công chứng của Anh và xứ Wales (ICAEW) đã phát hành bài báo “Trí
tuệ nhân tạo và tương lai của ngành kế toán” vào năm 2017 và đề cập đến việc áp dụng và
sử dụng kỹ thuật này trong nghề kế toán và kiểm toán. ICAEW nhìn từ nhiều thành công
dưới 3 góc độ: tầm nhìn dài hạn, am hiểu công nghệ và ứng dụng cho kế toán. Thiết kế và
phát triển tổ chức, hiểu biết sử dụng kỹ thuật trí tuệ nhân tạo đang phát triển nhanh chóng.
Tất cả các công ty trong nền kinh tế và kinh doanh toàn cầu đều giải quyết các vấn đề công
nghệ để tồn tại, trong đó trí tuệ nhân tạo là giải pháp thích hợp cho vấn đề này. Khảo sát
toàn cầu về trí tuệ nhân tạo (2017) Forrester Research đã dự đoán “đầu tư vào trí tuệ nhân
tạo tăng hơn 300% trong năm 2017”, so với năm 2016, một minh chứng cho thấy ngành
ngân hàng và sản xuất tăng trưởng nhanh chóng trên toàn cầu, được hưởng lợi nhiều hơn
từ trí tuệ nhân tạo. Ứng dụng trí tuệ nhân tạo trong kế toán bao gồm phân tích dữ liệu lớn,
tạo ra thông tin kế toán chính xác, đáng tin cậy và đúng hạn cho người dùng. Brown và

244
cộng sự (1995) cho rằng trí tuệ nhân tạo tác động đáng kể đến hoạt động kế toán và kiểm
toán cũng như cấu trúc kiểm soát nội bộ.

Về tầm nhìn dài hạn, trí tuệ nhân tạo giúp kế toán viên tập trung vào mục đích của
nghề kế toán là sử dụng thông tin kế toán để người sử dụng thông tin ra quyết định đúng
đắn. Khi khai thác các công nghệ mạnh mẽ, hãy suy nghĩ thấu đáo và có khả năng thích
ứng. Khi hiểu về công nghệ, trí tuệ nhân tạo giúp con người ra quyết định, điểm mạnh của
máy học và sử dụng quy trình ra quyết định của doanh nghiệp trong quản lý thông tin.

Các hệ thống kế toán đang tiến rất nhanh theo hướng được tích hợp nhiều và thông
minh hơn do áp dụng trí tuệ nhân tạo. Vì mục đích của nghề kế toán là cung cấp thông tin
tài chính phù hợp và đáng tin cậy cho nhiều người dùng khác nhau để đưa ra quyết định
hữu ích, sử dụng trí tuệ nhân tạo để tạo ra thông tin đáng tin cậy và phù hợp sẽ được hỗ trợ
nhiều hơn. Tuy nhiên, hệ thống kế toán phụ thuộc đáng kể vào hệ thống kiểm soát nội bộ
để tạo ra thông tin đáng tin cậy. Vì lý do này, việc xem xét làm thế nào trí tuệ nhân tạo giúp
nhà quản lý loại bỏ các điểm yếu của hệ thống kiểm soát nội bộ để tạo ra thông tin kế toán
hữu ích cho người sử dụng sẽ là một câu hỏi khó. Bài tham luận này sẽ chỉ ra cách trí tuệ
nhân tạo sẽ nâng cao hiệu quả và hiệu lực của hệ thống kiểm soát nội bộ trong việc tạo ra
thông tin kế toán có độ tin cậy cao.

Trí tuệ nhân tạo là sự kết hợp của phần mềm và thiết bị thay thế cho trí tuệ con người,
cho phép giải quyết các vấn đề kinh doanh phức tạp bằng cách sử dụng lý luận, học tập,
làm sáng tỏ và nhận dạng các mẫu giống như chuyên gia. Trí tuệ nhân tạo sử dụng hệ
chuyên gia thay vì chuyên gia và áp dụng trí thông minh máy móc thay vì trí tuệ con người.
Trí tuệ nhân tạo có tác động lớn trong việc giúp người quản lý ra quyết định bằng cách giảm
thiểu các quyết định lặp lại, cung cấp thông tin chính xác hơn, đơn giản hóa các yếu tố
quyết định phức tạp và xử lý dữ liệu phân tích.

Những lợi ích của trí tuệ nhân tạo trong tương lai của kế toán bao gồm giảm bớt
nhiệm vụ tự động, gia tăng tạo thông tin tài chính đáng tin cậy, đơn giản hóa các trường
hợp kế toán và kiểm toán phức tạp, thông tin chính xác và kịp thời hơn cho người ra quyết
định. Lỗ hổng trong các tài liệu cho thấy trí tuệ nhân tạo có thể làm giảm rủi ro thông tin
kế toán để nâng cao lòng tin của người sử dụng thông tin. Bài tham luận này nhằm giải
quyết lỗ hổng về vai trò của trí tuệ nhân tạo trong việc giảm rủi ro thông tin kế toán.

245
Trí tuệ nhân tạo giúp các công ty loại bỏ các điểm yếu trong kiểm soát nội bộ như thế
nào để tạo ra thông tin kế toán đáng tin cậy. Mặc dù, có nhiều nghiên cứu về tầm quan trọng
của trí tuệ nhân tạo trong việc ra quyết định kinh doanh nhưng chưa có bất kỳ nghiên cứu
nào chỉ ra cách trí tuệ nhân tạo có thể cải thiện chất lượng thông tin kế toán bằng cách tăng
cường hệ thống kiểm soát nội bộ. Phần còn lại của bài tham luận được sắp xếp theo cách
này. Đầu tiên, xem xét tài liệu về việc sử dụng trí tuệ nhân tạo trong nghề kế toán và kiểm
toán. Sau đó, chỉ ra cách trí tuệ nhân tạo có thể được ứng dụng trong việc phát triển và thiết
kế hệ thống kiểm soát nội bộ để tạo ra thông tin kế toán đáng tin cậy. Cuối cùng, chỉ ra cách
trí tuệ nhân tạo có thể giảm thiểu rủi ro thông tin kế toán.

2. TẦM QUAN TRỌNG VỀ ĐỘ TIN CẬY CỦA THÔNG TIN KẾ TOÁN

Theo Maines và Wahlen (2006), độ tin cậy là một đặc điểm thiết yếu đối với thông
tin kế toán, hữu ích cho việc ra quyết định và nó thể hiện mức độ thông tin không thiên vị,
không có sai sót và trung thực. Để đạt được điều này, một trong những yếu tố quan trọng
là phải thiết lập một hệ thống kiểm soát nội bộ mạnh mẽ. SEC1 (Ủy ban chứng khoán Mỹ)
định nghĩa kiểm soát nội bộ là “một quá trình bị chi phối bởi ban giám đốc, nhà quản lý và
các nhân viên của đơn vị, được thiết kế để cung cấp một sự đảm bảo hợp lý nhằm đạt được
các mục tiêu: Về sự tin cậy của báo cáo tài chính; Về sự hữu hiệu và hiệu quả của hoạt
động; Về sự tuân thủ các luật lệ và quy định”. Như đã nêu bởi Elbannan (2009) chất lượng
của kiểm soát nội bộ đối với báo cáo tài chính càng cao và do đó người dùng tin tưởng hơn
vào báo cáo để đưa ra quyết định tốt hơn.

Một trong những vấn đề chính trong việc tạo ra thông tin kế toán chất lượng thấp do
liên quan đến sự yếu kém của hệ thống kiểm soát nội bộ. Đạo luật Sarbanes-Oxley năm
2002 (Đạo luật căn bản của nghề kế toán, kiểm toán Mỹ) nhấn mạnh tầm quan trọng của
kiểm soát hệ thống thông tin bằng cách yêu cầu ban giám đốc và kiểm toán viên báo cáo về
tính hiệu quả của các kiểm soát nội bộ đối với phần báo cáo tài chính của hệ thống thông
tin quản lý của công ty. Một trong những nguyên nhân chính dẫn đến sự yếu kém của hệ
thống kiểm soát nội bộ là do quản trị công ty yếu kém. Ngoài ra, mối ràng buộc về lợi ích-
chi phí có thể ảnh hưởng đến việc phát triển, thiết kế, thực hiện và duy trì hệ thống kiểm
soát nội bộ hiệu quả.

1
U.S. Securities and Exchange Commission’s
246
Để khắc phục sự yếu kém của hệ thống kiểm soát nội bộ đã có nhiều nghiên cứu. Sau
khi khởi xướng SOX 20021, ban lãnh đạo công ty, kiểm toán viên, ủy ban kiểm toán và
SEC cũng như PCAOB2 (Ủy ban giám sát công ty đại chúng Mỹ) đã quan tâm nhiều hơn
đến vấn đề tháo gỡ điểm yếu của hệ thống kiểm soát nội bộ. Đồng thời, công nghệ hiện đại
đã giúp doanh nghiệp giảm thiểu sự yếu kém của hệ thống kiểm soát nội bộ. Tuy nhiên,
hiệu quả việc sử dụng trí tuệ nhân tạo là điều dễ đoán.

Một số nghiên cứu trong lĩnh vực kế toán và kiểm toán chỉ ra cách ứng dụng trí tuệ
nhân tạo để giúp khám phá mối quan hệ giữa các biến số ảnh hưởng đến thông tin kế toán.
Trí tuệ nhân tạo giúp bao phủ tốt hơn tất cả các biến liên quan đến vấn đề, không chỉ bao
phủ trong việc giải quyết tình huống khó xử về kế toán và kiểm toán. Trí tuệ nhân tạo là
một trong những giải pháp để loại bỏ điểm yếu của hệ thống kiểm soát nội bộ. Nói chung,
Trí tuệ nhân tạo sử dụng vô số công nghệ liên quan và sau đó tích hợp các công nghệ đó
thành các giải pháp đầy đủ. Kahraman và cộng sự (2011) cho thấy các kỹ thuật thông minh
đã được sử dụng như thế nào trong các hệ thống quản lý thông tin. Trí tuệ nhân tạo sử dụng
hệ thống hỗ trợ quyết định thông minh (IDSS3) để tự động hóa thực hiện các hoạt động.
Thuật ngữ IDSS mô tả các hệ thống hỗ trợ quyết định dựa vào việc sử dụng các kỹ thuật trí
tuệ nhân tạo. Các kỹ thuật thông minh được sử dụng trong quản lý thông tin doanh nghiệp
(EIM4) như lý thuyết tập mờ (FST5), hệ thống đa tác nhân (MAS6), mạng nơ-ron (NNs7),
thuật toán di truyền (GAs8), tối ưu hóa đàn kiến (ACO9) và tối ưu hóa bầy đàn (PSO10). Ví

1
The Sarbanes-Oxley Act of 2002
2
Public Company Accounting Oversight Board
3
Intelligent decision support systems
4
Enterprise information management
5
Fuzzy set theory
6
Multi-agent systems
7
Neural networks
8
Genetic algorithms
9
Ant colony optimization
10
Particle swarm optimization
247
dụ, logic, lý thuyết mờ và mạng nơ-ron được sử dụng cho nghiên cứu kiểm toán để dự đoán
gian lận và cải thiện chất lượng kiểm toán.

3. VAI TRÒ CỦA HỆ THỐNG KIỂM SOÁT NỘI BỘ

Mục đích chính của hầu hết mọi hệ thống kiểm soát nội bộ là quản lý các yếu tố rủi
ro ngăn cản doanh nghiệp đạt được các mục tiêu chiến lược của họ. Mọi tổ chức đều hướng
đếnviệc đạt được các mục tiêu chiến lược của mình bằng cách thiết kế, phát triển, thực hiện
và duy trì hệ thống kiểm soát nội bộ hữu hiệu và hiệu quả. Theo SOX (2002), ban lãnh đạo
công ty có trách nhiệm phát triển và duy trì hệ thống kiểm soát nội bộ hữu hiệu và hiệu quả.
Hình 1 là mô hình điều chỉnh trong nghiên cứu của Ling cho thấy một hệ thống kiểm soát
nội bộ năng động.

Theo Ling (2015) và như hình 1 cho thấy, hệ thống kiểm soát nội bộ có thể ở vị trí
tối ưu bằng cách liên tục đánh giá và cải tiến kiểm soát nội bộ. Điều này có thể đạt được
bằng cách áp dụng khung COSO1 . Theo Länsiluoto và cộng sự (2016) COSO của Ủy ban
Treadway đã ban hành hai khuôn khổ kiểm soát nội bộ được công nhận trên toàn cầu. Đầu
tiên là Kiểm soát nội bộ - Khung tích hợp, được xuất bản năm 1992 và thứ hai là Quản lý
rủi ro doanh nghiệp COSO, ban hành năm 2004. Các khung của cả hai đều dựa trên khung
khái niệm tương thích với COSO ERM2 (Quản lý rủi ro doanh nghiệp) (2004). COSO xác
định vai trò trung tâm của kiểm soát nội bộ là "... một phương tiện để xác định và phân tích
rủi ro, phát triển và quản lý các phản hồi thích hợp đối với rủi ro trong mức có thể chấp
nhận được và tập trung nhiều hơn vào các biện pháp chống gian lận ..." kiểm soát có ba loại
mục tiêu: mục tiêu hoạt động, báo cáo và tuân thủ.

1
The Committee of Sponsoring Organizations
2
Enterprise Risk Management
248
Hình 1. Mô hình điều chỉnh

Giám đốc điều hành và giám đốc tài chính của công ty, có trách nhiệm báo cáo thông
qua việc quản lý báo cáo về hiệu quả của kiểm soát nội bộ đối với báo cáo tài chính. Theo
lý thuyết kiểm soát nội bộ, hệ thống kiểm soát nội bộ càng mạnh thì thông tin kế toán và
báo cáo tài chính càng có độ tin cậy và chất lượng cao. Đó là lý do tại sao kiểm toán viên
độc lập phải kiểm tra và báo cáo về hữu hiệu và hiệu quả của kiểm soát nội bộ cùng với báo
cáo kiểm toán về báo cáo tài chính. Ngoài ra, kiểm toán viên nội bộ, làm việc dưới quyền
của ủy ban kiểm toán, liên tục theo dõi vấn đề và báo cáo thường xuyên cho ủy ban những
gì đang xảy ra.

Điểm yếu chính của hệ thống kiểm soát nội bộ trong mọi tổ chức là liên quan đến
khiếm khuyết của hệ thống để bảo vệ tài sản, cung cấp thông tin kế toán đáng tin cậy và
phù hợp. Hệ thống có rủi ro cho phép giao dịch tài chính gian lận được xử lý với hệ thống
tạo ra thông tin kế toán không đáng tin cậy. Trong trường hợp này, rủi ro kiểm soát sẽ cao
và kiểm toán viên cần được thông báo về phát hiện rủi ro. Do đó, tất cả các sai sót trọng
yếu mà kiểm soát nội bộ không thể phát hiện được, kiểm toán viên cần tìm ra, bằng thử
nghiệm kiểm soát và trong trường hợp xấu hơn bằng cách tăng bằng chứng kiểm toán sẽ
làm tăng chi phí kiểm toán.

249
6. HỆ THỐNG KIỂM SOÁT NỘI BỘ VÀ ĐỘ TIN CẬY CỦA THÔNG TIN

Vào tháng 7 năm 2002, chính phủ Hoa Kỳ đã thông qua Đạo luật Luật Sarbanes-
Oxley (SOX) để đối phó với một loạt các vụ bê bối tài chính (ví dụ như Enron, WorldCom,
v.v.), một trong những mối quan tâm là củng cố hệ thống kiểm soát nội bộ và nâng cao chất
lượng thông tin kế toán. Lý thuyết chung rút ra từ luật, dựa trên sự tương tác giữa cơ chế
quản trị công ty tốt, hệ thống kiểm soát nội bộ mạnh và mức độ độc lập cao của kiểm toán
viên để tạo ra thông tin kế toán đáng tin cậy.

Canelas và cộng sự (2013) đã đặt ra câu hỏi về việc làm thế nào trí tuệ nhân tạo có
thể giúp đỡ và hỗ trợ việc ra quyết định liên quan đến các nhiệm vụ SOX. Có hai loại nghiên
cứu, một trước khi có Luật SOX và một cái khác sau khi luật ra đời. Các nghiên cứu cho
thấy các công ty quan tâm đến việc lập báo cáo tài chính trung thực như thế nào và đề xuất
một số hệ thống thông minh để hỗ trợ kiểm toán viên độc lập trong quá trình ra quyết định,
để xác định xem các báo cáo có trung thực hay không. Trí tuệ nhân tạo sẽ giúp các nhà quản
lý tạo ra thông tin mà người dùng sẽ đáng tin cậy hơn. Bằng cách loại bỏ và giải quyết các
tình huống phức tạp thông qua trí tuệ nhân tạo như sự yếu kém của hệ thống kiểm soát nội
bộ về tiền mặt, hàng tồn kho, ...

Doyle và cộng sự (2005) đã nghiên cứu mối quan hệ giữa kiểm soát nội bộ yếu kém
và cơ hội gia tăng đối với các kỹ thuật quản lý thu nhập có chủ ý và sai sót ước tính kế toán
không chủ ý. Nếu trí tuệ nhân tạo có thể củng cố hệ thống kiểm soát nội bộ, thì cơ hội cho
những sai lầm cố ý sẽ giảm xuống. Đổi lại, điều này sẽ làm giảm rủi ro kiểm soát và nâng
cao chất lượng thông tin kế toán cho người sử dụng.

Trí tuệ nhân tạo, công nghệ mạnh mẽ hiện nay, sẽ giúp nhà quản lý loại bỏ điểm yếu
của kiểm soát nội bộ thông qua việc nhận biết, phân tích và loại bỏ những điểm yếu đó, sau
đó đưa ra các giải pháp cuối cùng, với các biện pháp khắc phục nhanh chóng và chính xác
hơn. Trí tuệ nhân tạo có thể giảm rủi ro thông tin kế toán bằng cách loại bỏ điểm yếu của
hệ thống kiểm soát nội bộ thông qua giải pháp sau. Trí tuệ nhân tạo có thể cảm nhận được
điểm yếu, hiểu được vấn đề chính và thực hiện các hành động để loại bỏ điểm yếu thông
qua việc đưa ra quyết định của một chuyên gia được lập trình một cách tự động.

Giác quan

Giác quan tương tự như trạm kiểm soát biên giới, máy tính sử dụng công nghệ thị
giác như nhận dạng khuôn mặt để phát hiện ra các đặc điểm về điểm yếu của kiểm soát nội
250
bộ. Khi điều này được tích hợp với các công nghệ khác như phân tích hình ảnh đa phương
diện (ví dụ như phân tích video, cơ sở dữ liệu thông tin mở rộng và các thuật toán đối sánh),
nó sẽ loại bỏ các điểm chính yếu như liên quan đến hệ thống kiểm soát hàng tồn kho.

Hiểu

Hệ thống trí tuệ nhân tạo cũng sử dụng các công nghệ như xử lý ngôn ngữ tự nhiên,
công cụ suy luận và hệ chuyên gia để khắc phục điểm yếu của hệ thống kiểm soát nội bộ.
Mỗi công nghệ có thể được sử dụng thông qua các ứng dụng khác nhau.

Hoạt động

Hệ thống trí tuệ nhân tạo hoạt động theo hai cách; độc lập và xử lý. Nếu trí tuệ nhân
tạo có thể hoạt động độc lập để loại bỏ điểm yếu của kiểm soát nội bộ, thì trí tuệ nhân tạo
giúp thực hiện công việc mà không cần bất kỳ sự can thiệp nào của con người để tìm kiếm,
phân tích và quyết định cách giải quyết điểm yếu mà không cần bất kỳ sự trợ giúp nào của
con người. Nếu điểm yếu giả sử được loại bỏ trong quá trình xử lý thì loại hành vi này sẽ
được áp dụng cho các hệ thống kiểm soát nội bộ có chức năng riêng biệt.

Trí tuệ nhân tạo, bằng cách giảm rủi ro kiểm soát (rủi ro xảy ra sai sót trọng yếu trong
báo cáo tài chính khi tính riêng rẽ hoặc tính gộp mà hệ thống kế toán và hệ thống kiểm soát
nội bộ không ngăn ngừa hết hoặc không phát hiện và sửa chữa kịp thời), sẽ có thể giảm rủi
ro phát hiện (là rủi ro mà trong quá trình kiểm toán, các thủ tục mà kiểm toán viên thực
hiện nhằm làm giảm rủi ro kiểm toán xuống tới mức thấp có thể chấp nhận được nhưng vẫn
không phát hiện được hết các sai sót trọng yếu khi xét riêng lẻ hoặc tổng hợp lại) của kiểm
toán viên và rủi ro kiểm toán (rủi ro do kiểm toán viên và công ty kiểm toán đưa ra ý kiến
nhận xét không thích hợp khi báo cáo tài chính đã được kiểm toán còn có những sai sót
trọng yếu) có thể chấp nhận được. Rủi ro phát hiện được xác định bằng cách lấy rủi ro kiểm
toán có thể chấp nhận được chia cho rủi ro kiểm soát theo số lần rủi ro ban đầu. Rủi ro kiểm
soát là rủi ro liên quan đến sự yếu kém của hệ thống kiểm soát nội bộ. Do đó, trí tuệ nhân
tạo bằng cách giảm rủi ro kiểm soát, điều này tự động giảm rủi ro kiểm toán, tăng chất
lượng kiểm toán và do đó, giảm rủi ro thông tin cho người sử dụng thông tin kế toán.

Moudud-Ul-Huq (2014) được chứng minh từ Welch và cộng sự (1998) nghiên cứu
giới thiệu các thuật toán di truyền như một ứng dụng hữu ích tiềm năng của kiểm toán viên
để mô hình hóa các quyết định gian lận. Lensberg và cộng sự (2006) áp dụng lập trình di
truyền để dự đoán phá sản. Điều này cũng có thể hữu ích trong các quyết định liên quan khi
251
kiểm toán viên đưa ra ý kiến về khách hàng với tương lai kinh doanh không thể đoán trước.
Mạng nơ-ron đã được đề xuất như một ứng dụng tốt cho một loạt các nhiệm vụ kiểm toán.
Do khả năng mô hình hóa các mối quan hệ phi tuyến và xử lý dữ liệu không đầy đủ, mạng
nơ-ron có thể đặc biệt hữu ích cho các nhiệm vụ đánh giá rủi ro.

Koh và cộng sự (2004) đề xuất việc sử dụng mạng nơ-ron và khai thác dữ liệu cho
các dự đoán liên tục. Họ phát hiện ra mạng nơ-ron và cây quyết định là những công cụ
mạnh mẽ trong việc phân tích các mối quan hệ phức tạp, phi tuyến và tương tác liên quan
đến phân tích hoạt động liên tục. Hệ thống mờ có thể đặc biệt hữu ích đối với một số nhiệm
vụ kiểm toán vì sự cho phép vốn có của các yếu tố định tính. Đối với các quyết định trọng
yếu, điều này có thể tốt hơn nhiều so với các quy tắc ngón tay cái định lượng điển hình.

7. TRÍ TUỆ NHÂN TẠO VÀ HỆ THỐNG KIỂM SOÁT NỘI BỘ

Moudud-Ul-Hug (2014) đã liệt kê mười đối tượng thuộc chủ đề kế toán có thể tích
hợp với trí tuệ nhân tạo. Các đối tượng đó là ủy quyền tín dụng và sàng lọc, phân tích rủi
ro thế chấp, phân tích tài chính và kinh tế, đánh giá rủi ro hối đoái giao dịch, phát hiện bất
thường trong biến động giá chứng khoán, dự đoán khả năng vỡ nợ và phá sản, phân tích rủi
ro đầu tư thu nhập cố định, phát hiện gian lận trong quản lý, các kỹ thuật máy học để tự
động xác định các đặc điểm của gian lận và trí tuệ nhân tạo trong tiếp thị.

Sử dụng Bataller và Harris (2018), mô hình thực tế về việc sử dụng trí tuệ nhân tạo
được áp dụng để tạo ra thông tin kế toán chất lượng thông qua việc giảm thiểu sự yếu kém
của kiểm soát nội bộ trong hầu hết các ngành. Ma trận sau đây cho thấy các nhà quản lý
phải suy nghĩ và xem xét loại điểm yếu nào của kiểm soát nội bộ có thể được tự động loại
bỏ hoặc tăng cường bằng các giải pháp trí tuệ nhân tạo.

Ma trận trong hình 2 cho thấy hai chiều của dữ liệu và độ phức tạp của công việc. Cả
hai khía cạnh cần được xem xét từ quan điểm tự động hóa và cải tiến chức năng kiểm soát
nội bộ. Tự động hóa các công việc thường xuyên có thể cải thiện năng suất tổng thể trong
việc tạo ra thông tin kế toán và tính hiệu quả của các kiểm soát nội bộ.

Mô hình hiệu quả đặc trưng cho các hoạt động thường xuyên hơn dựa trên các quy
tắc, thủ tục và tiêu chí đó làm cho kiểm soát nội bộ trở nên mạnh mẽ hơn. Mục tiêu chính
là thiết kế các biện pháp kiểm soát thỏa mãn lợi ích-chi phí, hiệu suất chất lượng và áp dụng
nhất quán trong việc loại bỏ các điểm yếu. Trong giải pháp trí tuệ nhân tạo, con người liên
quan đến việc giám sát độ chính xác và các quy tắc cần thiết để đối phó với các điều kiện
252
kinh doanh thay đổi. Máy học nên được áp dụng cho các quy tắc như vậy. Ví dụ: với sự can
thiệp tối thiểu của con người, kiểm soát nội bộ giám sát tính hợp lệ của dữ liệu trực tuyến
bằng cách áp dụng kiến thức và logic được hệ thống hóa và đưa ra quyết định về độ chính
xác và độ tin cậy của dữ liệu.

Hình 2: Mô hình trí tuệ nhân tạo của kiểm soát nội bộ

Trong mô hình chuyên gia, trí tuệ nhân tạo tích hợp các nhiệm vụ phán đoán về cách
loại bỏ điểm yếu của kiểm soát nội bộ. Chính xác như cố vấn tài chính, mô hình cung cấp
giải pháp tốt nhất dựa trên thực tế của dữ liệu và điều kiện hệ thống, phân tích tự động và
tìm ra giải pháp tốt nhất sẽ được áp dụng một cách tự động. Hệ thống như vậy có thể tìm
kiếm các nguồn dữ liệu rộng lớn, đưa ra các suy luận, khuyến nghị dựa trên kiến thức. Mô
hình này tương tự như một hệ thống chẩn đoán y tế mà các bác sĩ tìm ra giải pháp cho bệnh
nhân bằng cách kiểm tra các xét nghiệp phức tạp khác nhau, cuối cùng bác sĩ sẽ nêu kết
quả. Do đó, bằng cách sử dụng các kỹ thuật ngôn ngữ tự nhiên, phân tích và tìm kiếm dữ
liệu tự động, trí tuệ nhân tạo sẽ đưa ra các giải pháp cho điểm yếu của các kiểm soát nội bộ
mà không cần con người can thiệp và phán xét.

Mô hình hữu hiệu cho thấy sự cải thiện khả năng tổng thể của hệ thống kiểm soát nội
bộ trong việc tạo ra thông tin kế toán đáng tin cậy và phù hợp. Điều này đòi hỏi phải thiết
kế mô hình dựa trên một lượng kiến thức đáng kể về các đặc điểm của thực thể kinh doanh,
môi trường quản lý và lập pháp cũng như đặc điểm kỹ thuật của ngành. Trong mô hình này,

253
hệ thống phải đảm bảo rằng tất cả các giao dịch và tài khoản được cập nhật trên cơ sở liên
tục và việc sử dụng tự động có thể truy cập thông tin thông qua các đại lý ảo. Người dùng
thông tin đang ngày càng sử dụng các đại lý ảo như Google trên điện thoại thông minh. Các
công nghệ như xử lý ngôn ngữ tự nhiên hoặc nhận dạng giọng nói cho phép tìm kiếm trên
internet và tìm câu trả lời dưới dạng báo cáo.

Ở mô hình đổi mới, giải pháp trí tuệ nhân tạo cho phép tạo ra các phương pháp, mục
tiêu và phương pháp kiểm soát mới theo khuyến nghị dựa trên môi trường kiểm soát hiện
tại. Một ví dụ về cách trí tuệ nhân tạo có thể tăng cường khả năng kiểm soát quảng cáo là
phần mềm thông minh mà nó có thể phân tích hoạt động kiểm soát và sau đó đưa ra các
khuyến nghị để tăng khả năng kiểm soát đó sẽ gặp rủi ro. Ngoài ra, mô hình nên ngăn chặn
các kỹ thuật quản lý thu nhập đó bằng cách phân tích các giao dịch và số dư tài khoản.
Trong khi con người đưa ra quyết định và hành động, công nghệ giúp xác định các lựa chọn
thay thế và tối ưu hóa đề xuất.

Rủi ro và tuân thủ quy định nên được xem xét theo hai mô hình: hiệu quả và chuyên
gia. Một trong những rủi ro lớn trong kinh doanh hiện nay là rủi ro vi phạm về không tuân
thủ pháp luật và các quy định. Các kỹ thuật trí tuệ nhân tạo như máy học có thể được sử
dụng để tự động phát hiện và xác định rủi ro. Ngoài ra, hệ chuyên gia có thể được sử dụng
để tìm, phân tích và tạo ra giải pháp bằng cách sử dụng các kỹ thuật máy học.

8. KẾT LUẬN

Không chỉ ICAEW (Institute of Chartered Accountants in England and Wales) mà


gần đây, các nhà nghiên cứu cũng hướng tới trọng tâm của trí tuệ nhân tạo trong kế toán và
kiểm toán. Sử dụng trí tuệ nhân tạo trong việc loại bỏ điểm yếu của hệ thống kiểm soát nội
bộ để tạo ra thông tin kế toán có chất lượng. Để đạt được điều này, việc hợp tác giữa kế
toán với trí tuệ nhân tạo để phát triển chức năng phần mềm cũng như các ứng dụng cho
các hệ thống kiểm soát nội bộ cụ thể là sự hợp tác tất yếu. Sử dụng Bataller và Harris (2018),
tạo ra mô hình thực tế về việc sử dụng trí tuệ nhân tạo được áp dụng để tạo ra thông tin kế
toán chất lượng thông qua việc giảm thiểu sự yếu kém của kiểm soát nội bộ.

TÀI LIỆU THAM KHẢO

[1]. Todoroi, D. (2013). How to create adaptable ROBO-intelligences? Academy of


Economic Studies.Economy Informatics, 13(1), 27-39.

254
[2]. Lu, H., Li, Y., Chen, M., Kim, H., & Serikawa, S. (2018). Brain intelligence: Go
beyond artificial intelligence. Mobile Networks and Applications, 23(2), 368-375
[3]. Kahraman, C., Kaya, I., & Çevikcan, E. (2011). Intelligence decision systems in
enterprise information management. Journal of Enterprise Information Management,
24(4), 360-379.
[4]. Segars, S. (2017). AI Today, Ai Tomorrow. In N. R. P. Ltd (Ed.), Global Artificial
Intelligence Survey. UK: ARM NORTHSTAR [5]. Brown, C E, Coakley, J, and Phllip,
M E, (1995) Neural networks enter the World of Management Accounting.
Management Accounting. May.51-57.
[5]. https://www.researchgate.net/
[6]. http://www.vacpa.org.vn/Page/Detail.aspx?newid=5268
[7]. https://vietnambiz.vn/
[8]. https://www.slideshare.net/swatifariya/financial-advertising-
ppt#:~:text=FINANCIAL%20ADVERTISINGFINANCIAL%20ADVERTISING%E
F%81%AC%20Financial,%2C%20banking%2Cand%20mortgage%20consumer.&te
xt=firms%2C%20banks%2C%20or%20insurance%20companies.

255
TĂNG TỐC VIỆC PHÂN TÍCH CHUỖI THỜI GIAN
VỚI PHƯƠNG PHÁP MÁY HỌC TỰ ĐỘNG HÓA

Bùi Mạnh Trường


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email bmtruong@ufm.edu.vn

Tóm tắt: Thời gian (Time) là một trong những nhân tố quan trọng nhất cần xem xét và đánh
giá để đảm bảo thành công trong kinh doanh và cũng rất khó khăn để bắt kịp tốc độ của thời gian.
Công nghệ đã và đang phát triển cùng với các phương pháp mạnh mẽ giúp biết trước sự việc trước
khi thời gian kịp tới thời điểm sự việc diễn ra. Dữ liệu chuỗi thời gian nâng cao hiệu quả kinh
doanh bằng việc đưa ra các cách nhìn sâu sắc hơn về kết quả hoạt động kinh doanh trong tương
lai. Các công cụ của phương pháp máy học tự động cung cấp các lợi thế quan trọng so với các
công cụ phân tích truyền thống như tính đơn giản, nhanh & khả năng diễn giải kết quả thu được.

Từ khóa: data, time series, machine learning, automated machine learning, AutoML

GIỚI THIỆU

Phân tích chuỗi thời gian (Time series) có nhiều mục tiêu khác nhau, tùy thuộc vào
lĩnh vực được ứng dụng. Các mục tiêu bao gồm dự đoán giá trị tương lai của chuỗi, trích
xuất tín hiệu ẩn dấu trong dữ liệu pha tạp, khám phá cơ chế mà dữ liệu được tạo ra, mô
phỏng kết quả độc lập trong thực tế của chuỗi để hiểu dữ liệu sẽ thay đổi thế nào trong
tương lai. Trong tất cả các ứng dụng, phân tích chuỗi thời gian ban đầu thường cố gắng tìm
ra được mô hình toán học để giúp tìm ra được hình thức trực quan tốt nhất đối với dữ liệu
quan sát được. Nhiều năm qua, số lượng các dòng dữ liệu đổ vào các kho dữ liệu phân tích
tăng đáng kể liên tục để hỗ trợ phạm vi rộng lớn hơn cho các nhu cầu kinh doanh. Sự gia
tăng này đã làm thay đổi sâu sắc các loại hình phân tích theo yêu cầu, từ các công việc phân
tích tổng hợp mô tả về kết quả hoạt động kinh doanh trong lịch sử cho tới việc tập trung
nhiều hơn vào kết quả hoạt động kinh doanh hiện tại và tương lai trong đó có sử dụng các
phương pháp đo lường với độ chi tiết cao.

Sự gia tăng này cũng tạo áp lực cho các tổ chức đầu tư vào công nghệ để quản lý &
phân tích dữ liệu chuỗi thời gian. Những dữ liệu này phản ánh tất cả các mặt của quy trình
kinh doanh, hành vi khách hàng & việc sử dụng tài sản doanh nghiệp cùng với việc phân
tích để nhanh chóng xác định những sai lệch so với quy chuẩn mà có thể ảnh hưởng tiêu
cực tới kết quả hoạt động kinh doanh hoặc giúp phát hiện ra những cơ hội mới.
256
Việc phát triển mô hình Máy học theo cách truyền thống đòi hỏi nhiều tài nguyên,
đòi hỏi kiến thức chuyên môn cao và thời gian rất lâu để xây dựng mô hình và khi so sánh
nhiều mô hình với nhau. Khi các công cụ thống kê truyền thống gặp khó khăn trong việc
xử lý các dữ liệu đầu vào đa biến, bỏ sót những tiềm năng mang lợi thế cạnh tranh để nắm
bắt & ảnh hưởng tiêu cực tới các hoạt động kinh doanh thực tế thì các công cụ Máy học tự
động có thể giúp tăng cường việc phân tích, xây dựng mô hình & dự đoán dựa vào dữ liệu
chuỗi thời gian để đề xuất cho doanh nghiệp những cơ hội dễ hiểu & khả thi một cách đơn
giản và nhanh chóng.

Máy học tự động (Automated Machine Learning) sử dụng các thuật toán m học được
tự động hóa và quá trình thiết kế có cấu trúc của mô hình đã được xác định. Máy học tự
động cung cấp các công cụ phân tích dữ liệu có cấu trúc một cách có hệ thống được thiết
kế sẵn để hỗ trợ các lĩnh vực như bán lẻ, chuyển đổi, y tế... nhằm thu được kinh nghiệm
thực tiễn tốt nhất khi áp dụng các thuật toán Máy học để giải quyết các bài toán dự đoán
chính xác với chi phí thấp và nhanh chóng.

Máy học tự động thực hiện quy trình tự động hóa các tác vụ và liên tục lặp lại một
phần hoặc toàn bộ quy trình này để phát triển mô hình máy học nên mất nhiều thời gian để
thực hiện. Nó cho phép các nhà khoa học dữ liệu, nhà phân tích và nhà phát triển để xây
dựng các mô hình Máy học có khả năng phát triển quy mô khi ứng dụng với hiệu quả và
năng suất cao nhưng vẫn đảm bảo chất lượng của mô hình. Máy học tự động đang được
ứng dụng trong dịch vụ Máy học Azure được phát triển từ thành công mang tính đột phá
của bộ phận nghiên cứu trong tập đoàn Microsoft.

ĐẶC TRƯNG CỦA CHUỖI THỜI GIAN & CÁC ỨNG DỤNG

Mọi hoạt động của thế giới, con người & thiên nhiên đều thay đổi theo thời gian.
Chuỗi thời gian có thể định nghĩa là một chuỗi các dữ liệu tại các thời điểm được đánh dấu
tạo thành các mốc thời gian cách xa đều nhau. Phân tích chuỗi thời gian là việc sử dụng các
phương pháp thống kê hoặc Máy học để phân tích dữ liệu tại một hoặc nhiều mốc thời gian
bằng cách trích xuất được các mẫu có đầy đủ ý nghĩa trong các biến đầu ra như là xu hướng
(nhu cầu sử dụng laptop nhiều hơn máy tính để bàn, thanh toán bằng ví điện tử nhiều hơn
thanh toán tiền mặt, mua hàng online ngày càng phát triển ... ), mùa kinh doanh (mùa hè,
tháng nhập học, Tết Nguyên đán ... ) hoặc các sự kiện đặc biệt (ngày mua sắm cao điểm
Black Friday, lễ giáng sinh, ngày lễ tình nhân 14/02 ... ) và mối quan hệ hoặc tương tác

257
giữa các biến đầu vào giúp việc dự đoán các biến đầu vào sẽ thay đổi như thế nào để ảnh
hưởng đến các biến đầu ra.

Có nhiều ứng dụng của phân tích chuỗi thời gian, trong số đó là nhu cầu về việc dự
báo tương lai giúp cải thiện công tác hoạch định sản xuất tối ưu hơn. Điều này cho phép dự
đoán về tình hình nhà đất của một địa phương trong năm tới, nhu cầu về phòng khách sạn
tại Phú Quốc trong tuần tới, số lượng người sẽ đổ về phố đi bộ trong vài giờ tới, khối lượng
công việc của bộ định tuyến trong vài phút tới & thậm chí số lượng click chuột & sự chuyển
đổi của một cổng thanh toán mua sắm trực tuyến trong 30 giây tiếp theo. Ngoài việc đưa ra
các dự đoán, phân tích chuỗi thời gian cũng có thể cung cấp các góc nhìn cho các hệ thống
phức tạp, ví dụ như để xác định các yếu tố gây ra thời gian chết của thiết bị trong khu vực
sản xuất hoặc phát hiện ra các tín hiệu bất thường từ nhật ký theo dõi hệ thống tin học. Việc
sử dụng siêu dữ liệu ngữ cảnh hoặc chuỗi thời gian phụ có liên quan với chuỗi thời gian
đang xem xét sẽ giúp thúc đẩy việc phân tích nhanh hơn, cho phép thực hiện các câu hỏi
tình huống (Nếu ... Thì ...), ví dụ như ảnh hưởng của cơn bão sắp tới lên nhà máy phát điện
sử dụng năng lượng gió hoặc tác động của việc quảng cáo tới công tác bán hàng.

Giả thiết đặt ra là có tồn tại một cấu trúc bên trong dữ liệu cho phép sử dụng từng
phần tối thiểu theo sự thay đổi của thời gian hoặc các biến không liên quan mà bản thân
chúng cũng thay đổi. Các biến này có thể độc lập như theo mùa kinh doanh, thời tết, ngày
nghỉ lễ, các sự kiện đã lên kế hoạch, thời khóa biểu làm việc hoặc thậm chí phức tạp hơn là
các biến độc lập như kinh tế vĩ mô, nguồn cung cấp năng lượng hoặc ảnh hưởng của thị
trường chứng khoán.

BÀI TOÁN CHUỖI THỜI GIAN RẤT KHÓ

Bài toán chuỗi thời gian thường rất khó giải quyết vì bài toán này cố gắng để khám
phá cấu trúc tiềm ẩn sẵn sàng bộc lộ ra từ dữ liệu trong lịch sử & ngoại suy trong tương lai.
Các đặc tính cốt lõi của bài toán chuỗi thời gian sau đây được minh họa trong hình 1 :

1. Các khoảng thời gian được phân chia thành các khoảng bằng nhau là đặc trưng
quan trọng của bất kỳ chuỗi thời gian nào. Khi các khoảng thời gian được phân đoạn khác
nhau, theo ngày hoặc theo tuần hoặc theo tháng thì cùng một thuật toán có thể thu được các
mô hình khác nhau & khả năng dự đoán khác nhau tương ứng.

258
2. Ta có thể sử dụng một hoặc nhiều chuỗi thời gian làm các biến đầu vào, các biến
đầu vào này được nắm bắt trong quá trình lựa chọn các đặc trưng được xác định trong
khoảng thời gian khám phá các đặc trưng.

3. Trong giai đoạn dự đoán của chuỗi thời gian, giai đoạn này thường là quá trình tiếp
diễn của chuỗi thời gian đầu ra đã đặt mục tiêu, trong đó việc phát triển mô hình từ chuỗi
thời gian đầu vào được sử dụng để dự đoán trạng thái tương lai của mục tiêu, ví dụ, doanh
số bán hàng quý đầu tiên trong năm tới hoặc số lượng click chuột trong 30 phút tới của
chương trình khuyến mãi trực tuyến, số lượng và chủng loại hàng hóa cũng như sức mua
trong tháng mua sắm, mùa mua sắm ... trong khoảng thời gian cụ thể của tương lai.

Hình 1: Các đặc tính quan trọng của bài toán Chuỗi thời gian

Quá trình xây dựng mô hình chuỗi thời gian nỗ lực để khám phá sự thay đổi các kết
quả từ chuỗi thời gian đầu ra như thế nào đối với chuỗi thời gian đầu ra. Quá trình này phức
tạp và lặp lại, nó bắt đầu bằng việc xác định chuỗi thời gian đầu vào nào sẽ được sử dụng
và có thể tham gia vào việc chuẩn bị dữ liệu bằng cách chia tách, làm sạch và phân đoạn
dữ liệu. Tiếp theo là việc trích xuất các đặc trưng, xây dựng mô hình và kiểm tra ngược cho
tới khi thu được kết quả có thể chấp nhận được, tùy thuộc vào các tiêu chuẩn được xác định
chính xác ban đầu. Tiếp theo là việc diễn giải mô hình và đánh giá mô hình, cuối cùng là
triển khai áp dụng mô hình, đây là bước thường được đánh giá thấp khi mô hình đã ổn định,
mở rộng quy mô ứng dụng và đưa vào ứng dụng trong các hoạt động nghiệp vụ nội bộ để
tạo ra các đầu ra và sự can thiệp hữu ích. Theo định kỳ, toàn bộ quá trình xây dựng mô hình
chuỗi thời gian cần lặp lại khi dữ liệu mới xuất hiện.
259
CÁCH TIẾP CẬN TRUYỀN THỐNG KHI PHÂN TÍCH CHUỖI THỜI GIAN

Phân tích chuỗi thời gian không phải mới mẻ. Các kỹ thuật thống kê cổ điển được áp
dụng cho việc phân tích kinh tế lượng các xu hướng, các chu kỳ và tính ngẫu nhiên đã tồn
tại bền vững qua nhiều thập kỷ. Từ khi xuất hiện công nghệ tin học, các kỹ thuật như là
ARIMA (Tự phục hồi (Auto-Regressive), Tích hợp (Integrated), Các giá trị trung bình liên
tiếp (Moving Average)) và các biến thể của chúng (VARIMA dành cho véc tơ, GARCH dành
cho sự biến động khi thời gian thay đổi ... ) đã được sử dụng rộng rãi để giải quyết các bài
toán kinh tế lượng, kinh doanh & điều hành.

Đây là những mô hình tham số tiêu biểu, thường là đơn biến tạo ra những giả thuyết
đáng tin cậy về việc phân phối biến ngẫu nhiên và độ ổn định của mô hình theo thời gian –
những mô hình này có cấu trúc cao, dễ hiểu, đòi hỏi dữ liệu vừa đủ và tạo ra độ xấp xỉ tương
đối từ các tập dữ liệu mẫu. Trong khi đó, các phương pháp cổ điển cũng có những giới hạn
như sau :

1. Phụ thuộc vào các giả thuyết thống kê.

Tính hợp lệ của các giả thuyết bao gồm tính tuyến tính, tính thông thường và tính ổn
định là rất quan trọng trong phân tích thống kê cổ điển khi áp dụng vào các bước triển khai
trong thực tế. Những tính chất này phải được thực hiện nghiêm ngặt giúp cho mô hình hoạt
động đúng đắn, như vậy sẽ đòi hỏi lặp lại nhiều lần các bước làm sạch dữ liệu, lấy mẫu và
kiểm tra mô hình.

2. Khả năng tương thích yếu khi phân tích đa biến.

Bài toán đa biến bao gồm nhiều chuỗi thời gian là biến đầu vào và khi khi xử lý các
chuỗi thời gian, các phương pháp thống kê cổ điển thường có năng lực dự đoán kém và tính
chính xác thấp. Chính điều này đã hạn chế khả năng ứng dụng phân tích chuỗi tích thời gian
trong các hệ thống độc lập phức tạp trong thực tế.

3. Năng lực dự đoán kém trong các thời điểm có những sự kiện đặc biệt hoặc đặc
biệt quan trọng được xác định nguyên nhân là do có nhiều hạn chế trong dữ liệu lịch sử.

5. NHU CẦU VỀ PHÂN TÍCH CHUỖI THỜI GIAN TĂNG CAO

Yêu cầu lưu kho hỗ trợ giao hàng tức thời cùng sự phát triển mạnh mẽ và rộng khắp
thế giới của lĩnh vực thương mại điện tử đã buộc các doanh nghiệp nâng tầm cuộc chơi của
mình khi phân tích và đáp ứng nhu cầu của khách hàng. Hơn nữa, các phong trào chuyển
260
đổi số như là Internet vạn vật (IoT – Internet of Thing) và các dự án chuyển đổi số đã và
đang đẩy mạnh tính khả thi và sự dư dả về dữ liệu chuỗi thời gian phục vụ các nhu cầu và
hoạt động của mọi tổ chức. Xu hướng này vẫn đang được tiếp tục và buộc các doanh nghiệp
nâng cao năng lực chủ đạo về chuỗi thời gian của mình xuyên suốt các ngành nghề đa dạng.
Các ngành nghề nổi bật nhất có thể kể như sau :

1. Bán lẻ

Từ năm 2013, chuỗi các đại siêu thị lớn nhất thế giới Wal-Mart đã bắt đầu chia sẻ dữ
liệu theo thời gian thực về số lượng hàng hóa đang được bày bán tại các siêu thị của mình
với các nhà cung cấp hàng hóa để các nhà cung cấp có thể xử lý dữ liệu nhanh chóng kịp
thời theo tình hình thực tế và cung cấp hàng hóa nhanh chóng. Các nhà cung cấp sẽ sử dụng
dữ liệu được chia sẻ này để dự đoán khoảng thời gian cung cấp hàng hóa tiếp theo và bổ
sung số lượng hàng hóa kịp thời với độ chính xác về thời gian phải là 85% hoặc sẽ bị phạt
3% giá trị hợp đồng theo các điều khoản đã ký kết.

2. Vận tải

Uber dựa vào dự đoán chuỗi thời gian để dự đoán Cung và Cầu khi phân tích cả về
không gian và thời gian với độ chi tiết cao để hướng dẫn tài xế đi đến những khu vực dự
đoán sẽ có nhu cầu vận chuyển tăng cao trước khi nhu cầu vận chuyển đó tăng lên. Điều
này rất cần thiết cho mô hình kinh doanh của Uber là kết nối tài xế và khách hàng kịp thời
nhanh chóng thông qua dịch vụ nền tảng của Uber.

3. Năng lượng

Một trong những công ty cung cấp điện lớn nhất châu Âu đã tích hợp hơn 80 thiết bị
cảm biến trong đồng hồ điện tại mỗi hộ gia đình để đọc và lưu trữ dữ liệu nhật ký hoạt động
của đồng hồ điện để từ đó dự đoán chất lỏng niêm phong có bị phá hoại hay không hoặc lỗi
không phát hiện rung động khi đồng hồ điện bị phá hoại cùng các bất thường khác. Ứng
dụng phân tích chuỗi thời gian của công ty đã hỗ trợ người dân và các nhà quản lý xử lý
các tình huống xấu sớm hơn 03 tuần so với thời điểm các tình huống xấu này sẽ xảy ra với
độ tin cậy cao và không xảy ra các cảnh báo sai.

4. Sản xuất

Tập đoàn điện tử và điện gia dụng Haier sử dụng công cụ điều phối hoạt động được
tin học hóa để phân tích dữ liệu nhật ký từ hệ thống tin học gồm các chuỗi thời gian. Công

261
cụ này sẽ giúp giảm thời gian cần thiết để xác định các sự cố và điều tra nguồn gốc của sự
cố theo từng ngày, từng giờ, thậm chí theo từng phút trong một số tình huống cần thiết.

6. TRIỂN VỌNG VÀ THÁCH THỨC CỦA MÁY HỌC

Các bài toán phức tạp trong thực tế về chuỗi thời gian thực kể trên đã khái quát về
các tập dữ liệu khổng lồ chứa đựng nhiều đặc trưng tiềm năng đã và đang được thu thập
trong thời gian dài vừa qua. Đa số các bài toán này về bản chất là các bài toán đa biến mà
các phương pháp cổ điển có thể sử dụng nhưng có độ chính xác và năng lực dự đoán không
cao, nhưng các kỹ thuật của Máy học có thể giải quyết những hạn chế này ví dụ như phương
pháp hồi quy Ridge (Ridge regressors), Cây tăng cường (Boosted tree) và mạng nơ rôn
(Neural network) ...

Các phương pháp của Máy học không những khắc phục được tính tuyến tính, các giả
thuyết phân phối và ổn định tiêu biểu trong việc xây dựng mô hình cổ điển mà còn có thể
xây dựng được các mô hình khả thi với độ thích nghi cao hơn khi phân tích đa biến và hạn
chế rủi ro về độ trùng khớp giữa tập dữ liệu và mẫu dữ liệu (Overfitting). Đặc biệt, các
phương pháp Máy học rất phù hợp với những tập dữ liệu chứa nhiều đặc trưng. Theo đánh
giá của các chuyên gia IBM dự đoán rằng năm 2022, khi ứng dụng các phương pháp Máy
học trong các hoạt động tin học, 75% các hoạt động này sẽ được thay thế bằng các chức
năng và hoạt động phân tích và tự động hóa dựa trên các phương pháp Máy học, giúp giảm
được hơn 25% chi phí vận hành và hoạt động của các hệ thống tin học.

Tuy nhiên, Máy học cũng có một số thách thức sau :

1. Thiếu nhân sự có kỹ năng

Có lẽ khó khăn lớn nhất là nguồn nhân lực thực hiện các thuật toán máy học áp dụng
cho chuỗi thời gian. Các nhà khoa học dữ liệu và chuyên gia máy học vẫn còn thiếu hụt
trong nhiều tổ chức, ví dụ trong nhóm các nước châu Á – Thái Bình Dương (APEJ, trừ
Nhật), chỉ có 23,7% tổ chức có các nhà khoa học dữ liệu, trong số các nhà khoa học dữ liệu
ít ỏi này cũng chỉ có 20,5% có nền tảng trình độ mở rộng gồm cả Khoa học máy tính và
Máy học.

2. Quy trình phức tạp

Các tổ chức gặp nhiều khó khăn trong các bước triển khai khi xây dựng mô hình máy
học phức tạp và có tính lặp lại, trong đó bao gồm các giai đoạn khác nhau về chuẩn bị dữ

262
liệu, xây dựng các đặc trưng, xây dựng mô hình, đánh giá mô hình và triển khai mô hình
vào thực tế. Hình 2 minh họa dòng công việc, cần phải biết rằng tính lặp lại không chỉ cần
thiết giữa các bước mà còn cần thiết ở bên trong mỗi bước.

Hình 2: Quy trình phát triển mô hình Máy học

3. Nhiều công cụ thiếu tính liên kết

Các phần mềm công cụ khác nhau thường chỉ thực hiện một giai đoạn của quy trình
phát triển mô hình máy học phức tạp. Không giống như việc phát triển phần mềm truyền
thống, các nhà phát triển xây dựng một công cụ để thực hiện nhiều giai đoạn, các nhà phát
triển máy học thường sử dụng các công cụ và thuật toán khác nhau để xác định hiệu quả
của chúng về độ chính xác và kết quả thực hiện. Tất yếu điều này sẽ dẫn tới việc tinh chỉnh
và điều chỉnh sao cho phù hợp nhất nhưng lại khó khăn khi hệ thống hóa và lặp lại.

4. Quản lý các kết quả thực nghiệm

Mỗi thuật toán Máy học có nhiều tham số cấu hình vì thế sẽ tốn thời gian và chi phí
để theo dõi tập tham số nào đã được tinh chỉnh trong thực nghiệm nào đề từ đó tập trung
vào mô hình tối ưu nhất. Nhiều tổ chức đã phải nỗ lực cố gắng phát triển nhanh các phương
pháp luận cần thiết để đạt hiệu quả.

5. Triển khai mô hình Máy học

Cũng như khả năng mở rộng, tăng quy mô ứng dụng của mô hình để xử lý số lượng
lớn dữ liệu thì việc chú trọng xem xét khi triển khai các mô hình Máy học trong khi thực
hiện là khả năng tương tác giữa các nền tảng nội bộ khác nhau đang có sẵn và phạm vi ứng
dụng rộng lớn của các công cụ triển khai cũng như môi trường để hoạt động (khả năng phục
vụ của kiến trúc phần mềm REST, thời gian thực hiện truy vấn theo lô hoặc các ứng dụng
di động).

263
NHỮNG THÁCH THỨC CỦA RIÊNG CHUỖI THỜI GIAN

1. Giai đoạn chuẩn bị dữ liệu

Chuẩn bị dữ liệu cho chuỗi thời gian có thể khó khăn và nên bao gồm không chỉ các
vấn đề phổ biến như dữ liệu không đầy đủ, dữ liệu không được chuẩn hóa, dữ liệu đầu vào
sai, dữ liệu dị thường... mà còn phải quan tâm đến khoảng cách thời gian đúng theo quy
ước. Các khoảng cách thời gian không theo quy ước có thể phát sinh thiếu hoặc dư các đặc
trưng khiến cho việc xây dựng mô hình thất bại.

2. Dễ sai lầm khi kiểm tra và đánh giá

Việc đánh giá các mô hình của chuỗi thời gian cũng rất khó khăn. Một mô hình chuỗi
thời gian khi sử dụng một hoặc nhiều phép đo có thể có độ chính xác cao nhưng lại có thể
không đủ năng lực để thực hiện dự đoán. Nói chung, các tiêu chí đánh giá phải được lựa
chọn cẩn thận theo từng trường hợp cụ thể.

3. Khả năng diễn giải mô hình

Khả năng diễn giải mô hình đối với dữ liệu chuỗi thời gian có tầm quan trọng hơn so
với các loại dữ liệu khác vì phân tích chuỗi thời gian thường gắn bó chặt chẽ với các quyết
định kinh doanh quan trọng. Người sử dụng hiếm khi ra quyết định mà không hiểu biết rõ
ràng về các giả thuyết được đưa vào mô hình. Chính điều này đã tạo ra thách thức to lớn
cho các phương pháp Máy học vì nếu không giải quyết được thách thức này thì các phương
pháp Máy học sẽ được xem là mơ hồ, không rõ ràng và thiếu minh bạch.

SỰ TRỖI DẬY CỦA MÁY HỌC TỰ ĐỘNG

Theo khảo sát gần đây của tạp chí InfoWorld, hơn 46% công ty ở Tây Âu thừa nhận
rằng họ đang gặp khó khăn trong nhiều bước của quy trình xây dựng mô hình Máy học, bao
gồm các giai đoạn như chuẩn bị dữ liệu, xây dựng các đặc trưng, xây dựng mô hình và đánh
giá mô hình. Cũng không có gì ngạc nhiên khi các nhà cung cấp giải pháp đã bắt đầu giảm
bớt độ phức tạp của quá trình phát triển mô hình Máy học bằng cách sắp xếp lại một cách
hợp lý các bước trong quy trình hoặc tự động hóa quy trình xây dựng mô hình.

Phần lớn các nhà cung cấp giải pháp tập trung nhiều vào chức năng “Máy học tự
động” bằng việc cung cấp các công cụ và mô hình đã được cấu hình sẵn để hỗ trợ các nhiệm
vụ khác nhau trong quy trình phát triển mô hình Máy học từ giai đoạn đầu đến giai đoạn
cuối. Một số nhà cung cấp giải pháp tích hợp một phương pháp mới cho “Máy học tự động”
264
là tự động tìm kiếm trong không gian một hoặc nhiều mô hình tiềm năng phù hợp với tập
dữ liệu có sẵn và tự động lựa chọn mô hình phù hợp nhất với các tiêu chí được định nghĩa
ban đầu, quy trình đó được minh họa trong hình 3 sau :

Hình 3 : Quy trình phát triển mô hình Máy học

Các phương pháp này không loại trừ lẫn nhau, các mô hình Máy học tự động có thể
sử dụng chế độ thủ công để chuyển đổi qua lại nhằm công nhận kết quả xử lý của nhau. Cả
hai phương pháp trên hứa hẹn sẽ giúp tăng năng suất của các nhà khoa học dữ liệu khi họ
phát triển các mô hình Máy học phức tạp. Tuy nhiên, phần lớn các nhà cung cấp giải pháp
vẫn còn tồn tại nhiều hạn chế trong việc xây dựng tính năng Máy học tự động, đặc biệt là
đối với dữ liệu chuỗi thời gian.

LỢI ÍCH CỦA MÁY HỌC TỰ ĐỘNG

Các nhà khoa học dữ liệu thường mất 19% thời gian để thu thập các tập dữ liệu, 60%
thời gian để làm sạch dữ liệu và tổ chức các tập dữ liệu. Việc chuẩn bị dữ liệu tốn kém thời
gian như vậy đã làm cho các nhà khoa học dữ liệu còn rất ít thời gian để giải quyết các bài
toán khó. Máy học tự động thay đổi việc xây dựng và sử dụng các mô hình Máy học dễ
dàng bằng các hệ thống đã được phát triển, điều này giúp các nhà khoa học dữ liệu của các
tổ chức tập trung hơn vào các bài toán phức tạp.

Khi xây dựng các mô hình máy học, nhà khoa học dữ liệu tuần tự thực hiện các bước
theo kiểu truyền thống như thu thập dữ liệu thô, phân tích và lọc dữ liệu thô, lựa chọn thuật
toán giải quyết bài toán, huấn luyện và điều chỉnh thuật toán, kiểm tra chức năng của thuật
toán để thu được kết quả và lặp lại quy trình đến khi tìm được thuật toán tốt nhất. Khi không
tìm được thuật toán tốt nhất để giải quyết bài toán, đội ngũ nhà khoa học dữ liệu cần tìm ra
những thuật toán đúng để sử dụng dữ liệu đang có. Nếu các nhà khoa học dữ liệu không
được có nền tảng chuyên môn đúng và phù hợp hoặc không đánh giá đúng các kỹ thuật giải
265
quyết bài toán liên quan đến nhiệm vụ được giao, họ sẽ cần phải liên kết với các nguồn lực
khác như các nhà phát triển, nhà thiết kế và nhà quản lý. Việc này rất tốn kém thời gian và
chi phí để thực hiện, nhưng vấn đề này có thể được giải quyết bằng máy học tự động.

KẾT LUẬN

Với số lượng lớn dòng dữ liệu dùng cho phân tích để hỗ trợ các mục tiêu kinh doanh
đa dạng hơn, nhu cầu các doanh nghiệp cần tập trung nhiều hơn vào kết quả hoạt động kinh
doanh trong tương lai với mức độ chi tiết khác nhau, ví dụ mức độ sản phẩm, cửa hàng hoặc
thiết bị. Sự trỗi dậy của máy học tự động đã tạo ra áp lực to lớn lên nhiều tổ chức để cải
thiện năng lực của mình khi quản lý chuỗi thời gian phản ánh các mặt khác nhau của quy
trình kinh doanh, hành vi khách hàng và quản lý tài sản doanh nghiệp để từ đó nhanh chóng
xác định các sai lệch so với tiêu chuẩn mà có thể ảnh hưởng tiêu cực tới kết quả hoạt động
kinh doanh hoặc bỏ sót các cơ hội mới.

Việc phân tích hiện hữu trên nhiều ngành nghề khác nhau khi ứng dụng chuỗi thời
gian đang đối mặt với nhiều thuộc tính khác nhau, nhiều kiểu dữ liệu khác nhau, nhiều dữ
liệu lịch sử hơn và dữ liệu mới xuất hiện liên tục. Tuy nhiên các phương pháp phân tích
truyền thống thất bại khi nâng cao quy mô phạm vi ứng dụng và năng lực yếu vì những giả
thuyết còn hạn chế của nó. Các công cụ máy học mạnh mẽ có thể nắm bắt được nhiều đặc
trưng giàu ý nghĩa hơn trong mối liên kết giữa các biến của chuỗi thời gian, ý nghĩa quan
trọng nhất là đã cải thiện to lớn khả năng dự đoán các giá trị tương lai của chuỗi thời gian.

Trong quá khứ, các phương pháp máy học thường có năng lực kém vì thiếu các
chuyên gia phân tích dữ liệu có chuyên môn có khả năng phát triển và tối ưu các mô hình.
Sự ra đời của các công cụ máy học như là DataRobot Time Series hứa hẹn cải thiện to lớn
khả năng tiếp cận công nghệ Máy học vào trong các bài toán thực tế, loại bỏ mạnh mẽ các
hạn chế vốn có và có năng lực dự đoán mạnh mẽ, chính xác hơn trong tương lai. Đối với
các doanh nghiệp, điều này sẽ giúp họ hiểu biết sâu sắc hơn và kiểm soát tốt hơn vô số các
hoạt động khi sử dụng dữ liệu chuỗi thời gian. Đối với các nhà khoa học dữ liệu, các công
cụ năng suất cao sẽ hỗ trợ hiệu quả trong việc giữ chân nguồn nhân lực có chuyên môn và
tiếp tục đào tạo nguồn nhân lực rộng khắp. Để làm được điều này, các chuyên gia phân tích
dữ liệu và người dùng là các doanh nghiệp phải tập trung vào Chuỗi thời gian một cách
toàn diện, từ việc quản lý các dòng dữ liệu cho tới tăng tốc việc triển khai mô hình. Việc
phân tích phải bao gồm :

266
1. Tập hợp các bài toán kinh doanh để phát triển và tiến hóa theo thời gian. Dữ liệu
chuỗi thời gian thường không được đánh giá đúng và đủ tầm quan trọng của nó và cũng
thường bị các doanh nghiệp không quan tâm. Trong khi đó, dự đoán kết quả tương lai luôn
dựa vào dữ liệu lịch sử và để hiểu hành vi của hệ thống tương ứng với các điều kiện thường
xuyên thay đổi, nhiều bài toán kinh doanh rất phù hợp với bài toán sử dụng chuỗi thời gian.

2. Xây dựng chiến lược quản lý dữ liệu để xác định, thâu tóm, truy cập và liên kết tài
sản là dữ liệu chuỗi thời gian có chất lượng cao một cách hiệu quả cả trong sản xuất và môi
trường phát triển. Ngoài ra, các chính sách cai trị dữ liệu từ các dòng dữ liệu cũng cần phải
có và tương thích với các bài toán tình huống phù hợp nhất nhằm giúp việc xây dựng và
nâng cấp mô hình diễn ra liên tục.

3. Xây dựng năng lực triển khai API tự động và được đóng gói sẵn để đảm bảo tính
cơ động và khả năng mở rộng quy mô ứng dụng của mô hình Máy học trong các hệ thống
không đồng nhất. Trí tuệ nhân tạo hướng dữ liệu hiệu quả nhất khi nó được nhúng vào các
dòng công việc để thúc đẩy hoặc tự động ra quyết định trong thời gian thực bất cứ khi nào
nhà quản lý quan tâm hoặc yêu cầu mọi lúc mọi nơi.

TÀI LIỆU THAM KHẢO

[1]. Martin Heller, Automated machine learning or AutoML explained, InfoWorld,


21/08/2019.
[2]. https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml
[3]. White paper, Moving from Business Intelligence to Machine Leaning with Automation,
DataRobot
[4]. Hutter, Frank, Kotthoff, Lars, Vanschoren. Joaquin, Automated Machine Learning,
Springer, 2019.
[5]. Jonathan Krau, Bruno Machado Pacheco, Hanno Maximilian Zan, Robert Heinrich
Schmitt, Automated Machine Learning for predictive quality in production, Elsevier,
2020.
[6]. Jonathan Waring, Charlotta Lindvall, Renato Umeton, Automated Machine Learning :
Review of the state-of-the-art and oppotuinites for healthcare, Elsevier, 2020.

267
PHÂN TÍCH DỮ LIỆU TRONG DOANH NGHIỆP VỪA VÀ NHỎ

Trương Đình Hải Thụy


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: tdh.thuy@ufm.edu.vn

Tóm tắt: Chúng ta đang ở thời đại Công nghệ 4.0 cùng với sự phát triển của các công nghệ
mới như trí tuệ nhân tạo (AI), internet vạn vật (IoT), robot, máy học (Machine Learning), dữ liệu
lớn (Big Data),…. Dữ liêu kinh doanh không còn đơn thuần là những chứng từ, hóa đơn bán hàng,
phiếu thu, phiếu chi, các bảng khảo sát khách hàng… mà dữ liệu được thu thập từ rất nhiều nguồn
khác nhau như từ hệ thống thông tin quản lý của doanh nghiệp, dữ liệu từ hệ hoạch định nguồn
lực doanh nghiệp ERP, từ nguồn dựa trên đám mây, các dịch vụ trực tuyến, nằm rải rác ở các nền
tảng khác nhau như Facebook Ads, Google Ads, Google Sheet…và hơn bao giờ hết việc phân tích
dữ liệu kinh doanh rất quan trọng, nó giúp doanh nghiệp hiểu được nhu cầu, hành vi người tiêu
dùng từ đó có những quyết định kinh doanh thích hợp, đúng đắn góp phần tăng vị thế cạnh tranh
của doanh nghiệp. Bài viết này tách giả tìm hiểu vì sao doanh nghiệp cần phải phân tích dữ liệu
kinh doanh và doanh nghiệp dùng kỹ thuật nào để phân tích dữ liệu kinh doanh.

Từ khóa: kinh tế số, phân tích dữ liệu, SME

1. ĐẶT VẤN ĐỀ

Ngày nay, dữ liệu chính là nguồn sống, là tài sản quý giá nhất trong mọi lĩnh vực từ
kinh doanh đến giáo dục, y tế. Nhờ vào dữ liệu mà các nhà quản lý có thể hiểu được sở
thích, nhu cầu, hành vi mua sắm của người tiêu dùng,.. Khác với trước đây, ngày nay dữ
liệu được thu thập từ nhiều nguồn như từ các tổ chức, các cá nhân, thiết bị điện tử, mạng
xã hội, từ các hoạt động kinh doanh hàng ngày, các cảm biến được nhúng trong nhiều thiết
bị vật lý (Internet of Thing - IoT), hoặc các hoạt động trực tiếp của người tiêu dùng (ví dụ
như hoạt động tìm kiếm sản phẩm trên web…)… và với nguồn dữ liệu khổng lồ này thì
việc phân tích dữ liệu kinh doanh càng mang lại những giá trị đáng kinh ngạc trong nhiều
lĩnh vực, ngành nghề khác nhau. Kết quả từ việc phân tích dữ liệu không chỉ ảnh hưởng
đến các tập đoàn lớn mà còn ảnh hưởng đến các doanh nghiệp vừa và nhỏ (SME - Small
and Medium Enterprise ). Thế nhưng theo báo cáo dựa trên cuộc khảo sát các SME của
Viện Công nghệ Singapore và Viện Kế toán Công chứng Singapore cho biết khoảng rất
nhiều SME chưa áp dụng phân tích dữ liệu, họ chỉ quen làm việc với bảng tính và cơ sở dữ
liệu. [2]. Bài viết này sẽ tìm hiểu tại sao SME cần phải phân tích dữ liệu kinh doanh.

268
2. TÌM HIỂU VỀ PHÂN TÍCH DỮ LIỆU TRONG DOANH NGHIỆP VỪA VÀ NHỎ

Trong thời đại công nghệ 4.0, dữ liệu được coi là tài sản của doanh nghiệp, nó là trọng
tâm của mọi hoạt động của doanh nghiệp. Với áp lực cạnh tranh ngày càng khốc liệt, các
doanh nghiệp ngày nay không chỉ ra quyết định thông minh hơn mà còn phải nhanh hơn,
đúng thời điểm để thu được những thông tin chi tiết có giá trị từ dữ liệu của họ, từ đó đưa
ra quyết định kinh doanh tốt hơn, trở thành động lực chính thúc đẩy khả năng cạnh tranh
của doanh nghiệp trên trên thị trường. Phân tích dữ liệu kinh doanh có thể thay đổi cách
thức hoạt động của SME bằng cách cho phép họ thu thập thông tin chính xác về khách
hàng, đối thủ cạnh tranh và nhà cung cấp, đồng thời sử dụng các thông tin này để ra các
qyết định chiến lược. Internet vạn vật (IoT) và sự phổ biến ở khắp mọi nơi thiết bị thông
minh nhúng các cảm biến được kết nối với Internet và GPS đã tăng cường việc tạo dữ liệu
và thu thập dữ liệu. Việc sử dụng phân tích dữ liệu mang lại nhiều cơ hội cho các doanh
nghiệp vừa và nhỏ như hiểu biết về quy trình sản xuất nội bộ, xác định được nhu cầu của
khách hàng và các đối tác của doanh nghiệp, và hiểu được tổng thể của thị trường quốc gia
và thị trường địa phương.

Tác động của phân tích dữ liệu và quyết định theo hướng dữ liệu đối với hiệu quả
hoạt động của doanh nghiệp chủ yếu xảy ra thông qua năm kênh (OECD, 2013 [9]): (1)
tăng cường nghiên cứu và phát triển; (2) phát triển hàng hóa và dịch vụ mới bằng cách sử
dụng dữ liệu như một sản phẩm hoặc như một đầu vào chính; (3) tối ưu hóa quy trình sản
xuất hoặc phân phối (quy trình theo hướng dữ liệu); (4) cải thiện tiếp thị thông qua quảng
cáo nhắm mục tiêu (tiếp thị theo hướng dữ liệu) và (5) phát triển tổ chức mới và các phương
pháp quản lý. Phân tích dữ liệu kinh doanh cũng góp phần vào sản xuất tinh gọn, giúp các
công ty tối ưu hóa quy trình và giảm thiểu các khiếm khuyết trong quá trình sản xuất (ví dụ
như giảm các sản phẩm hỏng, kém chất lượng, giảm thời gian chờ đợi). Kiểm soát chất
lượng là một ứng dụng quan trọng của phân tích dữ liệu. Phân tích dữ liệu đóng vai trò cơ
sở để ra quyết định dựa trên dữ liệu, có tác động đến doanh nghiệp. Các nghiên cứu đã xác
định có mối tương quan giữa việc ra quyết định dựa trên dữ liệu và độ tuổi của doanh
nghiệp, theo đó các doanh nghiệp trẻ có nhiều khả năng áp dụng các giải pháp sáng tạo hơn.
Nhìn chung, các nghiên cứu cho thấy rằng việc sử dụng dữ liệu và phân tích dữ liệu tăng
năng suất nhanh hơn các doanh nghiệp không sử dụng phân tích dữ liệu [9]. Liên kết các
chỉ số về sử dụng công nghệ thông tin (CNTT), tổ chức nơi làm việc và nhu cầu về lao động
có kỹ năng có tác động tích cực đến năng suất cấp doanh nghiệp.
269
Hiện nay không ít doanh nghiệp vừa và nhỏ còn nghĩ đơn giản phân tích dữ liệu là
chính là việc thu thập dữ liệu và chạy ra các báo cáo định kỳ hoặc báo cáo bất thường; hay
phân tích dữ liệu là việc biểu thị trực quan của dữ liệu. Vậy, phân tích dữ liệu kinh doanh
là làm gì?

Phân tích dữ liệu là quá trình phát hiện, phân tích và truyền đạt các mô hình có ý
nghĩa trong dữ liệu, giúp doanh nghiệp tối ưu hóa hoạt động. Nó bao gồm một tập hợp các
kỹ thuật và công cụ để trích xuất và phân tích thông tin từ dữ liệu. Phân tích dữ liệu đặc
biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại và phân tích dựa vào sự
ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để
định lượng hiệu suất. Các SME sử dụng kết quả phân tích dữ liệu kinh doanh để mô tả, dự
đoán, ra quyết định kinh doanh nhằm cải thiện hiệu suất kinh doanh. Phân tích dữ liệu
thường được chia thành bốn loại cơ bản như sau:

Hình 1: Các loại phân tích dữ liệu

(Nguồn: intellipaat.com)

(1) Phân tích mô tả (Descriptive analytics): là quá trình phân tích, mô tả sự kiện đã
xảy ra trong doanh nghiệp dựa trên khoảng thời gian nhất định, giúp nhà quản lý có thể đưa
ra các quyết định kinh doanh chiến lược dựa trên dữ liệu lịch sử. Phân tích mô tả giải thích
dữ liệu lịch sử để hiểu rõ hơn những thay đổi trong doanh nghiệp. Ví dụ như doanh nghiệp
dựa trên số lượt xem sản phẩm trên website, fanpage trong tháng để nắm được nhu cầu của
khách hàng, hay doanh nghiệp dựa trên doanh số bán hàng trong tháng để mô tả tình hình
kinh doanh, theo dõi sự tăng trưởng doanh số hàng tháng…

(2) Phân tích dự đoán (phân tích dự báo) (Predictive analytics): loại phân tích này
nhằm dự đoán tình hình kinh doanh của doanh nghiệp trong tương lai như thế nào, ảnh
270
hưởng như thế nào đến doanh số bán hàng của doanh nghiệp,… Phân tích dự đoán được sử
dụng như một công cụ ra quyết định trong bất kỳ lĩnh vực nào. Phân tích dự đoán là việc
sử dụng số liệu thống kê và mô hình để xác định hiệu suất trong tương lai dựa trên dữ liệu
hiện tại và quá khứ. Về bản chất, phân tích dự đoán bao gồm một loạt các kỹ thuật thống
kê (máy học, mô hình dự đoán và khai phá dữ liệu) và sử dụng thống kê (dựa trên dữ liệu
quá khứ và hiện tại) để ước tính hoặc dự đoán kết quả trong tương lai. Các mô hình dự đoán
trong phân tích dự đoán thường được sử dụng để làm sạch và tối ưu hóa chất lượng dữ liệu,
dữ liệu bao gồm dữ liệu từ các hoạt động hướng tới khách hàng để đảm bảo dự báo chính
xác hơn. Ngày nay các mô hình dự đoán phổ biến gồm cây quyết định, hồi quy (tuyến tính
và logisitic) và mạng nơ-ron nhân tạo.

Hình 2: Phân tích dự đoán

(Nguồn: smartdatacollective.com)

(3) Phân tích chẩn đoán (Diagnostic analytics): tập trung vào phân tích chuyên sâu,
trả lời cho hàng loạt câu hỏi “tại sao” nhằm ra quyết định kinh doanh, ví dụ như thời tiết có
ảnh hưởng đến doanh số bán hàng không, dịch covid ảnh hưởng như thế nào đến tình hình
kinh doanh các mặt hàng nhu yếu phẩm không…

(4) Phân tích đề xuất (Prescriptive analytics): phân tích này nhằm đưa ra kết luận
doanh nghiệp hoạt động có hiệu quả không, nó có thể được sử dụng để đưa ra quyết định.

271
Phân tích đề xuất sử dụng công nghệ như trí tuệ nhân tạo (AI)... để giúp doanh nghiệp đưa
ra các quyết định về các hành động cần thực hiện dựa trên các sự kiện được phân tích kỹ
càng. Ví dụ như phân tích đề xuất sử dụng thông tin về các tình huống có thể xảy ra, các tài
nguyên có sẳn, hiệu suất trong quá khứ và hiệu suất hiện tại và đề xuất một chương trình
hành động. Phân tích đề xuất chỉ hiệu quả khi các nhà quản lý sử dụng nó đặt ra những câu
hỏi đúng và biết cách phản ứng với những câu trả lời đó, nếu các giải định đầu vào không
hợp lệ thì kết quả đầu ra sẽ không chính xác.

Ngày nay để ra quyết định kinh doanh các doanh nghiệp đều dựa trên kết quả phân
tích dữ liệu. Ở các doanh nghiệp bán lẻ, họ thu thập dữ liệu và phân tích dữ liệu để xác định
xu hướng thị trường, giới thiệu sản phẩm, đưa ra các chiến lược mới tăng lợi nhuận. Xu
hướng này giúp quy trình kinh doanh hiệu quả hơn, kịp thời, đúng thời điểm, giúp mang
đến nhiều lợi nhuận hơn trong việc kinh doanh. Khi phân tích dữ liệu, doanh nghiệp sẽ phát
hiện ra điểm yếu, thế mạnh và sẽ có những điều chỉnh kịp thời. Từ năm 2014, CEO của
Amzon – Jeff Bezos – đã có cuộc trao đổi với trang tin Entrepreneur về tầm quan trọng của
việc quản lý và phân tích dữ liệu, theo ông một trong những nguyên nhân khiến Amazon
thành công chính là biết cách sử dụng và phân tích dữ liệu phục vụ công việc [2]

❖ Các bước phân tích kinh doanh

Qua tìm hiểu, rất dễ dàng thấy rằng việc phân tích dữ liệu kinh doanh đã mang lại
nhiều giá trị cho doanh nghiệp, hỗ trợ rất nhiều trong việc ra quyết định của các nhà quản
lý nhằm tăng vị thế cạnh tranh trên thị trường. Tuy nhiên để kết quả phân tích chính xác,
khi phân tích dữ liệu kinh doanh cần phải tuân thủ các bước như sau:

Bước 1: cần phải xác định chính xác các yêu cầu dữ liệu, cách phân loại dữ liệu. Tùy
theo nhu cầu, dữ liệu có thể tách theo độ tuổi, nhân khẩu học, thu nhập hoặc giới tính. Giá
trị dữ liệu có thể là số hoặc nhóm được phân chia. Ví dụ như yêu cầu của doanh nghiệp là
tăng doanh thu, khi đó cần phải xem dữ liệu nào cần phải thu thập.

Bước 2: là quá trình thu thập dữ liệu. Ngày nay, dữ liệu được thu thập rất nhiều nguồn
khác nhau như từ các hệ thống thông tin quản lý trong doanh nghiệp, từ mạng internet, …
Sau khi dữ liệu được thu thập cần phải tổ chức để tổng hợp và phân tích.

Bước 3: Kiểm tra lại dữ liệu, sữa lỗi nếu có và sau đó tiến hành phân tích dữ liệu theo
yêu cầu cụ thể.

272
Hiện trạng phân tích dữ liệu trong doanh nghiệp vừa và nhỏ

Hiệu quả mang lợi từ việc phân tích dữ liệu để ra quyết định kinh doanh ai cũng rõ,
nhưng có một nghịch lý tại sao đa số các SME vẫn chưa áp dụng triệt để về phân tích dữ
liệu. Có rất nhiều lý do tại sao các doanh nghiệp vừa và nhỏ chưa thật sự quan tâm đến việc
phân tích dữ liệu, tất cả có thể được chỉ định một trong bốn loại sau: lý do bảo mật, lý do
tài chính, thiếu kiến thức chuyên môn về phân tích dữ liệu và thiếu ưu tiên cho các vấn đề
kinh doanh. Đặc biệt nhóm nguyên nhân thiếu kiến thức và hạn chế tài chính có quan hệ
chặt chẽ với nhau và liên quan đến quy mô của doanh nghiệp [9].

Trong những năm gần đây, rào cản giữa SME và phân tích dữ liệu dần được xóa bỏ
nhờ các phần mềm phân tích dữ liệu mã nguồn mở. Một số giải pháp phần mềm như R hoặc
RapidMiner sử dụng rất thuận tiện thông qua giao diện đồ họa, và người dùng cũng không
cần phải có kỹ năng lập trình. Nếu trước đây việc mô hình hóa các quy trình khai thác dữ
liệu là một quy trình phức tạp và tốn nhiều thời gian thì giờ đây công việc này chỉ còn là
hoạt động kéo thả, hơn nữa có rất nhiều hướng dẫn trong phần mềm hoặc clip hướng dẫn
trên youtube. Những nỗ lực trong việc sử dụng các phương pháp phân tích dữ liệu của các
doanh nghiệp đã tăng lên trong thời gian gần đây.

Hình 3: Phân tích dữ liệu ở SMEs tại các nước EU


(Nguồn: https://ec.europa.eu/eurostat/data/database?node_code=isoc_eb_bd)
273
Các SME sử dụng kỹ thuật phân tích dữ liệu có thể thu thập dữ liệu từ nhiều nguồn
liên quan đến thông tin cụ thể mà họ quan tâm. (Ở các nước Châu Âu, từ năm 2018, nguồn
dữ liệu đã được lấy từ vị trí địa lý của các thiết bị di động, nguồn này được theo sau bởi dữ
liệu được tạo ra từ phương pháp truyền thông xã hội (46%), dữ liệu từ thiết bị thông minh
hặc cảm biến của doanh nghiệp (27%) và dữ liệu từ các nguồn khác (24%) [9]).

Khung quy trình phân tích dữ liệu cho doanh nghiệp SME

Hình 4: Khung quy trình phân tích dữ liệu cho các doanh nghiệp SME

Khung quy trình phân tích dữ liệu gồm:

Xác định nhiệm vụ (Define a task): các ý tưởng thu thập được phải được đánh giá
trong điều khoản cân nhắc giữa chi phí và lợi ích. Các công việc của việc xác định nhiệm
vụ bao gồm: phân nhóm khách hàng, dự đoán hành vi khách hàng, dự đoán bán hàng hoặc
phân tích rổ thị trường.

Thu thập và phân tích dữ liệu (Collect and A analyze the data): hoạt động thu thập
dữ liệu được quan tâm đầu tiên. Không giống các doanh nghiệp lớn, SME thường không có
cơ sở dữ liệu hay kho dữ liệu, do đó cần phải thiết lập cơ sở dữ liệu cho mỗi tác vụ. Dữ liệu
thu thập từ hai nguồn: nguồn bên trong nội bộ từ các phần mềm và nguồn dữ liệu từ bên
ngoài như dữ liệu từ Ngân hàng thế giới, Cục thống kê có giá trị cao và thường là miễn phí.

Chọn và thiết lập mô hình (Choose and setup a model): tùy thuộc nhiệm vụ được xác
định trong bước đầu tiên của quy trình, một mô hình phải được chọn. Việc lựa chọn mô
hình đôi khi cần một loạt các thử nghiệm và sai sót để đạt được mức tối ưu nhất.

Định dạng dữ liệu (Format data): cần phải kiểm tra loại dữ liệu phù hợp cho mô hình
đã chọn. Ví dụ như với mô hình cây quyết định có thể hoạt động với hầu hết các loại dữ
liệu thì mạng nơ-ron chỉ chấp nhận dữ liệu kiểu số.
274
Đánh giá kết quả (Evaluete results): có một số khả năng để đánh giá chất lượng của
mô hình. Chúng phụ thuộc vào loại nhiệm vụ đã được thực hiện. Các doanh nghiệp nên
thảo luận kết quả đánh giá với các chuyên gia để các chuyên gia đánh giá xem liệu kết quả
có hữu ích không.

Báo cáo cho người ra quyết định (Report to decision makers)

Những thách thức chính cho việc phân tích dữ liệu của doanh nghiệp vừa và nhỏ

Những rào cản trong việc phân tích dữ liệu tại SME bao gồm các rào cản bên trong
và bên ngoài. Các rào cản bên trong bao gồm thiếu kiến thức và nhận thức, các nhà quản lý
thật sự chưa tin tưởng vào các giải pháp kỹ thuật số, không có khả năng giải quyết các thách
thức an ninh kỹ thuật số và thiếu nguồn nhân lực có kỹ năng. Các rào cản bên ngoài bao
gồm khả năng tiếp cận tài chính và kỹ thuật số bị hạn chế, hạn chế về tính sẳn có của dữ
liệu và các ràng buộc về quy định.

Rào cản nội bộ:

(i) Thiếu nhận thức và kỹ năng của người quản lý: doanh nghiệp và nhà quản lý chưa
thật sự hiểu sự cần thiết phải thay đổi các phương thức kinh doanh truyền thống, vốn đã
hoạt động hiệu quả trong quá khứ cũng như hiện tại. Và cũng do không nhận thấy được tầm
quan trọng cũng như ảnh hưởng của việc phân tích dữ liệu đến hiệu quả kinh doanh trong
thời đại công nghệ 4.0 do đó họ nhận thấy lợi nhuận kỳ vọng thấp khi so sánh với chi phí
xây dựng cơ sở hạ tầng dữ liệu. Sự thay đổi từ việc ra quyết định dựa trên trực giác sang
dựa trên dữ liệu không thể ngay lập tức mà thường đòi hỏi một cam kết mạnh mẽ. Bên cạnh
đó, các doanh nghiệp vừa và nhỏ cũng có thể bị cản trở bởi rủi ro pháp lý ngày càng tăng
khi thu thập, lư trữ và xử lý dữ liệu cá nhân.

(ii) Thiếu chuyên gia: việc triển khai phân tích dữ liệu yêu cầu các kỹ năng cụ thể
cao, đặc biệt nếu phân tích dữ liệu được thực hiện ở cấp độ nâng cao. Các doanh nghiệp
vừa và nhỏ hiếm khi sử dụng dữ liệu chuyên biệt, gặp khó khăn trong việc thuê các chuyên
gia có chuyên môn về phân tích dữ liệu. Thiếu hụt nguồn nhân lực là một trở ngại chính
trong việc phân tích dữ liệu.

(iii) Không có khả năng đánh giá và rủi ro các kỹ thuật số: các mối đe dọa kỹ thuật
số ngày càng phức tạp hơn, phạm vi ảnh hưởng ngày càng mở rộng. Doanh nghiệp vừa và
nhỏ thật sự có thể thiếu khả năng giải quyết các mối đe dọa kỹ thuật số ngày càng tăng,

275
năng lực của hầu hết các doanh nghiệp này để hiểu và ngăn chặn hoặc phản ứng với các
cuộc tấn công mạng có giới hạn. Ngay cả khi các chiến lược về cách giảm thiểu rủi ro đã
tồn tại, SME vẫn có thể không biết các biện pháp phòng ngừa và ứng phó cần thiết.

(4i) Thu thập và lưu trữ dữ liệu còn hạn chế: nhiều nguồn dữ liệu có sẳn từ hoạt động
nội bộ và quan hệ khách hàng đến dữ liệu và thông tin trực tuyến. Tuy nhiên, ở SME mặc
dù ngày càng có nhiều hoạt động được số hóa, nhưng dữ liệu vẫn thường không được thu
thập hoặc lưu trữ với số lượng và chất lượng cần thiết. (ví dụ như không nhất quán cấu trúc
dữ liệu của các bảng tính, đầu vào cơ học không chính xác, lỗ hỏng trong thu thập dữ
liệu…). Hiện nay, có nhiều phần mềm kinh doanh thông minh giúp cho việc thu thập dữ
liệu được tự động hóa và do đó chính xác hơn.

Rào cản bên ngoài

(i) Tiếp cận tài chính: xây dựng cơ sở hạ tầng dữ liệu trong doanh nghiệp có thể yêu
cầu các khoản đầu tư trả trước đáng kể, thường là một thách thức không nhỏ cho các SME

(ii) Tính sẳn có của dữ liệu: dữ liệu nội bộ được tạo ra và thu thập trong SME có giá
trị hơn nếu bổ sung với các thông tin có sẳn khác, chẳng hạn như tổng quan về ngành, những
vết lưu của hoạt động số cá nhân (sở thích người tiêu dùng, mua hàng trên mạng), dữ liệu
về doanh nghiệp (như chính sách giá cả, sản phẩm, dịch vụ được cung cấp) hoặc nguồn dữ
liệu cộng đồng miễn phí và tin cậy như các số liệu thống kê của Cục Thống kê.

(4i) Môi trường pháp lý phức tạp trong lĩnh vực dữ liệu cá nhân: dữ liệu cá nhân bao
gồm bất kỳ thông tin nào liên quan đến cá nhân được xác định hoặc nhận dạng được. Các
quy định phức tạp về bảo vệ quyền riêng tư có thể ngăn cản SME khỏi các hoạt động có
tính rủi ro cao.

(5i) Thiếu các giải pháp phù hợp với SME

3. KẾT LUẬN

Rõ ràng khi ra quyết định dựa vào kết quả phân tích dữ liệu sẽ giúp doanh nghiệp đạt
hiệu quả cao. Phân tích và làm việc dựa trên những số liệu được đo lường giúp công việc
trở nên minh bạch, rõ ràng hơn. Việc phân tích, phân luồng dữ liệu trong hoạt động kinh
doanh, vận hành là điều vô cùng quan trọng, thậm chí quyết định tính sống còn của doanh
nghiệp. Các doanh nghiệp vừa và nhỏ thường phải đối mặt với các mối quan tâm về quyền
riêng tư trong việc thu thập, lưu trữ và phân tích dữ liệu cá nhân. Ngoài ra việc xây dựng
276
sơ sở hạ tầng quản lý dữ liệu cũng là một thách thức đối với nguồn tài nguyên hạn chế của
một số SME

TÀI LIỆU THAM KHẢO

[1] https://abiz.edu.vn/
[2] https://expressanalytics.com/blog/data-analytics-for-small-business-heres-why-smes-
must-adopt-it/
[3] https://insights.magestore.com/posts/ung-dung-big-data-nganh-ban-le
[4] https://expressanalytics.com/blog/when-data-becomes-the-business-of-every-business/
[5] https://vietnambiz.vn/phan-tich-mo-ta-descriptive-analytics-la-gi-ban-chat-cua-phan-
tich-mo-ta-20191014144530698.htm
[6]. www.intellipaat.com
[7]. www.smartdatacollective.com/
[8] Michael Dittert, Ralf-Christian Harting, Christopher Reichstein, Christian Bayer, A
data analytics Framework for Business in Small and Medium – Sized Organizations,
2018.
[9] Marco Bianchini and Veronika Michalkova, Data Analytics in SMEs: Trends and
policies, 2019
[10] https://ec.europa.eu/eurostat/data/database?node_code=isoc_eb_bd

277
QUẢN LÝ CHẤT LƯỢNG DỮ LIỆU KINH DOANH

Trần Anh Sơn


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: tason@ufm.edu.vn

Tóm tắt: Nếu như quản lý dữ liệu được ví như là cột sống để kết nối tất cả các phân đoạn
của toàn bộ vòng đời thông tin thì việc quản lý chất lượng dữ liệu đó càng trở nên quan trọng hơn
bao giờ hết. Suy cho cùng thì dữ liệu kinh doanh của tổ chức chính là mạch máu của doanh nghiệp
và chất lượng dữ liệu kinh doanh không tốt hay xấu, không cao hay thấp mà đơn giản nó chỉ là một
phạm vi hoặc thước đo tình trạng của dữ liệu được bơm qua tổ chức của bạn. Quản lý chất lượng
dữ liệu kinh doanh cung cấp một quy trình theo ngữ cảnh cụ thể để cải thiện tính phù hợp của dữ
liệu được sử dụng để phân tích và ra các quyết định liên quan đến hoạt động kinh doanh. Mục tiêu
là tạo ra những hiểu biết sâu sắc về tình trạng của dữ liệu kinh doanh bằng cách sử dụng các quy
trình và công nghệ khác nhau trên các tập dữ liệu ngày càng lớn hơn và phức tạp hơn.

Trong phạm vi bài tham luận này, tác giả đi sâu vào trình bày, phân tích những nội dung liên
quan đến dữ liệu kinh doanh, quản trị chất lượng dữ liệu kinh doanh trong bối cảnh của cuộc cách
mạng công nghiệp 4.0 tiếp cận trên cả phương diện quản trị hoạt động kinh doanh và quản trị hệ
thống Công nghệ thông tin ứng dụng trong kinh doanh. Kết quả của bài tham luận sẽ là tài liệu
hữu ích không chỉ cho những nhà phát triển hệ thống thông tin quản lý kinh doanh số trong định
hướng chiến lược quản lý chất lượng dữ liệu kinh doanh của mình mà nội dung của bài tham luận
còn giúp cho tất cả những ai muốn tìm hiểu, nghiên cứu về các dự án quản lý chất lượng dữ liệu
nói chung cũng như các nhà quản lý kinh doanh có cơ sở trong định hướng chiến lược công nghệ
thông tin và quản lý dữ liệu, quản lý chất lượng dữ liệu đáp ứng với mục tiêu chiến lược hoạt động
kinh doanh của doanh nghiệp.

Từ khóa: Dữ liệu kinh doanh, chất lượng dữ liệu, quản lý chất lượng dữ liệu kinh doanh

1. ĐẶT VẤN ĐỀ

Dữ liệu là một chủ đề nóng trong thế giới kinh doanh hiện nay. Mọi người đều muốn
nói về những hiểu biết sâu sắc và giá trị mà họ có thể thu được từ dữ liệu. Có một lý do
chính đáng cho điều đó bởi đơn giản dữ liệu là một trong những tài nguyên có giá trị nhất
hiện nay đối với mọi tổ chức hoạt động trong tất cả các ngành của nền kinh tế. Tuy nhiên,
dữ liệu chỉ hữu ích nếu nó có chất lượng cao và ngược lại dữ liệu sẽ trở nên không quan
trọng. Trong trường hợp xấu nhất, nó có thể khiến các công ty mắc phải những sai lầm đắt
giá. IBM ước tính rằng dữ liệu xấu gây thiệt hại cho nền kinh tế Mỹ khoảng 3,1 nghìn tỷ
278
Mỹ kim mỗi năm. Những chi phí đó đến từ thời gian nhân viên phải bỏ ra để sửa chữa dữ
liệu xấu và khắc phục những sai sót do dữ liệu xấu gây ra lỗi đối với khách hàng. Rõ ràng,
cải thiện chất lượng dữ liệu kinh doanh cho doanh nghiệp là một cơ hội lớn giúp cải thiện
hoạt động của doanh nghiệp.

Đối với nhiều nhà lãnh đạo doanh nghiệp đang nhận thức được tác động to lớn của
dữ liệu lớn (Big data) đối với quỹ đạo của tổ chức doanh nghiệp vì nó liên quan đến nhiều
vấn đề như: Dự đoán kỳ vọng của khách hàng; Hỗ trợ quản lý sản phẩm hiệu quả; Có sẵn
theo yêu cầu để ảnh hưởng đến việc ra quyết định từ trên xuống; Điều chỉnh đổi mới dịch
vụ khách hàng bằng cách điều tra thói quen mua sắm của khách hàng; và Cung cấp cho các
tổ chức thông tin về đối thủ cạnh tranh. Tuy nhiên, có một lưu ý vô cùng quan trọng đó là
nếu dữ liệu không chính xác, đầy đủ và nhất quán thì điều đó lại có thể dẫn đến những sai
lầm nghiêm trọng khi đưa ra một quyết định kinh doanh. Trên thực tế, Gartner ước tính tác
động tài chính trung bình của chất lượng dữ liệu kém đối với các doanh nghiệp là 15 triệu
đô la Mỹ mỗi năm, có nghĩa là bạn không thể không ưu tiên quản lý chất lượng dữ liệu ngay
từ bây giờ.

Hơn nữa, khi các tổ chức tìm cách áp dụng làn sóng công nghệ mới trong cuộc cách
mạng công nghiệp 4.0 hiện nay như tự động hóa, trí tuệ nhân tạo (AI), Internet kết nối vạn
vật (IoT),... sự thành công của họ trong việc làm như vậy và khả năng tạo sự khác biệt trong
những không gian đó sẽ phụ thuộc vào khả năng quản lý dữ liệu. Điều này ngày càng trở
nên quan trọng khi các thiết bị cùng các cảm biến được kết nối ngày càng nhiều đã gây ra
sự tăng trưởng dữ liệu theo cấp số nhân và cơ hội khai thác dữ liệu cũng tăng trưởng một
cách tương xứng. Những người định vị tổ chức để quản lý dữ liệu một cách chính xác và
hiểu được giá trị vốn có của nó sẽ có nhiều lợi thế hơn. Trên thực tế, chúng ta có thể thấy
các nhà lãnh đạo đã nhìn xa trước rằng nó sẽ làm cho thị trường trở nên rất khó khăn cho
những người chấp nhận chậm về công nghệ hoặc những người mới tham gia.

Khi các kỹ thuật và công nghệ quản lý dữ liệu được cải thiện, dữ liệu ngày càng trở
nên quan trọng đối với các doanh nghiệp. Ngày càng có nhiều công ty sử dụng dữ liệu để
đưa ra quyết định về tiếp thị, phát triển sản phẩm, tài chính và hơn thế nữa. Khi nhiều công
ty thu được lợi ích từ dữ liệu, việc sử dụng dữ liệu ngày càng trở thành một vấn đề để theo
kịp đối thủ. Các công ty không tận dụng dữ liệu và các công nghệ liên quan có nguy cơ bị
tụt hậu. Tuy nhiên, để dữ liệu có lợi, nó cần phải có chất lượng cao. Chất lượng dữ liệu

279
càng tốt thì doanh nghiệp càng có thể khai thác được nhiều hơn. Nếu thông tin có chất lượng
thấp, nó thậm chí có thể gây hại. Nếu bạn đưa ra quyết định dựa trên dữ liệu không hợp lệ,
bạn có thể lựa chọn sai. Các công nghệ mới cũng đang làm tăng tầm quan trọng của dữ liệu
và chất lượng của nó. Các công nghệ như trí tuệ nhân tạo và tự động hóa có tiềm năng to
lớn, nhưng thành công với những công nghệ này phụ thuộc nhiều vào chất lượng dữ liệu.
Ví dụ, máy học yêu cầu khối lượng lớn dữ liệu chính xác. Thuật toán máy học càng có
nhiều dữ liệu tốt thì nó có thể tạo ra kết quả càng nhanh và những kết quả đó sẽ càng tốt.
Trong một cuộc khảo sát gần đây đối với các giám đốc điều hành cấp cao của New Vantage
Partners, hơn 3/4 số người được hỏi nói rằng sự gia tăng khối lượng và nguồn dữ liệu đang
thúc đẩy tăng cường đầu tư vào AI và học tập nhận thức.

Tóm lại, dữ liệu ngày càng trở nên không thể thiếu đối với hoạt động của doanh
nghiệp. Thay vì coi dữ liệu là tách biệt với các chức năng khác của chúng, một số công ty
thành công nhất hiện nay tích hợp nó vào mọi thứ họ làm. Sự tích hợp gia tăng này có nghĩa
là chất lượng dữ liệu có thể tác động đến nhiều khía cạnh của doanh nghiệp từ tiếp thị đến
bán hàng đến sáng tạo nội dung. Điều này càng thể hiện rằng chất lượng dữ liệu cũng tất
yếu trở nên vô cùng quan trọng bởi các vấn đề liên quan đến sự tuân thủ. Khi các quy định
liên quan đến dữ liệu tiếp tục phát triển, việc các công ty quản lý dữ liệu của họ đúng cách
ngày càng trở nên quan trọng. Sẽ khó hơn để chứng minh sự tuân thủ nếu dữ liệu của bạn
thiếu tính tổ chức hoặc được duy trì kém. Điều này đặc biệt quan trọng đối với dữ liệu tài
chính và dữ liệu cá nhân nhạy cảm nhưng cũng có thể áp dụng cho các loại thông tin khác.
Chính vì vậy, hơn ai hết chúng ta cần phải xem xét bài bản về chất lượng dữ liệu kinh doanh
và nhanh chóng tiếp cận quản lý nó theo định hướng ứng dụng hiệu quả công nghệ để phát
huy hết giá trị to lớn của dữ liệu kinh doanh phục vụ cho các hoạt động của doanh nghiệp.

2. CƠ SỞ CỦA QUẢN LÝ CHẤT LƯỢNG DỮ LIỆU KINH DOANH

2.1. Chất lượng của dữ liệu kinh doanh

Chất lượng dữ liệu kinh doanh là rất quan trọng vì nếu không có dữ liệu chất lượng
cao, bạn không thể hiểu hoặc giữ liên lạc với khách hàng của mình. Trong thời đại dựa trên
dữ liệu này, việc tìm hiểu thông tin chính về khách hàng hiện tại và khách hàng tiềm năng
trở nên dễ dàng hơn bao giờ hết. Thông tin này có thể cho phép bạn tiếp thị hiệu quả hơn
và khuyến khích lòng trung thành có thể tồn tại trong nhiều thập kỷ. Hãy yên tâm rằng nếu
bạn không bị thuyết phục về tầm quan trọng của chất lượng dữ liệu thì đối thủ cạnh tranh

280
của bạn cũng vậy và họ sẽ không ngần ngại cố gắng tìm kiếm dữ liệu tốt nhất để cải thiện
lợi thế cạnh tranh của chính họ. Vậy chất lượng dữ liệu kinh doanh là gì và làm thế nào để
có được dữ liệu kinh doanh có chất lượng phục vụ cho hoạt động của tổ chức đang là câu
hỏi mà bất kỳ nhà quản lý kinh doanh nào cũng rất cần có câu trả lời cụ thể vào trong ngữ
cảnh của doanh nghiệp mình. Tuy nhiên, như đã đề cập ở ngay đầu bài viết thì dữ liệu,
thông tin không hoàn toàn tốt hay tồi mà nó lệ thuộc vào người tiếp nhận dữ liệu, thông tin
đó. Một nội dung dữ liệu, thông tin có thể rất hữu ích (rất có giá trị) đối với một cá nhân
hay tổ chức này tuy nhiên nó có thể không có ảnh hưởng gì (không có giá trị) đối với một
cá nhân hay tổ chức khác, thậm chí là nó còn có thể ảnh hưởng không tốt đối với họ. Vì
vậy, rất khó có một định nghĩa chính xác về chất lượng dữ liệu nói chung hay chất lượng
dữ liệu kinh doanh nói riêng. Mặc dù vậy, các nhà nghiên cứu cũng đã cố gắng đưa ra nhiều
khái niệm liên quan đến chất lượng dữ liệu cũng như một số tiêu chuẩn tham khảo để đánh
giá về chất lượng của dữ liệu.

a). Khái niệm về chất lượng dữ liệu kinh doanh:

Theo ISO 9000:2014 định nghĩa chất lượng là mức độ mà một tập hợp các đặc tính
vốn có của một đối tượng đáp ứng các yêu cầu, trong đó đối tượng là bất cứ thứ gì có thể
hiểu được hoặc có thể hình dung được. Thuật ngữ đối tượng được thêm vào kể từ phiên bản
trước của tiêu chuẩn ISO 9000. Theo định nghĩa này, chất lượng của dữ liệu là mức độ mà
một tập hợp các đặc tính vốn có của dữ liệu đáp ứng các yêu cầu của người hay tổ chức sử
dụng dữ liệu.

- Trên phương diện của quản trị hoạt động của tổ chức thì chất lượng dữ liệu (Data
quality) nói chung và chất lượng dữ liệu kinh doanh nói riêng (Business data quality) có
thể hiểu theo nghĩa hẹp hoặc theo nghĩa rộng. Cụ thể:

Xét theo nghĩa hẹp, căn cứ vào giá trị của dữ liệu kinh doanh đối với đối tượng sử
dụng dữ liệu là các doanh nghiệp thì: Chất lượng dữ liệu kinh doanh là mức độ đáp ứng của
dữ liệu đối với các nhiệm vụ hay mục tiêu kinh doanh (các hoạt động kinh doanh, các quyết
định kinh doanh) của doanh nghiệp.

Tuy nhiên, theo Cộng đồng quản trị dữ liệu toàn cầu (The Global Data Management
Community) thì chất lượng dữ liệu có thể hiểu rộng hơn không chỉ là giá trị của dữ liệu đối
với đối tượng sử dụng dữ liệu mà còn bao hàm cả các quy trình, phương pháp để cải thiện
chất lượng của chính nguồn dữ liệu đó.
281
- Trên phương diện của công nghệ thông tin và quản trị dữ liệu số ứng dụng trong
kinh doanh thì chất lượng dữ liệu kinh doanh ngoài các nội dung được xem xét như đối với
quản trị hoạt động của tổ chức thì còn phải đánh giá cả về tính phù hợp của công nghệ tổ
chức lưu trữ và khai thác nguồn lực dữ liệu này theo từng doanh nghiệp và theo từng ngành
kinh doanh.

b). Các tiêu chí đánh giá chất lượng dữ liệu kinh doanh:

Để đo lường chất lượng dữ liệu kinh doanh của tổ chức, rõ ràng bạn cần các thước đo
về chất lượng dữ liệu phù hợp với tổ chức đó. Thước đo về chất lượng dữ liệu cũng chính
là chìa khóa để đánh giá nỗ lực của tổ chức trong việc gia tăng chất lượng dữ liệu, thông
tin của tổ chức. Trong số các kỹ thuật quản lý chất lượng dữ liệu khác nhau, các thước đo
chất lượng dữ liệu phải là yếu tố quan trọng hàng đầu và phải được xác định một cách rõ
ràng. Các chỉ số (hay các đặc tính đã được ISO 9000 : 2014 đề cập) để đo lường chất lượng
dữ liệu, thông tin nói chung và chất lượng dữ liệu kinh doanh nói riêng thường bao gồm
nhiều khía cạnh khác nhau của chất lượng, tuy nhiên có 5 đặc tính quan trọng mà chúng ta
thường phải quan tâm đó là: Độ chính xác (Accuracy), tính nhất quán (Consistency), tính
đầy đủ (Completeness), tính toàn vẹn (Integrity) hay còn gọi là tính hợp lệ (Validity) và
tính kịp thời (Timeliness).

Mặc dù phân tích dữ liệu khá phức tạp, nhưng có một số phép đo cơ bản mà tất cả
các bên liên quan chính của quản lý chất lượng dữ liệu cần phải biết. Các chỉ số chất lượng
dữ liệu là điều cần thiết để cung cấp cơ sở tốt nhất và vững chắc nhất cho các phân tích liên
quan trong tương lai. Các số liệu này sẽ giúp tổ chức theo dõi hiệu quả của các nỗ lực cải
tiến chất lượng của mình và là cơ sở cần thiết để đảm bảo ràng tổ chức đang đi đúng theo
định hướng. Bảng 1 mô tả về một số tính chất cơ bản để đánh giá chất lượng dữ liệu mà các
tổ chức thường tham khảo khi xây dựng bộ tiêu chí đánh giá chất lượng dữ liệu của mình.

Bảng 1: Mô tả một số tính chất ảnh hưởng đến chất lượng dữ liệu kinh doanh

TT Tính chất Ý nghĩa Cách đo lường


1 Độ chính xác Độ chính xác đo lường mức độ đung với thực Đo lường tỷ lệ dữ
tế của giá trị dữ liệu. Độ chính xác là điều tối liệu so với lỗi.
quan trọng đối với khả năng đưa ra kết luận
chính xác từ dữ liệu của bạn.

282
TT Tính chất Ý nghĩa Cách đo lường
2 Tính nhất quán Tính nhất quán tập trung vào các phần tử dữ Đo lường bằng số
liệu phải đồng nhất trong tất cả các thể hiện dữ lượng hiện thực
liệu khác nhau từ mọi nguồn cung cấp dữ liệu. khác biệt (không
đồng nhất)

3 Tính đầy đủ Tính đầy đủ thể hiện mức độ lấp đầy các mục Đo lường thông
nội dung liên quan đến dữ liệu. Tính đầy đủ thể qua số mục nội
hiện rằng tất cả các mục nội dung liên quan đến dung bị thiếu
dữ liệu đều có giá trị hữu hình. (Không có giá trị)

4 Tính toàn vẹn Tính toàn vẹn thể hiện mức độ đáp ứng các đòi Đo lường thông
hỏi (ràng buộc) hay các yêu cầu của thực tiễn qua mức độ (tỷ lệ)
hay không? Tính toàn vẹn được xem xét cả về lỗi khi chuyển đổi
nội dung lẫn hình thức thể hiện của dữ liệu. (biến đổi) dữ liệu.

5 Tính kịp thời Tính kịp thời phản ánh mức độ nhanh chóng Đo lường khoảng
của việc thu thập dữ liệu hay mức độ cập nhật thời gian giữa sự
của dữ liệu. Tính kịp thời còn thể hiện mức độ kiện thực với thời
mới hay hiện thời của dữ liệu. điểm mà dữ liệu
ghi nhận sự kiện

Tính chính xác của dữ liệu kinh doanh:

Trong số các nhà tiếp thị mua dữ liệu nhân khẩu học, 84% nói rằng độ chính xác là
rất quan trọng đối với quyết định mua hàng của họ. Độ chính xác đề cập đến mức độ dữ
liệu mô tả các điều kiện trong thế giới thực mà nó muốn mô tả. Dữ liệu không chính xác rõ
ràng sẽ tạo ra các vấn đề vì nó có thể khiến bạn đưa ra kết luận không chính xác. Những
hành động bạn thực hiện dựa trên những kết luận đó có thể không mang lại hiệu quả như
bạn mong đợi vì chúng dựa trên dữ liệu không chính xác. Chẳng hạn: Dữ liệu có thể khiến
các nhà tiếp thị tin rằng khách hàng của họ chủ yếu là phụ nữ ở độ tuổi 20. Nếu dữ liệu đó
không chính xác và khách hàng của họ thực sự chủ yếu là nam giới ở độ tuổi 40 thì cuối
cùng họ sẽ nhắm mục tiêu sai nhóm với quảng cáo của mình.

Đề cập đến các giao dịch kinh doanh hoặc thay đổi trạng thái khi chúng xảy ra trong
thời gian thực. Độ chính xác cần được đo lường thông qua tài liệu nguồn (tức là từ các
283
tương tác kinh doanh), nhưng nếu không có sẵn, thì thông qua các kỹ thuật xác nhận có tính
chất độc lập. Nó sẽ cho biết liệu dữ liệu có bị lỗi nghiêm trọng hay không. Một số liệu điển
hình để đo độ chính xác là tỷ lệ dữ liệu so với lỗi, theo dõi lượng lỗi đã biết (như mục nhập
bị thiếu, không đầy đủ hoặc thừa) tương đối với tập dữ liệu. Tỷ lệ này tất nhiên sẽ tăng lên
theo thời gian, chứng tỏ rằng chất lượng dữ liệu của bạn ngày càng tốt hơn. Không có tỷ lệ
cụ thể giữa dữ liệu và lỗi, vì nó phụ thuộc rất nhiều vào kích thước và tính chất của tập dữ
liệu của bạn và tất nhiên tỷ lệ này càng cao càng tốt.

Tính nhất quán của dữ liệu:

Khi so sánh một mục dữ liệu hoặc một phần nội dung của nó trên nhiều tập dữ liệu
nguồn hoặc cơ sở dữ liệu nguồn thì dữ liệu đó phải giống nhau. Sự không có khác biệt này
giữa nhiều thể hiện của một mục dữ liệu được gọi là tính nhất quán. Một mục dữ liệu phải
nhất quán cả về nội dung và định dạng của nó. Nếu dữ liệu của bạn không nhất quán, các
nhóm khác nhau có thể đang hoạt động theo các giả định khác nhau về chỉ một vấn đề thực.
Điều này có nghĩa là các bộ phận khác nhau trong công ty của bạn sẽ không được phối hợp
tốt mà thậm chí có thể vô tình làm việc chống lại nhau.

Nói một cách chính xác, tính nhất quán chỉ định rằng hai giá trị dữ liệu được lấy từ
các tập dữ liệu riêng biệt không được xung đột với nhau. Tuy nhiên, tính nhất quán không
tự động bao hàm tính đúng đắn. Một ví dụ về tính nhất quán đó là một quy tắc sẽ xác định
rằng tổng số nhân viên trong mỗi bộ phận của một công ty sẽ không bao giờ vượt quá tổng
số nhân viên trong toàn bộ công ty đó.

Tính đầy đủ của dữ liệu:

Nếu dữ liệu đầy đủ thì sẽ không có bất kỳ nội dung nào liên quan bị bỏ trống trong
đó. Điều này có nghĩa là mọi thứ cần phải thu thập đã được thu thập hoàn chỉnh. Chẳng hạn
nếu khách hàng bỏ qua một số câu hỏi trong cuộc khảo sát, thì dữ liệu họ gửi sẽ không đầy
đủ. Nếu dữ liệu của bạn không đầy đủ, bạn có thể gặp khó khăn khi thu thập thông tin chi
tiết chính xác từ dữ liệu đó. Nếu ai đó bỏ qua một số câu hỏi trong cuộc khảo sát, điều đó
có thể khiến phần còn lại của thông tin mà họ cung cấp ít hữu ích hơn. Ví dụ nếu người trả
lời không trả lời về tuổi của họ thì sẽ rất khó để nhắm mục tiêu nội dung đến những khách
hàng dựa trên độ tuổi của họ.

Tính đầy đủ sẽ cho biết là liệu chúng ta có đủ thông tin để đưa ra kết luận hay không.
Tính đầy đủ có thể được đo lường bằng cách xác định xem mỗi mục nhập dữ liệu có phải
284
là mục nhập dữ liệu “hoàn toàn đầy đủ” hay không. Tất cả các trường nhập dữ liệu có sẵn
phải đầy đủ và bộ hồ sơ dữ liệu không được thiếu bất kỳ thông tin thích hợp nào. Một cách
đo lường chỉ số này khá đơn giản mà chúng ta có thể sử dụng là số lượng giá trị trống trong
tập dữ liệu.

Tính toàn vẹn hay tính hợp lệ của dữ liệu:

Tính toàn vẹn hay tính hợp lệ đề cập đến cách dữ liệu được thu thập chứ không phải
là bản thân dữ liệu. Dữ liệu hợp lệ hay toàn vẹn nếu nó ở đúng định dạng, đúng loại và nằm
trong phạm vi phù hợp. Nếu dữ liệu không đáp ứng các tiêu chí này, chúng ta có thể gặp
khó khăn khi tổ chức và phân tích dựa vào nó. Một số phần mềm có thể giúp bạn chuyển
đổi dữ liệu sang định dạng chính xác. Ví dụ: nếu bạn đang thu thập dữ liệu về thời gian
trong ngày mà người dùng truy cập trang web của bạn, bạn phải quyết định định dạng bạn
sẽ sử dụng dạng thời gian 24 giờ và đồng nhất sử dụng hai chữ số cho phút, hai chữ số cho
giờ. Dữ liệu không tuân theo định dạng này sẽ không hợp lệ hay không toàn vẹn.

Như vậy, tính toàn vẹn đề cập đến việc kiểm tra cấu trúc của dữ liệu để đảm bảo rằng
dữ liệu tuân thủ các quy định. Điều này cũng đồng nghĩa là không có lỗi dữ liệu ngoài ý
muốn và nó phù hợp với các thiết lập đã được xác định sẵn. Do đó, tính toàn vẹn của dữ
liệu phụ thuộc vào tỷ lệ lỗi chuyển đổi dữ liệu. Chúng có thể được đo lường thông qua số
lượng hoạt động chuyển đổi dữ liệu tương đối không thành công. Hay nói cách khác, đó
chính là tần suất quá trình lấy dữ liệu được lưu trữ ở một định dạng và chuyển đổi nó sang
một định dạng khác không được thực hiện thành công.

Tính kịp thời của dữ liệu:

Tính kịp thời đề cập đến việc sự kiện mà dữ liệu đại diện đã xảy ra gần đây như thế
nào. Nói chung, dữ liệu phải được ghi lại càng sớm càng tốt ngay sau khi sự kiện trong thế
giới thực xảy ra. Dữ liệu thường trở nên ít hữu ích và kém chính xác hơn theo thời gian. Dữ
liệu phản ánh các sự kiện xảy ra gần đây có nhiều khả năng phản ánh thực tế của hiện tại
hơn. Sử dụng dữ liệu lỗi thời có thể dẫn đến kết quả không chính xác và thực hiện các hành
động không phản ánh thực tế hiện tại.

Tính kịp thời tương ứng với kỳ vọng về tính sẵn có và khả năng tiếp cận của thông
tin. Nói cách khác, nó đo lường khoảng thời gian giữa thời điểm dữ liệu được mong đợi và
thời điểm khi dữ liệu có sẵn để sử dụng. Một cách để đánh giá tính kịp thời là giá trị về
khoảng thời gian từ thời điểm ghi nhận dữ liệu đến giá trị thực của dữ liệu. Đây là điều cần
285
thiết để đo lường và tối ưu hóa thời gian này, vì nó có nhiều tác động đối với sự thành công
của một doanh nghiệp. Thời điểm tốt nhất để có được thông tin có giá trị của dữ liệu luôn
luôn là bây giờ hay là hiện tại. Vì vậy chúng ta có quyền truy cập thông tin đó càng sớm
càng tốt.

2.2. Quản lý chất lượng dữ liệu kinh doanh

Chất lượng dữ liệu kinh doanh của doanh nghiệp hay của ngành đóng vai trò quyết
định đến hiệu quả hoạt động của nó. Chính vì vậy, việc xây dựng các chỉ tiêu chất lượng
dữ liệu kinh doanh cho riêng mình cũng như các thao tác xử lý dữ liệu để đạt chất lượng
cao hơn là một nội dung hết sức quan trọng trong toàn bộ hoạt động quản lý dữ liệu, đặc
biệt là trong quản lý dữ liệu lớn như hiện nay. Đó chính là những vấn đề thuộc phạm vi của
quản lý chất lượng dữ liệu nói chung và quản lý chất lượng dữ liệu kinh doanh cho doanh
nghiệp nói riêng.

a). Quản lý chất lượng dữ liệu kinh doanh:

Quản lý chất lượng dữ liệu nói chung là một tập hợp các hoạt động thực tiễn nhằm
duy trì chất lượng cao của dữ liệu, thông tin. Quản lý chất lượng dữ liệu bao gồm tất cả các
bước từ việc thu thập dữ liệu và thực hiện các quy trình dữ liệu nâng cao, đến phân phối dữ
liệu hiệu quả. Nó cũng đòi hỏi sự giám sát của người quản lý đối với dữ liệu, thông tin đang
có. Quản lý chất lượng dữ liệu hiệu quả được đánh giá là điều cần thiết đối với bất kỳ phân
tích dữ liệu nhất quán nào bởi vì chất lượng dữ liệu là vô cùng quan trọng làm cơ sở cho
các quyết định đúng đắn hay các quyết định có chất lượng.

Trong lĩnh vực kinh doanh, quản lý chất lượng dữ liệu kinh doanh đề cập đến một
nguyên tắc kinh doanh đòi hỏi sự kết hợp của tất cả những người, quy trình và công nghệ
phù hợp với mục tiêu chung là cải thiện các thước đo chất lượng dữ liệu quan trọng nhất
đối với một tổ chức doanh nghiệp. Mục đích quan trọng cuối cùng của quản lý chất lượng
dữ liệu kinh doanh không chỉ là cải thiện chất lượng dữ liệu vì những lợi ích của dữ liệu
chất lượng cao mang lại mà còn để đạt được mục tiêu cũng như kết quả kinh doanh mong
đợi dựa trên nền tảng sử dụng dữ liệu kinh doanh chất lượng cao.

Trong thời đại cách mạng công nghiệp 4.0, dữ liệu lớn là một thành phần quan trọng
của hoạt động kinh doanh. Nó cung cấp thông tin chi tiết về khách hàng, về đối thủ cạnh
tranh mà những thông tin này không thể có được bằng bất kỳ công cụ kỹ thuật hoặc nguồn
tài nguyên nào khác. Do tốc độ cao, các nhà lãnh đạo doanh nghiệp có thể truy cập được
286
dữ liệu lớn và họ có thể sử dụng nó để đưa ra quyết định ngay tức thì (quyết định trong thời
gian thực). Tuy nhiên, cũng vì lý do đó mà nó cũng đi kèm với các rủi ro kinh doanh mà
những rủi ro này rất cần được quản lý đúng cách. Trong trường hợp này thì quản lý chất
lượng dữ liệu kinh doanh là một trong những công cụ hiệu quả để đạt được mục tiêu đó.

b). Vai trò của quản lý chất lượng dữ liệu kinh doanh:

Quản lý chất lượng dữ liệu kinh doanh là một quy trình thiết yếu để có thể hiểu dữ
liệu kinh doanh của tổ chức, điều này cuối cùng có thể giúp cho lợi nhuận của doanh nghiệp
đạt hiệu quả bởi vì các lý do:

- Thứ nhất, quản lý chất lượng dữ liệu kinh doanh tốt xây dựng nền tảng cho tất cả
các sáng kiến kinh doanh. Dữ liệu kinh doanh lỗi thời hoặc không đáng tin cậy có thể dẫn
đến sai lầm tiếp nối sai lầm. Chương trình quản lý chất lượng dữ liệu kinh doanh sẽ thiết
lập một khuôn khổ cho tất cả các bộ phận trong tổ chức nhằm cung cấp và thực thi các quy
tắc về chất lượng dữ liệu kinh doanh.

- Thứ hai, dữ liệu kinh doanh chính xác và được cập nhật sẽ cung cấp bức tranh rõ
ràng về hoạt động hàng ngày của công ty để mọi người có thể tin tưởng vào các ứng dụng
lõi hay các ứng dụng phía người dùng cuối khi các ứng dụng này sử dụng tất cả dữ liệu kinh
doanh có chất lượng đó. Quản lý chất lượng dữ liệu kinh doanh cũng góp phần cắt giảm
các chi phí không cần thiết cho doanh nghiệp. Chất lượng dữ liệu kém có thể dẫn đến những
sai lầm và sơ suất làm tăng chi phí hoạt động. Quản lý chất lượng dữ liệu kinh doanh xây
dựng một nền tảng thông tin cho phép người sử dụng hiểu tổ chức và chi phí của tổ chức
bằng cách nắm chắc dữ liệu kinh doanh của tổ chức.

- Thứ ba, tổ chức cần quản lý chất lượng dữ liệu kinh doanh để đáp ứng các mục tiêu
về tuân thủ và kiểm soát rủi ro. Quản lý dữ liệu kinh doanh tốt yêu cầu các thủ tục và thông
tin liên lạc phải rõ ràng, cũng như dữ liệu kinh doanh cơ bản tốt. Ví dụ, bộ phận quản trị dữ
liệu kinh doanh có thể xác định điều gì nên được coi là “chấp nhận được” đối với sức khỏe
của dữ liệu kinh doanh. Nhưng làm thế nào để có thể xác định nó trong cơ sở dữ liệu kinh
doanh? Chúng ta cần giám sát và thực thi các chính sách như thế nào?

Chất lượng dữ liệu kinh doanh là một phần quan trọng trong việc triển khai khuôn
khổ quản trị dữ liệu kinh doanh. Và quản lý chất lượng dữ liệu kinh doanh tốt hỗ trợ người
quản lý dữ liệu thực hiện công việc của họ. Nhìn chung, quản lý chất lượng dữ liệu kinh
doanh mang lại nhiều lợi ích cho doanh nghiệp, chẳng hạn:
287
- Các quy trình kinh doanh được thực thi hiệu quả hơn do những người thực hiện nhận
được dữ liệu phù hợp ngay từ lần đầu tiên.

- Kết quả kinh doanh của doanh nghiệp tốt hơn do quản lý chất lượng dữ liệu kinh
doanh cung cấp cho những nhà quản lý cái nhìn tốt hơn về những gì đang diễn ra với
khách hàng, nhà cung cấp, nhà tiếp thị, v.v.. của họ.

- Các nhà quản lý tự tin hơn bởi quản lý chất lượng dữ liệu kinh doanh giúp họ đưa ra
các quyết định kinh doanh sáng suốt hơn.

Tuy nhiên, điều quan trọng cần lưu ý đó là: Quản lý chất lượng dữ liệu kinh doanh là
một quá trình liên tục đòi hỏi phải theo dõi và báo cáo dữ liệu kinh doanh một cách liên tục.

2.3. Những nhân tố ảnh hưởng tích cực đến quản lý chất lượng dữ liệu kinh doanh

Chúng ta đã hiểu tầm quan trọng của dữ liệu kinh doanh chất lượng cao và muốn thực
hiện hành động để củng cố nền tảng dữ liệu kinh doanh cho doanh nghiệp của mình, hãy
xem các nhân tố có ảnh hưởng tích cực đến nó.

a). Nhân tố con người:

Công nghệ chỉ có thể hiệu quả khi có những cá nhân thực hiện công nghệ đó. Chúng
ta có thể hoạt động trong một xã hội kinh doanh có công nghệ tiên tiến, nhưng sự giám sát
của con người và việc thực hiện quy trình vẫn chưa bị lỗi thời. Do đó, có một số nhóm
nguồn nhân lực với vai trò quản lý chất lượng dữ liệu kinh doanh vẫn rất cần được đảm
bảo. Các nhóm nguồn nhân lực này bao gồm:

- Người quản lý chương trình quản lý chất lượng dữ liệu kinh doanh: Vai trò người
quản lý chương trình quản lý chất lượng dữ liệu kinh doanh nên được đảm nhiệm bởi một
nhà lãnh đạo cấp cao, người nhận trách nhiệm giám sát chung đối với các sáng kiến kinh
doanh. Người này cũng nên giám sát việc quản lý các hoạt động hàng ngày liên quan đến
phạm vi dữ liệu, ngân sách dự án và hiện thực chương trình. Người quản lý chương trình
quản lý chất lượng dữ liệu kinh doanh nên là người có tầm nhìn hàng đầu về dữ liệu kinh
doanh chất lượng và những lợi ích tài chính mà nó mang lại cho doanh nghiệp.

- Người quản lý sự thay đổi của tổ chức: Người quản lý sự thay đổi của tổ chức thực
hiện nhiệm vụ đúng như tiêu đề của nó đó là “tổ chức”. Người quản lý sự thay đổi của tổ
chức sẽ hỗ trợ việc tổ chức bằng cách cung cấp sự rõ ràng và sâu sắc về các giải pháp công
nghệ dữ liệu tiên tiến. Các vấn đề chất lượng thường được đặc biệt quan tâm khi sử dụng
288
các phần mềm dạng bảng điều khiển, do vậy người quản lý sự thay đổi đóng một vai trò
quan trọng trong việc hình dung về chất lượng dữ liệu.

- Người phân tích dữ liệu, phân tích tiến trình kinh doanh: Người phân tích dữ liệu,
phân tích tiến trình kinh doanh là nguồn nhân lực đóng vai trò chủ lực trong quản lý chất
lượng dữ liệu kinh doanh của doanh nghiệp. Những người này sẽ xác định nhu cầu chất
lượng từ góc độ của tổ chức. Những nhu cầu này sau đó được lượng hóa thành các mô hình
dữ liệu để tiến hành thu nhận và phân phối chúng. Đội ngũ những người phân tích dữ liệu,
phân tích tiến trình kinh doanh sẽ đảm bảo sự truyền đạt và kiểm soát về tiêu chuẩn chất
lượng dữ liệu kinh doanh cho nhóm phát triển ứng dụng.

b). Nhân tố hồ sơ dữ liệu kinh doanh:

Hồ sơ dữ liệu kinh doanh là một nhân tố thiết yếu của quá trình quản lý chất lượng
dữ liệu kinh doanh. Hồ sơ dữ liệu kinh doanh bao gồm:

- Nội dung dữ liệu kinh doanh chi tiết;

- Sự so sánh và đối chiếu dữ liệu kinh doanh với siêu dữ liệu kinh doanh của chính nó;

- Kết quả chạy các mô hình thống kê;

- Báo cáo chất lượng của dữ liệu kinh doanh.

Việc lập hồ sơ dữ liệu kinh doanh được thực hiện để có cái nhìn sâu sắc về dữ liệu
kinh doanh hiện có và so sánh nó với các mục tiêu của chất lượng dữ liệu. Hồ sơ dữ liệu
kinh doanh giúp các doanh nghiệp thiết lập điểm khởi đầu trong quy trình quản lý chất
lượng dữ liệu kinh doanh và đặt ra tiêu chuẩn về cách cải thiện chất lượng cho dữ liệu kinh
doanh của tổ chức. Xây dựng hồ sơ cho các chỉ số về chất lượng dữ liệu của dữ liệu kinh
doanh đầy đủ và chính xác là yêu cầu bắt buộc đối với việc lập hồ sơ dữ liệu kinh doanh.

c). Nhân tố tiêu chuẩn chất lượng dữ liệu kinh doanh:

Tiêu chuẩn chất lượng dữ liệu kinh doanh được hiện thực thông qua bộ quy tắc về
chất lượng dữ liệu kinh doanh. Quy tắc về chất lượng dữ liệu kinh doanh phải được tạo lập
và xác định dựa trên các mục tiêu và yêu cầu kinh doanh. Đây là các quy tắc kinh doanh
hoặc các quy tắc mang tính kỹ thuật mà dữ liệu kinh doanh phải tuân thủ để được coi là có
chất lượng.

289
Như vậy, các yêu cầu kinh doanh sẽ là cơ sở quan trọng để xây dựng nhân tố này vì
nó còn phụ thuộc vào từng ngành kinh doanh. Việc phát triển các quy tắc chất lượng dữ
liệu kinh doanh là điều cần thiết cho sự thành công của bất kỳ quy trình quản lý chất lượng
dữ liệu kinh doanh nào, vì các quy tắc này sẽ phát hiện và ngăn chặn dữ liệu bị xâm phạm
có thể ảnh hưởng đến toàn bộ dữ liệu kinh doanh của đơn vị.

Giống như các kháng thể phát hiện và sửa chữa vi rút trong cơ thể của chúng ta, các
quy tắc về chất lượng dữ liệu kinh doanh sẽ khắc phục được sự không nhất quán giữa các
dữ liệu kinh doanh có giá trị. Khi được kết hợp với các công cụ kinh doanh thông minh trực
tuyến thì các quy tắc chất lượng này có thể là chìa khóa trong việc dự đoán xu hướng và
lập báo cáo phân tích.

d). Nhân tố báo cáo dữ liệu:

Báo cáo quản lý chất lượng dữ liệu kinh doanh là quá trình xóa và ghi lại tất cả dữ
liệu kinh doanh có thể bị xâm phạm. Điều này nên được thiết kế để tuân theo như một quá
trình tự nhiên thực thi các quy tắc về chất lượng dữ liệu kinh doanh. Khi các ngoại lệ đã
được xác định và nắm bắt, chúng nên được tổng hợp lại để có thể xác định các mẫu dữ liệu
kinh doanh có chất lượng. Các điểm dữ liệu kinh doanh thu thập được phải được mô hình
hóa và xác định dựa trên các đặc điểm cụ thể (như theo quy tắc, theo ngày, theo nguồn,…).
Khi dữ liệu này được kiểm tra, nó có thể được kết nối với phần mềm báo cáo trực tuyến để
báo cáo về trạng thái chất lượng và các ngoại lệ tồn tại của dữ liệu trong bảng tổng quan.

Báo cáo và giám sát là mấu chốt về lợi ích tài chính của quản lý chất lượng dữ liệu
kinh doanh, vì chúng cung cấp khả năng hiển thị trạng thái dữ liệu kinh doanh bất kỳ lúc
nào trong thời gian thực. Bằng cách cho phép các doanh nghiệp xác định vị trí và vị trí của
các ngoại lệ dữ liệu kinh doanh, các nhóm chuyên gia dữ liệu có thể bắt đầu lập chiến lược
cho các quy trình khắc phục dữ liệu.

e). Nhân tố sự sửa chữa khắc phục dữ liệu:

Việc sửa chữa khắc phục dữ liệu là quá trình gồm hai bước nhằm xác định cách tốt
nhất để xử lý dữ liệu và phương pháp hiệu quả nhất để thực hiện sự thay đổi dữ liệu đó.

Vấn đề quan trọng nhất của việc khắc phục dữ liệu là thực hiện kiểm tra “nguyên
nhân gốc rễ” để xác định lý do tại sao, ở đâu và lỗi dữ liệu được bắt nguồn như thế nào. Chỉ
sau khi việc kiểm tra này được thực hiện thì kế hoạch khắc phục dữ liệu mới được bắt đầu.

290
Các quy trình dữ liệu mà quy trình này phụ thuộc vào dữ liệu bị lỗi trước đó có thể
sẽ cần phải được bắt đầu thực hiện lại, đặc biệt nếu việc thực hiện nó có nguy cơ hoặc bị
xâm phạm bởi dữ liệu đã bị đào thải. Đây cũng là điểm mà các quy tắc về chất lượng dữ
liệu kinh doanh cần được xem xét lại. Quá trình xem xét lại sẽ giúp xác định xem các quy
tắc có cần được điều chỉnh hoặc cập nhật lại hay không và nó sẽ giúp bắt đầu quá trình phát
triển dữ liệu kinh doanh. Khi dữ liệu kinh doanh được coi là chất lượng cao, các quy trình
và chức năng kinh doanh quan trọng sẽ được thực thi hiệu quả và chính xác hơn, với hiệu
quả tài chính mang lại cao hơn và chi phí hoạt động thấp hơn.

3. HIỆN THỰC VỀ QUẢN LÝ CHẤT LƯỢNG DỮ LIỆU KINH DOANH TẠI CÁC
DOANH NGHIỆP

3.1. Những thách thức khi hiện thực quản lý chất lượng dữ liệu kinh doanh

Không thể phủ nhận vai trò của chất lượng dữ liệu kinh doanh và nhiệm vụ quản lý
chất lượng dữ liệu kinh doanh đặc biệt là dữ liệu kinh doanh lớn đối với hiệu quả kinh
doanh của doanh nghiệp. Tuy nhiên, để hiện thực các vấn đề này vào trong thực tiễn hoạt
động doanh nghiệp, nhất là các doanh nghiệp vừa và nhỏ tại Việt nam cũng như các nước
đang phát triển khác trong một thời đại công nghệ mới cũng đang phải đối mặt với không
ít những thách thức trong việc chuyển đổi từ tri thức doanh nghiệp đến công nghệ.

a). Các thách thức từ chuyển đổi tri thức doanh nghiệp:

Việc chuyển đổi tri thức doanh nghiệp từ tri thức truyền thống, trực quan sang tri thức
doanh nghiệp số (tri thức số) với nhiều đối tượng “thực tế ảo” được mô hình hóa bằng công
nghệ số có thể nói là thách thức chung lớn nhất mà mọi doanh nghiệp đều phải đối mặt khi
tiến hành chuyển đổi số doanh nghiệp. Nhiều nguồn lực được mô hình hóa bằng công nghệ
số phát sinh khiến cho các doanh nghiệp phải đối mặt với một lượng lớn dữ liệu phát sinh
từ nhiều nguồn khác nhau với nhiều dạng khác nhau. Điều này cũng khiến doanh nghiệp
tiếp tục phải đối mặt với việc tích hợp và chuyển đổi dữ liệu.

b). Các thách thức từ chính dữ liệu kinh doanh của doanh nghiệp:

Việc tích hợp dữ liệu kinh doanh từ nhiều nguồn, nhiều địa điểm, nhiều thời điểm,
nhiều đối tượng trang thiết bị công nghệ khác nhau làm phát sinh nhanh chóng một lượng
dữ liệu kinh doanh khổng lồ với nhiều hình thức khác nhau. Kết quả là doanh nghiệp phải
nhanh chóng tiếp cận với quản lý dữ liệu lớn.

291
c). Các thách thức từ công nghệ mới:

Quản trị dữ liệu lớn hay chuyển đổi số doanh nghiệp đã đưa doanh nghiệp tiếp cận
với nhiều công nghệ mới từ trí tuệ nhân tạo, máy học đến điện toán đám mây rồi Internet
kết nối vận vật và hơn thế nữa. Kết quả là mô hình quản lý kinh doanh trên nền tảng doanh
nghiệp số tất yếu xuất hiện thay thế mô hình quản lý kinh doanh truyền thống.

3.2. Hiện thực các nội dung trong quản lý chất lượng dữ liệu kinh doanh

Đối với các doanh nghiệp bắt đầu quá trình quản lý chất lượng dữ liệu kinh doanh thì
một số nội dung công việc cơ bản sau rất cần được quan tâm hiện thực:

a). Xem xét lại dữ liệu kinh doanh hiện tại của doanh nghiệp:

Có thể doanh nghiệp có nhiều dữ liệu liên quan đến khách hàng để bắt đầu và chúng
ta không muốn vứt bỏ nó để bắt đầu lại, nhưng đúng như vấn đề được đề cập trong thế giới
công nghệ đó là: Rác vào, rác ra. Điều cuối cùng chúng ta cần là lấp đầy cơ sở hạ tầng dữ
liệu kinh doanh mới của doanh nghiệp mình chính là bằng những thông tin chi tiết chưa tốt.
Do đó, khi chúng ta bắt đầu với quản lý chất lượng dữ liệu kinh doanh, hãy kiểm tra dữ liệu
kinh doanh hiện tại của doanh nghiệp mình. Điều này liên quan đến việc kiểm kê các điểm
không nhất quán, sai sót, trùng lặp, tiến hành ghi chép lại để sửa chữa bất kỳ vấn đề nào mà
chúng ta gặp phải để đảm bảo rằng dữ liệu kinh doanh đi vào cơ sở hạ tầng của doanh
nghiệp phải là dữ liệu có chất lượng cao nhất có thể.

b). Thiết lập bức tường lửa cho chất lượng dữ liệu kinh doanh:

Tường lửa là một quá trình tự động ngăn và chặn một đám cháy theo nghĩa bóng.
Trong trường hợp này, ngọn lửa là dữ liệu xấu. Việc thiết lập một bức tường lửa để bảo vệ
tổ chức của bạn khỏi dữ liệu xấu sẽ giúp giữ cho hệ thống không bị lỗi. Lỗi người sử dụng
thường rất dễ xảy ra và tường lửa sẽ giúp ngăn chặn quá trình này bằng cách chặn dữ liệu
xấu tại điểm xâm nhập. Số lượng người được phép cung cấp dữ liệu vào cơ sở hạ tầng ảnh
hưởng phần lớn đến chất lượng của dữ liệu kinh doanh. Tuy nhiên, đối với các doanh nghiệp
lớn thường bắt buộc phải có nhiều điểm đầu vào. Trong trường hợp này, tường lửa sẽ giúp
dữ liệu không bị lỗi ngay cả khi có một số người có quyền truy cập để nhập dữ liệu.

c). Tích hợp quản trị chất lượng dữ liệu kinh doanh với kinh doanh thông minh:

Khi các hệ thống làm việc cùng nhau, chúng sẽ hoạt động tốt hơn. Ý tưởng ở đây là
không một doanh nghiệp kinh doanh nào có thể biện minh cho các nguồn lực cần thiết để
292
lược bỏ chính xác từng bản ghi dữ liệu ở mọi lúc. Nhưng tích hợp quy trình quản lý chất
lượng dữ liệu kinh doanh với phần mềm kinh doanh thông minh có thể giúp tự động hóa
được hệ thống. Dựa trên các tham số xác định trước, một số bộ dữ liệu nhất định có thể
được phân lập để xem xét. Chẳng hạn, các tập dữ liệu mới có khả năng được truy cập thường
xuyên sẽ được kiểm tra như một phần của chu trình quản lý chất lượng dữ liệu kinh doanh.

d). Bố trí nhân lực đúng vị trí:

Như chúng ta đã biết có một số vị trí trong doanh nghiệp có trách nhiệm giải trình về
quy trình chất lượng dữ liệu kinh doanh. Hãy đảm bảo rằng các vị trí này được bố trí đúng
nhân lực và họ phải tận tâm với công việc. Điều này có nghĩa là sự đảm bảo các tiêu chuẩn
quản trị có thể được đáp ứng một cách nhất quán trong toàn bộ hệ thống.

e). Tổ chức bộ phận đảm bảo quản trị dữ liệu kinh doanh:

Việc tổ chức một bộ phận quản trị dữ liệu kinh doanh sẽ giúp bảo vệ doanh nghiệp
khỏi rủi ro khi đưa ra các quyết định dựa trên dữ liệu kinh doanh của mình. Bộ phận này
phải bao gồm giám đốc điều hành, các giám đốc quản lý bộ phận cùng những người sử
dụng Công nghệ thông tin trong doanh nghiệp. Nhóm sẽ thiết lập các chính sách và tiêu
chuẩn làm nền tảng cho quản trị dữ liệu kinh doanh. Ngoài ra, bộ phận quản trị dữ liệu kinh
doanh nên họp định kỳ để đặt ra các mục tiêu chất lượng dữ liệu kinh doanh mới và theo
dõi sự thành công của các sáng kiến về quản lý chất lượng dữ liệu kinh doanh trên các nền
tảng ứng dụng khác nhau. Đây là lúc mà việc phát triển một thang đo lường khách quan trở
nên hữu ích nhằm mục tiêu cải thiện chất lượng dữ liệu kinh doanh hiện hữu.

3.3. Một số khuyến nghị nhằm hỗ trợ hiện thực quản lý chất lượng dữ liệu kinh doanh
cho các doanh nghiệp

Để giúp các doanh nghiệp Việt nam có thể hiện thực quản lý chất lượng dữ liệu kinh
doanh cho mình một cách hiệu quả, một số khuyến nghị sau đây sẽ là cơ sở để các doanh
nghiệp có thể tham khảo và vận dụng vào cho đơn vị của mình.

- Xác định cụ thể các mục tiêu của quản trị chất lượng dữ liệu kinh doanh đối với
hoạt động quản lý dữ liệu kinh doanh và mở rộng đến quản lý kinh doanh của doanh nghiệp;

- Xây dựng kế hoạch, xác định chức năng, thiết lập cơ chế liên quan đến quản lý chất
lượng dữ liệu kinh doanh một cách chi tiết;

293
- Xem xét đánh giá chi tiết các nhân tố có ảnh hưởng tích cực đến quá trình quản lý
chất lượng dữ liệu kinh doanh của doanh nghiệp và mở rộng xem xét ra toàn ngành;

- Xác định những khó khăn, thách thức để đánh giá tính khả khi của quá trình hiện
thực quản lý chất lượng dữ liệu kinh doanh một cách cẩn trong, chính xác;

- Phối hợp với các đơn vị có nền tảng quản lý dữ liệu tập trung uy tín để hỗ trợ, tư
vấn và tiếp cận hiện thực quản lý chất lượng dữ liệu kinh doanh của cho doanh nghiệp một
cách nhanh chóng và hiệu quả nhất

4. KẾT LUẬN

Bài viết này đã trình bày cơ bản một số vấn đề liên quan đến chất lượng dữ liệu kinh
doanh và quản lý chất lượng dữ liệu kinh doanh cho các doanh nghiệp. Kết quả phân tích,
đánh giá và trình bày trong bài tham luận cho thấy:

- Chất lượng dữ liệu kinh doanh là vô cùng quan trọng và có tính quyết định đối với
hiệu quả hoạt động của doanh nghiệp trong bối cảnh dữ liệu kinh doanh lớn như hiện nay;

- Việc đo lường chất lượng dữ liệu kinh doanh đối với từng doanh nghiệp được thực
hiện trên cơ sở bộ tiêu chí về chất lượng dữ liệu kinh doanh được xây dựng riêng cho từng
doanh nghiệp và phù hợp với từng ngành kinh tế;

- Tuy nhiên thực tiễn hiện nay tại Việt nam nói chung và tại khu vực Thành phố Hồ
Chí Minh nói riêng, sự hiểu biết về chất lượng dữ liệu kinh doanh cũng như quản lý chất
dữ liệu kinh doanh vẫn còn nhiều hạn chế trên cả hai phương diện lý luận và thực tiễn;

- Việc hiện thực quản lý chất lượng dữ liệu kinh doanh trong hiện thực quản lý dữ liệu
kinh doanh cho các doanh nghiệp Việt nam để góp nâng cao hiệu quả hoạt động cho doanh
nghiệp nói riêng và cho cả ngành kinh doanh nói chung đang còn rất hạn chế và ở mức độ
sơ khai.

Trên cơ sở của sự phân tích, đánh giá và trình bày các nội dung liên quan đến chất
lượng dữ liệu kinh doanh, quản lý chất lượng dữ liệu kinh doanh và vai trò của chúng đối
với hoạt động của doanh nghiệp Việt nam nói riêng, các doanh nghiệp, tổ chức nói chung,
bài tham luận đã đề xuất một số hàm ý khuyến nghị tham khảo cho các doanh nghiệp khi
muốn hiện thực quản lý chất lượng dữ liệu kinh doanh cho đơn vị để đáp ứng những đòi
hỏi của quản lý dữ liệu kinh doanh lớn trong thời đại cúa cuộc cách mạng công nghiệp 4.0
hiện nay..
294
TÀI LIỆU THAM KHẢO

[1] DAMA International (2017), DAMA-DMBOK Data management body of knowledge


(Second Edition), DAMA Pub.
[2] Laura S.C for DAMA International (2015), Navigating the Labyrinth - An Executive
Guide to Data Management, DAMA Pub.
[3] Laura S.C for DAMA International (2018), Measuring Data Quality for Ongoing
Improvement, DAMA Pub.
[4] https://oqrmmodel.wordpress.com/2013/03/10/what-is-quality-of-data/
[5] https://www.forbes.com/sites/forbesinsights/2017/06/05/the-importance-of-data-
quality-good-bad-or-ugly/?sh=7d49427e10c4
[6] https://www.edq.com/glossary/data-quality-importance/
[7] https://www.lotame.com/why-is-data-quality-important/
[8] https://www.scnsoft.com/blog/guide-to-data-quality-management
[9] https://www.bmc.com/blogs/what-is-data-quality-management/
[10] https://www.datapine.com/blog/data-quality-management-and-metrics/
[11]https://www.sas.com/en_au/insights/articles/data-management/data-quality-
management-what-you-need-to-know.html

295
NHU CẦU NGUỒN NHÂN LỰC PHÁT TRIỂN KHOA HỌC DỮ LIỆU VÀ
TRÍ TUỆ NHÂN TẠO TRONG THỜI ĐẠI KINH TẾ SỐ

Trương Xuân Hương, Lâm Hoàng Trúc Mai, Trần Thanh San
Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: tx.huong@ufm.edu.vn, lht.mai@ufm.edu.vn, san.tranthanh@ufm.edu.vn

Tóm tắt: Ngày nay cùng với xu thế hội nhập kinh tế toàn cầu, phát triển hoạt động kinh doanh
theo mô hình kinh tế số là chiến lược chủ đạo được các tổ chức, doanh nghiệp tập trung đầu tư.
Nguồn nhân lực trong lĩnh vực khoa học dữ liệu (Data Science) và trí tuệ nhân tạo (Artificial
Intelligence) đang rất được quan tâm và trở thành tiêu chí ưu tiên trong việc tuyển dụng đội ngũ
phát triển hệ thống thông tin theo định hướng chuyển đổi số và nền kinh tế thông minh. Bài viết
tập trung các nội dung chính liên quan đến phân tích xu thế phát triển và nhu cầu nguồn nhân lực
trong lĩnh vực khoa học dữ liệu – trí tuệ nhân đáp ứng nhu cầu xã hội thích ứng với thời đại 4.0.

Từ khóa: khoa học dữ liệu (Data Science), kinh tế số, trí tuệ nhân tạo (Artificial Intelligence).

1. GIỚI THIỆU CHUNG VỀ LĨNH VỰC KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ
NHÂN TẠO

Khoa học dữ liệu (Data Science) là lĩnh vực khoa học ứng dụng quản trị và phân tích
các nguồn dữ liệu thu thập được liên quan đến phạm vi nghiên cứu, từ đó khai thác các giá
trị thông tin tiềm năng để tìm ra các tri thức từ hành vi của đối tượng muốn tiếp cận, các tri
thức phục vụ ra quyết định dẫn dắt hành động cho người quản trị. Hoạt động nghiên cứu
lĩnh vực Data Science bản chất là việc tiến hành: Tạo ra và quản trị dữ liệu, phân tích dữ
liệu, và chuyển kết quả phân tích thành giá trị của hành động. Vì vậy khai thác dữ liệu từ
Data Science thực chất bao gồm 2 bước: thứ nhất là số hóa dữ liệu và thứ hai là sử dụng giá
trị tri thức khai thác từ dữ liệu hỗ trợ ra quyết định. Việc phân tích và dùng dữ liệu lại dựa
vào ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri
thức của lĩnh vực ứng dụng cụ thể.

Trí tuệ nhân tạo (Artificial intelligence – AI) là một ngành thuộc lĩnh vực khoa học
máy tính. Là trí tuệ do con người lập trình tạo nên với mục tiêu giúp máy tính có thể tự
động hóa các hành vi thông minh như con người. Trí tuệ nhân tạo khác với việc lập trình
logic trong các ngôn ngữ lập trình là ở việc ứng dụng các hệ thống học máy (machine
learning) để mô phỏng trí tuệ của con người trong các xử lý mà con người làm tốt hơn máy
tính. Cụ thể, trí tuệ nhân tạo giúp máy tính có được những trí tuệ của con người như: biết
296
suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn ngữ, tiếng nói, biết
học và tự thích nghi, …

Ngày nay, khoa học dữ liệu (Data Science) trở thành một trong những ngành có nhu
cầu nhân lực cao nhất ở thế kỷ XXI. Khái niệm khoa học dữ liệu gắn liền với trí tuệ nhân
tạo trong nội dung nghiên cứu về các chiến lược phát triển kinh doanh thông minh. Điều
này cho thấy, ngoài việc thu thập và phân tích dữ liệu, việc đưa ra các quyết định thông
minh vận dụng các thuật toán máy học từ việc khai thác nguồn tri thức tiềm năng là xu thế
tất yếu để phát triển của các tổ chức, doanh nghiệp trong nền kinh tế số hóa toàn cầu.

Hình 1: Giới thiệu chung về lĩnh vực Khoa học dữ liệu và Trí tuệ nhân tạo.

2. XU THẾ ĐÀO TẠO KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ NHÂN TẠO TRONG
THỜI ĐẠI KINH TẾ SỐ

Dưới những bước tiến mạnh mẽ của thành tựu của khoa học công nghệ, đặc biệt là
công nghệ thông tin và viễn thông (ICT), những công nghệ mới như trí tuệ nhân tạo, dữ
liệu lớn (big data) bắt đầu có nhiều ứng dụng trong hoạt động sản xuất kinh doanh và phân
tích kinh tế. Điều này góp phần thúc đẩy quá trình nghiên cứu và đào tạo về công nghệ ứng
dụng trong kinh tế. Ngày càng có nhiều doanh nghiệp quan tâm hơn tới ngành khoa học dữ
liệu và họ sẵn sàng đầu tư cho việc nghiên cứu, đào tạo và phát triển đội ngũ nhân lực phù
hợp với nhu cầu tuyển dụng.

297
Hình 2: Khoa học dữ liệu

Trong một nghiên cứu của O'Reilly, một trong những nhà phát hành chuyên về mảng
công nghệ và khoa học máy tính, có 4 dạng nhà khoa học dữ liệu tiêu biểu được định hướng
phát triển, cụ thể:

Doanh nhân (Data Businesspeople): Quan tâm vào sản phẩm và phát triển lợi nhuận,
họ là các nhà lãnh đạo, nhà quản lý và doanh nhân có sự am hiểu về mặt kỹ thuật. Đa phần
đều có nền tảng giáo dục xuất phát bằng kỹ sư kết hợp với một MBA.

Nhà sáng tạo (Data Creatives): Có nhiều thế mạnh và kinh nghiệm với nhiều dạng
dữ liệu và công cụ. Điểm nhấn thường thấy là sự linh hoạt trong việc vận dụng các công
nghệ trực quan (Visualization Techonology) và mã nguồn mở, sáng tạo trong việc khai thác
tiềm năng từ nguồn dữ liệu có sẵn và đưa ra có giải pháp sáng kiến hiệu quả.

Nhà phát triển (Data Developers): Nhà phát triển dữ liệu thường tập trung vào việc
viết phần mềm để làm phân tích, thống kê, và nhiệm vụ học máy, thường xuyên trong môi
trường sản xuất. Họ thường có trình độ khoa học máy tính, có kinh nghiệm xử lý và thường
xuyên làm việc với “dữ liệu lớn" (Big Data).

Nhà nghiên cứu (Data Researchers): Đó là những người áp dụng những kỹ năng
được đào tạo trong khoa học cùng với các công cụ và kỹ thuật, số liệu. Một số có bằng tiến
sĩ, và các ứng dụng sáng tạo các công cụ toán học mang lại những hiểu biết và sản phẩm có
giá trị.
298
Tại Việt Nam, với định hướng đa ngành, đa lĩnh vực và cung cấp các chương trình
đào tạo đáp ứng yêu cầu mới của quá trình chuyển đổi số, xu thế phát triển nguồn nhân lực
chất lượng cao trong lĩnh vực Data Science&Artificial Intelligence rất được quan tâm nhằm
đáp ứng phù hợp với các yêu cầu từ nền kinh tế số. Một số trường như Đại học Công Nghệ,
Đại học Khoa học tự nhiên, Đại học Sư phạm (Hà Nội) cũng đã từng bước đưa vào chương
trình giảng dạy, hướng dẫn và đào tạo sinh viên, đồng thời cũng nghiên cứu và công bố các
công trình liên quan tới lĩnh vực này. Nhiều nhóm nghiên cứu tại các đơn vị đào tạo được
thành lập như TS. Lê Hoàng Sơn (Đại học Khoa học tự nhiên – Đại học quốc gia Hà Nội)
đang làm về phân cụm, phân nhóm, hay ở Viện toán ứng dụng và tin học, Viện thông tin
và truyền thông (Đại học Bách khoa Hà Nội) cũng đang nghiên cứu về dữ liệu lớn (big
data). Về các đơn vị bên ngoài, đặc biệt là các ngành như viễn thông, y tế, giáo dục, cũng
có các nhóm nghiên cứu riêng như trung tâm truyền hình VTV cab, tập đoàn giáo dục
Topica, tập đoàn Equest Academy hay là trung tâm Công nghệ thông tin của bộ Y tế.
(Phượng Nguyễn, 2017). Hai tập đoàn lớn luôn đồng hành trong việc đào tạo nhân lực phải
kể đến FPT và Tập đoàn Công nghiệp - Viễn thông quân đội (Viettel).

3. VỊ TRÍ VIỆC LÀM TRONG LĨNH VỰC KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ
NHÂN TẠO

Trong xu thế phát triển và hội nhập, ngày


nay chúng ta không thể bỏ qua tầm quan trọng
của dữ liệu cũng như khả năng phân tích, sắp
xếp và bối cảnh hóa dữ liệu. Dựa trên kho dữ
liệu việc làm khổng lồ và phản hồi của nhân
viên, Glassdoor xếp hạng Nhà khoa học dữ liệu
đứng số 1 trong danh sách 25 việc làm tốt nhất
ở Mỹ. Khi các công nghệ như Machine Learning
trở nên phổ biến hơn bao giờ hết và các nhà khoa
học dữ liệu tiếp tục làn sóng đổi mới và các tiến Hình 3: Data Science
bộ công nghệ đáng kinh ngạc.

Mặc dù có khả năng lập trình giỏi là rất quan trọng, nhưng khoa học dữ liệu không
phải là công nghệ phần mềm. Khả năng của nhà khoa học dữ liệu nằm ở điểm giao của lập

299
trình, thống kê và tư duy phản biện. Như Josh Wills đã nói, “Nhà khoa học dữ liệu là người
giỏi thống kê hơn bất kỳ lập trình viên nào và giỏi lập trình hơn bất kỳ nhà thống kê nào”.

Nhà phân tích dữ liệu (Data Analyst): nhà phân tích dữ liệu đóng vai trò giải quyết
các công việc như: khai thác dữ liệu, làm sạch dữ liệu, thăm dò dữ liệu và trực quan hóa dữ
liệu. Cụ thể, họ chính là người trích xuất và phân tích các tập dữ liệu, tìm hiểu sâu câu trả
lời cho các câu hỏi nghiên cứu và biến dữ liệu thành báo cáo, mục tiêu và bảng điều khiển.
Nhà phân tích dữ liệu chỉ cần có các kiến thức, bằng cấp liên quan đến các lĩnh vực về toán
học, thống kê và khoa học máy tính, có kỹ năng lập trình cũng như hình dung được dữ liệu
và nắm vững các công cụ trực quan hóa dữ liệu.

Nhà khoa học dữ liệu (Data Scientist): thường đóng vai trò nhà tư vấn trong công
ty, tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược. Nhờ vào sự
hiểu biết từ dữ liệu, họ hỗ trợ các công ty đưa ra quyết định kinh doanh thông minh hơn.
Nhà khoa học dữ liệu thường có nhiều yêu cầu về lập trình hơn nhà phân tích dữ liệu, họ
không chỉ lấy dữ liệu mà còn phát triển các mô hình và thuật toán để giải quyết vấn đề, thử
nghiệm sản phẩm và đưa công ty đi theo hướng mới thông qua xử lý dữ liệu tiên tiến. Theo
đó các nhà khoa học dữ liệu sẽ nghiên cứu các dữ liệu đã được tổ chức và phân tích kỹ
lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê khác nhau.
Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra các thông tin
giả thuyết từ dữ liệu đó. Sau đó các nhà khoa học dữ liệu sẽ sử dụng thuật toán Machine
learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các dữ liệu đó.
Những nhà khoa học dữ liệu sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các
mẫu dư thừa trong dữ liệu. Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

Nhà phân tích kinh doanh (Business Analyst): Các nhà phân tích kinh doanh có thể
xác định các cải tiến quy trình và xu hướng hành vi làm thay đổi kết quả kinh doanh và lợi
nhuận. Họ giúp doanh nghiệp đưa ra các nhu cầu và lý do cần thay đổi, đồng thời thiết kế
và mô tả các giải pháp mang lại giá trị. Cụ thể, một nhà phân tích kinh doanh sẽ chịu trách
nhiệm cho các vai trò như: Khám phá những điều cơ bản mà doanh nghiệp cần giải quyết
và các thông tin liên quan đến yêu cầu sản phẩm và dự án thường thông qua các cuộc trò
truyện với các bên liên quan; tổ chức, chỉ định và mô hình hóa các yêu cầu để đảm bảo
chúng được hoàn thiện và rõ ràng; tài liệu hóa các yêu cầu theo định dạng để có thể chia sẻ
được với các bên liên quan; đảm bảo các yêu cầu dẫn đến đúng nhu cầu doanh nghiệp trong

300
thực tế và được chấp chận bởi tất cả các bên liên quan. Hơn thế nữa, các yêu cầu còn phải
đáp ứng các tiêu chuẩn chất lượng thiết yếu. Nhà phân tích kinh doanh yêu cầu có kinh
nghiệm với phần mềm như SAP, SQL và Tableau và có thể sử dụng dữ liệu và phân tích
định lượng để đưa ra các quyết định kinh doanh dựa trên dữ liệu thông tin hơn.

Kỹ sư dữ liệu (Data Engineer): Có rất nhiều người nhầm lẫn các nhà phân tích dữ
liệu với các kỹ sư dữ liệu vì hầu như các kỹ năng lập trình gần như trùng lặp. Tuy nhiên có
một khác biệt khá rõ giữa hai vai trò này. Một kỹ sư dữ liệu thường xây dựng cơ sở hạ tầng
hoặc khuôn khổ cần thiết cho việc tạo ra dữ liệu. Các kỹ sư làm việc về khía cạnh kiến trúc
của dữ liệu, chẳng hạn như thiết kế và chuẩn bị cơ sở hạ tầng dữ liệu để thu thập dữ liệu,
lưu trữ dữ liệu và phân tích dữ liệu trong một tổ chức. Trọng tâm chính của các kỹ sư dữ
liệu là quản lý cơ sở dữ liệu và công nghệ dữ liệu lớn – Big data. Đáng chú ý là việc lưu trữ
dữ liệu là một lĩnh vực cụ thể đáng quan tâm khi khai thác dữ liệu. Kỹ sư dữ liệu có kinh
nghiệm lập trình bằng các ngôn ngữ như Java, Python và Scala, có kiến thức sâu rộng về
SQL (Structured Query Language) và NoSQL.

Kỹ sư học máy (Machine learning engineer): Học máy (Machine Learning) là một
nhánh của trí tuệ nhân tạo, nơi các thuật toán sử dụng dữ liệu đầu vào để dự đoán một cách
tự động các kết quả trong tương lai. Một kỹ sư máy học không nhất thiết phải có nền tảng
từ một lập trình viên nhưng sản phẩm của họ là những chương trình đặc biệt. Chúng
cho phép máy móc tự mình học và thực hiện các tác vụ. Kỹ sư máy học sử dụng học máy
để tạo ra các mô hình mạnh mẽ và có thể mở rộng cho khoa học dữ liệu. Những kỹ sư này
cũng có thể lập trình cho máy tính và robot có thể thực thi các lệnh bằng cách học tập từ
các mô hình dữ liệu. (HỌC VIỆN CNTT MICROSOFT, n.d.)

4. NHU CẦU NGUỒN NHÂN LỰC TRONG LĨNH VỰC KHOA HỌC DỮ LIỆU VÀ
TRÍ TUỆ NHÂN TẠO

Trong thời đại cách mạng công nghiệp 4.0, với sự phát triển không ngừng của tiến bộ
khoa học công nghệ đáp ứng yêu cầu ngày càng phức tạp và đa dạng của nền kinh tế số, đội
ngũ nhân lực ngành công nghệ thông tin nói chung, khoa học dữ liệu và trí tuệ nhân tạo nói
riêng đều không thể thiếu cho nhu cầu phát triển của xã hội. Data Science & AI đã và đang
được ứng dụng rất đa dạng trong đời sống, từ công nghệ đến y tế, từ cuộc sống hàng ngày
đến những chiến lược kinh doanh cho nhiều ngành nghề như giáo dục, văn hóa, du lịch,
ngân hàng, kinh doanh … và có xu thế ngày càng phát triển phong phú.

301
Hình 4: Nhu cầu nhân sự và mức lương ngành Data Science, Big Data

Theo ước tính của phòng nghiên cứu độc lập Element Artificial Intelligence ở
Montreal, Canada, năm 2018, thế giới chỉ có khoảng 10.000 chuyên gia đủ trình độ để giải
quyết các vấn đề phức tạp trong lĩnh vực Artificial Intelligence , phần lớn tập trung ở các
quốc gia phát triển như Mỹ, EU, Trung Quốc ... Theo thống kê của Glassdoor, một trong
những trang web việc làm lớn nhất thế giới, ngành khoa học dữ liệu đứng đầu trong số 25
nghề nghiệp tốt nhất, đứng thứ 16 về mức lương với trung bình hơn $116,000 và có nhiều
vị trí được tìm kiếm tuyển dụng nhất trong ở Hoa Kỳ.

Tại Việt Nam, nhu cầu thị trường cao nhưng nguồn nhân lực lại vô cùng khan hiếm.
Artificial Intelligence dẫn đầu về tăng trưởng nhu cầu tuyển dụng trong nửa đầu năm 2019,
tăng 46% so với năm 2017, số lượng ứng dụng tăng 86%. Data Science chứng kiến sự gia
tăng 21% về số lượng người đăng ký và 137% về số lượng ứng dụng. Con số Big Data lần
lượt là 35% và 56%. Dự đoán, nhu cầu đối với các ngành này sẽ tiếp tục tăng trong thời
gian tới. Báo cáo 6 tháng đầu năm thị trường nhân lực công nghệ thông tin của
VietnamWorks cho biết là, mức lương đăng tuyển trung bình cho nhóm kỹ sư phát triển
phần mềm liên quan nhóm phát triển phần mềm liên quan đến Artificial Intelligence là
1.856 USD.

302
Hình 5: Lương đăng tuyển trung bình các chuyên môn Blockchain, AI, Big Data, Data Science

Data Science có số lượng đăng tuyển tăng 121% và lượng ứng tuyển tăng đột biến
đến 137% so với năm 2017. Mức lương đăng tuyển cho lĩnh vực Data Science là 1.652
USD mỗi tháng. Theo các chuyên gia, sự sôi động trong tuyển dụng các lĩnh vực như
Artificial Intelligence , Data Science bắt nguồn từ nhu cầu đổi mới công nghệ của nhiều
doanh nghiệp. Theo công ty nghiên cứu và phân tích thị trường toàn cầu IDC FutureScape,
các công nghệ nổi bật như Machine Learning và Data Science sẽ thúc đẩy các doanh nghiệp
hiện nay phải tự cải tiến. (Mãnh Tử Nha, 2019)

Thống kê của Topdev cho thấy trong giai đoạn đến năm 2021, ngành công nghệ
thông tin sẽ thiếu hụt đến 70.000 – 90.000 nhân sự. Các công ty sẽ phải đối mặt với thách
thức trong việc giữ chân nhân tài trong lĩnh vực này bằng cách đưa ra mức lương và tiền
thưởng thăng chức. Ngoài ra, các tập đoàn lớn tại Việt Nam như Viettel, VNPT, FPT…
cũng đang nỗ lực ứng dụng công nghệ Dữ liệu lớn và Khoa học dữ liệu để có những bước
cải tiến vượt bậc trong một sớm một chiều. Hơn 70% giám đốc điều hành CNTT sẵn sàng
tích hợp phân tích dữ liệu (Analytics) và Artificial Intelligence vào hoạt động kinh doanh
của họ.

Với mục tiêu trở thành một công ty trí tuệ nhân tạo hàng đầu Việt Nam giai đoạn
2020 - 2025, Vietel hiện đang ráo riết tìm kiếm, thu hút và phát triển các chuyên gia, kỹ sư
tài năng trong ngành Khoa học dữ liệu và Trí tuệ nhân tạo. Tập đoàn FPT cũng xác định
303
Artificial Intelligence là công nghệ mũi nhọn. Chiến lược phát triển Artificial Intelligence
tại tập đoàn hướng tới mục tiêu ứng dụng trên ba tầng: Tích hợp vào hệ sinh thái FPT, đóng
gói thành các sản phẩm, dịch vụ cung cấp cho thị trường và xây dựng cộng đồng phát triển
Artificial Intelligence . Với định hướng như vậy, FPT cũng đang gặp khó khăn khi tìm kiếm
nguồn nhân lực chất lượng cao trong lĩnh vực Artificial Intelligence . Nguồn nhân lực hiện
có của FPT mới chỉ đáp ứng khoảng 50% nhu cầu và dự kiến thiếu hụt khi tiếp tục mở rộng
đầu tư. Do vậy, tập đoàn liên tục tuyển dụng các nhân tài Artificial Intelligence và vẫn cần
đào tạo thêm để đáp ứng đủ nhu cầu. (Thu Hằng, 2019)

Theo TopDev, tại thị trường Việt Nam, hiện có rất nhiều startup lớn nhỏ phát triển
các dự án tiềm năng liên quan trực tiếp đến Artificial Intelligence và Machine Learning.
Vì vậy mức lương cũng như độ "hot" của các chuyên gia trong lĩnh vực này sẽ tiếp tục tăng
mạnh trong các năm tới. Báo cáo từ TovDev cho thấy, ở Việt Nam mức lương của các kỹ
sư trí tuệ nhân tạo lên đến 22.000 USD, tương đương hơn 510 triệu đồng/năm. Đây là mức
lương thuộc nhóm cao nhất trong các lĩnh vực của CNTT. Chuyên gia trong ngành dự báo
5 đến 10 năm nữa, Artificial Intelligence sẽ còn phát triển lên tới đỉnh cao. Một doanh
nghiệp khác trong lĩnh vực Artificial Intelligence là InfoRe Technology cũng chia sẻ về
thực trạng nhân sự khan hiếm hiện nay. Anh Lê Công Thành - Founder InfoRe nhận định
đây đang là thời điểm vàng để làm start-up về Artificial Intelligence tại Việt Nam. Với
những nhu cầu "nóng" về nhân lực trong lĩnh vực Artificial Intelligence , các doanh nghiệp
đã có nhiều bước đi để phát triển nhân sự, phục vụ cho các dự án tiềm năng hiện có. Một
trong số đó là chủ động hợp tác với các đơn vị đào tạo về lĩnh vực Artificial Intelligence
để chuẩn bị nguồn nhân sự chất lượng cho chính doanh nghiệp mình. (Hoàng Nhung, 2019)

5. KẾT LUẬN

Theo thống kê nghiên cứu từ các chuyên gia trong ngành, nguồn nhân lực Artificial
Intelligence hiện nay tại Việt Nam chưa đáp ứng được 50% nhu cầu hiện tại của thị trường,
đặc biệt đang rất thiếu nhân lực Artificial Intelligence chất lượng, có trình độ chuyên môn
ở mức cao đảm bảo đáp ứng các yêu cầu thực tế của nhà tuyển dụng. Đứng trước các yêu
cầu từ việc số hóa dữ liệu và xu hướng đưa ra quyết định ứng dụng trí tuệ nhân tạo bên cạnh
thực trạng khan hiếm nguồn nhân lực, nhiều tổ chức giáo dục, công ty đang tập trung đào
tạo, phát triển, huấn luyện đội ngũ nhân lực chất lượng cao ngày càng phù hợp với nhu cầu
đa dạng và phong phú của xã hội. Bên cạnh đó, để khuyến khích và thu hút nguồn nhân lực

304
phát triển Data Science & Artificial Intelligence , các đơn vị tuyển dụng hiện nay đang đưa
ra mức lương, các chế độ đãi ngộ hấp dẫn. Ngoài ra, để nâng cao chất lượng đội ngũ nhân
lực, nhiều đơn vị đào tạo, doanh nghiệp tuyển dụng kết nối hợp tác đào tạo với các chuyên
gia giàu kinh nghiệm theo từng lĩnh vực ở nước ngoài.

Trong kỷ nguyên số hóa, công nghệ là yếu tố thiết yếu giúp doanh nghiệp thực hiện
những cải tiến, nâng cao vị thế cạnh tranh trên thị trường. Nhu cầu nguồn nhân lực chất
lượng cao thông hiểu công nghệ nổi bật liên quan đến Artificial Intelligence , Data Science,
Machine Learning ngày càng nâng cao.

TÀI LIỆU THAM KHẢO

[1]. Hoàng Nhung. (2019). 'Khát' nhân lực ngành AI và Khoa học dữ liệu tại Việt Nam.
[2] https://vnexpress.net/khat-nhan-luc-nganh-ai-va-khoa-hoc-du-lieu-ta-i-vie-t-nam-
3990050.html.
[3]. HỌC VIỆN CNTT MICROSOFT. (n.d.). Retrieved from https://abiz.edu.vn/khoa-hoc-
du-lieu-data-science-la-gi/
[4]. Mãnh Tử Nha. (2019). Nhu cầu tuyển dụng nhân sự Data Science, Blockchain và AI
tăng mạnh. VnExpress.
[5]. Phượng Nguyễn. (2017). Khoa học phân tích dữ liệu - Phần 3: Góc nhìn từ Việt Nam
và Thế Giới. Vietnam Journal of Science.

305
NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG

Nguyễn Thanh Trường


Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing
Email: nt.truong@ufm.edu.vn

Tóm tắt: Việc sử dụng thuật ngữ "khoa học dữ liệu" ngày càng phổ biến, cũng như "dữ liệu lớn".
Nhưng nó có nghĩa gì? Có điều gì độc đáo về nó? Những kỹ năng "nhà khoa học dữ liệu" cần để làm
việc hiệu quả trong một thế giới bị che khuất bởi dữ liệu? Tìm hiểu khoa học có những tác động gì? Là
những câu hỏi thường đặt ra gần đây. Các nhà khoa học dữ liệu thường đóng vai trò là nhà tư vấn
được thuê bởi các công ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra các
chiến lược. Nói cách khác, Nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữ
liệu để hỗ trợ các công ty đưa ra các quyết định kinh doanh thông minh hơn.

Từ khóa: Khoa học dữ liệu, data Science, phân tích dữ liệu, data analytics

1. GIỚI THIỆU

Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm ra
các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm ba
phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành
giá trị của hành động. Nôm na bước thứ nhất là về số hóa và bước thứ hai là về dùng dữ
liệu. Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toán
học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể.

“Khoa học dữ liệu là về khai thác, chuẩn bị, phân tích, trực quan hóa và duy trì thông
tin. Đây là một lĩnh vực liên ngành sử dụng các phương pháp và quy trình khoa học để rút
ra những hiểu biết sâu sắc từ dữ liệu”.

Hình 1: Các khối kiến thức liên quan đên Khoa học dữ liệu
306
Với sự xuất hiện của các công nghệ mới, dữ liệu đã tăng lên theo cấp số nhân. Điều
này đã tạo cơ hội để phân tích và rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu.

Nó đòi hỏi kiến thức chuyên môn đặc biệt của một ‘Nhà khoa học dữ liệu’, người có
thể sử dụng các công cụ thống kê & máy học khác nhau để hiểu và phân tích dữ liệu. Một
Nhà Khoa học Dữ liệu, chuyên về Khoa học Dữ liệu, không chỉ phân tích dữ liệu mà còn
sử dụng các thuật toán học máy để dự đoán các sự kiện xảy ra trong tương lai.

Do đó, chúng ta có thể hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử
lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thống
kê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống
kê và khoa học máy tính.

2. MỘT SỐ KHÓ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU

Hình 2:Vị trí của ngành Khoa học dữ liệu

Kỹ năng

Kỹ năng máy học đang nhanh chóng trở nên cần thiết đối với các nhà khoa học dữ
liệu khi các công ty điều hướng cơn bão dữ liệu và cố gắng xây dựng các hệ thống quyết
định tự động dựa trên độ chính xác của dự đoán. Một khóa học cơ bản về máy học là cần
thiết trong thị trường ngày nay. Ngoài ra, kiến thức về xử lý văn bản và "khai thác văn bản"
đang trở nên cần thiết trước sự bùng nổ của văn bản và dữ liệu phi cấu trúc khác trong các
hệ thống chăm sóc sức khỏe, mạng xã hội và các diễn đàn khác. Kiến thức về các ngôn ngữ

307
đánh dấu như XML và các dẫn xuất của nó cũng rất cần thiết, vì nội dung được gắn thẻ và
do đó có thể được máy tính thông dịch tự động.

Kiến thức của các nhà khoa học dữ liệu về học máy phải xây dựng dựa trên các kỹ
năng cơ bản hơn thuộc ba lớp rộng: Thứ nhất là thống kê, đặc biệt là thống kê Bayes, đòi
hỏi kiến thức làm việc về xác suất, phân phối, kiểm tra giả thuyết và phân tích đa biến. Nó
có thể được mua trong một trình tự hai hoặc ba khóa học. Phân tích đa biến thường trùng
lặp với kinh tế lượng, liên quan đến việc điều chỉnh các mô hình thống kê mạnh mẽ với dữ
liệu kinh tế. Không giống như các phương pháp học máy, không đưa ra hoặc có ít giả định
về dạng hàm của mối quan hệ giữa các biến, phân tích đa biến và kinh tế lượng tập trung
nhiều vào việc ước lượng các tham số của mô hình tuyến tính, trong đó mối quan hệ giữa
các biến phụ thuộc và độc lập được biểu thị dưới dạng bình đẳng tuyến tính.

Lớp kỹ năng thứ hai đến từ khoa học máy tính và liên quan đến cách dữ liệu được
trình bày và thao tác bên trong bởi máy tính. Điều này liên quan đến một chuỗi các khóa
học về cấu trúc dữ liệu, thuật toán và hệ thống, bao gồm tính toán phân tán, cơ sở dữ liệu,
tính toán song song và tính toán chịu lỗi. Cùng với các ngôn ngữ kịch bản (chẳng hạn như
Python và Perl), các kỹ năng hệ thống là nền tảng cơ bản cần thiết để xử lý các tập dữ liệu
có kích thước hợp lý. Tuy nhiên, để xử lý các tập dữ liệu rất lớn, các hệ thống cơ sở dữ liệu
chuẩn được xây dựng trên mô hình dữ liệu quan hệ có những hạn chế nghiêm trọng. Bước
tiến gần đây đối với điện toán đám mây và các cấu trúc không tương quan để xử lý các bộ
dữ liệu khổng lồ một cách mạnh mẽ báo hiệu một loạt kỹ năng cần thiết mới cho các nhà
khoa học dữ liệu.

Lớp kỹ năng thứ ba yêu cầu kiến thức về mối tương quan và nhân quả và là trọng tâm
của hầu như bất kỳ bài tập mô hình hóa nào liên quan đến dữ liệu. Mặc dù dữ liệu quan sát
thường giới hạn chúng ta trong các mối tương quan, nhưng chúng ta có thể gặp may. Đôi
khi dữ liệu phong phú có thể đại diện cho các thử nghiệm ngẫu nhiên tự nhiên và khả năng
tính toán xác suất có điều kiện một cách đáng tin cậy, cho phép khám phá cấu trúc nhân
quả.22 Việc xây dựng mô hình nhân quả là mong muốn trong các lĩnh vực mà người ta có
độ tin cậy hợp lý về tính hoàn chỉnh của mô hình đã xây dựng và tính ổn định của nó, hoặc
liệu mô hình nhân quả "tạo ra" dữ liệu quan sát là ổn định. Ít nhất, một nhà khoa học dữ
liệu nên có một ý tưởng rõ ràng về sự khác biệt giữa mối tương quan và quan hệ nhân quả

308
và khả năng đánh giá mô hình nào là khả thi, mong muốn và thực tế trong các bối cảnh
khác nhau.

Bộ kỹ năng cuối cùng là bộ kỹ năng ít được tiêu chuẩn hóa nhất và hơi khó nắm bắt
và ở một mức độ nào đó là một thủ công nhưng cũng là yếu tố khác biệt quan trọng để trở
thành một nhà khoa học dữ liệu hiệu quả, khả năng hình thành vấn đề theo cách dẫn đến
các giải pháp hiệu quả. Herbert Simon, nhà kinh tế học người Mỹ thế kỷ 20, người đã đặt
ra thuật ngữ "trí tuệ nhân tạo" đã chứng minh rằng nhiều vấn đề dường như khác nhau
thường là "đẳng hình" hoặc có cấu trúc cơ bản giống hệt nhau. Ông đã chứng minh rằng
nhiều bài toán đệ quy có thể được biểu diễn dưới dạng bài toán Towers of Hanoi tiêu chuẩn,
hoặc liên quan đến các trạng thái và toán tử ban đầu và mục tiêu giống hệt nhau. Điểm lớn
hơn của ông là có thể dễ dàng giải quyết các vấn đề dường như khó khăn nếu được thể hiện
một cách sáng tạo với tính đẳng hình trong tâm trí.

Theo nghĩa rộng hơn, chuyên môn về công thức liên quan đến khả năng nhìn thấy
những điểm chung trong các vấn đề rất khác nhau; ví dụ, nhiều vấn đề có "các lớp mục tiêu
không cân bằng" thường biểu thị biến phụ thuộc đôi khi chỉ thú vị (chẳng hạn như khi mọi
người phát triển các biến chứng của bệnh tiểu đường hoặc phản ứng với các đề nghị hoặc
khuyến mãi tiếp thị). Đây là những trường hợp quan tâm mà chúng tôi muốn dự đoán.
Những vấn đề như vậy là một thách thức đối với các mô hình, theo thuật ngữ Popperian,
phải cố gắng đưa ra các dự đoán có khả năng sai trừ khi mô hình cực kỳ giỏi trong việc
phân biệt giữa các lớp. Các nhà khoa học dữ liệu có kinh nghiệm đã quen thuộc với những
vấn đề này và biết cách hình thành chúng theo cách giúp hệ thống có cơ hội đưa ra dự đoán
chính xác trong điều kiện mà các yếu tố tiên quyết được xếp chồng lên nhau nhiều chống
lại nó.

Kỹ năng xây dựng vấn đề đại diện cho kỹ năng cốt lõi của các nhà khoa học dữ liệu
trong thập kỷ tới. Thuật ngữ "tư duy tính toán" do Papert21 đặt ra và được Wing32 xây
dựng có tinh thần tương tự như các kỹ năng được mô tả ở đây. Có hoạt động đáng kể trong
các trường đại học để đào tạo sinh viên kỹ năng đặt vấn đề và cung cấp các môn tự chọn
được cấu trúc xung quanh cốt lõi phù hợp hơn với các ngành cụ thể.

Cuộc cách mạng khoa học dữ liệu cũng đặt ra những thách thức tổ chức nghiêm trọng
về cách các tổ chức quản lý các nhà khoa học dữ liệu của họ. Bên cạnh việc nhận ra và nuôi
dưỡng các bộ kỹ năng phù hợp, nó đòi hỏi sự thay đổi trong tư duy của các nhà quản lý đối

309
với việc ra quyết định dựa trên dữ liệu để thay thế hoặc tăng cường trực giác và các thực
hành trong quá khứ. Một câu nói nổi tiếng của nhà thống kê người Mỹ thế kỷ 20 W. Edwards
Demming "Chúng tôi tin tưởng vào Chúa, mọi người khác xin vui lòng mang theo dữ liệu"
đã đặc trưng cho định hướng mới, từ việc ra quyết định dựa trên trực giác đến việc ra quyết
định dựa trên thực tế.

Từ quan điểm ra quyết định, chúng ta đang chuyển sang kỷ nguyên dữ liệu lớn, nơi
đối với nhiều loại vấn đề, máy tính vốn dĩ là người ra quyết định tốt hơn con người, nơi mà
"tốt hơn" có thể được định nghĩa về chi phí, độ chính xác và khả năng mở rộng. Sự thay đổi
này đã xảy ra trong thế giới tài chính sử dụng nhiều dữ liệu, nơi máy tính đưa ra phần lớn
các quyết định đầu tư, thường chỉ trong vài phần giây, khi có thông tin mới. Điều tương tự
cũng xảy ra trong các lĩnh vực quảng cáo trực tuyến nơi hàng triệu cuộc đấu giá được tiến
hành trong mili giây mỗi ngày, kiểm soát không lưu, định tuyến giao hàng và nhiều loại
nhiệm vụ lập kế hoạch đòi hỏi quy mô, tốc độ và độ chính xác đồng thời, một xu hướng có
khả năng tăng nhanh trong vài năm tới.

3. NHU CẤU NHÂN LỰC TRÊN THẾ GIỚI VÀ VIỆT NAM

3.1. Trên thế giới

“Các công việc thuộc ngành khoa học Dữ liệu đang ngày càng trở nên hấp dẫn hơn”,
theo Andrew Flowers – một nhà kinh tế học từ tổ chức Indeed với trụ sở tại Austin, Texas.

Báo cáo từ Indeed cho thấy nhu cầu tuyển dụng nhân lực ngành này tăng 29% sau
mỗi năm, và mức tăng trưởng 344% từ năm 2013. Nhu cầu tuyển dụng các chuyên gia khoa
học dữ liệu càng tăng lên khi các tổ chức tự duy trì hoạt động thông qua việc nghiên cứu
dữ liệu.

Tương tự, dữ liệu từ một website tuyển dụng ngành công nghệ cho thấy nhu cầu nhân
lực liên quan đến khoa học dữ liệu trên nền tảng website ấy đã tăng hơn 32%, và vì thế
khoa học dữ liệu được coi là “một kỹ năng có nhu cầu cao”.

Các thông báo tuyển dụng là của các công ty đến từ nhiều lĩnh vực khác nhau, không
chỉ riêng về công nghệ. Nhu cầu cho khoa học dữ liệu đang tăng lên đều đặn với hơn 32,000
tin tuyển dụng mới vào mỗi tháng.

Khi các công ty nhận ra giá trị và tầm quan trọng của Big Data, họ càng đẩy mạnh sử
dụng nó để đưa ra các quyết định kinh doanh đúng đắn hơn.

310
Lý do tăng nhanh nhu cầu về nhân lực trong ngành khoa học dữ liệu:

Các công ty đang đối mặt với những thách thức trong việc xử lý dữ liệu

Mỗi ngày, những công ty tạo ra một số lượng lớn dữ liệu. Điều này đó nghĩa là dù
mỗi công ty đang sở hữu rất nhiều dữ liệu, họ lại không thật sự biết nên làm gì với những
thông tin ấy. Vậy nên để xử lý khối lượng thông tin này và khai thác thông tin từ chúng, họ
cần đội ngũ những chuyên gia trong ngành khoa học dữ liệu.

Sự thiếu hụt nhân lực có trình độ cao

Đồng sáng lập và Giám đốc điều hành của Fractal Analytics, ông Srikanth
Velamakanni cho biết: “Có hai sự thiếu hụt nhân tài: Chuyên gia khoa học dữ liệu – người
có thể thực hiện phân tích dữ liệu, và Cố vấn phân tích dữ liệu – người có thể hiểu và vận
dụng thông tin.

Nguồn cung cấp nhân lực cho 2 công việc này, đặc biệt là Chuyên gia phân tích dữ
liệu, là cực kỳ hiếm hoi, trong khi nhu cầu thì ngày càng tăng.

Tháng 8 năm 2018, kết quả thống kê của LinkedIn cho thấy thiếu hụt hơn 150,000
người có kỹ năng khoa học dữ liệu tại Mỹ. Khoảng thiếu hụt cung-cầu này sẽ giảm bớt khi
có rất nhiều chuyên gia khoa học dữ liệu tài năng thâm nhập thị trường lao động này.

Khó khăn trong việc tìm kiếm những người đa tài

Các chuyên gia khoa học dữ liệu thường được mong đợi sẽ có kiến thức về ít nhất
một ngôn ngữ lập trình – Python và R là chính.

Các chuyên gia khoa học dữ liệu cũng được mong đợi sẽ có kinh nghiệm trong thực
hành các công cụ như Hadoop, Spark, NoQuery, cũng như kinh nghiệm đào tạo về mô hình
thống kê, máy học và lập trình.

Song song với mô hình thống kê và máy học đang tạo ra nhiều nhu cầu về kỹ năng
ngôn ngữ lập trình SQL, Apache Spark và các hệ thống cơ sở dữ liệu quan hệ cũng như cơ
sở dữ liệu NoQuery cũng rất được chú ý. Đây thường là những thứ khó tìm thấy ở chỉ một
người trong lĩnh vực này.

Rào cản gia nhập cho các chuyên gia thuộc lĩnh vực khác

Phần lớn chuyên gia khoa học dữ liệu có nền tảng toán học/thống kê, khoa học máy
tính, kỹ thuật và khoa học tự nhiên, một số có bằng kinh doanh, kinh tế và khoa học xã hội.

311
Những người không có nền tảng máy tính/toán học có thể gặp khó khăn nhưng vẫn
có thể tự nâng cao trình độ qua các khóa học online.

Mức lương rất hậu hĩnh

Do nhu cầu cao đối với các nhà khoa học dữ liệu và các vai trò khoa học dữ liệu khác,
mức lương cho vị trí này cũng được nâng lên. Công việc này là một trong những việc làm
được trả lương cao nhất trong ngành vào thời điểm hiện tại.

Theo Glassdoor, lương trung bình cho nhà khoa học/nhà phân tích dữ liệu đứng đầu
hơn 62.000 đô la Mỹ/năm. Ở Ấn Độ, kinh nghiệm quyết định nhiều đến việc trả lương.

Tổ hợp của rất nhiều vai trò

Khoa học dữ liệu là tổ hợp của một số mảng như thống kê, phân tích dữ liệu, máy
học và lập trình máy tính. Do đó, nhân sự ngành khoa học dữ liệu có thể đảm nhận nhiều
vai trò như:

- Nhà khoa học dữ liệu


- Nhà phân tích dữ liệu
- Kiến trúc sư dữ liệu
- Nhà phân tích kinh doanh
- Kỹ sư dữ liệu
- Quản trị viên cơ sở dữ liệu
- Nhà thống kê
- Trình quản lý dữ liệu và phân tích
Nhà khoa học dữ liệu là một trong những chức danh công việc đòi hỏi khắt khe nhất
và là một vị trí có mức lương cao nhất trong lĩnh vực khoa học dữ liệu.

Nhu cầu nhân lực ngành khoa học dữ liệu ngày càng lớn, do đó ngày càng nhiều sinh
viên theo học và trau dồi kỹ năng ngành này.

Các vai trò & Công việc Khoa học Dữ liệu hàng đầu cho năm 2019: Tìm những gì
phù hợp với bạn nhất [5]

“Nhà khoa học dữ liệu, chức danh công việc quyến rũ nhất trong thế kỷ 21”

312
Tùy theo chuyên ngành và vị trí thì có các mức lương khác nhau:

Data Architect: Một số công cụ quan trọng được kiến trúc sư dữ liệu sử dụng là XML,
Hive, SQL, Spark và Pig. Mức lương trung bình của kiến trúc sư dữ liệu là $ 123,680/năm.

Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh
mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý
khoa học dữ liệu là - $ 69.059 / năm.

Data Science Manager: Ứng viên cũng nên có kỹ năng giao tiếp và lãnh đạo mạnh
mẽ để hướng dẫn nhóm một cách hiệu quả. Mức lương trung bình cho một nhà quản lý
khoa học dữ liệu là - $ 69.059 năm.

Statistician: Một số công cụ được các nhà thống kê sử dụng là R, SAS, SPSS, Matlab,
Python, Stata, SQL, v.v. Mức lương trung bình của một nhà thống kê là $ 82,477/năm.

Machine Learning Engineer: Một số công cụ phổ biến được các kỹ sư máy học sử
dụng là TensorFlow, Keras, PyTorch, scikit-learning, Caffe, v.v. Mức lương trung bình của
một kỹ sư máy học là $ 114,826/năm

Tại Việt Nam

Theo trang https://www.vietnamworks.com/ khi tìm việc làm ngành Khoa học dữ liệu
hoặc Phân tích dữ liệu thì nhu cấu rất nhiều, mức lương rất cao

313
Hình 3: Mức lương ngành Khoa học dữ liệu tại Việt Nam

4. GIẢI QUYẾT VẤN ĐỀ VỚI KHOA HỌC DỮ LIỆU

Khi giải quyết một vấn đề trong thế giới thực bằng Khoa học dữ liệu, bước đầu tiên
để giải quyết nó bắt đầu với Làm sạch và Tiền xử lý dữ liệu. Khi Nhà khoa học dữ liệu
được cung cấp tập dữ liệu, tập dữ liệu đó có thể ở định dạng phi cấu trúc với nhiều điểm
không nhất quán khác nhau.

Việc tổ chức dữ liệu và loại bỏ thông tin sai giúp dễ dàng phân tích và rút ra những
hiểu biết sâu sắc hơn. Quá trình này bao gồm việc loại bỏ dữ liệu thừa, chuyển đổi dữ liệu
theo định dạng quy định, xử lý các giá trị bị thiếu, v.v.

Nhà khoa học dữ liệu phân tích dữ liệu thông qua các thủ tục thống kê khác nhau.
Đặc biệt, hai loại thủ tục được sử dụng là:

✓ Thống kê mô tả

✓ Thống kê suy luận

Giả sử rằng bạn là nhà khoa học dữ liệu làm việc cho một công ty sản xuất điện thoại
di động. Bạn phải phân tích khách hàng sử dụng điện thoại di động của công ty bạn. Để làm
như vậy, trước tiên bạn sẽ xem xét kỹ lưỡng dữ liệu và hiểu các xu hướng và mô hình khác
nhau liên quan.

Cuối cùng, bạn sẽ tóm tắt dữ liệu và trình bày dưới dạng đồ thị hoặc biểu đồ. Do đó,
bạn áp dụng thống kê mô tả để giải quyết vấn đề.

314
Sau đó, bạn sẽ rút ra các ‘suy luận’ hoặc kết luận từ dữ liệu. Chúng ta sẽ hiểu số liệu
thống kê theo cấp số nhân thông qua ví dụ sau - Giả sử rằng bạn muốn tìm ra một số lỗi xảy
ra trong quá trình sản xuất.

Tuy nhiên, việc kiểm tra từng điện thoại di động có thể mất thời gian. Do đó, bạn sẽ
xem xét một mẫu điện thoại đã cho và đưa ra tổng thể về số lượng điện thoại bị lỗi trong
tổng số mẫu.

Bây giờ, bạn phải dự đoán doanh số bán điện thoại di động trong khoảng thời gian
hai năm. Kết quả là, bạn sẽ sử dụng Thuật toán hồi quy. Dựa trên doanh số bán hàng lịch
sử đã cho, bạn sẽ sử dụng thuật toán hồi quy để dự đoán doanh số bán hàng theo thời gian.

Hơn nữa, bạn muốn phân tích xem liệu khách hàng có mua sản phẩm hay không dựa
trên mức lương hàng năm, độ tuổi, giới tính và điểm tín dụng của họ. Bạn sẽ sử dụng dữ
liệu lịch sử để tìm hiểu liệu khách hàng sẽ mua (1) hay không (0). Vì có hai đầu ra hoặc
‘lớp’, bạn sẽ sử dụng Thuật toán phân loại nhị phân.

Ngoài ra, nếu có nhiều hơn hai lớp đầu ra, sử dụng Thuật toán phân loại đa biến để
giải quyết vấn đề. Cả hai vấn đề nêu trên đều là một phần của ‘Học tập có giám sát’.

Cũng có trường hợp dữ liệu "không được gắn nhãn". Điều này, không có sự phân tách
đầu ra trong các lớp cố định như đã đề cập ở trên. Giả sử rằng bạn phải tìm các nhóm khách
hàng tiềm năng và khách hàng tiềm năng dựa trên nền tảng kinh tế xã hội của họ.

Vì bạn không có một nhóm lớp cố định trong dữ liệu lịch sử của mình, bạn sẽ sử dụng
Thuật toán phân cụm để xác định các cụm hoặc nhóm khách hàng tiềm năng. Phân cụm là
một thuật toán “Học không giám sát”.

Xe tự lái đã trở thành một công nghệ thịnh hành. Nguyên tắc đằng sau xe tự lái là
quyền tự chủ, tức là có thể đưa ra quyết định mà không cần sự can thiệp của con người. Các
máy tính truyền thống yêu cầu đầu vào của con người để tạo ra đầu ra. Học tập củng cố đã
giải quyết được vấn đề phụ thuộc vào con người.

Học tập củng cố là thực hiện các hành động cụ thể để tích lũy phần thưởng tối đa.
Bạn có thể hiểu điều này với ví dụ sau: giả sử bạn đang huấn luyện một con chó lấy bóng.
Sau đó, bạn thưởng cho con chó một món quà hoặc phần thưởng mỗi khi nó lấy được bóng.
Bạn không thưởng cho nó nếu nó không lấy được bóng. Con chó sẽ nhận ra phần thưởng
của đồ ăn vặt nếu nó lấy lại được quả bóng. Học tăng cường sử dụng nguyên tắc tương tự.

315
Một nhà khoa học dữ liệu sẽ yêu cầu các công cụ và phần mềm để giải quyết các vấn
đề nêu trên.

5. CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU

Khoa học dữ liệu đã tạo ra một chỗ đứng vững chắc trong một số ngành công nghiệp
như y học, ngân hàng, sản xuất, giao thông vận tải,... Nó có những ứng dụng to lớn và có
nhiều mục đích sử dụng. Một số ứng dụng sau của khoa học dữ liệu là:

5.1. Khoa học dữ liệu trong chăm sóc sức khỏe

Khoa học dữ liệu đã và đang đóng một vai trò quan trọng trong ngành chăm sóc sức
khỏe. Với sự trợ giúp của các thuật toán phân loại, các bác sĩ có thể phát hiện ung thư và
khối u ở giai đoạn đầu bằng phần mềm Nhận dạng Hình ảnh.

Các ngành Di truyền học sử dụng khoa học dữ liệu để phân tích và phân loại các mẫu
trình tự bộ gen. Các trợ lý ảo khác nhau cũng đang giúp bệnh nhân giải quyết các vấn đề về
thể chất và tinh thần của họ.

5.2. Khoa học dữ liệu trong thương mại điện tử

Amazon sử dụng hệ thống khuyến nghị đề xuất cho người dùng các sản phẩm khác
nhau dựa trên quá trình mua hàng trước đây của họ. Các nhà khoa học dữ liệu đã phát triển
các hệ thống khuyến nghị dự đoán sở thích của người dùng bằng cách sử dụng học máy.

5.3. Khoa học dữ liệu trong sản xuất

Robot công nghiệp đã đảm nhận các vai trò trần tục và lặp đi lặp lại cần thiết trong
đơn vị sản xuất. Những robot công nghiệp này có tính chất tự chủ và sử dụng các công nghệ
Khoa học Dữ liệu như Học tăng cường và Nhận dạng Hình ảnh.

5.4. Khoa học dữ liệu với tư cách là tác nhân trò chuyện

Alexa của Amazon và Siri của Apple sử dụng nhận dạng giọng nói để hiểu người
dùng. Dữ liệu các nhà khoa học phát triển hệ thống nhận dạng giọng nói này, chuyển đổi
giọng nói của con người thành dữ liệu văn bản. Ngoài ra, nó sử dụng các thuật toán học
máy khác nhau để phân loại các truy vấn của người dùng và đưa ra phản hồi thích hợp.

5.5. Khoa học Dữ liệu trong Giao thông vận tải

Tự lái xe ô tô sử dụng đại lý độc lập mà sử dụng các thuật toán Cốt Học tập và phát
hiện. Xe tự lái không còn là điều viễn tưởng do những tiến bộ của Khoa học Dữ liệu.
316
6. KẾT LUẬN

Mặc dù khoa học dữ liệu là một chủ đề rộng lớn, nó tổng hợp một số công nghệ và
lĩnh vực, nhưng chúng ta hoàn toàn có thể đạt được những kỹ năng này với cách tiếp cận
phù hợp. Khoa học dữ liệu là một lĩnh vực rất mạnh mẽ phù hợp nhất với những người có
sở trường về thử nghiệm và giải quyết vấn đề. Với một số lượng lớn các ứng dụng, khoa
học dữ liệu đã trở thành một ngành nghề linh hoạt nhất.

TÀI LIỆU THAM KHẢO

[1]. http://wikipedia.org
[2]. https://www.sisense.com/
[3]. https://www.tutorialspoint.com/
[4]. https://www.r-project.org/
[5]. https://data-flair.training/
[6]. https://www.vietnamworks.com/
[7]. Wes McKinney, “Python for Data Analysis”, O’Reilly Media, Inc, 2017
[8]. Nguyễn Văn Tuấn, “Phân tích dữ liệu với R”, NXB tổng hợp TP. HCM, 2014

317
VAI TRÒ CỦA QUẢN LÝ DỮ LIỆU TRONG KINH DOANH

Trần Anh Sơn


Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: tason@ufm.edu.vn

Tóm tắt: Trí tuệ kinh doanh then chốt có lẽ là chìa khóa để duy trì tính cạnh tranh của các
tổ chức trong bất kỳ một ngành công nghiệp nào mà hoạt động của nó dựa trên nền tảng dữ liệu
(data-driven industry). Quản lý dữ liệu được ví như là cột sống để kết nối tất cả các phân đoạn của
toàn bộ vòng đời thông tin. Quản lý dữ liệu được thực hiện một cách đồng bộ với quản lý các quy
trình, đảm bảo rằng tất cả các hành động mà nhóm thực hiện được thông báo bởi dữ liệu sạch
nhất, mới nhất hiện hữu, có nghĩa là quản lý, theo dõi các thay đổi và các xu hướng theo thời gian
thực. Vấn đề quan trọng là tổ chức hay doanh nghiệp của các bạn đã có kế hoạch quản lý dữ liệu
cần thiết để phát triển mạnh trên thị trường toàn cầu hay chưa?

Trong phạm vi bài tham luận này, tác giả đi sâu vào trình bày, phân tích những nội dung liên
quan đến dữ liệu kinh doanh và quản trị dữ liệu kinh doanh trong bối cảnh của cuộc cách mạng
công nghiệp 4.0 trên cả phương diện quản trị hoạt động kinh doanh và quản trị hệ thống Công
nghệ thông tin ứng dụng trong kinh doanh. Kết quả của bài tham luận sẽ là tài liệu hữu ích không
chỉ cho những nhà phát triển hệ thống thông tin quản lý kinh doanh số trong định hướng chiến
lược quản lý dữ liệu kinh doanh của mình mà nội dung của bài tham luận còn giúp cho tất cả
những ai muốn tìm hiểu, nghiên cứu về các dự án quản lý dữ liệu lớn nói chung cũng như các nhà
quản lý kinh doanh có cơ sở trong định hướng chiến lược công nghệ thông tin và quản lý dữ liệu
phù hợp với chiến lược hoạt động kinh doanh của doanh nghiệp.

Từ khóa: Dữ liệu kinh doanh, tài sản dữ liệu, quản lý dữ liệu kinh doanh

1. ĐẶT VẤN ĐỀ

Trong thời đại của cuộc cách mạng công nghiệp 4.0 hiện nay, khi mà nhiều thành tựu
công nghệ như Big Data, IoT, AI,... đang dần trở nên phổ biến và mang tính toàn cầu thì dữ
liệu liên quan đến hoạt động của các tổ chức, doanh nghiệp càng trở thành một trong những
nguồn lực vô cùng quan trọng và rất có giá trị. Hiện tại, cuộc cách mạng về dữ liệu đang có
tiềm năng kinh tế rất lớn mà thậm chí một số người đã xem dữ liệu như là “nguồn dầu mỏ
mới”. Dữ liệu đối với hầu hết mọi người có thể không phải là vấn đề xa lạ. Tuy nhiên trong
Big Data, Data mining hay Data analytics thì đây là một nguồn lực cơ bản, phong phú và
không kém phần đa dạng. Chính vì vậy quản lý dữ liệu trở nên cần thiết và vô cùng quan
trọng hơn bao giờ hết đối với mọi tổ chức, doanh nghiệp. Trong các dự án liên quan đến
318
Big Data, Data mining hay Data analytics thì quản lý dữ liệu đóng vai trò quyết định sự
thành bại của dự án. Mặc dù đã có nhiều nghiên cứu cho biết rằng quản lý dữ liệu là bước
đầu tiên quan trọng trong việc xử lý dữ liệu lớn hoặc bắt đầu bất kỳ một dự án phân tích dữ
liệu nào. Tuy nhiên chúng ta thậm chí phải thừa nhận rằng vẫn còn có sự nhầm lẫn giữa
quản lý dữ liệu tổng thể và quản trị dữ liệu. Hãy luôn nhớ rằng, một chiến lược quản lý dữ
liệu không nên chỉ tập trung vào một vấn đề về dữ liệu mà cần phải tiến hành xem xét một
cách tổng thể tất cả các nội dung, các khía cạnh và các vấn đề có liên quan đến dữ liệu.

Quản lý dữ liệu kinh doanh là thực hành quản lý dữ liệu liên quan đến hoạt động kinh
doanh của tổ chức như một nguồn tài nguyên có giá trị để mở khóa tiềm năng của dữ liệu
kinh doanh cho chính tổ chức đó. Quản lý dữ liệu kinh doanh hiệu quả đòi hỏi những nhà
quản trị phải có chiến lược về dữ liệu hoạt động kinh doanh và các phương pháp đáng tin
cậy để truy cập, tích hợp, làm sạch, quản lý, lưu trữ và chuẩn bị dữ liệu cho quá trình phân
tích. Trong thế giới kỹ thuật số hiện nay, dữ liệu đổ vào các tổ chức từ rất nhiều nguồn,
nhiều hệ thống hoạt động, nhiều giao dịch, hệ thống máy quét, cảm biến, các thiết bị thông
minh, các mạng xã hội, video và văn bản. Tuy nhiên, giá trị của dữ liệu kinh doanh không
hoàn toàn dựa trên nguồn, chất lượng hoặc định dạng của dữ liệu đó mà nó phụ thuộc vào
những gì bạn thực hiện với chính các dữ liệu đó.

Để khai thác và phát huy tối đa giá trị của “nguồn dầu mỏ mới” này thì những nhà
phát triển hệ thống thông tin quản lý cũng như những nhà quản lý hơn ai hết cần phải nghiên
cứu, tìm hiểu những vấn đề có liên quan đến nguồn lực này. Vậy: Quản lý dữ liệu là gì?
Quản lý dữ liệu và quản trị dữ liệu có gì khác nhau? Làm sao để quản lý tốt dữ liệu? Quản
lý dữ liệu có vai trò như thế nào đối với hoạt động của các tổ chức, doanh nghiệp hiện nay?
Hay những nội dung nào liên quan đến quản lý dữ liệu? v.v.. Và để có thể trả lời chính xác
các câu hỏi này đồng thời có một cái nhìn tổng quan về quản trị, quản lý dữ liệu chúng ta
sẽ nên bắt đầu tìm hiểu từ những khái niệm đơn giản liên quan đến dữ liệu và quản lý dữ
liệu để từ đó đánh giá đúng vai trò của dữ liệu và quản trị dữ liệu đối với hoạt động của các
tổ chức nói riêng và của toàn bộ nền kinh tế số 4.0 hiện nay nói chung.

2. CÁC VẤN ĐỀ CƠ BẢN LIÊN QUAN ĐẾN QUẢN LÝ DỮ LIỆU

2.1. Bối cảnh của quản lý dữ liệu

a). Khái niệm về quản lý dữ liệu:

❖ Trên phương diện của quản trị hoạt động của tổ chức thì:
319
Quản lý dữ liệu (Data management) là một tập hợp toàn diện các thực tiễn, khái niệm,
thủ tục, quy trình và một loạt các hệ thống đi kèm cho phép một tổ chức có được quyền
kiểm soát các tài nguyên dữ liệu của mình. Quản lý dữ liệu như một hoạt động tổng thể liên
quan đến toàn bộ vòng đời của chính tài sản dữ liệu bắt đầu từ thời điểm tạo lập ban đầu
đến khi thanh lý tài sản, cách nó tiến triển và thay đổi trong suốt vòng đời của nó thông qua
các luồng dữ liệu bên trong (nội bộ) và bên ngoài của một tổ chức, doanh nghiệp.

Theo cộng đồng quản trị dữ liệu toàn cầu (The Global Data Management Community)
thì quản trị dữ liệu là việc phát triển, thực hiện và giám sát các kế hoạch, chính sách, chương
trình hoạt động và các công việc thực tiễn để cung cấp, kiểm soát, bảo vệ và gia tăng giá trị
của tài sản dữ liệu, thông tin trong suốt vòng đời của nó.

❖ Trên phương diện của quản trị công nghệ thông tin thì:

Quản lý dữ liệu là quá trình tạo lập và thu thập dữ liệu của tổ chức được thực hiện
thông qua việc nhập, lưu trữ, tổ chức và duy trì dữ liệu đó. Quản lý dữ liệu hiệu quả là một
phần quan trọng trong việc triển khai các hệ thống công nghệ thông tin (CNTT) chạy các
ứng dụng kinh doanh và cung cấp thông tin phân tích để giúp thúc đẩy việc ra quyết định
hoạt động và hoạch định chiến lược của các giám đốc điều hành công ty, giám đốc kinh
doanh và những người dùng cuối khác.

Quá trình quản lý dữ liệu bao gồm sự kết hợp của các chức năng khác nhau nhằm
mục đích chung là đảm bảo rằng dữ liệu trong các hệ thống của công ty là chính xác, sẵn
có và có thể truy cập được. Hầu hết các công việc bắt buộc được thực hiện bởi các nhóm
CNTT và quản lý dữ liệu. Tuy nhiên, những người dùng khác trong doanh nghiệp thường
cũng phải tham gia vào một số giai đoạn của quy trình để đảm bảo rằng dữ liệu này đáp
ứng đúng nhu cầu của người sử dụng đồng thời đưa họ tiếp cận với các chính sách quản lý
việc sử dụng dữ liệu.

b). Quản lý dữ liệu trong một số lĩnh vực:

Quản lý dữ liệu hỗ trợ các quy trình cho mọi tổ chức thành công, trên tất cả các ngành.
Với nhiều dữ liệu hơn và khả năng truy cập để phân tích được dễ dàng hơn, các tổ chức,
doanh nghiệp có thể nắm bắt nhiều cơ hội hơn, đặt ra nhiều tình huống hơn và giải quyết
được nhiều vấn đề hơn. Bảng 1 mô tả cách mà một số ngành trên toàn thế giới đang sử dụng
quản lý dữ liệu để hỗ trợ các mục tiêu hoạt động của họ.

320
Bảng 1: Mô tả cách ứng dụng quản lý dữ liệu vào trong một số lĩnh vực.

TT Lĩnh vực Mô tả cách sử dụng quản lý dữ liệu


1 Bán lẻ Việc hiểu khách hàng và đáp ứng kỳ vọng một cách thích hợp đòi hỏi bạn
phải có một cái nhìn chính xác, cập nhật về tất cả dữ liệu - cho dù dữ liệu
đó là dữ liệu trực tuyến, dựa trên đám mây hay được lưu trữ trong hồ dữ
liệu hoặc kho. Từ tiếp thị đến chính sách bán hàng, quản lý dữ liệu đáng
tin cậy là điều cần thiết để phục vụ cho hoạt động bán lẻ.

2 Sản xuất Trong ngành công nghiệp sản xuất, không có gì nói lên thành công bằng
chất lượng. Với công nghệ quản lý dữ liệu vững chắc và chất lượng dữ
liệu, các nhà sản xuất có thể quản lý hiệu quả kho sản phẩm, đồng thời
tích hợp dữ liệu có cấu trúc và dữ liệu phi cấu trúc từ tất cả các nguồn để
có được cái nhìn doanh nghiệp về hiệu suất, thúc đẩy kết quả tốt hơn và
đưa ra các quyết định kinh doanh sáng suốt.

3 Ngân Hơn bao giờ hết, các vấn đề xung quanh quyền riêng tư, tuân thủ và số
hàng hóa dữ liệu đòi hỏi các ngân hàng phải có một nền tảng dữ liệu đáng tin
cậy. Chỉ với cái nhìn tổng hợp, đầy đủ về tất cả dữ liệu của họ - và các kỹ
thuật hợp lý về chất lượng, quản trị và bảo vệ dữ liệu cá nhân - các ngân
hàng mới có thể lấy được lòng tin của khách hàng và theo đuổi các nỗ lực
chuyển đổi kỹ thuật số hướng tới tương lai.

4 Chăm sóc Quản lý dữ liệu kinh doanh là công việc bắt buộc phải có trong ngành
sức khỏe chăm sóc sức khỏe. Ngành chăm sóc sức khỏe tin tưởng vào việc có thể
tích hợp dữ liệu từ tất cả các định dạng và nguồn - bao gồm dữ liệu từ
bên ngoài tổ chức - tất cả trong khi phát hiện dữ liệu trùng lặp, khắc phục
các vấn đề về chất lượng dữ liệu và tuân thủ các yêu cầu tuân thủ và quy
định nghiêm ngặt để bảo vệ dữ liệu cá nhân và quyền riêng tư.

5 Dịch vụ Chính quyền địa phương và quốc gia chịu trách nhiệm về một loạt các
công dịch vụ và chương trình. Các công nghệ quản lý dữ liệu đáng tin cậy hỗ
trợ tất cả những nỗ lực đó - từ chống gian lận và thanh toán không phù
hợp đến đảm bảo an toàn cho công dân đến giám sát kết quả sức khỏe
dân số, phát triển kinh tế và các sáng kiến thành phố thông minh.

321
TT Lĩnh vực Mô tả cách sử dụng quản lý dữ liệu
6 Các doanh Khi các doanh nghiệp vừa và nhỏ hoạt động theo hướng chuyển đổi số,
nghiệp họ cần triển khai các mô hình kinh doanh theo hướng dữ liệu và hiện đại
vừa và hóa CNTT kế thừa để có thể cạnh tranh với các đối thủ lớn hơn. Một cách
nhỏ để đạt được điều đó là với công nghệ quản lý dữ liệu đáng tin cậy có thể
đáp ứng nhu cầu của các doanh nghiệp nhỏ hơn.

c). Công nghệ hỗ trợ quản lý dữ liệu:

Bên cạnh việc các doanh nghiệp thu thập dữ liệu thì họ còn phải quản lý dữ liệu đã
được thu thập đó sao cho tránh được vấn đề “rác” trong dữ liệu. Khi khối lượng, loại và
nguồn dữ liệu tăng cao, nhu cầu xử lý dữ liệu theo thời gian thực ngày càng mở rộng và
tính cấp thiết để quản lý tốt dữ liệu vẫn là ưu tiên hàng đầu đối với hiệu quả hoạt động của
doanh nghiệp. Một số công nghệ cốt lõi dưới đây sẽ là công cụ hỗ trợ doanh nghiệp trong
các chức năng hay thành phần của quản lý dữ liệu.

❖ Công nghệ hỗ trợ truy xuất dữ liệu:

Dữ liệu quan trọng nằm ở nhiều nơi: tệp văn bản, cơ sở dữ liệu, email, hồ dữ liệu,
trang web và nguồn cấp dữ liệu truyền thông xã hội. Công nghệ truy cập tốt cho phép bạn
trích xuất dữ liệu hữu ích từ bất kỳ loại cơ chế hoặc định dạng lưu trữ dữ liệu nào có sẵn,
vì vậy bạn có thể dành nhiều thời gian hơn để sử dụng dữ liệu mà không chỉ phải cố gắng
tìm kiếm.

Quyền truy cập dữ liệu là khả năng truy cập (hoặc truy xuất) thông tin từ bất kỳ nguồn
nào, ở bất kỳ nơi nào mà nó được lưu trữ. Một số công nghệ nhất định như các trình điều
khiển cơ sở dữ liệu, các trình chuyển đổi tài liệu sẽ giúp thực hiện các tác vụ này được dễ
dàng và hiệu quả hơn.

❖ Công nghệ hỗ trợ tích hợp dữ liệu:

Tích hợp dữ liệu tạo ra các kết hợp hỗn hợp của dữ liệu, rất hữu ích khi đưa ra quyết
định. Bởi vì nó kết hợp các yếu tố của nhiều tập dữ liệu riêng lẻ, dữ liệu tích hợp có thể tiết
lộ thông tin chi tiết mới và giúp bạn trả lời các câu hỏi khác nhau.

Tích hợp dữ liệu là một quá trình kết hợp các loại dữ liệu khác nhau để đưa ra kết quả
thống nhất. Với các công cụ tích hợp dữ liệu, bạn có thể thiết kế và tự động hóa các bước

322
để thực hiện công việc này. Các công cụ như ETL (trích xuất, biến đổi và tải), ELT (trích
xuất, tải và biến đổi) có thể hỗ trợ hữu ích cho việc tích hợp dữ liệu.

❖ Công nghệ hỗ trợ chất lượng dữ liệu:

Chất lượng dữ liệu là hoạt động đảm bảo dữ liệu chính xác và có thể sử dụng được
cho mục đích đã định. Điều này được bắt đầu thực hiện ngay thời điểm dữ liệu được truy
cập và tiếp tục thông qua các điểm tích hợp khác nhau với các dữ liệu khác.

Chất lượng dữ liệu kém có thể dẫn đến những sai lầm và tốn kém. Dữ liệu lỗi thời,
không đáng tin cậy, không đầy đủ hoặc không phù hợp với mục đích đã định sẽ không có
độ tin cậy và sẽ gây ra các vấn đề trong toàn tổ chức. Một giải pháp chất lượng dữ liệu có
thể chuẩn hóa, phân tích cú pháp và xác minh một cách tự động, nhất quán giúp giảm những
rủi ro đó.

❖ Công nghệ hỗ trợ quản trị dữ liệu:

Quản trị dữ liệu là một khuôn khổ về con người, chính sách, quy trình và công nghệ
xác định cách chúng ta quản lý dữ liệu của tổ chức. Với phần mềm quản trị dữ liệu, bạn có
thể xác định các quy tắc thực thi các chính sách của mình, giúp điều chỉnh dữ liệu và chiến
lược kinh doanh của tổ chức.

Việc quản trị thường được thúc đẩy bởi nhu cầu tuân thủ các quy định. Thông qua
các chính sách quản trị, bạn có thể xác định người dùng có thể truy cập dữ liệu nào, ai có
thể thay đổi dữ liệu (so với chế độ xem) và cách xử lý các trường hợp ngoại lệ. Các công
cụ quản lý dữ liệu giúp bạn kiểm soát và quản lý các quy tắc, theo dõi cách chúng được xử
lý và gửi báo cáo cho các cuộc kiểm toán.

❖ Công nghệ hỗ trợ siêu dữ liệu:

Sử dụng bảng thuật ngữ kinh doanh để thiết lập chủ sở hữu dữ liệu, tích hợp quy trình
công việc và gắn cờ trạng thái cho các vấn đề, đồng thời trực quan hóa kiến trúc và các mối
quan hệ dữ liệu. Kỹ thuật dòng dữ liệu giúp theo dõi luồng đi của dữ liệu từ gốc đến vị trí
hiện tại của nó khi thực hiện các quy trình kinh doanh.

Khi làm việc cùng nhau, các công cụ này giúp thúc đẩy sự hợp tác và gắn kết hoạt
động kinh doanh với CNTT. Mỗi khi được thông báo về các vấn đề tiềm ẩn, bạn có thể giải
quyết các vấn đề này sớm hơn, trước khi chúng gây ra các vấn đề lớn hơn. Bạn cũng có thể
khám phá các mối quan hệ dữ liệu và tiến hành phân tích tác động bằng các công cụ này.
323
❖ Công nghệ hỗ trợ chuẩn bị dữ liệu:

Chuẩn bị dữ liệu là một nhiệm vụ quan trọng để chuẩn bị dữ liệu cần thiết cho quá
trình phân tích. Nó liên quan đến việc kết hợp dữ liệu từ nhiều nguồn khác nhau, sau đó
làm sạch và biến đổi dữ liệu theo yêu cầu phân tích. Nếu được thực hiện thông qua giao
diện tự phục vụ, người dùng doanh nghiệp có thể truy cập và thao tác dữ liệu họ cần mà
không cần phải được đào tạo tối thiểu và thậm chí không cần yêu cầu trợ giúp của CNTT.

Một mô hình tốt phụ thuộc vào việc chuẩn bị dữ liệu tốt. Nhưng đó là một công việc
tốn nhiều thời gian. Các công cụ chuẩn bị dữ liệu tốt cho kết quả dữ liệu sạch và gia tăng
giá trị của dữ liệu. Vì vậy các chuyên gia dữ liệu có thể nhanh chóng truy cập, làm sạch,
chuyển đổi và cấu trúc dữ liệu cho bất kỳ mục đích phân tích nào. Kết quả là năng suất sẽ
cao hơn, quyết định đưa ra được tốt hơn và nhanh chóng hơn.

2.2. Phân loại quản lý dữ liệu

Trong thực tế, quản lý dữ liệu có thể được thực hiện chuyên sâu theo một hoặc một
số kiểu cách nhất định. Các kiểu quản lý dữ liệu thường được phân loại gồm: Quản lý dữ
liệu chủ (Master data management); quản lý chất lượng dữ liệu (Data quality management);
bảo mật dữ liệu (Data security); quản trị dữ liệu (Data governance); quản lý dữ liệu lớn (Big
data management); Kho dữ liệu (Data warehousing).

Căn cứ vào đặc điểm riêng của mỗi doanh nghiệp cũng như môi trường của tổ chức
mà lựa chọn một hoặc kết hợp một số loại quản lý dữ liệu cụ thể cho doanh nghiệp.

a). Quản lý dữ liệu chủ:

Quản lý dữ liệu chủ là quá trình đảm bảo một tổ chức luôn làm việc và đưa ra quyết
định dựa trên một phiên bản của dữ liệu "đúng" hiện tại - thường được gọi là "bản ghi vàng".

Nghe có vẻ đơn giản, nhưng trong môi trường kinh doanh hiện đại, tràn ngập các
luồng dữ liệu liên tục, quản lý dữ liệu chủ có thể là một trong những thách thức kinh doanh
phức tạp nhất. Việc sử dụng dữ liệu từ các nguồn khác nhau và trình bày nó như một nguồn
ổn định, đáng tin cậy cho thông tin thời gian thực đã được xác minh, cần sự kết hợp của cả
bí quyết, công cụ và thường là quan hệ đối tác chiến lược.

Quản lý dữ liệu chủ cũng liên quan đến quản trị dữ liệu và chất lượng dữ liệu, mặc
dù quản lý dữ liệu chủ chưa được áp dụng rộng rãi như hai chức năng quản lý dữ liệu khác.
Đó là một phần do sự phức tạp của các chương trình quản lý dữ liệu chủ, phần lớn giới hạn
324
chúng trong các tổ chức lớn. Quản lý dữ liệu chủ tạo một sổ đăng ký trung tâm của dữ liệu
chủ cho các miền dữ liệu đã chọn - cái thường được gọi là bản ghi vàng. Dữ liệu chính được
lưu trữ trong một trung tâm quản lý dữ liệu chủ, cung cấp dữ liệu cho các hệ thống phân
tích để báo cáo và phân tích doanh nghiệp nhất quán; nếu muốn, trung tâm cũng có thể đẩy
dữ liệu chủ cập nhật trở lại hệ thống dữ liệu nguồn.

b). Quản lý chất lượng dữ liệu:

Quản lý chất lượng dữ liệu chịu trách nhiệm kiểm tra dữ liệu đã thu thập để tìm các
vấn đề cơ bản như sự trùng lặp dữ liệu, dữ liệu không nhất quán,... Người quản lý chất
lượng dữ liệu hỗ trợ toàn bộ hệ thống quản lý dữ liệu đã được xác định.

Chất lượng dữ liệu là hoạt động đảm bảo dữ liệu chính xác và có thể sử dụng được
cho mục đích đã định. Cũng giống như quản lý chất lượng ISO 9000 trong sản xuất, chất
lượng dữ liệu nên được sử dụng ở mọi bước của quy trình quản lý dữ liệu. Điều này bắt đầu
từ thời điểm dữ liệu được truy cập, thông qua các điểm tích hợp khác nhau với các dữ liệu
khác và thậm chí bao gồm cả các điểm ngay trước khi dữ liệu được xuất bản, báo cáo hoặc
được tham chiếu tại một điểm đến khác.

c). Bảo mật dữ liệu:

Một trong những khía cạnh quan trọng nhất của quản lý dữ liệu ngày nay là bảo mật
dữ liệu. Mặc dù các phương pháp nổi bật như DevSecOps kết hợp các cân nhắc bảo mật ở
mọi cấp độ phát triển ứng dụng và trao đổi dữ liệu, các chuyên gia bảo mật vẫn được giao
nhiệm vụ quản lý mã hóa, ngăn chặn truy cập trái phép, bảo vệ chống lại việc di chuyển
hoặc xóa ngẫu nhiên và các mối quan tâm hàng đầu khác.

d). Quản trị dữ liệu:

Quản trị dữ liệu là việc đặt ra các luật cho trạng thái thông tin của doanh nghiệp.
Khung quản trị dữ liệu giống như một bản hiến pháp vạch ra các chính sách rõ ràng cho
việc tiếp nhận, lưu chuyển và bảo vệ thông tin. Các nhà quản lý dữ liệu giám sát mạng lưới
quản lý, chuyên gia quản lý chất lượng, đội bảo mật và các khía cạnh hoạt động khác của
họ để theo đuổi chính sách quản trị phục vụ phương pháp quản lý dữ liệu tổng thể.

Quản trị dữ liệu trước hết là một quá trình tổ chức có sẵn các sản phẩm phần mềm có
thể giúp quản lý các chương trình quản trị dữ liệu, nhưng chúng là một phần tử tùy chọn.
Mặc dù các chương trình quản trị có thể được quản lý bởi các chuyên gia quản lý dữ liệu,

325
nhưng chúng thường bao gồm một hội đồng quản trị dữ liệu bao gồm các giám đốc điều
hành doanh nghiệp, những người cùng đưa ra quyết định về các định nghĩa dữ liệu chung
và các tiêu chuẩn của công ty để tạo, định dạng và sử dụng dữ liệu.

e). Quản lý dữ liệu lớn:

Dữ liệu lớn là thuật ngữ tổng hợp được sử dụng để mô tả việc thu thập, phân tích và
sử dụng một lượng lớn thông tin kỹ thuật số để cải thiện hoạt động. Theo nghĩa rộng, lĩnh
vực quản lý dữ liệu này chuyên về thu nhận, tính toàn vẹn và lưu trữ luồng dữ liệu thô mà
ban quản lý khác tập trung sử dụng để cải thiện hoạt động và bảo mật, đồng thời cung cấp
thông tin kinh doanh.

Các cơ sở dữ liệu không chứa SQL thường được sử dụng trong triển khai dữ liệu lớn
vì khả năng lưu trữ và quản lý nhiều loại dữ liệu khác nhau. Môi trường dữ liệu lớn cũng
thường được xây dựng dựa trên các công nghệ nguồn mở như Hadoop, một khung xử lý
phân tán với hệ thống tệp chạy trên các cụm máy chủ hàng hóa được hỗ trợ bởi cơ sở dữ
liệu HBase của nó; chíp xử lý Spark với các nền tảng xử lý luồng Kafka, Flink và Storm.
Ngày càng có nhiều hệ thống dữ liệu lớn được triển khai trên đám mây, sử dụng lưu trữ đối
tượng như Dịch vụ lưu trữ giản đơn của Amazon (Amazon Simple Storage Service).

f) Kho dữ liệu:

Thông tin là nền tảng của kinh doanh hiện đại. Khối lượng thông tin khổng lồ đưa ra
một thách thức rõ ràng: Chúng ta phải làm gì với tất cả những khối này? Quản lý kho dữ
liệu cung cấp và giám sát cơ sở hạ tầng vật lý và hoặc dựa trên đám mây để tổng hợp dữ
liệu thô và phân tích sâu để đưa ra thông tin chi tiết về doanh nghiệp.

Kho dữ liệu là phương pháp truyền thống hơn: Kho dữ liệu thường dựa trên cơ sở dữ
liệu quan hệ hoặc dạng cột và nó lưu trữ dữ liệu có cấu trúc được tập hợp từ các hệ thống
hoạt động khác nhau và chuẩn bị cho quá trình phân tích. Các trường hợp sử dụng kho dữ
liệu chính là truy vấn thông tin kinh doanh và lập báo cáo kinh doanh. Kho dữ liệu cho phép
các nhà phân tích và giám đốc điều hành kinh doanh phân tích doanh số bán hàng, quản lý
hàng tồn kho và các chỉ số hiệu suất hoạt động chính khác.

Kho dữ liệu kinh doanh của doanh nghiệp bao gồm dữ liệu từ các hệ thống kinh doanh
trong một tổ chức. Trong các công ty lớn, các công ty con và đơn vị kinh doanh riêng lẻ có
quyền tự chủ về quản lý có thể xây dựng kho dữ liệu của riêng mình. Kiot dữ liệu (Data

326
mart) là một tùy chọn khác, chúng là phiên bản nhỏ hơn của kho dữ liệu chứa các tập con
dữ liệu của tổ chức cho các phòng ban hoặc nhóm người dùng cụ thể.

2.3. Lợi ích và những thách thức của quản lý dữ liệu

Việc quản lý dữ liệu hiệu quả mang lại nhiều lợi ích cho các tổ chức trong quản lý
điều hành hoạt động doanh nghiệp. Tuy nhiên để hiện thực tốt quản lý dữ liệu thì các tổ
chức cũng sẽ phải đương đầu với không ít những thách thức mà quản lý dữ liệu mang đến.

a). Lợi ích của quản lý dữ liệu:

Quản lý dữ liệu hiệu quả thường mang lại nhiều lợi ích cho các tổ chức, doanh nghiệp.
Các lợi ích có thể kể đến như là: Cải thiện quản lý hoạt động; Tiếp thị và bán hàng hiệu quả
hơn; Kiểm soát tuân thủ và quy định tốt hơn; Tăng cường bảo mật và quyền riêng tư; Giảm
rủi ro trên diện rộng; Ứng dụng và phát triển hệ thống nhanh hơn; Cải thiện việc ra quyết
định và báo cáo; Tăng trưởng kinh doanh bền vững; Liên kết kinh doanh và kỹ thuật; Hoạt
động tự động và hoặc sắp xếp hợp lý; Cộng tác nhiều hơn và tăng trưởng doanh thu; Nhất
quán hơn trên tất cả các quy trình của doanh nghiệp.

Quản lý dữ liệu hiệu quả giúp các tổ chức xác định và giải quyết các điểm khó khăn
nội bộ và mang lại trải nghiệm khách hàng tốt hơn.

Đầu tiên, quản lý dữ liệu cung cấp cho các doanh nghiệp cách đo lường lượng dữ liệu
đang phát sinh. Với vô số tương tác xảy ra trong nền tảng hoạt động của bất kỳ doanh
nghiệp nào đều tiềm ẩn những sự cố, những trục trặc có thể liên quan đến cơ sở hạ tầng
mạng, ứng dụng phần mềm, giao diện ứng dụng, giao thức bảo mật, v.v.. Quản lý dữ liệu
hiệu quả sẽ cung cấp cho các nhà quản lý một cái nhìn toàn cảnh về doanh nghiệp, hỗ trợ
họ cả về quan điểm lẫn trong hoạch định chính sách.

Một khi dữ liệu được quản lý hiệu quả, nó có thể được khai thác để lấy thông tin vàng
để có thể thực hiện việc kinh doanh thông minh. Điều này có thể hỗ trợ các tổ chức thông
qua nhiều phương thức khác nhau, chẳng hạn:

- Quảng cáo thông minh nhắm đến mục tiêu khách hàng: theo sở thích và các tương tác
của họ.

- Bảo mật toàn diện nhằm bảo vệ thông tin quan trọng.

- Đản bảo sự phù hợp với các tiêu chuẩn tuân thủ liên quan, tiết kiệm thời gian, chi phí.

327
- Máy học cách phát triển nhận thức về môi trường nhiều hơn theo thời gian, cung cấp
năng lượng cải tiến tự động và liên tục.

- Giảm chi phí hoạt động thông qua việc chỉ sử dụng dung lượng lưu trữ cần thiết và
công suất tính toán cần thiết để đạt hiệu suất tối ưu.

Người tiêu dùng và người mua cũng được hưởng lợi từ việc quản lý dữ liệu hiệu quả.
Bằng cách tìm hiểu sở thích và thói quen mua sắm của họ, các doanh nghiệp có thể cung
cấp cho khách hàng khả năng tiếp cận thông tin họ muốn một cách nhanh chóng hơn. Khách
hàng và những khách hàng tiềm năng có thể tận hưởng những trải nghiệm mua sắm tùy
thích theo cá nhân và tin tưởng rằng thông tin cá nhân với việc thanh toán sẽ được lưu trữ
an toàn, giúp việc mua hàng trở nên đơn giản.

Ngày nay, các nhà bán lẻ hàng đầu như Office Depot đang tận dụng quản lý dữ liệu
vào các chu kỳ bán hàng để đo lường việc mua sắm, mua hàng và sắp xếp giao hàng trong
vài giây, đáp ứng nhu cầu của khách hàng gần như trong thời gian thực. Tất cả điều đó được
hỗ trợ bởi quản lý dữ liệu hiệu quả.

b). Những thách thức đối với quản lý dữ liệu:

Mặc dù quản lý dữ liệu hiệu quản mang lại nhiều lợi ích cho tổ chức, doanh nghiệp
song trong bối cảnh công nghệ thông tin ngày càng phát triển và liên tục thay đổi thì các
nhà quản lý dữ liệu cũng sẽ gặp phải rất nhiều thách thức trên con đường thực hiện nhiệm
vụ quản lý dữ liệu của mình.

Có rất nhiều thách thức đối với những nhà quản lý dữ liệu song những thách thức
dưới đây rất cần được các nhà quản lý dữ liệu lường tính trước. Các thách thức này là:
Thách thức về khối lượng dữ liệu; Thách thức về sự cô lập dữ liệu; Thách thức từ quá trình
cấu trúc hóa dữ liệu phi cấu trúc’ và Thách thức liên quan đến văn hóa của tổ chức.

- Thách thức về khối lượng dữ liệu: Số lượng dữ liệu (ít nhất là trong tạm thời) sẽ bị
nhiều áp đảo. Thật khó để phóng đại khối lượng dữ liệu phải được quản lý trong doanh
nghiệp hiện đại. Vì vậy, khi phát triển các hệ thống và quy trình, các nhà phát triển hãy sẵn
sàng suy nghĩ lớn và thực sự phải suy nghĩ lớn. Các dịch vụ chuyên biệt của bên thứ ba có
thể được xem xét để tích hợp dữ liệu lớn hoặc cung cấp nền tảng liên kết dữ liệu quan trọng.

- Thách thức từ sự cô lập dữ liệu: Nhóm phát triển hệ thống có thể làm việc từ một
bộ dữ liệu, trong khi nhóm bán hàng lại làm việc từ một bộ dữ liệu khác và nhóm hoạt động

328
lại có thể từ một bộ dữ liệu khác nữa, v.v.. Nhìn chung, quản lý dữ liệu hiện đại sẽ dựa trên
quyền truy cập vào tất cả thông tin này để phát triển trí tuệ kinh doanh hiện đại. Các dịch
vụ nền tảng quản dữ liệu thời gian thực có thể giúp truyền phát và chia sẻ thông tin một
cách rõ ràng giữa các nhóm hoạt động từ một nguồn dữ liệu đáng tin cậy duy nhất.

- Thách thức cấu trúc hóa dữ liệu phi cấu trúc: Quá trình chuyển đổi dữ liêu từ không
có cấu trúc đến dữ liệu có cấu trúc có thể rất gian nan. Dữ liệu thường đổ vào các tổ chức
dưới dạng phi cấu trúc. Do vậy, trước khi nó có thể được sử dụng để tạo ra thông tin kinh
doanh, việc chuẩn bị dữ liệu phải được thực hiện. Cụ thể: Dữ liệu phải được sắp xếp, loại
bỏ sự trùng lặp và nếu không thì phải tiến hành “làm sạch dữ liệu”. Các nhà quản lý dữ liệu
thường dựa vào quan hệ đối tác của bên thứ ba để hỗ trợ quá trình này thông qua việc sử
dụng các công cụ được thiết kế (chẳng hạn như premises), các đám mây hoặc môi trường
kết hợp.

- Thách thức liên quan đến văn hóa của tổ chức: Quản lý văn hóa là điều cần thiết để
quản lý dữ liệu. Tất cả các quy trình và hệ thống trên thế giới đều tạo ra rất ít lợi ích nếu
mọi người không biết phải làm như thế nào và tại sao phải thực hiện. Bằng cách làm cho
các thành viên trong nhóm nhận thức được lợi ích của việc quản lý dữ liệu (và những cạm
bẫy tiềm ẩn của việc bỏ qua nó), các nhà quản lý thu hút các thành viên trong nhóm như
những phần thiết yếu của các tiến trình thông tin.

Cho dù những thách thức này và những thách thức khác xen vào giữa cách thức kinh
doanh cũ và việc khai thác sức mạnh của dữ liệu cho hoạt động kinh doanh thông minh.
Tuy nhiên, với việc lập kế hoạch, thực hành và đối tác phù hợp, các công nghệ như máy
học gia tốc có thể biến các điểm mấu chốt thành các cánh cổng để hiểu sâu hơn về doanh
nghiệp và trải nghiệm khách hàng tốt hơn.

3. HIỆN THỰC VỀ QUẢN TRỊ DỮ LIỆU KINH DOANH TẠI CÁC DOANH
NGHIỆP

3.1. Các giai đoạn của quá trình hiện thực quản lý dữ liệu

Mặc dù nhu cầu dữ liệu cụ thể là duy nhất đối với mọi tổ chức, việc chuẩn bị một
khung quản lý dữ liệu sẽ giúp con đường dẫn đến việc quản lý dữ liệu hiệu quả hơn, dễ
dàng hơn. Ba giai đoạn cơ bản (Lập kế hoạch, lưu trữ dữ liệu, chia sẻ dữ liệu) có thể được
xem như những chìa khóa cho một chiến lược quản lý dữ liệu thành công.

329
a). Lập kế hoạch:

Lập kế hoạch chính là việc xây dựng và viết kế hoạch quản lý dữ liệu. Tài liệu này là
biểu đồ ước tính về mức sử dụng dữ liệu, nguyên tắc, khả năng truy cập, cách tiếp cận lưu
trữ, quyền sở hữu, v.v. Lập kế hoạch đóng vai trò vừa là tài liệu tham khảo vừa là hồ sơ
sống và sẽ được sửa đổi khi hoàn cảnh thay đổi. Ngoài ra, lập kế hoạch còn trình bày chiến
lược tổng thể của tổ chức để quản lý dữ liệu cho các nhà đầu tư, kiểm toán viên và các bên
liên quan khác, đây là thông tin chi tiết quan trọng về sự chuẩn bị sẵn sàng của một công ty
đối với sự khắc nghiệt của thị trường hiện đại. Các nội dung chi tiết thường được xác định
trong quá trình lập kế hoạch, bao gồm:

- Các định dạng tập tin ưu tiên;

- Các quy ước đặt tên;

- Các tham số truy cập cho các bên liên quan khác nhau;

- Quy trình sao lưu và lưu trữ;

- Xác định các đối tác và các điều khoản, dịch vụ mà họ sẽ cung cấp;

- Tài liệu kỹ lưỡng

Có các dịch vụ trực tuyến có thể giúp lập kế hoạch chi tiết cho các nội dung trên bằng
cách hướng dẫn từng bước để thực hiện các nội dung từ các mẫu.

b). Lưu trữ dữ liệu:

Trong số các chi tiết cụ thể được đề cập ở trên, cách tiếp cận lưu trữ dữ liệu vững
chắc là trọng tâm để quản lý dữ liệu tốt. Quá trình này bắt đầu bằng cách xác định xem nhu
cầu lưu trữ của bạn phù hợp nhất với kho dữ liệu hay hồ dữ liệu (hoặc cả hai) và đâu là dữ
liệu thuộc về công ty: ngay tại công ty hay trên đám mây. Sau đó, phác thảo một thỏa thuận
nhất quán và có hiệu lực cho việc đặt tên tập tin, thư mục, người dùng và hơn thế nữa. Đây
là một phần cơ bản của việc quản lý dữ liệu, vì các thông số này sẽ xác định cách lưu trữ
tất cả dữ liệu trong tương lai và sự không nhất quán sẽ dẫn đến lỗi và không đầy đủ tri thức.

- Bảo mật và sao lưu:

Dữ liệu không an toàn rất nguy hiểm, vì vậy bảo mật phải được quan tâm ở mọi lớp.
Một số tổ chức phải chịu gánh nặng bởi những quy định đặc biệt như HIPPA, CIPA, GDPR
và các tổ chức khác mà các tổ chức này bổ sung thêm các yêu cầu bảo mật chẳng hạn như

330
kiểm toán định kỳ. Khi bảo mật không thành công, kế hoạch dự phòng có thể là sự khác
biệt giữa sự sống còn hay là chết của doanh nghiệp. Các mô hình truyền thống yêu cầu ba
bản sao của tất cả dữ liệu quan trọng, bao gồm: bản gốc, bản sao được lưu trữ cục bộ và
bản sao lưu trữ từ xa. Tuy nhiên, các mô hình đám mây mới nổi bao gồm sao chép dữ liệu
phi tập trung, với nhiều tùy chọn sao lưu hơn có sẵn với chi phí lưu trữ và truyền tải ngày
càng hợp lý.

- Tài liệu là chìa khóa:

Đơn giản bởi nếu nó quan trọng, hãy ghi lại nó. Nếu toàn đội chia xổ số và chạy đến
Jamaica thì tài liệu kỹ lưỡng, dễ đọc nêu rõ các quy trình bảo mật và dự phòng sẽ cho đội
tiếp theo cơ hội chiến đấu để tiếp tục nơi họ đã dừng lại. Nếu không có nó, tri thức chỉ nằm
ở những người nắm giữ, những người có thể là hoặc không phải là một đối tác của cách tiếp
cận quản lý dữ liệu dài hạn.

Lưu trữ dữ liệu thay đổi nhanh như công nghệ đòi hỏi nó, vì vậy bất kỳ cách tiếp cận
nào cũng phải linh hoạt và có cách tiếp cận lưu trữ hợp lý để đảm bảo cho chi phí có thể
quản lý được.

c). Chia sẻ dữ liệu:

Sau khi tất cả các kế hoạch được thiết lập để lưu trữ, bảo mật và ghi lại dữ liệu của
bạn, bạn nên bắt đầu quá trình chia sẻ dữ liệu đó với những người thích hợp. Một số câu
hỏi quan trọng cần trả lời trước khi người khác truy cập thông tin tiềm năng quan trọng:

- Ai sở hữu dữ liệu?

- Dữ liệu có thể được sao chép?

- Mọi người đóng góp vào dữ liệu đã đồng ý chia sẻ nó với những người khác chưa?

- Ai có thể truy cập dữ liệu này và vào thời điểm nào?

- Có bản quyền, bí mật của công ty, sở hữu trí tuệ độc quyền hoặc thông tin ngoài
giới hạn khác trong tập dữ liệu không?

- Dữ liệu của tổ chức tiết lộ điều gì khác về chính nó?

Với những câu hỏi đó và các câu hỏi khác đã được trả lời, đã đến lúc cần tìm một địa
điểm và phương tiện để chia sẻ dữ liệu. Từng được gọi là kho lưu trữ, việc chia sẻ dữ liệu

331
này ngày càng được đảm trách bởi các phần mềm và cơ sở hạ tầng như các mô hình dịch
vụ được tinh chỉnh để quản lý dữ liệu lớn.

3.2. Phần mềm quản lý dữ liệu

Như đã đề cập ở trên, để hỗ trợ quản lý dữ liệu hiệu quả, hiện nay nhiều tổ chức đã
cung cấp các phần mềm dưới dạng các nền tảng để quản lý dữ liệu (Data management
platform) cho các tổ chức như là bên thứ ba cung cấp dịch vụ về quản lý dữ liệu.

a). Nền tảng quản lý dữ liệu:

Nền tảng quản lý dữ liệu là một nền tảng quản lý dữ liệu tập trung, cho phép bạn tạo
ra các khách hàng mục tiêu dựa trên sự kết hợp chuyên sâu các dữ liệu đầu tiên của bạn và
dữ liệu đối tượng của bên thứ ba.

Với nền tảng quản lý dữ liệu tập trung, doanh nghiệp có thể:

- Quản lý nhiều chiến dịch trực tuyến trên các mạng khác nhau (networks), trao đổi
(exchange), và các nhà xuất bản (publishers);

- Đảm bảo bạn có quyền kiểm soát tài sản dữ liệu của bạn, tối đa hóa phân khúc, ngăn
chặn rò rỉ sử dụng và màn hình đối tác;

- Nếu đang chạy nhắm mục tiêu lại (Remarketing) và muốn nâng cao khả năng khả
năng mở rộng, thích hợp nhắm mục tiêu của bạn và tin nhắn;

- Hỗ trợ chiến dịch mục tiêu tốt hơn để cải thiện tỷ lệ đáp ứng, chuyển đổi, và nhận diện
thương hiệu;

- Hỗ trợ mua phương tiện truyền thông các vị trí, dữ liệu đối tượng của bên thứ ba hoặc
đấu thầu trên thị quảng cáo một cách thường xuyên;

- Giúp kiểm soát chi phí quảng cáo và cải thiện ROI tổng thể.

b). Một số phần mềm quản lý dữ liệu tiêu biểu:

Tại Việt nam hiện nay, nền tảng quản lý dữ liệu tập trung FPT đang là dự án được
nghiên cứu và phát triển bởi Ban công nghệ FPT với mục đích áp dụng nền tảng công nghệ
Big data cho các công ty thành viên (Sendo.vn, FPT Shops, ANTS) và phát triển một số
nghiệp vụ mới.

Tại nước ngoài, các nền tảng tích hợp và quản lý dữ liệu hàng đầu trong ngành như
Talend’s cung cấp một cách thống nhất để di chuyển và quản lý tất cả các hoạt động dữ
332
liệu, từ xây dựng mã đến lưu trữ kho lưu trữ lạnh. Bằng cách trực quan hóa các nhiệm vụ
mã hóa phức tạp, làm việc từ các mẫu thân thiện với người dùng, quản lý các cân nhắc tuân
thủ, v.v., phần mềm quản lý dữ liệu sẽ tăng tốc độ và đơn giản hóa sự phức tạp, đồng thời
đưa toàn bộ bức tranh dữ liệu của tổ chức sáng lên trên một ô kính duy nhất. Với thời gian
hoạt động 24/7, độ tin cậy hàng đầu trong ngành và đường cong học tập đơn giản hơn, các
dịch vụ như Talend cung cấp cho người quản lý dữ liệu khả năng kiểm soát tốt hơn với chi
phí thấp hơn cả về thời gian và tiền bạc so với các phương pháp tự xây dựng hoàn toàn căn
cứ vào thực tiễn của mỗi doanh nghiệp.

Một nền tảng quản lý dữ liệu có thể kể đến đó là SAS: Theo SAS thì dữ liệu đáng tin
cậy dẫn đến phân tích đáng tin cậy là điều quan trọng đối với sự thành công của mọi doanh
nghiệp. Và dữ liệu đáng tin cậy bắt đầu bằng việc có một chiến lược quản lý dữ liệu vững
chắc được hỗ trợ bởi công nghệ quản lý dữ liệu đã được chứng minh. Nền tảng quản lý dữ
liệu SAS bao gồm tất cả các khả năng bạn cần để truy cập, tích hợp, làm sạch, quản lý và
chuẩn bị dữ liệu của bạn cho phân tích, bao gồm cả các phân tích nâng cao như trí tuệ nhân
tạo và máy học. Tất cả đều là một phần của “Nền tảng quản lý dữ liệu SAS”.

3.3. Một số khuyến nghị nhằm hỗ trợ hiện thực quản lý dữ liệu kinh doanh cho các
doanh nghiệp

Để giúp các doanh nghiệp Việt nam có thể hiện thực quản lý dữ liệu cho mình một
cách hiệu quả, một số khuyến nghị sau đây sẽ là cơ sở để các doanh nghiệp có thể tham
khảo và vận dụng vào cho đơn vị của mình.

- Xác định cụ thể các mục tiêu của quản trị dữ liệu đối với hoạt động của doanh nghiệp;

- Xây dựng kế hoạch, xác định chức năng, thiết lập cơ chế liên quan đến quản lý dữ liệu
một cách chi tiết;

- Quản lý các nguồn lực quan trọng phục vụ cho quản lý dữ liệu;

- Phối hợp với các đơn vị có nền tảng quản lý dữ liệu tập trung uy tín để hỗ trợ, tư vấn
và tiếp cận hiện thực hiệu quả nhất.

4. KẾT LUẬN

Bài viết này đã trình bày cơ bản một số vấn đề liên quan đến dữ liệu và quản lý dữ
liệu kinh doanh cho các doanh nghiệp. Kết quả phân tích, đánh giá và trình bày trong bài
tham luận cho thấy:
333
- Dữ liệu là vô cùng quan trọng và có giá trị quyết định hiệu quả hoạt động của các
doanh nghiệp trong thời đại của cuộc cách mạng công nghiệp 4.0 hiện nay;

- Tuy nhiên thực tiễn hiện nay tại Việt nam nói chung và tại khu vực Thành phố Hồ
Chí Minh nói riêng, sự hiểu biết về quản lý dữ liệu còn nhiều hạn chế kể lý luận lẫn
thực tiễn;

- Việc hiện thực quản lý dữ liệu hiệu quả cho các doanh nghiệp Việt nam để nâng cao
hiệu quả hoạt động cho doanh nghiệp nói riêng và cho cả ngành kinh doanh nói
chung còn đang ở mức độ sơ khai mà thậm chí là bỏ ngỏ do thiếu các đối tác thứ ba
có uy tín tham gia.

Trên cơ sở của sự phân tích, đánh giá và trình bày các nội dung liên quan đến dữ liệu,
quản lý dữ liệu và vai trò của quản lý dữ liệu đối với hoạt động của doanh nghiệp Việt nam
nói riêng, các doanh nghiệp, tổ chức nói chung, bài tham luận đã đề xuất một số hàm ý
khuyến nghị tham khảo cho các tổ chức, doanh nghiệp khi muốn hiện thực quản lý dữ liệu
cho đơn vị để đáp ứng những đòi hỏi của chuyển đổi số trong cuộc cách mạng công nghiệp
4.0 hiện nay.

TÀI LIỆU THAM KHẢO

[1] DAMA International (2017), DAMA-DMBOK Data management body of knowledge


(Second Edition), DAMA Pub.
[2] Laura S.C for DAMA International (2015), Navigating the Labyrinth - An Executive
Guide to Data Management, DAMA Pub.
[3] Laura S.C for DAMA International (2018), Measuring Data Quality for Ongoing
Improvement, DAMA Pub.
[4] https://www.chartercollege.edu/news-hub/why-data-management-so-important-your-
business
[5] https://www.sas.com/en_us/insights/articles/data-management/data-management-
backgrounder.html
[6] https://blogs.sas.com/content/datamanagement/2015/11/19/top-5-benefits-managing-
data/
[7] https://www.blue-pencil.ca/what-is-data-management-and-why-it-is-important/
[8] https://searchdatamanagement.techtarget.com/definition/data-management
[9] https://transworldintl.com/2018/06/05/6-reasons-why-data-management-is-important-
to-any-organisation/
334
[10] https://www.invensis.net/blog/6-reasons-managing-records-promotes-business-
success/
[11] https://www.talend.com/resources/what-is-data-management/
[12] https://www.progress.com/blogs/top-10-data-management-challenges-availability-
security
[13] https://www.thebalancecareers.com/challenges-managers-and-organizations-face-
with-data-4100645
[14] https://www.sas.com/th_th/insights/articles/data-management/5-data-management-
best-practices.html
[15] https://techinsight.com.vn/xay-dung-nen-tang-du-lieu-data-management-platform/
[16] https://www.sas.com/en_us/insights/data-management/data-management.html

335
KHO DỮ LIỆU TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG
MINH TẠI CÁC CƠ QUAN - DOANH NGHIỆP
(Enterprise Data Warehouse in Smart Data Analytics and Management)

VÕ XUÂN THỂ
Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: vxthe@ufm.edu.vn

Tóm tắt: Bài viết này giới thiệu giải pháp tổ chức hình thành hệ thống Kho dự liệu (Data
Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thông minh và phân
tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa
học và hiệu quả trên cơ sở khai phá kho dữ liệu. Đây là một giải pháp thuộc lĩnh vực Khoa học dữ
liệu – Data Science – cung cấp nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản
lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần
thứ 4 (CMCN 4.0). Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là
Mô hình CSDL đa chiều (Dimensional Modeling) và luồng công việc tích hợp dữ liệu (Data
Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực
tuyến). Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là hệ thống
công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP)và ngôn ngữ vấn
tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View.

Từ khóa: Kho dữ liệu – Data Warehouse, Phân tích dữ liệu thông minh – Smart Data
analytics, Quản trị dữ liệu thông tin – Smart Data Management.

1. GIỚI THIỆU CHUNG


Kho dự liệu (còn gọi là Nhà kho dữ liệu: Data Warehouse) là mô hình nền tảng tổ
chức hình thành hệ thống dữ liệu lâu dài phục vụ cho việc quản trị dữ liệu thông minh
và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản
lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu tại các cơ quan, doanh
nghiệp. Đây cũng là nền tảng hình thành BigData.
Kho dự liệu cung cấp một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science
– là nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình
thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4
(CMCN 4.0).
1. Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là
+ Mô hình CSDL đa chiều (Dimensional Modeling) và

336
+ Luồng công việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP
(On-Line Transaction Processing: Xử lý giao dịch trực tuyến).
2. Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là
+ Hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing:
OLAP) và
+ ngôn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và
Materialized View.
Bài viết này nhằm giới thiệu tổng quan và minh họa tổ chức cài đặt Kho dữ liệu trong
thực tiễn nhằm giúp người đọc có cái nhìn tổng quan về Kho dữ liệu trong phân tích và
quản trị dữ liệu thông minh.
Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiên
cứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung.
2. GIỚI THIỆU VỀ KHO DỮ LIỆU
2.1. “Kho dữ liệu” (Data Warehouse: DWH) 1
“Kho dữ liệu” còn gọi là “Nhà kho dữ liệu” là một lĩnh vực Khoa học dữ liệu nghiên
cứu và ứng dụng các mô hình tổ chức hệ thống dữ liệu tích hợp (Integrated) từ nhiều
nguồn khác nhau từ các các Hệ quản trị Cơ sở dữ liệu khác nhau; trên cơ sở đó hình
thành một cơ sở dữ liệu có cố lượng (nhiều table với lượng mẫu tin) rất lớn. Hệ thống
dữ liệu này phục vụ cho cơ chế phân tích đánh giá các dữ liệu tích hợp (Factors) theo
nhiều chiều (Dims) khác nhau phục vụ cho hoạch định chiến lược, chiến thuật hoạt động
của các cơ quan – doanh nghiệp, như Hình 2. Như vậy có thể xem Data warehouse là cơ
sở nền tảng cho Data Mining (Khai phá dữ liệu).

Hình 2. Mô hình kho dữ liệu

1
Có nhiều khái niệm về DWH (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này.

337
Theo khái niệm của wikipedia: Kho dữ liệu (tiếng Anh: data warehouse) là kho lưu
trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế
để hỗ trợ việc phân tích dữ liệu và lập báo cáo.

Định nghĩa cổ điển này về kho dữ liệu tập trung vào việc lưu trữ dữ liệu. Tuy nhiên,
các phương tiện cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản lý dữ
liệu từ điển cũng được coi là các thành phần cốt yếu của một hệ thống kho dữ liệu. Nhiều
người sử dụng thuật ngữ "kho dữ liệu" với ngữ cảnh rộng hơn. Một định nghĩa mở rộng
cho kho dữ liệu bao gồm cả các công cụ thông minh, các công cụ để trích, biến đổi và
nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data).

Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày
càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích
hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá
trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau:

1. Dữ liệu tích hợp (Atomicity): Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều
này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ
liệu.

2. Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp,
người ta chỉ lấy những dữ liệu có ích.

3. Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ
liệu khác hoặc tác động lên nhau.

4. Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể
tạo thêm hay sửa đổi.

2.2. Kiến trúc cơ bản của kho dữ liệu

Mô hình data warehouse 3 tầng (lớp) như Hình 3:


1. Tầng đáy (hình thành DWH): Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn
khác sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập trung
2. Tầng giữa (duy trì hoạt động DWH = xử lý khai thác sử dụng): Cung cấp các dịch
vụ để thực hiện các thao tác với kho dữ liệu gọi là dịch vụ OLAP (OLAP server).

338
Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả
hai mô hình trên Hybrid OLAP
3. Tầng trên cùng (hỗ trợ người sử dụng khai thác sử dụng DWH): nơi chứa các câu
truy vấn, báo cáo, phân tích

Hình 3. Kiến trúc 3 tầng của Kho dữ liệu

2.3. Lý do phải sử dụng Kho dữ liệu?

Kho dữ liệu là công cụ hiệu quả không thế thiếu trong các cơ quan – doanh nghiệp
hiện nay. Có nhiều lý do mà các cơ quan – doanh nghiệp hiện nay phải tổ chức Kho dữ
liệu, như Hình 4:
1. Đối với các tổ chức có lượng dữ liệu ngày càng lớn thì càng khó truy cập và sử dụng
dữ liệu.
2. Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau, và
lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát triển
bởi các nhà cung cấp khác nhau.
3. Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp nhất
dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và báo cáo.
4. Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu.
5. Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn. Quá trình
này rất tốn kém, không hiệu quả và tốn thời gian. Data warehouse cung cấp một
phương pháp tiếp cận tốt hơn.
6. Kho dữ liệu thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng nhất; làm
sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng truy cập, hiểu
rõ và sử dụng.
339
7. Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu.
8. Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu
cầu phân tích dữ liệu mang tính lịch sử.
9. Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, có
thể dẫn đến kết quả không tốt cho các ứng dụng hoạt động.
10. Do đó có một yêu cầu tách riêng hai môi trường để giảm thiểu xung đột và sự
xuống cấp của hiệu suất trong môi trường hoạt động.

Hình 4. Mục đích sử dụng Kho dữ liệu trong các cơ quan - đaonh nghiệp

2.4. Công cụ và Ngôn ngữ hỗ trợ kho dữ liệu


• Ngôn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Processing), rất
phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập
trung vào các câu lệnh sau:
1. Thu nhỏ (roll-up): ví dụ: nhóm dữ liệu theo năm thay vì theo quý.
2. Mở rộng (drill-down): ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
3. Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2,
Q3, Q4 chỉ xem của Q1.
4. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (tương ứng thêm điều kiện vào câu
lệnh WHERE trong SQL).
So sánh giữa OLAP với OLTP như Hình 5

340
Hình 5. So sánh OLAP với OLTP

• Công cụ ETL(Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu): hỗi trợ
tầng đáy trong nạp dữ liệu từ nhiều nguồn vào kho dữ liệu và tiền xử lý
(Preprocessing), như Hình 6

Hình 6. Công cụ ETL nạp dữ liệu và tiền xử lý Kho dữ liệu

2.5. Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu

Cả hai đều có thể sử dụng độc lập với nhau, tuy nhiên khi kết hợp được kho dữ liệu
với khai phá dữ liệu thì lợi ích rất lớn lý do như:
1. Dữ liệu của kho dữ liệu rất phù hợp cho việc khai phá dữ liệu do đã được tập hợp và
làm sạch.
2. Cơ sở hạ tầng của kho dữ liệu hỗ trợ rất tốt cho các việc như xuất, nhập cũng như
các thao tác cơ bản trên dữ liệu
3. OLAP về cung cấp các tập lệnh rất hữu hiệu trong phân tích
2.6. Các lĩnh vực ứng dụng

Kho dữ liệu có rất nhiều ứng dụng trong thực tiễn phân tích dữ liệu và hoạch định
chiến lược – chiến thuật hoạt động hoặc kinh doanh của các cơ quan – doanh nghiệm và
có thể chia thành ba nhóm ứng dụng chính:
1. Xử lý thông tin như tạo ra các báo cáo và trả lời các câu hỏi định trước.
2. Phân tích và tổng hợp dữ liệu, kết quả được thể hiện bằng các báo cáo và bảng biểu.
3. Dùng trong các mục đích kế hoạch như khai phá (còn gọi là khai khoáng) dữ liệu.

341
Các lĩnh vực hiện tại có ứng dụng kho dữ liệu bao gồm:
1. Phân tích hoạch định kinh doanh
2. Thương mại điện tử
3. Quản lý quan hệ khách hàng (CRM - Customer Relationship Management)
4. Chăm sóc sức khỏe
5. Viễn thông
2.7. Các mô hình thiết kế Kho dữ liệu

Có nhiều mô hình thiết kế Kho dữ liệu


1. Subject Oriented – Hướng chủ đề
- Kho dữ liệu được thiết kế để hỗ trợ trong việc phân tích dữ liệu
- Được tổ chức xung quanh các chủ đề chính như: khách hàng, sản phẩm, bán hàng,…
- Loại bỏ những dữ liệu không hữu ích cho trình ra quyết định
Mô hình này giúp cho người dùng hướng theo một chủ đề nhất định giúp xác định
được những thông tin cần thiết trong hoạt động của mình.
2. Integrated – Hướng tích hợp
- Dữ liệu của kho dữ liệu rất đa dạng
- Dữ liệu được tập hợp từ nhiều nguồn khác nhau:
Mô hình này dựa trên Cở sở dữ liệu quan hệ (Relational Databases), flat files, các
bảng ghi toàn tác trực tuyến. Điều này sẽ dấn đến việc trong quá trình tập hợp dữ liệu
phải thực hiện việc tiền xử lý, tức là: làm sạch, sắp xếp, rút gọn dữ liệu.
3. Non Volatile – Hướng ổn định
- Dữ liệu được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn
- Kho dữ liệu tách rời với vật lý, trực tiếp từ môi trường tác nghiệp, nên dữ liệu
trong kho dữ liệu là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới được.
4. Time Variant – Hướng biến đổi theo thời gian
- Dữ liệu bao gồm quá khứ và hiện tại
- Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian và có tính lịch sử
Dữ liệu trong kho dữ liệu rất lớn và không được thêm, xóa, sửa dữ liệu.

2.8. Các bước cơ bản trong tiến trình tích hợp dữ liệu

Từ các nguồn không đồng nhất, ta tiến hành các bước tích hợp kho dữ liệu như sau:

342
Bước 1. Trích xuất dữ liệu: thu thập dữ liệu lớn từ nhiều nguồn từ đa nền tảng

Bước 2. Làm sạch: tìm lỗi và sửa sai Data Base nguồn

Bước 3. So khớp mẫu: Lọc và chuyển đổi dữ liệu = chuyển đổi từ định dạng cơ sở dữ
liệu sang định dạng kho (DWH)

Bước 4. Lưu trữ dữ liệu theo cấu trúc: sắp xếp, hợp nhất và tổng hợp,... nhằm dễ truy
cập, dễ hiểu và dễ sử dụng.

2.9. Khai thác sử dụng Kho dữ liệu

Một số cấu trúc khai thác sử dụng kho dữ liệu thông dụng:

Vấn tin với các phép toán tổng hợp của SQL trên kho dữ liệu: SQL Subtotal, bao gồm:

+ Mệnh đề GROUP BY
+ Các mở rộng của các hệ quản trị cơ sở dữ liệu để hỗ trợ cho kho dữ liệu, gồm:
Mệnh đề SQL CUBE
Mệnh đề SQL ROLLUP
Mệnh đề SQL GROUPING SETS
Kết hợp các phép toán SUBTOTAL
Vấn tin với các hàm phân tích của SQL trên kho dữ liệu: SQL Analytic, gồm:

Mô hình xử lý và cú pháp cơ bản


Cú pháp mở rộng và các hàm xếp hạng (rank)
So sánh cửa sổ (Window Comparisons)
Các hàm so sánh tỷ lệ
Vấn tin dùng Materialized View để phân tích trên kho dữ liệu, gồm: Truy vấn dùng
Materialized View với khung nhìn (views)

Hệ thống OLAP (On-Line Analytical Processing: công cụ xử lý phân tích trực tuyến),
gồm:

+ Cube (khối) Khối dữ liệu + Tạo khối (cube) cho dữ liệu với

. Các bảng đa chiều(dimension table) và


. Bảng sự kiện (fact table)
+ Một số thao tác (lệnh) cơ bản của OLAP:

. Thu nhỏ (roll-up): VD: nhóm dữ liệu theo năm thay vì theo quý.

343
. Mở rộng (drill-down): VD: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
. Cắt lát (slice): nhìn theo từng lớp một.
Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1.
. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (thêm điều kiện WHERE vào câu
lệnh trong SQL).
3. MINH HỌA MỘT MÔ HÌNH KHO DỮ LIỆU
3.1. Giới thiệu mô hình Data nguồn

Xét mô hình phân tích kho dữ liệu: Quản lý khám chữa bệnh bằng Thể bảo hiểm y tế:

Gồm 2 Data Base


[1] Data Base: Quản lý Thẻ BHYT như Hình 7: QLBHYT

Hình 7. Cơ sở dữ liệu ngồm: Quản lý thẻ Bảo hiểm y tế

[2] Data Base: Quản lý Khám chữa bệnh dùng Thẻ Bảo hiểm Y Tế như Hình 8: QLKCB

Hình 8. Cơ sở dữ liệu nguồn: Quản lý khám chữa bệnh bằng bảo hiểm y tế

Một số giải thích:


+ Nếu DOTKHAM có MATHE_BHYT <> NULL = Bệnh nhân sử dụng Thẻ BHYT
+ Chi phí thuốc = SL * GIA (thuốc)
+ Chi phí dịch vụ = SL * GIA (Dịch vụ)
+ Nếu không dùng dịch vụ thì Chi phí dịch vụ = 0, Nếu không cấp thuốc thì Chi phí thuốc = 0

344
3.2. Các yêu cầu đặt ra
Phân tích tổng chi phí Khám chữa bệnh (Fact: Factor) dùng BHYT theo các Dim
(Dimension)
+ Theo Loại Đơn vị
+ Theo Ngày
+ Theo Cơ sở y tế
+ Theo Quận
3.3. Phân tích Kho dữ liệu
Xuất phát từ Factor TongChiPhiDichVu, TongChiPhiThuoc, TongSoLuotKham, ta thấy:
TongChiPhiThuoc = được tính theo trình tự
DOTKHAM.STT:
Tiền (chi phí) thuốc [Tien]= CAPTHUOC.SL * DMTHUOC.GIA / MSTHUOC, STT
Tổng Tiền (chi phí) thuốc theo từng lượt khám [TienSTT] = SUM(Tien) / STT
Tông Tiền (chi phí) thuốc theo từng KV làm cơ sở nạp vào BIDS phân tích số liệu nhà kho.
TongChiPhiDichVu = tính theo trình tự tương tự trên
CÀI ĐẶT Views
TÍNH TIỀN THUỐC CHO TỪNG ĐỢT KHÁM (STT)
w_TienThuocMsThuoc: Tính tiền thuốc theo từng loại thuốc (MSTHUOC) của mỗi đợt
khám (STT) = dùng 3 Tables[k, c, t]
SELECT k.STT, t.MSTHUOC, c.SL, t.GIA, c.SL * t.GIA AS Tien
FROM dbo.DOTKHAM AS k INNER JOIN
dbo.CAPTHUOC AS c ON k.STT = c.STT INNER JOIN
dbo.DMTHUOC AS t ON c.MSTHUOC = t.MSTHUOC
GROUP BY k.STT, t.MSTHUOC, c.SL, t.GIA
w_TienThuocSTT: Tính tiền thuốc theo từng đợt khám (STT) = dùng 1 Table + View nêu
trên [k, t]
SELECT k.STT, SUM(t.Tien) AS TienThuocSTT
FROM dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienThuocMsThuoc AS t ON k.STT = t.STT
GROUP BY k.STT

345
TÍNH TIỀN DỊCH VỤ CHO TỪNG ĐỢT KHÁM (STT)
w_TienDVMsDV: Tính tiền Dịch vụ theo từng loại dịch vụ (MADV) của mỗi đợt khám
(STT) = dùng 3 Tables[k, s, d]
SELECT k.STT, d.MADV, s.SL, d.GIA, s.SL * d.GIA AS Tien
FROM dbo.DOTKHAM AS k INNER JOIN
dbo.SDDV AS s ON k.STT = s.STT INNER JOIN
dbo.DICHVU AS d ON s.MADV = d.MADV
GROUP BY k.STT, d.MADV, s.SL, d.GIA
w_TienDVSTT: Tính tiền Dịch vụ theo từng đợt khám (STT) = dùng 1 Table + 1 View nêu trên
[k, d]
SELECT k.STT, SUM(d.Tien) AS TienDVSTT
FROM dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienDVMsDV AS d ON k.STT = d.STT
GROUP BY k.STT
TÍNH TỔNG TIỀN CHI PHÍ [Thuốc + Dịch vụ] CHO TỪNG ĐỢT KHÁM (STT)
w_TongTienSTT
SELECT k.STT, t.TienThuocSTT AS 'TienThuoc', d.TienDVSTT AS 'TienDV',
t.TienThuocSTT + d.TienDVSTT AS TongTien
FROM dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienDVSTT AS d ON k.STT = d.STT INNER JOIN
dbo.w_TienThuocSTT AS t ON k.STT = t.STT
GROUP BY k.STT, t.TienThuocSTT, d.TienDVSTT ===XỬ LÝ KHI CHỈ
DÙNG Thuốc OR CHỈ Dịch vụ cũng Tính
Các nội dung khác tương tự
3.4. Thiết kế Kho dữ liệu đế phân tích dữ liệu theo yêu cầu trên
Mô hình Kho dữ liệu phân tích được thiết kế như Hình 9

+ Dùng ETL (Extract - Transform – Load: Trích xuất - Biến đổi – Nạp dữ liệu trên SQL Server:
Chuyển DB từ OLTP (On-Line Transaction Processing = Xử lý giao dịch trực tuyến) => DW
Nguồn: QLBHYT, QLKCB => Đích: QLKCBBHYT_DWH

346
Hình 9. Mô hình Kho dữ liệu quản lý khám chữa bệnh bằng Bảo hiểm y tế

Có thể load Data Base theo phương pháp Copy Data Base Dùng SQL Server
Integrated Services (SSIS) để phục vụ việc nạp Data Base từ OLTP vào các Dim (tức
là các chiều phần tích số liệu trong Kho dữ liệu
Nhiệm vụ của việc dùng ETL thông qua các Views là phục vụ cho việc tính toán
các số liệu thông kê Factor phục vụ phân tich số liệu nhà kho.
Trong đó:
+ Factor là các số liệu thống kế được hình thành thông qua các vấn tin có sử dụng các mệnh
đề mở rộng, như: Compute với các hàm tính toán thông kế, như: SUM, AVERAGE, MIN,
MAX, COUNT trên các fields tính toán của các Data Base nguồn.
+ Dim là các tiêu chí phân tích (đáng giá) các Facter trên Bảng (Tables) đã có hoặc được
lập mới, như: DimNgay.
3.5. Dùng BIDS đề phân tích số liệu Kho dữ liệu theo yêu cầu trên
Dùng công cụ phân tích nhà kho dữ liệu của Microsoft là BIDS để phân tích kho dữ
liệu đã cài đặt nêu trên như Hình 10

347
Hình 10. Phân tích kho dữ liệu dùng BIDS của Microsoft

4. KẾT LUẬN
Với mô hình kho dữ liệu sẽ giúp các cơ quan – doanh nghiệp hiện nay tổ chức quản
lý, duy trình hoạt động và khai thác sử dụng một cách hiệu quả trong việc hoạch định
chiến lược, chiến thuật hoạt động và vận hành thông qua phân tích các Factors theo các
Dim. Vì vậy kho dữ liệu là mô hình không thể thiếu trong các cơ quan – doanh nghiệp
hiện này, phục vục việc phân tích và quản lý dự liệu thông minh.
Các giải pháp kho dữ liệu trong khoa học dữ liệu mở ra nhiều hướng ứng dụng trong
thực tiễn tại các cơ quan – doanh nghiệp, như: dự đoán thị trường kinh tế, dự báo khuynh
hướng xã hội và nhiều bài toán hữu ích khác.

348
DANH MỤC MỘT SỐ TỪ VIẾT TẮT được dùng trong bài viết
Tiếng Việt:
1. CMCN 4.0: Cách mạng công nghiệp lần thứ 4.
Tiếng Anh:
2. BIDS: SQL Server Business Intelligence Development Studio: Công cụ phân tích
nhà kho dữ liệu của Microsoft.
3. DWH:Data Warehouse: Kho dự liệu còn gọi là Nhà kho dữ liệu.
4. ETL: Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu
5. OLAP: On-Line Analytical Processing: công cụ xử lý phân tích trực tuyến
6. SQL: Structured Query Language: Ngôn ngữ vấn tin có cấu trúc.
TÀI LIỆU THAM KHẢO:
[1]. Võ Xuân Thể (2021), Bài giảng: Kho dữ liệu, Trường Đại học Sư phạm Kỹ thuật
Tp.HCM.
[2]. Alejandro Vaisman and Esteban Zimányi, Data Warehouse Systems: Design and
Implementation, Springer, 2014.
[3]. Christian S. Jensen et al., Multidimensional Databases and Data Warehousing,
Morgan & Claypool, 2010.
[4]. Paul Lane et al., Oracle Database Data Warehousing Guide, 12cRelease 1 (12.1),
Oracle, 2014.
[5]. Ralph Kimball and Margy Ross, The Data Warehouse Toolkit: The Definitive
Guide to Dimensional Modeling, 3rd Edition, Wiley, 2013.
[6]. Matt Casters et al., Pentaho Kettle, Solutions: Building Open Source ETL
Solutions with Pentaho Data Integration, Wiley, 2010.
[7]. Microsoft, SQL Server 2012 Tutorials: Analysis Services - Multidimensional
Modeling, SQL Server 2012 Books Online, 2012.
[8]. Ramez Elmasri and Shamkant Navathe, Fundamental of Database Systems, 6th
Edition, Addison-Wesley, 2011.
Websites
[9]. http://inda.vn/
[10]. https://erps.vn/phan-biet-data-warehouse-va-database/
[11]. https://vietnambiz.vn

349
CÁC ĐỘ ĐO KHOẢNG CÁCH TRÊN CHUỖI DỮ LIỆU THỜI GIAN ỨNG
DỤNG TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH
(Distance measures for Time series data in Smart Data Analytics and Management)

VÕ XUÂN THỂ
Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing
Email: vxthe@ufm.edu.vn

Tóm tắt: Bài viết này giới thiệu một số phương pháp xác định độ đo khoảng cách thường áp
dụng trong việc xác định khoảng cách khác biệt giữa các điểm dữ liệu trong chuỗi dữ liệu theo thời
gian. Đây là một vần đề quan trọng trong việc xây dựng mô hình các bài toán về quản trị dữ liệu
thông minh và phân tích dữ liệu thông minh trên các chuỗi dữ liệu theo thời gian (Time Series
Data). Có rất nhiều bài toán về dữ liệu thông minh trên chuỗi dữ liệu thời gian được áp dụng trong
thực tiễn thuộc nhiều lĩnh vực khác nhau, như: kinh tế, xã hội, khoa học – kỹ thuật. Đây là những
bài toán góp phần vào Cách mạng công nghiệp lần thứ 4 trên nền tảng BigData. Mỗi độ đo khoảng
cách có tính hiệu quả nhất định cho từng bài toán Data Base theo từng dự án (Projetc) thực tiễn,
vì vậy việc lựa chọn một độ đo khoảng cách hợp lý cho từng bài toán là rất cần thiết, và đó cũng
là mục tiêu giới thiệu của bài viết này. Một số độ đo thông dụng thường áo dụng trên chuỗi dữ liệu
theo thời gian, như: độ đo Hamming, độ đo tựa (tương tự) Cosin, độ đo Minkowski , độ đo
Manhattan, độ đo Euclidean và độ đo Chebyshev sẽ được giới thiệu trong bài viết này. đặc biệt là
độ đo Euclidean.

Từ khóa: Chuỗi dữ liệu thời gian – Time series data, độ đo khoảng cách - Distance Measures,
Phân tích dữ liệu thông minh – Smart Data analytics, Quản trị dữ liệu thông tin – Smart Data
Management.

1. GIỚI THIỆU CHUNG


Cuộc cách mạng công nghiệp lần thứ 4 đã và đang mang lại nhiều kết quả cũng như
thách thức lớn cho ngành khoa học máy tính nói chung và lĩnh vực khai phá dữ liệu nói
riêng, đặc biệt là dữ liệu có yếu tố thời gian như: tỷ giá ngoại tệ, giá vàng, chỉ số chứng
khoán, dự báo thời tiết, thiên văn học, đo mực nước, điện tâm đồ,… Hướng nghiên cứu
trong lĩnh vực khai phá dữ liệu và học máy được nhiều giới khoa học quan tâm hiện
nay. Một trong nhưng khai phá dữ liệu phổ biến hiện nay là khai phá dữ liệu chuỗi thời
gian đã và đang thu hút sự quan tâm của nhiều nhà nghiên cứu trên thế giới.
Có rất nhiều dạng bài toán khai phá dữ liệu chuỗi thời gian như: Gom cụm, Lập chỉ
mục, Phân lớp, Phát hiện Motif, Phát hiện bất thường,. . .được áp dụng trong nhiều lĩnh

350
vực như: chứng khoán - tài chính – ngân hàng, y học, thiên văn học, địa chất, côn trùng
học … Các lĩnh vực nghiên cứu như y học hay tài chính, ngân hàng, … thường yêu cầu
về độ chính xác cao.
Việc lựa chọn độ đo khoảng cách hợp lý cho các bài toán nêu trên là rất cần thiết, vì
mỗi dữ liệu chuỗi thời gian có những đặc tính và đặc thù riêng của nó (tùy theo dự án:
project đang thực hiện) nên độ đo khoảng cách thường ảnh hưởng nhiều đến các kết quả
khai phá dữ liệu. Cho nên việc xác định độ đo khoảng cách trên dữ liệu chuỗi thời gian
đóng vai trò quan trọng đối với những bài toán khai phá dữ liệu chuỗi thời gian.
Bài viết này nhằm giới thiệu tổng quan mang tính học thuật về các độ đo khoảng cách
thường áp dụng trên các chuỗi dữ liệu thời gian trong các các bài toán về phân tích và
quản trị dữ liệu thông minh.
Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiên
cứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung.
2. GIỚI THIỆU VỀ CHUỖI DỮ LIỆU THỜI GIAN
2.1. Chuỗi thời gian (Time Series Data: TSD) 1
Chuỗi thời gian T = t1, t2, … tn là một tập theo thứ tự các biến giá trị thực có
chiều dài n.

Ví dụ về chuỗi thời gian là: lưu lượng mưa hàng năm ở miền nam Việt Nam, kết
quả điện tâm đồ (như Hình 11) [19], thời tiết…

Hình 11. Minh họa về chuỗi dữ liệu thời gian Điện tâm đồ ECG

1
Có nhiều khái niệm về TSD (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này.

351
2.2. Chuỗi con
Cho một chuỗi con Ti,m của chuỗi thời gian T = (t1, t2…, tn), là một tập hợp con
liên tục các giá trị của T có độ dài m, bắt đầu từ vị trí i. Ti,m = (ti,ti+1,…,ti+m-1) với
1≤ i ≤ n-m+1 [1].

2.3. Cửa sổ trượt (Sliding Window)


Cho một dữ liệu chuỗi thời gian T có chiều dài n, để xác định được chuỗi con
có chiều dài m, ta dùng một cửa sổ trượt có kích thước m trượt qua từng điểm từ trái
sang phải trên chuỗi T để xác định mỗi chuỗi con Q như Hình 12.

Hình 12. Minh họa cửa sổ trượt trên chuỗi dữ liệu thời gian
2.4. So trùng mẫu
Cho một số thực R (gọi là phạm vi và do người dùng định nghĩa) và một dữ liệu
chuỗi thời gian T chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt
đầu tại vị trí q, nếu hàm tính khoảng cách từ C đến M ký hiệu D(C, M) ≤ R (ta dùng
công thức tính khoảng cách euclid để tính toán khoảng cách giữa 2 chuỗi con) [1]
thì ta nói là chuỗi con M khớp được với chuỗi con C, như Hình 13.

Hình 13. Minh họa về So trùng mẫu giữa chuỗi con C và chuỗi con M được trích từ
chuỗi dữ liệu thời gian T
2.4.1. So trùng tầm thường
Cho một số thực dương R và một chuỗi thời gian T. Một chuỗi con Ci của T bắt
đầu tại vị trí i và một chuỗi con Cj của T bắt đầu tại vị trí j, nếu DIST(Ci , Cj) ≤ R thì
Cj được gọi là chuỗi con tương tự của Ci.
Các chuỗi con tương tự nhất với một chuỗi con Ci là các chuỗi con bắt đầu tại các
352
vị trí lệch một hay hai điểm về bên trái hay bên phải so với vị trí bắt đầu của chuỗi
con Ci. Có nghĩa là chuỗi con mới lệch một khoảng so với chuỗi con cũ và hai chuỗi
con này có chung một đoạn giá trị. Các trường hợp này được gọi là so trùng tầm
thường, như Hình 14 [1].

Hình 14. So trùng tầm thường trên 2 chuỗi con của chuỗi dữ liệu thời gian T
2.4.2. So trùng không tầm thường
Cho chuỗi thời gian T có chiều dài n, chuỗi C và M có chiều dài m và là chuỗi con
của chuỗi thời gian T. Chuỗi C bắt đầu tại vị trí p, chuỗi M bắt đầu tại vị trí q. Ta nói
chuỗi con M và chuỗi con C so trùng không tầm thường nếu |p-q| ≥ m. [1]

Đối với bài toán khoa học dữ liệu trên dữ liệu chuỗi thời gian, như: bài toán tìm
kiếm tương tự, gom cụm, phân loại trên dữ liệu thời gian thì dữ liệu chuỗi thời gian là
dãy các số thực T=t1, t2,…tn. Đối với những bài toán này đòi hỏi chúng ta phải định
nghĩa một độ đo tương tự giữa các cặp chuỗi thời gian với nhau.

Cho 2 chuỗi thời gian Q và C bất kỳ. Ta cần tính độ đo tương tự Dist(Q, C) của hai
chuỗi thời gian này.

Để tính toán chính xác thì các độ đo cần thỏa một số tính chất cơ bản sau:

- Dist(Q,C) = 0 nếu và chỉ nếu Q = C

- Dist(Q,C) = Dist(C,Q)

- Dist(Q,C) ≥ 0 với mọi Q, C

- Dist(Q,C) < Dist(Q, Z) + D(C, Z)

Có nhiều độ đo khoảng cách khác biệt giữa các chuỗi con hoặc các điểm dữ liệu
thường áp dụng trên chuỗi dữ liệu thời gian ban đầu như giới thiệu trong phần

353
3. GIỚI THIỆU VỀ CÁC ĐỘ ĐO KHOẢNG CÁCH
Sau đây bài viết giới thiệu một số giá trị độ đo khoảng cách khác biệt giữa các chuỗi
con hoặc điểm dữ liệu thường được áp dụng trên chuỗi dữ liệu thời gian trong các bài
toán phân tích và và quản trị dữ liệu thông minh:

+ Độ đo khoảng cách khác biệt d giữa các chuỗi con giữ vai trò quan trọng trong các bài
toán dữ liệu.

+ Độ đo khoảng cách d phải được xác định trước và nhất quán trong suốt quá trình bài
toán.

+ Các hàm tính độ đo khoảng cách được áp dụng cho các bài toán với thuộc tính đầu
vào xi thông thường là số thực.

3.1. Độ đo khoảng cách Hamming


Thường được áp dụng các bài toán có xi trong chuỗi dữ liệu thời gian là nhị phân
𝑛

𝐷𝑖𝑠𝑡(𝑥, 𝑧) = ∑ 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒(𝑥𝑖 , 𝑧𝑖 )
𝑖=1

Trong đó xi và zi là các giá trị nhi phân:


difference (= 1, nếu xi và zi khác nhau; = 0 nếu xi và zi giống nhau)
3.2. Độ đo khoảng cách tựa (tương tự) Cosin
Còn gọi là Cosine Similarity Distance Function [22].
Thường được áp dụng cho các bài toán có dữ liệu trong chuỗi dữ liệu thời gian dạng văn
bản :
xi là trọng số TF||IDF của từ khóa thứ i
Term Trequency – Inverse Document Frequency
𝑥. 𝑧 ∑𝑛𝑖=1 𝑥𝑖 . 𝑧𝑖
𝐷𝑖𝑠𝑡(𝑥, 𝑧) = =
‖𝑥‖‖𝑧‖ √∑𝑛𝑖=1 𝑥𝑖 2 √∑𝑛𝑖=1 𝑧𝑖 2

3.3. Độ đo khoảng cách Minkowski


Dùng gàm Minkowski (-norm). Nếu p =2 là Euclidean (thường dùng)
Hầu hết các công trình nghiên cứu trên dữ liệu chuỗi thời gian đều dựa trên độ đo
Minkowski để tính khoảng cách (hay mức độ tương tự) giữa hai chuỗi con. Công thức tính
khoảng cách Minkowski được định nghĩa như sau:
𝑝
𝐷𝑖𝑠𝑡(𝑄, 𝐶) = √∑𝑛𝑖=1(𝑞𝑖 − 𝑐𝑖 )𝑝 )
354
với qi ∈ Q, ci ∈ C, i = 1, …, n
Khi p = 1 ta có khoảng cách Manhattan
Khi p = 2 ta có khoảng cách Euclid
Khi p = ∞ ta có khoảng cách Max
Ở công thức trên thì giá trị của p có thể chọn bất kỳ, nhưng thông thường trong
các nghiên cứu về chuỗi dữ liệu thời gian thì thường sử dụng độ đo Euclid vì nó đơn
giản, dễ thực hiện và là khoảng cách hình học trong không gian đa chiều với độ chính
xác chấp nhận được .
Ưu điểm:
+ Tính toán nhanh, đơn giản.
+ Sử dụng trong nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như gom cụm, phân
lớp, phát hiện bất thường trên dữ liệu chuỗi thời gian.
+ Độ đo Minkowski thỏa mãn bất đẳng thức tam giác nên có thể hỗ trợ việc lập chỉ mục
dữ liệu, giảm thời gian phát hiện bất thường trên dữ liệu chuỗi thời
Nhược điểm:
+ Nhạy cảm với nhiễu
+ Các chuỗi thời gian có độ dài như nhau
+ Đối với dữ liệu có đường căn bản khác nhau thì thuật toán này chưa xử lý tốt (Hình 5)
+ Không thích hợp khi dữ liệu có biên độ dao động khác nhau. (Hình 6)

Hình 15. Chuỗi dữ liệu thời gian có đường căn bản khác biệt Hình 16. Chuỗi dữ liệu thời gian có biên độ dao động khác nhau

Để khắc phục một số nhược điểm của độ đo này thì ta có thể sử dụng phương
pháp chuẩn hóa dữ liệu (Data normalization). Hai phương pháp chuẩn hóa dữ liệu đang
được sử dụng hiện nay là:
❖ Chuẩn hóa trung bình Zero [1]:
Chuỗi Q được biến đổi thành chuỗi Q’ theo công thức
𝑄[𝑖]− 𝑚𝑒𝑎𝑛(𝑄)
Q’[i] =
𝑣𝑎𝑟(𝑄)

355
Với mean(Q) là giá trị trung bình và var(Q) là độ lệch chuẩn của Q.
Trong trường hợp không biết được giá trị lớn nhất và nhỏ nhất của tập dữ liệu hay
có những giá trị cá biệt thì phương pháp này có thể được áp dụng.
❖ Chuẩn hóa Min-Max [1]:
Chuỗi Q được biến đổi thành chuỗi Q’ theo công thức
𝑄[𝑖]−𝑀𝑖𝑛𝑜𝑙𝑑
𝑄’[𝑖] = (𝑀𝑎𝑥𝑛𝑒𝑤 − 𝑀𝑖𝑛𝑛𝑒𝑤 ) + 𝑀𝑖𝑛𝑛𝑒𝑤
𝑀𝑎𝑥𝑜𝑙𝑑 −𝑀𝑖𝑛𝑜𝑙𝑑

Với Minold và Maxold là giá trị nhỏ nhất và lớn nhất của chuỗi Q ban đầu.
Minnew và Maxnew là giá trị nhỏ nhất và lớn nhất của chuỗi Q’ là chuỗi sau khi được chuẩn
hóa.
Chuẩn hóa Min-Max đảm bảo được mối quan hệ giữa các giá trị của dữ liệu ban
đầu nhưng phương pháp này sẽ gặp phải lỗi ngoài giới hạn nếu một giá trị ban đầu vào
tương lai nằm ngoài đoạn giá trị [Min – Max] ban đầu.

3.4. Độ đo khoảng cách Manhattan


Dùng hàm Manhattan (=1): 𝐷𝑖𝑠𝑡 (𝑥, 𝑧) = ∑𝑛𝑖=1|𝑥𝑖 − 𝑧𝑖 |
Là trường hợp các biệt của độ đo khoảng cách Minkowski với p =1
3.5. Độ đo khoảng cách Euclidean
Dùng Hàm Euclidean (=2): 𝐷𝑖𝑠𝑡(𝑥, 𝑧) = √∑𝑛𝑖=1(𝑥𝑖 − 𝑧𝑖 )2
Cũng là trường hợp các biệt của độ đo khoảng cách Minkowski với p =2.
Đây là độ đo khoảng cách phổ biết nhất áp dụng trong các bài toán khoa học dữ liệu,
đặc biệt là bài toán trên chuỗi dữ liệu thời gian.
3.6. Độ đo khoảng cách Chebyshev
1
Dùng hàm Chebyshev (=) : 𝐷𝑖𝑠𝑡 (𝑥, 𝑧) = log 𝑝→ (∑𝑛𝑖=1|𝑥𝑖 − 𝑧𝑖 |𝑝 )𝑝 =
𝑚𝑎𝑥𝑖 |𝑥𝑖 − 𝑧𝑖 |

3.7. Độ đo khoảng cách xoắn thời gian động


DTW: Dynamic Time Warping
Khi hai đường biểu diễn là hai mẫu dữ liệu thời gian cần so sánh không giống nhau
hoàn toàn nhưng hình dạng biển đổi giống nhau thì việc sử dụng các khoảng cách so
sánh từng cặp điểm 1-1 để tìm ra độ tương tự giữa hai mẫu thì không phù hợp. Theo độ
đo Euclidean thì ta có thể thấy 1 điểm trên chuỗi chời gian này sẽ ánh xạ với một điểm
trên chuỗi thời gian bên kia hay các chuỗi cần tính khoảng cách phải có cùng độ dài. Để

356
khắc phục nhược điểm đó, thì một điểm có thể ánh xạ với nhiều điểm và ánh xạ này
không thẳng hàng. Phương pháp này gọi là xoắn thời gian động (Dynamic Time
Warping – DTW) được đề xuất bởi Bernt và Clifford năm 1994, như Hình 17 [1].

Hình 17. Hình minh họa DTW: Dynamic Time Warping: độ đo khoảng cách "xoắn thời gian động" và độ đo Euclidean

Cách tính:
Xây dựng ma trận:
Dm x n với m = |X| và n= |Y|. Khi đó, Dij = d(xi , yj ).
Sau khi xây dựng ma trận D , ta tìm đường đi từ ô (0,0) đến ô (m,n) thỏa mãn những
ràng buộc sau:
- Không được đi qua trái hay đi xuống
- Đường đi phải liên tục
- Ô (i,j) thuộc đường đi phải thỏa |i - j| <= w
Giả sử có K ô đi từ ô (0,0) đến ô (m,n) thỏa mãn những điều kiện trên, khi đó:

𝐷𝑇𝑊 (𝑄, 𝐶 ) = min{√∑𝐾


𝑘=1 𝑤𝑘 /𝐾}

Hoặc ta có thể dùng quy hoạch động để giải quyết bài toán này. Công thức truy hồi
để tính D(i, j) như sau:
𝐷(𝑖, 𝑗) = |𝑥𝑖 − 𝑦𝑗 | + min {𝐷 (𝑖 − 1, 𝑗), 𝐷 (𝑖 − 1, 𝑗 − 1), 𝐷 (𝑖, 𝑗 − 1)}

Độ đo tương tự DTW có ưu điểm là cho kết quả chính xác hơn so với độ đo Minkowski
và cho phép nhận dạng mẫu có hình dạng giống nhau nhưng chiều dài hình dạng về thời
gian có thể khác nhau. Tuy nhiên độ DTW có nhược điểm là độ phức tạp tính toán cao và
thời gian chạy lâu. Cho một chuỗi có chiều dài n thì độ phức tạp tính toán là O(n2).

4. MỘT SỐ MINH HỌA VỀ CÁCH TÍNH ĐỘ ĐO KHOẢNG CÁCH TRÊN


CHUỖI DỮ LIỆU THỜI GIAN
4.1. Xét ví dụ về cách tính độ đo d
Xét vector: thu nhập $/tháng (Income), tuổi (Age) và chiều cao m (Heigh)
x = (Age = 20, Income = 12 000, Heigh = 1.68)
z = (Age = 40, Income = 13 000, Heigh = 1.75)
357
Khoảng Euclide bậc 2 = Manhattan giữa x và z là

2 2
d(x, z) = √(𝑥𝐴𝑔𝑒 − 𝑧𝐴𝑔𝑒 ) + (𝑥𝐼𝑛𝑐𝑜𝑚𝑒 − 𝑧𝐼𝑛𝑐𝑜𝑚𝑒 )2 + (𝑥𝐻𝑒𝑖𝑔ℎ − 𝑧𝐻𝑒𝑖𝑔ℎ )

Trường hợp này Dom(Income) rất lớn so với 2 thuộc tính còn lại, nên quyết định hoàn toàn cho
giá trị d
Vì vậy, cần chuẩn hóa Dom của các thuộc tính đưa về cùng khoảng giá trị
. Thường dùng BIN (0,1)
. Với mỗi thuộc tính thứ i ta xác định giá trị mới xi = xi / max_value(fi)
. Nhằm đảm bảo các thuộc tính có vai trò “tương đồng” nhau trong việc xác định giá trị d
. Ngoài ra cần có trọng số w1 tương ứng từng thuộc tính xi

𝑑(𝑥, 𝑧) = √∑ 𝑤𝑖 (𝑥𝑖 − 𝑧𝑖 )2
𝑖=1

Trọng số wi thường do các chuyên gia trong linh vực xác định và được tối ưu dần trong quá trình
“học”

4.2. Áp dụng tính độ đo d vào k-NNC


- Xét tập NB(z): gồm “mẫu” gần nhất với với “mẫu” mới z cần phân lớp

- Nhiệm vụ: xác định các “mẫu” NN này quyết định thế nào đến “đoán” lớp cho z
- Mức độ ảnh hưởng của các “mẫu” NN này tùy thuộc vào độ đo d(xj, z)
- Gọi v là hàm xác định trong số theo khoảng cách
Rõ ràng : v(x, z) tỷ lệ nghịch với d(x, z)
+ Với bài toán phân lớp:
c(x, z) = arg 𝑚𝑎𝑥𝑐𝑗𝐶 ∑𝑥𝑁𝐵(𝑧) 𝑣(𝑥, 𝑧)𝐼𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑙(𝑐𝑗 , 𝑐(𝑥))
Với 𝐼𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑙 (𝑐𝑗 , 𝑐(𝑥)) = 1 nếu giống nhau, 0 nếu khác nhau
+ Với bài toán hồi quy | dự đoán:
∑𝑥𝑁𝐵(𝑧) 𝑣(𝑥,𝑧).𝑓(𝑥)
𝑓(𝑧) = ∑𝑥𝑁𝐵(𝑧) 𝑣(𝑥,𝑧)

Với 𝐼𝑑𝑒𝑛𝑡𝑖𝑐𝑎𝑙 (𝑐𝑗 , 𝑐(𝑥)) = 1 nếu giống nhau, 0 nếu khác nha
- Lựa chọn hàm xác định trọng số theo khoảng cách trong số tùy từng bài toán (với  là độ lệnh)
𝑑(𝑥,𝑧)2
1 1 −
𝑣(𝑥, 𝑧) = OR 𝑣(𝑥, 𝑧) = OR 𝑣(𝑥, 𝑧) = 𝑒 2
+𝑑(𝑥,𝑧) +𝑑(𝑥,𝑧)2

358
5. CÀI ĐẶT CÁCH TÍNH ĐỘ ĐO KHOẢNG CÁCH TRÊN CHUỖI DỮ LIỆU
THỜI GIAN
5.1. Minh họa cài đặt trên Python
5.1.1. Bộ dữ liệu thực nghiệm
+ Bộ cơ sở dữ liệu Iris (Iris flower dataset):
https://en.wikipedia.org/wiki/Iris_flower_data_set
+ Là bộ Bộ dữ liệu thông tin của ba loại hoa Iris (một loài hoa lan) khác nhau [số lớp c =
3]:
. Iris setosa
. Iris virginica và
. Iris versicolor.
Ví dụ về hình ảnh của ba loại hoa:

Ví dụ về Iris flower dataset (Nguồn: Wikipedia)

-> Mỗi loại có 50 bông hoa được đo với dữ liệu là 4 thông tin:
. Chiều dài, chiều rộng đài hoa (sepal),
. Chiều dài, chiều rộng cánh hoa (petal).
Tức là, mỗi “mẫu” dữ liệu trong tập này là một vector 4 chiều
5.1.2. Cài đặt ứng dụng tính độ đo khoảng cách trên chuỗi dữ liệu thời gian
5.1.2.1. Mô tả chung về hệ thống
+ Tách Bộ dữ liệu Iris gồm 150 “mẫu” [|D| =150] dữ liệu ta chia thành 2 phần: Training
Set và Test Set.
+ Nhiệm vụ bài toán kNN: dựa vào Training Set để dự đoán mỗi “mẫu” trong Test Set
tương ứng với loại hoa nào?
+ Kết quả dự đoán sẽ được đối chiếu với loại hoa thật của mỗi “mẫu” trong test set để
đánh giá hiệu quả của KNN.
5.1.2.2. Cài đặt mã lệnh
+ Khai báo thư viện (Iris flower dataset có sẵn trong thư viện scikit-learn: http://scikit-
learn.org/)
# -*- coding: utf-8 -*-
"""
Created on Mon Nov 23 03:58:20 2020

@author: VOXUAN
"""
359
# NẠP CÁC TẬP THƯ VIỆN
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

+ Nạp và hiện thị dữ liệu mẫu.


# TẢI HIỂN THỊ SỐ LƯỢNG TẬP DỮ LIỆU IRIS CÓ SẴN TRONG SKLEARN
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

print(u'Số lượng LỚP c được phân chia = %d' %len(np.unique(iris_y)))


print(u'Số lượng MẪU dữ liệu = %d' %len(iris_y))
+ Các lớp được gán nhãn là 0, 1, và 2.
# GÁN NHÃN CHO 3 LỚP ẢNH TRONG TẬP IRIS
X0 = iris_X[iris_y == 0,:]
X1 = iris_X[iris_y == 1,:]
X2 = iris_X[iris_y == 2,:]
print(u'\nCác MẪU thuộc LOP 0 gồm:\n', X0[:5,:])
print(u'\nCác MẪU thuộc LOP 1 gồm:\n', X1[:5,:])
print(u'\nCác MẪU thuộc LOP 2 gồm:\n', X2[:5,:])

--------------KẾT QUẢ IN RA------


Number of classes: 3
Number of data points: 150

Samples from class 0:


[[ 5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2]
[ 4.6 3.1 1.5 0.2]
[ 5. 3.6 1.4 0.2]]

Samples from class 1:


[[ 7. 3.2 4.7 1.4]
[ 6.4 3.2 4.5 1.5]
[ 6.9 3.1 4.9 1.5]
[ 5.5 2.3 4. 1.3]
[ 6.5 2.8 4.6 1.5]]
Samples from class 2:
[[ 6.3 3.3 6. 2.5]
[ 5.8 2.7 5.1 1.9]
[ 7.1 3. 5.9 2.1]
[ 6.3 2.9 5.6 1.8]
[ 6.5 3. 5.8 2.2]]

5.1.2.3. Tách: Training Set Và Test Sets


+ Giả sử dùng 50 MẪU dữ liệu Test Set,
100 MẪU còn lại Training Set.
+ Scikit-learn có hàm cho phép lựa chọn ngẫu nhiên:
# TÁCH TẬP TRAINING SET : 100 MẪU & TẬP TEST SET CÓ 50 MẪU
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size = 50)

print(u'\nSố lượng MẪU thuộc tập Training Set: ', len(y_train))


print(u'\nSo61 lượng Mẫu thuộc tập Test Set: ', len(y_test))
360
------------KẾT QUẢ---------------
Training size: 100
Test size : 50

5.1.2.4. Phân lớp theo KNN đối với các “mẫu” trong Test Sets
+ Xét trường hợp k = 1, tức là với mỗi MẪU Test data, chỉ xét 1 MẪU Training data gần
nhất và lấy label của MẪU đó để dự đoán cho MẪU test.
# DÙNG kNN PHÂN LỚP CHO CÁC MẪU TRONG TẬP TEST
# tự định nghĩa trọng số
def myweight(distance):
sigma2 = 0.5
return np.exp(-distance**2/sigma2)
cf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights=myweight) # p = 2 độ đo
Euclide

#cf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights='distance') # p = 2 độ đo Euclide


cf.fit(X_train, y_train)
y_result = cf.predict(X_test)
#in Kết quả
print(u'KẾT QUẢ PHÂN LỚP CÁC MẪU HOA IRIS TRONG BỘ TEST:\n')
print(u'Theo phân lớp 1NN có kết quả là : \n')
print(y_result)
print(u'\nKết quả đúng (ground truth)của các MẪU trong bộ TEST là :\n')
print(y_test)
5.1.2.5. Đánh giá độ chính xác (Evaluation Method)
+ Độ chính xác của giải thuật kNN Classifier
= SUM(số MẪU trong test data đoán đúng) / SUM(số lượng MẪU trong tập Test data).
+ Trong Scikit-learn: dùng hàm accuracy_score để tính.
# đánh giá tỷ lệ đúng (đoán bằng phân lớp kNN)
print(u'Tỷ lệ đoán phân lớp 1NN đúng đối với tập Test Iris: %.2f %%'
%(100*accuracy_score(y_test, y_result)))

. Với 1NN dùng độ đo khoảng cách Euclide p=2: kết quả là 94%
. Có thể thực nghiệm với k = 10 (major voting): kết quả 96%
5.1.2.6. Đánh trọng số các NN
+ Những MẪU “gần” hơn sẽ có trọng số cao hơn (càng thân cận thì càng tin tưởng).
+ Đơn giản là lấy nghịch đảo của khoảng cách.
Chú ý: Trường hợp test data trùng với 1 MẪU trong training data, tức khoảng cách bằng
0, ta lấy luôn label của MẪU training data).
+ Trong Scikit-learn: tham số weights = 'distance'.
(mặc định của weights = 'uniform': tất cả NN có trọng số bằng nhau)

clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2, weights = 'distance')

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print("Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

361
==========KẾT QUẢ =================

Accuracy of 10NN (1/distance weights): 100.00 %

. Với 10NN dùng độ đo khoảng cách Euclide p=2, dùng trọng số “khoảng cách” kết quả là 98%
+ Cũng có thể đánh trọng số các NN theo tùy chọn
−‖𝑥 − 𝑥𝑖 ‖22
𝑤𝑖 = 𝑒𝑥𝑝 ( )
2
Trong đó x là test data, xi là một MẪU trong NB(x), wi là trọng số của “MẪU”
NN đó (ứng với MẪU dữ liệu đang test x), σ là một số dương.
Hàm trên cũng thỏa mãn điều kiện: điểm càng gần x thì trọng số càng cao (max=1).

def myweight(distances):

sigma2 = .5 # we can change this number

return np.exp(-distances**2/sigma2)

clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2, weights = myweight)

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

print("Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

============KẾT QUẢ=============

Accuracy of 10NN (customized weights): 100.00 %

5.1.2.7. Full Codes


# -*- coding: utf-8 -*-
"""
Created on Mon Nov 23 03:58:20 2020

@author: VOXUAN
"""
# NẠP CÁC TẬP THƯ VIỆN
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# TẢI HIỂN THỊ SỐ LƯỢNG TẬP DỮ LIỆU IRIS CÓ SẴN TRONG SKLEARN
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

print(u'Số lượng LỚP c được phân chia = %d' %len(np.unique(iris_y)))


print(u'Số lượng MẪU dữ liệu = %d' %len(iris_y))
# GÁN NHÃN CHO 3 LỚP ẢNH TRONG TẬP IRIS
X0 = iris_X[iris_y == 0,:]
X1 = iris_X[iris_y == 1,:]
X2 = iris_X[iris_y == 2,:]
print(u'\nCác MẪU thuộc LOP 0 gồm:\n', X0[:5,:])
print(u'\nCác MẪU thuộc LOP 1 gồm:\n', X1[:5,:])

362
print(u'\nCác MẪU thuộc LOP 2 gồm:\n', X2[:5,:])
# TÁCH TẬP TRAINING SET : 100 MẪU & TẬP TEST SET CÓ 50 MẪU
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size = 50)

print(u'\nSố lượng MẪU thuộc tập Training Set: ', len(y_train))


print(u'\nSo61 lượng Mẫu thuộc tập Test Set: ', len(y_test))

# DÙNG kNN PHÂN LỚP CHO CÁC MẪU TRONG TẬP TEST
# tự định nghĩa trọng số
def myweight(distance):
sigma2 = 0.5
return np.exp(-distance**2/sigma2)
cf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights=myweight) # p = 2 độ đo
Euclide

#cf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights='distance') # p = 2 độ đo Euclide


cf.fit(X_train, y_train)
y_result = cf.predict(X_test)
#in Kết quả
print(u'KẾT QUẢ PHÂN LỚP CÁC MẪU HOA IRIS TRONG BỘ TEST:\n')
print(u'Theo phân lớp 1NN có kết quả là : \n')
print(y_result)
print(u'\nKết quả đúng (ground truth)của các MẪU trong bộ TEST là :\n')
print(y_test)
# đánh giá tỷ lệ đúng (đoán bằng phân lớp kNN)
print(u'Tỷ lệ đoán phân lớp 1NN đúng đối với tập Test Iris: %.2f %%' %(100*accuracy_score(y_test,
y_result)))

4. KẾT LUẬN
Với các bài toán phục vục việc phân tích và quản lý dự liệu thông minh thông thường
phải xử lý trên chuỗi dữ liệu thời gian. Và vì vậy, việc xác định một độ đo khoảng cách
phù hợp cho từng trường hợp số liệu cụ thể của bài toán theo một dự án (Project) xây
dựng mô hình khai phá dữ liệu trong thực tiễn các cơ quan – doanh nghiệp sẽ quyết định
đáng kế cho tính hiệu quả của bài toán dự án đó.
Có nhiều phương pháp xác định độ đo khoảng cách khác biệt giữa các chuỗi con hoặc
điểm dữ liệu trên chuỗi dữ liệu thời gian, như: khoảng cách Hamming, khoảng cách tựa
(tương tự) Cosin, khoảng cách Minkowski, khoảng cách Manhattan, khoảng cách
Euclidean, khoảng cách Chebyshev, khoảng cách xoắn thời gian động (DTW: Dynamic
Time Warping). Mỗi phương pháp có ưu điểm riêng và nhược điểm của nó nên có khi phù
hợp với bài toán project này nhưng không phù hợp với bài toán project khác và ngược lại.
Việc tìm hiểu và nghiên cứu các độ đo khoảng cách trên dữ liệu chuỗi thời gian góp
phần cải tiến tính hiệu quả các bài toán trong khoa học dữ liệu mở ra nhiều hướng ứng
dụng trong thực tiễn tại các cơ quan – doanh nghiệp.

363
DANH MỤC MỘT SỐ TỪ VIẾT TẮT được dùng trong bài viết
Tiếng Việt:
7. CMCN 4.0: Cách mạng công nghiệp lần thứ 4.
Tiếng Anh:
8. DTW: Dynamic Time Warping: Độ đo khoảng cách xoắn thời gian động.
9. SQL: Structured Query Language: Ngôn ngữ vấn tin có cấu trúc.
10. TSD: Time Series Data: Chuỗi dữ liệu thời gian.
TÀI LIỆU THAM KHẢO:
[12]. Nguyễn Thành Sơn (2021), Đề tài nghiên cứu khoa học cấp trường trọng điểm:
Dự báo trên chuỗi thời gian sử dụng phương pháp kết hợp mạng nơ-ron nhân tạo
và so trùng mẫu dưới độ đo xoắn thời gian động, T2020-16TD, Trường Đại học
Sư phạm Kỹ thuật Tp.HCM.
[13]. Nguyễn Văn Thành (2021), luận văn thạc sỹ: Phát hiện bất thường trên chuỗi
thời gian dựa vào ma trận khoảng cách, 1981308, Trường Đại học Sư phạm Kỹ
thuật Tp.HCM..
[14]. B. Liu, . L. Jianqiang and . C. Cheng, "Efficient Motif Discovery for LargeScale
Time Series in Healthcare," IEEE Transactions on Industrial Informatics, vol. 11,
no. 3, pp. 583 590, 2015.
[15]. C. M. Yeh, Y. Zhu and H. D. Anh, "Matrix Profile I: All pairs similarity joins
for Time Series," IEEICDM, 2016.
[16]. Cheboli, “Anomaly Detection of Time Series”, Master Thesis, 2010
[17]. E. Keogh, E., Lin, J. and Fu, (2005), “A HOT SAX: Efficiently Finding the Most
Unusual Time Series Subsequence”, In: Proc. of 5th IEEE Int. Conf. on Data
Mining (ICDM), pp. 226-233.
[18]. E. Keogh and S. Kasetty, "On the need for time series data mining benchmark: A
surevey and empirical demonstration," in In the 8th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, p. 23 – 26, 2002.
[19]. F. Chuah, M.C. Fu., “ECG anomaly detection via time series annalysis”,
Lecturer notes in computer science, pp. 123-135.
[20]. E. Keogh, C. A. Ratanamahatana, “Exact indexing of dynamic time warping”,
Knowledge and Information Systems (2004), Knowledge and Information
Systems (2004)
[21]. Hansheng Ren và cộng sự, “Time-Series Anomaly Detection Service at
Microsoft”, in KDD ’19, August 4–8, 2019, Anchorage, AK, USA, 2019

364
Websites
[22]. https://cmry.github.io/notes/euclidean-v-cosine
[23]. Keogh. Eamonn, http://www.cs.ucr.edu/~eamonn/discords/. 01.Jul.2020
[24]. UCR, "The UCR Matrix Profile Page," [Online]. Available:
https://www.cs.ucr.edu/~eamonn/MatrixProfile.html. 01.Jul.2020
[25]. Tập dữ liệu thực tế 01.Mar.2021
https://github.com/numenta/NAB/tree/master/data

365

You might also like