You are on page 1of 37

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING

KHOA MARKETING

MÔN TIN HỌC ỨNG DỤNG

tổng quan về dữ liệu lớn (Big Data)

Thực hiện: Nhóm 3


GVHD: Trương Xuân Hương

TP.HCM, THÁNG 10 NĂM 2023


TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING
KHOA MARKETING

MÔN TIN HỌC ỨNG DỤNG

tổng quan về dữ liệu lớn (Big Data)

MSSV HỌ TÊN
2221001616 VŨ HỒ ANH KIỆT
2221001898 ĐÀO NGỌC VƯỢNG
2221001594 NGUYỄN THỊ HƯỜNG
2221001506 VY NGỌC MINH ANH

TP.HCM, THÁNG 10 NĂM 2023


TÓM TẮT
1. Mục đích nghiên cứu:
- Mục đích của bài nghiên cứu này là tìm hiểu và tích lũy thêm kiến thức tổng
quan về dữ liệu lớn hay còn gọi là Big Data.
2. Đối tượng nghiên cứu:
- Đối tượng nghiên cứu của bài nghiên cứu này là những khái niệm cũng như
những nội dụng liên quan đến Dữ liệu lớn (Big Data).
3. Phương pháp nghiên cứu:
- Phương pháp thu thập thông tin và hình ảnh.
4. Kết quả của đề tài:
- Thứ nhất, trên cơ sở tiếp thu, chọn lọc có lựa chọn từ những nguồn tin uy tín
cũng như đáng tin cậy, bài nguyên cứu đã đưa ra đầy đủ những nội dung cần
thiết và đầy đủ về Dữ liệu lớn (Big Data)
- Thứ hai, bài nghiên cứu có thể trở thành tài liệu tham khảo hữu ích cho các cá
nhân, các nhóm hay các tổ chức có nhu cầu tìm hiểu về Dữ liệu lớn (Big Data).

1
LỜI CẢM ƠN
- Bài tiểu luận về đề tài: Dữ liệu lớn (Big Data) thuộc bộ môn tin học là kết quả
của quá trình học tập, tiếp thu kiến thức tại trường, lớp và cả những tìm tòi,
nghiên cứu của nhóm và sự chỉ dạy tận tình của cô.
- Đây là bài nghiên cứu của nhóm được thực hiện trên cơ sở chính xác, khách
quan và công bằng trong việc tìm kiếm và góp ý và làm bài của các thành viên
trong nhóm.
- Quá trình biên soạn còn nhiều thiếu soát, chúng em rất mong nhận được sự
quan tâm đóng góp ý kiến của cô để có thể hoàn thiện hơn vào những bài sau
này.
- Xin chân thành cảm ơn cô đã hướng dẫn tận tình và giúp đỡ đóng góp nhiều ý
kiến để hoàn thành đề tài này. Nhóm em xin chân thành cảm ơn!

2
MỤC LỤC
TÓM TẮT------------------------------------------------------------------------------- 1 -
LỜI CẢM ƠN-------------------------------------------------------------------------- 2 -
MỤC LỤC------------------------------------------------------------------------------- 3 -
DANH MỤC TỪ VIẾT TẮT-------------------------------------------------------- 7 -
DANH MỤC HÌNH ẢNH------------------------------------------------------------ 8 -
BIG DATA---------------------------------------------------------------------------- 9 -
1. Quá trình hình thành và phát triển của Big Data?------------------- 9 -
1.1 Quá trình hình thành của Big Data-------------------------------- 9 -
1.2 Quy trình xây dựng hệ thống Big Data--------------------------- 10 -
2. Big Data là gì? Tại sao Big Data quan trọng?----------------------- 10 -
2.1 Khái niệm Big Data-------------------------------------------------- 10 -
2.2 Những điều tạo nên “sức nặng” cho Big Data------------------ 11 -
2.3 Vai trò của Big data đối với thị trường Marketing------------- 11 -
3. Đặc điểm của Big Data--------------------------------------------------- 12 -
3.1 Volume (Khối lượng lớn)------------------------------------------- 12 -
3.2 Velocity (Tốc độ nhanh)--------------------------------------------- 13 -
3.3 Variety (Đa dạng)---------------------------------------------------- 13 -
3.4 Veracity (Độ tin cậy)------------------------------------------------- 13 -
3.5 Complexity (Phức tạp)----------------------------------------------- 14 -
3.6 Complexity (Phức tạp)----------------------------------------------- 14 -
4. Ứng dụng của Big Data-------------------------------------------------- 14 -
4.1 Ứng dụng quan trọng của Big Data------------------------------- 14 -
4.2 Các lĩnh vực, nghành nghề ứng dụng Big Data---------------- 15 -
5. Công nghệ và công cụ liên quan đến Big Data---------------------- 25 -
5.1 Cơ sở hạ tầng IT để hỗ trợ Big Data------------------------------ 25 -
5.1.1 Hệ thống lưu trữ phân tán----------------------------------------- 26 -
5.1.2 Cụm máy chủ (Cluster)-------------------------------------------- 26 -
5.1.3 Công nghệ ảo hóa (Virtualization)------------------------------- 26 -
3
5.1.4 Mạng lưới (Networking)------------------------------------------- 26 -
5.1.5 Bảo mật và an ninh------------------------------------------------- 26 -
5.1.6 Khả năng mở rộng-------------------------------------------------- 26 -
5.2 Công nghệ Big Data------------------------------------------------- 26 -
5.2.1 Định nghĩa----------------------------------------------------------- 26 -
5.2.2 Phân loại công nghệ dữ liệu lớn---------------------------------- 26 -
5.2.2.1 Lưu trữ dữ liệu---------------------------------------------------- 26 -
5.2.2.2 Khai thác dữ liệu-------------------------------------------------- 27 -
5.2.2.3 Phân tích dữ liệu-------------------------------------------------- 27 -
5.2.2.4 Trực quan hóa dữ liệu-------------------------------------------- 27 -
5.2.3 Top các công nghệ Big Data-------------------------------------- 28 -
5.2.3.1 Apache Hadoop--------------------------------------------------- 28 -
5.2.3.2 Presto--------------------------------------------------------------- 28 -
5.2.3.3 Apache Spark------------------------------------------------------ 29 -
5.2.3.4 Kafka--------------------------------------------------------------- 29 -
5.2.3.5 Tableau------------------------------------------------------------- 30 -
TÀI LIỆU THA M KHẢO--------------------------------------------------------- 31 -
PHỤ LỤC------------------------------------------------------------------------------ 32 -

4
DANH MỤC TỪ VIẾT TẮT
ML Machine Learning

AI Artificial intelligence

IoT Internet of Things

5
DANH MỤC HÌNH ẢNH
Hình 2.1 Big Data............................................................................................- 9 -
Hình 4.2.1 Big Data được dụng trong nghành ngân hàng........................- 13 -
Hình 4.2.2 Big Data được ứng dụng trong nghành y tế............................- 14 -
Hình 4.2.3 Big Data được ứng dụng trong thương mại điện tử................- 15 -
Hình 4.2.5 Big Data được ứng dụng trong Digital Marketing..................- 17 -
Hình 4.2.6 Khoa học dữ liệu........................................................................- 18 -
Hình 4.2.7 Kỹ sư dữ liệu...............................................................................- 19 -
Hình 4.2.8 Chuyên viên phân tích dữ liệu..................................................- 20 -
Hình 4.2.9 Kỹ sư bảo mật.............................................................................- 21 -
Hình 4.2.10 Quản lý cơ sở dữ liệu...............................................................- 22 -
Hình 4.2.11 Kiến trúc sư dữ liệu..................................................................- 23 -
Hình 4.2.12 Tuyển dụng kĩ thuật.................................................................- 24 -
Hình 5.2.2.1 Công nghệ Big Data được chia thành bốn loại chính – Hình
ảnh: analytixlabs.com...................................................................................- 26 -
Hình 5.2.2.4 Data Visualization...................................................................- 27 -
Hình 5.2.3.2 Công nghệ Presto mang lại nhiều lợi ích tuyệt vời – Hình ảnh:
github.com.....................................................................................................- 28 -
Hình 5.2.3.4 Kafka là công nghệ phân tích dữ liệu trực tuyến theo thời gian
thực – Hình ảnh: developers.redhat.com....................................................- 29 -

6
BIG DATA
1. Quá trình hình thành và phát triển của Big Data?

1.1 Quá trình hình thành của Big Data

Big Data thực chất đã hình thành từ khoảng thập kỷ 80 – 90 của thế kỷ XX. Dấu hiệu
đầu tiên của Big Data xuất hiện từ năm 1663 khi John Graunt xử lý lượng thông tin
khổng lồ về việc nghiên cứu bệnh dịch hạch, căn bệnh đang ám ảnh châu Âu vào thời
điểm đó. Graunt chính là người đầu tiên sử dụng phân tích dữ liệu thống kê.
Sau đó, vào đầu những năm 1800, lĩnh vực thống kê được mở rộng bao gồm cả việc
thu thập và phân tích dữ liệu. Thế giới lần đầu tiên nhìn thấy vấn đề với lượng dữ liệu
quá lớn vào năm 1880. Cục Điều tra Dân số Hoa Kỳ thông báo rằng họ ước tính sẽ mất
8 năm để xử lý và xử lý dữ liệu thu thập được trong chương trình điều tra dân số năm
đó.
Mãi tới năm 1965, chính phủ Hoa Kỳ xây dựng trung tâm dữ liệu đầu tiên, với mục
đích lưu trữ hàng triệu bộ dấu vân tay và tờ khai thuế.

Năm 1984, tập đoàn Teradata đưa ra thị trường hệ thống xử lý dữ liệu song song DBC
1012. DBC 1012 có thể lưu trữ và phân tích đến 1 terabyte dữ liệu và ổ đĩa cứng cũng
đạt mức dung lượng 2,5GB.
Năm 2004, Google xuất bản bài báo về quá trình MapReduce nhằm cung cấp mô hình
xử lý song song và phát hành những ứng dụng liên quan để xử lý lượng dữ liệu khổng
lồ.
Năm 2005, nhiều doanh nghiệp đã bắt đầu nhận ra số lượng người dùng Youtube,
Facebook và các dịch vụ trực tuyến khác là rất lớn. Do vậy, nhu cầu lưu trữ các thông
tin đó càng cao. Trong năm đó, Hadoop (một framework open source được tạo riêng

7
với nhiệm vụ lưu trữ và phân tích Big Data) đã được phát triển và NoSQL cũng bắt
đầu trở nên phổ biến.
Các sự phát triển trên giúp cho Big Data hoạt động dễ dàng hơn và lưu trữ rẻ hơn.
Cùng với đó là sự ra đời của một framework, open source, Hadoop, có nhiệm vụ lưu
trữ và phân tích dữ liệu. Cho đến hiện nay, khối lượng Big Data đã tăng lên một cách
chóng mặt với lượng người dùng cũng vô cùng lớn. Tuy nhiên, các dữ liệu này không
chỉ được tạo ra bởi con người mà còn có cả máy móc, đặc biệt là sự ra đời của IoT.

1.2 Quy trình xây dựng hệ thống Big Data

Bước 1: Định hình chiến lược Big Data


Định hình chiến lược Big Data giúp cho doanh nghiệp quản lý và cải thiện cách thức
thu thập, lưu trữ, quản lý, chia sẻ và sử dụng dữ liệu trên toàn hệ thống. Một chiến
lược Big Data đúng đắn sẽ làm tiền đề cho doanh nghiệp thích ứng trong thời đại kỹ
thuật số phát triển mạnh.
Bước 1: Xác định các nguồn Big Data cần thiết
Hệ thống dữ liệu được vận hành trong nội tại doanh nghiệp vẫn chiếm vai trò chủ chốt
trong chiến lược Big Data.
Tuy nhiên, song song với đó, doanh nghiệp cũng cần quan tâm tới các dữ liệu trên
những kênh sở hữu của doanh nghiệp và trên nền tảng mạng xã hội. Ngoài ra, nguồn
dữ liệu được thu thập từ các nguồn dữ liệu công khai khác hay từ các đơn vị nghiên
cứu dữ liệu cũng là cơ sở quan trọng để đưa ra quyết định kinh doanh.
Bước 2: Truy cập, quản lý và lưu trữ Big Data
Tùy vào quy mô, định hướng chiến lược Big Data, doanh nghiệp có thể lựa chọn đầu
tư vào những hệ thống xử lý với mức độ khác nhau. 3 yếu tố cần phải cân nhắc khi xây
dựng hệ thống hoặc cơ sở hạ tầng quản trị Big Data là: tính linh hoạt, tốc độ và sức
mạnh xử lý.

8
Bước 3: Phân tích Big Data
Cần phải chọn lọc nguồn Big Data đúng đắn trước khi phân tích Big Data. Doanh
nghiệp có thể sử dụng các công nghệ hiệu suất cao như là điện toán biên, điện toán
mạng lưới kết hợp với các thuật toán kỹ thuật cao như AI (Artificial intelligence) hoặc
ML (Machine Learning),… hỗ trợ quá trình phân tích nhanh và chuẩn xác hơn
Bước 4: Đưa ra quyết định dựa trên Big Data
Từ những kết quả phân tích Big Data thu được, các quyết định đưa ra phải dựa vào
nhiều yếu tố như nguồn lực công ty, tài chính, đối thủ,..
Tóm lại, sở hữu và xử lý Big Data là cần đầu tư cả quá trình dài. Tuy nhiên, tầm quan
trọng và sức ảnh hưởng của Big Data vô cùng lớn.

2. Big Data là gì? Tại sao Big Data quan trọng?

2.1 Khái niệm Big Data

Hình 2.1 Big Data

Big Data (dữ liệu lớn) là thuật ngữ chỉ các tập dữ liệu có khối lượng cực kỳ lớn và
phức tạp. Độ lớn đến mức các phần mềm xử lý dữ liệu truyền thống khó có khả năng
thu thập, phân tích và chuyển hóa dữ liệu thành thông tin quan trọng trong một khoảng
thời gian hợp lý.
Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc
và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights.

2.2 Những điều tạo nên “sức nặng” cho Big Data

Điều thực sự mang lại giá trị từ các tổ chức dữ liệu lớn là phân tích dữ liệu. Nếu không
có phân tích, chúng chỉ đơn thuần là một tập dữ liệu với nhiều hạn chế trong việc áp
dụng thương mại

9
Bằng cách thực hiện phân tích big data, các công ty có thể thu được nhiều lợi ích như
tăng doanh thu, dịch vụ khách hàng được cải thiện, tăng hiệu quả lao động và nâng cao
khả năng cạnh tranh.
Phân tích dữ liệu liên quan đến việc kiểm tra bộ dữ liệu để thu thập thông tin chi tiết
hoặc rút ra kết luận về những gì chúng chứa, chẳng hạn như các xu hướng và dự đoán
về hoạt động trong tương lai.
Bằng cách phân tích dữ liệu, các tổ chức có thể đưa ra các quyết định kinh doanh tốt
hơn như xác định thời gian và địa điểm thích hợp cho các chiến dịch tiếp thị hoặc giới
thiệu một sản phẩm hoặc dịch vụ mới.

2.3 Vai trò của Big data đối với thị trường Marketing

Ta đã biết, Big data đem lại rất nhiều giá trị trong nhiều lĩnh vực khác nhau. Là những
sinh viên học ngành Marketing, chúng em tìm được những lợi ích của Big data đối với
thị trường Marketing như sau:
 Nhờ Big data, các doanh nghiệp có thể khai thác được những dữ liệu để nắm
bắt được insight của khách hàng một cách nhanh chóng. Đây là một công cụ
giúp nhãn hàng tiếp cận vào thị trường khách hàng tiềm năng từ việc khai thác
hành vi và xu hướng người tiêu dùng. Nhờ vậy, doanh nghiệp có thể dự đoán
tâm lý khách hàng để lựa chọn chiến lược phù hợp.
 Dựa trên những dữ liệu đã thu nhập, các nhãn hàng sẽ có cơ hội để hoạch định
và đưa ra những mục tiêu hiệu quả hơn, tiết kiệm chi phí quảng cáo.
 Nhờ có số lượng dữ liệu khổng lồ, những rủi ro tiềm ẩn trong việc tiếp cận
khách hàng sẽ được thu hẹp nhờ định lượng và các mô hình quản lý được cung
cấp.

3. Đặc điểm của Big Data

Volume (Khối lượng lớn): Big data đề cập đến lượng dữ liệu rất lớn, vượt quá khả
năng xử lý của công nghệ và công cụ truyền thống.
Velocity (Tốc độ nhanh): Big data thường được tạo ra và truyền đi với tốc độ nhanh
chóng từ nhiều nguồn khác nhau như cảm biến, mạng xã hội, web, máy chủ log, vv.
Variety (Đa dạng): Big data có tính đa dạng về nguồn gốc và định dạng dữ liệu, bao
gồm dữ liệu có cấu trúc, dữ liệu bán cấu trúc và dữ liệu phi cấu trúc.
Veracity (Độ tin cậy): Do nhiều dữ liệu không tin cậy, không hoàn chỉnh, hoặc mâu
thuẫn, đòi hỏi các biện pháp để đảm bảo độ tin cậy và chất lượng dữ liệu.
Value (Giá trị): Big data mang lại giá trị thông qua việc tiết lộ thông tin quan trọng,
phân tích xu hướng, và tạo ra thông tin có giá trị cho doanh nghiệp và các tổ chức.
Complexity (Phức tạp): Big data thường có độ phức tạp cao do một số yếu tố như việc
xử lý dữ liệu có khối lượng lớn, đa dạng nguồn dữ liệu, và đa dạng định dạng dữ liệu.

3.1 Volume (Khối lượng lớn)


10
Nó đánh giá khối lượng dữ liệu mà tổ chức hoặc hệ thống phải xử lý và lưu trữ.
Với sự phát triển của công nghệ, các nguồn dữ liệu ngày càng phong phú và khối
lượng dữ liệu nhanh chóng tăng lên. Ví dụ, các công ty công nghệ lớn như Google,
Facebook và Amazon thu thập và xử lý hàng tỷ dữ liệu hàng ngày. Các ngành công
nghiệp khác như y tế, tài chính, tiếp thị cũng đang phải đối mặt với sự tăng trưởng về
khối lượng dữ liệu.
Khả năng xử lý khối lượng lớn dữ liệu đòi hỏi các công nghệ và hệ thống mới như
Hadoop và các kỹ thuật phân tán, nơi dữ liệu được chia thành nhiều phân đoạn và xử
lý song song. Các công cụ phân tích dữ liệu mới như máy học và trí tuệ nhân tạo cũng
được sử dụng để tạo ra giá trị từ khối lượng lớn dữ liệu này.
Việc hiểu và quản lý khối lượng dữ liệu lớn là vô cùng quan trọng trong việc phân tích
dữ liệu và đưa ra quyết định thông minh.
Dữ liệu có cấu trúc: dữ liệu này được tạo ra từ máy móc và con người, thường chứa
cột, hàng nên dễ tìm kiếm và sắp xếp. Ví dụ như hồ sơ tài chính, các giao dịch, thông
tin nhân khẩu, chi tiết địa chỉ, đánh giá của người dùng…
Dữ liệu phi cấu trúc: dạng dữ liệu này không chứa hàng, cột nên khó tìm kiếm và phân
tích chẳng hạn như văn bản, tài liệu, hình ảnh từ vệ tinh, tệp PDF…
Dữ liệu bán cấu trúc: loại dữ liệu này pha trộn giữ có cấu trúc và phi cấu trúc như
email, hình ảnh kỹ thuật số.

3.2 Velocity (Tốc độ nhanh)

"Variety" (đa dạng) trong big data đề cập đến tính đa dạng của nguồn gốc và định dạng
dữ liệu.
Trong thế giới big data, dữ liệu không chỉ bao gồm các bảng Excel và tệp văn bản
truyền thống. Nó cũng bao gồm dữ liệu từ các nguồn khác nhau như hình ảnh, video,
âm thanh, tệp log, bình luận trên mạng xã hội và nhiều loại dữ liệu phi cấu trúc khác.
Điều này tạo nên một sự đa dạng về nguồn dữ liệu.
Việc xử lý và phân tích các loại dữ liệu này đòi hỏi các công nghệ và công cụ đa dạng
như Hadoop, NoSQL, máy học và trí tuệ nhân tạo. Việc đánh giá và quản lý tính đa
dạng của dữ liệu là điều quan trọng để khai thác tối đa giá trị từ big data.

3.3 Variety (Đa dạng)

Trong thời đại kỹ thuật số ngày nay, dữ liệu được tạo ra với tốc độ chóng mặt. Ví dụ,
các trang web mạng xã hội như Twitter,ins và Facebook sản sinh hàng triệu bài viết và
bình luận mỗi ngày. Các thiết bị kết nối mạng như cảm biến Internet of Things (IoT)
cũng tạo ra lượng dữ liệu lớn với tốc độ nhanh chóng.
Công nghệ và hệ thống truyền thông dữ liệu phải đáp ứng nhanh chóng để xử lý và lưu
trữ dữ liệu này. Đối với các công ty và tổ chức, việc xử lý dữ liệu trong thời gian thực
là rất quan trọng để đưa ra phản ứng nhanh trước tình huống và đưa ra quyết định
thông minh.

11
3.4 Veracity (Độ tin cậy)

Để sử dụng dữ liệu một cách hiệu quả, điều quan trọng là đảm bảo tính xác thực của
dữ liệu. Phân tích và xử lý dữ liệu không chính xác hoặc dữ liệu không tin cậy có thể
dẫn đến việc đưa ra quyết định sai lầm.
Để đảm bảo xác thực, các phương pháp kiểm tra dữ liệu phải được áp dụng. Điều này
có thể bao gồm kiểm tra độ chính xác và tính toàn vẹn của dữ liệu, xác minh nguồn
gốc và đánh giá đáng tin cậy của nguồn dữ liệu.
Các công nghệ và kỹ thuật khác nhau như người kiểm tra dữ liệu tự động (automated
data validation), thu thập dữ liệu từ nhiều nguồn, và sử dụng các thuật toán phân tích
dữ liệu có thể giúp đánh giá xác thực của dữ liệu và đảm bảo tính chính xác và đáng
tin cậy khi phân tích dữ liệu trong big data.

3.5 Complexity (Phức tạp)

"Value" (giá trị) trong big data đề cập đến khả năng tạo ra lợi ích và giá trị từ việc
phân tích và sử dụng dữ liệu lớn.
Giá trị trong big data có thể đạt được thông qua các hoạt động như phân tích dữ liệu
định tính, dự đoán và khai phá dữ liệu, phân tích năng suất, và phân tích hành vi khách
hàng. Bằng cách kết hợp các công nghệ như máy học, trí tuệ nhân tạo và data mining,
các chuyên gia và nhà nghiên cứu có thể phân tích dữ liệu và tạo ra giá trị từ dữ liệu
không xác định và không có cấu trúc.
Giá trị trong big data không chỉ dựa trên khả năng phân tích và khai thác dữ liệu, mà
còn dựa trên khả năng ứng dụng kết quả phân tích vào các quyết định và hành động
thực tế. Bằng cách sử dụng dữ liệu để đưa ra dự đoán, tối ưu hoá các quy trình và cải
thiện hiệu suất, giá trị của big data có thể cung cấp lợi ích kinh doanh và tiếp thị cho tổ
chức và doanh nghiệp.

3.6 Complexity (Phức tạp)

Biến thiên dữ liệu trong big data là một thách thức quan trọng vì dữ liệu có thể được
thu thập từ nhiều nguồn khác nhau, ở các định dạng và cấu trúc khác nhau. Ví dụ, dữ
liệu có thể là văn bản, hình ảnh, video, âm thanh, các thành phần IoT, dữ liệu mạng xã
hội và các nguồn dữ liệu khác. Ngoài ra, dữ liệu có thể được cung cấp từ các hệ thống
và ứng dụng khác nhau có thể có cấu trúc, bán cấu trúc hoặc không có cấu trúc.
Biến thiên dữ liệu cũng có thể áp dụng vào sự thay đổi tốc độ và khối lượng dữ liệu.
Đôi khi, dữ liệu có thể đến với tốc độ cao, với lượng dữ liệu mới được tạo ra liên tục,
chẳng hạn như trong các ứng dụng IoT hoặc mạng xã hội.
Để giải quyết biến thiên dữ liệu trong big data, các công nghệ và kỹ thuật tiên tiến như
các hệ thống xử lý dữ liệu thời gian thực, các công cụ và thuật toán phân tích dữ liệu
đa dạng được sử dụng. Các phương pháp tự động hóa và tổ chức dữ liệu cũng được áp
dụng để xử lý biến thiên và đảm bảo tính nhất quán và đáng tin cậy của dữ liệu trong
quá trình phân tích và sử dụng Big Data.

12
Các loại dữ liệu nói trên đều được lưu trữ và quản lý trong hệ thống Big Data. Nếu kho
dữ liệu truyền thống cập nhật thông tin hàng ngày, hàng tuần thì Big data cập nhật
từng giây, từng phút theo đúng thời gian thực. Tất cả những điều đó cho thấy mọi
thông tin ở dữ liệu lớn cụ thể, chi tiết và hữu ích với đời sống con người.

4. Ứng dụng của Big Data

4.1 Ứng dụng quan trọng của Big Data

 Phân tích dữ liệu khách hàng: Big Data giúp các doanh nghiệp hiểu rõ hơn về
khách hàng của mình, từ đó tạo ra các chiến lược marketing và dịch vụ tốt hơn.
 Ngoài ra, Big Data còn cho phép dự đoán và phân tích xu hướng và thay đổi
trong thị trường, giúp các doanh nghiệp đưa ra quyết định thông minh và nhanh
chóng.
 Nhờ vào sự tiến bộ của khoa học công nghệ, Big Data giúp tối ưu hóa quy trình
sản xuất và vận hành, từ đó giảm thiểu chi phí và tăng hiệu suất. Đây là một
bước nhảy vọt đáng kể trong những nghành nghề liên quan đến sản xuất bởi
sức người đã được thay thế bằng công nghệ tiên tiến trong đó Big Data là điển
hình cho ví dụ trên.
 Có thể các bạn chưa biết, Big Data cung cấp nguồn dữ liệu phong phú cho
nghiên cứu khoa học và y tế, giúp phát hiện ra những thông tin quan trọng và
phát triển các phương pháp và giải pháp mới.
 Một ứng dụng không thể nào không nhắc đến đó chính là: Big Data giúp phát
hiện và ngăn chặn các hành vi tấn công mạng và tội phạm trực tuyến, đảm bảo
an toàn và bảo mật cho hệ thống thông tin.

4.2 Các lĩnh vực, nghành nghề ứng dụng Big Data

Dữ liệu khổng lồ (Big Data) trên thực tế đang được ứng dụng vào rất nhiều lĩnh vực
của nền kinh tế, tạo những chuyển biến ấn tượng, giúp tăng hiệu quả và năng suất của
doanh nghiệp.
4.2.1 Ngành Ngân hàng:

13
Hình 4.2.2 Big Data được dụng trong nghành ngân hàng

Trong hệ thống ngân hàng, Big Data đã và đang được ứng dụng hiệu quả thể hiện vai
trò quan trọng của mình trong mọi hoạt động của ngân hàng: từ thu tiền mặt đến quản
lý tài chính.
Vậy ngân hàng ứng dụng Big Data như thế nào?
 Sử dụng các kỹ thuật phân cụm giúp đưa ra quyết định quan trọng. Hệ thống
phân tích có thể xác định các địa điểm chi nhánh nơi tập trung nhiều nhu cầu
của khách hàng tiềm năng, để đề xuất lập chi nhánh mới.
 Kết hợp nhiều quy tắc được áp dụng trong các lĩnh vực ngân hàng để dự đoán
lượng tiền mặt cần thiết sẵn sàng cung ứng ở một chi nhánh tại thời điểm cụ thể
hàng năm.
 Khoa học dữ liệu hiện đang là nền tảng của hệ thống ngân hàng kĩ thuật số.
 Machine learning và AI đang được nhiều ngân hàng sử dụng để phát hiện các
hoạt động gian lận và báo cáo cho các chuyên viên liên quan.
 Khoa học dữ liệu hỗ trợ xử lý và phân tích lượng dữ liệu khổng lồ từ các hoạt
động hàng ngày và giúp đảm bảo an ninh cho ngân hàng.
4.2.2 Ngành y tế

14
Hình 4.2.2 Big Data được ứng dụng trong nghành y tế

Khoa học dữ liệu đang dần khẳng định vai trò khá quan trọng trong việc cải thiện sức
khỏe con người ngày nay. Big Data không chỉ được ứng dụng để xác định phương
hướng điều trị mà giúp cải thiện quá trình chăm sóc sức khỏe.
Ngành y tế ứng dụng Big Data:
 Cho phép người quản lý ca (làm) dự đoán các bác sĩ cần thiết vào những thời
điểm cụ thể
 Theo dõi tình trạng bệnh nhân bằng để theo dõi hồ sơ sức khỏe điện tử.
 Sử dụng các thiết bị kỹ thuật số có thể đeo, hệ thống Big Data có thể theo dõi
bệnh nhân và gửi báo cáo cho các bác sĩ liên quan.
 Big Data có thể đánh giá các triệu chứng và xác định nhiều bệnh ở giai đoạn
đầu.
 Có thể lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng dữ liệu
khổng lồ một cách hiệu quả.
 Các ứng dụng Big Data cũng có thể báo trước khu vực có nguy cơ bùng phát
dịch như: Covid-19, sốt xuất huyết hoặc sốt rét.

4.2.3 Thương mại điện tử

15
Hình 4.2.3 Big Data được ứng dụng trong thương mại điện tử

Thương mại điện tử là việc điều hành trực tuyến. Các doanh nghiệp dù là nhỏ hay lớn,
khi đã tham gia vào thị trường này đều cần đầu tư mạnh để cải tiến công nghệ. Big
Data có thể tạo lợi thế cạnh tranh cho doanh nghiệp bằng cách cung cấp thông tin
chuyên sâu và các bản báo cáo phân tích xu hướng người tiêu dùng.
Thương mại điện tử ứng dụng Big Data:
 Có thể thu thập dữ liệu và yêu cầu của khách hàng ngay cả trước khi khách thực
sự bắt đầu giao dịch.
 Tạo ra một mô hình tiếp thị hiệu suất cao.
 Nhà quản lý trang thương mại điện tử có thể xác định các sản phẩm được xem
nhiều nhất và tối ưu thời gian hiển thị của các trang sản phẩm này.
 Nếu bất kỳ sản phẩm nào được thêm vào giỏ hàng nhưng cuối cùng không được
khách hàng mua, Big Data có thể tự động gửi code khuyến mại cho khách hàng
cụ thể đó.
 Các ứng dụng Big Data còn có thể tạo một báo cáo tùy chỉnh theo các tiêu chí:
độ tuổi, giới tính, địa điểm của khách truy cập, v.v.
 Phân tích hành vi, sự quan tâm của khách hàng và theo xu hướng của họ để tạo
ra các sản phẩm hướng đến khách hàng.Đánh giá hành vi của khách hàng và đề
xuất các sản phẩm tương tự. Điều này làm tăng khả năng bán hàng, từ đó tạo ra
doanh thu cao hơn.
 Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình tiếp thị
tối ưu dành được tùy biến theo đối tượng hoặc nhóm đối tượng, tăng khả năng
bán hàng.
 Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ. Từ đó, việc nhắm
mục tiêu các chiến dịch quảng cáo có thể được tiến hành dễ dàng hơn dựa trên
những phân tích đã có trước đó.
4.2.4 Nghành bán lẻ

16
Big Data mang lại cơ hội cho lĩnh vực bán lẻ bằng cách phân tích thị trường cạnh tranh
và sự quan tâm của khách hàng. Nó giúp xác định hành trình trải nghiệm, xu hướng
mua sắm và sự hài lòng của khách hàng bằng cách thu thập dữ liệu đa dạng. Từ những
dữ liệu thu thập được có thể cải thiện hiệu suất và hiệu quả bán hàng.
Ngành bán lẻ ứng dụng Big Data:
 Big data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách hàng.
 Với sự trợ giúp của các phân tích dự đoán, ngành công nghiệp có thể so sánh tỷ
lệ cung – cầu và có thể tránh tiếp tục tung ra thị trường các sản phẩm không
được hầu hết khách hàng đón nhận.
 Ngành bán lẻ có thể xác định vị trí bố trí sản phẩm trên kệ hàng tùy thuộc vào
thói quen mua hàng và nhu cầu của khách hàng và đưa ra các chiến lược kinh
doanh mới để cải thiện. (Việc để bột giặt kế bên nước lau nhà, sữa tắm cạnh dầu
gội hay snack cạnh mì,..)
 Kết hợp phân tích cùng lúc các dữ liệu về thời điểm, dữ liệu giao dịch, dữ liệu
truyền thông xã hội, dự báo thời tiết để xác định chính xác nhất sản phẩm phù
hợp để luôn sẵn sàng cung ứng cho khách hàng.
4.2.5 Digital Marketing

Hình 4.2.5 Big Data được ứng dụng trong Digital Marketing

Digital Marketing là chìa khóa để mở cánh cửa thành công cho bất kỳ doanh nghiệp
nào. Giờ đây, không chỉ các công ty lớn có thể điều hành các hoạt động quảng cáo tiếp
thị mà cả các doanh nhân nhỏ cũng có thể chạy các chiến dịch quảng cáo thành công
trên các nền tảng truyền thông xã hội và quảng bá sản phẩm của họ. Big Data đã tiếp
sức cho Digital Marketing phát triển thực sự mạnh mẽ, và nó đã trở thành một phần
không thể thiếu của bất kỳ doanh nghiệp nào.

17
Digital Marketing ứng dụng Big Data:
 Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh. Điều
này giúp cho doanh nghiệp xác định rõ hơn, đâu là cơ hội tốt để tiếp tục tiến
hành các kế hoạch kinh doanh tiếp theo.
 Có thể xác định người dùng trên các phương tiện truyền thông xã hội và nhắm
mục tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi tác và sở
thích.
 Tạo báo cáo sau mỗi chiến dịch quảng cáo bao gồm hiệu suất, sự tham gia của
khán giả và những gì có thể được thực hiện để tạo kết quả tốt hơn.
 Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và nuôi
dưỡng chu trình khách hàng. (ko nói)
 Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cho các chủ doanh
nghiệp thực hiện chúng trên chiến lược nội dung để xếp hạng trang web doanh
nghiệp trên cao hơn trên google (SEO). (ko nói)
 Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng hiện
có để nhắm mục tiêu các khách hàng tương tự và kiếm được lợi nhuận. (ko nói)
4.2.6 Nhà khoa học dữ liệu

Hình 4.2.6 Khoa học dữ liệu

Theo PayScale, có rất nhiều cơ hội cho các nhà khoa học dữ liệu công nghệ thông tin
(CNTT) tài năng, có khả năng khai thác và phân tích dữ liệu phức tạp cho các tập đoàn
lớn. Hợp tác với các nhóm CNTT đa chức năng, họ biên dịch và tạo ra các mô hình dữ
liệu thống kê khác nhau để từ đó đưa ra các đề xuất và kế hoạch hành động liên quan
đến toàn bộ hệ thống.
Các nhà khoa học dữ liệu CNTT cần có kiến thức nâng cao về kỹ thuật khai thác dữ
liệu khác nhau như phân cụm, phân tích hồi quy, cây quyết định và máy vectơ hỗ trợ;

18
bằng cấp cao (như Thạc sĩ hoặc Tiến sĩ) về khoa học máy tính cùng kinh nghiệm làm
việc trong lĩnh vực liên quan.
Khoa học dữ liệu được đánh giá là công việc đứng đầu trong danh sách 50 công việc
tốt nhất ở Mỹ năm 2019 với mức lương trung bình lên tới 108.000 USD (tương đương
khoảng 2,5 tỷ đồng)/năm và điểm hài lòng là 4,3/5.
4.2.7 Kỹ sư dữ liệu

Hình 4.2.7 Kỹ sư dữ liệu

Kỹ sư dữ liệu là công việc sử dụng các thế mạnh khoa học và kỹ thuật máy tính để
tổng hợp, phân tích và xử lý các tập dữ liệu lớn. Các tác vụ phổ biến bao gồm tạo và
dịch thuật toán máy tính thành mã nguyên mẫu, phát triển các quy trình kỹ thuật để cải
thiện khả năng truy cập dữ liệu và thiết kế báo cáo, bảng điều khiển cũng như công cụ
cho người dùng cuối.
Nhà tuyển dụng thường yêu cầu các ứng viên đã hoàn thành bằng đại học về khoa học
máy tính, kỹ thuật hoặc một lĩnh vực liên quan. Họ cũng thích những ứng viên có kinh
nghiệm từ 3 đến 5 năm, thành thạo về kiến thức hệ thống Linux, thiết kế cơ sở dữ liệu
SQL và một trong những ngôn ngữ mã hóa như Java, Python, Kafka, Hive hoặc Storm.
Kỹ năng mềm bao gồm kỹ năng giao tiếp bằng văn bản, lời nói cũng như khả năng làm
việc độc lập và theo nhóm.
Kỹ sư dữ liệu xếp thứ 8 trong số 50 công việc tốt nhất ở Mỹ 2019 với mức lương trung
bình 106.000 USD (khoảng 2,46 tỷ đồng)/năm và điểm hài lòng công việc là 3,9/5.

4.2.8 Chuyên viên phân tích dữ liệu

19
Hình 4.2.8 Chuyên viên phân tích dữ liệu

Các nhà phân tích dữ liệu thu thập thông tin hữu ích về các chủ đề khác nhau bằng
cách thiết kế và thực hiện khảo sát quy mô lớn. Công việc của họ là tuyển dụng những
người tham gia khảo sát, biên soạn và giải thích dữ liệu đã gửi, sau đó chuyển tiếp
những phát hiện thông qua biểu đồ và báo cáo truyền thống cũng như định dạng kỹ
thuật số.
Các cá nhân mong muốn trở thành chuyên viên phân tích dữ liệu phải có kiến thức về
chương trình máy tính như Microsoft Excel, Microsoft Access, SharePoint và cơ sở dữ
liệu SQL cũng như kỹ năng giao tiếp và thuyết trình tốt, với khả năng dịch hiệu quả
thông tin phức tạp cho các bên liên quan.
Công việc này xếp thứ 31 trên 50 công việc tốt nhất ở Mỹ 2019 với mức lương trung
bình 60.000 USD (tương đương khoảng 1,4 tỷ đồng)/năm và điểm hài lòng công việc
là 3,9/5.

4.2.9 Kỹ sư bảo mật

20
Hình 4.2.9 Kỹ sư bảo mật

Các kỹ sư bảo mật đóng một vai trò quan trọng trong việc lên kế hoạch và giảm thiểu
rủi ro CNTT cho công ty bằng cách thiết lập tường lửa máy tính, phát hiện và ứng phó
với các cuộc xâm nhập, đồng thời xác định chính xác các vấn đề bảo mật hệ thống. Họ
cũng tạo và thực hiện các kế hoạch kiểm tra cho phần mềm, phần cứng mới hoặc mới
được cập nhật và thiết lập các giao thức phòng thủ nhiều lớp cho các mạng máy tính.
Vị trí này thường yêu cầu bằng cử nhân về kỹ thuật, khoa học máy tính hoặc một lĩnh
vực liên quan cùng với nhiều năm kinh nghiệm và lý tưởng nhất là có chứng chỉ bảo
mật ngành. Ngoài hiểu biết kỹ thuật về ngôn ngữ máy tính và hệ điều hành, các kỹ sư
bảo mật cũng cần có kỹ năng giải quyết vấn đề và nền tảng toán học vững chắc để có
thể làm việc độc lập.
Đây là công việc xếp thứ 17 trên 50 công việc tốt nhất ở Mỹ 2019, với mức lương
trung bình là 102.000 USD (tương đương gần 2,4 tỷ đồng)/năm và điểm hài lòng công
việc là 3,8/5.

4.2.10 Quản lý cơ sở dữ liệu

21
Hình 4.2.10 Quản lý cơ sở dữ liệu

Các nhà quản lý cơ sở dữ liệu được đào tạo và có kỹ năng về quản lý dự án sẽ thực
hiện chẩn đoán cũng như sửa chữa các cơ sở dữ liệu tinh vi. Họ cũng xem xét các yêu
cầu kinh doanh về sử dụng, đánh giá các nguồn dữ liệu để cải thiện nguồn cấp dữ liệu
và giúp thiết kế, cài đặt phần cứng lưu trữ.
Công việc này yêu cầu bằng cử nhân về công nghệ thông tin và tối thiểu 5 năm ở vị trí
quản lý cơ sở dữ liệu. Các ứng viên cũng nên thành thạo các phần mềm cơ sở dữ liệu
khác nhau như MySQL và Oracle.
Các nhà quản lý cơ sở dữ liệu kiếm được trung bình 73.545 USD (tương đương
khoảng 1,7 tỷ đồng)/năm.

4.2.11 Kiến trúc sư dữ liệu

22
Hình 4.2.11 Kiến trúc sư dữ liệu

Kiến trúc sư dữ liệu sử dụng kiến thức về ngôn ngữ máy tính hướng dữ liệu để tổ chức
và duy trì dữ liệu trong cơ sở dữ liệu quan hệ và kho lưu trữ của công ty, phát triển
chiến lược kiến trúc dữ liệu cho từng lĩnh vực chủ đề của mô hình dữ liệu doanh
nghiệp.
Các kỹ năng mà các nhà tuyển dụng tìm kiếm đối với công việc kiến trúc sư dữ liệu
bao gồm trình độ kỹ thuật nâng cao (đặc biệt là các ngôn ngữ như SQL liên quan đến
khoa học máy tính.
Kiến trúc sư dữ liệu là công việc có mức lương cao nhất trong lĩnh vực Big Data, trung
bình lên tới 113.078 USD (tương đương khoảng 2,6 tỷ đồng)/năm.

4.2.12 Tuyển dụng kỹ thuật

23
Hình 4.2.12 Tuyển dụng kĩ thuật

Những nhà tuyển dụng kỹ thuật sẽ phụ trách tìm nguồn cung ứng và sàng lọc nhân sự
Big Data cùng với các chuyên gia kỹ thuật khác. Họ làm việc với các tập đoàn để đánh
giá nhu cầu tuyển dụng và sau đó tìm kiếm những ứng viên mạnh nhất trên thị trường
cho từng cơ hội việc làm cụ thể. Họ cũng hỗ trợ các ứng viên chuyên nghiệp trong suốt
quá trình xin việc, phỏng vấn, tuyển dụng.
Nhà tuyển dụng kỹ thuật cần có kiến thức chuyên môn nâng cao về vị trí công việc mà
họ tìm kiếm, đồng thời xây dựng mối quan hệ tích cực với các ứng viên trong sàng lọc
và phỏng vấn.
Công việc này đứng thứ 28 trong danh sách 50 công việc tốt nhất ở Mỹ năm 2019 với
điểm số hài lòng công việc là 4,1/5 và mức lương trung bình là 48.000 USD (tương
đương khoảng 1,1 tỷ đồng)/năm.và XML), sự nhạy bén trong phân tích, trực quan hóa
sáng tạo và kỹ năng giải quyết vấn đề cũng như định hướng chi tiết. Hầu hết các kiến
trúc sư dữ liệu đều có ít nhất một bằng cử nhân (và thường là bằng cấp cao) trong lĩnh
vực.

5. Công nghệ và công cụ liên quan đến Big Data

5.1 Cơ sở hạ tầng IT để hỗ trợ Big Data


Cơ sở hạ tầng IT để hỗ trợ Big Data đóng vai trò quan trọng để xử lý và quản lý các dữ
liệu lớn, phức tạp và đa dạng:
5.1.1 Hệ thống lưu trữ phân tán

24
Bao gồm các máy chủ và hệ thống lưu trữ được kết nối với nhau thông qua
mạng. Các hệ thống này giúp lưu trữ và quản lý dữ liệu lớn của Big Data.
5.1.2 Cụm máy chủ (Cluster)
Sử dụng cụm máy chủ làm nơi lưu trữ và xử lý dữ liệu. Cụm máy chủ cho phép mở
rộng và mở rộng khả năng xử lý để đáp ứng yêu cầu của Big Data.
5.1.3 Công nghệ ảo hóa (Virtualization)
Công nghệ ảo hóa giúp tối ưu hóa sử dụng tài nguyên máy chủ và hỗ trợ trong việc
triển khai các ứng dụng Big Data.
5.1.4 Mạng lưới (Networking)
Hỗ trợ kết nối giữa các thành phần hệ thống, mạng lưới chất lượng cao giúp truyền tải
dữ liệu hiệu quả trong môi trường Big Data.
5.1.5 Bảo mật và an ninh
Cơ sở hạ tầng Big Data cần có các biện pháp bảo mật và an ninh để đảm bảo tính toàn
vẹn, riêng tư và an toàn của dữ liệu.
5.1.6 Khả năng mở rộng
Cơ sở hạ tầng IT cần thiết phải có khả năng mở rộng linh hoạt để đáp ứng nhu cầu gia
tăng của dữ liệu Big Data theo thời gian.
Những yếu tố này cùng nhau tạo nên một cơ sở hạ tầng mạnh mẽ để hỗ trợ việc xử lý
và phân tích dữ liệu lớn của Big Data, giúp tạo ra những thông tin hữu ích và giá trị từ
dữ liệu đó.
5.2 Công nghệ Big Data
5.2.1 Định nghĩa
Công nghệ Big Data là các tiện ích phần mềm được thiết kế để phân tích, xử lý và trích
xuất thông tin từ các tập dữ liệu lớn. Thông thường, dữ liệu này có khối lượng lớn và
cấu trúc rất phức tạp mà các công nghệ truyền thống không thể xử lý được
5.2.2 Phân loại công nghệ dữ liệu lớn

5.2.2.1Lưu trữ dữ liệu


Loại công nghệ dữ liệu lớn này bao gồm cơ sở hạ tầng cho phép tìm nạp, lưu trữ và
quản lý dữ liệu. Các chương trình phần mềm khác nhau có thể dễ dàng truy cập, sử
dụng và xử lý dữ liệu một cách nhanh chóng.

25
Hình 5.2.2.1 Công nghệ Big Data được chia thành bốn loại chính – Hình ảnh: analytixlabs.com

5.2.2.2Khai thác dữ liệu


Khai thác dữ liệu là quá trình trích xuất thông tin hữu ích từ dữ liệu thô và phân tích
nó. Thông thường, dữ liệu này có khối lượng lớn với độ biến thiên cao và truyền phát
với tốc độ cực nhanh. Vì vậy, việc trích xuất dữ liệu gần như không thể thực hiện được
nếu không có công nghệ đặc biệt.

5.2.2.3Phân tích dữ liệu


Trong phân tích dữ liệu, các công nghệ được sử dụng để làm sạch và chuyển đổi dữ
liệu thành thông tin có giá trị để hỗ trợ quá trình ra quyết định trong kinh doanh. Các
công cụ phân tích big data có thể cung cấp các thông tin về sở thích của khách hàng và
xu hướng của thị trường.

5.2.2.4Trực quan hóa dữ liệu


Các công nghệ trực quan hóa dữ liệu sử dụng các yếu tố trực quan như đồ thị, biểu đồ
và bản đồ để giải thích các xu hướng, mẫu và giá trị ngoại lệ trong dữ liệu. Dữ liệu
được xử lý để tạo ra các minh họa đồ họa cho phép mọi người nắm bắt lượng lớn
thông tin trong vài giây.

26
Hình 5.2.2.4 Data Visualization

5.2.3 Top các công nghệ Big Data

5.2.3.1Apache Hadoop
Apache thuộc loại công nghệ Lưu trữ dữ liệu.
Đây là một nền tảng phần mềm mã nguồn mở để lưu trữ và xử lý dữ liệu lớn bằng mô
hình lập trình MapReduce. Công nghệ này rất linh hoạt và có khả năng mở rộng để xử
lý tất cả định dạng dữ liệu và có thể phục hồi khi gặp sự cố. Apache Hadoop chính là
công cụ dữ liệu lớn được sử dụng phổ biến nhất.

5.2.3.2Presto
Presto là một đại diện thuộc loại công nghệ Khai thác dữ liệu.
Được phát triển bởi Facebook, Presto là một công cụ truy vấn SQL nguồn mở cho
phép phân tích truy vấn lượng dữ liệu khổng lồ. Công nghệ này có thể truy vấn ngay
tại nơi dữ liệu tồn tại mà không cần di chuyển dữ liệu vào các hệ thống phân tích riêng
biệt.
Đặc biệt, một truy vấn trên Presto có thể kết hợp dữ liệu từ nhiều nguồn trong một tổ
chức và thực hiện phân tích chỉ trong vài phút.

27
Hình 5.2.3.2 Công nghệ Presto mang lại nhiều lợi ích tuyệt vời – Hình ảnh: github.com

5.2.3.3Apache Spark
Apache Spark là một cái tên nổi bật thuộc loại công nghệ Phân tích dữ liệu.
Đây là một công nghệ Big Data phổ biến để phân tích dữ liệu bởi nó nhanh và hiệu
quả khi chạy các ứng dụng. Spark có các tính năng tích hợp cho SQL, học máy, xử lý
biểu đồ và phân tích luồng.
Ngoài ra, nó có thể dễ dàng tích hợp với Hadoop để thực hiện các tác vụ nhanh chóng
tùy thuộc vào nhu cầu kinh doanh của doanh nghiệp.

5.2.3.4Kafka
Bên cạnh Apache Spark, Kafka cũng là công nghệ Big Data thuộc loại Phân tích dữ
liệu.
Kafka là một hệ thống thu thập, lưu trữ, đọc và phân tích dữ liệu phát trực tuyến trên
quy mô lớn. Để phân tích dữ liệu trực tuyến theo thời gian thực, Kafka có thể được
tích hợp liền mạch với Apache Spark.
Nền tảng này được hàng nghìn tổ chức sử dụng, trong đó có Twitter, Spotify, Netflix,
Linkedin. Nhược điểm duy nhất của Kafka là thiếu các giải pháp giám sát tốt.

28
Hình 5.2.3.4 Kafka là công nghệ phân tích dữ liệu trực tuyến theo thời gian thực – Hình ảnh:
developers.redhat.com

5.2.3.5Tableau
Tableau thuộc loại công nghệ Trực quan hóa dữ liệu.
Nó giúp người dùng dễ dàng tạo các loại biểu đồ và bảng điều khiển để trực quan hóa
và phân tích dữ liệu. Với Tableau, người dùng có thể làm việc trên các bộ dữ liệu trực
tiếp để thu được thông tin có giá trị và nâng cao khả năng ra quyết định. Từ đó hỗ trợ
thúc đẩy doanh nghiệp phát triển.
Kết luận
Cuối cùng, Big Data vẫn đang phát triển với nhiều ứng dụng của các công nghệ dữ liệu
lớn hiện có. Bên cạnh những công nghệ phổ biến đã được kể trên, AI, NoSQL hay
Blockchain cũng là những cái tên hàng đầu. Việc triển khai Công nghệ Dữ liệu lớn
trong kinh doanh mang lại rất nhiều lợi ích. Để tận dụng tối đa các công nghệ có sẵn
trên thị trường, các doanh nghiệp cần xác định loại vấn đề mà họ đang gặp phải. Điều
này sẽ giúp bạn chọn ra giải pháp tốt nhất.

29
TÀI LIỆU THAM KHẢO
Bap-software, Các công nghệ Big Data hàng đầu mà bạn cần biết, bap-software.net,
năm 2019, https://bap-software.net/vi/knowledge/top-big-data-technologies/?
fbclid=IwAR1hNEpmMOMIZOEGaED9Fz5EtRKQl95vBO30Oc6LXDPivpEWzFr-
KdQ1XfA, trang 1. [Truy cập ngày 19 tháng 10 năm 2023]

Bap-software, Big Data là gì? Đặc điểm, vai trò và ứng dụng Big Data hiện nay, bap-
software.net, năm 2019, https://www.pace.edu.vn/tin-kho-tri-thuc/big-data-la-gi?
fbclid=IwAR33g14a8fxBMobzjs_RYU5y7fVz3sjZ1fegi645qmVM9DNLN88IcInElE
4, trang 1. [Truy cập ngày 19 tháng 10 năm 2023]

TopDev, Big Data là gì? Tất tần tật về Big Data, topdev.vn, năm 2018,
https://topdev.vn/blog/big-data/. [Truy cập ngày 18 tháng 10 năm 2023]

Khánh Kim, Big data là gì? Những điều cần biết về thuật ngữ big data, teky.edu.vn,
năm 2017, https://teky.edu.vn/blog/big-data-la-gi/?fbclid=IwAR2Qpwo4VtpjP3VC-
Ju0hhAlEr2iR19CnJ8cKFutikvX-
LI_CMPHagmCy88#Dac_diem_cua_Big_Data_la_gi. [Truy cập ngày 25 tháng 10
năm 2023]

30
PHỤ LỤC
PHỤ LỤC 1. Sự khác biệt giữa Big Data và Data Mining........- 33 -
PHỤ LỤC 2. 7V của Big Data.....................................................- 34 -
PHỤ LỤC 3. Kiến trúc của Big Data..........................................- 35 -

31
PHỤ LỤC 1. Sự khác biệt giữa Big Data và Data
Mining
Yếu tố so sánh Big Data Data Mining

Định nghĩa Là khối lượng dữ liệu lớn và phức Là quá trình khai thác tri thức từ dữ
tạp, đòi hỏi các công nghệ và liệu, bao gồm việc phân tích dữ liệu
phương pháp xử lý đặc biệt để tìm để khám phá các mối quan hệ tiềm
kiếm thông tin hữu ích và triển khai ẩn, mô hình hóa, dự đoán và tìm
các ứng dụng. kiếm các mẫu.

Mục đích chính Giúp tổng hợp và phân tích dữ liệu Tập trung vào phát hiện các mối
lớn để tìm ra thông tin cần thiết và quan hệ, kiến thức mới và dự đoán
tạo ra giá trị. trong dữ liệu.

Quy mô dữ liệu Lớn, có thể đến hàng tỷ hoặc triệu Thường nhỏ hơn so với Big Data,
GB. thường chỉ vài GB đến vài TB.

Công nghệ chính Hadoop, Spark, NoSQL, HBase, Phân tích dữ liệu, mô hình hóa, khai
Cassandra, Kafka,… thác dữ liệu, phân loại, gom cụm,…

Áp dụng Thường được áp dụng trong lĩnh Thường được áp dụng trong lĩnh vực
vực kinh doanh, y tế, khoa học, khai thác dữ liệu, phân tích dữ liệu,
chính trị,... bán hàng, quản lý chuỗi cung ứng,…

32
PHỤ LỤC 2. 7V của Big Data

Khối lượng (Volume): Đúng như tên gọi, khối lượng của Big Data là rất lớn, thậm chí
là cực lớn. Với sự phát triển mạnh mẽ của internet, thiết bị di động, mạng xã hội và
công nghệ IoT (Internet of Things), khối lượng dữ liệu đang tạo ra tăng đáng kể hàng
ngày, hàng giờ.
Tốc độ (Velocity): Bên cạnh khối lượng dữ liệu lớn, tốc độ xử lý nhanh là điều kiện
thiết yếu. Các ứng dụng phổ biến trong lĩnh vực Internet, tài chính, ngân hàng, y tế -
chăm sóc sức khỏe,… phần lớn dữ liệu lớn được xử lý real-time (thời gian thực). Công
nghệ quản lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý ngay lập tức trước
khi lưu trữ vào cơ sở dữ liệu.
Đa dạng (Variety): Trước đây, hầu hết dữ liệu có thể được thu thập gọn gàng trong
bảng, đó là dữ liệu có cấu trúc. Hiện nay, dữ liệu chủ yếu xuất hiện dưới dạng phi cấu
trúc như bài viết trên mạng xã hội, âm thanh, video,… Công nghệ Big Data cho phép
liên kết, phân tích đa dạng chủng loại dữ liệu với nhau.
Độ chính xác (Veracity): Với sự đa dạng cùng số lượng lớn, độ chính xác là một trong
những tính chất phức tạp nhất của Big Data. Tính chất này đề cập đến việc khai phá
chất lượng tập dữ liệu và làm sạch dữ liệu đó một cách hệ thống. Từ đó làm tăng độ tin

33
cậy, chính xác, giúp ích cho việc phân tích. Đây cũng là một bước quan trọng của Big
Data.
Giá trị thông tin (Value): Giá trị thông tin là tính chất quan trọng nhất của công nghệ
Big Data. Ví dụ: Một doanh nghiệp muốn ứng dụng Big Data cho bài toán mô hình
hoạt động kinh doanh của mình. Trước tiên, doanh nghiệp cần xác định rõ những giá
trị thông tin hữu ích Big Data có thể mang lại trong việc giải quyết nhu cầu của doanh
nghiệp.
Tính khả biến (Variability): Quản lý và bối cảnh hóa dữ liệu theo cách cung cấp cấu
trúc, ngay cả trong môi trường dữ liệu dễ biến đổi và không thể đoán trước.
Hình dung (Visualization): Hình dung là rất quan trọng giúp người dùng hiểu rõ
thông tin được phân tích, trích xuất từ kho dữ liệu. Sử dụng biểu đồ, đồ thị để trực
quan hóa một lượng lớn dữ liệu phức tạp sẽ hiệu quả hơn nhiều trong việc truyền đạt ý
nghĩa so với bảng tính, báo cáo chứa đầy các con số và công thức truyền thống.

PHỤ LỤC 3. Kiến trúc của Big Data

Kiến trúc Big Data được xây dựng dựa trên một tập hợp các kỹ năng có thể giúp phát
triển một luồng xử lý dữ liệu đáng tin cậy, có khả năng mở rộng và tự động hóa. Để có
tập hợp các kỹ năng đó đòi hỏi phải có kiến thức nhất định về từng thành phần của hệ
thống, từ việc thiết kế các cụm phần cứng cho đến việc thiết lập cài đặt cho toàn bộ
quá trình xử lý của Hadoop. Sơ đồ trên mô tả một cách khái quát về một hệ thống như
vậy.
Từ sơ đồ trên có thể thấy luồng xử lý chính của hệ thống sẽ tiếp nhận đầu vào là dữ
liệu thô và trả về những dữ liệu có giá trị. Xuyên suốt quá trình đó, những kỹ sư Big

34
Data sẽ là người lựa chọn những công nghệ sử dụng bên trong; lựa chọn cách dữ liệu
được lưu trữ, được truy xuất từ bên trong, bên ngoài; cũng như lựa chọn công cụ để xử
lý dữ liệu đó… Như vậy có thể hiểu rằng những kỹ sư Big Data chính là những người
thiết kế và triển khai kiến trúc Big Data.

35

You might also like