You are on page 1of 21

PHÂN TÍCH DỮ LIỆU LỚN

BIG DATA ANALYTIC


TỔNG QUAN VỀ PHÂN TÍCH DỮ LIỆU LỚN

TS. TRỊNH HOÀNG NAM

NỘI DUNG
1. Tổng quan về dữ liệu lớn
2. Đặc điểm và vai trò của dữ liệu lớn
3. Các giai đoạn của quản lý dữ liệu
Chương 1: Tổng quan

4. Quản lý dữ liệu lớn


5. Các loại dữ liệu
6. Một số ứng dụng quản lý dữ liệu lớn

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

1
TỔNG QUAN VỀ DỮ LIỆU LỚN
• Khởi nguồn
– Những thách thức và cơ hội nằm trong việc tăng trưởng
dữ liệu có thể được mô tả bằng ba chiều “3V”:
Chương 1: Tổng quan

• Tăng về số lượng lưu trữ (volume) Doug Laney


(2001)
• Tăng về tốc độ xử lý (velocity)
• Tăng về chủng loại (variety)

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

TỔNG QUAN VỀ DỮ LIỆU LỚN


• Lịch sử
– Năm 1990s: Internet đã trở thành một phương tiện truyền
thông phổ biến và các công ty bắt đầu nhận thức về giá trị
của dữ liệu.
Chương 1: Tổng quan

– Năm 2000s: Sự gia tăng về dung lượng lưu trữ và sự phát


triển của công nghệ mạng đã tạo điều kiện thuận lợi cho việc
thu thập và lưu trữ Big-data hơn.
– Năm 2010s: Việc sử dụng dữ liệu lớn đã trở thành một yếu tố
quan trọng trong các lĩnh vực như kinh doanh, khoa học, y tế
và xã hội học.
– Hiện tại và tương lai: Với sự phát triển của trí tuệ nhân tạo,
Internet of Things (IoT) và các công nghệ mới khác,Big-data
tiếp tục phát triển và mở ra nhiều cơ hội và thách thức mới.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

2
Chương 1: Tổng quan

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

TỔNG QUAN VỀ DỮ LIỆU LỚN


• Khái niệm
– Dữ liệu lớn là các tập dữ liệu có khối lượng rất lớn và
rất phức tạp mà các phần mềm xử lý dữ liệu truyền
thống không thể xử lý được trong một khoảng thời gian
Chương 1: Tổng quan

hợp lý
– Dữ liệu lớn là các tập dữ liệu có khối lượng lớn và phức
tạp đến mức các phần mềm xử lý dữ liệu truyền thống
không có khả năng thu thập, quản lý và xử lý trong một
khoảng thời gian hợp lý

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

3
Chương 1: Tổng quan ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (3V)

Nguồn: Linkedin
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (5V)


• Đặc điểm
Chương 1: Tổng quan

Nguồn: Depositphotos.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

4
Chương 1: Tổng quan ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (7V)

Nguồn: Depositphotos.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (10V)


Chương 1: Tổng quan

Nguồn: Codingninjas.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

5
Chương 1: Tổng quan VAI TRÒ CỦA DỮ LIỆU LỚN

Nguồn: Techvivan.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC LOẠI DỮ LIỆU


• Dữ liệu có cấu trúc
• Dữ liệu bán cấu trúc
• Dữ liệu không cấu trúc
Chương 1: Tổng quan

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

6
CÁC LOẠI DỮ LIỆU
• Dữ liệu có cấu trúc
– Dữ liệu có cấu trúc là loại dữ liệu được tổ chức và lưu
trữ theo một định dạng cụ thể, với các quy tắc và kiểu
dữ liệu đã được xác định trước.
Chương 1: Tổng quan

– Trong dữ liệu có cấu trúc, thông tin được tổ chức thành


các hàng và cột hoặc các tập hợp dữ liệu nhóm theo
các trường chung

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC LOẠI DỮ LIỆU


• Dữ liệu có cấu trúc
– Dữ liệu có cấu trúc thường được biểu diễn dưới dạng
bảng hoặc ma trận, tương tự như cách dữ liệu được
biểu diễn trong cơ sở dữ liệu quan hệ hoặc các bảng
Chương 1: Tổng quan

tính như Excel. Mỗi hàng trong bảng tương ứng với một
bản ghi hoặc mục và mỗi cột đại diện cho một thuộc tính
hay trường dữ liệu cụ thể

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

7
CÁC LOẠI DỮ LIỆU
• Dữ liệu có cấu trúc
Chương 1: Tổng quan

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC LOẠI DỮ LIỆU


• Dữ liệu bán cấu trúc
– Dữ liệu bán cấu trúc (semi-structured data) là một loại
dữ liệu nằm giữa dữ liệu có cấu trúc và dữ liệu không
có cấu trúc. Dữ liệu bán cấu trúc không tuân theo một
Chương 1: Tổng quan

cấu trúc định sẵn như dữ liệu có cấu trúc, nhưng nó


chứa các thẻ, thư mục hoặc thông tin tự mô tả để phân
loại và tổ chức dữ liệu một cách tương đối.
– Dữ liệu bán cấu trúc thường chứa các định dạng như
JSON (JavaScript Object Notation), XML (eXtensible
Markup Language) hoặc các cấu trúc dữ liệu tương tự.
Những định dạng này cho phép dữ liệu được tổ chức
thành các trường và giá trị nhưng không yêu cầu một
cấu trúc rõ ràng và cụ thể như dữ liệu có cấu trúc
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

8
CÁC LOẠI DỮ LIỆU
• Dữ liệu bán cấu trúc
Chương 1: Tổng quan

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC LOẠI DỮ LIỆU


• Dữ liệu không cấu trúc
– Dữ liệu không có cấu trúc (unstructured data) là loại dữ
liệu không được tổ chức thành bất kỳ cấu trúc hay định
dạng cụ thể nào.
Chương 1: Tổng quan

– Điều này làm cho dữ liệu không có cấu trúc trở nên khó
xử lý và khai thác thông tin một cách tự động bởi máy
tính.
– Dữ liệu này thường là dạng văn bản tự do hoặc thông
tin hình ảnh, âm thanh, video, tài liệu ghi chú, email, bài
viết mạng xã hội, tệp log, và nhiều dạng dữ liệu không
có cấu trúc khác

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

9
PHÂN TÍCH DỮ LIỆU LỚN
• Phân tích dữ liệu
– Việc chuyển đổi dữ liệu thô thành thông tin chuyên sâu hữu
ích. Quá trình này bao gồm các công cụ, công nghệ và quy
trình được áp dụng để tìm kiếm xu hướng, giải quyết vấn đề
bằng dữ liệu
Chương 1: Tổng quan

• Lợi ích của phân tích dữ liệu


– Giúp định hình các quy trình kinh doanh, cải thiện khả năng
ra quyết định và thúc đẩy tăng trưởng doanh nghiệp
– Giúp công ty nhìn rõ hơn và hiểu sâu hơn về các quá trình và
dịch vụ
– Giúp tạo ra trải nghiệm khách hàng được cá nhân hóa, xây
dựng các sản phẩm kỹ thuật số có liên quan, tối ưu hóa hoạt
động và tăng năng suất của nhân viên

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

PHÂN TÍCH DỮ LIỆU LỚN


• Phân tích dữ liệu
– Việc chuyển đổi dữ liệu thô thành thông tin chuyên sâu
hữu ích. Quá trình này bao gồm các công cụ, công nghệ
và quy trình được áp dụng để tìm kiếm xu hướng, giải
Chương 1: Tổng quan

quyết vấn đề bằng dữ liệu

• Phân tích dữ liệu lớn


– Quá trình tìm các mẫu, xu hướng và mối quan hệ trong
những tập dữ liệu khổng lồ. Những phân tích phức tạp
này đòi hỏi các công cụ và công nghệ cụ thể, năng lực
điện toán và kho lưu trữ dữ liệu hỗ trợ theo quy mô

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

10
PHÂN TÍCH DỮ LIỆU LỚN
• Quá trình phân tích dữ liệu lớn
1. Thu thập dữ liệu
2. Lưu trữ dữ liệu
Chương 1: Tổng quan

3. Xử lý dữ liệu
4. Làm sạch dữ liệu
5. Phân tích dữ liệu

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN


1. Thu thập dữ liệu
– Xác định nguồn dữ liệu và thu thập dữ liệu từ những
nguồn này theo quá trình ETL hoặc ELT
Chương 1: Tổng quan

– ETL – Trích xuất, chuyển đổi, tải


• Trước tiên, dữ liệu đã tạo được chuyển đổi thành định dạng tiêu
chuẩn và sau đó được tải vào kho lưu trữ.

– ELT – Trích xuất, tải, chuyển đổi


• Trước tiên, dữ liệu được tải vào kho lưu trữ và sau đó được
chuyển đổi thành định dạng yêu cầu

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

11
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN
2. Lưu trữ dữ liệu
– Dựa trên sự phức tạp của dữ liệu, dữ liệu có thể được
di chuyển tới kho lưu trữ như kho dữ liệu hoặc hồ dữ
liệu đám mây
Chương 1: Tổng quan

• Kho dữ liệu: cơ sở dữ liệu được tối ưu hóa để phân tích dữ liệu


quan hệ đến từ hệ thống giao dịch và ứng dụng kinh doanh
• Hồ dữ liệu: lưu trữ cả dữ liệu có cấu trúc và phi cấu trúc mà
không cần xử lý thêm

– Các tổ chức thường đòi hỏi cả hồ dữ liệu và kho dữ liệu


để phân tích dữ liệu

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN


3. Xử lý dữ liệu
– Khi đã có sẵn dữ liệu, dữ liệu phải được chuyển đổi và
tổ chức để thu được kết quả chính xác từ các truy vấn
phân tích
Chương 1: Tổng quan

• Xử lý tập trung: Toàn bộ quá trình xử lý diễn ra trên một máy


chủ trung tâm chuyên dụng lưu trữ tất cả dữ liệu.
• Xử lý phân tán: Dữ liệu được phân tán và lưu trữ trên các máy
chủ khác nhau.
• Xử lý lô dữ liệu: Các phần dữ liệu tích lũy theo thời gian và
được xử lý theo lô.
• Xử lý theo thời gian thực: Dữ liệu được xử lý liên tục, trong đó,
các tác vụ điện toán hoàn thành trong vài giây
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

12
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN
4. Làm sạch dữ liệu
– Quá trình làm sạch dữ liệu bao gồm việc xóa bất kỳ lỗi
nào như trùng lặp, không nhất quán, dư thừa hoặc định
dạng sai.
Chương 1: Tổng quan

– Bước này cũng được sử dụng để lọc bất kỳ dữ liệu nào


không mong muốn đối với quá trình phân tích

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN


5. Phân tích dữ liệu
– Đây là bước chuyển đổi dữ liệu thô thành thông tin
chuyên sâu hữu ích. Sau đây là bốn loại phân tích dữ
liệu
Chương 1: Tổng quan

• Phân tích mô tả
• Phân tích chẩn đoán
• Phân tích dự đoán
• Phân tích theo quy định

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

13
PHÂN TÍCH DỮ LIỆU LỚN
• Quá trình phân tích dữ liệu lớn
1. Thu thập dữ liệu
2. Lưu trữ dữ liệu
Chương 1: Tổng quan

3. Xử lý dữ liệu
4. Làm sạch dữ liệu
5. Phân tích dữ liệu

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN


• Dữ liệu lớn được ứng dụng vào rất nhiều lĩnh vực
của nền kinh tế, tạo những chuyển biến ấn tượng,
giúp tăng hiệu quả và năng suất của doanh nghiệp
Chương 1: Tổng quan

– Tài chính, Ngân hàng


– Y tế, Chăm sóc sức khỏe
– Thương mại điện tử
– Bán lẻ
– Marketing số

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

14
Chương 1: Tổng quan CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN

– Sử dụng các kỹ thuật phân cụm giúp xác định các địa điểm
chi nhánh nơi tập trung nhiều nhu cầu của khách hàng tiềm
năng
– Kết hợp nhiều quy tắc để dự đoán lượng tiền mặt cần thiết
sẵn sàng cung ứng ở một chi nhánh tại thời điểm cụ thể
hàng năm.
– ML và AI đang được dùng để phát hiện các hoạt động gian
lận và giúp đảm bảo an ninh cho ngân hàng.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN


Chương 1: Tổng quan

– Đánh giá hành vi khách hàng và đề xuất các sản phẩm tương tự
– Các ứng dụng Big Data còn có thể tạo một báo cáo tùy chỉnh theo
các tiêu chí: độ tuổi, giới tính, địa điểm của khách truy cập, v.v.
– Phân tích hành vi, sự quan tâm của khách hàng để tạo ra các sản
phẩm hướng đến khách hàng.
– Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

15
Chương 1: Tổng quan CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN

– Theo dõi tình trạng bệnh nhân bằng hồ sơ sức khỏe điện tử.
– Đánh giá triệu chứng và xác định bệnh ở giai đoạn đầu.
– Lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng
dữ liệu khổng lồ một cách hiệu quả.
– Có thể báo trước khu vực có nguy cơ bùng phát dịch

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN


• Dữ liệu lớn đòi hỏi cơ sở hạ tầng để thu thập và
chứa dữ liệu, cung cấp quyền truy cập và đảm bảo
thông tin trong khi lưu trữ và chuyển tiếp
Chương 1: Tổng quan

– Hệ thống lưu trữ và máy chủ được thiết kế cho big data
– Phần mềm quản lý và tích hợp dữ liệu kinh doanh
– Phần mềm phân tích dữ liệu
– Các ứng dụng khai thác dữ liệu lớn

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

16
Chương 1: Tổng quan CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN

Nguồn: ResearchGate
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN


• Sự cần thiết
– Thu thập, chứa dữ liệu, cung cấp quyền truy cập và
đảm bảo an toàn thông tin
Chương 1: Tổng quan

• Các thành phần


– Hệ thống lưu trữ và máy chủ được thiết kế riêng
– Phần mềm quản lý dữ liệu, thông tin kinh doanh
– Phần mềm phân tích dữ liệu
– Các ứng dụng dữ liệu lớn

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

17
CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN
• Sự mở rộng
– Thu thập dữ liệu: apps (web, mobile), social media, IoT
devices, …
Chương 1: Tổng quan

– Hệ thống lưu trữ: data warehouse, data lakes, data on


cloud, …
– Bảo mật thông tin: mã hóa, xác thực, phân quyền,
tường lửa, …

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC CÔNG NGHỆ ĐẶC BIỆT


Chương 1: Tổng quan

Nguồn: Javapoint.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

18
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Hệ sinh thái Hadoop
– Hệ sinh thái công nghệ mã nguồn mở được sử dụng
rộng rãi trong việc xử lý và lưu trữ Big data.
Chương 1: Tổng quan

– Bao gồm hai thành phần chính là Hadoop Distributed


File System (HDFS) và Apache MapReduce.
– Cho phép xử lý song song và phân tán dữ liệu trên
nhiều máy tính để tăng hiệu suất và khả năng mở rộng
của hệ thống Big data.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC CÔNG NGHỆ ĐẶC BIỆT


• Apache Spark
– Một nền tảng phân tán và xử lý dữ liệu lớn Big data có
tốc độ nhanh. Nó cung cấp các công cụ và thư viện
mạnh mẽ để thực hiện các công việc phân tích dữ liệu,
Chương 1: Tổng quan

xử lý dữ liệu thời gian thực và máy học.


– Sử dụng mô hình tính toán trong bộ nhớ, giúp tăng tốc
độ xử lý và hiệu suất của quá trình phân tích Big data.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

19
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Data lakes
– Một hình thức lưu trữ dữ liệu lớn trong các hệ thống
không cấu trúc, cho phép lưu trữ dữ liệu từ nhiều nguồn
và định dạng khác nhau mà không cần xác định cấu trúc
Chương 1: Tổng quan

trước.
– Cho phép tổ chức lưu trữ dữ liệu một cách linh hoạt và
truy cập vào dữ liệu để phân tích và khám phá thông tin
mới.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC CÔNG NGHỆ ĐẶC BIỆT


• Cơ sở dữ liệu NoSQL
– Phương pháp lưu trữ và quản lý dữ liệu linh hoạt và mở
rộng trong Big data. Nó cho phép lưu trữ và truy vấn dữ
liệu một cách hiệu quả thông qua các mô hình như key-
Chương 1: Tổng quan

value, cột, tài liệu hoặc đồ thị.


– Giúp giải quyết các vấn đề về hiệu suất và mở rộng,
được áp dụng trong nhiều lĩnh vực như phân tích dữ
liệu, quản lý nguồn dữ liệu trực tuyến và hệ thống web.
– Giúp xây dựng và quản lý hệ thống Big data linh hoạt và
hiệu quả.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

20
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Cơ sở dữ liệu trong bộ nhớ (In-memory database)
– Một loại cơ sở dữ liệu được lưu trữ và xử lý trực tiếp
trong bộ nhớ chính của máy tính thay vì đĩa cứng. Điều
này giúp tăng tốc độ truy xuất dữ liệu và xử lý nhanh
Chương 1: Tổng quan

hơn đáng kể.


– Thích hợp cho các ứng dụng yêu cầu thời gian phản hồi
nhanh như giao dịch tài chính, phân tích thời gian thực
và hệ thống đa phương tiện.

… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

CÁC THÁCH THỨC VỚI DỮ LIỆU LỚN


Chương 1: Tổng quan

Nguồn: linkedin.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam

21

You might also like