Professional Documents
Culture Documents
NỘI DUNG
1. Tổng quan về dữ liệu lớn
2. Đặc điểm và vai trò của dữ liệu lớn
3. Các giai đoạn của quản lý dữ liệu
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
1
TỔNG QUAN VỀ DỮ LIỆU LỚN
• Khởi nguồn
– Những thách thức và cơ hội nằm trong việc tăng trưởng
dữ liệu có thể được mô tả bằng ba chiều “3V”:
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
2
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
hợp lý
– Dữ liệu lớn là các tập dữ liệu có khối lượng lớn và phức
tạp đến mức các phần mềm xử lý dữ liệu truyền thống
không có khả năng thu thập, quản lý và xử lý trong một
khoảng thời gian hợp lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
3
Chương 1: Tổng quan ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (3V)
Nguồn: Linkedin
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
Nguồn: Depositphotos.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
4
Chương 1: Tổng quan ĐẶC ĐIỂM CỦA DỮ LIỆU LỚN (7V)
Nguồn: Depositphotos.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
Nguồn: Codingninjas.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
5
Chương 1: Tổng quan VAI TRÒ CỦA DỮ LIỆU LỚN
Nguồn: Techvivan.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
6
CÁC LOẠI DỮ LIỆU
• Dữ liệu có cấu trúc
– Dữ liệu có cấu trúc là loại dữ liệu được tổ chức và lưu
trữ theo một định dạng cụ thể, với các quy tắc và kiểu
dữ liệu đã được xác định trước.
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
tính như Excel. Mỗi hàng trong bảng tương ứng với một
bản ghi hoặc mục và mỗi cột đại diện cho một thuộc tính
hay trường dữ liệu cụ thể
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
7
CÁC LOẠI DỮ LIỆU
• Dữ liệu có cấu trúc
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
8
CÁC LOẠI DỮ LIỆU
• Dữ liệu bán cấu trúc
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
– Điều này làm cho dữ liệu không có cấu trúc trở nên khó
xử lý và khai thác thông tin một cách tự động bởi máy
tính.
– Dữ liệu này thường là dạng văn bản tự do hoặc thông
tin hình ảnh, âm thanh, video, tài liệu ghi chú, email, bài
viết mạng xã hội, tệp log, và nhiều dạng dữ liệu không
có cấu trúc khác
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
9
PHÂN TÍCH DỮ LIỆU LỚN
• Phân tích dữ liệu
– Việc chuyển đổi dữ liệu thô thành thông tin chuyên sâu hữu
ích. Quá trình này bao gồm các công cụ, công nghệ và quy
trình được áp dụng để tìm kiếm xu hướng, giải quyết vấn đề
bằng dữ liệu
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
10
PHÂN TÍCH DỮ LIỆU LỚN
• Quá trình phân tích dữ liệu lớn
1. Thu thập dữ liệu
2. Lưu trữ dữ liệu
Chương 1: Tổng quan
3. Xử lý dữ liệu
4. Làm sạch dữ liệu
5. Phân tích dữ liệu
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
11
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN
2. Lưu trữ dữ liệu
– Dựa trên sự phức tạp của dữ liệu, dữ liệu có thể được
di chuyển tới kho lưu trữ như kho dữ liệu hoặc hồ dữ
liệu đám mây
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
12
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU LỚN
4. Làm sạch dữ liệu
– Quá trình làm sạch dữ liệu bao gồm việc xóa bất kỳ lỗi
nào như trùng lặp, không nhất quán, dư thừa hoặc định
dạng sai.
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
• Phân tích mô tả
• Phân tích chẩn đoán
• Phân tích dự đoán
• Phân tích theo quy định
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
13
PHÂN TÍCH DỮ LIỆU LỚN
• Quá trình phân tích dữ liệu lớn
1. Thu thập dữ liệu
2. Lưu trữ dữ liệu
Chương 1: Tổng quan
3. Xử lý dữ liệu
4. Làm sạch dữ liệu
5. Phân tích dữ liệu
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
14
Chương 1: Tổng quan CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN
– Sử dụng các kỹ thuật phân cụm giúp xác định các địa điểm
chi nhánh nơi tập trung nhiều nhu cầu của khách hàng tiềm
năng
– Kết hợp nhiều quy tắc để dự đoán lượng tiền mặt cần thiết
sẵn sàng cung ứng ở một chi nhánh tại thời điểm cụ thể
hàng năm.
– ML và AI đang được dùng để phát hiện các hoạt động gian
lận và giúp đảm bảo an ninh cho ngân hàng.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
– Đánh giá hành vi khách hàng và đề xuất các sản phẩm tương tự
– Các ứng dụng Big Data còn có thể tạo một báo cáo tùy chỉnh theo
các tiêu chí: độ tuổi, giới tính, địa điểm của khách truy cập, v.v.
– Phân tích hành vi, sự quan tâm của khách hàng để tạo ra các sản
phẩm hướng đến khách hàng.
– Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
15
Chương 1: Tổng quan CÁC ỨNG DỤNG SỬ DỤNG DỮ LIỆU LỚN
– Theo dõi tình trạng bệnh nhân bằng hồ sơ sức khỏe điện tử.
– Đánh giá triệu chứng và xác định bệnh ở giai đoạn đầu.
– Lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng
dữ liệu khổng lồ một cách hiệu quả.
– Có thể báo trước khu vực có nguy cơ bùng phát dịch
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
– Hệ thống lưu trữ và máy chủ được thiết kế cho big data
– Phần mềm quản lý và tích hợp dữ liệu kinh doanh
– Phần mềm phân tích dữ liệu
– Các ứng dụng khai thác dữ liệu lớn
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
16
Chương 1: Tổng quan CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN
Nguồn: ResearchGate
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
17
CƠ SỞ HẠ TẦNG PHỤC VỤ DỮ LIỆU LỚN
• Sự mở rộng
– Thu thập dữ liệu: apps (web, mobile), social media, IoT
devices, …
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
Nguồn: Javapoint.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
18
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Hệ sinh thái Hadoop
– Hệ sinh thái công nghệ mã nguồn mở được sử dụng
rộng rãi trong việc xử lý và lưu trữ Big data.
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
19
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Data lakes
– Một hình thức lưu trữ dữ liệu lớn trong các hệ thống
không cấu trúc, cho phép lưu trữ dữ liệu từ nhiều nguồn
và định dạng khác nhau mà không cần xác định cấu trúc
Chương 1: Tổng quan
trước.
– Cho phép tổ chức lưu trữ dữ liệu một cách linh hoạt và
truy cập vào dữ liệu để phân tích và khám phá thông tin
mới.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
20
CÁC CÔNG NGHỆ ĐẶC BIỆT
• Cơ sở dữ liệu trong bộ nhớ (In-memory database)
– Một loại cơ sở dữ liệu được lưu trữ và xử lý trực tiếp
trong bộ nhớ chính của máy tính thay vì đĩa cứng. Điều
này giúp tăng tốc độ truy xuất dữ liệu và xử lý nhanh
Chương 1: Tổng quan
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
Nguồn: linkedin.com
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
21