You are on page 1of 59

Tổng quan về Khoa học dữ

liệu
Nguyễn Mạnh Tuấn
tuannm@ueh.edu.vn
Mục tiêu
 Hiểu thời đại thông tin, chuyển đổi số
 Hiểu một số khái niệm liên quan đến dữ liệu
 Hiểu vai trò của khoa học dữ liệu
 Biết một số ngành, lãnh vực liên quan đến khoa học
dữ liệu

2
Nội dung
1. Thời đại thông tin
2. Khoa học dữ liệu
3. Ứng dụng KHDL trong kinh doanh

3
Data

huybx@ueh.edu.vn

4
Data
 Dự đoán số lượng hành khách
 Chiến lược quản lý quan hệ khách hàng
 Dự đoán trễ chuyến bay, tỷ lệ hủy
 Hiểu được tác động của thời tiết khắc nghiệt
 Đảm bảo an toàn và bảo mật cho hành khách
 Phát hiện bất thường để theo dõi tình trạng chuyến bay
 Dự đoán giá vé cho hành khách của hãng hàng không
 Quản lý rủi ro bằng cách sử dụng dữ liệu theo dõi giám sát
 Lên lịch bay khi có sự chậm trễ
 ...

huybx@ueh.edu.vn

5
1. Thời đại thông tin
 Thời đại thông tin (Information Age), thời đại số
(Digital Age)

[https://medium.com/]

6
Thảo luận

Đâu là khác biệt chính của CMCN


4.0 và các cuộc cách mạng trước?

huybx@ueh.edu.vn

7
Đột phá về công nghệ
Artificial Intelligent
Data Science

Big Data Block Chain

Cloud Computing

Internet of Thing

8
Điện toán đám mây
• Điện toán đám mây: Lưu trữ và
truy nhập dữ liệu và chương
trình trên “clouds” qua
Internet thay vì trên máy tính
người dùng.
• Dữ liệu được lưu trữ thường
trực tại các máy chủ trên
Internet và chỉ lưu trữ tạm thời
trên máy khách
• Ví dụ: Google Drive, One Drive,
Dropbox...

huybx@ueh.edu.vn

9
Internet vạn vật (IoT)
• Là sự kết nối trên mạng
Internet của các vật thể, thiết
bị .
• Các vật thể, thiết bị có thể trao
đổi thông tin, dữ liệu với nhau
qua Internet mà không cần kết
nối trực tiếp với nhau. (Người –
người, người – máy, máy – máy)
• Ví dụ: Hồ sơ bệnh án của một
người.

huybx@ueh.edu.vn

10
Blockchain
• Về bản chất, blockchain như cơ sở dữ liệu thông thường:
lưu trữ dữ liệu với các thuộc tính duy nhất:
• Phân cấp - không ai có toàn quyền kiểm soát thông tin nào
đi vào
• Đồng thuận - nhiều bên khác nhau lưu trữ các bản sao
chính xác của cùng một hồ sơ gốc, vì vậy đa số phải đồng ý
với dữ liệu thêm vào
• ‘Chỉ thêm’, nghĩa là không thể chỉnh sửa những gì đã có,
chỉ có thể thêm
• Thông tin mới không thể xung đột với những gì đã được
thêm
• Thông tin có thể được truy cập và nhân rộng bởi tất cả
mọi người

huybx@ueh.edu.vn

11
What is Big Data?
• A dramatic increase in available data.
• This data comes from everywhere:
• Sensors used to gather climate information,
• Posts to social media sites,
• Digital pictures and videos,
• Purchase transaction records,
• Cell phone GPS signals,...
• This data is Big data

huybx@ueh.edu.vn

12
Big Data
V4 = Volume Velocity Variety Veracity
➢ Volume (dung lượng): data size
➢ Velocity (tốc độ): data generation rate
➢ Variety (đa dạng): data heterogeneity
➢ Veracity (tính xác thực): uncertainty of
accuracy and authenticity of data

huybx@ueh.edu.vn

13
Trí tuệ nhân tạo (AI)

huybx@ueh.edu.vn

14
Định nghĩa AI
• Mục đích chính của AI là phát triển các máy tính
(hoặc chức năng máy tính) có khả năng thông
minh như con người.
1. Nhận thức
2. Học
3. Suy luận
4. Giao tiếp ngôn
ngữ
5. Giải quyết vấn đề

huybx@ueh.edu.vn

15
Một số ứng dụng AI
 Giao thông vận tải (Transportation)
❑ Xe thông minh
❑ Xe tự lái
❑ Qui hoạch giao thông
❑ Vận tải theo nhu cầu

huybx@ueh.edu.vn

16
Một số ứng dụng AI
 Giáo dục (Education)
❑ Hệ thống giảng dạy trực tuyến
❑ Người máy giảng dạy
❑ Trợ giảng thông minh
❑ Máy tính phân tích hành vi
người học, đánh giá kết quả
học tập

huybx@ueh.edu.vn

17
Một số ứng dụng AI
 Y tế, sức khỏe (Healthcare)
❑ Máy tính hỗ trợ chẩn đoán lâm sàng.
❑ Phẫu thuật với sự hỗ trợ từ robot.
❑ Ứng dụng trợ lý y tá ảo (VD: Care Angel).
❑ Tự động hóa các hoạt động quản trị bệnh viện.

huybx@ueh.edu.vn

18
Một số ứng dụng AI
 Dịch vụ tài chính (Financial services)
❑ Các bài toán ứng dụng:
➢ Đánh giá, xếp hạng tín dụng
➢ Đánh giá rủi ro thế chấp
➢ Quản lý dự án và chiến lược đấu thầu
➢ Dự báo tài chính
➢ Đánh giá rủi ro của các khoản đầu tư
➢ Dự đoán vỡ nợ và phá sản
➢ Quản lý danh mục đầu tư
❑ Các công nghệ/thuật toán thường dùng: Neural networks,
Fuzzy logic, Genetic algorithms, Expert systems and Intelligent
agents,…

huybx@ueh.edu.vn

19
1. Thời đại thông tin (tt.)
 Thế giới số (Digital World), xã hội số (Digital
Society)
❑ những tiện nghi trong sinh hoạt
❑ các mặt hoạt động của xã hội

20
1. Thời đại thông tin (tt.)
 Thế giới số (Digital World), xã hội số (Digital
Society)

21
Thảo luận

Digitization, Digitalization, and


Digital Transformation?

22
1. Thời đại thông tin (tt.)
 Số hóa các đối tượng (digitization): công nghệ
❑ biểu diễn các đối tượng
❑ tổ chức lưu trữ, xử lý (chia sẻ, phân tích, …)

23
1. Thời đại thông tin (tt.)
 Số hóa tổ chức (digitalization): quy trình hoạt động
❑ cải tiến các quy trình
❑ khai thác công nghệ số
❑ nhanh hơn → tốt hơn → thông minh hơn

24
1. Thời đại thông tin (tt.)
 Chuyển đổi số (digital transformation)
❑ thay đổi toàn diện: văn hóa, tư duy, mô hình

25
1. Thời đại thông tin (tt.)
 Bùng nổ thông tin, quá tải thông tin (information
overload) [Vercellis]
❑ sự phát triển, đột phá của công nghệ, CNTT
❑ sự toàn cầu hóa

26
1. Thời đại thông tin (tt.)
 Bùng nổ thông tin, quá tải thông tin (information
overload)
❑ thông tin nội tại: các mặt hoạt động
❑ thông tin “ngoại lai”: môi trường, ngữ cảnh
 lợi thế cạnh tranh cho doanh nghiệp

27
1. Thời đại thông tin (tt.)
 Bùng nổ thông tin, quá tải thông tin
“We are drowning in data, but we are staved for knowledge.”
[Naisbitt John, 1982]

“We’re drowning in information and starving for knowledge.”


[Rutherford D. Rogers, 1985]

“Data Flood”

28
1. Thời đại thông tin (tt.)
 Các khái niệm
❑ dữ liệu (data)
❑ thông tin (information)
❑ tri thức (knowledge)

29
Data, Information, Knowledge

huybx@ueh.edu.vn

30
Nội dung
1. Thời đại thông tin
2. Khoa học dữ liệu
3. Ứng dụng KHDL trong kinh doanh

31
2. Khoa học dữ liệu
 Khoa học dữ liệu (Data Science)
❑ thu thập
− kiểu dữ liệu và cấu trúc dữ liệu
❑ tổ chức
− quy trình xử lý (process)
❑ lưu trữ
− chọn lựa mô hình (model selection)
❑ xử lý
− phương pháp (method)
❑ khai thác

32
Thảo luận

Khoa học dữ liệu sẽ dựa


trên các ngành nào?

33
Data Science / Data Analytics
“In God we trust.
KIẾN THỨC All others bring
CHUYÊN NGÀNH
(Expert Domain)
data”.
“Ta tinThượng đế.
NGHIÊN CỨU XỬ LÝ Ngoài ra,là dữ
THỐNG KÊ DỮ LIỆU liệu”.
W.E.Deming
DATA
SCIENCE “We cannot solve problems
TOÁN & KHOAHỌC by using the same kind of
THỐNG KÊ MÁY TÍNH thinking we used when we
HỌC MÁY created them”
Ta không thể giải quyết các
vấn đề với chính cách nghĩ ta
Khoa học về phân tích dữ liệu đã dùng khi đặt vấn đề
Albert Einstein

...là công cụ lao động quan trọng trong thời chuyển đổi số

34
2. Khoa học dữ liệu (tt.)
 Khoa học dữ liệu (Data Science): analytics

[Gartner]

35
2. Khoa học dữ liệu (tt.)
 Khoa học dữ liệu (Data Science): analytics

[WAMDM, Web Group]

36
2. Khoa học dữ liệu (tt.)
 Dữ liệu lớn (Big Data)
❑ thu thập từ nhiều nguồn
❑ thuthập theo nhiều cách thức,
phương pháp
❑ thu thập bằng nhiều phương
tiện, công cụ

[https://blogs.oracle.com/
03/2016]
37
2. Khoa học dữ liệu (tt.)
 Dữ liệu lớn (Big Data)
❑ volume: dung lượng
❑ variety: sự đa dạng
❑ velocity: tốc độ phát sinh
❑ veracity: tính xác thực

[https://www.researchgate.net/]

38
2. Khoa học dữ liệu (tt.)
 Kết nối vạn vật (Internet of Things – IoT)
❑ trao đổi thông tin

39
2. Khoa học dữ liệu (tt.)
 Học máy (Machine Learning)
❑ máy tính có khả năng “học tập” giống như con người

40
2. Khoa học dữ liệu (tt.)
 Học máy (Machine Learning) → Chương 4 và 5

41
2. Khoa học dữ liệu (tt.)
 Học máy (Machine Learning) → Chương 4 và 5

42
2. Khoa học dữ liệu (tt.)
 Khai phá dữ liệu (Data Mining, Knowledge
Discovery in Databases – KDD)
❑ khám phá những quy luật, những tri thức từ kho dữ liệu

43
2. Khoa học dữ liệu (tt.)
 Khai phá dữ liệu (Data Mining, KDD)
❑ khám phá những quy luật, tri thức từ kho dữ liệu

44
Nội dung
1. Thời đại thông tin
2. Khoa học dữ liệu
3. Ứng dụng KHDL trong kinh doanh

45
3. Ứng dụng KHDL trong kinh doanh
 Bài toán kinh doanh
❑ thị trường, bán hàng, khách hàng
❑ nguồn lực: nhân lực, tài lực, vật lực
❑ vận hành doanh nghiệp

46
Áp dụng vào doanh nghiệp
Nhân sự Phân tích
khuyến cáo

Khách hàng

Bán hàng Phân tích Phân tích


kinh doanh dự báo

Thị trường

Tài chính
Phân tích
mô tả

Sản xuất

47
6 bài toán của doanh nghiệp
Tài chính

01
Vận hành
Khách hàng
sản xuất 06 02

Nhân sự 05 03 Bán hàng

04
Thị trường
48
6 bài toán của doanh nghiệp
01 Khách hàng

06 02 P1
Sự hài lòng của khách hàng

Khách hàng trung thành


P2
Phân khúc khách hàng
05 03 P3
Kênh bán và khách hàng
P4
04 Mất khách
P5
Thu hút khách hàng
P6

49
6 bài toán của doanh nghiệp
▪ Doanh nghiệp có đang cung cấp
đúng những sản phẩm, dịch vụ mà cái
01
khách hàng mong muốn?
Khách hàng

06 02 P1
Sự hài lòng của khách hàng
▪ Khách hàng có hài lòng về trải nghiệm
P2
Khách hàng trung thành
khi mua sản phẩm, dịch vụ của doanh
nghiệp?
Phân khúc khách hàng
05 03 P3
Kênh bán và khách hàng
P4
04
P5
Mất khách
▪ Khách hàng có hài lòng về sản phẩm,
P6
Thu hút khách hàng
dịch vụ của doanh
nghiệp? Họ hài lòng ở mức độ
nào và đâu là yếu tố khiến họ hài lòng
nhất? Nếu không thì nguyên nhân là vì
sao?

50
Thảo luận

Đâu là những bài toán


của phòng nhân sự?

huybx@ueh.edu.vn

51
3. Ứng dụng KHDL trong kinh doanh (tt.)
 Ứng dụng khoa học dữ liệu
❑ những lợi ích
❑ những vấn đề
 đồ án môn học (theo nhóm)

52
Thực trạng Khoa học dữ liệu

 Cácnhà khoa học dữ liệu đang từ bỏ


hay đổi nghề 1 cách nhanh chóng?

53
Kỳ vọng và Thực tế
 Không có cơ hội nhiều để tiếp xúc với các dự án
ngoài đời thực hay là dữ liệu thực tế
 Tự học và thu thập kiến thức thông qua sách vở
và các khóa học online
 Chưa hiểu hết bản chất của Khoa học dữ liệu

54
Định hướng vai trò của các nhà khoa học dữ liệu
tới mục đích kinh doanh
 Giám đốc điều hành, CxO, C-Suite, nhà đầu tư...
đều muốn thể hiện rằng tổ chức hoặc dự án của
họ luôn đi đầu trong những tiến bộ công nghệ
mới nhất
 Các dự án khoa học dữ liệu: cần nhiều trải
nghiệm, thử nghiệm, ‘error method’ và sự
lặp đi lặp lại trước khi có kết quả cuối cùng

55
Thảo luận
 Đâu là những nguyên nhân ngăn sự nâng cao kĩ năng
cho các chuyên gia khoa học dữ liệu?
 Nếu bạn là chủ doanh nghiệp nên đầu tư vào phần
nào để hỗ trợ việc nâng cao kĩ năng cho các chuyên
gia khoa học dữ liệu

56
Nguyên nhân ngăn sự nâng cao kĩ năng cho các
chuyên gia khoa học dữ liệu
 Sự thiếu hụt cơ sở hạ tầng: là trường hợp phổ biến với
hầu hết các doanh nghiệp, thiếu hụt cơ sở hạ tầng như hệ
thống máy tính, độ tiếp cận tới các bộ công cụ v..v.. để hỗ
trợ vai trò của 1 nhà khoa học dữ liệu
 Phạm vi kinh doanh: năng lực hoạt động của doanh
nghiệp có thể hơi hạn chế và hạn hẹp. Tới 1 thời điểm, có
thể gây khó khăn cho 1 nhà khoa học dữ liệu để suy luận
nhiều insight hơn từ dữ liệu
 Sự thiếu hụt nghiên cứu và phát triển: Là 1 nhà khoa
học dữ liệu sẽ thích khám phá nhiều lĩnh vực bên ngoài
phạm vi công việc của.

57
Tài liệu tham khảo
García Márquez F.-P. & Lev B., Data Science and Digital Business, 2019.
Ho T.-B., Trao đổi về Khoa học dữ liệu và Khoa học dữ liệu trong kinh doanh, 2019.
Provost F. & Fawcett T., Data Science for Business: What You Need to Know about
Data Mining and Data-Analytic Thinking, O'Reilly Media, 2013.
Shmueli G. et al., Data Mining for Business Analytics: Concepts, Techniques, and
Applications in R, Wiley, 2017.

58
Thảo luận

59

You might also like