You are on page 1of 46

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH


KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

CÁC ỨNG DỤNG KHOA HỌC DỮ LIỆU


(DATA SCIENCE APPLICATIONS)

Giảng viên hướng dẫn: PHẠM ĐÌNH TÀI


Sinh viên thực hiện: CHU DOÃN ĐỨC
MSSV: 2000003917
Chuyên ngành: Khoa học dữ liệu
Môn học: Đồ án cơ sở Khoa học Dữ liệu
Khóa: 2022

Tp.HCM, 22 tháng 9 năm 2022

i
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

CÁC ỨNG DỤNG KHOA HỌC DỮ LIỆU


(DATA SCIENCE APPLICATIONS)

Giảng viên hướng dẫn: PHẠM ĐÌNH TÀI


Sinh viên thực hiện: CHU DOÃN ĐỨC
MSSV: 2000003917
Chuyên ngành: Khoa học dữ liệu
Môn học: Đồ án cơ sở Khoa học Dữ liệu
Khóa: 2022

Tp.HCM, 22 tháng 9 năm 2022

ii
Trường Đại học Nguyễn Tất Thành CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Khoa Công Nghệ Thông Tin Độc lập – Tự do – Hạnh phúc
🙜  🙜  🙝  🙝 🙜  🙜  🙝  🙝
NHIỆM VỤ ĐỒ ÁN CƠ SỞ
(Sinh viên phải đóng tờ này vào báo cáo)
Họ và tên: Chu Doãn Đức MSSV: 2000003917
` Email: 2000003917@nttu.edu.vn SĐT: 09080482772
Chuyên ngành: Khoa học dữ liệu Lớp: 20DTH1D
Tên đề tài: Các ứng dụng khoa học dữ liệu (Data Science Applications)
Giáo viên hướng dẫn: Phạm Đình Tài

Thời gian thực hiện: 20 / 06 /2021 đến 20 / 09 /2021

Nhiệm vụ/nội dung (mô tả chi tiết nội dung, yêu cầu, phương pháp… ):
MÔ TẢ ĐỀ TÀI:
- Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích
dữ liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho các bên liên
quan, để chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành sử dụng
các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu.
NỘI DUNG VÀ PHƯƠNG PHÁP:
- Tìm hiểu về data Science trong kỷ nguyên số, vai trò và tầm quan trọng của Data Science
- Các ứng dụng Data Science trong lĩnh vực ngân hàng, tài chính, sản xuất, giao thông vận
tải, chăm sóc sức khỏe …
YÊU CẦU:

- Tìm hiểu về data Science, trình bày các ứng dụng chủ yếu của data Science trong
đời sống hiện nay.
Nội dung và yêu cầu đã được thông qua Bộ môn.

TP.HCM, ngày 27 tháng 06 năm 2022

TRƯỞNG BỘ MÔN GIÁO VIÊN HƯỚNG DẪN

(Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên)

ThS. Vương Xuân Chí ThS. Phạm Đình Tài

iii
LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn chân thành đến Trường Đại học Nguyễn Tất Thành đã
đưa môn học “đồ án cơ sở Khoa học dữ liệu” vào trương trình giảng dạy. Đặc biệt, em
xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn – Thầy Phạm Đình Tài trực tiếp hướng
dẫn, dạy dỗ, truyền đạt những kiến thức quý báu cho em trong suốt thời gian học tập vừa
qua. Trong thời gian tham gia lớp học của thầy, em đã có thêm cho mình nhiều kiến thức
bổ ích, tinh thần học tập hiệu quả, nghiêm túc và đã cho em chắc chắn được hoạch định
trong tương lai của mình.

“Đồ án cơ sở Khoa học dữ liệu” là môn học thú vị, vô cùng bổ ích và có tính thực tế cao.
Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên nói chung
và riêng bản thân em nói riêng. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả
năng tiếp thu thực tế còn nhiều bỡ ngỡ và hạn hẹp. Mặc dù em đã cố gắng hết sức nhưng
chắc chắn bài báo cáo của em khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn
chưa chính xác, kính mong các thầy/cô chấm bài xem xét và góp ý để bài tiểu luận của
em được hoàn thiệt hơn.

Kính chúc thầy có nhiều sức khỏe, hạnh phúc, thành công trên con đường giảng dạy.

Em xin chân thành cảm ơn!

iv
LỜI MỞ ĐẦU
Cách đây khoảng một thập niên, hình ảnh những chiệc máy tính bàn cồng kềnh thường
gắn liền với góc làm việc của mỗi người mõi dữ liệu được lưu trên ổ cứng của máy tính
hoặc đĩa CD. Thế nhưng hiện nay với thời đại công nghệ số dữ liệu của mọi cá nhân hay
tổ chức được lưu trữ hoặc xuất hiện trên các phương tiện số như điện toán đám mây,
mạng xã hội, website, thiết bị di động và các thiết bị cảm biến. Chính sự bùng nổ của dữ
liệu lớn (Big Data) đòi hỏi phải có những phương pháp khoa học và công nghệ hiện đại
để khai thác và ứng dụng trong nhiều lĩnh vực khác nhau. Việc hiểu rõ bản chất của dữ
liệu Big giúp phát triển nhiều lĩnh vực như kinh doanh, thương mại, kỹ thuật, ngân hàng,
y tế, v.v… Chính vì vậy ngành khoa học dữ liệu là một trong những ngành chủ chốt có
ưu thế đi đầu hiện nay.

Những năm gần đây, vai trò của việc ứng dụng khoa học dữ liệu vào đời sống đã ngày
càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng,
các doanh nghiệp,.... Đã trở nên có vai trò chiến lược trong hầu hết tất cả các ngành nghề
hiện nay. Đặc biệt những ứng dụng trong khoa học dữ liệu đã khiến đời sống ngày càng
dễ dàng và tiền nghi hơn cũng như các doanh nghiệp chú ý hơn tới việc áp dụng nó để
gia tăng ưu thế cạnh tranh và tạo cơ hội cho mình. Hiện nay, trào lưu áp dụng ứng dụng
khoa học dữ liệu không chỉ giới hạn trong các ngành nghề lớn, những nghiên cứu tầm cỡ
đa quốc gia mà còn lan rộng trong tất cả các tiên nghi đời sống.

Tuy nhiên việc ứng dụng khoa học dữ liệu vào đời sống không phải đơn giản ngay cả với
những doanh nghiệp lớn, dồi dào về nguồn lực, nhân lực và kinh nghiệm. Một ứng dụng
thành công trong doanh nghiệp này cũng chưa chắc thành công tương tự trong doanh
nghiệp khác. Vì vậy, hôm nay nhóm em sẽ tìm hiểu về “các ứng dụng Khoa học dữ liệu”
để có cái nhìn sâu hơn, thực tế hơn về việc ứng dụng khoa học dữ liệu vào các ngành
nghề cũng như đời sống. Vì thời gian thực hiện không nhiều cũng như còn yếu kém về
mặt kiến thức chuyên ngành nên chắc chắn còn nhiều thiếu sót, mong được thầy hướng
dẫn thêm. Trân trọng cảm ơn thầy/cô!

v
PHẦN NHẬN XÉT + CHẤM ĐIỂM CỦA GIẢNG VIÊN
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
Điểm giáo viên hướng dẫn:.....................................................................

.......................................................................................................
Điểm giảng viên chấm vòng 2:.................................................................

.......................................................................................................
.......................................................................................................
.......................................................................................................
TPHCM, Ngày …… tháng …… năm
Giáo viên chấm vòng 2 Giáo viên hướng dẫn

vi
vii
MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU..................................................1
1.1 – KHOA HỌC DỮ LIỆU LÀ GÌ?..............................................................................1
1.2 – TẠI SAO KHOA HỌC DỮ LIỆU LẠI QUAN TRỌNG?.......................................3
1.3 – LỊCH SỬ VÀ TƯƠNG LAI CỦA KHOA HỌC DỮ LIỆU?...................................4
1.3.1 – Lịch sử:.................................................................................................................4
1.3.2 – Tương lai:.............................................................................................................. 4
1.4 – KHOA HỌC DỮ LIỆU CÓ CÔNG DỤNG GÌ?......................................................4
1.4.1 – Phân tích mô tả:.....................................................................................................5
1.4.2 – Phân tích chuẩn đoán:...........................................................................................5
1.4.3 – Phân tích dự đoán:.................................................................................................5
1.4.4 – Phân tích đề xuất:..................................................................................................6
1.5 – KHOA HỌC DỮ LIỆU MANG TỚI CHO DOANH NGHIỆP NHỮNG LỢI ÍCH
GÌ?.................................................................................................................................. 6
1.5.1 – Khám phá các mẫu biến đổi tiềm ẩn:.....................................................................6
1.5.2 – Sáng tạo các sản phẩm và giải pháp mới:..............................................................7
1.5.3 – Tối ưu hóa trong thời gian thực:............................................................................7
1.6 – QUY TRÌNH LÀM VIỆC CỦA KHOA HỌC DỮ LIỆU:.......................................8
1.6.1: O – Thu thập dữ liệu (Obtain data):......................................................................10
1.6.2: S – Làm sạch dữ liệu (Scrub data):........................................................................10
1.6.3: E – Khám phá dữ liệu (Explore data):...................................................................10
1.6.4: M – Mô hình hóa dữ liệu (Model data):................................................................11
1.6.5: N – Diễn giải kết quả (Interpret results):...............................................................11
1.7 – CÁC KỸ THUẬT KHOA HỌC DỮ LIỆU LÀ GÌ?...............................................11
1.7.1 – Phân loại:.............................................................................................................11
1.7.2 – Hồi quy:..............................................................................................................12
1.7.3 – Phân nhóm:.........................................................................................................12
1.7.4 – Nguyên tắc cơ bản đằng sau các kỹ thuật khoa học dữ liệu:................................13
1.8 – SẢN PHẨM DATA (DỮ LIỆU):...........................................................................13
viii
1.8.1 – Mô hình Data:.....................................................................................................13
1.9 – NHỮNG TỐ CHẤT VÀ KỸ NĂNG CẦN CÓ CỦA NHÀ KHOA HỌC DỮ
LIỆU:............................................................................................................................ 14
1.9.1 – Tố chất:...............................................................................................................14
1.9.2 – Kỹ năng cần có:...................................................................................................16
CHƯƠNG 2: CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU....................................19
1.1 – ỨNG DỤNG TRONG Y TẾ:................................................................................19
1.1.1 – Xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo:................................................19
1.1.2 – Nghiên cứu về gen và di truyền:..........................................................................21
1.1.3 – Điều chế thuốc:....................................................................................................21
1.2 – ỨNG DỤNG TRONG TÌM KIẾM THÔNG TIN:................................................22
1.3 – ỨNG DỤNG TRONG LÍNH VỰC QUẢNG CÁO:..............................................22
1.4 – ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ VÀ DỊCH VỤ SỐ:.................23
1.5 – ỨNG DỤNG TRONG TÀI CHÍNH – NGÂN HÀNG:.........................................25
1.5.1 – Ngân hàng:..........................................................................................................26
1.5.2 – Tài chính:.............................................................................................................27
1.6 – ỨNG DỤNG TRONG SẢN XUẤT:.....................................................................28
1.7 – ỨNG DỤNG TRONG GIAO THÔNG VẪN TẢI:...............................................29
CHƯƠNG 3: KẾT LUẬN...............................................................................................32

ix
DANH MỤC CÁC BẢNG BIỂU

x
DANH MỤC CÁC BẢNG HÌNH
Hình 1. 1: Khoa học dữ liệu là gì?.....................................................................................2
Hình 1. 2: Quy trình làm việc của nhà khoa học dữ liệu...................................................8
Hình 1. 3: Kỹ năng giao tiếp tốt......................................................................................15
Hình 1. 4: Thích tìm hiểu và thử cái mới........................................................................16
Hình 1. 5: Kiến thức toán học.........................................................................................17
Hình 1. 6: Khả năng lập trình phần mềm.........................................................................18

Hình 2. 1: Các ứng dụng hữu ích của Data Science hiện nay.
.................................................................................................................
19
Hình 2. 2: Ứng dụng của khoa học dữ liệu trong y tế......................................................20
Hình 2. 3: Ứng dụng của khoa học dữ liệu trong tìm kiếm thông tin..............................22
Hình 2. 4: Ứng dụng của khoa học dữ liệu trong quảng cáo...........................................23
Hình 2. 5: Ứng dụng của khoa học dữ liệu trong thương mại điên tử.............................24
Hình 2. 6: Ứng dụng của khoa học dữ liệu trong tài chính - ngân hàng..........................26
Hình 2. 7: Ứng dụng của khoa học dữ liệu trong sản xuất..............................................29
Hình 2. 8: Ứng dụng của khoa học dữ liệu trong vận tải.................................................30

xi
DANH MỤC CÁC BẢNG CHỨ VIẾT TẮT

xii
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.1 – KHOA HỌC DỮ LIỆU LÀ GÌ?

Hầu hết các ngành khoa học từ xưa đến nay đều giải quyết vấn đề dựa trên lập luận và tri
thức:

 Ngành toán: dựa trên các mệnh đề, công thức, lập luận… để chứng minh bài toán.

 Ngành vật lý: dựa trên các quan sát, thực nghiệm, tính toán, … kiểm chứng các
giả thiết.

 Ngành hóa học.

 Ta gọi các ngành khoa học này là “knowledge-driven” (dẫn dắt bởi tri thức)

 Với quan điểm như vậy, tất cả những quan sát mà không được chứng minh chặt
chẽ thường được cho là “không khoa học”

 Chẳng hạn: chuồn chuồn bay thấp thì mưa

 Khoa học dữ liệu ≠ Khoa học thông thường ở quan điểm: tìm tri thức từ dữ liệu
(dẫn dắt bởi dữ liệu – “data-driven”)

- Chúng ta rút ra tri thức bằng việc tìm tòi từ dữ liệu chứ không nhất thiết phải chứng
minh nó

- Tất nhiên tri thức tìm ra phải có tính ổn định (luôn có cùng kết quả nếu sử dụng cùng
một phương pháp)

Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên
sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một phương thức tiếp cận đa ngành,
kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống
kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu. Nội dung
phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự

1
kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu
được cho mục đích gì.

Hình 1. 1: Khoa học dữ liệu là gì?


Theo cách hiểu đơn giản nhất, Khoa học dữ liệu là ngành khoa học về việc quản trị và
phân tích dữ liệu, trích xuất các giá trị từ dữ liệu nhằm mục đích tìm ra các hiểu biết, các
tri thức hành động, các quyết định dẫn dắt hành động.

Ngành khoa học dữ liệu gồm 3 phần chính:

 Tạo và quản trị dữ liệu.

 Phân tích dữ liệu.

 Chuyển kết quả phân tích thành giá trị của hành động.

Trong đó, việc phân tích và dùng dữ liệu được dựa vào ba nguồn tri thức bao gồm : toán
học (thống kê toán học), công nghệ thông tin (máy học) và tri thức từ lĩnh vực ứng dụng
cụ thể.

2
1.2 – VAI TRÒ CỦA NHÀ KHOA HỌC DỮ LIỆU:

Một nhà khoa học dữ liệu phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc. Dữ liệu phi
cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại
dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu.

Theo đó các nhà Khoa học dữ liệu sẽ nghiên cứu các dữ liệu đã được tổ chức và phân
tích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê
khác nhau. Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra
các thông tin giả thuyết từ dữ liệu đó.

Sau đó các nhà khoa học dữ liệu sẽ sử dụng thuật toán máy học (Machine learning) để
dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó. Những nhà khoa
học dữ liệu sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa
trong dữ liệu. Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra quyết
định khác nhau và tạo ra các chiến lược. Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ các
công ty đưa ra quyết định kinh doanh thông minh hơn.

Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử dụng
Khoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng. Tương tự,
các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích và dự báo để
dự đoán giá cổ phiếu.

Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyết
định tự trị dựa trên các dữ liệu lịch sử. Thông qua sự đồng hóa với các công nghệ mới
nổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement Learning (một lĩnh
vực thuộc Machine Learning).

1.3 – TẠI SAO KHOA HỌC DỮ LIỆU LẠI QUAN TRỌNG?

Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp và
công nghệ để rút ra ý nghĩa từ dữ liệu. Các tổ chức hiện đại chìm ngập trong dữ liệu và
hiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu. Các hệ thống và cổng
3
thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương
mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người. Chúng
ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh.

Đáng tiếc thay, dữ liệu thô chẳng có giá trị trừ khi chúng có thể được sử dụng để giải
quyết vấn đề. Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thô thành những đề
xuất có ý nghĩa. Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp còn
không biết là chúng tồn tại. Các tổ chức có thể sử dụng những đề xuất này để khiến
khách hàng hài lòng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới.

1.4 – LỊCH SỬ VÀ TƯƠNG LAI CỦA KHOA HỌC DỮ LIỆU?

1.4.1 – Lịch sử:

Tuy rằng thuật ngữ khoa học dữ liệu không có gì mới, ý nghĩa và hàm ý của thuật ngữ
này đã thay đổi theo thời gian. Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60,
trong vai trò là tên gọi khác của thống kê. Đến cuối thập niên 90, các chuyên gia khoa
học máy tính đã chính thức hóa thuật ngữ này. Một định nghĩa được đề xuất cho khoa
học dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thu
thập và phân tích dữ liệu. Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mới
được sử dụng ngoài giới học thuật.

1.4.2 – Tương lai:

Những đột phá về trí tuệ nhân tạo và máy học đã giúp hoạt động xử lý dữ liệu nhanh và
hiệu quả hơn. Nhu cầu trong ngành đã tạo ra một hệ sinh thái các khóa học, bằng cấp và
vị trí việc làm trong lĩnh vực khoa học dữ liệu. Do đòi hỏi trình độ chuyên môn và bộ kỹ
năng đa ngành nghề, lĩnh vực khoa học dữ liệu cho thấy sự phát triển mạnh mẽ được dự
kiến trong những thập niên tới.

1.5 – KHOA HỌC DỮ LIỆU CÓ CÔNG DỤNG GÌ?

Khoa học dữ liệu được sử dụng để nghiên cứu giữ liệu theo 4 phương pháp chính:

4
1.5.1 – Phân tích mô tả:

Phân tích mô tả xem xét dữ liệu để thu thập thông tin chuyên sâu về những sự kiện đã
hoặc đang xảy ra trong môi trường dữ liệu. Đặc trưng của phương pháp này là sự trực
quan hóa dữ liệu, chẳng hạn như bằng biểu đồ tròn, biểu đồ cột, biểu đồ đường, bảng
hoặc văn bản thuyết minh. Ví dụ: một dịch vụ đặt vé máy bay có thể ghi lại dữ liệu như
số lượng vé được đặt mỗi ngày. Phân tích mô tả sẽ chỉ ra mức tăng giảm đột biến trong
số lượng vé được đặt và các tháng hoạt động hiệu quả cao của dịch vụ này.

1.5.2 – Phân tích chuẩn đoán:

Phân tích chẩn đoán là một phương pháp phân tích chuyên sâu hoặc chi tiết dữ liệu để
nắm được nguyên nhân khiến một sự kiện xảy ra. Đặc trưng của phương pháp này là các
kỹ thuật như truy sâu, khám phá dữ liệu, khai thác dữ liệu và đối chiếu. Nhiều thao tác
vận hành và chuyển đổi dữ liệu có thể được thực hiện trên một tập dữ liệu nhất định để
phát hiện ra những mẫu độc đáo trong từng kỹ thuật này. Ví dụ: dịch vụ đặt vé máy bay
có thể sẽ truy sâu vào một tháng hoạt động đặc biệt hiệu quả để hiểu rõ hơn về mức tăng
đột biến trong số lượng vé được đặt. Điều này có thể dẫn tới việc phát hiện ra rằng nhiều
khách hàng ghé thăm một thành phố nhất định để tham dự một sự kiện thể thao hàng
tháng.

1.5.3 – Phân tích dự đoán:

Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về mẫu dữ liệu
có thể xảy ra trong tương lai. Đặc trưng của phương pháp này là các kỹ thuật như máy
học, dự báo, so khớp mẫu và lập mô hình dự đoán. Trong mỗi kỹ thuật, máy tính được
đào tạo để thiết kế ngược các mối quan hệ nguyên nhân-kết quả trong dữ liệu. Ví dụ: đội
ngũ dịch vụ đặt vé máy bay có thể sử dụng khoa học dữ liệu để dự đoán mẫu đặt vé
trong năm tới vào thời điểm đầu mỗi năm. Chương trình hoặc thuật toán máy tính có thể
xem xét dữ liệu trong quá khứ và dự đoán mức tăng đột biến trong số lượng vé được đặt
cho các điểm đến nhất định trong tháng 5. Khi đã dự đoán được nhu cầu du lịch trong
tương lai của khách hàng, công ty sẽ có thể bắt đầu quảng cáo nhắm mục tiêu cho các
thành phố đó từ tháng 2.
5
1.5.4 – Phân tích đề xuất:

Phân tích đề xuất đưa dữ liệu dự đoán lên một tầm cao mới. Phương pháp này không chỉ
dự đoán sự kiện gì sẽ xảy ra mà còn đề xuất một phản ứng tối ưu cho kết quả đó. Nó có
thể phân tích tác động tiềm ẩn của các lựa chọn khác nhau và đề xuất hướng hành động
tốt nhất. Nó sử dụng phân tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron và
công cụ đề xuất từ máy học.

Quay lại ví dụ về dịch vụ đặt vé máy bay, phân tích đề xuất có thể xem xét các chiến
dịch tiếp thị trước đây để tăng tối đa lợi thế của mức tăng đột biến sắp tới trong số lượng
vé được đặt. Nhà khoa học dữ liệu có thể dự đoán kết quả đặt vé cho các mức chi tiêu
tiếp thị khác nhau trên những kênh tiếp thị đa dạng. Những dự báo này sẽ giúp công ty
đặt vé máy bay tự tin hơn khi đưa ra các quyết định tiếp thị.

1.6 – KHOA HỌC DỮ LIỆU MANG TỚI CHO DOANH NGHIỆP NHỮNG LỢI
ÍCH GÌ?

Khoa học dữ liệu đang cách mạng hóa phương thức hoạt động của các công ty. Nhiều
doanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu quả để thúc
đẩy tăng trưởng và duy trì lợi thế cạnh tranh. Một số lợi ích chính bao gồm:

1.6.1 – Khám phá các mẫu biến đổi tiềm ẩn:

Khoa học dữ liệu cho phép các doanh nghiệp phát hiện ra những mẫu và mối quan hệ
mới có tiềm năng biến đổi toàn bộ tổ chức. Nó có thể hé lộ những thay đổi với chi phí
thấp trong việc quản lý nguồn lực để tạo ra tác động tối đa đến tỷ suất lợi nhuận. Ví dụ:
một công ty thương mại điện tử sử dụng khoa học dữ liệu để phát hiện ra rằng có rất
nhiều truy vấn của khách hàng được tạo sau giờ làm việc. Các cuộc điều tra cho thấy
rằng khách hàng có nhiều khả năng mua hàng hơn nếu họ được phản hồi nhanh chóng
thay vì nhận được câu trả lời trong ngày làm việc tiếp theo. Bằng cách triển khai dịch vụ
khách hàng 24/7, doanh thu của doanh nghiệp đã tăng thêm 30%.

6
1.6.2 – Sáng tạo các sản phẩm và giải pháp mới:

Khoa học dữ liệu có thể hé lộ những lỗ hổng và vấn đề thường bị bỏ sót. Thông tin
chuyên sâu hơn về quyết định mua hàng, phản hồi của khách hàng và quy trình kinh
doanh có thể thúc đẩy sự đổi mới sáng tạo trong hoạt động nội bộ cũng như các giải pháp
bên ngoài. Ví dụ: giải pháp thanh toán trực tuyến sử dụng khoa học dữ liệu để đối chiếu
và phân tích đánh giá của khách hàng về công ty trên mạng xã hội. Phân tích cho thấy
rằng khách hàng quên mật khẩu trong giai đoạn mua sắm cao điểm và không hài lòng
với hệ thống khôi phục mật khẩu hiện tại. Công ty có thể sáng tạo ra một giải pháp tốt
hơn và nhận thấy mức độ hài lòng của khách hàng tăng lên đáng kể.

1.6.3 – Tối ưu hóa trong thời gian thực:

Các doanh nghiệp, đặc biệt là những doanh nghiệp quy mô lớn, gặp rất nhiều thách thức
trong việc phản ứng với những điều kiện thay đổi trong thời gian thực. Điều này có thể
gây ra những tổn thất hoặc gián đoạn đáng kể trong hoạt động kinh doanh. Khoa học dữ
liệu có thể hỗ trợ các công ty dự đoán thay đổi và phản ứng một cách tối ưu với những
tình huống khác nhau. Ví dụ: một công ty vận chuyển bằng xe tải sử dụng khoa học dữ
liệu để giảm thời gian ngừng hoạt động khi xe bị hỏng hóc. Họ xác định được các mẫu
tuyến đường và ca làm việc khiến xe hỏng nhanh hơn và thay đổi lịch trình vận chuyển.
Họ cũng thiết lập một kho phụ tùng thay thế phổ biến cần thay thường xuyên để sửa
chữa xe tải nhanh chóng hơn.

7
1.7 – QUY TRÌNH LÀM VIỆC CỦA KHOA HỌC DỮ LIỆU:

Hình 1. 2: Quy trình làm việc của nhà khoa học dữ liệu.
 Bước 1: Input
Workflow bắt đầu từ một yêu cầu hoặc nhiệm vụ: “Nhu cầu tìm kiếm hình ảnh của
Google: đưa cho máy 1 bức ảnh, trả về những bức ảnh tương tự”

+ Nhu cầu này có thể bắt nguồn từ:

+ Do bộ phận business thu thập phản hồi từ người dùng và đề nghị có thêm tính năng
ABC

+ Hoặc, do chính nhà khoa học dữ liệu khi làm việc với dữ liệu, nghiên cứu đặc tính của
sản phẩm/ công ty cũng như kiểu/ lượng data hiện có… thì nảy sinh thêm sáng kiến phát
minh tính năng XYZ.

 Bước 2: Lên kế hoạch

Làm tính năng này có khả thi hay không?

+ Sẽ cần loại dữ liệu gì? Ở đâu? Bao nhiêu là đủ? Lấy dữ liệu như thế nào?

+ Cần bao nhiêu resource (nhân lực, thời gian).

8
+ Tính năng này sẽ được gắn vào đâu trong sản phẩm cuối cùng và sẽ giúp ích được gì
cho người dùng.

 Bước 3: Thu thập và làm sạch dữ liệu

+ Để dạy cho máy biết phân biệt chó/mèo, nó càng phải học nhiều hình ảnh càng tốt.
Nên phải đi “gom dữ liệu”.

+ Dữ liệu gom xong sẽ còn lộn xộn và nhiều rác thì phải “làm sạch dữ liệu”.

+ Hình ảnh không cần thì loại bỏ; Hình mờ thì làm cho rõ …

+ Đồng bộ hóa dữ liệu.

+ Hình ảnh mang về có kích thước khác nhau, phải đưa hết về cùng kích thước, định
dạng theo mô hình dữ liệu đã chọn.

+ Nếu dữ liệu chưa đủ phải thu thập thêm.

 Bước 4: Chọn giải pháp

+ Nếu vấn đề đã có sẵn giải pháp

+ Lựa chọn / kết hợp các giải pháp lại, chạy thử nghiệm, kiểm tra thử nghiệm nào tốt
nhất và vì sao, chọn giải pháp để phát triển thêm.

+ Nếu vấn đề chưa có sẵn giải pháp

+ Cần làm nghiên cứu: tìm hiểu xem trước mình đã có ai từng làm về vấn đề này hay
chưa.

+ Sau đó, chọn ra một hoặc một loạt các phương pháp để thử nghiệm.

 Bước 5: Máy học

+ Chạy thử mô hình và đánh giá hiệu năng

+ Tưởng tượng bạn điều khiển bảng điều khiển với nhiều nút.

+ Thử chỉnh nút này 1 chút, thấy kết quả ra tốt hơn chút xíu thì giữ lại và chỉnh thử nút
khác.

9
+ Nhận diện các yếu tố ảnh hưởng đến kết quả. Điều chỉnh dấu hiệu ưu tiên để ra được
kết quả tốt nhất.

 Bước 6: Output

+ Kết quả gắn vào một sản phẩm lớn có tính ứng dụng

+ Viết bài báo

+ Tổ chức hội thảo.

Quy trình khoa học dữ liệu thường được bắt đầu bởi một vấn đề kinh doanh. Nhà khoa
học dữ liệu sẽ làm việc với các bên liên quan để tìm hiểu nhu cầu của doanh nghiệp. Một
khi vấn đề đã được xác định, nhà khoa học dữ liệu sẽ giải quyết nó bằng cách sử dụng
quy trình khoa học dữ liệu OSEMN:

1.7.1: O – Thu thập dữ liệu (Obtain data):

Dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tải
xuống từ Internet. Các nhà khoa học dữ liệu có thể trích xuất dữ liệu từ những cơ sở dữ
liệu nội bộ hoặc bên ngoài, phần mềm CRM của công ty, nhật ký máy chủ web, mạng xã
hội hoặc mua dữ liệu từ các nguồn bên thứ ba đáng tin cậy.

1.7.2: S – Làm sạch dữ liệu (Scrub data):

Làm sạch dữ liệu là quy trình chuẩn hóa dữ liệu dựa theo một định dạng được định
trước. Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữ
liệu ngoại lai. Một số ví dụ về làm sạch dữ liệu:·

Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn phổ biến.

Sửa lỗi chính tả hoặc thừa khoảng trống.

Sửa lỗi tính toán không chính xác hoặc xóa dấu phẩy khỏi các số lớn.

1.7.3: E – Khám phá dữ liệu (Explore data):

Khám phá dữ liệu là thao tác phân tích sơ bộ dữ liệu được sử dụng để lập kế hoạch kỹ
hơn cho các chiến lược mô hình hóa dữ liệu. Các nhà khoa học dữ liệu nắm được hiểu

10
biết ban đầu về dữ liệu bằng cách sử dụng thống kê mô tả và các công cụ trực quan hóa
dữ liệu. Sau đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứu
hoặc tận dụng.

1.7.4: M – Mô hình hóa dữ liệu (Model data):

Phần mềm và các thuật toán máy học được sử dụng để thu thập thông tin chuyên sâu
hơn, dự đoán kết quả và đề xuất hướng hành động tốt nhất. Các kỹ thuật máy học như
liên kết, phân loại và phân nhóm được áp dụng cho tập dữ liệu đào tạo. Mô hình có thể
được thử nghiệm so với dữ liệu thử nghiệm định trước để đánh giá độ chính xác của kết
quả. Mô hình dữ liệu có thể được tinh chỉnh nhiều lần để cải thiện kết quả thu được.

1.7.5: N – Diễn giải kết quả (Interpret results):

Các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để
chuyển đổi thông tin chi tiết về dữ liệu thành hành động. Họ tạo ra các sơ đồ, đồ thị và
biểu đồ để thể hiện những xu hướng và dự đoán. Tóm tắt dữ liệu giúp các bên liên quan
hiểu rõ và triển khai kết quả một cách hữu hiệu.

1.8 – CÁC KỸ THUẬT KHOA HỌC DỮ LIỆU LÀ GÌ?

Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa
học dữ liệu. Những kỹ thuật hàng đầu được sử dụng bởi các nhà khoa học dữ liệu là:

1.8.1 – Phân loại:

Phân loại là kỹ thuật sắp xếp dữ liệu thành các nhóm hoặc danh mục cụ thể. Máy tính
được đào tạo để xác định và sắp xếp dữ liệu. Các tập dữ liệu đã xác định được sử dụng
để xây dựng những thuật toán ra quyết định trong một máy tính có khả năng xử lý và
phân loại dữ liệu một cách nhanh chóng. Ví dụ:

 Phân loại sản phẩm theo phổ biến hoặc không phổ biến.

 Phân loại đơn bảo hiểm theo rủi ro cao hoặc rủi ro thấp.

 Phân loại bình luận trên mạng xã hội thành tích cực, tiêu cực hoặc trung lập.

11
Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa
học dữ liệu.

1.8.2 – Hồi quy:

Hồi quy là phương pháp tìm ra mối quan hệ giữa 2 điểm dữ liệu dường như không liên
quan. Mối liên kết này thường được lập mô hình xoay quanh một công thức toán học và
được biểu thị dưới dạng đồ thị hoặc đường cong. Khi giá trị của một điểm dữ liệu đã
được xác định, hồi quy sẽ được sử dụng để dự đoán điểm dữ liệu còn lại. Ví dụ:

 Tốc độ lây nhiễm của các căn bệnh lây qua đường không khí.

 Mối quan hệ giữa mức độ hài lòng của khách hàng và số lượng nhân viên.

 Mối quan hệ giữa số trạm cứu hỏa và số người bị thương do hỏa hoạn tại một địa
điểm cụ thể.

1.8.3 – Phân nhóm:

Phân nhóm là phương pháp gộp các dữ liệu có liên quan chặt chẽ lại với nhau để tìm
kiếm các mẫu và điểm dị thường. Phân nhóm khác với phân loại vì dữ liệu không thể
được sắp xếp chính xác vào các hạng mục cố định. Do đó, dữ liệu được nhóm thành các
mối quan hệ có khả năng xảy ra nhất. Thông qua phân nhóm, các mẫu và mối quan hệ
mới có thể được phát hiện. Ví dụ:

 Nhóm những khách hàng có hành vi mua hàng giống nhau để cải thiện dịch vụ
khách hang.

 Nhóm lưu lượng mạng để xác định mẫu sử dụng hàng ngày và nhanh chóng phát
hiện một cuộc tấn công mạng.

 Nhóm các bài viết thành nhiều hạng mục tin tức khác nhau và sử dụng thông tin
này để tìm kiếm tin giả.

12
1.8.4 – Nguyên tắc cơ bản đằng sau các kỹ thuật khoa học dữ liệu:

Mặc dù khác nhau về chi tiết, nhưng những kỹ thuật này có các nguyên tắc cơ bản như
sau:

 Đào tạo một cỗ máy cách phân loại dữ liệu dựa trên một tập dữ liệu đã xác định.
Ví dụ: những từ khóa mẫu được nhập vào máy tính kèm theo giá trị phân loại của
chúng. “Hạnh phúc” là tích cực, còn “Ghét” là tiêu cực.

 Cung cấp dữ liệu chưa xác định cho máy và cho phép thiết bị phân loại tập dữ liệu
một cách độc lập.

 Cho phép sai lệch về kết quả và xử lý hệ số xác suất của kết quả.

1.9 – SẢN PHẨM DATA (DỮ LIỆU):

 Sản phẩm data được xây dựng dựa trên dữ liệu:

- Tính năng recommendation của Amazon được xây dựng dựa trên dữ liệu của nó: người
dùng muốn mua món đồ gì? Những món đồ nào nên mua kèm?

 Sản phẩm data có thể là một sản phẩm riêng biệt hoặc một phần trong sản phẩm
lớn:

- Facebook có thể tự tag ảnh bạn bè của bạn.

 Sản phẩm data bao gồm nhiều thành phần nhưng mô hình dữ liệu là cốt lõi của nó
và được xây dựng bằng các thuật toán học máy.

1.9.1 – Mô hình Data:

Ví dụ: bạn muốn dùng một chiếc hộp đen để nhận diện loài vật

 B1: Bạn phải tìm rất nhiều hình ảnh con chó và con mèo

 B2: Cho hộp đen đọc những hình ảnh này

 B3: Dạy cho hộp đen biết đặc điểm nào trên bức hình là của con chó, đặc điểm
nào là của con mèo

13
 B4: Bạn đưa ra 2 hình ảnh mới, hộp đen sẽ trả lời đâu là hình ảnh con chó, hình
ảnh con mèo

Toàn bộ quá trình này gọi là học máy (machine learning) và cái hộp đen chính là mô
hình dữ liệu

1.10 – NHỮNG TỐ CHẤT VÀ KỸ NĂNG CẦN CÓ CỦA NHÀ KHOA HỌC DỮ


LIỆU:

1.10.1 – Tố chất:

Mỗi ngành nghề, lĩnh vực trong đời sống xã hội đều đòi hỏi người học phải có những
điều kiện nhất định về tố chất và sở trường để gắn bó. Vì thế, trước khi quyết định chọn
học một ngành nào đó, bạn cần xác định rõ những điểm mạnh, điểm yếu của chính mình
có đáp ứng được những yêu cầu của ngành hay không. Và với ngành Khoa học dữ liệu
cũng không ngoại lệ. Vậy tố chất để theo học ngành Khoa học dữ liệu là gì? Các bạn hãy
cùng tìm hiểu qua bài viết sau đây.

a – Kiên nhẫn:

Tố chất này cực kì quan trọng vì DS phải dành phần lớn thời gian để thu thập và làm
sạch dữ liệu.

Ví dụ, bạn muốn làm một mẫu dự đoán giá nhà.

Bạn sẽ phải thu thập dữ liệu về nhà từ nhiều nguồn khác nhau.

Mỗi nguồn này lại lưu dữ liệu theo một cấu trúc riêng. Vậy bạn hãy quy chúng về một
cấu trúc chung.

Sau đó, bạn làm sạch bằng cách loại bỏ các dữ liệu không phù hợp như:

 Dữ liệu thiếu: có số lượng phòng mà không có diện tích.

 Dữ liệu rác: diện tích 10m2 mà giá 200 tỷ.

b – Giao tiếp tốt:

14
- Với Team Business: để hiểu rõ hơn về sản phẩm cũng như equirements, từ đó tìm ra
các insights có giá trị

- Với Team Engineer: để áp dụng mô hình của mình vào hệ thống hoặc đề nghị họ tổ
chức/hệ thống data cho mình sử dụng

- Trình bày, giải thích insights cho các bên liên quan hiểu

Hình 1. 3: Kỹ năng giao tiếp tốt


c – Thích tìm hiểu và thử cái mới:

- Nghề khoa học dữ liệu còn mới mẻ và sử dụng nhiều kiến thức liên ngành.

- Mỗi ngành riêng lại có bước tiến và công nghệ mới: Bạn cần cập nhật kiến thức liên
tục.

15
Hình 1. 4: Thích tìm hiểu và thử cái mới.

1.9.2 – Kỹ năng cần có:

Nghề khoa học dữ liệu đòi hỏi khá nhiều kiến thức và kĩ năng tổng hợp:

 Machine Learning: để học từ dữ liệu, từ đó tạo ra các mô hình dự đoán

 Database: giúp lưu trữ, truy xuất dữ liệu cũng như thực hiện tính toán

 Programming language: viết code để áp dụng các mô hình đã học được nói trên
vào sản phẩm cụ thể hoặc để thao tác với database

 Visualization: giúp hiểu hơn về dữ liệu hoặc trình bày kết quả phân tích

a – Kiến thức toán học: Yếu tố quan trọng số 1

16
Hình 1. 5: Kiến thức toán học
Nghề data science sử dụng nhiều kiến thức liên ngành.

 Machine learning là sự kết hợp của các mô hình toán học chạy bên dưới.

 Khi xử lý / làm việc với dữ liệu, sẽ cần sử dụng rất nhiều kiến thức về toán, xác
suất thống kê, …

 Tư duy toán học sẽ giúp dễ tiếp thu và học các kĩ năng khác nhau.

Ví dụ, khi cho máy học một bức ảnh để phân biệt con chó với con mèo. Thì bức ảnh đó
sẽ được chia làm nhiều vùng tương ứng với 100 ô vuông chẳng hạn.

Rồi bạn dạy cho cái máy rằng, trong bức ảnh, ở ô cụm phía dưới bên góc trái có nhiều
màu đen, kết hợp với ô ở cụm bên phải có nhiều màu trắng thì đó là đặc điểm nhận biết
con chó.

b – Khả năng lập trình phần mềm:

17
Hình 1. 6: Khả năng lập trình phần mềm.
Công việc của nhà khoa học dữ liệu rất gần với kỹ sư phần mềm. Vì vậy, code cứng là
một yêu cầu quan trọng.

c – Sự nhạy bén:

Khi nhìn vào dữ liệu, bạn cần đủ nhạy để suy đoán: đối với loại dữ liệu này thì nên làm
gì với nó, nên estimate như thế nào?

Sự nhạy bén là tố chất song cũng tích lũy dần theo kinh nghiệm và thời gian.

18
CHƯƠNG 2: CÁC ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU

Data Science có tầm ảnh hưởng đến nền kinh tế, được ứng dụng đa dạng theo từng lĩnh
vực. Nhiều ứng dụng của Data Science trong thời đại số, từ đó nhận ra tầm quan trọng
của lĩnh vực này và cách mà nên công nghiệp vận hành hiện nay.

Hình 2. 1: Các ứng dụng hữu ích của Data Science hiện nay.

Có lẽ bạn đã biết rằng khoa học dữ liệu được sử dụng trong kinh doanh để phân tích, đưa
ra những dự đoán báo cáo tăng trưởng và hỗ trợ các quyết sách của doanh nghiệp.

Tuy nhiên, ứng dụng của khoa học dữ liệu trên thực tế không chỉ dừng lại ở đó. Còn rất
nhiều những lĩnh vực khác trong cuộc sống hàng ngày của chúng ta cần đến sự trợ giúp
của khoa học dữ liệu. Vậy đó là gì?

I.1 – ỨNG DỤNG TRONG Y TẾ:

I.1.1 – Xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo:

Đây là ứng dụng của khoa học dữ liệu trong lĩnh vực y tế mà bạn có thể cảm thấy quen
thuộc nhất.

19
Trong thời đại kỹ thuật số, nhiều trường hợp bệnh nhân không thực sự cần thiết phải đến
gặp bác sĩ trực tiếp. Một ứng dụng di động có thể đưa ra giải pháp hiệu quả hơn bằng
cách đưa bác sĩ đến với bệnh nhân.

Hình 2. 2: Ứng dụng của khoa học dữ liệu trong y tế.


Các ứng dụng này được hỗ trợ bởi AI có thể cung cấp hỗ trợ chăm sóc sức khỏe cơ bản,
thường là thông qua chatbot.

Từ khi có ứng dụng của Data Science, ngành y tế và chăm sóc sức khỏe cũng có những
bước nhảy vọt quan trọng. 5 nhóm lĩnh vực đã áp dụng thành công những ứng dụng của
Data Science có thể kể đến như Phân tích hình ảnh y khoa, gen và bộ gen, điều chế
thuốc, phân tích và chẩn đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý.

Từ các khâu như tiếp nhận thông tin bệnh nhân, đến chẩn đoán hình ảnh, khám chữa
bệnh ngày nay đều có sự góp mặt và góp công của Data Science. Xử lý và chẩn đoán qua
X-ray, MRI, CT-scans giờ đây dễ dàng và còn “thông minh” hơn. Còn ở lĩnh vực di
truyền học thì MapReduce cũng có thể xem là một nền tảng hỗ trợ đắc lực cho việc dự
báo các gen.

20
Bạn chỉ cần mô tả các triệu chứng của mình hoặc đặt câu hỏi, sau đó nhận về được
những thông tin về tình trạng bệnh của bạn và phương pháp chữa trị.

Các ứng dụng còn có thể nhắc bạn uống thuốc đúng giờ và đặt một cuộc hẹn với bác sĩ
tại bệnh viện gần nhất nếu cần.

Cách tiếp cận này giúp tiết kiệm thời gian xếp hàng chờ hẹn, giảm thiểu tình trạng quá
tải cho các bệnh viện và cho phép bác sĩ tập trung vào các trường hợp quan trọng hơn.

I.1.2 – Nghiên cứu về gen và di truyền:

Ứng dụng của khoa học dữ liệu còn cho phép cá nhân hóa điều trị ở cấp độ nâng cao
thông qua nghiên cứu về di truyền và gen.

Ngành khoa học dữ liệu cũng mang lại bước tiến đáng kể trong việc hiểu sâu hơn về
DNA của con người, bằng cách tích hợp các loại dữ liệu khác nhau với dữ liệu bộ gen
trong nghiên cứu bệnh tật.

Mục đích là để hiểu tác động của DNA đối với sức khỏe của chúng ta và tìm ra các mối
liên hệ sinh học giữa di truyền, bệnh tật và phản ứng với thuốc.

I.1.3 – Điều chế thuốc:

Không thể không nhắc đến là những ứng dụng của Data Science trong việc điều chế
thuốc dựa vào tư liệu người dùng v.v… Công tác chẩn đoán bệnh cũng trở nên khoa học
và chính xác hơn khi ứng dụng Data Science vào máy móc y khoa.

Thêm vào đó, các ứng dụng của khoa học dữ liệu và thuật toán máy học cũng có thể giúp
đơn giản hóa và rút ngắn quá trình phát triển các loại thuốc, từ việc sàng lọc ban đầu các
hợp chất thuốc đến dự đoán tỷ lệ thành công dựa trên các yếu tố sinh học.

Các thuật toán có thể dự báo cách các hợp chất sẽ hoạt động trong cơ thể, bằng cách sử
dụng mô hình toán học nâng cao và mô phỏng thay vì thí nghiệm trong phòng thí
nghiệm.

21
I.2 – ỨNG DỤNG TRONG TÌM KIẾM THÔNG TIN:

Khi nói về tìm kiếm, chúng ta sẽ nghĩ ngay đến Google. Bên cạnh đó, còn có nhiều công
cụ tìm kiếm khác như Yahoo, Bing, Ask, v.v.

Hình 2. 3: Ứng dụng của khoa học dữ liệu trong tìm kiếm thông tin.
Tất cả các công cụ tìm kiếm này đều sử dụng các thuật toán khoa học dữ liệu để mang lại
kết quả tốt nhất cho mỗi lần chúng ta tìm kiếm một từ khóa nào đó. Và thường quá trình
này chỉ diễn ra trong vòng một vài giây ngắn ngủi.

Nếu không có ứng dụng của khoa học dữ liệu, Google sẽ không là ‘Google’ mà chúng ta
biết ngày nay.

I.3 – ỨNG DỤNG TRONG LÍNH VỰC QUẢNG CÁO:

Đã bao giờ bạn gặp một quảng cáo nào đó trên mạng xã hội liên quan đến cụm từ khóa
mà bạn chỉ vừa mới tìm kiếm trên Google vài phút trước đó? Đó chính là một ứng dụng
tuyệt vời nữa của khoa học dữ liệu.

22
Hình 2. 4: Ứng dụng của khoa học dữ liệu trong quảng cáo.
Đây là lý do tại sao quảng cáo kỹ thuật số có thể nhận được tỉ lệ người xem cao hơn rất
nhiều so với quảng cáo truyền thống.

Dựa trên các thuật toán cao siêu, chúng có thể giúp các nhà quảng cáo, các công ty nhắm
mục tiêu dựa trên hành vi trước đây của người dùng, thay vì hướng quảng cáo của mình
tới số đông tất cả mọi người như trước đây.

I.4 – ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỬ VÀ DỊCH VỤ SỐ:

E-commerce hay thương mại điện tử và ngành công nghiệp bán lẻ cũng là 2 ngành được
“hưởng lợi” rất lớn từ Data Science.

Để nhận biết nền tảng khách hàng tiềm năng, Data Science được sử dụng và khai thác
trên các sản phẩm, dịch vụ của nhà cung cấp, ngoài ra còn phân tích và dự đoán xu thế

23
thị trường. Với Data Science, các doanh nghiệp tối ưu được cơ cấu về giá cho phân khúc
khách hàng của mình.

Data Science cũng có ý nghĩa đối với phân đoạn thị trường và chọn lọc đối tượng khách
hàng mục tiêu ở các doanh nghiệp. Sử dụng kỹ thuật Data Science trong các đề xuất
nâng cao của hệ thống, nền tảng E-commerce hoàn toàn có thể đưa ra những thông tin
giá trị và khả thi đối với doanh nghiệp để họ định hướng chiến lược mua và bán của
mình trên thị trường.

Cũng tương tự, các doanh nghiệp dùng phương pháp phân tích dựa trên dữ liệu có sẵn
các phản hồi của khách hàng để có được những thông tin mà họ muốn. Công việc đòi hỏi
sử dụng Natural Language Processing để phân tích các câu chữ của khách hàng (cách lọc
negative/ positive comment trên facebook) hay kết quả khảo sát.

Hình 2. 5: Ứng dụng của khoa học dữ liệu trong thương mại điên tử.
Điển hình như Fraud Detection, một trong những công cụ có vai trò chính trong Machine
Learning nhằm phát hiện những gian lận trong kinh doanh online, offline.

24
Khi mua sắm online trên Shopee, Lazada và các sàn thương mại điện tử khác, bạn sẽ
luôn bắt gặp đề xuất về các sản phẩm.

Chúng không chỉ giúp bạn tìm mặt hàng có liên quan tới nhu cầu từ hàng tỷ sản phẩm có
sẵn, mà còn cải thiện rất nhiều cho trải nghiệm người dùng.

Và đây lại là một ứng dụng của khoa học dữ liệu. Rất nhiều những gã khổng lồ công
nghệ trong lĩnh vực thương mại điện tử và dịch vụ số, như Amazon, Twitter, Google
Play, Netflix, Linkedin, v.v, đều đã sử dụng công cụ này để quảng bá sản phẩm theo sở
thích của người dùng và mức độ liên quan của thông tin.

Các đề xuất được đưa ra dựa trên các kết quả tìm kiếm trước đó của người dùng. Ví dụ
như khi bạn dùng Netflix hay Youtube, bạn có thể được gợi ý những bộ phim có chủ để
gần giống với những gì bạn đã từng xem.

Hay như khi bạn sử dụng Linkedin để mở rộng mạng lưới chuyên nghiệp, ứng dụng của
khoa học dữ liệu có thể đưa ra những gợi ý kết bạn dựa theo thông tin cá nhân như công
ty, nơi ở hoặc ngành nghề quan tâm.

I.5 – ỨNG DỤNG TRONG TÀI CHÍNH – NGÂN HÀNG:

Với khoa học dữ liệu, các ngân hàng có thể quản lý nguồn lực của mình một cách hiệu
quả. Thêm vào đó, họ có thể đưa ra các quyết định thông minh hơn thông qua phát hiện
gian lận, quản lý dữ liệu khách hàng, mô hình hóa rủi ro, phân tích dự đoán thời gian
thực, phân khúc khách hàng, v.v.

Ứng dụng của khoa học dữ liệu cũng giúp đánh giá giá trị lâu dài của khách hàng. Điều
này cho phép họ theo dõi số lượng khách hàng mà họ có và đưa ra một số dự đoán về
doanh thu thông qua lượng khách hàng này.

25
Hình 2. 6: Ứng dụng của khoa học dữ liệu trong tài chính - ngân hàng.

I.5.1 – Ngân hàng:

Ngân hàng là ngành ứng dụng của Data Science nhiều nhất. Big Data và Data Science
cho phép các ngân hàng trở nên cạnh tranh nhau hơn trên thị trường. Với Data Science,
các ngân hàng quản lý nguồn tài nguyên của họ dễ dàng hơn, nhận biết vấn đề trục trặc
sớm hơn và quản lý dữ liệu khách hàng hiệu quả hơn.

Bằng ứng dụng của Data Science, ngân hàng tìm ra giá trị vòng đời khách hàng, cho
phép họ định lượng khách hàng mà họ mong muốn. Ngoài ra, dữ liệu cũng góp phần
định hướng ngân hàng phát triển theo nhu cầu của thị trường.

Đối với vấn đề nhận biết rủi ro, Data Science cung cấp công cụ để nâng cấp thẻ tín dụng,
bảo hiểm và kế toán. Ngân hàng cũng dùng Data Science nhằm phân tích các gói cho
vay đầu tư và hệ sinh thái khách hàng để khai thác những lợi thế cho doanh nghiệp cũng
như khách hàng sử dụng dịch vụ.

26
Trong các phân tích đánh giá thực tế, ngân hàng sử dụng thuật toán Machine Learning để
cải thiện chiến lược của họ và đào sâu tìm hiểu nhiều vấn đề tác động đến chất lượng
công việc.

I.5.2 – Tài chính:

Data Science đóng vai trò quan trọng trong quy trình tự động hóa nghiệp vụ tài chính kế
toán. Chẳng hạn như ngành tài chính cũng sử dụng và vận hành hệ thống báo động nguy
cơ như các ngân hàng qua Data Science.

Ngành tài chính kế toán cần tự động hóa quy trình này để thực hiện các chiến dịch, công
việc của mình hiệu quả hơn. Sử dụng trí tuệ máy móc, các doanh nghiệp tài chính nhận
diện, điều phối và tiếp cận được những nguy cơ để giải quyết chúng.

Thuật toán trong Data Science có thể thúc đẩy năng suất làm việc, phát triển công việc
theo định hướng bền vững bằng cách chắt lọc những dữ liệu khách hàng sẵn có. Tương
tự, những nghiên cứu về tài chính cũng sử dụng Machine Learning để đưa ra dự báo trên
phân tích. Nó cho phép công ty có thể dự báo giá trị vòng đời khách hàng và thị phần họ
đang và có thể chiếm lĩnh.

Data Science cũng là chìa khóa để tạo ra giao dịch dựa trên thuật toán. Dựa vào quy trình
phân tích dữ liệu cố định, những doanh nghiệp tài chính dễ dàng tìm ra giải pháp cho dữ
liệu họ nắm giữ, mang đến trải nghiệm và xây dựng quan hệ khách hàng tốt hơn.

Đây là bước tiến vượt trội trong việc áp dụng phân tích dữ liệu người dùng qua quy trình
cá nhân hóa dữ liệu. Những kỹ thuật và thuật toán Machine Learning thúc đẩy tương tác
trên truyền thông đa phương tiện, tăng tốc độ tiếp nhận phản hồi, chăm sóc khách hàng
để phân tích hiệu quả.

Ngoài ra, ngôn ngữ hóa và data mining (khai phá dữ liệu) trong ứng dụng của Data
Science cũng giúp ích cho quá trình chuyển đổi từ thông tin sang dạng thức linh động,
tiến bộ hơn để tăng lợi nhuận.

Không chỉ vậy, khoa học dữ liệu còn đóng một vai trò quan trọng trong việc tự động hóa
các nhiệm vụ tài chính khác nhau.
27
Cũng giống như cách các ngân hàng phân tích rủi ro tự động, các ngành tài chính cũng
đã sử dụng khoa học dữ liệu cho nhiệm vụ này, bằng cách tự động hóa phân tích rủi ro
để thực hiện các quyết định chiến lược cho công ty.

Các tổ chức tài chính sử dụng máy học để phân tích dự đoán. Nó cho phép các công ty
dự đoán giá trị lâu dài của khách hàng và sự thay đổi của thị trường chứng khoán.

I.6 – ỨNG DỤNG TRONG SẢN XUẤT:

Trong thế kỷ 21, các nhà khoa học dữ liệu là những người tiên phong trong thời đại số.
Họ nắm giữ vai trò chủ chốt trong nền sản xuất vì bằng các ứng dụng của Data Science,
nền sản xuất có thể cải thiện được khả năng tạo ra sản phẩm, tối ưu hiệu suất, giảm chi
phí và tăng lợi nhuận.

Hơn nữa, với công cụ hỗ trợ như IoT (Internet of Things), Data Science cho phép những
doanh nghiệp dự đoán được vấn đề, điều phối hệ thống và phân tích dòng dữ liệu của họ.

Hơn hết, với nhà khoa học dữ liệu, nền sản xuất có thể tiết kiệm được chi phí nhiên liệu
cũng như thời gian sản xuất của mình.

Bằng những phân tích từ đánh giá người tiêu dùng, nhà khoa học dữ liệu có thể giúp
ngành sản xuất quyết định đúng đắn hơn khi bắt đầu bước cải thiện chất lượng sản phẩm.

Một ứng dụng của nhà khoa học dữ liệu khác cho ngành sản xuất là tự động hóa
(automation). Với sự hỗ trợ của hệ thống tự động hóa, dây chuyền sản xuất trong các nhà
máy trở nên hiệu quả và chuẩn xác hơn.

28
Hình 2. 7: Ứng dụng của khoa học dữ liệu trong sản xuất.
Khoa học dữ liệu đang được sử dụng rộng rãi để tối ưu hóa sản xuất, giảm chi phí và
tăng lợi nhuận. Hơn nữa, với khoa học dữ liệu, các ngành công nghiệp có thể theo dõi
chi phí năng lượng và cũng có thể tối ưu hóa giờ sản xuất của họ.

Với việc phân tích kỹ lưỡng các đánh giá của khách hàng, các nhà khoa học dữ liệu có
thể giúp các ngành sản xuất cải thiện chất lượng sản phẩm của họ. Một khía cạnh quan
trọng khác của khoa học dữ liệu trong các ngành công nghiệp là Tự động hóa.

I.7 – ỨNG DỤNG TRONG GIAO THÔNG VẪN TẢI:

Ứng dụng của khoa học dữ liệu được thể hiện trong ngành công nghiệp vận tải nhờ việc
có thể tạo ra các tuyến đường hậu cần tốt hơn.

Bằng cách sử dụng và phân tích nhiều biến số khác nhau như hồ sơ người tiêu dùng, vị
trí, các chỉ số kinh tế và hậu cần, các nhà cung cấp vận tải có thể tối ưu hóa các tuyến
đường giao hàng và phân bổ nguồn lực phù hợp.

29
Một lĩnh vực ứng dụng của Data Science quan trọng là ngành giao thông vận tải. Data
Science giúp môi trường giao thông an toàn hơn cho người điều khiển giao thông. Data
Science giúp các phương tiện giao thông được cải tiến, thêm yếu tố tự động hóa.

Hơn nữa, trong lĩnh vực giao thông vận tải, Data Science nhân rộng khái niệm “xe tự lái”
– cũng là một bước tiến lớn trong ngành ở thời đại số.

Bằng cách áp dụng các mẫu phân tích tiêu thụ nhiên liệu, hành vi người điều khiển và
vận hành máy của phương tiện, Data Science góp phần tạo nên nền tảng cho ngành giao
thông vận tải thời đại công nghiệp 4.0. Với những phương tiện có khả năng “tự lái”, các
nhà sản xuất xe nói chung đang chạm đến tầm cao mới với nhiều sản phẩm “thông minh”
hơn.

Hình 2. 8: Ứng dụng của khoa học dữ liệu trong vận tải.
Lộ trình khoa học cũng là sản phẩm ra đời từ Data Science. Thông qua nhiều biến số của
thông tin khách hàng, địa điểm, chỉ dẫn kinh tế, logistics, phương tiện như xe cộ có thể
nhận biết đoạn đường thuận lợi và chỉ hướng cho người điều khiển một cách tự động.

30
Ngoài ra, các công ty vận tải khác như Uber đang sử dụng ứng dụng của khoa học dữ
liệu để tối ưu hóa giá cả và cung cấp trải nghiệm tốt hơn cho khách hàng của họ. Bằng
cách sử dụng các công cụ dự đoán mạnh mẽ, họ dự đoán chính xác giá cho mỗi chuyến
đi dựa trên các thông số như khoảng cách, thời tiết, khả năng vận chuyển, khách hàng,
v.v.

31
CHƯƠNG 3: KẾT LUẬN
Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích dữ
liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho các bên liên quan, để
chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành sử dụng các phương pháp
và quy trình khoa học để rút ra insight từ dữ liệu.

Với sự xuất hiện của công nghệ mới các dữ liệu đã tăng lên theo cấp số nhân. Điều này
đã đem đến một cơ hội mới để phân tích cũng như chuyển hóa các Insight ý nghĩa từ
Data.

Theo đó, yêu cầu bức thiết đặt ra cần có một chuyên gia “khoa học dữ liệu”, người mà có
khả năng dùng các công cụ thống kê và Machine learning (một lĩnh vực nhỏ của Khoa
Học Máy Tính, công cụ có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần
phải được lập trình cụ thể).

Một nhà khoa học dữ liệu (Nhà khoa học dữ liệu) không chỉ dừng lại ở việc phân tích dữ
liệu, mà còn biết sử dụng thuật toán Machine Learning để dự đoán tương lai của một sự
kiện.

Do đó, có thể hiểu Data Science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và
trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy
tính khác nhau. Đây là một lĩnh vực đa ngành kết hợp Toán học, Thống kê và Khoa học
máy tính.

Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanh
nghiệp. Các nhà khoa học dữ liệu làm việc với các con số, phân tích một một khối lượng
lớn Data để xuất ra những Insight ý nghĩa. Những insight này rất hữu ích khi phân tích
công ty và các hoạt động của công ty trên thị trường từ đó đưa ra các quyết định đúng
đắn.

32
Cũng như các ngành công nghiệp thương mại khác, ngành chăm sóc sức khỏe cũng ứng
dụng Data Science. Nơi mà công nghệ đang có nhu cầu rất lớn để nhận dạng các khối u
siêu nhỏ ngay từ giai đoạn đầu.

Thống kê chỉ ra số lượng vai trò của các nhà khoa học dữ liệu đã tăng trưởng 650% kể từ
năm 2012. Khoảng 11,5 triệu việc làm liên quan đến chức danh này sẽ được tạo ra đến
năm 2026 (theo U.S. Bureau of Labor Statistics). Bên cạnh đó công việc của các nhà
khoa học dữ liệu được xếp hạng top các công việc nổi bật trên LinkedIn.

33
TÀI LIỆU THAM KHẢO
 Https://insight.isb.edu.vn/

 Slide môn học của thầy Phạm Đình Tài

34

You might also like