You are on page 1of 3

1. Khoa học dữ liệu (DS) là gì?

Khoa học dữ liệu (DS) là khoa học về việc quản trị và phân tích dữ liệu, trích xuất các
giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt
hành động.
Là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực
hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân
tích khối lượng lớn dữ liệu.
Khoa học dữ liệu gồm ba phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và
chuyển kết quả phân tích thành giá trị của hành động. 
https://aws.amazon.com/vi/what-is/data-science/ 
https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/ 
2. Các khối kiến thức cần thiết của người làm khoa học dữ liệu
1. Kỹ năng phân tích và thống kê – Đứng đầu nhóm kiến thức cơ bản cho Data
Scientist:
 Có 2 loại thống kê: Thống kê mô tả (Descriptive Statistics) và Thống kê suy luận
(Inferential Statistics).
 Thống kê mô tả sẽ tổng hợp và minh họa dữ liệu qua biểu đồ nhọn, biểu đồ
đường… Mặt khác, thống kê suy luận sẽ phải đưa ra kết quả và đánh giá. Dữ liệu
của một nhóm nhỏ, Data Scientist có thể phát triển thành xu hướng của nhóm
đông hơn để dự đoán thị trường.
 Một kỹ năng cần có nữa là tính xác suất. Xác suất được xem là cốt lõi của Data
Science. Một số kiến thức liên quan như xác suất có điều kiện, thuật toán phức
tạp như Naive Bayes rất cần thiết và cũng được xem là kiến thức cơ bản cho Data
Scientist.
2.  Toán học:
 Một Data Scientist chuyên nghiệp cần biết Đại số tuyến tính, tính toán, toán học
và lý thuyết tối ưu hóa.
 Đại số tuyến tính bao hàm rất nhiều khái niệm của toán học. Không những vậy,
nó còn có thể áp dụng trong chỉnh sửa ảnh, nhận diện gương mặt…Chính vì thế,
học đại số tuyến tính là điều thiết yếu nếu muốn bắt đầu với Data Science. 
 Tích phân thường xuyên được sử dụng trong Data Science. Đạo hàm, tích phân,
vi phân… là những kiến thức phổ thông mà bạn sẽ được phát triển hơn khi học
Data Science. 
 Ngoài ra còn có nhóm kiến thức về toán học rời rạc (discrete math) để hiểu thêm
về đồ thị, phương trình, tập hợp trong toán tin.
 Bên cạnh đó, thuật toán tối ưu hóa sẽ tối ưu hóa không gian, tìm ra giải pháp cho
các phép dựng hình ảnh từ dữ liệu. Thuật toán ứng dụng nhiều trong công việc
thiết kế mẫu mã sản phẩm.
3. Lập trình – kiến thức cơ bản cho Data Scientist mà nhiều người bỏ qua:
 Lập trình là kỹ năng khác biệt với 2 kỹ năng trên, tuy nhiên lại vô cùng quan
trọng vì nó quyết định tính ứng dụng của các dữ liệu mà Data Scientist đã xử lý.
Một số ngôn ngữ lập trình thông dụng cũng như công cụ liên quan mà bạn nên
biết khi muốn trở thành Data Scientist là:

 Python: dùng cho tất cả chức năng của lĩnh vực Data Science
 R: công cụ lập trình thống kê giải quyết các vấn đề khoa học dữ liệu cốt lõi.
 Tableau: là phần mềm trực quan cho phép bạn phát triển và chia sẻ trực quan hóa
tương tác. Sử dụng Tableau Public, bạn có thể chia sẻ hình ảnh của mình trên nền
tảng công cộng. Các loại hình ảnh trực quan khác nhau như là Biểu đồ thanh,
Biểu đồ đường, Biểu đồ hình tròn, sơ đồ bản đồ, sơ đồ phân tán, Biểu đồ Gantt,
Bản đồ nhiệt, v.v..
 Database Query: Có hai loại Ngôn ngữ truy vấn dữ liệu Data Scientist phải biết:
SQL và noQuery. Một số ngôn ngữ SQL là MySQL, PL / SQL, v.v. trong khi
ngôn ngữ NoQuery là MongoDB, Cassandra, Redis, v.v. Cần lưu ý rằng kỹ năng
của NoQuery là quan trọng nhất vì các công ty thường xử lý dữ liệu phi cấu trúc
dưới dạng đánh giá của khách hàng, email, v.v.
 Big Data: là kiến thức cần có của mỗi Data Scientist. Một số công cụ liên quan
Big Data là Apache Hadoop, Apache Spark, Apache Flink.
https://insight.isb.edu.vn/kien-thuc-co-ban-cho-data-scientist/ 
https://www.hotcourses.vn/study-abroad-info/study-guides/du-hoc-nganh-khoa-hoc-
du-lieu/ 
3. So sánh BI và DS?
Giống nhau: điểm giống nhau nhất giữa hai lĩnh vực này là mục đích của cả hai vị trí.
Cả hai lĩnh vực hay vị trí này đều cố gắng phát triển một use case và phân tích kết
quả. Tuy nhiên, các phương pháp để lấy kết quả có thể khác nhau.
Khác nhau:
Data Science được ví như một đại dương của hoạt động dữ liệu. Đây là một thuật ngữ
kết hợp nhiều lĩnh vực liên quan đến dữ liệu được xử lý dưới dạng số hay một dạng
khác. Data Science là tập hợp lớn, trong đó Business Analyst là một tập con của nó.
 

Tiêu BI DS
chuẩn

Nguồn dữ Dữ liệu có cấu trúc Dữ liệu phi cấu trúc


liệu VD:  các  dữ liệu  được  VD:  nhật  ký  web  hay  các phản hồi của khách
được  sắp  xếp gọn gàng, hàng - chúng không thống nhất.
thống nhất – dữ liệu kho
các loại báo cáo.

Phương Phân tích Khoa học


pháp - Chẳng hạn khi có một dữ Trong khi đó DS tập trung đi sâu vào lý do tại
cách thức liệu thì BI cố gắng tập trung sao nó lại xảy ra và ngoài việc chỉ cung  cấp 
trình bày sự thật báo  cáo  nó  còn phân tích thống kê sâu hơn

Kỹ năng Thống kê, hình ảnh hóa Thống kê, hình ảnh
hóa, học máy

Trọng tâm Dữ liệu ở quá khứ và hiện Dữ liệu ở hiện tại và


tại tương lai
 
Từ sự so sánh trên, có thể thấy Data Science là một cấp độ cao hơn của BI, trong đó
xử lý cả những dữ liệu structured & unstructured. Từ dữ liệu đã có, đưa ra những
phán đoán về hiện tại và tương lai, nhiều hơn là sự diễn giải điều gì đã xảy ra trong
BI.
 
https://career.magestore.com/post/hieu-dung-ve-data-science-de-nam-bat-co-hoi
https://bom.so/oCs3tT  + https://bom.so/BOaRSO

You might also like