You are on page 1of 29

I.

Introduction to data science


1. What and Why DS
2. Data Driven
a. Business
b. Marketing
c. CRM
3. Data science and Decision support
4. Business Intelligence
5. Data and business operations:
a. Opportunities
b. Challenges
6. Types of analytics
a. Descriptive
b. Diagnostic
c. Predictive
d. Prescriptive
II. Data visualization
1. What and Why Data visualization
2. Use appropriate Charts
3. Dashboard:
4. Data Storytelling:
III. Fundamental statistics for DA
1. Descriptive Statistics
a. Measure of central tendency
b. Measures of Variation
c. Distribution shape
2. Inferential Statistics
a. Hypothesis Testing
IV. Data preprocessing
1. Data Integration
2. Data Cleaning
a. Missing value treatment
b. Outlier detection
c. Duplicate data
3. Data Transformation:
V. Predictive Analysis
1. Time series Analysis
2. Linear Regression
3. Data Classification
a. Decision tree
b. KNN
c. Naive Bayes
4. Data Clustering
a. K-means
5. Association rule
I. Introduction to data science (DS):
1. What and Why DS:
- Data science là ngành khoa học dữ liệu, liên quan đến các công việc như tìm
tòi, khai thác, thu thập, phân tích và xử lý dữ liệu. Để từ đó tìm ra những
insights và thông tin có giá trị, sau đó chuyển hóa các insights này thành hành
động.
- Tại sao DS quan trọng:
+ DS giúp chúng ta hiểu thế giới xung quanh tốt hơn. DS có thể được sử
dụng để phân tích DL từ nhiều nguồn khác nhau như DL kinh doanh, y
tế và xã hội. Điều này cho phép chúng ta phát hiện ra các mẫu và xu
hướng mới mà chúng ta có thể không thể thấy bằng mắt thường
--> Vd: DS được sử dụng để phát triển các phương pháp chẩn đoán mới
cho các bệnh, cải thiện hiệu quả của các chiến dịch tiếp thị và dự đoán
thời tiết.
+ DS được sử dụng để dự đoán các kết quả có thể xảy ra đối với các quyết
định khác nhau. Điều này giúp chúng ta ra quyết định tốt hơn cho doanh
nghiệp, tổ chức hoặc cá nhân
--> Vd: Các ngân hàng dùng DS để quyết định ai đủ điều kiện vay. Các
nhà sản xuất quyết định sản phẩm nào sẽ tung ra thị trường.
+ DS được sử dụng để tự động hóa các quy trình và phát hiện ra các cơ hội
để cải thiện hiệu quả giúp tiết kiệm thời gian và tiền bạc
--> Vd: DS được dùng để tự động hóa việc xử lý đơn đặt hàng hoặc để
phát hiện ra các cách để cải thiện hiệu quả sản xuất.

2. Data Driven:
a. Business:
- Mục tiêu: Hỗ trợ ra quyết định và tối ưu hóa chiến lược kinh doanh dựa trên
DL.
- Công việc: Áp dụng dữ liệu để hiểu rõ về hoạt động tổng thể của doanh nghiệp,
từ đó đưa ra quyết định chiến lược, tối ưu hóa quy trình làm việc, dự đoán xu
hướng thị trường, và tối ưu hóa hiệu suất.
b. Marketing:
- Mục tiêu: Tăng cường hiệu suất của chiến lược marketing thông qua việc sử
dụng DL về khách hàng và thị trường.
- Công việc: Sử dụng DL để phân tích hành vi của KH, xác định KH tiềm năng,
đo lường hiệu quả chiến dịch tiếp thị, tối ưu hóa chiến lược quảng cáo, tìm
kênh quảng bá phù hợp, và cá nhân hóa trải nghiệm KH.
c. CRM:
- Mục tiêu: Nâng cao trải nghiệm khách hàng thông qua việc hiểu khách hàng,
giữ chân và tìm kiếm khách hàng mới (hiểu hành vi, mong muốn và đặc điểm
của khách hàng
- Công việc: Sử dụng dữ liệu để theo dõi và phân tích tất cả các tương tác với
khách hàng, dự đoán nhu cầu của khách hàng, từ đó nâng cao trải nghiệm KH
và giữ chân KH cũ cũng như thu hút KH mới
3. Data science and Decision support:
4 loại phân tích
- Phân tích mô tả là loại phân tích cho phép bạn lấy xu hướng từ dữ liệu thô và
mô tả ngắn gọn những gì đã xảy ra hoặc hiện đang xảy ra. Phân tích mô tả trả
lời câu hỏi “Điều gì đã xảy ra?”
- Phân tích chẩn đoán giải quyết câu hỏi hợp lý tiếp theo, “Tại sao điều này lại
xảy ra?”
- Phân tích dự đoán được sử dụng để đưa ra dự đoán về các xu hướng hoặc sự
kiện trong tương lai và trả lời câu hỏi “Điều gì có thể xảy ra trong tương lai?”
- Phân tích theo quy định dự đoán điều gì sẽ xảy ra trong tương lai và đề xuất
cách hành động tốt nhất để thực hiện.
Trực quan hóa dữ liệu
Để trình bày các phân tích về dữ liệu thì trực quan hóa dữ liệu là cách biểu diễn
dữ liệu bằng đồ họa giúp dễ hiểu các mẫu, xu hướng và các ngoại lệ trong dữ
liệu. Biểu đồ, đồ thị, bản đồ và các phương pháp trực quan hóa dữ liệu khác
cho phép dễ dàng truyền đạt kết quả của họ tới các bên liên quan trong kinh
doanh. Trực quan hóa dữ liệu có thể chắt lọc các khái niệm phức tạp thành một
định dạng tương tác, có thể chia sẻ.

4. Business Intelligence (BI):


- BI là tập hợp các quy trình công nghệ (thậm chí là con người), nền tảng để giúp
tích hợp DL từ nhiều nguồn và quản lý, khai thác nguồn DL đó
- Mục tiêu: Hiểu đc cái j đã/đang/sắp xảy ra trong DN, tại sao nó xảy ra → hiểu
được đầy đủ các mặt của DN
- Nhiệm vụ của BI:
thu thập → lưu trữ → phân tích → trực quan hoá → hỗ trợ ra qđ → dự báo
+ Thu thập dữ liệu: BI bắt đầu bằng việc thu thập DL từ nhiều nguồn khác
nhau, bao gồm cả CSDL nội bộ và nguồn DL bên ngoài.
+ Tổng hợp và lưu trữ: DL thu thập được được tổng hợp và lưu trữ trong
các hệ thống CSDL hoặc data warehouse, nhằm tạo điều kiện cho việc
truy vấn và phân tích hiệu quả hon.
+ Phân tích dữ liệu: Sử dụng các công cụ và phần mềm BI, DL được phân
tích để tìm ra xu hướng, mô hình, và thông tin hữu ích để hỗ trợ ra ra
quyết định.
+ Biểu diễn thông tin: Kết quả của phân tích DL được biểu diễn dưới dạng
đồ họa, báo cáo, biểu đồ và các hình thức trực quan khác, giúp người
dùng dễ dàng hiểu và hành động.
+ Hỗ trợ quyết định: BI cung cấp thông tin cần thiết để giúp các nhà quản
lý và người ra quyết định hiểu rõ hơn về tình hình kinh doanh và đưa ra
những quyết định có căn cứ.
+ Dự báo: Các công cụ BI cung cấp khả năng dự báo dựa trên DL lịch sử
và các mô hình dự báo chuyên sâu cho từng lĩnh vực.
- Lợi ích của BI: tối ưu hoá hiệu suất, tăng khả năng cạnh tranh và định hướng
tương lai dựa trên thông tin chính xác và cụ thể
+ Ra quyết định dựa trên dữ liệu: BI cung cấp DL chính xác và hiểu biết
sâu rộng về hiệu suất kinh doanh, giúp người quản lý và nhà đầu tư ra
quyết định dựa trên sự thông tin rõ ràng hơn.
+ Tối ưu hóa hiệu suất kinh doanh: Dựa vào phân tích DL, tổ chức có thể
xác định các điểm mạnh và yếu của hoạt động kinh doanh và thực hiện
các cải tiến để tối ưu hóa hiệu suất.
+ Phát hiện xu hướng và cơ hội: BI giúp xác định các xu hướng thị trường
và cơ hội mới, giúp doanh nghiệp thích nghi và định hướng chiến lược
tốt hơn.
+ Dự báo và kế hoạch: Các công cụ dự đoán và phân tích DL trong BI có
khả năng dự báo tương lai, giúp tổ chức lập kế hoạch một cách hiệu quả
hơn.
+ Tối ưu hóa quy trình kinh doanh: BI cho phép xem xét các quy trình
kinh doanh hiện tại và tìm ra cách tối ưu hóa chúng, từ đó cải thiện năng
suất và giảm lãng phí.
+ Tăng cường khả năng cạnh tranh: Doanh nghiệp có khả năng tạo ra sự
khác biệt cạnh tranh thông qua việc sử dụng thông tin chi tiết và chính
xác để phát triển sản phẩm, dịch vụ và chiến lược tốt hơn.
+ Trực quan hóa thông tin: Các công cụ trực quan hóa dữ liệu trong BI
cho phép người dùng hiểu và thể hiện thông tin một cách trực quan
thông qua các đối tượng trực quan (biểu đồ, bản đồ, sơ đồ...) và
dashboard.
+ Tích hợp dữ liệu từ nhiều nguồn: BI giúp tổ chức tổng hợp DL từ nhiều
nguồn khác nhau, giúp cải thiện sự nhất quán, tin cậy và tính toàn vẹn
của thông tin.
+ Theo dõi và đánh giá mục tiêu: B cho phép tổ chức theo dõi và đánh giá
việc đạt được mục tiêu kinh doanh, từ đó điều chỉnh chiến lược kịp thời.
+ Nắm bắt sự thay đổi thị trường: BI giúp tổ chức nắm bắt sự thay đổi
trong môi trường kinh doanh và thị trường, từ đó thích nghi và phản ứng
nhanh chóng
- Quy trình triển khai BI:
+ Xác định mục tiêu: Xác định rõ mục tiêu kinh doanh mà bạn muốn đạt
được thông qua triển khai BI (cải thiện quy trình, tối ưu hóa hiệu suất,
tăng khả năng dự đoán,...)
+ Thu thập yêu cầu: Tương tác với các bộ phận và người dùng cuối để
hiểu rõ nhu cầu của họ về thông tin và phân tích. Xác định những loại
dữ liệu, báo cáo và biểu đồ mà họ cần để hỗ trợ ra quyết định.
+ Thiết kế kiến trúc: Xác định kiến trúc hệ thống BỊ, bao gồm CSDL, hệ
thống ETL (Extract, Transform, Load), data warehouse, công cụ phân
tích dữ liệu, và giao diện người dùng.
+ Thu thập và chuẩn bị dữ liệu: Thu thập DL từ các nguồn khác nhau, làm
sạch, biến đổi và chuẩn hóa DL để đảm bảo tính nhất quán và chính xác.
+ Phát triển và triển khai hệ thống: Xây dựng các phần mềm, báo cáo, biểu
đồ và các công cụ phân tích dữ liệu cần thiết theo yêu cầu đã xác định.
Sau đó, triển khai hệ thống BI trong môi trường sản xuất.
+ Đào tạo người dùng: Đảm bảo rằng người dùng cuối đã được đào tạo về
cách sử dụng các công cụ và sử dụng hiệu quả DL và thông tin từ hệ
thống BI.
+ Kiểm tra và tối ưu hóa: Kiểm tra toàn diện để đảm bảo tính ổn định và
hiệu suất của hệ thống (kiểm tra tính chính xác của DL, đảm bảo tương
thích với các trường hợp thực tế và tối ưu hóa hiệu suất)
+ Theo dõi và duy trì: Theo dõi sự hoạt động của hệ thống BI, đảm bảo
rằng dữ liệu vẫn được cập nhật và đáp ứng nhu cầu kinh doanh thay đổi.
Thực hiện các cải tiến và nâng cấp khi cần thiết.
+ Đánh giá và cải thiện: Định kỳ đánh giá cách mà hệ thống BI đóng góp
vào mục tiêu kinh doanh. Dựa trên đánh giá này, cái thiện quy trình và
các yếu tố liên quan để đảm bảo sự hiệu quả và phù hợp.
5. Data and business operations:
a. Opportunities:
- Hỗ trợ ra quyết định và đưa ra các insights trong kinh doanh
Phân tích dữ liệu cung cấp cách tiếp cận dựa trên dữ liệu để ra quyết định, giúp
các công ty đưa ra quyết định sáng suốt dựa trên thực tế thay vì trực giác. Bằng
cách phân tích dữ liệu, các công ty có thể xác định các xu hướng và mô hình
mà họ có thể đã bỏ qua, từ đó đưa ra quyết định tốt hơn.
- Tăng hiệu quả
Bằng cách sử dụng phân tích dữ liệu để tối ưu hóa hoạt động kinh doanh, các
công ty có thể tăng hiệu quả và giảm chi phí. Ví dụ: Liên hệ ví dụ của dự báo
- Lợi thế cạnh tranh
Các công ty tận dụng phân tích dữ liệu để tối ưu hóa hoạt động của mình sẽ đạt
được lợi thế cạnh tranh so với đối thủ cạnh tranh. Bằng cách sử dụng dữ liệu để
xác định cơ hội và tối ưu hóa hoạt động, họ có thể vượt trội hơn đối thủ cạnh
tranh và giành được thị phần lớn hơn.
- Trải nghiệm khách hàng nâng cao
Bằng cách sử dụng phân tích dữ liệu để hiểu hành vi và sở thích của khách
hàng, các công ty có thể cung cấp trải nghiệm được cá nhân hóa đáp ứng nhu
cầu của khách hàng. Điều này, đến lượt nó, dẫn đến sự hài lòng và lòng trung
thành của khách hàng cao hơn.

b. Challenges:
- Chất lượng và độ phức tạp của dữ liệu
Một trong những thách thức chính trong hoạt động dữ liệu là đảm bảo chất
lượng và độ tin cậy của dữ liệu. Với khối lượng lớn dữ liệu được tạo ra từ
nhiều nguồn khác nhau, doanh nghiệp phải vật lộn với dữ liệu bị thiếu, sự
không nhất quán và sai lệch. Đặc biệt là các dữ liệu phi cấu trúc: Không thể
được hiển thị trong hàng, cột và cơ sở dữ liệu quan hệ; yêu cầu nhiều bộ
nhớ; không dễ dàng quản lý và bảo vệ, chiếm 80 % dữ liệu của doanh
nghiệp. Việc làm sạch và xử lý trước dữ liệu để có được những hiểu biết
chính xác và có ý nghĩa có thể tốn nhiều thời gian và phức tạp.
- Khả năng mở rộng và cơ sở hạ tầng
Khi các bộ dữ liệu tăng về kích thước và độ phức tạp, khả năng mở rộng
trở thành một thách thức đáng kể. Các nhà khoa học dữ liệu cần cơ sở hạ
tầng mạnh mẽ và tài nguyên tính toán mạnh mẽ để xử lý phân tích dữ liệu
lớn một cách hiệu quả. Việc triển khai các thuật toán có thể mở rộng và
thiết kế hệ thống có thể xử lý khối lượng dữ liệu lớn là rất quan trọng để rút
ra những hiểu biết có giá trị.
- Yêu cầu nhân viên có chuyên môn về dữ liệu
Phân tích dữ liệu là một kỹ năng quan trọng của một nhân viên. Hiện nay,
trên thế giới đã có được các tổ chức (ví dụ như Uber hay Amazon) yêu cầu
mọi nhân viên đều có khả năng tự phân tích dữ liệu. Việc chuẩn bị và rèn
luyện kỹ năng chuyên môn rất quan trọng đối với sinh viên và người đang
đi làm.
- Cân nhắc về đạo đức và quyền riêng tư
Dữ liệu là tài nguyên quý giá của doanh nghiệp. Sự phụ thuộc ngày càng
tăng vào dữ liệu làm tăng mối lo ngại về mặt đạo đức xung quanh quyền
riêng tư, bảo mật và việc sử dụng dữ liệu có trách nhiệm.
6. Types of analytics:
a. Descriptive:
- Phân tích mô tả là loại phân tích đơn giản nhất và là nền tảng cho các loại phân
tích khác được xây dựng trên đó. Nó cho phép bạn lấy xu hướng từ dữ liệu thô
và mô tả ngắn gọn những gì đã xảy ra hoặc hiện đang xảy ra.
- Phân tích mô tả trả lời câu hỏi “Điều gì đã xảy ra?”
- Ví dụ: hãy tưởng tượng bạn đang phân tích dữ liệu của công ty mình và nhận
thấy doanh số bán hàng của một trong các sản phẩm của bạn tăng đột biến theo
mùa: máy chơi trò chơi điện tử. Tại đây, phân tích mô tả có thể cho bạn biết:
"Bảng điều khiển trò chơi điện tử này có doanh số bán hàng tăng vào tháng 10,
tháng 11 và đầu tháng 12 hàng năm".
- Việc sử dụng các công cụ trực quan hiệu quả (vì biểu đồ, đồ thị và bản đồ có
thể hiển thị các xu hướng trong dữ liệu—cũng như các điểm tăng và giảm—
một cách rõ ràng, dễ hiểu.), dữ liệu toàn diện, chính xác và trực tiếp sẽ nâng
cao thông điệp của phân tích mô tả.
b. Diagnostic:
- Phân tích chẩn đoán giải quyết câu hỏi hợp lý tiếp theo, “Tại sao điều này lại
xảy ra?”
- Tiến thêm một bước phân tích nữa, loại này bao gồm so sánh các xu hướng
hoặc chuyển động cùng tồn tại, phát hiện mối tương quan giữa các biến và xác
định mối quan hệ nhân quả nếu có thể.
- Tiếp tục ví dụ đã nói ở trên, bạn có thể tìm hiểu dữ liệu nhân khẩu học của
người dùng bảng điều khiển trò chơi điện tử và thấy rằng họ ở độ tuổi từ 8 đến
18. Tuy nhiên, khách hàng có xu hướng ở độ tuổi từ 35 đến 55. dữ liệu tiết lộ
rằng động cơ chính khiến khách hàng mua máy chơi trò chơi điện tử là để tặng
nó cho con cái họ. Doanh số bán hàng tăng đột biến trong những tháng mùa thu
và đầu mùa đông có thể là do những ngày lễ có tặng quà.
- VD: Nếu phân tích mô tả của bạn cho thấy doanh số bán hàng đã giảm 20%
trong tháng 3, bạn sẽ muốn tìm hiểu lý do. Để tìm ra nguyên nhân gốc rễ, nhà
phân tích sẽ bắt đầu bằng cách xác định bất kỳ nguồn dữ liệu bổ sung nào có
thể cung cấp cái nhìn sâu sắc hơn về lý do tại sao doanh số bán hàng lại giảm.
Họ có thể đi sâu hơn để phát hiện ra rằng, mặc dù có lượng khách truy cập
trang web lớn và nhiều hành động “thêm vào giỏ hàng” nhưng rất ít khách
hàng thực sự tiến hành thanh toán và mua hàng. Khi kiểm tra kỹ hơn, người ta
thấy rằng phần lớn khách hàng đã bỏ cuộc khi điền địa chỉ giao hàng. Có vẻ
như có vấn đề với biểu mẫu địa chỉ hay có lẽ nó không tải đúng cách trên thiết
bị di động hoặc đơn giản là quá dài và gây khó chịu. Chỉ cần tìm hiểu kỹ một
chút, bạn sẽ tiến gần hơn đến việc tìm ra lời giải thích cho sự bất thường về dữ
liệu của mình.
- Phân tích chẩn đoán rất hữu ích để tìm ra gốc rễ của vấn đề của tổ chức.
c. Predictive:
- Phân tích dự đoán được sử dụng để đưa ra dự đoán về các xu hướng hoặc sự
kiện trong tương lai và trả lời câu hỏi “Điều gì có thể xảy ra trong tương lai?”
- Bằng cách phân tích dữ liệu lịch sử song song với xu hướng của ngành, bạn có
thể đưa ra những dự đoán sáng suốt về những gì có thể xảy ra trong tương lai
cho công ty của mình.
- Ví dụ: biết rằng doanh số bán bảng điều khiển trò chơi điện tử đã tăng vọt vào
tháng 10, tháng 11 và đầu tháng 12 hàng năm trong thập kỷ qua sẽ cung cấp
cho bạn dữ liệu phong phú để dự đoán rằng xu hướng tương tự sẽ xảy ra vào
năm tới. Được hỗ trợ bởi các xu hướng đi lên trong toàn bộ ngành công nghiệp
trò chơi điện tử, đây là một dự đoán hợp lý để đưa ra.
- Đưa ra dự đoán cho tương lai có thể giúp tổ chức của bạn xây dựng chiến lược
dựa trên các tình huống có thể xảy ra.
d. Prescriptive:
- Loại phân tích này không chỉ đơn giản là dự đoán điều gì sẽ xảy ra trong tương
lai. Nó cũng đề xuất cách hành động tốt nhất để thực hiện. Phân tích đề xuất sẽ
trả lời câu hỏi “Chúng ta nên làm gì tiếp theo?”. Phân tích theo quy định sử
dụng các kỹ thuật mô phỏng và tối ưu hóa để xác định kết quả tốt nhất có thể
và đề xuất cách tốt nhất để đạt được chúng. Loại phân tích này có thể được sử
dụng để tối ưu hóa quy trình kinh doanh, cải thiện dịch vụ khách hàng và đưa
ra quyết định đầu tư tốt hơn.
II. Data visualization:
1. What and Why Data visualization:
- What? → Trực quan hoá DL là biểu diễn DL dưới dạng bản đồ/biểu đồ/sơ đồ
và kết quả của nó là 1 cái dashboard giúp DL dễ hiểu hơn
- Why?
+ Giúp hiểu dữ liệu dễ dàng hơn, giúp chúng ta nhìn thấy các xu hướng và
mối tương quan trong dữ liệu mà chúng ta có thể bỏ lỡ nếu chỉ nhìn vào
các con số và chữ cái.
+ Giúp truyền đạt dữ liệu hiệu quả hơn, có thể truyền đạt dữ liệu cho một
đối tượng rộng lớn hơn, kể cả những người không có chuyên môn về dữ
liệu.
+ Giúp đưa ra quyết định sáng suốt hơn, nó giúp ta xác định các vấn đề, cơ
hội và phát triển các chiến lược.
2. Use appropriate Charts:
- Bar/column: Được sử dụng để so sánh giữa các danh mục khác nhau hoặc có
thể so sánh một danh mục theo thời gian.
- Stacked bar: Biểu đồ cột chồng được sử dụng để mô tả sự so sánh tổng giá trị
giữa một số danh mục.
- Scatter plot: Biểu đồ phân tán được sử dụng để giải thích mối quan hệ giữa hai
biến liên tục trong tập dữ liệu. Trục hoành biểu thị giá trị của biến độc lập. Trục
tung biểu thị giá trị của biến phụ thuộc.
- Line: Biểu đồ đường thường được sử dụng để hiển thị xu hướng và phân tích
dữ liệu đã thay đổi như thế nào theo thời gian. Độ dốc hướng lên cho biết nơi
giá trị đã tăng và độ dốc hướng xuống cho biết nơi giá trị đã giảm.
- Pie: Biểu đồ tròn thường được sử dụng để thể hiện dữ liệu thuộc sự kết hợp của
nhiều danh mục khác nhau. Mỗi loại này được thể hiện dưới dạng “miếng
bánh”. Kích thước của mỗi lát tỷ lệ thuận với số lượng điểm dữ liệu thuộc về
một danh mục cụ thể. Pie chart thường dùng để vẽ các biểu đồ cơ cấu (%)
- Map: sử dụng để phân tích và hiển thị dữ liệu liên quan đến địa lý và trình bày
nó dưới dạng bản đồ
- Treemap: đc dùng để mô tả sự tương tự , giống nhau của các đối tượng theo
tiêu chí nào đó.
- Pareto: Phân tích đóng góp các đối tượng vào trong tổng thể, xem thử tích lũy
các đối tượng đó vào tổng thể là bao nhiêu. vd: Nhóm hàng nào đóng góp bao
nhiêu phần trăm vào lợi nhuận công ty.
- Boxplot: mô tả cho biết độ phân tán, tập trung của dữ liệu. Là biểu đồ diễn tả 5
vị trí phân bố của dữ liệu: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung
vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
- Waterfall: Biểu đồ thác nước là một kỹ thuật trực quan hóa dữ liệu cho thấy giá
trị ban đầu có thể bị ảnh hưởng như thế nào bởi tác động tích lũy của các giá trị
dương và âm liên tiếp. Biểu đồ này có thể được sử dụng để hiển thị dữ liệu tuần
tự hoặc phân loại. Nó sử dụng một loạt các thanh hiển thị lãi và lỗ, cho thấy rõ
ràng con số mở đầu đã bị các sự kiện thay đổi như thế nào và dẫn đến con số
đóng cửa như thế nào.
- Candlestick: phân tích tài chính, chứng khoán để phân tích biến động giá của
cổ phiếu về tài chính trong 1 khoảng thời gian
3. Dashboard:
- Dashboard là một bảng điều khiển kỹ thuật số mà tại đó toàn bộ thông tin được
mã hóa và hiển thị dưới dạng biểu đồ, số liệu và hình ảnh. Dựa trên kết quả
hiển thị trên dashboard, doanh nghiệp có thể dễ dàng theo dõi, nắm bắt và quản
lý một cách tổng quan những dữ liệu quan trọng phục vụ cho các hoạt động
kinh doanh.
- Dashboard quan trọng vì:
+ DL được trình bày rõ ràng: ng dùng sẽ có đc cái nhìn tổng quan về hoạt
động của doanh nghiệp, biết đc cái j hiệu quả và ko hiệu quả
+ Giúp hiểu dữ liệu dễ dàng hơn, giúp chúng ta nhìn thấy các xu hướng và
mối tương quan trong dữ liệu mà chúng ta có thể bỏ lỡ nếu chỉ nhìn vào
các con số và chữ cái.
+ Giúp đưa ra quyết định sáng suốt hơn, nó giúp ta xác định các vấn đề, cơ
hội và phát triển các chiến lược.
- Types of dashboard:
+ KPI: là tập hợp các hình ảnh trực quan khác nhau được các giám đốc
điều hành sử dụng để dễ dàng theo dõi các số liệu quan trọng nhất trong
tổ chức. Trang tổng quan này thường cung cấp ít chi tiết hoặc ngữ cảnh
hơn các trang tổng quan khác. Loại bảng thông tin này không phù hợp
với các câu hỏi tại sao và như thế nào phức tạp hơn vì nó không tốt cho
phân tích khám phá.
VD: Tổng doanh thu, tổng lợi nhuận, tổng đơn hàng…
+ Q&A: là tập hợp các biểu đồ cung cấp câu trả lời cho các câu hỏi cụ thể
về nhiều chủ đề đôi khi khác nhau . Đây thường là những câu hỏi cấp
bách nhất trong một tổ chức hoặc một bộ phận của tổ chức. Những câu
hỏi này có thể liên quan đến một kế hoạch chiến lược tổng quát, một
sáng kiến khẩn cấp hoặc một vấn đề cụ thể trong doanh nghiệp. Loại
bảng thông tin này có thể được các giám đốc điều hành hoặc quản lý
cấp trung sử dụng để chủ động theo dõi nhiều vấn đề một cách thường
xuyên.
VD: Những sản phẩm bán chạy nhất là gì? Những sản phẩm nào có
profit ratio lớn nhất?
+ Top Down: Bảng thông tin từ trên xuống tập trung vào một chủ đề duy
nhất và hiển thị các KPI tổng hợp, cấp cao cũng như các chi tiết cụ thể
có thể cung cấp thêm ngữ cảnh hoặc thông tin chi tiết. Loại bảng thông
tin này phù hợp để tập trung vào một phân khúc cụ thể của tổ chức.
Người dùng có thể theo dõi nhanh một số liệu chính và/hoặc tìm hiểu
sâu lý do tại sao một mẫu có thể xảy ra. Điều này tốt cho các lãnh đạo tổ
chức như Phó chủ tịch hoặc Giám đốc và quản lý cấp trung, những
người chịu trách nhiệm giám sát hoặc quản lý một bộ phận riêng
biệt của tổ chức.
VD: Phân tích các loại sản phẩm theo ngày giao hàng và chi phí ship
+ Bottom Up: Trang tổng quan Từ dưới lên cung cấp chi tiết chi tiết về
một chủ đề, sau đó cho phép người dùng xem các chi tiết đó theo ngữ
cảnh hoặc tổng hợp trên toàn bộ tổ chức rộng hơn. Loại bảng thông tin
này phù hợp với quản lý cấp trung hoặc nhà phân tích muốn theo dõi
các mẫu ở mức rất chi tiết. Hiệu suất của các điểm dữ liệu cụ thể quan
trọng hơn hiệu suất tổng hợp của tất cả các điểm dữ liệu. Loại bảng
thông tin này phù hợp để xác định các vấn đề cụ thể cần hành động hoặc
can thiệp.
+ One Big Chart: Bảng điều khiển One Big Chart hiển thị một hình ảnh
trực quan duy nhất với khả năng lọc hoặc xem chi tiết. Đây thường là
bản đồ hoặc biểu đồ phân tán; trực quan hóa dữ liệu dày đặc đòi hỏi
nhiều không gian màn hình để hiển thị tất cả các chi tiết một cách rõ
ràng. Loại bảng thông tin này rất phù hợp để các nhà phân tích theo
dõi hoặc phân tích trực quan các vấn đề và mẫu cụ thể trên một số
lượng lớn các điểm dữ liệu. Nhà phân tích có lẽ sẽ có hiểu biết sâu sắc
về dữ liệu và bối cảnh của những gì đang được trình bày.
- Dashboard Components (các thành phần chính): Trang tổng quan có thể chứa
biểu đồ, lưới, IFRAME hoặc tài nguyên web.
- How to build an effective Dashboard:
Bước 1: Xác định đối tượng đọc báo cáo
Bước 2: Xác định những chỉ số chính
Bước 3: Xác định hoàn cảnh của người sử dụng báo cáo
Bước 4: Thiết kế cho việc ra quyết định nhanh
Bước 5: Kiểm tra, đánh giá và hiệu chỉnh
Quy tắc màu:
+ Theo khuyến nghị của các chuyên gia Trực quan hóa dữ liệu, chỉ nên sử
dụng từ 6-9 màu trong 1 Dashboard/Báo cáo, tối đa 12 màu, tùy thuộc
vào độ phức tạp của loại dữ liệu được biểu diễn. Thường mỗi danh mục
lớn sẽ đại diện cho 1 màu.
+ Sử dụng chủ đề màu sắc: sử dụng màu đậm nhất cho danh mục quan
trọng nhất, sau đó hạ dần màu tùy theo độ quan trọng của danh mục.
+ Sử dụng màu ưu tiên danh mục giá trị để trực quan hóa dữ liệu: sử dụng
màu đồng nhất cho các danh mục giá trị lớn và tông màu sáng hơn cho
các danh mục giá trị nhỏ.
+ Tương tác:

4. Data Storytelling:
- What?
→ Là hình thức kể chuyện thông qua số liệu giúp ghi nhớ và kết nối DL tốt
hơn, từ đó có thể hiểu được DL. Có thể tìm được các insight và cách mà các
DL tương tác với nhau, từ đó dẫn dắt các hành động và hỗ trợ việc ra quyết
định
- Why?
→ Giúp hiểu được insight của KH để có được những chiến lược phù hợp hơn
với KH, hiểu đc mong muốn của họ để từ đó mình có thể có dc KH mới cũng
như giữ chân KH cũ tốt hơn
- Các thành phần của Data Storytelling:
+ Data (phải hiểu dc DL của mình)
● Chất lượng DL
● Nguồn DL
● Cấu trúc DL
● Những công việc cần làm với DL
→ Ví dụ: DL có bao nhiêu cột, mỗi cột đấy nó là cái j, có cần xử lý gì
ko…
+ Audience (ngữ cảnh câu chuyện)
● Kể cho ai
● Kể cái gì
● Kể khi nào
→ Ví dụ: kể cho giám đốc bán hàng thì ổng cần thông tin về hiệu quả
bán hàng, doanh số, lợi nhuận, xu hướng,... Các ông khác như gđ
marketing thì cần ttin về KH, thị trường,..., nói chung ko ông nào giống
ông nào
+ Narrative (Cách tổ chức câu chuyện)
● Mục tiêu của câu chuyện
● Các nhân vật trong câu chuyện
● Sự tương tác giữa các nhân vật nó tạo ra điểm nhấn, làm nổi bật
câu chuyện để hướng người nghe vào các điểm nhấn đó để làm
câu chuyện hấp dẫn, thu hút hơn
+ Visuals (Trực quan hoá)
● Chart
● Dashboard
● Style
- 4R trong Data Storytelling
+ Đúng người: xác định đc phải cung cấp cho ai (cho ông sale hay ông
marketing)
+ Đúng dữ liệu: đúng thông tin, insight, knowledge mà ngta cần (ông giám
đốc mar cần ttin về KH, thị trường để làm chiến dịch mar/khuyến
mãi/quảng cáo. Trong khi đó ông giám đốc sale thì cần ttin về hiệu quả
bán hàng, doanh số, lợi nhuận, xu hướng, tăng giảm lợi nhuận)
+ Đúng định dạng: Cung cấp đúng định dạng họ cần (vd họ yêu cầu 1 cái
dashboard có thể tương tác giữa các chart mà mình đi cung cấp 1 đống
DL số thì họ khó đọc và khó xử lý)
+ Đúng thời điểm: Thông tin có giá trị hay ko là dựa vào thời điểm của
DL vì nếu cung cấp 1 thông tin quá cũ mà ngta đã biết r, nó xảy ra rồi
thì nó ko còn ý nghĩa nữa
- How? → Các bước Data Storytelling:
+ Bước 1: Hiểu ngữ cảnh: Hiểu được yêu cầu của doanh nghiệp, ví dụ như
mục đích của câu chuyện, kể cho ai và nhằm mục đích cung cấp những
thông tin gì
+ Bước 2: Trực quan hoá hiệu quả: Chọn đúng biểu đồ, màu sắc phù hợp
với các thiết kế để tạo ra được những báo cáo hiệu quả
+ Bước 3: Sắp xếp, liên kết sự kiện: Dữ liệu phải được sắp xếp lại theo
yêu cầu cấu trúc của câu chuyện, ví dụ như theo thời gian, khách hàng,
thị trường, vận chuyển,...
+ Bước 4: Tập trung vào điểm nhấn: Làm nổi bật những vấn đề cần quan
tâm. Ví dụ phân tích về doanh số bán thì cần làm nổi bật sự tăng giảm
qua các thời kì, so sánh giữa các khu vực địa lý khác nhau, nhóm khách
hàng khác nhau,...
+ Bước 5: Kết nối, tương tác và kể chuyện: Kết nối các sự kiện, nhân vật
trong luồng thông tin để tạo nên 1 câu chuyện có logic, có bắt đầu,
tương tác và kết thúc
III. Fundamental statistics for DA:
1. Descriptive Statistics:
- (Thống kê mô tả) Dùng để làm rõ các đặc điểm quan trọng của DL
a. Measure of central tendency (độ tập trung của DL):
- Mean: san bằng mọi khoảng cách, nó cộng lại r chia đều → nhạy cảm với các
outlier (bất thường). Và vì nó san bằng mọi khoảng cách nên sẽ ko thấy đc sự
biến động, đặc biệt là với những DL có mức độ biến động lớn. Ngoài ra, Không
sử dụng đại lượng trung bình cộng đối với dữ liệu định danh và hạn chế sử
dụng với dữ liệu định lượng theo thang đo khoảng.
→ Ví dụ “lương trb của cty X là 50tr nhưng thực tế chỉ có 2-3tr, còn lương mấy
ông cấp cao vài trăm triệu gánh cả cty” → khi phân tích phải loại bỏ mấy ông
này ra khỏi DL trước rồi làm gì làm
Giá trị trung bình được tính đơn giản bằng cách lấy tổng các giá trị dữ liệu
chia cho kích thước mẫu.
Công thức: Mean = (x1 + x2 + …xn) / n
- Median: trung vị - là giá trị ở giữa trong một phân bố dữ liệu, nhờ trung vị mà
dữ liệu được chia làm hai phần với số liệu bằng nhau ở mỗi bên.
Ví dụ đơn giản để tìm số trung vị:
Cho tập dữ liệu X={2,4,5,6,7,8,8,8,9,9}.
Tập dữ liệu này có 10 giá trị. Giá trị trung vị là trung bình cộng của quan sát
nằm ở vị trí thứ 5 (7) và 6 (8).
Số trung vị là (7+8)/2 = 7,5.
Lưu ý: Mặc dù giá trị trung vị không chịu ảnh hưởng của các giá trị ngoại lệ
và rất dễ tính toán. Tuy nhiên trung vị không thể dùng để dự đoán vì không
chính xác bằng trung bình, trung vị thường được dùng để thay thế hoặc bổ
sung nhằm điều chỉnh 1 số hạn chế khi sử dụng giá trị trung bình
- Mode: số có tần số xuất hiện nhiều nhất. Yếu vị chỉ ổn định khi lượng giá trị
nhiều và sẽ khó xác định rõ nếu dữ liệu chỉ có một số ít giá trị. VD: vẽ
Histogram (bin điểm thi) để xem môn X có mức điểm nào nhiều ng nhất
VD: Tiệm may muốn chuẩn bị số lượng quần áo cho size phổ biến nhất
- Midrange = (max+min)/2 : số trung tầm. Midrange có thể được sử dụng khi
bạn muốn có một cái nhìn nhanh chóng về phạm vi của dữ liệu và không muốn
quan tâm đến phân phối chi tiết hay sự ảnh hưởng của giá trị ngoại lệ.
b. Measures of Variation (độ phân tán của DL):
- Range = max - min : khoảng biến thiên -> đo mức độ trải dài của một tập dữ
liệu nhất định từ nhỏ nhất đến lớn nhất. Khoảng biến thiên là thang đo tương
đối tốt đối với các bộ dữ liệu nhỏ nhưng độ tin cậy sẽ ít đi khi áp dụng với các
bộ dữ liệu lớn do độ dàn trải của dữ liệu cũng sẽ lớn hơn hay áp dụng với các
bộ dữ liệu có giá trị ngoại lệ (Outliers)
- Quartiles : tứ phân vị (Q1, Q2, Q3); trong đó Q1 (Giá trị sao cho có 25% số
quan sát nhỏ hơn nó và 75% số quan sát lớn hơn nó) là 25% , Q2 (Giá trị sao
cho có 50% số quan sát nhỏ hơn nó và 50% số quan sát lớn hơn nó) là 50%
(trung vị), Q3 (Giá trị sao cho có 75% số quan sát nhỏ hơn nó và 25% số quan
sát lớn hơn nó) là 75%. 3 con số này chia dãy số đã đc sắp xếp tăng dần thành 4
phần có số lượng phần tử bằng nhau. Thường dùng đồ thị boxplot, rào trên của
boxplot = Q3 + 1.5*IQR, rào trên = Q1 - 1.5*IQR, DL nằm ngoài 2 cái rào là
outlier

- Percentile: ước tính tỷ lệ dữ liệu trong một tập số liệu rơi vào vùng cao hơn
hoặc thấp hơn so với một giá trị cho trước.
VD1: 1 người có lương 15tr ở 85% Percentile (P85) có nghĩa là có 85% người
có lương thấp hơn ông này (15tr)
VD2: Chẳng hạn tại phân vị thứ 85 của tập dữ liệu X có giá trị là 20 thì sẽ có
nhiều nhất 85% số quan sát có giá trị thấp hơn 20 và có nhiều nhất (100-
85)=15% số quan sát có giá trị lớn hơn 20.
- IQR = Q3 - Q1 : Độ trải giữa - Khoảng trải giữa là một con số cho biết mức độ
lan truyền của nửa giữa hoặc 50% phần giữa của tập dữ liệu. IQR thường được
sử dụng thay cho khoảng biến thiên (Range) vì nó loại trừ hầu hết giá trị bất
thường hay giá trị ngoại lệ (Outliers) của dữ liệu.
- Variance : phương sai - Phương sai là giá trị trung bình của bình phương
khoảng cách của mỗi điểm dữ liệu tới điểm trung bình. Một cách dễ hiểu hơn,
phương sai sẽ cho biết mức độ chênh lệch trong tập dữ liệu
- Standard Deviation (SD) : độ lệch chuẩn. Những dãy số có Mean giống nhau,
dãy nào có SD lớn hơn thì biến thiên nhiều hơn. Độ lệch chuẩn là căn bậc hai
của phương sai. Là thước đo độ phân tán của các giá trị trong một tập dữ liệu đã
cho từ giá trị trung bình của chúng. Hạn chế lớn nhất của việc sử dụng độ lệch
chuẩn là nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ và các giá trị âm.
- Standard Error: Sai số chuẩn - Được sử dụng để đo lường độ biến động của
trung bình mẫu so với trung bình của toàn bộ quần thể. Trong đó, s là độ lệch
chuẩn của mẫu và n là kích thước mẫu.

- CV (Coefficient of variation) = (SD/mean)*100% : hệ số biến thiên. Những dãy


số ko cùng mean, ko cùng thang đo hay đơn vị đo thì họ dùng CV thay cho SD

VD: Công ty logictics giao hàng cần nghiên cứu chiến lược giá theo kiện hàng
Giá nên theo khối lượng của kiện hàng hay theo thể tích kiện hàng?
-> Giải quyết: Giá của bên nào biến động nhiều hơn được chọn
- > Tính: Đo khối lượng và thể tích của 200 kiện hàng -> Tính trung bình, độ
lệch chuẩn -> Tính CV của khối lượng và tính CV của thể tích -> So sánh
- Z Score = (x-mean)/SD : điểm chuẩn Z. Cho biết 1 giá trị quan sát lệch so với
trung bình bao nhiêu độ lệch chuẩn. Nếu lệch trái thì z < 0, lệch phải thì z > 0.
cái này cũng dùng cho những tập DL ko cùng thang đo / đơn vị đo
c. Distribution shape (hình dáng phân bố):
- Frequency Distribution (tần suất phân bố). Tần suất phân bố là cách tổ chức và
biểu diễn dữ liệu bằng cách phân loại giá trị thành các khoảng và ghi lại số lần
xuất hiện (tần suất) của mỗi khoảng đó. Biểu đồ tần suất phân bố thường được
thể hiện bằng histogram. Mục đích: Hiển thị sự phân bố của dữ liệu, giúp đánh
giá hình dạng tổng thể của phân bố.
- Skewness (độ lệch): Thước đo mức độ đối xứng, bất đối xứng của một phân
phối.
+ 0 : cân đối (mode = mean = median)
+ > 0 : lệch phải (tích cực) - đuôi bên phải dài hơn bên trái (mode >
median > mean)
+ < 0 : lệch trái (tiêu cực) - đuôi bên trái dài hơn (mode < median < mean)

- Kurtosis (độ nhọn): đánh giá xem DL phân bố nhiều ở trung tâm hay ở 2 đuôi.
EK = Kurtosis - 3 (3 là độ nhọn của phân phối chuẩn)
+ EK = 0 : cân đối
+ EK > 0 : vừa nhọn vừa cao
+ EK < 0 : vừa tù vừa thấp
Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề nào liên
quan đến các giá trị ngoại lệ trong tập dữ liệu hay không. Hệ số kurtosis lớn
(trường hợp Leptokurtic) cho thấy tập dữ liệu gặp vấn đề nghiêm trọng đối với
các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn các phương pháp
thống kê thay thế

2. Inferential Statistics:
- Đưa ra các kết luận, dự đoán và giả thiết về tổng thể dựa trên DL mẫu
a. Hypothesis Testing (kiểm định giả thuyết): Quá trình thiết lập và sử
dụng các tiêu chuẩn thống kê để hỗ trợ cho việc đi đến quyết định về
giá trị của giả thuyết trong điều kiện bất định. Trong những quyết định
như thế, có thể may mắn lựa chọn đúng, nhưng cũng có thể vấp phải
rủi ro, tức lựa chọn sai lầm. Quá trình kiểm định giả thuyết có liên
quan đến việc đánh giá những cơ may này và đưa ra các tiêu chuẩn
cho phép tối thiểu hóa khả năng đi đến quyết định sai lầm
- T-test: so sánh trung bình của 2 tổng thể hoặc kiểm tra xem trung bình mẫu có
khác biệt đáng kể so với giá trị đã biết

- Chi-square: ktra mối quan hệ giữa 2 biến phân loại (có hay ko MQH)

- ANOVA: kiểm định sự khác biệt (về trung bình) của 3 nhóm trở lên
Video Statistics For Data Analysis: Thống kê cho phân tích dữ liệu
nên học gì?
Video Introduce popular hypothesis testing methods: T-test,
ANOVA, Chi-squared, K-S test

IV. Data preprocessing (tiền xử lý DL):


1. Data Integration (tích hợp DL):
- Do DL trong tổ chức, trong DN trong thực tế nó dc phân tán, lưu trữ ở nhiều
nơi cho nên công việc đầu tiên của người phân tích DL là phải tích hợp dc DL
từ nhiều nguồn (các phòng ban, trên hệ thống web, hệ thống bán hàng
online…). Data Integration hay quá trình tích hợp dữ liệu bao gồm việc kết
hợp các dữ liệu không đồng nhất trong những nguồn khác nhau vào trong cùng
một lược đồ duy nhất và có thể thực hiện tác vụ truy vấn, cung cấp cho người
dùng một cái nhìn rõ ràng, chi tiết và thống nhất về chúng.
- 1 số cách để tích hợp DL:
+ Relationships: Xác định dc mối quan hệ giữa các DL (1-1, 1-N, N-N).
vd: 1 tác giả có thể viết nhiều sách, nhưng mỗi sách chỉ có 1 tác giả (1-
N)
+ Union: Hợp DL lại. vd: có DL bán hàng của 4 quý thì ta có thể hợp 4
quý lại để có DL bán hàng theo năm vẫn đc
+ Join types (inner join, left/right/full outer join): nối các bảng lại với nhau
2. Data Cleaning:
a. Missing value treatment (DL thiếu - null):
- DL thiếu từ đâu mà có? Khi mở DL ra hay có tình trạng Missing/Null/Not
Available do DL ko có, ngta ko cung cấp (vấn đề cá nhân) hoặc đơn giản là
ngta lười ko nhập vào
- Tại sao phải kiểm soát DL thiếu? → vì nó ảnh hưởng lớn đến chất lượng DL,
chất lượng mô hình dự báo cũng như làm sai lệch kết quả phân tích như phép
đếm, đo tb,.... gây không chính xác cho nên phải xử lý dữ liệu
- Cách xử lý missing value:
+ Xóa dòng có DL thiếu (ko khuyến cáo). Việc xóa 1 dòng DL sẽ làm mất
đi thông tin của các cột ko bị null khác, vậy nên phải hết sức cân nhắc
khi xóa. Chỉ loại bỏ missing values (trong trường hợp missing values
đó không quan trọng đối với dữ liệu của chúng ta hoặc số lượng
missing values quá ít - chỉ chiếm khoảng dưới 3% tổng số quan sát
trong 1 biến nhất định).
→ Vd: khách hàng chỉ điền thiếu tuổi thôi mà xóa luôn ngta thì mất luôn
các tt như nghề nghiệp, giới tính, quê quán, trình độ… nên sau này phân
tích các cột đó thì sẽ mất đi 1 quan sát
+ Thay DL bị thiếu bằng 1 giá trị độ đo tập trung như
Mean/Median/Mode. Thường thì ngta sẽ dùng Mean và Median đối với
các DL định lượng, còn Mode dùng cho DL định tính.
→ Vd: tuổi thiếu thì thay = tuổi trung bình/trung vị của mọi người
trong toàn cty
+ Sử dụng mô hình dự báo: dùng hồi quy hoặc phân lớp DL,... và thay gtri
thiếu bằng kết quả của các mô hình kẻ trên
+ Hỏi ý kiến chuyên gia. Chuyên gia là những ng có kiến thức sâu rộng
trong 1 lĩnh vực nào đó, nên là khi có chỗ bị null thì nên hỏi họ để họ tư
vấn cho mình giá trị để điền vào đó
b. Outlier detection (bất thường):
- Bất thường là khi có các giá trị trong quan sát mà nó quá khác biệt so với phần
còn lại. Chúng thường là những quan sát bất thường làm sai lệch phân phối dữ
liệu và phát sinh do việc nhập dữ liệu không nhất quán hoặc quan sát sai.
- Phân tích và phát hiện bất thường là 1 khâu trong tiền xử lý để làm sạch DL để
đảm bảo DL sẽ phù hợp hơn cho các mô hình phân tích, đỡ bị ảnh hưởng đến
độ chính xác của phân tích
- Phát hiện bất thường đc ứng dụng trong y tế để phát hiện ra dấu hiệu bệnh,
hoặc trong các giao dịch tài chính để tìm ra tần suất, tgian, khối lượng giao dịch
để phát hiện gian lận. VD: tài khoản bth rút tháng 1-2 lần, mỗi lần 5tr nhưng
tháng này ngày nào cũng rút mấy trăm triệu
- Cách xử lý bất thường:
+ Đồ thị boxplot: là biểu đồ diễn tả 5 vị trí phân bố của dữ liệu, đó là: giá
trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung vị (median), tứ phân
vị thứ 3 (Q3) và giá trị lớn nhất (max). Các giá trị nằm ngoài 2 cái rào là
outlier.
Rào trên = Q3 + 1.5*IQR
Rào dưới = Q1 - 1.5*IQR
+ Nguyên tắc 3 xích ma: có thể hiểu là hầu hết tất cả dữ liệu được quan sát
sẽ nằm trong ba độ lệch chuẩn của giá trị trung bình μ của dữ liệu. Với μ
là trung bình, σ là độ lệch chuẩn thì
68% DL nằm trong vùng μ ± σ
95% DL nằm trong vùng μ ± 2σ
99.7% DL nằm trong vùng μ ± 3σ
+ z score (điểm chuẩn z) = (x - μ)/σ: cho biết giá trị của quan sát lệch với
trung bình bao nhiêu độ lệch chuẩn. Nếu giá trị Z Score là 0, điều đó
cho thấy điểm dữ liệu trùng với điểm trung bình. Giá trị Z Score bằng 1
thì điểm dữ liệu cách 1 độ lệch chuẩn so với giá trị trung bình. Giá trị Z
Score có thể dương hoặc âm, với giá trị dương cho biết điểm nằm trên
giá trị trung bình và điểm âm cho thấy nó nằm dưới giá trị trung bình.
c. Duplicate data (trùng lặp DL):
- Nguyên nhân: trong quá trình join, union (hợp DL), input DL vào, update DL,
copy DL thì sẽ có những DL giống nhau, có thể 1 phần hoặc toàn bộ. Việc này
làm DL bị phồng to khiến bộ nhớ bị lãng phí, quan trọng hơn là việc thống kê,
báo cáo sẽ ko đúng và ảnh hưởng đến chất lượng của mô hình dự báo
- Cách xử lý:
+ Tùy thuộc vào dữ liệu và mục tiêu của bạn, bạn có thể xóa hoặc loại bỏ
các bản ghi hoặc giá trị trùng lặp nếu chúng dư thừa, không liên quan
hoặc sai sót và sẽ không ảnh hưởng đến tính đại diện hoặc tính đầy đủ
của dữ liệu.
+ Ngoài ra, bạn có thể thay thế hoặc hợp nhất các bản ghi hoặc giá trị
trùng lặp bằng một bản ghi hoặc giá trị duy nhất nếu chúng hợp lệ, phù
hợp hoặc hữu ích. (Group by)
+ Cuối cùng, bạn có thể giữ lại hoặc gắn cờ các bản ghi hoặc giá trị trùng
lặp nếu chúng có ý nghĩa, quan trọng hoặc mang tính thông tin.
3. Data Transformation:
- Feature Scaling (chuẩn hóa thang đo): Các vấn đề về đơn vị đo (ví dụ như m và
feet) hoặc sử dụng các thang đo khác nhau (ví dụ như điểm toán trong thang đo
10, điểm Anh trong thang đo 100) hoặc thậm chí khoảng biến thiên (range=
max-min) của các cột dữ liệu rất khác nhau (như tuổi với lương)… -> Chuẩn
hóa thang đo
+ Normalization: X changed = (X - Xmin)/(Xmax - Xmin)
+ Standardization: X changed = (x - μ)/σ
- Categorical Encoder (mã hóa biến phân loại): Chuyển đổi dữ liệu dạng
categorical (phân loại) thành dữ liệu có thể được sử dụng trong các mô hình
máy học. Dữ liệu categorical thường là giá trị cố định các danh mục hoặc
nhóm, không có thứ tự tuyến tính giữa chúng.
Ví dụ về dữ liệu categorical bao gồm giới tính (nam/nữ), màu sắc
(đỏ/xanh/lục), hoặc loại phương tiện giao thông (xe máy/xe ô tô/xe tải).
+ Label encoding:
● Dùng để chuyển các giá trị của biến phân loại thành số nguyên.
● Không tạo ra mối quan hệ thứ bậc giữa các giá trị
● VD: mã hóa nghề nghiệp giáo viên → 1, bác sĩ → 2, kỹ sư → 3
+ One-Hot encoding:
● Mã hoá sử dụng biến giả, biến phân loại có bao nhiêu giá trị thì
sẽ tạo bấy nhiêu biến giả.
● Phương pháp này biến đổi mỗi giá trị thành một vector nhị phân
độc lập. Mỗi vector chứa một số thành phần bằng 0 và duy nhất
một thành phần bằng 1, đại diện cho việc có mặt hoặc vắng mặt
của giá trị phân loại tương ứng.
● Không tạo ra mối quan hệ thứ bậc giữa các giá trị
● vd: có 3 skill Python, SQL, Java thì sẽ tạo 3 cột tương ứng vs 3
tên, người nào có skill Java thì sẽ có giá trị 0 0 1, có skill Python
thì 1 0 0
+ Ordinal encoding:
● Tương tự label encoding nhưng mã hóa biến phân loại dựa trên
một sự sắp xếp (thứ tự) cụ thể của các giá trị trong biến đó.
● Sử dụng khi biến phân loại có thứ bậc
● vd: xếp loại học lực 1-xuất sắc, 2-giỏi, 3-trung bình.
+ Binary Encoding (Mã hóa nhị phân):
● Biểu diễn các giá trị phân loại bằng mã nhị phân.
● Đầu tiên, chuyển đổi giá trị sang nhãn số, sau đó chuyển đổi nhãn
số sang biểu diễn nhị phân.
+ Target Encoding (Mean Encoding):
● Sử dụng giá trị trung bình của biến mục tiêu cho mỗi giá trị phân
loại như là giá trị đã mã hóa.
+ Frequency encoding là một phương pháp trong quá trình xử lý dữ liệu
máy học, nơi giá trị của biến categorical (phân loại) được thay thế bằng
tần suất xuất hiện của chúng trong tập dữ liệu.
- Handle Imbalanced Data (DL mất cân đối): trong hàng ngàn mail gửi tới chỉ có
1-2 cái spam hoặc trong hàng ngàn giao dịch tài chính chỉ có vài cái gian lận →
tỉ lệ mất cân đối → nếu đưa vào phân tích thì mất cân đối làm kết quả ko chính
xác. Dữ liệu không cân bằng đề cập đến các loại tập dữ liệu trong đó lớp mục
tiêu có sự phân bố quan sát không đồng đều.
+ Oversampling: kỹ thuật lấy mẫu làm tăng số lượng của mẫu chiếm thiểu
số lên bằng số lượng mẫu chiếm đa số
→ vd: tăng số lượng mail spam / số giao dịch gian lận lên bằng số mail
ko spam / số giao dịch đúng luật (cái nào ít thì tăng lên)
+ Undersampling: kỹ thuật lấy mẫu làm giảm số lượng của mẫu chiếm đa
số xuống ngang với số lượng mẫu chiếm thiểu số
→ vd: giảm số lượng mail ko spam / số giao dịch đúng luật xuống bằng
số mail spam / số giao dịch gian lận (cái nào nhiều thì giảm xuống)

V. Predictive Analysis:
1. Time series Analysis (phân tích dãy số thời gian):
- Dãy số thời gian là dãy các trị số của các chỉ tiêu thống kê được sắp xếp theo
thứ tự thời gian.
VD: Dữ liệu doanh số bán hàng theo tháng, tốc độ tăng dân số của quốc gia qua
các năm, lương trung bình của lao động của công ty qua các năm.
- Phân tích dãy số tgian cho phép nghiên cứu xu hướng biến động của hiện tượng
theo thời gian. Từ đó tìm ra quy luật của sự thay đổi, đồng thời dự đoán được
mức độ của các hiện tượng trong tương lai
- Ứng dụng: phân tích xu hướng, tính mùa vụ, dự báo
- Các cách:
+ Trực quan xu hướng doanh số bán hàng (Sales) theo thời gian (Y, Q, M, D)
+ Phân tích xu thế của doanh số bán hàng sử dụng đường xu hướng (trend line)
Hiện tượng biến động có xu hướng không? Có tăng hay giảm? Mạnh hay yếu?
Có ý nghĩa thống kê không?
=> Độ dốc dương thì tăng, R-squared càng lớn thì ảnh hưởng của thời gian lên
biến động càng mạnh, P-value < 0.05 -> Có ý nghĩa thống kê
+ Phân tích xu hướng sử dụng phương pháp trung bình trượt (moving average
method)
.) Mục tiêu chính: Giảm đi các nhiễu, làm trơn các biến động lớn để làm rõ các
xu hướng biến động dài hạn
.) Simple moving average: Trung bình trượt của n kỳ bằng trung bình của n kỳ
trước đó chia cho n
.) Nhược điểm: Chỉ số cảnh báo nên không phát hiện được xu hướng mới, mà
chỉ phát hiện xu hướng ở trong lịch sử đã có, cần dữ liệu lịch sử để tính toán
các giá trị trung bình nên không áp dụng với Phát hiện bất thường
+ Phân tích hành vi mùa vụ (seasonality) của dữ liệu thời gian
.) Dữ liệu có biến động lặp lại trong khoảng thời gian xác định không?
VD: Sản phẩm áo ấm vào mùa đông, Sản phẩm máy lạnh vào mùa hè; Lưu
lượng giao thông….
+ Dự báo doanh số bán hàng (Forecast sales) sử dụng phương pháp làm trơn
giảm mũ (exponetial smoothing method)

2. Linear Regression:
- Hồi quy tuyến tính dự đoán mối quan hệ giữa hai biến bằng cách giả định mối
liên hệ tuyến tính giữa biến độc lập và biến phụ thuộc.
- Cách chuyển các dạng near linear thành linear:

- Cách đánh giá:


+ Sử dụng cái gì để đánh giá mô hình hồi quy
+ Mã số R2, R-square, R-square adjust có ý nghĩa gì?

- Được áp dụng trong nhiều lĩnh vực khác nhau như kinh tế và tài chính, phương
pháp này phân tích và dự báo xu hướng dữ liệu.
- VD: Bạn có thể sử dụng mối tương quan giữa tính thời vụ và số liệu bán hàng
để dự đoán khi nào doanh số bán hàng có thể giảm. Nếu mô hình dự đoán của
bạn cho bạn biết rằng doanh số bán hàng có thể giảm vào mùa hè, bạn có thể sử
dụng thông tin này để đưa ra chiến dịch quảng cáo liên quan đến mùa hè hoặc
giảm chi tiêu ở nơi khác để bù đắp cho sự sụt giảm theo mùa.
- Hồi quy tuyến tính có hai tham số chính: độ dốc (trọng lượng) và điểm chặn.
Độ dốc biểu thị sự thay đổi của biến phụ thuộc đối với sự thay đổi đơn vị của
biến độc lập. Điểm chặn là giá trị của biến phụ thuộc khi biến độc lập bằng 0.
Mục tiêu là tìm ra đường phù hợp nhất để giảm thiểu sự khác biệt giữa giá trị
dự đoán và giá trị thực tế.
- Công thức của đường hồi quy tuyến tính đơn là:
VD:
Salary = 168.6975 * TrainedYear + 474.9816
168.6875 là độ dốc, 474.9816 là hệ số chặn
R2 = 0.8721: TrainedYear giải thích 87,21% biến thiên trung bình về lương của
nhân viên công ty
Nếu TrainedYear = 0 thì lương trung bình của công ty = 474.9816 đô la
Nếu TrainedYear = 1 thì lương trung bình của công ty = ……. đô la

- Công thức của đường hồi quy tuyến tính bội

VD:
Salary = -4.3838 * Age + 34.1281 * WorkingYear + 154.3111 * TrainedYear +
518.1339
Biến tuổi hầu như không tác động nhiều đến lương
R2=90%: 3 biến TrainedYear, WorkingYear và Age giải thích 90% biến thiên
trung bình về lương của nhân viên công ty
Khi giải thích một biến thì phải cố định các biến còn lại
Nếu số năm đào tạo và số năm làm việc không đổi, khi tuổi tăng thì lương sẽ
giảm 4.3838 + 518.13339 đô la

Trong đó:
+ Y: biến phụ thuộc, là biến chịu tác động của biến khác.
+ X, X1, X2, Xn: biến độc lập, là biến tác động lên biến khác.
+ β0: hằng số hồi quy, hay còn được gọi là hệ số chặn. Đây là chỉ số nói lên giá
trị của Y sẽ là bao nhiêu nếu tất cả X cùng bằng 0. Nói cách khác, chỉ số này
cho chúng ta biết giá trị của Y là bao nhiêu nếu không có các X. Khi biểu diễn
trên đồ thị Oxy, β0 là điểm trên trục Oy mà đường hồi quy cắt qua.
+ β1, β2, βn: hệ số hồi quy, hay còn được gọi là hệ số góc. Chỉ số này cho chúng
ta biết về mức thay đổi của Y gây ra bởi X tương ứng. Nói cách khác, chỉ số
này nói lên có bao nhiêu đơn vị Y sẽ thay đổi nếu X tăng hoặc giảm một đơn
vị.
+ e: sai số. Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở
nên kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế. Sai số trong hồi
quy tổng thể hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các
biến độc lập ngoài mô hình, hai là các sai số ngẫu nhiên.
3. Data Classification:
- Tìm cách xếp các đối tượng đã cho vào các lớp đã biết trước => Dự báo dùng
cho kết quả không liên tục
a. Decision tree:
- Là 1 mô hình phân lớp DL phổ biến dựa vào cấu trúc dạng cây. Nói một cách
đơn giản, nó có dạng một cái cây với các nhánh tượng trưng cho câu trả lời
tiềm năng cho một câu hỏi nhất định.
- Cấu trúc logic: IF THEN ELSE
- vd: nếu giới tính Nữ, 13-25 tuổi… nơi sống thành phố => thích trà sữa
- Gồm nút gốc, nút trong và lá

Thế nào Information gain?


Chúng ta có thể định nghĩa Information gain là thước đo lượng thông tin mà
một tính năng cung cấp về một lớp. Information gain giúp xác định thứ tự các
thuộc tính trong các nút của cây quyết định.
Nút chính được gọi là nút cha, trong khi các nút phụ được gọi là nút con.
Chúng ta có thể sử dụng Information gain để xác định mức độ phân chia các
nút trong cây quyết định tốt như thế nào.
Thuật ngữ Gain đại diện cho việc Information gain. Eparent là entropy của nút
cha và Echildren là entropy trung bình của các nút con.
VD: Giả sử chúng ta có một tập dữ liệu với hai lớp. Tập dữ liệu này có 5 màu
tím và 5 màu vàng. Giá trị ban đầu của entropy sẽ được tính theo phương trình
dưới đây.

Giả sử chia tập dữ liệu thành hai nhánh. Một nhánh có bốn giá trị trong khi
nhánh kia có sáu giá trị. Nhánh bên trái có bốn màu tím trong khi nhánh bên
phải có năm màu vàng và một màu tím. Chúng tôi đã đề cập rằng khi tất cả các
quan sát thuộc cùng một lớp, thì entropy bằng 0 vì tập dữ liệu là thuần túy. Như
vậy, entropy của nhánh trái Eleft=0. Mặt khác, nhánh bên phải có năm màu
vàng và một màu tím. Như vậy:

Một sự phân chia tốt sẽ có năm trên mỗi nhánh. Chúng ta biết entropy của mỗi
nhánh. Chúng tôi tính toán entropy của mỗi nhánh theo số phần tử mà mỗi
nhánh chứa. Điều này giúp chúng tôi tính toán chất lượng của sự phân chia. Cái
bên trái có 4, trong khi cái còn lại có 6 trên tổng số 10. Do đó, trọng số sẽ như
sau:

Entropy trước khi phân chia, mà chúng tôi gọi là entropy ban đầu Einitial=1.
Sau khi chia tách, giá trị hiện tại là 0,39 . Bây giờ chúng ta có thể nhận được
Information Gain, đó là entropy mà chúng ta “đã mất” sau khi chia tách.
Càng loại bỏ nhiều entropy thì Information gain càng lớn. Information gain
càng cao thì sự phân chia
Cách vẽ
B1: Thuộc tính có mức thu được thông tin cao nhất từ một tập hợp phải được
chọn làm nút cha (gốc).
B2: Xây dựng các nút con cho mọi giá trị của thuộc tính A.
B3: Lặp lại nhiều lần cho đến khi bạn hoàn thành việc xây dựng toàn bộ cây.

b. KNN:
- Dựa trên 1 tư tưởng là xếp 1 đối tượng vào 1 lớp nào đấy, thì xem những người
có đặc tính tương tự ng cần xếp gần nhất thuộc lớp nào => xếp ng đó ở lớp đó.
Với K = Số tự nhiên, nếu lớp nào chiếm nhiều xung quanh của đối tượng thì
đối tượng được xếp vào lớp đó
- vd: nhóm 5 đứa chơi chung mà biết đc 4 ng nhuộm tóc thì người còn lại cũng
nhuộm tóc
- Các bước:
+ B1: Xác định số láng giềng k là bao nhiêu
+ B2: Tính khoảng cách từ điểm cần xếp lớp đến tất cả các điểm còn lại ở
trong dữ liệu của mình (từ x đến all k)
+ B3: Sắp xếp khoảng cách này theo thứ tự tăng dần
+ B4: Chọn ra số láng giềng gần => K láng giềng gần. VD chọn 5 thì tính
từ trên xuống 5 là cắt
+ B5: đếm trong k láng giềng gần này thì lớp (nhãn) nào nhiều nhất =>
xếp đối tượng vào lớp đó
c. Naive Bayes:

- P(c|x): xác suất xảy ra c khi có điều kiện x


P(x|c): xác suất xảy ra x khi có điều kiện c
P(c): xác suất xảy ra c
P(x): xác suất xảy ra x
- Minh hoạ cho công thức: c là ung thư, x là hút thuốc
Tỉ lệ UT khi hút thuốc = tỉ lệ hút thuốc khi đã UT * tỉ lệ UT / tỉ lệ hút thuốc
- vd: có 4 loại xuất sắc, giỏi, khá, trung bình. Trong 4 loại đó, loại nào có xác
suất xuất hiện lớn nhất thì xếp vào lớp đó
- Ứng dụng của công thức này trong mô hình Naive Bayes như sau:
+ Class là lớp cần được dự đoán.
+ Features là tập hợp các đặc trưng của mẫu dữ liệu.
=> Dự đoán lớp của một mẫu dữ liệu dựa trên các đặc trưng của nó.

d. Confusion matrix
Là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét
cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp
Bài toán: Chẩn đoán ung thư với 2 lớp - bị ung thư được chuẩn đoán Positive và lớp
không bị ung thư được chuẩn đoán là Negative

● TP (True Positive): Số lượng dự đoán chính xác. Là khi mô hình dự đoán đúng
một người bị ung thư.
● TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp. Là khi
mô hình dự đoán đúng một người không bị ung thư, tức là việc không chọn
trường hợp bị ung thư là chính xác.
● FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch. Là khi mô
hình dự đoán một người bị ung thư và người đó không ung thư.
● FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách
gián tiếp. Là khi mô hình dự đoán một người không bị ung thư nhưng người đó
bị ung thư, tức là việc không chọn trường hợp bị ung thư là sai.

Precision: Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự đoán là
chính xác?
Recall: Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự
đoán chính xác?

Để đánh giá độ tin cậy chung của mô hình, người ta đã kết hợp 2 chỉ số Precision
và Recall thành một chỉ số duy nhất: F-score, được tính theo công thức:

Một mô hình có chỉ số F-score cao chỉ khi cả 2 chỉ số Precision và Recall đều
cao. Một trong 2 chỉ số này thấp đều sẽ kéo điểm F-score xuống. Trường hợp
xấu nhất khi 1 trong hai chỉ số Precison và Recall bằng 0 sẽ kéo điểm F-score về
0. Trường hợp tốt nhất khi cả điểm chỉ số đều đạt giá trị bằng 1, khi đó điểm F-
score sẽ là 1.

4. Data Clustering (phân cụm DL):


- Tìm đặc trưng của các nhóm đối tượng, xếp các đối tượng tương đồng nhau về
1 cụm sao cho các đối tượng trong nhóm càng giống nhau càng tốt, giữa các
nhóm với nhau thì càng khác nhau càng tốt
- vd: tìm đặc trưng của nhóm tốt nghiệp loại xuất sắc
+ tự học 3-4h / ngày
+ vào fb nửa tiếng / ngày
+ tham gia hoạt động ngoại khoá 2 lần / tháng
+ …
a. K-means: Nhóm n quan sát thành K cụm.
Vấn đề xác định số cụm k trong bài toán phân cụm dữ liệu - BIS
Phân cụm dữ liệu (K-means) với Tableau (youtube.com)
How to Determine the Optimal Number Of Clusters for K-Means with Python -
YouTube
Đọc How to calculate the Total Sum of Squares Within and Between (SSW and SSB)
Thuật toán K-Means với bài toán phân cụm dữ liệu - BIS
- Các bước:
+ Xác định đc số cụm K
+ Chọn ngẫu nhiên K tâm cho K cụm, mỗi cụm dc đại diện bởi tâm của
cụm (centroid)
+ Tính khoảng cách từ mỗi đối tượng tới các tâm của cụm
+ Nhóm đối tượng đó vào cụm mà khoảng cách từ điểm đó tới tâm cụm là
nhỏ nhất
+ Lặp lại cho đến khi ko có sự thay đổi so với kết quả trước đó thì dừng
b. Similarity Measure:
SIMILARITY MEASURES IN DATA MINING: Euclidean, Manhattan, Chebyshev,
Cosine, Jaccard, Hamming. - YouTube

5. Association rule (luật kết hợp):


- Là quá trình tìm ra các MQH (tương quan giữa các đối tượng trong tập DL)
- Luật kết hợp X→Y có 2 thành phần
+ X: tiền đề (if)
+ Y: hệ quả (then)
- vd:
+ Youtube thấy ai đó nghe bài hát A thì sau khi hết bài nó hiện tiếp đề
xuất bài hát B vì 90% ngta sẽ nghe bài B nếu họ nghe bài A (A→B)
+ Nếu 1 người mua bánh mì thì 70% họ sẽ mua sữa (bánh
mì→sữa)
- Ứng dụng: flash sale, phân tích thị trường, phân tích giỏ hàng (xem các mặt
hàng nào được mua kèm với nhau), sắp xếp vị trí các mặt hàng trong siêu thị ko
phải ngẫu nhiên mà phải nghiên cứu cái nào nên xếp cạnh cái nào, cái nào nên
khuyến mãi,...
VI. Bài tập nhóm

You might also like