Professional Documents
Culture Documents
Bản Sao Của Ôn Vấn Đáp Nhập Môn KHDL Trong KD
Bản Sao Của Ôn Vấn Đáp Nhập Môn KHDL Trong KD
2. Data Driven:
a. Business:
- Mục tiêu: Hỗ trợ ra quyết định và tối ưu hóa chiến lược kinh doanh dựa trên
DL.
- Công việc: Áp dụng dữ liệu để hiểu rõ về hoạt động tổng thể của doanh nghiệp,
từ đó đưa ra quyết định chiến lược, tối ưu hóa quy trình làm việc, dự đoán xu
hướng thị trường, và tối ưu hóa hiệu suất.
b. Marketing:
- Mục tiêu: Tăng cường hiệu suất của chiến lược marketing thông qua việc sử
dụng DL về khách hàng và thị trường.
- Công việc: Sử dụng DL để phân tích hành vi của KH, xác định KH tiềm năng,
đo lường hiệu quả chiến dịch tiếp thị, tối ưu hóa chiến lược quảng cáo, tìm
kênh quảng bá phù hợp, và cá nhân hóa trải nghiệm KH.
c. CRM:
- Mục tiêu: Nâng cao trải nghiệm khách hàng thông qua việc hiểu khách hàng,
giữ chân và tìm kiếm khách hàng mới (hiểu hành vi, mong muốn và đặc điểm
của khách hàng
- Công việc: Sử dụng dữ liệu để theo dõi và phân tích tất cả các tương tác với
khách hàng, dự đoán nhu cầu của khách hàng, từ đó nâng cao trải nghiệm KH
và giữ chân KH cũ cũng như thu hút KH mới
3. Data science and Decision support:
4 loại phân tích
- Phân tích mô tả là loại phân tích cho phép bạn lấy xu hướng từ dữ liệu thô và
mô tả ngắn gọn những gì đã xảy ra hoặc hiện đang xảy ra. Phân tích mô tả trả
lời câu hỏi “Điều gì đã xảy ra?”
- Phân tích chẩn đoán giải quyết câu hỏi hợp lý tiếp theo, “Tại sao điều này lại
xảy ra?”
- Phân tích dự đoán được sử dụng để đưa ra dự đoán về các xu hướng hoặc sự
kiện trong tương lai và trả lời câu hỏi “Điều gì có thể xảy ra trong tương lai?”
- Phân tích theo quy định dự đoán điều gì sẽ xảy ra trong tương lai và đề xuất
cách hành động tốt nhất để thực hiện.
Trực quan hóa dữ liệu
Để trình bày các phân tích về dữ liệu thì trực quan hóa dữ liệu là cách biểu diễn
dữ liệu bằng đồ họa giúp dễ hiểu các mẫu, xu hướng và các ngoại lệ trong dữ
liệu. Biểu đồ, đồ thị, bản đồ và các phương pháp trực quan hóa dữ liệu khác
cho phép dễ dàng truyền đạt kết quả của họ tới các bên liên quan trong kinh
doanh. Trực quan hóa dữ liệu có thể chắt lọc các khái niệm phức tạp thành một
định dạng tương tác, có thể chia sẻ.
b. Challenges:
- Chất lượng và độ phức tạp của dữ liệu
Một trong những thách thức chính trong hoạt động dữ liệu là đảm bảo chất
lượng và độ tin cậy của dữ liệu. Với khối lượng lớn dữ liệu được tạo ra từ
nhiều nguồn khác nhau, doanh nghiệp phải vật lộn với dữ liệu bị thiếu, sự
không nhất quán và sai lệch. Đặc biệt là các dữ liệu phi cấu trúc: Không thể
được hiển thị trong hàng, cột và cơ sở dữ liệu quan hệ; yêu cầu nhiều bộ
nhớ; không dễ dàng quản lý và bảo vệ, chiếm 80 % dữ liệu của doanh
nghiệp. Việc làm sạch và xử lý trước dữ liệu để có được những hiểu biết
chính xác và có ý nghĩa có thể tốn nhiều thời gian và phức tạp.
- Khả năng mở rộng và cơ sở hạ tầng
Khi các bộ dữ liệu tăng về kích thước và độ phức tạp, khả năng mở rộng
trở thành một thách thức đáng kể. Các nhà khoa học dữ liệu cần cơ sở hạ
tầng mạnh mẽ và tài nguyên tính toán mạnh mẽ để xử lý phân tích dữ liệu
lớn một cách hiệu quả. Việc triển khai các thuật toán có thể mở rộng và
thiết kế hệ thống có thể xử lý khối lượng dữ liệu lớn là rất quan trọng để rút
ra những hiểu biết có giá trị.
- Yêu cầu nhân viên có chuyên môn về dữ liệu
Phân tích dữ liệu là một kỹ năng quan trọng của một nhân viên. Hiện nay,
trên thế giới đã có được các tổ chức (ví dụ như Uber hay Amazon) yêu cầu
mọi nhân viên đều có khả năng tự phân tích dữ liệu. Việc chuẩn bị và rèn
luyện kỹ năng chuyên môn rất quan trọng đối với sinh viên và người đang
đi làm.
- Cân nhắc về đạo đức và quyền riêng tư
Dữ liệu là tài nguyên quý giá của doanh nghiệp. Sự phụ thuộc ngày càng
tăng vào dữ liệu làm tăng mối lo ngại về mặt đạo đức xung quanh quyền
riêng tư, bảo mật và việc sử dụng dữ liệu có trách nhiệm.
6. Types of analytics:
a. Descriptive:
- Phân tích mô tả là loại phân tích đơn giản nhất và là nền tảng cho các loại phân
tích khác được xây dựng trên đó. Nó cho phép bạn lấy xu hướng từ dữ liệu thô
và mô tả ngắn gọn những gì đã xảy ra hoặc hiện đang xảy ra.
- Phân tích mô tả trả lời câu hỏi “Điều gì đã xảy ra?”
- Ví dụ: hãy tưởng tượng bạn đang phân tích dữ liệu của công ty mình và nhận
thấy doanh số bán hàng của một trong các sản phẩm của bạn tăng đột biến theo
mùa: máy chơi trò chơi điện tử. Tại đây, phân tích mô tả có thể cho bạn biết:
"Bảng điều khiển trò chơi điện tử này có doanh số bán hàng tăng vào tháng 10,
tháng 11 và đầu tháng 12 hàng năm".
- Việc sử dụng các công cụ trực quan hiệu quả (vì biểu đồ, đồ thị và bản đồ có
thể hiển thị các xu hướng trong dữ liệu—cũng như các điểm tăng và giảm—
một cách rõ ràng, dễ hiểu.), dữ liệu toàn diện, chính xác và trực tiếp sẽ nâng
cao thông điệp của phân tích mô tả.
b. Diagnostic:
- Phân tích chẩn đoán giải quyết câu hỏi hợp lý tiếp theo, “Tại sao điều này lại
xảy ra?”
- Tiến thêm một bước phân tích nữa, loại này bao gồm so sánh các xu hướng
hoặc chuyển động cùng tồn tại, phát hiện mối tương quan giữa các biến và xác
định mối quan hệ nhân quả nếu có thể.
- Tiếp tục ví dụ đã nói ở trên, bạn có thể tìm hiểu dữ liệu nhân khẩu học của
người dùng bảng điều khiển trò chơi điện tử và thấy rằng họ ở độ tuổi từ 8 đến
18. Tuy nhiên, khách hàng có xu hướng ở độ tuổi từ 35 đến 55. dữ liệu tiết lộ
rằng động cơ chính khiến khách hàng mua máy chơi trò chơi điện tử là để tặng
nó cho con cái họ. Doanh số bán hàng tăng đột biến trong những tháng mùa thu
và đầu mùa đông có thể là do những ngày lễ có tặng quà.
- VD: Nếu phân tích mô tả của bạn cho thấy doanh số bán hàng đã giảm 20%
trong tháng 3, bạn sẽ muốn tìm hiểu lý do. Để tìm ra nguyên nhân gốc rễ, nhà
phân tích sẽ bắt đầu bằng cách xác định bất kỳ nguồn dữ liệu bổ sung nào có
thể cung cấp cái nhìn sâu sắc hơn về lý do tại sao doanh số bán hàng lại giảm.
Họ có thể đi sâu hơn để phát hiện ra rằng, mặc dù có lượng khách truy cập
trang web lớn và nhiều hành động “thêm vào giỏ hàng” nhưng rất ít khách
hàng thực sự tiến hành thanh toán và mua hàng. Khi kiểm tra kỹ hơn, người ta
thấy rằng phần lớn khách hàng đã bỏ cuộc khi điền địa chỉ giao hàng. Có vẻ
như có vấn đề với biểu mẫu địa chỉ hay có lẽ nó không tải đúng cách trên thiết
bị di động hoặc đơn giản là quá dài và gây khó chịu. Chỉ cần tìm hiểu kỹ một
chút, bạn sẽ tiến gần hơn đến việc tìm ra lời giải thích cho sự bất thường về dữ
liệu của mình.
- Phân tích chẩn đoán rất hữu ích để tìm ra gốc rễ của vấn đề của tổ chức.
c. Predictive:
- Phân tích dự đoán được sử dụng để đưa ra dự đoán về các xu hướng hoặc sự
kiện trong tương lai và trả lời câu hỏi “Điều gì có thể xảy ra trong tương lai?”
- Bằng cách phân tích dữ liệu lịch sử song song với xu hướng của ngành, bạn có
thể đưa ra những dự đoán sáng suốt về những gì có thể xảy ra trong tương lai
cho công ty của mình.
- Ví dụ: biết rằng doanh số bán bảng điều khiển trò chơi điện tử đã tăng vọt vào
tháng 10, tháng 11 và đầu tháng 12 hàng năm trong thập kỷ qua sẽ cung cấp
cho bạn dữ liệu phong phú để dự đoán rằng xu hướng tương tự sẽ xảy ra vào
năm tới. Được hỗ trợ bởi các xu hướng đi lên trong toàn bộ ngành công nghiệp
trò chơi điện tử, đây là một dự đoán hợp lý để đưa ra.
- Đưa ra dự đoán cho tương lai có thể giúp tổ chức của bạn xây dựng chiến lược
dựa trên các tình huống có thể xảy ra.
d. Prescriptive:
- Loại phân tích này không chỉ đơn giản là dự đoán điều gì sẽ xảy ra trong tương
lai. Nó cũng đề xuất cách hành động tốt nhất để thực hiện. Phân tích đề xuất sẽ
trả lời câu hỏi “Chúng ta nên làm gì tiếp theo?”. Phân tích theo quy định sử
dụng các kỹ thuật mô phỏng và tối ưu hóa để xác định kết quả tốt nhất có thể
và đề xuất cách tốt nhất để đạt được chúng. Loại phân tích này có thể được sử
dụng để tối ưu hóa quy trình kinh doanh, cải thiện dịch vụ khách hàng và đưa
ra quyết định đầu tư tốt hơn.
II. Data visualization:
1. What and Why Data visualization:
- What? → Trực quan hoá DL là biểu diễn DL dưới dạng bản đồ/biểu đồ/sơ đồ
và kết quả của nó là 1 cái dashboard giúp DL dễ hiểu hơn
- Why?
+ Giúp hiểu dữ liệu dễ dàng hơn, giúp chúng ta nhìn thấy các xu hướng và
mối tương quan trong dữ liệu mà chúng ta có thể bỏ lỡ nếu chỉ nhìn vào
các con số và chữ cái.
+ Giúp truyền đạt dữ liệu hiệu quả hơn, có thể truyền đạt dữ liệu cho một
đối tượng rộng lớn hơn, kể cả những người không có chuyên môn về dữ
liệu.
+ Giúp đưa ra quyết định sáng suốt hơn, nó giúp ta xác định các vấn đề, cơ
hội và phát triển các chiến lược.
2. Use appropriate Charts:
- Bar/column: Được sử dụng để so sánh giữa các danh mục khác nhau hoặc có
thể so sánh một danh mục theo thời gian.
- Stacked bar: Biểu đồ cột chồng được sử dụng để mô tả sự so sánh tổng giá trị
giữa một số danh mục.
- Scatter plot: Biểu đồ phân tán được sử dụng để giải thích mối quan hệ giữa hai
biến liên tục trong tập dữ liệu. Trục hoành biểu thị giá trị của biến độc lập. Trục
tung biểu thị giá trị của biến phụ thuộc.
- Line: Biểu đồ đường thường được sử dụng để hiển thị xu hướng và phân tích
dữ liệu đã thay đổi như thế nào theo thời gian. Độ dốc hướng lên cho biết nơi
giá trị đã tăng và độ dốc hướng xuống cho biết nơi giá trị đã giảm.
- Pie: Biểu đồ tròn thường được sử dụng để thể hiện dữ liệu thuộc sự kết hợp của
nhiều danh mục khác nhau. Mỗi loại này được thể hiện dưới dạng “miếng
bánh”. Kích thước của mỗi lát tỷ lệ thuận với số lượng điểm dữ liệu thuộc về
một danh mục cụ thể. Pie chart thường dùng để vẽ các biểu đồ cơ cấu (%)
- Map: sử dụng để phân tích và hiển thị dữ liệu liên quan đến địa lý và trình bày
nó dưới dạng bản đồ
- Treemap: đc dùng để mô tả sự tương tự , giống nhau của các đối tượng theo
tiêu chí nào đó.
- Pareto: Phân tích đóng góp các đối tượng vào trong tổng thể, xem thử tích lũy
các đối tượng đó vào tổng thể là bao nhiêu. vd: Nhóm hàng nào đóng góp bao
nhiêu phần trăm vào lợi nhuận công ty.
- Boxplot: mô tả cho biết độ phân tán, tập trung của dữ liệu. Là biểu đồ diễn tả 5
vị trí phân bố của dữ liệu: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung
vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max).
- Waterfall: Biểu đồ thác nước là một kỹ thuật trực quan hóa dữ liệu cho thấy giá
trị ban đầu có thể bị ảnh hưởng như thế nào bởi tác động tích lũy của các giá trị
dương và âm liên tiếp. Biểu đồ này có thể được sử dụng để hiển thị dữ liệu tuần
tự hoặc phân loại. Nó sử dụng một loạt các thanh hiển thị lãi và lỗ, cho thấy rõ
ràng con số mở đầu đã bị các sự kiện thay đổi như thế nào và dẫn đến con số
đóng cửa như thế nào.
- Candlestick: phân tích tài chính, chứng khoán để phân tích biến động giá của
cổ phiếu về tài chính trong 1 khoảng thời gian
3. Dashboard:
- Dashboard là một bảng điều khiển kỹ thuật số mà tại đó toàn bộ thông tin được
mã hóa và hiển thị dưới dạng biểu đồ, số liệu và hình ảnh. Dựa trên kết quả
hiển thị trên dashboard, doanh nghiệp có thể dễ dàng theo dõi, nắm bắt và quản
lý một cách tổng quan những dữ liệu quan trọng phục vụ cho các hoạt động
kinh doanh.
- Dashboard quan trọng vì:
+ DL được trình bày rõ ràng: ng dùng sẽ có đc cái nhìn tổng quan về hoạt
động của doanh nghiệp, biết đc cái j hiệu quả và ko hiệu quả
+ Giúp hiểu dữ liệu dễ dàng hơn, giúp chúng ta nhìn thấy các xu hướng và
mối tương quan trong dữ liệu mà chúng ta có thể bỏ lỡ nếu chỉ nhìn vào
các con số và chữ cái.
+ Giúp đưa ra quyết định sáng suốt hơn, nó giúp ta xác định các vấn đề, cơ
hội và phát triển các chiến lược.
- Types of dashboard:
+ KPI: là tập hợp các hình ảnh trực quan khác nhau được các giám đốc
điều hành sử dụng để dễ dàng theo dõi các số liệu quan trọng nhất trong
tổ chức. Trang tổng quan này thường cung cấp ít chi tiết hoặc ngữ cảnh
hơn các trang tổng quan khác. Loại bảng thông tin này không phù hợp
với các câu hỏi tại sao và như thế nào phức tạp hơn vì nó không tốt cho
phân tích khám phá.
VD: Tổng doanh thu, tổng lợi nhuận, tổng đơn hàng…
+ Q&A: là tập hợp các biểu đồ cung cấp câu trả lời cho các câu hỏi cụ thể
về nhiều chủ đề đôi khi khác nhau . Đây thường là những câu hỏi cấp
bách nhất trong một tổ chức hoặc một bộ phận của tổ chức. Những câu
hỏi này có thể liên quan đến một kế hoạch chiến lược tổng quát, một
sáng kiến khẩn cấp hoặc một vấn đề cụ thể trong doanh nghiệp. Loại
bảng thông tin này có thể được các giám đốc điều hành hoặc quản lý
cấp trung sử dụng để chủ động theo dõi nhiều vấn đề một cách thường
xuyên.
VD: Những sản phẩm bán chạy nhất là gì? Những sản phẩm nào có
profit ratio lớn nhất?
+ Top Down: Bảng thông tin từ trên xuống tập trung vào một chủ đề duy
nhất và hiển thị các KPI tổng hợp, cấp cao cũng như các chi tiết cụ thể
có thể cung cấp thêm ngữ cảnh hoặc thông tin chi tiết. Loại bảng thông
tin này phù hợp để tập trung vào một phân khúc cụ thể của tổ chức.
Người dùng có thể theo dõi nhanh một số liệu chính và/hoặc tìm hiểu
sâu lý do tại sao một mẫu có thể xảy ra. Điều này tốt cho các lãnh đạo tổ
chức như Phó chủ tịch hoặc Giám đốc và quản lý cấp trung, những
người chịu trách nhiệm giám sát hoặc quản lý một bộ phận riêng
biệt của tổ chức.
VD: Phân tích các loại sản phẩm theo ngày giao hàng và chi phí ship
+ Bottom Up: Trang tổng quan Từ dưới lên cung cấp chi tiết chi tiết về
một chủ đề, sau đó cho phép người dùng xem các chi tiết đó theo ngữ
cảnh hoặc tổng hợp trên toàn bộ tổ chức rộng hơn. Loại bảng thông tin
này phù hợp với quản lý cấp trung hoặc nhà phân tích muốn theo dõi
các mẫu ở mức rất chi tiết. Hiệu suất của các điểm dữ liệu cụ thể quan
trọng hơn hiệu suất tổng hợp của tất cả các điểm dữ liệu. Loại bảng
thông tin này phù hợp để xác định các vấn đề cụ thể cần hành động hoặc
can thiệp.
+ One Big Chart: Bảng điều khiển One Big Chart hiển thị một hình ảnh
trực quan duy nhất với khả năng lọc hoặc xem chi tiết. Đây thường là
bản đồ hoặc biểu đồ phân tán; trực quan hóa dữ liệu dày đặc đòi hỏi
nhiều không gian màn hình để hiển thị tất cả các chi tiết một cách rõ
ràng. Loại bảng thông tin này rất phù hợp để các nhà phân tích theo
dõi hoặc phân tích trực quan các vấn đề và mẫu cụ thể trên một số
lượng lớn các điểm dữ liệu. Nhà phân tích có lẽ sẽ có hiểu biết sâu sắc
về dữ liệu và bối cảnh của những gì đang được trình bày.
- Dashboard Components (các thành phần chính): Trang tổng quan có thể chứa
biểu đồ, lưới, IFRAME hoặc tài nguyên web.
- How to build an effective Dashboard:
Bước 1: Xác định đối tượng đọc báo cáo
Bước 2: Xác định những chỉ số chính
Bước 3: Xác định hoàn cảnh của người sử dụng báo cáo
Bước 4: Thiết kế cho việc ra quyết định nhanh
Bước 5: Kiểm tra, đánh giá và hiệu chỉnh
Quy tắc màu:
+ Theo khuyến nghị của các chuyên gia Trực quan hóa dữ liệu, chỉ nên sử
dụng từ 6-9 màu trong 1 Dashboard/Báo cáo, tối đa 12 màu, tùy thuộc
vào độ phức tạp của loại dữ liệu được biểu diễn. Thường mỗi danh mục
lớn sẽ đại diện cho 1 màu.
+ Sử dụng chủ đề màu sắc: sử dụng màu đậm nhất cho danh mục quan
trọng nhất, sau đó hạ dần màu tùy theo độ quan trọng của danh mục.
+ Sử dụng màu ưu tiên danh mục giá trị để trực quan hóa dữ liệu: sử dụng
màu đồng nhất cho các danh mục giá trị lớn và tông màu sáng hơn cho
các danh mục giá trị nhỏ.
+ Tương tác:
4. Data Storytelling:
- What?
→ Là hình thức kể chuyện thông qua số liệu giúp ghi nhớ và kết nối DL tốt
hơn, từ đó có thể hiểu được DL. Có thể tìm được các insight và cách mà các
DL tương tác với nhau, từ đó dẫn dắt các hành động và hỗ trợ việc ra quyết
định
- Why?
→ Giúp hiểu được insight của KH để có được những chiến lược phù hợp hơn
với KH, hiểu đc mong muốn của họ để từ đó mình có thể có dc KH mới cũng
như giữ chân KH cũ tốt hơn
- Các thành phần của Data Storytelling:
+ Data (phải hiểu dc DL của mình)
● Chất lượng DL
● Nguồn DL
● Cấu trúc DL
● Những công việc cần làm với DL
→ Ví dụ: DL có bao nhiêu cột, mỗi cột đấy nó là cái j, có cần xử lý gì
ko…
+ Audience (ngữ cảnh câu chuyện)
● Kể cho ai
● Kể cái gì
● Kể khi nào
→ Ví dụ: kể cho giám đốc bán hàng thì ổng cần thông tin về hiệu quả
bán hàng, doanh số, lợi nhuận, xu hướng,... Các ông khác như gđ
marketing thì cần ttin về KH, thị trường,..., nói chung ko ông nào giống
ông nào
+ Narrative (Cách tổ chức câu chuyện)
● Mục tiêu của câu chuyện
● Các nhân vật trong câu chuyện
● Sự tương tác giữa các nhân vật nó tạo ra điểm nhấn, làm nổi bật
câu chuyện để hướng người nghe vào các điểm nhấn đó để làm
câu chuyện hấp dẫn, thu hút hơn
+ Visuals (Trực quan hoá)
● Chart
● Dashboard
● Style
- 4R trong Data Storytelling
+ Đúng người: xác định đc phải cung cấp cho ai (cho ông sale hay ông
marketing)
+ Đúng dữ liệu: đúng thông tin, insight, knowledge mà ngta cần (ông giám
đốc mar cần ttin về KH, thị trường để làm chiến dịch mar/khuyến
mãi/quảng cáo. Trong khi đó ông giám đốc sale thì cần ttin về hiệu quả
bán hàng, doanh số, lợi nhuận, xu hướng, tăng giảm lợi nhuận)
+ Đúng định dạng: Cung cấp đúng định dạng họ cần (vd họ yêu cầu 1 cái
dashboard có thể tương tác giữa các chart mà mình đi cung cấp 1 đống
DL số thì họ khó đọc và khó xử lý)
+ Đúng thời điểm: Thông tin có giá trị hay ko là dựa vào thời điểm của
DL vì nếu cung cấp 1 thông tin quá cũ mà ngta đã biết r, nó xảy ra rồi
thì nó ko còn ý nghĩa nữa
- How? → Các bước Data Storytelling:
+ Bước 1: Hiểu ngữ cảnh: Hiểu được yêu cầu của doanh nghiệp, ví dụ như
mục đích của câu chuyện, kể cho ai và nhằm mục đích cung cấp những
thông tin gì
+ Bước 2: Trực quan hoá hiệu quả: Chọn đúng biểu đồ, màu sắc phù hợp
với các thiết kế để tạo ra được những báo cáo hiệu quả
+ Bước 3: Sắp xếp, liên kết sự kiện: Dữ liệu phải được sắp xếp lại theo
yêu cầu cấu trúc của câu chuyện, ví dụ như theo thời gian, khách hàng,
thị trường, vận chuyển,...
+ Bước 4: Tập trung vào điểm nhấn: Làm nổi bật những vấn đề cần quan
tâm. Ví dụ phân tích về doanh số bán thì cần làm nổi bật sự tăng giảm
qua các thời kì, so sánh giữa các khu vực địa lý khác nhau, nhóm khách
hàng khác nhau,...
+ Bước 5: Kết nối, tương tác và kể chuyện: Kết nối các sự kiện, nhân vật
trong luồng thông tin để tạo nên 1 câu chuyện có logic, có bắt đầu,
tương tác và kết thúc
III. Fundamental statistics for DA:
1. Descriptive Statistics:
- (Thống kê mô tả) Dùng để làm rõ các đặc điểm quan trọng của DL
a. Measure of central tendency (độ tập trung của DL):
- Mean: san bằng mọi khoảng cách, nó cộng lại r chia đều → nhạy cảm với các
outlier (bất thường). Và vì nó san bằng mọi khoảng cách nên sẽ ko thấy đc sự
biến động, đặc biệt là với những DL có mức độ biến động lớn. Ngoài ra, Không
sử dụng đại lượng trung bình cộng đối với dữ liệu định danh và hạn chế sử
dụng với dữ liệu định lượng theo thang đo khoảng.
→ Ví dụ “lương trb của cty X là 50tr nhưng thực tế chỉ có 2-3tr, còn lương mấy
ông cấp cao vài trăm triệu gánh cả cty” → khi phân tích phải loại bỏ mấy ông
này ra khỏi DL trước rồi làm gì làm
Giá trị trung bình được tính đơn giản bằng cách lấy tổng các giá trị dữ liệu
chia cho kích thước mẫu.
Công thức: Mean = (x1 + x2 + …xn) / n
- Median: trung vị - là giá trị ở giữa trong một phân bố dữ liệu, nhờ trung vị mà
dữ liệu được chia làm hai phần với số liệu bằng nhau ở mỗi bên.
Ví dụ đơn giản để tìm số trung vị:
Cho tập dữ liệu X={2,4,5,6,7,8,8,8,9,9}.
Tập dữ liệu này có 10 giá trị. Giá trị trung vị là trung bình cộng của quan sát
nằm ở vị trí thứ 5 (7) và 6 (8).
Số trung vị là (7+8)/2 = 7,5.
Lưu ý: Mặc dù giá trị trung vị không chịu ảnh hưởng của các giá trị ngoại lệ
và rất dễ tính toán. Tuy nhiên trung vị không thể dùng để dự đoán vì không
chính xác bằng trung bình, trung vị thường được dùng để thay thế hoặc bổ
sung nhằm điều chỉnh 1 số hạn chế khi sử dụng giá trị trung bình
- Mode: số có tần số xuất hiện nhiều nhất. Yếu vị chỉ ổn định khi lượng giá trị
nhiều và sẽ khó xác định rõ nếu dữ liệu chỉ có một số ít giá trị. VD: vẽ
Histogram (bin điểm thi) để xem môn X có mức điểm nào nhiều ng nhất
VD: Tiệm may muốn chuẩn bị số lượng quần áo cho size phổ biến nhất
- Midrange = (max+min)/2 : số trung tầm. Midrange có thể được sử dụng khi
bạn muốn có một cái nhìn nhanh chóng về phạm vi của dữ liệu và không muốn
quan tâm đến phân phối chi tiết hay sự ảnh hưởng của giá trị ngoại lệ.
b. Measures of Variation (độ phân tán của DL):
- Range = max - min : khoảng biến thiên -> đo mức độ trải dài của một tập dữ
liệu nhất định từ nhỏ nhất đến lớn nhất. Khoảng biến thiên là thang đo tương
đối tốt đối với các bộ dữ liệu nhỏ nhưng độ tin cậy sẽ ít đi khi áp dụng với các
bộ dữ liệu lớn do độ dàn trải của dữ liệu cũng sẽ lớn hơn hay áp dụng với các
bộ dữ liệu có giá trị ngoại lệ (Outliers)
- Quartiles : tứ phân vị (Q1, Q2, Q3); trong đó Q1 (Giá trị sao cho có 25% số
quan sát nhỏ hơn nó và 75% số quan sát lớn hơn nó) là 25% , Q2 (Giá trị sao
cho có 50% số quan sát nhỏ hơn nó và 50% số quan sát lớn hơn nó) là 50%
(trung vị), Q3 (Giá trị sao cho có 75% số quan sát nhỏ hơn nó và 25% số quan
sát lớn hơn nó) là 75%. 3 con số này chia dãy số đã đc sắp xếp tăng dần thành 4
phần có số lượng phần tử bằng nhau. Thường dùng đồ thị boxplot, rào trên của
boxplot = Q3 + 1.5*IQR, rào trên = Q1 - 1.5*IQR, DL nằm ngoài 2 cái rào là
outlier
- Percentile: ước tính tỷ lệ dữ liệu trong một tập số liệu rơi vào vùng cao hơn
hoặc thấp hơn so với một giá trị cho trước.
VD1: 1 người có lương 15tr ở 85% Percentile (P85) có nghĩa là có 85% người
có lương thấp hơn ông này (15tr)
VD2: Chẳng hạn tại phân vị thứ 85 của tập dữ liệu X có giá trị là 20 thì sẽ có
nhiều nhất 85% số quan sát có giá trị thấp hơn 20 và có nhiều nhất (100-
85)=15% số quan sát có giá trị lớn hơn 20.
- IQR = Q3 - Q1 : Độ trải giữa - Khoảng trải giữa là một con số cho biết mức độ
lan truyền của nửa giữa hoặc 50% phần giữa của tập dữ liệu. IQR thường được
sử dụng thay cho khoảng biến thiên (Range) vì nó loại trừ hầu hết giá trị bất
thường hay giá trị ngoại lệ (Outliers) của dữ liệu.
- Variance : phương sai - Phương sai là giá trị trung bình của bình phương
khoảng cách của mỗi điểm dữ liệu tới điểm trung bình. Một cách dễ hiểu hơn,
phương sai sẽ cho biết mức độ chênh lệch trong tập dữ liệu
- Standard Deviation (SD) : độ lệch chuẩn. Những dãy số có Mean giống nhau,
dãy nào có SD lớn hơn thì biến thiên nhiều hơn. Độ lệch chuẩn là căn bậc hai
của phương sai. Là thước đo độ phân tán của các giá trị trong một tập dữ liệu đã
cho từ giá trị trung bình của chúng. Hạn chế lớn nhất của việc sử dụng độ lệch
chuẩn là nó có thể bị ảnh hưởng bởi các giá trị ngoại lệ và các giá trị âm.
- Standard Error: Sai số chuẩn - Được sử dụng để đo lường độ biến động của
trung bình mẫu so với trung bình của toàn bộ quần thể. Trong đó, s là độ lệch
chuẩn của mẫu và n là kích thước mẫu.
VD: Công ty logictics giao hàng cần nghiên cứu chiến lược giá theo kiện hàng
Giá nên theo khối lượng của kiện hàng hay theo thể tích kiện hàng?
-> Giải quyết: Giá của bên nào biến động nhiều hơn được chọn
- > Tính: Đo khối lượng và thể tích của 200 kiện hàng -> Tính trung bình, độ
lệch chuẩn -> Tính CV của khối lượng và tính CV của thể tích -> So sánh
- Z Score = (x-mean)/SD : điểm chuẩn Z. Cho biết 1 giá trị quan sát lệch so với
trung bình bao nhiêu độ lệch chuẩn. Nếu lệch trái thì z < 0, lệch phải thì z > 0.
cái này cũng dùng cho những tập DL ko cùng thang đo / đơn vị đo
c. Distribution shape (hình dáng phân bố):
- Frequency Distribution (tần suất phân bố). Tần suất phân bố là cách tổ chức và
biểu diễn dữ liệu bằng cách phân loại giá trị thành các khoảng và ghi lại số lần
xuất hiện (tần suất) của mỗi khoảng đó. Biểu đồ tần suất phân bố thường được
thể hiện bằng histogram. Mục đích: Hiển thị sự phân bố của dữ liệu, giúp đánh
giá hình dạng tổng thể của phân bố.
- Skewness (độ lệch): Thước đo mức độ đối xứng, bất đối xứng của một phân
phối.
+ 0 : cân đối (mode = mean = median)
+ > 0 : lệch phải (tích cực) - đuôi bên phải dài hơn bên trái (mode >
median > mean)
+ < 0 : lệch trái (tiêu cực) - đuôi bên trái dài hơn (mode < median < mean)
- Kurtosis (độ nhọn): đánh giá xem DL phân bố nhiều ở trung tâm hay ở 2 đuôi.
EK = Kurtosis - 3 (3 là độ nhọn của phân phối chuẩn)
+ EK = 0 : cân đối
+ EK > 0 : vừa nhọn vừa cao
+ EK < 0 : vừa tù vừa thấp
Hệ số kurtosis là một thước đo hữu ích để đánh giá có những vấn đề nào liên
quan đến các giá trị ngoại lệ trong tập dữ liệu hay không. Hệ số kurtosis lớn
(trường hợp Leptokurtic) cho thấy tập dữ liệu gặp vấn đề nghiêm trọng đối với
các giá trị ngoại lệ và có thể khiến nhà nghiên cứu lựa chọn các phương pháp
thống kê thay thế
2. Inferential Statistics:
- Đưa ra các kết luận, dự đoán và giả thiết về tổng thể dựa trên DL mẫu
a. Hypothesis Testing (kiểm định giả thuyết): Quá trình thiết lập và sử
dụng các tiêu chuẩn thống kê để hỗ trợ cho việc đi đến quyết định về
giá trị của giả thuyết trong điều kiện bất định. Trong những quyết định
như thế, có thể may mắn lựa chọn đúng, nhưng cũng có thể vấp phải
rủi ro, tức lựa chọn sai lầm. Quá trình kiểm định giả thuyết có liên
quan đến việc đánh giá những cơ may này và đưa ra các tiêu chuẩn
cho phép tối thiểu hóa khả năng đi đến quyết định sai lầm
- T-test: so sánh trung bình của 2 tổng thể hoặc kiểm tra xem trung bình mẫu có
khác biệt đáng kể so với giá trị đã biết
- Chi-square: ktra mối quan hệ giữa 2 biến phân loại (có hay ko MQH)
- ANOVA: kiểm định sự khác biệt (về trung bình) của 3 nhóm trở lên
Video Statistics For Data Analysis: Thống kê cho phân tích dữ liệu
nên học gì?
Video Introduce popular hypothesis testing methods: T-test,
ANOVA, Chi-squared, K-S test
V. Predictive Analysis:
1. Time series Analysis (phân tích dãy số thời gian):
- Dãy số thời gian là dãy các trị số của các chỉ tiêu thống kê được sắp xếp theo
thứ tự thời gian.
VD: Dữ liệu doanh số bán hàng theo tháng, tốc độ tăng dân số của quốc gia qua
các năm, lương trung bình của lao động của công ty qua các năm.
- Phân tích dãy số tgian cho phép nghiên cứu xu hướng biến động của hiện tượng
theo thời gian. Từ đó tìm ra quy luật của sự thay đổi, đồng thời dự đoán được
mức độ của các hiện tượng trong tương lai
- Ứng dụng: phân tích xu hướng, tính mùa vụ, dự báo
- Các cách:
+ Trực quan xu hướng doanh số bán hàng (Sales) theo thời gian (Y, Q, M, D)
+ Phân tích xu thế của doanh số bán hàng sử dụng đường xu hướng (trend line)
Hiện tượng biến động có xu hướng không? Có tăng hay giảm? Mạnh hay yếu?
Có ý nghĩa thống kê không?
=> Độ dốc dương thì tăng, R-squared càng lớn thì ảnh hưởng của thời gian lên
biến động càng mạnh, P-value < 0.05 -> Có ý nghĩa thống kê
+ Phân tích xu hướng sử dụng phương pháp trung bình trượt (moving average
method)
.) Mục tiêu chính: Giảm đi các nhiễu, làm trơn các biến động lớn để làm rõ các
xu hướng biến động dài hạn
.) Simple moving average: Trung bình trượt của n kỳ bằng trung bình của n kỳ
trước đó chia cho n
.) Nhược điểm: Chỉ số cảnh báo nên không phát hiện được xu hướng mới, mà
chỉ phát hiện xu hướng ở trong lịch sử đã có, cần dữ liệu lịch sử để tính toán
các giá trị trung bình nên không áp dụng với Phát hiện bất thường
+ Phân tích hành vi mùa vụ (seasonality) của dữ liệu thời gian
.) Dữ liệu có biến động lặp lại trong khoảng thời gian xác định không?
VD: Sản phẩm áo ấm vào mùa đông, Sản phẩm máy lạnh vào mùa hè; Lưu
lượng giao thông….
+ Dự báo doanh số bán hàng (Forecast sales) sử dụng phương pháp làm trơn
giảm mũ (exponetial smoothing method)
2. Linear Regression:
- Hồi quy tuyến tính dự đoán mối quan hệ giữa hai biến bằng cách giả định mối
liên hệ tuyến tính giữa biến độc lập và biến phụ thuộc.
- Cách chuyển các dạng near linear thành linear:
- Được áp dụng trong nhiều lĩnh vực khác nhau như kinh tế và tài chính, phương
pháp này phân tích và dự báo xu hướng dữ liệu.
- VD: Bạn có thể sử dụng mối tương quan giữa tính thời vụ và số liệu bán hàng
để dự đoán khi nào doanh số bán hàng có thể giảm. Nếu mô hình dự đoán của
bạn cho bạn biết rằng doanh số bán hàng có thể giảm vào mùa hè, bạn có thể sử
dụng thông tin này để đưa ra chiến dịch quảng cáo liên quan đến mùa hè hoặc
giảm chi tiêu ở nơi khác để bù đắp cho sự sụt giảm theo mùa.
- Hồi quy tuyến tính có hai tham số chính: độ dốc (trọng lượng) và điểm chặn.
Độ dốc biểu thị sự thay đổi của biến phụ thuộc đối với sự thay đổi đơn vị của
biến độc lập. Điểm chặn là giá trị của biến phụ thuộc khi biến độc lập bằng 0.
Mục tiêu là tìm ra đường phù hợp nhất để giảm thiểu sự khác biệt giữa giá trị
dự đoán và giá trị thực tế.
- Công thức của đường hồi quy tuyến tính đơn là:
VD:
Salary = 168.6975 * TrainedYear + 474.9816
168.6875 là độ dốc, 474.9816 là hệ số chặn
R2 = 0.8721: TrainedYear giải thích 87,21% biến thiên trung bình về lương của
nhân viên công ty
Nếu TrainedYear = 0 thì lương trung bình của công ty = 474.9816 đô la
Nếu TrainedYear = 1 thì lương trung bình của công ty = ……. đô la
VD:
Salary = -4.3838 * Age + 34.1281 * WorkingYear + 154.3111 * TrainedYear +
518.1339
Biến tuổi hầu như không tác động nhiều đến lương
R2=90%: 3 biến TrainedYear, WorkingYear và Age giải thích 90% biến thiên
trung bình về lương của nhân viên công ty
Khi giải thích một biến thì phải cố định các biến còn lại
Nếu số năm đào tạo và số năm làm việc không đổi, khi tuổi tăng thì lương sẽ
giảm 4.3838 + 518.13339 đô la
Trong đó:
+ Y: biến phụ thuộc, là biến chịu tác động của biến khác.
+ X, X1, X2, Xn: biến độc lập, là biến tác động lên biến khác.
+ β0: hằng số hồi quy, hay còn được gọi là hệ số chặn. Đây là chỉ số nói lên giá
trị của Y sẽ là bao nhiêu nếu tất cả X cùng bằng 0. Nói cách khác, chỉ số này
cho chúng ta biết giá trị của Y là bao nhiêu nếu không có các X. Khi biểu diễn
trên đồ thị Oxy, β0 là điểm trên trục Oy mà đường hồi quy cắt qua.
+ β1, β2, βn: hệ số hồi quy, hay còn được gọi là hệ số góc. Chỉ số này cho chúng
ta biết về mức thay đổi của Y gây ra bởi X tương ứng. Nói cách khác, chỉ số
này nói lên có bao nhiêu đơn vị Y sẽ thay đổi nếu X tăng hoặc giảm một đơn
vị.
+ e: sai số. Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở
nên kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế. Sai số trong hồi
quy tổng thể hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các
biến độc lập ngoài mô hình, hai là các sai số ngẫu nhiên.
3. Data Classification:
- Tìm cách xếp các đối tượng đã cho vào các lớp đã biết trước => Dự báo dùng
cho kết quả không liên tục
a. Decision tree:
- Là 1 mô hình phân lớp DL phổ biến dựa vào cấu trúc dạng cây. Nói một cách
đơn giản, nó có dạng một cái cây với các nhánh tượng trưng cho câu trả lời
tiềm năng cho một câu hỏi nhất định.
- Cấu trúc logic: IF THEN ELSE
- vd: nếu giới tính Nữ, 13-25 tuổi… nơi sống thành phố => thích trà sữa
- Gồm nút gốc, nút trong và lá
Giả sử chia tập dữ liệu thành hai nhánh. Một nhánh có bốn giá trị trong khi
nhánh kia có sáu giá trị. Nhánh bên trái có bốn màu tím trong khi nhánh bên
phải có năm màu vàng và một màu tím. Chúng tôi đã đề cập rằng khi tất cả các
quan sát thuộc cùng một lớp, thì entropy bằng 0 vì tập dữ liệu là thuần túy. Như
vậy, entropy của nhánh trái Eleft=0. Mặt khác, nhánh bên phải có năm màu
vàng và một màu tím. Như vậy:
Một sự phân chia tốt sẽ có năm trên mỗi nhánh. Chúng ta biết entropy của mỗi
nhánh. Chúng tôi tính toán entropy của mỗi nhánh theo số phần tử mà mỗi
nhánh chứa. Điều này giúp chúng tôi tính toán chất lượng của sự phân chia. Cái
bên trái có 4, trong khi cái còn lại có 6 trên tổng số 10. Do đó, trọng số sẽ như
sau:
Entropy trước khi phân chia, mà chúng tôi gọi là entropy ban đầu Einitial=1.
Sau khi chia tách, giá trị hiện tại là 0,39 . Bây giờ chúng ta có thể nhận được
Information Gain, đó là entropy mà chúng ta “đã mất” sau khi chia tách.
Càng loại bỏ nhiều entropy thì Information gain càng lớn. Information gain
càng cao thì sự phân chia
Cách vẽ
B1: Thuộc tính có mức thu được thông tin cao nhất từ một tập hợp phải được
chọn làm nút cha (gốc).
B2: Xây dựng các nút con cho mọi giá trị của thuộc tính A.
B3: Lặp lại nhiều lần cho đến khi bạn hoàn thành việc xây dựng toàn bộ cây.
b. KNN:
- Dựa trên 1 tư tưởng là xếp 1 đối tượng vào 1 lớp nào đấy, thì xem những người
có đặc tính tương tự ng cần xếp gần nhất thuộc lớp nào => xếp ng đó ở lớp đó.
Với K = Số tự nhiên, nếu lớp nào chiếm nhiều xung quanh của đối tượng thì
đối tượng được xếp vào lớp đó
- vd: nhóm 5 đứa chơi chung mà biết đc 4 ng nhuộm tóc thì người còn lại cũng
nhuộm tóc
- Các bước:
+ B1: Xác định số láng giềng k là bao nhiêu
+ B2: Tính khoảng cách từ điểm cần xếp lớp đến tất cả các điểm còn lại ở
trong dữ liệu của mình (từ x đến all k)
+ B3: Sắp xếp khoảng cách này theo thứ tự tăng dần
+ B4: Chọn ra số láng giềng gần => K láng giềng gần. VD chọn 5 thì tính
từ trên xuống 5 là cắt
+ B5: đếm trong k láng giềng gần này thì lớp (nhãn) nào nhiều nhất =>
xếp đối tượng vào lớp đó
c. Naive Bayes:
d. Confusion matrix
Là một phương pháp đánh giá kết quả của những bài toán phân loại với việc xem xét
cả những chỉ số về độ chính xác và độ bao quát của các dự đoán cho từng lớp
Bài toán: Chẩn đoán ung thư với 2 lớp - bị ung thư được chuẩn đoán Positive và lớp
không bị ung thư được chuẩn đoán là Negative
● TP (True Positive): Số lượng dự đoán chính xác. Là khi mô hình dự đoán đúng
một người bị ung thư.
● TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp. Là khi
mô hình dự đoán đúng một người không bị ung thư, tức là việc không chọn
trường hợp bị ung thư là chính xác.
● FP (False Positive - Type 1 Error): Số lượng các dự đoán sai lệch. Là khi mô
hình dự đoán một người bị ung thư và người đó không ung thư.
● FN (False Negative - Type 2 Error): Số lượng các dự đoán sai lệch một cách
gián tiếp. Là khi mô hình dự đoán một người không bị ung thư nhưng người đó
bị ung thư, tức là việc không chọn trường hợp bị ung thư là sai.
Precision: Trong tất cả các dự đoán Positive được đưa ra, bao nhiêu dự đoán là
chính xác?
Recall: Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự
đoán chính xác?
Để đánh giá độ tin cậy chung của mô hình, người ta đã kết hợp 2 chỉ số Precision
và Recall thành một chỉ số duy nhất: F-score, được tính theo công thức:
Một mô hình có chỉ số F-score cao chỉ khi cả 2 chỉ số Precision và Recall đều
cao. Một trong 2 chỉ số này thấp đều sẽ kéo điểm F-score xuống. Trường hợp
xấu nhất khi 1 trong hai chỉ số Precison và Recall bằng 0 sẽ kéo điểm F-score về
0. Trường hợp tốt nhất khi cả điểm chỉ số đều đạt giá trị bằng 1, khi đó điểm F-
score sẽ là 1.