Interpret Chart and Graphs
Interpret Chart and Graphs
Đây là kiến thức cơ bản để phân tích dữ liệu dạng biểu đồ, đồ thị.
Tìm hiểu sâu hơn việc phân tích dữ liệu tại khóa học DATA ANALYSIS
Dữ liệu danh nghĩa - unordered Dữ liệu thứ bậc - ordered Dữ liệu liên tục Dữ liệu rời rạc
Mô tả: những thông tin Mô tả: thông tin xếp hạng Mô tả: đo lường thông tin Mô tả: dữ liệu số có số
miêu tả đặc tính cá nhân, trong một danh sách các trong một khoảng nhất định lượng hữu hạn các giá trị
riêng biệt của đối tượng vấn đề được đề cập như như chiều cao là một số liên đếm được. Ví dụ: Số lượng
tham gia nghiên cứu, ví dụ tầm quan trọng của sản tục, chiều cao có thể là 1 số nhân viên trong văn phòng,
như giới tính, nghề nghiệp, phẩm, mức độ thoả mãn, bất kỳ từ 0 - 2m, hoặc độ số chai nước ngọt trong
sở thích,... tần suất sử dụng, ... tuổi, ... Circle K, doanh thu công ty,..
Biểu thị: dưới dạng tần số hoặc phần trăm và biểu Biểu thị: dạng bảng số và được thường xuyên biểu
diễn trên biểu đồ dạng cột, đường, tuỳ theo tính
diễn trên biểu đồ dạng quạt, cột, hay cột chồng
chất và số các tiêu chí đánh giá nhiều hay ít
II. XÁC ĐỊNH MỐI QUAN HỆ GIỮA CÁC LOẠI DỮ LIỆU
TRONG BIỂU ĐỒ
SO SÁNH ĐỊNH DANH (NOMINAL COMPARISION) ĐỘ LỆCH (DEVIATION)
Đây là loại so sánh đơn giản giữa giá trị của các
Loại này kiểm tra các data point liên quan với
danh mục. Ví dụ: Số lượng khách truy cập vào các
nhau như thế nào, đặc biệt xem xét các data
trang web khác nhau.
point khác với giá trị trung bình ra sao .Ví dụ:
Vé công viên giải trí được bán vào ngày mưa
so với ngày thường.
CHUỖI THỜI GIAN (TIME-SERIES)
Loại này theo dõi sự thay đổi giá trị của một metric
PHÂN PHỐI (DISTRIBUTION)
theo thời gian. Ví dụ: Doanh số hàng tháng
Loại này thể hiện sự phân phối của dữ liệu,
thường xoay quanh một giá trị trung tâm. Ví
dụ: Chiều cao của các cầu thủ trong một đội
TƯƠNG QUAN (CORRELATIONS)
bóng rổ.
Đây là dữ liệu có hai hoặc nhiều biến, chúng có thể
có mối tương quan âm hoặc dương. Ví dụ: Tiền MỘT PHẦN SO VỚI TỔNG THỂ (PART- TO-
lương theo trình độ học vấn. WHOLE RELATIONSHIPS)
Điều này cho thấy một tập hợp con dữ liệu
so với tổng thể lớn hơn. Ví dụ: Tỷ lệ khách
XẾP HẠNG (RANKING) hàng mua của từng sản phẩm cụ thể.
Mối quan hệ này so sánh hai hoặc nhiều giá trị với
nhau theo thứ bậc. Ví dụ: Mẫu dữ liệu về lịch sử Bây giờ, bạn đã biết được các loại dữ liệu phổ biến nhất và các
thời tiết, được xếp hạng từ những tháng nóng nhất loại mối quan hệ giữa chúng. Hãy tìm hiểu kĩ hơn về thứ tự đọc
đến lạnh nhất. các thành phần trong 1 biểu đồ
III. THỨ TỰ ĐỌC CÁC THÀNH PHẦN TRONG 1 BIỂU ĐỒ
NGUYÊN TẮC ĐỌC BIỂU ĐỒ: Từ 1. CHART TITLE : tiêu đề biểu đồ, thể hiện mối quan hệ giữa các loại dữ liệu trong biểu đồ
overview (1,2,3,4) rồi tập trung
vào specific point (5,6,7,8) 8. ĐƯỜNG LƯỚI: Đường kẻ ngang
từ trục dọc hay kẻ dọc từ trục ngang
5. SERIES : bảng dữ liệu biểu thị dưới dạng cột, đường, điểm,...
2.2. TRỤC DỌC
TỶ LỆ NHÓM THU NHẬP THEO TUỔI
100%
90% x
TỈ LỆ PHẦN TRĂM NHÓM THU NHẬP
Trên 30 tuổi
Màu răng Vôi răng Sâu răng Hơi thở có mùi Răng ê buốt Viêm lợi
Bước 1. Xác định điểm nổi bật, bất thường như là:
- Peak/low (point): các giá trị cao/thấp, lớn/nhỏ trên series
+ VD: Peak ở màu răng hay các vấn đều khác đều là nhóm trên 30 tuổi. Ở nhóm trên 30, vôi răng cao nhất, 53%
- Turning points: điểm ngoặc (đường cong trong biểu đồ đường).
- Intersection points: điểm giao nhau (của nhiều đường)
Bước 2. Xác định và so sánh xu hướng (xu hướng có thể là sự dịch chuyển/thay đổi/ so sánh giữa các điểm ở bước 1)
+ VD: Trong hầu hết các vấn đề răng miệng, tỷ lệ gặp vấn đề tăng dần theo độ tuổi
Bước 3. Phân tích xu hướng (mô tả mối quan hệ giữa các loại data) và rút ra kết luận mô tả
+ VD: Tương quan dương (càng lớn tuổi, càng có nhiều vấn đề về răng miệng), Xếp hạng (Nhóm trên 30 gặp nhiều vấn đề về vôi răng
nhất)
==> Có thể rút ra kết luận như sau: Người Việt Nam càng lớn tuổi thì càng gặp nhiều vấn đề về răng miệng, nhất là khi đã trên 30 gặp vấn
đề vôi răng nghiêm trọng nhất.
Lưu ý: với các biểu đồ đơn giản, không nhất thiết phải thực hiện cả 3 bước
V. ĐỌC CÁC DẠNG BIỂU ĐỒ & ĐỒ THỊ THƯỜNG GẶP
1. BAR CHART (BIỂU ĐỒ CỘT) 2. STACKED BAR CHART (BIỂU ĐỒ CỘT CHỒNG)
Doanh số máy tính của các công ty trên thị trường ($)
$6,000
Doanh số máy tính của công ty A ($)
$16,000
$5,000 $14,000
$5,000 $12,000
$4,000
$10,000 Máy tính bảng
$3,000 $8,000
Máy tính xách tay
$2,000 $6,000
$2,000 $4,000 Máy tính để bàn
$1,000 $1,500
$2,000
$- $-
Máy tính để bàn Máy tính xách tay Máy tính bảng Công ty A Công ty B Công ty C
Có thể đọc/rút ra điều gì từ biểu đồ Có thể đọc/rút ra điều gì từ biểu đồ mekko (= cột chồng + cột
- Peak: contribution máy tính xách tay của công ty A cao hơn chồng 100%) Độ rộng 1 cột là % doanh số công ty trong thị trường máy tính, các
của các công ty khác ngăn xếp cột là % doanh số các loại máy tính
- Có thể rút ra kết luận như sau: - Low: Contribution của C là nhỏ nhất
+ Khi mở rộng scale, doanh thu máy tính xách tay của công - Xu hướng: Contribution của công ty C chưa tới 10% toàn ngành, chưa bằng 1/4 của A
ty A có khả năng phát triển hơn của máy tính xách tay của và 1/7 của B
các công ty khác - Có thể rút ra kết luận như sau: công ty C chiến thị phần rất nhỏ trong ngành hàng và
bị các đối thủ khác vượt xa về mặt doanh số
V. ĐỌC CÁC DẠNG BIỂU ĐỒ & ĐỒ THỊ THƯỜNG GẶP
Doanh số máy tính của công ty A (%) Mật độ dân số theo nhóm tuổi
40000
35000
Máy tính để bàn 30000 35000
18% 23%
25000
20000 25000
Máy tính xách tay 22000
15000
10000 15000
Máy tính bảng 59% 5000
5000
0
0-20 21-40 41-60 61-80 81+
Có thể đọc/rút ra điều gì từ biểu đồ Có thể đọc/rút ra điều gì từ biểu đồ tần suất (lưu ý: khác
- Peak: Máy tính xách tay có contribution cao nhất, hơn 50% với biểu đồ cột, trục ngang ở biểu đồ tần suất là dữ liệu liên
- Có thể rút ra kết luận như sau: Máy tính xách tay mang lại tục)
hơn 50% doanh số cho công ty A - Peak: dân số ở độ tuổi 21-40 cao hơn hẳn các nhóm khác
- Có thể kết luận như sau: Mật độ dân số của nhóm 21-40 là
cao nhất
V. ĐỌC CÁC DẠNG BIỂU ĐỒ & ĐỒ THỊ THƯỜNG GẶP
Giá trị thị trường chợ truyền thống theo tháng Mối quan hệ giữa tiền lương và
10 50
9 -
- 50 100 150 200 250
8 Tiền lương
JUL19
JUL20
JUL21
NOV18
MAY19
NOV19
MAY20
MAY21
JAN20
NOV20
JAN21
SEP18
SEP19
SEP20
SEP21
MAR19
MAR20
MAR21
mối tương quan (3 loại: âm, dương, không tương quan) giữa 2 dữ liệu
trên 2 trục)
- Có thể kết luận như sau: Tiền lương tương quan dương/tỷ lệ thuận
Có thể đọc/rút ra điều gì từ biểu đồ đường (thể hiện sự với số dư tài khoản tiết kiệm, lương càng cao, tiền tiết kiệm càng nhiều
thay đổi giá trị theo thời gian)
- Peak: giá trị vào tháng 1, 2020;Low: giá trị vào tháng 9,2021
Tương quan dương Tương quan âm Không tương quan
- Xu hướng: Từ sau tháng 9/2020, giá trị thị trường chợ truyền thống
giảm
- Có thể kết luận như sau: Giá trị thị trường chợ truyền thống có xu
hướng giảm trong khoảng 9/2020 - 9/2021
V. ĐỌC CÁC DẠNG BIỂU ĐỒ & ĐỒ THỊ THƯỜNG GẶP
Biểu đồ bong bóng tương tự như biểu đồ phân tán ở việc thể
hiện mối tương quan. Khác với biểu đồ phân tán, biểu đồ bong
1400 996 bóng có bộ dữ liệu thứ ba, được biểu thị bằng kích thước của
bong bóng.
JAN22 1200
901
Có thể đọc/rút ra điều gì từ biểu đồ bong bóng (thể hiện
1000 sự thay đổi giá trị theo thời gian)
FEB22 805
==> Có thể kết luận như sau: (Tương quan dương) Doanh số
thực tế tăng cùng với doanh số dự kiến và chi phí marketing
MAR22 800 trong 5 tháng đầu của năm 2022
710
MAY22 400
400 600 800 1000 1200
Plan sales ($)
Click vào đây để tìm hiểu thêm về khoá học Data
Analysis của TM