Professional Documents
Culture Documents
2.trinh Bay Du Lieu
2.trinh Bay Du Lieu
Nội dung:
Hướng dẫn cách thức trình bày & mô tả dữ liệu;
Tóm tắt dữ liệu bằng một số các đại lượng (đặc trưng) cơ
bản.
II.1. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH Ví dụ 1. Dưới đây là kết quả của 40 câu trả lời từ một khảo sát về
1. Bảng tần số, tần suất việc liệu người xem TV quan tâm đến một chương trình
Gameshow hay kinh doanh:
Bảng tần số, tần suất là một bảng tổng hợp, trình bày dữ liệu
bằng cách phân chia chúng thành từng nhóm (lớp) khác nhau.
Bảng tần số, tần suất thường bao gồm ba cột:
- Cột thứ hai mô tả tần số tương ứng với các biểu hiện đó.
1
16/07/2023
Bảng tần số, tần suất tương ứng: 2. Đồ thị thống kê cho dữ liệu định tính
2.1 Biểu đồ dạng thanh
(Bar Chart: thanh đứng hay thanh ngang)
Để mô tả dữ liệu dạng định tính được tóm tắt trong phân phối tần số,
tần suất hoặc tần suất phần trăm.
Trên một trục (thường là trục ngang), chúng ta đặt các nhãn đại diện
cho các nhóm.
Trên trục đứng, ta biểu diễn tần số, tần suất.
Sau đó, sử dụng một thang có chiều rộng cố định để vẽ cho mỗi
nhóm.
Do dữ liệu định tính, nên các thanh nên được tách ra để nhấn mạnh
𝐭ầ𝐧 𝐬ố
𝐓ầ𝐧 𝐬𝐮ấ𝐭 = sự khác biệt.
𝒏
VÍ DỤ 2
Ví dụ 3. Dữ liệu về việc
sử dụng các trang mạng
xã hội để mua một mặt
hàng có bảng tần số sau:
2
16/07/2023
Ví dụ 3. Từ bảng tần số, tần suất ta có biểu đồ dạng thanh sau 2.2 Biểu đồ hình tròn (Pie chart): Thường dùng để mô tả kết
cấu (%) của vấn đề đang nghiên cứu.
Ví dụ 4. Biểu đồ hình tròn của dữ liệu về việc sử dụng các
trang mạng xã hội để mua một mặt hàng.
Giả sử Google có
thị phần là 57.36%,
thì phần được dán
nhãn Google chiếm
bao nhiêu độ?
Ví dụ 5. Điều tra về các thương hiệu ĐTDĐ được sinh viên Hoa
Sen sử dụng năm 2011, ta được bảng số liệu sau
3
16/07/2023
2.3. Bảng kết hợp nhiều biến định tính Để thấy được việc
Ví dụ 6. Bảng dưới đây được khảo sát từ 1008 thanh niên ở lựa chọn chương
Mỹ về việc quan tâm đến một chương trình Gameshow hay trình để xem và
các quảng cáo xuất hiện trong chương trình: giới tính có mối
liên hệ như thế
nào, chúng ta có
thể lập biểu đồ
dạng thanh như
sau:
Hướng dẫn vẽ các biểu đồ Trường hợp dữ liệu có ít giá trị: Mỗi giá trị quan sát hình
định tính bằng Excel thành một nhóm.
Trường hợp dữ liệu có nhiều giá trị: Trước hết ta phân nhóm
cho các giá trị rồi mới lập bảng tần số trên cơ sở dữ liệu đã
phân nhóm.
4
16/07/2023
Ví dụ 1.
LƯU Ý
Điểm thi Tần số Tần suất Chiều Tần số Tần suất (%)
cao (cm) (người)
(số SV) (%) Khoảng cách của các nhóm không nhất thiết đều nhau.
< 150 173 17,3
3 3 3,75
4 12 15 150 – 160 243 24,3 Người ta thường xác định số nhóm k và khoảng cách giữa các
nhóm h bởi công thức
5 15 18,75
6 20 25
160 – 170 325 32,5 X X min
k 3 2n , h max
k
7 16 20 170 – 180 197 19,7
8 8 10 Có thể xử lý linh động để đảm bảo tính khoa học và mỹ thuật.
≥ 180 62 6,2
9 4 5
10 2 2,5 Quy ước: mỗi khoảng thể hiện sự tồn tại của các giá trị quan
Tổng 1000 100
sát xi sao cho: Cận dưới xi < Cận trên.
Tổng 80 100
VÍ DỤ 2 VÍ DỤ 2 (TIẾP)
𝑛 = 40, 𝑥 = 179, 𝑥 = 153.
Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng Ta có số nhóm 𝑘 = 2 × 40 ≈ 4,3.
như sau:
Khoảng cách giữa các nhóm ℎ = = 6,5
153 154 156 157 158 159 159 160 160 160 Ta chọn 𝑘 = 4 và ℎ = 7, ta được các nhóm
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168 [153, 160); [160, 167); [167,174); [174,181)
170 171 172 173 174 175 176 177 178 179
Hoặc có thể viết lại:
153 – 160; 160 – 167; 167 – 174; 174 – 181
Hoặc:
153 – 160; 160 – 167; 167 – 174; 174 – 179
5
16/07/2023
VÍ DỤ 2. (TIẾP) Một số điều kiện phải tuân thủ khi phân nhóm:
- Không được giao nhau.
Năng suất Tần số Tần suất (%) - Bao quát hết tất cả các giá trị của mẫu số liệu.
- Không có nhóm rỗng.
153 – 160 5 12,5
Ví dụ 3. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tiền
160 – 167 19 47,5 (triệu đồng) bán được trong ngày của các cửa hàng được ghi
lại như sau:
167 – 174 9 22,5
57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7
41,1 45,8 47,2 46,9 56,9 45 38,8 50,3 37,6 38,9
174 – 181 7 17,5
52,3 49,2 47,5 47 49,6 46,2 49,8 36,8
Tổng 40 100
VÍ DỤ 3. PHÂN NHÓM (TỔ) Ví dụ 5. Ta có bảng tần số/ tần suất tích luỹ sau đây. Từ bảng ta
thấy có 15 cửa hàng, chiếm 53,6%, có số tiền bán hàng trong
ngày dưới 48 triệu đồng.
Tiền bán Tần số Tần số tích Tần suất Tần suất
Tiền bán hàng (triệu đồng) Tần số Tần suất (%)
hàng (triệu lũy (%) tích luỹ
36 – 40 4 14,3 đồng) (%)
40 – 44 4 14,3 36 – 40 4 4 14,3 14,3
44 – 48 7 25 40 – 44 4 8 14,3 28,6
48 – 52 7 25 44 – 48 7 15 25 53,6
52 – 56 3 10,7
48 – 52 7 22 25 78,6
56 – 60 3 10,7
52 – 56 3 25 10,7 89,3
Tổng 28 100
56 – 60 3 28 10,7 100
Tổng 28 100
6
16/07/2023
Ngoài cách phân nhóm như trên ta còn có thể phân nhóm mở, Ví dụ 6. Bảng năng suất lúa của một số hộ gia đình như sau:
trong đó nhóm đầu tiên không có giới hạn dưới và nhóm cuối
cùng không có giới hạn trên, các nhóm còn lại có khoảng cách Năng suất lúa (tạ/ha) Số gia đình
đều hoặc không đều. <35 6
Mục đích của phân nhóm mở là để nhóm đầu tiên và nhóm 35 – 40 10
cuối cùng chứa được các đơn vị có giá trị đột biến và tránh
40 – 45 20
việc lập quá nhiều lớp.
Khi tính toán đối với phân nhóm mở người ta quy ước lấy 45 – 50 12
khoảng cách của nhóm mở bằng khoảng cách của nhóm gần 50 – 55 3
nó nhất. Tổng 50
Nhóm < 35 (tạ/ha) được quy ước có khoảng cách nhóm ℎ = 5.
2. Đồ thị thống kê các loại Ví dụ 7. Biểu đồ phân phối tần số của bảng tần số ở ví dụ 4
a) Biểu đồ phân phối tần số như sau. (Trục hoành thể hiện biến khảo sát - năng suất. Trục
tung thể hiện tần số).
Biểu đồ phân phối tần số (Histogram) được sử dụng để chuyển
hoá thông tin trên bảng tần số thành hình ảnh trực quan. Năng suất Tần số Tần suất (%)
Tổng 40 100
7
16/07/2023
20
19 SỰ KHÁC BIỆT CỦA BIỂU ĐỒ
18
16 HISTOGRAM
14
12
Tần số
10 9 Không nên nhầm lẫn giữa Histogram với biểu đồ thanh đứng.
8 7 Đây là hai công cụ thống kê khác nhau, thể hiện hai loại dữ
6 5 liệu định lượng, định tính.
4
ĐA GIÁC TẦN SỐ 20
19
18
16
14
Phương pháp thứ hai để biểu diễn phân phối tần số bằng đồ thị 12
Tần số
là dùng đa giác tần số. 10 9
8 7
6 5
Để vẽ đa giác này, ta nối các trung điểm của cạnh đỉnh của các
4
cột trong Histogram lại với nhau bằng các đoạn thẳng.
2
0
Muốn đường biểu diễn không có vẻ lơ lửng trên không, ta 152 - 159 159 - 166 166 - 173 173 - 180
thêm vào hai bên của Histogram hai nhóm có tần số bằng 0. Năng suất
8
16/07/2023
Ví dụ 8. Đa giác tần số
20
18
16
14
12
Hướng dẫn vẽ các biểu đồ
Tần số
10
8 định tính bằng Excel
6
4
2
0
Năng suất
Đối với dữ liệu định lượng, chúng ta có thể tóm tắt tốt hơn khi Trung bình tổng thể
số lượng dữ liệu lớn, đó là dùng các đại lượng thống kê mô tả. ∑ 𝑥
Các đại lượng này được chia thành hai nhóm: 𝜇=
𝑁
Nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu; Trung bình mẫu
Nhóm thể hiện độ phân tán của dữ liệu. ∑ 𝑥 ∑ 𝑥𝑓
𝑥= =
𝑛 𝑛
Ở nhóm thứ nhất ta có trung bình cộng (được sử dụng nhiều Trong đó, 𝑓 là tần số tương ứng với 𝑥 và 𝑘 là số giá trị quan sát
nhất), mốt (hay yếu vị), trung vị. khác nhau của mẫu.
Ở nhóm thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình
quân, phương sai, độ lệch chuẩn (được sử dụng nhiều nhất) và
hệ số biến thiên.
9
16/07/2023
Tổng 40 100
10
16/07/2023
Ví dụ: Ta có thu nhập bình quân đầu người của 2 ngôi làng
như sau
MODE (MỐT – SỐ YẾU VỊ)
Khái niệm
Làng A Làng B Mốt là giá trị xuất hiện nhiều nhất trong dữ liệu.
Trường hợp dữ liệu khoảng đều (VD 1.17) DỮ LIỆU CÓ KHOẢNG CÁCH KHÔNG
Xác định nhóm chứa Mode. Là nhóm có
ĐỀU (VD 1.18)
tần số lớn nhất. Trong VD này là nhóm Khối lượng Số sản
(496-502). (gam) phẩm (fi) Sử dụng công thức tương tự như trường hợp
Giới hạn dưới của nhóm này là 484 – 490 5 khoảng cách đều, nhưng các tần suất 𝑓 , 𝑓 ,
𝑥 ( ) = 496. 490 – 496 10 𝑓 sẽ thay bằng mật độ phân phối tổ 𝑑 ,
Khoảng cách của nhóm này là ℎ = 496 – 502 15
502 − 496 = 6. 𝑑 ,𝑑 . Trong đó
502 – 508 13
Tần số của nhóm trước (nhóm 490-496), 𝑓
nhóm chứa, và nhóm sau (502-508) lần 508 – 514 7 𝑑 =
lượt là: 𝑓 = 10 , 𝑓 = 15 , và Cộng 50
ℎ
𝑓 = 13. Tức là:
𝑓 −𝑓 𝑑 −𝑑
Mod 𝑥 = 𝑥 ( ) +ℎ × Mod 𝑥 = 𝑥 ( ) +ℎ ×
2𝑓 −𝑓 −𝑓 2𝑑 −𝑑 −𝑑
11
16/07/2023
12
16/07/2023
Trong một mẫu gồm 𝑛 phần tử, Khối lượng Số sản Tần số
(gam) phẩm (fi) tích lũy
Nhóm chứa trung vị là
Tính tần số tích lũy, (𝑺𝒊 ) nhóm 496-502.
Xác định nhóm chứa Med(𝑥) là nhóm gần nhất có tần số tích 484 – 490 5 5
lũy ≥ (𝑛 + 1)/2. 490 – 496 10 15
𝑛/2 − 𝑆 496 – 502 15 30
Suy ra
Med 𝑥 = 𝑥 ( ) + ℎ × Med 𝑥
𝑓 502 – 508 13 43
Trong đó, 𝑥 ( ) là giới hạn dưới của nhóm chứa Med(𝑥); 50
508 – 514 7 50 − 15
ℎ là trị số khoảng cách của nhóm đó; và 𝑆 là tần số tích Cộng 50 = 496 + 6 × 2
lũy của nhóm đứng trước nhóm chứa Med(𝑥). 15
= 500
Trung vị luôn tồn tại và duy nhất. Tứ phân vị, thập phân vị là chỉ tiêu đo lường độ phân tán chứ
không phải chỉ tiêu đo lường khuynh hướng tập trung. [Thập
phân vị: đọc thêm giáo trình]
Trung vị là đặc trưng đo lường khuynh hướng
tập trung ít bị ảnh hưởng bởi các giá trị đột
biến.
13
16/07/2023
14
16/07/2023
là 600-800. 400-500 12 20
(MEDIAN), tứ Mode 36,4
Standard Deviation 1,188856
Suy ra 500-600 25 45 phân vị Sample Variance 1,413379
79
𝑄 = 400 + 500 − 400 × 4
−8 600-800 25 70 (Quantile.exc) Kurtosis -0,46487
12 800-1000 9 79
& Mode Skewness 0,428087
Tổng 79
2 × 79 Range 4,5
𝑄 = Med = 500 + 100 × 4
− 20 (MODE) bằng
Minimum 34,9
25
Excel Maximum 39,4
3 × 79
− 45 Sum 1106,4
𝑄 = 600 + 200 × 4
25 Count 30
15
16/07/2023
%
140
<35 2 <35 2 10
35 – 40 6
120
< 40 8 40
40 – 45 3
100
25
ĐỒ THỊ OGIVE NĂNG SUẤT LÚA
Nội dung cơ bản của biểu đồ nhánh – lá là
ta tách dữ liệu thành 2 phần là nhánh và lá
20 20
theo một quy ước nào đó.
TẦN SỐ TÍCH LŨY
15 15
11
Trong đó, bên phải là nhánh, còn bên trái là
10
8 lá.
5
0
35 40 45 50 55
NĂNG SUẤT LÚA (TẠ/HA)
16
16/07/2023
VÍ DỤ LƯU Ý
Dữ liệu về độ tuổi của 30 người học tại chức
tại một lớp học như sau: Đồ thị nhánh và lá có thể biểu thị thêm tần số
(số lần xuất hiện của nhánh) và có thể tách
28 23 30 24 19 21 39 22 22 31
thành nhiều nhánh nếu nhánh khá dài.
21 26 27 25 29 27 21 25 28 26
37 33 20 30 35 29 29 22 32 27
Đơn vị ở lá có thể thay đổi tùy từng trường
Biểu đồ nhánh - lá
hợp
“tuổi”: biến 15 6
Frequency: tần số 16 4 7
Stem: nhánh 17 3 6 9
Leaf: lá
18 1 5 5 8
Stem width: đơn vị của
nhánh. 19 1 5 6
Each leaf: số quan sát 20 0 4
cho mỗi leaf.
Đơn vị của lá luôn nhỏ
hơn 1 đơn vị của nhánh.
17
16/07/2023
Các đặc trưng đo lượng sự phân tán KHOẢNG BIẾN THIÊN (RANGE)
Các đặc trưng đo lường khuynh hướng tập trung: mean (giá trị
trung bình), mode (yếu vị), median (trung vị). 𝑅=𝑥 −𝑥
Ví dụ. Có hai tổ công nhân, mỗi tổ có 5 người với
Các đặc trưng đo lường độ phân tán: khoảng biến thiên R, độ mức năng suất lao động như sau:
trãi giữa 𝑅 , độ lệch tuyệt đối MAD, phương sai, phương sai
Tổ I: 200, 250, 300, 350, 400
mẫu hiệu chỉnh, độ lệch chuẩn, hệ số biến thiên.
Tổ II: 280, 290, 300, 310, 320
Hình dáng của dữ liệu. Khoảng biến thiên của hai tổ là:
Tổ I: 𝑅 = 400 − 200 = 200
Tổ II: 𝑅 = 320 − 280 = 40
thuộc vào giá trị lớn nhất và giá trị nhỏ nhất
Q3 154.5 194 155
Max 189 199 176
18
16/07/2023
Độ trải giữa thể Ví dụ. Tiền lương của hai tổ, mỗi tổ có 11 công nhân, được cho
trong bảng sau đây:
hiện độ phân
200
Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9
tán của 50% dữ
180
Tổ II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9
liệu giữa của
160
Q1 Q2 Q3
dãy số.
Độ trãi giữa: 140
Độ trải giữa của tổ I:𝑅 = 𝑄 − 𝑄 = 2,7 − 2,1 = 0,6;
120
2014: 𝑅 = 65; 2013 2014 Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương trong tổ I
2015
2015: 𝑅 = 38.5; biến thiên nhiều hơn trong tổ II.
19
16/07/2023
HỆ SỐ BIẾN THIÊN Ví dụ 6. Trong ngành tài chính, hệ số biến thiên thường được sử
dụng để đo mức độ rủi ro tương đối của các danh mục vốn đầu
tư. Chẳng hạn, một nhà kinh doanh xem xét hai danh mục đầu
tư: danh mục A bao gồm các khoản đầu tư có lợi nhuận trung
Hệ số biến thiên đo lường độ phân tán tương đối bình 16% với độ lệch tiêu chuẩn là 4%; danh mục B có lợi
của dữ liệu khi so sánh với giá trị trung bình. nhuận trung bình 9% với độ lệch tiêu chuẩn 3%. Ta có
𝑠 4 3
CV = × 100% 𝐶𝑉 = . 100% = 25% ; 𝐶𝑉 = . 100% = 33%
𝑥 16 9
Hệ số biến thiên dùng để so sánh độ phân tán của
Mặc dù danh mục B có độ lệch tiêu chuẩn bé hơn, khiến ta có
hai tập dữ liệu với giá trị trung bình khác nhau. cảm giác lợi nhuận ít biến động hơn. Nhưng khi xem xét giá trị
Khi hệ số biến thiên của hai tập dữ liệu được so CV lại cho kết luận danh mục B biến thiên nhiều hơn A.
sánh với nhau, hệ số biến thiên của tập nào lớn Ngoài ra, hệ số biến thiên cũng hữu dụng khi so sánh hai tập dữ
liệu có đơn vị đo khác nhau vì hệ số biến thiên không phụ thuộc
hơn thì tập đó biến động nhiều hơn. vào đơn vị đo và được tính bằng %.
20
16/07/2023
Hướng dẫn sử dụng máy tính Casio fx-570ES Plus BÀI TẬP
Bấm: Shift mode 4 (stat)
Chọn: 1 (On) Chọn ngẫu nhiên một số doanh nghiệp của hai ngành kinh doanh A
Bấm: On và B, tỉ lệ lãi trên vốn (%) của các doanh nghiệp đó ghi nhận được
như sau:
Bấm: mode 3 1(1-var)
Màn hình hiện ra bảng nhập dữ liệu Ngành A 10,5 9 12 10 8,5 12,5 9,5
x1 n1 (Ta dùng dấu mũi tên Ngành B 8 12 15 10 16 5 6
x2 n2 di chuyển giữa 2 cột)
... ... a) Hãy tính tỉ lệ lãi trung bình của các doanh nghiệp ở mỗi ngành.
xm nm. b) Tìm khoảng biến thiên, độ trải giữa cho từng ngành.
Bấm AC. c) Tìm độ lệch chuẩn, hệ số biến thiên cho từng ngành.
Gọi kết quả: Shift 1 4(Var) màn hình hiện ra: d) Từ các kết quả trên, theo bạn, nếu là nhà đầu tư ta nên đầu tư vào
n, X TB, σ (độ lệch) S (độ lệch hiệu chỉnh) ngành nào?
21
16/07/2023
a) Phân phối đối xứng (cân đối) khi 𝜇 = Med (hoặc 𝑋 = Med).
b) Phân phối lệch phải khi 𝜇 > Med > Mod (hoặc 𝑋 > Med >
Mod).
Ví dụ 10. Dưới đây là phân bố điểm thi THPT Quốc gia năm Ví dụ 10. Dưới đây là phân bố điểm thi THPT Quốc gia năm
2018 tại TPHCM ở hai môn Toán và Anh. Hãy nhận xét hình 2018 tại TPHCM ở hai môn Toán và Anh. Hãy nhận xét hình
dáng phân phối của tập dữ liệu điểm thi này. dáng phân phối của tập dữ liệu điểm thi này.
22
16/07/2023
Có giá trị trong khoảng từ −3 đến 3. Ví dụ: Thống kê về cân nặng và chiều cao của
Hệ số lệch có giá trị gần −3 thì dữ liệu lệch lớp chúng ta, thu được số liệu như sau:
trái. Trung bình Độ lệch chuẩn
Cân nặng (kg) 50 3
Hệ số lệch có giá trị gần với 3 thì dữ liệu lệch
Chiều cao (cm) 160 5
phải.
Hệ số lệch có giá trị gần với 0 thì dữ liệu đối Hỏi: Một bạn A có chiều cao là 165 cm và có cân
xứng. nặng 57 kg, hỏi so với trung bình chung của cả
lớp bạn A nặng nhiều hơn hay cao nhiều hơn
BAO NHIÊU?
23
16/07/2023
Giá trị 𝑧 cho ta biết vị trí tương đối của các Ví dụ 8. Một học sinh có điểm thi môn Toán là 8,9 (thang điểm 10)
và điểm thi Anh văn là 89 (thang điểm 100). Ta muốn biết em đó
giá trị trong dữ liệu so với giá trị trung bình. học môn nào khá hơn so với các học sinh trong lớp.
𝑧 =
Toán: 𝑋 = 5,7 và 𝑠 = 1,6; Anh văn: 𝑋 = 6,5 và 𝑠 = 17.
Giá trị 𝑧 thường được gọi là giá trị chuẩn Ta có thể tính được
hóa. Giá trị 𝑧 cho ta biết 𝑥 chênh lệch so với 8,9 − 5,7 89 − 65
𝑧 = =2; 𝑧 = = 1,4
1,6 17
trung bình bao nhiêu lần độ lệch chuẩn.
Như vậy, so với học sinh trong lớp thì em học sinh đó học Toán khá
hơn.
24
16/07/2023
Trọng lượng đóng gói của hộp carton đựng Ít nhất là (1 − 1/𝑧 ) số lượng giá trị dữ liệu
nước giặt thường có phân phối hình chuông. nằm trong 𝑧 độ lệch chuẩn so với trung bình.
Giả sử 𝜇 =16 ounce và 𝜎 =0,25 ounce. Thì Áp dụng cho 𝑧 = 2, thì ta rút ra là có ít nhất
Khoảng 67,67% các hộp sẽ có trọng lượng 0,75 (hay 75%) các giá trị dữ liệu nằm trong
nằm giữa 15,75 và 16,25 ounce. khoảng ±2 độ lệch chuẩn so với giá trị trung
Khoảng 95% các hộp sẽ có trọng lượng nằm bình.
giữa 15,50 và 16,50 ounce. Áp dụng cho 𝑧 = 3, 𝑧 = 4.
Hầu hết các hộp sẽ có trọng lượng nằm giữa Quy tắc Chebyshev không yêu cầu dữ liệu có
15,25 và 16,75 ounce. dạng hình chuông.
25
16/07/2023
2. Hệ số tương quan
Ví dụ 1. Để xem xét mối liên hệ giữa số lượng các quảng cáo Biểu diễn dữ liệu trên đồ thị phân tán, chúng ta nhận thấy rằng
được chiếu trên TV và doanh số bán hàng của một mặt hàng, số lượng các quảng cáo xuất hiện trên TV và doanh số bán
người ta thu thập dữ liệu trong 10 tuần và cho kết quả sau: hàng của mặt hàng này có mối liên hệ tuyến tính thuận. Điều
đó có nghĩa là việc xuất hiện càng nhiều lần quảng cáo thì
doanh số bán hàng càng cao.
26
16/07/2023
Đối với một mẫu kích thước 𝑛 với các quan Đối với một mẫu kích thước 𝑛 với các quan
sát 𝑥 , 𝑦 , (𝑥 , 𝑦 ), …, hiệp phương sai mẫu sát 𝑥 , 𝑦 , (𝑥 , 𝑦 ), …, hệ số tương quan
được định nghĩa như sau mẫu được định nghĩa như sau
∑ 𝑥 −𝑥 𝑦 −𝑦 𝑠
𝑠 = 𝑟 =
𝑛−1 𝑠 𝑠
Hiệp phương sai tổng thể Hiệp phương sai tổng thể
∑ 𝑥 −𝜇 𝑦 −𝜇 𝜎
𝜎 = 𝜌 =
𝑁 𝜎 𝜎
Y y1 y2 ... yh ni
Với mọi đại lượng ngẫu nhiên, ta có −1 ≤ 𝑟 ≤ 1. X
Trường hợp 𝑟 = 0 ta nói 𝑥 và 𝑦 không tương quan với x1 n11 n12 ... n1h n1
nhau. x2 n21 n22 ... n2h n2
Trường hợp 𝑟 = ±1 ta nói 𝑥 và 𝑦 có tương quan tuyến ... ... ... ... ... ...
tính. xk nk1 nk2 ... nkh nk
mj m1 m2 ... mk Σ=n
27
16/07/2023
xi 87 47 74 86 38 15 41 8 79 75
yj 86 56 84 72 47 17 43 19 88 78 (Sử dụng để
tính 𝒓𝑿𝒀 xem tài
liệu trang 31)
Hãy tính 𝑟 . .
X
Y
Củng cố KEYWORDS
Các đại lượng đo lường khuynh hướng tập trung:
Trung bình cộng, mode, trung vị Trung bình (mean) Biểu đồ tròn
Trung vị (median) Biểu đồ histogram
Các đại lượng đo độ phân tán: Khoảng biến thiên, độ Mod (mode) Phân cụm (nhóm) dữ
trải giữa, tứ phân vị, phương sai, độ lệch chuẩn, hệ số Phương sai (var) liệu
biến thiên, chuẩn hóa dữ liệu Các hàm thông dụng
Độ lệch chuẩn
28