You are on page 1of 38

TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH

KHOA CƠ KHÍ
-------------oOo-------------

BÁO CÁO BÀI TẬP LỚN


XÁC SUẤT VÀ THỐNG KÊ
NHÓM 7

GVHD: PGS.TS NGUYỄN ĐÌNH HUY


Nhóm lớp: TNC1

NĂM HỌC 2018 – 2019


KHÓA K17
DANH SÁCH SINH VIÊN NHÓM 7

STT Họ và tên MSSV Phân công


1 Lê Ngọc Thành Đạt 1710058 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 2, tổng hợp và chỉnh sửa word
2 Lê Văn Hòa 1711435 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 5
3 Cù Đình Huy 1711471 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 4
4 Nguyễn Lê Bảo Huy 1711518 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 3
5 Ngô Đình Tuấn Lạc 1711892 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 4
6 Phạm Thị Phương Loan 1711999 Đọc, tìm hiều từ bài 2 tới bài 5, chuẩn bị word
bài 4 và ví dụ 10
7 Khưu Nguyễn Hữu Lộc 1712041 Đọc, tìm hiểu từ bài 2 tới bài 5, chuẩn bị word
bài 5 và ví dụ 12, tổng hợp và chỉnh sửa word

LỜI NÓI ĐẦU:


- Cảm ơn thầy Nguyễn Đình Huy đã tạo cơ hội cho chúng em tiếp xúc được với các
phần mềm ứng dụng xác suất và thống kê, trong quá trình tìm hiểu có thể biết được
nhiều điều cần thiết cho môn học, cũng như có thể từ đó vận dụng vào thực tế, cũng
như giải quyết các bài toán được giao.
- Đây là quyển báo cáo do nhóm 7 chuẩn bị và thực hiện để hoàn thành
- Nội dung bài báo cáo bao gồm 5 bài toán được giao với các dạng bài như:
o So sánh tỷ số: Bài 4
o Kiểm định tính độc lập: Bài 3
o Phân tích phương sai (1 yếu tố, 2 yếu tố, 3 yếu tố): Bài 2; Bài 5; Bài 1 (Ví dụ 10)
o Hồi quy tuyến tính đa tham số: Bài 1 (Ví dụ 12)

2
MỤC LỤC
Bài 1 ................................................................................................................. Trang 4
Bài 2 ................................................................................................................. Trang 19
Bài 3 ................................................................................................................. Trang 25
Bài 4 ................................................................................................................. Trang 30
Bài 5 ................................................................................................................. Trang 36

3
Bài 1: Trình bày lại ví dụ 10 trang 172 và ví dụ 12 trang 181 Sách giáo trình Xác
suất thống kê ( Nguyễn Đình Huy ).
Ví dụ 12 trang 181 Sách giáo trình “Giáo trình xác suất và thống kê” của thầy
Nguyễn Đình Huy
o Đề bài: Người ta dùng ba mức nhiệt độ gòm 105, 120 và 135oC kết hợp với ba
khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp.
Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
Thời gian (phút) Nhiệt độ (°C) Hiệu suất (%)
X1 X2 Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
Hãy cho biết yếu tố nhiệt độ và/ hoặc yếu tố thời gian có liên quan tuyến tính
với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ là 115oC
trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Trình bày:
o Định dạng bài toán: Hồi quy tuyến tính đa tham số
o Lý do: Vì biến số phụ thuộc Hiệu suất (Y) có liên quan đến 2 biến số độc lập là Thời
gian (X1) và nhiệt độ (X2)
o Cơ sở lý thuyết: Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ
thuộc Y có liên quan đến k biến số độc lập Xi (i=1,2,...,k) thay vì chỉ có một như
trong hồi quy tuyến tính đơn giản.
o Phương trình tổng quát: Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk
Phương trình hồi quy đa tham số có thể được trình bày dưới dạng ma trận

4
Bảng ANOVA:
Nguồn Tổng số bình Bình phương Giá trị thống
Bậc tự do
sai số phương trung bình kê
SSR MSR
Hồi quy K SSR MSR= F=
k MSE
SSE
Sai số N-k-1 SSE MSE =
( N  k  1)
Tổng
N-1 SST = SSR + SSE
cộng
 Giá trị thống kê
 Giá trị R bình phương:
SSR kF
R2  
SST ( N  k  1)  kF
 Giá trị R bình phương hiệu chỉnh (Adjusted R Square)
( N  1) R 2  k k (1  R 2 )
R2   R2 
N  k 1 N  k 1
 Độ lệch chuẩn:
SSE
S ( S  0.30 là khá tốt)
( N  k  1)
 Trắc nghiệm thống kê:
 Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H1: βi  0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
 t < t (N-k-1) → Chấp nhận H0
 Trắc nghiệm F: Bậc tự do của giá trị F: n 1 = 1; n 2 = N-k-1
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
H1: βi  0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
 F < Fα(1,N-k-1) → Chấp nhận H0
o Trong chương trình MS-EXCEL
Bước 1: Nhập dữ liệu vào bảng tính
o Với dữ liệu nhất thiết phải nhập theo cột

5
Bước 2: Để giải quyết bài toán ta sử dụng hàm Regression trong mục Data
Analysis rồi chọn Regression rồi chọn OK để thực hiện

Bước 3: Sau khí đã mở được hàm Regression thì chúng ta tiến hành thực hiện
việc điền số liệu, trong đó ta có:
o Input Y range: Phạm vi đầu vào của biến số Y
o Input X range: Phạm vi đầu vào của biến số X
o Labels: Nhãn dữ liệu, nếu ban đầu có chọn vùng dữ liệu chứa nhãn
o Confidence Level: Độ tin cậy 
o Output Range: Tọa độ đầu ra
o Và để vẽ đường hồi quy chúng ta lick chọn thêm Line Fit Plots
o Và 1 số chức năng khác,…

6
Bước 4: Điền số liệu cho phương trình hồi quy giữa Y và X1 rồi Enter

o Trong đó vùng đầu vào của Y ta chọn dữ liệu từ C1 tới C10


o Vùng đầu vào của X ta chọn dữ liệu từ A1 tới A10

7
o Vì các vùng đầu vào có kèm nhãn là (X,Y) nên ta chọn labels
o Độ tin cậy mặc định nếu không nói thì ta chọn Confidence Level là 0,95
o Output range ta chọn vị trí E12 để xuất dữ liệu
o Có vẽ đường hồi quy nên ta chọn Line Fit Plots

Bước 5: Thực hiện so sánh


o Phương trình hồi quy: Ŷx1=f(X1)
Ŷx1=2.73+0.04X1 (R2=0.21, S=1.81)
 t0= 2.129 < t0.05 = 2.365 (hay Pv2=0.071> α=0.05) =>Chấp nhận giả thiết H0
 t1= 1.38 < t0.05 = 2.365 (hay Pv =0.209> α=0.05) =>Chấp nhận giả thiết H0
 F= 1.95 < F0.05 = 5.590 (hay Fs=0.209 > α=0.05) =>Chấp nhận giả thiết H0
 Vậy cả hai hệ số 2.73(B0) và 0.04(B1) của phương trình hồi quy
Ŷx1=2.73+0.04X1 đều không có ý nghĩa thống kê. Nói cách khác phương
trình hồi quy này không thích hợp.

8
 Kết luận 1: Yếu tố Thời gian không có liên quan tuyến tính với hiệu suất của
phản ứng tổng hợp.
Bước 6: Nhập số liệu cho phương trình hồi quy giữa Y và X2 rồi Enter:

9
Bước 7: Tương tự Bước 5 ta thực hiện so sánh:
o Phương trình hồi quy: Ŷx2=f(X2)
Ŷx2= -11.141 +0.129X2 (R2=0.76, S=0.99)
 t0=3.418 > t0.05=2.365(hay Pv2=0.011>α=0.05) =>Bác bỏ giả thiết H0
 t1= 4.757 > t0.05=2.365(hay Pv =0.00206<α=0.05) =>Bác bỏ giả thiết H0
 F=22.631 > F=5.590(hay Fs=0.00206<α=0.05) =>Bác bỏ giả thiết H0
 Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-
11.141 +0.129X2 đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quy
này thích hợp.
 Kết luận 2: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng
tổng hợp.
Bước 8: Nhập dữ liệu cho phương tình hồi quy giứa Y, X1, X2 rồi Enter

10
Bước 9: Thực hiện so sánh:
o Phương trình hồi quy: Ŷx1, x2=f(X1, X2)
Ŷx1, x2 =-12.70+0.04X1+0.13X2 (R2=0.97; S=0.33)
 t0=11.528 > t0.05=2.365 (hay Pv2=2.260*10-5<α=0.05)=> Bác bỏ giả thiết H0
 t1= 7.583 > t0.05=2.365 (hay Pv =0.00027<α=0.05) => Bác bỏ giả thiết H0
 t2= 14.328 > t0.05=2.365 (hay Pv =7.233*10-6 <α=0.05) => Bác bỏ giả thiết
H0
 F=131.392 > F=5.140 (hay Fs=1.112*10-5<α=0.05) => Bác bỏ giả thiết H0
 Vậy cả hai hệ số -12.70 (B0), 0.04(B1)và 0.13(B1)của phương trình hồi quy
Ŷx1,x2 =-12.7 +0.04X1+0.13X2 đều có ý nghĩa thống kê. Nói cách khác,
phương trình hồi quy này thích hợp.
 Kết luận 3: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai
yếu tố là thời gian và nhiệt độ.
Bước 10:
o Sự tuyến tính của phương trình Ŷx1, x2 =-12.70+0.04X1+0.13X2 có thể được
trình bày trên biểu đồ phân tán (scatterplots)

11
o Dựa vào bản trên ta dựng biểu đồ trên MS-EXCEL

o Muốn dự đoán hiệu suất của phản ứng bằng phương trình hồi quy Ŷx1, x2 =-
12.70+0.04X1+0.13X2, bạn chỉ cần chọn một ô, rồi sau đó nhập hàm ở phần
f(x) như phương trình hồi quy và được kết quả như sau:

o Ghi chú: B20 là tọa tọa độ của B0, B21 là tọa độ của B1, B2 là tọa độ của B2,
50 là giá trị của thời gian X1 và 115 là giá trị của nhiệt độ X2
Ví dụ 10 trang 172

12
o Đề bài: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên
cứu theo 3 yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày
trong bảng sau:

Yếu tố B
Yếu tố A
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13

o Yêu cầu: Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ?
Trình bày
- Xác định dạng bài: Phân tích phương sai ba yếu tố
- Cơ sở lý thuyết:
 Phương pháp giải: Phân tích phương sai 3 yếu tố (A, B, C) Sự phân tích này được
dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị quan sát Yijk (i = 1,
2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).
 Mô hình: Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì
người ta dùng mô hình vuông la tinh 𝑛 × 𝑛. Thí dụ như mô hình vuông la tinh 4 ×
4:

B C D A
C D A B
D A B C
A B C D

Mô hình vuông la tinh ba yếu tố được trình bày như sau:


Yếu tố C (T..k, thí dụ: T..1=Y111 + Y421 + Y331 + Y241)

13
Yếu tố Yếu tố B
A B1 B2 B3 B4
A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1..
A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2..
A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3..
A4 C4 Y414 C1 Y421 C2 Y432 C3 Y443 T4..
T.i. T.1. T.2. T.3. T.4.

Bảng ANOVA :

Bậc tự Tổng số bình Bình phương Giá trị


Nguồn sai số
do phương trung bình thống kê
Yếu tố A T2 T
r 2
SSR MSR
(r-1) SSR=  i..  ...2 MSR= FR=
(Hàng) i 1 r r ( r  1) MSE
Yếu tố B r T. 2j . T...
2
SSC MSC
(r-1) SSC=   MSC= FC=
(Cột) j 1 r r2 ( r  1) MSE
2
r
T..2k T... SSF MSF
Yếu tố C (r-1) SSF=   2 MSF= F=
k 1 r r ( r  1) MSE

SSE=SST – MSE=
Sai số (r-1)(r-2) SSE
(SSF+SSR+SSC) (r  1)(r  2)

T...2
Tổng cộng (r2-1) SST= Yijk2 
r2

- Trắc nghiệm:

14
 Giả thiết:
+ H0: μ1 = μ2 = ... = μk ↔ Các giá trị trung bình bằng nhau.
+ H1: μi  μj ↔ Có ít nhất hai giá trị trung bình khác nhau.
 Giá trị thống kê: FR, FC, F
 Biện luận:
+ Nếu 𝐹𝑅 < 𝐹𝛼 [𝑟 − 1, (𝑟 − 1)(𝑟 − 2)] → chấp nhận Ho(Yếu tố A).
+ Nếu 𝐹𝐶 < 𝐹𝛼 [𝑟 − 1, (𝑟 − 1)(𝑟 − 2)] → chấp nhận Ho (Yếu tố B).
+ Nếu 𝐹 < 𝐹𝛼 [𝑟 − 1, (𝑟 − 1)(𝑟 − 2)] → chấp nhận Ho (Yếu tố C).
o Trong chương trình MS-EXCEL
Bước 1. Nhập số liệu bảng tính:

Bước 2. Thiết lập các biểu thức và tính giá trị thống kê:

 Tính các giá trị Ti..


Chọn ô B7 nhập vào biểu thức: = SUM (B2: E2)
Chọn ô C7 nhập vào biểu thức: = SUM (B3: E3)
Chọn ô D7 nhập vào biểu thức: = SUM (B4: E4)
Chọn ô E7 nhập vào biểu thức: = SUM (B5: E5)

15
 Tính các giá trị T.j.
Chọn ô B8 nhập vào biểu thức: = SUM (B2: B5)
Dùng con trỏ chuột kéo kí hiệu tự điền từ ô B8 đến ô E8

 Tính các giá trị T..k


Chọn ô B9 nhập vào biểu thức: = SUM (B2, C5, D4, E3)
Chọn ô C9 nhập vào biểu thức: = SUM (B3, C2, D5, E4)
Chọn ô D9 nhập vào biểu thức: = SUM (B4, C3, D2, E5)
Chọn ô E9 nhập vào biểu thức: = SUM (B5, C4, D3, E2)

 Tính giá trị T…


Chọn ô B10 nhập vào biểu thức: = SUM (B2: E5)
Tính các giá trị SUMSQTi.., SUMSQT.j., SUMSQT..k, SQT…,
SUMSOYijk
Chọn ô G7 nhập vào biểu thức : = SUM (B7: E7)
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn G7 đến ô G9
Chọn ô G10 nhập vào biểu thức : = POWER (B10,2)
Chọn ô G11 nhập vào biểu thức : = SUMSQ (B2: E5)

 Tính các giá trị SSR, SSC, SSF, SST, SSE


- Các giá trị SSR, SSC, SSF
Chọn ô I7 nhập vào biểu thức : = G7/4 − 39601/POWER (4,2)
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn I7 đến ô I9
- Giá trị SST
Chọn ô I11 nhập vào biểu thức = G11 − G10/POWER (4,2)
- Giá trị SSE
Chọn ô I10 nhập vào biểu thức = I11 − SUM (I7: I9)

 Tính các giá trị MSR, MSC, MSF, MSE


- Giá trị MSR, MSC, MSF
Chọn ô K7 nhập vào biểu thức : = I7/(4 − 1)
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn K7 đến ô K9
- Giá trị MSE
Chọn ô K10 nhập vào biểu thức : = I10/(4 − 1) ∗ (4 − 2)

 Tính các giá trị FR , FC, F


Chọn ô M7 nhập vào biểu thức: = K7/0.3598
Dùng con trỏ chuột kéo kí hiệu tự điền từ ôn M7 đến ô M9

16
 Kết quả sau khi tính toán:

Bước 3: Kết quả và biện luận:

FR = 3,10526 < F0,05 (3,6) = 4,76 → Chấp nhận Ho (pH)


FC = 11,9474 > F0,05 (3,6) = 4,76 → Bác bỏ Ho (nhiệt độ)
F = 30,0526 > F0,05 (3,6) = 4,76 → Bác bỏ Ho (chất xúc tác)
Bước 4: Biện luận
 Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng đến hiệu suất.

17
Bài 2: Một nhà nông học tiến hành việc kiểm định hiệu quả của ba loại phân này
trên các cây cà chua và theo dõi số quả cà chua mọc trên mỗi cây. Kết quả thu được
như sau:
Loại phân
A B C
24 21 16
18 26 22
27 32 19
28 25 17
Với mức ý nghĩa   5% , hãy so sánh số quả cà chua mọc trung bình khi bón ba
loại phân A,B,C nói trên
Trình bày:
- Định dạng bài toán: Đây là dạng bài toán phân tích phương sai 1 yếu tố
- Mục đích của sự Phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một
yếu tố nào đó trên các giá trị quan sát được (hay có thể nói là kiểm định sự bằng
nhau của trung bình nhiều tổng thể)
- Lý do: Vì dựa vào yêu cầu đề xem xét xem yếu tố loại phân bón có ảnh hướng đến
số quả cà chua trung bình trên mỗi cây
- Ở bài toán trên, ta đang muốn phân tích việc bón các loại phân khác nhau (yếu tố
định tính) có ảnh hưởng như thế nào đến số quả cà chua trung bình mọc trên mỗi cây
(yếu tố định lượng)
- Cơ sở lý thuyết:
 ____ ____

o Giải sử ta có 1, 2,…, k yếu tố cần xét và Yij  i  1, k ; j  1,N  là giá trị (quan sát)
 
thứ j thuộc yếu tố thứ i

18
- Mô hình
Yếu tố thí nghiệm
1 2 … k
Y11 Y12 … Yk1
Y21 Y22 … Yk2
… … … …
Y1N Y2N … YkN
Tổng cộng T1 T2 … Tk T
__ __ __ __
Trung bình Y1 Y2 … Yk Y

Bảng ANOVA
Tổng số bình Bình phương Giá trị thống
Nguồn sai số Bậc tự do
phương trung bình kê

Ti 2 T
k
SSF
Yếu tố k-1 SSF    MSF 
i 1 N N k 1 MSF
F
MSE
Sai số N-k SSE  SST  SSF MSE 
SSE
N k
k N
T2
Tổng cộng N-1 SST   Yn 2 
i 1 j 1 N
o Trắc nghiệm
 Giả thiết:
Gọi H o : 1  2 - “Các giá trị trung bình bằng nhau”

Đối H0 :  i   j - “Ít nhất có hai giá trị trung bình khác nhau”

MSF
 Giá trị thống kê: F 
MSE
 Biện luận:
Nếu F  F (k-1,N-k) - Chấp nhận giả thiết Ho

o Với bài toán phía trên:


 Yếu tố xét đến là các loại phân (A,B,C)
19
 1 ,  2 , 3 là số cà chua mọc trung bình trên mỗi cây khi bón các loại phân
A,B,C
 Gọi H o : 1  2  3 - “Số cà chua mọc trung bình trên mỗi cây là như nhau
khi bón 3 loại phân khác nhau”
 H1 :  i   j - “Có ít nhất hai trường hợp mà số cà chua mọc trung bình trên
mỗi cây là khác nhau”
o Phương pháp làm bài:
 Xác định bậc tự do của thành phần Yếu tố, bậc tự do của thành phần Phương
sai và bậc tự do của Tổng cộng
 Xác định Tổng bình phương (Sum Square of Factor/Total/Error):

Ti 2 T
k
SSF   
i 1 N N
k N
T2
SST   Yn 2 
i 1 j 1 N

SSE  SST  SSF


 Xác định Bình phương trung bình (Mean Square of Factor/Error):
SSF
MSF 
k 1
SSE
MSE 
N k
 Xác định Giá trị thống kê ( U qs )

MSF
F
MSE
 Kết luận:
 Nếu F < F (k-1;N-k) thì chấp nhận giả thiết Ho
- Trong chương trình MS-EXCEL:
Bước 1: Nhập thông số ban đầu

20
Bước 2: Trong mục Data, chọn Data Analysis, chọn Anova: Single Factor

Bước 3: Nhập các thông số cần thiết:

o Chọn vị trí của bảng ANOVA ở ô Output range và chọn vị trí thích hợp

21
Bước 4: Kết quả và biện luận
o Dựa vào kết quả tính trên MS-EXCEL
o Ta thấy F  3,86  F0,05  4,26 nên ta chấp nhận Ho
 Vậy số cà chua mọc trung bình trên mỗi cây khi bón 3 loại phân khác nhau là như
nhau
Giải thích các thông số sau khi tính toán bằng phần mềm
o Ở bảng SUMMARY
 Cout: Số lượng các giá trị quan sát được ứng với từng yếu tố, như ở trong hình,
ứng với mỗi loại phân bón (A,B,C) có 4 giá trị thu nhận được
 Sum: Tổng số các giá trị ứng với từng yếu tố
 Average: Giá trị trung bình của các giá trị quan sát ứng với từng yếu tố
 Variance: Phương sai mẫu hiệu chỉnh tương ứng
 Bảng ANOVA
 SS: Viết tắt của Sum square

22
 df: Degree of Freedom- Bậc tự do của Yếu tố (bằng 2) và Phương sai (bằng 9)
 MS: Viết tắt của Mean Square. Chính là MSF và MSE tính ở trên
 F: là Uqs
 P-value: Probability value- là xác suất tìm thấy 1 quan sát mà từ đó thấy được
giả thiết Ho là đúng. p-value càng nhỏ thì khả năng loại bỏ Ho càng cao. Tuy
nhiên, muốn biết p-value có thực sự “nhỏ” hay không thì cần phải so sánh với
mức ý nghĩa
  . Nếu p-value nhỏ hơn  , lúc này ta có thể bác bỏ giả thiết Ho
 Fcrit: Phân phối Fisher F(n1,n2) với n1=df(Yếu tố) và n2=df(Phương sai)

23
Bài 3: Bảng sau đây người ta cho số liệu về màu tóc của 422 người:

Màu tóc Nam Nữ


Đen 56 32
Hung 37 66
Nâu 84 90
Vàng 19 38
Với mức ý nghĩa 3%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới
tính hay không?
Trình bày:
- Định dạng bài toán: Bài toán kiểm định tính độc lập của 2 dấu hiệu là màu tóc và
giới tính
- Lý do: Vì đây cho ta bảng số liệu về tần số, yêu cầu của đề là xác định mối quan hệ
giữa màu tóc và giới tính
- Cơ sở lý thuyết: Cho X và Y là hai dấu hiệu trên cùng một tổng thể. Từ một mẫu có
kích thước n ta có số liệu:
Y
y1 y2 ... yk ni
X
x1 n11 n12 … n1k n10
x2 n21 n22 … n2k n20
… … … … … …
xk nk1 nk2 … nkh nk0
mj m1 m2 ... m3 ∑ ni = n

o Trong đó: xi (i = 1, k) – các dấu hiệu mà X nhận


o yj (j = 1, h) – các dấu hiệu mà Y nhận
o ni (i = 1, k) – số lần X nhận xi
o mj (j = 1, h) – số lần Y nhận yj
o ni,j( i = 1, k , j = 1, h – số lần đồng thời X nhận xi và Y nhận yj
 Hãy kiểm định giả thiết:
o H: X và Y độc lập
Với mức ý nghĩa 
 Phương pháp giải
o Tìm 2  2  k  1 h  1 từ bảng phân vị 𝜒 2
o Tính thống kê
(𝑛𝑖𝑗 −𝛾𝑖𝑗 )2 𝑛𝑖 𝑚𝑗
𝑄𝑞𝑠 = ∑𝑘𝑖=1 ∑ℎ𝑗=1 , 𝛾𝑖𝑗 = (3.1)
𝛾𝑖𝑗 𝑛

24
o Nếu 𝜒02 ≤ 𝜒𝛼2 thì chấp nhận H
o Nếu 𝜒02 < 𝜒𝛼2 thì bác bỏ H
- Trong chương trình MS-EXCEL
o Có hàm số CHITEST
o Sơ nét về hàm CHITEST: Trả về kiểm định tính độc lập. CHITEST trả về
giá trị từ phân bố  2 (khi bình phương) cho thống kế và bậc tự do phù hợp.
Bạn có thể dùng kiểm định  2 để xác định kết quả được giả thiết có được
thí nghiệm xác nhận hay không
o CHITEST trả về xác suất mà giá trị của số liệu thống kê  2 ít nhất cao bằng
giá trị được tính bằng công thức (3.1),có thể tình cờ xảy ra khi giả định tính
độc lập.
o Giải thích: Ý nghĩa ở đây tức là giá trị trả về của hàm CHITEST là xác suất
mà 02  2 . Sẽ cho kết quả là p_value. Như đã đề cập, p_value là một giá trị
thuộc khoảng (0,1), là xác suất để tìm ra một quan sát mà từ đó thấy được
giả thiết Ho. Khi so sánh với mức ý nghĩa  thì ta chia ra 2 trường hợp nếu
p _ value   thì ta chấp nhận giả thiết Ho , nếu trường hợp p _ value   thì
ta bác bỏ giả thiết Ho. Từ đó ta suy ra nếu chấp nhận giả thiết thì đồng nghĩa
ta thừa nhận giả thiết 02  2 và kết luận là 2 dấu hiệu đó độc lập, và ngược
lại
o Thực hiện:
Bước 1:
 Giả thiết H 0 : “2 yếu tố màu tóc và giới tính độc lập với nhau”
 Giả thiết đối H : “2 yếu tố màu tóc và giới tính phụ thuộc với nhau”
Bước 2: Nhập dữ liệu vào bảng tính:

Bước 3: Tính tổng theo hàng và theo cột: Kéo chọn vùng B2:E7

25
Bước 4: Sau đó nhấn nút trong Tab Home, ta được tổng hàng và tổng
cột:

Bước 5: Tính tần số lý thuyết:


 Tại ô cần xuất kết quả, giả sử ô C10, ta nhập biểu thức =$E3*D$7/$E$7
 Sau đó kéo chọn vùng C10:D13, nhấn F2\ Ctrl+Enter, thu được kết quả:

Bước 6: Sử dụng hàm CHITEST:

26
 Nhấp vào, chọn Insert Function, chọn hàm CHITEST và nhấn OK

 Hộp thoại Function Arguments xuất hiện. Nhập vùng chứa các giá trị tần số
thực tế vào mục Actual_range, nhập vùng chứa các giá trị tần số lý thuyết
vào mục Expected_range. Nhấn OK

27
 Hàm CHITEST cho ta kết quả là giá trị P:

Bước 7: Biện luận


 Vì P_value < α = 3% nên bác bỏ giả thiết H0, như vậy màu tóc và giới tính
phụ thuộc với nhau.

28
Bài 4: Tiến hành thăm dò 3 nhóm xã hội khác nhau: công nhân, nông dân, trí thức.
Kết quả cuộc thăm dò như sau:
Tầng lớp
Công nhân Nông dân Trí thức Tổng số
Ý kiến
Tăng 100 300 20 430

Như cũ 200 400 30 630

Giảm 50 80 5 135

Không ý kiến 30 70 5 105

Tổng số 380 850 60 1290


Với mức ý nghĩa   2% , có sự khác nhau về ý kiến trong các tầng lớp xã hội trên
hay không?
Trình bày:
- Định dạng bài toán: Đây là dạng bài toán so sánh tỷ số
- Lý do: Vì đây là dạng toán yêu cầu là ý kiến trong các tầng lớp xã hội trên có khác
nhau hay không, vì 2 yếu tố đó đề không đề cập tới việc nó ảnh hưởng tới giá trị
trung bình nào cả nên không dùng phân tích phương sai 2 yếu tố (không lặp)
- Cơ sở lý thuyết:
o Đối với một thí nghiệm có hai kết quả (binomial experiment) bạn thường so sánh
hai tỷ số với nhau (thực nghiệm với lý thuyết hay thực nghiệm với thực nghiệm).
Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) bạn cần
so sánh nhiều tỷ số. Trắc nghiệm “khi” bình phương  2 cho phép bạn so sánh
không những hai mà còn nhiều tỷ số (hay tỷ lệ hoặc xác suất) một cách tiện lợi.
 2 là phân phối về xuất suất, không có tính đối xứng và chỉ có giá trị  0 . Giả sử
bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k
kết quả và mỗi kết quả mang một xác suất thực nghiệm là Pi (i = 1, 2, …, k). Nếu
gọi Pi,0 là các giá trị lý thuyết tương ứng với Pi thì các tần số lý thuyết sẽ là Ei
= NPi,0. Điều kiện để áp dụng trắc nghiệm  một cách thành công là các tần số
2

lý thuyết Ei phải  5 .
o Giả thiết:
 H0: P1= P1,0, P2= P2,0,…, Pk,0  “Các cặp Pi và Pi,0 giống nhau”
 H1 : “ít nhất có một cặp Pi và Pi,0 khác nhau”.
o Giá trị thống kê

29
h   Oi  Ei 2 
2   
i 1  E 
 i

Oi - các tần số thực nghiệm (observed frequency)


Ei - các tần số lý thuyết (expected frequency).
o Biện luận
 Nếu  2  2 => bác bỏ giả thiết H0 (DF=k-1)
 Trong chương trình MS-EXCEL có hàm số CHITESST có thể tính:
 Giá trị  2 thep biểu thức:
h   Oi  Ei 2 
2   
i 1  Ei 

Với:
Oi - các tần số thực nghiệm của ô thuộc hàng i và cột j
Ei - các tần số lý thuyết của ô thuộc hàng I với cột j; r – số hàng; c – số cột.
 Xác suất P  X   2  với bậc tự do DF=(r-1)(c-1); trong đó: r là số hàng và c
là số cột trong bảng ngẫu nhiên (contingency table).
 Nếu P  X   2    => chấp nhận giả thiết H0 và ngược lại.
- Trong chương trình MS-EXCEL:
o Ở dạng này ta cũng cùng hàm CHITEST để thực hiện việc so sánh tỷ số, vì bản
chất việc so sánh tỷ số này là việc kiểm định tính đọc lập của các thuộc tính
o Hàm CHITEST đã được giới thiệu rõ ở Bài 3 nên sẽ không để cập ở đây nữa
o Thực hiện:
Bước 1:
 Giả thiết H 0 : Tỷ lệ ý kiến trong các tầng lớp xã hội trên là giống nhau
 Giả thiêt đối H 0 : Có ít nhất là 2 sự khác nhau về ý kiến trong các tầng lớp xã
hội trên là khác nhau
Bước 2: Nhập số liệu vào bảng tính:

30
Bước 3: Tính tần số lý thuyết:
 Tần số = (tổng hàng * tổng cột) / tổng cộng.
 Ô B10 nhập lệnh = B$6*$E2/$E$6 rồi enter.
 Sau đó ta kéo chọn từ B10:D13 , sau đó ta ấn tổ hợp phím F2+ctrl+enter

 Sau khi Enter ta được vùng chứa tần số lý thuyết:

 Ta thấy ở ô D14 giá trị tần số lý thuyết E = 4.8837 < 5, do đó điều kiện cho
phép áp dụng tiêu chuẩn “khi” bình phương không được thỏa mãn. Để khắc
phục khó khăn này có 2 cách. Hoặc là ghép dòng cuối cùng với một dòng
nào đó, hoặc là ghéo cột cuối cùng với một cột nào đó.

31
 Trong thực tế, tầng lớp trí thức có vẻ gần với công nhân hơn nông dân, vì
vậy ta ghép ghép cột “trí thức” với “công nhân”. Như vậy ta có bảng mới
sau:

 Thực hiện tương tự các bước trên ta có được bảng tần số lý thuyết

Bước 4: Dùng hàm CHITEST để tính


 Nhấn vào Tab Fomulas chọn More functions, Compatibility, chọn CHITEST
rồi nhấn OK
 Lúc đó sẽ xuất hiện hộp thoại Function Arguments
 Nhập các giá trị tần số thực tế vào mục Actual_range: B19:C22
 Nhập các giá trị tần số lý thuyết vào mục Expected_range: B22:C30

32
33
Bước 5: Biện luận
 Ta thu được kết quả P = 0,01845
 Vì giá trị P_value < α = 2% => Bác bỏ giả thuyết H0
 Kết luận: có sự khác nhau về ý kiến trong các tầng lớp xã hội.

34
Bài 5: Với mức ý nghĩa là   2% . Hãy phân tích vai trò ngành nghề (chính, phụ)
trong hoạt động kinh tế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng
số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên
như sau:
Nghề phụ
Nghề chính
(1) (2) (3) (4)
Trồng lúa (1) 3.5 7.4 8.0 3.5
Trồng cây ăn quả (2) 5.6 4.1 6.1 9.6
Chăn nuôi (3) 4.1 2.5 1.8 2.1
Dịch vụ(4) 7.2 3.2 2.2 1.5
Trình bày:
- Định dạng bài toán: Đây là dạng bài toán phân tích phương sai 2 yếu tố (Không lặp)
- Lý do: Vì đây là dạng toán yêu cầu xét về sự ảnh hưởng của 2 yếu tố Nghề chính và
Nghề phụ ảnh hưởng đến thu nhập trung bình của một hộ tương ứng với các ngành
nghề trong bảng
- Cơ sở lý thuyết:
o Khái niệm thống kê:
 Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị
quan sát Yij (i = 1,2,.…,r: yếu tố A; j = 1,2,.…,c: yếu tố B).
o Mô hình:
Yếu tố B Trung
Yếu tố A Tổng cộng
1 2 … c bình
1 Y11 Y12 … Y1c T1 𝑌̅1
2 Y21 Y22 … Y2c T2 𝑌̅2
… … … … … … …
r Yr1 Yr2 … Yrc Tr 𝑌̅𝑟
Tổng cộng T1 T2 … Tc T…
Trung bình 𝑌̅1 𝑌̅2 … 𝑌̅𝑐 𝑌̅ …

35
 Bảng ANOVA
Nguồn sai số Bậc tự do Tổng bình phương Bình phương trung bình Gía trị thống kê
Yếu tố A (r-1) r
T T2 2
SSB MSB
(hàng) SSB   i  ... MSB  FR 
i 1 c rc r 1 MSE
Yếu tố B (Cột) (c-1) c T2 SSF MSF
T2
SSF   j  ... MSF  FC 
j 1 r rc c 1 MSE
Sai số (r-1)(c-1) SSE=SST-(SSF+SSB) SSE
MSE 
(r  1)(c  1)
Tổng cộng (rc-1) r c
T2
SST   Yij2  ...
i 1 j 1 rc
o Trắc nghiệm:
 Giả thuyết:
 H 0 : 1  2  ...k  “ Các giá trị trung bình bằng nhau”.

 H1 : i   j  “ Ít nhất có hai giá trị trung bình khác nhau”.

MSB MSF
 Giá trị thống kê: FR  và FC 
MSE MSE
 Biện luận:
 Nếu FR  F b  1,(k  1)(b  1)  Chấp nhận H0 (Yếu tố A).

 Nếu FC  F  k  1,(k  1)(b  1)  Chấp nhận H0 (Yếu tố B).

- Trong chương trình MS-EXCEL:


Bước 1:
 Giả thiết H 01 : “Thu nhập trung bình của các hộ gia đình ứng với 4 ngành nghề
chính không sai khác nhau”
 Giả thiết H 02 : “Thu nhập trung bình của các hộ gia đình ứng với 4 ngành nghề
phụ không sai khác nhau”
 Đối giả thiết H 01 : “Có ít nhất 2 ngành trong nghề chính có thu nhập trung bình
của các hộ gia đình sai khác nhau”
 Đối giả thiết H 02 : “Có ít nhất 2 ngành trong nghề phụ có thu nhập trung bình
của các hộ gia đình sai khác nhau”
Bước 2: Nhập dữ liệu vào bảng tính:

36
o Từ tab data, ta chọn Data Analysis

o Đây là phân tích phương sai 2 yếu tố (không lặp) do đó trong mục Data Analysis:
Ta chọn Two-Factor Without Replication rồi nhấp OK

o Trong mục Two-Factor Without Replication ta lần lượt thêm các giá trị vào:
 Input Range: Phạm vi đầu vào
 Labels: Có nhãn hoặc không có nhãn
 Alpha: Là mức ý nghĩa
 Chọn Output Range để ấn định phạm vi đầu ra
 Sau đó nhấp OK để nhận được kết quả
 Ở đây Input Range chúng ta sẽ nhập phạm vi có số của bảng, bao gồm nhãn
của yếu tố $A$2:$E$6
 Ở đây theo đề ta có Alpha=0.02
 Output Range chúng ta sẽ chọn vị trí đầu tiên để xuất ra các bảng giá trị
Anova

37
Bước 3: Giải thích các thông số:
 SS: Sum squares
 df: Dof hay còn gọi là bậc tự do
 MS: Mean squares
 F: Biến quan sát
 P-value: Xác suất mắc sai lầm khi bác bỏ giả thiết H0
 F crit: Phân phối Fisher với alpha và bậc tự do tương ứng
 Count: Số phần tử mỗi hàng/cột
 Sum: Tổng cột/hàng
 Average: Trung bình mẫu của từng thành phần(sum/count)
 Variance: Phương sai mẫu hiệu chỉnh của từng thành phần
Bước 4: Dựa vào cơ sở lý thuyết: Ta có thể đưa ra kết luận
 FR  1,9966  F0,02 (3,9)  5,5097 suy ra chấp nhận giả thiết H 01 (Nghề chính)
 FR  0,1106  F0,02 (3,9)  5,5097 suy ra chấp nhận giả thiết H 02 (Nghề phụ)
 Vậy cả hai nghề chính, nghề phụ không ảnh hưởng tới thu nhập trung bình
của các hộ gia đình

38

You might also like