You are on page 1of 19

Câu 1: Bảng sau đây cho số liệu ngưới chết về ung thư ở 3 nước Mỹ, Nhật và Anh.

Người chết được phân loại theo cơ quan bị ung thư.


Nước
Chỗ ung thư Mỹ Nhật Anh
Ruột 11 5 5
Ngực 15 3 7
Dạ dày 3 22 3
Bộ phận khác 41 30 15
a) Hãy tính tần số lý thuyết của bảng số liệu trên. Có thể dùng tiêu chuẩn χ2 không ?
b) Với mức ý nghĩa α = 1% hãy so sánh phân bố tỉ lệ chết về ung thư của cả ba nước trên.
BÀI LÀM:
*Dạng bài: Bài toán kiểm định giả thuyế tỉ lệ, bài 2 mẫu.
*Phương pháp giải:
Tính tần số lý thuyết theo công thức:
((𝑇ồ𝑛𝑔 ℎà𝑛𝑔 𝑖)∗(𝑇ổ𝑛𝑔 𝑐ộ𝑡
Eij = 𝑗))/(𝑇ổ𝑛𝑔 𝑐ộ𝑛𝑔)

Nếu Eij ≥ 5 với mọi ij thì có thể sử dụng tiêu chuẩn χ2 và ngược lại.
Gỉa thuyết H: phân bố tỉ lệ chết vì ung thư của 3 nước là như nhau.
*Công cụ giải:
Dùng hàm SUM để tính tổng các hàng và các cột.
Áp dụng hàm CHITEST để tính tần số lý thuyết.
*Bảng số liêu nhập vào:
Nước
Chỗ ung thư
Mỹ Nhật Anh
Ruột 11 5 5
Ngực 15 3 7
Dạ dày 3 22 3
Bộ phận khác 41 30 15
Tính tổng các hàng va cột ta được:
Nước
Chỗ ung thư Tổng hàng
Mỹ Nhật Anh
Ruột 11 5 5 21
Ngực 15 3 7 25
Dạ dày 3 22 3 28
Bộ phận khác 41 30 15 86
Tổng cột 70 60 30 160
Dựa vào công thức tính tần số lý thuyết ta có bảng:
Nước
Chỗ ung thư
Mỹ Nhật Anh
Ruột 9.1875 7.875 3.9375
Ngực 10.9375 9.375 4.6875
Dạ dày 12.25 10.5 5.25
Bộ phận khác 37.625 32.25 16.125
Dùng ham CHITEST để tính tần số lý thuyết:
Gía trị P là 4.364013E-05
*Kết luận:
Không thể dùng tiêu chuẩn χ2 vì các tần số trên có số bé hơn 5.
Vì P(χ>χ2)= 4.364013E-05 <0.01 nên bác bỏ giả thiết H vì vậy phân bố tỉ lệ chết vì ung
thư của 3 nước là khác nhau.
Câu 2: Để thử nghiệm hiệu quả của một loại thuốc trừ sâu người ta áp dụng thử loại thuốc này đối
với 5 thửa ruộng đang bị sâu phá hoại. Số lượng sâu bắt được trước và sau khi dùng lại thuốc trừ
sâu nói trên được cho ở bảng sau:
Thửa ruộng Trước khi phun thuốc Sau khi phun thuốc
1 109 100
2 68 52
3 82 70
4 104 91
5 93 77
Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi dùng thuốc. Với mức ý nghĩa
5% hãy cho biết ý kiến về tác dụng của loại thuốc trừ sâu này. Gỉa sử số lượng sâu tại mỗi thửa
ruộng có phân phối chuẩn.
BÀI LÀM:
Phần 1: Với độ tin cậy 95% hãy ước lượng số sâu trung bình trước và sau khi dùng thuốc.
*Dạng bài: Ước lượng trung bình.
*Phương pháp giải: Tính số sâu trung bình trước và sâu khi dùng thuốc 𝑥 ̅ và độ chênh lệch ɛ.
Khoảng ước lượng lượng sâu: 𝑥 ̅±𝜀
*Công cụ giải: Mở Data Analysis chọn Descriptive Statistics.
Bảng số liệu:
Thửa ruộng Trước khi phun thuốc Sau khi phun thuốc
1 109 100
2 68 52
3 82 70
4 104 91
5 93 77
Hộp thoại Descriptive Statistics xuất hiện:
Input Ranger: Phạm vi đầu vào (từ ô C20 đến ô D25).
Grouped By: Nhóm dữ liệu theo hàng hoặc cột (chọn cột).
Labels in first row: Nhãn ở hàng đầu tin (Chọn).
Output Range: phạm vi dữ liệu đấu ra (ô B34);
Sumary statistics: chọn.
Confidence Level for Mean: chọn 95.
Ta có bảng kết qua:
Trước khi phun thuốc Sau khi phun thuốc

Mean 91.2 Mean 78


Standard Error 7.43908596535893 Standard Error 8.348652586
Median 93 Median 77
Mode #N/A Mode #N/A
Standard Deviation 16.6343019090072 Standard Deviation 18.6681547
Sample Variance 276.700000000001 Sample Variance 348.5
Kurtosis -1.07582537702012 Kurtosis -0.549643996
Skewness -0.499987905148282 Skewness -0.335851481
Range 41 Range 48
Minimum 68 Minimum 52
Maximum 109 Maximum 100
Sum 456 Sum 390
Count 5 Count 5
Confidence Level(95.0%) 20.6542138156664 Confidence Level(95.0 23.17957561
*Kết luận:
Số sâu trung bình trước khi phun thuốc là 91,2±20.65421382
Số sâu trung bình sau khi dùng thuốc là 78±23,1797561
Phần 2: Với mức ý nghĩa 5% hãy cho ý kiến về tác dụng của loại thuốc trừ sâu này.
*Dạng bài: Kiểm định so sánh 2 trung bình với dữ liệu từng cặp (được dùng khi mẫu bé, phụ thuộc,
phương sai 2 mậu không bằng nhau và mỗi phần tử khảo sát có 2 chỉ tiêu).
*Phương pháp giải:
Đặt ra giả thuyết H: Thuốc trừ sâu trên không có hiệu quả.
Vì chưa biết phương sai tồng thể và có số lần thử ở 5 thửa ruộng nên n<30 vì vậy dựa vào bảng tra Student mà kết luậ
Nếu |Tqs| ≤ Tα(n-1) thì H đúng
Nếu |Tqs| ³ Tα(n-1) thì H sai
*Công cụ giải:
Sử dụng bảng số liệu như ở phần 1.
Mở Data Analysis chọn t-Test: Paired Two Sample for Means.
Hộp thoại t-Test: Paired Tow for Mean xuất hiện:
Variable 1 Range: chọn từ ô C20 đến ô C25
Variable 2 Range: chọn từ ô D20 đền ô D25
Lables: Nhãn (chọn).
Output Range: Phạm vi xuất dữ liệu ra (ô B70).
Ta được bãng kết quả:
t-Test: Paired Two Sample for Means

Trước khi phun thuốc Sau khi phun thuốc


Mean 91.2 78
Variance 276.700000000001 348.5
Observations 5 5
Pearson Correlation 0.992652211514269
Hypothesized Mean Differ 0
df 4
t Stat 10.0068941752415
P(T<=t) one-tail 0.000280253019986
t Critical one-tail 2.13184678632665
P(T<=t) two-tail 0.000560506039972
t Critical two-tail 2.77644510519779
*Kết luận:
Vì |Tqs| = 10.0068941752415 > T40.05 suy ra bác bỏ H nên thuốc trừ sâu có hiệu quả
bảng tra Student mà kết luận:
Câu 3: Một công ty nhỏ quan tâm tới việc phân tích hiệu quả của việc quảng cáo. Trong thời gian 5 tháng công ty thu
được kết quả sau:
X 5 8 10 15 22
Y 6 15 20 30 39
trong đó X là số tiền chi vào quảng cáo (đơn vị là trăm USD) còn Y là tổng doanh thu (đơn vị là nghìn USD). Tính tỷ số
tương quan của Y đối với X, hệ số tương quan và hệ số xác định của tập số liệu trên. Với mức ý nghĩa α = 5%, có kết
gì về mối tương quan giữa X và Y (Có phi tuyến không? Có tuyến tính không?). Tìm đường hối quy tuyến tính của Y đ
với X. Tính sai số tiêu chuẩn của đường hồi quy tuyến tính.
BÀI LÀM:
*Dạng bài: Bài toán kiểm định tương quan và hối quy
Phân tích tương quan tuyến tính:
*Phương pháp giải:
Đặt giả thuyết H1: X và Y không có tương quan tuyến tính.
Tính giá trị của T theo công thức:
𝑇=(𝑟√(𝑛−2))/√(1−𝑟^2 )

Dùng bảng phân phối Student mức α=0.05 với bậc tự do n-2=13 suy ra giá trị c.
Nếu |T|<c thì chấp nhận H.
Và |T|≥c thì bác bỏ H.
*Công cụ giải: Mở Data Analysis chọn Correlation.
Bảng số liệu:
X 5 8 10 15 22
Y 6 15 20 30 39
Hộp thoại Correlation xuất hiện.
Input Range: Phạm vi đầu vào (từ ô A22 đến ô P23).
Grouped By: Nhóm dử liệu theo hàng hoặc cột (Chọn hàng).
Lables in first column: Nhãn ở cột đầu tiên (chọn).
Output Range: Phạm vi dữ liệu xuất ra (ô A30).
Ta có bảng kết quả:
X Y
X 1
Y 0.951997054 1
*Kết luận:
Hệ số tương quan r = 0.95199705404
Hệ số xác định r2 = 0.9062983909
Giá trị T = 11.213308127
Phân phối Student mứa α = 0.05 với bậc tự do n-2=13: c= 2.1603686565
Vì |T| > c nên bác bỏ giả thuyết H1 suy ra X và Y có tương quan tuyến tính.
Phân tích tương quan phi tuyến:
*Phương pháp giải:
Đặt giả thuyết H2: X và Y không tương quan phi tuyến.
Tính giá trị F (giá trị quan sát theo công thức):
F=

Dùng bảng phân phố Fisher mức α = 0.05 với bậc tự do (k-2,n-k)=(3,10) suy ra c.
Nếu F>c thì bác bỏ giả thuyết H2.
Nếu F<c thì châp nhận giả thuyến H2.
*Công cụ giải: Mở Data Analysis chọn Anova Single Factor
Sắp xếp lại bảng giá trị:
X 5 8 10 15 22
Y 6 15 20 30 39
4 11 18 28 33
4 13 22 33 36
Hôp thoại Anova Single Factor xuất hiện:
Input Ranger: Phạm vi đầu vào (từ ô B52 đến ô F55).
Grouped By: Nhóm dữ liêu theo hàng hoặc cột (chọn cột).
Labels in first column: Nhãn ở cột đầu tiên (chọn).
Alpaha: Gía trị α (0.05).
Output Range: Phạm vi xuất hiện ra (ô A63).
Ta có bảng kết quả:
Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
5 3 14 4.666667 1.33333333
8 3 39 13 4
10 3 60 20 4
15 3 91 30.33333 6.33333333
22 3 108 36 9

ANOVA
Source of Variation SS df MS F P-value
Between Groups 1931.0666667 4 482.7667 97.8581081 5.6360983E-08
Within Groups 49.333333333 10 4.933333

Total 1980.4 14
*Kết luận:
n=15, k=5.
Tổng bình phương giữa các nhóm SSF = 1931.067
Tổng bính phương nhân tố SST= 1980.4
Tỷ số tương quan của Y đối với X: η2Y/X = SSF/SST = 0.97508921
Gía trị F = 9.204954955
Phân bố Fisher mức α = 0.05 với bậc tự do (k-2,n-k)=(3,10) c= 3.708264819
Vì F>c nên bác bỏ giả thuyết H2 suy ra có tương quan phi tuyến.
Phân tích đường hồi quy:
*Phương pháp giải:
Đặt giả thuyết H3: Hệ số không thích hợp.
*Công cụ giải: Mở Data Analysis chọn Regression.
Sắp xếp lại bảng giá trị:
X Y
5 6
8 15
10 20
15 30
22 39
5 4
8 11
10 18
15 28
22 33
5 4
8 13
10 22
15 33
22 36
Hộp thoại Analysis chọn Regression.
Input X Range: Phạm vi đầu vào (từ ô B94 đến ô B108).
Input Y Range: Phạm vi đầu ra (từ ô C94 đến ô C108).
Labels: nhãn (chọn).
Line Fit Plots: vẽ đồ thị (chọn).
Output Ranger: phạm vi dữ liệu xuất ra (ô A116).
Ta có bảng kết quả:
SUMMARY OUTPUT X Line Fit Plot
50
Regression Statistics 40
Multiple R 0.951997054 30 Y
20 Predi
Y

R Square 0.9062983909
10
Adjusted R Square 0.8990905748
0
Standard Error 3.778142265 4 6 8 10 12 14 16 18 20 22 24
Observations 15 X

ANOVA
df SS MS F Significance F
Regression 1 1794.83333333 1794.833 125.738279 4.6923966E-08
Residual 13 185.566666667 14.27436
Total 14 1980.4
Coefficients Standard Error t Stat P-value Lower 95%
Intercept -1.2 2.19109316849 -0.54767 0.59319636 -5.9335690046
X 1.8333333333 0.16349620581 11.21331 4.6924E-08 1.4801212548

RESIDUAL OUTPUT

Observation Predicted Y Residuals


1 7.9666666667 -1.96666666667
2 13.466666667 1.53333333333
3 17.133333333 2.86666666667
4 26.3 3.7
5 39.133333333 -0.13333333333
6 7.9666666667 -3.96666666667
7 13.466666667 -2.46666666667
8 17.133333333 0.86666666667
9 26.3 1.7
10 39.133333333 -6.13333333333
11 7.9666666667 -3.96666666667
12 13.466666667 -0.46666666667
13 17.133333333 4.86666666667
14 26.3 6.7
15 39.133333333 -3.13333333333
*Kết luận:
Hệ số góc = 1.8333333333
Hệ số tự do= -1.2
Gía trị F (Significance F) = 4.69239662E-08 <α = 0.05 nên bác bỏ giả thuyết H. Suy ra phương trình hồi quy t
KẾT LUẬN TOÀN BÀI:
Tỷ số tương quan η2Y/X = 0.97508920757
Hệ số tương quan r = 0.95199705404
2
Hệ số xác định r = 0.9062983909
X và Y có tương quan tuyến tính với mức ý nghĩa 5%.
X và Y có tương quan phi tuyến với mức ý nghĩa 5%.
Phương trính hồi quy của Y đối với X: Y= 1.833333X-1.2 là thích hợp.
Sai số tiêu chuẩn của đường hồi quy là 3.778142
o. Trong thời gian 5 tháng công ty thu

5 8 10 15 22 5 8 10
4 11 18 28 33 4 13 22
thu (đơn vị là nghìn USD). Tính tỷ số
rên. Với mức ý nghĩa α = 5%, có kết luận
ìm đường hối quy tuyến tính của Y đối

5 8 10 15 22 5 8 10
4 11 18 28 33 4 13 22
F crit
3.4780496908
X Line Fit Plot

Y
Predicted Y

10 12 14 16 18 20 22 24
X
Upper 95% Lower 95.0% Upper 95.0%
3.5335690046 -5.9335690046 3.5335690046
2.1865454118 1.4801212548 2.1865454118

yết H. Suy ra phương trình hồi quy thích hợp.


15 22
33 36

15 22
33 36
Câu 4: Sau đây là số liệu về số lượng một loại báo ngày bán được ở 5 quận nội thành:
Quận nội thành
Ngày khảo sát
Q1 Q2 Q3 Q4 Q5
Thứ hai 22 18 22 18 18
Thứ ba 21 18 22 18 19
Thứ tư 25 25 25 19 20
Thứ năm 24 24 18 20 22
Thứ sáu 28 19 15 22 25
Thứ bảy 30 22 28 25 25
Lượng báo bán ra được ở 5 quận có khác nhau thực sự không? Lượng báo bán ra có chịu tác đông của yếu tố ngày
trong tuần không? Chọn α = 15%.
BÀI LÀM:
*Dạng bài: kiềm định trung bình.
*Phương pháp giải: Phân tích phương sai hai yêu tố không lặp.
Đặt giả thuyết H: Các giá trị trung bình bằng nhau.
*Công cụ giải:
Sử dụng bảng số liệu:
Quận nội thành
Ngày khảo sát
Q1 Q2 Q3 Q4 Q5
Thứ hai 22 18 22 18 18
Thứ ba 21 18 22 18 19
Thứ tư 25 25 25 19 20
Thứ năm 24 24 18 20 22
Thứ sáu 28 19 15 22 25
Thứ bảy 30 22 28 25 25
Mở Data Analysis chọn Anova: Two-Factor Without Replication.
Hộp thoại Anova: Two-Factor Without Replication xuất hiện.
Input Range: Phạm vi đầu vào (từ ô B19 đến ô G25).
Lables: Nhãn (Chọn).
Alpha: Hệ số α = 0.15.
Output Range: Phạm vi dữ liệu xuât ra (ô B33).
Ta có bảng kết quả:
Anova: Two-Factor Without Replication

SUMMARY Count Sum Average Variance


Thứ hai 5 98 19.6 4.8
Thứ ba 5 98 19.6 3.3
Thứ tư 5 114 22.8 9.2
Thứ năm 5 108 21.6 6.8
Thứ sáu 5 109 21.8 25.7
Thứ bảy 5 130 26 9.5

Q1 6 150 25 12
Q2 6 126 21 9.6
Q3 6 130 21.66667 21.86667
Q4 6 122 20.33333 7.466667
Q5 6 129 21.5 9.1

ANOVA
Source of Variation SS df MS F P-value F crit
Rows 141.5 5 28.3 3.567227 0.018135 1.843305
Columns 78.53333 4 19.63333 2.47479 0.077317 1.899151
Error 158.6667 20 7.933333

Total 378.7 29
*Kết luận:
FC = 2.47479 > Fα = 1.899151 nên ta bác bỏ giả thuyết H. Gía trị trung bình lượng báo bán ở 5 quận là khác nhau.
FR = 3.567227 > Fα = 1.843305 nên ta bác bỏ giả thuyết H. Vậy lượng báo bán ra chịu tác động của yếu tố ngày tron
Suy ra: Lượng báo bán được ở 5 quận là khác nhau.
Lượng báo bán ra chịu tác động của yếu tố ngày trong tuần.
đông của yếu tố ngày
ở 5 quận là khác nhau.
động của yếu tố ngày trong tuần.

You might also like