You are on page 1of 10

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


BỘ MÔN KHOA HỌC ỨNG DỤNG


Bài Tập Lớn


Xác suất thống kê
Nhóm thực hiện: Nhóm VIII
Lớp : DT01

Năm học 2008-2009


Danh sách sinh viên thực hiện:
1. Lê an thanh 60402156
2. Khâu thành lễ 40401317
3. Ngô văn thọ 40402988
4. Lưu trần sang 60502350
5. Nguyễn huy thỏa G0074479
6. Dương xuân hòa G0700824
7. Nguyễn quang tùng 20702855
8. Nguyễn anh hải 80500760
9. Nguyễn ngọc nam 80501753
10. Nguyễn ngô dũng tuyến 40303222
11. Nguyễn hải vương 60403234
12. Nguyễn quang tuyến 80504318
13. Huỳnh hải phận 40502026
-
- Chọn chương trình Anova: two-Factor without replication trong hộp thoại
data analysis rồi nhấp nút OK
- Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định
các chi tiết
- Phạm vi đầu vào (input range)
- Nhãn dữ liệu (label in First Row/column)
- Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
- Phạm vi đầu ra (output range)
- Sau đó so sánh kết quả và biện luận
4. Kết quả bài toán 1:
 Áp dụng phương pháp tính toán thông thường:
Từ số liệu của bai toán ta có:
địa phương mức độ đau mắt hột
T1 T2 T3 T4
A 47 189 807 1768
B 53 746 1387 946
C 16 228 438 115
2
Theo công thức ta tính được: X qs= 5.6
Tra bảng phân vị X2 ta có : X2= 16.8
 Áp dụng MS-EXCEL:

Anova: Two-Factor Without


Replication

SUMMARY Count Sum Average Variance


A 4 2811 702.75 613190.9167
B 4 3132 783 308551.3333
C 4 797 199.25 32835.58333

T1 3 116 38.66666667 394.3333333


T2 3 1163 387.6666667 96682.33333
T3 3 2632 877.3333333 228860.3333
T4 3 2829 943 683109

ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 800955.1667 2 400477.5833 1.974195041 0.219379 10.92477
Columns 1646596.667 3 548865.5556 2.705688665 0.138374 9.779538
Error 1217136.833 6 202856.1389

Total 3664688.667 11

 Kết quả và biện luận:


FR=1.974195 < FCrit=10.92477: Bệnh đau mắt hột phụ thuộc vào từng thời kì.
FC=2.705688 < FCrit=9.779538: Bệnh đau mắt hột phụ thuộc vào từng vùng.

Bài 2
Một nhà tâm lý học nghiên cứu ảnh hưởng của quê quán đối với thời gian
(tính bằng phút) để 1 sinh viên có thể trả lời 1 câu đố. Bốn nhóm sinh viên từ 4
vùng khác nhau (nội thành, ngoại thành, thị trấn, nông thôn) được khỏa sát với kết
quả như sau:
Nội thành 16.5 5.2 12.1 14.3
Ngoại thành 10.9 5.2 10.8 8.9 16.1
Thị trấn 18.6 8.1 6.4
Nông thôn 14.2 24.5 14.8 24.9 5.1
Hãy lập bảng ANOVA cho số liệu trên:
Giải:
Áp dụng MS-EXCEL:
- Nhập dữ liệu vào bảng tính
- Áp dụng “Anova : single-Factor”
- Nhấp lần lượt đơn lệnh tools và lệnh Data analysis
- Chọn chương trình Anova: single-Factor trong hộp thoại data analysis rồi
nhấp nút OK
- Trong hộp thoại Anova: single-Factor, lần lượt ấn định các chi tiết
- Phạm vi đầu vào (input range)
- Cách sắp xếp theo hàng hay cột (Group by)
- Nhãn dữ liệu (label in First Row/column)
Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
16.5 3 31.6 10.53333333 22.54333333
10.9 4 41 10.25 20.61666667
18.6 2 14.5 7.25 1.445
14.2 4 69.3 17.325 88.22916667

ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups177.2385256 3 59.07950855 1.425246642 0.298396541 3.862548358
Within Groups 373.0691667 9 41.45212963

Total 550.3076923 12
Bài 3: một trường đại học thu nhập các số liệu về chứng số chứng chỉ mà một sinh
viên theo học và số giờ học ở nhà của anh ta trong một tuần:

X 20 25 30 50 20 23
Y 12 13 12 15 16 16

ở đó X là số giờ học, Y là số chứng chỉ. Tìm hệ số tương quan giữa X và Y. ở mức


ý nghĩa 5%, có sự tương quan giữa hai biến tuyến tính nói trên không.

Bài giải:

Nhập dữ liệu:
x y
20 12
25 13
30 12
50 15
20 16
23 16

Sữ dụng lệnh Tools và lệnh Data Analysis, chọn chương trình Regression
trong hộp thoại Data Analysis.
Và ta chọn lần lược các thuộc tính:
Phạm vi biến số Y
Phạm vi biến số X
Nhãn dữ liệu
Mức tin cậy 5%
Tọa độ đầu ra
Kết quả:
Phương trình hồi quy: Y = f(X1)
Yx1 = 2.73 + 0.04X1
(R2 = 0.01; S = 2.11)

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.101695
R Square 0.010342
Adjusted R
-0.23707
Square
Standard
2.110323
Error
Observations 6

ANOVA
Significanc
df SS MS F
eF
0.18615
Regression 1 0.186154 0.0418 0.847983
4
4.45346
Residual 4 17.81385
2
Total 5 18

Coefficient Standard Upper Lower Upper


t Stat P-value Lower 95%
s Error 95% 95.0% 95.0%
5.47039 0.00543 20.3912 6.66108 20.3912
Intercept 13.52615 2.472611 6.661086
4 3 2 6 2
0.84798
x 0.016923 0.082774 0.20445 -0.21289 0.24674 -0.21289 0.24674
3

Pv2 = 0.005 < 0.05


Không chấp nhận giả thiết H0.

Vậy cả hai hệ số 2.37 và 0.04 của phương trình hồi quy đều có ý nghĩa thống kê.

Kết luận: số giờ học có liên quantuyến tính với số chứng chỉ.
Bài 4: Một nhà xã hội học chọn ngẫu nhiên gồm 500 người để trao một bản thăm
dò với các câu hỏi như sau:
 Ông bà có đi nhà thờ không?
 Mức độ thành kiến về chủng tộc của ông (bà) thế nào?
Kết quả được ghi lại trong báng sau:

Mức độ thành kiến chủng tộc


Đi nhà thờ
cao Đôi khi không
Có 70 160 170
không 20 50 30
Với mức ý nghĩa 5% có nhận định gì về mối tương quan về việc đi nhà thờ và vấn
đề thành kiến củng tộc?
Bài làm:
1. Cơ sở lý thuyết:
Đây là bài toán kiểm định tính độc lập ( trang 112-113/sgk)
Cho X và Y là 2 dấu hiệu trên cùng 1 tổng thể. Từ một mẫu kích thước n ta có số
liệu:
Y
y1 y2 … yh ni
X
x1 n11 n12 … n1h n1
x2 n21 n22 … n2h n2
… … … … … …
xk nk1 nk2 … nkh nk
mj m1 m2 … mh ∑=n
Trong đó xi (i=1,…k) các dấu hiệu mà X nhận
yj (j=1,…h) các dấu hiệu mà Y nhận
ni (i=1,…k) số lần X nhận xi
mj (j=1,…h) số lần Y nhận yj
ni,j (i=1,…k; j=1,…h) số lần đồng thời X nhận xi và Y nhận yj
2. Thuật toán sử dụng:
Áp dụng lý thuyết theo sách giáo khoa phương pháp giải như sau:
− Tìm : bằng cách tra bảng χα
2
= [(h-1)(k-1)] từ bảng phân vị
− Tính theo công thức sau:

Nếu < : thì chấp nhận giả thuyết H


Nếu > : thì bác bỏ H
3. Áp dụng MS-EXCEL:
- Nhập dữ liệu vào bảng tính
- Áp dụng “Anova: two-Factor without replication”
- Nhấp lần lượt đơn lệnh tools và lệnh Data analysis
- Chọn chương trình Anova: two-Factor without replication trong hộp thoại
data analysis rồi nhấp nút OK
- Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định
các chi tiết
- Phạm vi đầu vào (input range)
- Nhãn dữ liệu (label in First Row/column)
- Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
- Phạm vi đầu ra (output range)
- Sau đó so sánh kết quả và biện luận
4. Kết quả bài toán 4:
 Áp dụng phương pháp tính toán thông thường:
Từ số liệu của bai toán ta có:
Y
cao Đôi khi không n
X
có 70 160 170 400
không 20 50 30 100
m 90 210 200 500
Theo công thức ta tính được: χ qs = 5.308
2

Trang bảng phân vị ta có


So sánh và kết luận việc đi nhà thờ phụ thuộc vào thành kiến chủng tộc
 Áp dụng MS-EXCEL
Anova: Two-Factor Without Replication

Su
SUMMARY Count m Average Variance
có 3 400 133.3333 3033.333
không 3 100 33.33333 233.3333

cao 2 90 45 1250
đôi khi 2 210 105 6050
không 2 200 100 9800

ANOVA
Source of
Variation SS df MS F P-value F crit
Rows 15000 1 15000 14.28571 0.063414 18.51282
Columns 4433.333 2 2216.667 2.111111 0.321429 19
Error 2100 2 1050

Total 21533.33 5

• Kết quả và biện luận: FR =14.28 < Fcrit= 18.51 : => Việc đi nhà thờ phụ
thuộc vào mức độ thành kiến chủng tộc.

You might also like