Báo cáo xác suất thống kê

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA KHOA HỌC ỨNG DỤNG
BỘ MÔN: TOÁN ỨNG DỤNG
--------------o0o--------------
BÁO CÁO BÀI TẬP LỚN

XÁC SUẤT THỐNG KÊ

GVHD: Nguyễn Kiều Dung
Nhóm 9 - L08
1. Lê Quang Đức L08-A 1510787

2. Trần Văn Đức L08-A 1510818
3. Nguyễn Kinh Khoa L08-A 1411833
4. Nguyễn Trung Hiếu L08-A 1511027
5. Hoàng Thanh Huỳnh L08-B 1511330
6. Nguyễn Hoài Nam (NT) L08-B 1512083
7. Phan Thế Nam L08-B 1512100
8. Phan Phạm Quốc Thái L08-C 1513029
9.Phạm Minh Tuấn L08-C 1513862
1
2
MỤC LỤC:
Bài 1:.............................................................................................................................. 3
Bài 2:............................................................................................................................ 15
Bài 3:............................................................................................................................ 18
Bài 4:............................................................................................................................ 23
Bài 5:............................................................................................................................ 29
TÀI LIỆU THAM KHẢO:...........................................................................................34
3
Bài 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ
liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó
hay không.
Dạng bài: thống kê mô tả.
Dữ liệu A: Khảo sát thời gian hoàn thành một sản phẩm mạch điện của 36 sinh viên
khi học thực tập Điện điện tử ta có bảng số liệu: Thời gian (phút).
16 17 14 12 19 20 18 17 22
28 24 16 23 15 18 14 22 25
22 15 18 28 16 13 16 21 24
15 17 18 24 23 28 21 20 20
Dữ liệu B :
Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên có thành thạo một ngôn
ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành thạo)
1 1 1 0 1 0 1 1 1 0 1 1 1 0 0
1 1 0 1 1 0 0 0 1 1 1 0 0 1 0
0 0 1 1 0 1 0 1 1 1 1 1 0 1 1
1 1 1 1 0 1 1 1 1 0 0 0 0 0 1
Bài làm: Sử dụng dữ liệu A.

1. Phân tổ dữ liệu:
Nhập dữ liệu:
4
1
+ Xác định số tổ cần chia: k = (2 x n) 3 .
Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3).

Kết quả: 4.160167646
Chọn k = 4.
(Xmax −Xmin)
+ Xác định trị số khoảng cách h theo công thức: h = .
k
Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4.
Kết quả: 3.5
Chọn h =4.
+ Ta xác định được các cận trên và cận dưới các tổ lần lượt là:
Tổ 1: 12 – 16.
Tổ 2: 16 – 20.
Tổ 3: 20– 24.
Tổ 4: 24 - 28
Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:
Chọn chức năng Data/ Data Analysis/Histogram.

+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Bin Range: địa chỉ chứa bảng phân nhóm.
+ Output options: vị trí xuất kết quả.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ
tính tần số.
5
Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).
2. Vẽ đồ thị phân phối tần số và đa giác tần số (A):

_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số
+ Dùng chức năng Insert Column Chart trên menu Insert.
6
_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert
7
Ta được kết quả
+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert
8
3.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 96% (A).
_ Nhập dữ liệu vào bảng tính:
Chọn chức năng Data/Data Analysis/Descriptive Statistics.

+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Confidence Level for Mean: độ tin cậy cho trung bình.
9
Ta được kết quả:
10
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
a. Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên có thành thạo
một ngôn ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành
thạo)
1 1 1 0 1 0 1 1 1 0 1 1 1 0 0
1 1 0 1 1 0 0 0 1 1 1 0 0 1 0
0 0 1 1 0 1 0 1 1 1 1 1 0 1 1
1 1 1 1 0 1 1 1 1 0 0 0 0 0 1
 Bảng phân phối tần số, tần suất:
x n f
0 23 0,383333
1 37 0,616667
∑ 60 1
Đặc trưng mẫu:
11
Biểu đồ phân phối tần số:
5. Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay không.
12
Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay
không? (độ tin cậy 96%)
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn.
Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn.
Tính các đặc trưng mẫu: n = 36
x = 19.4167
^
s = 4.2582=(STDEVP(A1:A36))
+ x là ước lượng hợp lý cực đại cho a => a=19.4167
+ s^2 là ước lượng hợp lý cực đại cho

 2 => σ = 4.2582
Với k = 4, r = 2 =>
2 (k  r  1) = 4.2179 (=CHIINV(0.04,1)
Miền bác bỏ: W = (4.2179; +∞)

Tiêu chuẩn kiểm định:
 a  a
Khoảng ni Pi= P(  ) – P(  )
(Hàm NORMSDIST)
(-∞;16) 11 =NORM.S.DIST((16-D5)/D6,TRUE)-0
=NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16-
(16;20) 11
D5)/D6,TRUE)
=NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20-
(20;24) 10
D5)/D6,TRUE)
(24;+∞) 4 =1 - NORM.S.DIST((24-D5)/D6,TRUE)
13
1  ni2 
 qs2    n
n  i pi 
= ==(1/36)*(SUM(G9:G12))-36
1  ni2 
 qs2    n
= 1.0980112  W => Chấp nhận H0
n  i pi 
=
Vậy dữ liệu A phù hợp với phân phối chuẩn.
14
Bài 2:
Hai máy cùng gia công một loại chi tiết. Để kiểm tra xem 2 máy này có củng độ
chính xác như nhau hay không, người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, đem đo
và thu được kết quả sau (đơn vị mm):
Máy A 137 138 135 140 138 137 139
Máy B 142 135 140 138 136 138 141
Có thể cho rằng 2 máy có độ chính xác như nhau hay không, với mức ý nghĩa 2%? Giả
thiết rằng kích thước chi tiết có phân phối chuẩn.
Bài làm:
Cơ sở lý thuyết:
Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.
Công cụ: F-Test Two-Sample for Variances.
Khi cần kiểm định hai tổng thểcó mức độ đồng đều nhưnhau hay không chúng ta dùng
phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F
như sau:
s12
F 2
s2
Trong đó: S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2.
Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được
đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất.
- Giả thiết đặt ra là kiểm định hai bên:
H :  12   22 vàH :  12   22
0 1
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể
khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả
thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có
phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ
thuộc và hai giá trị bậc tự do, bậc tự do tử số (d𝑓1=n1-1 gắn liền với mậu thứ nhất và
bậc tự do mẫu số gắn liền với mẫu thứ hai (d𝑓2=n2-1)
15
Quy tắc thực sự để bác bỏ 𝐻o với kiểm định hai bên khi d𝑓1=n1-1 và d𝑓2=n2-1
mức ý nghĩa α là: giả thiết 𝐻0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn
trên FU=Fdf1;df2;α/2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2 tức là
Ftt<Fdf1;df2;-α/2 hoặc Ftt>Fdf1;df2;α/2
Nếu chúng ta kiểm định bên phải:
H :  12   22 và H :  12   22
0 1
Quy tắc bác bỏ 𝐻 o là khi:
σ 22 s 21 s21
Giá trị thống kê: F= =
σ 21 s 22 s22
Giả thiết: H 0 :σ 21=σ 22 và H 1 :σ 21> σ 22 .
Phân phối Fischer: Y1=N1 -1 Y2=N2 -1 .

Biện luận:
Nếu F <Fα(Y1 ;Y2) => Chấp nhận giả thuyết Ho với xác suất (1-α)100%.
Thực hiện.
Vào Data/ Data Analysis/ F-Test Two-Sample for Variances.
Chọn các mục như hình:
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2.
+ Apha: mức ý nghĩa α (chọn tại ô alpha).
16
Kết quả:
17
Biện luận.
Giả thiết:
Ho: σ12 = σ22 “Độ chính xác chi tiết của 2 máy là giống nhau”.
H1: σ12≠ σ22 “Độ chính xác chi tiết của 2 máy là khác nhau”.
F=2,57>1 vì F < F critical (2,57< 6,39 )
 Chấp nhận Ho , bác bỏ H1
Kết luận: Độ chính xác chi tiết của máy là giống nhau.
.
Bài 3:
Theo giới thiệu của nhà phân phối, mức tiêu thụ nhiên liệu trung bình của 4 loại
xe ô tô là như nhau. Sau một thời gian chạy xe, người ta đo lại trên các quãng đường
như nhau thì được kết quả sau:
Loại xe Mức tiêu thụ nhiên liệu

I 20 21,2 18,7 19,5 20,1 22 21 21,7
II 21,2 21,2 20,4 19.6 22 21,1 20
III 21,5 21,2 21 21,5 22 20,7
IV 19,9 22 21 23 21,2 20,6 21,3
Có thể coi mức tiêu thụ nhiên liệu của 4 loại xe này còn giống nhau hay không,
với mức ý nghĩa 4%? Tìm hệ số xác định R2 của bài toán và giải thích ý nghĩa của nó.
Bài làm:
 Dạng bài: Kiểm định giá trị trung bình một nhân tố.
 Phương pháp giải: Phân tích phương sai một nhân tố.
 Công cụ giải: Anova single factor.
Cơ sở lý thuyết:
Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ2) có
mẫu điều tra:
18
X1 X2 … Xk
X11 X12 X1k

X21 X22 X2k
…
… … …
Xn(1)1 Xn(2)2 Xn(k)k
Với mức ý nghĩa α ta kiểm định giả thiết:

- H0: a1=a2=…=ak
H1: “Tồn tại j1≠j2 sao cho aj1≠aj2
Đặt:
k
n  nj
Tổng quan sát: j 0
Trung bình mẫu thứ j (j=1, 2, …, k):

nj
 1 Tj nj
xj 
nj
x
j 1
ij 
nj
T j   xij
v ới i 1
Trung bình chung

n n
 1 k j T k j k
x   xij  T   xij   Tj
n j 1 i 1 n v ới j 1 i 1 j 1
Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor:

k  
SSF   n j ( x j  x) 2
j 1
Tổng bình phương độ lệch do sai số Sum of Squares for Error

k nj 
SSE   ( xij  x j ) 2
j 1 i 1
Tổng bình phương độ lệch chung Total Sum of Squares:
19
k nj 
SST   ( xij  x) 2
hay SST=SSF+SSE
j 1 i 1
Trung bình bình phương của nhân tố Mean Square for Error:
SSF
MSF 
k 1
Trong đó, k-1 là bậc tự do của nhân tố.
Trung bình bình phương của sai số Mean Square for Error:
SSE
MSE 
nk
MSF
F
Tỷ số F: MSE
- Bảng ANOVA
Tổng bình Trung bình

Nguồn Bậc tự do Tỷ số F
phương bình phương
Nhân tố SSF k-1 MSF MSF/MSE
Sai số SSE n-k MSE
Tổng số SST n-1
So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử
số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
- Nếu F > F lý thuyết, ta bác bỏ Ho.
- Nếu F < F lý thuyết, Ho đúng.
SSF

Hệ số xác định R2 SST chính là tỷ lệ hay số phần trăm chiếm trong tổng số
100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng.
Thực hiện bài toán:
o Vào Data/ Data Analysis/Anova: Single Factor.
20
o Chọn các thư mục như hình:
o Input Range: địa chỉ tuyệt đối chứa dữ liệu.
o Output options: vị trí xuất kết quả.
o Alpha: mức ý nghĩa α.
Kết quả:
21
 Biện luận:
 Giả thiết:
H0: Mức tiêu thụ nhiện liệu 4 loại xe là giống nhau.
H1: Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau.

Vì F = 1.284075 < F critical = 3.234466 nên ta giả thiết H0 đúng.
 Vậy mức tiêu thụ nhiên liệu của 4 loại xe là giống nhau.
 Tính hệ số xác định R2:
Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R2theo công thức:
SSF
R2 
SST
 Thực hiện trên Excel:

o Chọn ô đưa ra kết quả của R2.
o Nhập công thức: =B20/B23.
Ta thu được kết quả sau:
Vậy hệ số xác định R2 = 0.138309371. Điều đó có nghĩa là nhân tố nơi lấy mẫu
để đo chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe.
22
Bài 4:
Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A,B,C,D,E. Người
ta yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố
mà họ đang sống. Kết quả được cho như sau:
Thành phố Mức độ thỏa mãn
Rất thỏa Tương đối Không
mãn
A 220 121 63
B 130 207 75
C 84 54 24
D 156 95 43
E 122 164 73
Với mức ý nghĩa = 3%. Hãy kiểm định xem mức độ thỏa mãn có phân bố
giống nhau ở 5 thành phố trên hay không?
Bài làm:
 Dạng bài: kiểm định giả thiết về tỷ lệ.

 Phương pháp giải: Áp dụng kiểm định chi bình phương χ2
 Công cụ giải: hàm CHITEST trên EXCEL.
 Cơ sở lý thuyết:
Theo thống kê, kiểm định chi bình phương hay kiểm tra χ2 (“đôi khi đọc là khi bình
phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong đó thống kê kiểm
định tuân theo phân bố χ2 nếu giả thuyết là không đúng.Chúng gồm:
 Kiểm định chi bình phương Pearsom.

 Kiểm định chi bình phương Yates.
 Kiểm định chi bình phương Mantel-Haenszel.
 ….
-Dạng thống kê kiểm định thông dụng nhất là:
(o  e) 2
2 
e
-Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
-Xét một bộ A gồm r tính trạng, A= (𝐴1, 𝐴2 , 𝐴r), trong đó mỗi cá thể của tập hợp
chính H có và chỉ có một trong các tính trạng (hay phạm trù )𝐴i.
23
-Gọi pi (i=1, 2, …r) là tỉ lệ cá thể tính trạng 𝐴Itrong tập hợp chính H. Khi đó
vecto π= (𝑞1, 𝑞2, …𝑞r) được gọi là phân bố của A trong tập hợp chính H.
-Giả sử (p1, p2, … pr) là phân bố của (𝐴1, 𝐴2, ... 𝐴r) trong tập hợp chính H và (q1, q2,
…qr) là phân bố của A= (𝐴1, 𝐴2, .. 𝐴r) trong tập hợp chính Y. Ta nói (𝐴1, 𝐴2, ...𝐴r) có phân
bố như nhau trong X và Y nếu (p1, p2 ,…pr)= (q1 ,q2,…qr)p1 =q1,…pr =qr
-Chúng ta muốn kiểm định xem A= (𝐴1, 𝐴2, ..., 𝐴r) có cùng phân số trong X và
Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y.
-Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, .. Hk gọi πi = p1i , p2i
,…pri là phân bố của A =(𝐴1, 𝐴2, .. 𝐴r) trong tập hợp chính 𝐻i
-Ta muốn kiểm định giả thuyết sau:
Ho: π1= π2= … = πk
(Các phân bố này là như nhau trên các tập hợp chính 𝐻i)
-Chú ý rằng tương đương với hệ đẳng thức sau:
p 11= p21=…= pk1
{ p 12= p22=…= pk2
1
… … … …..
p i = p2i =…= pki
… … … …..
p r = p2r =…= pkr
1
-Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên
chọn từ tập hợp chính 𝐻i được gọi là ngẫu nhiên thứ i (i = 1, 2, ..., k).
-Giả sử trong mẫu ngẫu nhiên thứ i:
-Có 𝑛1i cá thể có tính trạng 𝐴1.
𝑛2i cá thể có tính trạng 𝐴2.
…………………………………
𝑛ri cá thể có tính trạng 𝐴r.
n   ik1 nij ; n0 j   ir1 nij
-Ký hiệu: .
24
-Như vậy 𝑛0j là kích thước của mẫu thứ j, còn 𝑛j0 là tổng số cá thể có tính trạng
𝐴I trong toàn bộ k mẫu đang xét:
n   ir1 ni 0   kj 1 n0 j
là tổng số tất cả các cá thế của k mẫu đang xét
- Nếu giả thuyết 𝐻o là đúng nghĩa là:
p11= p 21=…=p k1
{ 1
p12= p 22=…=p k2
… … … … ..
p i = p2i =…= pki = p❑
… … … … ..
i
p 1r = p2r =…= pkr = p❑r
ni 0
pi^ 
-Thì các tỷ lệ chung p1 ,p2,…pr được ước lượng bởi n .
-Đo ước lượng cho xác suất để một cá thể có mang tính trang 𝐴j.Khi đó số cá thể
có tính trạng 𝐴j trong mẫu thứ j sẽ xấp xỉ bằng:
noj nio
nij^  n0 j pi^  
n
n ^ (i  1, 2,...., r; j  1, 2,...k)
-Các số ij được gọi là các tần số lý thuyết(TSLT), cácsố
𝑛ijđược gọi là các tần số quan sát (TSQS).
-Ta quyết định bác bỏ 𝐻o khi các TSLT cách xa TSQS một cách bất thường.
Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây:
(nij  nij^ ) 2 (TSQS  TSLT ) 2
T  k
f 1  r
i 1 
nij^ TSLT
.
-Người ta chứng minh được rằng nếu 𝐻ođúng và các TSLT không nhỏ hơn 5
thì T sẽ có phân bố xấp xỉ với (k-1).(r-1) bậc tự do. Thành thử miền bác bỏ có dạng
{T>c} ở đó c được tìm từ điêu kiện P{T>c} = 𝛼. Vậy c là phân vị mức 𝛼 của phân
bố χ2với (k-1).(r-1) bậc tự do.
25
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó ta
dùng
kiểm định 𝛾2(chi-quared):

(nij  nij^ )2
 2   ir1  cj 1 ^ np j 
Tonghang.Tong cot
n n
ij với
nij: tần số thực nghiệm: 𝑛𝑞ij: tần số lý thuyết của ô (i, j): r: số hàng; c: số cột
Dùng hầm CHITEST (actual_range, expected_range).
Tính giá trị: P(X >𝛾2) = CHITEST
Nếu: P(X >𝛾2) >𝛼 thì chấp nhân 𝐻ovà ngược lại.
 Nhận xét: Đây là bài toán kiểm định giả thuyết về tỷ lệ.
 Giải thuyết Ho: Tỷ lệ mức độ thỏa mãn của 5 thành phố là giống nhau.
 Nhập giá trị vào bảng tính.
Tính tổng các số:
26
Tổng cột: Chọn A8, nhập =SUM(B2:B7), rồi Enter, dùng con trỏ kéo sang các
dòng khác.
Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo.
Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.
1: Chọn B13: nhập =E3*$B$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.
2: Chọn C13: nhập =E3*$C$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.
3: Chọn D13: nhập =E3*$D$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.
o Áp dụng hàm số CHITEST tính giá trị 𝑃(𝑋>𝜒2).

o Chọn A20, nhập =CHITEST(B3:D7,B13:D17), rồi Enter.
27
Biện luận: 𝑃(𝑋>𝜒2) 3.5299E-13 < 0.03.
 Bác bỏ giả thuyết Ho.
Kết luận: mức độ thỏa mãn ở 5 thành phố trên là không giống nhau .
28
Bài 5:
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X, Y.
2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước
lượng đường hồi quy tuyến tính Y theo X.
3) Tìm sai số chuẩn của ước lượng.
Dữ liệu sử dụng:
Khảo sát lượng dầu tiêu thụ trung bình của một động cơ làm việc trong 14
lần khác nhau. ( mặc định độ tin cậy 95%).
Thời gian Lượng dầu

(phút) tiêu thụ (ml)
20 250
30 400
22 260
26 320
26 320
27 340
29 380
35 500
34 480
25 300
33 460
31 420
28 360
32 440
29
Bài làm:
o Cơ sở lí thuyết :
Hệ số tương quan :
R=
∑ x i y i− ∑ x i ∑ y i
√¿ ¿ ¿
 Nếu R > 0 thì X, Y tương quan thuận.
 Nếu R < 0 thì X, Y tương quan nghịch.
 Nếu R = 0 thì X, Y không tương quan.
 Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất.
 Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).
 Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu).
Nhập dữ liệu và tính toán:
 Chọn chức năng Data/Data Analysis/Correlation.
Ta có kết quả:
Ta có hệ số tương quan là R = 0,991711 chứng tỏ giữa thời gian và lượng dầu

tiêu thụ có quan hệ khá chặc chẽ và có tương quan thuận.
30
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?
Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.
 Cơ sở lý thuyết:
Giả thiết H0: X và Y không có tương quan tuyến tính:
R n−2
T= √
√ 1−R 2
 Tính T: chọn ô F4 và nhập biểu thức =F3*SQRT(14-2)/SQRT(1-F3^2).
 Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức
α/2=0.025 của phân bố Student với n-2=12 bậc tự do).
Vì |T| > c nên bác bỏ giả thiết H0.

Vậy: X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X.
 Cơ sở lý thuyết:
 Phương trình hồi quy tuyến tính:
S´ y
ý s =a+bx , a=r , b= ý−ax
S
 Kiểm định hệ số a, b:
+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).
+ H1: Hệ số hồi quy có ý nghĩa (≠0).
+ Trắc nghiệm t < t ,n-2: chấp nhận H0.
 Kiểm định phương trình hồi quy:
+ Giả thiết H0: “Phương trình hồi quy tuyến tính không thích hợp”.
31
H1: “Phương trình hồi quy tuyến tính thích hợp”.
+ Trắc nghiệm F < F ,1 ,n-2: chấp nhận H0.
 Nhập số liệu vào bảng tính:
32
Kết quả:
 Biện luận:
Phương trình hồi quy: Y = −133,786 + 17.84676x
Hệ số hồi quy: 1,49E-05=1,49.10-5 < 0.05  Hệ số tự do không có ý
nghĩa.
4,6E-12 = 4,6.10-12< 0.05  Hệ số của x không có ý nghĩa.
 Phương trình hồi quy tuyến tính này không thích hợp vì 4,6E-
12=4,6.10-12 < 0.05.
3) Tìm sai số chuẩn của ước lượng:
 Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai
số.
chuẩn của ước lượng:
- Đối với biến tự do: SE = 19,1892.
- Đối với biến X: SE = 0,6675.
33
34
TÀI LIỆU THAM KHẢO:
[1] Bài giảng xác suất thống kê – cô Nguyễn Kiều Dung.
[2] Giáo trình xác suất và thống kê.
[3] XỬ LÝ THỐNG KÊ BẰNG EXCEL nguồn:
http://www2.hcmuaf.edu.vn/data/dtdanh/XSTK_EXCEL.pdf
35

Báo cáo xác suất thống kê

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Báo cáo xác suất thống kê

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

BÁO CÁO BÀI TẬP LỚN

1. Lê Quang Đức L08-A 1510787

Bài làm: Sử dụng dữ liệu A.

Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3).

Chọn chức năng Data/ Data Analysis/Histogram.

2. Vẽ đồ thị phân phối tần số và đa giác tần số (A):

Chọn chức năng Data/Data Analysis/Descriptive Statistics.

 Bảng phân phối tần số, tần suất:

Đặc trưng mẫu:

+ x là ước lượng hợp lý cực đại cho a => a=19.4167

+ s^2 là ước lượng hợp lý cực đại cho

Miền bác bỏ: W = (4.2179; +∞)

Quy tắc bác bỏ 𝐻 o là khi:

Giả thiết: H 0 :σ 21=σ 22 và H 1 :σ 21> σ 22 .

Phân phối Fischer: Y1=N1 -1 Y2=N2 -1 .

+ Apha: mức ý nghĩa α (chọn tại ô alpha).

Loại xe Mức tiêu thụ nhiên liệu

X11 X12 X1k

Với mức ý nghĩa α ta kiểm định giả thiết:

Trung bình mẫu thứ j (j=1, 2, …, k):

Trung bình chung

Tổng bình phương độ lệch do nhân tố Sum of Squares for Factor:

Tổng bình phương độ lệch do sai số Sum of Squares for Error

Tổng bình phương độ lệch chung Total Sum of Squares:

Tổng bình Trung bình

Thực hiện bài toán:

o Vào Data/ Data Analysis/Anova: Single Factor.

H1: Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau.

 Thực hiện trên Excel:

 Dạng bài: kiểm định giả thiết về tỷ lệ.

 Kiểm định chi bình phương Pearsom.

-Dạng thống kê kiểm định thông dụng nhất là:

-Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.

Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y.

-Ta muốn kiểm định giả thuyết sau:

Ho: π1= π2= … = πk

-Chú ý rằng tương đương với hệ đẳng thức sau:

p 11= p21=…= pk1

{ p 12= p22=…= pk2

p 1r = p2r =…= pkr = p❑r

kiểm định 𝛾2(chi-quared):

Dùng hầm CHITEST (actual_range, expected_range).

Tính giá trị: P(X >𝛾2) = CHITEST

Tính tổng các số:

Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.

o Áp dụng hàm số CHITEST tính giá trị 𝑃(𝑋>𝜒2).

Thời gian Lượng dầu

Ta có hệ số tương quan là R = 0,991711 chứng tỏ giữa thời gian và lượng dầu

Vì |T| > c nên bác bỏ giả thiết H0.

You might also like