Professional Documents
Culture Documents
Chuyên cần 5%, bài tập trên lớp 20%, bài tập nhóm 5%, bài
thực hành 20%, Thi cuối kỳ 50%
- Biến?
- Thống kê?
- Các đại lượng đặc trưng cho thống kê mô tả? (trung bình, phương
https://forms.gle/n6GNYgT9uSN5Rdzr6
Xử lý số liệu
Variable (Biến)
Phân loại biến
Biến là định lượng: khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng số như
khối lượng, chiều dài, hàm lượng protein, chi phí sản xuất,…
Biến là định tính là những biến mà có thể được xếp vào các thư mục khác nhau dựa trên các đặc tính
hay thuộc tính nào đó.
Những biến này được gán các giá trị để phân biệt hay phân loại quan sát. VD: giới tính (nam -1, nữ -0)
Thống kê (statistics)
Thống kê mô tả cho biến định lượng
Giả sử có tập số liệu thực nghiệm gồm n giá trị x1 ,x2 …xn
* Các tham số đặc trưng cho độ tập trung của tập liệu:
- Tần suất: pi = ni/N (ni tần số xuất hiện của giá trị i)
Khi N → ∞ thì pi → Pi (xác suất xuất hiện giá trị Xi đó).
- Số trội: là số có tần suất lớn nhất trong tập số liệu (Mode:
Mo) 7.5 8 7 8 7 7 7 7 8 8 7 8
1 N
Trung bình cộng số học X = Xi
N i =1
GM = n X 1 X 2 .... X n
VD: cho 1 dãy số: 1, 2, 7, 8, 9, 10, 12, 15, 16, 4, 5, 17, 20.
Xác định các đại lượng đặc trưng của tập số liệu trên
Biểu đồ hộp gồm các thành phần chính sau:
• min,max: giá trị thấp nhất và giá trị cao nhất của tập hợp số,
• Q1, Q3 : số tứ phân thứ nhất và thứ ba,
• TV: số tứ phân thứ hai hay trung vị,
• Giữa số tứ phân thứ 1 và thứ 3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị.
Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay IQR)
• Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị "xa nhất".
• Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so
với các số liệu còn lại.
• R là chiều dài cực đại của râu. Đó là tích của IQR với một hệ số được gọi là chiều dài tương đối
của râu, Trong nhiều phần mềm máy tính, chiều dài tương đối này có giá trị là 1,5.
Thời gian trích ly (phút)
Lần lặp
40 50 60
1 150 180
2 145 182
3 155 188
4 148 184
5 152 186
6 154 -
7 147 -
Hoàn thiện bảng sau
* Phương sai
𝑋𝑖 − 𝑋ത 2
* Độ lệch chuẩn 𝑆𝐷 =
𝑛−1
* Sai số chuẩn
SD
* Hệ số biến thiên CV = 100%
X
Phân biệt sai số chuẩn (SE) và Độ lệch chuẩn ????
Hàm phân bố và chuẩn phân bố
- Hàm phân bố: Là một hàm toán học biểu diễn quy luật
phân bố các giá trị của một tập số liệu trong đó có ảnh
hưởng của một số yếu tố ngẫu nhiên
- Ứng với mỗi hàm phân bố sẽ có chuẩn phân bố đặc
trưng, để ta có thể sử dụng các chuẩn đó đánh giá các tính
chất của tập số liệu
Phân phối chuẩn
Dạng của hàm
Phân phối student phân bố, và chuẩn
phân bố tương ứng
Phân phối Fisher
Phân phối χ2
Phân phối chuẩn
Phân phối chuẩn (phân phối Gauss) là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị
trung bình μ) và tỉ lệ (phương sai σ2).
x−
chuẩn phân bố: Z=
Phương trình (1) mô tả mật độ xác suất của phân bố, đó là tổng diện tích giữa đường cong và trục x.
Nếu lấy tích phân của hàm phân bố từ -∞ đến +∞ thì toàn bộ phần diện tích giới hạn bởi đường cong
biểu diễn xác suất xuất hiện các giá trị xi .
Giá trị xác suất này gắn liền với độ tin cậy thống kê P. Nói cách khác, phần diện tích giới hạn bởi
đường cong là độ tin cậy thống kê để xuất hiện xi trong khoảng tích phân.
Xác suất để giá trị đo nằm ngoài giới hạn trên của tích phân là α = 1 – P (mức ý nghĩa). Phần diện tích
P cũng được biểu diễn theo % so với tổng diện tích và gọi là độ tin cậy thống kê.
Phân phối student
Trong khi phân phối chuẩn mô tả toàn bộ tổng thể, phân phối Student mô tả
mẫu được lấy từ một tổng thể đầy đủ, do đó với mỗi cỡ mẫu khác nhau ta sẽ
có phân phối Student cho mẫu khác nhau và khi cỡ mẫu càng lớn thì phân
phối Student sẽ càng giống với phân phối chuẩn.
Như trên đã nói, khi k →∞ thì k →σ=1 và phân phối t chuyển thành phân phối Z (k>30).
Khi biết f và P có thể tra bảng t để tìm giá trị tích phân của phân bố t.
Chuẩn t được dùng để tính khoảng tin cậy của số liệu thực nghiệm, so sánh giá trị
trung bình thực nghiệm và giá trị thật, so sánh 2 giá trị trung bình hoặc tính độ bất ổn của
độ lệch chuẩn mẫu khi n nhỏ.
Giả thiết thống kê:
- là những giả thiết nói về các tham số, phân phối xác suất, hoặc tính độc lập của các đại lượng ngẫu nhiên.
Việc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi là kiểm định giả thiết thống kê.
VD: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2010 là 6,8 tấn/ha thì ta có thể coi đó là
một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên X biểu thị năng
suất lúa của tỉnh này.
Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh và qui tắc kiểm định (sẽ nêu ở phần sau) để đưa
ra một kết luận là bác bỏ hay chấp nhận giả thiết trên
Giả thiết cần kiểm định còn được gọi là giả thiết không (null hypothesis) ký hiệu là Ho. Một mệnh đề đối lập
với Ho được gọi là giả thiết đối và được ký hiệu là Ha
Trước khi cải tiến, năng suất trung bình dây chuyền là
30 (kg/phút). Sau cải tiến, kiểm tra ngẫu nhiên về năng
suất với 60 mẫu, quan sát được trung bình bằng 32
(kg/phút) và độ lệch chuẩn là 4 (kg/phút). Với mức ý
nghĩa 5% có thể cho rằng năng suất trung bình đã tăng
lên không? Giả sử năng suất là biến ngẫu nhiên phân
phối chuẩn.
Ứng dụng hàm phân bố và chuẩn phân bố trong
giải quyết các bài toán thống kê
VD: p-value=0.0013 nghĩa là: nếu bác bỏ giả thuyết Ho thì khả năng mắc sai lầm là
0.0013 (hay 0.13%) hay mức ý nghĩa nhỏ nhất cho phép bác bỏ Ho
Như vậy nếu quy ước mức ý nghĩa α thì có thể dùng p-value để kết luận theo α như sau:
- nếu P< α thì bác bỏ Ho, thừa nhận Ha
- nếu P≥ α thì chưa có cơ sở để bác bỏ Ho (chấp nhận Ho)
Kết quả điều tra lượng cholesterol toàn phần trong huyết thanh của 25 người mắc bệnh béo phì được thể hiện ở
bảng sau. Theo tài liệu hằng số sinh hóa bình thường của người Việt Nam thì lượng cholesterol trung bình toàn phần
trong huyết thanh là 156 mg/l. Hỏi lượng cholesterol của người mắc bệnh béo phì có Khác với người bình thường hay
không ?
* So sánh phương sai mẫu với tổng thể
* So sánh phương sai của hai tập số liệu Tiêu chuẩn này có phân phối Fisher với các độ tự do
f1=n1−1; và f2=n2−1
Nếu Ftính < Fbảng Chấp nhận giả thuyết Ho: hai phương sai là đồng nhất
Nếu Ftính > Fbảng Bác bỏ giả thuyết Ho: hai phương sai là không đồng nhất
F(0.025; 29;24)
Tra bảng các giá trị sau:
Z(1 side, alpha=0.05); t(1 side, alpha=0.95, n=20); t(2 side, alpha=0.95, n=20);
Ttính = 15.53
tcrt,.(0.05, df=n-1=9)=1.833
Between
within Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ:
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
n3
n1 n2
N=n1 + n2 + n3
k- số mức thí nghiệm
Tiến hành thực nghiệm đo Đưa ra kết luận về sự ảnh hưởng
mật độ quang của dung Nồng độ NH3 của nồng độ dung dịch đệm đến
dịch Ni2+-Methylthimol 0.5M 0.75M 1.0M 1.25M giá trị mật độ quang của dung
Blue (có nồng độ Ni2+ và lần 1 0.525 0.526 0.525 0.525 dịch?
MTB không đổi) ở bước
sóng hấp thụ cực đại, kết lần 2 0.525 0.527 0.524 0.529
quả được ghi trong bảng lần 3 0.521 0.522 0.527 0.55
sau : lần 4 0.523 0.526 0.526 0.551
Tiến hành thực nghiệm đo Đưa ra kết luận về sự ảnh hưởng
mật độ quang của dung Nồng độ NH3 của nồng độ dung dịch đệm đến
dịch Ni2+-Methylthimol 0.5M 0.75M 1.0M 1.25M giá trị mật độ quang của dung
Blue (có nồng độ Ni2+ và lần 1 0.525 0.526 0.525 0.525 dịch?
MTB không đổi) ở bước
sóng hấp thụ cực đại, kết lần 2 0.525 0.527 0.524 0.529
quả được ghi trong bảng lần 3 0.521 0.522 0.527 0.55
sau : lần 4 0.523 0.526 0.526 0.551
total ovalral= 0.52825
Mean 0.5235 0.52525 0.5255 0.53875
ni 4 4 4 4
=0.0005915
=0.0005975
MSW 4.92917E-05
MSB 0.000199167
SST =0.001189
Analysis of Variance
Source DF SS MS F-Value F-crit
Factor k-1 SSB SSB/DF F=MSB/MSE F(alpha,3,12)
Error N-k SSW SSW/DF=MSE
Total N-1 SST
350
300
250
Data
200
150
100
1:1 2:1 3:1 4:1
Analysis of Variance (k=3; N=15)
®¹t gi¸ tri cùc tiÓu (Yi-f(Xi)) lµ ®é lÖch khái gi¸ trÞ thùc do
®ã gäi lµ nguyªn lÝ b×nh phương c¸c ®é lÖch tèi thiÓu (hay
nguyªn lÝ b×nh phương tèi thiÓu).
Gi¶ sö xÐt trêng hîp Y=f(X) = aX +b.
Víi N thÝ nghiÖm ta cã N phương tr×nh Ylt i=aXi+b khi ®ã:
N
Q = (Yi − (aX i + b) ) 2
i =1
muèn Q ®¹t cùc tiÓu th×:
Q Q
= =0
a b
Q N N N N
= 2. (Yi − (aX i + b)). X 1 = 0 Yi X i = a X i + b X i
2
(1)
a i =1 i =1 i =1 i =1
Q N N N
= 2. (Yi − (aX i + b)).1 = 0 Yi = a X i + Nb (2)
a i =1 i =1 i =1
Gi¶i hÖ phương tr×nh 1, 2 thu ®îc hÖ sè a vµ b cña phương
tr×nh håi quy y = ax+b. §Ó ®¸nh gi¸ kho¶ng tin cËy cña a
vµ b, sö dông tiªu chuÈn Student :
2
Trong ®ã : sa A N.s 2y
sa = ; sa2 = s 2y . =
N x i − ( x i )
2
N sa y 2
( yi − ( ax i + b ) )
2
2
sy =
N−2
a = t,f.sa
T¬ng tù cho c¸c trêng hîp hÖ sè håi quy b :
( yi − ( ax i + b ) )
2
2
sy =
N−2
sb b
2
2
sy. 2
xi
sb = ; 2
sb 2
y =
= sy.
N x i − ( x i )
2
N 2
b = t,f. s
b
Hµm håi quy thu ®îc : Y = (a a)X + (b b)
MÆt kh¸c chóng ta cÇn kiÓm tra ý nghÜa cña hÖ sè
håi quy b 0 lµ do nguyªn nh©n ngÉu nhiªn hay
kh«ng ? NÕu b 0 lµ do ngÉu nhiªn th× ph¶i lo¹i bá.
Khi nghi ngê b 0 lµ do ngÉu nhiªn ( cã gi¸ trÞ rÊt nhá
hoÆc b t¬ng ®èi lín so víi gi¸ trÞ b.
bTN − 0
Cã thÓ dïng chuÈn Student ®Ó ®¸nh gi¸: t Tinh =
sb
NÕu ttÝnh < ttn th× hiÖu (b – 0) lµ kh«ng ®¸ng tin cËy, vËy
b = 0.
s12
HoÆc sö dông chuÈn Fisher ®Ó ®¸nh gi¸: FTinh =
s 22
Khi ®ã ph¶i tiÕn hµnh x©y dùng hµm håi quy y = ax. T-
¬ng tù, theo nguyªn lÝ b×nh phương tèi thiÓu, lÊy ®¹o
hµm riªng theo a ta thu ®îc :
Xi Yi 2 ( Yi − aXi ) ( Yi − aXi )
2 2
a= ; sY = ; sa =
2
i X 2
( N − 1) ( N − 1) iX 2