Tài liệu sử lý số liệu

Thiết kế thí nghiệm và xử lý số liệu
GV: TS. Nguyễn Văn Anh

Sđt: 0862932359
Email: anhnv@hufi.edu.vn
Giới thiệu môn học
Phân bố thời gian:
− Số tiết lý thuyết : 30 tiết
− Số tiết thí nghiệm/thực hành (TN/TH) : 30 tiết
− Số giờ tự học : 75 tiết
Học phần này bao gồm các nội dung như:
− Các khái niệm cơ bản về thiết kế thí nghiệm và tối ưu hóa
− Các khái niệm thống kê cơ bản, phân tích phương sai và hồi quy đa biến
− Thiết kế thí nghiệm một yếu tố, thiết kế thí nghiệm nhiều yếu tố đầy đủ và nhiều yếu tố
không đầy đủ
− Tối ưu hóa bằng phương pháp bề mặt đáp ứng
− Thực hiện thiết kế thí nghiệm và phân tích dữ liệu bằng phần mềm thống kê
https://www.mindmeister.com/1963820311#
Đánh giá học phần:
− Thang điểm đánh giá: 10/10
Chuyên cần 5%, bài tập trên lớp 20%, bài tập nhóm 5%, bài
thực hành 20%, Thi cuối kỳ 50%
Sách, giáo trình chính:

[1] Tô Cẩm Tú (chủ biên). Thiết kế và phân tích thí nghiệm: Quy
hoạch hóa thực nghiệm. NXB Khoa học và Kỹ thuật, 1999.
Tài liệu tham khảo:
[2] Oehlert, G. W. A first course in design and analysis of experiments.
University of Minnesota, 2010.
Các khái niệm cơ bản của thống kê số liệu
- Biến?
- Thống kê?
- Các đại lượng đặc trưng cho thống kê mô tả? (trung bình, phương
sai, - độ lệch chuẩn, trung vị, tứ phân vị …)
- Giả thuyết thống kê, kiểm định thống kê?
https://forms.gle/n6GNYgT9uSN5Rdzr6
Xử lý số liệu
Variable (Biến)
Phân loại biến
Biến là định lượng: khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng số như
khối lượng, chiều dài, hàm lượng protein, chi phí sản xuất,…
- Biến liên tục: Cân nặng,

- Biến rời rạc: Số con trong một gia đình, Sô lượng học sinh
Biến là định tính là những biến mà có thể được xếp vào các thư mục khác nhau dựa trên các đặc tính
hay thuộc tính nào đó.
Những biến này được gán các giá trị để phân biệt hay phân loại quan sát. VD: giới tính (nam -1, nữ -0)
Thống kê (statistics)
Thống kê mô tả cho biến định lượng
Giả sử có tập số liệu thực nghiệm gồm n giá trị x1 ,x2 …xn
* Các tham số đặc trưng cho độ tập trung của tập liệu:
- Tần suất: pi = ni/N (ni tần số xuất hiện của giá trị i)
Khi N → ∞ thì pi → Pi (xác suất xuất hiện giá trị Xi đó).
- Số trội: là số có tần suất lớn nhất trong tập số liệu (Mode:
Mo) 7.5 8 7 8 7 7 7 7 8 8 7 8
- Trung vị: số đứng giữa tập số liệu (Medium: Med)

- Số tứ phân vị là các số chia tập số liệu thành 4 phần : có 3 số
tứ phân vị : Q1/4; Q2/4 (Med); Q3/4.
Đối với tập số liệu với N giá trị (sắp xếp tập số liệu theo thứ tứ tăng dần):
- N lẻ : Med = X N+1
2
1 
- N chẵn : Med =  X N + X N 
2 +1 
 2 2 
1 N
Trung bình cộng số học X =  Xi
N i =1
Trung bình nhân (trung bình hình học) GM
GM = n X 1 X 2 .... X n
VD: cho 1 dãy số: 1, 2, 7, 8, 9, 10, 12, 15, 16, 4, 5, 17, 20.
Xác định các đại lượng đặc trưng của tập số liệu trên
Biểu đồ hộp gồm các thành phần chính sau:
• min,max: giá trị thấp nhất và giá trị cao nhất của tập hợp số,
• Q1, Q3 : số tứ phân thứ nhất và thứ ba,
• TV: số tứ phân thứ hai hay trung vị,
• Giữa số tứ phân thứ 1 và thứ 3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị.
Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay IQR)
• Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị "xa nhất".
• Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so
với các số liệu còn lại.
• R là chiều dài cực đại của râu. Đó là tích của IQR với một hệ số được gọi là chiều dài tương đối
của râu, Trong nhiều phần mềm máy tính, chiều dài tương đối này có giá trị là 1,5.
Thời gian trích ly (phút)
Lần lặp
40 50 60
1 150 180
2 145 182
3 155 188
4 148 184
5 152 186
6 154 -
7 147 -
Hoàn thiện bảng sau
Thời gian trích ly (phút) Q1 Median Q3 IQR

40
50
60
Các đại lượng đặc trưng cho độ phân tán của tập số liệu
* Phương sai
෌ 𝑋𝑖 − 𝑋ത 2
* Độ lệch chuẩn 𝑆𝐷 =
𝑛−1
* Sai số chuẩn
SD
* Hệ số biến thiên CV = 100%
X
Phân biệt sai số chuẩn (SE) và Độ lệch chuẩn ????
Hàm phân bố và chuẩn phân bố
- Hàm phân bố: Là một hàm toán học biểu diễn quy luật
phân bố các giá trị của một tập số liệu trong đó có ảnh
hưởng của một số yếu tố ngẫu nhiên
- Ứng với mỗi hàm phân bố sẽ có chuẩn phân bố đặc
trưng, để ta có thể sử dụng các chuẩn đó đánh giá các tính
chất của tập số liệu
Phân phối chuẩn
Dạng của hàm
Phân phối student phân bố, và chuẩn
phân bố tương ứng
Phân phối Fisher
Phân phối χ2
Phân phối chuẩn
Phân phối chuẩn (phân phối Gauss) là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị
trung bình μ) và tỉ lệ (phương sai σ2).
Phân phối chuẩn chuẩn

hóa (standard normal
distribution) là phân phối chuẩn
với giá trị trung bình bằng 0 và
phương sai bằng 1
x−
chuẩn phân bố: Z=

Phương trình (1) mô tả mật độ xác suất của phân bố, đó là tổng diện tích giữa đường cong và trục x.
Nếu lấy tích phân của hàm phân bố từ -∞ đến +∞ thì toàn bộ phần diện tích giới hạn bởi đường cong
biểu diễn xác suất xuất hiện các giá trị xi .
Giá trị xác suất này gắn liền với độ tin cậy thống kê P. Nói cách khác, phần diện tích giới hạn bởi
đường cong là độ tin cậy thống kê để xuất hiện xi trong khoảng tích phân.
Xác suất để giá trị đo nằm ngoài giới hạn trên của tích phân là α = 1 – P (mức ý nghĩa). Phần diện tích
P cũng được biểu diễn theo % so với tổng diện tích và gọi là độ tin cậy thống kê.
Phân phối student
Trong khi phân phối chuẩn mô tả toàn bộ tổng thể, phân phối Student mô tả
mẫu được lấy từ một tổng thể đầy đủ, do đó với mỗi cỡ mẫu khác nhau ta sẽ
có phân phối Student cho mẫu khác nhau và khi cỡ mẫu càng lớn thì phân
phối Student sẽ càng giống với phân phối chuẩn.
chuẩn phân bố: t
Như trên đã nói, khi k →∞ thì k →σ=1 và phân phối t chuyển thành phân phối Z (k>30).
Khi biết f và P có thể tra bảng t để tìm giá trị tích phân của phân bố t.
Chuẩn t được dùng để tính khoảng tin cậy của số liệu thực nghiệm, so sánh giá trị
trung bình thực nghiệm và giá trị thật, so sánh 2 giá trị trung bình hoặc tính độ bất ổn của
độ lệch chuẩn mẫu khi n nhỏ.
Giả thiết thống kê:
- là những giả thiết nói về các tham số, phân phối xác suất, hoặc tính độc lập của các đại lượng ngẫu nhiên.
Việc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi là kiểm định giả thiết thống kê.
VD: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2010 là 6,8 tấn/ha thì ta có thể coi đó là
một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên X biểu thị năng
suất lúa của tỉnh này.
Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh và qui tắc kiểm định (sẽ nêu ở phần sau) để đưa
ra một kết luận là bác bỏ hay chấp nhận giả thiết trên
Giả thiết cần kiểm định còn được gọi là giả thiết không (null hypothesis) ký hiệu là Ho. Một mệnh đề đối lập
với Ho được gọi là giả thiết đối và được ký hiệu là Ha
Trước khi cải tiến, năng suất trung bình dây chuyền là
30 (kg/phút). Sau cải tiến, kiểm tra ngẫu nhiên về năng
suất với 60 mẫu, quan sát được trung bình bằng 32
(kg/phút) và độ lệch chuẩn là 4 (kg/phút). Với mức ý
nghĩa 5% có thể cho rằng năng suất trung bình đã tăng
lên không? Giả sử năng suất là biến ngẫu nhiên phân
phối chuẩn.
Ứng dụng hàm phân bố và chuẩn phân bố trong
giải quyết các bài toán thống kê
THÍ NGHIỆM SO SÁNH ĐƠN GIẢN

Hoặc
Hoặc so sánh với giá trị trong bảng để kết luận

Nếu Z>Zbảng thì bác bỏ H0
Nếu Z<Zbảng thì chấp nhận H0
Nếu t>tbảng thì bác bỏ H0

Nếu t<tbảng thì chấp nhận H0
Kết luận theo giá trị p-value
VD: p-value=0.0013 nghĩa là: nếu bác bỏ giả thuyết Ho thì khả năng mắc sai lầm là
0.0013 (hay 0.13%) hay mức ý nghĩa nhỏ nhất cho phép bác bỏ Ho
Như vậy nếu quy ước mức ý nghĩa α thì có thể dùng p-value để kết luận theo α như sau:
- nếu P< α thì bác bỏ Ho, thừa nhận Ha
- nếu P≥ α thì chưa có cơ sở để bác bỏ Ho (chấp nhận Ho)
Kết quả điều tra lượng cholesterol toàn phần trong huyết thanh của 25 người mắc bệnh béo phì được thể hiện ở
bảng sau. Theo tài liệu hằng số sinh hóa bình thường của người Việt Nam thì lượng cholesterol trung bình toàn phần
trong huyết thanh là 156 mg/l. Hỏi lượng cholesterol của người mắc bệnh béo phì có Khác với người bình thường hay
không ?
* So sánh phương sai mẫu với tổng thể
* So sánh phương sai của hai tập số liệu Tiêu chuẩn này có phân phối Fisher với các độ tự do
f1=n1−1; và f2=n2−1
Sau đó so sánh Ftính với Fbảng(f1,f2,p)
Nếu Ftính < Fbảng Chấp nhận giả thuyết Ho: hai phương sai là đồng nhất
Nếu Ftính > Fbảng Bác bỏ giả thuyết Ho: hai phương sai là không đồng nhất
F(0.025; 29;24)
Tra bảng các giá trị sau:
P(Z>2.5); P(/Z/>2.5); P(t>2.15,n=16); P(t<-2.1; n=16); P(/t/>2.5; n=16)
Z(1 side, alpha=0.05); t(1 side, alpha=0.95, n=20); t(2 side, alpha=0.95, n=20);
F(10,14,0.05); Chi square (10;0,01)

Giả thiết thống kê:
Ho: Sản phẩm lên men của sữa chua sau 3 và 5 ngày
là bằng nhau
Ha: pH của nem chua sau 3 ngày lơn hơn sau 5 ngày
Ttính = 15.53
tcrt,.(0.05, df=n-1=9)=1.833
Ttính = 15.53>tcrt,.(0.05, df=n-1=9)=1.833

Bác bỏ Ho; chấp nhận Ha: ……………. Với độ tin cậy là
….
phương sai gộp (pooled variance)
(Tức là chúng khác nhau có ý nghĩa)
n=24
X=202.67
S=92.48
t(tính)=-0.653
Tbang(0.025, 23)=2.069>/t/
Chấp nhận Ho;
Một nghiên cứu muốn tìm hiểu mối liên quan giữa màu sắc ưa thích và trí thông minh của con
người. Để làm được điều đó người ta chọn ra 3 nhóm tương ứng với ba tông màu ưa thích là A, B và
C. Trong mỗi nhóm lấy ra 10 người một cách ngẫu nhiên và xác định chỉ số IQ (Intelligence Quotient)
cho từng người. Kết quả được ghi nhận ở Bảng 1 sau.
Liệu sự khác biệt về IQ trung bình của 3 nhóm là
thực sự do tác động của yếu tố màu hay chỉ do
ngẫu nhiên?
Nguyên Lý của phân tích ANOVA
Between
within Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ:
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
n3
n1 n2
N=n1 + n2 + n3
k- số mức thí nghiệm
Tiến hành thực nghiệm đo Đưa ra kết luận về sự ảnh hưởng
mật độ quang của dung Nồng độ NH3 của nồng độ dung dịch đệm đến
dịch Ni2+-Methylthimol 0.5M 0.75M 1.0M 1.25M giá trị mật độ quang của dung
Blue (có nồng độ Ni2+ và lần 1 0.525 0.526 0.525 0.525 dịch?
MTB không đổi) ở bước
sóng hấp thụ cực đại, kết lần 2 0.525 0.527 0.524 0.529
quả được ghi trong bảng lần 3 0.521 0.522 0.527 0.55
sau : lần 4 0.523 0.526 0.526 0.551
Tiến hành thực nghiệm đo Đưa ra kết luận về sự ảnh hưởng
mật độ quang của dung Nồng độ NH3 của nồng độ dung dịch đệm đến
dịch Ni2+-Methylthimol 0.5M 0.75M 1.0M 1.25M giá trị mật độ quang của dung
Blue (có nồng độ Ni2+ và lần 1 0.525 0.526 0.525 0.525 dịch?
MTB không đổi) ở bước
sóng hấp thụ cực đại, kết lần 2 0.525 0.527 0.524 0.529
quả được ghi trong bảng lần 3 0.521 0.522 0.527 0.55
sau : lần 4 0.523 0.526 0.526 0.551
total ovalral= 0.52825
Mean 0.5235 0.52525 0.5255 0.53875
ni 4 4 4 4
=0.0005915
=0.0005975
MSW 4.92917E-05
MSB 0.000199167
SST =0.001189
Analysis of Variance
Source DF SS MS F-Value F-crit
Factor k-1 SSB SSB/DF F=MSB/MSE F(alpha,3,12)
Error N-k SSW SSW/DF=MSE
Total N-1 SST

Factor 3 0.0005975 0.000199167 4.04057481 3.490295
Error 12 0.0005915 4.92917E-05

Total 15 0.001189
KIỂM ĐỊNH LSD
(LEAST SIGNIFICANT DIFFERENCE)
So sánh từng cặp giữa các lô TN
Variable Mean StDev Minimum Q1 Median Q3 Maximum IQR
1:1 105.83 1.47 104.00 104.75 105.50 107.25 108.00 2.50
2:1 203.83 2.23 201.00 201.75 204.00 205.50 207.00 3.75
3:1 347.50 1.87 345.00 345.75 347.50 349.25 350.00 3.50
4:1 153.50 2.88 149.00 151.25 153.50 156.25 157.00 5.00
Boxplot of 1:1, 2:1, 3:1, 4:1
350
300
250
Data
200
150
100
1:1 2:1 3:1 4:1
Analysis of Variance (k=3; N=15)

Factor …….
………….. ..……… 60.58 ….…………..
.
Error …….
………….. 1803.9
.
Total …….
……..
.
Kết quả thu được khi phân tích phương sai một nhân tố (yếu tố có số nghiệm
thức không quá 6) ảnh hưởng lên hiệu suất thu hồi protein như sau:
Analysis of Variance

pH …….. ………….. ..……… …………. 3.20
Error …….. ………….. 21.09
Total 20 3649.9
PHÂN TÍCH TƯƠNG QUAN - HỒI QUY
THIẾT LẬP PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH
Nguyªn lÝ b×nh phương tèi thiÓu vµ çc hµm håi quy

N
Q =  (Yi − f ( X i ) )
2
Khi ®ã :
i =1
®¹t gi¸ tri cùc tiÓu (Yi-f(Xi)) lµ ®é lÖch khái gi¸ trÞ thùc do
®ã gäi lµ nguyªn lÝ b×nh phương çc ®é lÖch tèi thiÓu (hay
nguyªn lÝ b×nh phương tèi thiÓu).
Gi¶ sö xÐt trêng hîp Y=f(X) = aX +b.
Víi N thÝ nghiÖm ta cã N phương tr×nh Ylt i=aXi+b khi ®ã:
N
Q =  (Yi − (aX i + b) ) 2
i =1
muèn Q ®¹t cùc tiÓu th×:
Q Q
= =0
a b
Q N N N N
= 2. (Yi − (aX i + b)). X 1 = 0   Yi X i = a  X i + b X i
2
(1)
a i =1 i =1 i =1 i =1
Q N N N
= 2. (Yi − (aX i + b)).1 = 0   Yi = a  X i + Nb (2)
a i =1 i =1 i =1
Gi¶i hÖ phương tr×nh 1, 2 thu ®îc hÖ sè a vµ b cña phương
tr×nh håi quy y = ax+b. §Ó ®¸nh gi¸ kho¶ng tin cËy cña a
vµ b, sö dông tiªu chuÈn Student :
2
Trong ®ã : sa  A  N.s 2y
sa = ; sa2 = s 2y .   =
 N x i − (  x i )
2
N sa  y  2
 ( yi − ( ax i + b ) )
2
2
sy =
N−2
 a = t,f.sa
T¬ng tù cho çc trêng hîp hÖ sè håi quy b :
 ( yi − ( ax i + b ) )
2
2
sy =
N−2
sb  b 
2
 2
sy. 2
xi
sb = ; 2
sb 2
  y  =
= sy.
N x i − (  x i )
2
N   2
 b = t,f. s
b
Hµm håi quy thu ®îc : Y = (a  a)X + (b  b)
MÆt kh¸c chóng ta cÇn kiÓm tra ý nghÜa cña hÖ sè
håi quy b  0 lµ do nguyªn nh©n ngÉu nhiªn hay
kh«ng ? NÕu b  0 lµ do ngÉu nhiªn th× ph¶i lo¹i bá.
Khi nghi ngê b  0 lµ do ngÉu nhiªn ( cã gi¸ trÞ rÊt nhá
hoÆc b t¬ng ®èi lín so víi gi¸ trÞ b.
bTN − 0
Cã thÓ dïng chuÈn Student ®Ó ®¸nh gi¸: t Tinh =
sb
NÕu ttÝnh < ttn th× hiÖu (b – 0) lµ kh«ng ®¸ng tin cËy, vËy
b = 0.
s12
HoÆc sö dông chuÈn Fisher ®Ó ®¸nh gi¸: FTinh =
s 22
Khi ®ã ph¶i tiÕn hµnh x©y dùng hµm håi quy y = ax. T-
¬ng tù, theo nguyªn lÝ b×nh phương tèi thiÓu, lÊy ®¹o
hµm riªng theo a ta thu ®îc :
 Xi Yi 2  ( Yi − aXi )  ( Yi − aXi )
2 2
a= ; sY = ; sa =
2
 i X 2
( N − 1) ( N − 1) iX 2

Tài liệu sử lý số liệu

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tài liệu sử lý số liệu

Uploaded by

Copyright:

Available Formats

Thiết kế thí nghiệm và xử lý số liệu

GV: TS. Nguyễn Văn Anh

Sách, giáo trình chính:

sai, - độ lệch chuẩn, trung vị, tứ phân vị …)

- Giả thuyết thống kê, kiểm định thống kê?

- Biến liên tục: Cân nặng,

- Trung vị: số đứng giữa tập số liệu (Medium: Med)

Trung bình nhân (trung bình hình học) GM

Thời gian trích ly (phút) Q1 Median Q3 IQR

Phân phối chuẩn chuẩn

chuẩn phân bố: t

THÍ NGHIỆM SO SÁNH ĐƠN GIẢN

Hoặc so sánh với giá trị trong bảng để kết luận

Nếu t>tbảng thì bác bỏ H0

Sau đó so sánh Ftính với Fbảng(f1,f2,p)

P(Z>2.5); P(/Z/>2.5); P(t>2.15,n=16); P(t<-2.1; n=16); P(/t/>2.5; n=16)

F(10,14,0.05); Chi square (10;0,01)

Ttính = 15.53>tcrt,.(0.05, df=n-1=9)=1.833

Nguyên Lý của phân tích ANOVA

Source DF SS MS F-Value F-crit

Error 12 0.0005915 4.92917E-05

Source DF SS MS F-Value F-crit

Source DF SS MS F-Value F-crit

Nguyªn lÝ b×nh phương tèi thiÓu vµ c¸c hµm håi quy

You might also like