You are on page 1of 54

Thiết kế thí nghiệm và xử lý số liệu

GV: TS. Nguyễn Văn Anh


Sđt: 0862932359
Email: anhnv@hufi.edu.vn
Giới thiệu môn học
Phân bố thời gian:
 Số tiết lý thuyết : 30 tiết
 Số tiết thí nghiệm/thực hành (TN/TH) : 30 tiết
 Số giờ tự học : 75 tiết
Học phần này bao gồm các nội dung như:
 Các khái niệm cơ bản về thiết kế thí nghiệm và tối ưu hóa
 Các khái niệm thống kê cơ bản, phân tích phương sai và hồi quy đa biến
 Thiết kế thí nghiệm một yếu tố, thiết kế thí nghiệm nhiều yếu tố đầy đủ và nhiều yếu tố
không đầy đủ
 Tối ưu hóa bằng phương pháp bề mặt đáp ứng
 Thực hiện thiết kế thí nghiệm và phân tích dữ liệu bằng phần mềm thống kê
https://www.mindmeister.com/1963820311#
Đánh giá học phần:
 Thang điểm đánh giá: 10/10

Chuyên cần 5%, bài tập trên lớp 20%, bài tập nhóm 5%, bài
thực hành 20%, Thi cuối kỳ 50%

Sách, giáo trình chính:


[1] Tô Cẩm Tú (chủ biên). Thiết kế và phân tích thí nghiệm: Quy
hoạch hóa thực nghiệm. NXB Khoa học và Kỹ thuật, 1999.
Tài liệu tham khảo:
[2] Oehlert, G. W. A first course in design and analysis of experiments.
University of Minnesota, 2010.
Các khái niệm cơ bản của thống kê số liệu

- Biến?

- Thống kê?

- Các đại lượng đặc trưng cho thống kê mô tả? (trùng bình, phương

sai, - độ lệch chuẩn, trung vị, tứ phân vị …)

- Giả thuyết thống kê, kiểm định thống kê?


Xử lý số liệu
Variable (Biến)
Phân loại biến

Biến là định lượng: khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng
số như khối lượng, chiều dài, hàm lượng protein, chi phí sản xuất,…

- Biến liên tục: Cân nặng,


- Biến rời rạc: Số con trong một gia đình, Sô lượng học sinh

Biến là định tính là những biến mà có thể được xếp vào các thư mục khác nhau dựa trên các đặc tính
hay thuộc tính nào đó.
Những biến này được gán các giá trị để phân biệt hay phân loại quan sát. VD: giới tính (nam -1, nữ -0)
Thống kê (statistics)
Thống kê mô tả cho biến định lượng

Giả sử có tập số liệu thực nghiệm gồm n giá trị x1 ,x2 …xn
* Các tham số đặc trưng cho độ tập trung của tập liệu:
- Tần suất: pi = ni/N (ni tần số xuất hiện của giá trị i)
Khi N  ∞ thì pi  Pi (xác suất xuất hiện giá trị Xi đó).
- Số trội: là số có tần suất lớn nhất trong tập số liệu (Mode:
Mo)
- Trung vị: số đứng giữa tập số liệu (Medium: Med)
- Số tứ phân vị là các số chia tập số liệu thành 4 phần : có 3 số
tứ phân vị : Q1/4; Q2/4 (Med); Q3/4.
Đối với tập số liệu với N giá trị (sắp xếp tập số liệu theo thứ tứ tăng dần):
- N lẻ : Med  X N1
2
1 
- N chẵn : Med   X N  X N 
2 1 
 2 2 

1 N
Trung bình cộng số học X   Xi
N i 1

Trung bình nhân (trung bình hình học) GM

GM  n X 1 X 2 .... X n
VD: cho 1 dãy số: 1, 2, 7, 8, 9, 10, 12, 15, 16, 4, 5, 17, 20.
Xác định các đại lượng đặc trưng của tập số liệu trên
Biểu đồ hộp gồm các thành phần chính sau:

 min,max: giá trị thấp nhất và giá trị cao nhất của tập hợp số,
 Q1, Q3 : số tứ phân thứ nhất và thứ ba,
 TV: số tứ phân thứ hai hay trung vị,
 Giữa số tứ phân thứ 1 và thứ 3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị.

Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay IQR)
 Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị "xa nhất".
 Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so
với các số liệu còn lại.

 R là chiều dài cực đại của râu. Đó là tích của IQR với một hệ số được gọi là chiều dài tương
đối của râu, Trong nhiều phần mềm máy tính, chiều dài tương đối này có giá trị là 1,5.
Các đại lượng đặc trưng cho độ phân tán của tập số liệu

* Phương sai

𝑋𝑖 − 𝑋 2

* Độ lệch chuẩn 𝑆𝐷 =
𝑛−1

* Sai số chuẩn

SD
* Hệ số biến thiên CV  100%
X
Phân biệt sai số chuẩn (SE) và Độ lệch chuẩn ????
Hàm phân bố và chuẩn phân bố

- Hàm phân bố: Là một hàm toán học biểu diễn quy luật
phân bố các giá trị của một tập số liệu trong đó có ảnh
hưởng của một số yếu tố ngẫu nhiên
- Ứng với mỗi hàm phân bố sẽ có chuẩn phân bố đặc
trưng, để ta có thể sử dụng các chuẩn đó đánh giá các tính
chất của tập số liệu
Phân phối chuẩn
Dạng của hàm
Phân phối student phân bố, và chuẩn
phân bố tương ứng
Phân phối Fisher

Phân phối χ2
Giả thiết thống kê:
- là những giả thiết nói về các tham số, phân phối xác suất, hoặc tính độc lập của các đại lượng ngẫu nhiên.
Việc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi là kiểm định giả thiết thống kê.

VD: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2010 là 6,8 tấn/ha thì ta có thể coi đó là
một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên X biểu thị năng
suất lúa của tỉnh này.
Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh và qui tắc kiểm định (sẽ nêu ở phần sau) để đưa
ra một kết luận là bác bỏ hay chấp nhận giả thiết trên

Giả thiết cần kiểm định còn được gọi là giả thiết không (null hypothesis) ký hiệu là Ho. Một mệnh đề đối lập
với Ho được gọi là giả thiết đối và được ký hiệu là Ha
Ứng dụng hàm phân bố và chuẩn phân bố trong
giải quyết các bài toán thống kê

THÍ NGHIỆM SO SÁNH ĐƠN GIẢN


Kết quả điều tra lượng cholesterol toàn phần trong huyết thanh của 25 người mắc bệnh béo phì được thể
hiện ở bảng sau. Theo tài liệu hằng số sinh hóa bình thường của người Việt Nam thì lượng cholesterol
trung bình toàn phần trong huyết thanh là 156 mg/l. Hỏi lượng cholesterol của người mắc bệnh béo phì có
Khác với người bình thường hay không ?
* So sánh phương sai mẫu với tổng thể
* So sánh phương sai của hai tập số liệu Tiêu chuẩn này có phân phối Fisher với các độ tự do
f1=n1−1; và f2=n2−1

Sau đó so sánh Ftính với Fbảng(f1,f2,p)

Nếu Ftính < Fbảng Chấp nhận giả thuyết Ho: hai phương sai là đồng nhất
Nếu Ftính > Fbảng Bác bỏ giả thuyết Ho: hai phương sai là không đồng nhất
phương sai gộp (pooled variance)
(Tức là chúng khác nhau có ý nghĩa)
Một nghiên cứu muốn tìm hiểu mối liên quan giữa màu sắc ưa thích và trí thông minh của con
người. Để làm được điều đó người ta chọn ra 3 nhóm tương ứng với ba tông màu ưa thích là A, B và
C. Trong mỗi nhóm lấy ra 10 người một cách ngẫu nhiên và xác định chỉ số IQ (Intelligence Quotient)
cho từng người. Kết quả được ghi nhận ở Bảng 1 sau.
Liệu sự khác biệt về IQ trung bình của 3 nhóm là
thực sự do tác động của yếu tố màu hay chỉ do
ngẫu nhiên?

Nguyên Lý của phân tích ANOVA

Between
within Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ:
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
ThÝ dô : Nghiªn cøu ¶nh hëng cña nång ®é chÊt nghiªn cøu ®Õn
mËt ®é quang cña dung dÞch thu ®îc kÕt qu¶ thùc nghiÖm :

C1 C2 C3 C4 C5 C6

TN1 0.020 0.123 0.234 0.456 0.555 0.702

TN2 0.022 0.122 0.238 0.432 0.560 0.678

TN3 0.023 0.125 0.230 0.440 0.534 0.689


TN4 0.025 0.122 0.245 0.435 0.552 0.700
TN5 0.023 0.132 0.233 0.433 0.567 0.699
PHÂN TÍCH TƯƠNG QUAN HỒI QUY

Nguyªn lÝ b×nh phương tèi thiÓu vµ c¸c hµm håi


quy
N
Q   Yi  f ( X i ) 
2
Khi ®ã :
i 1

®¹t gi¸ tri cùc tiÓu (Yi-f(Xi)) lµ ®é lÖch khái gi¸ trÞ thùc do
®ã gäi lµ nguyªn lÝ b×nh phương c¸c ®é lÖch tèi thiÓu (hay
nguyªn lÝ b×nh phương tèi thiÓu).
Gi¶ sö xÐt trêng hîp Y=f(X) = aX +b.
Víi N thÝ nghiÖm ta cã N phương tr×nh Ylt i=aXi+b khi ®ã:
N
Q   Yi  (aX i  b)  2

i 1
muèn Q ®¹t cùc tiÓu th×:
Q Q
 0
a b
Q N N N N
 2. (Yi  (aX i  b)). X 1  0   Yi X i  a  X i  b X i
2
(1)
a i 1 i 1 i 1 i 1

Q N N N
 2. (Yi  (aX i  b)).1  0   Yi  a  X i  Nb (2)
a i 1 i 1 i 1
Gi¶i hÖ phương tr×nh 1, 2 thu ®îc hÖ sè a vµ b cña phương
tr×nh håi quy y = ax+b. §Ó ®¸nh gi¸ kho¶ng tin cËy cña a
vµ b, sö dông tiªu chuÈn Student : a TN  a
t ,f 
sa
2
Trong ®ã : sa  A  N.s 2y
sa  ; sa2  s 2y .   
 N x i    x i 
2
N sa  y  2

  yi   ax i  b  
2
2
sy 
N2
 a = t,f.sa
T¬ng tù cho c¸c trêng hîp hÖ sè håi quy b :
bTN  b
t ,f 
sb

sb  b 
2

2
sy. 2
xi
sb  ; 2
sb 2
  y  
 sy.
N x i    x i 
2
N   2

 b = t,f. s
b
Hµm håi quy thu ®îc : Y = (a  a)X + (b  b)
MÆt kh¸c chóng ta cÇn kiÓm tra ý nghÜa cña hÖ sè
håi quy b  0 lµ do nguyªn nh©n ngÉu nhiªn hay
kh«ng ? NÕu b  0 lµ do ngÉu nhiªn th× ph¶i lo¹i bá.
Khi nghi ngê b  0 lµ do ngÉu nhiªn ( cã gi¸ trÞ rÊt nhá
hoÆc b t¬ng ®èi lín so víi gi¸ trÞ b.
bTN  0
Cã thÓ dïng chuÈn Student ®Ó ®¸nh gi¸: t Tinh 
sb
NÕu ttÝnh < ttn th× hiÖu (b – 0) lµ kh«ng ®¸ng tin cËy, vËy
b = 0.
s12
HoÆc sö dông chuÈn Fisher ®Ó ®¸nh gi¸: FTinh 
s 22
Khi ®ã ph¶i tiÕn hµnh x©y dùng hµm håi quy y = ax. T-
¬ng tù, theo nguyªn lÝ b×nh phương tèi thiÓu, lÊy ®¹o
hµm riªng theo a ta thu ®îc :
 Xi Yi 2   Yi  aXi    Yi  aXi 
2 2
a ; sY  ; sa 
2

 i X 2
 N  1  N  1 iX 2
Tæng hîp phương ph¸p x©y dùng mét sè hµm håi quy :
1. Y = aX + b. Theo nguyªn lÝ b×nh phương tèi thiÓu
thu ®ưîc hÖ phương tr×nh :

 Yi Xi  a  Xi2  b Xi

  Yi  a  Xi  Nb
Da N  Yi Xi   Xi  Yi
a 
N  Xi    Xi 
D 2 2

b
Db

 i  Yi   Xi  Yi Xi
X 2

N    Xi 
D 2
Xi2
  Yi   aXi  b  
2
2
sY 
N2
2 DDa N
2
sa  sY .  sY .
2

N  Yi Xi    Xi 
D 2

2
sb 2 DD b
 sY .  sY .
2  2
Xi
N  Yi Xi    Xi 
D 2
HÖ sè t¬ng quan Speason (r), ®¸nh gi¸ møc ®é t¬ng
quan gi÷a X vµ Y.
N
Víi :
  Xi  X 
2
0,7<r<1 rÊt t¬ng quan
X i 1 0,5<r<0,7 kh¸ t¬ng quan
ra a
Y N
  Yi  Y 
2 0,3<r<5 cã t¬ng quan
i 1 0<r<0,3 kh«ng t¬ng quan
N N
N  Xi  Yi
 Xi Yi  i 1 i 1
N
i 1
r
  N  
2
 N  
2

 i  i
  X    Y  
 N   N  
 i 1   i 1 
  Xi     Yi 
2 2

 i 1 N   i 1 N 

 
 

  

You might also like