Professional Documents
Culture Documents
Thiết kế thí nghiệm và xử lý số liệu: Gv: Ts. Nguyễn Văn Anh
Thiết kế thí nghiệm và xử lý số liệu: Gv: Ts. Nguyễn Văn Anh
Chuyên cần 5%, bài tập trên lớp 20%, bài tập nhóm 5%, bài
thực hành 20%, Thi cuối kỳ 50%
- Biến?
- Thống kê?
- Các đại lượng đặc trưng cho thống kê mô tả? (trùng bình, phương
Biến là định lượng: khi giá trị của nó có thể đo, đếm, tính, và được biểu diễn bằng
số như khối lượng, chiều dài, hàm lượng protein, chi phí sản xuất,…
Biến là định tính là những biến mà có thể được xếp vào các thư mục khác nhau dựa trên các đặc tính
hay thuộc tính nào đó.
Những biến này được gán các giá trị để phân biệt hay phân loại quan sát. VD: giới tính (nam -1, nữ -0)
Thống kê (statistics)
Thống kê mô tả cho biến định lượng
Giả sử có tập số liệu thực nghiệm gồm n giá trị x1 ,x2 …xn
* Các tham số đặc trưng cho độ tập trung của tập liệu:
- Tần suất: pi = ni/N (ni tần số xuất hiện của giá trị i)
Khi N ∞ thì pi Pi (xác suất xuất hiện giá trị Xi đó).
- Số trội: là số có tần suất lớn nhất trong tập số liệu (Mode:
Mo)
- Trung vị: số đứng giữa tập số liệu (Medium: Med)
- Số tứ phân vị là các số chia tập số liệu thành 4 phần : có 3 số
tứ phân vị : Q1/4; Q2/4 (Med); Q3/4.
Đối với tập số liệu với N giá trị (sắp xếp tập số liệu theo thứ tứ tăng dần):
- N lẻ : Med X N1
2
1
- N chẵn : Med X N X N
2 1
2 2
1 N
Trung bình cộng số học X Xi
N i 1
GM n X 1 X 2 .... X n
VD: cho 1 dãy số: 1, 2, 7, 8, 9, 10, 12, 15, 16, 4, 5, 17, 20.
Xác định các đại lượng đặc trưng của tập số liệu trên
Biểu đồ hộp gồm các thành phần chính sau:
min,max: giá trị thấp nhất và giá trị cao nhất của tập hợp số,
Q1, Q3 : số tứ phân thứ nhất và thứ ba,
TV: số tứ phân thứ hai hay trung vị,
Giữa số tứ phân thứ 1 và thứ 3 là một hình chữ nhật ("hộp"), trong có một vạch đậm tại trung vị.
Khoảng cách giữa hai số này được gọi là khoảng liên tứ phân (interquartile range hay IQR)
Ở hai phía của hộp, ta có hai "râu" (whisker), nối từ số tứ phân đến một vị trị "xa nhất".
Các số nằm bên ngoài các râu được gọi là số ngoại lệch (outlier) do có sự khác biệt đáng kể so
với các số liệu còn lại.
R là chiều dài cực đại của râu. Đó là tích của IQR với một hệ số được gọi là chiều dài tương
đối của râu, Trong nhiều phần mềm máy tính, chiều dài tương đối này có giá trị là 1,5.
Các đại lượng đặc trưng cho độ phân tán của tập số liệu
* Phương sai
𝑋𝑖 − 𝑋 2
* Độ lệch chuẩn 𝑆𝐷 =
𝑛−1
* Sai số chuẩn
SD
* Hệ số biến thiên CV 100%
X
Phân biệt sai số chuẩn (SE) và Độ lệch chuẩn ????
Hàm phân bố và chuẩn phân bố
- Hàm phân bố: Là một hàm toán học biểu diễn quy luật
phân bố các giá trị của một tập số liệu trong đó có ảnh
hưởng của một số yếu tố ngẫu nhiên
- Ứng với mỗi hàm phân bố sẽ có chuẩn phân bố đặc
trưng, để ta có thể sử dụng các chuẩn đó đánh giá các tính
chất của tập số liệu
Phân phối chuẩn
Dạng của hàm
Phân phối student phân bố, và chuẩn
phân bố tương ứng
Phân phối Fisher
Phân phối χ2
Giả thiết thống kê:
- là những giả thiết nói về các tham số, phân phối xác suất, hoặc tính độc lập của các đại lượng ngẫu nhiên.
Việc tìm ra kết luận bác bỏ hay chấp nhận một giả thiết gọi là kiểm định giả thiết thống kê.
VD: Trong một báo cáo nói rằng: năng suất lúa trung bình của tỉnh Y năm 2010 là 6,8 tấn/ha thì ta có thể coi đó là
một giả thiết thống kê, giả thiết này nói về một tham số (kỳ vọng toán) của đại lượng ngẫu nhiên X biểu thị năng
suất lúa của tỉnh này.
Dựa vào số liệu của một mẫu điều tra về năng suất lúa của tỉnh và qui tắc kiểm định (sẽ nêu ở phần sau) để đưa
ra một kết luận là bác bỏ hay chấp nhận giả thiết trên
Giả thiết cần kiểm định còn được gọi là giả thiết không (null hypothesis) ký hiệu là Ho. Một mệnh đề đối lập
với Ho được gọi là giả thiết đối và được ký hiệu là Ha
Ứng dụng hàm phân bố và chuẩn phân bố trong
giải quyết các bài toán thống kê
Nếu Ftính < Fbảng Chấp nhận giả thuyết Ho: hai phương sai là đồng nhất
Nếu Ftính > Fbảng Bác bỏ giả thuyết Ho: hai phương sai là không đồng nhất
phương sai gộp (pooled variance)
(Tức là chúng khác nhau có ý nghĩa)
Một nghiên cứu muốn tìm hiểu mối liên quan giữa màu sắc ưa thích và trí thông minh của con
người. Để làm được điều đó người ta chọn ra 3 nhóm tương ứng với ba tông màu ưa thích là A, B và
C. Trong mỗi nhóm lấy ra 10 người một cách ngẫu nhiên và xác định chỉ số IQ (Intelligence Quotient)
cho từng người. Kết quả được ghi nhận ở Bảng 1 sau.
Liệu sự khác biệt về IQ trung bình của 3 nhóm là
thực sự do tác động của yếu tố màu hay chỉ do
ngẫu nhiên?
Between
within Để trả lời câu hỏi này ta đi so sánh hai sự biến động của IQ:
•sự biến động giữa các nhóm (between treatment),
•sụ biến động trong nội bộ từng nhóm (within treatment).
ThÝ dô : Nghiªn cøu ¶nh hëng cña nång ®é chÊt nghiªn cøu ®Õn
mËt ®é quang cña dung dÞch thu ®îc kÕt qu¶ thùc nghiÖm :
C1 C2 C3 C4 C5 C6
®¹t gi¸ tri cùc tiÓu (Yi-f(Xi)) lµ ®é lÖch khái gi¸ trÞ thùc do
®ã gäi lµ nguyªn lÝ b×nh phương c¸c ®é lÖch tèi thiÓu (hay
nguyªn lÝ b×nh phương tèi thiÓu).
Gi¶ sö xÐt trêng hîp Y=f(X) = aX +b.
Víi N thÝ nghiÖm ta cã N phương tr×nh Ylt i=aXi+b khi ®ã:
N
Q Yi (aX i b) 2
i 1
muèn Q ®¹t cùc tiÓu th×:
Q Q
0
a b
Q N N N N
2. (Yi (aX i b)). X 1 0 Yi X i a X i b X i
2
(1)
a i 1 i 1 i 1 i 1
Q N N N
2. (Yi (aX i b)).1 0 Yi a X i Nb (2)
a i 1 i 1 i 1
Gi¶i hÖ phương tr×nh 1, 2 thu ®îc hÖ sè a vµ b cña phương
tr×nh håi quy y = ax+b. §Ó ®¸nh gi¸ kho¶ng tin cËy cña a
vµ b, sö dông tiªu chuÈn Student : a TN a
t ,f
sa
2
Trong ®ã : sa A N.s 2y
sa ; sa2 s 2y .
N x i x i
2
N sa y 2
yi ax i b
2
2
sy
N2
a = t,f.sa
T¬ng tù cho c¸c trêng hîp hÖ sè håi quy b :
bTN b
t ,f
sb
sb b
2
2
sy. 2
xi
sb ; 2
sb 2
y
sy.
N x i x i
2
N 2
b = t,f. s
b
Hµm håi quy thu ®îc : Y = (a a)X + (b b)
MÆt kh¸c chóng ta cÇn kiÓm tra ý nghÜa cña hÖ sè
håi quy b 0 lµ do nguyªn nh©n ngÉu nhiªn hay
kh«ng ? NÕu b 0 lµ do ngÉu nhiªn th× ph¶i lo¹i bá.
Khi nghi ngê b 0 lµ do ngÉu nhiªn ( cã gi¸ trÞ rÊt nhá
hoÆc b t¬ng ®èi lín so víi gi¸ trÞ b.
bTN 0
Cã thÓ dïng chuÈn Student ®Ó ®¸nh gi¸: t Tinh
sb
NÕu ttÝnh < ttn th× hiÖu (b – 0) lµ kh«ng ®¸ng tin cËy, vËy
b = 0.
s12
HoÆc sö dông chuÈn Fisher ®Ó ®¸nh gi¸: FTinh
s 22
Khi ®ã ph¶i tiÕn hµnh x©y dùng hµm håi quy y = ax. T-
¬ng tù, theo nguyªn lÝ b×nh phương tèi thiÓu, lÊy ®¹o
hµm riªng theo a ta thu ®îc :
Xi Yi 2 Yi aXi Yi aXi
2 2
a ; sY ; sa
2
i X 2
N 1 N 1 iX 2
Tæng hîp phương ph¸p x©y dùng mét sè hµm håi quy :
1. Y = aX + b. Theo nguyªn lÝ b×nh phương tèi thiÓu
thu ®ưîc hÖ phương tr×nh :
Yi Xi a Xi2 b Xi
Yi a Xi Nb
Da N Yi Xi Xi Yi
a
N Xi Xi
D 2 2
b
Db
i Yi Xi Yi Xi
X 2
N Xi
D 2
Xi2
Yi aXi b
2
2
sY
N2
2 DDa N
2
sa sY . sY .
2
N Yi Xi Xi
D 2
2
sb 2 DD b
sY . sY .
2 2
Xi
N Yi Xi Xi
D 2
HÖ sè t¬ng quan Speason (r), ®¸nh gi¸ møc ®é t¬ng
quan gi÷a X vµ Y.
N
Víi :
Xi X
2
0,7<r<1 rÊt t¬ng quan
X i 1 0,5<r<0,7 kh¸ t¬ng quan
ra a
Y N
Yi Y
2 0,3<r<5 cã t¬ng quan
i 1 0<r<0,3 kh«ng t¬ng quan
N N
N Xi Yi
Xi Yi i 1 i 1
N
i 1
r
N
2
N
2
i i
X Y
N N
i 1 i 1
Xi Yi
2 2
i 1 N i 1 N