You are on page 1of 7

Tóm tắt UDTK

Bảng Descriptive Statistic


Chủ yếu tập trung vào những thông số sau:
Mean (trung bình = kỳ vọng): giá trị mong muốn thấy nhất
Standard Deviation (độ lệch chuẩn): sai lệch so với kì vọng của các giá trị
Sample Variance (phương sai mẫu): bình phương của độ lệch chuẩn (cho dễ tính)

Nhớ: mẫu nhỏ  30, mẫu lớn > 30

Cách đặt giả thiết:


H0 (giả thiết 0) thường là 2 biến đang muốn kiểm định không có gì khác biệt
H1 (đối thiết): ngược với H0 có thể là ≠, >, <
Trong những bài kiểu nhìn vô thấy so sánh thì dùng > hoặc < sẽ đúng hơn ☺

≠ thì so với (kiểm định 2 bên), < với > thì so với  (kiểm định 1 bên)
2
 đề cho thường là 5% = 0.05
z - test
Kiểm định giả thiết: Chia ra 3 cái “test” t - test
f - test
Kiểm định trung bình (mean):

z - test: đề đã cho phương sai (độc lập)

t - test có 3 cái nhỏ hơn là:

t - test paired: so sánh mẫu không độc lập (cùng 1 mẫu nhưng khác trạng thái):
t - test đồng phương sai và t - test dị phương sai (độc lập

Đồng phương sai:

Dị phương sai:

Để biết 2 mẫu là đồng phương sai hay dị phương sai thì dùng f - test
Kiểm định phương sai:

Lưu ý: thường chia sao cho F  1 để kiểm định bên phải (số dương)

So sánh tỉ số: dùng Chi test. Tính bảng E (Expected) nếu có giá trị E nào < 5 thì gom biến lại
cho dễ tính

Box - plot: dùng để trực quan hóa số liệu. Mẫu nhỏ < 30 thì dùng sẽ tốt hơn và loại các số liệu
bất thường.

Khi so sánh tỉ lệ thì dùng biểu đồ cột chồng nhưng xét theo tỉ lệ (không dùng trục tung là số liệu
thô)

Đề: Cho bảng số liệu về màu mắt và màu tóc. Hỏi có sự liên kết giữa màu mắt và màu tóc hay
không và so sánh khi gom các tính trạng về 2 trạng thái “sáng” và “tối”.

Sau khi thu nhập số liệu về màu mắt và màu tóc, ta có bảng số liệu sau:

(bảng 1)
Để kiểm định xem tính trạng màu mắt và tính trạng màu tóc có liên quan với nhau hay không
(Kiểm định sự độc lập của 2 biến “màu mắt” và “màu tóc”), chúng ta sẽ kiểm chứng bằng cách
sử dụng kiểm định Chi bình phương với  = 5%

H0: 2 tính trạng màu tóc và màu mắt không có liên hệ với nhau
Đặt giả thiết: H : 2 tính trạng màu tóc và màu mắt có liên hệ với nhau
 1

Tính giá trị kỳ vọng E của mỗi cặp tính trạng ở bảng 1, thu được

(O - E)2
χ2 =  = 1073.508
E
Ta có: số hàng = 3 và số cột = 4  df = (3-1)(4-1) = 6
Tra bảng phân phối Chi bình phương ta được χ20.05, 6 = 12.59

Nhận thấy: χ2 = 1073.508 > 12.59  P(X > χ2) = 1.1244E-288 < 0.05.

Vì vậy, ta bác bỏ giả thuyết H0 chấp nhận H1 là 2 tính trạng có liên hệ với nhau.

Để thuận tiện cho việc kiểm định ta gộp các biến với nhau.
Màu tóc đen, nâu sẽ là tóc “tối”, hoe và đỏ sẽ là tóc “sáng”. Tương tự, green và blue sẽ là mắt
“sáng” và nâu là mắt “tối”.

Ta có bảng số liệu mới như sau

(Bảng 2)

Ta kiểm định sự liên quan giữa 2 tính trạng màu tóc và màu mắt bằng kiểm định Chi bình
phương (χ2) với  = 5%

H’0 = Hai tính trạng màu tóc và màu mắt không có liên hệ với nhau
Đặt giả thiết: H’ : Hai tính trạng màu tóc và màu mắt có liên hệ với nhau
 1
Tính giá trị kỳ vọng E của mỗi cặp tính trạng ở bảng 2, thu được:

Ta có số hàng = 2 = số cột  df = (2-1)(2-1) = 1


(O - E)2 2
χ2 =  = 313.63 > χ0.05, 1 = 3.84  P(X > χ2 ) < 0.05.
E

Vì vậy, ta bác bỏ giả thuyết H’0 chấp nhận H’1 là 2 tính trạng có liên hệ với nhau.
Kết luận: Khi gộp 4 biến màu tóc thành 2 nhóm và 3 biến màu mắt thành 2 nhóm, kết quả kiểm
định vẫn không thay đổi. Tuy giá trị Chi bình phương giảm đi 3 lần nhưng vẫn nằm trong vùng
bác bỏ giả thiết H0

Bài 1: Đặt giả thiết


H0: pH mùa mưa và mùa khô như nhau (không có khác biệt) 1 = 2
H1: pH mùa mưa cao hơn mùa khô 1 > 2

Giải thích: Về mặt sinh học, pH mùa mưa thấp hơn mùa khô nhưng từ bảng số liệu
mưa > khô nên ta sẽ đặt giả thiết như vậy sẽ đúng hơn vì có tính ứng dụng cao hơn
thay vì đặt 1 ≠ 2

Bài 2: a) Không nên đặt H1 là có sự khác biệt vì nó không nói lên hết sự khác biệt là taxa mùa
mưa nhiều hơn mùa khô hoặc ngược lại hay không.
Về mặt sinh học, độ pH ảnh hưởng đến sự phát triển của phiêu sinh động vật. Ở câu 1, ta bác bỏ
giả thiết H0 chấp nhận H1 thì ở câu 2 khẳng định cho ta rằng độ pH có ảnh hưởng đến taxa xuất
hiện. Để H1 hợp lý thì nên đặt là taxa mùa khô có sự khác biệt với mùa mưa.

b) Để chọn t - test đồng hay dị phương sai cần so sánh F với F từ f test. f - test của nhóm tác
2
giả chưa chính xác.

c) Thiếu box plot để loại bỏ giá trị bất thường và đánh giá biến tuân theo phân phối chuẩn.

3) H0: sốt rét không ảnh hưởng đến khả năng vận động 1 = 2
H1: sốt rét ảnh hưởng đến khả năng vận động 1 ≠ 2
|t| = 2.52 > 2.14 nên bác bỏ H0 chấp nhận H1

b) Không hợp lý, đề không cho phương sai  không dùng z test
2 nhóm độc lập  không dùng t test dữ liệu từng cặp
=> cần dùng f test để kiểm tra đồng hay dị phương sai rồi mới dùng t test chính xác, có thể dùng
box plot để kiểm tra

Câu 1:
a) Phương trình hồi quy: y = 7.19x - 301.09
Do: Intercept p-value = 0.001561 < 0.05 nên hệ số tự do (hệ số chặn) có ý nghĩa (SE = 60.19)
Length p-value = 0.000132 < 0.05 nên hệ số trước X có ý nghĩa (SE = 0.95)

b) H0: phương trình hồi quy tuyến tính không thích hợp.
H1: phương trình hồi quy tuyến tính này thích hợp.
Significane F = 0.000132 < 0.05 nên bác bỏ H0 chấp nhận H1
Vậy phương trình hồi quy tuyến tính này thích hợp.

c) Có 11% thông tin mà phương trình không giải thích được


(11% thông tin cân nặng không giải thích được theo chiều dài)

c) Các nguyên nhân: bỏ sót biến, không đủ số liệu, sai sót trong đo lường, những ảnh hưởng
không thể dự báo.

d) Nhà nghiên cứu chưa xét đến các tiêu chuẩn kiểm định phần dư.

Câu 2:
a) Giả thiết H0: Sự phát triển của cây rau muống ở 3 nghiệm thức là như nhau (sự khác biệt
không có ý nghĩa)
H1: Sự phát triển của cây rau muống ở 3 nghiệm thức có sự khác biệt (sự khác
biệt có ý nghĩa)

b) P-value = 2.72x10-11 << 0.05 nên ta bác bỏ H0, chấp nhận H1.
Vậy sự khác biệt có ý nghĩa thống kê ở giữa 3 nghiệm thức.

c) Đối chứng là nước để có thể đánh giá được rằng cây cần có dinh dưỡng để sống, nếu giữa
phân bón và nước không có khác biệt thì loại phân bón đó không thể sử dụng để bón cho cây.

d) Không thể kết luận có sự khác biệt giữa NT1 và NT2 vì ở đây chỉ cho chúng ta biết được rằng
có sự khác biệt về chiều cao trung bình của cây rau muống khi trồng với 3 nghiệm thức chứ
không nói rõ là cặp nào có sự khác biệt.

Khi sử dụng t-test cho từng cặp nghiệm thức sẽ dẫn đến sai lầm loại 1, ta dễ bác bỏ H0 mặc dù
nó đúng.
Số lượng kiểm định t-test càng nhiều, khả năng xảy ra sai lầm loại I càng cao và độ mạnh của
kiểm định sẽ yếu.

e) Nhà kiểm định chưa xác định phân phối chuẩn và kiểm định phương sai cho 3 nhóm.
(Tham khảo thôi nha ☺ mấy hôm này không đi học)

Đề 2017-2018

Câu 1:
a) Phương trình hồi quy: y = 13.19x + 4.17
Do Intercept P-value = 0.000599 < 0.05 nên hệ số tự do (hệ số chặn) có ý nghĩa.
OD P-value = 4.78x10-6 < 0.05 nên hệ số của X có ý nghĩa.

b) H0: phương trình hồi quy tuyến tính không thích hợp.
H1: phương trình hồi quy tuyến tính này thích hợp.
Significane F = 4.78x10-6 < 0.05 nên bác bỏ H0 và chấp nhận H1
Phương trình hồi quy tuyến tính này thích hợp
c) Có 9% thông tin mà phương trình này không giải thích được.
(9% thông tin log10N không giải thích được theo OD600)

d) và e) tương tự như đề 2018-2019.

Câu 2:
a) Cơ sở đó đã so sánh kết quả 2 tính được với 2(0.05) bởi vì 2 = 8.94 > 2(0.05) = 5.99
và vì phân phối Fisher dùng cho Chi-square test không đối xứng nên dùng kiểm định 1 bên.
(Không rõ lắm về câu này, cách giải thích khá lằng nhằng,

b) Bảng tần số lý thuyết (cái này học rồi)


Bảng tần Nảy Không nảy
số mầm mầm
TN 258.3333 41.66666667
CS 258.3333 41.66666667
PN 258.3333 41.66666667

Bậc tự do df = (3 – 1).(2 – 1) = 2

c) Cả 2 nhận định hợp lý (chắc vậy ☺, để xem lại sau)

Câu 3:
a) Vì P-value = 2.72x10-11 << 0.05 nên sự khác biệt có ý nghĩa thống kê giữa 3 nghiệm thức.

b) Tương tự đề 2018-2019

c) Quên kiểm định phương sai, tính độc lập và xét phân phối chuẩn (có thể bỏ qua vì đã có
boxplot)

d) Tương tự đề 2018-2019

You might also like