Professional Documents
Culture Documents
t - test paired: so sánh mẫu không độc lập (cùng 1 mẫu nhưng khác trạng thái):
t - test đồng phương sai và t - test dị phương sai (độc lập
Dị phương sai:
Để biết 2 mẫu là đồng phương sai hay dị phương sai thì dùng f - test
Kiểm định phương sai:
Lưu ý: thường chia sao cho F 1 để kiểm định bên phải (số dương)
So sánh tỉ số: dùng Chi test. Tính bảng E (Expected) nếu có giá trị E nào < 5 thì gom biến lại
cho dễ tính
Box - plot: dùng để trực quan hóa số liệu. Mẫu nhỏ < 30 thì dùng sẽ tốt hơn và loại các số liệu
bất thường.
Khi so sánh tỉ lệ thì dùng biểu đồ cột chồng nhưng xét theo tỉ lệ (không dùng trục tung là số liệu
thô)
Đề: Cho bảng số liệu về màu mắt và màu tóc. Hỏi có sự liên kết giữa màu mắt và màu tóc hay
không và so sánh khi gom các tính trạng về 2 trạng thái “sáng” và “tối”.
Sau khi thu nhập số liệu về màu mắt và màu tóc, ta có bảng số liệu sau:
(bảng 1)
Để kiểm định xem tính trạng màu mắt và tính trạng màu tóc có liên quan với nhau hay không
(Kiểm định sự độc lập của 2 biến “màu mắt” và “màu tóc”), chúng ta sẽ kiểm chứng bằng cách
sử dụng kiểm định Chi bình phương với = 5%
H0: 2 tính trạng màu tóc và màu mắt không có liên hệ với nhau
Đặt giả thiết: H : 2 tính trạng màu tóc và màu mắt có liên hệ với nhau
1
Tính giá trị kỳ vọng E của mỗi cặp tính trạng ở bảng 1, thu được
(O - E)2
χ2 = = 1073.508
E
Ta có: số hàng = 3 và số cột = 4 df = (3-1)(4-1) = 6
Tra bảng phân phối Chi bình phương ta được χ20.05, 6 = 12.59
Nhận thấy: χ2 = 1073.508 > 12.59 P(X > χ2) = 1.1244E-288 < 0.05.
Vì vậy, ta bác bỏ giả thuyết H0 chấp nhận H1 là 2 tính trạng có liên hệ với nhau.
Để thuận tiện cho việc kiểm định ta gộp các biến với nhau.
Màu tóc đen, nâu sẽ là tóc “tối”, hoe và đỏ sẽ là tóc “sáng”. Tương tự, green và blue sẽ là mắt
“sáng” và nâu là mắt “tối”.
(Bảng 2)
Ta kiểm định sự liên quan giữa 2 tính trạng màu tóc và màu mắt bằng kiểm định Chi bình
phương (χ2) với = 5%
H’0 = Hai tính trạng màu tóc và màu mắt không có liên hệ với nhau
Đặt giả thiết: H’ : Hai tính trạng màu tóc và màu mắt có liên hệ với nhau
1
Tính giá trị kỳ vọng E của mỗi cặp tính trạng ở bảng 2, thu được:
Vì vậy, ta bác bỏ giả thuyết H’0 chấp nhận H’1 là 2 tính trạng có liên hệ với nhau.
Kết luận: Khi gộp 4 biến màu tóc thành 2 nhóm và 3 biến màu mắt thành 2 nhóm, kết quả kiểm
định vẫn không thay đổi. Tuy giá trị Chi bình phương giảm đi 3 lần nhưng vẫn nằm trong vùng
bác bỏ giả thiết H0
Giải thích: Về mặt sinh học, pH mùa mưa thấp hơn mùa khô nhưng từ bảng số liệu
mưa > khô nên ta sẽ đặt giả thiết như vậy sẽ đúng hơn vì có tính ứng dụng cao hơn
thay vì đặt 1 ≠ 2
Bài 2: a) Không nên đặt H1 là có sự khác biệt vì nó không nói lên hết sự khác biệt là taxa mùa
mưa nhiều hơn mùa khô hoặc ngược lại hay không.
Về mặt sinh học, độ pH ảnh hưởng đến sự phát triển của phiêu sinh động vật. Ở câu 1, ta bác bỏ
giả thiết H0 chấp nhận H1 thì ở câu 2 khẳng định cho ta rằng độ pH có ảnh hưởng đến taxa xuất
hiện. Để H1 hợp lý thì nên đặt là taxa mùa khô có sự khác biệt với mùa mưa.
b) Để chọn t - test đồng hay dị phương sai cần so sánh F với F từ f test. f - test của nhóm tác
2
giả chưa chính xác.
c) Thiếu box plot để loại bỏ giá trị bất thường và đánh giá biến tuân theo phân phối chuẩn.
3) H0: sốt rét không ảnh hưởng đến khả năng vận động 1 = 2
H1: sốt rét ảnh hưởng đến khả năng vận động 1 ≠ 2
|t| = 2.52 > 2.14 nên bác bỏ H0 chấp nhận H1
b) Không hợp lý, đề không cho phương sai không dùng z test
2 nhóm độc lập không dùng t test dữ liệu từng cặp
=> cần dùng f test để kiểm tra đồng hay dị phương sai rồi mới dùng t test chính xác, có thể dùng
box plot để kiểm tra
Câu 1:
a) Phương trình hồi quy: y = 7.19x - 301.09
Do: Intercept p-value = 0.001561 < 0.05 nên hệ số tự do (hệ số chặn) có ý nghĩa (SE = 60.19)
Length p-value = 0.000132 < 0.05 nên hệ số trước X có ý nghĩa (SE = 0.95)
b) H0: phương trình hồi quy tuyến tính không thích hợp.
H1: phương trình hồi quy tuyến tính này thích hợp.
Significane F = 0.000132 < 0.05 nên bác bỏ H0 chấp nhận H1
Vậy phương trình hồi quy tuyến tính này thích hợp.
c) Các nguyên nhân: bỏ sót biến, không đủ số liệu, sai sót trong đo lường, những ảnh hưởng
không thể dự báo.
d) Nhà nghiên cứu chưa xét đến các tiêu chuẩn kiểm định phần dư.
Câu 2:
a) Giả thiết H0: Sự phát triển của cây rau muống ở 3 nghiệm thức là như nhau (sự khác biệt
không có ý nghĩa)
H1: Sự phát triển của cây rau muống ở 3 nghiệm thức có sự khác biệt (sự khác
biệt có ý nghĩa)
b) P-value = 2.72x10-11 << 0.05 nên ta bác bỏ H0, chấp nhận H1.
Vậy sự khác biệt có ý nghĩa thống kê ở giữa 3 nghiệm thức.
c) Đối chứng là nước để có thể đánh giá được rằng cây cần có dinh dưỡng để sống, nếu giữa
phân bón và nước không có khác biệt thì loại phân bón đó không thể sử dụng để bón cho cây.
d) Không thể kết luận có sự khác biệt giữa NT1 và NT2 vì ở đây chỉ cho chúng ta biết được rằng
có sự khác biệt về chiều cao trung bình của cây rau muống khi trồng với 3 nghiệm thức chứ
không nói rõ là cặp nào có sự khác biệt.
Khi sử dụng t-test cho từng cặp nghiệm thức sẽ dẫn đến sai lầm loại 1, ta dễ bác bỏ H0 mặc dù
nó đúng.
Số lượng kiểm định t-test càng nhiều, khả năng xảy ra sai lầm loại I càng cao và độ mạnh của
kiểm định sẽ yếu.
e) Nhà kiểm định chưa xác định phân phối chuẩn và kiểm định phương sai cho 3 nhóm.
(Tham khảo thôi nha ☺ mấy hôm này không đi học)
Đề 2017-2018
Câu 1:
a) Phương trình hồi quy: y = 13.19x + 4.17
Do Intercept P-value = 0.000599 < 0.05 nên hệ số tự do (hệ số chặn) có ý nghĩa.
OD P-value = 4.78x10-6 < 0.05 nên hệ số của X có ý nghĩa.
b) H0: phương trình hồi quy tuyến tính không thích hợp.
H1: phương trình hồi quy tuyến tính này thích hợp.
Significane F = 4.78x10-6 < 0.05 nên bác bỏ H0 và chấp nhận H1
Phương trình hồi quy tuyến tính này thích hợp
c) Có 9% thông tin mà phương trình này không giải thích được.
(9% thông tin log10N không giải thích được theo OD600)
Câu 2:
a) Cơ sở đó đã so sánh kết quả 2 tính được với 2(0.05) bởi vì 2 = 8.94 > 2(0.05) = 5.99
và vì phân phối Fisher dùng cho Chi-square test không đối xứng nên dùng kiểm định 1 bên.
(Không rõ lắm về câu này, cách giải thích khá lằng nhằng,
Bậc tự do df = (3 – 1).(2 – 1) = 2
Câu 3:
a) Vì P-value = 2.72x10-11 << 0.05 nên sự khác biệt có ý nghĩa thống kê giữa 3 nghiệm thức.
b) Tương tự đề 2018-2019
c) Quên kiểm định phương sai, tính độc lập và xét phân phối chuẩn (có thể bỏ qua vì đã có
boxplot)
d) Tương tự đề 2018-2019