Professional Documents
Culture Documents
LÊ QUANG HƯNG
2010
Lời mở đầu
SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu.
Riêng SAS/STAT có trên 60 phương thức phân tích số liệu áp dụng cho phân tích phương sai,
hồi qui, phân tích tổng hợp, phân tích đa biến, phân tích số liệu bằng đồ thị.
Dữ liệu lập trình chính xác trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9
hàng với 24 từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file excel, word, là dạng
lưu trữ số liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file
của SAS (.sas) để phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã
hóa bằng số hay tên giống cây trồng, tên phương pháp, rất thuận tiện trong file mẫu word.
Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), copy và paste vào Program
editor và xử lý bằng lệnh RUN với thời gian rất nhanh, chỉ một vài giây cho tất cả các cách xử
lý 1 lần như: phân tích phương sai, xếp nhóm các nghiệm thức của các yếu tố, tính ma trận
tương tác các yếu tố, phân tích số liệu bằng đồ thị, xử lý nhiều kiểu thí nghiệm một, hai hay ba
yếu tố. Các chỉ tiêu theo dõi (khoảng 10 chỉ tiêu hay nhiều hơn) có thể xử lý một lượt bằng
copy file mẫu và đổi số liệu của chỉ tiêu mới. Kết quả phân tích được giải thích rất rõ ràng về
xếp nhóm các nghiệm thức (grouping) theo ký tự A, B cho yếu tố có hai nghiệm thức và A, B,
C, D, E cho yếu tố có nhiều nghiệm thức. Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều
thể hiện rõ trong bảng ANOVA. Trường hợp các lệnh xử lý không đúng, SAS sẽ sửa lại trong
phần Log-(untitled) với các từ hay lỗi, chỉnh lại cho đúng và xử lý tiếp.
Quyển sách trình bày bốn chương đầu thuộc bố trí thí nghiệm tiêu chuẩn chủ yếu về khoa
học cây trồng, ba chương sau thuộc về tương tác tổng hợp, thống kê mô tả, thống kê ước lượng
kết hợp thí nghiệm và đồ thị. Các bài tập được trích dẫn từ các sách thống kê đã xuất bản, căn
cứ trên các bài tập mẫu bao gồm các phương thức xử lý ANOVA, GLM, MIXED, LATTICE,
tương quan, hồi qui, tương tác, tương ứng, xếp nhóm liên kết (clustering), cùng với các nghiên
cứu thực nghiệm phổ biến nhất.
Rất mong được sự góp ý để quyển sách được sử dụng và tự lập trình thuận tiện hơn. Các
góp ý xin gửi về: PGS.TS. Lê Quang Hưng, Khoa Nông học, Đại học Nông Lâm TPHCM.
Liên hệ E-mail: lqlqhung@yahoo.com
Trân trọng,
Tác giả
Ngày 9-4-2010, 268 tr.
1
Mục lục
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA),
XẾP NHÓM (GROUPING) NGHIỆM THỨC VÀ
SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu 4
1.2. Nguồn số liệu theo dõi thí nghiệm 4
1.3. Tạo file word mẫu (sample) 5
1.4. Xử lý số liệu với SAS 7
1.5. Giải thích kết quả 10
1.6. Trình bày kết quả 11
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 11
1.8. Các phương pháp so sánh các trung bình nghiệm thức và ghi ký hiệu 17
1.9. Phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất 18
1.10. Ý nghĩa các từ so sánh thống kê 22
1.11. Chuyển đổi giá trị (transformation) 23
1.12. Ô cơ sở (plot size) và lặp lại (replications) 32
1.13. Chọn mẫu điều tra (sample size determination) 33
1.14. Lưu ý về vận hành của SAS và chỉnh sửa lỗi 34
Chương 2
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)
2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố 35
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối 41
2.3. Thí nghiệm hoàn toàn ngẫu nhiên ba yếu tố có tương tác 43
Chương 3
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố 52
3.2. Kiểu ô vuông la tinh 54
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố có tương tác 56
3.4. Thí nghiệm lặp lại theo năm (tương tác năm*giống) 62
3.5. Thí nghiệm nhiều địa điểm cùng kiểu RCBD 72
3.6. Thí nghiệm lô phụ (Split plot) có tương tác (interaction) 74
3.7. Thí nghiệm lô sọc (Strip plot) 87
3.8. Thí nghiệm ba yếu tố (3 factors=23) 91
3.9. Thí nghiệm tiến hành ở hai thời vụ kiểu RCBD 2 yếu tố 97
3.10. Thí nghiệm lô phụ của lô phụ (Split Split Plot) 107
3.11. Thí nghiệm lô phụ của lô sọc (Strip Split Plot) 113
3.12. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông 117
dụng
2
Chương 4
PHÂN TÍCH PHƯƠNG SAI
THÍ NGHIỆM MẠNG LƯỚI (LATTICE),
KHỐI KHÔNG ĐẦY ĐỦ (Incomplete Block Design)
4.1. Áp dụng kiểu mạng lưới 122
4.2. Thí nghiệm mạng lưới ô vuông cân đối (balanced square lattices) 122
4.3. Thí nghiệm mạng lưới ô vuông cân đối một phần (partially balanced square 123
lattices)
4.4. Thí nghiệm mạng lưới chữ nhật (rectangular lattices) 126
Chương 5
PHÂN TÍCH TƯƠNG TÁC (Interaction)
VÀ TỔNG HỢP (Mixed Effect)
5.1. Phân tích tương tác (Interaction) 130
5.2. Phân tích hiệp phương sai (Covariance) 132
5.3. Phân tích đa biến phương sai (Manova) 135
5.4. Tương tác tổng hợp (Mixed Effect) 141
5.5. Phân tích tương tác tổng hợp kiểu lô phụ 148
5.6. Tương tác tổng hợp và mặt phẳng tối ưu 151
5.7. Phân tích xác suất tiên nghiệm (prior probabilities) 153
5.8. Phương pháp ước lượng Bootstrap 157
Chương 6
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI
6.1. Tính giá trị trung bình và độ lệch chuẩn 164
6.2. T test: so sánh khác biệt trung bình hai mẫu 166
6.3. Chi-bình phương (Chi-square) so sánh tính độc lập của hai yếu tố 167
6.4. Tương quan (correlation) 169
6.5. Hồi qui tuyến tính đơn biến (simple regression) 172
6.6. Hồi qui tuyến tính đa biến (multiple regression) 175
6.7. Hồi qui bậc hai, xác định điểm tối ưu 176
6.8. Hồi qui bậc hai, xác định đường biễu diễn 177
6.9. Tối ưu hóa và xác định điểm 182
6.10. Đồ thị tương quan ba yếu tố 186
6.11. Tối ưu hóa đáp ứng mặt phẳng bốn biến số và xác định điểm 189
6.12. Đồ thị hình lưới chiếu mặt phẳng ba chiều 193
Chương 7
PHÂN TÍCH SỐ LIỆU BẰNG ĐỒ THỊ
7.1. Phân tích thành phần chính (Principal component analysis) 199
7.2. Phân tích tương ứng đa biến (Multiple Correspondance Analysis, MCA) 201
7.3. Phân tích thành phần chính Prinqual 207
7.4. Phân tích tương đồng (similarity) và khoảng cách (distance) sơ đồ hình cây 212
phả hệ (tree plot)
Tài liệu tham khảo 249
Phụ lục trình bày số liệu trích từ một số tài liệu khoa học (để tham khảo) 251
Phụ lục các bảng tính 264
3
Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)
4
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
Để phân tích kết quả, cần thực hiện:
- Tạo file mẫu word.
- Xử lý với chương trình thống kê SAS.
- Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant).
- Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%.
Ghi chú: /*------- phương pháp ------*/ có thể điền vào lệnh xử lý để giải thích phân biệt
các phương pháp.
1.3. Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương trình
SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và xử lý
cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo file
mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực
tiếp, từ các file khác như .doc, .txt) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải
ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.
Trình tự nhập số liệu được sử dụng ký tự đơn giản và giải thích như sau:
DATA; (DATA: tên dữ liệu, ghi thêm tên và kết thúc bằng dấu ;)
INPUT K $ T $ Y; (INPUT: nhập biến và có ký tự $ cách khoảng và dấu;)
CARDS; (CARDS: lệnh nhập số liệu, kết thúc bằng dấu;)
(Copy và paste chỉ có phần số từ file excel trên)
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
; (dấu ; cho biết đã ghi xong số liệu)
PROC ANOVA; (Xử lý ANOVA)
CLASS K T; (Xếp loại các biến dùng xử lý)
MODEL Y = K T; (Mô hình biến phụ thuộc bảng ANOVA)
MEANS T / LSD ALPHA=0.05; (Xếp hạng các trung bình theo alpha)
TITLE ‘NANG SUAT’; (Đặt tên của chỉ tiêu theo dõi)
RUN; (Lệnh xử lý)
Tóm lại các lệnh (command, code) phân tích thống kê cho cách 1 như sau:
DATA;
INPUT K $ T $ Y;
CARDS;
……Số liệu từ bảng excel
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;
6
Input cách 2 như sau:
DATA;
INPUT KHOI NTHUC NSUAT;
CARDS;
……
;
PROC ANOVA;
CLASS KHOI NTHUC;
MODEL NSUAT = KHOI NTHUC;
MEANS NTHUC / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;
7
- Copy file word mẫu và patse vào phần Program editor.
- Có thể mở trực tiếp dạng file lưu từ .sas hoặc word .txt.
File word mẫu để phân tích ANOVA, khối đầy đủ ngẫu nhiên, năm nghiệm thức, bốn khối.
Ký hiệu: K (Khối), T (nghiệm thức), Y (năng suất cải ngọt kg/ô 20 m2). Trình tự xử lý:
- Chuyển file mẫu 1 sau đây (copy và paste) từ DATA đến RUN; vào Program
Editor.
File mẫu 1:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT THUC THU’;
RUN;
8
Lưu ý: Có thể dùng mẫu này để xử lý nhiều chỉ tiêu 1 lượt,
chỉ cần thay mức alpha=0.05 hay alpha=0.01 sau khi đã xem kết
quả bảng ANOVA, và tựa đề (title) khi nhập số cho các chỉ tiêu
khác.
9
Source DF Anova SS Mean Square F Value Pr > F
K 3 1.46925500 0.48975167 0.38 0.7677
T 4 20.19218000 5.04804500 3.94 0.0288
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 1.281468
Critical Value of t 2.17881
Least Significant Difference 1.744
Means with the same letter are not significantly different.
t Grouping Mean N T
A 10.3200 4 D25
A
B A 9.9050 4 K14
B A
B A 9.5050 4 Z15
B
B C 8.2800 4 G22
C
C 7.6575 4 X31
- Nghiệm thức T có giá trị F là 3,94 với Pr > F là <0,0288; các nghiệm thức khác biệt có nghĩa
ở mức p < 0,05.
10
- Xem xếp nhóm t grouping (t- test) ở mức p = 0,05 và các nghiệm thức được xếp ba nhóm
theo ký tự là A, B, C; các trung bình cùng ký tự không khác biệt có nghĩa (Means with the
same letter are not significantly different).
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 1.281468
Critical Value of t 2.17881
Least Significant Difference 1.744
Khác biệt có nghĩa nhỏ nhất
Means with the same letter are not significantly different.
Các trung bình cùng ký tự không khác biệt có nghĩa
t Grouping Mean N T
A 10.3200 4 D25
A
B A 9.9050 4 K14
B A
B A 9.5050 4 Z15
B
B C 8.2800 4 G22
C
C 7.6575 4 X31
- Lưu ý: xem hệ số biến thiên = 12,39 (hệ số biến thiên CV% trong bảng ANOVA) và Least
Significant Difference = 1,744 (khác biệt có nghĩa nhỏ nhất).
Giải thích: Nghiệm thức T có giá trị F là 3,94 với Pr > F là < 0,0288; các nghiệm thức khác
biệt có nghĩa ở mức p < 0,05. Xếp nhóm theo ký tự có thể chia nhóm khác biệt trung bình các
nghiệm thức theo thứ tự từ cao đến thấp ba nhóm là A, B và C. Năng suất cao nhất là giống
D25, tiếp theo là giống X15 và K14, thấp nhất là giống X31.
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố
Thí nghiệm khảo sát năng suất đậu (kg/ô) với hai lượng phân lân (P1 = không bón lân, P2 = 25
kg/ha) và ba khoảng cách hàng (S1 = 45 cm, S2 = 90 cm, S3 = 135 cm). Ký hiệu K (khối I, II,
11
III), P (lân), S (khoảng cách hàng), Y (năng suất/ô), phỏng theo bài tập trang 86 (Petersen,
1994).
Sơ đồ thí nghiệm
I S2 P1 S1 P1 S3 P2 S3 P1 S1 P2 S2 P2
60 65 66 59 56 62
S1 P2 S3 P1 S3 P2 S1 P1 S2 P2 S2 P1
II
45 55 57 58 50 59
III S1 P1 S3 P1 S1 P2 S2 P1 S2 P2 S3 P2
55 51 43 54 45 50
Nhập số liệu với ký hiệu: K (khối), S (khoảng cách hàng), P (lượng phân lân), SP (yếu tố
tương tác khoảng cách hàng và lượng phân lân, nếu không có tương tác không cần ghi cột này
và không xếp nhóm). So sánh tương tác theo Dunnett test, xếp nhóm Duncan sáu giá trị trung
bình nghiệm thức (tất cả là 2 x 3 = 6 giá trị trung bình nghiệm thức).
Trình tự phân tích: a. Tạo file mẫu xử lý ANOVA và xếp nhóm nghiệm thức S và P.
b. Tính xác suất p so sánh tương tác hai yếu tố S*P theo Dunnett test.
c. Ghi kết quả phân tích vào bảng.
1.7. 1. Tạo file mẫu tính tương tác, không xếp nhóm các nghiệm thức trung bình của S
và P. Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett test.
DATA;
INPUT K S P Y;
CARDS;
1 1 1 65
1 1 2 56
1 2 1 60
1 2 2 62
1 3 1 59
1 3 2 66
2 1 1 58
2 1 2 45
2 2 1 59
2 2 2 50
2 3 1 55
2 3 2 57
3 1 1 55
3 1 2 43
3 2 1 54
3 2 2 45
3 3 1 51
3 3 2 50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;
12
1.7. 2. Tạo file mẫu tính tương tác, xếp nhóm các nghiệm thức trung bình của S và P.
Ghi thêm cột SP (yếu tố tương tác khoảng cách hàng và lượng phân lân để xếp nhóm khi tương
tác S*P có nghĩa). Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett
test, xếp nhóm các trung bình nghiệm thức của các yếu tố như sau:
DATA;
INPUT K $ S $ P $ SP $ Y;
CARDS;
1 1 1 S1P1 65
1 1 2 S1P2 56
1 2 1 S2P1 60
1 2 2 S2P2 62
1 3 1 S3P1 59
1 3 2 S3P2 66
2 1 1 S1P1 58
2 1 2 S1P2 45
2 2 1 S2P1 59
2 2 2 S2P2 50
2 3 1 S3P1 55
2 3 2 S3P2 57
3 1 1 S1P1 55
3 1 2 S1P2 43
3 2 1 S2P1 54
3 2 2 S2P2 45
3 3 1 S3P1 51
3 3 2 S3P2 50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;
PROC GLM;
CLASS K SP;
MODEL Y = K SP;
MEAN SP / DUNCAN ALPHA=0.01;
RUN;
/* Lưu ý: 6 nghiệm thức tương tác nên dùng Duncan test với 6 dãy so sánh (critical range) nên
chỉ có 2 nhóm cùng ký tự A và B , nếu dùng LSD chỉ có 1 giá trị so sánh thì kết quả xếp hạng
các nghiệm thức có 3 nhóm cùng ký tự A, B và C */
Kết quả xử lý:
2 YEU TO
The GLM Procedure
Class Level Information
Class Levels Values
K 3 1 2 3
S 3 1 2 3
P 2 1 2
Number of observations 18
2 YEU TO
The GLM Procedure
13
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
2 YEU TO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 4.748
t Grouping Mean N S
A 56.333 6 3
A
A 55.000 6 2
A
A 53.667 6 1
2 YEU TO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
14
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 3.8768
t Grouping Mean N P
A 57.333 9 1
B 52.667 9 2
2 YEU TO
The GLM Procedure
1 1 3 59.3333333 5.13160144
1 2 3 48.0000000 7.00000000
2 1 3 57.6666667 3.21455025
2 2 3 52.3333333 8.73689495
3 1 3 55.0000000 4.00000000
3 2 3 57.6666667 8.02080628
2 YEU TO
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
H0:LSMean=
Control
S P Y LSMEAN Pr > |t|
1 1 59.3333333
1 2 48.0000000 0.0013
2 1 57.6666667 0.8899
2 2 52.3333333 0.0301
3 1 55.0000000 0.2208
3 2 57.6666667 0.8899
2 YEU TO
The GLM Procedure
Class Level Information
K 3 1 2 3
Number of observations 18
2 YEU TO
The GLM Procedure
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
15
Model 7 684.6666667 97.8095238 14.53 0.0002
2 YEU TO
The GLM Procedure
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Number of Means 2 3 4 5 6
Critical Range 6.714 6.997 7.175 7.298 7.387
A 59.333 3 S1P1
A
A 57.667 3 S3P2
A
A 57.667 3 S2P1
A
A 55.000 3 S3P1
A
B A 52.333 3 S2P2
B
B 48.000 3 S1P2
Bảng 1.2. Năng suất đậu (kg/ô) do ảnh hưởng khoảng cách hàng và lượng lân
Yếu tố lân Yếu tố khoảng cách hàng Trung bình yếu tố lân
S1 = 45 cm S2 = 90 cm S3 = 135 cm
P1= 0 kg/ha 59,33 a 57,67 a 55,00 a 57,33 A
P2 = 25kg/ha 48,00 b 52,33 ab 57,67 a 52,67 B
Trung bình yếu tố 53,67 A 55,00 A 56,33 A
khoảng cách hàng
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với yếu tố P: p < 0,01,
tương tác S*P : p<0,01; CV = 4,7%.
16
Giải thích kết quả:
- Kết quả từ bảng phương sai và xếp nhóm yếu tố khoảng cách hàng không khác biệt (F =1,58
với p = 0,2526), yếu tố lân có khác biệt có nghĩa (F = 14,55 với p = 0,0034). Xếp nhóm
Duncan các giá trị trung bình tương tác lân và khoảng cách hàng cho thấy có hai nhóm theo ký
tự là A và B trong đó năng suất cao nhất 59,33 kg/ô.
- So sánh tương tác là khảo sát sự tăng hay giảm của tác động 2 yếu tố đến năng suất, trong đó
cặp nào có ảnh hưởng như nhau hay khác nhau và ảnh hưởng lớn nhất.
Năng suất ô chịu tác động của lân và khác biệt có nghĩa ở hai lượng lân. Không có bón lân,
năng suất giảm khi khoảng cách tăng lên. Trái lại, khi bón lân 25 kg/ha năng suất tăng khi
khoảng cách tăng. Có tương tác của khoảng cách hàng và lân S*P đến năng suất (F = 10,99 với
p = 0,003).
- So sánh giá trị xác suất p các nghiệm thức trung bình tương tác theo Dunnett cho thấy tương
tác khoảng cách hàng với bón lân cho năng suất cao nhất là 59,33 kg/ô của tương tác S1P1
(khoảng cách hàng 45 cm và không bón lân) có ảnh hưởng giống như S2P1(khoảng cách hàng
90 cm và không bón lân) có p = 0,8899, giống như S3P1 (khoảng cách hàng 135 cm và không
bón lân) với p = 0,2208 và khoảng cách 135 cm với lượng lân 25 kg/ha (S3P2 với p = 0,8899).
Tương tác ảnh hưởng độc lập là bón lân với khoảng cách hàng 45 cm (S1P2 với p = 0,0013) và
90 cm (S2P2 với p = 0,0301).
Bảng 1.3. Tương tác của khoảng cách hàng và lượng lân đến năng suất đậu (kg/ô).
S (khoảng cách hàng) P (lượng lân) Năng suất đậu (kg/ô) Xác suất p
1.8. Các phương pháp so sánh các trung bình nghiệm thức và ghi ký hiệu
Các nghiệm thức thí nghiệm được so sánh với các trung bình được chọn trước ở mức α =
5% hay α = 1%. Thông thường thí nghiệm nếu có t nghiệm thức, sẽ có khả năng có số cặp so
sánh là t(1-t)/2. Nếu chọn mức α = 5%, xác suất để có 1 cặp khác nhau là 1-(1-0,05)15 = 0,54.
Nếu có nhiều nghiệm thức, xác suất này tăng lên, nếu chỉ có 2 nghiệm thức, sai số thí nghiệm
và sai số nghiệm thức giống nhau.
Các phương pháp so sánh trung bình phổ biến (Clewer, 2001) cho thí nghiệm có 6 nghiệm
thức, 4 lần lặp lại, khối đầy đủ ngẫu nhiên, có số cặp so sánh là (6 x 5)/2 = 15 như sau:
17
- LSD (Least Significant Difference): LSD (5%) = t(15, 2.5%) x SED = 18,12
(SED = Standard Error of Difference, khác biệt sai số chuẩn)
Trong đó SED = √[(2 x RMS)/r]
RMS (Residual Mean Square trong bảng ANOVA, hay là EMS, Error
Mean Square)
r: số lần lặp lại
Thông thường có thể ghi ký hiệu là dấu hoa thị * hay *** để chỉ sự khác nhau của các nghiệm
thức, nhưng SAS dùng ký tự như A, B, C, D và sắp thứ tự các nghiệm thức từ cao đến thấp.
- Tukey’s Student Range Test: tính khác biệt với MSD (Minimum Significant Difference)
MSD (5%) = Q x (√[(RMS)/r] = 27,62
Trong đó Q trích từ bảng Student range, hàng 15 và cột 6, có giá trị là 4,595 (Clever, 2001).
Phương pháp này có MSD tăng khi Q tăng lên, và MSD thường lớn hơn LSD, do đó có thể một
số giống không được chọn theo trắc nghiệm này.
- Student-Newman-Keuls Test (SNK)
Áp dụng phương pháp MSD t-1 lần, và tạo ra dãy so sánh (critical range từ bảng Student) cho
từng nghiệm thức 2 đến 6. Giá trị critical range cho nghiệm thức 2 là 18,12 và critical range
cho nghiệm thức 6 tăng lên là 27,62.
- Duncan’s Multiple Range Test (DMRT)
Áp dụng phương pháp tương tự SNK là phương pháp MSD t-1 lần. So sánh 2 trung bình gần
nhau giống như LSD, so sánh các trung bình xa nhau giống như SNK.
Giá trị critical value được tính theo công thức MSD (5%) = q x (√[(RMS)/r] cho dãy so sánh
từ 2 đến 6 nghiệm thức, q là giá trị theo bảng Duncan (xem phụ lục).
Chọn lựa phương pháp xếp nhóm: tùy vào số nghiệm thức thí nghiệm và mục tiêu đánh giá,
thông thường LSD sử dụng so sánh chỉ 1 giá trị, Duncan’s Multiple Range Test với giá trị so
sánh là MSD nhiều dãy (critical range) và cả hai được dùng phổ biến hiện nay.
Trình bày cách ghi kết quả xếp nhóm theo các phương pháp này vào bảng tổng kết số liệu
thường dùng khi sử dụng mức α = 5% là:
LSD 0,05 hay LSD (Pr < 0,05) (Toit, 2007) ; LSD α = 0,05 (Podlaski, 2003), LSD (5%) (Oad,
2004).
MSD 0,05 cho phương pháp Waller-Duncan Test (Mozaffarri, 2003).
Riêng với phương pháp Duncan’s Multiple Range Test (DMRT) vì so sánh với nhiều dãy
critical range, ghi là: DMRT (p <0,05) hoặc chú thích ‘mức 5% DMRT’ (Catala, 1993).
Giá trị xác suất p được ghi trong bảng kết quả xếp nhóm nghiệm thức với mức p < 0,05 hay
p < 0,01 căn cứ vào bảng ANOVA.
Với trình bày bảng phân tích phương sai, ghi giá trị so sánh ở mức F(Prob) 0,00 hay 0,95 cho
bảng tổng hợp thí nghiệm lô phụ của lô phụ (Kumar, 2008). F có thể ghi ở cột giá trị là ** hay
NS.
Các ký tự xếp hạng A, B, C, D ghi sau giá trị trung bình, nếu không khác biệt (non-significant)
ghi ns (Kumar, 2008).
18
1.9. Phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất
- Khác biệt means và lsmeans (least square means):
Số trung bình (means) = tổng số các giá trị / số giá trị (theo số học).
Số trung bình bình phương nhỏ nhất (lsmeans) = tổng số các giá trị kết hợp tuyến
tính / số giá trị, được dùng để so sánh tương tác A*B, A*B*C.
• Nếu số giá trị đầy đủ trong bố trí thí nghiệm nhiều yếu tố, số trung bình bằng với số
trung bình bình phương nhỏ nhất.
• Nếu thiếu một số giá trị, số trung bình khác với số trung bình bình phương nhỏ nhất.
Để xử lý cho thí nghiệm thiếu số liệu (missing data), sử dụng GLM (General Linear Model, mô
hình tuyến tính tổng quát) thay cho ANOVA. Xem lại thí nghiệm năng suất cải ngọt đầy đủ số
liệu:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
19
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT THUC THU’;
RUN;
Nếu thiếu một số liệu của giống G22 (ghi dấu chấm vào ô thiếu), xử lý GLM và so sánh các
nghiệm thức với Lsmean bằng trắc nghiệm t điều chỉnh cho kết quả như sau:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 .
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
20
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC GLM;
CLASS K T;
MODEL Y = K T;
LSMEANS T / PDIFF ADJUST=T;
TITLE ‘NANG SUAT THUC THU THIEU 1 SO LIEU’;
RUN;
Kết quả xử lý:
NANG SUAT THUC THU THIEU 1 SO LIEU
K 4 1 2 3 4
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
21
NANG SUAT THUC THU THIEU 1 SO LIEU
LSMEAN
T Y LSMEAN Number
D25 10.3200000 1
G22 8.2752083 2
K14 9.9050000 3
X31 7.6575000 4
Z15 9.5050000 5
Dependent Variable: Y
i/j 1 2 3 4 5
Kết quả cho thấy do thiếu số liệu, cần sử dụng bảng ANOVA Type I SS, với F = 3,45 và p =
0,0463. Giá trị trung bình bình phương nhỏ nhất của giống G22 là 8,275 so với thí nghiệm
không thiếu số liệu là 8,280. So sánh LS means ở cột đầu tiên cho thấy chỉ có hai giống G22
và X31 là khác với 3 giống còn lại. Kết quả này tương tự như xếp nhóm của thí nghiệm thiếu
số liệu (Clewer, 2001).
- Nếu quan tâm đến so sánh nhiều giá trị độc lập và không quan tâm đến tương tác, sử
dụng t test lặp lại với LSD.
- Nếu quan tâm đến so sánh tất cả các giá trị từng cặp, áp dụng Tukey test hoặc so sánh
tất cả giá trị với một giá trị đối chứng thì sử dụng Dunnett test để có tương tác rõ nhất
(SAS, 2004).
- So sánh giá trị p điều chỉnh giải thích tương tác của A*B, căn cứ trên giả thiết căn bản là
H0: LSMean(i) = LSMean(j) gọi là giả thiết null, có nghĩa là các trị số giống nhau. Khi so sánh
nhiều trị số với nhau, giá trị p điều chỉnh (adjusted p-value) là giá trị mức sai số chung nhỏ
nhất (FWE, Familywise Error Rate) để bác bỏ giả thiết trên (Westfall, 2008).
22
1.10. Ý nghĩa các từ so sánh thống kê
- Phương sai: được tính và ký hiệu là s2 , độ lệch chuẩn s là căn bậc hai của phương sai.
s2 = [∑(xi – )2]/(n-1) ; s = SD, xi: giá trị thứ i, : giá trị trung bình, n: số lượng mẫu.
- SD (Standard deviation, độ lệch chuẩn): mức độ biến động của dãy A so với dãy B, mặc dù
hai giá trị trung bình của hai dãy bằng nhau.
- CV (Coefficience of variance, hệ số biến thiên): so sánh mức biến động của nhiều mẫu.
CV% = (s / )*100
- SE (Standard error, sai số chuẩn): sai số của tổng các giá trị (Tuấn, 2006).
- alpha level = 0,05: mức alpha chọn lựa để tính giá trị p = 0,05 (xác suất, probability, p-value).
Giá trị p = 100(1-p)% confidence interval (khoảng tin cậy) khi chứng minh giả thiết đặt ra ban
đầu là H0 LSMean = Control, nghĩa là các trung bình không khác nhau so với đối chứng, nếu p
tính < 0,05 thì bác bỏ giả thiết trên, các nghiệm thức khác nhau ở mức p < 0,05. Alpha level =
p (SAS, 2004 tr. 1755).
- Chia tổ: chia nhỏ thành tổ khi có số liệu thu thập lớn. Áp dụng công thức K = 5log n.
Thí dụ: có 50 cây, K = 5log 50 = 8,49; chọn tám tổ. Khoảng cách tổ C = (Xmax-Xmin)/K.
Tổ một: 3- 4,4 ; tổ hai: 4,5-5,9 ; tổ ba: 6 -7,4 đến tổ tám (Thành, 1976).
1.11. Chuyển đổi giá trị (transformation): rất cần để so sánh khác biệt các giá trị trung bình
khi có các giá trị quá nhỏ gần hoặc bằng 0, hoặc giá trị nhỏ so với giá trị quá lớn, vì không
chuyển giá trị cho thống kê không khác biệt giữa các trung bình của nghiệm thức với LSD lớn,
nhưng chuyển đổi giá trị thì thống kê có khác biệt có nghĩa vì LSD nhỏ (Clewer, 2001).
- Lưu ý phải có giá trị giả định lớn hơn 1 mới tính log được. Vì có số “0” nên cần giả định
(assumption) để tính số hợp lý với giá trị khác “0”. Số giả định chuyển đổi cho số “0” phụ
thuộc vào số mẫu n (Clewer, 2001).
- Thí dụ: trọng lượng khô của lúa cỏ (red rice) trong thí nghiệm ba nghiệm thức từ 0,08 đến 32
g/m2, được đổi số liệu sang log (x+1) trước khi thống kê so sánh LSD (Catala, 1993).
23
Thí dụ về số liệu là đơn vị số x từ 1 đến 53, chuyển sang yi=LN (xi) (Clewer, 2001)
Lưu ý chuyển đổi trong excel cho số liệu trước khi xử lý thống kê:
chuyển logarithm với excel: yi = LN(x)
Bài tập về số cỏ sống sót khi xử lý 3 loại thuốc diệt cỏ A, B, C và D (đối chứng). Kiểu thí
nghiệm hoàn toàn ngẫu nhiên (Clewer, 2001).
a) Số liệu chưa chuyển đổi:
DATA THUOC TRU CO;
INPUT NTHUC $ CO;
CARDS;
A 4
A 5
A 2
A 5
A 4
A 1
B 8
B 11
B 9
B 12
B 7
B 7
C 25
C 28
C 20
C 15
C 14
C 30
D 33
D 21
D 48
D 18
D 53
D 31
;
PROC ANOVA;
CLASS NTHUC;
MODEL CO = NTHUC;
MEANS NTHUC / LSD ALPHA=0.01;
TITLE 'SO CO SONG';
RUN;
24
B 2.20
B 2.48
B 1.95
B 1.95
C 3.22
C 3.33
C 3.00
C 2.71
C 2.64
C 3.40
D 3.50
D 3.04
D 3.87
D 2.89
D 3.97
D 3.43
;
PROC ANOVA;
CLASS NTHUC;
MODEL CO = NTHUC;
MEANS NTHUC / LSD ALPHA=0.01;
TITLE 'LN SO CO SONG';
RUN;
LN SO CO SONG
The ANOVA Procedure
t Tests (LSD) for CO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 0.188354
Critical Value of t 2.84534
Least Significant Difference 0.713
Means with the same letter are not significantly different.
t Grouping Mean N NTHUC
A 3.4500 6 D
A
A 3.0500 6 C
25
B 2.1767 6 B
C 1.1150 6 A
Ghi chú: nếu không chuyển log (LN) thì giá trị của nghiệm thức A và B không khác biệt, và
Least Significant Difference = 13,005 lớn hơn giá trị của nghiệm B (9,00). Nếu chuyển LN, giá
trị của nghiệm A khác biệt giá trị của nghiệm B với Least Significant Difference = 0,713 nhỏ
hơn giá trị của nghiệm A và B.
Lưu ý chuyển đổi trong excel cho số liệu trước khi xử lý thống kê:
chuyển tỉ lệ y%: đổi p = 99% →0.99→SQRT(0.99) = x1→ASIN(x1) = x2→DEGREES(x2) =
giá trị góc ARCSIN√% = yi.
Đây là bảng chuyển đổi thiết lập từ phần mềm excel rút gọn từ tỉ lệ phần trăm sang góc
arcsin√%, giá trị ở cột DEGREES là giá trị đã chuyển đổi của góc arcsin√%. Các hàm
(function) của excel là SQRT, ASIN và DEGREES.
Bảng 1.5. Bảng chuyển đổi arcsin và góc arcsin với giá trị từ 0,1 đến 100%.
Tỉ lệ theo dõi % =100/100 =SQRT(1) =ASIN(1) =DEGREES(1.570796)
100 1 1 1.570796 90.000
90.00 0.90 0.948683 1.249046 71.565
80.00 0.80 0.894427 1.107149 63.435
70.00 0.70 0.83666 0.991157 56.789
60.00 0.60 0.774597 0.886077 50.768
50.00 0.50 0.707107 0.785398 45.000
40.00 0.40 0.632456 0.684719 39.232
30.00 0.30 0.547723 0.57964 33.211
20.00 0.20 0.447214 0.463648 26.565
10.00 0.10 0.316228 0.321751 18.435
5.00 0.05 0.223607 0.225513 12.921
1.00 0.01 0.1 0.100167 5.739
0.10 0.00 0.031623 0.031628 1.812
Khi xử lý thống kê, dùng giá trị chuyển đổi arcsin√% hay góc arcsin√% để xử lý t-test hay
ANOVA. Kết quả số liệu không chuyển đổi và chuyển đổi cho kết quả xếp nhóm khác nhau.
Có thể ghi vào bảng kết quả cần có giá trị thực ghi kèm theo dấu ngoặc với giá trị chuyển đổi
26
hoặc chú thích chuyển sang arcsin√%. Thí dụ: 70(0,991) khi chuyển sang arcsin√%, hay
70(56,789) khi chuyển sang góc arcsin√% (Qu, 2005; Jones, 2004). Tuy nhiên có thể chú thích
dưới bảng số liệu tổng kết đã chuyển đổi số liệu sang arcsin√%, không cần ghi kèm theo cột
(Toit, 2007).
- Khi có số liệu y là 0% đến 100%, cần lưu ý tổng số mẫu theo dõi là n để tính tỉ lệ chuyển đổi
trước khi chuyển sang arcsin√%. Giá trị % được gọi là p.
Số mẫu theo dõi là n:
0% chuyển thành 1/4n và 100% chuyển thành (100 – 1/4n), sau đó đổi sang arcsin√%.
Cách tính sau được dùng với chương trình excel để chuyển giá trị 0% và các trị số đến 100%
sang giá trị p trước khi đổi sang arcsin√% (McDonald, 2009).
Thí dụ khảo sát nảy mầm hạt đậu xanh của năm giống A1, B2, C3, D4, E5 bố trí kiểu hoàn
toàn ngẫu nhiên với ba lần lặp lại, mỗi lần lặp lại trong đĩa petri là 100 hạt. Giá trị n = 100. Tỉ
lệ hạt nảy mầm được ghi với số liệu để nguyên và chuyển đổi sang arcsin√% và góc arcsin√%.
Khảo sát với n = 100, có giá trị số là 0 và 100%.
0% chuyển thành 1/4n = 1/400 = 0,0025 và 100% chuyển thành (100 – 1/4n) = 99,9975. Thiết
lập bảng chuyển đổi arcsin với hàm excel như sau:
Bảng 1.6. Bảng chuyển đổi sang arcsin√% và góc arcsin√% với giá trị từ 0 đến 100%.
Nghiệm thức Tỉ lệ nảy mầm Chuyển đổi p/100 SQRT ASIN DEGREES
(%) p = 100 và 0 (p/100)
A1 100 99.9975 0.999975 0.999987 1.566 89.714
B2 69 69 0.69 0.830662 0.980 56.167
C3 7 7 0.07 0.264575 0.268 15.342
D4 23 23 0.23 0.479583 0.500 28.658
E5 0 0.0025 0.000025 0.005 0.005 0.286
A1 99 99 0.99 0.994987 1.471 84.261
B2 59 59 0.59 0.768115 0.876 50.185
C3 8 8 0.08 0.282843 0.287 16.430
D4 19 19 0.19 0.43589 0.451 25.842
E5 0 0.0025 0.000025 0.005 0.005 0.286
A1 97 97 0.97 0.984886 1.397 80.026
B2 56 56 0.56 0.748331 0.846 48.446
C3 9 9 0.09 0.3 0.305 17.458
D4 11 11 0.11 0.331662 0.338 19.370
E5 0 0.0025 0.000025 0.005 0.005 0.286
So sánh xử lý số liệu để nguyên 0 và 100% với số liệu chuyển đổi sang arcsin√% và góc
arcsin√% cho cả ba so sánh này một lần như sau:
/* Số liệu để nguyên*/
DATA;
INPUT T $ Y;
CARDS;
A1 100
B2 69
C3 7
27
D4 23
E5 0
A1 99
B2 59
C3 8
D4 19
E5 0
A1 97
B2 56
C3 9
D4 11
E5 0
;
PROC ANOVA;
CLASS T;
MODEL Y = T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘TI LE NAY MAM DE NGUYEN 0 100’;
RUN;
28
B2 56.167
C3 15.342
D4 28.658
E5 0.286
A1 84.261
B2 50.185
C3 16.430
D4 25.842
E5 0.286
A1 80.026
B2 48.446
C3 17.458
D4 19.370
E5 0.286
;
PROC ANOVA;
CLASS T;
MODEL Y = T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘TI LE NAY MAM GOC ARCSIN CAN P’;
RUN;
T 5 A1 B2 C3 D4 E5
Number of observations 15
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
29
T 4 20935.73333 5233.93333 300.80 <.0001
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 17.4
Critical Value of t 3.16927
Least Significant Difference 10.794
t Grouping Mean N T
A 98.667 3 A1
B 61.333 3 B2
C 17.667 3 D4
C
D C 8.000 3 C3
D
D 0.000 3 E5
T 5 A1 B2 C3 D4 E5
Number of observations 15
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
30
R-Square Coeff Var Root MSE Y Mean
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 0.003873
Critical Value of t 3.16927
Least Significant Difference 0.161
t Grouping Mean N T
A 1.47800 3 A1
B 0.90067 3 B2
C 0.42967 3 D4
C
C 0.28667 3 C3
D 0.00500 3 E5
T 5 A1 B2 C3 D4 E5
Number of observations 15
Dependent Variable: Y
31
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 12.75839
Critical Value of t 3.16927
Least Significant Difference 9.243
t Grouping Mean N T
A 84.667 3 A1
B 51.599 3 B2
C 24.623 3 D4
C
C 16.410 3 C3
D 0.286 3 E5
Giải thích: kết quả cho thấy xử lý số liệu chuyển đổi arcsin√% và góc arcsin√% cho kết quả
như nhau, chỉ cần dùng một trong hai. Số liệu không chuyển đổi giá trị 0 và 100% cho thấy
LSD lớn do đó so sánh xếp nhóm khác với số liệu chuyển đổi arcsin.
1.13.1. Chọn mẫu theo tỉ lệ nhị phân (Calculating A Sample For Proportions)
Khi số mẫu lớn và chưa biết, áp dụng công thức:
Điều chỉnh tỉ lệ khi có tổng thể xác định (Finite Population Correction For Proportions):
Khi số mẫu tổng thể (population size) nhỏ thì số mẫu chọn (sample size) giảm tương ứng.
Nếu biết được số mẫu tổng thể là 2000 nông dân, số mẫu chọn được điều chỉnh theo công thức:
n = no__
1+ no/N
Trong đó: n:số mẫu cần chọn khi biết số mẫu tổng thể
no:số mẫu cần chọn khi chưa biết số mẫu tổng thể
N:số mẫu tổng thể
Số mẫu cần chọn là:
n = 385/[1+(385/2000)] = 323 nông dân
Nếu có số mẫu tổng thể là 2000 nông dân, số mẫu cần chọn khảo sát là 323 nông dân.
(Số mẫu chọn lớn hơn 10% số mẫu tổng thể).
1.13.2. Chọn mẫu theo giá trị trung bình (Sample Size For The Mean), biến số liên tục.
Để áp dụng, cần tính giá trị trung bình và độ lệch chuẩn s thay cho (p x q), (Thành, 1976;
Israel, 2009).
33
Công thức tính:
no = Z2 s 2
e2
Trong đó: no:số mẫu cần chọn
Z: với giá trị 1,96 ở mức tin cậy 95% và 2,58 ở 99% trong phân phối chuẩn
s: độ lệch chuẩn của các trung bình mẫu
e: sai số chấp nhận thí dụ ở mức 95% hay 99%
Thí dụ: để xác định số mẫu cần chọn khi đã điều tra về số giờ làm việc của nhân viên mới
trong một công ty, kết quả cho thấy số giờ trung bình là 60, độ lệch chuẩn s là 30. Nếu muốn
cho độ chính xác của thí nghiệm là 95% và sai số e là 10 giờ, tính số mẫu cần chọn như sau
(Xu, 1999):
no =[(1,96)2(30) 2]/ (10) 2 = 34,6
Làm tròn 34,6 thành 35, cần có 35 nhân viên để phỏng vấn và ở mức tin cậy 95%.
Khi muốn tăng độ tin cậy từ 95% lên 99%, số mẫu chọn phải lớn và nếu sai số e nhỏ thì số
mẫu càng lớn.
Trong thí dụ trên, nếu muốn tăng độ tin cậy ở mức 99% thay giá trị Z là 2,58; số giờ trung bình
là 60, độ lệch chuẩn s là 40, sai số e là 5 giờ. Số mẫu cần chọn là:
Số mẫu cần chọn phỏng vấn là 426 nhân viên ở mức tin cậy 99%.
Trong thực tế việc xác định số mẫu theo tỉ lệ được áp dụng nhiều hơn. Xác định số mẫu khi so
sánh hai trung bình (two means) và hai tỉ lệ (two proportions) với công thức tính cần có giá trị
của Z criterion và Z power (Eng, 2003; Tuấn, 2006).
34
Chương 2
2.1.1. Thí nghiệm dòng vi khuẩn ảnh hưởng hàm lượng đạm đến cỏ xa trục thảo.
Thí nghiệm gồm sáu nghiệm thức tiêm chủng 6 nhóm dòng vi khuẩn ảnh hưởng đến hàm
lượng đạm (mg N) của giống cỏ xa trục thảo đỏ (red clover), năm lần lặp lại. Năm nghiệm thức
đầu cho năm dòng vi khuẩn Rhizobium trifolii riêng biệt kết hợp với hỗn hợp năm dòng vi
khuẩn Rhizobium meliloti. Nghiệm thức compos = hỗn hợp năm dòng vi khuẩn Rhizobium
trifolii với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti (phỏng theo bài tập 2, phương pháp
so sánh nhiều cách xếp hạng, xếp số theo hàng ngang với cách nhập số liệu là datalines, SAS,
1999). Tương tự, xếp số liệu theo hàng dọc cho kết quả xử lý như nhau.
data;
input T $ N @@;
datalines;
3DOK1 19.4 3DOK1 32.6 3DOK1 27 3DOK1 32.1 3DOK1 33
3DOK5 17.7 3DOK5 24.8 3DOK5 27.9 3DOK5 25.2 3DOK5 24.3
3DOK4 17 3DOK4 19.4 3DOK4 9.1 3DOK4 11.9 3DOK4 15.8
3DOK7 20.7 3DOK7 21 3DOK7 20.5 3DOK7 18.8 3DOK7 18.6
3DOK13 14.3 3DOK13 14.4 3DOK13 11.8 3DOK13 11.6 3DOK13 14.2
COMPOS 17.3 COMPOS 19.4 COMPOS 19.1 COMPOS 16.9 COMPOS 20.8
;
proc anova;
class T;
model N = T;
means T / tukey;
means t / duncan waller;
means t / lsd;
title ‘vi khuan’;
run;
Kết quả xử lý:
vi khuan
Number of observations 30
35
vi khuan
Dependent Variable: N
Sum of
Source DF Squares Mean Square F Value Pr > F
vi khuan
The ANOVA Procedure
NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type
II error rate than REGWQ.
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of Studentized Range 4.37265
Minimum Significant Difference 6.7142
A 28.820 5 3DOK1
A
B A 23.980 5 3DOK5
B
B C 19.920 5 3DOK7
B C
B C 18.700 5 COMPOS
C
C 14.640 5 3DOK4
C
C 13.260 5 3DOK13
vi khuan
36
NOTE: This test minimizes the Bayes risk under additive loss and certain other assumptions.
Kratio 100
Error Degrees of Freedom 24
Error Mean Square 11.78867
F Value 14.37
Critical Value of t 1.91873
Minimum Significant Difference 4.1665
A 28.820 5 3DOK1
B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13
vi khuan
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Number of Means 2 3 4 5 6
Critical Range 4.482 4.707 4.852 4.954 5.031
A 28.820 5 3DOK1
B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13
vi khuan
37
The ANOVA Procedure
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of t 2.06390
Least Significant Difference 4.4818
t Grouping Mean N T
A 28.820 5 3DOK1
B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13
Giải thích: sự khác biệt thay đổi khi so sánh các nghiệm thức với các so sánh giá trị trung bình
như sau:
Tukey's Studentized Range (HSD) Test for Nitrogen Minimum Significant Difference 6,7142
Waller-Duncan K-ratio t Test for Nitrogen Minimum Significant Difference 4,1665
t Tests (LSD) for Nitrogen Least Significant Difference 4,4818
Duncan grouping có giá trị so sánh cặp 2 trung bình với critical range là 4,482 nhưng tăng dần
khi có nhiều so sánh các nghiệm thức, đến cặp sáu thì giá trị so sánh critical range là 5,031
Giải thích: tổng độ tự do của thí nghiệm là 6 - 1 = 5, giá trị F tính của thí nghiệm là 14,37
với p < 0,0001. Hàm lượng đạm thay đổi và có khác biệt thống kê được chọn ở mức p< 0,05 do
tác động của sáu dòng vi khuẩn. Xếp nhóm theo Tukey test khác với các cách khác. Xếp nhóm
theo Waller, Duncan và t test LSD như nhau, xếp nhóm các trung bình chia thành năm nhóm
theo ký tự từ cao đến thấp là A, B, C, D, và E. Xếp nhóm theo Duncan's Multiple Range Test
cho thấy hàm lượng đạm tích lũy do 3DOK1 cao nhất, khác biệt có nghĩa với các dòng vi
khuẩn khác, thấp nhất là 3DOK13.
Hiện có trên 20 giá trị so sánh khác biệt các nghiệm thức (Kuehl, 2000; Clewer, 2001),
nhưng phổ biến là các cách trên. Xếp nhóm theo LSD và Duncan's Multiple Range Test được
dùng phổ biến hiện nay.
38
2.1.1. Thí nghiệm nảy mầm trong phòng
Thí nghiệm nảy mầm 5 giống đậu phụng, kiểu hoàn toàn ngẫu nhiên, 4 lần lặp lại.
Data;
input Giong $ TLnaymam;
cards;
VD2 86
L9803-12 87
HL25 98
GV3 98
L9806 93
VD2 85
L9803-12 89
HL25 97
GV3 96
L9806 94
VD2 87
L9803-12 90
HL25 95
GV3 94
L9806 90
VD2 83
L9803-12 87
HL25 95
GV3 90
L9806 91
;
proc anova;
class Giong;
model TLnaymam = Giong;
means Giong / LSD alpha = 0.01;
title ‘Ti le nay mam dau phung’;
run;
Kết quả xử lý:
Ti le nay mam dau phung
39
Corrected Total 19 391.7500000
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 15
Error Mean Square 4.483333
Critical Value of t 2.94671
Least Significant Difference 4.4119
A 96.250 4 HL25
A
A 94.500 4 GV3
A
B A 92.000 4 L9806
B
B C 88.250 4 L9803-12
C
C 85.250 4 VD2
Kết quả trình bày như sau:
Bảng 2.1. Tỉ lệ nảy mầm (%) của 5 giống đậu phụng
Giải thích: tỉ lệ nảy mầm cao nhất là giống HL25 (96,3%) không khác biệt với giống L9806.
Giống có tỉ lệ nảy mầm thấp nhất là VD2 (85,3%).
40
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối
Bài tập thí nghiệm hai yếu tố không cân đối (Unbalanced 2-by-2 Factorial, SAS, 1999), yếu tố
A và B được thiết kế theo sơ đồ như sau:
A
1 2
1 12 20
B 14 18
2 11 7
9
data;
input A $ B $ Y @@;
datalines;
A1 B1 12 A1 B1 14 A1 B2 11 A1 B2 9
A2 B1 20 A2 B1 18 A2 B2 17
;
proc glm;
class A B;
model Y=A B A*B;
means A/lsd;
title ‘2 YEU TO KHONG CAN DOI’;
run;
Kết quả xử lý:
2 YEU TO KHONG CAN DOI
The GLM Procedure
A 2 A1 A2
B 2 B1 B2
Number of observations 7
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
41
0.938596 9.801480 1.414214 14.42857
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 3
Error Mean Square 2
Critical Value of t 3.18245
Least Significant Difference 3.4374
Harmonic Mean of Cell Sizes 3.428571
t Grouping Mean N A
A 18.333 3 A2
B 11.500 4 A1
Giải thích:
- Tổng độ tự do của thí nghiệm là n - 1 = 7 - 1 = 6. F test toàn thí nghiệm là 15,29 với xác suất
p = 0,0253, chứng tỏ có khác biệt trong 4 trung bình nghiệm thức.
- Thí nghiệm cân đối các ô thí nghiệm thường có bảng ước lượng Type I SS và Type III SS (SS
= Sum of Squares, tổng bình phương) bằng nhau, nhưng trong thí nghiệm không cân đối này,
sử dụng Type III SS là phù hợp.
- So sánh khác biệt ở mức α = 0,05 cho thấy không có tương tác A*B (p = 0,6850), chứng tỏ
ảnh hưởng của yếu tố A không lệ thuộc vào yếu tố B và ngược lại. Cần tính khác biệt từng yếu
tố, trong đó yếu tố B không khác biệt (p = 0,1114), yếu tố A có khác biệt (p = 0,0101) ở mức p
< 0,05.
42
2.3. Thí nghiệm hoàn toàn ngẫu nhiên ba yếu tố có tương tác
Thí nghiệm khảo sát ba yếu tố gồm chất điều hòa sinh trưởng nuôi cấy mô: IBA (nồng độ
0,1và 0,5 mg/lít ; BAP (nồng độ 2; 4 và 8 mg/lít) , NAA (nồng độ 0,05; 0,1 và 0,5 mg/lít) ảnh
hưởng số chồi phong lan. Bố trí hoàn toàn ngẫu nhiên kiểu 3 x 3 x 2 = 18 nghiệm thức x 3 lần
lặp lại = 54 ô. Ký hiệu nghiệm thức là I (IBA), B (BAP), N (NAA).
Nồng độ nhập vào ký hiệu biến số: IBA.1 là IBA 0,1 mg/lít, BAP2 là BAP 2 mg/lít, NAA.05
là NAA 0,05 mg/lít.
Mười tám nghiệm thức có thể bố trí ngẫu nhiên như sau cho 1 lần lập lại:
T1: I1 B1 N1 T7: I1 B3 N1 T13: I2 B2 N1
T2: I1 B1 N2 T8: I1 B3 N2 T14: I2 B2 N2
T3: I1 B1 N3 T9: I1 B3 N3 T15: I2 B2 N3
T4: I1 B2 N1 T10: I2 B1 N1 T16: I2 B3 N1
T5: I1 B2 N2 T11: I2 B1 N2 T17: I2 B3 N2
T6: I1 B2 N3 T12: I2 B1 N3 T18: I2 B3 N3
Sơ đồ thí nghiệm kiểu hoàn toàn ngẫu nhiên 3 lần lặp lại:
I1 B2 N2 I1 B1 N1 I2 B2 N2 I1 B1 N2 I2 B3 N2 I1 B2 N3
I2 B1 N1 I2 B1 N3 I2 B2 N1 I2 B1 N2 I1 B3 N2 I2 B3 N1
I1 B3 N1 I2 B2 N3 I1 B3 N3 I1 B2 N1 I2 B3 N3 I1 B1 N3
I1 B1 N1 I1 B1 N2 I1 B2 N2 I1 B2 N3 I2 B2 N3 I2 B3 N1
I2 B1 N3 I2 B2 N2 I2 B3 N2 I2 B1 N1 I1 B2 N1 I1 B3 N1
I1 B3 N3 I2 B1 N2 I2 B3 N3 I1 B3 N2 I1 B1 N3 I2 B2 N1
I2 B1 N3 I2 B2 N2 I1 B2 N2 I1 B3 N3 I1 B3 N1 I2 B1 N2
I1 B1 N2 I2 B3 N2 I2 B2 N1 I2 B2 N3 I2 B3 N1 I1 B3 N2
I1 B2 N3 I2 B1 N1 I1 B1 N1 I1 B1 N3 I1 B2 N1 I2 B3 N3
* Ghi chú : «IBABAPNAA$25.» là các biến được viết thành 1 từ có khoảng 25 ký tự in
ra ở bảng kết quả xử lý.
DATA;
input IBA BAP NAA Y IBABAPNAA$25.;
CARDS;
0.1 2 0.05 21 IBA.1BAP2NAA.05
0.1 2 0.1 23 IBA.1BAP2NAA.1
0.1 2 0.5 18 IBA.1BAP2NAA.5
0.1 4 0.05 14 IBA.1BAP4NAA.05
0.1 4 0.1 12 IBA.1BAP4NAA.1
0.1 4 0.5 6 IBA.1BAP4NAA.5
0.1 8 0.05 17 IBA.1BAP8NAA.05
0.1 8 0.1 11 IBA.1BAP8NAA.1
0.1 8 0.5 13 IBA.1BAP8NAA.5
0.1 2 0.05 19 IBA.1BAP2NAA.05
0.1 2 0.1 24 IBA.1BAP2NAA.1
0.1 2 0.5 19 IBA.1BAP2NAA.5
0.1 4 0.05 13 IBA.1BAP4NAA.05
0.1 4 0.1 13 IBA.1BAP4NAA.1
0.1 4 0.5 7 IBA.1BAP4NAA.5
0.1 8 0.05 17 IBA.1BAP8NAA.05
43
0.1 8 0.1 10 IBA.1BAP8NAA.1
0.1 8 0.5 14 IBA.1BAP8NAA.5
0.1 2 0.05 21 IBA.1BAP2NAA.05
0.1 2 0.1 25 IBA.1BAP2NAA.1
0.1 2 0.5 19 IBA.1BAP2NAA.5
0.1 4 0.05 12 IBA.1BAP4NAA.05
0.1 4 0.1 13 IBA.1BAP4NAA.1
0.1 4 0.5 8 IBA.1BAP4NAA.5
0.1 8 0.05 19 IBA.1BAP8NAA.05
0.1 8 0.1 11 IBA.1BAP8NAA.1
0.1 8 0.5 12 IBA.1BAP8NAA.5
0.2 2 0.05 19 IBA.2BAP2NAA.05
0.2 2 0.1 24 IBA.2BAP2NAA.1
0.2 2 0.5 20 IBA.2BAP2NAA.5
0.2 4 0.05 11 IBA.2BAP4NAA.05
0.2 4 0.1 10 IBA.2BAP4NAA.1
0.2 4 0.5 5 IBA.2BAP4NAA.5
0.2 8 0.05 18 IBA.2BAP8NAA.05
0.2 8 0.1 10 IBA.2BAP8NAA.1
0.2 8 0.5 14 IBA.2BAP8NAA.5
0.2 2 0.05 20 IBA.2BAP2NAA.05
0.2 2 0.1 23 IBA.2BAP2NAA.1
0.2 2 0.5 18 IBA.2BAP2NAA.5
0.2 4 0.05 12 IBA.2BAP4NAA.05
0.2 4 0.1 11 IBA.2BAP4NAA.1
0.2 4 0.5 6 IBA.2BAP4NAA.5
0.2 8 0.05 15 IBA.2BAP8NAA.05
0.2 8 0.1 12 IBA.2BAP8NAA.1
0.2 8 0.5 16 IBA.2BAP8NAA.5
0.2 2 0.05 20 IBA.2BAP2NAA.05
0.2 2 0.1 24 IBA.2BAP2NAA.1
0.2 2 0.5 18 IBA.2BAP2NAA.5
0.2 4 0.05 13 IBA.2BAP4NAA.05
0.2 4 0.1 12 IBA.2BAP4NAA.1
0.2 4 0.5 8 IBA.2BAP4NAA.5
0.2 8 0.05 8 IBA.2BAP8NAA.05
0.2 8 0.1 12 IBA.2BAP8NAA.1
0.2 8 0.5 14 IBA.2BAP8NAA.5
;
PROC GLM;
CLASS IBA BAP NAA;
MODEL Y = IBA|BAP|NAA;
MEANS IBA|BAP|NAA / LSD ALPHA=0.01;
LSMEANS BAP*NAA / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS IBA*BAP*NAA / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘SO CHOI LAN’;
RUN;
PROC GLM;
CLASS IBABAPNAA;
MODEL Y = IBABAPNAA;
MEANS IBABAPNAA / DUNCAN ALPHA=0.05;
RUN;
BAP 3 2 4 8
Number of observations 54
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
45
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.144
A 15.2222 27 0.1
A
A 14.5556 27 0.2
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.4011
A 20.8333 18 2
B 13.5000 18 8
C 10.3333 18 4
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
46
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.4011
A 16.0556 18 0.05
A
A 15.5556 18 0.1
B 13.0556 18 0.5
47
0.2 2 0.5 3 18.6666667 1.15470054
0.2 4 0.05 3 12.0000000 1.00000000
0.2 4 0.1 3 11.0000000 1.00000000
0.2 4 0.5 3 6.3333333 1.52752523
0.2 8 0.05 3 13.6666667 5.13160144
0.2 8 0.1 3 11.3333333 1.15470054
0.2 8 0.5 3 14.6666667 1.15470054
H0:LSMean=
Control
BAP NAA Y LSMEAN Pr > |t|
2 0.05 20.0000000
2 0.1 23.8333333 0.0009
2 0.5 18.6666667 0.5544
4 0.05 12.5000000 <.0001
4 0.1 11.8333333 <.0001
4 0.5 6.6666667 <.0001
8 0.05 15.6666667 0.0002
8 0.1 11.0000000 <.0001
8 0.5 13.8333333 <.0001
H0:LSMean=
Control
IBA BAP NAA Y LSMEAN Pr > |t|
0.1 2 0.05 20.3333333
0.1 2 0.1 24.0000000 0.0657
0.1 2 0.5 18.6666667 0.8527
0.1 4 0.05 13.0000000 <.0001
0.1 4 0.1 12.6666667 <.0001
0.1 4 0.5 7.0000000 <.0001
0.1 8 0.05 17.6666667 0.3208
0.1 8 0.1 10.6666667 <.0001
0.1 8 0.5 13.0000000 <.0001
0.2 2 0.05 19.6666667 1.0000
0.2 2 0.1 23.6666667 0.1173
0.2 2 0.5 18.6666667 0.8527
0.2 4 0.05 12.0000000 <.0001
0.2 4 0.1 11.0000000 <.0001
0.2 4 0.5 6.3333333 <.0001
0.2 8 0.05 13.6666667 <.0001
0.2 8 0.1 11.3333333 <.0001
0.2 8 0.5 14.6666667 0.0010
48
Number of observations 54
The GLM Procedure
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 36
Error Mean Square 2.388889
Number of Means 2 3 4 5 6 7 8 9 10
Critical Range 2.559 2.691 2.776 2.838 2.885 2.921 2.951 2.976 2.997
Number of Means 11 12 13 14 15 16 17 18
Critical Range 3.014 3.029 3.042 3.053 3.063 3.071 3.079 3.085
A 24.000 3 IBA.1BAP2NAA.1
A
A 23.667 3 IBA.2BAP2NAA.1
B 20.333 3 IBA.1BAP2NAA.05
B
B 19.667 3 IBA.2BAP2NAA.05
B
B 18.667 3 IBA.1BAP2NAA.5
B
B 18.667 3 IBA.2BAP2NAA.5
B
B 17.667 3 IBA.1BAP8NAA.05
C 14.667 3 IBA.2BAP8NAA.5
C
D C 13.667 3 IBA.2BAP8NAA.05
D C
49
D C E 13.000 3 IBA.1BAP8NAA.5
D C E
D C E 13.000 3 IBA.1BAP4NAA.05
D C E
D C E 12.667 3 IBA.1BAP4NAA.1
D C E
D C E 12.000 3 IBA.2BAP4NAA.05
D E
D E 11.333 3 IBA.2BAP8NAA.1
D E
D E 11.000 3 IBA.2BAP4NAA.1
E
E 10.667 3 IBA.1BAP8NAA.1
F 7.000 3 IBA.1BAP4NAA.5
F
F 6.333 3 IBA.2BAP4NAA.5
Giải thích: (xem bảng ANOVA type III SS và tương tác để giải thích)
Source DF Type III SS Mean Square F Value Pr > F
Căn cứ vào bảng tương tác so sánh xác suất p các trung bình tương tác Dunnett, tương tác
BAP*NAA cho thấy các tổ hợp 3 yếu tố tương tác như nhau khi p > 0,05.
Bảng 2.2. Tương tác của hai yếu tố BAP*NAA ảnh hưởng số chồi lan
BAP NAA Trung bình Xác suất
(mg/lít) (mg/lít) số chồi lan p
2 0,05 20,0
2 0,1 23,8 0,0009
2 0,5 18,7 0,5544
4 0,05 12,5 <0.0001
4 0,1 11,8 <0.0001
4 0,5 6,7 <0.0001
8 0,05 15,7 0,0002
8 0,1 11,0 <0.0001
8 0,5 13,8 <0.0001
50
Căn cứ theo giả thiết là H0:LSMean= Control, các trung bình giống như đối chứng, các cặp có
giá trị xác suất p > 0,05 có tương tác như nhau. Kết quả cho thấy chỉ có cặp nghiệm thức BAP
2 mg/lít với NAA 0,05 mg/lít và BAP 2 mg/lít với NAA 0,5 mg/lít là có tương tác như nhau.
Còn lại các cặp khác không có tương tác, trong đó nghiệm thức BAP 2 mg/lít với NAA 0,1
mg/lít cho số chồi lan trung bình cao nhất là 23,8 chồi.
Vì không có tương tác của IBA*BAP*NAA, các kết quả xếp nhóm là để ghi số vào bảng và
không ghi xếp hạng a, b, c cho các cặp ba tương tác này. Ghi lại giá trị trung bình có xếp nhóm
theo ký tự cho yếu tố IBA, BAP, NAA và tương tác có nghĩa ở mức xác suất theo bảng
ANOVA.
* Các giá trị trung bình cùng ký tự không khác biệt có nghĩa ở mức thống kê p <0,01. Tương
tác BAP*NAA rất có nghĩa ở mức p < 0,01; CV = 10,38%.
Theo kết quả thí nghiệm, nồng độ IBA không ảnh hưởng số chồi, BAP ở nồng độ thấp tăng số
chồi (2mg/lít) nhưng giảm khi ở nồng độ cao, NAA nồng độ thấp tăng số chồi. Hiệu quả tương
tác cho số chồi cao nhất là BAP 2 mg/lít với NAA 0,1 mg/lít với số chồi lan trung bình là 23,8
chồi.
51
Chương 3
52
proc anova;
class k t;
model y = k t;
means t /duncan alpha=0.01;
title 'Thi nghiem 1 yeu to RCBD';
run;
k 4 1 2 3 4
t 6 a b c d e f
Number of observations 24
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Number of Means 2 3 4 5 6
Critical Range 4.054 4.229 4.342 4.424 4.485
53
Means with the same letter are not significantly different.
Duncan Grouping Mean N t
A 22.375 4 b
A
A 21.750 4 a
B 16.425 4 d
B
B 16.075 4 c
B
C B 12.975 4 e
C
C 10.450 4 f
Giải thích: kết quả cho thấy các nghiệm thức khác biệt rất có nghĩa ở mức p < 0,01; xếp nhóm
theo ký tự chia làm ba nhóm là A, B và C và không khác biệt trong cùng nhóm với nhau.
Nghiệm thức b cho năng suất cao nhất, không khác biệt với nghiệm thức a và thấp nhất là
nghiệm thức f.
Áp dụng khi có biến thiên hai chiều của các nghiệm thức và cần được khảo sát theo hai hướng,
thường là bố trí theo hàng và cột. Bài tập thí nghiệm khảo sát tăng giảm chiều cao lúa mì theo
tiêu chuẩn do máy gặt trên sáu lô. Thứ tự ô (I, II, III, IV, V, VI) trên các khu vực A, B, C, D,
E, F (Barnard, 1994). Chiều cao chồi so sánh với chiều cao thực sự (cm).
Khu vực
I f b a d c e
II b f d a e c
III c e f b d a
IV d c b e a f
V e a c f b d
VI a d e c f b
Dữ liệu được sắp xếp như sau: hàng (H), cột (C), nghiệm thức (T) và chiều cao (Y).
DATA;
INPUT H C T $ Y;
CARDS;
1 1 f 3.5
1 2 b 4.2
1 3 a 6.7
1 4 d 6.6
1 5 c 4.1
1 6 e 3.8
2 1 b 8.9
2 2 f 1.9
2 3 d 5.8
2 4 a 4.5
2 5 e 2.4
2 6 c 5.8
3 1 c 9.6
3 2 e 3.7
54
3 3 f -2.7
3 4 b 3.7
3 5 d 6
3 6 a 7
4 1 d 10.5
4 2 c 10.2
4 3 b 4.6
4 4 e 3.7
4 5 a 5.1
4 6 f 3.8
5 1 e 3.1
5 2 a 7.2
5 3 c 4
5 4 f -3.3
5 5 b 3.5
5 6 d 5
6 1 a 5.9
6 2 d 7.6
6 3 e -0.7
6 4 c 3
6 5 f 4
6 6 b 8.6
;
PROC ANOVA;
CLASS H C T;
MODEL Y = H C T;
MEANS T / DUNCAN ALPHA=0.01;
TITLE ‘CHIEU CAO LUA MI’;
RUN;
Kết quả xử lý:
CHIEU CAO LUA MI
H 6 1 2 3 4 5 6
C 6 1 2 3 4 5 6
T 6 a b c d e f
Number of observations 36
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
55
Corrected Total 35 329.6275000
R-Square Coeff Var Root MSE Y Mean
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 3.328167
Number of Means 2 3 4 5 6
Critical Range 2.997 3.126 3.211 3.273 3.321
A 6.917 6 d
A
A 6.117 6 c
A
A 6.067 6 a
A
B A 5.583 6 b
B
B C 2.667 6 e
C
C 1.200 6 f
Giải thích:
Kết quả xếp nhóm cho thấy có ba nhóm theo ký tự là A , B và C. Chiều cao gặt lúa thay đổi do
thứ tự ô, các nghiệm thức khác biệt rất có nghĩa ở mức p<0,01; cao nhất là nghiệm thức d, thấp
nhất là nghiệm thức f.
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố có tương tác (interaction)
Kiểu thí nghiệm căn bản này thực hiện để tìm tác động đồng thời của hai yếu tố cần khảo sát.
Thí nghiệm hai yếu tố, yếu tố A có ba nghiệm thức, yếu tố B có năm nghiệm thức
Thí nghiệm bố trí trên ba khối đầy đủ ngẫu nhiên, khảo sát năng suất cải dầu Y (kg/ô) do ảnh
hưởng ba nồng độ chất điều hòa sinh trưởng (S1, S2, S3) và năm lượng đạm (D1, D2, D3, D4,
D5), số liệu trích dẫn từ trang 168 của Clewer (2001).
Có hai bước: (1) xử lý ANOVA bằng PROC GLM (General Linear Model), xếp nhóm các
nghiệm thức của yếu tố S, D. So sánh tương tác LSMEAN bằng: LSMEANS S*D/PDIFF
ADJUST=DUNNETT; (2) tính khác biệt tương tác của yếu tố S*D dựa trên so sánh giá trị xác suất
điều chỉnh (adjust p-values) của PDIFF ADJUST=DUNNETT.
File mẫu xử lý ANOVA và xếp nhóm các nghiệm thức của yếu tố S và D mã hóa bằng số.
56
* Lưu ý sử dụng dấu $ để cách các biến số. Mã hóa bằng chữ với khối (K), nồng độ chất điều
hòa sinh trưởng (S) và lượng đạm (D), năng suất cải dầu Y (kg/ô).
DATA;
INPUT K $ S $ D $ SD $ Y;
CARDS;
1 1 1 S1D1 0.9
1 1 2 S1D2 1.2
1 1 3 S1D3 1.3
1 1 4 S1D4 1.8
1 1 5 S1D5 1.1
1 2 1 S2D1 0.9
1 2 2 S2D2 1.1
1 2 3 S2D3 1.3
1 2 4 S2D4 1.6
1 2 5 S2D5 1.9
1 3 1 S3D1 0.9
1 3 2 S3D2 1.4
1 3 3 S3D3 1.3
1 3 4 S3D4 1.4
1 3 5 S3D5 1.2
2 1 1 S1D1 0.9
2 1 2 S1D2 1.3
2 1 3 S1D3 1.5
2 1 4 S1D4 1.9
2 1 5 S1D5 1.4
2 2 1 S2D1 0.8
2 2 2 S2D2 0.9
2 2 3 S2D3 1.5
2 2 4 S2D4 1.3
2 2 5 S2D5 1.6
2 3 1 S3D1 1
2 3 2 S3D2 1.2
2 3 3 S3D3 1.4
2 3 4 S3D4 1.5
2 3 5 S3D5 1.1
3 1 1 S1D1 1
3 1 2 S1D2 1.2
3 1 3 S1D3 1.4
3 1 4 S1D4 2.1
3 1 5 S1D5 1.2
3 2 1 S2D1 0.8
3 2 2 S2D2 0.9
3 2 3 S2D3 1.1
3 2 4 S2D4 1.1
3 2 5 S2D5 1.5
3 3 1 S3D1 0.7
3 3 2 S3D2 1
3 3 3 S3D3 1.4
3 3 4 S3D4 1.4
3 3 5 S3D5 1.3
;
57
PROC GLM;
CLASS K S D;
MODEL Y = K S D S*D;
MEAN S/LSD;
MEAN D/LSD ALPHA=0.01;
MEAN S*D/ DUNCAN ALPHA=0.01;
LSMEANS S*D / PDIFF ADJUST=DUNNETT ALPHA=0.01;
RUN;
PROC GLM;
CLASS K SD;
MODEL Y = K SD;
MEAN SD / DUNCAN ALPHA=0.01;
RUN;
Kết quả xử lý:
The SAS System
The GLM Procedure
Class Level Information
Class Levels Values
K 3 1 2 3
S 3 1 2 3
D 5 1 2 3 4 5
Number of observations 45
The SAS System
The GLM Procedure
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
58
Alpha 0.05
Error Degrees of Freedom 28
Error Mean Square 0.019619
Critical Value of t 2.04841
Least Significant Difference 0.1048
B 1.22000 15 2
B
B 1.21333 15 3
t Grouping Mean N D
A 1.56667 9 4
B 1.36667 9 5
B
B 1.35556 9 3
C 1.13333 9 2
D 0.87778 9 1
The SAS System
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
H0:LSMean=
Control
S D Y LSMEAN Pr > |t|
1 1 0.93333333
1 2 1.23333333 0.1146
1 3 1.40000000 0.0037
1 4 1.93333333 <.0001
1 5 1.23333333 0.1146
2 1 0.83333333 0.9844
2 2 0.96666667 1.0000
2 3 1.30000000 0.0321
2 4 1.33333333 0.0161
2 5 1.66666667 <.0001
3 1 0.86666667 0.9996
3 2 1.20000000 0.2017
3 3 1.36666667 0.0078
3 4 1.43333333 0.0017
3 5 1.20000000 0.2017
59
The SAS System
The GLM Procedure
K 3 1 2 3
SD 15 S1D1 S1D2 S1D3 S1D4 S1D5 S2D1 S2D2 S2D3 S2D4 S2D5 S3D1 S3D2 S3D3 S3D4 S3D5
Number of observations 45
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 28
Error Mean Square 0.019619
Number of Means 2 3 4 5 6 7 8
Critical Range .3160 .3296 .3387 .3453 .3505 .3547 .3582
Number of Means 9 10 11 12 13 14 15
Critical Range .3611 .3636 .3658 .3678 .3695 .3710 .3723
60
Means with the same letter are not significantly different.
A 1.9333 3 S1D4
A
B A 1.6667 3 S2D5
B
B C 1.4333 3 S3D4
B C
B C 1.4000 3 S1D3
B C
B C 1.3667 3 S3D3
B C
B C 1.3333 3 S2D4
C
D C 1.3000 3 S2D3
D C
D C E 1.2333 3 S1D5
D C E
D C E 1.2333 3 S1D2
D C E
D F C E 1.2000 3 S3D5
D F C E
D F C E 1.2000 3 S3D2
D F E
D F G E 0.9667 3 S2D2
F G E
F G E 0.9333 3 S1D1
F G
F G 0.8667 3 S3D1
G
G 0.8333 3 S2D1
Bảng 3.1. Ảnh hưởng của nồng độ chất điều hòa sinh trưởng và đạm đến năng suất cải dầu
(kg/ô)
Nồng độ chất Trung bình nồng
điều hòa Lượng đạm (D) độ chất điều hòa
sinh trưởng (S) D1 D2 D3 D4 D5 sinh trưởng (S)
S1 0,93 efg 1,23 cde 1,40 bc 1,93 a 1,23 cde 1,35 A
S2 0,83 g 0,97 defg 1,30 dc 1,33 bc 1,67 ab 1,22 B
S3 0,87 fg 1,20 cdef 1,37 bc 1,43 bc 1,20 cdef 1,21 B
Trung bình 0,88 D 1,13 C 1,36 B 1,57 A 1,37 B
lượng đạm (D)
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với nồng độ chất điều
hòa sinh trưởng: p<0,05; lượng đạm: p<0,01; tương tác nồng độ chất điều hòa sinh trưởng và lượng
đạm: p<0,01; CV = 11,12%.
Giải thích:
- Kết quả xếp nhóm có thể chia các giá trị trung bình từ cao đến thấp của yếu tố tương tác SD
làm bảy nhóm theo ký tự A, B, … G; trong đó giá trị trung bình cao nhất là 1,93 kg/ô của
tương tác S1D4, thấp nhất là 0,83 kg/ô của tương tác S2D1.
- Tương tác của hai yếu tố nồng độ chất điều hòa sinh trưởng và lượng đạm S*D (F = 6,47 với
61
p < 0,0001) ảnh hưởng rất có nghĩa đến năng suất cải dầu. Bảng so sánh giá trị xác suất p các
trung bình tương tác Dunnett cho thấy tương tác chất điều hòa sinh trưởng và lượng đạm ảnh
hưởng độc lập lớn nhất đến năng suất cải dầu là tương tác S1D4 (p < 0,0001), tiếp theo là
S2D5 (p < 0,0001), S3D4 (p = 0,0017), và các tương tác S1D3, S3D4, S3D3, S2D4 và S2D3.
Các tương tác có ảnh hưởng như nhau ( p > 0,05) và năng suất thấp là tương tác S3D1, S3D2,
S3D5, S2D1, S2D2, S1D1, S1D2, S1D5.
Lượng đạm tăng năng suất từ nghiệm thức D1 đến D4 và giảm ở D5. Nồng độ chất sinh
trưởng giảm năng suất nghiệm thức từ S1 đến S3. Các nghiệm thức lượng đạm từ D1 đến D4
đều có năng suất giảm đều khi nồng độ chất sinh trưởng từ S1 đến S3, lượng đạm D4 và nồng
độ chất sinh trưởng S1 cho năng suất cao nhất là 19,3 kg/ô, năng suất giảm 0,60 kg/ô nếu áp
dụng lượng đạm D4 và S2. Do đó cần sử dụng lượng đạm D4 và nồng độ chất sinh trưởng S1.
3.4. Thí nghiệm lặp lại theo năm (tương tác năm*giống)
Thí nghiệm này thích hợp để có thể đánh giá tương tác ảnh hưởng của thời gian với kết quả thí
nghiệm.
Thí nghiệm bố trí theo sơ đồ như sau (phỏng theo Tree Fruit Research and Extension Center,
2000):
Năm 1995 Khối I A B C D E F
Khối II F A E B D C
Khối III C B F A D E
Thí nghiệm bố trí khối đầy đủ ngẫu nhiên lặp lại hai năm được phân tích tương tác năm và
giống ảnh hưởng năng suất như là thí nghiệm hai yếu tố.
Bài tập khảo sát năng suất giống cỏ (lb/acre) trồng hai năm 1995 (mưa nhiều) và 1996 (mưa ít),
ký hiệu khối (KHOI), năm (NAM, giống (GIONG), tương tác năm*giống (NAMGIONG), $15.
và $20. chỉ độ dài của hàng ghi các biến trong bảng xếp nhóm các nghiệm thức, với tiêu chuẩn
chọn mức alpha = 0,05 ban đầu (NCRS 2007, tr. 33).
Kết quả xử lý như sau:
DATA
INPUT KHOI NAM $ GIONG$15. NSUAT NAMGIONG$20.;
Cards;
1 1995 Alamo 11295 1995 Alamo
1 1995 Blackwell 5866 1995 Blackwell
1 1995 Shelter 9754 1995 Shelter
1 1995 Kanlor 8718 1995 Kanlor
1 1995 Dacotah 7139 1995 Dacotah
2 1995 Alamo 9239 1995 Alamo
2 1995 Dacotah 5712 1995 Dacotah
2 1995 Kanlor 6710 1995 Kanlor
2 1995 Blackwell 7214 1995 Blackwell
2 1995 Shelter 9423 1995 Shelter
3 1995 Alamo 11478 1995 Alamo
62
3 1995 Dacotah 6872 1995 Dacotah
3 1995 Blackwell 6602 1995 Blackwell
3 1995 Shelter 10742 1995 Shelter
3 1995 Kanlor 8585 1995 Kanlor
4 1995 Shelter 10623 1995 Shelter
4 1995 Alamo 11010 1995 Alamo
4 1995 Dacotah 5541 1995 Dacotah
4 1995 Kanlor 7720 1995 Kanlor
4 1995 Blackwell 7628 1995 Blackwell
1 1996 Alamo 7097 1996 Alamo
1 1996 Blackwell 6418 1996 Blackwell
1 1996 Shelter 8083 1996 Shelter
1 1996 Kanlor 8039 1996 Kanlor
1 1996 Dacotah 8086 1996 Dacotah
2 1996 Alamo 7380 1996 Alamo
2 1996 Dacotah 6579 1996 Dacotah
2 1996 Kanlor 8073 1996 Kanlor
2 1996 Blackwell 8922 1996 Blackwell
2 1996 Shelter 9697 1996 Shelter
3 1996 Alamo 9996 1996 Alamo
3 1996 Dacotah 7240 1996 Dacotah
3 1996 Blackwell 7926 1996 Blackwell
3 1996 Shelter 8698 1996 Shelter
3 1996 Kanlor 9124 1996 Kanlor
4 1996 Shelter 9590 1996 Shelter
4 1996 Alamo 10872 1996 Alamo
4 1996 Dacotah 6021 1996 Dacotah
4 1996 Kanlor 7459 1996 Kanlor
4 1996 Blackwell 8375 1996 Blackwell
;
proc glm;
class KHOI NAM GIONG;
model NSUAT = KHOI NAM GIONG NAM*GIONG;
means NAM GIONG NAM*GIONG/lsd alpha=0.05;
lsmeans NAM*GIONG /pdiff adjust=DUNNETT;
title‘Tuong tac nam va giong den nang suat’;
run;
proc GLM;
class KHOI NAMGIONG;
model NSUAT = KHOI NAMGIONG;
means NAMGIONG /Duncan alpha=0.05;
run;
Kết quả xử lý:
Tuong tac nam va giong den nang suat
KHOI 4 1 2 3 4
63
Number of Observations Read 40
Number of Observations Used 40
Tuong tac nam va giong den nang suat
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 27
Error Mean Square 962858.6
Critical Value of t 2.05183
Least Significant Difference 636.68
A 8393.6 20 1995
A
64
A 8183.8 20 1996
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 27
Error Mean Square 962858.6
Critical Value of t 2.05183
Least Significant Difference 1006.7
A 9795.9 8 Alamo
A
A 9576.3 8 Shelter
B 8053.5 8 Kanlor
B
C B 7368.9 8 Blackwell
C
C 6648.8 8 Dacotah
H0:LSMean=
Control
NAM GIONG NSUAT LSMEAN Pr > |t|
65
1995 Alamo 10755.5000
1995 Blackwell 6827.5000 <.0001
1995 Dacotah 6316.0000 <.0001
1995 Kanlor 7933.2500 0.0028
1995 Shelter 10135.5000 0.9434
1996 Alamo 8836.2500 0.0635
1996 Blackwell 7910.2500 0.0026
1996 Dacotah 6981.5000 <.0001
1996 Kanlor 8173.7500 0.0067
1996 Shelter 9017.0000 0.1096
KHOI 4 1 2 3 4
NAMGIONG 10 1995 Alamo 1995 Blackwell 1995 Dacotah 1995 Kanlor 1995 Shelter 1996 Alamo
1996 Blackwell 1996 Dacotah 1996 Kanlor 1996 Shelter
66
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Number of Means 2 3 4 5 6 7 8 9 10
Critical Range 1424 1496 1542 1575 1600 1620 1635 1648 1658
Bảng 3.2. Tương tác của năm trồng và giống đến năng suất cỏ (lb/acre)
12000 a
ab
10000 bc bc
Năng suất (lb/acre)
cd cd cd
8000 de de
e
1995
6000
1996
4000
2000
0
Alamo Shelter Kanlor Blackwell Dacotah
Năm trồng và giống cỏ
Giải thích: Giống cỏ Alamo có năng suất giảm từ năm 1995 sang năm 1996, với mất năng suất
là 1920 lb/acre, do đó cần áp dụng biện pháp kỹ thuật tưới giữ ẩm để cải thiện năng suất, tương
tự như các giống khác.
Thí nghiệm ở 3 địa điểm (Ddiem) ký hiệu DIEM1 (điểm 1), 3 Khối (K) hay lần lặp lại, 3
nghiệm thức chu kỳ xén cỏ là 30D (A, 30 ngày xén cỏ), 45D (B, 45 ngày xén cỏ), 60D(C, 60
ngày xén cỏ); Y là năng suất cỏ (tấn/ha). Chú ý có sai số ảnh hưởng của địa điểm và khối:
test h = Ddiem e = Ddiem*Khoi;
68
Sơ đồ như sau (Tree Fruit Research and Extension Center, 2000):
Địa điểm 1 Địa điểm 2
Khối 1 I II III Khối 2 I II III
A B C B C B
B A B A B C
C C A C A A
Địa điểm 3
Khối 3 I II III
A C A
C B C
B A B
Data;
Input Ddiem $ Khoi $ Nthuc $ Y DdiemNthuc$15.;
cards;
DIEM1 1 30D 18 DIEM1 30D
DIEM1 1 45D 21 DIEM1 45D
DIEM1 1 60D 19 DIEM1 60D
DIEM1 2 30D 19 DIEM1 30D
DIEM1 2 45D 13 DIEM1 45D
DIEM1 2 60D 19 DIEM1 60D
DIEM1 3 30D 17 DIEM1 30D
DIEM1 3 45D 12 DIEM1 45D
DIEM1 3 60D 17 DIEM1 60D
DIEM2 1 30D 16 DIEM2 30D
DIEM2 1 45D 9 DIEM2 45D
DIEM2 1 60D 11 DIEM2 60D
DIEM2 2 30D 19 DIEM2 30D
DIEM2 2 45D 16 DIEM2 45D
DIEM2 2 60D 8 DIEM2 60D
DIEM2 3 30D 18 DIEM2 30D
DIEM2 3 45D 7 DIEM2 45D
DIEM2 3 60D 9 DIEM2 60D
DIEM3 1 30D 17 DIEM3 30D
DIEM3 1 45D 12 DIEM3 45D
DIEM3 1 60D 9 DIEM3 60D
DIEM3 2 30D 21 DIEM3 30D
DIEM3 2 45D 15 DIEM3 45D
DIEM3 2 60D 11 DIEM3 60D
DIEM3 3 30D 22 DIEM3 30D
DIEM3 3 45D 14 DIEM3 45D
DIEM3 3 60D 8 DIEM3 60D
;
proc glm;
class Ddiem Khoi Nthuc;
model Y = Ddiem Ddiem*Khoi Nthuc Ddiem*Nthuc;
test h = Ddiem e = Ddiem*Khoi;
means Ddiem Nthuc / LSD ALPHA=0.01;
Lsmeans Ddiem*Nthuc / pdiff adjust=dunnett;
69
run;
proc glm;
class Khoi DdiemNthuc;
model Y= Khoi DdiemNthuc;
means DdiemNthuc / Duncan alpha = 0.05;
run;
Kết quả xử lý:
The GLM Procedure
Khoi 3 1 2 3
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
70
Tests of Hypotheses Using the Type III MS for Ddiem*Khoi as an Error Term
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 6.462963
Critical Value of t 3.05454
Least Significant Difference 3.6606
A 17.222 9 DIEM1
A
B A 14.333 9 DIEM3
B
B 12.556 9 DIEM2
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 6.462963
Critical Value of t 3.05454
Least Significant Difference 3.6606
A 18.556 9 30D
B 13.222 9 45D
B
B 12.333 9 60D
71
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
H0:LSMean=
Control
Ddiem Nthuc Y LSMEAN Pr > |t|
Khoi 3 1 2 3
DdiemNthuc 9 DIEM1 30D DIEM1 45D DIEM1 60D DIEM2 30D DIEM2 45D DIEM2 60D DIEM3 30D DIEM3
45D DIEM3 60D
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
72
The GLM Procedure
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 16
Error Mean Square 7.162037
Number of Means 2 3 4 5 6 7 8 9
Critical Range 4.632 4.858 4.998 5.095 5.165 5.217 5.256 5.287
Ddiem
Duncan Grouping Mean N Nthuc
Bảng 3.3. Tương tác của địa điểm và chu kỳ xén cỏ đến năng suất cỏ (tấn/ha)
73
Theo giả thiết các trung bình năng suất của các cặp tương tác giống với cặp đối chứng
(H0:LSMean=Control), với xác suất p > 0,05 thì các cặp này giống nhau, nếu p < 0,05 thì các
cặp này khác nhau, kết quả cho thấy có hai nhóm các cặp có tương tác địa điểm và chu kỳ xén
cỏ: tương tác như nhau là điểm 1 với 30 ngày, 45 ngày, 60 ngày; điểm 2 với 30 ngày, điểm 3
với 30 và 45 ngày, ba nhóm còn lại tương tác độc lập với nhau.
Từ kết quả tương tác của địa điểm và chu kỳ xén cỏ, thành lập bảng kết quả hai chiều và ghi ký
tự xếp nhóm thống kê.
Bảng 3.4. Ảnh hưởng của địa điểm và chu kỳ xén cỏ đến năng suất cỏ (tấn/ha)
Địa điểm
Chu kỳ xén cỏ Điểm 1 Điểm 2 Điểm 3 Trung bình
chu kỳ xén cỏ
30 ngày 18,00 ab 17,67 ab 20,00 a 18,56 A
45 ngày 15,33 abc 10,67 cd 13,67 bcd 13,22 B
60 ngày 18,33 ab 9,33 d 9,33 d 12,33 B
Trung bình địa điểm 17,22 A 14,33 AB 12,56 B
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,01 cho yếu tố
địa điểm và chu kỳ xén cỏ, p < 0,05 cho tương tác địa điểm* chu kỳ xén cỏ; CV = 18,2%.
Chu kỳ xén cỏ càng ngắn cho năng suất càng cao ở điểm 3. Điểm 1 cho năng suất cao nhất so
với 2 điểm khác. Tương tác chu kỳ xén cỏ 30 ngày ở điểm 3 cho năng suất cao nhất.
V2 V4 V1 V4 V2 V4 V1 V4 V3
V3 V1 V3 V1 V3 V1 V3 V3 V1
V1 V2 V4 V3 V1 V2 V2 V1 V2
V4 V3 V2 V2 V4 V3 V4 V2 V4
74
Thí nghiệm khảo sát năng suất cỏ kg/ô (Y) do yếu tố chu kỳ xén cỏ và giống cỏ, xác suất thống
kê được chọn trước là p = 0,05 (NCRS 2007, tr. 52).
Tên chu kỳ xén cỏ và giống có thể sử dụng mã hóa bằng số và nguyên tên giống.
• Bài tập sử dụng mã hóa bằng số như sau:
Yếu tố D lô chính: ba nghiệm thức về chu kỳ xén cỏ là D1: 30 ngày, D2: 45 ngày, D3: 60 ngày
Yếu tố V lô phụ: bốn giống là V1: Jackson, giống V2: Highlander, giống V3: San Macros,
giống V4: Medina. Yếu tố DV: yếu tố tương tác của hai yếu tố D và V.
Bố trí thí nghiệm trên ba khối đầy đủ, ngẫu nhiên (K: 1, 2, 3).
Data;
Input K $ D $ V $ DV $ Y;
cards;
1 1 1 D1V1 6789
1 1 2 D1V2 6578
1 1 3 D1V3 6589
1 1 4 D1V4 6534
2 1 1 D1V1 6743
2 1 2 D1V2 6789
2 1 3 D1V3 6700
2 1 4 D1V4 6500
3 1 1 D1V1 6721
3 1 2 D1V2 7000
3 1 3 D1V3 6345
3 1 4 D1V4 6512
1 2 1 D2V1 8812
1 2 2 D2V2 9500
1 2 3 D2V3 7816
1 2 4 D2V4 6956
2 2 1 D2V1 8745
2 2 2 D2V2 9654
2 2 3 D2V3 8721
2 2 4 D2V4 6956
3 2 1 D2V1 8867
3 2 2 D2V2 9595
3 2 3 D2V3 9800
3 2 4 D2V4 7934
1 3 1 D3V1 11345
1 3 2 D3V2 11999
1 3 3 D3V3 10456
1 3 4 D3V4 10009
2 3 1 D3V1 11099
2 3 2 D3V2 11678
2 3 3 D3V3 10678
2 3 4 D3V4 10999
3 3 1 D3V1 11567
3 3 2 D3V2 11890
3 3 3 D3V3 10367
3 3 4 D3V4 11345
;
75
proc glm;
class K D V;
model Y = K D K*D V D*V;
test h=D e=K*D;
means D V D*V/lsd alpha=0.05;
lsmeans D*V/pdiff=control adjust=dunnett;
title‘SPLIT PLOT P 52 statistix’;
run;
proc glm;
class K DV;
model Y = K DV;
means DV/Duncan alpha=0.05;
run;
Kết quả xử lý:
SPLIT PLOT P 52 statistix
The GLM Procedure
Class Level Information
K 3 1 2 3
D 3 1 2 3
V 4 1 2 3 4
Number of observations 36
Sum of
Source DF Squares Mean Square F Value Pr > F
76
Tests of Hypotheses Using the Type III MS for K*D as an Error Term
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18
t Grouping Mean N D
A 11119.3 12 3
B 8613.0 12 2
C 6650.0 12 1
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25
t Grouping Mean N V
A 9409.2 9 2
B 8965.3 9 1
B
B 8608.0 9 3
C 8193.9 9 4
77
The GLM Procedure
1 1 3 6751.0000 34.698703
1 2 3 6789.0000 211.000000
1 3 3 6544.6667 181.604882
1 4 3 6515.3333 17.243356
2 1 3 8808.0000 61.098281
2 2 3 9583.0000 77.698134
2 3 3 8779.0000 993.270859
2 4 3 7282.0000 564.648563
3 1 3 11337.0000 234.102542
3 2 3 11855.6667 163.230920
3 3 3 10500.3333 160.169702
3 4 3 10784.3333 693.386857
H0:LSMean=
Control
D V Y LSMEAN Pr > |t|
1 1 6751.0000
1 2 6789.0000 1.0000
1 3 6544.6667 0.9936
1 4 6515.3333 0.9836
2 1 8808.0000 <.0001
2 2 9583.0000 <.0001
2 3 8779.0000 <.0001
2 4 7282.0000 0.4654
3 1 11337.0000 <.0001
3 2 11855.6667 <.0001
3 3 10500.3333 <.0001
3 4 10784.3333 <.0001
K 3 1 2 3
DV 12 D1V1 D1V2 D1V3 D1V4 D2V1 D2V2 D2V3 D2V4 D3V1 D3V2 D3V3 D3V4
Number of observations 36
78
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 22
Error Mean Square 140400.8
Number of Means 2 3 4 5 6 7 8 9 10 11 12
Critical Range 634.5 666.2 686.5 700.8 711.3 719.5 725.9 731.0 735.2 738.6 741.4
A 11855.7 3 D3V2
A
B A 11337.0 3 D3V1
B
B C 10784.3 3 D3V4
C
C 10500.3 3 D3V3
D 9583.0 3 D2V2
E 8808.0 3 D2V1
E
E 8779.0 3 D2V3
F 7282.0 3 D2V4
79
F
G F 6789.0 3 D1V2
G F
G F 6751.0 3 D1V1
G
G 6544.7 3 D1V3
G
G 6515.3 3 D1V4
Giải thích:
- Bảng ANOVA cho thấy có khác biệt thống kê rất có nghĩa của chu kỳ xén cỏ (yếu tố D) với
F = 440,34 và p < 0,0001.
- Có khác biệt thống kê rất có nghĩa của giống cỏ (yếu tố V) với F = 17,61 và p < 0,0001.
- Không có tương tác giữa khối và chu kỳ xén cỏ với F = 1,15 và p = 0,3367.
- Có tương tác rất có nghĩa thống kê giữa chu kỳ xén cỏ và giống cỏ với F = 5,54 và p =
0,0021.
- Kết quả xếp nhóm tương tác các nghiệm thức của yếu tố DV có thể chia làm bảy nhóm: A, B,
C, ... G (NCRS, 2007) trong đó năng suất cao nhất ở 60 ngày xén cỏ là V2 (Highlander), tiếp
theo là V1(Jackson), thấp nhất là ở 30 ngày xén cỏ với giống V3 (San Macros) và V4
(Medina).
- Căn cứ vào bảng so sánh xác suất p các trung bình tương tác Dunnett, tương tác chu kỳ xén
cỏ D1(30 ngày) với 4 giống cỏ có ảnh hưởng như nhau vì có p > 0,05 cũng như tương tác
D2V4 (chu kỳ xén cỏ 45 ngày, giống Medina).
Tương tác chu kỳ xén cỏ D2 (45 ngày) với các giống Jackson, Highlander và San Macros ảnh
hưởng độc lập cũng như chu kỳ xén cỏ D3 (chu kỳ xén cỏ 60 ngày) tương tác với bốn giống
cỏ đều có p < 0,0001 và trong đó năng suất cao nhất là tương tác D3V2 (chu kỳ xén cỏ 60
ngày, giống Highlander).
Bảng 3.5. Tương tác của chu kỳ xén cỏ và giống đến năng suất cỏ (kg/ô)
Năng suất tăng theo số ngày của chu kỳ xén cỏ và khác biệt do giống. Tương tác chu kỳ xén cỏ
60 ngày với giống Highlander cho năng suất cao nhất là 11855,7 kg/ô.
80
Trình bày kết quả như sau:
Bảng 3.6. Ảnh hưởng của chu kỳ xén cỏ và giống đến năng suất cỏ (kg/ô)
Giống
Chu kỳ xén cỏ Jackson Highlander San Macros Medina Trung bình
chu kỳ xén cỏ
D1 (30 ngày) 6751,0 fg 6789,0 fg 6544,7 g 6515,3 g 6650,0 C
D2 (45 ngày) 8808,0 e 9583,0 d 8779,0 e 7282,0 f 8613,0 B
D3 (60 ngày) 11337,0 ab 11855,7 a 10500,3 c 10784,3 bc 11119,3 A
Trung bình giống 8965,3 B 9409,2 A 8608,0 B 8193,9 C
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,05 cho yếu tố
chu kỳ xén cỏ, yếu tố giống và tương tác chu kỳ xén cỏ*giống; CV = 4,21%.
• Bài tập sử dụng tên giống và chu kỳ xén cỏ (NCRS 2007, trang 52), so sánh tương
tác LSMEANS với Tukey test.
Kết quả giống như phần mã hóa bằng số, được rút gọn cho các phần xếp nhóm, so sánh tương
tác Tukey test như sau:
DATA;
INPUT KHOI XENCO $ GIONG$15. NSUAT XENCOGIONG$20.;
Cards;
1 30da Jackson 6789 30da Jackson
1 30da Highlander 6578 30da Highlander
1 30da San Macros 6589 30da San Macros
1 30da Medina 6534 30da Medina
2 30da Jackson 6743 30da Jackson
2 30da Highlander 6789 30da Highlander
2 30da San Macros 6700 30da San Macros
2 30da Medina 6500 30da Medina
3 30da Jackson 6721 30da Jackson
3 30da Highlander 7000 30da Highlander
3 30da San Macros 6345 30da San Macros
3 30da Medina 6512 30da Medina
1 45da Jackson 8812 45da Jackson
1 45da Highlander 9500 45da Highlander
1 45da San Macros 7816 45da San Macros
1 45da Medina 6956 45da Medina
2 45da Jackson 8745 45da Jackson
2 45da Highlander 9654 45da Highlander
2 45da San Macros 8721 45da San Macros
2 45da Medina 6956 45da Medina
3 45da Jackson 8867 45da Jackson
3 45da Highlander 9595 45da Highlander
3 45da San Macros 9800 45da San Macros
3 45da Medina 7934 45da Medina
81
1 60da Jackson 11345 60da Jackson
1 60da Highlander 11999 60da Highlander
1 60da San Macros 10456 60da San Macros
1 60da Medina 10009 60da Medina
2 60da Jackson 11099 60da Jackson
2 60da Highlander 11678 60da Highlander
2 60da San Macros 10678 60da San Macros
2 60da Medina 10999 60da Medina
3 60da Jackson 11567 60da Jackson
3 60da Highlander 11890 60da Highlander
3 60da San Macros 10367 60da San Macros
3 60da Medina 11345 60da Medina
;
proc glm;
class KHOI XENCO GIONG;
model NSUAT = KHOI XENCO KHOI*XENCO GIONG XENCO*GIONG;
test h=XENCO e=KHOI*XENCO;
means XENCO GIONG XENCO*GIONG/lsd alpha=0.05;
lsmeans XENCO*GIONG /pdiff adjust=tukey;
title‘SPLIT PLOT P 52 statistix’;
run;
proc GLM;
class KHOI XENCOGIONG;
model NSUAT = KHOI XENCOGIONG;
means XENCOGIONG /Duncan alpha=0.05;
run;
Kết quả xử lý:
SPLIT PLOT P 52 statistix
KHOI 3 1 2 3
Number of observations 36
Sum of
Source DF Squares Mean Square F Value Pr > F
82
R-Square Coeff Var Root MSE NSUAT Mean
Tests of Hypotheses Using the Type III MS for KHOI*XENCO as an Error Term
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18
A 11119.3 12 60da
B 8613.0 12 45da
C 6650.0 12 30da
83
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25
A 9409.2 9 Highlander
B 8965.3 9 Jackson
B
B 8608.0 9 San Macros
C 8193.9 9 Medina
LSMEAN
XENCO GIONG NSUAT LSMEAN Number
84
60da Highlander 11855.6667 9
60da Jackson 11337.0000 10
60da Medina 10784.3333 11
60da San Macros 10500.3333 12
i/j 1 2 3 4 5 6
i/j 7 8 9 10 11 12
i/j 7 8 9 10 11 12
85
SPLIT PLOT P 52 statistix
KHOI 3 1 2 3
XENCOGIONG 12 30da Highlander 30da Jackson 30da Medina 30da San Macros 45da Highlander
45da Jackson 45da Medina 45da San Macros 60da Highlander 60da Jackson 60da
Medina 60da San Macros
Number of observations 36
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 22
Error Mean Square 140400.8
86
Number of Means 2 3 4 5 6 7 8 9 10 11 12
Critical Range 634.5 666.2 686.5 700.8 711.3 719.5 725.9 731.0 735.2 738.6 741.4
Kết quả cho thấy sử dụng tên bằng chữ cho thấy xếp nhóm Duncan grouping (nhóm tương
đồng, homogeneous groups (NRCS, 2007) của yếu tố chu kỳ xén cỏ và giống, tương tác chu kỳ
xén cỏ*giống ghi rõ tên giống (Jackson) và xén cỏ (30 ngày).
So sánh tương tác ma trận Least Squares Means for effect chu kỳ xén cỏ*giống của so sánh đa
tương tác Tukey test (Adjustment for Multiple Comparisons: Tukey) và cho thấy kết quả giống
như so sánh Dunnett test: tương tác chu kỳ xén cỏ 30 ngày với giống Highlander, Jackson,
Medina, San Macros và chu kỳ xén cỏ 45 ngày và giống Medina ảnh hưởng tương tác như
nhau đến năng suất cỏ, còn lại các tương tác khác đều ảnh hưởng độc lập đến năng suất cỏ (xác
suất của tương tác p > 0,05 là có ảnh hưởng như nhau; p < 0,05 là có ảnh hưởng độc lập (SAS,
2004).
Có nhiều phương pháp so sánh tương tác đa biến như Bon, Dunnett, Tukey, Sidak. Tuy nhiên
trong xử lý thống kê, chỉ chọn một cách so sánh tương tác lsmeans chu kỳ xén cỏ*giống là
được, như Dunnett test.
Thí nghiệm bố trí có một yếu tố gồm một dãy các ô cơ sở trong một khối theo một hướng trong
khối, và yếu tố thứ hai cũng gồm một dãy các ô cơ sở theo một hướng khác trong khối.
87
Như vậy có một yếu tố theo hướng dọc (vertical) và yếu tố thứ hai theo hướng ngang
(horizontal). Các ô cơ sở trong khối được bố trí ngẫu nhiên. Strip plot với bố trí đặc biệt theo ô
sọc còn gọi là split-block design. Thí nghiệm áp dụng cho ô cơ sở lớn và liên tục, vì ô cơ sở
nhỏ khó thực hiện.
Cần trắc nghiệm giả thiết ảnh hưởng của khối với yếu tố A, ảnh hưởng của khối với yếu tố B.
test h=A e=KHOI*A;
test h=B e=KHOI*B;
Bài tập: thí nghiệm bố trí khối (KHOI) RCBD để tính năng suất lúa mạch Y (kg/ô cơ sở) làm
thức ăn gia súc, bón phân kali (K) có ba nghiệm thức : K1 = 0 kg/ha, K2 = 25 kg/ha và K3 =
50 kg/ha. Phân lân (P) có hai nghiệm thức: P1 = 25 kg/ha, P2 = 50 kg/ha. Bón K chạy dọc hết
ba ô. Trên các ô bón K, bón P chạy ngang theo góc thẳng (phỏng theo Petersen, 1994).
Sơ đồ thí nghiệm như sau:
K3 K1 K2 K1 K3 K2 K2 K1 K3
P1 56 32 49 P2 38 62 50 P2 54 44 51
P2 67 54 58 P1 52 72 64 P1 63 54 68
Khối 1 Khối 2 Khối 3
data;
input KHOI $ K $ P $ Y;
cards;
1 1 1 32
1 1 2 54
1 2 1 49
1 2 2 58
1 3 1 56
1 3 2 67
2 1 1 38
2 1 2 52
2 2 1 50
2 2 2 64
2 3 1 62
2 3 2 72
3 1 1 44
3 1 2 54
3 2 1 54
3 2 2 63
3 3 1 51
3 3 2 68
;
proc glm;
class KHOI K P;
model Y = KHOI K KHOI*K P KHOI*P K*P;
test h=K e=KHOI*K;
test h=P e=KHOI*P;
means K P K*P/lsd alpha=0.01;
lsmeans K/pdiff adjust=dunnett alpha=0.01;
title‘STRIP PLOT P 142’;
run;
88
Kết quả xử lý:
STRIP PLOT P 142
KHOI 3 1 2 3
K 3 1 2 3
P 2 1 2
Number of observations 18
STRIP PLOT P 142
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
Tests of Hypotheses Using the Type III MS for KHOI*K as an Error Term
Tests of Hypotheses Using the Type III MS for KHOI*P as an Error Term
89
Source DF Type III SS Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 4
Error Mean Square 14.22222
Critical Value of t 4.60409
Least Significant Difference 10.025
A 62.667 6 3
A
A 56.333 6 2
B 45.667 6 1
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 4
Error Mean Square 14.22222
Critical Value of t 4.60409
Least Significant Difference 8.1851
t Grouping Mean N P
A 61.333 9 2
B 48.444 9 1
1 1 3 38.0000000 6.00000000
1 2 3 53.3333333 1.15470054
2 1 3 51.0000000 2.64575131
2 2 3 61.6666667 3.21455025
3 1 3 56.3333333 5.50757055
3 2 3 69.0000000 2.64575131
90
STRIP PLOT P 142
1 45.6666667
2 56.3333333 0.0138
3 62.6666667 0.0025
Bảng 3.7. Ảnh hưởng của phân K và P đến năng suất lúa mạch (kg/ô)
Phân K
Phân P K1 K2 K3 Trung bình
(0 kg/ha) (25 kg/ha) (50 kg/ha) phân P
P1 (25 kg/ha) 38,00 51,00 56,33 48,44 B
P2 (50 kg/ha) 53,33 61,67 69,00 61,33 A
Trung bình phân K 45,67 B 56,33 A 62,67 A
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,01; CV=6,87%.
Giải thích: vì không có tương tác K và P, cần giải thích tương tác trong yếu tố K và P.
- Xếp nhóm yếu tố lượng lân (P) với hai trung bình theo ký tự có hai nhóm là A và B. Xếp
nhóm yếu tố lượng K với ba trung bình theo ký tự có hai nhóm là A và B.
- Không có ảnh hưởng khối đến yếu tố lượng K (F = 1,38 với p = 0,3826) và lượng P (F = 0,11
với p = 0,899). Lượng phân K và P không có ảnh hưởng tương tác đến năng suất (F = 0,58 với
p = 0,6018).
- So sánh tương tác các trung bình yếu tố lượng K theo giá trị xác suất p các trung bình nghiệm
thức cho thấy K1 (0 kg/ha) ảnh hưởng độc lập với K2 (25 kg/ha) (p = 0,0138) và K3 (p =
0,0025), trong đó nghiệm thức K3(50 kg/ha) ảnh hưởng tương tác lớn nhất đến năng suất lúa
mạch (62,67 kg/ha). Nghiệm thức lượng lân P2 (50 kg/ha) cho năng suất 61,33 kg/ha, khác biệt
có nghĩa với P1(25 kg/ha).
- Bón K và P lượng cao tăng năng suất lúa mạch nhưng không có tương tác lượng lân và kali.
Thí nghiệm thực hiện để so sánh tương tác đồng thời nhiều yếu tố như giống, lượng phân bón,
hoá chất phun, khoảng cách gieo trồng để giảm chi phí và thời gian khảo sát, nhưng cần diện
tích lớn. Thí nghiệm ba yếu tố là thí nghiệm căn bản để khảo sát tương tác của ba yếu tố.
Bài tập so sánh các giá trị trung bình và tương tác ba yếu tố (phỏng theo Clewer, 2001).
Thí nghiệm gồm bốn khối (KH), hai lượng đạm N (N1= không bón đạm, N2 = bón đạm), hai
giống lúa mì V (V1, V2), hai lượng phân K (K1 = không bón K, K2 = bón K) ảnh hưởng năng
suất (Y, tấn/ha).
91
Khối N1V1K1 N2V1K2 N1V2K1 N2V2K1 Khối T1 T6 T3 T7
1 N1V1K2 N2V1K1 N2V2K2 N1V2K2 1 T2 T5 T8 T4
92
3 1 2 2 N1V2K2 7.8
3 2 1 1 N2V1K1 5.2
3 2 1 2 N2V1K2 6.6
3 2 2 1 N2V2K1 7.6
3 2 2 2 N2V2K2 7.8
4 1 1 1 N1V1K1 4.3
4 1 1 2 N1V1K2 5.1
4 1 2 1 N1V2K1 4.2
4 1 2 2 N1V2K2 7.4
4 2 1 1 N2V1K1 5.6
4 2 1 2 N2V1K2 5.8
4 2 2 1 N2V2K1 6.6
4 2 2 2 N2V2K2 7.4
;
PROC GLM;
CLASS KH N V K;
MODEL Y = KH N|V|K;
MEANS N|V|K / LSD ALPHA=0.01;
LSMEANS V*K / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS N*V*K / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘NANG SUAT LUA MI’;
RUN;
PROC GLM;
CLASS KH NVK;
MODEL Y = KH NVK;
MEANS NVK / DUNCAN ALPHA=0.05;
RUN;
- Xử lý thống kê ANOVA trước, sau đó xếp nhóm và tính tương tác khi các biến số và tương
tác có nghĩa với p < 0,05. Sau khi đã xem kết quả xếp nhóm các trung bình của nghiệm thức
N,V, K, tính tương tác LSMEANS của V*K và N*V*K.
Kết quả xử lý:
NANG SUAT LUA MI
The GLM Procedure
KH 4 1 2 3 4
N 2 1 2
V 2 1 2
K 2 1 2
Number of observations 32
93
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501
t Grouping Mean N N
A 6.2000 16 2
B 5.3000 16 1
94
The GLM Procedure
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501
t Grouping Mean N V
A 6.5000 16 2
B 5.0000 16 1
1 1 8 4.50000000 0.45669621
1 2 8 6.10000000 1.51563282
2 1 8 5.50000000 0.57569833
2 2 8 6.90000000 0.85356396
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501
t Grouping Mean N K
A 6.3250 16 2
B 5.1750 16 1
95
The GLM Procedure
1 1 8 4.55000000 0.57071384
1 2 8 6.05000000 1.53529895
2 1 8 5.80000000 0.92427578
2 2 8 6.60000000 0.97979590
1 1 8 4.75000000 0.61875451
1 2 8 5.25000000 0.76531973
2 1 8 5.60000000 1.13010745
2 2 8 7.40000000 0.51269596
1 1 1 4 4.30000000 0.49665548
1 1 2 4 4.70000000 0.36514837
1 2 1 4 4.80000000 0.58878406
1 2 2 4 7.40000000 0.71180522
2 1 1 4 5.20000000 0.32659863
2 1 2 4 5.80000000 0.65319726
2 2 1 4 6.40000000 0.96263527
2 2 2 4 7.40000000 0.32659863
H0:LSMean=
Control
V K Y LSMEAN Pr > |t|
1 1 4.75000000
1 2 5.25000000 0.1956
2 1 5.60000000 0.0148
2 2 7.40000000 <.0001
H0:LSMean=
Control
N V K Y LSMEAN Pr > |t|
1 1 1 4.30000000
1 1 2 4.70000000 0.8364
1 2 1 4.80000000 0.6705
1 2 2 7.40000000 <.0001
96
2 1 1 5.20000000 0.1428
2 1 2 5.80000000 0.0053
2 2 1 6.40000000 0.0001
2 2 2 7.40000000 <.0001
KH 4 1 2 3 4
Number of observations 32
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 21
Error Mean Square 0.302024
97
Number of Means 2 3 4 5 6 7 8
Critical Range .8081 .8484 .8741 .8921 .9054 .9156 .9236
A 7.4000 4 N1V2K2
A
A 7.4000 4 N2V2K2
B 6.4000 4 N2V2K1
B
C B 5.8000 4 N2V1K2
C
C D 5.2000 4 N2V1K1
D
E D 4.8000 4 N1V2K1
E D
E D 4.7000 4 N1V1K2
E
E 4.3000 4 N1V1K1
Cách trình bày với bố trí thí nghiệm nhiều yếu tố, cần giải thích căn cứ vào so sánh tương tác
LSmeans Multiple Comparison Dunnett (hoặc Tukey) ở phần trên và trình bày kết quả như
sau:
Bảng 3.8. Năng suất lúa mì (tấn/ha) ảnh hưởng bởi bón N và K
Giống lúa (V)
V1 V2
N1 (không N) N2 (bón N) N1 (không N) N2 (bón N) Trung bình K
K1(không K) 4,3 e 5,2 cd 4,8 de 6,4 b 5,18 B
K2 (bón K) 4,7 de 5,8 bc 7,4 a 7,4 a 6,33 A
Trung bình N 5,3 B 6,2 A
Trung bình V V1 V2
5,0 B 6,5 A
Ghi chú: các trị có cùng ký tự không khác biệt có nghĩa ở mức xác suất với yếu tố N: p<0,01,
yếu tố V: p<0,01, yếu tố K: p<0,01; tương tác V*K: p<0,01, tương tác N*V*K: p<0,05;
CV = 9,56%.
Giải thích: - Xếp nhóm các giá trị trung bình nghiệm thức tương tác của yếu tố NVK ở mức p
< 0,05 chia làm năm nhóm là A, B , C, D và E, trong đó cho thấy năng suất lúa đạt cao nhất
là 7,4 tấn/ha và thấp nhất là 4,3 tấn/ha.
- Tương tác N*V*K có nghĩa (F = 5,36 với p = 0,0308), tương tác V*K rất có nghĩa
(F = 11,19 với p = 0,0031). Không có tương tác N*K (F = 3,24 với p = 0,086) và N*V (F =
0,26 với p = 0,6122). Không có ảnh hưởng của khối (F = 2,27 với p = 0,1099).
- Tương tác N*V*K với so sánh giá trị p các trung bình tương tác theo Dunnett cho
thấy tương tác N1V1K1 (có năng suất thấp nhất là 4,3 tấn/ha) ảnh hưởng như nhau với các
tương tác N1V1K2 (p = 0,8364), N1V2K1 (p = 0,6705) và N2V1K1 (p = 0,1428).
98
- Tương tác có ảnh hưởng năng suất cao và độc lập là N2V2K2 (giống V2 bón N và
K) với năng suất 7,4 tấn/ha (p < 0,001), N1V2K2 (giống V2 bón K) năng suất 7,4 tấn/ha (p <
0,001) và N2V2K1 (giống V2 bón N) năng suất 6,4 tấn/ha (p = 0,001).
- Tương tác V*K với so sánh giá trị p các trung bình theo Dunnett với V1K1 (giống
V1 không bón K) có năng suất thấp nhất là 4,75 kg/ha, ảnh hưởng giống như tương tác V1K2
(giống V1 không bón K) năng suất 5,25 tấn/ha (p = 0,1956). Tương tác có ảnh hưởng rõ nhất
và độc lập đến năng suất cao nhất (7,4 tấn/ha) là tương tác V2K2 (giống V2 bón K) với xác
suất p < 0,001 và V2K1 (V2 không bón K) năng suất 5,6 tấn/ha (p = 0,0148).
- Bón N và K tăng năng suất giống V2, khác biệt so với giống V1.
• Bảng kết quả của tám trung bình nghiệm thức của thí nghiệm ba yếu tố có thể được
trình bày theo biểu đồ (Clewer, 2001) và xếp hạng như sau:
8 a a
7 b
bc
Năng suất (tấn/ha)
6 cd
de de
5 e
K1
4
K2
3
2
1
0
N1 N2 N1 N2
Giống V1 Giống V2
Giống và lượng đạm
Biểu đồ 3.1. Năng suất hai giống lúa mì do ảnh hưởng của lượng đạm (N) và kali (K)
3.9. Thí nghiệm tiến hành ở hai thời vụ kiểu RCBD 2 yếu tố
Thí nghiệm bố trí hai thời vụ ghép cà phê là tháng 6 và tháng 7 (ký hiệu T6 và T7). Yếu tố
kiểu ghép có 2 nghiệm thức quấn ngọn và bao chụp (ký hiệu lần lượt là QN và BC) và yếu tố
giống có 4 giống cà phê (TR4 TR5 TR7 và TR8). KHOI (bố trí khối đầy đủ ngẫu nhiên), Y là
tỉ lệ xuất vườn.
DATA;
INPUT TGIAN $ KHOI $ KIEUGHEP $ GIONG $ Y TKGGIONG$15.;
CARDS;
T6 1 QN TR4 66 T6 QN TR4
T6 1 QN TR5 94 T6 QN TR5
T6 1 QN TR7 62 T6 QN TR7
T6 1 QN TR8 50 T6 QN TR8
T6 1 BC TR4 100 T6 BC TR4
T6 1 BC TR5 94 T6 BC TR5
T6 1 BC TR7 70 T6 BC TR7
T6 1 BC TR8 78 T6 BC TR8
T6 2 QN TR4 84 T6 QN TR4
T6 2 QN TR5 90 T6 QN TR5
99
T6 2 QN TR7 88 T6 QN TR7
T6 2 QN TR8 90 T6 QN TR8
T6 2 BC TR4 86 T6 BC TR4
T6 2 BC TR5 90 T6 BC TR5
T6 2 BC TR7 90 T6 BC TR7
T6 2 BC TR8 82 T6 BC TR8
T6 3 QN TR4 82 T6 QN TR4
T6 3 QN TR5 92 T6 QN TR5
T6 3 QN TR7 84 T6 QN TR7
T6 3 QN TR8 56 T6 QN TR8
T6 3 BC TR4 92 T6 BC TR4
T6 3 BC TR5 88 T6 BC TR5
T6 3 BC TR7 90 T6 BC TR7
T6 3 BC TR8 90 T6 BC TR8
T7 1 QN TR4 70 T7 QN TR4
T7 1 QN TR5 70 T7 QN TR5
T7 1 QN TR7 70 T7 QN TR7
T7 1 QN TR8 36 T7 QN TR8
T7 1 BC TR4 78 T7 BC TR4
T7 1 BC TR5 88 T7 BC TR5
T7 1 BC TR7 72 T7 BC TR7
T7 1 BC TR8 82 T7 BC TR8
T7 2 QN TR4 78 T7 QN TR4
T7 2 QN TR5 86 T7 QN TR5
T7 2 QN TR7 50 T7 QN TR7
T7 2 QN TR8 50 T7 QN TR8
T7 2 BC TR4 78 T7 BC TR4
T7 2 BC TR5 84 T7 BC TR5
T7 2 BC TR7 68 T7 BC TR7
T7 2 BC TR8 76 T7 BC TR8
T7 3 QN TR4 60 T7 QN TR4
T7 3 QN TR5 76 T7 QN TR5
T7 3 QN TR7 56 T7 QN TR7
T7 3 QN TR8 56 T7 QN TR8
T7 3 BC TR4 82 T7 BC TR4
T7 3 BC TR5 82 T7 BC TR5
T7 3 BC TR7 76 T7 BC TR7
T7 3 BC TR8 80 T7 BC TR8
;
PROC GLM;
CLASS TGIAN KHOI KIEUGHEP GIONG;
100
MODEL Y = KHOI TGIAN|KIEUGHEP|GIONG;
MEANS TGIAN /LSD ALPHA = 0.01;
MEANS KIEUGHEP /LSD ALPHA = 0.01;
MEANS GIONG /LSD ALPHA = 0.01;
MEANS KIEUGHEP*GIONG /LSD ALPHA = 0.05;
LSMEANS KIEUGHEP*GIONG / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘TI LE XUAT VUON CA PHE GHEP SAU 2 THANG’;
RUN;
PROC GLM;
CLASS KHOI TKGGIONG;
MODEL Y = KHOI TKGGIONG;
MEANS TKGGIONG / DUNCAN ALPHA=0.05;
RUN;
Kết quả xử lý:
TI LE XUAT VUON CA PHE GHEP SAU 2 THANG
TGIAN 2 T6 T7
KHOI 3 1 2 3
KIEUGHEP 2 BC QN
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
101
TGIAN*GIONG 3 49.666667 16.555556 0.20 0.8972
KIEUGHEP*GIONG 3 769.666667 256.555556 3.06 0.0432
TGIAN*KIEUGHEP*GIONG 3 152.333333 50.777778 0.61 0.6162
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 7.2664
A 82.833 24 T6
B 71.000 24 T7
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 7.2664
102
A 83.167 24 BC
B 70.667 24 QN
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 10.276
A 86.167 12 TR5
A
B A 79.667 12 TR4
B
B C 73.000 12 TR7
C
C 68.833 12 TR8
H0:LSMean=
Control
KIEUGHEP GIONG Y LSMEAN Pr > |t|
103
BC TR4 86.0000000
BC TR5 87.6666667 0.9997
BC TR7 77.6666667 0.4678
BC TR8 81.3333333 0.9116
QN TR4 73.3333333 0.1121
QN TR5 84.6666667 0.9999
QN TR7 68.3333333 0.0128
QN TR8 56.3333333 <.0001
KHOI 3 1 2 3
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
104
Alpha 0.05
Error Degrees of Freedom 30
Error Mean Square 83.78333
Number of Means 2 3 4 5 6 7 8 9
Critical Range 15.26 16.04 16.54 16.90 17.17 17.39 17.56 17.70
Number of Means 10 11 12 13 14 15 16
Critical Range 17.81 17.91 17.99 18.06 18.12 18.17 18.22
A 92.667 3 T6 BC TR4
A
A 92.000 3 T6 QN TR5
A
A 90.667 3 T6 BC TR5
A
B A 84.667 3 T7 BC TR5
B A
B A 83.333 3 T6 BC TR7
B A
B A 83.333 3 T6 BC TR8
B A
B A C 79.333 3 T7 BC TR4
B A C
B A C 79.333 3 T7 BC TR8
B A C
B A C 78.000 3 T6 QN TR7
B A C
B A C 77.333 3 T6 QN TR4
B A C
B A C 77.333 3 T7 QN TR5
B C
B D C 72.000 3 T7 BC TR7
B D C
B D C 69.333 3 T7 QN TR4
D C
D C 65.333 3 T6 QN TR8
D
E D 58.667 3 T7 QN TR7
E
E 47.333 3 T7 QN TR8
+ Tương tác của yếu tố thời gian*kiểu ghép*giống không có nghĩa với F =0,61 với p = 0,6162.
Do đó cần xét tương tác của thời gian*kiểu ghép, thời gian*giống và kiểu ghép*giống.
Chỉ có tương tác của kiểu ghép*giống có nghĩa ở mức p = 0,0432.
105
Căn cứ vào bảng tương tác so sánh Dunnett cho thấy:
Tương tác như nhau của kiểu ghép bao chụp với 4 giống cũng như kiểu ghép quấn ngọn với
giống TR4 và TR5. Tỉ lệ xuất vườn cao nhất là tổ hợp kiểu ghép bao chụp và giống TR5
(87,67%).
Bảng 3.9. Tương tác của kiểu ghép và giống cà phê đến tỉ lệ xuất vườn (%)
Kiểu ghép Giống Trung bình tỉ lệ xuất vườn Xác suất p
Vì không có tương tác của thời gian*kiểu ghép*giống, các kết quả xếp nhóm là để ghi số
vào bảng và không ghi xếp hạng a, b, c cho các cặp ba tương tác này. Ghi lại giá trị trung bình
có xếp nhóm theo ký tự cho yếu tố thời gian, kiểu ghép, giống và tương tác có nghĩa ở mức xác
suất theo bảng ANOVA. Bảng tổng hợp kết quả như sau:
Bảng 3.10. Tỷ lệ xuất vườn của giống cà phê (%) do ảnh hưởng bởi kiểu ghép và thời gian.
Giống cà phê
TR4 TR5 TR7 TR8
Trung bình thời
Quấn Bao Quấn Bao Quấn Bao Quấn Bao gian
ngọn chụp ngọn chụp ngọn chụp ngọn chụp
Tháng
77,33 92,67 77,33 90,67 78,00 83,33 65,33 83,33 82,83 A
6
Tháng
88 79,33 84,67 96,7 58,67 72,00 47,33 79,33 71,00 B
7
Trung
bình 79,67 AB 86,17 A 73,00 BC 68,83 C
giống
Trung Quấn ngọn
bình 70,67 B
kiểu Bao chụp
ghép 83,17 A
* Các trị số trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p<0,01 với yếu tố
thời gian, kiểu ghép và giống; tương tác yếu tố kiểu ghép*giống ở mức p<0,05; không có
tương tác của thời gian* kiểu ghép*giống. CV = 11,9%.
Tháng 6 ảnh hưởng tỉ lệ xuất vườn cao nhất với kiểu ghép bao chụp trên giống TR5 với tương
tác tổ hợp kiểu ghép bao chụp và giống TR5 cho tỉ lệ xuất vườn 87,67%.
106
3.10. Thí nghiệm lô phụ của lô phụ (Split Split Plot)
Thí nghiệm được bố trí khi thực hiện đồng nhất một kỹ thuật trên lô lớn, điển hình là các
nghiệm thức trong lô lớn A (main plot treatments) như khoảng cách trồng, lô phụ B (sub-plot
treatments) với các nghiệm thức như giống, và lô phụ của lô phụ C (sub-sub plot treatments)
như các lượng N (Kumar, 2008).
Bài tập với thí nghiệm được bố trí lô lớn A (whole plot factor) có 3 lượng đạm N, trong đó lô
phụ B là 2 lượng lân (intermediate size plot, subplot factor) và trong đó có lô phụ của lô phụ
nhỏ nhất C là 3 lượng K (sub-subplot factor). Tất cả cho 1 lần lặp lại (khối) có 3 x 2 x 3 = 18 ô.
Bố trí 3 ngẫu nhiên cho từng yếu tố từ lô A đến lô C, 4 lần lặp lại là 4 khối. Bố trí từ trái sang
phải theo sơ đồ cho khối 1 như sau:
KHỐI 1
Số liệu được ghi theo lệnh xử lý và bảng số. Ký hiệu là K: khối, các yếu tố A, B, C và năng
suất Y (kg/ô).
DATA;
input K A B C $ Y;
CARDS;
1 1 1 1 25.7
1 1 1 2 31.8
1 1 1 3 34.6
1 1 2 1 27.7
1 1 2 2 38
1 1 2 3 42.1
1 2 1 1 28.9
1 2 1 2 37.5
1 2 1 3 38.4
1 2 2 1 38
1 2 2 2 36.9
1 2 2 3 44.2
1 3 1 1 23.4
1 3 1 2 25.3
1 3 1 3 29.8
1 3 2 1 20.8
1 3 2 2 29
1 3 2 3 36.6
2 1 1 1 25.4
2 1 1 2 29.5
2 1 1 3 37.2
2 1 2 1 30.3
107
2 1 2 2 40.6
2 1 2 3 43.6
2 2 1 1 24.7
2 2 1 2 31.5
2 2 1 3 32.5
2 2 2 1 31
2 2 2 2 31.9
2 2 2 3 41.6
2 3 1 1 24.2
2 3 1 2 27.7
2 3 1 3 29.9
2 3 2 1 23
2 3 2 2 32
2 3 2 3 37.8
3 1 1 1 23.8
3 1 1 2 28.7
3 1 1 3 29.1
3 1 2 1 30.2
3 1 2 2 34.6
3 1 2 3 44.6
3 2 1 1 27.8
3 2 1 2 31
3 2 1 3 31.2
3 2 2 1 29.5
3 2 2 2 31.5
3 2 2 3 38.9
3 3 1 1 21.2
3 3 1 2 23.7
3 3 1 3 24.3
3 3 2 1 25.2
3 3 2 2 26.5
3 3 2 3 34.8
4 1 1 1 22
4 1 1 2 26.4
4 1 1 3 23.7
4 1 2 1 33.2
4 1 2 2 31
4 1 2 3 42.7
4 2 1 1 23.4
4 2 1 2 27.8
4 2 1 3 29.8
4 2 2 1 30.7
4 2 2 2 35.9
4 2 2 3 37.6
4 3 1 1 20.9
4 3 1 2 24.3
4 3 1 3 23.8
4 3 2 1 23.1
4 3 2 2 31.2
4 3 2 3 40.2
;
PROC GLM;
CLASS K A B C;
108
MODEL Y = K A K*A
B A*B K*A*B
C A*C B*C A*B*C;
TEST H=A E=K*A;
TEST H=B E=K*A*B;
TEST H=A*B E=K*A*B;
MEANS A B C A*B A*C A*B*C/LSD ALPHA=0.01;
LSMEANS A*B / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS B*C / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘SPLIT SPLIT PLOT’;
RUN;
Kết quả xử lý:
SPLIT SPLIT PLOT
K 4 1 2 3 4
A 3 1 2 3
B 2 1 2
C 3 1 2 3
Number of observations 72
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
109
A*B*C 4 44.0191667 11.0047917 2.35 0.0725
Tests of Hypotheses Using the Type III MS for K*A as an Error Term
Dependent Variable: Y
Tests of Hypotheses Using the Type III MS for K*A*B as an Error Term
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.6984
t Grouping Mean N A
A 33.0083 24 2
A
A 32.3542 24 1
B 27.4458 24 3
110
SPLIT SPLIT PLOT
The GLM Procedure
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.3867
t Grouping Mean N B
A 34.0694 36 2
B 27.8028 36 1
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.6984
t Grouping Mean N C
A 35.3750 24 3
B 31.0125 24 2
C 26.4208 24 1
1 1 12 28.1583333 4.60265898
1 2 12 36.5500000 6.06907212
2 1 12 30.3750000 4.45831705
2 2 12 35.6416667 4.72179826
3 1 12 24.8750000 2.90458102
111
3 2 12 30.0166667 6.42761561
1 1 8 27.2875000 3.75858541
1 2 8 32.5750000 4.83462216
1 3 8 37.2000000 7.60263112
2 1 8 29.2500000 4.45517356
2 2 8 33.0000000 3.39369163
2 3 8 36.7750000 5.13051097
3 1 8 22.7250000 1.61842075
3 2 8 27.4625000 3.08773495
3 3 8 32.1500000 6.15838569
1 1 1 4 24.2250000 1.70171482
1 1 2 4 29.1000000 2.22860195
1 1 3 4 31.1500000 6.00583050
1 2 1 4 30.3500000 2.24870333
1 2 2 4 36.0500000 4.16773320
1 2 3 4 43.2500000 1.09087121
2 1 1 4 26.2000000 2.57811301
2 1 2 4 31.9500000 4.04680944
2 1 3 4 32.9750000 3.78098312
2 2 1 4 32.3000000 3.85486705
2 2 2 4 34.0500000 2.74893919
2 2 3 4 40.5750000 2.93527398
3 1 1 4 22.4250000 1.62557682
3 1 2 4 25.2500000 1.76162803
3 1 3 4 26.9500000 3.35509563
3 2 1 4 23.0250000 1.79698822
3 2 2 4 29.6750000 2.46762369
3 2 3 4 37.3500000 2.26495033
H0:LSMean=
Control
A B Y LSMEAN Pr > |t|
1 1 28.1583333
1 2 36.5500000 <.0001
2 1 30.3750000 0.0659
2 2 35.6416667 <.0001
3 1 24.8750000 0.0031
3 2 30.0166667 0.1543
112
B C Y LSMEAN Pr > |t|
1 1 24.2833333
1 2 28.7666667 <.0001
1 3 30.3583333 <.0001
2 1 28.5583333 0.0001
2 2 33.2583333 <.0001
2 3 40.3916667 <.0001
Bảng 3.11. Năng suất lúa mì (tấn/ha) ảnh hưởng bởi lượng N (A), P (B) và K (C).
B1 B2 Trung bình A
C1 C2 C3 C1 C2 C3
A1 24,21 29,10 31,15 30,35 36,05 43,25 32,35 A
A2 26,20 31,95 32,98 32,30 34,05 40,58 33,01 A
A3 22,43 25,25 26,95 23,03 29,68 37,35 27,45 B
Trung bình B 27,80 B 34,07 A
Trung bình C C1 26,42 C
C2 31,01 B
C3 35,37 A
Ghi chú: các trị số có cùng ký tự không khác biệt có nghĩa ở mức xác suất với yếu tố A, B, C là
p < 0,01. Tương tác A*B ở mức p < 0,05, tương tác B*C ở mức p< 0,01; CV = 6,99%.
Lượng đạm A2 làm tăng năng suất và lượng A3 giảm năng suất, lượng lân B2 và Kali C3 tăng
năng suất. Tương tác của đạm A2 và lân B2 cho năng suất cao là 35,64 kg/ô, tương tác của lân
B2 và kali C3 cho năng suất cao là 40,39 kg/ô.
Thí nghiệm khảo sát năng suất lúa đại mạch do ảnh hưởng của lượng phân bón, lượng calcium
và loại đất cần thực hiện trên lô lớn và liên tục, bốn lần lặp lại.
113
Trong khối 1 (lặp lại 1), bốn lượng phân bón bố trí lô sọc đứng (vertical strip), trong đó hai
lượng calcium (vôi) bố trí ngẫu nhiên lô phụ trong một lô lượng phân bón. Loại đất bố trí lô
sọc ngang qua các lô phụ (SAS, 2004).
Các yếu tố gồm: phân bón (fertilizer) bốn mức (F1, F2, F3, F4), calcium hai mức (C1, C2), loại
đất (soil) 3 loại (S1, S2, S3), bốn khối (lần lặp lại: rep 1, 2, 3, 4) và năng suất lúa mạch (yield).
Sơ đồ thí nghiệm bố trí như sau cho 1 khối (Barnard, 1994).
proc anova;
class Rep Soil Calcium Fertilizer;
model Yield =
Rep
Fertilizer Fertilizer*Rep
Calcium Calcium*Fertilizer Calcium*Rep(Fertilizer)
Soil Soil*Rep
Soil*Fertilizer Soil*Rep*Fertilizer
Soil*Calcium Soil*Fertilizer*Calcium
Soil*Calcium*Rep(Fertilizer);
test h=Fertilizer e=Fertilizer*Rep;
test h=Calcium Calcium*Fertilizer e=Calcium*Rep(Fertilizer);
114
test h=Soil e=Soil*Rep;
test h=Soil*Fertilizer e=Soil*Rep*Fertilizer;
test h=Soil*Calcium
Soil*Fertilizer*Calcium e=Soil*Calcium*Rep(Fertilizer);
means Fertilizer Calcium Soil Calcium*Fertilizer;
run;
Kết quả xử lý:
Strip-split Plot
Rep 4 1 2 3 4
Soil 3 1 2 3
Calcium 2 0 1
Fertilizer 4 0 1 2 3
TEST OF EFFECTS
EFFECTS
Strip-split Plot
115
Tests of Hypotheses Using the Anova MS for Rep*Soil*Fertilizer as an Error Term
Source DF Anova SS Mean Square F Value Pr > F
Strip-split Plot
The ANOVA Procedure
Level of ------------Yield------------
Fertilizer N Mean Std Dev
0 24 5.18416667 0.48266395
1 24 5.12916667 0.38337082
2 24 5.75458333 0.53293265
3 24 5.64125000 0.63926801
Level of ------------Yield------------
Calcium N Mean Std Dev
0 48 5.48104167 0.54186141
1 48 5.37354167 0.61565219
Level of ------------Yield------------
Soil N Mean Std Dev
1 32 5.54312500 0.55806369
2 32 5.51093750 0.62176315
3 32 5.22781250 0.51825224
Giải thích:
Thí nghiệm cho thấy bảng ANOVA phần trên không có nghĩa, không cần sử dụng. Sử dụng từ
bảng TEST OF EFFECTS.
EFFECTS.
Không có tương tác giữa loại đất, lượng vôi và lượng phân bón (p = 0,9059).
Hiệu quả tương tác chỉ có của tương tác lượng vôi và lượng phân bón (Calcium*Fertilizer) ở
mức xác suất p = 0, 0255.
Bố trí thí nghiệm kiểu hoàn toàn ngẫu nhiên (CRD), khối đầy đủ hoàn toàn ngẫu nhiên
(RCBD) có thể thực hiện với bốn yếu tố hay nhiều hơn, tuy nhiên cần qui mô lớn và giải thích
tương tác theo qui tắc chung như ba yếu tố, nhưng tốn kém hơn.
116
3.12. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng
Đây là phần liệt kê một số cách xử lý tính phương sai thường dùng, với ký tự và chữ để dễ sử
dụng. Tuy nhiên SAS có thể dùng tên dài hơn và tùy thí nghiệm có thể thay đổi rất linh động
các chữ này, ngay cả tên các nghiệm thức được nhập vào trong hàng, có thể sửa đổi tùy ý.
Ghi chú ký tự và chữ cho dễ lập trình, không cứng nhắc vì SAS hiểu và xử lý được các từ.
- Phân tích phương sai có thể áp dụng cách xử lý như PROC ANOVA, nhưng khi muốn
so sánh các lô thiếu hoặc so sánh tương tác các yếu tố, thường sử dụng PROC GLM,
hoặc PROC MIXED. Các lệnh đầy đủ để nhập biến, nhập số liệu, xử lý ANOVA, xếp
hạng các trung bình của kiểu RCBD và tính tương tác như sau (bảng số liệu được rút
gọn):
RCBD một yếu tố, so sánh các trung bình RCBD lô phụ, so sánh tương tác các trung bình
data; Data;
input K $ T $ Y; Input K $ D $ V $ DV $ Y;
cards; cards;
1 A 9 1 1 1 D1V1 6789
2 B 14.6 1 1 2 D1V2 6578
3 C 18.3 1 1 3 D1V3 6589
... 1 1 4 D1V4 6534
; ...
proc anova; ;
class K T; proc glm;
model Y = K T; class K D V;
means T /duncan alpha=0.01; model Y = K D K*V V D*V;
title 'Thi nghiem 1 yeu to test h=D e=K*V;
RCDDIEM2'; means D V D*V/lsd alpha=0.05;
run; lsmeans D*V/pdiff=control
adjust=dunnett;
title‘SPLIT PLOT P 52 statistix’;
run;
proc glm;
class K DV;
model Y = K DV;
means DV/Duncan alpha=0.05;
run;
117
• Ghi chú:
- Phần lệnh nhập số liệu phải có trước khi nhập số liệu như:
data;
input K $ T $ Y;
cards;
- Chuyển số liệu từ file excel vào.
- Tùy theo kết quả của bảng phân tích ANOVA, các cách xếp nhóm means với LSD,
Duncan, alpha = 0,05 hay 0,01 và so sánh tương tác như lsmeans D*V/pdiff=control
adjust=dunnett; được bổ sung vào phần lệnh xử lý, trước hàng run;
Các cách xử lý ANOVA (phỏng theo Schabenberger, 2000) như sau :
3.12.1. Kiểu hoàn toàn ngẫu nhiên: Completely Randomized Design (CRD)
3.12. 2. Khối đầy đủ hoàn toàn ngẫu nhiên: Randomized Complete Block Designs
(RCBD) với ảnh hưởng khối cố định
118
GLM MIXED
proc glm; proc mixed;
class K T; class K T;
model Y = K T; model Y = K T;
means T; means T;
run; run;
GLM MIXED
proc mixed;
proc glm;
class K T;
class K T;
model Y = K T;
model Y = K T;
lsmeans T / pdiff stderr;
lsmeans T / pdiff stderr;
random K;
run;
run;
Ghi chú: stderr (standard error), sai số chuẩn; pdiff: khác biệt xác suất p.
• Các thí nghiệm bố trí ở nhiều địa điểm (Tree Fruit Research and Extension Center,
2000)
proc glm;
class ddiem K T;
model Y = ddiem ddiem(K) T T*ddiem ;
test h = ddiem e = ddiem(K);
means T; run;
proc glm;
119
class Hang Cot T;
model Y = Hang Cot T;
means T;
run;
GLM MIXED
proc mixed;
proc glm;
class K A B;
class K A B;
model Y = K A K*A B A*B/
model Y = K A K*A B A*B;
ddfm=satterth;
test h=A e=K*A;
random K*A;
means A B A*B;
means A B A*B;
run;
run;
Ghi chú: MODEL của MIXED tính độ tự do (degrees of freedom) theo phương pháp
Satterthwaite.
• Kiểu khối đầy đủ ngẫu nhiên RCBD ba yếu tố có tương tác các yếu tố
proc glm;
class K A B C;
model Y = K A B C A*B A*C B*C A*B*C;
means A B C A*B A*C A*B*C;
run;
hoặc sử dụng thanh đứng A | B | C; = A B C A*B A*C A*B*C;
proc glm;
class K A B C;
model Y = K A | B | C;
means A | B | C;
run;
• Kiểu khối đầy đủ ngẫu nhiên RCBD 3 yếu tố bố trí lô phụ (three way factorial
one split,không phải split plit plot), lô chính A*B, lô phụ C.
proc glm;
class K A B C;
120
model Y = K A B A*B K*A*B C A*C B*C A*B*C;
test h= a e= K*A*B;
test h= b e= Ki*A*B;
test h=a*b e= K*A*B;
means A B C A*B A*C B*C A*B*C;
run;
• Kiểu khối đầy đủ ngẫu nhiên RCBD ba yếu tố bố trí lô phụ (three way
factorial one split,không phải split plit plot),lô chính A, lô phụ
B*C.
proc glm;
class K A B C;
model y = K A K*A B A*B C A*C B*C A*B*C;
test h=A e=K*A;
means A B C A*B A*C B*C A*B*C;
run;
GLM MIXED
proc glm;
proc mixed;
class K A B C;
class K A B C;
model y = K A K*A
model y = K A
B A*B K*A*B
B A*B
C A*C B*C
C A*C B*C A*B*C ;
A*B*C;
random K*A K*A*B;
test h=A e=K*A;
means A B C A*B A*C A*B*C;
test h=B e=K*A*B;
run;
test h=A*B e=K*A*B;
means A B C A*B A*C A*B*C;
run;
(ghi chú: soil: loại đất, fert: phân bón, ca: calcium: vôi)
proc anova;
class rep soil fert ca;
model y = rep fert fert*rep ca ca*fert rep*fert*ca soil rep*soil fert*soil rep*fert*soil
soil*ca soil*fert*ca;
test h=fert e=rep*fert; test h=ca fert*ca e=rep*fert*ca; test h=soil e=rep*soil;
test h=fert*soil e=rep*fert*soil;
means fert ca soil ca*fert;
run;
121
Chương 4
Đây là kiểu bố trí áp dụng cho số lượng nghiệm thức nhiều và không thể bố trí theo khối đầy
đủ ngẫu nhiên RCBD. Thí dụ trong nhà lưới chiều rộng luống hạn chế để bố trí chậu thành
khối. Ngoài đồng ruộng không đủ đất đồng đều hay đất hẹp để bố trí nghiệm thức. Kiểu lattice
tính phương sai và hiệp phương sai đơn giản.
Có 3 dạng chính là: mạng lưới ô vuông cân đối (balanced square lattices), mạng lưới ô
vuông cân đối một phần (partially balanced square lattices) và mạng lưới chữ nhật (rectangular
lattices). Bảng xếp hạng nghiệm thức được trình bày và so sánh với kiểu RCBD. Phương thức
xử lý là Proc lacttice. Cách bố trí chỉ có nghiệm thức lặp lại 1 lần cạnh nhau, do đó tăng độ
chính xác. Kết quả trung bình được điều chỉnh để so sánh giá trị cao nhất. Cách bố trí thí
nghiệm theo qui định phức tạp, với dạng bố trí khối không đầy đủ cân đối (Balanced
Incomplete Block, BIB), thường phải theo đúng mẫu, độ chính xác không bằng nhau khi so
sánh các trung bình.
Thí nghiệm có: t nghiệm thức, b khối, k đơn vị thí nghiệm hay ô trong khối (k < t) để mỗi
nghiệm thức t xuất hiện 1 lần trong r các khối và mỗi cặp nghiệm thức xuất hiện với nhau
trong λ khối. Công thức được áp dụng là t x r = b x k và λ(t-1) = r(k -1) theo Clewer (2001).
4.2. Thí nghiệm mạng lưới ô vuông cân đối (balanced square lattices)
Thí nghiệm với số nghiệm thức bằng bình phương số khối: t = k2, hay là số khối bằng căn bậc
hai của số nghiệm thức: k = √t. Nếu t = 9, thì k = 3. Nếu k = 3 thì t = 9.
Số lần lặp lại là r = k +1 = 4. Mỗi lần lặp lại có k khối, mỗi khối chứa k nghiệm thức.
Số khối b = k x r = 12 = λ (k + 1). Do đó t x r = b x k = 36 = tổng số số mẫu quan sát. Khi đó
mỗi cặp nghiệm thức xuất hiện 1 lần trong khối với λ = [r(k -1)]/ (t-1) = [4(3 -1)]/ (9-1) = 1.
Bài tập khảo sát ảnh hưởng của chín khẩu phần thức ăn đến tốc độ tăng trọng heo (SAS,
2004). Lưu ý nhập số liệu xem các nghiệm thức bố trí như sơ đồ trên.
Các biến phải được ghi theo tên là Group, Block, Treatmnt, và Rep.
122
Thí nghiệm này có 9 Treatmnt (nghiệm thức) là 9 khẩu phần. Block (khối) 1, 2, 3 chỉ ngăn
chuồng chứa 2 con heo. Group (nhóm) 1 đến 4 chỉ lần lặp lại trên cơ sở đơn vị thí nghiệm. Thí
nghiệm này không có Rep (không có lặp lại). Biến đáp ứng là Trgluong (trọng lượng).
title 'Khao sat muc tang trong cua heo';
data Heo;
input Group Block Treatmnt Trgluong @@;
datalines;
1 1 1 2.20 1 1 2 1.84 1 1 3 2.18
1 2 4 2.05 1 2 5 0.85 1 2 6 1.86
1 3 7 0.73 1 3 8 1.60 1 3 9 1.76
2 1 1 1.19 2 1 4 1.20 2 1 7 1.15
2 2 2 2.26 2 2 5 1.07 2 2 8 1.45
2 3 3 2.12 2 3 6 2.03 2 3 9 1.63
3 1 1 1.81 3 1 5 1.16 3 1 9 1.11
3 2 2 1.76 3 2 6 2.16 3 2 7 1.80
3 3 3 1.71 3 3 4 1.57 3 3 8 1.13
4 1 1 1.77 4 1 6 1.57 4 1 8 1.43
4 2 2 1.50 4 2 4 1.60 4 2 9 1.42
4 3 3 2.04 4 3 5 0.93 4 3 7 1.78
;
proc lattice data=Heo;
var Trgluong;
run;
Kết quả xử lý:
Khao sat muc tang trong cua heo
The Lattice Procedure
Analysis of Variance for Trgluong
Sum of Mean
Source DF Squares Square
Adjusted Treatment
Means for Trgluong
Treatment Mean
1 1.8035
2 1.7544
3 1.9643
4 1.7267
5 0.9393
6 1.8448
7 1.3870
8 1.4347
9 1.5004
123
Giải thích: khẩu phần 3 cho tốc độ tăng trọng cao nhất là 1,9643 pounds cho 2 con heo (trung
bình 0,9822 cho 1 con), hiệu quả của thí nghiệm so với kiểu bố trí khối đầy đủ hoàn toàn ngẫu
nhiên (RCBD) là 120,55%, do đó sử dụng bố trí lattice tăng độ chính xác và ước lượng hiệu
quả của nghiệm thức.
Chú ý giá trị điều chỉnh nhỏ hơn giá trị thực khẩu phần 3 là 2,0125 khẩu phần 5 là 1,0025.
4.3. Thí nghiệm mạng lưới ô vuông cân đối một phần (partially balanced square lattices)
Bố trí thí nghiệm có số lần lặp lại thay đổi hơn, r có thể là 2, 3 hay 4. Thí nghiệm cho thấy so
sánh cùng khối có độ chính xác cao, nhưng khác khối ít chính xác với các nghiệm thức.
Thí nghiệm khảo sát năng suất (bushels/ acre) của 25 giống đậu nành(Treatmnt). Thí nghiệm
có hai lần lặp lại (Group) và năm khối (Block), mỗi khối có năm giống (SAS, 2004).
1 1 1 6
2 1 1 7
3 1 1 5
4 1 1 8
5 1 1 6
6 1 2 16
7 1 2 12
124
8 1 2 12
9 1 2 13
10 1 2 8
11 1 3 17
12 1 3 7
13 1 3 7
14 1 3 9
15 1 3 14
16 1 4 18
17 1 4 16
18 1 4 13
19 1 4 13
20 1 4 14
21 1 5 14
22 1 5 15
23 1 5 11
24 1 5 14
25 1 5 14
1 2 1 24
6 2 1 13
11 2 1 24
16 2 1 11
21 2 1 8
2 2 2 21
7 2 2 11
12 2 2 14
17 2 2 11
22 2 2 23
3 2 3 16
8 2 3 4
13 2 3 12
18 2 3 12
23 2 3 12
4 2 4 17
9 2 4 10
14 2 4 30
19 2 4 9
24 2 4 23
5 2 5 15
10 2 5 15
15 2 5 22
20 2 5 16
25 2 5 19
Sum of Mean
Source DF Squares Square
125
Additional Statistics for Nangsuat
Adjusted Treatment
Means for Nangsuat
Treatment Mean
1 19.0681
2 16.9728
3 14.6463
4 14.7687
5 12.8470
6 13.1701
7 9.0748
8 6.7483
9 8.3707
10 8.4489
11 23.5511
12 12.4558
13 12.6293
14 20.7517
15 19.3299
16 12.6224
17 10.5272
18 10.7007
19 7.3231
20 11.4013
21 11.6259
22 18.5306
23 12.2041
24 17.3265
25 15.4048
Giải thích: năng suất đậu nành cao nhất là giống số 11 (23,5511 bushels/acre), giống thấp
nhất là giống số 8 (6,783 bushels/acre). Hiệu quả của thí nghiệm này so với kiểu RCBD là
174,34% tăng độ chính xác ước lượng ảnh hưởng của nghiệm thức.
Bài tập thí nghiệm khảo sát năng suất (bushels/acre) hai kiểu bố trí, kiểu một cho 12 giống,
kiểu hai cho 20 giống (SAS, 2004)
Title ‘Nang suat kieu lattice chu nhat’;
Data rect;
input group block treatmnt Nangsuat design;
cards;
1 1 1 .89 1
1 1 2 .55 1
1 1 3 .65 1
1 2 4 .96 1
1 2 5 .75 1
1 2 6 .96 1
1 3 7 .35 1
126
1 3 8 .12 1
1 3 9 .15 1
1 4 10 .93 1
1 4 11 .14 1
1 4 12 .15 1
2 1 4 .23 1
2 1 7 .65 1
2 1 10 .98 1
2 2 1 .63 1
2 2 8 .98 1
2 2 11 .12 1
2 3 2 .65 1
2 3 5 .65 1
2 3 12 .35 1
2 4 3 .49 1
2 4 6 .98 1
2 4 9 .78 1
3 1 6 .95 1
3 1 8 .29 1
3 1 12 .85 1
3 2 2 .25 1
3 2 9 .14 1
3 2 10 .76 1
3 3 3 .35 1
3 3 4 .97 1
3 3 11 .15 1
3 4 1 .35 1
3 4 5 .15 1
3 4 7 .48 1
1 1 1 16 2
1 1 2 9 2
1 1 3 4 2
1 1 4 0 2
1 2 5 3 2
1 2 6 11 2
1 2 7 16 2
1 2 8 23 2
1 3 9 15 2
1 3 10 7 2
1 3 11 11 2
1 3 12 12 2
1 4 13 8 2
1 4 14 13 2
1 4 15 0 2
1 4 16 5 2
1 5 17 14 2
1 5 18 9 2
1 5 19 8 2
1 5 20 7 2
2 1 5 5 2
2 1 9 14 2
2 1 13 6 2
2 1 17 17 2
2 2 1 19 2
2 2 10 8 2
2 2 14 10 2
2 2 18 6 2
2 3 2 9 2
2 3 6 11 2
2 3 15 20 2
2 3 19 17 2
127
2 4 3 15 2
2 4 7 20 2
2 4 11 10 2
2 4 20 15 2
2 5 4 16 2
2 5 8 9 2
2 5 12 3 2
2 5 16 7 2
;
Proc lattice data=rect;
by design;
var Nangsuat;
run;
Adjusted Treatment
Means for Nangsuat
Treatment Mean
1 0.5873
2 0.4757
3 0.3712
4 0.6846
5 0.5101
6 0.8363
7 0.6756
8 0.4651
9 0.4505
10 1.0204
11 0.08906
12 0.4276
Nang suat kieu lattice chu nhat
128
-------------------------------------------- design=2 --------------------------------------------
Sum of Mean
Source DF Squares Square
Treatment Means
for Nangsuat
Treatment Mean
1 17.5000
2 9.0000
3 9.5000
4 8.0000
5 4.0000
6 11.0000
7 18.0000
8 16.0000
9 14.5000
10 7.5000
11 10.5000
12 7.5000
13 7.0000
14 11.5000
15 10.0000
16 6.0000
17 15.5000
18 7.5000
19 12.5000
20 11.0000
Giải thích:
- Kiểu một cho 12 giống: năng suất cao nhất là giống số 10 (1,0204 bushels/acre), giống
thấp nhất là giống số 3 (0,3712). Hiệu quả của thí nghiệm này so với kiểu RCBD là
132,89% , tăng độ chính xác ước lượng ảnh hưởng của nghiệm thức.
- Kiểu hai cho 20 giống: năng suất cao nhất là giống số 7 (18 bushels/acre), giống thấp nhất
là giống số 6 (11 bushels/acre). Hiệu quả của thí nghiệm này so với kiểu RCBD là
100,69%.
129
Chương 5
Phân tích tương tác và tổng hợp sử dụng phương pháp mô hình tuyến tính tổng quát (General
Linear Model, GLM) và phân tích tổng hợp (Mixed Linear Model, MLM). Các trung bình
bình phương nhỏ nhất (Least Square Means) được so sánh theo từng cách thức khác nhau như
tương tác A*B, A*B*C hoặc yếu tố A hoặc B trong tương tác A*B.
Các nghiệm thức trong thí nghiệm có ảnh hưởng với nhau làm cho hiệu quả sử dụng có thể cao
hơn hoặc thấp hơn. Trong trường hợp sử dụng các loại thuốc, biểu hiện tương tác rõ đối với đối
tượng được sử dụng. Giá trị trung bình bình phương nhỏ nhất (LS-Means) được dùng để so
sánh tương tác thuốc và tương tác của thuốc*bệnh với lệnh xử lý proc GLM (General Linear
Model).
Tương tác loại thuốc theo bài tập xử lý ANOVA hai chiều không cân đối có tương tác. Lưu ý
dấu “.” trong các ô nhỏ là các ô thiếu giá trị số liệu, Unbalanced ANOVA for Two-Way
Design with Interaction (SAS, 2004).
title 'Phan tich phuong sai 2 chieu khong can doi';
data;
input Thuoc Benh @;
do i=1 to 6;
input y @;
output;
end;
datalines;
1 1 42 44 36 13 19 22
1 2 33 . 26 . 33 21
1 3 31 -3 . 25 25 24
2 1 28 . 23 34 42 13
2 2 . 34 33 31 . 36
2 3 3 26 28 32 4 16
3 1 . . 1 29 . 19
3 2 . 11 9 7 1 -6
3 3 21 1 . 9 3 .
4 1 24 . 9 22 -2 15
4 2 27 12 12 -5 16 15
4 3 22 7 25 5 12 .
;
proc glm;
class Thuoc Benh;
model y=Thuoc Benh Thuoc*Benh/ ss1 ss2 ss3 ss4;
run;
lsmeans Thuoc / pdiff=all adjust=tukey;
run;
130
Kết quả xử lý:
The GLM Procedure
Class Level Information
Class Levels Values
Thuoc 4 1 2 3 4
Benh 3 1 2 3
Number of observations 72
NOTE: Due to missing values, only 58 observations can be used in this analysis.
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
LSMEAN
Thuoc y LSMEAN Number
1 25.9944444 1
2 26.5555556 2
3 9.7444444 3
4 13.5444444 4
Dependent Variable: y
i/j 1 2 3 4
Giải thích: kết quả phân tích cho thấy có khác biệt có nghĩa giữa bốn loại thuốc, trong khi ảnh
hưởng của bệnh và tương tác của thuốc và bệnh không có nghĩa. Kiểu tổng bình phương loại
III (Type III sums of squares) tương ứng với khác biệt của các trung bình bình phương nhỏ
nhất (LS-means), vì vậy sử dụng loại III để trắc nghiệm các trung bình bình phương nhỏ nhất.
Vì xử lý với GLM dùng cho tương tác, sử dụng lệnh xử lý đặt sau xử lý GLM để có bảng
ANOVA.
Tất cả các trung bình bình phương nhỏ nhất và ma trận của giá trị p điều chỉnh (adjusted p-
values) dùng để tính khác biệt từng cặp với nhau được thể hiện trong bảng.
Giải thích: phân tích so sánh nhiều biến cho thấy thuốc 1 và 2 có ảnh hưởng tương tác như
nhau đến bệnh (p = 0,9899). Thuốc 3 và 4 có ảnh hưởng cũng giống nhau, với xác suất p =
0,0016 và p = 0,0107 hay là không có ảnh hưởng tương tác đến bệnh. Kết quả cho thấy ảnh
hưởng khác biệt của 2 nhóm thuốc 1 và 2 với nhóm thuốc 3 và 4. Ảnh hưởng trong nhóm thuốc
tương tác của thuốc 1 và 2 trong đó cao nhất là thuốc 2.
Phân tích hai phương sai của thí nghiệm trước và sau gọi là hiệp phương sai, là kết hợp cả hồi
qui và phân tích phương sai. Đặc điểm của hiệp biến (covariate) được đưa vào mô hình thí
nghiệm phân tích phương sai. Thí nghiệm khảo sát sử dụng thuốc trước xử lý và sau xử lý theo
132
bài tập của Snedecor và Cochran (1967), Statistical Methods, tr. 422 (SAS, 2004) dùng 3 loại
thuốc là A và D so với đối chứng là F để trị bệnh phong.
Ghi chú: thuốc (Thuoc), trước xử lý (TruocXuly: thời điểm trước xử lý vi khuẩn), sau xử lý
(SauXly: thời điểm sau xử lý vi khuẩn). Có 10 bệnh nhân cho dùng 1 loại thuốc.
Thuoc 3 A D F
Number of observations 30
133
Thuoc 2 293.6000000 146.8000000 9.15 0.0010
TruocXly 1 577.8974030 577.8974030 36.01 <.0001
Standard
Parameter Estimate Error t Value Pr > |t|
NOTE: The X'X matrix has been found to be singular, and a generalized inverse was used to solve
the normal equations. Terms whose estimates are followed by the letter 'B' are not
uniquely estimable.
The SAS System
i/j 1 2 3
1 0.9521 0.0793
2 0.9521 0.0835
3 0.0793 0.0835
NOTE: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
The SAS System
Giải thích: mô hình giả định các độ dốc liên quan đến số điểm sau xử lý với số điểm trước xử
lý là song song với tất cả các loại thuốc (hay là không tương tác).
Bảng phương sai tổng bình phương loại I (Type I SS) cho giá trị tổng bình phương của thuốc là
293,6 biểu thị sự đo lường trung bình số học của số điểm sau xử lý, không quan tâm đến hiệp
biến (covariate).
134
Bảng phương sai tổng bình phương loại III (Type III SS) cho giá trị tổng bình phương của
thuốc là 68,55 biểu thị tổng bình phương của thuốc điều chỉnh cho hiệp biến. Giá trị này để
tính được sự khác biệt các trung bình bình phương nhỏ nhất của thuốc, kiểm soát hiệp biến.
Trắc nghiệm F loại I SS rất có nghĩa cho biến số Thuốc, nhưng trắc nghiệm F loại III SS không
có nghĩa. Kết quả cho thấy có khác biệt thống kê số học các trung bình của thuốc rất có nghĩa
trước xử lý, nhưng giảm xuống không có nghĩa sau xử lý.
Bảng ước lượng của phương trình hồi qui cho thấy 3 phương trình hồi qui như sau:
Sau xử lý = -0,435 + (- 3,446) + 0,978 * Trước xử lý cho thuốc A
Sau xử lý = -0,435 + (- 3,337) + 0,987 * Trước xử lý cho thuốc B
Sau xử lý = -0,435 + 0,987 * Trước xử lý cho thuốc F
*(Tuy nhiên lưu ý phương trình có nghĩa khi các trị số của thuốc có mức xác suất p < 0,05).
Bảng các trung bình bình phương nhỏ nhất tương tác của thuốc (Least Squares Means for
effect Thuoc) cho thấy giá trị xác suất để cho giả thiết null là các trung bình này có ảnh hưởng
như nhau:
[Pr > |t| for H0: LSMean(i)=LSMean(j)] được xác định đều trên 0,05; chứng tỏ các loại thuốc
có ảnh hưỏng như nhau.
5.3. Phân tích đa biến phương sai (MANOVA, Multivariate Analysis of Variance)
Phương pháp phân tích các biến số hay chỉ tiêu ở nhiều địa điểm thu thập mẫu.
Bài tập khảo sát đặc điểm hóa học của các bình cổ ở các lò nung tại Anh (số liệu của Tubb và
ctv., 1980; theo SAS, 2004). Tổng cộng có 26 bình cổ, khảo sát tỉ lệ % của năm nguyên tố là
Al Fe Mg Ca Na. Để hiểu sự khác nhau của bình cổ Llanederyn từ xứ Wales, sử dụng so sánh
đối chiếu (contract) để thử nghiệm giả thiết.
Ghi chú ký hiệu: BinhCo = bình cổ; Binh Co tai Anh = Bình Cổ tại Anh; Ddiem = địa
điểm.
data BinhCo;
title1 "Binh Co tai Anh";
input Ddiem $12. Al Fe Mg Ca Na;
datalines;
Llanederyn 14.4 7.00 4.30 0.15 0.51
Llanederyn 13.8 7.08 3.43 0.12 0.17
Llanederyn 14.6 7.09 3.88 0.13 0.20
Llanederyn 11.5 6.37 5.64 0.16 0.14
Llanederyn 13.8 7.06 5.34 0.20 0.20
Llanederyn 10.9 6.26 3.47 0.17 0.22
Llanederyn 10.1 4.26 4.26 0.20 0.18
Llanederyn 11.6 5.78 5.91 0.18 0.16
Llanederyn 11.1 5.49 4.52 0.29 0.30
Llanederyn 13.4 6.92 7.23 0.28 0.20
Llanederyn 12.4 6.13 5.69 0.22 0.54
Llanederyn 13.1 6.64 5.51 0.31 0.24
Llanederyn 12.7 6.69 4.45 0.20 0.22
Llanederyn 12.5 6.44 3.94 0.22 0.23
Caldicot 11.8 5.44 3.94 0.30 0.04
Caldicot 11.6 5.39 3.77 0.29 0.06
IslandThorns 18.3 1.28 0.67 0.03 0.03
IslandThorns 15.8 2.39 0.63 0.01 0.04
135
IslandThorns 18.0 1.50 0.67 0.01 0.06
IslandThorns 18.0 1.88 0.68 0.01 0.04
IslandThorns 20.8 1.51 0.72 0.07 0.10
AshleyRails 17.7 1.12 0.56 0.06 0.06
AshleyRails 18.3 1.14 0.67 0.06 0.05
AshleyRails 16.7 0.92 0.53 0.01 0.05
AshleyRails 14.8 2.74 0.67 0.03 0.05
AshleyRails 19.1 1.64 0.60 0.10 0.03
;
proc glm data=BinhCo;
class Ddiem;
model Al Fe Mg Ca Na = Ddiem;
contrast 'Llanederyn vs. the rest' Ddiem 1 1 1 -3;
manova h=_all_ / printe printh;
run;
Kết quả xử lý:
Binh Co tai Anh
Number of observations 26
Dependent Variable: Al
Sum of
Source DF Squares Mean Square F Value Pr > F
136
Llanederyn vs. the rest 1 58.58336640 58.58336640 26.69 <.0001
Dependent Variable: Fe
Sum of
Source DF Squares Mean Square F Value Pr > F
Dependent Variable: Mg
Sum of
Source DF Squares Mean Square F Value Pr > F
137
Source DF Type III SS Mean Square F Value Pr > F
Dependent Variable: Ca
Sum of
Source DF Squares Mean Square F Value Pr > F
Dependent Variable: Na
Sum of
Source DF Squares Mean Square F Value Pr > F
138
0.564424 60.06350 0.095178 0.158462
Al Fe Mg Ca Na
Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|
DF = 22 Al Fe Mg Ca Na
139
Al Fe Mg Ca Na
MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall Ddiem Effect
H = Type III SSCP Matrix for Ddiem
E = Error SSCP Matrix
Al Fe Mg Ca Na
140
16.1251646 100.00 -0.08883488 0.25458141 0.08723574 0.98158668 0.71925759
0.0000000 0.00 -0.00503538 0.03825743 -0.17632854 5.16256699 -0.01022754
0.0000000 0.00 0.00162771 -0.08885364 -0.01774069 -0.83096817 2.17644566
0.0000000 0.00 0.04450136 -0.15722494 0.22156791 0.00000000 0.00000000
0.0000000 0.00 0.11939206 0.10833549 0.00000000 0.00000000 0.00000000
Giải thích: kết quả cho thấy hiệp biến (covariate) cho các biến phụ thuộc khác biệt có nghĩa
cho tất cả các kim loại.
Để trắc nghiệm quan hệ đa biến, đặc điểm của Root và vector E -1 H được xác định. Các so
sánh được qui về giá trị E và xác định mức có nghĩa p (Pr), nói chung đều khác biệt.
Bảng kết quả tương quan cho thấy không có tương quan chặt cho các oxide kim loại, tương
quan cao nhất với trị số là r = 0,4885 giữa Mg và Calcium oxide.
Mẫu bình cổ lấy từ Llanederyn khác biệt với trị số trung bình các nơi khác (SAS, 2004).
Phân tích mô hình tuyến tính tổng hợp (mixed linear model, MLM) được áp dụng giống như
mô hình tuyến tính tổng quát (general linear model, GLM), nhưng điều khác biệt là mô hình
tuyến tính tổng hợp thể hiện phân tích các trung bình với phương sai (variance) và hiệp
phương sai (covariance). Mô hình này phân tích tham số tương tác cố định (fixed-effect
parameters) và tham số tương tác ngẫu nhiên (random-effect parameters), cách cấu trúc phân
tích số liệu sử dụng phổ biến là phương pháp khả năng tối ưu có hạn (restricted maximum
likelihood, REML).
Bài tập mô hình tuyến tính tổng hợp phân tích tương tác cố định và ngẫu nhiên về biến động
chiều cao (Chieucao = inch) từ khảo sát của các gia đình (Giadinh) và giới tính (Gioitinh) như
sau (phỏng theo SAS, 2004).
Data;
Input Giadinh Gioitinh$ Chieucao @@;
datalines;
1 Nu 67 1 Nu 66 1 Nu 64 1 Nam 71 1 Nam 72 2 Nu 63
2 Nu 63 2 Nu 67 2 Nam 69 2 Nam 68 2 Nam 70 3 Nu 63
3 Nam 64 4 Nu 67 4 Nu 66 4 Nam 67 4 Nam 67 4 Nam 69
run;
proc mixed;
calss Giadinh Gioitinh;
141
model Chieucao = Gioitinh Giadinh Giadinh* Gioitinh;
title ‘phan tich tuong tac co dinh’;
run;
proc mixed;
calss Giadinh Gioitinh;
model Chieucao = Gioitinh;
random Giadinh Giadinh* Gioitinh;
title ‘phan tich tuong tac ngau nhien’;
run;
Kết quả xử lý:
phan tich tuong tac co dinh
Model Information
Data Set WORK.DATA2
Dependent Variable Chieucao
Covariance Structure Diagonal
Estimation Method REML
Residual Variance Method Profile
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Residual
Giadinh 4 1 2 3 4
Gioitinh 2 Nam Nu
Dimensions
Covariance Parameters 1
Columns in X 15
Columns in Z 0
Subjects 1
Max Obs Per Subject 18
Observations Used 18
Observations Not Used 0
Total Observations 18
Covariance Parameter
Estimates
Residual 2.1000
Fit Statistics
142
phan tich tuong tac co dinh
Num Den
Effect DF DF F Value Pr > F
Giải thích:
Phân tích theo mô hình tuyến tính tổng hợp (Mixed Linear Model) sử dụng cách tính
likelihood (tối ưu) nên không có Sum of Square.
Bảng tính ảnh hưởng loại 3 cho thấy yếu tố Giới tính và Gia đình khác biệt có nghĩa, nhưng
tương tác Gia đình*Giới tính không khác biệt.
Giả định sau khi có bảng hiệu quả tương tác trên, vấn đề đặt ra là còn những số liệu có phân bố
chuẩn và độc lập với phương sai cố định. Tuy nhiên số liệu thu thập nằm trong nhóm liên kết
theo gia đình, như vậy các lần lấy mẫu trong nhóm gia đình sẽ có tương quan chặt với nhau,
hay là không có tính độc lập.
Vì vậy để ước lượng chiều cao, sử dụng mô hình tương quan với tương tác ngẫu nhiên (random
effects), với giả định tương tác gia đình là phân bố chuẩn và phương sai chưa biết.
Model Information
143
Giadinh 4 1 2 3 4
Gioitinh 2 Nam Nu
Dimensions
Covariance Parameters 3
Columns in X 3
Columns in Z 12
Subjects 1
Max Obs Per Subject 18
Observations Used 18
Observations Not Used 0
Total Observations 18
Iteration History
0 1 74.11074833
1 2 71.51614003 0.01441208
2 1 71.13845990 0.00412226
3 1 71.03613556 0.00058188
4 1 71.02281757 0.00001689
5 1 71.02245904 0.00000002
6 1 71.02245869 0.00000000
Covariance Parameter
Estimates
Giadinh 2.4010
Giadinh*Gioitinh 1.7657
Residual 2.1668
Fit Statistics
Num Den
Effect DF DF F Value Pr > F
144
Kết quả từ bảng tương tác loại 3 cho thấy giá trị xác suất P của Giới tính là 0,0667 cũng chưa
khác biệt có nghĩa như là tương tác cố định, nhưng là phương pháp tổng hợp (mixed
procedure) mô hình hoá tương quan trực tiếp và suy luận (inference) tương tác của giới tính
trong tổng thể các gia đình, trong khi phân tích tương tác cố định chỉ cho thấy tương tác của
giới tính chỉ có trong số gia đình cụ thể.
/* áp dụng method=type3 là chỉ sử dụng ANOVA loại 3, slice=Lohat là khảo sát tương tác
riêng nhóm lô hạt so với tổng thể */
Kết quả xử lý:
The SAS System
Model Information
145
Data Set WORK.YENMACH
Dependent Variable Nangsuat
Covariance Structure Variance Components
Estimation Method Type 3
Residual Variance Method Factor
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Containment
Dimensions
Covariance Parameters 3
Columns in X 25
Columns in Z 20
Subjects 1
Max Obs Per Subject 64
Observations Used 64
Observations Not Used 0
Total Observations 64
Sum of
Source DF Squares Mean Square Expected Mean Square
Error
Source Error Term DF F Value Pr > F
Covariance Parameter
146
Estimates
Khoi 54.9328
Lohat*Khoi 12.0970
Residual 20.3112
Fit Statistics
Num Den
Effect DF DF F Value Pr > F
Phân tích theo mô hình tuyến tính tổng hợp (Mixed Linear Model) với phân tích phương sai
loại 3 cho thấy yếu tố lô hạt và tương tác lô hạt*xử lý đều khác biệt rất có nghĩa (p = 0,001 và
p = 0,0059). Nhưng yếu tố xử lý không khác biệt có nghĩa (p = 0,0539).
Least Squares Means
Standard
Effect Lohat Xuly Estimate Error DF t Value Pr > |t|
Standard
Effect Lohat Xuly Estimate Error DF t Value Pr > |t|
147
Lohat*Xuly Vic1 Ceresa 50.6250 4.6728 36 10.83 <.0001
Lohat*Xuly Vic1 Dchung 36.0500 4.6728 36 7.71 <.0001
Lohat*Xuly Vic1 Panoge 45.8500 4.6728 36 9.81 <.0001
Lohat*Xuly Vic2 AgroxH 54.3000 4.6728 36 11.62 <.0001
Lohat*Xuly Vic2 Ceresa 55.3750 4.6728 36 11.85 <.0001
Lohat*Xuly Vic2 Dchung 50.8500 4.6728 36 10.88 <.0001
Lohat*Xuly Vic2 Panoge 53.1000 4.6728 36 11.36 <.0001
Num Den
Effect Lohat DF DF F Value Pr > F
Giải thích:
Khi phân tích tương tác ảnh hưởng cố định (Type 3 Tests of Fixed Effects) cho kết quả yếu tố
xử lý không khác biệt có nghĩa.
Khi trắc nghiệm ảnh hưởng tương tác của lô hạt*xử lý với lô hạt tách riêng (slice=Lohat), kết
quả bảng Test of Effect Slices cho thấy tương tác của lô hạt* xử lý cho thấy ảnh hưởng rất có
nghĩa đến giống Vic1 ở mức xác suất p < 0,0001.
148
/ctop=greens cbottom=blue caxis=black;
run;
/* ASYCOV là lệnh xử lý với asymptotic variance matrix của ước lượng tham số hiệp phương
sai.
MMEQ và MMESOL là lệnh xử lý với phương trình mô hình tổng hợp (mixed model
equation và giải pháp (solution) được nêu ra.
outp=predicted là lệnh tiên đoán các giá trị
parm và ods là lệnh thiết lập mặt phẳng tối ưu (likelihood surface) */
Model Information
a 3 1 2 3
b 2 1 2
Dimensions
Covariance Parameters 3
Columns in X 4
Columns in Z 8
Subjects 1
Max Obs Per Subject 16
Observations Used 16
Observations Not Used 0
Total Observations 16
Parameter Search
CovP1 CovP2 CovP3 Variance Res Log Like -2 Res Log Like
149
Iteration History
1 2 104.93416367 0.00000000
Covariance Parameter
Estimates
b 1464.36
a*b 26.9581
Residual 78.8426
Fit Statistics
2 0.00 1.0000
150
Row Col8 Col9 Col10 Col11 Col12 Col13
9 0.07515 7.2676
10 0.07515 5.4793
11 0.06246 4.6802
12 0.07515 5.1115
Phương trình mô hình tổng hợp (Mixed Model Equations) với 4 hàng đầu là của tương tác cố
định, hàng 5-12 là của tương tác ngẫu nhiên.
Mixed Model Equations Solution
151
6 -4.2598 4.7855 -4.7855 4.2598 -4.2598 -26.8837
7 4.1555 2.1570 -2.1570 1.9200 -1.9200 3.0198
8 22.8027 -2.1570 2.1570 -1.9200 1.9200 -3.0198
9 -2.1570 22.5560 4.4021 2.1570 -2.1570 -1.7134
10 2.1570 4.4021 22.5560 -2.1570 2.1570 1.7134
11 -1.9200 2.1570 -2.1570 22.8027 4.1555 -0.8115
Num Den
Effect DF DF F Value Pr > F
a 2 2 28.00 0.0345
Khác biệt thống kê của tương tác yếu tố A có nghĩa ở mức p < 0,05 (mức 5%).
Least Squares Means
Standard
Effect a Estimate Error DF t Value Pr > |t|
Kết quả cho thấy yếu tố A khác biệt có nghĩa với các mức độ đầu tiên và cả hai mức sau.
The SAS System
StdErr
Obs a b y Pred Pred DF Alpha Lower Upper Resid
152
15 3 2 125 133.542 4.72563 10 0.05 123.013 144.072 -8.5422
16 3 2 136 133.542 4.72563 10 0.05 123.013 144.072 2.4578
Res Log Li ke
- 52. 4671
- 52. 4687
- 52. 4702
0. 4000
0. 3667
Hình 5.1. Mặt đáp ứng tối ưu của lò sấy với nhiệt độ và các yếu tố ảnh hưởng.
Đỉnh cao của mặt đáp ứng áp dụng phương pháp khả năng tối ưu có hạn (restricted maximum
likelihood, REML). REML áp dụng cho thành phần phương sai B và tương tác A*B.
Các cây trồng thu thập viễn thám gồm: bắp, đậu nành, bông vải, cải đường, clover (cỏ xa trục
thảo). Giá trị x1 đến x4 thực hiện ở các cánh đồng từ 1 đến 4.
153
data cay;
title 'Discriminant Analysis so lieu vien tham 5 loai cay trong';
input caytrong $ 1-10 x1-x4 xvalues $ 11-21;
cards;
Bap 16 27 31 33
Bap 15 23 30 30
Bap 16 27 27 26
Bap 18 20 25 23
Bap 15 15 31 32
Bap 15 32 32 15
Bap 12 15 16 73
Daunanh 20 23 23 25
Daunanh 24 24 25 32
Daunanh 21 25 23 24
Daunanh 27 45 24 12
Daunanh 12 13 15 42
Daunanh 22 32 31 43
Bongvai 31 32 33 34
Bongvai 29 24 26 28
Bongvai 34 32 28 45
Bongvai 26 25 23 24
Bongvai 53 48 75 26
Bongvai 34 35 25 78
Caiduong 22 23 25 42
Caiduong 25 25 24 26
Caiduong 34 25 16 52
Caiduong 54 23 21 54
Caiduong 25 43 32 15
Caiduong 26 54 2 54
Clover 12 45 32 54
Clover 24 58 25 34
Clover 87 54 61 21
Clover 51 31 31 16
Clover 96 48 54 62
Clover 31 31 11 11
Clover 56 13 13 71
Clover 32 13 27 32
Clover 36 26 54 32
Clover 53 8 6 54
Clover 32 32 62 16
;
proc discrim data=cay
method=normal pool=no
crossvalidate;
class caytrong;
priors prop;
id xvalues;
var x1-x4;
title2 'Using Quadratic Discriminant Function';
run;
154
/* proc discrim sử dụng phương pháp tập hợp phương sai không bằng nhau (POOL=NO) cho
dữ liệu viễn thám. Priors prop là tỉ lệ xác suất có trước của cỡ mẫu, crossvalidate là xác định
mức sai số của các biến giao nhau*/.
Observations 36 DF Total 35
Variables 4 DF Within Classes 31
Classes 5 DF Between Classes 4
Variable Prior
caytrong Name Frequency Weight Proportion Probability
Bap 1 4 11.13472
Bongvai 4 13.23569
Caiduong 4 17.76293
Clover 4 23.64618
Daunanh 4 12.45263
2 _ _ -1 _ _
D (i|j) = (X - X )' COV (X - X ) + ln |COV | - 2 ln PRIOR
i j j i j j j
From
caytrong Bap 1 Bongvai Caiduong Clover Daunanh
155
Clover 2213 104.18297 31.40816 26.01743 194.10546
Daunanh 278.85707 41.01631 23.15920 27.07134 16.03615
2 _ -1 _
D (X) = (X-X )' COV (X-X ) + ln |COV | - 2 ln PRIOR
j j j j j j
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k
From Bap
caytrong 1 Bongvai Caiduong Clover Daunanh Total
Bap 1 7 0 0 0 0 7
100.00 0.00 0.00 0.00 0.00 100.00
Bongvai 0 6 0 0 0 6
0.00 100.00 0.00 0.00 0.00 100.00
Caiduong 0 1 4 0 1 6
0.00 16.67 66.67 0.00 16.67 100.00
Clover 0 0 2 9 0 11
0.00 0.00 18.18 81.82 0.00 100.00
Daunanh 0 0 0 0 6 6
0.00 0.00 0.00 0.00 100.00 100.00
Total 7 7 6 9 7 36
19.44 19.44 16.67 25.00 19.44 100.00
Bap
1 Bongvai Caiduong Clover Daunanh Total
Nếu sử dụng phương pháp tái thay thế (resubstitution), mức sai số (Error Rate) là 0,1111.
Discriminant Analysis so lieu vien tham 5 loai cay trong
Using Quadratic Discriminant Function
156
The DISCRIM Procedure
Classification Summary for Calibration Data: WORK.CAY
Cross-validation Summary using Quadratic Discriminant Function
2 _ -1 _
D (X) = (X-X )' COV (X-X ) + ln |COV | - 2 ln PRIOR
j (X)j (X)j (X)j (X)j j
2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k
From Bap
caytrong 1 Bongvai Caiduong Clover Daunanh Total
Bap 1 2 0 1 4 0 7
28.57 0.00 14.29 57.14 0.00 100.00
Bongvai 0 2 1 3 0 6
0.00 33.33 16.67 50.00 0.00 100.00
Caiduong 0 1 1 3 1 6
0.00 16.67 16.67 50.00 16.67 100.00
Clover 0 0 2 9 0 11
0.00 0.00 18.18 81.82 0.00 100.00
Daunanh 0 0 1 3 2 6
0.00 0.00 16.67 50.00 33.33 100.00
Total 2 3 6 22 3 36
5.56 8.33 16.67 61.11 8.33 100.00
Bap
1 Bongvai Caiduong Clover Daunanh Total
Nếu sử dụng phương pháp cross - vadidation, mức sai số (Error Rate) là 0,5556.
Phương pháp dùng ước số bootstrap tạo ra số liệu giả định (pseudo-data sets) bằng cách lấy
mẫu lặp lại (hay không lặp lại) của từng lớp trong số mẫu quan sát. Vì vậy, cần tính xác suất p
157
điều chỉnh cho giá trị của số liệu giả định này tăng lên có thể là 1000 đến 20000 lần, do đó giá
trị điều chỉnh này khác giá trị p thực sự cho trắc nghiệm ban đầu. Mức xác suất điều chỉnh này
(adjusted p-value) sẽ được tính cho số mẫu ước lượng mới để xác định khác biệt có nghĩa hay
không.
5.8.1. Thí nghiệm thuốc và khảo sát hiệu ứng phụ (side-effect)
Mục tiêu là khảo sát có hay không hiệu ứng phụ trên 15 đối tượng khảo sát, chia làm 3 nhóm
với liều thuốc là 0 mg, 1 mg và 2 mg. Nếu có hiệu ứng phụ ghi số 1, không có hiệu ứng phụ
ghi số 0. Đặc điểm ký hiệu từ s1 đến s10. Số liệu ghi như sau:
data a;
input nhom$ s1-s10;
datalines;
0MG 0 0 1 0 0 1 0 0 0 0
0MG 0 0 0 0 0 0 0 0 0 1
0MG 0 0 0 0 0 0 0 0 1 0
0MG 0 0 0 0 0 0 0 0 0 0
0MG 0 1 0 0 0 0 0 0 0 0
1MG 1 0 0 1 0 1 0 0 1 0
1MG 0 0 0 1 1 0 0 1 0 1
1MG 0 1 0 0 0 0 1 0 0 0
1MG 0 0 1 0 0 0 0 0 0 1
1MG 1 0 1 0 0 0 0 1 0 0
2MG 0 1 1 1 0 1 1 1 0 1
2MG 1 1 1 1 1 1 0 1 1 0
2MG 1 0 0 1 0 1 1 0 1 0
2MG 0 1 1 1 1 0 1 1 1 1
2MG 1 0 1 0 1 1 1 0 0 1
;
Model Information
Description Value
nhom
Trend 0 1 2
p-Values
Giải thích:
Kết quả cho thấy cột Raw gồm giá trị p theo cách tính trắc nghiệm Cochran-Armitage với số
liệu nguyên thủy, và cột Bootstrap với giá trị p điều chỉnh theo giá trị p nguyên thủy.
Kết quả cho thấy nếu chọn mức xác suất có nghĩa là 5%, thì ở cột Raw có 3/10 đặc điểm là đạt
yêu cầu. Nếu chọn mức xác suất có nghĩa là 10%, có 7/10 đạt yêu cầu.
Khi chọn cột Bootstrap với so sánh tất cả 10 đặc điểm, thì với mức xác suất có nghĩa là 5%,
không có giá trị nào đạt yêu cầu, nhưng nếu chọn mức xác suất có nghĩa là 10%, có 2/10 đạt
yêu cầu.
Khoảng tin cậy của phương pháp ước số bootstrap (Confident Interval) được xác định và thể
hiện bằng đường biểu diễn xử lý TPSPLINE.
Khảo sát cho thấy phơi nắng mặt trời thường xảy ra tỉ lệ cao nám da (melanoma). Phân tích số
liệu 37 năm gồm số mẫu là 100.000 người, xác định khoảng tin cậy Bayesian Confident
Interval 90% theo ước lượng. Bảng số liệu như sau (SAS, 2004):
data melanoma;
input nam tilenhiem @@;
datalines;
1936 0.9 1937 0.8 1938 0.8 1939 1.3
1940 1.4 1941 1.2 1942 1.7 1943 1.8
1944 1.6 1945 1.5 1946 1.5 1947 2.0
1948 2.5 1949 2.7 1950 2.9 1951 2.5
1952 3.1 1953 2.4 1954 2.2 1955 2.9
1956 2.5 1957 2.6 1958 3.2 1959 3.8
1960 4.2 1961 3.9 1962 3.7 1963 3.3
159
1964 3.7 1965 3.9 1966 4.1 1967 3.8
1968 4.7 1969 4.4 1970 4.8 1971 4.8
1972 4.8
;
proc tpspline data=melanoma;
model tilenhiem = (nam) /alpha =0.05;
output out = result pred uclm lclm;
run;
ods listing;
data result2;
if _N_ = 1 then set sd;
set result2;
data boot;
set result2;
array y{1070} P_y1-P_y1070;
array sd{1070} sd1-sd1070;
do i=1 to 1070;
if sd{i} > 0 then do;
d = (y{i} - P_tilenhiem)/sd{i};
obs = _N_;
output;
end;
end;
keep d obs P_tilenhiem nam;
run;
160
data boot;
set boot;
by obs;
retain n;
if first.obs then n=1;
else n=n+1;
if n > 1000 then delete;
run;
data result;
merge result
chi1(rename=(d=chi05))
chi2(rename=(d=chi95));
keep nam tilenhiem P_tilenhiem lower upper
LCLM_tilenhiem UCLM_tilenhiem;
title1 'Ti le nhiem Melanoma dieu chinh theo tuoi trong 37 nam';
161
p_tilenhiem*nam = 2
lclm_tilenhiem*nam = 3
uclm_tilenhiem*nam = 3
lower*nam = 4
upper*nam = 4
/ overlay legend=legend1 vaxis=axis1
haxis=axis2 frame cframe=ligr;
run;
Summary Statistics
of Final Estimation
log10(n*LamDdiem2a) -0.0607
Smoothing Penalty 0.5171
Residual SS 1.2243
Tr(I-A) 22.5852
Model DF 14.4148
Standard Deviation 0.2328
162
6
nam
Hình 5.2. So sánh khoảng tin cậy của ước lượng phương pháp Bayes và Bootstrap
Giải thích:
Kết quả cho thấy ước lượng bootstrap có kết quả như khoảng tin cậy Bayesian CI. Khoảng tin
cậy Bayesian CI đối xứng quanh các giá trị ước lượng nhưng bootstrap thì không có.
163
Chương 6
164
3 4430 93 5 7
3 4376 100 5 8
3 1261 98 6 9
;
proc sort;
by GIONG;
proc means data=A noprint;
var TLNMAM CLUC SXHAT;
by GIONG;
output out=newA;
proc print data=newA;
run;
Kết quả xử lý:
The SAS System
Obs GIONG _TYPE_ _FREQ_ _STAT_ TLNMAM CLUC SXHAT
165
45 4405 0 3 STD 13.204 0.57735 1.15470
46 4414 0 3 N 3.000 3.00000 3.00000
47 4414 0 3 MIN 100.000 5.00000 4.00000
48 4414 0 3 MAX 100.000 8.00000 6.00000
49 4414 0 3 MEAN 100.000 6.33333 5.00000
50 4414 0 3 STD 0.000 1.52753 1.00000
51 4430 0 3 N 3.000 3.00000 3.00000
52 4430 0 3 MIN 88.000 5.00000 5.00000
53 4430 0 3 MAX 93.000 6.00000 7.00000
54 4430 0 3 MEAN 90.333 5.66667 6.00000
55 4430 0 3 STD 2.517 0.57735 1.00000
56 4432 0 3 N 3.000 3.00000 3.00000
57 4432 0 3 MIN 88.000 4.00000 5.00000
58 4432 0 3 MAX 98.000 8.00000 8.00000
59 4432 0 3 MEAN 91.667 5.66667 6.33333
60 4432 0 3 STD 5.508 2.08167 1.52753
61 4456 0 3 N 3.000 3.00000 3.00000
62 4456 0 3 MIN 95.000 4.00000 3.00000
63 4456 0 3 MAX 100.000 8.00000 5.00000
64 4456 0 3 MEAN 98.333 5.66667 4.00000
65 4456 0 3 STD 2.887 2.08167 1.00000
Giải thích: N là số lần lặp lại, MAX và MIN là giá trị cao nhất và thấp nhất. MEAN là giá trị
trung bình, STD là standard deviation: độ lệch chuẩn. Kết quả đối với giống cỏ 4456 có giá trị
tỉ lệ nảy mầm trung bình là 98,33 với STD là 2,89; điểm cường lực trung bình là 5,67 và STD
là 2,08; điểm khả năng sản xuất hạt là 4 với STD là 1.
Áp dụng trong trường hợp điều tra chọn mẫu hai lô đối chứng và tác động kỹ thuật như phun
thuốc tăng nở hoa, đậu quả, bón phân và không bón, xịt thuốc diệt cỏ và không xịt thuốc. So
sánh hai giá trị trung bình của hai biến, cũng căn cứ trên xác suất p. Nếu p > 0,05 thì hai biến
số không khác nhau có nghĩa. Áp dụng cho chọn mẫu có số điểm chọn bằng nhau. Nếu bố trí
các ô theo dõi ở vị trí giống nhau của hai nhóm mẫu, gọi là bắt cặp (paired comparison), nếu
bố trí các ô theo dõi ở vị trí khác nhau của hai mẫu, gọi là không bắt cặp (unpaired
comparison).
Thí nghiệm sử dụng chất điều hòa sinh trưởng Z cho giống cải dầu (B) và giống đối chứng (A)
không xử lý, kết quả năng suất (tấn/ha) như sau (phỏng theo Clewer, 2001):
data;
input S A B;
diff=B-A;
cards;
1 3.5 5.5
2 4.6 4.1
3 4.0 4.5
4 4.3 6.1
5 4.0 4.6
6 4.6 5.3
7 5.0 5.4
8 3.9 3.9
9 3.5 4.4
10 4.8 6.1
166
;
proc means mean stderr t prt;
var diff;
title 'SO SANH T TEST';
run;
Giải thích:
Giá trị Pr > |t| = 0,0114 cho thấy giống cải dầu B có sử dụng chất điều hòa sinh trưởng Z có
khác biệt năng suất với giống A không xử lý ở mức p < 0,05.
6.3. Chi-bình phương (Chi-square) so sánh tính độc lập của hai yếu tố
Trắc nghiệm tính độc lập căn cứ vào vấn đề đặt ra là giả thiết H0 là các biện pháp áp dụng đều
có ảnh hưởng như nhau. Sử dụng xác suất của Chi-bình phương để tính, nếu p < 0,05 là bác bỏ
giả thiết trên, kỹ thuật áp dụng có ảnh hưởng, nếu p > 0,05 thì chấp nhận giả thiết trên, kỹ thuật
áp dụng như nhau. Thường áp dụng cho các biện pháp kỹ thuật để xác định ảnh hưởng đến
sinh trưởng của cây, cây bệnh hay không bệnh.
Điều tra sau phun thuốc ảnh hưởng sinh trưởng cây với hai yếu tố là: (1) phun thuốc và không
phun, (2) cây tốt và cây bệnh. Số lượng cây được đếm trong tổng số 1000 cây. Giả thiết H0 là
chấp nhận phun thuốc và cây bệnh không ảnh hưởng nhau.
data Dieutra;
input Xitthuoc $ Struong $ Soluong @@;
datalines;
phun benh 10
phun tot 190
khong benh 96
khong tot 704
;
proc freq data=Dieutra order=data;
weight Soluong;
tables Xitthuoc*Struong / chisq expected cellchi2 norow nocol;
output out=ChiSqData pchi lrchi n nmiss;
title 'Chi-Square Tests Xitthuoc';
run;
167
Kết quả xử lý:
Chi-Square Tests Xitthuoc
Xitthuoc Struong
Frequency ‚
Expected ‚
Cell Chi-Square‚
Percent ‚benh ‚tot ‚ Total
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
phun ‚ 10 ‚ 190 ‚ 200
‚ 21.2 ‚ 178.8 ‚
‚ 5.917 ‚ 0.7016 ‚
‚ 1.00 ‚ 19.00 ‚ 20.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
khong ‚ 96 ‚ 704 ‚ 800
‚ 84.8 ‚ 715.2 ‚
‚ 1.4792 ‚ 0.1754 ‚
‚ 9.60 ‚ 70.40 ‚ 80.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 106 894 1000
10.60 89.40 100.00
Giải thích:
Kết quả cho thấy giá trị của Chi-Square là 8,273 với p = 0,004 < 0,05 có nghĩa là bác bỏ giả
thiết trên, xịt thuốc hạn chế cây bệnh.
168
6.4. Tương quan (correlation)
- dấu tương quan thuận nghịch: tương quan dương là đồng biến, tương quan âm là nghịch
biến.
- mức có nghĩa (significant level): là giá trị p (prob, probability) xác định mức tồn tại có nghĩa
của giá trị hệ số tương quan r. Khi giá trị này được xác định với giá trị p < 0,05 là hệ số r có
nghĩa. Số mẫu tính theo từng cặp mẫu tính tương quan (n) càng nhỏ thì r càng lớn mới có
nghĩa, và khi n càng lớn thì hệ số r có nghĩa ở giá trị càng nhỏ. Mức có nghĩa p có thể ở mức
0,05 hay 0,01 hoặc 0,001 nhưng không phải là tương quan chặt (Rummel, 1976).
Hệ số tương quan r có nghĩa với số cặp mẫu xử lý tương quan (n) và mức xác suất p xác định
tồn tại của r có nghĩa ở mức xác suất p = 0,05. Số mẫu n (cặp X và Y) với r có nghĩa như sau:
Khi chọn n = 10 để tính tương quan, giá trị r phải lớn hơn 0,632 mới có nghĩa ở mức p = 0,05.
Ở n = 1000 thì giá trị r phải trên 0,06 là có nghĩa ở mức xác suất p = 0,05. Phương sai chung r2
là hệ số xác định tương quan của X với Y (Rummel, 1976). Khi xác định mức có nghĩa của hệ
số r ở p = 0,05 hay p = 0,01; sử dụng bảng giá trị của r ở độ tự do df = n – 2 xử lý two-tailed
test (Siegle, 2006). Tuy nhiên khi xử lý tương quan với SAS, xác suất có nghĩa p được tính và
thể hiện ở hàng dưới giá trị hệ số tương quan r và được dùng đánh giá mức có nghĩa của r.
169
- mức độ tương quan (correlation range):
Hệ số tương quan có giá trị từ -1 đến +1. Giá trị -1 và 0 là hiếm gặp. Khi giá trị r tuyệt đối từ 0
đến 1, nếu càng gần 0 thì tương quan yếu và càng gần 1 chứng tỏ mức độ tương quan càng chặt
(Hiền, 2007). Hệ số tương quan nhỏ thì mức độ tương quan yếu, r tương quan mạnh khi r =
0,75 (Thanh, 2005). Hệ số r có nghĩa ở mức p < 0,05 thì r tương quan chặt với giá trị r > 0,7
(Phong, 2003).
Hình 6.1. Hệ số tương quan rất chặt (r = -1, r = +1) và tương quan yếu (r = 0,3)
Trên cơ sở đã xác định mức có nghĩa của hệ số r, mức độ tương quan được chia (phỏng theo
cấp chia của Williams, 1968):
0,00 – < 0,20: tương quan yếu (slight; almost negligible relationship)
0,20 – < 0,40: tương quan thấp (low correlation; definite but small relationship)
0,40 – < 0,70: tương quan khá (moderate correlation; substantial relationship)
0,70 – < 0,90: tương quan chặt (high correlation; marked relationship)
0,90 – 1 : tương quan rất chặt (very high correlation; very dependable relationship)
Xác định ma trận tương quan hai chiều các biến số đồng nhất áp dụng đối với năng suất cây là
tìm yếu tố nào ảnh hưởng lớn nhất đến năng suất cây, từ đó đề xuất biện pháp cải thiện năng
suất hợp lý.
Lưu ý sử dụng giá trị hệ số tương quan r và xác suất p. Với số cặp mẫu n = 12, nếu r > 0,7 là
tương quan chặt, nếu p < 0,05 thì kết luận có khác biệt giữa hai biến số. Nếu p > 0,05 thì hai
biến số không khác nhau có nghĩa.
Khảo sát tương quan năng suất cây cà phê (kg/cây), ký hiệu là NSUATCAY với tỉ lệ hạt tròn
(%) (HATTRON), tỉ lệ nhân/quả (%) (NHANQUA), cấp hạt R1 (%) là tỉ lệ hạt được giữ lại
trên sàng rây 6,3 mm và trọng lượng 100 quả (g) (TL100QUA). Tương quan này được khảo
sát từ thí nghiệm bón phân đạm kết hợp thạch cao.
170
DATA;
INPUT NSUATCAY HATTRON NHANQUA R1 TL100QUA;
CARDS;
1.83 22.8 15.6 40.8 103.7
1.82 18.0 16.2 41.3 112.6
1.82 21.1 15.7 42.4 106.6
1.83 20.9 15.5 41.2 105.9
1.84 14.9 16.6 43.7 112.5
1.86 12.8 16.9 44.9 124.4
1.90 12.8 17.1 42.4 118.6
1.93 11.9 17 69.6 134.2
1.85 12.4 17.2 43.9 118.6
1.96 11.9 17.2 70.7 128.7
2.08 11.5 17.4 80.4 142.3
2.01 12.5 17.0 70.4 134.6
;
PROC CORR OUTP=P;
RUN;
PROC PRINT DATA=P;
RUN;
Kết quả xử lý:
The SAS System
Simple Statistics
171
Obs _TYPE_ _NAME_ NSUATCAY HATTRON NHANQUA R1 TL100QUA
Trình bày tương quan của năng suất với các chỉ tiêu như sau (phỏng theo trình bày của Filippi,
1997):
Bảng 4.1. Tương quan của năng suất cây (kg/cây) và các chỉ tiêu theo dõi
Năng suất cây Hạt tròn(%) Nhân/quả cấp R1(%) Trọng lượng nhân/quả
Chú thích: giá trị ở hàng trên là hệ số tương quan r (Pearson Correlation Coefficients), số
mẫu quan sát = 12, hàng dưới là xác suất p.
Giải thích: năng suất cây có tương quan với các chỉ tiêu: cấp hạt R1 với hệ số tương quan r =
0,93389 và trọng lượng 100 quả với hệ số tương quan r = 0,90831 (xác suất đều là p < 0,0001).
Năng suất cây tương quan nghịch với tỉ lệ hạt tròn, khi tỉ lệ hạt tròn thấp thì năng suất cao, với
hệ số tương quan r = - 0,6965.
Xác định phương trình y = ax + b của hai chỉ tiêu thể hiện với phương trình hồi qui có nghĩa.
Khảo sát phương trình hồi qui của trọng lượng khô X g (TLKHO) và diện tích lá Y cm2
(DTLA) của cây cỏ thức ăn gia súc do bón phân như sau (Clewer, 2001):
DATA A;
INPUT TLKHO DTLA;
CARDS;
0.29 144
172
0.43 180
0.21 60
0.53 226
0.27 105
0.33 111
0.47 217
0.40 221
0.48 218
0.30 137
0.37 153
0.30 105
;
PROC REG DATA=A;
MODEL DTLA = TLKHO;
RUN;
PLOT R.*P.;
RUN;
Kết quả xử lý:
The SAS System
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Giải thích: phương trình hồi qui có nghĩa ở mức p < 0,01, giá trị X của phương trình có
xác suất p < 0,01 nên chấp nhận là rất có nghĩa, phương trình được ghi như sau:
Diện tích lá = 528,54*Trọng lượng khô – 36,50.
173
DTLA = - 36. 5 +528. 54 TLKHO
50 N
12
Rsq
40 0. 8596
Adj Rsq
0. 8455
30 RMSE
21. 921
20
10
- 10
- 20
- 30
Pr edi ct ed Val ue
Hình 6.2. Phương trình tương quan và sai số của diện tích lá và trọng lượng khô cỏ.
Xác định phương trình hồi qui đa biến y = ax1 + bx2 + cx3 để tìm ra các biến số x nào có p <
0,05 là chấp nhận có ảnh hưởng đến y. Trước hết xác định phương trình hồi qui và xem xác
suất p của từng biến, sau đó chọn các biến có giá trị p < 0,05 để xác định phương trình hồi qui
đa biến có nghĩa.
Từ kết quả ma trận tương quan của năng suất cà phê (kg/cây) tương quan rất chặt với cấp hạt
R1 và trọng lượng 100 quả đó là tương quan đơn. Để tính hồi qui tuyến tính đa biến, lập bảng
tính sau đây để xác định tương quan đa biến và hai biến số này có ảnh hưởng đến năng suất có
nghĩa hay không.
data HOIQUI;
input NSUATCAY R1 TL100QUA;
cards;
1.83 40.8 103.7
1.82 41.3 112.6
1.82 42.4 106.6
1.83 41.2 105.9
1.84 43.7 112.5
1.86 44.9 124.4
1.9 42.4 118.6
1.93 69.6 134.2
1.85 43.9 118.6
1.96 70.7 128.7
2.08 80.4 142.3
2.01 70.4 134.6
;
proc reg data=HOIQUI;
model NSUATCAY=R1 TL100QUA;
run;
Kết quả xử lý:
174
The SAS System
Model: MODEL1
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Giải thích: từ kết quả ước tính của hồi qui đa biến cho thấy chỉ có cấp hạt R1 là có xác suất
có nghĩa với năng suất (p = 0,0384) còn trọng lượng 100 quả không có ý nghĩa (p = 0,205). Kết
luận phương trình hồi qui năng suất với cấp hạt R1 có nghĩa ở mức p < 0,05 và cần lập phương
trình tương quan đơn biến cho hai chỉ tiêu này. Phương trình hồi qui của năng suất cây và cấp
hạt R1 như sau:
data HOIQUI;
input NSUATCAY R1;
cards;
1.83 40.8
1.82 41.3
1.82 42.4
1.83 41.2
1.84 43.7
1.86 44.9
1.9 42.4
1.93 69.6
1.85 43.9
1.96 70.7
2.08 80.4
2.01 70.4
;
proc reg data=HOIQUI;
model NSUATCAY=R1;
run;
PLOT R.*P.;
RUN;
Kết quả xử lý:
The SAS System
The REG Procedure
Model: MODEL1
175
Dependent Variable: NSUATCAY
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Giải thích:
Phương trình hồi qui năng suất và cấp hạt R1 được viết là:
Năng suất cây = 0,0052 R1 + 1,6194 với R2 = 0,8721
NSUATCAY = 1. 6194 +0. 0052 R1
0. 06 N
12
Rsq
0. 8721
0. 04 Adj Rsq
0. 8594
RM SE
0. 0318
0. 02
0. 00
- 0. 02
- 0. 04
- 0. 06
1. 825 1. 850 1. 875 1. 900 1. 925 1. 950 1. 975 2. 000 2. 025 2. 050
Pr edi ct ed Val ue
Hình 6.3. Phương trình tương quan và sai số của năng suất và cấp hạt R1 cà phê.
Đối với một số thí nghiệm, cần xác định phương trình hồi qui của quan hệ năng suất và các
nghiệm thức như phân bón thường có giới hạn khi tăng lượng phân bón cao, lúc đó năng suất
giảm khi lượng phân bón cao, đường biểu diễn không phải là tuyến tính mà là đường cong
thuộc phương trình bậc hai.
Thí nghiệm về lượng phân đạm N (lbs/acre) đến năng suất cỏ (tấn/ha) biểu thị bằng đường biểu
diễn của phương trình bậc hai y = ax2 + bx + c (NRCS, 2007). Phương trình hồi qui được xác
định như sau:
176
data HOIQUI;
input N NSUATCO;
cards;
0 2.30545
120 3.5875
240 4.862
360 4.899
480 5.179
0 2.8665
120 3.544
240 4.042
360 5.479
480 5.3125
0 2.3125
120 3.207
240 4.5475
360 4.6585
480 4.5945
;
proc rsreg data=HOIQUI;
model NSUATCO=N/lackfit;
run;
Kết quả xử lý:
The RSREG Procedure
N 240.000000 240.000000
Type I Sum
Regression DF of Squares R-Square F Value Pr > F
Sum of
Residual DF Squares Mean Square F Value Pr > F
177
Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data
Sum of
Factor DF Squares Mean Square F Value Pr > F
N 2 14.414607 7.207303 61.51 <.0001
06:19 WeDdiem3esday, June 16, 1993 7
The RSREG Procedure
Canonical Analysis of Response Surface Based on Coded Data
Critical Value
Factor Coded Uncoded
N 0.975941 474.225722
474.225722
Eigenvectors
Eigenvalues N
-0.679724 1.000000
Giải thích:
- Giá trị xác suất của N là p < 0,0001 và N*N là p = 0,0074, do đó hai giá trị này rất có nghĩa
trong phương trình hồi qui bậc hai.
- Phương trình được viết là: Năng suất cỏ (tấn/ha) = - 0,0000118N2 + 0,0112N + 2,4265 với hệ
số tương quan đa biến là R2 = 0,9111.
6.8. Hồi qui bậc hai, xác định đường biễu diễn
title 'Thi nghiem tieu thu xang va khoang cach’;
data kcach;
input mph mpg @@;
datalines;
20 15.4
30 20.2
40 25.7
50 26.2
50 26.6
50 27.4
55 .
60 24.8
;
178
proc rsreg data= kcach;
model mpg=mph /lackfit;
run;
proc glm;
model mpg=mph mph*mph / p clm;
output out=pp p=mpgpred r=resid;
Type I Sum
Regression DF of Squares R-Square F Value Pr > F
Sum of
Residual DF Squares Mean Square F Value Pr > F
Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data
179
Sum of
Factor DF Squares Mean Square F Value Pr > F
Critical Value
Factor Coded Uncoded
Eigenvectors
Eigenvalues mph
-5.239344 1.000000
Number of observations 8
NOTE: Due to missing values, only 7 observations can be used in this analysis.
Sum of
Source DF Squares Mean Square F Value Pr > F
180
mph 1 41.01171219 41.01171219 57.19 0.0016
mph*mph 1 26.16397541 26.16397541 36.48 0.0038
Standard
Parameter Estimate Error t Value Pr > |t|
mpg
28
26
24
22
20
18
16
14
20 30 40 50 60
mph
Hình 6.4. Phương trình hồi qui của tốc độ và tiêu thụ xăng là Y = -0,013 mph2 + 1,305 mph
– 5,985, R2 = 0,795.
181
6.9. Tối ưu hóa và xác định điểm (simple optimum)
Đáp ứng mặt phẳng: Saddle-Surface Response Using Ridge Analysis
Bài tập tính hiệu suất % Mercaptobenzothiazole do ảnh hưởng của thời gian và nhiệt độ.
Đường đồng mức xác định điểm tối ưu.
data d;
input Thgian Nhietdo MBT;
label Thgian = "Thoi gian phan ung(gio)"
Nhietdo = "Nhiet do (do C)"
MBT = "Hieu suat (%)Mercaptobenzothiazole";
datalines;
4.0 250 83.8
20.0 250 81.7
12.0 250 82.4
12.0 250 82.9
12.0 220 84.7
12.0 280 57.9
12.0 250 81.2
6.3 229 81.3
6.3 271 83.1
17.7 229 85.3
17.7 271 72.7
4.0 250 82.0
;
proc sort;
by Thgian Nhietdo;
run;
proc rsreg;
model MBT=Thgian Nhietdo / lackfit;
ridge max;
run;
data f;
set e;
if flag=1;
data annote;
length function color style $8 text $8;
retain hsys ysys xsys '2' size 1 function 'label'
182
color 'black' style 'swissl' position '5';
x=255; y=10 ; text='80.3'; output;
x=245; y=11 ; text='82.9'; output;
x=227; y= 7 ; text='80.3'; output;
x=235; y= 8 ; text='82.9'; output;
x=235; y=14.5; text='85.5'; output;
x=230; y=18 ; text='88.1'; output;
x=250; y= 3 ; text='85.5'; output;
run;
axis1 label=(angle=90) minor=none;
axis2 order=(220 to 280 by 20) minor=none;
Type I Sum
Regression DF of Squares R-Square F Value Pr > F
Sum of
Residual DF Squares Mean Square F Value Pr > F
Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data
183
Thgian 1 6.872863 5.004928 1.37 0.2188 -1.014287
Nhietdo 1 4.989743 2.165839 2.30 0.0608 -8.676768
Thgian*Thgian 1 0.021631 0.056784 0.38 0.7164 1.384394
Nhietdo*Thgian 1 -0.030075 0.019281 -1.56 0.1698 -7.218045
Nhietdo*Nhietdo 1 -0.009836 0.004304 -2.29 0.0623 -8.852519
Sum of
Factor DF Squares Mean Square F Value Pr > F Label
Critical Value
Factor Coded Uncoded Label
Eigenvectors
Eigenvalues Thgian Nhietdo
Estimated Ridge of Maximum Response for Variable MBT: Hieu suat (%%)Mercaptobenzothiazole
184
Hình 6.5. Hiệu suất % Mercaptobenzothiazole (MBT) do ảnh hưởng của thời gian phản ứng
và nhiệt độ theo mặt phẳng đồng mức.
* Lưu ý: điểm tối ưu hiệu suất của MBT có thể chọn 1 dãy các trị số căn cứ vào stationary
point: 83,741940 với các giá trị thời gian và nhiệt độ Uncoded lần lượt là 8,465935 và
240,700718.
data annote;
length function color style $8 text $8;
retain hsys ysys xsys '2' size 1 function 'label'
color 'black' style 'swissl' position '5';
x=240.7; y=8.466 ; text='83.742'; output;
run;
axis1 label=(angle=90) minor=none;
axis2 order=(220 to 280 by 20) minor=none;
185
Hình 6.6. Hiệu suất % Mercaptobenzothiazole (MBT) do ảnh hưởng của thời gian phản ứng
và nhiệt độ theo mặt phẳng đồng mức với điểm tối ưu là 83,742.
Ảnh hưởng của K và N đến năng suất cây đậu phụng (kg/ha) trình bày theo tương quan 3
chiều (sử dụng SAS 9.1) như sau:
data measure;
input Potassium Nitrogen Nangsuat @@;
lines;
50 100 1140
50 200 776
50 300 1786
100 100 1020
100 200 1224
100 300 1807
200 100 1186
200 200 1030
200 300 1724
50 100 910
50 200 1100
50 300 1275
100 100 1142
100 200 1900
100 300 2185
200 100 906
200 200 1111
200 300 1872
50 100 905
186
50 200 1052
50 300 1741
100 100 900
100 200 1100
100 300 1700
200 100 900
200 200 1700
200 300 2100
data measure1;
set measure;
run;
data Measure1;
set measure1;
by Nitrogen Potassium;
if last.Potassium then Potassium=Potassium+0.000001;
run;
data pred;
do Potassium=50 to 200 by 5;
do Nitrogen=100 to 300 by 5;
output;
end;
end;
run;
187
Number of Regression Variables 0
Number of Smoothing Variables 2
Order of Derivative in the Penalty 2
Dimension of Polynomial Space 3
GCV Function
log10(n*Lamda) GCV
-4.000000 98321
-3.900000 98321
-3.800000 98321
-3.700000 98321
-3.600000 98321
-3.500000 98321
-3.400000 98321
-3.300000 98321
-3.200000 98321
-3.100000 98321
-3.000000 98321
-2.900000 98321
-2.800000 98321
-2.700000 98320
-2.600000 98320
-2.500000 98320
-2.400000 98320
-2.300000 98320
-2.200000 98320
-2.100000 98320
-2.000000 98320*
Summary Statistics
of Final Estimation
log10(n*Lamda) 3.4880
Smoothing Penalty 30.3665
Residual SS 1487461.5077
Summary Statistics
of Final Estimation
Tr(I-A) 22.5202
Model DF 4.4798
Standard Deviation 257.0021
188
Pr edi ct ed Val ue of Nangsuat
2500
1250
200
150
0 Pot assi um
300 100
233
Ni t r ogen 167
50
100
Hình 6.7. Đồ thị tương quan ba chiều của K, N và năng suất đậu phụng
6.11. Tối ưu hóa đáp ứng phẳng bốn biến số và xác định điểm
Bài tập dùng mô hình bậc hai 3 yếu tố trong thí nghiệm là giảm mùi của hóa chất. Mùi
hương là biến số phụ thuộc, T R H là biến độc lập.
title 'Mat dap ung toi uu mui huong voi chieu cao chai 6';
data Mui;
input Muihuong T R H @@;
label
T = "Nhiet do"
R = "Ti le Gas - Chat long"
H = "Chieu cao chai";
datalines;
66 40 .3 4 39 120 .3 4 43 40 .7 4 49 120 .7 4
58 40 .5 2 17 120 .5 2 -5 40 .5 6 -40 120 .5 6
65 80 .3 2 7 80 .7 2 43 80 .3 6 -22 80 .7 6
-31 80 .5 4 -35 80 .5 4 -26 80 .5 4
;
proc rsreg data=Mui;
model Muihuong = T R H / lackfit;
run;
data grid;
do;
Muihuong = . ;
H = 6.1;
do T = 20 to 140 by 5;
do R = .1 to .9 by .05;
output;
end;
end;
end;
189
data grid;
set Mui grid;
run;
data plot;
set predict;
if H = 6.1;
proc g3d data=plot;
plot T*R=Muihuong / rotate=38 tilt=75 xticknum=3 yticknum=3
zmax=300 zmin=-60 ctop=greens cbottom=orange caxis=black;
run;
title;
Kết quả xử lý:
Mat dap ung toi uu mui huong voi chieu cao chai 6
T 80.000000 40.000000
R 0.500000 0.200000
H 4.000000 2.000000
Type I Sum
Regression DF of Squares R-Square F Value Pr > F
Sum of
Residual DF Squares Mean Square F Value Pr > F
Loại I Sum cho thấy các kiểu hồi qui tuyến tính, bậc hai, crossproduct, lack of fit.
Parameter
190
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data
Mat dap ung toi uu mui huong voi chieu cao chai 6
Sum of
Factor DF Squares Mean Square F Value Pr > F Label
Mat dap ung toi uu mui huong voi chieu cao chai 6
Critical Value
Factor Coded Uncoded Label
Điểm tối ưu của mùi hương khi các biến T R H được xác định.
Eigenvectors
Eigenvalues T R H
Các giá trị Eigenvalues ở mức 48,8588 tương ứng với T là 0,2380; R là 0,9711 và H là
-0,01569.
Mặt đáp ứng được thể hiện ảnh hưởng do các đường T và R, trong đó cố định biến số H với
mức tối thiểu để tạo ra đường biểu diễn phù hợp với biến số mùi hương.
191
Mui huong
300
180
60
- 60
140
0. 9
80
0. 5
Nhi et do
Ti le Gas - Chat l ong
20 0. 1
Mui huong
300
180
60
- 60
140
0. 9
80
0. 5
Nhi et do
Ti le Gas - Chat l ong
20 0. 1
Mui huong
300
180
60
- 60
140
0. 9
80
0. 5
Nhi et do
Ti le Gas - Chat l ong
20 0. 1
Hình 6.8. Mặt đáp ứng của mùi hương theo nhiệt độ tỉ lệ gas-chất lỏng theo các chiều cao
chai.
192
6.12. Đồ thị hình lưới chiếu mặt phẳng ba chiều
Ảnh hưởng nhiệt độ (độ C) và nồng độ chất xúc tác (g) đến năng suất sinh khối (g) của vi
khuẩn (bài tập rút gọn từ TSPLINE, SAS, 1999).
data VIKHUAN;
input nhiet nongdo nsuat @@;
datalines;
60 0 6.8389 64 0 7.3874 68 0 7.6236 72 0 7.5902 76 0 7.3299
60 0.002 7.1584 64 0.002 7.7366 68 0.002 7.9968 72 0.002 7.9817 76 0.002 7.7339
60 0.004 7.4337 64 0.004 8.0436 68 0.004 8.3297 72 0.004 8.3348 76 0.004 8.1016
60 0.006 7.6658 64 0.006 8.3092 68 0.006 8.6232 72 0.006 8.6504 76 0.006 8.4337
60 0.008 7.8556 64 0.008 8.5345 68 0.008 8.8783 72 0.008 8.9296 76 0.008 8.7313
60 0.01 8.004 64 0.01 8.7204 68 0.01 9.0959 72 0.01 9.1733 76 0.01 8.9953
60 0.012 8.1121 64 0.012 8.8678 68 0.012 9.277 72 0.012 9.3824 76 0.012 9.2267
60 0.014 8.1807 64 0.014 8.9778 68 0.014 9.4226 72 0.014 9.5579 76 0.014 9.4265
60 0.016 8.2109 64 0.016 9.0512 68 0.016 9.5336 72 0.016 9.7008 76 0.016 9.5955
60 0.018 8.2035 64 0.018 9.089 68 0.018 9.6109 72 0.018 9.8119 76 0.018 9.7347
60 0.02 8.1595 64 0.02 9.0922 68 0.02 9.6555 72 0.02 9.8923 76 0.02 9.8451
60 0.022 8.08 64 0.022 9.0617 68 0.022 9.6684 72 0.022 9.9428 76 0.022 9.9277
60 0.024 7.9657 64 0.024 8.9985 68 0.024 9.6505 72 0.024 9.9646 76 0.024 9.9834
60 0.026 7.8178 64 0.026 8.9035 68 0.026 9.6028 72 0.026 9.9584 76 0.026 10.0131
60 0.028 7.6371 64 0.028 8.7777 68 0.028 9.5262 72 0.028 9.9253 76 0.028 10.0178
60 0.03 7.4245 64 0.03 8.622 68 0.03 9.4217 72 0.03 9.8662 76 0.03 9.9984
60 0.032 7.1812 64 0.032 8.4375 68 0.032 9.2902 72 0.032 9.7821 76 0.032 9.956
60 0.034 6.9079 64 0.034 8.2249 68 0.034 9.1327 72 0.034 9.6739 76 0.034 9.8914
60 0.036 6.6057 64 0.036 7.9854 68 0.036 8.9501 72 0.036 9.5426 76 0.036 9.8057
60 0.038 6.2755 64 0.038 7.7198 68 0.038 8.7434 72 0.038 9.3891 76 0.038 9.6997
60 0.04 5.9183 64 0.04 7.4291 68 0.04 8.5135 72 0.04 9.2144 76 0.04 9.5744
60 0.042 5.5349 64 0.042 7.1142 68 0.042 8.2615 72 0.042 9.0194 76 0.042 9.4308
60 0.044 5.1265 64 0.044 6.7762 68 0.044 7.9882 72 0.044 8.8051 76 0.044 9.2699
60 0.046 4.6939 64 0.046 6.4159 68 0.046 7.6946 72 0.046 8.5725 76 0.046 9.0925
60 0.048 4.238 64 0.048 6.0344 68 0.048 7.3816 72 0.048 8.3225 76 0.048 8.8997
60 0.05 3.7599 64 0.05 5.6325 68 0.05 7.0503 72 0.05 8.056 76 0.05 8.6923
60 0.052 3.2604 64 0.052 5.2112 68 0.052 6.7015 72 0.052 7.774 76 0.052 8.4714
60 0.054 2.7406 64 0.054 4.7716 68 0.054 6.3362 72 0.054 7.4774 76 0.054 8.2379
60 0.056 2.2014 64 0.056 4.3144 68 0.056 5.9554 72 0.056 7.1673 76 0.056 7.9927
60 0.058 1.6438 64 0.058 3.8407 68 0.058 5.5601 72 0.058 6.8445 76 0.058 7.7369
60 0.06 1.0686 64 0.06 3.3515 68 0.06 5.1511 72 0.06 6.5101 76 0.06 7.4713
60 0.062 0.4769 64 0.062 2.8476 68 0.062 4.7294 72 0.062 6.1649 76 0.062 7.1969
60 0.064 0 64 0.064 2.3302 68 0.064 4.2961 72 0.064 5.81 76 0.064 6.9146
60 0.066 0 64 0.066 1.7999 68 0.066 3.8519 72 0.066 5.4462 76 0.066 6.6255
60 0.068 0 64 0.068 1.258 68 0.068 3.398 72 0.068 5.0745 76 0.068 6.3305
60 0.07 0 64 0.07 0.7053 68 0.07 2.9352 72 0.07 4.696 76 0.07 6.0305
60 0.072 0 64 0.072 0.1427 68 0.072 2.4645 72 0.072 4.3115 76 0.072 5.7264
60 0.074 0 64 0.074 0 68 0.074 1.9868 72 0.074 3.9219 76 0.074 5.4193
60 0.076 0 64 0.076 0 68 0.076 1.5032 72 0.076 3.5283 76 0.076 5.1101
60 0.078 0 64 0.078 0 68 0.078 1.0145 72 0.078 3.1316 76 0.078 4.7997
60 0.08 0 64 0.08 0 68 0.08 0.5217 72 0.08 2.7328 76 0.08 4.4891
62 0 7.1549 66 0 7.5419 70 0 7.6379 74 0 7.4857 78 0 7.128
62 0.002 7.49 66 0.002 7.9038 70 0.002 8.021 74 0.002 7.8842 78 0.002 7.5362
62 0.004 7.7818 66 0.004 8.2244 70 0.004 8.3647 74 0.004 8.2453 78 0.004 7.909
193
62 0.006 8.0314 66 0.006 8.5047 70 0.006 8.67 74 0.006 8.5699 78 0.006 8.2472
62 0.008 8.2396 66 0.008 8.7456 70 0.008 8.9378 74 0.008 8.859 78 0.008 8.5519
62 0.01 8.4075 66 0.01 8.9481 70 0.01 9.1692 74 0.01 9.1136 78 0.01 8.824
62 0.012 8.536 66 0.012 9.1131 70 0.012 9.365 74 0.012 9.3345 78 0.012 9.0644
62 0.014 8.626 66 0.014 9.2416 70 0.014 9.5263 74 0.014 9.5229 78 0.014 9.2741
62 0.016 8.6784 66 0.016 9.3345 70 0.016 9.6539 74 0.016 9.6795 78 0.016 9.454
62 0.018 8.6944 66 0.018 9.3927 70 0.018 9.7488 74 0.018 9.8054 78 0.018 9.6052
62 0.02 8.6747 66 0.02 9.4174 70 0.02 9.8121 74 0.02 9.9015 78 0.02 9.7285
62 0.022 8.6204 66 0.022 9.4093 70 0.022 9.8445 74 0.022 9.9688 78 0.022 9.8249
62 0.024 8.5324 66 0.024 9.3694 70 0.024 9.8471 74 0.024 10.0082 78 0.024 9.8954
62 0.026 8.4116 66 0.026 9.2988 70 0.026 9.8209 74 0.026 10.0207 78 0.026 9.9409
62 0.028 8.2591 66 0.028 9.1983 70 0.028 9.7668 74 0.028 10.0072 78 0.028 9.9624
62 0.03 8.0757 66 0.03 9.0689 70 0.03 9.6857 74 0.03 9.9687 78 0.03 9.9608
62 0.032 7.8624 66 0.032 8.9116 70 0.032 9.5786 74 0.032 9.9062 78 0.032 9.937
62 0.034 7.6202 66 0.034 8.7273 70 0.034 9.4464 74 0.034 9.8205 78 0.034 9.8921
62 0.036 7.3501 66 0.036 8.5169 70 0.036 9.2902 74 0.036 9.7127 78 0.036 9.827
62 0.038 7.0529 66 0.038 8.2815 70 0.038 9.1108 74 0.038 9.5836 78 0.038 9.7427
62 0.04 6.7296 66 0.04 8.0219 70 0.04 8.9092 74 0.04 9.4344 78 0.04 9.64
62 0.042 6.3813 66 0.042 7.7392 70 0.042 8.6864 74 0.042 9.2658 78 0.042 9.52
62 0.044 6.0087 66 0.044 7.4342 70 0.044 8.4434 74 0.044 9.0789 78 0.044 9.3835
62 0.046 5.613 66 0.046 7.108 70 0.046 8.1809 74 0.046 8.8746 78 0.046 9.2316
62 0.048 5.195 66 0.048 6.7615 70 0.048 7.9002 74 0.048 8.6538 78 0.048 9.0653
62 0.05 4.7557 66 0.05 6.3956 70 0.05 7.602 74 0.05 8.4176 78 0.05 8.8853
62 0.052 4.2961 66 0.052 6.0113 70 0.052 7.2873 74 0.052 8.1669 78 0.052 8.6928
62 0.054 3.817 66 0.054 5.6095 70 0.054 6.9571 74 0.054 7.9026 78 0.054 8.4887
62 0.056 3.3196 66 0.056 5.1912 70 0.056 6.6123 74 0.056 7.6256 78 0.056 8.2739
62 0.058 2.8046 66 0.058 4.7574 70 0.058 6.254 74 0.058 7.337 78 0.058 8.0493
62 0.06 2.2731 66 0.06 4.309 70 0.06 5.883 74 0.06 7.0377 78 0.06 7.816
62 0.062 1.7261 66 0.062 3.847 70 0.062 5.5003 74 0.062 6.7287 78 0.062 7.5749
62 0.064 1.1644 66 0.064 3.3723 70 0.064 5.1068 74 0.064 6.4108 78 0.064 7.3269
62 0.066 0.589 66 0.066 2.8858 70 0.066 4.7036 74 0.066 6.085 78 0.066 7.0729
62 0.068 0.0009 66 0.068 2.3886 70 0.068 4.2915 74 0.068 5.7524 78 0.068 6.8141
62 0.07 0 66 0.07 1.8815 70 0.07 3.8715 74 0.07 5.4138 78 0.07 6.5512
62 0.072 0 66 0.072 1.3656 70 0.072 3.4446 74 0.072 5.0703 78 0.072 6.2852
62 0.074 0 66 0.074 0.8417 70 0.074 3.0117 74 0.074 4.7227 78 0.074 6.0172
62 0.076 0 66 0.076 0.3109 70 0.076 2.5738 74 0.076 4.372 78 0.076 5.748
62 0.078 0 66 0.078 0 70 0.078 2.1319 74 0.078 4.0191 78 0.078 5.4787
62 0.08 0 66 0.08 0 70 0.08 1.6868 74 0.08 3.6651 78 0.08 5.2101
80 0 6.8855 84 0 6.2997 88 0 5.6152 92 0 4.8749 100 0 3.3975
80 0.002 7.2964 84 0.002 6.7118 88 0.002 6.0229 92 0.002 5.2723 100 0.002 3.7574
80 0.004 7.6729 84 0.004 7.0914 88 0.004 6.3999 92 0.004 5.6411 100 0.004 4.0926
80 0.006 8.0158 84 0.006 7.4394 88 0.006 6.7472 92 0.006 5.9821 100 0.006 4.4038
80 0.008 8.3261 84 0.008 7.7567 88 0.008 7.0659 92 0.008 6.2963 100 0.008 4.6922
80 0.01 8.6048 84 0.01 8.0443 88 0.01 7.3567 92 0.01 6.5847 100 0.01 4.9586
80 0.012 8.8528 84 0.012 8.3032 88 0.012 7.6208 92 0.012 6.8483 100 0.012 5.204
80 0.014 9.071 84 0.014 8.5343 88 0.014 7.859 92 0.014 7.088 100 0.014 5.4294
80 0.016 9.2605 84 0.016 8.7385 88 0.016 8.0723 92 0.016 7.3046 100 0.016 5.6358
80 0.018 9.4221 84 0.018 8.9169 88 0.018 8.2617 92 0.018 7.4993 100 0.018 5.824
80 0.02 9.5569 84 0.02 9.0703 88 0.02 8.4281 92 0.02 7.6729 100 0.02 5.995
80 0.022 9.6657 84 0.022 9.1997 88 0.022 8.5724 92 0.022 7.8264 100 0.022 6.1498
80 0.024 9.7496 84 0.024 9.3061 88 0.024 8.6956 92 0.024 7.9608 100 0.024 6.2893
80 0.026 9.8095 84 0.026 9.3905 88 0.026 8.7987 92 0.026 8.077 100 0.026 6.4145
194
80 0.028 9.8463 84 0.028 9.4537 88 0.028 8.8827 92 0.028 8.1759 100 0.028 6.5264
80 0.03 9.861 84 0.03 9.4968 88 0.03 8.9484 92 0.03 8.2586 100 0.03 6.6258
80 0.032 9.8546 84 0.032 9.5206 88 0.032 8.9968 92 0.032 8.3259 100 0.032 6.7138
80 0.034 9.8279 84 0.034 9.5262 88 0.034 9.0289 92 0.034 8.3788 100 0.034 6.7914
80 0.036 9.7821 84 0.036 9.5145 88 0.036 9.0457 92 0.036 8.4184 100 0.036 6.8593
80 0.038 9.7179 84 0.038 9.4864 88 0.038 9.048 92 0.038 8.4454 100 0.038 6.9187
80 0.04 9.6364 84 0.04 9.4429 88 0.04 9.0369 92 0.04 8.4609 100 0.04 6.9704
80 0.042 9.5384 84 0.042 9.385 88 0.042 9.0132 92 0.042 8.4659 100 0.042 7.0154
80 0.044 9.4251 84 0.044 9.3136 88 0.044 8.978 92 0.044 8.4612 100 0.044 7.0548
80 0.046 9.2973 84 0.046 9.2296 88 0.046 8.9323 92 0.046 8.4479 100 0.046 7.0893
80 0.048 9.156 84 0.048 9.1341 88 0.048 8.8768 92 0.048 8.4269 100 0.048 7.12
80 0.05 9.0021 84 0.05 9.028 88 0.05 8.8127 92 0.05 8.3991 100 0.05 7.1478
80 0.052 8.8365 84 0.052 8.9121 88 0.052 8.7409 92 0.052 8.3656 100 0.052 7.1737
80 0.054 8.6603 84 0.054 8.7875 88 0.054 8.6622 92 0.054 8.3272 100 0.054 7.1987
80 0.056 8.4744 84 0.056 8.6552 88 0.056 8.5778 92 0.056 8.2849 100 0.056 7.2236
80 0.058 8.2798 84 0.058 8.5161 88 0.058 8.4884 92 0.058 8.2396 100 0.058 7.2495
80 0.06 8.0773 84 0.06 8.3711 88 0.06 8.3952 92 0.06 8.1924 100 0.06 7.2773
80 0.062 7.868 84 0.062 8.2211 88 0.062 8.2989 92 0.062 8.1442 100 0.062 7.3079
80 0.064 7.6528 84 0.064 8.0672 88 0.064 8.2007 92 0.064 8.0958 100 0.064 7.3423
80 0.066 7.4327 84 0.066 7.9104 88 0.066 8.1014 92 0.066 8.0484 100 0.066 7.3815
80 0.068 7.2085 84 0.068 7.7514 88 0.068 8.0019 92 0.068 8.0028 100 0.068 7.4264
80 0.07 6.9814 84 0.07 7.5914 88 0.07 7.9033 92 0.07 7.9599 100 0.07 7.478
80 0.072 6.7521 84 0.072 7.4312 88 0.072 7.8066 92 0.072 7.9208 100 0.072 7.5371
80 0.074 6.5217 84 0.074 7.2719 88 0.074 7.7125 92 0.074 7.8864 100 0.074 7.6049
80 0.076 6.2912 84 0.076 7.1143 88 0.076 7.6222 92 0.076 7.8577 100 0.076 7.6822
80 0.078 6.0614 84 0.078 6.9594 88 0.078 7.5365 92 0.078 7.8355 100 0.078 7.7699
80 0.08 5.8333 84 0.08 6.8082 88 0.08 7.4565 92 0.08 7.8209 100 0.08 7.8691
82 0 6.6076 86 0 5.9671 90 0 5.2494 94 0 4.4971 98 0 3.7531
82 0.002 7.0198 86 0.002 6.3777 90 0.002 5.6526 94 0.002 4.8873 98 0.002 4.1245
82 0.004 7.3986 86 0.004 6.7567 90 0.004 6.0262 94 0.004 5.2498 98 0.004 4.4702
82 0.006 7.7447 86 0.006 7.1051 90 0.006 6.3711 94 0.006 5.5855 98 0.006 4.791
82 0.008 8.0593 86 0.008 7.4238 90 0.008 6.6883 94 0.008 5.8954 98 0.008 5.088
82 0.01 8.3431 86 0.01 7.7137 90 0.01 6.9786 94 0.01 6.1805 98 0.01 5.3621
82 0.012 8.5973 86 0.012 7.9759 90 0.012 7.2431 94 0.012 6.4416 98 0.012 5.6142
82 0.014 8.8226 86 0.014 8.2113 90 0.014 7.4828 94 0.014 6.6799 98 0.014 5.8453
82 0.016 9.0202 86 0.016 8.4208 90 0.016 7.6985 94 0.016 6.8961 98 0.016 6.0563
82 0.018 9.1909 86 0.018 8.6053 90 0.018 7.8912 94 0.018 7.0913 98 0.018 6.2483
82 0.02 9.3357 86 0.02 8.766 90 0.02 8.0619 94 0.02 7.2664 98 0.02 6.4221
82 0.022 9.4556 86 0.022 8.9035 90 0.022 8.2116 94 0.022 7.4224 98 0.022 6.5787
82 0.024 9.5514 86 0.024 9.0191 90 0.024 8.3411 94 0.024 7.5602 98 0.024 6.7191
82 0.026 9.6243 86 0.026 9.1135 90 0.026 8.4514 94 0.026 7.6807 98 0.026 6.8442
82 0.028 9.675 86 0.028 9.1878 90 0.028 8.5436 94 0.028 7.785 98 0.028 6.9549
82 0.03 9.7046 86 0.03 9.2429 90 0.03 8.6185 94 0.03 7.874 98 0.03 7.0523
82 0.032 9.714 86 0.032 9.2797 90 0.032 8.6771 94 0.032 7.9487 98 0.032 7.1373
82 0.034 9.7042 86 0.034 9.2993 90 0.034 8.7203 94 0.034 8.0099 98 0.034 7.2108
82 0.036 9.6761 86 0.036 9.3025 90 0.036 8.7491 94 0.036 8.0586 98 0.036 7.2738
82 0.038 9.6307 86 0.038 9.2904 90 0.038 8.7645 94 0.038 8.0959 98 0.038 7.3272
82 0.04 9.5689 86 0.04 9.2638 90 0.04 8.7675 94 0.04 8.1226 98 0.04 7.372
82 0.042 9.4917 86 0.042 9.2237 90 0.042 8.7588 94 0.042 8.1397 98 0.042 7.4092
82 0.044 9.4 86 0.044 9.1712 90 0.044 8.7396 94 0.044 8.1482 98 0.044 7.4396
82 0.046 9.2949 86 0.046 9.107 90 0.046 8.7108 94 0.046 8.149 98 0.046 7.4643
82 0.048 9.1771 86 0.048 9.0322 90 0.048 8.6733 94 0.048 8.143 98 0.048 7.4842
195
82 0.05 9.0478 86 0.05 8.9478 90 0.05 8.6281 94 0.05 8.1313 98 0.05 7.5003
82 0.052 8.9078 86 0.052 8.8547 90 0.052 8.5761 94 0.052 8.1148 98 0.052 7.5135
82 0.054 8.7582 86 0.054 8.7538 90 0.054 8.5183 94 0.054 8.0943 98 0.054 7.5247
82 0.056 8.5998 86 0.056 8.6461 90 0.056 8.4556 94 0.056 8.071 98 0.056 7.535
82 0.058 8.4336 86 0.058 8.5326 90 0.058 8.389 94 0.058 8.0457 98 0.058 7.5452
82 0.06 8.2606 86 0.06 8.4141 90 0.06 8.3195 94 0.06 8.0193 98 0.06 7.5564
82 0.062 8.0817 86 0.062 8.2918 90 0.062 8.2479 94 0.062 7.9929 98 0.062 7.5694
82 0.064 7.8978 86 0.064 8.1664 90 0.064 8.1754 94 0.064 7.9674 98 0.064 7.5853
82 0.066 7.71 86 0.066 8.039 90 0.066 8.1027 94 0.066 7.9438 98 0.066 7.605
82 0.068 7.5192 86 0.068 7.9106 90 0.068 8.0309 94 0.068 7.9229 98 0.068 7.6294
82 0.07 7.3263 86 0.07 7.782 90 0.07 7.9609 94 0.07 7.9058 98 0.07 7.6595
82 0.072 7.1323 86 0.072 7.6542 90 0.072 7.8937 94 0.072 7.8934 98 0.072 7.6962
82 0.074 6.9382 86 0.074 7.5282 90 0.074 7.8301 94 0.074 7.8867 98 0.074 7.7406
82 0.076 6.7448 86 0.076 7.405 90 0.076 7.7713 94 0.076 7.8866 98 0.076 7.7935
82 0.078 6.5532 86 0.078 7.2854 90 0.078 7.7181 94 0.078 7.894 98 0.078 7.8559
82 0.08 6.3643 86 0.08 7.1705 90 0.08 7.6715 94 0.08 7.91 98 0.08 7.9288
;
%let nlevels=8;
%let colors='black vibg cyan green lime gold orange red';
proc means data= VIKHUAN noprint min max;
var nhiet nongdo nsuat;
output out=range
min=nhietmin nongdomin nsuatmin
max=nhietmax nongdomax nsuatmax;
run;
data _null_;
set range;
call symput('nhietmin', nhietmin);
call symput('nhietmax', nhietmax);
call symput('nongdomin', nongdomin);
call symput('nongdomax', nongdomax);
call symput('nsuatmin', nsuatmin);
call symput('nsuatmax', nsuatmax);
call symput('floor', int(nsuatmin-4));
call symput('ceil', int(nsuatmax+2));
call symput('step', (nsuatmax- nsuatmin)/&nlevels);
run;
proc sort data= VIKHUAN;
by nhiet nongdo;
run;
data plane1 surf1;
length function color $ 8;
retain xsys ysys zsys '2';
drop nongdo nhiet nsuat ncol;
set VIKHUAN;
by nhiet;
x=nhiet; y=nongdo; z=&floor;
if first.nhiet then function='move';
else
do;
function='draw';
ncol=min(&nlevels,int(1+(nsuat-&nsuatmin)/&step));
color=scan(&colors,ncol);
end;
output plane1;
z=nsuat; output surf1;
run;
196
proc sort data= VIKHUAN;
by nongdo nhiet;
run;
data plane2 surf2;
length function color $ 8;
retain xsys ysys zsys '2';
drop nongdo nhiet nsuat ncol;
set VIKHUAN;
by nongdo;
x=nhiet; y=nongdo; z=&floor;
if first.nongdo then function='move';
else
do;
function='draw';
ncol=min(&nlevels,int(1+(nsuat-&nsuatmin)/&step));
color=scan(&colors,ncol);
end;
output plane2;
z=nsuat; output surf2;
run;
data legend;
length function color $ 8;
retain xsys ysys zsys '2';
drop legend ncol;
do legend=&nsuatmin to (&nsuatmax-&step) by &step;
x=&nhietmin; y=&nongdomax; z=legend;
function='poly'; style='solid';
ncol=min(&nlevels, int(1+(legend+(&step/2)-&nsuatmin)/&step));
color=scan(&colors,ncol); output;
z=legend+&step;
function='polycont'; output;
x=&nhietmin+(&nhietmax-&nhietmin)*.05; output;
z=legend; output;
end;
run;
data annoall;
set surf1 surf2 plane1 plane2 legend;
run;
data plotdata;
nhiet=&nhietmin; nongdo=&nongdomin; nsuat=&floor; output;
nhiet=&nhietmax; nongdo=&nongdomax; output;
run;
proc g3d data=plotdata;
scatter nongdo*nhiet=nsuat/rotate=40 xticknum=5 yticknum=5 zticknum=5
shape='point' zmin=&floor zmax=&ceil annotate=annoall;
label nongdo='Chat xuc tac(g)'
nhiet ='Nhiet do (do C)'
nsuat ='Nang suat sinh khoi(g)';
run;
quit;
197
Nang suat si nh khoi ( g)
12
-4
0. 08
100
0. 06
90
0. 04 80
Chat xuc t ac( g) 0. 02 70 Nhi et do ( do C)
0. 00 60
Hình 6.9. Tương quan ba chiều và mặt phẳng năng suất sinh khối của vi khuẩn với nồng độ
chất xúc tác và nhiệt độ.
198
Chương 7
Số liệu được phân tích bằng đồ thị trong chương này thể hiện số liệu ở dạng biểu đồ xác định
thành phần chính, mặt tương ứng đa biến, đồ thị thành phần chất lượng chính, sơ đồ cây phả
hệ.
Phân tích thành phần chính có thể sử dụng số liệu thô, ma trận tương quan, ma trận hiệp
phương sai, tổng bình phương. Thành phần chính thứ nhất có biến lượng lớn nhất, sau đó thành
phần chính cuối cùng có biến lượng nhỏ nhất của kết hợp tuyến tính với các biến ban đầu.
Bài tập về thống kê nhiệt độ trung bình tháng 1 và tháng 7 ở một số vùng trồng cà phê Việt
Nam, so với nhiệt độ thích hợp cho cà phê Arabica và Robusta.
Data Nhietdo;
title 'Nhiet do trung binh thang 1 va thang 7 mot so tinh trong ca phe';
input Tinh $1-15 Thang1 Thang7;
datalines;
Lam Dong 18.0 24.0
Gia Lai 19.0 27.0
Dak Lak 20.0 26.0
Quang Tri 18.0 27.0
Binh Phuoc 24.0 27.0
Dong Nai 25.0 27.0
Son La 17.0 26.0
Nghe An 20.0 26.0
ARABICA 18.0 23.0
ROBUSTA 20.0 30.0
;
title2 'Do thi nhiet do (do C)';
%plotit(data=Nhietdo, labelvar=Tinh,
plotvars=Thang7 Thang1, color=black, colors=blue);
run;
199
The PRINCOMP Procedure
Observations 10
Variables 2
Simple Statistics
Thang7 Thang1
Covariance Matrix
Thang7 Thang1
Eigenvectors
Prin1 Prin2
Kết quả phân tích cho sơ đồ các điểm của 10 cặp số liệu nhiệt độ tháng 7 so với nhiệt độ tháng
1.
Kết quả bảng tính giá trị nhiệt độ trung bình và độ lệch chuẩn cho thấy tháng 1 có độ lệch
chuẩn nhiệt độ cao hơn (2,64) so với độ lệch chuẩn nhiệt độ tháng 7 (1,88). Lệnh cov để tính
hiệp phương sai (covariance). Tổng phương sai là 10,55 trong đó thành phần chính thứ nhất
chiếm 73,6% và thành phần chính thứ hai chiếm 26,4%. Giá trị eigenvalue là tổng của 2 thành
phần bằng với tổng phương sai.
Tháng 1 là thành phần chính thứ nhất vì có độ lệch chuẩn lớn hơn so với tháng 7, phương pháp
xử lý PRINCOMP tính điểm (score) dựa trên các biến trung tâm hơn là các biến đã chuẩn hóa.
Khi so sánh sơ đồ các thành phần chính Prin1 với Prin2, có sự luân chuyển trực giao
(orthogonal) của các biến ban đầu, và thành phần chính thứ nhất có phương sai lớn hơn thành
phần chính thứ hai.
200
Hình 7.1. Điểm biểu thị nhiệt độ trung bình tháng 1 và tháng 7.
Hình 7.2. Điểm biểu thị thành phần chính của nhiệt độ.
201
7.2. Phân tích tương ứng đa biến (Multiple Correspondance Analysis, MCA)
Phương pháp phân tích tương ứng đa biến cho thấy sự hiện diện trên đồ thị chiều thấp của hàng
và cột của số liệu trong bảng ngẫu nhiên. Mỗi hàng và cột được xác định bằng điểm (plot) từ
tần số của ô.
Bài tập: phân tích tương ứng nhiều biến với 4 biến ảnh hưởng đến cà phê nhân Robusta ở các
tỉnh. Các biến là tỉnh (Tinh), độ cao trên mặt biển (Docao), sâu bệnh (Saubenh) và năng suất
(Nangsuat).
Title 'MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh';
proc format;
value Tinh 1 = 'Dak Lak' 2 = 'Gia Lai' 3 = 'Lam Dong' 4= ‘Binh Phuoc’ 5= ‘Dong
Nai’;
value Docao 1 = '100m asl' 2 = '200m asl' 3 = '500m asl' 4 = '1000m asl';
run;
data Robusta;
missing a;
input (Tinh Docao Saubenh Nangsuat) (1.) @@;
* Check for End of Line;
if n(of Tinh -- Nangsuat) eq 0 then do; input; return; end;
format Tinh Tinh. Docao Docao. Saubenh Saubenh. Nangsuat Nangsuat.;
output;
datalines;
1324
5121
2312
1314
3423
2322
3413
4221
4211
;
*---Perform Multiple Correspondence Analysis---;
proc corresp mca observed data=Robusta outc=Coor;
tables Tinh Docao Saubenh Nangsuat;
run;
*---Plot the Multiple Correspondence Analysis Results---;
%plotit(data=Coor, datatype=corresp, href=0, vref=0)
202
Kết quả xử lý:
MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh
Burt Table
Binh 1000m
Phuoc Dak Lak Dong Nai Gia Lai Lam Dong asl 100m asl 200m asl
Binh Phuoc 2 0 0 0 0 0 0 2
Dak Lak 0 2 0 0 0 0 0 0
Dong Nai 0 0 1 0 0 0 1 0
Gia Lai 0 0 0 2 0 0 0 0
Lam Dong 0 0 0 0 2 2 0 0
1000m asl 0 0 0 0 2 2 0 0
100m asl 0 0 1 0 0 0 1 0
200m asl 2 0 0 0 0 0 0 2
500m asl 0 2 0 2 0 0 0 0
Nam hong 1 1 0 1 1 1 0 1
Tuyen trung 1 1 1 1 1 1 1 1
3Tan/ha 2 0 1 0 0 0 1 2
4Tan/ha 0 0 0 2 0 0 0 0
5Tan/ha 0 0 0 0 2 2 0 0
6Tan/ha 0 2 0 0 0 0 0 0
Burt Table
Tuyen
500m asl Nam hong trung 3Tan/ha 4Tan/ha 5Tan/ha 6Tan/ha
Binh Phuoc 0 1 1 2 0 0 0
Dak Lak 2 1 1 0 0 0 2
Dong Nai 0 0 1 1 0 0 0
Gia Lai 2 1 1 0 2 0 0
Lam Dong 0 1 1 0 0 2 0
1000m asl 0 1 1 0 0 2 0
100m asl 0 0 1 1 0 0 0
200m asl 0 1 1 2 0 0 0
500m asl 4 2 2 0 2 0 2
Nam hong 2 4 0 1 1 1 1
Tuyen trung 2 0 5 2 1 1 1
3Tan/ha 0 1 2 3 0 0 0
4Tan/ha 2 1 1 0 2 0 0
5Tan/ha 0 1 1 0 0 2 0
6Tan/ha 2 1 1 0 0 0 2
Dim1 Dim2
Dim1 Dim2
204
1000m asl 0.0362 0.2222
100m asl 0.0898 0.0000
200m asl 0.1287 0.0000
500m asl 0.0724 0.1111
Nam hong 0.0113 0.0000
Tuyen trung 0.0091 0.0000
3Tan/ha 0.2171 0.0000
4Tan/ha 0.0362 0.0556
5Tan/ha 0.0362 0.2222
6Tan/ha 0.0362 0.0556
Indices of the Coordinates that Contribute Most to Inertia for the Column Points
Binh Phuoc 1 0 1
Dak Lak 2 0 2
Dong Nai 1 0 1
Gia Lai 0 2 2
Lam Dong 0 2 2
1000m asl 0 2 2
100m asl 1 0 1
200m asl 1 0 1
500m asl 2 2 2
Nam hong 0 0 1
Tuyen trung 0 0 1
3Tan/ha 1 0 1
4Tan/ha 2 0 2
Indices of the Coordinates that Contribute Most to Inertia for the Column Points
5Tan/ha 0 2 2
6Tan/ha 2 0 2
Dim1 Dim2
205
Nang suat nhan ca phe Robusta (Tan/ha) o 5 tinh
Binary Table
Bang 2 chieu
Row Coordinates
Dim1 Dim2
1 -0.5414 -0.7500
2 1.3665 0.0000
3 -0.6851 -0.7500
4 -0.6851 -0.7500
5 -0.5414 1.5000
6 -0.5414 -0.7500
7 -0.6851 1.5000
8 1.2282 0.0000
9 1.0845 0.0000
Giải thích: kết quả cho thấy tổng chi-bình phương, biểu thị kết hợp giữa hàng và cột trong 5
phần của bảng thống kê, có giá trị là 247,05. Có 27,63 % tổng chi-bình phương thuộc về chiều
thứ nhất (Dimension 1), cho thấy sự cần thiết kết hợp của hàng và cột trong 1 chiều, và 27,27%
thuộc về chiều thứ hai (Dimension 2).
Phân tích MCA xác định tất cả các loại chỉ tiêu theo khoảng cách Euclid. Cơ sở giải thích trên
căn cứ vào các điểm cùng chiều của số liệu thô và vùng không gian. Bảng hai chiều đầu xác
định sự kết hợp của các loại chỉ tiêu. Phần ô một phần tư trên cùng bên trái là kết hợp của tỉnh
Lâm Đồng với độ cao 1000 m trên mặt biển và năng suất cà phê 5 tấn/ha cùng với có hiện diện
của bệnh nấm hồng. Theo chiều kim đồng hồ là kết hợp của 2 nhóm tỉnh Đồng Nai ở độ cao
100 m và tình Bình Phước ở độ cao 200 m, cùng có năng suất cà phê là 3 tấn/ha, đồng thời có
hiện diện mức thấp của bệnh tuyến trùng. Phần ô một phần tư cuối là tỉnh Gia Lai và Dak Lak
với độ cao 500 m, năng suất cà phê ở Gia Lai là 4 tấn/ha và ở Dak Lak là 6 tấn/ha, có hiện diện
mức thấp của bệnh nấm hồng.
Bảng 2 chiều tính điểm (score) được thực hiện với lệnh:
proc corresp data=Robusta binary;
ods select RowCoors;
tables Tinh Docao Saubenh Nangsuat;
run;
Kết quả cho thấy bảng Năng suất nhân cà phê Robusta (Tấn/ha) ở 5 tỉnh, (Binary Table) bảng
hai chiều với 9 cặp trị số tương ứng.
206
Hình 7.3. Đồ thị điểm năng suất cà phê ở các tỉnh theo phân tích tương ứng đa biến với các
tỉnh, độ cao và sâu bệnh.
Phân tích PRINQUAL (principle component of qualitative data) sử dụng chuyển đổi tương
quan tuyến tính và không tuyến tính của các biến thành ma trận hiệp phương sai và ma trận
tương quan. Các số liệu chất lượng và số lượng được chuyển đổi thành ma trận và được thể
hiện trên đồ thị.
Đồ thị gồm có vector từ gốc trung tâm chỉ rõ hướng xác định của các biến trong bảng biplot,
lấy trục 0 làm chuẩn.
Các biến được xác định với điểm hình hoa thị (*) và càng gần nhau thì càng thuộc nhóm liên
kết (cluster) càng chặt.
Phương pháp phân tích đa chiều và đồ thị cho các giống đậu phụng VD1, VD2, VD99-2,
VD99-3, VD99-6, L9801-10, Lỳ, Sẻ, Mỏ két và Giấy. Các chỉ tiêu theo dõi: Giong (giống),
Ngmmam (ngày mọc mầm), TLNMam (tỉ lệ nảy mầm), Ngrhoa (ngày ra hoa), Ngdtia (ngày
đâm tia), TSLa60n (tổng số lá ở 60 ngày), Cao60ng (cao 60 ngày), TGSTrg (thời gian sinh
trưởng), Strai1c (số trái 1 cây), T100trai (trọng lượng 100 trái), Tlhattrai (tỉ lệ hạt trên trái),
TL100hat (trọng lượng 100 hạt), Nsuatm2 (năng suất trên m2), Protein (%), Lipid (lượng dầu
%).
207
data Dauphung;
input Giong $ Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c
T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid;
cards;
VD1 6 81.7 22 29 56.4 38.2 90 56.3 95.9 72.3 37.2 173 23.5 51.8
VD2 6 87 22 29 62.4 42.5 90 62.4 95.2 71.1 39 198 21.4 49.9
VD99-2 8 71 25 35 59 47 90 43 127.3 69.2 48.7 216 23.5 48.6
VD99-3 7 73.7 24 31 55.4 37.3 90 58.7 84.9 68.8 36.6 156 21.5 49
VD99-6 9 72.3 24 35 65.9 47.1 90 40 124.8 68.8 48 226 24.6 46.7
L9801-10 7 74.7 24 31 58.2 40.1 90 58.3 99 63.5 38.2 163 21.8 48.3
Ly 6 82.7 23 30 60.1 40.7 90 71.7 89.8 66.3 37.7 196 22.2 48.7
Se 6 93.9 26 30 64 50.3 90 44.4 95 44.2 41.9 173 22.4 43.1
MoKet 6 95 22 29 62.3 45.7 95 47 125.6 42.3 45.2 153 27.3 45.3
Giay 6 97 21 27 58.4 44.7 85 63 76.2 37.5 43.4 148 24.5 50.9
;
* Principal Component Analysis of the Original Data;
proc factor data= Dauphung nfactors=2 scree;
var Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c T100trai Tlhattrai TL100hat
Nsuatm2 Protein Lipid;
title3 'Principal Components of Original Data';
run;
208
Eigenvalue Difference Proportion Cumulative
Factor Pattern
Factor1 Factor2
Factor1 Factor2
5.9218109 3.7766185
209
The SAS System
Phan tich da huong (MDPREF)
Optimal Monotonic Transformation of Preference Data
210
3 0.81596626 0.34827490 0.0583 0.9268
4 0.46769136 0.12050493 0.0334 0.9602
5 0.34718643 0.25186390 0.0248 0.9850
6 0.09532252 0.01812708 0.0068 0.9918
7 0.07719544 0.04663799 0.0055 0.9973
8 0.03055745 0.02322701 0.0022 0.9995
9 0.00733044 0.00733044 0.0005 1.0000
10 0.00000000 0.00000000 0.0000 1.0000
11 0.00000000 0.00000000 0.0000 1.0000
12 0.00000000 0.00000000 0.0000 1.0000
13 0.00000000 0.00000000 0.0000 1.0000
14 0.00000000 0.0000 1.0000
Factor Pattern
Factor1 Factor2
Factor1 Factor2
7.2833332 4.8754169
211
Hình 7.4. Đồ thị phân tích đa hướng xếp nhóm các giống đậu phụng
Giải thích:
Kết quả cho thấy ở phần bên phải là nhóm có các đặc tính trội hơn các giống khác. Vector chỉ
rõ về phía phần tư bên phải cho thấy giống này có nhiều tính chất ảnh hưởng xếp nhóm gần
nhau.
Trong 10 giống có thể chia thành 4 nhóm là: đậu phụng Mỏ két, Giấy và Sẻ, VD99-2, VD99-6
và còn lại là VD1, VD2, VD99-3, L9801-10, Lỳ. Các nhóm có các giống càng gần nhau thì
càng có tính chất tương đồng di truyền gần nhau.
7.4. Phân tích tương đồng (similarity) và khoảng cách khác biệt (distance) với sơ đồ hình
cây phả hệ (tree plot, dendrogram)
Khi so sánh sự giống nhau hoặc khác nhau của nhiều mẫu, mỗi mẫu theo dõi nhiều chỉ tiêu,
phương pháp xếp nhóm liên kết (cluster) áp dụng để chia nhóm với mức tương đồng như nhau
và thể hiện trên sơ đồ hình cây phả hệ (tree plot) còn gọi là dendrogram hay phenogram. Có
212
thể dùng lệnh varclus, cluster để vẽ sơ đồ cây và distance để xác định ma trận khoảng cách.
Phương pháp này được áp dụng trong nhiều lĩnh vực kinh tế, tài chính, quản lý, giáo dục, hóa
học, tâm lý, nghiên cứu thực vật, di truyền dựa trên ma trận tương quan (correlation matrix)
với hệ số tương quan r (corr) và các hệ số Euclid, Dice hay Jaccard (SAS, 2004; Finch, 2005).
Những bảng ma trận tương quan trên được thể hiện bằng sơ đồ cây gồm phần gốc (root) ở phần
trên hay bên phải, bên trái theo dạng nằm ngang, tiếp theo là nhánh mẹ (branch) tối thiểu có 2
đối tượng và chia thành nhiều nhánh con ở phần dưới, nốt (node) là điểm nối các nhánh con có
chứa đối tượng được xếp nhóm liên kết (cluster) gọi là lá (leaves). Sơ đồ có thể xếp dọc thẳng
đứng, hình vòng xoáy, nhưng thường được chuyển sang xếp nằm ngang (horizontal), với trục x
có giá trị từ 0 đến 1.
Tiêu chí để chia nhóm có thể căn cứ trên các giá trị của:
- Cubic Clustering Criterion (CCC) thể hiện tiêu chuẩn chia nhóm và R2 thích hợp trong giả
thiết null đồng nhất.
- Pseudo F và t2 (PST2) thể hiện thống kê F và t2. Pseudo F xác định chia nhóm ở mức độ hiện
có. Pseudo t2 (PST2) xác định chia nhóm giữa 2 nhóm liên kết gần nhất. Hai giá trị này được
dùng để xác định chia nhóm trong các nhóm được thể hiện (Finch, 2005).
- SPRSQ: Semipartial của hệ số tương quan đa biến hay là sự giảm tỉ lệ phương sai do xếp
nhóm hiện tại.
* Chia nhóm với xử lý varclus, mức độ tương quan (1-R2) của điểm chia gần nhất với một
cluster (1- R2 gần nhất) càng nhỏ thì càng cho kết quả chọn điểm chia nhóm càng tốt (SAS,
2004, tr. 4803).
Trên cơ sở đó có thể giải thích R2 là tỉ lệ phương sai hay là hệ số xác định của điểm chia các
nhóm liên kết (SAS, 2004 tr. 962). Giá trị R2 thể hiện trong phân tích nhóm liên kết phổ biến
với phương pháp AVERAGE (UPGMA), CENTROID và WARD, với đặc tính chủ yếu là lưu
dữ liệu và khoảng cách (distance).
7.4.1. Phương pháp varclus áp dụng centroid (Unweighted Pair-Group Method Using
Centroids, UPGMC).
Phương pháp này sử dụng lệnh varclus (xếp nhóm theo phương sai) để chia các biến
(variables) thành nhóm thứ bậc (hierachy), sau đó tạo ra dữ liệu của SAS có cấu trúc cây phả
hệ. Xử lý với TREE (Tree procedure) sẽ tạo ra sơ đồ dendrogram. Cơ sở của phương pháp là
việc tính toán thành phần các nhóm theo trung bình khác biệt (unweighted average) của các
biến số đã tiêu chuẩn hóa (standardized variables).
Bài tập trích từ SAS, 2004 về mức tiêu thụ lượng protein của các nước châu Âu với các loại
thực phẩm là: thịt đỏ (Thitdo), thịt trắng (Thittrang), trứng (Trung), sữa (Sua), cá (Ca), ngũ cốc
(Ngucoc), tinh bột (Tinhbot), hạt đậu (Hatdau) và rau quả (Rauqua). Từ Var biểu thị cho tên
các biến số như thịt đỏ (Thitdo), ngũ cốc (Ngucoc).
213
title 'Tieu thu protein tai Chau Au';
data Protein;
input Country $18. Thitdo Thittrang Trung Sua
Ca Ngucoc Tinhbot Hatdau Rauqua;
datalines;
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14.0 4.3 19.9 2.1 28.0 3.6 1.3 4.3
Belgium 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4.0
Bulgaria 7.8 6.0 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Czechoslovakia 9.7 11.4 2.8 12.5 2.0 34.3 5.0 1.1 4.0
Denmark 10.6 10.8 3.7 25.0 9.9 21.9 4.8 0.7 2.4
E Germany 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finland 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.0 1.4
France 18.0 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Greece 10.2 3.0 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungary 5.3 12.4 2.9 9.7 0.3 40.1 4.0 5.4 4.2
Ireland 13.9 10.0 4.7 25.8 2.2 24.0 6.2 1.6 2.9
Italy 9.0 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Netherlands 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Norway 9.4 4.7 2.7 23.3 9.7 23.0 4.6 1.6 2.7
Poland 6.9 10.2 2.7 19.3 3.0 36.1 5.9 2.0 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27.0 5.9 4.7 7.9
Romania 6.2 6.3 1.5 11.1 1.0 49.6 3.1 5.3 2.8
Spain 7.1 3.4 3.1 8.6 7.0 29.2 5.7 5.9 7.2
Sweden 9.9 7.8 3.5 4.7 7.5 19.5 3.7 1.4 2.0
Switzerland 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
USSR 9.3 4.6 2.1 16.6 3.0 43.6 6.4 3.4 2.9
W Germany 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5.0 1.2 9.5 0.6 55.9 3.0 5.7 3.2
;
Lưu ý: phương pháp centroid (điểm trung tâm) cần có số nhóm tối đa: centroid maxclusters
=4 hoặc nhiều hơn để phân tích và sau đó chọn nhóm liên kết. Chọn màu theo line = (color=
greens) và độ dày của đường là (width= 2).
Một số phương pháp sử dụng khác tính giá trị UPGMA (phương pháp Average: xếp nhóm các
trung bình số học, Unweighted Pair-Group Method Using Arithmethic Average) với phương
pháp corr, proportion có kết quả tương tự UPGMC.
Observations 25 PROPORTION 1
Variables 9 MAXEIGEN 0
214
Clustering algorithm converged.
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.3144 0.2139 0.8722
Thittrang 0.4347 0.2395 0.7433
Trung 0.6629 0.3375 0.5088
Sua 0.3632 0.2840 0.8894
Ca 0.1007 0.0319 0.9290
Tinhbot 0.5134 0.1656 0.5832
-------------------------------------------------------
Cluster 2 Ngucoc 0.5601 0.5693 1.0213
Hatdau 0.7978 0.6182 0.5297
Rauqua 0.3928 0.0095 0.6131
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.272426 0.000000
Thittrang 0.272426 0.000000
Trung 0.272426 0.000000
Sua 0.272426 0.000000
Ca 0.272426 0.000000
Ngucoc 0.000000 0.440865
Tinhbot 0.272426 0.000000
Hatdau 0.000000 0.440865
Rauqua 0.000000 0.440865
215
Cluster Structure
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.560699 -.462485
Thittrang 0.659329 -.489394
Trung 0.814214 -.580944
Sua 0.602650 -.532932
Ca 0.317323 -.178659
Ngucoc -.754495 0.748389
Tinhbot 0.716511 -.406991
Hatdau -.786274 0.893179
Rauqua -.097622 0.626698
Inter-Cluster Correlations
Cluster 1 2
1 1.00000 -0.72231
2 -0.72231 1.00000
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.4375 0.2139 0.7155
Thittrang 0.6302 0.2395 0.4863
Trung 0.7024 0.3375 0.4492
Sua 0.4288 0.2840 0.7978
-------------------------------------------------------
Cluster 2 Ngucoc 0.5601 0.3983 0.7311
Hatdau 0.7978 0.5901 0.4933
Rauqua 0.3928 0.0578 0.6445
-------------------------------------------------------
Cluster 3 Ca 0.7019 0.0319 0.3079
216
Tinhbot 0.7019 0.1730 0.3604
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.339186 0.000000 0.000000
Thittrang 0.339186 0.000000 0.000000
Trung 0.339186 0.000000 0.000000
Sua 0.339186 0.000000 0.000000
Ca 0.000000 0.000000 0.596794
Ngucoc 0.000000 0.440865 0.000000
Tinhbot 0.000000 0.000000 0.596794
Hatdau 0.000000 0.440865 0.000000
Rauqua 0.000000 0.440865 0.000000
Cluster Structure
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.661447 -.462485 0.064497
Thittrang 0.793849 -.489394 0.047602
Trung 0.838114 -.580944 0.309021
Sua 0.654826 -.532932 0.168047
Ca -.081081 -.178659 0.837810
Ngucoc -.580705 0.748389 -.631105
Tinhbot 0.415932 -.406991 0.837810
Hatdau -.768166 0.893179 -.370886
Rauqua -.240446 0.626698 0.209205
Inter-Cluster Correlations
Cluster 1 2 3
217
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.4375 0.1518 0.6631
Thittrang 0.6302 0.3331 0.5545
Trung 0.7024 0.4902 0.5837
Sua 0.4288 0.2721 0.7847
-------------------------------------------------------
Cluster 2 Ngucoc 0.8255 0.3983 0.2900
Hatdau 0.8255 0.5901 0.4257
-------------------------------------------------------
Cluster 3 Ca 0.7019 0.1365 0.3452
Tinhbot 0.7019 0.3075 0.4304
-------------------------------------------------------
Cluster 4 Rauqua 1.0000 0.0578 0.0000
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.33919 0.00000 0.00000 0.00000
Thittrang 0.33919 0.00000 0.00000 0.00000
Trung 0.33919 0.00000 0.00000 0.00000
Sua 0.33919 0.00000 0.00000 0.00000
Ca 0.00000 0.00000 0.59679 0.00000
Ngucoc 0.00000 0.55032 0.00000 0.00000
Tinhbot 0.00000 0.00000 0.59679 0.00000
Hatdau 0.00000 0.55032 0.00000 0.00000
Rauqua 0.00000 0.00000 0.00000 1.00000
Cluster Structure
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.66145 -0.38959 0.06450 -0.34109
Thittrang 0.79385 -0.57715 0.04760 -0.06132
Trung 0.83811 -0.70012 0.30902 -0.04552
Sua 0.65483 -0.52163 0.16805 -0.26096
Ca -0.08108 -0.36947 0.83781 0.26614
Ngucoc -0.58070 0.90857 -0.63111 0.04655
Tinhbot 0.41593 -0.55448 0.83781 0.08441
Hatdau -0.76817 0.90857 -0.37089 0.37497
Rauqua -0.24045 0.23197 0.20920 1.00000
Inter-Cluster Correlations
Cluster 1 2 3 4
218
Total Proportion Minimum Minimum Maximum
Number Variation of Variation Proportion R-squared 1-R**2 Ratio
of Explained Explained Explained for a for a
Clusters by Clusters by Clusters by a Cluster Variable Variable
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 0.732343 0.0814 0.0814 0.0875
2 3.960717 0.4401 0.3743 0.1007 1.0213
3 5.291887 0.5880 0.5433 0.3928 0.7978
4 6.227874 0.6920 0.5433 0.4288 0.7847
Giải thích:
Các nhóm tồn tại theo đường nằm ngang do câu lệnh có horizontal. Các vạch đứng thể hiện
điểm nối của lá và nhánh để hình thành nhóm lớn hơn.
Xem bảng phân chia có từ 1 đến 4 nhóm liên kết. Tối đa có 4 nhóm liên kết (Cluster summary
for 4 clusters) có tỉ lệ Proportion = 0,692 và đây là điểm chia nhóm với điểm chia có giá trị là
69,2% tổng phương sai các số liệu có trong 4 thành phần nhóm. Tỉ lệ = phần trăm (Proportion
= Percent, SAS, 2004 tr. 4811). Sơ đồ cây cho thấy có 4 điểm chia nhóm liên kết thể hiện ở 4
vạch thẳng đứng nối các nhánh, với trị số từ 0,0814 đến 0,692.
Có 4 nhóm là:
nhóm 1với thịt đỏ, thịt trắng,
nhóm 2 với trứng và sữa,
nhóm 3 với cá và tinh bột,
nhóm 4 với ngũ cốc, hạt đậu và rau quả.
Bảng tổng hợp sau cùng cho thấy tỉ lệ phương sai giải thích theo nhóm liên kết cho thấy có thể
xếp từ 1 đến 4 nhóm liên kết với điểm chia nhóm từ 0,0814 đến 0,692.
Thi t do
Thi t t r ang
Tr ung
Sua
Ca
Ti nhbot
Ngucoc
Hat dau
Rauqua
1. 0 0. 8 0. 6 0. 4 0. 2 0. 0
Hình 7.5. Đồ thị cây phả hệ tiêu thụ protein tại châu Âu
Biểu đồ cho thấy từ trái qua phải, các đối tượng (objects) và nhóm liên kết (clusters) được xếp
nhỏ dần về phía 1 nhóm chung ở bên phải (phần gốc, root).
Mức độ tương quan (1-R2) của điểm gần nhất với 1 cluster (1- R2 gần nhất) càng nhỏ thì càng
cho kết quả chọn điểm chia nhóm càng tốt, với giá trị phân tích là 0,7978.
219
Kết luận chọn điểm chia nhóm: có thể chọn mức chia nhóm là 3 nhóm, thể hiện với các
nhánh hoàn chỉnh thì tỉ lệ là 58,8% (tỉ lệ phương sai là 0,588).
Bài tập xếp nhóm các giống đậu phụng trồng trên một số vùng đất tại các tỉnh khác nhau.
Giống VD1, VD2, VD 99-2, VD 99-3, VD 99-6, L9801-10, Lỳ, Sẻ, Mỏ Két, Giấy.
Ký hiệu chitieu (chỉ tiêu), Ngmmam (ngày mọc mầm), TLNMam (tỉ lệ nảy mầm), Ngrhoa
(ngày ra hoa), Ngdtia (ngày đâm tia), TSLa60n (tổng số lá ở 60 ngày), Cao60ng (cao 60 ngày),
TGSTrg (thời gian sinh trưởng), Strai1c (số trái 1 cây), T100trai (trọng lượng 100 trái),
Tlhattrai (tỉ lệ hạt trên trái), TL100hat (trọng lượng 100 hạt), Nsuatm2 (năng suất trên m2),
Protein (%), Lipid (lượng dầu %).
Áp dụng varclus xác định bảng tương quan và xếp nhóm các giống đậu phụng với các chỉ tiêu
theo dõi có giá trị số đo đếm khác nhau. Các giống được xếp nhóm theo đồ thị dendrogram
(cây phả hệ) với phương pháp ma trận tương quan (correlation, corr) với giá trị của trục x từ
khoảng 0 đến 1, trong bài chọn giá trị từ 0,9 đến 1 và chia khoảng cách là 0,05 vì mức độ
tương đồng rất gần nhau.
data Dauphung;
input chitieu $ VD1 VD2 VD99_2 VD99_3 VD99_6 L9801_10 Ly Se MoKet Giay;
datalines ;
Ngmmam 6 6 8 7 9 7 6 6 6 6
TLNMam 81.7 87 71 73.7 72.3 74.7 95 93.9 95 97
Ngrhoa 22 22 25 24 24 24 23 26 22 21
Ngdtia 29 29 35 31 35 31 30 30 29 27
TSLa60n 56.4 62.4 59 55.4 65.9 58.2 60.1 64 62.3 58.4
Cao60ng 38.2 42.5 47 37.3 47.1 40.1 40.7 50.3 45.7 44.7
TGSTrg 90 90 90 90 90 90 90 90 95 85
Strai1c 56.3 62.4 43 58.7 40 58.3 71.7 44.4 47 63
T100trai 95.9 95.2 127.3 84.9 124.8 99 89.8 95 125.6 76.2
Tlhattrai 72.3 71.1 69.2 68.8 68.8 63.5 66.3 44.2 42.3 37.5
TL100hat 37.2 39 48.7 36.6 48 38.2 37.7 41.9 45.2 43.4
Nsuatm2 173 198 216 156 226 163 196 173 153 148
Protein 23.5 21.4 23.5 21.5 24.6 21.8 22.2 22.4 27.3 24.5
Lipid 51.8 49.9 48.6 49 46.7 48.3 48.7 43.1 45.3 50.9
;
proc varclus data= Dauphung outtree=tree corr maxclusters=4;
var VD1--Giay;
run;
axis1 label=(angle=90 rotate=0) minor=none;
axis2 minor=none order=(0.9 to 1 by .01);
proc tree data=tree horizontal vaxis=axis1 haxis=axis2 lines=(color=greens) lines=
(width=1);
height _propor_;
title ‘ He so tuong dong’;
run;
Kết quả xử lý:
220
The SAS System
Observations 14 Proportion 1
Variables 10 Maxeigen 0
Correlations
VD1 1.000 0.995 0.973 0.997 0.971 0.996 0.989 0.970 0.942 0.950
VD2 0.995 1.000 0.973 0.992 0.974 0.991 0.996 0.975 0.929 0.956
VD99_2 0.973 0.973 1.000 0.962 0.999 0.977 0.955 0.961 0.939 0.901
VD99_3 0.997 0.992 0.962 1.000 0.959 0.995 0.988 0.963 0.931 0.949
VD99_6 0.971 0.974 0.999 0.959 1.000 0.973 0.955 0.963 0.932 0.901
L9801_10 0.996 0.991 0.977 0.995 0.973 1.000 0.984 0.974 0.957 0.951
Ly 0.989 0.996 0.955 0.988 0.955 0.984 1.000 0.972 0.923 0.969
Se 0.970 0.975 0.961 0.963 0.963 0.974 0.972 1.000 0.969 0.975
MoKet 0.942 0.929 0.939 0.931 0.932 0.957 0.923 0.969 1.000 0.942
Giay 0.950 0.956 0.901 0.949 0.901 0.951 0.969 0.975 0.942 1.000
Cluster 1 will be split because it has the largest second eigenvalue, 0.149768, which is greater
than the MAXEIGEN=0 value.
R-squared with
2 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
221
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9941 0.9337 0.0897
VD2 0.9944 0.9325 0.0832
VD99_2 0.9702 0.8940 0.2810
VD99_3 0.9858 0.9216 0.1812
VD99_6 0.9681 0.8912 0.2933
L9801_10 0.9927 0.9474 0.1386
Ly 0.9787 0.9349 0.3280
------------------------------------------------------
Cluster 2 Se 0.9883 0.9534 0.2503
MoKet 0.9661 0.8910 0.3115
Giay 0.9701 0.8981 0.2933
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.144834 0.000000
VD2 0.144858 0.000000
VD99_2 0.143087 0.000000
VD99_3 0.144231 0.000000
VD99_6 0.142930 0.000000
L9801_10 0.144736 0.000000
Ly 0.143708 0.000000
Se 0.000000 0.339938
MoKet 0.000000 0.336083
Giay 0.000000 0.336789
Cluster Structure
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.997023 0.966303
VD2 0.997186 0.965639
VD99_2 0.984997 0.945525
VD99_3 0.992871 0.960008
VD99_6 0.983915 0.944031
L9801_10 0.996347 0.973340
Ly 0.989271 0.966918
Se 0.976445 0.994156
MoKet 0.943951 0.982882
Giay 0.947696 0.984945
Inter-Cluster Correlations
Cluster 1 2
1 1.00000 0.96835
2 0.96835 1.00000
Cluster 1 will be split because it has the largest second eigenvalue, 0.088648, which is greater
than the MAXEIGEN=0 value.
222
Cluster Summary for 3 Clusters
R-squared with
3 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9970 0.9451 0.0541
VD2 0.9960 0.9488 0.0791
VD99_3 0.9948 0.9224 0.0670
L9801_10 0.9926 0.9514 0.1525
Ly 0.9889 0.9349 0.1712
------------------------------------------------------
Cluster 2 Se 0.9883 0.9487 0.2270
MoKet 0.9661 0.8824 0.2885
Giay 0.9701 0.9177 0.3631
------------------------------------------------------
Cluster 3 VD99_2 0.9993 0.9426 0.0125
VD99_6 0.9993 0.9397 0.0119
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.200939 0.000000 0.000000
VD2 0.200831 0.000000 0.000000
VD99_2 0.000000 0.000000 0.500180
VD99_3 0.200715 0.000000 0.000000
VD99_6 0.000000 0.000000 0.500180
L9801_10 0.200491 0.000000 0.000000
Ly 0.200115 0.000000 0.000000
Se 0.000000 0.339938 0.000000
MoKet 0.000000 0.336083 0.000000
Giay 0.000000 0.336789 0.000000
Cluster Structure
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.998512 0.966303 0.972146
VD2 0.997974 0.965639 0.974081
VD99_2 0.970884 0.945525 0.999641
VD99_3 0.997398 0.960008 0.960439
VD99_6 0.969383 0.944031 0.999641
L9801_10 0.996286 0.973340 0.975380
223
Ly 0.994415 0.966918 0.955378
Se 0.973987 0.994156 0.961944
MoKet 0.939342 0.982882 0.935518
Giay 0.957971 0.984945 0.901765
Inter-Cluster Correlations
Cluster 1 2 3
Cluster 2 will be split because it has the largest second eigenvalue, 0.058162, which is greater
than the MAXEIGEN=0 value.
R-squared with
4 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9970 0.9451 0.0541
VD2 0.9960 0.9488 0.0791
VD99_3 0.9948 0.9257 0.0700
L9801_10 0.9926 0.9514 0.1525
Ly 0.9889 0.9537 0.2405
------------------------------------------------------
Cluster 2 Se 0.9876 0.9487 0.2410
Giay 0.9876 0.9177 0.1504
------------------------------------------------------
Cluster 3 VD99_2 0.9993 0.9426 0.0125
VD99_6 0.9993 0.9397 0.0119
------------------------------------------------------
Cluster 4 MoKet 1.0000 0.9248 0.0000
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.20094 0.00000 0.00000 0.00000
224
VD2 0.20083 0.00000 0.00000 0.00000
VD99_2 0.00000 0.00000 0.50018 0.00000
VD99_3 0.20071 0.00000 0.00000 0.00000
VD99_6 0.00000 0.00000 0.50018 0.00000
L9801_10 0.20049 0.00000 0.00000 0.00000
Ly 0.20011 0.00000 0.00000 0.00000
Se 0.00000 0.50312 0.00000 0.00000
MoKet 0.00000 0.00000 0.00000 1.00000
Giay 0.00000 0.50312 0.00000 0.00000
Cluster Structure
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.99851 0.96597 0.97215 0.94211
VD2 0.99797 0.97147 0.97408 0.92913
VD99_2 0.97088 0.93678 0.99964 0.93852
VD99_3 0.99740 0.96214 0.96044 0.93108
VD99_6 0.96938 0.93789 0.99964 0.93185
L9801_10 0.99629 0.96896 0.97538 0.95706
Ly 0.99441 0.97656 0.95538 0.92283
Se 0.97399 0.99379 0.96194 0.96930
MoKet 0.93934 0.96168 0.93552 1.00000
Giay 0.95797 0.99379 0.90176 0.94213
Inter-Cluster Correlations
Cluster 1 2 3 4
VD1
VD2
VD99_3
L9801_10
Ly
VD99_2
VD99_6
Se
Gi ay
MoKet
1. 00 0. 99 0. 98 0. 97 0. 96 0. 95 0. 94 0. 93 0. 92 0. 91 0. 90
Hình 7.6. Đồ thị cây phả hệ của hệ số tương đồng các giống đậu phụng
data Dauphung;
input Giong $ Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c
T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid;
cards;
VD1 6 81.7 22 29 56.4 38.2 90 56.3 95.9 72.3 37.2 173 23.5 51.8
VD2 6 87 22 29 62.4 42.5 90 62.4 95.2 71.1 39 198 21.4 49.9
VD99-2 8 71 25 35 59 47 90 43 127.3 69.2 48.7 216 23.5 48.6
VD99-3 7 73.7 24 31 55.4 37.3 90 58.7 84.9 68.8 36.6 156 21.5 49
VD99-6 9 72.3 24 35 65.9 47.1 90 40 124.8 68.8 48 226 24.6 46.7
L9801-10 7 74.7 24 31 58.2 40.1 90 58.3 99 63.5 38.2 163 21.8 48.3
Ly 6 82.7 23 30 60.1 40.7 90 71.7 89.8 66.3 37.7 196 22.2 48.7
Se 6 93.9 26 30 64 50.3 90 44.4 95 44.2 41.9 173 22.4 43.1
MoKet 6 95 22 29 62.3 45.7 95 47 125.6 42.3 45.2 153 27.3 45.3
Giay 6 97 21 27 58.4 44.7 85 63 76.2 37.5 43.4 148 24.5 50.9
;
proc distance data= Dauphung out=Dist method=Euclid;
var interval(Ngmmam--Lipid / std=Std);
id Giong;
226
run;
options ls=120;
proc print data=Dist(obs=10);
title2 'So sanh 10 giong dau phung xu ly PROC DISTANCE';
run;
Obs Giong VD1 VD2 VD99_2 VD99_3 VD99_6 L9801_10 Ly Se MoKet Giay
1 VD1 0.00000 . . . . . . . . .
2 VD2 2.76693 0.00000 . . . . . . . .
3 VD99-2 5.80429 5.52445 0.00000 . . . . . . .
4 VD99-3 2.67133 3.73372 5.56304 0.00000 . . . . . .
5 VD99-6 6.84753 6.02752 2.58014 6.74732 0.00000 . . . . .
6 L9801-10 2.72744 3.02177 4.61118 1.47585 5.64688 0.00000 . . . .
7 Ly 2.69751 1.70199 5.61064 2.98101 6.34145 2.43890 0.00000 . . .
8 Se 6.28931 5.10740 5.65515 5.93566 5.84022 4.88369 5.21932 0.00000 . .
9 MoKet 5.92005 5.77392 6.31877 6.78507 6.34666 5.79760 5.98061 4.94219 0.00000 .
10 Giay 4.68217 4.77496 7.55737 5.66126 8.15186 5.28352 4.84322 6.03236 6.12524 0
Cluster History
Norm T
RMS i
NCL --Clusters Joined--- FREQ PSF PST2 Dist e
Giải thích: Sơ đồ cho thấy có thể chia 3 nhóm là VD1, VD2, VD99-3, L9801-10, Lỳ, Giấy;
Sẻ và Mỏ Két; VD99-2 và VD99-6.
227
So sanh 10 gi ong dau phung xu l y PROC DI STANCE
Gi ong
VD1
VD99- 3
L9801- 10
VD2
Ly
Gi ay
Se
MoKet
VD99- 2
VD99- 6
1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0
R- Squar ed
Hình 7.7. Đồ thị UPGMA so sánh khoảng cách Euclid các giống đậu phụng.
7.4.3.2. So sánh khác biệt tiêu thụ protein phương pháp Euclid
Số liệu khảo sát lượng protein tiêu thụ ở các nước châu Âu (SAS, 2004). Tính khoảng cách
(distance) bằng phương pháp Euclid (sử dụng SAS 9.1 để tính bảng ma trận tương quan) và vẽ
sơ đồ cây với lệnh cluster dùng phương pháp Ward hay Average (UPGMA) với số liệu như
sau:
data Protein;
input Country $1-14 Thitdo Thittrang Trung Sua
Ca Ngucoc Tinhbot Hatdau Rauqua;
datalines;
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14.0 4.3 19.9 2.1 28.0 3.6 1.3 4.3
Belgium 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4.0
Bulgaria 7.8 6.0 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Czechoslovakia 9.7 11.4 2.8 12.5 2.0 34.3 5.0 1.1 4.0
Denmark 10.6 10.8 3.7 25.0 9.9 21.9 4.8 0.7 2.4
EGermany 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finland 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.0 1.4
France 18.0 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Greece 10.2 3.0 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungary 5.3 12.4 2.9 9.7 0.3 40.1 4.0 5.4 4.2
Ireland 13.9 10.0 4.7 25.8 2.2 24.0 6.2 1.6 2.9
Italy 9.0 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Netherlands 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Norway 9.4 4.7 2.7 23.3 9.7 23.0 4.6 1.6 2.7
Poland 6.9 10.2 2.7 19.3 3.0 36.1 5.9 2.0 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27.0 5.9 4.7 7.9
Romania 6.2 6.3 1.5 11.1 1.0 49.6 3.1 5.3 2.8
Spain 7.1 3.4 3.1 8.6 7.0 29.2 5.7 5.9 7.2
Sweden 9.9 7.8 3.5 4.7 7.5 19.5 3.7 1.4 2.0
Switzerland 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
USSR 9.3 4.6 2.1 16.6 3.0 43.6 6.4 3.4 2.9
228
WGermany 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5.0 1.2 9.5 0.6 55.9 3.0 5.7 3.2
;
options ls=120;
proc print data=Dist(obs=25);
title2 '25 dia diem khao sat va xu ly PROC DISTANCE';
run;
1 Albania 0.00000 . . . . . .
2 Austria 6.12388 0.00000 . . . . .
3 Belgium 5.94109 2.44987 0.00000 . . . .
4 Bulgaria 2.76446 4.88331 5.22711 0.00000 . . .
5 Czechoslovakia 5.13959 2.11498 2.21330 3.94761 0.00000 . .
6 Denmark 6.61002 3.01392 2.52541 6.00803 3.34049 0.00000 .
7 EGermany 6.39178 2.56341 2.10211 5.40824 1.87962 2.72112 0.00000
8 Finland 5.81458 4.04271 3.45779 5.74882 3.91378 2.61570 3.99426
9 France 6.29601 3.58891 2.19329 5.54675 3.36011 3.65772 3.78184
10 Greece 4.24495 5.16330 4.69515 3.74849 4.86684 5.59084 5.61496
11 Hungary 4.67336 3.26615 3.98527 3.34502 2.74957 5.01035 3.67595
12 Ireland 6.73100 2.73297 1.63091 6.18211 3.12292 2.82942 2.98932
13 Italy 4.02203 3.71117 3.71630 2.85918 3.34590 4.76289 4.31946
14 Netherlands 5.98645 1.11657 2.23940 5.14131 2.16015 2.53598 2.49470
Obs Finland France Greece Hungary Ireland Italy Netherlands Norway Poland Portugal
1 . . . . . . . . . .
2 . . . . . . . . . .
3 . . . . . . . . . .
4 . . . . . . . . . .
5 . . . . . . . . . .
6 . . . . . . . . . .
7 . . . . . . . . . .
8 0.00000 . . . . . . . . .
9 4.56796 0.00000 . . . . . . . .
10 5.47453 4.54456 0.00000 . . . . . . .
11 5.32855 4.96278 4.10065 0.00000 . . . . . .
12 3.22412 3.14393 5.69729 4.78439 0.00000 . . . . .
13 4.86459 3.79669 2.14576 3.15028 4.82518 0.00000 . . . .
14 3.36508 3.40538 5.15202 3.45779 2.34252 3.90521 0.00000 . . .
229
20 Sweden 5.22944 3.52991 2.94965 4.90308 2.96513 3.09211 2.54219
21 Switzerland 5.09692 2.19841 2.33380 4.44962 2.59340 3.18797 3.54323
22 UK 5.92615 3.74771 1.94298 5.77994 3.82035 3.47157 3.91392
23 USSR 4.33689 4.16099 3.16046 3.81977 2.71279 4.15141 3.41144
24 WGermany 6.34518 1.64394 1.41722 5.59879 2.17266 2.38230 1.87240
25 Yugoslavia 2.94227 5.43320 5.59674 1.99252 4.33933 6.33887 5.52464
Obs Finland France Greece Hungary Ireland Italy Netherlands Norway Poland Portugal
15 . . . . . . . .
16 . . . . . . . .
17 . . . . . . . .
18 0.00000 . . . . . . .
19 4.24162 0.00000 . . . . . .
20 4.55089 4.27496 0.00000 . . . . .
21 4.33627 4.54883 3.74053 0.00000 . . . .
22 5.41331 4.69515 3.76520 2.83914 0.00000 . . .
23 2.74972 3.61680 3.94293 3.78653 4.00305 0.00000 . .
24 5.08342 4.58914 3.01661 2.27832 2.89414 3.89435 0.00000 .
25 0.98463 4.56699 5.32598 5.18532 6.25436 3.34542 5.95489 0
Cluster History
T
i
NCL --------Clusters Joined--------- FREQ SPRSQ RSQ PSF PST2 e
230
25 di a di em khao sat va xu l y PROC DI STANCE
Count r y
Al bani a
Bul gar i a
Rom ani a
Yugosl avi a
G r eece
I t al y
Por t ugal
Spai n
Aust r i a
Net her l ands
Swi t zer l and
Bel gi um
W G er many
I r el and
Fr ance
UK
Denm ar k
Nor way
Fi nl and
Sweden
Czechosl ovaki a
EG er many
Pol and
USSR
Hungar y
1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0
R- Squar ed
Hình 7.8. Đồ thị cây phả hệ so sánh khoảng cách tiêu thụ protein của các nước.
Giải thích:
Kết quả cho thấy giá trị R-squared chỉ rõ xếp nhóm các biến theo chiều cao. Điểm phân chia
nhóm ở RSQ = 0,693 ; có 6 nhóm được phân chia ở tỉ lệ phương sai là 69,3%.
7.4.4. Phương pháp so sánh hệ số tương đồng và khác biệt với giá trị 2 số nhị phân
Các sự hiện diện của yếu tố được thể hiện theo định tính như có hay không, được mã hóa bằng
số, nếu xác định là có ký hiệu là 1, và không có ký hiệu là 0. Các yếu tố này áp dụng cho sự
phân tích các yếu tố xã hội, nghiên cứu sinh học, di truyền (SAS, 2004).
7.4.4.1. Xác định hệ số tương đồng: kết quả của 14 giống cây trồng ký hiệu từ A1 đến Q14
phân tích bằng kỹ thuật PCR (Polymerase Chain Reaction), có giá trị 1 là thể hiện có band
(allen) và không có được ký hiệu là 0. Cột thứ nhất là các primer phân tích. Sử dụng phương
pháp xếp nhóm với đồ thị nằm ngang trục x có giá trị từ 0 đến 1.
data Giong;
input chitieu $ A1 B2 C3 D4 E5 G6 H7 K8 l9 M10 N11 O12 P13 Q14;
datalines;
P1 1 0 0 1 1 1 1 1 0 0 1 0 0 1
P2 1 1 1 1 0 0 0 1 1 1 1 1 1 1
P3 0 0 0 1 1 1 1 1 1 1 1 0 0 1
P4 1 1 1 1 1 1 0 0 0 0 1 1 0 0
P5 1 0 0 0 1 1 1 1 1 1 1 1 1 1
P6 1 1 1 1 0 0 0 0 1 1 1 1 1 1
P7 0 0 0 1 1 1 1 1 0 0 0 0 0 1
P8 1 1 1 1 0 0 1 1 1 1 1 0 0 0
P9 1 0 0 0 1 1 1 1 0 0 1 1 1 1
231
;
proc varclus data= Giong outtree=tree centroid maxclusters=4;
var A1--Q14;
run;
Observations 9 PROPORTION 1
Variables 14 MAXEIGEN 0
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.6250 0.9828
G6 0.6315 0.6250 0.9828
H7 0.6612 0.4955 0.6715
K8 0.4731 0.1882 0.6490
Q14 0.2823 0.0563 0.7605
------------------------------------------------------
Cluster 2 A1 0.4154 0.2217 0.7511
B2 0.6531 0.9700 11.579
C3 0.6531 0.9700 11.579
D4 0.0092 0.2217 1.2731
232
l9 0.4485 0.1295 0.6336
M10 0.4485 0.1295 0.6336
N11 0.4345 0.0970 0.6263
O12 0.3451 0.1425 0.7637
P13 0.2802 0.0214 0.7356
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 0.000000 0.182741
B2 0.000000 0.182741
C3 0.000000 0.182741
D4 0.000000 0.182741
E5 0.276121 0.000000
G6 0.276121 0.000000
H7 0.276121 0.000000
K8 0.276121 0.000000
l9 0.000000 0.182741
M10 0.000000 0.182741
N11 0.000000 0.182741
O12 0.000000 0.182741
P13 0.000000 0.182741
Q14 0.276121 0.000000
Cluster Structure
Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 -.470876 0.644551
B2 -.984907 0.808154
C3 -.984907 0.808154
D4 -.470876 0.095994
E5 0.794667 -.790594
G6 0.794667 -.790594
H7 0.813153 -.703913
K8 0.687828 -.433821
l9 -.359925 0.669709
M10 -.359925 0.669709
N11 -.311455 0.659144
O12 -.377461 0.587476
P13 -.146442 0.529346
Q14 0.531282 -.237246
Inter-Cluster Correlations
Cluster 1 2
1 1.00000 -0.81626
2 -0.81626 1.00000
233
Clustering algorithm converged.
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.7450 1.4453
G6 0.6315 0.7450 1.4453
H7 0.6612 0.3711 0.5387
K8 0.4731 0.1329 0.6076
Q14 0.2823 0.1329 0.8277
------------------------------------------------------
Cluster 2 B2 0.7240 0.9700 9.2142
C3 0.7240 0.9700 9.2142
D4 0.3088 0.2290 0.8964
l9 0.5459 0.1295 0.5217
M10 0.5459 0.1295 0.5217
------------------------------------------------------
Cluster 3 A1 0.7137 0.2217 0.3679
N11 0.5364 0.1092 0.5204
O12 0.7431 0.1425 0.2996
P13 0.6412 0.0214 0.3667
234
C3 -.984907 0.850858 0.384054
D4 -.470876 0.555721 -.478526
E5 0.794667 -.863153 -.340223
G6 0.794667 -.863153 -.340223
H7 0.813153 -.609166 -.486626
K8 0.687828 -.364488 -.312520
l9 -.359925 0.738861 0.279339
M10 -.359925 0.738861 0.279339
N11 -.311455 0.330386 0.732402
O12 -.377461 0.112956 0.862018
P13 -.146442 0.080957 0.800727
Q14 0.531282 -.364488 0.019493
Inter-Cluster Correlations
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.5552 0.8286
G6 0.6315 0.5552 0.8286
H7 0.6612 0.5552 0.7617
K8 0.4731 0.3173 0.7718
Q14 0.2823 0.3173 1.0513
------------------------------------------------------
Cluster 2 B2 0.8884 0.9700 3.7253
C3 0.8884 0.9700 3.7253
D4 0.5536 0.2290 0.5790
------------------------------------------------------
Cluster 3 A1 0.7137 0.2217 0.3679
N11 0.5364 0.1563 0.5494
O12 0.7431 0.1425 0.2996
P13 0.6412 0.1225 0.4089
------------------------------------------------------
Cluster 4 l9 1.0000 0.1295 0.0000
M10 1.0000 0.1295 0.0000
235
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 0.000000 0.000000 0.308646 0.000000
B2 0.000000 0.380353 0.000000 0.000000
C3 0.000000 0.380353 0.000000 0.000000
D4 0.000000 0.380353 0.000000 0.000000
E5 0.276121 0.000000 0.000000 0.000000
G6 0.276121 0.000000 0.000000 0.000000
H7 0.276121 0.000000 0.000000 0.000000
K8 0.276121 0.000000 0.000000 0.000000
l9 0.000000 0.000000 0.000000 0.500000
M10 0.000000 0.000000 0.000000 0.500000
N11 0.000000 0.000000 0.308646 0.000000
O12 0.000000 0.000000 0.308646 0.000000
P13 0.000000 0.000000 0.308646 0.000000
Q14 0.276121 0.000000 0.000000 0.000000
Cluster Structure
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 -0.47088 0.25501 0.84481 0.05976
B2 -0.98491 0.94255 0.38405 0.35000
C3 -0.98491 0.94255 0.38405 0.35000
D4 -0.47088 0.74404 -0.47853 0.05976
E5 0.79467 -0.74515 -0.34022 -0.63246
G6 0.79467 -0.74515 -0.34022 -0.63246
H7 0.81315 -0.74515 -0.48663 -0.15811
K8 0.68783 -0.56328 -0.31252 0.05976
l9 -0.35992 0.28898 0.27934 1.00000
M10 -0.35992 0.28898 0.27934 1.00000
N11 -0.31145 0.16868 0.73240 0.39528
O12 -0.37746 0.08440 0.86202 0.10000
P13 -0.14644 -0.15123 0.80073 0.35000
Q14 0.53128 -0.56328 0.01949 0.05976
Inter-Cluster Correlations
Cluster 1 2 3 4
236
B2
C3
D4
l9
M10
A1
N11
O12
P13
E5
G6
H7
K8
Q14
1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0
Hình 7.9. Đồ thị cây phả hệ với hệ số tương đồng phương sai các giống khảo sát
Giải thích: theo đồ thị cho thấy có 2 nhóm chính. Theo kết quả PSPT2 có 3 nhóm được chia
với tỉ lệ phương sai là 57,41% (tỉ lệ 0,5741).
Cluster History
Norm T
RMS i
NCL --Clusters Joined--- FREQ PSF PST2 Dist e
13 B2 C3 2 . . 0 T
12 E5 G6 2 . . 0 T
11 L9 M10 2 . . 0
10 H7 K8 2 24.0 . 0.4862 T
9 A1 N11 2 16.6 . 0.4862 T
8 O12 P13 2 14.9 . 0.4862
7 CL12 CL10 4 7.4 9.0 0.7687 T
6 CL7 Q14 5 6.5 1.8 0.8062
5 CL13 D4 3 6.1 . 0.8421 T
4 CL9 CL8 4 5.9 5.0 0.8421
3 CL5 CL11 5 6.0 4.8 0.8876
2 CL4 CL3 9 7.1 3.4 0.9477
1 CL2 CL6 14 . 7.1 1.139
238
gi ong
A1
N11
O12
P13
B2
C3
D4
L9
M10
E5
G6
H7
K8
Q14
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2
Hình 7.10. Đồ thị cây phả hệ so sánh khoảng cách các giống (phương pháp UPGMA)
Giải thích:
Có thể phân chia làm 2 nhóm chính (PST2 là 3,4) và có thể chia tiếp là 3 nhóm.
Sử dụng phương pháp Ward cho kết quả tương tự với lệnh xử lý như sau:
239
8 0.00856380 0.00548418 0.0040 0.9985
9 0.00307962 0.0015 1.0000
Cluster History
T
i
NCL --Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 e
13 B2 C3 2 0.0000 1.00 . . T
12 E5 G6 2 0.0000 1.00 . . T
11 L9 M10 2 0.0000 1.00 . .
10 H7 K8 2 0.0182 .982 24.0 . T
9 A1 N11 2 0.0182 .964 16.6 . T
8 O12 P13 2 0.0182 .945 14.9 .
7 CL10 Q14 3 0.0545 .891 9.5 3.0
6 CL13 D4 3 0.0727 .818 7.2 . T
5 CL12 CL7 5 0.0873 .731 6.1 3.6
4 CL9 CL8 4 0.0909 .640 5.9 5.0
3 CL6 CL11 5 0.1164 .524 6.0 4.8
2 CL4 CL3 9 0.1523 .371 7.1 3.4
1 CL2 CL5 14 0.3713 .000 . 7.1
gi ong
A1
N11
O12
P13
B2
C3
D4
L9
M10
E5
G6
H7
K8
Q14
0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0. 35 0. 40
Hình 7.11. Đồ thị cây phả hệ so sánh khoảng cách các giống (phương pháp Ward)
Có thể phân chia làm 2 nhóm chính (PST2 là 3,4) và tiếp theo chia 3 nhóm.
7.4.5. Phân tích khoảng cách địa lý với khoảng cách Euclid
Phân tích khoảng cách có thể sử dụng các phương pháp như sau:
- Phương pháp Average: yêu cầu liên kết các trung bình (Unweighted Pair-Group Method
Using Arithmethic Avergae, UPGMA).
- Phương pháp Centroid: yêu cầu xếp loại centroid (Unweighted Pair-Group Method Using
Centroids, UPGMC).
- Phương pháp Ward: yêu cầu phương pháp phương sai tối thiểu của Ward (sai số tổng bình
phương, error sum of square).
240
- Phương pháp Twostage: yêu cầu liên kết mật độ hai giai đoạn. Cần phải xác định giá trị
K=, R= hay HYBRID để chỉ định loại ước lượng mật độ được sử dụng.
Bài tập: phân tích nhóm liên kết khoảng cách địa lý giữa các thành phố Hoa Kỳ (đơn vị tính =
dặm Anh); SAS, 2004. Bài tập này sử dụng nhiều phương pháp tạo nhóm liên kết khác nhau.
* Ký hiệu: Kcach = khoảng cách.
title 'Phan tich nhom khoang cach cac thanh pho Hoa Ky’;
data Kcach (type=distance);
input (atlanta chicago denver houston losangeles
miami newyork sanfran seattle washdc) (5.)
@55 city $15.;
datalines;
0 ATLANTA
587 0 CHICAGO
1212 920 0 DENVER
701 940 879 0 HOUSTON
1936 1745 831 1374 0 LOS ANGELES
604 1188 1726 968 2339 0 MIAMI
748 713 1631 1420 2451 1092 0 NEW YORK
2139 1858 949 1645 347 2594 2571 0 SAN FRANCISCO
2182 1737 1021 1891 959 2734 2408 678 0 SEATTLE
543 597 1494 1220 2300 923 205 2442 2329 0 WASHINGTON D.C.
;
/*----------- Phuong phap Average (UPGMA) --------------------*/
proc cluster data= Kcach method=average pseudo;
id city;
run;
proc tree horizontal spaces=2 lines=(color=greens dots);
id city;
title ‘UPGMA’;
run;
/*-----------Phuong phap Centroid --------------------------*/
proc cluster data= Kcach method=centroid pseudo;
id city;
run;
proc tree horizontal spaces=2 lines=(color=orange dots);
id city;
title ‘Centroid’;
run;
241
Kết quả xử lý:
Phan tich nhom khoang cach cac thanh pho Hoa Ky
The CLUSTER Procedure
Average Linkage Cluster Analysis
Cluster History
Norm T
RMS i
NCL ---------Clusters Joined---------- FREQ PSF PST2 Dist e
ci t y
ATLANTA
CHI CAGO
NEWYORK
W
ASHI NGTON D. C.
MI AMI
DENVER
HOUSTON
LOS ANGELES
SEATTLE
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2 1. 3
Hình 7.12. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp UPGMA)
242
ci t y
ATLANTA
CHI CAGO
NEWYORK
W
ASHI NGTON D. C.
MI AMI
HOUSTON
DENVER
LOS ANGELES
SEATTLE
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2
Hình 7.13. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp Centroid)
ci t y
ATLANTA
CHI CAGO
NEWYORK
W
ASHI NGTON D. C.
MI AMI
DENVER
HOUSTON
LOS ANGELES
SEATTLE
0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0. 35 0. 40 0. 45 0. 50 0. 55 0. 60 0. 65 0. 70
Hình 7.14. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp WARD)
243
Có thể chia làm 2 nhóm chính và 3 nhóm nhỏ với tỉ lệ là 0,0586.
The CLUSTER Procedure
Two-Stage Density Linkage Clustering
K = 3
Cluster History
Normalized Maximum Density T
Fusion in Each Cluster i
NCL ---------Clusters Joined---------- FREQ Density Lesser Greater e
ci t y
DENVER
LOS ANGELES
SEATTLE
HOUSTON
ATLANTA
W
ASHI NGTON D. C.
CHI CAGO
NEWYORK
MI AMI
100 90 80 70 60 50 40 30 20 10 0
Hình 7.15. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp Two-stage
Density)
Có thể chia làm 2 nhóm chính theo đồ thị.
Giải thích:
Các phương pháp trên đều cho kết quả phân chia là 2 nhóm chính. Kết quả với phương pháp
Two-stage density và Centroid có thể có 2 nhóm liên kết được phân chia (2 clusters), nhưng
với phương pháp Average (UPGMA) và Ward còn có thể chia thành 3 nhóm, nhóm 3 là
Denver và Houston (SAS, 2004 tr. 995).
Nếu xử lý với lệnh sau đây sẽ có đồ thị đa chiều các thành phố:
proc mds data= Kcach level=absolute out=out;
id city;
run;
244
Hình 7.16. Đồ thị phân tích đa chiều khoảng cách các thành phố Mỹ
Lệnh xử lý DISTANCE dùng để tính hệ số Jaccard giữa các cặp trong mẫu khảo sát. Hệ
số Jaccard là số biến ký hiệu là 1 cho cả hai đối tượng chia cho số biến có ký hiệu là 1 với
hoặc là hay cả các đối tượng khảo sát. Vì định lượng sự khác biệt (dissimilarity) cho phương
thức xếp nhóm liên kết, dùng hệ số DJACCARD (SAS, 2004).
Số liệu được ghi với giá trị 1 cho thấy có hiện diện, giá trị 0 là không có. Bài tập sử dụng các
primer (pr) để so sánh các giống từ A1 đến S18.
data Kcdtruyen;
input giong $10.
(Pr1 Pr2 Pr3 Pr4 Pr5 Pr6 Pr7 Pr8 Pr9)(1.) @@;
if mod(_n_,2) then input +4 @@; else input;
cards;
A1 110111011 K10 111010111
B2 010101010 L11 011011010
C3 010101010 M12 011011010
D4 111101110 N13 111111011
E5 101110101 O14 010111001
G6 101110101 P15 010011001
H7 101010111 Q16 111011101
I8 101010101 R17 111011001
J9 101000101 S18 001010101
;
245
retain dj1-dj18 .; /* initialize to missing values */
giong dj1 dj2 dj3 dj4 dj5 dj6 dj7 dj8 dj9
A1 0.00000 . . . . . . . .
K10 0.44444 0.00000 . . . . . . .
B2 0.42857 0.77778 0.00000 . . . . . .
L11 0.50000 0.50000 0.50000 0.00000 . . . . .
C3 0.42857 0.77778 0.00000 0.50000 0.00000 . . . .
M12 0.50000 0.50000 0.50000 0.00000 0.50000 0.00000 . . .
D4 0.44444 0.44444 0.42857 0.50000 0.42857 0.50000 0.00000 . .
N13 0.12500 0.33333 0.50000 0.37500 0.50000 0.37500 0.33333 0.00000 .
E5 0.55556 0.37500 0.88889 0.77778 0.88889 0.77778 0.55556 0.44444 0.00000
O14 0.28571 0.66667 0.50000 0.57143 0.50000 0.57143 0.66667 0.37500 0.62500
246
G6 0.55556 0.37500 0.88889 0.77778 0.88889 0.77778 0.55556 0.44444 0.00000
P15 0.42857 0.62500 0.66667 0.50000 0.66667 0.50000 0.77778 0.50000 0.75000
H7 0.55556 0.14286 0.88889 0.62500 0.88889 0.62500 0.55556 0.44444 0.28571
Q16 0.44444 0.25000 0.77778 0.50000 0.77778 0.50000 0.44444 0.33333 0.37500
I8 0.66667 0.28571 1.00000 0.75000 1.00000 0.75000 0.66667 0.55556 0.16667
R17 0.37500 0.37500 0.75000 0.42857 0.75000 0.42857 0.55556 0.25000 0.50000
J9 0.77778 0.42857 1.00000 0.87500 1.00000 0.87500 0.62500 0.66667 0.33333
S18 0.77778 0.42857 1.00000 0.71429 1.00000 0.71429 0.77778 0.66667 0.33333
giong dj10 dj11 dj12 dj13 dj14 dj15 dj16 dj17 dj18
A1 . . . . . . . . .
K10 . . . . . . . . .
B2 . . . . . . . . .
L11 . . . . . . . . .
C3 . . . . . . . . .
M12 . . . . . . . . .
D4 . . . . . . . . .
N13 . . . . . . . . .
E5 . . . . . . . . .
O14 0.00000 . . . . . . . .
G6 0.62500 0.00000 . . . . . . .
P15 0.20000 0.75000 0.00000 . . . . . .
H7 0.77778 0.28571 0.75000 0.00000 . . . . .
Q16 0.50000 0.37500 0.42857 0.37500 0.00000 . . . .
I8 0.75000 0.16667 0.71429 0.16667 0.28571 0.00000 . . .
R17 0.42857 0.50000 0.33333 0.50000 0.14286 0.42857 0.00000 . .
J9 0.87500 0.33333 0.85714 0.33333 0.42857 0.20000 0.57143 0.0 .
S18 0.71429 0.33333 0.66667 0.33333 0.42857 0.20000 0.57143 0.4 0
Cluster History
Norm T
Cent i
NCL ----Clusters Joined----- FREQ PSF PST2 Dist e
17 B2 C3 2 . . 0 T
16 L11 M12 2 . . 0 T
15 E5 G6 2 . . 0
14 A1 N13 2 113 . 0.2151
13 K10 H7 2 66.0 . 0.2458 T
12 Q16 R17 2 54.9 . 0.2458
11 CL15 I8 3 42.3 . 0.2868 T
10 O14 P15 2 37.3 . 0.3442
9 CL13 CL11 5 18.6 10.2 0.4899
8 CL9 J9 6 16.0 2.3 0.5052 T
7 CL8 S18 7 15.1 1.9 0.5062
6 CL14 CL12 4 13.7 13.2 0.5935
5 CL6 CL10 6 12.3 4.4 0.6176
4 CL5 CL16 8 10.8 4.9 0.7274
3 CL17 D4 3 14.2 . 0.7375
2 CL4 CL3 11 15.4 5.9 0.7999
1 CL2 CL7 18 . 15.4 0.9872
247
gi ong
A1
N13
Q16
R17
O14
P15
L11
M12
B2
C3
D4
K10
H7
E5
G6
I8
J9
S18
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0
Hình 7.17. Đồ thị cây phả hệ so sánh khoảng cách các giống với phương pháp Jaccard
Giải thích:
Khác biệt của các nhóm theo khoảng cách Jaccard cho thấy có thể chia 5 nhóm với PST2 nhỏ
là 3,5 ở giá trị 0,6176 hay là tỉ lệ chia nhóm là 61,76%. Tối đa có thể chia 7 nhóm ở giá trị
phân chia là 0,5062. Bảng hệ số Jaccard cho thấy các giống tương đồng nhau về các đặc điểm
như L11 và M12, B2 và C3, E5 và G6.
248
Tài liệu tham khảo
Tiếng Anh
Barnard, J., 1994. Computer Analysis of Standard Experimental Designs (with GENSTAT,
MINITAB, S, and SAS). New York State Agricultural Experiment Station, 115 pp.
Barlett, J. E., et al., 2001. Organization Research : Determinating Appropriate Sample Size in
Survey Research. Information Technology, Learning and Performance Journal. Vol. 19, No 1,
43-50.
Catala, M., 1993. Red Rice (Oryza sativa L.) Control In Rice Fields With The Puddling
Technique. Cahiers Options Méditerranéennes, vol. 15, no. 4, 143-146.
Clewer, A. G. and D. H. Scarisbrick, 2001. Practical Statistics and Experimental Design for
Plant and Crop Science. John Wiley & Sons, Ltd, 331 pp.
Eng, 2003. Sample size estimation. Radiology, 227: 309-313.
Jones, E. E., J. P. Clarkson, A. Mead and J. M. Whipps, 2004. Effect of inoculum type and
timing of application of Coniothyrium minitans on Sclerotinia sclerotiorum: influence on
apothecial production. Plant Pathology 53, 621–628.
Filippi, M. C. and A. S. Prabhu, 1997. Integrated Effect of Host Plant Resistance and
Fungicidal Seed Treatment on Rice Blast Control in Brazil. Plant Disease, April 1997, 351.
Finch, H., 2005. Comparison of Distance Measure in Cluster Analysis with Dichotomous Data.
J. of Data Sci., 85-100.
Gomez, K. A. and A. A. Gomez , 1984. Statistical Procedures for Agricultural Research, 2nd
ed. Wiley, New York, 590-601.
Hasanuzzaman, M., 2008. Data analysis with MSTAT-C. AGRO 516 Lecture Sheet# 09. 4 pp.
Israel, G. D., 2009. Determining Sample Size, PEOD6, University of Florida IFAS Extension.
Kuehl, R. O., 2000. Design of Experiments: Statistical Principles of Research Design and
Analysis. 2nd ed. 666 pp.
Kumar S. R., 2008. Characterizing Nutrient Management Effects on Yield of Sweet Sorghum
Genotypes. J. of Agric. Sci. 4(6), 787-789.
McDonald, J.H., 2009. Handbook of Biological Statistics (2nd ed.). Sparky House Publishing,
Baltimore, Maryland.
Mozaffarri M. et al., 2003. Yield and Petiole Potassium Levels of Two Modern Cotton
Cultivars as Influenced by Potassium Fertilization. AAES Research Series 521, 75-80.
MSTAT Development Team, 1993. MSTATC, Computer Program for the Design,
Management and Analysis of Agromomic Research Experiment. Michigan State University,
152 pp.
NRCS (Natural Resource Conservation Service, USDA), 2007. Statistix 8 User Guide for the
Plant Materials Program, version 2.0, 80 pp.
Oad F. C., Burio U. A and S. K. Agha, 2004. Effect of Organic Fertilizer Application on Maize
Fodder Production. Asian J. of Plant Sci. 3(3):375-377.
Peer, Van de Y. and De Wachter, R., 1994. TREECON for Windows user manual. 19 p.
Petersen, R.G., 1994. Agricultural Field Experiment. Marcel Dekker, Inc. USA, 409 pp.
Podlaski S. et al., 2003. The effect of parsley hydration treatment and pelleting on seed vigor.
Plant Soil Environ., 49, 114-118.
Qu, L., X. Wang, Y. Chen, and R. Scalzo, 2005. Commercial Seed Lots Exhibit Reduced Seed
Dormancy in Comparison to Wild Seed Lots of Echinacea purpurea. Hort Science. October;
40(6): 1843–1845.
249
Rummel, R.J., 1976. Understanding Correlation. University of Hawaii.
Rohlf F. J., 2000. NTSYSpc version 2.1 User Guide, 44pp.
SAS. 2004. SAS/STAT User’s Guide 9.1, 5123 pp.
SAS Institute, 1999. SAS version 8. Cary, NC, USA.
Schabenberger, O., 2000. SAS Code for Some Advanced Experimental Designs. UCLA
Academic Technological Services.
Siegle, D., 2006. Pearson Product-Moment Correlation Coefficient, University of Connecticut.
Singh, A. L.; K. Hariprassana and R. M. Solanki, 2008. Screening and Selection of Genotypes
for Tolerance of Soil Salinity. Australian J. of. Crop Sci. 1 (3): 69-77.
Statistix 9, 2008. Statistical software.
Taa, A.; Tanner and A. T. P. Bennie, 2002. Effects of Stubble Management, Tillage and
Cropping Sequence on the Severity of Take-all and Eyespot Diseases of Wheat. African Crop
Science Journal, Vol. 10. No. 1, 67-79.
Tan, Zhiyuan et al., 2001. Specific Detection of Bradyrhizobium and Rhizobium Strains
Colonizing Rice (Oryza sativa) Roots by 16S-23S Ribosomal Intergenic Spacer-Targeted PCR
Applied and Environmental Microbiology, Vol. 67, No. 8, p. 3655-3664.
Toit Lindsey du, Inglis D., and Miles C., 2007. Evaluation of Seed and Drench Treatments for
Management of Damping-off and Seedling Blight Pathogens of Spinach for Organic
Production. Progess Report : Organic Cropping Research for the Northwest.
Tree Fruit Research and Extension Center, 2000. A Field Guide to Experimental Designs.
Washington State University.
Westfall, P. H., 2008. A Course in Multiple Comparisons and Multiple Tests. Texas Tech
University.
Williams, F., 1968. Reasoning With Statistics. New York.
Xu, G., 1999. Estimating sample size for a descriptive study in quantitative research.
Philadelphia.
Tiếng Việt
Bùi Việt Hải, 2001. Phương pháp nghiên cứu khoa học và xử lý số liệu thực nghiệm. ĐH Nông
Lâm TP HCM, 135 tr.
Nguyễn Đình Hiền, 2007. Bài giảng về xử lý số liệu trong sinh học. NXB Nông nghiệp, 212 tr.
Ngô Đằng Phong, Huỳnh Thị Thùy Trang, Nguyễn Duy Năng, 2003. Hướng dẫn sử dụng phần
mềm MSTATC trong phương pháp thí nghiệm nông nghiệp, 90 tr.
Nguyễn Hải Thanh, 2005. Tin học ứng dụng trong ngành nông nghiệp. NXB Khoa học kỹ
thuật, 503 tr.
Phạm Chí Thành, 1976. Phương pháp thí nghiệm đồng ruộng. XN in Hà Nội, 264 tr.
Trịnh Công Thành, 2003. Ứng dụng SAS trong phân tích số liệu. ĐH Nông Lâm TP HCM,
304 tr.
Nguyễn Văn Tuấn, 2006. Phân tích số liệu và biểu đồ bằng R. Garvan Institute of Medical
Research, Sydney Australia, 118 tr.
250
Phụ lục trình bày số liệu trích từ một số tài liệu khoa học
(để tham khảo)
Giải thích: các giá trị trung bình trong cùng một cột có cùng ký tự không khác biệt ở mức 5%
theo trắc nghiệm đa đoạn Duncan. Số liệu được chuyển sang (log [x+1]) để phân tích thống kê.
2. Chuyển đổi giá trị arcsin √% và trình bày kết quả thí nghiệm 2 yếu tố có tương tác
Nguồn: Luping Qu, Xiping Wang1, Ying Chen, and Richard Scalzo, 2005. Commercial Seed
Lots Exhibit Reduced Seed Dormancy in Comparison to Wild Seed Lots of Echinacea
purpurea. HortScience. 40(6): 1843–1845.
Table 1. Seed germination results of Echinacea purpurea from different seed lots.
Treatment
251
Treatment
z
n = 50 seeds, three replications.
x
n = 32 seeds, three replications.
y
Percentage.
x
Mean separation within columns by Duncan’s multiple range test after a combined analysis of transformed data representing all seed lots;
transformed means (in parentheses) follow the untransformed data.
NS,*,***
Nonsignificant or significant at P < 0.05 or 0.0001, respectively.
Giải thích: các giá trị tỉ lệ % được chuyển sang arcsin √% và ghi trong dấu ngoặc. Tương tác lô
hạt và nghiệm thức được ghi khác biệt với chữ NS (không khác biệt) và dấu * là khác biệt ở
mức p < 0,05 hay *** là khác biệt ở mức p < 0,0001.
252
Giải thích: số trong hoặc là giá trị chuyển đổi sang góc arcsin của tỉ lệ nảy mầm, hồi phục, sức
sống, tỉ lệ nhiễm.
3. Chuyển đổi giá trị sang căn số: √ (giá trị +0,5)
Nguồn: Taa, A.; Tanner and A. T. P. Bennie, 2002. Effects of Stubble Management, Tillage
and Cropping Sequence on the Severity of Take-all and Eyespot Diseases of Wheat. African
Crop Science Journal, Vol. 10. No. 1, 67-79.
Giải thích: các giá trị được chuyển sang căn bậc hai của (chỉ số nhiễm + 0,5).
4. Chuyển đổi nhiều giá trị trong một cột của bảng số liệu
Nguồn: Lindsey du Toit, Inglis D., and Miles C., 2007. Evaluation of Seed and Drench
Treatments for Management of Damping-off and Seedling Blight Pathogens of Spinach for
Organic Production. Progess Report : Organic Cropping Research for the Northwest.
Giải thích:
Không chuyển đổi: trị số từ 47,8 đến 95,6%
253
Xếp hạng Rank: trị số từ 0,0 đến 42,8%
Rank: trị số từ 48,3 đến 95,6%
Chuyển đổi:
Square root: trị số từ 0,6 đến 61,3%
Log: trị số từ 2,3 đến 95,4%
Log: trị số từ 0,85 đến 6,06 g
Log: trị số từ 1,8 đến 91,0%
Arcsin: trị số từ 1,8 đến 64,1%
Arcsin: trị số từ 1,24 đến 5,20 g
254
Giải thích: 2 Các giá trị trung bình cùng ký tự sau cột không khác biệt thống kê theo phân tích
tỉ lệ với mức tin cậy 95%.
3
Các giá trị trung bình cùng cột có cùng ký tự không khác biệt thống kê LSD (p =
0,05).
6. Trình bày so sánh các giá trị với mức LSD α=0.05
Nguồn: Podlaski S. et al., 2003. The effect of parsley hydration treatment and pelleting on seed
vigor. Plant Soil Environ., 49, 114-118.
Giải thích:
Sử dụng giá trị LSD α=0,05 để so sánh các trung bình.
7. Trình bày kết quả hai chiều của thí nghiệm 2 yếu tố
Nguồn: Oad F. C., Burio U. A and S. K. Agha, 2004. Effect of Organic Fertilizer Application
on Maize Fodder Production. Asian J. of Plant Sci. 3(3):375-377.
255
Giải thích:
Bảng 2 chiều trình bày yếu tố phân chuồng và lượng đạm N (kg/ha) ảnh hưởng năng suất bắp
làm thức ăn gia súc. Các chỉ tiêu là chiều cao cây, đường kính thân, số lá trên cây, năng suất
bắp cây. So sánh khác biệt ở mức LSD 5% và 1% và sai số chuẩn S.E.
8. Sử dụng xác suất F(Prob) trong bảng phân tích phương sai
Nguồn: Kumar S. R., 2008. Characterizing Nutrient Management Effects on Yield of Sweet
Sorghum Genotypes. J. of Agric. Sci. 4(6), 787-789.
256
Giải thích:
Đây là thí nghiệm Split Split Plot. F (Prob) chỉ trắc nghiệm F theo bảng tính với xác suất Prob
(probability) có giá trị thực trong bảng ANOVA.
9. Trình bày so sánh các giá trị với ký tự ns: non-significant (không khác biệt)
Nguồn: Yildirim E. and I. Güvenç, 2006. Salt Tolerance of Pepper Cultivars during
Germination and Seedling Growth. Turk J. Agric. For. 30, 347-353
257
Giải thích:
**: không khác biệt, các trị số này có thể dùng ns ghi vào cột trị số (cột thứ hai).
Giải thích: *: MSD: khác biệt có nghĩa tối thiểu xác định theo trắc nghiệm Waller-Duncan.
Nguồn: Fateh, E., 2009. Effects of Organic and Chemical Fertilizers on Forage Yield and
Quality of Globe Artichoke (Cynara scolymus L.). Asian J. Crop Sci., 1: 40-48.
12. Trình bày bảng tương quan với hệ số r và xác suất có nghĩa p
Nguồn: Filippi M. C. and A. S. Prabhu, 1997. Integrated Effect of Host Plant Resistance and
Fungicidal Seed Treatment on Rice Blast Control in Brazil. Plant Disease / April 1997, 351.
Giải thích:
- Số cặp mẫu để tính tương quan là n = 24, có ảnh hưởng đến mức xác định có nghĩa (p) cho hệ
số tương quan r.
- Hệ số tương quan r có giá trị tương quan thuận với số dương (không ghi dấu) và tương quan
nghịch với dấu ‘–‘.
- Giá trị trong ngoặc là giá trị xác suất xác định mức tồn tại có nghĩa của giá trị hệ số tương
quan r do phần mềm thống kê xử lý. Mức độ nghiêm trọng của bệnh thể hiện với hệ số tương
quan r = -0,731 có nghĩa ở mức p = 0,0001.
259
13. Trình bày đồ thị cây phả hệ
Nguồn: Miguel Angel Cantamutto Sanchez, 2008. Agronomic Study of Two Annual Helianthus
Species Naturalized in Argentina as Potential Sunflower Crop Genetic Resource. PhD Thesis,
301pp.
Giải thích:
Khoảng cách dặm đường theo phương pháp liên kết đơn thứ bậc giữa các quần thể hướng
dương (p) và trạm lai tạo hướng dương (br), (phần mềm SAS).
260
Giải thích:
Nhóm liên kết của quần thể hướng dương Argentine và Bắc Mỹ, sử dụng phương pháp liên kết
phương sai tối thiểu Ward dựa trên khoảng cách Mahalanobis (phần mềm SAS).
261
Nguồn: Lukonge, E.,L. Herselman and M. T. Labuschagne, 2007. Analysis of Genetic
Diversity in Cotton (Gossypium hirsutum L.) Cultivars using Amplified Fragment Length
Polymorphism (AFLP) Markers. Agriculture Research Institute, Tanzania.
Giải thích: Sơ đồ cây phả hệ phân tích AFLP marker cho cây bông vải.
262
14. Trình bày sơ đồ cây tiến hóa và ước số boostrap
Nguồn : Gimenses M. A. et al., 2002. Genetic Relationship among Arachis species based on
AFLP. Genetics and Molacular Biology, 25:3, 349-353.
Giải thích:
Cây tiến hóa theo phương pháp trung bình số học cho thấy quan hệ 20 loài của 7 nhóm trong
giống Arachis.
263
Phụ lục các bảng tính
df2/d
f1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 INF
161.44 199.50 215.70 224.58 230.16 233.98 236.76 238.88 240.54 241.88 243.90 245.94 248.01 249.05 250.09 251.14 252.19 253.25 254.31
1 76 00 73 32 19 60 84 27 33 17 60 99 31 18 51 32 57 29 44
2 18.518 19.000 19.164 19.246 19.296 19.329 19.353 19.371 19.384 19.395 19.412 19.429 19.445 19.454 19.462 19.470 19.479 19.487 19.495
3 10.12 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602 8.6385 8.6166 8.5944 8.5720 8.5494 8.5264
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025 5.7744 5.7459 5.7170 5.6877 5.6581 5.6281
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581 4.5272 4.4957 4.4638 4.4314 4.3985 4.3650
6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742 3.8415 3.8082 3.7743 3.7398 3.7047 3.6689
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 3.5747 3.5107 3.4445 3.4105 3.3758 3.3404 3.3043 3.2674 3.2298
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 3.2839 3.2184 3.1503 3.1152 3.0794 3.0428 3.0053 2.9669 2.9276
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365 2.9005 2.8637 2.8259 2.7872 2.7475 2.7067
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740 2.7372 2.6996 2.6609 2.6211 2.5801 2.5379
11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464 2.6090 2.5705 2.5309 2.4901 2.4480 2.4045
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436 2.5055 2.4663 2.4259 2.3842 2.3410 2.2962
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589 2.4202 2.3803 2.3392 2.2966 2.2524 2.2064
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 2.5342 2.4630 2.3879 2.3487 2.3082 2.2664 2.2229 2.1778 2.1307
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 2.4753 2.4034 2.3275 2.2878 2.2468 2.2043 2.1601 2.1141 2.0658
16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756 2.2354 2.1938 2.1507 2.1058 2.0589 2.0096
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304 2.1898 2.1477 2.1040 2.0584 2.0107 1.9604
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906 2.1497 2.1071 2.0629 2.0166 1.9681 1.9168
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555 2.1141 2.0712 2.0264 1.9795 1.9302 1.8780
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242 2.0825 2.0391 1.9938 1.9464 1.8963 1.8432
21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960 2.0540 2.0102 1.9645 1.9165 1.8657 1.8117
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707 2.0283 1.9842 1.9380 1.8894 1.8380 1.7831
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476 2.0050 1.9605 1.9139 1.8648 1.8128 1.7570
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267 1.9838 1.9390 1.8920 1.8424 1.7896 1.7330
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075 1.9643 1.9192 1.8718 1.8217 1.7684 1.7110
26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898 1.9464 1.9010 1.8533 1.8027 1.7488 1.6906
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736 1.9299 1.8842 1.8361 1.7851 1.7306 1.6717
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586 1.9147 1.8687 1.8203 1.7689 1.7138 1.6541
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446 1.9005 1.8543 1.8055 1.7537 1.6981 1.6376
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317 1.8874 1.8409 1.7918 1.7396 1.6835 1.6223
40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389 1.7929 1.7444 1.6928 1.6373 1.5766 1.5089
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480 1.7001 1.6491 1.5943 1.5343 1.4673 1.3893
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587 1.6084 1.5543 1.4952 1.4290 1.3519 1.2539
inf 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799 1.8307 1.7522 1.6664 1.5705 1.5173 1.4591 1.3940 1.3180 1.2214 1.0000
264
Bảng 1.b. F Table for alpha=.01
df2/d
f1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 INF
4052.1 4999.5 5403.3 5624.5 5763.6 5858.9 5928.3 5981.0 6022.4 6055.8 6106.3 6157.2 6208.7 6234.6 6260.6 6286.7 6313.0 6339.3 6365.8
1 81 00 52 83 50 86 56 70 73 47 21 85 30 31 49 82 30 91 64
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.491 99.499
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.221 26.125
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.558 13.463
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.112 9.020
6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.969 6.880
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.737 5.650
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.946 4.859
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.398 4.311
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.558 4.405 4.327 4.247 4.165 4.082 3.996 3.909
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.690 3.602
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.449 3.361
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.255 3.165
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.094 3.004
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.959 2.868
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.845 2.753
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.746 2.653
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.660 2.566
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.584 2.489
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.517 2.421
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.457 2.360
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.403 2.305
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.354 2.256
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.310 2.211
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.270 2.169
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.233 2.131
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.198 2.097
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.167 2.064
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.138 2.034
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.111 2.006
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.917 1.805
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.726 1.601
120 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.336 2.192 2.035 1.950 1.860 1.763 1.656 1.533 1.381
inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.325 1.000
265
Bảng 2. Student’s t value (giá trị t bảng Student)
Degrees of Freedom Probability, p (Xác xuất)
(độ tự do)
266
Bảng 3.a. Giá trị cực trọng q (p, df; 0.05) cho trắc nghiệm đa đoạn Duncan
Critical values q'(p, df; 0.05) for Duncan's multiple range tests
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
1 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969
2 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085
3 4.501 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516
4 3.926 4.013 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033
5 3.635 3.749 3.796 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814
6 3.460 3.586 3.649 3.680 3.694 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697
7 3.344 3.477 3.548 3.588 3.611 3.622 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625
8 3.261 3.398 3.475 3.521 3.549 3.566 3.575 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579
9 3.199 3.339 3.420 3.470 3.502 3.523 3.536 3.544 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547
10 3.151 3.293 3.376 3.430 3.465 3.489 3.505 3.516 3.522 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525
------------------------------------------------------------------------------------------------------------------------------------------
11 3.113 3.256 3.341 3.397 3.435 3.462 3.480 3.493 3.501 3.506 3.509 3.510 3.510 3.510 3.510 3.510 3.510 3.510 3.510
12 3.081 3.225 3.312 3.370 3.410 3.439 3.459 3.474 3.484 3.491 3.495 3.498 3.498 3.498 3.498 3.498 3.498 3.498 3.498
13 3.055 3.200 3.288 3.348 3.389 3.419 3.441 3.458 3.470 3.478 3.484 3.488 3.490 3.490 3.490 3.490 3.490 3.490 3.490
14 3.033 3.178 3.268 3.328 3.371 3.403 3.426 3.444 3.457 3.467 3.474 3.479 3.482 3.484 3.484 3.484 3.484 3.484 3.484
15 3.014 3.160 3.250 3.312 3.356 3.389 3.413 3.432 3.446 3.457 3.465 3.471 3.476 3.478 3.480 3.480 3.480 3.480 3.480
16 2.998 3.144 3.235 3.297 3.343 3.376 3.402 3.422 3.437 3.449 3.458 3.465 3.470 3.473 3.476 3.477 3.477 3.477 3.477
17 2.984 3.130 3.222 3.285 3.331 3.365 3.392 3.412 3.429 3.441 3.451 3.459 3.465 3.469 3.472 3.474 3.475 3.475 3.475
18 2.971 3.117 3.210 3.274 3.320 3.356 3.383 3.404 3.421 3.435 3.445 3.454 3.460 3.465 3.469 3.472 3.473 3.474 3.474
19 2.960 3.106 3.199 3.264 3.311 3.347 3.375 3.397 3.415 3.429 3.440 3.449 3.456 3.462 3.466 3.469 3.472 3.473 3.474
20 2.950 3.097 3.190 3.255 3.303 3.339 3.368 3.390 3.409 3.423 3.435 3.445 3.452 3.459 3.463 3.467 3.470 3.472 3.473
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
21 2.941 3.088 3.181 3.247 3.295 3.332 3.361 3.385 3.403 3.418 3.431 3.441 3.449 3.456 3.461 3.465 3.469 3.471 3.473
22 2.933 3.080 3.173 3.239 3.288 3.326 3.355 3.379 3.398 3.414 3.427 3.437 3.446 3.453 3.459 3.464 3.467 3.470 3.472
23 2.926 3.072 3.166 3.233 3.282 3.320 3.350 3.374 3.394 3.410 3.423 3.434 3.443 3.451 3.457 3.462 3.466 3.469 3.472
24 2.919 3.066 3.160 3.226 3.276 3.315 3.345 3.370 3.390 3.406 3.420 3.431 3.441 3.449 3.455 3.461 3.465 3.469 3.472
25 2.913 3.059 3.154 3.221 3.271 3.310 3.341 3.366 3.386 3.403 3.417 3.429 3.439 3.447 3.454 3.459 3.464 3.468 3.471
26 2.907 3.054 3.149 3.216 3.266 3.305 3.336 3.362 3.382 3.400 3.414 3.426 3.436 3.445 3.452 3.458 3.463 3.468 3.471
27 2.902 3.049 3.144 3.211 3.262 3.301 3.332 3.358 3.379 3.397 3.412 3.424 3.434 3.443 3.451 3.457 3.463 3.467 3.471
28 2.897 3.044 3.139 3.206 3.257 3.297 3.329 3.355 3.376 3.394 3.409 3.422 3.433 3.442 3.450 3.456 3.462 3.467 3.470
29 2.892 3.039 3.135 3.202 3.253 3.293 3.326 3.352 3.373 3.392 3.407 3.420 3.431 3.440 3.448 3.455 3.461 3.466 3.470
30 2.888 3.035 3.131 3.199 3.250 3.290 3.322 3.349 3.371 3.389 3.405 3.418 3.429 3.439 3.447 3.454 3.460 3.466 3.470
------------------------------------------------------------------------------------------------------------------------------------------
31 2.884 3.031 3.127 3.195 3.246 3.287 3.319 3.346 3.368 3.387 3.403 3.416 3.428 3.438 3.446 3.454 3.460 3.465 3.470
32 2.881 3.028 3.123 3.192 3.243 3.284 3.317 3.344 3.366 3.385 3.401 3.415 3.426 3.436 3.445 3.453 3.459 3.465 3.470
33 2.877 3.024 3.120 3.188 3.240 3.281 3.314 3.341 3.364 3.383 3.399 3.413 3.425 3.435 3.444 3.452 3.459 3.465 3.470
34 2.874 3.021 3.117 3.185 3.238 3.279 3.312 3.339 3.362 3.381 3.398 3.412 3.424 3.434 3.443 3.451 3.458 3.464 3.469
35 2.871 3.018 3.114 3.183 3.235 3.276 3.309 3.337 3.360 3.379 3.396 3.410 3.423 3.433 3.443 3.451 3.458 3.464 3.469
36 2.868 3.015 3.111 3.180 3.232 3.274 3.307 3.335 3.358 3.378 3.395 3.409 3.421 3.432 3.442 3.450 3.457 3.464 3.469
37 2.865 3.013 3.109 3.178 3.230 3.272 3.305 3.333 3.356 3.376 3.393 3.408 3.420 3.431 3.441 3.449 3.457 3.463 3.469
38 2.863 3.010 3.106 3.175 3.228 3.270 3.303 3.331 3.355 3.375 3.392 3.407 3.419 3.431 3.440 3.449 3.456 3.463 3.469
39 2.861 3.008 3.104 3.173 3.226 3.268 3.301 3.330 3.353 3.373 3.391 3.406 3.418 3.430 3.440 3.448 3.456 3.463 3.469
40 2.858 3.005 3.102 3.171 3.224 3.266 3.300 3.328 3.352 3.372 3.389 3.404 3.418 3.429 3.439 3.448 3.456 3.463 3.469
------------------------------------------------------------------------------------------------------------------------------------------
48 2.843 2.991 3.087 3.157 3.211 3.253 3.288 3.318 3.342 3.363 3.382 3.398 3.412 3.424 3.435 3.445 3.453 3.461 3.468
60 2.829 2.976 3.073 3.143 3.198 3.241 3.277 3.307 3.333 3.355 3.374 3.391 3.406 3.419 3.431 3.441 3.451 3.460 3.468
80 2.814 2.961 3.059 3.130 3.185 3.229 3.266 3.297 3.323 3.346 3.366 3.384 3.400 3.414 3.427 3.438 3.449 3.458 3.467
120 2.800 2.947 3.045 3.116 3.172 3.217 3.254 3.286 3.313 3.337 3.358 3.377 3.394 3.409 3.423 3.435 3.446 3.457 3.466
240 2.786 2.933 3.031 3.103 3.159 3.205 3.243 3.276 3.304 3.329 3.350 3.370 3.388 3.404 3.418 3.432 3.444 3.455 3.466
Inf 2.772 2.918 3.017 3.089 3.146 3.193 3.232 3.265 3.294 3.320 3.343 3.363 3.382 3.399 3.414 3.428 3.442 3.454 3.466
------------------------------------------------------------------------------------------------------------------------------------------
Bảng 3.b. Giá trị cực trọng q (p, df; 0.01) cho trắc nghiệm đa đoạn Duncan
Critical values q'(p, df; 0.01) for Duncan's multiple range tests
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
1 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024
2 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036
3 8.260 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321
4 6.511 6.677 6.740 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755
5 5.702 5.893 5.989 6.040 6.065 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074
6 5.243 5.439 5.549 5.614 5.655 5.680 5.694 5.701 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703
7 4.949 5.145 5.260 5.333 5.383 5.416 5.439 5.454 5.464 5.470 5.472 5.472 5.472 5.472 5.472 5.472 5.472 5.472 5.472
8 4.745 4.939 5.056 5.134 5.189 5.227 5.256 5.276 5.291 5.302 5.309 5.313 5.316 5.317 5.317 5.317 5.317 5.317 5.317
9 4.596 4.787 4.906 4.986 5.043 5.086 5.117 5.142 5.160 5.174 5.185 5.193 5.199 5.202 5.205 5.206 5.206 5.206 5.206
10 4.482 4.671 4.789 4.871 4.931 4.975 5.010 5.036 5.058 5.074 5.087 5.098 5.106 5.112 5.117 5.120 5.122 5.123 5.124
------------------------------------------------------------------------------------------------------------------------------------------
11 4.392 4.579 4.697 4.780 4.841 4.887 4.923 4.952 4.975 4.994 5.009 5.021 5.031 5.039 5.045 5.050 5.054 5.057 5.059
12 4.320 4.504 4.622 4.705 4.767 4.815 4.852 4.882 4.907 4.927 4.944 4.957 4.969 4.978 4.986 4.993 4.998 5.002 5.005
13 4.260 4.442 4.560 4.643 4.706 4.754 4.793 4.824 4.850 4.871 4.889 4.904 4.917 4.927 4.936 4.944 4.950 4.955 4.960
14 4.210 4.391 4.508 4.591 4.654 4.703 4.743 4.775 4.802 4.824 4.843 4.859 4.872 4.884 4.894 4.902 4.909 4.916 4.921
15 4.167 4.346 4.463 4.547 4.610 4.660 4.700 4.733 4.760 4.783 4.803 4.820 4.834 4.846 4.857 4.866 4.874 4.881 4.887
16 4.131 4.308 4.425 4.508 4.572 4.622 4.662 4.696 4.724 4.748 4.768 4.785 4.800 4.813 4.825 4.835 4.843 4.851 4.858
17 4.099 4.275 4.391 4.474 4.538 4.589 4.630 4.664 4.692 4.717 4.737 4.755 4.771 4.785 4.797 4.807 4.816 4.824 4.832
18 4.071 4.246 4.361 4.445 4.509 4.559 4.601 4.635 4.664 4.689 4.710 4.729 4.745 4.759 4.771 4.782 4.792 4.801 4.808
19 4.046 4.220 4.335 4.418 4.483 4.533 4.575 4.610 4.639 4.664 4.686 4.705 4.722 4.736 4.749 4.760 4.771 4.780 4.788
20 4.024 4.197 4.312 4.395 4.459 4.510 4.552 4.587 4.617 4.642 4.664 4.684 4.701 4.716 4.729 4.741 4.751 4.761 4.769
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
21 4.004 4.177 4.291 4.374 4.438 4.489 4.531 4.567 4.597 4.622 4.645 4.664 4.682 4.697 4.711 4.723 4.734 4.743 4.752
22 3.986 4.158 4.272 4.355 4.419 4.470 4.513 4.548 4.578 4.604 4.627 4.647 4.664 4.680 4.694 4.706 4.718 4.728 4.737
23 3.970 4.141 4.254 4.337 4.402 4.453 4.496 4.531 4.562 4.588 4.611 4.631 4.649 4.665 4.679 4.692 4.703 4.713 4.723
24 3.955 4.126 4.239 4.322 4.386 4.437 4.480 4.516 4.546 4.573 4.596 4.616 4.634 4.651 4.665 4.678 4.690 4.700 4.710
25 3.942 4.112 4.224 4.307 4.371 4.423 4.466 4.502 4.532 4.559 4.582 4.603 4.621 4.638 4.652 4.665 4.677 4.688 4.698
26 3.930 4.099 4.211 4.294 4.358 4.410 4.452 4.489 4.520 4.546 4.570 4.591 4.609 4.626 4.640 4.654 4.666 4.677 4.687
27 3.918 4.087 4.199 4.282 4.346 4.397 4.440 4.477 4.508 4.535 4.558 4.579 4.598 4.615 4.630 4.643 4.655 4.667 4.677
28 3.908 4.076 4.188 4.270 4.334 4.386 4.429 4.465 4.497 4.524 4.548 4.569 4.587 4.604 4.619 4.633 4.646 4.657 4.667
29 3.898 4.065 4.177 4.260 4.324 4.376 4.419 4.455 4.486 4.514 4.538 4.559 4.578 4.595 4.610 4.624 4.637 4.648 4.659
30 3.889 4.056 4.168 4.250 4.314 4.366 4.409 4.445 4.477 4.504 4.528 4.550 4.569 4.586 4.601 4.615 4.628 4.640 4.650
------------------------------------------------------------------------------------------------------------------------------------------
267
31 3.881 4.047 4.159 4.241 4.305 4.357 4.400 4.436 4.468 4.495 4.519 4.541 4.560 4.577 4.593 4.607 4.620 4.632 4.643
32 3.873 4.039 4.150 4.232 4.296 4.348 4.391 4.428 4.459 4.487 4.511 4.533 4.552 4.570 4.585 4.600 4.613 4.625 4.635
33 3.865 4.031 4.142 4.224 4.288 4.340 4.383 4.420 4.452 4.479 4.504 4.525 4.545 4.562 4.578 4.592 4.606 4.618 4.629
34 3.859 4.024 4.135 4.217 4.281 4.333 4.376 4.413 4.444 4.472 4.496 4.518 4.538 4.555 4.571 4.586 4.599 4.611 4.622
35 3.852 4.017 4.128 4.210 4.273 4.325 4.369 4.406 4.437 4.465 4.490 4.511 4.531 4.549 4.565 4.579 4.593 4.605 4.616
36 3.846 4.011 4.121 4.203 4.267 4.319 4.362 4.399 4.431 4.459 4.483 4.505 4.525 4.543 4.559 4.573 4.587 4.599 4.611
37 3.840 4.005 4.115 4.197 4.260 4.312 4.356 4.393 4.425 4.452 4.477 4.499 4.519 4.537 4.553 4.568 4.581 4.594 4.605
38 3.835 3.999 4.109 4.191 4.254 4.306 4.350 4.387 4.419 4.447 4.471 4.493 4.513 4.531 4.548 4.562 4.576 4.589 4.600
39 3.830 3.993 4.103 4.185 4.249 4.301 4.344 4.381 4.413 4.441 4.466 4.488 4.508 4.526 4.542 4.557 4.571 4.584 4.595
40 3.825 3.988 4.098 4.180 4.243 4.295 4.339 4.376 4.408 4.436 4.461 4.483 4.503 4.521 4.537 4.552 4.566 4.579 4.591
------------------------------------------------------------------------------------------------------------------------------------------
48 3.793 3.955 4.064 4.145 4.209 4.261 4.304 4.341 4.374 4.402 4.427 4.450 4.470 4.489 4.506 4.521 4.535 4.548 4.561
60 3.762 3.922 4.030 4.111 4.174 4.226 4.270 4.307 4.340 4.368 4.394 4.417 4.437 4.456 4.474 4.489 4.504 4.518 4.530
80 3.732 3.890 3.997 4.077 4.140 4.192 4.236 4.273 4.306 4.335 4.360 4.384 4.405 4.424 4.442 4.458 4.473 4.487 4.500
120 3.702 3.858 3.964 4.044 4.107 4.158 4.202 4.239 4.272 4.301 4.327 4.351 4.372 4.392 4.410 4.426 4.442 4.456 4.469
240 3.672 3.827 3.932 4.011 4.073 4.125 4.168 4.206 4.239 4.268 4.294 4.318 4.339 4.359 4.378 4.394 4.410 4.425 4.439
Inf 3.643 3.796 3.900 3.978 4.040 4.091 4.135 4.172 4.205 4.235 4.261 4.285 4.307 4.327 4.345 4.363 4.379 4.394 4.408
------------------------------------------------------------------------------------------------------------------------------------------
No of No of
XY Degree of Freedom Confidence XY Degree of Freedom Confidence
Pairs (n - 2) Pairs (n - 2)
Số cặp Độ tự do Độ tin cậy Số cặp Độ tự do Độ tin cậy
XY (n) XY (n)
0.05 0.01 0.05 0.01
3 1 0.997 1 27 25 0.381 0.487
4 2 0.950 0.990 28 26 0.374 0.479
5 3 0.878 0.959 29 27 0.367 0.471
6 4 0.811 0.917 30 28 0.361 0.463
7 5 0.754 0.875 31 29 0.355 0.456
8 6 0.707 0.834 32 30 0.349 0.449
9 7 0.666 0.798 33 31 0.344 0.442
10 8 0.632 0.765 34 32 0.339 0.436
11 9 0.602 0.735 35 33 0.334 0.430
12 10 0.576 0.708 36 34 0.329 0.424
13 11 0.553 0.684 37 35 0.325 0.418
14 12 0.532 0.661 38 36 0.32 0.413
15 13 0.514 0.641 39 37 0.316 0.408
16 14 0.497 0.623 40 38 0.312 0.403
17 15 0.482 0.606 41 39 0.308 0.398
18 16 0.468 0.590 42 40 0.304 0.393
19 17 0.456 0.575 43 41 0.301 0.389
20 18 0.444 0.561 44 42 0.297 0.384
21 19 0.433 0.549 45 43 0.294 0.380
22 20 0.423 0.537 46 44 0.291 0.376
23 21 0.413 0.526 47 45 0.288 0.372
24 22 0.404 0.515 48 46 0.285 0.368
25 23 0.396 0.505 49 47 0.282 0.365
26 24 0.388 0.496 50 48 0.279 0.361
268
269