You are on page 1of 270

PGS. TS.

LÊ QUANG HƯNG

PHÂN TÍCH THỐNG KÊ,


THÍ NGHIỆM KHOA HỌC CÂY TRỒNG
VỚI SAS

2010
Lời mở đầu
SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu.
Riêng SAS/STAT có trên 60 phương thức phân tích số liệu áp dụng cho phân tích phương sai,
hồi qui, phân tích tổng hợp, phân tích đa biến, phân tích số liệu bằng đồ thị.
Dữ liệu lập trình chính xác trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9
hàng với 24 từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file excel, word, là dạng
lưu trữ số liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file
của SAS (.sas) để phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã
hóa bằng số hay tên giống cây trồng, tên phương pháp, rất thuận tiện trong file mẫu word.
Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), copy và paste vào Program
editor và xử lý bằng lệnh RUN với thời gian rất nhanh, chỉ một vài giây cho tất cả các cách xử
lý 1 lần như: phân tích phương sai, xếp nhóm các nghiệm thức của các yếu tố, tính ma trận
tương tác các yếu tố, phân tích số liệu bằng đồ thị, xử lý nhiều kiểu thí nghiệm một, hai hay ba
yếu tố. Các chỉ tiêu theo dõi (khoảng 10 chỉ tiêu hay nhiều hơn) có thể xử lý một lượt bằng
copy file mẫu và đổi số liệu của chỉ tiêu mới. Kết quả phân tích được giải thích rất rõ ràng về
xếp nhóm các nghiệm thức (grouping) theo ký tự A, B cho yếu tố có hai nghiệm thức và A, B,
C, D, E cho yếu tố có nhiều nghiệm thức. Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều
thể hiện rõ trong bảng ANOVA. Trường hợp các lệnh xử lý không đúng, SAS sẽ sửa lại trong
phần Log-(untitled) với các từ hay lỗi, chỉnh lại cho đúng và xử lý tiếp.
Quyển sách trình bày bốn chương đầu thuộc bố trí thí nghiệm tiêu chuẩn chủ yếu về khoa
học cây trồng, ba chương sau thuộc về tương tác tổng hợp, thống kê mô tả, thống kê ước lượng
kết hợp thí nghiệm và đồ thị. Các bài tập được trích dẫn từ các sách thống kê đã xuất bản, căn
cứ trên các bài tập mẫu bao gồm các phương thức xử lý ANOVA, GLM, MIXED, LATTICE,
tương quan, hồi qui, tương tác, tương ứng, xếp nhóm liên kết (clustering), cùng với các nghiên
cứu thực nghiệm phổ biến nhất.
Rất mong được sự góp ý để quyển sách được sử dụng và tự lập trình thuận tiện hơn. Các
góp ý xin gửi về: PGS.TS. Lê Quang Hưng, Khoa Nông học, Đại học Nông Lâm TPHCM.
Liên hệ E-mail: lqlqhung@yahoo.com
Trân trọng,
Tác giả
Ngày 9-4-2010, 268 tr.
1
Mục lục

Chương 1
PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA),
XẾP NHÓM (GROUPING) NGHIỆM THỨC VÀ
SO SÁNH TƯƠNG TÁC (INTERACTION)
1.1. Mục tiêu 4
1.2. Nguồn số liệu theo dõi thí nghiệm 4
1.3. Tạo file word mẫu (sample) 5
1.4. Xử lý số liệu với SAS 7
1.5. Giải thích kết quả 10
1.6. Trình bày kết quả 11
1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 11
1.8. Các phương pháp so sánh các trung bình nghiệm thức và ghi ký hiệu 17
1.9. Phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất 18
1.10. Ý nghĩa các từ so sánh thống kê 22
1.11. Chuyển đổi giá trị (transformation) 23
1.12. Ô cơ sở (plot size) và lặp lại (replications) 32
1.13. Chọn mẫu điều tra (sample size determination) 33
1.14. Lưu ý về vận hành của SAS và chỉnh sửa lỗi 34
Chương 2
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)
2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố 35
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối 41
2.3. Thí nghiệm hoàn toàn ngẫu nhiên ba yếu tố có tương tác 43
Chương 3
PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM
KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)
3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố 52
3.2. Kiểu ô vuông la tinh 54
3.3. Khối đầy đủ ngẫu nhiên hai yếu tố có tương tác 56
3.4. Thí nghiệm lặp lại theo năm (tương tác năm*giống) 62
3.5. Thí nghiệm nhiều địa điểm cùng kiểu RCBD 72
3.6. Thí nghiệm lô phụ (Split plot) có tương tác (interaction) 74
3.7. Thí nghiệm lô sọc (Strip plot) 87
3.8. Thí nghiệm ba yếu tố (3 factors=23) 91
3.9. Thí nghiệm tiến hành ở hai thời vụ kiểu RCBD 2 yếu tố 97
3.10. Thí nghiệm lô phụ của lô phụ (Split Split Plot) 107
3.11. Thí nghiệm lô phụ của lô sọc (Strip Split Plot) 113
3.12. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông 117
dụng

2
Chương 4
PHÂN TÍCH PHƯƠNG SAI
THÍ NGHIỆM MẠNG LƯỚI (LATTICE),
KHỐI KHÔNG ĐẦY ĐỦ (Incomplete Block Design)
4.1. Áp dụng kiểu mạng lưới 122
4.2. Thí nghiệm mạng lưới ô vuông cân đối (balanced square lattices) 122
4.3. Thí nghiệm mạng lưới ô vuông cân đối một phần (partially balanced square 123
lattices)
4.4. Thí nghiệm mạng lưới chữ nhật (rectangular lattices) 126
Chương 5
PHÂN TÍCH TƯƠNG TÁC (Interaction)
VÀ TỔNG HỢP (Mixed Effect)
5.1. Phân tích tương tác (Interaction) 130
5.2. Phân tích hiệp phương sai (Covariance) 132
5.3. Phân tích đa biến phương sai (Manova) 135
5.4. Tương tác tổng hợp (Mixed Effect) 141
5.5. Phân tích tương tác tổng hợp kiểu lô phụ 148
5.6. Tương tác tổng hợp và mặt phẳng tối ưu 151
5.7. Phân tích xác suất tiên nghiệm (prior probabilities) 153
5.8. Phương pháp ước lượng Bootstrap 157
Chương 6
TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG
TƯƠNG QUAN VÀ HỒI QUI
6.1. Tính giá trị trung bình và độ lệch chuẩn 164
6.2. T test: so sánh khác biệt trung bình hai mẫu 166
6.3. Chi-bình phương (Chi-square) so sánh tính độc lập của hai yếu tố 167
6.4. Tương quan (correlation) 169
6.5. Hồi qui tuyến tính đơn biến (simple regression) 172
6.6. Hồi qui tuyến tính đa biến (multiple regression) 175
6.7. Hồi qui bậc hai, xác định điểm tối ưu 176
6.8. Hồi qui bậc hai, xác định đường biễu diễn 177
6.9. Tối ưu hóa và xác định điểm 182
6.10. Đồ thị tương quan ba yếu tố 186
6.11. Tối ưu hóa đáp ứng mặt phẳng bốn biến số và xác định điểm 189
6.12. Đồ thị hình lưới chiếu mặt phẳng ba chiều 193
Chương 7
PHÂN TÍCH SỐ LIỆU BẰNG ĐỒ THỊ
7.1. Phân tích thành phần chính (Principal component analysis) 199
7.2. Phân tích tương ứng đa biến (Multiple Correspondance Analysis, MCA) 201
7.3. Phân tích thành phần chính Prinqual 207
7.4. Phân tích tương đồng (similarity) và khoảng cách (distance) sơ đồ hình cây 212
phả hệ (tree plot)
Tài liệu tham khảo 249
Phụ lục trình bày số liệu trích từ một số tài liệu khoa học (để tham khảo) 251
Phụ lục các bảng tính 264

3
Chương 1

PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING)
NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION)

1.1. Mục tiêu:


Mục tiêu của phân tích ANOVA (ANalysis Of VAriance, phân tích phương sai, phân tích
biến lượng) là xác định các nghiệm thức có ý nghĩa khi giá trị tính F nhỏ hơn mức xác suất
(probability) p < 0,05 hay p < 0,01 là mức thường dùng trong nông nghiệp, sinh học. Sau đó
các nghiệm thức được xếp nhóm (grouping, SAS, 2004; homogeneous grouping: nhóm tương
đồng (NRCS, 2007) với các ký tự A, B cho hai nghiệm thức và A, B, C, D, E cho nhiều
nghiệm thức là để so sánh sai khác và chọn được nghiệm thức phù hợp của thí nghiệm. Đối với
thí nghiệm nhiều yếu tố, cần có so sánh tương tác (interaction) của các yếu tố. Các mẫu bài tập
được tạo ra từ file excel và word để dễ sử dụng và lưu số liệu ở dạng .doc, .txt, .xls, .sas.

1.2. Nguồn số liệu theo dõi thí nghiệm:


Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm. Thí dụ so
sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể
ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối
đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV).
Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm
thức ghi sau.
Sơ đồ thí nghiệm Chiều biến thiên
Hướng dốc cao
I 1 3 2 5 4
9.00 7.00 10.28 10.94 9.86
II 2 1 5 4 3
7.59 8.00 10.63 9.99 8.00
III 3 4 2 1 5
8.23 11.77 10.15 7.00 9.81
IV 5 1 3 2 4
9.90 9.12 7.40 10.00 8.00
thấp

Cách ghi số liệu lưu trong file excel

khoi nthuc nsuat


1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15

4
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
Để phân tích kết quả, cần thực hiện:
- Tạo file mẫu word.
- Xử lý với chương trình thống kê SAS.
- Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì
chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp
nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant).
- Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%.
Ghi chú: /*------- phương pháp ------*/ có thể điền vào lệnh xử lý để giải thích phân biệt
các phương pháp.
1.3. Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương trình
SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và xử lý
cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo file
mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực
tiếp, từ các file khác như .doc, .txt) và (3) nhập lệnh xử lý ANOVA và xếp nhóm.
Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải
ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô.

Các lệnh xử lý như sau:


- DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT;
- INPUT: chọn ký hiệu cho nhập biến số, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự.
Nếu nhiều từ cần có gạch nối dài, hoặc xác định độ dài (length) với tên biến số như
GIONG$20. (hai mươi ký tự). Nếu dùng bảng hàng ngang có các biến nối tiếp, ghi:
INPUT T Y@@; hay INPUT T GIONG$20.;
Datalines; (thay cho cards;)
* Cách 1: K (Khối), T (nghiệm thức), Y (năng suất), có cách một khoảng hoặc dấu $ như
INPUT K T Y; hay INPUT K $ T $ Y;
* Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT;
- CARDS; lệnh nhập số, kết thúc bằng dấu ;
- Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 (tiếng Việt thì
chương trình không xử lý được).
- PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG (hồi qui),
PROC ANOVA;
riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố.
- CLASS: xếp loại các biến dùng phân tích, gồm có khối (K) và nghiệm thức (T),
CLASS K T;
- MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghiệm thức (T)
MODEL Y = K T;
- MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T;
- LSD ALPHA = 0.05: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.05. Có
thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha =
5
0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả
hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05; MEANS T / LSD ALPHA = 0.01; thì SAS
xử lý cả hai, khi đó xem trung bình các nghiệm thức ở bảng xếp nhóm và chọn mức có nghĩa
p < 0,05 hay p < 0,01.
- TITLE: tựa đề không cần ghi, nếu ghi có thể ghi nhiều chữ, có dấu ‘ ’ để nêu rõ chỉ tiêu
theo dõi như TITLE ‘NANG SUAT’;
- RUN; lệnh xử lý (RUN, SUBMIT ở thanh công cụ).
RUN;
Lưu ý: sau mỗi lệnh, kết thúc bằng dấu ;

Trình tự nhập số liệu được sử dụng ký tự đơn giản và giải thích như sau:
DATA; (DATA: tên dữ liệu, ghi thêm tên và kết thúc bằng dấu ;)
INPUT K $ T $ Y; (INPUT: nhập biến và có ký tự $ cách khoảng và dấu;)
CARDS; (CARDS: lệnh nhập số liệu, kết thúc bằng dấu;)
(Copy và paste chỉ có phần số từ file excel trên)
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
; (dấu ; cho biết đã ghi xong số liệu)
PROC ANOVA; (Xử lý ANOVA)
CLASS K T; (Xếp loại các biến dùng xử lý)
MODEL Y = K T; (Mô hình biến phụ thuộc bảng ANOVA)
MEANS T / LSD ALPHA=0.05; (Xếp hạng các trung bình theo alpha)
TITLE ‘NANG SUAT’; (Đặt tên của chỉ tiêu theo dõi)
RUN; (Lệnh xử lý)
Tóm lại các lệnh (command, code) phân tích thống kê cho cách 1 như sau:
DATA;
INPUT K $ T $ Y;
CARDS;
……Số liệu từ bảng excel
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;
6
Input cách 2 như sau:
DATA;
INPUT KHOI NTHUC NSUAT;
CARDS;
……
;
PROC ANOVA;
CLASS KHOI NTHUC;
MODEL NSUAT = KHOI NTHUC;
MEANS NTHUC / LSD ALPHA=0.05;
TITLE ‘NANG SUAT’;
RUN;

* Ghi chú về xếp hạng các nghiệm thức:


- Thí nghiệm từ hai đến năm nghiệm thức chọn so sánh Fisher’s LSD test, ghi:
MEANS NTHUC / LSD; kết quả xếp nhóm mặc định với APHA = 0.05; Least Significant
Difference (sai biệt nhỏ nhất có nghĩa). Xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA =
0.01, thông thường là sau khi kiểm tra kết quả xử lý ANOVA với nghiệm thức có p < 0,01.
- Thí nghiệm từ sáu nghiệm thức trở lên chọn Duncan test, ghi:
MEANS NTHUC / DUNCAN; kết quả xếp nhóm mặc định với APHA = 0.05 (Trịnh Công
Thành, 2003). Trắc nghiệm đa đoạn Duncan (Duncan’s Multiple Range Test) xếp nhóm ở mức
khác biệt p = 0,01 nếu ghi ALPHA = 0.01. Duncan’s Multiple Range Test xếp nhóm toàn thí
nghiệm khi trên bốn nghiệm thức.

1.4. Xử lý số liệu với SAS


- Mở chương trình (ex: SAS v.8, SAS v.9), giao diện có các phần cho xử lý thống kê như
Program editor, Log, Ouput ở thanh bar phía dưới cùng. Chọn (click) phần Program
editor.

Hình 1.1. Giao diện của SAS version 8

7
- Copy file word mẫu và patse vào phần Program editor.
- Có thể mở trực tiếp dạng file lưu từ .sas hoặc word .txt.

File word mẫu để phân tích ANOVA, khối đầy đủ ngẫu nhiên, năm nghiệm thức, bốn khối.
Ký hiệu: K (Khối), T (nghiệm thức), Y (năng suất cải ngọt kg/ô 20 m2). Trình tự xử lý:
- Chuyển file mẫu 1 sau đây (copy và paste) từ DATA đến RUN; vào Program
Editor.

- Click vào hình ở thanh công cụ (task bar) để xử lý số liệu hoặc


(Run→Submit).
- Xem kết quả trong Ouput: lưu bằng Edit→Select all→ Copy, paste vào word, hoặc
save .sas.
- Thời gian xử lý cpu time = 0.02 seconds.

File mẫu 1:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT THUC THU’;
RUN;

8
Lưu ý: Có thể dùng mẫu này để xử lý nhiều chỉ tiêu 1 lượt,
chỉ cần thay mức alpha=0.05 hay alpha=0.01 sau khi đã xem kết
quả bảng ANOVA, và tựa đề (title) khi nhập số cho các chỉ tiêu
khác.

Hình 1.2. Program Editor để chuyển số liệu từ file word mẫu

Kết quả xử lý:


NANG SUAT THUC THU
The ANOVA Procedure
Class Level Information
Class Levels Values
K 4 1 2 3 4
T 5 D25 G22 K14 X31 Z15
Number of observations 20

NANG SUAT THUC THU


The ANOVA Procedure
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 7 21.66143500 3.09449071 2.41 0.0861

Error 12 15.37762000 1.28146833

Corrected Total 19 37.03905500

R-Square Coeff Var Root MSE Y Mean


0.584827 12.39415 1.132020 9.133500

9
Source DF Anova SS Mean Square F Value Pr > F
K 3 1.46925500 0.48975167 0.38 0.7677
T 4 20.19218000 5.04804500 3.94 0.0288

NANG SUAT THUC THU

The ANOVA Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 1.281468
Critical Value of t 2.17881
Least Significant Difference 1.744
Means with the same letter are not significantly different.

t Grouping Mean N T
A 10.3200 4 D25
A
B A 9.9050 4 K14
B A
B A 9.5050 4 Z15
B
B C 8.2800 4 G22
C
C 7.6575 4 X31

1.5. Giải thích kết quả: xem bảng ANOVA


NANG SUAT THUC THU
The ANOVA Procedure (Bảng phân tích phương sai)
Dependent Variable: Y (biến phụ thuộc Y)
Sum of
Source DF Squares Mean Square F Value Pr > F
Nguồn Độ tự do Tổng bình phương Trung bình bình phương Giá trị F Xác suất >F
Model 7 21.66143500 3.09449071 2.41 0.0861
Mô hình
Error 12 15.37762000 1.28146833
Sai số
Corrected Total 19 37.03905500
Tổng điều chỉnh
R-Square Coeff Var Root MSE Y Mean
R bình phương Hệ số biến thiên Căn sai số trung bình bình phương Trung bình Y
0.584827 12.39415 1.132020 9.133500

Source DF Anova SS Mean Square F Value Pr > F


Nguồn Độ tự do Tổng bình phương phương sai Trung bình bình phương Giá trị F Xác suất >F

K (khối) 3 1.46925500 0.48975167 0.38 0.7677


T(nghiệm thức) 4 20.19218000 5.04804500 3.94 0.0288

- Nghiệm thức T có giá trị F là 3,94 với Pr > F là <0,0288; các nghiệm thức khác biệt có nghĩa
ở mức p < 0,05.

10
- Xem xếp nhóm t grouping (t- test) ở mức p = 0,05 và các nghiệm thức được xếp ba nhóm
theo ký tự là A, B, C; các trung bình cùng ký tự không khác biệt có nghĩa (Means with the
same letter are not significantly different).
t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 1.281468
Critical Value of t 2.17881
Least Significant Difference 1.744
Khác biệt có nghĩa nhỏ nhất
Means with the same letter are not significantly different.
Các trung bình cùng ký tự không khác biệt có nghĩa
t Grouping Mean N T
A 10.3200 4 D25
A
B A 9.9050 4 K14
B A
B A 9.5050 4 Z15
B
B C 8.2800 4 G22
C
C 7.6575 4 X31

- Lưu ý: xem hệ số biến thiên = 12,39 (hệ số biến thiên CV% trong bảng ANOVA) và Least
Significant Difference = 1,744 (khác biệt có nghĩa nhỏ nhất).

1.6. Trình bày kết quả:


Bảng 1.1. Năng suất thực thu của năm giống cải ngọt.

Giống Năng suất (kg/ô 20m2 )


G22 8,28 bc
Z15 9,51ab
X31 7,66 c
K14 9,91 ab
D25 10,32 a
LSD 0,05 1,744
CV% 12,39
Ghi chú: Các trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p < 0,05.

Giải thích: Nghiệm thức T có giá trị F là 3,94 với Pr > F là < 0,0288; các nghiệm thức khác
biệt có nghĩa ở mức p < 0,05. Xếp nhóm theo ký tự có thể chia nhóm khác biệt trung bình các
nghiệm thức theo thứ tự từ cao đến thấp ba nhóm là A, B và C. Năng suất cao nhất là giống
D25, tiếp theo là giống X15 và K14, thấp nhất là giống X31.

1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố
Thí nghiệm khảo sát năng suất đậu (kg/ô) với hai lượng phân lân (P1 = không bón lân, P2 = 25
kg/ha) và ba khoảng cách hàng (S1 = 45 cm, S2 = 90 cm, S3 = 135 cm). Ký hiệu K (khối I, II,

11
III), P (lân), S (khoảng cách hàng), Y (năng suất/ô), phỏng theo bài tập trang 86 (Petersen,
1994).
Sơ đồ thí nghiệm
I S2 P1 S1 P1 S3 P2 S3 P1 S1 P2 S2 P2
60 65 66 59 56 62
S1 P2 S3 P1 S3 P2 S1 P1 S2 P2 S2 P1
II
45 55 57 58 50 59
III S1 P1 S3 P1 S1 P2 S2 P1 S2 P2 S3 P2
55 51 43 54 45 50

Nhập số liệu với ký hiệu: K (khối), S (khoảng cách hàng), P (lượng phân lân), SP (yếu tố
tương tác khoảng cách hàng và lượng phân lân, nếu không có tương tác không cần ghi cột này
và không xếp nhóm). So sánh tương tác theo Dunnett test, xếp nhóm Duncan sáu giá trị trung
bình nghiệm thức (tất cả là 2 x 3 = 6 giá trị trung bình nghiệm thức).
Trình tự phân tích: a. Tạo file mẫu xử lý ANOVA và xếp nhóm nghiệm thức S và P.
b. Tính xác suất p so sánh tương tác hai yếu tố S*P theo Dunnett test.
c. Ghi kết quả phân tích vào bảng.

1.7. 1. Tạo file mẫu tính tương tác, không xếp nhóm các nghiệm thức trung bình của S
và P. Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett test.
DATA;
INPUT K S P Y;
CARDS;
1 1 1 65
1 1 2 56
1 2 1 60
1 2 2 62
1 3 1 59
1 3 2 66
2 1 1 58
2 1 2 45
2 2 1 59
2 2 2 50
2 3 1 55
2 3 2 57
3 1 1 55
3 1 2 43
3 2 1 54
3 2 2 45
3 3 1 51
3 3 2 50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;

12
1.7. 2. Tạo file mẫu tính tương tác, xếp nhóm các nghiệm thức trung bình của S và P.
Ghi thêm cột SP (yếu tố tương tác khoảng cách hàng và lượng phân lân để xếp nhóm khi tương
tác S*P có nghĩa). Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett
test, xếp nhóm các trung bình nghiệm thức của các yếu tố như sau:
DATA;
INPUT K $ S $ P $ SP $ Y;
CARDS;
1 1 1 S1P1 65
1 1 2 S1P2 56
1 2 1 S2P1 60
1 2 2 S2P2 62
1 3 1 S3P1 59
1 3 2 S3P2 66
2 1 1 S1P1 58
2 1 2 S1P2 45
2 2 1 S2P1 59
2 2 2 S2P2 50
2 3 1 S3P1 55
2 3 2 S3P2 57
3 1 1 S1P1 55
3 1 2 S1P2 43
3 2 1 S2P1 54
3 2 2 S2P2 45
3 3 1 S3P1 51
3 3 2 S3P2 50
;
PROC GLM;
CLASS K S P;
MODEL Y = K S P S*P;
MEAN S P / LSD ALPHA=0.01;
MEAN S*P / DUNCAN ALPHA=0.01;
LSMEANS S*P / PDIFF ADJUST=DUNNETT;
TITLE ‘2 YEU TO’;
RUN;

PROC GLM;
CLASS K SP;
MODEL Y = K SP;
MEAN SP / DUNCAN ALPHA=0.01;
RUN;
/* Lưu ý: 6 nghiệm thức tương tác nên dùng Duncan test với 6 dãy so sánh (critical range) nên
chỉ có 2 nhóm cùng ký tự A và B , nếu dùng LSD chỉ có 1 giá trị so sánh thì kết quả xếp hạng
các nghiệm thức có 3 nhóm cùng ký tự A, B và C */
Kết quả xử lý:
2 YEU TO
The GLM Procedure
Class Level Information
Class Levels Values
K 3 1 2 3
S 3 1 2 3
P 2 1 2
Number of observations 18

2 YEU TO
The GLM Procedure
13
Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 7 684.6666667 97.8095238 14.53 0.0002

Error 10 67.3333333 6.7333333

Corrected Total 17 752.0000000

R-Square Coeff Var Root MSE Y Mean

0.910461 4.717940 2.594867 55.00000

Source DF Type I SS Mean Square F Value Pr > F

K 2 417.3333333 208.6666667 30.99 <.0001


S 2 21.3333333 10.6666667 1.58 0.2526
P 1 98.0000000 98.0000000 14.55 0.0034
S*P 2 148.0000000 74.0000000 10.99 0.0030

Source DF Type III SS Mean Square F Value Pr > F


K 2 417.3333333 208.6666667 30.99 <.0001
S 2 21.3333333 10.6666667 1.58 0.2526
P 1 98.0000000 98.0000000 14.55 0.0034
S*P 2 148.0000000 74.0000000 10.99 0.0030

2 YEU TO

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 4.748

Means with the same letter are not significantly different.

t Grouping Mean N S

A 56.333 6 3
A
A 55.000 6 2
A
A 53.667 6 1

2 YEU TO

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

14
Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333
Critical Value of t 3.16927
Least Significant Difference 3.8768

Means with the same letter are not significantly different.

t Grouping Mean N P

A 57.333 9 1

B 52.667 9 2

2 YEU TO
The GLM Procedure

Level of Level of --------------Y--------------


S P N Mean Std Dev

1 1 3 59.3333333 5.13160144
1 2 3 48.0000000 7.00000000
2 1 3 57.6666667 3.21455025
2 2 3 52.3333333 8.73689495
3 1 3 55.0000000 4.00000000
3 2 3 57.6666667 8.02080628

2 YEU TO
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
S P Y LSMEAN Pr > |t|

1 1 59.3333333
1 2 48.0000000 0.0013
2 1 57.6666667 0.8899
2 2 52.3333333 0.0301
3 1 55.0000000 0.2208
3 2 57.6666667 0.8899

2 YEU TO
The GLM Procedure
Class Level Information

Class Levels Values

K 3 1 2 3

SP 6 S1P1 S1P2 S2P1 S2P2 S3P1 S3P2

Number of observations 18

2 YEU TO
The GLM Procedure

Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

15
Model 7 684.6666667 97.8095238 14.53 0.0002

Error 10 67.3333333 6.7333333

Corrected Total 17 752.0000000

R-Square Coeff Var Root MSE Y Mean

0.910461 4.717940 2.594867 55.00000

Source DF Type I SS Mean Square F Value Pr > F

K 2 417.3333333 208.6666667 30.99 <.0001


SP 5 267.3333333 53.4666667 7.94 0.0029

Source DF Type III SS Mean Square F Value Pr > F

K 2 417.3333333 208.6666667 30.99 <.0001


SP 5 267.3333333 53.4666667 7.94 0.0029

2 YEU TO
The GLM Procedure

Duncan's Multiple Range Test for Y


NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 6.733333

Number of Means 2 3 4 5 6
Critical Range 6.714 6.997 7.175 7.298 7.387

Means with the same letter are not significantly different.


Duncan Grouping Mean N SP

A 59.333 3 S1P1
A
A 57.667 3 S3P2
A
A 57.667 3 S2P1
A
A 55.000 3 S3P1
A
B A 52.333 3 S2P2
B
B 48.000 3 S1P2

Bảng 1.2. Năng suất đậu (kg/ô) do ảnh hưởng khoảng cách hàng và lượng lân

Yếu tố lân Yếu tố khoảng cách hàng Trung bình yếu tố lân
S1 = 45 cm S2 = 90 cm S3 = 135 cm
P1= 0 kg/ha 59,33 a 57,67 a 55,00 a 57,33 A
P2 = 25kg/ha 48,00 b 52,33 ab 57,67 a 52,67 B
Trung bình yếu tố 53,67 A 55,00 A 56,33 A
khoảng cách hàng
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với yếu tố P: p < 0,01,
tương tác S*P : p<0,01; CV = 4,7%.
16
Giải thích kết quả:

- Kết quả từ bảng phương sai và xếp nhóm yếu tố khoảng cách hàng không khác biệt (F =1,58
với p = 0,2526), yếu tố lân có khác biệt có nghĩa (F = 14,55 với p = 0,0034). Xếp nhóm
Duncan các giá trị trung bình tương tác lân và khoảng cách hàng cho thấy có hai nhóm theo ký
tự là A và B trong đó năng suất cao nhất 59,33 kg/ô.
- So sánh tương tác là khảo sát sự tăng hay giảm của tác động 2 yếu tố đến năng suất, trong đó
cặp nào có ảnh hưởng như nhau hay khác nhau và ảnh hưởng lớn nhất.
Năng suất ô chịu tác động của lân và khác biệt có nghĩa ở hai lượng lân. Không có bón lân,
năng suất giảm khi khoảng cách tăng lên. Trái lại, khi bón lân 25 kg/ha năng suất tăng khi
khoảng cách tăng. Có tương tác của khoảng cách hàng và lân S*P đến năng suất (F = 10,99 với
p = 0,003).
- So sánh giá trị xác suất p các nghiệm thức trung bình tương tác theo Dunnett cho thấy tương
tác khoảng cách hàng với bón lân cho năng suất cao nhất là 59,33 kg/ô của tương tác S1P1
(khoảng cách hàng 45 cm và không bón lân) có ảnh hưởng giống như S2P1(khoảng cách hàng
90 cm và không bón lân) có p = 0,8899, giống như S3P1 (khoảng cách hàng 135 cm và không
bón lân) với p = 0,2208 và khoảng cách 135 cm với lượng lân 25 kg/ha (S3P2 với p = 0,8899).
Tương tác ảnh hưởng độc lập là bón lân với khoảng cách hàng 45 cm (S1P2 với p = 0,0013) và
90 cm (S2P2 với p = 0,0301).

Bảng 1.3. Tương tác của khoảng cách hàng và lượng lân đến năng suất đậu (kg/ô).
S (khoảng cách hàng) P (lượng lân) Năng suất đậu (kg/ô) Xác suất p

S1 = 45 cm P1= 0 kg/ha 59,33


S1 = 45 cm P2 = 25kg/ha 48,00 0,0013
S2 = 90 cm P1= 0 kg/ha 57,67 0,8899
S2 = 90 cm P2 = 25kg/ha 52,33 0,0301
S3 = 135 cm P1= 0 kg/ha 55,00 0,2208
S3 = 135 cm P2 = 25kg/ha 57,67 0,8899

1.8. Các phương pháp so sánh các trung bình nghiệm thức và ghi ký hiệu

Các nghiệm thức thí nghiệm được so sánh với các trung bình được chọn trước ở mức α =
5% hay α = 1%. Thông thường thí nghiệm nếu có t nghiệm thức, sẽ có khả năng có số cặp so
sánh là t(1-t)/2. Nếu chọn mức α = 5%, xác suất để có 1 cặp khác nhau là 1-(1-0,05)15 = 0,54.
Nếu có nhiều nghiệm thức, xác suất này tăng lên, nếu chỉ có 2 nghiệm thức, sai số thí nghiệm
và sai số nghiệm thức giống nhau.

Các phương pháp so sánh trung bình phổ biến (Clewer, 2001) cho thí nghiệm có 6 nghiệm
thức, 4 lần lặp lại, khối đầy đủ ngẫu nhiên, có số cặp so sánh là (6 x 5)/2 = 15 như sau:

Bảng 1.4. Trung bình của nghiệm thức các giống


Thứ tự 1 2 3 4 5 6
Giống V1 V2 V3 V4 V5 V6
Trung bình 25,0 50,8 69,2 74,0 76,8 89,0

17
- LSD (Least Significant Difference): LSD (5%) = t(15, 2.5%) x SED = 18,12
(SED = Standard Error of Difference, khác biệt sai số chuẩn)
Trong đó SED = √[(2 x RMS)/r]
RMS (Residual Mean Square trong bảng ANOVA, hay là EMS, Error
Mean Square)
r: số lần lặp lại
Thông thường có thể ghi ký hiệu là dấu hoa thị * hay *** để chỉ sự khác nhau của các nghiệm
thức, nhưng SAS dùng ký tự như A, B, C, D và sắp thứ tự các nghiệm thức từ cao đến thấp.
- Tukey’s Student Range Test: tính khác biệt với MSD (Minimum Significant Difference)
MSD (5%) = Q x (√[(RMS)/r] = 27,62
Trong đó Q trích từ bảng Student range, hàng 15 và cột 6, có giá trị là 4,595 (Clever, 2001).
Phương pháp này có MSD tăng khi Q tăng lên, và MSD thường lớn hơn LSD, do đó có thể một
số giống không được chọn theo trắc nghiệm này.
- Student-Newman-Keuls Test (SNK)
Áp dụng phương pháp MSD t-1 lần, và tạo ra dãy so sánh (critical range từ bảng Student) cho
từng nghiệm thức 2 đến 6. Giá trị critical range cho nghiệm thức 2 là 18,12 và critical range
cho nghiệm thức 6 tăng lên là 27,62.
- Duncan’s Multiple Range Test (DMRT)
Áp dụng phương pháp tương tự SNK là phương pháp MSD t-1 lần. So sánh 2 trung bình gần
nhau giống như LSD, so sánh các trung bình xa nhau giống như SNK.
Giá trị critical value được tính theo công thức MSD (5%) = q x (√[(RMS)/r] cho dãy so sánh
từ 2 đến 6 nghiệm thức, q là giá trị theo bảng Duncan (xem phụ lục).

- Waller-Duncan’s Bayes MSD Test


Áp dụng phương pháp MSD t-1 lần và phụ thuộc vào giá trị F-test trong bảng ANOVA.
Giá trị MSD là 17,25 nhỏ hơn giá trị của phương pháp LSD = 18,12. (Xem thêm thí nghiệm
dòng vi khuẩn, chương 2).

Chọn lựa phương pháp xếp nhóm: tùy vào số nghiệm thức thí nghiệm và mục tiêu đánh giá,
thông thường LSD sử dụng so sánh chỉ 1 giá trị, Duncan’s Multiple Range Test với giá trị so
sánh là MSD nhiều dãy (critical range) và cả hai được dùng phổ biến hiện nay.
Trình bày cách ghi kết quả xếp nhóm theo các phương pháp này vào bảng tổng kết số liệu
thường dùng khi sử dụng mức α = 5% là:
LSD 0,05 hay LSD (Pr < 0,05) (Toit, 2007) ; LSD α = 0,05 (Podlaski, 2003), LSD (5%) (Oad,
2004).
MSD 0,05 cho phương pháp Waller-Duncan Test (Mozaffarri, 2003).
Riêng với phương pháp Duncan’s Multiple Range Test (DMRT) vì so sánh với nhiều dãy
critical range, ghi là: DMRT (p <0,05) hoặc chú thích ‘mức 5% DMRT’ (Catala, 1993).
Giá trị xác suất p được ghi trong bảng kết quả xếp nhóm nghiệm thức với mức p < 0,05 hay
p < 0,01 căn cứ vào bảng ANOVA.
Với trình bày bảng phân tích phương sai, ghi giá trị so sánh ở mức F(Prob) 0,00 hay 0,95 cho
bảng tổng hợp thí nghiệm lô phụ của lô phụ (Kumar, 2008). F có thể ghi ở cột giá trị là ** hay
NS.
Các ký tự xếp hạng A, B, C, D ghi sau giá trị trung bình, nếu không khác biệt (non-significant)
ghi ns (Kumar, 2008).

18
1.9. Phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất
- Khác biệt means và lsmeans (least square means):
Số trung bình (means) = tổng số các giá trị / số giá trị (theo số học).
Số trung bình bình phương nhỏ nhất (lsmeans) = tổng số các giá trị kết hợp tuyến
tính / số giá trị, được dùng để so sánh tương tác A*B, A*B*C.
• Nếu số giá trị đầy đủ trong bố trí thí nghiệm nhiều yếu tố, số trung bình bằng với số
trung bình bình phương nhỏ nhất.
• Nếu thiếu một số giá trị, số trung bình khác với số trung bình bình phương nhỏ nhất.

Xem số liệu bảng sau:

Số trung bình sẽ là:

Số trung bình bình phương nhỏ nhất:

Nhưng thiếu 1 số như bảng sau:

Số trung bình = (4 + 6 + 2 + ....+ 4 + 2 + 3)/8 = 3,625.


Trái lại, số trung bình bình phương nhỏ nhất = (4 + 4 + 3)/3 = 3,667.

Để xử lý cho thí nghiệm thiếu số liệu (missing data), sử dụng GLM (General Linear Model, mô
hình tuyến tính tổng quát) thay cho ANOVA. Xem lại thí nghiệm năng suất cải ngọt đầy đủ số
liệu:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 8.00
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63

19
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC ANOVA;
CLASS K T;
MODEL Y = K T;
MEANS T / LSD ALPHA=0.05;
TITLE ‘NANG SUAT THUC THU’;
RUN;

Kết quả xếp nhóm các trung bình như sau:


Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 1.281468
Critical Value of t 2.17881
Least Significant Difference 1.744
Means with the same letter are not significantly different.
t Grouping Mean N T
A 10.3200 4 D25
A
B A 9.9050 4 K14
B A
B A 9.5050 4 Z15
B
B C 8.2800 4 G22
C
C 7.6575 4 X31

Nếu thiếu một số liệu của giống G22 (ghi dấu chấm vào ô thiếu), xử lý GLM và so sánh các
nghiệm thức với Lsmean bằng trắc nghiệm t điều chỉnh cho kết quả như sau:
DATA;
INPUT K $ T $ Y;
CARDS;
1 G22 9.00
1 Z15 10.28
1 X31 7.00
1 K14 9.86
1 D25 10.94
2 G22 .
2 Z15 7.59
2 X31 8.00
2 K14 9.99
2 D25 10.63
3 G22 7.00
3 Z15 10.15
3 X31 8.23
3 K14 11.77
20
3 D25 9.81
4 G22 9.12
4 Z15 10.00
4 X31 7.40
4 K14 8.00
4 D25 9.90
;
PROC GLM;
CLASS K T;
MODEL Y = K T;
LSMEANS T / PDIFF ADJUST=T;
TITLE ‘NANG SUAT THUC THU THIEU 1 SO LIEU’;
RUN;
Kết quả xử lý:
NANG SUAT THUC THU THIEU 1 SO LIEU

The GLM Procedure

Class Level Information

Class Levels Values

K 4 1 2 3 4

T 5 D25 G22 K14 X31 Z15

Number of Observations Read 20


Number of Observations Used 19

NANG SUAT THUC THU THIEU 1 SO LIEU

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 7 20.30921094 2.90131585 2.08 0.1343

Error 11 15.37739958 1.39794542

Corrected Total 18 35.68661053

R-Square Coeff Var Root MSE Y Mean

0.569099 12.86117 1.182347 9.193158

Source DF Type I SS Mean Square F Value Pr > F

K 3 1.00301553 0.33433851 0.24 0.8672


T 4 19.30619542 4.82654885 3.45 0.0463

Source DF Type III SS Mean Square F Value Pr > F

K 3 1.36494208 0.45498069 0.33 0.8070


T 4 19.30619542 4.82654885 3.45 0.0463

21
NANG SUAT THUC THU THIEU 1 SO LIEU

The GLM Procedure


Least Squares Means

LSMEAN
T Y LSMEAN Number

D25 10.3200000 1
G22 8.2752083 2
K14 9.9050000 3
X31 7.6575000 4
Z15 9.5050000 5

Least Squares Means for effect T


Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: Y

i/j 1 2 3 4 5

1 0.0479 0.6294 0.0087 0.3506


2 0.0479 0.1038 0.5154 0.2078
3 0.6294 0.1038 0.0211 0.6417
4 0.0087 0.5154 0.0211 0.0492
5 0.3506 0.2078 0.6417 0.0492

NOTE: To ensure overall protection level, only probabilities associated with


pre-planned comparisons should be used.

Kết quả cho thấy do thiếu số liệu, cần sử dụng bảng ANOVA Type I SS, với F = 3,45 và p =
0,0463. Giá trị trung bình bình phương nhỏ nhất của giống G22 là 8,275 so với thí nghiệm
không thiếu số liệu là 8,280. So sánh LS means ở cột đầu tiên cho thấy chỉ có hai giống G22
và X31 là khác với 3 giống còn lại. Kết quả này tương tự như xếp nhóm của thí nghiệm thiếu
số liệu (Clewer, 2001).

- Nếu quan tâm đến so sánh nhiều giá trị độc lập và không quan tâm đến tương tác, sử
dụng t test lặp lại với LSD.
- Nếu quan tâm đến so sánh tất cả các giá trị từng cặp, áp dụng Tukey test hoặc so sánh
tất cả giá trị với một giá trị đối chứng thì sử dụng Dunnett test để có tương tác rõ nhất
(SAS, 2004).

- So sánh giá trị p điều chỉnh giải thích tương tác của A*B, căn cứ trên giả thiết căn bản là
H0: LSMean(i) = LSMean(j) gọi là giả thiết null, có nghĩa là các trị số giống nhau. Khi so sánh
nhiều trị số với nhau, giá trị p điều chỉnh (adjusted p-value) là giá trị mức sai số chung nhỏ
nhất (FWE, Familywise Error Rate) để bác bỏ giả thiết trên (Westfall, 2008).

Giải thích so sánh nhiều giá trị:


- Khi so sánh, nếu không bác bỏ giả thiết null H0: các trị số giống nhau.
- Duncan multiple range test (DMRT) sử dụng so sánh t test cho nhiều giá trị trung bình
với trên bốn giá trị. LSD áp dụng cho hai biến rất dễ dàng và không cần dùng DMRT.

22
1.10. Ý nghĩa các từ so sánh thống kê

- Phương sai: được tính và ký hiệu là s2 , độ lệch chuẩn s là căn bậc hai của phương sai.
s2 = [∑(xi – )2]/(n-1) ; s = SD, xi: giá trị thứ i, : giá trị trung bình, n: số lượng mẫu.
- SD (Standard deviation, độ lệch chuẩn): mức độ biến động của dãy A so với dãy B, mặc dù
hai giá trị trung bình của hai dãy bằng nhau.

- CV (Coefficience of variance, hệ số biến thiên): so sánh mức biến động của nhiều mẫu.
CV% = (s / )*100
- SE (Standard error, sai số chuẩn): sai số của tổng các giá trị (Tuấn, 2006).

- alpha level = 0,05: mức alpha chọn lựa để tính giá trị p = 0,05 (xác suất, probability, p-value).
Giá trị p = 100(1-p)% confidence interval (khoảng tin cậy) khi chứng minh giả thiết đặt ra ban
đầu là H0 LSMean = Control, nghĩa là các trung bình không khác nhau so với đối chứng, nếu p
tính < 0,05 thì bác bỏ giả thiết trên, các nghiệm thức khác nhau ở mức p < 0,05. Alpha level =
p (SAS, 2004 tr. 1755).

- Chia tổ: chia nhỏ thành tổ khi có số liệu thu thập lớn. Áp dụng công thức K = 5log n.
Thí dụ: có 50 cây, K = 5log 50 = 8,49; chọn tám tổ. Khoảng cách tổ C = (Xmax-Xmin)/K.
Tổ một: 3- 4,4 ; tổ hai: 4,5-5,9 ; tổ ba: 6 -7,4 đến tổ tám (Thành, 1976).

1.11. Chuyển đổi giá trị (transformation): rất cần để so sánh khác biệt các giá trị trung bình
khi có các giá trị quá nhỏ gần hoặc bằng 0, hoặc giá trị nhỏ so với giá trị quá lớn, vì không
chuyển giá trị cho thống kê không khác biệt giữa các trung bình của nghiệm thức với LSD lớn,
nhưng chuyển đổi giá trị thì thống kê có khác biệt có nghĩa vì LSD nhỏ (Clewer, 2001).

1.11.1. Chuyển đổi sang log:


- Số liệu là đơn vị số x từ 1 đến 53, chuyển sang yi = LN (xi), (Clewer, 2001).
- Số liệu là đơn vị số có x = 0,02 cộng 1 vào các trị số và đổi sang yi = log (xi+1).

- Lưu ý phải có giá trị giả định lớn hơn 1 mới tính log được. Vì có số “0” nên cần giả định
(assumption) để tính số hợp lý với giá trị khác “0”. Số giả định chuyển đổi cho số “0” phụ
thuộc vào số mẫu n (Clewer, 2001).
- Thí dụ: trọng lượng khô của lúa cỏ (red rice) trong thí nghiệm ba nghiệm thức từ 0,08 đến 32
g/m2, được đổi số liệu sang log (x+1) trước khi thống kê so sánh LSD (Catala, 1993).

23
Thí dụ về số liệu là đơn vị số x từ 1 đến 53, chuyển sang yi=LN (xi) (Clewer, 2001)
Lưu ý chuyển đổi trong excel cho số liệu trước khi xử lý thống kê:
chuyển logarithm với excel: yi = LN(x)
Bài tập về số cỏ sống sót khi xử lý 3 loại thuốc diệt cỏ A, B, C và D (đối chứng). Kiểu thí
nghiệm hoàn toàn ngẫu nhiên (Clewer, 2001).
a) Số liệu chưa chuyển đổi:
DATA THUOC TRU CO;
INPUT NTHUC $ CO;
CARDS;
A 4
A 5
A 2
A 5
A 4
A 1
B 8
B 11
B 9
B 12
B 7
B 7
C 25
C 28
C 20
C 15
C 14
C 30
D 33
D 21
D 48
D 18
D 53
D 31
;
PROC ANOVA;
CLASS NTHUC;
MODEL CO = NTHUC;
MEANS NTHUC / LSD ALPHA=0.01;
TITLE 'SO CO SONG';
RUN;

b) Số liệu đã chuyển đổi yi=LN (xi):


DATA THUOC TRU CO;
INPUT NTHUC $ CO;
CARDS;
A 1.39
A 1.61
A 0.69
A 1.61
A 1.39
A 0.00
B 2.08
B 2.40

24
B 2.20
B 2.48
B 1.95
B 1.95
C 3.22
C 3.33
C 3.00
C 2.71
C 2.64
C 3.40
D 3.50
D 3.04
D 3.87
D 2.89
D 3.97
D 3.43
;
PROC ANOVA;
CLASS NTHUC;
MODEL CO = NTHUC;
MEANS NTHUC / LSD ALPHA=0.01;
TITLE 'LN SO CO SONG';
RUN;

Kết quả xếp hạng như sau: SO CO SONG


The ANOVA Procedure
t Tests (LSD) for CO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 62.675
Critical Value of t 2.84534
Least Significant Difference 13.005
Means with the same letter are not significantly different.
t Grouping Mean N NTHUC
A 34.000 6 D
A
B A 22.000 6 C
B
B C 9.000 6 B
C
C 3.500 6 A

LN SO CO SONG
The ANOVA Procedure
t Tests (LSD) for CO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 0.188354
Critical Value of t 2.84534
Least Significant Difference 0.713
Means with the same letter are not significantly different.
t Grouping Mean N NTHUC
A 3.4500 6 D
A
A 3.0500 6 C

25
B 2.1767 6 B

C 1.1150 6 A
Ghi chú: nếu không chuyển log (LN) thì giá trị của nghiệm thức A và B không khác biệt, và
Least Significant Difference = 13,005 lớn hơn giá trị của nghiệm B (9,00). Nếu chuyển LN, giá
trị của nghiệm A khác biệt giá trị của nghiệm B với Least Significant Difference = 0,713 nhỏ
hơn giá trị của nghiệm A và B.

1.11.2. Chuyển đổi số liệu sang √(x + 0,5)


Áp dụng đối với giá trị nhỏ, chỉ số bệnh từ 1,05 đến 2,98 (thí nghiệm của Taa, 2002).

1.11.3. Chuyển đổi số liệu sang arcsin√%


- Số liệu là % với trị số x từ 30 - 70% không cần chuyển đổi vì kết quả thống kê xếp nhóm
không khác giữa số nguyên và số liệu chuyển đổi.
- Số liệu là % với trị số x từ 0 - 20% và từ 80 - 100%, chuyển yi = arcsin√%, thường gặp trong
việc tính tỉ lệ nảy mầm, tỉ lệ ra rễ với tác động của chất điều hòa sinh trưởng, tỉ lệ nấm bệnh
(Thành, 1976; Clewer, 2001).
- Tỉ lệ phần trăm của chỉ tiêu đo đếm như số chồi cây lúa được chuyển đổi arcsin√%, nhưng tỉ
lệ phân tích như hàm lượng protein, hàm lượng dầu, đường bột không chuyển đổi.
- Số liệu là % với trị số x từ 1 đến 99%, chuyển sang góc (angular) arcsin√%. Thí nghiệm khảo
sát tỉ lệ nảy mầm của hạt Echinacea purpurea từ 4 đến 82% được chuyển sang góc arcsin√%
(Qu và ctv, 2005).

Lưu ý chuyển đổi trong excel cho số liệu trước khi xử lý thống kê:
chuyển tỉ lệ y%: đổi p = 99% →0.99→SQRT(0.99) = x1→ASIN(x1) = x2→DEGREES(x2) =
giá trị góc ARCSIN√% = yi.
Đây là bảng chuyển đổi thiết lập từ phần mềm excel rút gọn từ tỉ lệ phần trăm sang góc
arcsin√%, giá trị ở cột DEGREES là giá trị đã chuyển đổi của góc arcsin√%. Các hàm
(function) của excel là SQRT, ASIN và DEGREES.

Bảng 1.5. Bảng chuyển đổi arcsin và góc arcsin với giá trị từ 0,1 đến 100%.
Tỉ lệ theo dõi % =100/100 =SQRT(1) =ASIN(1) =DEGREES(1.570796)
100 1 1 1.570796 90.000
90.00 0.90 0.948683 1.249046 71.565
80.00 0.80 0.894427 1.107149 63.435
70.00 0.70 0.83666 0.991157 56.789
60.00 0.60 0.774597 0.886077 50.768
50.00 0.50 0.707107 0.785398 45.000
40.00 0.40 0.632456 0.684719 39.232
30.00 0.30 0.547723 0.57964 33.211
20.00 0.20 0.447214 0.463648 26.565
10.00 0.10 0.316228 0.321751 18.435
5.00 0.05 0.223607 0.225513 12.921
1.00 0.01 0.1 0.100167 5.739
0.10 0.00 0.031623 0.031628 1.812

Khi xử lý thống kê, dùng giá trị chuyển đổi arcsin√% hay góc arcsin√% để xử lý t-test hay
ANOVA. Kết quả số liệu không chuyển đổi và chuyển đổi cho kết quả xếp nhóm khác nhau.
Có thể ghi vào bảng kết quả cần có giá trị thực ghi kèm theo dấu ngoặc với giá trị chuyển đổi
26
hoặc chú thích chuyển sang arcsin√%. Thí dụ: 70(0,991) khi chuyển sang arcsin√%, hay
70(56,789) khi chuyển sang góc arcsin√% (Qu, 2005; Jones, 2004). Tuy nhiên có thể chú thích
dưới bảng số liệu tổng kết đã chuyển đổi số liệu sang arcsin√%, không cần ghi kèm theo cột
(Toit, 2007).
- Khi có số liệu y là 0% đến 100%, cần lưu ý tổng số mẫu theo dõi là n để tính tỉ lệ chuyển đổi
trước khi chuyển sang arcsin√%. Giá trị % được gọi là p.
Số mẫu theo dõi là n:
0% chuyển thành 1/4n và 100% chuyển thành (100 – 1/4n), sau đó đổi sang arcsin√%.
Cách tính sau được dùng với chương trình excel để chuyển giá trị 0% và các trị số đến 100%
sang giá trị p trước khi đổi sang arcsin√% (McDonald, 2009).

Thí dụ khảo sát nảy mầm hạt đậu xanh của năm giống A1, B2, C3, D4, E5 bố trí kiểu hoàn
toàn ngẫu nhiên với ba lần lặp lại, mỗi lần lặp lại trong đĩa petri là 100 hạt. Giá trị n = 100. Tỉ
lệ hạt nảy mầm được ghi với số liệu để nguyên và chuyển đổi sang arcsin√% và góc arcsin√%.
Khảo sát với n = 100, có giá trị số là 0 và 100%.
0% chuyển thành 1/4n = 1/400 = 0,0025 và 100% chuyển thành (100 – 1/4n) = 99,9975. Thiết
lập bảng chuyển đổi arcsin với hàm excel như sau:

Bảng 1.6. Bảng chuyển đổi sang arcsin√% và góc arcsin√% với giá trị từ 0 đến 100%.
Nghiệm thức Tỉ lệ nảy mầm Chuyển đổi p/100 SQRT ASIN DEGREES
(%) p = 100 và 0 (p/100)
A1 100 99.9975 0.999975 0.999987 1.566 89.714
B2 69 69 0.69 0.830662 0.980 56.167
C3 7 7 0.07 0.264575 0.268 15.342
D4 23 23 0.23 0.479583 0.500 28.658
E5 0 0.0025 0.000025 0.005 0.005 0.286
A1 99 99 0.99 0.994987 1.471 84.261
B2 59 59 0.59 0.768115 0.876 50.185
C3 8 8 0.08 0.282843 0.287 16.430
D4 19 19 0.19 0.43589 0.451 25.842
E5 0 0.0025 0.000025 0.005 0.005 0.286
A1 97 97 0.97 0.984886 1.397 80.026
B2 56 56 0.56 0.748331 0.846 48.446
C3 9 9 0.09 0.3 0.305 17.458
D4 11 11 0.11 0.331662 0.338 19.370
E5 0 0.0025 0.000025 0.005 0.005 0.286

So sánh xử lý số liệu để nguyên 0 và 100% với số liệu chuyển đổi sang arcsin√% và góc
arcsin√% cho cả ba so sánh này một lần như sau:
/* Số liệu để nguyên*/
DATA;
INPUT T $ Y;
CARDS;
A1 100
B2 69
C3 7
27
D4 23
E5 0
A1 99
B2 59
C3 8
D4 19
E5 0
A1 97
B2 56
C3 9
D4 11
E5 0
;
PROC ANOVA;
CLASS T;
MODEL Y = T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘TI LE NAY MAM DE NGUYEN 0 100’;
RUN;

/* Số liệu chuyển sang arcsin√% */


DATA;
INPUT T $ Y;
CARDS;
A1 1.566
B2 0.980
C3 0.268
D4 0.500
E5 0.005
A1 1.471
B2 0.876
C3 0.287
D4 0.451
E5 0.005
A1 1.397
B2 0.846
C3 0.305
D4 0.338
E5 0.005
;
PROC ANOVA;
CLASS T;
MODEL Y = T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘TI LE NAY MAM ARCSIN CAN P’;
RUN;

/* Số liệu chuyển sang góc arcsin√% */


DATA;
INPUT T $ Y;
CARDS;
A1 89.714

28
B2 56.167
C3 15.342
D4 28.658
E5 0.286
A1 84.261
B2 50.185
C3 16.430
D4 25.842
E5 0.286
A1 80.026
B2 48.446
C3 17.458
D4 19.370
E5 0.286
;
PROC ANOVA;
CLASS T;
MODEL Y = T;
MEANS T / LSD ALPHA=0.01;
TITLE ‘TI LE NAY MAM GOC ARCSIN CAN P’;
RUN;

Kết quả xử lý:


The ANOVA Procedure

Class Level Information

Class Levels Values

T 5 A1 B2 C3 D4 E5

Number of observations 15

TI LE NAY MAM DE NGUYEN 0 100

The ANOVA Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 4 20935.73333 5233.93333 300.80 <.0001

Error 10 174.00000 17.40000

Corrected Total 14 21109.73333

R-Square Coeff Var Root MSE Y Mean

0.991757 11.23339 4.171331 37.13333

Source DF Anova SS Mean Square F Value Pr > F

29
T 4 20935.73333 5233.93333 300.80 <.0001

TI LE NAY MAM DE NGUYEN 0 100

The ANOVA Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 17.4
Critical Value of t 3.16927
Least Significant Difference 10.794

Means with the same letter are not significantly different.

t Grouping Mean N T

A 98.667 3 A1

B 61.333 3 B2

C 17.667 3 D4
C
D C 8.000 3 C3
D
D 0.000 3 E5

TI LE NAY MAM ARCSIN CAN P

The ANOVA Procedure

Class Level Information

Class Levels Values

T 5 A1 B2 C3 D4 E5

Number of observations 15

TI LE NAY MAM ARCSIN CAN P

The ANOVA Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 4 4.02150200 1.00537550 259.56 <.0001

Error 10 0.03873400 0.00387340

Corrected Total 14 4.06023600

30
R-Square Coeff Var Root MSE Y Mean

0.990460 10.03817 0.062237 0.620000

Source DF Anova SS Mean Square F Value Pr > F

T 4 4.02150200 1.00537550 259.56 <.0001

TI LE NAY MAM ARCSIN CAN P

The ANOVA Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 0.003873
Critical Value of t 3.16927
Least Significant Difference 0.161

Means with the same letter are not significantly different.

t Grouping Mean N T

A 1.47800 3 A1

B 0.90067 3 B2

C 0.42967 3 D4
C
C 0.28667 3 C3

D 0.00500 3 E5

TI LE NAY MAM GOC ARCSIN CAN P

The ANOVA Procedure

Class Level Information

Class Levels Values

T 5 A1 B2 C3 D4 E5

Number of observations 15

TI LE NAY MAM GOC ARCSIN CAN P

The ANOVA Procedure

Dependent Variable: Y

31
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 4 13198.01019 3299.50255 258.61 <.0001

Error 10 127.58388 12.75839

Corrected Total 14 13325.59406

R-Square Coeff Var Root MSE Y Mean

0.990426 10.05680 3.571889 35.51713

Source DF Anova SS Mean Square F Value Pr > F

T 4 13198.01019 3299.50255 258.61 <.0001

TI LE NAY MAM GOC ARCSIN CAN P

The ANOVA Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 10
Error Mean Square 12.75839
Critical Value of t 3.16927
Least Significant Difference 9.243

Means with the same letter are not significantly different.

t Grouping Mean N T

A 84.667 3 A1

B 51.599 3 B2

C 24.623 3 D4
C
C 16.410 3 C3

D 0.286 3 E5

Giải thích: kết quả cho thấy xử lý số liệu chuyển đổi arcsin√% và góc arcsin√% cho kết quả
như nhau, chỉ cần dùng một trong hai. Số liệu không chuyển đổi giá trị 0 và 100% cho thấy
LSD lớn do đó so sánh xếp nhóm khác với số liệu chuyển đổi arcsin.

1.12. Ô cơ sở (plot size) và lặp lại (replication)


- Ô cơ sở cho cây nhỏ: 20-40 cây, cà phê: 4 cây, cây ăn quả nhỏ: 10-20 cây, rau: 20-30 m2,
thuốc trừ sâu bệnh: 10 m2. Thí nghiệm sản xuất: 100 m2. Sai số (e) cho 1 m2 = 19,6%; 10 m2 =
7,5%; 20 m2 = 2,9%; 50 m2 = 1,3% (Thành, 1976).
32
- Lặp lại (n): bốn lần là phù hợp, tối thiểu là ba lần, cần xác định n = ((V%)/(e%))2. Thí nghiệm
năm loại đất cho năng suất cải có sai số chuẩn (SE) của trị số trung bình với ba lần lặp lại là
2,83; bốn lần lặp lại là 2,45 và năm lần lặp lại là 2,20 (Petersen, 1994).

1.13. Chọn mẫu điều tra (sample size determination)


Chọn số mẫu điều tra đủ để đánh giá trong tổng thể (population) hiện có thì mới đủ giá trị cho
các thông số, chỉ tiêu theo dõi. Cần tính toán với ba yêu cầu phải có là: độ chính xác
(precision) độ tin cậy (confidence) và mức biến động (variability). Mẫu điều tra được sử dụng
để so sánh khác biệt, tính tương quan, chia nhóm. Có thể trình bày hai cách chọn số mẫu điều
tra như sau (Barlett, 2001; Clever, 2001; Israel, 2009):

1.13.1. Chọn mẫu theo tỉ lệ nhị phân (Calculating A Sample For Proportions)
Khi số mẫu lớn và chưa biết, áp dụng công thức:

trong đó no:số mẫu cần chọn


Z: với giá trị 1,96 ở mức tin cậy 95% và 2,58 ở 99% trong phân phối chuẩn.
p: ước lượng tỉ lệ được chọn, q = 1-p
e: sai số chấp nhận thí dụ ở mức 95% hay 99%.
Thí dụ một kỹ thuật về khuyến nông mới cần xác định đã được áp dụng với số nông dân tham
gia là bao nhiêu. Số mẫu của tổng thể giả sử rất lớn và chưa biết được, và giả định là có 50%
áp dụng hay là p = 0,5 (biến động tối đa, maximum variability). Giả định là cần có độ tin cậy là
95%, độ chính xác ± 0,05. Thay số liệu vào phương trình 1 ta có số mẫu cần chọn là:
no = [(1,96)2(0,5) (0,5)] / (0,05) 2 = 385 nông dân

Điều chỉnh tỉ lệ khi có tổng thể xác định (Finite Population Correction For Proportions):
Khi số mẫu tổng thể (population size) nhỏ thì số mẫu chọn (sample size) giảm tương ứng.
Nếu biết được số mẫu tổng thể là 2000 nông dân, số mẫu chọn được điều chỉnh theo công thức:

n = no__
1+ no/N

Trong đó: n:số mẫu cần chọn khi biết số mẫu tổng thể
no:số mẫu cần chọn khi chưa biết số mẫu tổng thể
N:số mẫu tổng thể
Số mẫu cần chọn là:
n = 385/[1+(385/2000)] = 323 nông dân

Nếu có số mẫu tổng thể là 2000 nông dân, số mẫu cần chọn khảo sát là 323 nông dân.
(Số mẫu chọn lớn hơn 10% số mẫu tổng thể).

1.13.2. Chọn mẫu theo giá trị trung bình (Sample Size For The Mean), biến số liên tục.
Để áp dụng, cần tính giá trị trung bình và độ lệch chuẩn s thay cho (p x q), (Thành, 1976;
Israel, 2009).
33
Công thức tính:

no = Z2 s 2
e2
Trong đó: no:số mẫu cần chọn
Z: với giá trị 1,96 ở mức tin cậy 95% và 2,58 ở 99% trong phân phối chuẩn
s: độ lệch chuẩn của các trung bình mẫu
e: sai số chấp nhận thí dụ ở mức 95% hay 99%

Thí dụ: để xác định số mẫu cần chọn khi đã điều tra về số giờ làm việc của nhân viên mới
trong một công ty, kết quả cho thấy số giờ trung bình là 60, độ lệch chuẩn s là 30. Nếu muốn
cho độ chính xác của thí nghiệm là 95% và sai số e là 10 giờ, tính số mẫu cần chọn như sau
(Xu, 1999):
no =[(1,96)2(30) 2]/ (10) 2 = 34,6

Làm tròn 34,6 thành 35, cần có 35 nhân viên để phỏng vấn và ở mức tin cậy 95%.

Khi muốn tăng độ tin cậy từ 95% lên 99%, số mẫu chọn phải lớn và nếu sai số e nhỏ thì số
mẫu càng lớn.

Trong thí dụ trên, nếu muốn tăng độ tin cậy ở mức 99% thay giá trị Z là 2,58; số giờ trung bình
là 60, độ lệch chuẩn s là 40, sai số e là 5 giờ. Số mẫu cần chọn là:

no =[(2,58)2(40) 2]/ (5) 2 = 426

Số mẫu cần chọn phỏng vấn là 426 nhân viên ở mức tin cậy 99%.

Trong thực tế việc xác định số mẫu theo tỉ lệ được áp dụng nhiều hơn. Xác định số mẫu khi so
sánh hai trung bình (two means) và hai tỉ lệ (two proportions) với công thức tính cần có giá trị
của Z criterion và Z power (Eng, 2003; Tuấn, 2006).

1.14. Lưu ý về vận hành của SAS và chỉnh sửa lỗi


Chương trình SAS xử lý nhiều số liệu và đồ thị đồng thời khi mở hay paste dữ liệu vào
Program Editor, với cấu trúc file mẫu và lệnh đúng. Khi xử lý lệnh từ data đến run; thì nội
dung được chạy qua phần Log-(untitled), sau đó kết quả thống kê thể hiện đầy đủ ở phần
Output và đồ thị thể hiện ở phần GRAPH.
- Nếu bị thiếu lệnh quan trọng: SAS không xử lý và báo lỗi ở phần Log (untitled), và đề
nghị cách sửa lỗi bằng lệnh thích hợp (như thiếu lệnh run; thiếu data = giong, chưa đúng
số liệu xếp dãy như x1= 20 to 100, xử lý với mean hay LSmean, Tukey, Dunnett). Vì
vậy cần chỉnh sửa và xử lý lại.
- Nếu thiếu chi tiết nhỏ: như lỗi chính tả hoặc thiếu dấu, SAS tự động sửa lại và xử lý cho
kết quả luôn, nhưng chú thích lỗi (spelling) ở phần Log.

34
Chương 2

PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM


BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN
(Completely Randomized Design, CRD)

2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố


Áp dụng trong điều kiện đồng nhất về môi trường, độ dốc, ánh sáng, độ phì nhiêu của đất, bố
trí trong phòng thí nghiệm.
Tiện lợi của phương pháp này là các nghiệm thức có số lần lặp lại khác nhau, nhưng hạn chế là
ít chính xác khi đơn vị thí nghiệm trong nghiệm thức không đồng nhất. Để khắc phục điều này,
cần tăng nhiều số lần lặp lại và kích thước ô phải lớn, do đó tốn kém hơn (Clewer, 2001).

2.1.1. Thí nghiệm dòng vi khuẩn ảnh hưởng hàm lượng đạm đến cỏ xa trục thảo.

Thí nghiệm gồm sáu nghiệm thức tiêm chủng 6 nhóm dòng vi khuẩn ảnh hưởng đến hàm
lượng đạm (mg N) của giống cỏ xa trục thảo đỏ (red clover), năm lần lặp lại. Năm nghiệm thức
đầu cho năm dòng vi khuẩn Rhizobium trifolii riêng biệt kết hợp với hỗn hợp năm dòng vi
khuẩn Rhizobium meliloti. Nghiệm thức compos = hỗn hợp năm dòng vi khuẩn Rhizobium
trifolii với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti (phỏng theo bài tập 2, phương pháp
so sánh nhiều cách xếp hạng, xếp số theo hàng ngang với cách nhập số liệu là datalines, SAS,
1999). Tương tự, xếp số liệu theo hàng dọc cho kết quả xử lý như nhau.
data;
input T $ N @@;
datalines;
3DOK1 19.4 3DOK1 32.6 3DOK1 27 3DOK1 32.1 3DOK1 33
3DOK5 17.7 3DOK5 24.8 3DOK5 27.9 3DOK5 25.2 3DOK5 24.3
3DOK4 17 3DOK4 19.4 3DOK4 9.1 3DOK4 11.9 3DOK4 15.8
3DOK7 20.7 3DOK7 21 3DOK7 20.5 3DOK7 18.8 3DOK7 18.6
3DOK13 14.3 3DOK13 14.4 3DOK13 11.8 3DOK13 11.6 3DOK13 14.2
COMPOS 17.3 COMPOS 19.4 COMPOS 19.1 COMPOS 16.9 COMPOS 20.8
;
proc anova;
class T;
model N = T;
means T / tukey;
means t / duncan waller;
means t / lsd;
title ‘vi khuan’;
run;
Kết quả xử lý:
vi khuan

The ANOVA Procedure


Class Level Information

Class Levels Values

T 6 3DOK1 3DOK13 3DOK4 3DOK5 3DOK7 COMPOS

Number of observations 30

35
vi khuan

The ANOVA Procedure

Dependent Variable: N

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 5 847.046667 169.409333 14.37 <.0001

Error 24 282.928000 11.788667

Corrected Total 29 1129.974667

R-Square Coeff Var Root MSE N Mean

0.749616 17.26515 3.433463 19.88667

Source DF Anova SS Mean Square F Value Pr > F

T 5 847.0466667 169.4093333 14.37 <.0001

vi khuan
The ANOVA Procedure

Tukey's Studentized Range (HSD) Test for N

NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type
II error rate than REGWQ.

Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of Studentized Range 4.37265
Minimum Significant Difference 6.7142

Means with the same letter are not significantly different.

Tukey Grouping Mean N T

A 28.820 5 3DOK1
A
B A 23.980 5 3DOK5
B
B C 19.920 5 3DOK7
B C
B C 18.700 5 COMPOS
C
C 14.640 5 3DOK4
C
C 13.260 5 3DOK13

vi khuan

The ANOVA Procedure

Waller-Duncan K-ratio t Test for N

36
NOTE: This test minimizes the Bayes risk under additive loss and certain other assumptions.

Kratio 100
Error Degrees of Freedom 24
Error Mean Square 11.78867
F Value 14.37
Critical Value of t 1.91873
Minimum Significant Difference 4.1665

Means with the same letter are not significantly different.

Waller Grouping Mean N T

A 28.820 5 3DOK1

B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13

vi khuan

The ANOVA Procedure

Duncan's Multiple Range Test for N

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867

Number of Means 2 3 4 5 6
Critical Range 4.482 4.707 4.852 4.954 5.031

Means with the same letter are not significantly different.

Duncan Grouping Mean N T

A 28.820 5 3DOK1

B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13

vi khuan

37
The ANOVA Procedure

t Tests (LSD) for N

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 24
Error Mean Square 11.78867
Critical Value of t 2.06390
Least Significant Difference 4.4818

Means with the same letter are not significantly different.

t Grouping Mean N T

A 28.820 5 3DOK1

B 23.980 5 3DOK5
B
C B 19.920 5 3DOK7
C
C D 18.700 5 COMPOS
D
E D 14.640 5 3DOK4
E
E 13.260 5 3DOK13

Giải thích: sự khác biệt thay đổi khi so sánh các nghiệm thức với các so sánh giá trị trung bình
như sau:

Tukey's Studentized Range (HSD) Test for Nitrogen Minimum Significant Difference 6,7142
Waller-Duncan K-ratio t Test for Nitrogen Minimum Significant Difference 4,1665
t Tests (LSD) for Nitrogen Least Significant Difference 4,4818
Duncan grouping có giá trị so sánh cặp 2 trung bình với critical range là 4,482 nhưng tăng dần
khi có nhiều so sánh các nghiệm thức, đến cặp sáu thì giá trị so sánh critical range là 5,031

Giải thích: tổng độ tự do của thí nghiệm là 6 - 1 = 5, giá trị F tính của thí nghiệm là 14,37
với p < 0,0001. Hàm lượng đạm thay đổi và có khác biệt thống kê được chọn ở mức p< 0,05 do
tác động của sáu dòng vi khuẩn. Xếp nhóm theo Tukey test khác với các cách khác. Xếp nhóm
theo Waller, Duncan và t test LSD như nhau, xếp nhóm các trung bình chia thành năm nhóm
theo ký tự từ cao đến thấp là A, B, C, D, và E. Xếp nhóm theo Duncan's Multiple Range Test
cho thấy hàm lượng đạm tích lũy do 3DOK1 cao nhất, khác biệt có nghĩa với các dòng vi
khuẩn khác, thấp nhất là 3DOK13.

Hiện có trên 20 giá trị so sánh khác biệt các nghiệm thức (Kuehl, 2000; Clewer, 2001),
nhưng phổ biến là các cách trên. Xếp nhóm theo LSD và Duncan's Multiple Range Test được
dùng phổ biến hiện nay.

38
2.1.1. Thí nghiệm nảy mầm trong phòng
Thí nghiệm nảy mầm 5 giống đậu phụng, kiểu hoàn toàn ngẫu nhiên, 4 lần lặp lại.

Data;
input Giong $ TLnaymam;
cards;
VD2 86
L9803-12 87
HL25 98
GV3 98
L9806 93
VD2 85
L9803-12 89
HL25 97
GV3 96
L9806 94
VD2 87
L9803-12 90
HL25 95
GV3 94
L9806 90
VD2 83
L9803-12 87
HL25 95
GV3 90
L9806 91
;
proc anova;
class Giong;
model TLnaymam = Giong;
means Giong / LSD alpha = 0.01;
title ‘Ti le nay mam dau phung’;
run;
Kết quả xử lý:
Ti le nay mam dau phung

The ANOVA Procedure


Class Level Information
Class Levels Values

Giong 5 GV3 HL25 L9803-12 L9806 VD2

Number of Observations Read 20


Number of Observations Used 20

The ANOVA Procedure


Dependent Variable: TLnaymam
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 4 324.5000000 81.1250000 18.09 <.0001

Error 15 67.2500000 4.4833333

39
Corrected Total 19 391.7500000

R-Square Coeff Var Root MSE TLnaymam Mean

0.828334 2.320426 2.117388 91.25000

Source DF Anova SS Mean Square F Value Pr > F

Giong 4 324.5000000 81.1250000 18.09 <.0001

The ANOVA Procedure

t Tests (LSD) for TLnaymam

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 15
Error Mean Square 4.483333
Critical Value of t 2.94671
Least Significant Difference 4.4119

Means with the same letter are not significantly different.

t Grouping Mean N Giong

A 96.250 4 HL25
A
A 94.500 4 GV3
A
B A 92.000 4 L9806
B
B C 88.250 4 L9803-12
C
C 85.250 4 VD2
Kết quả trình bày như sau:
Bảng 2.1. Tỉ lệ nảy mầm (%) của 5 giống đậu phụng

Giống Tỉ lệ nảy mầm


VD2 85,3 c
L9803-12 88,3 bc
HL25 96,3 a
GV3 94,5 a
L9806 92,0 ab
LSD 0,01 4,41
CV% 2,32
Ghi chú: Các trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p < 0,01.

Giải thích: tỉ lệ nảy mầm cao nhất là giống HL25 (96,3%) không khác biệt với giống L9806.
Giống có tỉ lệ nảy mầm thấp nhất là VD2 (85,3%).

40
2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố không cân đối
Bài tập thí nghiệm hai yếu tố không cân đối (Unbalanced 2-by-2 Factorial, SAS, 1999), yếu tố
A và B được thiết kế theo sơ đồ như sau:
A
1 2
1 12 20
B 14 18
2 11 7
9

data;
input A $ B $ Y @@;
datalines;
A1 B1 12 A1 B1 14 A1 B2 11 A1 B2 9
A2 B1 20 A2 B1 18 A2 B2 17
;
proc glm;
class A B;
model Y=A B A*B;
means A/lsd;
title ‘2 YEU TO KHONG CAN DOI’;
run;
Kết quả xử lý:
2 YEU TO KHONG CAN DOI
The GLM Procedure

Class Level Information

Class Levels Values

A 2 A1 A2

B 2 B1 B2

Number of observations 7

2 YEU TO KHONG CAN DOI

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 91.71428571 30.57142857 15.29 0.0253

Error 3 6.00000000 2.00000000

Corrected Total 6 97.71428571

R-Square Coeff Var Root MSE Y Mean

41
0.938596 9.801480 1.414214 14.42857

Source DF Type I SS Mean Square F Value Pr > F

A 1 80.04761905 80.04761905 40.02 0.0080


B 1 11.26666667 11.26666667 5.63 0.0982
A*B 1 0.40000000 0.40000000 0.20 0.6850

Source DF Type III SS Mean Square F Value Pr > F

A 1 67.60000000 67.60000000 33.80 0.0101


B 1 10.00000000 10.00000000 5.00 0.1114
A*B 1 0.40000000 0.40000000 0.20 0.6850

2 YEU TO KHONG CAN DOI

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 3
Error Mean Square 2
Critical Value of t 3.18245
Least Significant Difference 3.4374
Harmonic Mean of Cell Sizes 3.428571

NOTE: Cell sizes are not equal.

Means with the same letter are not significantly different.

t Grouping Mean N A

A 18.333 3 A2

B 11.500 4 A1

Giải thích:
- Tổng độ tự do của thí nghiệm là n - 1 = 7 - 1 = 6. F test toàn thí nghiệm là 15,29 với xác suất
p = 0,0253, chứng tỏ có khác biệt trong 4 trung bình nghiệm thức.
- Thí nghiệm cân đối các ô thí nghiệm thường có bảng ước lượng Type I SS và Type III SS (SS
= Sum of Squares, tổng bình phương) bằng nhau, nhưng trong thí nghiệm không cân đối này,
sử dụng Type III SS là phù hợp.
- So sánh khác biệt ở mức α = 0,05 cho thấy không có tương tác A*B (p = 0,6850), chứng tỏ
ảnh hưởng của yếu tố A không lệ thuộc vào yếu tố B và ngược lại. Cần tính khác biệt từng yếu
tố, trong đó yếu tố B không khác biệt (p = 0,1114), yếu tố A có khác biệt (p = 0,0101) ở mức p
< 0,05.

42
2.3. Thí nghiệm hoàn toàn ngẫu nhiên ba yếu tố có tương tác

Thí nghiệm khảo sát ba yếu tố gồm chất điều hòa sinh trưởng nuôi cấy mô: IBA (nồng độ
0,1và 0,5 mg/lít ; BAP (nồng độ 2; 4 và 8 mg/lít) , NAA (nồng độ 0,05; 0,1 và 0,5 mg/lít) ảnh
hưởng số chồi phong lan. Bố trí hoàn toàn ngẫu nhiên kiểu 3 x 3 x 2 = 18 nghiệm thức x 3 lần
lặp lại = 54 ô. Ký hiệu nghiệm thức là I (IBA), B (BAP), N (NAA).
Nồng độ nhập vào ký hiệu biến số: IBA.1 là IBA 0,1 mg/lít, BAP2 là BAP 2 mg/lít, NAA.05
là NAA 0,05 mg/lít.

Mười tám nghiệm thức có thể bố trí ngẫu nhiên như sau cho 1 lần lập lại:
T1: I1 B1 N1 T7: I1 B3 N1 T13: I2 B2 N1
T2: I1 B1 N2 T8: I1 B3 N2 T14: I2 B2 N2
T3: I1 B1 N3 T9: I1 B3 N3 T15: I2 B2 N3
T4: I1 B2 N1 T10: I2 B1 N1 T16: I2 B3 N1
T5: I1 B2 N2 T11: I2 B1 N2 T17: I2 B3 N2
T6: I1 B2 N3 T12: I2 B1 N3 T18: I2 B3 N3

Sơ đồ thí nghiệm kiểu hoàn toàn ngẫu nhiên 3 lần lặp lại:

I1 B2 N2 I1 B1 N1 I2 B2 N2 I1 B1 N2 I2 B3 N2 I1 B2 N3
I2 B1 N1 I2 B1 N3 I2 B2 N1 I2 B1 N2 I1 B3 N2 I2 B3 N1
I1 B3 N1 I2 B2 N3 I1 B3 N3 I1 B2 N1 I2 B3 N3 I1 B1 N3
I1 B1 N1 I1 B1 N2 I1 B2 N2 I1 B2 N3 I2 B2 N3 I2 B3 N1
I2 B1 N3 I2 B2 N2 I2 B3 N2 I2 B1 N1 I1 B2 N1 I1 B3 N1
I1 B3 N3 I2 B1 N2 I2 B3 N3 I1 B3 N2 I1 B1 N3 I2 B2 N1
I2 B1 N3 I2 B2 N2 I1 B2 N2 I1 B3 N3 I1 B3 N1 I2 B1 N2
I1 B1 N2 I2 B3 N2 I2 B2 N1 I2 B2 N3 I2 B3 N1 I1 B3 N2
I1 B2 N3 I2 B1 N1 I1 B1 N1 I1 B1 N3 I1 B2 N1 I2 B3 N3
* Ghi chú : «IBABAPNAA$25.» là các biến được viết thành 1 từ có khoảng 25 ký tự in
ra ở bảng kết quả xử lý.
DATA;
input IBA BAP NAA Y IBABAPNAA$25.;
CARDS;
0.1 2 0.05 21 IBA.1BAP2NAA.05
0.1 2 0.1 23 IBA.1BAP2NAA.1
0.1 2 0.5 18 IBA.1BAP2NAA.5
0.1 4 0.05 14 IBA.1BAP4NAA.05
0.1 4 0.1 12 IBA.1BAP4NAA.1
0.1 4 0.5 6 IBA.1BAP4NAA.5
0.1 8 0.05 17 IBA.1BAP8NAA.05
0.1 8 0.1 11 IBA.1BAP8NAA.1
0.1 8 0.5 13 IBA.1BAP8NAA.5
0.1 2 0.05 19 IBA.1BAP2NAA.05
0.1 2 0.1 24 IBA.1BAP2NAA.1
0.1 2 0.5 19 IBA.1BAP2NAA.5
0.1 4 0.05 13 IBA.1BAP4NAA.05
0.1 4 0.1 13 IBA.1BAP4NAA.1
0.1 4 0.5 7 IBA.1BAP4NAA.5
0.1 8 0.05 17 IBA.1BAP8NAA.05
43
0.1 8 0.1 10 IBA.1BAP8NAA.1
0.1 8 0.5 14 IBA.1BAP8NAA.5
0.1 2 0.05 21 IBA.1BAP2NAA.05
0.1 2 0.1 25 IBA.1BAP2NAA.1
0.1 2 0.5 19 IBA.1BAP2NAA.5
0.1 4 0.05 12 IBA.1BAP4NAA.05
0.1 4 0.1 13 IBA.1BAP4NAA.1
0.1 4 0.5 8 IBA.1BAP4NAA.5
0.1 8 0.05 19 IBA.1BAP8NAA.05
0.1 8 0.1 11 IBA.1BAP8NAA.1
0.1 8 0.5 12 IBA.1BAP8NAA.5
0.2 2 0.05 19 IBA.2BAP2NAA.05
0.2 2 0.1 24 IBA.2BAP2NAA.1
0.2 2 0.5 20 IBA.2BAP2NAA.5
0.2 4 0.05 11 IBA.2BAP4NAA.05
0.2 4 0.1 10 IBA.2BAP4NAA.1
0.2 4 0.5 5 IBA.2BAP4NAA.5
0.2 8 0.05 18 IBA.2BAP8NAA.05
0.2 8 0.1 10 IBA.2BAP8NAA.1
0.2 8 0.5 14 IBA.2BAP8NAA.5
0.2 2 0.05 20 IBA.2BAP2NAA.05
0.2 2 0.1 23 IBA.2BAP2NAA.1
0.2 2 0.5 18 IBA.2BAP2NAA.5
0.2 4 0.05 12 IBA.2BAP4NAA.05
0.2 4 0.1 11 IBA.2BAP4NAA.1
0.2 4 0.5 6 IBA.2BAP4NAA.5
0.2 8 0.05 15 IBA.2BAP8NAA.05
0.2 8 0.1 12 IBA.2BAP8NAA.1
0.2 8 0.5 16 IBA.2BAP8NAA.5
0.2 2 0.05 20 IBA.2BAP2NAA.05
0.2 2 0.1 24 IBA.2BAP2NAA.1
0.2 2 0.5 18 IBA.2BAP2NAA.5
0.2 4 0.05 13 IBA.2BAP4NAA.05
0.2 4 0.1 12 IBA.2BAP4NAA.1
0.2 4 0.5 8 IBA.2BAP4NAA.5
0.2 8 0.05 8 IBA.2BAP8NAA.05
0.2 8 0.1 12 IBA.2BAP8NAA.1
0.2 8 0.5 14 IBA.2BAP8NAA.5

;
PROC GLM;
CLASS IBA BAP NAA;
MODEL Y = IBA|BAP|NAA;
MEANS IBA|BAP|NAA / LSD ALPHA=0.01;
LSMEANS BAP*NAA / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS IBA*BAP*NAA / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘SO CHOI LAN’;
RUN;

PROC GLM;
CLASS IBABAPNAA;
MODEL Y = IBABAPNAA;
MEANS IBABAPNAA / DUNCAN ALPHA=0.05;
RUN;

Kết quả xử lý:


44
The GLM Procedure

Class Level Information


Class Levels Values

IBA 2 0.1 0.2

BAP 3 2 4 8

NAA 3 0.05 0.1 0.5

Number of observations 54

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 1355.333333 79.725490 33.37 <.0001

Error 36 86.000000 2.388889

Corrected Total 53 1441.333333

R-Square Coeff Var Root MSE Y Mean

0.940333 10.38092 1.545603 14.88889

Source DF Type I SS Mean Square F Value Pr > F

IBA 1 6.000000 6.000000 2.51 0.1218


BAP 2 1044.333333 522.166667 218.58 <.0001
IBA*BAP 2 1.444444 0.722222 0.30 0.7410
NAA 2 93.000000 46.500000 19.47 <.0001
IBA*NAA 2 11.444444 5.722222 2.40 0.1055
BAP*NAA 4 182.000000 45.500000 19.05 <.0001
IBA*BAP*NAA 4 17.111111 4.277778 1.79 0.1521

Source DF Type III SS Mean Square F Value Pr > F

IBA 1 6.000000 6.000000 2.51 0.1218


BAP 2 1044.333333 522.166667 218.58 <.0001
IBA*BAP 2 1.444444 0.722222 0.30 0.7410
NAA 2 93.000000 46.500000 19.47 <.0001
IBA*NAA 2 11.444444 5.722222 2.40 0.1055
BAP*NAA 4 182.000000 45.500000 19.05 <.0001
IBA*BAP*NAA 4 17.111111 4.277778 1.79 0.1521

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

45
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.144

Means with the same letter are not significantly different.

t Grouping Mean N IBA

A 15.2222 27 0.1
A
A 14.5556 27 0.2

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.4011

Means with the same letter are not significantly different.

t Grouping Mean N BAP

A 20.8333 18 2

B 13.5000 18 8

C 10.3333 18 4

The GLM Procedure

Level of Level of --------------Y--------------


IBA BAP N Mean Std Dev

0.1 2 9 21.0000000 2.50000000


0.1 4 9 10.8888889 3.01846171
0.1 8 9 13.7777778 3.19287401
0.2 2 9 20.6666667 2.39791576
0.2 4 9 9.7777778 2.81858909
0.2 8 9 13.2222222 3.07318149

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

46
Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 2.388889
Critical Value of t 2.71948
Least Significant Difference 1.4011

Means with the same letter are not significantly different.

t Grouping Mean N NAA

A 16.0556 18 0.05
A
A 15.5556 18 0.1

B 13.0556 18 0.5

The GLM Procedure

Level of Level of --------------Y--------------


IBA NAA N Mean Std Dev

0.1 0.05 9 17.0000000 3.35410197


0.1 0.1 9 15.7777778 6.26054666
0.1 0.5 9 12.8888889 5.10990324
0.2 0.05 9 15.1111111 4.37162568
0.2 0.1 9 15.3333333 6.30476011
0.2 0.5 9 13.2222222 5.56277309

Level of Level of --------------Y--------------


BAP NAA N Mean Std Dev

2 0.05 6 20.0000000 0.89442719


2 0.1 6 23.8333333 0.75277265
2 0.5 6 18.6666667 0.81649658
4 0.05 6 12.5000000 1.04880885
4 0.1 6 11.8333333 1.16904519
4 0.5 6 6.6666667 1.21106014
8 0.05 6 15.6666667 3.98329847
8 0.1 6 11.0000000 0.89442719
8 0.5 6 13.8333333 1.32916014

Level of Level of Level of --------------Y--------------


IBA BAP NAA N Mean Std Dev

0.1 2 0.05 3 20.3333333 1.15470054


0.1 2 0.1 3 24.0000000 1.00000000
0.1 2 0.5 3 18.6666667 0.57735027
0.1 4 0.05 3 13.0000000 1.00000000
0.1 4 0.1 3 12.6666667 0.57735027
0.1 4 0.5 3 7.0000000 1.00000000
0.1 8 0.05 3 17.6666667 1.15470054
0.1 8 0.1 3 10.6666667 0.57735027
0.1 8 0.5 3 13.0000000 1.00000000
0.2 2 0.05 3 19.6666667 0.57735027
0.2 2 0.1 3 23.6666667 0.57735027

47
0.2 2 0.5 3 18.6666667 1.15470054
0.2 4 0.05 3 12.0000000 1.00000000
0.2 4 0.1 3 11.0000000 1.00000000
0.2 4 0.5 3 6.3333333 1.52752523
0.2 8 0.05 3 13.6666667 5.13160144
0.2 8 0.1 3 11.3333333 1.15470054
0.2 8 0.5 3 14.6666667 1.15470054

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
BAP NAA Y LSMEAN Pr > |t|

2 0.05 20.0000000
2 0.1 23.8333333 0.0009
2 0.5 18.6666667 0.5544
4 0.05 12.5000000 <.0001
4 0.1 11.8333333 <.0001
4 0.5 6.6666667 <.0001
8 0.05 15.6666667 0.0002
8 0.1 11.0000000 <.0001
8 0.5 13.8333333 <.0001

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
IBA BAP NAA Y LSMEAN Pr > |t|
0.1 2 0.05 20.3333333
0.1 2 0.1 24.0000000 0.0657
0.1 2 0.5 18.6666667 0.8527
0.1 4 0.05 13.0000000 <.0001
0.1 4 0.1 12.6666667 <.0001
0.1 4 0.5 7.0000000 <.0001
0.1 8 0.05 17.6666667 0.3208
0.1 8 0.1 10.6666667 <.0001
0.1 8 0.5 13.0000000 <.0001
0.2 2 0.05 19.6666667 1.0000
0.2 2 0.1 23.6666667 0.1173
0.2 2 0.5 18.6666667 0.8527
0.2 4 0.05 12.0000000 <.0001
0.2 4 0.1 11.0000000 <.0001
0.2 4 0.5 6.3333333 <.0001
0.2 8 0.05 13.6666667 <.0001
0.2 8 0.1 11.3333333 <.0001
0.2 8 0.5 14.6666667 0.0010

The GLM Procedure


Class Level Information

Class Levels Values

IBABAPNAA 18 IBA.1BAP2NAA.05 IBA.1BAP2NAA.1 IBA.1BAP2NAA.5 IBA.1BAP4NAA.05 IBA.1BAP4NAA.1


IBA.1BAP4NAA.5 IBA.1BAP8NAA.05 IBA.1BAP8NAA.1 IBA.1BAP8NAA.5 IBA.2BAP2NAA.05
IBA.2BAP2NAA.1 IBA.2BAP2NAA.5 IBA.2BAP4NAA.05 IBA.2BAP4NAA.1 IBA.2BAP4NAA.5
IBA.2BAP8NAA.05 IBA.2BAP8NAA.1 IBA.2BAP8NAA.5

48
Number of observations 54
The GLM Procedure

Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 1355.333333 79.725490 33.37 <.0001

Error 36 86.000000 2.388889

Corrected Total 53 1441.333333

R-Square Coeff Var Root MSE Y Mean

0.940333 10.38092 1.545603 14.88889

Source DF Type I SS Mean Square F Value Pr > F

IBABAPNAA 17 1355.333333 79.725490 33.37 <.0001

Source DF Type III SS Mean Square F Value Pr > F

IBABAPNAA 17 1355.333333 79.725490 33.37 <.0001

The GLM Procedure


Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.05
Error Degrees of Freedom 36
Error Mean Square 2.388889

Number of Means 2 3 4 5 6 7 8 9 10
Critical Range 2.559 2.691 2.776 2.838 2.885 2.921 2.951 2.976 2.997

Number of Means 11 12 13 14 15 16 17 18
Critical Range 3.014 3.029 3.042 3.053 3.063 3.071 3.079 3.085

Means with the same letter are not significantly different.

Duncan Grouping Mean N IBABAPNAA

A 24.000 3 IBA.1BAP2NAA.1
A
A 23.667 3 IBA.2BAP2NAA.1

B 20.333 3 IBA.1BAP2NAA.05
B
B 19.667 3 IBA.2BAP2NAA.05
B
B 18.667 3 IBA.1BAP2NAA.5
B
B 18.667 3 IBA.2BAP2NAA.5
B
B 17.667 3 IBA.1BAP8NAA.05

C 14.667 3 IBA.2BAP8NAA.5
C
D C 13.667 3 IBA.2BAP8NAA.05
D C

49
D C E 13.000 3 IBA.1BAP8NAA.5
D C E
D C E 13.000 3 IBA.1BAP4NAA.05
D C E
D C E 12.667 3 IBA.1BAP4NAA.1
D C E
D C E 12.000 3 IBA.2BAP4NAA.05
D E
D E 11.333 3 IBA.2BAP8NAA.1
D E
D E 11.000 3 IBA.2BAP4NAA.1
E
E 10.667 3 IBA.1BAP8NAA.1

F 7.000 3 IBA.1BAP4NAA.5
F
F 6.333 3 IBA.2BAP4NAA.5

Giải thích: (xem bảng ANOVA type III SS và tương tác để giải thích)
Source DF Type III SS Mean Square F Value Pr > F

IBA 1 6.000000 6.000000 2.51 0.1218


BAP 2 1044.333333 522.166667 218.58 <.0001
IBA*BAP 2 1.444444 0.722222 0.30 0.7410
NAA 2 93.000000 46.500000 19.47 <.0001
IBA*NAA 2 11.444444 5.722222 2.40 0.1055
BAP*NAA 4 182.000000 45.500000 19.05 <.0001
IBA*BAP*NAA 4 17.111111 4.277778 1.79 0.1521

+ Kết quả của bảng ANOVA cho thấy:


- Có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố BAP (F = 218,58 với p < 0,0001)
- Có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố NAA (F = 19,47 với p < 0,0001)
- Không khác biệt thống kê của yếu tố IBA (F = 2,51 với p = 0,1218)
+ Không có tương tác của IBA*BAP*NAA (p = 0,1521).
Tương tác của BAP*NAA rất có nghĩa với F = 19,05 với p < 0,0001.

Căn cứ vào bảng tương tác so sánh xác suất p các trung bình tương tác Dunnett, tương tác
BAP*NAA cho thấy các tổ hợp 3 yếu tố tương tác như nhau khi p > 0,05.

Bảng 2.2. Tương tác của hai yếu tố BAP*NAA ảnh hưởng số chồi lan
BAP NAA Trung bình Xác suất
(mg/lít) (mg/lít) số chồi lan p

2 0,05 20,0
2 0,1 23,8 0,0009
2 0,5 18,7 0,5544
4 0,05 12,5 <0.0001
4 0,1 11,8 <0.0001
4 0,5 6,7 <0.0001
8 0,05 15,7 0,0002
8 0,1 11,0 <0.0001
8 0,5 13,8 <0.0001

50
Căn cứ theo giả thiết là H0:LSMean= Control, các trung bình giống như đối chứng, các cặp có
giá trị xác suất p > 0,05 có tương tác như nhau. Kết quả cho thấy chỉ có cặp nghiệm thức BAP
2 mg/lít với NAA 0,05 mg/lít và BAP 2 mg/lít với NAA 0,5 mg/lít là có tương tác như nhau.
Còn lại các cặp khác không có tương tác, trong đó nghiệm thức BAP 2 mg/lít với NAA 0,1
mg/lít cho số chồi lan trung bình cao nhất là 23,8 chồi.
Vì không có tương tác của IBA*BAP*NAA, các kết quả xếp nhóm là để ghi số vào bảng và
không ghi xếp hạng a, b, c cho các cặp ba tương tác này. Ghi lại giá trị trung bình có xếp nhóm
theo ký tự cho yếu tố IBA, BAP, NAA và tương tác có nghĩa ở mức xác suất theo bảng
ANOVA.

Bảng 2.3. Ảnh hưởng NAA, GA và BA đến số chồi lan

IBA 0,1 mg/lít IBA 0,2 mg/lít

NAA NAA NAA NAA NAA NAA Trung bình


0,05 mg/lít 0,1 mg/lít 0,5 mg/lít 0,05 mg/lít 0,1 mg/lít 0,5 mg/lít BAP

BAP 2 mg/lít 20,33 24,00 18,66 19,67 23,67 18,67 20,83A

BAP 4 mg/lít 13,00 12,66 7,00 12,00 11,00 6,33 10,33B

BAP 8 mg/lít 17,66 10,66 13,00 13,67 11,33 14,67 13,50C


NAA
0,05 mg/lít 16,05A
NAA
Trung bình 0,1 mg/lít 15,56A
NAA NAA
0,5 mg/lít 13,06B
Trung bình
IBA 15,22A 14,56A

* Các giá trị trung bình cùng ký tự không khác biệt có nghĩa ở mức thống kê p <0,01. Tương
tác BAP*NAA rất có nghĩa ở mức p < 0,01; CV = 10,38%.

Theo kết quả thí nghiệm, nồng độ IBA không ảnh hưởng số chồi, BAP ở nồng độ thấp tăng số
chồi (2mg/lít) nhưng giảm khi ở nồng độ cao, NAA nồng độ thấp tăng số chồi. Hiệu quả tương
tác cho số chồi cao nhất là BAP 2 mg/lít với NAA 0,1 mg/lít với số chồi lan trung bình là 23,8
chồi.

51
Chương 3

PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM


KHỐI ĐẦY ĐỦ NGẪU NHIÊN
(Randomized Complete Block Design, RCBD)

3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố


Đây là kiểu bố trí phổ biến nhất trong nghiên cứu thí nghiệm, được áp dụng ưu tiên so với
các cách bố trí khác. Áp dụng cho việc so sánh các giống, loại phân bón trong điều kiện đất
đai, ngoại cảnh tương đối ít đồng nhất. Thường có chiều biến thiên của hướng dốc hoặc hướng
ánh sáng, độ phì đất, pH, cần điều chỉnh ô phù hợp về kích thước, chiều dài ô. Kiểu RCBD
giảm sai số thí nghiệm, nhưng chịu ảnh hưởng của khối.
Thí nghiệm so sánh năng suất tươi (kg/ô 36m2) của 6 giống đậu Hà Lan trong 4 khối, sử
dụng ký tự thay tên giống (Barnard, 1994).
Bố trí thí nghiệm theo khối đầy đủ hoàn toàn ngẫu nhiên, bốn lần lặp lại, sáu nghiệm thức.
Tổng số ô = 4 x 6 = 24 ô (k = khối; t = nghiệm thức, tên giống; y = năng suất). Sơ đồ thí
nghiệm như sau:
Hướng dốc cao
I f d c e b a
II e f c b a d
III c d e a b f
IV e d c a f b
Thấp
data;
input k $ t $ y;
cards;
1 f 9
1 d 14.6
1 c 18.3
1 e 14.1
1 b 21.9
1 a 22.4
2 e 14.2
2 f 14.1
2 c 17.4
2 b 25.6
2 a 23.9
2 d 19.2
3 c 12.7
3 d 15.8
3 e 11.5
3 a 21.1
3 b 23.7
3 f 6.4
4 e 12.1
4 d 16.1
4 c 15.9
4 a 19.6
4 f 12.3
4 b 18.3
;

52
proc anova;
class k t;
model y = k t;
means t /duncan alpha=0.01;
title 'Thi nghiem 1 yeu to RCBD';
run;

Kết quả xử lý:


Thi nghiem 1 yeu to RCBD
The ANOVA Procedure

Class Level Information

Class Levels Values

k 4 1 2 3 4

t 6 a b c d e f

Number of observations 24

Thi nghiem 1 yeu to RCBD

The ANOVA Procedure

Dependent Variable: y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 8 497.3300000 62.1662500 16.42 <.0001

Error 15 56.7950000 3.7863333

Corrected Total 23 554.1250000

R-Square Coeff Var Root MSE y Mean

0.897505 11.66927 1.945850 16.67500

Source DF Anova SS Mean Square F Value Pr > F

k 3 52.8950000 17.6316667 4.66 0.0171


t 5 444.4350000 88.8870000 23.48 <.0001

Thi nghiem 1 yeu to RCBD

The ANOVA Procedure


Duncan's Multiple Range Test for y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 15
Error Mean Square 3.786333

Number of Means 2 3 4 5 6
Critical Range 4.054 4.229 4.342 4.424 4.485

53
Means with the same letter are not significantly different.
Duncan Grouping Mean N t

A 22.375 4 b
A
A 21.750 4 a

B 16.425 4 d
B
B 16.075 4 c
B
C B 12.975 4 e
C
C 10.450 4 f

Giải thích: kết quả cho thấy các nghiệm thức khác biệt rất có nghĩa ở mức p < 0,01; xếp nhóm
theo ký tự chia làm ba nhóm là A, B và C và không khác biệt trong cùng nhóm với nhau.
Nghiệm thức b cho năng suất cao nhất, không khác biệt với nghiệm thức a và thấp nhất là
nghiệm thức f.

3.2. Kiểu ô vuông la tinh (Latin square)

Áp dụng khi có biến thiên hai chiều của các nghiệm thức và cần được khảo sát theo hai hướng,
thường là bố trí theo hàng và cột. Bài tập thí nghiệm khảo sát tăng giảm chiều cao lúa mì theo
tiêu chuẩn do máy gặt trên sáu lô. Thứ tự ô (I, II, III, IV, V, VI) trên các khu vực A, B, C, D,
E, F (Barnard, 1994). Chiều cao chồi so sánh với chiều cao thực sự (cm).

Khu vực
I f b a d c e
II b f d a e c
III c e f b d a
IV d c b e a f
V e a c f b d
VI a d e c f b

Dữ liệu được sắp xếp như sau: hàng (H), cột (C), nghiệm thức (T) và chiều cao (Y).
DATA;
INPUT H C T $ Y;
CARDS;
1 1 f 3.5
1 2 b 4.2
1 3 a 6.7
1 4 d 6.6
1 5 c 4.1
1 6 e 3.8
2 1 b 8.9
2 2 f 1.9
2 3 d 5.8
2 4 a 4.5
2 5 e 2.4
2 6 c 5.8
3 1 c 9.6
3 2 e 3.7
54
3 3 f -2.7
3 4 b 3.7
3 5 d 6
3 6 a 7
4 1 d 10.5
4 2 c 10.2
4 3 b 4.6
4 4 e 3.7
4 5 a 5.1
4 6 f 3.8
5 1 e 3.1
5 2 a 7.2
5 3 c 4
5 4 f -3.3
5 5 b 3.5
5 6 d 5
6 1 a 5.9
6 2 d 7.6
6 3 e -0.7
6 4 c 3
6 5 f 4
6 6 b 8.6
;
PROC ANOVA;
CLASS H C T;
MODEL Y = H C T;
MEANS T / DUNCAN ALPHA=0.01;
TITLE ‘CHIEU CAO LUA MI’;
RUN;
Kết quả xử lý:
CHIEU CAO LUA MI

The ANOVA Procedure

Class Level Information

Class Levels Values

H 6 1 2 3 4 5 6

C 6 1 2 3 4 5 6

T 6 a b c d e f

Number of observations 36

CHIEU CAO LUA MI

The ANOVA Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 15 263.0641667 17.5376111 5.27 0.0004

Error 20 66.5633333 3.3281667

55
Corrected Total 35 329.6275000
R-Square Coeff Var Root MSE Y Mean

0.798065 38.33961 1.824326 4.758333


Source DF Anova SS Mean Square F Value Pr > F

H 5 28.5991667 5.7198333 1.72 0.1763


C 5 78.8691667 15.7738333 4.74 0.0051
T 5 155.5958333 31.1191667 9.35 0.0001

CHIEU CAO LUA MI


The ANOVA Procedure
Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 20
Error Mean Square 3.328167

Number of Means 2 3 4 5 6
Critical Range 2.997 3.126 3.211 3.273 3.321

Means with the same letter are not significantly different.

Duncan Grouping Mean N T

A 6.917 6 d
A
A 6.117 6 c
A
A 6.067 6 a
A
B A 5.583 6 b
B
B C 2.667 6 e
C
C 1.200 6 f
Giải thích:
Kết quả xếp nhóm cho thấy có ba nhóm theo ký tự là A , B và C. Chiều cao gặt lúa thay đổi do
thứ tự ô, các nghiệm thức khác biệt rất có nghĩa ở mức p<0,01; cao nhất là nghiệm thức d, thấp
nhất là nghiệm thức f.

3.3. Khối đầy đủ ngẫu nhiên hai yếu tố có tương tác (interaction)
Kiểu thí nghiệm căn bản này thực hiện để tìm tác động đồng thời của hai yếu tố cần khảo sát.
Thí nghiệm hai yếu tố, yếu tố A có ba nghiệm thức, yếu tố B có năm nghiệm thức
Thí nghiệm bố trí trên ba khối đầy đủ ngẫu nhiên, khảo sát năng suất cải dầu Y (kg/ô) do ảnh
hưởng ba nồng độ chất điều hòa sinh trưởng (S1, S2, S3) và năm lượng đạm (D1, D2, D3, D4,
D5), số liệu trích dẫn từ trang 168 của Clewer (2001).

Có hai bước: (1) xử lý ANOVA bằng PROC GLM (General Linear Model), xếp nhóm các
nghiệm thức của yếu tố S, D. So sánh tương tác LSMEAN bằng: LSMEANS S*D/PDIFF
ADJUST=DUNNETT; (2) tính khác biệt tương tác của yếu tố S*D dựa trên so sánh giá trị xác suất
điều chỉnh (adjust p-values) của PDIFF ADJUST=DUNNETT.
File mẫu xử lý ANOVA và xếp nhóm các nghiệm thức của yếu tố S và D mã hóa bằng số.

56
* Lưu ý sử dụng dấu $ để cách các biến số. Mã hóa bằng chữ với khối (K), nồng độ chất điều
hòa sinh trưởng (S) và lượng đạm (D), năng suất cải dầu Y (kg/ô).
DATA;
INPUT K $ S $ D $ SD $ Y;
CARDS;
1 1 1 S1D1 0.9
1 1 2 S1D2 1.2
1 1 3 S1D3 1.3
1 1 4 S1D4 1.8
1 1 5 S1D5 1.1
1 2 1 S2D1 0.9
1 2 2 S2D2 1.1
1 2 3 S2D3 1.3
1 2 4 S2D4 1.6
1 2 5 S2D5 1.9
1 3 1 S3D1 0.9
1 3 2 S3D2 1.4
1 3 3 S3D3 1.3
1 3 4 S3D4 1.4
1 3 5 S3D5 1.2
2 1 1 S1D1 0.9
2 1 2 S1D2 1.3
2 1 3 S1D3 1.5
2 1 4 S1D4 1.9
2 1 5 S1D5 1.4
2 2 1 S2D1 0.8
2 2 2 S2D2 0.9
2 2 3 S2D3 1.5
2 2 4 S2D4 1.3
2 2 5 S2D5 1.6
2 3 1 S3D1 1
2 3 2 S3D2 1.2
2 3 3 S3D3 1.4
2 3 4 S3D4 1.5
2 3 5 S3D5 1.1
3 1 1 S1D1 1
3 1 2 S1D2 1.2
3 1 3 S1D3 1.4
3 1 4 S1D4 2.1
3 1 5 S1D5 1.2
3 2 1 S2D1 0.8
3 2 2 S2D2 0.9
3 2 3 S2D3 1.1
3 2 4 S2D4 1.1
3 2 5 S2D5 1.5
3 3 1 S3D1 0.7
3 3 2 S3D2 1
3 3 3 S3D3 1.4
3 3 4 S3D4 1.4
3 3 5 S3D5 1.3
;

57
PROC GLM;
CLASS K S D;
MODEL Y = K S D S*D;
MEAN S/LSD;
MEAN D/LSD ALPHA=0.01;
MEAN S*D/ DUNCAN ALPHA=0.01;
LSMEANS S*D / PDIFF ADJUST=DUNNETT ALPHA=0.01;
RUN;

PROC GLM;
CLASS K SD;
MODEL Y = K SD;
MEAN SD / DUNCAN ALPHA=0.01;
RUN;
Kết quả xử lý:
The SAS System
The GLM Procedure
Class Level Information
Class Levels Values
K 3 1 2 3

S 3 1 2 3

D 5 1 2 3 4 5

Number of observations 45
The SAS System
The GLM Procedure
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 16 3.73866667 0.23366667 11.91 <.0001

Error 28 0.54933333 0.01961905

Corrected Total 44 4.28800000

R-Square Coeff Var Root MSE Y Mean

0.871891 11.11651 0.140068 1.260000

Source DF Type I SS Mean Square F Value Pr > F

K 2 0.06400000 0.03200000 1.63 0.2138


S 2 0.16933333 0.08466667 4.32 0.0232
D 4 2.49022222 0.62255556 31.73 <.0001
S*D 8 1.01511111 0.12688889 6.47 <.0001

Source DF Type III SS Mean Square F Value Pr > F

K 2 0.06400000 0.03200000 1.63 0.2138


S 2 0.16933333 0.08466667 4.32 0.0232
D 4 2.49022222 0.62255556 31.73 <.0001
S*D 8 1.01511111 0.12688889 6.47 <.0001

The SAS System

The GLM Procedure


t Tests (LSD) for Y
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

58
Alpha 0.05
Error Degrees of Freedom 28
Error Mean Square 0.019619
Critical Value of t 2.04841
Least Significant Difference 0.1048

Means with the same letter are not significantly different.


t Grouping Mean N S
A 1.34667 15 1

B 1.22000 15 2
B
B 1.21333 15 3

The SAS System

The GLM Procedure

t Tests (LSD) for Y


NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha 0.01
Error Degrees of Freedom 28
Error Mean Square 0.019619
Critical Value of t 2.76326
Least Significant Difference 0.1825
Means with the same letter are not significantly different.

t Grouping Mean N D
A 1.56667 9 4

B 1.36667 9 5
B
B 1.35556 9 3

C 1.13333 9 2

D 0.87778 9 1
The SAS System
The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
S D Y LSMEAN Pr > |t|

1 1 0.93333333
1 2 1.23333333 0.1146
1 3 1.40000000 0.0037
1 4 1.93333333 <.0001
1 5 1.23333333 0.1146
2 1 0.83333333 0.9844
2 2 0.96666667 1.0000
2 3 1.30000000 0.0321
2 4 1.33333333 0.0161
2 5 1.66666667 <.0001
3 1 0.86666667 0.9996
3 2 1.20000000 0.2017
3 3 1.36666667 0.0078
3 4 1.43333333 0.0017
3 5 1.20000000 0.2017

59
The SAS System
The GLM Procedure

Class Level Information

Class Levels Values

K 3 1 2 3

SD 15 S1D1 S1D2 S1D3 S1D4 S1D5 S2D1 S2D2 S2D3 S2D4 S2D5 S3D1 S3D2 S3D3 S3D4 S3D5

Number of observations 45

The SAS System

The GLM Procedure


Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 16 3.73866667 0.23366667 11.91 <.0001

Error 28 0.54933333 0.01961905

Corrected Total 44 4.28800000

R-Square Coeff Var Root MSE Y Mean

0.871891 11.11651 0.140068 1.260000

Source DF Type I SS Mean Square F Value Pr > F

K 2 0.06400000 0.03200000 1.63 0.2138


SD 14 3.67466667 0.26247619 13.38 <.0001

Source DF Type III SS Mean Square F Value Pr > F

K 2 0.06400000 0.03200000 1.63 0.2138


SD 14 3.67466667 0.26247619 13.38 <.0001

The SAS System

The GLM Procedure

Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 28
Error Mean Square 0.019619

Number of Means 2 3 4 5 6 7 8
Critical Range .3160 .3296 .3387 .3453 .3505 .3547 .3582

Number of Means 9 10 11 12 13 14 15
Critical Range .3611 .3636 .3658 .3678 .3695 .3710 .3723

60
Means with the same letter are not significantly different.

Duncan Grouping Mean N SD

A 1.9333 3 S1D4
A
B A 1.6667 3 S2D5
B
B C 1.4333 3 S3D4
B C
B C 1.4000 3 S1D3
B C
B C 1.3667 3 S3D3
B C
B C 1.3333 3 S2D4
C
D C 1.3000 3 S2D3
D C
D C E 1.2333 3 S1D5
D C E
D C E 1.2333 3 S1D2
D C E
D F C E 1.2000 3 S3D5
D F C E
D F C E 1.2000 3 S3D2
D F E
D F G E 0.9667 3 S2D2
F G E
F G E 0.9333 3 S1D1
F G
F G 0.8667 3 S3D1
G
G 0.8333 3 S2D1

Bảng 3.1. Ảnh hưởng của nồng độ chất điều hòa sinh trưởng và đạm đến năng suất cải dầu
(kg/ô)
Nồng độ chất Trung bình nồng
điều hòa Lượng đạm (D) độ chất điều hòa
sinh trưởng (S) D1 D2 D3 D4 D5 sinh trưởng (S)
S1 0,93 efg 1,23 cde 1,40 bc 1,93 a 1,23 cde 1,35 A
S2 0,83 g 0,97 defg 1,30 dc 1,33 bc 1,67 ab 1,22 B
S3 0,87 fg 1,20 cdef 1,37 bc 1,43 bc 1,20 cdef 1,21 B
Trung bình 0,88 D 1,13 C 1,36 B 1,57 A 1,37 B
lượng đạm (D)
* Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với nồng độ chất điều
hòa sinh trưởng: p<0,05; lượng đạm: p<0,01; tương tác nồng độ chất điều hòa sinh trưởng và lượng
đạm: p<0,01; CV = 11,12%.

Giải thích:
- Kết quả xếp nhóm có thể chia các giá trị trung bình từ cao đến thấp của yếu tố tương tác SD
làm bảy nhóm theo ký tự A, B, … G; trong đó giá trị trung bình cao nhất là 1,93 kg/ô của
tương tác S1D4, thấp nhất là 0,83 kg/ô của tương tác S2D1.

- Tương tác của hai yếu tố nồng độ chất điều hòa sinh trưởng và lượng đạm S*D (F = 6,47 với

61
p < 0,0001) ảnh hưởng rất có nghĩa đến năng suất cải dầu. Bảng so sánh giá trị xác suất p các
trung bình tương tác Dunnett cho thấy tương tác chất điều hòa sinh trưởng và lượng đạm ảnh
hưởng độc lập lớn nhất đến năng suất cải dầu là tương tác S1D4 (p < 0,0001), tiếp theo là
S2D5 (p < 0,0001), S3D4 (p = 0,0017), và các tương tác S1D3, S3D4, S3D3, S2D4 và S2D3.
Các tương tác có ảnh hưởng như nhau ( p > 0,05) và năng suất thấp là tương tác S3D1, S3D2,
S3D5, S2D1, S2D2, S1D1, S1D2, S1D5.
Lượng đạm tăng năng suất từ nghiệm thức D1 đến D4 và giảm ở D5. Nồng độ chất sinh
trưởng giảm năng suất nghiệm thức từ S1 đến S3. Các nghiệm thức lượng đạm từ D1 đến D4
đều có năng suất giảm đều khi nồng độ chất sinh trưởng từ S1 đến S3, lượng đạm D4 và nồng
độ chất sinh trưởng S1 cho năng suất cao nhất là 19,3 kg/ô, năng suất giảm 0,60 kg/ô nếu áp
dụng lượng đạm D4 và S2. Do đó cần sử dụng lượng đạm D4 và nồng độ chất sinh trưởng S1.

3.4. Thí nghiệm lặp lại theo năm (tương tác năm*giống)
Thí nghiệm này thích hợp để có thể đánh giá tương tác ảnh hưởng của thời gian với kết quả thí
nghiệm.

Thí nghiệm bố trí theo sơ đồ như sau (phỏng theo Tree Fruit Research and Extension Center,
2000):
Năm 1995 Khối I A B C D E F
Khối II F A E B D C
Khối III C B F A D E

Năm 1996 Khối I A B C D E F


Khối II F A E B D C
Khối III C B F A D E

Thí nghiệm bố trí khối đầy đủ ngẫu nhiên lặp lại hai năm được phân tích tương tác năm và
giống ảnh hưởng năng suất như là thí nghiệm hai yếu tố.
Bài tập khảo sát năng suất giống cỏ (lb/acre) trồng hai năm 1995 (mưa nhiều) và 1996 (mưa ít),
ký hiệu khối (KHOI), năm (NAM, giống (GIONG), tương tác năm*giống (NAMGIONG), $15.
và $20. chỉ độ dài của hàng ghi các biến trong bảng xếp nhóm các nghiệm thức, với tiêu chuẩn
chọn mức alpha = 0,05 ban đầu (NCRS 2007, tr. 33).
Kết quả xử lý như sau:

DATA
INPUT KHOI NAM $ GIONG$15. NSUAT NAMGIONG$20.;
Cards;
1 1995 Alamo 11295 1995 Alamo
1 1995 Blackwell 5866 1995 Blackwell
1 1995 Shelter 9754 1995 Shelter
1 1995 Kanlor 8718 1995 Kanlor
1 1995 Dacotah 7139 1995 Dacotah
2 1995 Alamo 9239 1995 Alamo
2 1995 Dacotah 5712 1995 Dacotah
2 1995 Kanlor 6710 1995 Kanlor
2 1995 Blackwell 7214 1995 Blackwell
2 1995 Shelter 9423 1995 Shelter
3 1995 Alamo 11478 1995 Alamo
62
3 1995 Dacotah 6872 1995 Dacotah
3 1995 Blackwell 6602 1995 Blackwell
3 1995 Shelter 10742 1995 Shelter
3 1995 Kanlor 8585 1995 Kanlor
4 1995 Shelter 10623 1995 Shelter
4 1995 Alamo 11010 1995 Alamo
4 1995 Dacotah 5541 1995 Dacotah
4 1995 Kanlor 7720 1995 Kanlor
4 1995 Blackwell 7628 1995 Blackwell
1 1996 Alamo 7097 1996 Alamo
1 1996 Blackwell 6418 1996 Blackwell
1 1996 Shelter 8083 1996 Shelter
1 1996 Kanlor 8039 1996 Kanlor
1 1996 Dacotah 8086 1996 Dacotah
2 1996 Alamo 7380 1996 Alamo
2 1996 Dacotah 6579 1996 Dacotah
2 1996 Kanlor 8073 1996 Kanlor
2 1996 Blackwell 8922 1996 Blackwell
2 1996 Shelter 9697 1996 Shelter
3 1996 Alamo 9996 1996 Alamo
3 1996 Dacotah 7240 1996 Dacotah
3 1996 Blackwell 7926 1996 Blackwell
3 1996 Shelter 8698 1996 Shelter
3 1996 Kanlor 9124 1996 Kanlor
4 1996 Shelter 9590 1996 Shelter
4 1996 Alamo 10872 1996 Alamo
4 1996 Dacotah 6021 1996 Dacotah
4 1996 Kanlor 7459 1996 Kanlor
4 1996 Blackwell 8375 1996 Blackwell
;
proc glm;
class KHOI NAM GIONG;
model NSUAT = KHOI NAM GIONG NAM*GIONG;
means NAM GIONG NAM*GIONG/lsd alpha=0.05;
lsmeans NAM*GIONG /pdiff adjust=DUNNETT;
title‘Tuong tac nam va giong den nang suat’;
run;

proc GLM;
class KHOI NAMGIONG;
model NSUAT = KHOI NAMGIONG;
means NAMGIONG /Duncan alpha=0.05;
run;
Kết quả xử lý:
Tuong tac nam va giong den nang suat

The GLM Procedure


Class Level Information

Class Levels Values

KHOI 4 1 2 3 4

NAM 2 1995 1996

GIONG 5 Alamo Blackwell Dacotah Kanlor Shelter

63
Number of Observations Read 40
Number of Observations Used 40
Tuong tac nam va giong den nang suat

The GLM Procedure

Dependent Variable: NSUAT

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 12 77795756.8 6482979.7 6.73 <.0001

Error 27 25997182.3 962858.6

Corrected Total 39 103792939.1

R-Square Coeff Var Root MSE NSUAT Mean

0.749528 11.83852 981.2536 8288.650

Source DF Type I SS Mean Square F Value Pr > F

KHOI 3 4418918.70 1472972.90 1.53 0.2294


NAM 1 440160.40 440160.40 0.46 0.5047
GIONG 4 60161556.35 15040389.09 15.62 <.0001
NAM*GIONG 4 12775121.35 3193780.34 3.32 0.0247

Source DF Type III SS Mean Square F Value Pr > F

KHOI 3 4418918.70 1472972.90 1.53 0.2294


NAM 1 440160.40 440160.40 0.46 0.5047
GIONG 4 60161556.35 15040389.09 15.62 <.0001
NAM*GIONG 4 12775121.35 3193780.34 3.32 0.0247

Tuong tac nam va giong den nang suat

The GLM Procedure

t Tests (LSD) for NSUAT

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 27
Error Mean Square 962858.6
Critical Value of t 2.05183
Least Significant Difference 636.68

Means with the same letter are not significantly different.

t Grouping Mean N NAM

A 8393.6 20 1995
A

64
A 8183.8 20 1996

Tuong tac nam va giong den nang suat

The GLM Procedure

t Tests (LSD) for NSUAT

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 27
Error Mean Square 962858.6
Critical Value of t 2.05183
Least Significant Difference 1006.7

Means with the same letter are not significantly different.

t Grouping Mean N GIONG

A 9795.9 8 Alamo
A
A 9576.3 8 Shelter

B 8053.5 8 Kanlor
B
C B 7368.9 8 Blackwell
C
C 6648.8 8 Dacotah

Tuong tac nam va giong den nang suat

The GLM Procedure

Level of Level of ------------NSUAT------------


NAM GIONG N Mean Std Dev

1995 Alamo 4 10755.5000 1029.17588


1995 Blackwell 4 6827.5000 767.14080
1995 Dacotah 4 6316.0000 806.61970
1995 Kanlor 4 7933.2500 927.79789
1995 Shelter 4 10135.5000 647.73889
1996 Alamo 4 8836.2500 1882.81286
1996 Blackwell 4 7910.2500 1074.97112
1996 Dacotah 4 6981.5000 889.06486
1996 Kanlor 4 8173.7500 693.33752
1996 Shelter 4 9017.0000 766.99544

Tuong tac nam va giong den nang suat

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
NAM GIONG NSUAT LSMEAN Pr > |t|

65
1995 Alamo 10755.5000
1995 Blackwell 6827.5000 <.0001
1995 Dacotah 6316.0000 <.0001
1995 Kanlor 7933.2500 0.0028
1995 Shelter 10135.5000 0.9434
1996 Alamo 8836.2500 0.0635
1996 Blackwell 7910.2500 0.0026
1996 Dacotah 6981.5000 <.0001
1996 Kanlor 8173.7500 0.0067
1996 Shelter 9017.0000 0.1096

Tuong tac nam va giong den nang suat


The GLM Procedure
Class Level Information

Class Levels Values

KHOI 4 1 2 3 4

NAMGIONG 10 1995 Alamo 1995 Blackwell 1995 Dacotah 1995 Kanlor 1995 Shelter 1996 Alamo
1996 Blackwell 1996 Dacotah 1996 Kanlor 1996 Shelter

Number of Observations Read 40


Number of Observations Used 40

Tuong tac nam va giong den nang suat

The GLM Procedure


Dependent Variable: NSUAT
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 12 77795756.8 6482979.7 6.73 <.0001

Error 27 25997182.3 962858.6

Corrected Total 39 103792939.1

R-Square Coeff Var Root MSE NSUAT Mean

0.749528 11.83852 981.2536 8288.650

Source DF Type I SS Mean Square F Value Pr > F

KHOI 3 4418918.70 1472972.90 1.53 0.2294


NAMGIONG 9 73376838.10 8152982.01 8.47 <.0001

Source DF Type III SS Mean Square F Value Pr > F

KHOI 3 4418918.70 1472972.90 1.53 0.2294


NAMGIONG 9 73376838.10 8152982.01 8.47 <.0001

Tuong tac nam va giong den nang suat

The GLM Procedure

Duncan's Multiple Range Test for NSUAT

66
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05

Error Degrees of Freedom 27

Error Mean Square 962858.6

Number of Means 2 3 4 5 6 7 8 9 10
Critical Range 1424 1496 1542 1575 1600 1620 1635 1648 1658

Means with the same letter are not significantly different.

Duncan Grouping Mean N NAMGIONG

A 10755.5 4 1995 Alamo


A
B A 10135.5 4 1995 Shelter
B
B C 9017.0 4 1996 Shelter
B C
B C 8836.3 4 1996 Alamo
C
D C 8173.8 4 1996 Kanlor
D C
D C 7933.3 4 1995 Kanlor
D C
D C 7910.3 4 1996 Blackwell
D
D E 6981.5 4 1996 Dacotah
D E
D E 6827.5 4 1995 Blackwell
E
E 6316.0 4 1995 Dacotah
Giải thích:
Căn cứ vào bảng ANOVA (Type III SS) cho thấy:
- Không khác biệt giữa hai năm khảo sát với F = 0,46 và p = 0,5047.
- Khác biệt rất có nghĩa giữa năng suất các giống cỏ với F = 15,62 và p < 0,0001.
- Tương tác của năm và giống cỏ có nghĩa với F = 3,32 và p = 0,0247.

Bảng 3.2. Tương tác của năm trồng và giống đến năng suất cỏ (lb/acre)

Năm Giống Năng suất Xác suất p

1995 Alamo 10755,5


1995 Blackwell 6827,5 <0,0001
1995 Dacotah 6316,0 <0,0001
1995 Kanlor 7933,3 0,0028
1995 Shelter 10135,5 0,9434
1996 Alamo 8836,3 0,0635
1996 Blackwell 7910,3 0,0026
1996 Dacotah 6981,5 <0,0001
1996 Kanlor 8173,8 0,0067
1996 Shelter 9017,0 0,1096
67
Căn cứ vào giả thiết các trung bình năng suất của các cặp tương tác giống với cặp đối chứng
(H0:LSMean=Control), với xác suất p > 0,05 thì các cặp này giống nhau, nếu p < 0,05 thì các
cặp này khác nhau, kết quả cho thấy các cặp có tương tác năm và giống như nhau là 1995
Alamo, 1996 Amalo, 1995 Shelter và 1996 Shelter, trong đó cặp có năng suất cao nhất là 1995
Alamo. Nhóm còn lại có tương tác độc lập nhau.
Từ kết quả tương tác của năm và giống cỏ, thành lập bảng kết quả và ghi ký tự như bảng 3.1.
của thí nghiệm hai yếu tố.
Kết quả có thể trình bày qua biểu đồ sau:

12000 a
ab
10000 bc bc
Năng suất (lb/acre)

cd cd cd
8000 de de
e
1995
6000
1996
4000

2000

0
Alamo Shelter Kanlor Blackwell Dacotah
Năm trồng và giống cỏ

Hình 3.1. Năng suất cỏ qua 2 năm trồng với 5 giống

Giải thích: Giống cỏ Alamo có năng suất giảm từ năm 1995 sang năm 1996, với mất năng suất
là 1920 lb/acre, do đó cần áp dụng biện pháp kỹ thuật tưới giữ ẩm để cải thiện năng suất, tương
tự như các giống khác.

3.5. Thí nghiệm nhiều địa điểm cùng kiểu RCBD

Thí nghiệm được bố trí ở nhiều địa điểm như sau:


- Khối được bố trí ở nhiều nơi. Nghiệm thức được bố trí ngẫu nhiên cho từng khối.
- Nghiệm thức bố trí ngẫu nhiên trong khối cạnh các nghiệm thức khác, mỗi nghiệm thức chỉ
hiện diện 1 lần trong khối.
- Số khối là số lần lặp lại.

Thí nghiệm ở 3 địa điểm (Ddiem) ký hiệu DIEM1 (điểm 1), 3 Khối (K) hay lần lặp lại, 3
nghiệm thức chu kỳ xén cỏ là 30D (A, 30 ngày xén cỏ), 45D (B, 45 ngày xén cỏ), 60D(C, 60
ngày xén cỏ); Y là năng suất cỏ (tấn/ha). Chú ý có sai số ảnh hưởng của địa điểm và khối:
test h = Ddiem e = Ddiem*Khoi;

68
Sơ đồ như sau (Tree Fruit Research and Extension Center, 2000):
Địa điểm 1 Địa điểm 2
Khối 1 I II III Khối 2 I II III
A B C B C B
B A B A B C
C C A C A A
Địa điểm 3
Khối 3 I II III
A C A
C B C
B A B
Data;
Input Ddiem $ Khoi $ Nthuc $ Y DdiemNthuc$15.;
cards;
DIEM1 1 30D 18 DIEM1 30D
DIEM1 1 45D 21 DIEM1 45D
DIEM1 1 60D 19 DIEM1 60D
DIEM1 2 30D 19 DIEM1 30D
DIEM1 2 45D 13 DIEM1 45D
DIEM1 2 60D 19 DIEM1 60D
DIEM1 3 30D 17 DIEM1 30D
DIEM1 3 45D 12 DIEM1 45D
DIEM1 3 60D 17 DIEM1 60D
DIEM2 1 30D 16 DIEM2 30D
DIEM2 1 45D 9 DIEM2 45D
DIEM2 1 60D 11 DIEM2 60D
DIEM2 2 30D 19 DIEM2 30D
DIEM2 2 45D 16 DIEM2 45D
DIEM2 2 60D 8 DIEM2 60D
DIEM2 3 30D 18 DIEM2 30D
DIEM2 3 45D 7 DIEM2 45D
DIEM2 3 60D 9 DIEM2 60D
DIEM3 1 30D 17 DIEM3 30D
DIEM3 1 45D 12 DIEM3 45D
DIEM3 1 60D 9 DIEM3 60D
DIEM3 2 30D 21 DIEM3 30D
DIEM3 2 45D 15 DIEM3 45D
DIEM3 2 60D 11 DIEM3 60D
DIEM3 3 30D 22 DIEM3 30D
DIEM3 3 45D 14 DIEM3 45D
DIEM3 3 60D 8 DIEM3 60D
;
proc glm;
class Ddiem Khoi Nthuc;
model Y = Ddiem Ddiem*Khoi Nthuc Ddiem*Nthuc;
test h = Ddiem e = Ddiem*Khoi;
means Ddiem Nthuc / LSD ALPHA=0.01;
Lsmeans Ddiem*Nthuc / pdiff adjust=dunnett;
69
run;
proc glm;
class Khoi DdiemNthuc;
model Y= Khoi DdiemNthuc;
means DdiemNthuc / Duncan alpha = 0.05;
run;
Kết quả xử lý:
The GLM Procedure

Class Level Information

Class Levels Values

Ddiem 3 DIEM1 DIEM2 DIEM3

Khoi 3 1 2 3

Nthuc 3 30D 45D 60D

Number of Observations Read 27


Number of Observations Used 27

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 14 462.0740741 33.0052910 5.11 0.0037

Error 12 77.5555556 6.4629630

Corrected Total 26 539.6296296

R-Square Coeff Var Root MSE Y Mean

0.856280 17.28977 2.542236 14.70370

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 2 99.8518519 49.9259259 7.72 0.0070


Ddiem*Khoi 6 53.1111111 8.8518519 1.37 0.3020
Nthuc 2 203.8518519 101.9259259 15.77 0.0004
Ddiem*Nthuc 4 105.2592593 26.3148148 4.07 0.0260

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 2 99.8518519 49.9259259 7.72 0.0070


Ddiem*Khoi 6 53.1111111 8.8518519 1.37 0.3020
Nthuc 2 203.8518519 101.9259259 15.77 0.0004
Ddiem*Nthuc 4 105.2592593 26.3148148 4.07 0.0260

70
Tests of Hypotheses Using the Type III MS for Ddiem*Khoi as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 2 99.85185185 49.92592593 5.64 0.0419

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 6.462963
Critical Value of t 3.05454
Least Significant Difference 3.6606

Means with the same letter are not significantly different.

t Grouping Mean N Ddiem

A 17.222 9 DIEM1
A
B A 14.333 9 DIEM3
B
B 12.556 9 DIEM2

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 12
Error Mean Square 6.462963
Critical Value of t 3.05454
Least Significant Difference 3.6606

Means with the same letter are not significantly different.

t Grouping Mean N Nthuc

A 18.556 9 30D

B 13.222 9 45D
B
B 12.333 9 60D

The GLM Procedure

71
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
Ddiem Nthuc Y LSMEAN Pr > |t|

DIEM1 30D 18.0000000


DIEM1 45D 15.3333333 0.7082
DIEM1 60D 18.3333333 1.0000
DIEM2 30D 17.6666667 1.0000
DIEM2 45D 10.6666667 0.0233
DIEM2 60D 9.3333333 0.0076
DIEM3 30D 20.0000000 0.8918
DIEM3 45D 13.6666667 0.2605
DIEM3 60D 9.3333333 0.0076

The GLM Procedure

Class Level Information

Class Levels Values

Khoi 3 1 2 3

DdiemNthuc 9 DIEM1 30D DIEM1 45D DIEM1 60D DIEM2 30D DIEM2 45D DIEM2 60D DIEM3 30D DIEM3
45D DIEM3 60D

Number of Observations Read 27


Number of Observations Used 27

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 10 425.0370370 42.5037037 5.93 0.0009

Error 16 114.5925926 7.1620370

Corrected Total 26 539.6296296

R-Square Coeff Var Root MSE Y Mean

0.787646 18.20084 2.676198 14.70370

Source DF Type I SS Mean Square F Value Pr > F

Khoi 2 16.0740741 8.0370370 1.12 0.3499


DdiemNthuc 8 408.9629630 51.1203704 7.14 0.0005

Source DF Type III SS Mean Square F Value Pr > F

Khoi 2 16.0740741 8.0370370 1.12 0.3499


DdiemNthuc 8 408.9629630 51.1203704 7.14 0.0005

72
The GLM Procedure

Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 16
Error Mean Square 7.162037

Number of Means 2 3 4 5 6 7 8 9
Critical Range 4.632 4.858 4.998 5.095 5.165 5.217 5.256 5.287

Means with the same letter are not significantly different.

Ddiem
Duncan Grouping Mean N Nthuc

A 20.000 3 DIEM3 30D


A
B A 18.333 3 DIEM1 60D
B A
B A 18.000 3 DIEM1 30D
B A
B A 17.667 3 DIEM2 30D
B A
B A C 15.333 3 DIEM1 45D
B C
B D C 13.667 3 DIEM3 45D
D C
D C 10.667 3 DIEM2 45D
D
D 9.333 3 DIEM2 60D
D
D 9.333 3 DIEM3 60D
Giải thích:
Căn cứ vào bảng ANOVA (Type III SS) cho thấy:
- Khác biệt rất có nghĩa các địa điểm với F = 7,72 và p = 0,007.
- Khác biệt rất có nghĩa giữa các nghiệm thức với F = 15,77 và p = 0,0004.
- Tương tác của địa điểm và nghiệm thức có nghĩa với F = 4,07 và p = 0,026.

Bảng 3.3. Tương tác của địa điểm và chu kỳ xén cỏ đến năng suất cỏ (tấn/ha)

Địa điểm Chu kỳ xén cỏ (ngày) Năng suất Xác suất p


Điểm 1 30 18,00
Điểm 1 45 15,33 0,7082
Điểm 1 60 18,33 1,0000
Điểm 2 30 17,67 1,0000
Điểm 2 45 10,67 0,0233
Điểm 2 60 9,33 0,0076
Điểm 3 30 20,00 0,9188
Điểm 3 45 13,67 0,2605
Điểm 3 60 9,33 0,0076

73
Theo giả thiết các trung bình năng suất của các cặp tương tác giống với cặp đối chứng
(H0:LSMean=Control), với xác suất p > 0,05 thì các cặp này giống nhau, nếu p < 0,05 thì các
cặp này khác nhau, kết quả cho thấy có hai nhóm các cặp có tương tác địa điểm và chu kỳ xén
cỏ: tương tác như nhau là điểm 1 với 30 ngày, 45 ngày, 60 ngày; điểm 2 với 30 ngày, điểm 3
với 30 và 45 ngày, ba nhóm còn lại tương tác độc lập với nhau.
Từ kết quả tương tác của địa điểm và chu kỳ xén cỏ, thành lập bảng kết quả hai chiều và ghi ký
tự xếp nhóm thống kê.
Bảng 3.4. Ảnh hưởng của địa điểm và chu kỳ xén cỏ đến năng suất cỏ (tấn/ha)
Địa điểm
Chu kỳ xén cỏ Điểm 1 Điểm 2 Điểm 3 Trung bình
chu kỳ xén cỏ
30 ngày 18,00 ab 17,67 ab 20,00 a 18,56 A
45 ngày 15,33 abc 10,67 cd 13,67 bcd 13,22 B
60 ngày 18,33 ab 9,33 d 9,33 d 12,33 B
Trung bình địa điểm 17,22 A 14,33 AB 12,56 B
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,01 cho yếu tố
địa điểm và chu kỳ xén cỏ, p < 0,05 cho tương tác địa điểm* chu kỳ xén cỏ; CV = 18,2%.

Chu kỳ xén cỏ càng ngắn cho năng suất càng cao ở điểm 3. Điểm 1 cho năng suất cao nhất so
với 2 điểm khác. Tương tác chu kỳ xén cỏ 30 ngày ở điểm 3 cho năng suất cao nhất.

3.6. Thí nghiệm lô phụ (Split plot) có tương tác (interaction)


Thí nghiệm kết hợp các nghiệm thức thành nhóm trong một yếu tố lô chính gọi là kiểu thí
nghiệm lô phụ (split plot design). Tùy cách chọn yếu tố nào là chính hay phụ, nhưng áp dụng
phổ biến nhất với yếu tố A thường là lô chính (main plot factor) hay là lô lớn (large plots) như
cày đất, tưới nước; lô phụ B (subplot factor) hay là lô nhỏ (small plots) như phân bón, giống
(Clewer, 2001). Yếu tố A và B được bố trí hoàn toàn ngẫu nhiên, yếu tố B xếp theo lô phụ
được xem như là yếu tố để khảo sát so với các giá trị trung bình trong ảnh hưởng của tương tác
khối với yếu tố A (K*A), để tính tương tác của tất cả các lô. Tương tác của lô phụ được so
sánh với sai số thí nghiệm residual (SAS, 1999).
Phải có test giả thiết: TEST H = A E = K*A; (giả thiết null, không khác nhau).

Sơ đồ thí nghiệm chung như sau:


Khối I Khối II Khối III
D2 D1 D3 D1 D2 D3 D1 D3 D2

V2 V4 V1 V4 V2 V4 V1 V4 V3

V3 V1 V3 V1 V3 V1 V3 V3 V1

V1 V2 V4 V3 V1 V2 V2 V1 V2

V4 V3 V2 V2 V4 V3 V4 V2 V4

74
Thí nghiệm khảo sát năng suất cỏ kg/ô (Y) do yếu tố chu kỳ xén cỏ và giống cỏ, xác suất thống
kê được chọn trước là p = 0,05 (NCRS 2007, tr. 52).
Tên chu kỳ xén cỏ và giống có thể sử dụng mã hóa bằng số và nguyên tên giống.
• Bài tập sử dụng mã hóa bằng số như sau:
Yếu tố D lô chính: ba nghiệm thức về chu kỳ xén cỏ là D1: 30 ngày, D2: 45 ngày, D3: 60 ngày
Yếu tố V lô phụ: bốn giống là V1: Jackson, giống V2: Highlander, giống V3: San Macros,
giống V4: Medina. Yếu tố DV: yếu tố tương tác của hai yếu tố D và V.
Bố trí thí nghiệm trên ba khối đầy đủ, ngẫu nhiên (K: 1, 2, 3).
Data;
Input K $ D $ V $ DV $ Y;
cards;
1 1 1 D1V1 6789
1 1 2 D1V2 6578
1 1 3 D1V3 6589
1 1 4 D1V4 6534
2 1 1 D1V1 6743
2 1 2 D1V2 6789
2 1 3 D1V3 6700
2 1 4 D1V4 6500
3 1 1 D1V1 6721
3 1 2 D1V2 7000
3 1 3 D1V3 6345
3 1 4 D1V4 6512
1 2 1 D2V1 8812
1 2 2 D2V2 9500
1 2 3 D2V3 7816
1 2 4 D2V4 6956
2 2 1 D2V1 8745
2 2 2 D2V2 9654
2 2 3 D2V3 8721
2 2 4 D2V4 6956
3 2 1 D2V1 8867
3 2 2 D2V2 9595
3 2 3 D2V3 9800
3 2 4 D2V4 7934
1 3 1 D3V1 11345
1 3 2 D3V2 11999
1 3 3 D3V3 10456
1 3 4 D3V4 10009
2 3 1 D3V1 11099
2 3 2 D3V2 11678
2 3 3 D3V3 10678
2 3 4 D3V4 10999
3 3 1 D3V1 11567
3 3 2 D3V2 11890
3 3 3 D3V3 10367
3 3 4 D3V4 11345
;
75
proc glm;
class K D V;
model Y = K D K*D V D*V;
test h=D e=K*D;
means D V D*V/lsd alpha=0.05;
lsmeans D*V/pdiff=control adjust=dunnett;
title‘SPLIT PLOT P 52 statistix’;
run;
proc glm;
class K DV;
model Y = K DV;
means DV/Duncan alpha=0.05;
run;
Kết quả xử lý:
SPLIT PLOT P 52 statistix
The GLM Procedure
Class Level Information

Class Levels Values

K 3 1 2 3

D 3 1 2 3

V 4 1 2 3 4

Number of observations 36

SPLIT PLOT P 52 statistix


The GLM Procedure
Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 133707792.4 7865164.3 57.51 <.0001

Error 18 2461661.2 136759.0

Corrected Total 35 136169453.6

R-Square Coeff Var Root MSE Y Mean

0.981922 4.205193 369.8093 8794.111

Source DF Type I SS Mean Square F Value Pr > F

K 2 875333.4 437666.7 3.20 0.0647


D 2 120440064.9 60220032.4 440.34 <.0001
K*D 4 627156.8 156789.2 1.15 0.3667
V 3 7223245.1 2407748.4 17.61 <.0001
D*V 6 4541992.2 756998.7 5.54 0.0021

Source DF Type III SS Mean Square F Value Pr > F

K 2 875333.4 437666.7 3.20 0.0647


D 2 120440064.9 60220032.4 440.34 <.0001
K*D 4 627156.8 156789.2 1.15 0.3667
V 3 7223245.1 2407748.4 17.61 <.0001
D*V 6 4541992.2 756998.7 5.54 0.0021

76
Tests of Hypotheses Using the Type III MS for K*D as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

D 2 120440064.9 60220032.4 384.08 <.0001

SPLIT PLOT P 52 statistix


The GLM Procedure
t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18

Means with the same letter are not significantly different.

t Grouping Mean N D

A 11119.3 12 3

B 8613.0 12 2

C 6650.0 12 1

SPLIT PLOT P 52 statistix

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25

Means with the same letter are not significantly different.

t Grouping Mean N V

A 9409.2 9 2

B 8965.3 9 1
B
B 8608.0 9 3

C 8193.9 9 4

SPLIT PLOT P 52 statistix

77
The GLM Procedure

Level of Level of --------------Y--------------


D V N Mean Std Dev

1 1 3 6751.0000 34.698703
1 2 3 6789.0000 211.000000
1 3 3 6544.6667 181.604882
1 4 3 6515.3333 17.243356
2 1 3 8808.0000 61.098281
2 2 3 9583.0000 77.698134
2 3 3 8779.0000 993.270859
2 4 3 7282.0000 564.648563
3 1 3 11337.0000 234.102542
3 2 3 11855.6667 163.230920
3 3 3 10500.3333 160.169702
3 4 3 10784.3333 693.386857

SPLIT PLOT P 52 statistix

The GLM Procedure

Least Squares Means

Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
D V Y LSMEAN Pr > |t|

1 1 6751.0000
1 2 6789.0000 1.0000
1 3 6544.6667 0.9936
1 4 6515.3333 0.9836
2 1 8808.0000 <.0001
2 2 9583.0000 <.0001
2 3 8779.0000 <.0001
2 4 7282.0000 0.4654
3 1 11337.0000 <.0001
3 2 11855.6667 <.0001
3 3 10500.3333 <.0001
3 4 10784.3333 <.0001

SPLIT PLOT P 52 statistix

The GLM Procedure

Class Level Information

Class Levels Values

K 3 1 2 3

DV 12 D1V1 D1V2 D1V3 D1V4 D2V1 D2V2 D2V3 D2V4 D3V1 D3V2 D3V3 D3V4

Number of observations 36

SPLIT PLOT P 52 statistix

The GLM Procedure

78
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 13 133080635.6 10236972.0 72.91 <.0001

Error 22 3088817.9 140400.8

Corrected Total 35 136169453.6

R-Square Coeff Var Root MSE Y Mean

0.977316 4.260817 374.7010 8794.111

Source DF Type I SS Mean Square F Value Pr > F

K 2 875333.4 437666.7 3.12 0.0643


DV 11 132205302.2 12018663.8 85.60 <.0001

Source DF Type III SS Mean Square F Value Pr > F

K 2 875333.4 437666.7 3.12 0.0643


DV 11 132205302.2 12018663.8 85.60 <.0001

SPLIT PLOT P 52 statistix

The GLM Procedure

Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 22
Error Mean Square 140400.8

Number of Means 2 3 4 5 6 7 8 9 10 11 12
Critical Range 634.5 666.2 686.5 700.8 711.3 719.5 725.9 731.0 735.2 738.6 741.4

Means with the same letter are not significantly different.

Duncan Grouping Mean N DV

A 11855.7 3 D3V2
A
B A 11337.0 3 D3V1
B
B C 10784.3 3 D3V4
C
C 10500.3 3 D3V3

D 9583.0 3 D2V2

E 8808.0 3 D2V1
E
E 8779.0 3 D2V3

F 7282.0 3 D2V4

79
F
G F 6789.0 3 D1V2
G F
G F 6751.0 3 D1V1
G
G 6544.7 3 D1V3
G
G 6515.3 3 D1V4
Giải thích:
- Bảng ANOVA cho thấy có khác biệt thống kê rất có nghĩa của chu kỳ xén cỏ (yếu tố D) với
F = 440,34 và p < 0,0001.
- Có khác biệt thống kê rất có nghĩa của giống cỏ (yếu tố V) với F = 17,61 và p < 0,0001.
- Không có tương tác giữa khối và chu kỳ xén cỏ với F = 1,15 và p = 0,3367.
- Có tương tác rất có nghĩa thống kê giữa chu kỳ xén cỏ và giống cỏ với F = 5,54 và p =
0,0021.

- Kết quả xếp nhóm tương tác các nghiệm thức của yếu tố DV có thể chia làm bảy nhóm: A, B,
C, ... G (NCRS, 2007) trong đó năng suất cao nhất ở 60 ngày xén cỏ là V2 (Highlander), tiếp
theo là V1(Jackson), thấp nhất là ở 30 ngày xén cỏ với giống V3 (San Macros) và V4
(Medina).

- Căn cứ vào bảng so sánh xác suất p các trung bình tương tác Dunnett, tương tác chu kỳ xén
cỏ D1(30 ngày) với 4 giống cỏ có ảnh hưởng như nhau vì có p > 0,05 cũng như tương tác
D2V4 (chu kỳ xén cỏ 45 ngày, giống Medina).
Tương tác chu kỳ xén cỏ D2 (45 ngày) với các giống Jackson, Highlander và San Macros ảnh
hưởng độc lập cũng như chu kỳ xén cỏ D3 (chu kỳ xén cỏ 60 ngày) tương tác với bốn giống
cỏ đều có p < 0,0001 và trong đó năng suất cao nhất là tương tác D3V2 (chu kỳ xén cỏ 60
ngày, giống Highlander).

Bảng 3.5. Tương tác của chu kỳ xén cỏ và giống đến năng suất cỏ (kg/ô)

Chu kỳ xén cỏ Giống Năng suất Xác suất p


30 ngày Jackson 6751
30 ngày Highlander 6789 1
30 ngày San Macros 6544,7 0,9936
30 ngày Medina 6515,3 0,9836
45 ngày Jackson 8808 <0,0001
45 ngày Highlander 9583 <0,0001
45 ngày San Macros 8779 <0,0001
45 ngày Medina 7282 0,4654
60 ngày Jackson 11337 <0,0001
60 ngày Highlander 11855,7 <0,0001
60 ngày San Macros 10500,3 <0,0001
60 ngày Medina 10784,3 <0,0001

Năng suất tăng theo số ngày của chu kỳ xén cỏ và khác biệt do giống. Tương tác chu kỳ xén cỏ
60 ngày với giống Highlander cho năng suất cao nhất là 11855,7 kg/ô.

80
Trình bày kết quả như sau:

Bảng 3.6. Ảnh hưởng của chu kỳ xén cỏ và giống đến năng suất cỏ (kg/ô)

Giống
Chu kỳ xén cỏ Jackson Highlander San Macros Medina Trung bình
chu kỳ xén cỏ
D1 (30 ngày) 6751,0 fg 6789,0 fg 6544,7 g 6515,3 g 6650,0 C
D2 (45 ngày) 8808,0 e 9583,0 d 8779,0 e 7282,0 f 8613,0 B
D3 (60 ngày) 11337,0 ab 11855,7 a 10500,3 c 10784,3 bc 11119,3 A
Trung bình giống 8965,3 B 9409,2 A 8608,0 B 8193,9 C
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,05 cho yếu tố
chu kỳ xén cỏ, yếu tố giống và tương tác chu kỳ xén cỏ*giống; CV = 4,21%.

• Bài tập sử dụng tên giống và chu kỳ xén cỏ (NCRS 2007, trang 52), so sánh tương
tác LSMEANS với Tukey test.

Chu kỳ xén cỏ: 30da = 30 ngày, Jackson = giống cỏ


Lưu ý: GIONG$15. và XENCOGIONG$20. là ghi độ dài tên nghiệm thức khi có số ký tự trên 8.

Kết quả giống như phần mã hóa bằng số, được rút gọn cho các phần xếp nhóm, so sánh tương
tác Tukey test như sau:
DATA;
INPUT KHOI XENCO $ GIONG$15. NSUAT XENCOGIONG$20.;
Cards;
1 30da Jackson 6789 30da Jackson
1 30da Highlander 6578 30da Highlander
1 30da San Macros 6589 30da San Macros
1 30da Medina 6534 30da Medina
2 30da Jackson 6743 30da Jackson
2 30da Highlander 6789 30da Highlander
2 30da San Macros 6700 30da San Macros
2 30da Medina 6500 30da Medina
3 30da Jackson 6721 30da Jackson
3 30da Highlander 7000 30da Highlander
3 30da San Macros 6345 30da San Macros
3 30da Medina 6512 30da Medina
1 45da Jackson 8812 45da Jackson
1 45da Highlander 9500 45da Highlander
1 45da San Macros 7816 45da San Macros
1 45da Medina 6956 45da Medina
2 45da Jackson 8745 45da Jackson
2 45da Highlander 9654 45da Highlander
2 45da San Macros 8721 45da San Macros
2 45da Medina 6956 45da Medina
3 45da Jackson 8867 45da Jackson
3 45da Highlander 9595 45da Highlander
3 45da San Macros 9800 45da San Macros
3 45da Medina 7934 45da Medina
81
1 60da Jackson 11345 60da Jackson
1 60da Highlander 11999 60da Highlander
1 60da San Macros 10456 60da San Macros
1 60da Medina 10009 60da Medina
2 60da Jackson 11099 60da Jackson
2 60da Highlander 11678 60da Highlander
2 60da San Macros 10678 60da San Macros
2 60da Medina 10999 60da Medina
3 60da Jackson 11567 60da Jackson
3 60da Highlander 11890 60da Highlander
3 60da San Macros 10367 60da San Macros
3 60da Medina 11345 60da Medina
;
proc glm;
class KHOI XENCO GIONG;
model NSUAT = KHOI XENCO KHOI*XENCO GIONG XENCO*GIONG;
test h=XENCO e=KHOI*XENCO;
means XENCO GIONG XENCO*GIONG/lsd alpha=0.05;
lsmeans XENCO*GIONG /pdiff adjust=tukey;
title‘SPLIT PLOT P 52 statistix’;
run;

proc GLM;
class KHOI XENCOGIONG;
model NSUAT = KHOI XENCOGIONG;
means XENCOGIONG /Duncan alpha=0.05;
run;
Kết quả xử lý:
SPLIT PLOT P 52 statistix

The GLM Procedure


Class Level Information

Class Levels Values

KHOI 3 1 2 3

XENCO 3 30da 45da 60da

GIONG 4 Highlander Jackson Medina San Macros

Number of observations 36

SPLIT PLOT P 52 statistix

The GLM Procedure

Dependent Variable: NSUAT

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 133707792.4 7865164.3 57.51 <.0001

Error 18 2461661.2 136759.0

Corrected Total 35 136169453.6

82
R-Square Coeff Var Root MSE NSUAT Mean

0.981922 4.205193 369.8093 8794.111

Source DF Type I SS Mean Square F Value Pr > F

KHOI 2 875333.4 437666.7 3.20 0.0647


XENCO 2 120440064.9 60220032.4 440.34 <.0001
KHOI*XENCO 4 627156.8 156789.2 1.15 0.3667
GIONG 3 7223245.1 2407748.4 17.61 <.0001
XENCO*GIONG 6 4541992.2 756998.7 5.54 0.0021

Source DF Type III SS Mean Square F Value Pr > F

KHOI 2 875333.4 437666.7 3.20 0.0647


XENCO 2 120440064.9 60220032.4 440.34 <.0001
KHOI*XENCO 4 627156.8 156789.2 1.15 0.3667
GIONG 3 7223245.1 2407748.4 17.61 <.0001
XENCO*GIONG 6 4541992.2 756998.7 5.54 0.0021

Tests of Hypotheses Using the Type III MS for KHOI*XENCO as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

XENCO 2 120440064.9 60220032.4 384.08 <.0001

SPLIT PLOT P 52 statistix

The GLM Procedure

t Tests (LSD) for NSUAT

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 317.18

Means with the same letter are not significantly different.

t Grouping Mean N XENCO

A 11119.3 12 60da

B 8613.0 12 45da

C 6650.0 12 30da

SPLIT PLOT P 52 statistix

The GLM Procedure

t Tests (LSD) for NSUAT

83
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 18
Error Mean Square 136759
Critical Value of t 2.10092
Least Significant Difference 366.25

Means with the same letter are not significantly different.

t Grouping Mean N GIONG

A 9409.2 9 Highlander

B 8965.3 9 Jackson
B
B 8608.0 9 San Macros

C 8193.9 9 Medina

SPLIT PLOT P 52 statistix

The GLM Procedure

Level of Level of ------------NSUAT------------


XENCO GIONG N Mean Std Dev

30da Highlander 3 6789.0000 211.000000


30da Jackson 3 6751.0000 34.698703
30da Medina 3 6515.3333 17.243356
30da San Macros 3 6544.6667 181.604882
45da Highlander 3 9583.0000 77.698134
45da Jackson 3 8808.0000 61.098281
45da Medina 3 7282.0000 564.648563
45da San Macros 3 8779.0000 993.270859
60da Highlander 3 11855.6667 163.230920
60da Jackson 3 11337.0000 234.102542
60da Medina 3 10784.3333 693.386857
60da San Macros 3 10500.3333 160.169702

SPLIT PLOT P 52 statistix

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Tukey

LSMEAN
XENCO GIONG NSUAT LSMEAN Number

30da Highlander 6789.0000 1


30da Jackson 6751.0000 2
30da Medina 6515.3333 3
30da San Macros 6544.6667 4
45da Highlander 9583.0000 5
45da Jackson 8808.0000 6
45da Medina 7282.0000 7
45da San Macros 8779.0000 8

84
60da Highlander 11855.6667 9
60da Jackson 11337.0000 10
60da Medina 10784.3333 11
60da San Macros 10500.3333 12

Least Squares Means for effect XENCO*GIONG


Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: NSUAT

i/j 1 2 3 4 5 6

1 1.0000 0.9981 0.9993 <.0001 0.0001


2 1.0000 0.9995 0.9999 <.0001 0.0001
3 0.9981 0.9995 1.0000 <.0001 <.0001
4 0.9993 0.9999 1.0000 <.0001 <.0001
5 <.0001 <.0001 <.0001 <.0001 0.3624
6 0.0001 0.0001 <.0001 <.0001 0.3624
7 0.8755 0.8196 0.3764 0.4280 <.0001 0.0034
8 0.0002 0.0001 <.0001 <.0001 0.3162 1.0000
9 <.0001 <.0001 <.0001 <.0001 <.0001 <.0001
10 <.0001 <.0001 <.0001 <.0001 0.0008 <.0001
11 <.0001 <.0001 <.0001 <.0001 0.0304 0.0002
12 <.0001 <.0001 <.0001 <.0001 0.1749 0.0011

Least Squares Means for effect XENCO*GIONG


Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: NSUAT

i/j 7 8 9 10 11 12

1 0.8755 0.0002 <.0001 <.0001 <.0001 <.0001


2 0.8196 0.0001 <.0001 <.0001 <.0001 <.0001
3 0.3764 <.0001 <.0001 <.0001 <.0001 <.0001
4 0.4280 <.0001 <.0001 <.0001 <.0001 <.0001
5 <.0001 0.3162 <.0001 0.0008 0.0304 0.1749

SPLIT PLOT P 52 statistix

The GLM Procedure

Least Squares Means

Adjustment for Multiple Comparisons: Tukey

Least Squares Means for effect XENCO*GIONG

Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: NSUAT

i/j 7 8 9 10 11 12

6 0.0034 1.0000 <.0001 <.0001 0.0002 0.0011


7 0.0042 <.0001 <.0001 <.0001 <.0001
8 0.0042 <.0001 <.0001 0.0001 0.0009
9 <.0001 <.0001 0.8389 0.0700 0.0109
10 <.0001 <.0001 0.8389 0.7834 0.2690
11 <.0001 0.0001 0.0700 0.7834 0.9974
12 <.0001 0.0009 0.0109 0.2690 0.9974

85
SPLIT PLOT P 52 statistix

The GLM Procedure

Class Level Information

Class Levels Values

KHOI 3 1 2 3

XENCOGIONG 12 30da Highlander 30da Jackson 30da Medina 30da San Macros 45da Highlander
45da Jackson 45da Medina 45da San Macros 60da Highlander 60da Jackson 60da
Medina 60da San Macros

Number of observations 36

SPLIT PLOT P 52 statistix

The GLM Procedure

Dependent Variable: NSUAT

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 13 133080635.6 10236972.0 72.91 <.0001

Error 22 3088817.9 140400.8

Corrected Total 35 136169453.6

R-Square Coeff Var Root MSE NSUAT Mean

0.977316 4.260817 374.7010 8794.111

Source DF Type I SS Mean Square F Value Pr > F

KHOI 2 875333.4 437666.7 3.12 0.0643


XENCOGIONG 11 132205302.2 12018663.8 85.60 <.0001

Source DF Type III SS Mean Square F Value Pr > F

KHOI 2 875333.4 437666.7 3.12 0.0643


XENCOGIONG 11 132205302.2 12018663.8 85.60 <.0001

SPLIT PLOT P 52 statistix

The GLM Procedure

Duncan's Multiple Range Test for NSUAT

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 22
Error Mean Square 140400.8

86
Number of Means 2 3 4 5 6 7 8 9 10 11 12
Critical Range 634.5 666.2 686.5 700.8 711.3 719.5 725.9 731.0 735.2 738.6 741.4

Means with the same letter are not significantly different.

Duncan Grouping Mean N XENCOGIONG

A 11855.7 3 60da Highlander


A
B A 11337.0 3 60da Jackson
B
B C 10784.3 3 60da Medina
C
C 10500.3 3 60da San Macros

D 9583.0 3 45da Highlander

E 8808.0 3 45da Jackson


E
E 8779.0 3 45da San Macros

F 7282.0 3 45da Medina


F
G F 6789.0 3 30da Highlander
G F
G F 6751.0 3 30da Jackson
G
G 6544.7 3 30da San Macros
G
G 6515.3 3 30da Medina

Kết quả cho thấy sử dụng tên bằng chữ cho thấy xếp nhóm Duncan grouping (nhóm tương
đồng, homogeneous groups (NRCS, 2007) của yếu tố chu kỳ xén cỏ và giống, tương tác chu kỳ
xén cỏ*giống ghi rõ tên giống (Jackson) và xén cỏ (30 ngày).

So sánh tương tác ma trận Least Squares Means for effect chu kỳ xén cỏ*giống của so sánh đa
tương tác Tukey test (Adjustment for Multiple Comparisons: Tukey) và cho thấy kết quả giống
như so sánh Dunnett test: tương tác chu kỳ xén cỏ 30 ngày với giống Highlander, Jackson,
Medina, San Macros và chu kỳ xén cỏ 45 ngày và giống Medina ảnh hưởng tương tác như
nhau đến năng suất cỏ, còn lại các tương tác khác đều ảnh hưởng độc lập đến năng suất cỏ (xác
suất của tương tác p > 0,05 là có ảnh hưởng như nhau; p < 0,05 là có ảnh hưởng độc lập (SAS,
2004).

Có nhiều phương pháp so sánh tương tác đa biến như Bon, Dunnett, Tukey, Sidak. Tuy nhiên
trong xử lý thống kê, chỉ chọn một cách so sánh tương tác lsmeans chu kỳ xén cỏ*giống là
được, như Dunnett test.

3.7. Thí nghiệm lô sọc (strip plot)

Thí nghiệm bố trí có một yếu tố gồm một dãy các ô cơ sở trong một khối theo một hướng trong
khối, và yếu tố thứ hai cũng gồm một dãy các ô cơ sở theo một hướng khác trong khối.

87
Như vậy có một yếu tố theo hướng dọc (vertical) và yếu tố thứ hai theo hướng ngang
(horizontal). Các ô cơ sở trong khối được bố trí ngẫu nhiên. Strip plot với bố trí đặc biệt theo ô
sọc còn gọi là split-block design. Thí nghiệm áp dụng cho ô cơ sở lớn và liên tục, vì ô cơ sở
nhỏ khó thực hiện.

Cần trắc nghiệm giả thiết ảnh hưởng của khối với yếu tố A, ảnh hưởng của khối với yếu tố B.
test h=A e=KHOI*A;
test h=B e=KHOI*B;

Bài tập: thí nghiệm bố trí khối (KHOI) RCBD để tính năng suất lúa mạch Y (kg/ô cơ sở) làm
thức ăn gia súc, bón phân kali (K) có ba nghiệm thức : K1 = 0 kg/ha, K2 = 25 kg/ha và K3 =
50 kg/ha. Phân lân (P) có hai nghiệm thức: P1 = 25 kg/ha, P2 = 50 kg/ha. Bón K chạy dọc hết
ba ô. Trên các ô bón K, bón P chạy ngang theo góc thẳng (phỏng theo Petersen, 1994).
Sơ đồ thí nghiệm như sau:

K3 K1 K2 K1 K3 K2 K2 K1 K3
P1 56 32 49 P2 38 62 50 P2 54 44 51
P2 67 54 58 P1 52 72 64 P1 63 54 68
Khối 1 Khối 2 Khối 3

data;
input KHOI $ K $ P $ Y;
cards;
1 1 1 32
1 1 2 54
1 2 1 49
1 2 2 58
1 3 1 56
1 3 2 67
2 1 1 38
2 1 2 52
2 2 1 50
2 2 2 64
2 3 1 62
2 3 2 72
3 1 1 44
3 1 2 54
3 2 1 54
3 2 2 63
3 3 1 51
3 3 2 68
;
proc glm;
class KHOI K P;
model Y = KHOI K KHOI*K P KHOI*P K*P;
test h=K e=KHOI*K;
test h=P e=KHOI*P;
means K P K*P/lsd alpha=0.01;
lsmeans K/pdiff adjust=dunnett alpha=0.01;
title‘STRIP PLOT P 142’;
run;

88
Kết quả xử lý:
STRIP PLOT P 142

The GLM Procedure

Class Level Information

Class Levels Values

KHOI 3 1 2 3

K 3 1 2 3

P 2 1 2

Number of observations 18
STRIP PLOT P 142

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 13 1776.888889 136.683761 9.61 0.0209

Error 4 56.888889 14.222222

Corrected Total 17 1833.777778

R-Square Coeff Var Root MSE Y Mean

0.968977 6.870673 3.771236 54.88889

Source DF Type I SS Mean Square F Value Pr > F

KHOI 2 45.7777778 22.8888889 1.61 0.3070


K 2 885.7777778 442.8888889 31.14 0.0036
KHOI*K 4 78.2222222 19.5555556 1.38 0.3826
P 1 747.5555556 747.5555556 52.56 0.0019
KHOI*P 2 3.1111111 1.5555556 0.11 0.8990
K*P 2 16.4444444 8.2222222 0.58 0.6018

Source DF Type III SS Mean Square F Value Pr > F

KHOI 2 45.7777778 22.8888889 1.61 0.3070


K 2 885.7777778 442.8888889 31.14 0.0036
KHOI*K 4 78.2222222 19.5555556 1.38 0.3826
P 1 747.5555556 747.5555556 52.56 0.0019
KHOI*P 2 3.1111111 1.5555556 0.11 0.8990
K*P 2 16.4444444 8.2222222 0.58 0.6018

Tests of Hypotheses Using the Type III MS for KHOI*K as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

K 2 885.7777778 442.8888889 22.65 0.0066

Tests of Hypotheses Using the Type III MS for KHOI*P as an Error Term

89
Source DF Type III SS Mean Square F Value Pr > F

P 1 747.5555556 747.5555556 480.57 0.0021

STRIP PLOT P 142

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 4
Error Mean Square 14.22222
Critical Value of t 4.60409
Least Significant Difference 10.025

Means with the same letter are not significantly different.


t Grouping Mean N K

A 62.667 6 3
A
A 56.333 6 2

B 45.667 6 1

STRIP PLOT P 142

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 4
Error Mean Square 14.22222
Critical Value of t 4.60409
Least Significant Difference 8.1851

Means with the same letter are not significantly different.

t Grouping Mean N P

A 61.333 9 2

B 48.444 9 1

STRIP PLOT P 142


The GLM Procedure

Level of Level of --------------Y--------------


K P N Mean Std Dev

1 1 3 38.0000000 6.00000000
1 2 3 53.3333333 1.15470054
2 1 3 51.0000000 2.64575131
2 2 3 61.6666667 3.21455025
3 1 3 56.3333333 5.50757055
3 2 3 69.0000000 2.64575131

90
STRIP PLOT P 142

The GLM Procedure

Least Squares Means

Adjustment for Multiple Comparisons: Dunnett


H0:LSMean=
Control
K Y LSMEAN Pr > |t|

1 45.6666667
2 56.3333333 0.0138
3 62.6666667 0.0025

Bảng 3.7. Ảnh hưởng của phân K và P đến năng suất lúa mạch (kg/ô)
Phân K
Phân P K1 K2 K3 Trung bình
(0 kg/ha) (25 kg/ha) (50 kg/ha) phân P
P1 (25 kg/ha) 38,00 51,00 56,33 48,44 B
P2 (50 kg/ha) 53,33 61,67 69,00 61,33 A
Trung bình phân K 45,67 B 56,33 A 62,67 A
Các trung bình cùng ký tự không khác biệt có nghĩa thống kê ở mức xác suất với p < 0,01; CV=6,87%.

Giải thích: vì không có tương tác K và P, cần giải thích tương tác trong yếu tố K và P.
- Xếp nhóm yếu tố lượng lân (P) với hai trung bình theo ký tự có hai nhóm là A và B. Xếp
nhóm yếu tố lượng K với ba trung bình theo ký tự có hai nhóm là A và B.
- Không có ảnh hưởng khối đến yếu tố lượng K (F = 1,38 với p = 0,3826) và lượng P (F = 0,11
với p = 0,899). Lượng phân K và P không có ảnh hưởng tương tác đến năng suất (F = 0,58 với
p = 0,6018).
- So sánh tương tác các trung bình yếu tố lượng K theo giá trị xác suất p các trung bình nghiệm
thức cho thấy K1 (0 kg/ha) ảnh hưởng độc lập với K2 (25 kg/ha) (p = 0,0138) và K3 (p =
0,0025), trong đó nghiệm thức K3(50 kg/ha) ảnh hưởng tương tác lớn nhất đến năng suất lúa
mạch (62,67 kg/ha). Nghiệm thức lượng lân P2 (50 kg/ha) cho năng suất 61,33 kg/ha, khác biệt
có nghĩa với P1(25 kg/ha).
- Bón K và P lượng cao tăng năng suất lúa mạch nhưng không có tương tác lượng lân và kali.

3.8. Thí nghiệm ba yếu tố (3 factors=23)

Thí nghiệm thực hiện để so sánh tương tác đồng thời nhiều yếu tố như giống, lượng phân bón,
hoá chất phun, khoảng cách gieo trồng để giảm chi phí và thời gian khảo sát, nhưng cần diện
tích lớn. Thí nghiệm ba yếu tố là thí nghiệm căn bản để khảo sát tương tác của ba yếu tố.
Bài tập so sánh các giá trị trung bình và tương tác ba yếu tố (phỏng theo Clewer, 2001).
Thí nghiệm gồm bốn khối (KH), hai lượng đạm N (N1= không bón đạm, N2 = bón đạm), hai
giống lúa mì V (V1, V2), hai lượng phân K (K1 = không bón K, K2 = bón K) ảnh hưởng năng
suất (Y, tấn/ha).

Sơ đồ bố trí thí nghiệm với T1 = N1V1K1, ....T8 = N2V2K2 như sau:

91
Khối N1V1K1 N2V1K2 N1V2K1 N2V2K1 Khối T1 T6 T3 T7
1 N1V1K2 N2V1K1 N2V2K2 N1V2K2 1 T2 T5 T8 T4

Khối N2V1K1 N1V1K2 N2V1K2 N1V2K1 Khối T5 T2 T6 T3


2 N1V1K1 N2V2K1 N1V2K2 N2V2K2 2 T1 T7 T4 T8

Khối N1V2K2 N2V2K2 N2V1K1 N1V2K1 Khối T4 T8 T5 T3


3 N2V1K2 N1V1K1 N2V2K1 N1V1K2 3 T6 T1 T7 T2

Khối N2V2K1 N2V1K1 N2V1K2 N2V2K2 Khối T7 T5 T6 T8


4 N1V1K2 N1V1K1 N1V2K1 N1V2K2 4 T2 T1 T3 T4

Tám nghiệm thức có thể bố trí như sau:


T1: N1 V1 K1, không bón phân cho giống V1
T2: N1 V1 K2, bón phân K cho giống V1
T3: N1 V2 K1, không bón phân cho giống V2
T4: N1 V2 K2, bón phân K cho giống V2
T5: N2 V1 K1, bón phân N cho giống V1
T6: N2 V1 K2, bón phân K và N cho giống V1
T7: N2 V2 K1, bón phân N cho giống V2
T8: N2 V2 K2, bón phân K và N cho giống V2
* Lưu ý: Kết quả xử lý bảng phân tích phương sai yếu tố NVK với tám giá trị trung bình từ T1
đến T8 (yếu tố N = 2 x yếu tố V = 2 x yếu tố K = 2 có tám trung bình tương tác) để xếp nhóm,
sẽ có độ tự do (df) và tổng bình phương (SS, Sum of Squares) bằng tổng df và SS của yếu tố
N, yếu tố V, yếu tố K, tương tác N*V, N*K, V*K và N*V*K cộng lại (Clewer, 2001).
DATA;
input KH N V K NVK $ Y;
CARDS;
1 1 1 1 N1V1K1 4
1 1 1 2 N1V1K2 4.5
1 1 2 1 N1V2K1 5.2
1 1 2 2 N1V2K2 6.4
1 2 1 1 N2V1K1 4.8
1 2 1 2 N2V1K2 5.8
1 2 2 1 N2V2K1 5.3
1 2 2 2 N2V2K2 7
2 1 1 1 N1V1K1 3.9
2 1 1 2 N1V1K2 4.9
2 1 2 1 N1V2K1 5.4
2 1 2 2 N1V2K2 8
2 2 1 1 N2V1K1 5.2
2 2 1 2 N2V1K2 5
2 2 2 1 N2V2K1 6.1
2 2 2 2 N2V2K2 7.4
3 1 1 1 N1V1K1 5
3 1 1 2 N1V1K2 4.3
3 1 2 1 N1V2K1 4.4

92
3 1 2 2 N1V2K2 7.8
3 2 1 1 N2V1K1 5.2
3 2 1 2 N2V1K2 6.6
3 2 2 1 N2V2K1 7.6
3 2 2 2 N2V2K2 7.8
4 1 1 1 N1V1K1 4.3
4 1 1 2 N1V1K2 5.1
4 1 2 1 N1V2K1 4.2
4 1 2 2 N1V2K2 7.4
4 2 1 1 N2V1K1 5.6
4 2 1 2 N2V1K2 5.8
4 2 2 1 N2V2K1 6.6
4 2 2 2 N2V2K2 7.4
;
PROC GLM;
CLASS KH N V K;
MODEL Y = KH N|V|K;
MEANS N|V|K / LSD ALPHA=0.01;
LSMEANS V*K / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS N*V*K / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘NANG SUAT LUA MI’;
RUN;

PROC GLM;
CLASS KH NVK;
MODEL Y = KH NVK;
MEANS NVK / DUNCAN ALPHA=0.05;
RUN;

(Ghi: N|V|K tương đương với N V K N*V N*K V*K N*V*K)

- Xử lý thống kê ANOVA trước, sau đó xếp nhóm và tính tương tác khi các biến số và tương
tác có nghĩa với p < 0,05. Sau khi đã xem kết quả xếp nhóm các trung bình của nghiệm thức
N,V, K, tính tương tác LSMEANS của V*K và N*V*K.
Kết quả xử lý:
NANG SUAT LUA MI
The GLM Procedure

Class Level Information

Class Levels Values

KH 4 1 2 3 4

N 2 1 2

V 2 1 2

K 2 1 2

Number of observations 32

NANG SUAT LUA MI

The GLM Procedure

93
Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 10 43.17750000 4.31775000 14.30 <.0001

Error 21 6.34250000 0.30202381

Corrected Total 31 49.52000000

R-Square Coeff Var Root MSE Y Mean

0.871920 9.557686 0.549567 5.750000

Source DF Type I SS Mean Square F Value Pr > F


KH 3 2.05750000 0.68583333 2.27 0.1099
N 1 6.48000000 6.48000000 21.46 0.0001
V 1 18.00000000 18.00000000 59.60 <.0001
N*V 1 0.08000000 0.08000000 0.26 0.6122
K 1 10.58000000 10.58000000 35.03 <.0001
N*K 1 0.98000000 0.98000000 3.24 0.0860
V*K 1 3.38000000 3.38000000 11.19 0.0031
N*V*K 1 1.62000000 1.62000000 5.36 0.0308

Source DF Type III SS Mean Square F Value Pr > F

KH 3 2.05750000 0.68583333 2.27 0.1099


N 1 6.48000000 6.48000000 21.46 0.0001
V 1 18.00000000 18.00000000 59.60 <.0001
N*V 1 0.08000000 0.08000000 0.26 0.6122
K 1 10.58000000 10.58000000 35.03 <.0001
N*K 1 0.98000000 0.98000000 3.24 0.0860
V*K 1 3.38000000 3.38000000 11.19 0.0031
N*V*K 1 1.62000000 1.62000000 5.36 0.0308

NANG SUAT LUA MI


The GLM Procedure
t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501

Means with the same letter are not significantly different.

t Grouping Mean N N

A 6.2000 16 2

B 5.3000 16 1

NANG SUAT LUA MI

94
The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501

Means with the same letter are not significantly different.

t Grouping Mean N V

A 6.5000 16 2

B 5.0000 16 1

NANG SUAT LUA MI

The GLM Procedure

Level of Level of --------------Y--------------


N V N Mean Std Dev

1 1 8 4.50000000 0.45669621
1 2 8 6.10000000 1.51563282
2 1 8 5.50000000 0.57569833
2 2 8 6.90000000 0.85356396

NANG SUAT LUA MI

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 21
Error Mean Square 0.302024
Critical Value of t 2.83136
Least Significant Difference 0.5501

Means with the same letter are not significantly different.

t Grouping Mean N K

A 6.3250 16 2

B 5.1750 16 1

NANG SUAT LUA MI

95
The GLM Procedure

Level of Level of --------------Y--------------


N K N Mean Std Dev

1 1 8 4.55000000 0.57071384
1 2 8 6.05000000 1.53529895
2 1 8 5.80000000 0.92427578
2 2 8 6.60000000 0.97979590

Level of Level of --------------Y--------------


V K N Mean Std Dev

1 1 8 4.75000000 0.61875451
1 2 8 5.25000000 0.76531973
2 1 8 5.60000000 1.13010745
2 2 8 7.40000000 0.51269596

Level of Level of Level of --------------Y--------------


N V K N Mean Std Dev

1 1 1 4 4.30000000 0.49665548
1 1 2 4 4.70000000 0.36514837
1 2 1 4 4.80000000 0.58878406
1 2 2 4 7.40000000 0.71180522
2 1 1 4 5.20000000 0.32659863
2 1 2 4 5.80000000 0.65319726
2 2 1 4 6.40000000 0.96263527
2 2 2 4 7.40000000 0.32659863

NANG SUAT LUA MI

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
V K Y LSMEAN Pr > |t|

1 1 4.75000000
1 2 5.25000000 0.1956
2 1 5.60000000 0.0148
2 2 7.40000000 <.0001

NANG SUAT LUA MI

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
N V K Y LSMEAN Pr > |t|

1 1 1 4.30000000
1 1 2 4.70000000 0.8364
1 2 1 4.80000000 0.6705
1 2 2 7.40000000 <.0001

96
2 1 1 5.20000000 0.1428
2 1 2 5.80000000 0.0053
2 2 1 6.40000000 0.0001
2 2 2 7.40000000 <.0001

NANG SUAT LUA MI

The GLM Procedure

Class Level Information

Class Levels Values

KH 4 1 2 3 4

NVK 8 N1V1K1 N1V1K2 N1V2K1 N1V2K2 N2V1K1 N2V1K2 N2V2K1 N2V2K2

Number of observations 32

NANG SUAT LUA MI

The GLM Procedure

Dependent Variable: Y
Sum of
Source DF Squares Mean Square F Value Pr > F

Model 10 43.17750000 4.31775000 14.30 <.0001

Error 21 6.34250000 0.30202381

Corrected Total 31 49.52000000

R-Square Coeff Var Root MSE Y Mean

0.871920 9.557686 0.549567 5.750000

Source DF Type I SS Mean Square F Value Pr > F

KH 3 2.05750000 0.68583333 2.27 0.1099


NVK 7 41.12000000 5.87428571 19.45 <.0001

Source DF Type III SS Mean Square F Value Pr > F

KH 3 2.05750000 0.68583333 2.27 0.1099


NVK 7 41.12000000 5.87428571 19.45 <.0001

NANG SUAT LUA MI

The GLM Procedure

Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.05
Error Degrees of Freedom 21
Error Mean Square 0.302024

97
Number of Means 2 3 4 5 6 7 8
Critical Range .8081 .8484 .8741 .8921 .9054 .9156 .9236

Means with the same letter are not significantly different.

Duncan Grouping Mean N NVK

A 7.4000 4 N1V2K2
A
A 7.4000 4 N2V2K2

B 6.4000 4 N2V2K1
B
C B 5.8000 4 N2V1K2
C
C D 5.2000 4 N2V1K1
D
E D 4.8000 4 N1V2K1
E D
E D 4.7000 4 N1V1K2
E
E 4.3000 4 N1V1K1

Cách trình bày với bố trí thí nghiệm nhiều yếu tố, cần giải thích căn cứ vào so sánh tương tác
LSmeans Multiple Comparison Dunnett (hoặc Tukey) ở phần trên và trình bày kết quả như
sau:
Bảng 3.8. Năng suất lúa mì (tấn/ha) ảnh hưởng bởi bón N và K
Giống lúa (V)
V1 V2
N1 (không N) N2 (bón N) N1 (không N) N2 (bón N) Trung bình K
K1(không K) 4,3 e 5,2 cd 4,8 de 6,4 b 5,18 B
K2 (bón K) 4,7 de 5,8 bc 7,4 a 7,4 a 6,33 A
Trung bình N 5,3 B 6,2 A
Trung bình V V1 V2
5,0 B 6,5 A
Ghi chú: các trị có cùng ký tự không khác biệt có nghĩa ở mức xác suất với yếu tố N: p<0,01,
yếu tố V: p<0,01, yếu tố K: p<0,01; tương tác V*K: p<0,01, tương tác N*V*K: p<0,05;
CV = 9,56%.

Giải thích: - Xếp nhóm các giá trị trung bình nghiệm thức tương tác của yếu tố NVK ở mức p
< 0,05 chia làm năm nhóm là A, B , C, D và E, trong đó cho thấy năng suất lúa đạt cao nhất
là 7,4 tấn/ha và thấp nhất là 4,3 tấn/ha.
- Tương tác N*V*K có nghĩa (F = 5,36 với p = 0,0308), tương tác V*K rất có nghĩa
(F = 11,19 với p = 0,0031). Không có tương tác N*K (F = 3,24 với p = 0,086) và N*V (F =
0,26 với p = 0,6122). Không có ảnh hưởng của khối (F = 2,27 với p = 0,1099).
- Tương tác N*V*K với so sánh giá trị p các trung bình tương tác theo Dunnett cho
thấy tương tác N1V1K1 (có năng suất thấp nhất là 4,3 tấn/ha) ảnh hưởng như nhau với các
tương tác N1V1K2 (p = 0,8364), N1V2K1 (p = 0,6705) và N2V1K1 (p = 0,1428).

98
- Tương tác có ảnh hưởng năng suất cao và độc lập là N2V2K2 (giống V2 bón N và
K) với năng suất 7,4 tấn/ha (p < 0,001), N1V2K2 (giống V2 bón K) năng suất 7,4 tấn/ha (p <
0,001) và N2V2K1 (giống V2 bón N) năng suất 6,4 tấn/ha (p = 0,001).
- Tương tác V*K với so sánh giá trị p các trung bình theo Dunnett với V1K1 (giống
V1 không bón K) có năng suất thấp nhất là 4,75 kg/ha, ảnh hưởng giống như tương tác V1K2
(giống V1 không bón K) năng suất 5,25 tấn/ha (p = 0,1956). Tương tác có ảnh hưởng rõ nhất
và độc lập đến năng suất cao nhất (7,4 tấn/ha) là tương tác V2K2 (giống V2 bón K) với xác
suất p < 0,001 và V2K1 (V2 không bón K) năng suất 5,6 tấn/ha (p = 0,0148).
- Bón N và K tăng năng suất giống V2, khác biệt so với giống V1.

• Bảng kết quả của tám trung bình nghiệm thức của thí nghiệm ba yếu tố có thể được
trình bày theo biểu đồ (Clewer, 2001) và xếp hạng như sau:
8 a a
7 b
bc
Năng suất (tấn/ha)

6 cd
de de
5 e
K1
4
K2
3
2
1
0
N1 N2 N1 N2

Giống V1 Giống V2
Giống và lượng đạm

Biểu đồ 3.1. Năng suất hai giống lúa mì do ảnh hưởng của lượng đạm (N) và kali (K)

3.9. Thí nghiệm tiến hành ở hai thời vụ kiểu RCBD 2 yếu tố

Thí nghiệm bố trí hai thời vụ ghép cà phê là tháng 6 và tháng 7 (ký hiệu T6 và T7). Yếu tố
kiểu ghép có 2 nghiệm thức quấn ngọn và bao chụp (ký hiệu lần lượt là QN và BC) và yếu tố
giống có 4 giống cà phê (TR4 TR5 TR7 và TR8). KHOI (bố trí khối đầy đủ ngẫu nhiên), Y là
tỉ lệ xuất vườn.
DATA;
INPUT TGIAN $ KHOI $ KIEUGHEP $ GIONG $ Y TKGGIONG$15.;
CARDS;
T6 1 QN TR4 66 T6 QN TR4
T6 1 QN TR5 94 T6 QN TR5
T6 1 QN TR7 62 T6 QN TR7
T6 1 QN TR8 50 T6 QN TR8
T6 1 BC TR4 100 T6 BC TR4
T6 1 BC TR5 94 T6 BC TR5
T6 1 BC TR7 70 T6 BC TR7
T6 1 BC TR8 78 T6 BC TR8
T6 2 QN TR4 84 T6 QN TR4
T6 2 QN TR5 90 T6 QN TR5

99
T6 2 QN TR7 88 T6 QN TR7
T6 2 QN TR8 90 T6 QN TR8
T6 2 BC TR4 86 T6 BC TR4
T6 2 BC TR5 90 T6 BC TR5
T6 2 BC TR7 90 T6 BC TR7
T6 2 BC TR8 82 T6 BC TR8
T6 3 QN TR4 82 T6 QN TR4
T6 3 QN TR5 92 T6 QN TR5
T6 3 QN TR7 84 T6 QN TR7
T6 3 QN TR8 56 T6 QN TR8
T6 3 BC TR4 92 T6 BC TR4
T6 3 BC TR5 88 T6 BC TR5
T6 3 BC TR7 90 T6 BC TR7
T6 3 BC TR8 90 T6 BC TR8
T7 1 QN TR4 70 T7 QN TR4
T7 1 QN TR5 70 T7 QN TR5
T7 1 QN TR7 70 T7 QN TR7
T7 1 QN TR8 36 T7 QN TR8
T7 1 BC TR4 78 T7 BC TR4
T7 1 BC TR5 88 T7 BC TR5
T7 1 BC TR7 72 T7 BC TR7
T7 1 BC TR8 82 T7 BC TR8
T7 2 QN TR4 78 T7 QN TR4
T7 2 QN TR5 86 T7 QN TR5
T7 2 QN TR7 50 T7 QN TR7
T7 2 QN TR8 50 T7 QN TR8
T7 2 BC TR4 78 T7 BC TR4
T7 2 BC TR5 84 T7 BC TR5
T7 2 BC TR7 68 T7 BC TR7
T7 2 BC TR8 76 T7 BC TR8
T7 3 QN TR4 60 T7 QN TR4
T7 3 QN TR5 76 T7 QN TR5
T7 3 QN TR7 56 T7 QN TR7
T7 3 QN TR8 56 T7 QN TR8
T7 3 BC TR4 82 T7 BC TR4
T7 3 BC TR5 82 T7 BC TR5
T7 3 BC TR7 76 T7 BC TR7
T7 3 BC TR8 80 T7 BC TR8
;
PROC GLM;
CLASS TGIAN KHOI KIEUGHEP GIONG;
100
MODEL Y = KHOI TGIAN|KIEUGHEP|GIONG;
MEANS TGIAN /LSD ALPHA = 0.01;
MEANS KIEUGHEP /LSD ALPHA = 0.01;
MEANS GIONG /LSD ALPHA = 0.01;
MEANS KIEUGHEP*GIONG /LSD ALPHA = 0.05;
LSMEANS KIEUGHEP*GIONG / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘TI LE XUAT VUON CA PHE GHEP SAU 2 THANG’;
RUN;

PROC GLM;
CLASS KHOI TKGGIONG;
MODEL Y = KHOI TKGGIONG;
MEANS TKGGIONG / DUNCAN ALPHA=0.05;
RUN;
Kết quả xử lý:
TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure


Class Level Information

Class Levels Values

TGIAN 2 T6 T7

KHOI 3 1 2 3

KIEUGHEP 2 BC QN

GIONG 4 TR4 TR5 TR7 TR8

Number of Observations Read 48


Number of Observations Used 48

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 6998.166667 411.656863 4.91 <.0001

Error 30 2513.500000 83.783333

Corrected Total 47 9511.666667

R-Square Coeff Var Root MSE Y Mean

0.735746 11.90031 9.153324 76.91667

Source DF Type I SS Mean Square F Value Pr > F

KHOI 2 265.166667 132.583333 1.58 0.2221


TGIAN 1 1680.333333 1680.333333 20.06 0.0001
KIEUGHEP 1 1875.000000 1875.000000 22.38 <.0001
TGIAN*KIEUGHEP 1 120.333333 120.333333 1.44 0.2401
GIONG 3 2085.666667 695.222222 8.30 0.0004

101
TGIAN*GIONG 3 49.666667 16.555556 0.20 0.8972
KIEUGHEP*GIONG 3 769.666667 256.555556 3.06 0.0432
TGIAN*KIEUGHEP*GIONG 3 152.333333 50.777778 0.61 0.6162

Source DF Type III SS Mean Square F Value Pr > F

KHOI 2 265.166667 132.583333 1.58 0.2221


TGIAN 1 1680.333333 1680.333333 20.06 0.0001
KIEUGHEP 1 1875.000000 1875.000000 22.38 <.0001
TGIAN*KIEUGHEP 1 120.333333 120.333333 1.44 0.2401
GIONG 3 2085.666667 695.222222 8.30 0.0004
TGIAN*GIONG 3 49.666667 16.555556 0.20 0.8972
KIEUGHEP*GIONG 3 769.666667 256.555556 3.06 0.0432
TGIAN*KIEUGHEP*GIONG 3 152.333333 50.777778 0.61 0.6162

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 7.2664

Means with the same letter are not significantly different.

t Grouping Mean N TGIAN

A 82.833 24 T6

B 71.000 24 T7

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 7.2664

Means with the same letter are not significantly different.

t Grouping Mean N KIEUGHEP

102
A 83.167 24 BC

B 70.667 24 QN

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 30
Error Mean Square 83.78333
Critical Value of t 2.75000
Least Significant Difference 10.276

Means with the same letter are not significantly different.

t Grouping Mean N GIONG

A 86.167 12 TR5
A
B A 79.667 12 TR4
B
B C 73.000 12 TR7
C
C 68.833 12 TR8

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

Level of Level of --------------Y--------------


KIEUGHEP GIONG N Mean Std Dev

BC TR4 6 86.0000000 8.6717934


BC TR5 6 87.6666667 4.2739521
BC TR7 6 77.6666667 9.9129545
BC TR8 6 81.3333333 4.8442406
QN TR4 6 73.3333333 9.5219046
QN TR5 6 84.6666667 9.6055539
QN TR7 6 68.3333333 15.2534149
QN TR8 6 56.3333333 18.0406947

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
KIEUGHEP GIONG Y LSMEAN Pr > |t|

103
BC TR4 86.0000000
BC TR5 87.6666667 0.9997
BC TR7 77.6666667 0.4678
BC TR8 81.3333333 0.9116
QN TR4 73.3333333 0.1121
QN TR5 84.6666667 0.9999
QN TR7 68.3333333 0.0128
QN TR8 56.3333333 <.0001

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

Class Level Information

Class Levels Values

KHOI 3 1 2 3

TKGGIONG 16 T6 BC TR4 T6 BC TR5 T6 BC TR7 T6 BC TR8 T6 QN TR4 T6 QN TR5 T6 QN TR7 T6 QN


TR8 T7 BC TR4 T7 BC TR5 T7 BC TR7 T7 BC TR8 T7 QN TR4 T7 QN TR5 T7 QN TR7 T7
QN TR8

Number of Observations Read 48


Number of Observations Used 48

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 17 6998.166667 411.656863 4.91 <.0001

Error 30 2513.500000 83.783333

Corrected Total 47 9511.666667

R-Square Coeff Var Root MSE Y Mean

0.735746 11.90031 9.153324 76.91667

Source DF Type I SS Mean Square F Value Pr > F

KHOI 2 265.166667 132.583333 1.58 0.2221


TKGGIONG 15 6733.000000 448.866667 5.36 <.0001

Source DF Type III SS Mean Square F Value Pr > F

KHOI 2 265.166667 132.583333 1.58 0.2221


TKGGIONG 15 6733.000000 448.866667 5.36 <.0001

TI LE XUAT VUON CA PHE GHEP SAU 2 THANG

The GLM Procedure


Duncan's Multiple Range Test for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

104
Alpha 0.05
Error Degrees of Freedom 30
Error Mean Square 83.78333

Number of Means 2 3 4 5 6 7 8 9
Critical Range 15.26 16.04 16.54 16.90 17.17 17.39 17.56 17.70

Number of Means 10 11 12 13 14 15 16
Critical Range 17.81 17.91 17.99 18.06 18.12 18.17 18.22

Means with the same letter are not significantly different.

Duncan Grouping Mean N TKGGIONG

A 92.667 3 T6 BC TR4
A
A 92.000 3 T6 QN TR5
A
A 90.667 3 T6 BC TR5
A
B A 84.667 3 T7 BC TR5
B A
B A 83.333 3 T6 BC TR7
B A
B A 83.333 3 T6 BC TR8
B A
B A C 79.333 3 T7 BC TR4
B A C
B A C 79.333 3 T7 BC TR8
B A C
B A C 78.000 3 T6 QN TR7
B A C
B A C 77.333 3 T6 QN TR4
B A C
B A C 77.333 3 T7 QN TR5
B C
B D C 72.000 3 T7 BC TR7
B D C
B D C 69.333 3 T7 QN TR4
D C
D C 65.333 3 T6 QN TR8
D
E D 58.667 3 T7 QN TR7
E
E 47.333 3 T7 QN TR8

Giải thích: (xem bảng ANOVA và tương tác để giải thích)

+ Kết quả của bảng ANOVA cho thấy:


- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố thời gian (F = 20,06 với p = 0,0001)
- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố kiểu ghép (F = 22,38 với p < 0,0001)
- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố giống (F = 8,3 với p = 0,0004)

+ Tương tác của yếu tố thời gian*kiểu ghép*giống không có nghĩa với F =0,61 với p = 0,6162.
Do đó cần xét tương tác của thời gian*kiểu ghép, thời gian*giống và kiểu ghép*giống.
Chỉ có tương tác của kiểu ghép*giống có nghĩa ở mức p = 0,0432.
105
Căn cứ vào bảng tương tác so sánh Dunnett cho thấy:
Tương tác như nhau của kiểu ghép bao chụp với 4 giống cũng như kiểu ghép quấn ngọn với
giống TR4 và TR5. Tỉ lệ xuất vườn cao nhất là tổ hợp kiểu ghép bao chụp và giống TR5
(87,67%).

Bảng 3.9. Tương tác của kiểu ghép và giống cà phê đến tỉ lệ xuất vườn (%)
Kiểu ghép Giống Trung bình tỉ lệ xuất vườn Xác suất p

Bao chụp TR4 86,00


Bao chụp TR5 87,67 0,9997
Bao chụp TR7 77,67 0,4678
Bao chụp TR8 81,33 0,9116
Quấn ngọn TR4 73,33 0,1121
Quấn ngọn TR5 84,67 0,9999
Quấn ngọn TR7 68,33 0,0128
Quấn ngọn TR8 56,33 <.0,0001

Vì không có tương tác của thời gian*kiểu ghép*giống, các kết quả xếp nhóm là để ghi số
vào bảng và không ghi xếp hạng a, b, c cho các cặp ba tương tác này. Ghi lại giá trị trung bình
có xếp nhóm theo ký tự cho yếu tố thời gian, kiểu ghép, giống và tương tác có nghĩa ở mức xác
suất theo bảng ANOVA. Bảng tổng hợp kết quả như sau:

Bảng 3.10. Tỷ lệ xuất vườn của giống cà phê (%) do ảnh hưởng bởi kiểu ghép và thời gian.

Giống cà phê
TR4 TR5 TR7 TR8
Trung bình thời
Quấn Bao Quấn Bao Quấn Bao Quấn Bao gian
ngọn chụp ngọn chụp ngọn chụp ngọn chụp
Tháng
77,33 92,67 77,33 90,67 78,00 83,33 65,33 83,33 82,83 A
6
Tháng
88 79,33 84,67 96,7 58,67 72,00 47,33 79,33 71,00 B
7
Trung
bình 79,67 AB 86,17 A 73,00 BC 68,83 C
giống
Trung Quấn ngọn
bình 70,67 B
kiểu Bao chụp
ghép 83,17 A
* Các trị số trung bình cùng ký tự không khác biệt có nghĩa ở mức xác suất p<0,01 với yếu tố
thời gian, kiểu ghép và giống; tương tác yếu tố kiểu ghép*giống ở mức p<0,05; không có
tương tác của thời gian* kiểu ghép*giống. CV = 11,9%.

Tháng 6 ảnh hưởng tỉ lệ xuất vườn cao nhất với kiểu ghép bao chụp trên giống TR5 với tương
tác tổ hợp kiểu ghép bao chụp và giống TR5 cho tỉ lệ xuất vườn 87,67%.

106
3.10. Thí nghiệm lô phụ của lô phụ (Split Split Plot)

Thí nghiệm được bố trí khi thực hiện đồng nhất một kỹ thuật trên lô lớn, điển hình là các
nghiệm thức trong lô lớn A (main plot treatments) như khoảng cách trồng, lô phụ B (sub-plot
treatments) với các nghiệm thức như giống, và lô phụ của lô phụ C (sub-sub plot treatments)
như các lượng N (Kumar, 2008).

Bài tập với thí nghiệm được bố trí lô lớn A (whole plot factor) có 3 lượng đạm N, trong đó lô
phụ B là 2 lượng lân (intermediate size plot, subplot factor) và trong đó có lô phụ của lô phụ
nhỏ nhất C là 3 lượng K (sub-subplot factor). Tất cả cho 1 lần lặp lại (khối) có 3 x 2 x 3 = 18 ô.
Bố trí 3 ngẫu nhiên cho từng yếu tố từ lô A đến lô C, 4 lần lặp lại là 4 khối. Bố trí từ trái sang
phải theo sơ đồ cho khối 1 như sau:

KHỐI 1

A1B1C2 A1B1C1 A1B1C3


A1B2C1 A1B2C3 A1B2C2
A3B2C3 A3B2C2 A3B2C1
A3B1C2 A3B1C3 A3B1C1
A2B2C1 A2B2C3 A2B2C2
A2B1C3 A2B1C2 A2B1C1

Số liệu được ghi theo lệnh xử lý và bảng số. Ký hiệu là K: khối, các yếu tố A, B, C và năng
suất Y (kg/ô).
DATA;
input K A B C $ Y;
CARDS;
1 1 1 1 25.7
1 1 1 2 31.8
1 1 1 3 34.6
1 1 2 1 27.7
1 1 2 2 38
1 1 2 3 42.1
1 2 1 1 28.9
1 2 1 2 37.5
1 2 1 3 38.4
1 2 2 1 38
1 2 2 2 36.9
1 2 2 3 44.2
1 3 1 1 23.4
1 3 1 2 25.3
1 3 1 3 29.8
1 3 2 1 20.8
1 3 2 2 29
1 3 2 3 36.6
2 1 1 1 25.4
2 1 1 2 29.5
2 1 1 3 37.2
2 1 2 1 30.3
107
2 1 2 2 40.6
2 1 2 3 43.6
2 2 1 1 24.7
2 2 1 2 31.5
2 2 1 3 32.5
2 2 2 1 31
2 2 2 2 31.9
2 2 2 3 41.6
2 3 1 1 24.2
2 3 1 2 27.7
2 3 1 3 29.9
2 3 2 1 23
2 3 2 2 32
2 3 2 3 37.8
3 1 1 1 23.8
3 1 1 2 28.7
3 1 1 3 29.1
3 1 2 1 30.2
3 1 2 2 34.6
3 1 2 3 44.6
3 2 1 1 27.8
3 2 1 2 31
3 2 1 3 31.2
3 2 2 1 29.5
3 2 2 2 31.5
3 2 2 3 38.9
3 3 1 1 21.2
3 3 1 2 23.7
3 3 1 3 24.3
3 3 2 1 25.2
3 3 2 2 26.5
3 3 2 3 34.8
4 1 1 1 22
4 1 1 2 26.4
4 1 1 3 23.7
4 1 2 1 33.2
4 1 2 2 31
4 1 2 3 42.7
4 2 1 1 23.4
4 2 1 2 27.8
4 2 1 3 29.8
4 2 2 1 30.7
4 2 2 2 35.9
4 2 2 3 37.6
4 3 1 1 20.9
4 3 1 2 24.3
4 3 1 3 23.8
4 3 2 1 23.1
4 3 2 2 31.2
4 3 2 3 40.2
;
PROC GLM;
CLASS K A B C;
108
MODEL Y = K A K*A
B A*B K*A*B
C A*C B*C A*B*C;
TEST H=A E=K*A;
TEST H=B E=K*A*B;
TEST H=A*B E=K*A*B;
MEANS A B C A*B A*C A*B*C/LSD ALPHA=0.01;
LSMEANS A*B / PDIFF=CONTROL ADJUST=DUNNETT;
LSMEANS B*C / PDIFF=CONTROL ADJUST=DUNNETT;
TITLE ‘SPLIT SPLIT PLOT’;
RUN;
Kết quả xử lý:
SPLIT SPLIT PLOT

The GLM Procedure


Class Level Information

Class Levels Values

K 4 1 2 3 4

A 3 1 2 3

B 2 1 2

C 3 1 2 3

Number of observations 72

SPLIT SPLIT PLOT

The GLM Procedure

Dependent Variable: Y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 35 2672.107778 76.345937 16.31 <.0001

Error 36 168.498333 4.680509

Corrected Total 71 2840.606111

R-Square Coeff Var Root MSE Y Mean

0.940682 6.993279 2.163448 30.93611

Source DF Type I SS Mean Square F Value Pr > F

K 3 143.4561111 47.8187037 10.22 <.0001


A 2 443.6886111 221.8443056 47.40 <.0001
K*A 6 111.7580556 18.6263426 3.98 0.0037
B 1 706.8800000 706.8800000 151.03 <.0001
A*B 2 40.6875000 20.3437500 4.35 0.0204
K*A*B 9 78.3425000 8.7047222 1.86 0.0907
C 2 962.3352778 481.1676389 102.80 <.0001
A*C 4 13.1097222 3.2774306 0.70 0.5969
B*C 2 127.8308333 63.9154167 13.66 <.0001

109
A*B*C 4 44.0191667 11.0047917 2.35 0.0725

Source DF Type III SS Mean Square F Value Pr > F

K 3 143.4561111 47.8187037 10.22 <.0001


A 2 443.6886111 221.8443056 47.40 <.0001
K*A 6 111.7580556 18.6263426 3.98 0.0037
B 1 706.8800000 706.8800000 151.03 <.0001
A*B 2 40.6875000 20.3437500 4.35 0.0204
K*A*B 9 78.3425000 8.7047222 1.86 0.0907
C 2 962.3352778 481.1676389 102.80 <.0001
A*C 4 13.1097222 3.2774306 0.70 0.5969
B*C 2 127.8308333 63.9154167 13.66 <.0001
A*B*C 4 44.0191667 11.0047917 2.35 0.0725

Tests of Hypotheses Using the Type III MS for K*A as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

A 2 443.6886111 221.8443056 11.91 0.0081

SPLIT SPLIT PLOT


The GLM Procedure

Dependent Variable: Y

Tests of Hypotheses Using the Type III MS for K*A*B as an Error Term

Source DF Type III SS Mean Square F Value Pr > F

B 1 706.8800000 706.8800000 81.21 <.0001


A*B 2 40.6875000 20.3437500 2.34 0.1522

SPLIT SPLIT PLOT

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.6984

Means with the same letter are not significantly different.

t Grouping Mean N A

A 33.0083 24 2
A
A 32.3542 24 1

B 27.4458 24 3

110
SPLIT SPLIT PLOT
The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.3867

Means with the same letter are not significantly different.

t Grouping Mean N B

A 34.0694 36 2

B 27.8028 36 1

SPLIT SPLIT PLOT

The GLM Procedure

t Tests (LSD) for Y

NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.

Alpha 0.01
Error Degrees of Freedom 36
Error Mean Square 4.680509
Critical Value of t 2.71948
Least Significant Difference 1.6984

Means with the same letter are not significantly different.

t Grouping Mean N C

A 35.3750 24 3

B 31.0125 24 2

C 26.4208 24 1

SPLIT SPLIT PLOT

The GLM Procedure

Level of Level of --------------Y--------------


A B N Mean Std Dev

1 1 12 28.1583333 4.60265898
1 2 12 36.5500000 6.06907212
2 1 12 30.3750000 4.45831705
2 2 12 35.6416667 4.72179826
3 1 12 24.8750000 2.90458102

111
3 2 12 30.0166667 6.42761561

Level of Level of --------------Y--------------


A C N Mean Std Dev

1 1 8 27.2875000 3.75858541
1 2 8 32.5750000 4.83462216
1 3 8 37.2000000 7.60263112
2 1 8 29.2500000 4.45517356
2 2 8 33.0000000 3.39369163
2 3 8 36.7750000 5.13051097
3 1 8 22.7250000 1.61842075
3 2 8 27.4625000 3.08773495
3 3 8 32.1500000 6.15838569

Level of Level of Level of --------------Y--------------


A B C N Mean Std Dev

1 1 1 4 24.2250000 1.70171482
1 1 2 4 29.1000000 2.22860195
1 1 3 4 31.1500000 6.00583050
1 2 1 4 30.3500000 2.24870333
1 2 2 4 36.0500000 4.16773320
1 2 3 4 43.2500000 1.09087121
2 1 1 4 26.2000000 2.57811301
2 1 2 4 31.9500000 4.04680944
2 1 3 4 32.9750000 3.78098312
2 2 1 4 32.3000000 3.85486705
2 2 2 4 34.0500000 2.74893919
2 2 3 4 40.5750000 2.93527398
3 1 1 4 22.4250000 1.62557682
3 1 2 4 25.2500000 1.76162803
3 1 3 4 26.9500000 3.35509563
3 2 1 4 23.0250000 1.79698822
3 2 2 4 29.6750000 2.46762369
3 2 3 4 37.3500000 2.26495033

SPLIT SPLIT PLOT

The GLM Procedure

Least Squares Means


Adjustment for Multiple Comparisons: Dunnett

H0:LSMean=
Control
A B Y LSMEAN Pr > |t|

1 1 28.1583333
1 2 36.5500000 <.0001
2 1 30.3750000 0.0659
2 2 35.6416667 <.0001
3 1 24.8750000 0.0031
3 2 30.0166667 0.1543

SPLIT SPLIT PLOT


The GLM Procedure
Least Squares Means
Adjustment for Multiple Comparisons: Dunnett
H0:LSMean=
Control

112
B C Y LSMEAN Pr > |t|

1 1 24.2833333
1 2 28.7666667 <.0001
1 3 30.3583333 <.0001
2 1 28.5583333 0.0001
2 2 33.2583333 <.0001
2 3 40.3916667 <.0001

Giải thích: (xem bảng ANOVA và tương tác để giải thích)


+ Kết quả của bảng ANOVA cho thấy:
- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố A (F = 47,4 với p < 0,0001)
- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố B (F = 151,03 với p = 0,0001)
- có sự khác biệt rất có nghĩa các nghiệm thức của yếu tố C (F = 102,8 với p < 0,0001)
+Tương tác của yếu tố A*B*C không có nghĩa với F =2,35 với p = 0,0725. Do đó cần xét
tương tác của A*B, A*C và B*C.
Tương tác của A*B có nghĩa ở mức p = 0,0204.
Tương tác của B*C có nghĩa ở mức p < 0,0001.
Không có tương tác A*C.

Căn cứ vào bảng tương tác so sánh Dunnett cho thấy :


Tương tác của A*B: tương tác giống như là các cặp A1 B1 và A3 B2. Các cặp còn lại không
có tương tác.
Tương tác của A*B: các cặp tương tác độc lập nhau.

Bảng 3.11. Năng suất lúa mì (tấn/ha) ảnh hưởng bởi lượng N (A), P (B) và K (C).
B1 B2 Trung bình A
C1 C2 C3 C1 C2 C3
A1 24,21 29,10 31,15 30,35 36,05 43,25 32,35 A
A2 26,20 31,95 32,98 32,30 34,05 40,58 33,01 A
A3 22,43 25,25 26,95 23,03 29,68 37,35 27,45 B
Trung bình B 27,80 B 34,07 A
Trung bình C C1 26,42 C
C2 31,01 B
C3 35,37 A
Ghi chú: các trị số có cùng ký tự không khác biệt có nghĩa ở mức xác suất với yếu tố A, B, C là
p < 0,01. Tương tác A*B ở mức p < 0,05, tương tác B*C ở mức p< 0,01; CV = 6,99%.

Lượng đạm A2 làm tăng năng suất và lượng A3 giảm năng suất, lượng lân B2 và Kali C3 tăng
năng suất. Tương tác của đạm A2 và lân B2 cho năng suất cao là 35,64 kg/ô, tương tác của lân
B2 và kali C3 cho năng suất cao là 40,39 kg/ô.

3.11. Thí nghiệm lô phụ của lô sọc (Strip Split Plot)

Thí nghiệm khảo sát năng suất lúa đại mạch do ảnh hưởng của lượng phân bón, lượng calcium
và loại đất cần thực hiện trên lô lớn và liên tục, bốn lần lặp lại.

113
Trong khối 1 (lặp lại 1), bốn lượng phân bón bố trí lô sọc đứng (vertical strip), trong đó hai
lượng calcium (vôi) bố trí ngẫu nhiên lô phụ trong một lô lượng phân bón. Loại đất bố trí lô
sọc ngang qua các lô phụ (SAS, 2004).
Các yếu tố gồm: phân bón (fertilizer) bốn mức (F1, F2, F3, F4), calcium hai mức (C1, C2), loại
đất (soil) 3 loại (S1, S2, S3), bốn khối (lần lặp lại: rep 1, 2, 3, 4) và năng suất lúa mạch (yield).
Sơ đồ thí nghiệm bố trí như sau cho 1 khối (Barnard, 1994).

title 'Strip-split Plot';


data Barley;
do Rep=1 to 4;
do Soil=1 to 3; /* 1=d 2=h 3=p */
do Fertilizer=0 to 3;
do Calcium=0,1;
input Yield @;
output;
end;
end;
end;
end;
datalines;
4.91 4.63 4.76 5.04 5.38 6.21 5.60 5.08
4.94 3.98 4.64 5.26 5.28 5.01 5.45 5.62
5.20 4.45 5.05 5.03 5.01 4.63 5.80 5.90
6.00 5.39 4.95 5.39 6.18 5.94 6.58 6.25
5.86 5.41 5.54 5.41 5.28 6.67 6.65 5.94
5.45 5.12 4.73 4.62 5.06 5.75 6.39 5.62
4.96 5.63 5.47 5.31 6.18 6.31 5.95 6.14
5.71 5.37 6.21 5.83 6.28 6.55 6.39 5.57
4.60 4.90 4.88 4.73 5.89 6.20 5.68 5.72
5.79 5.33 5.13 5.18 5.86 5.98 5.55 4.32
5.61 5.15 4.82 5.06 5.67 5.54 5.19 4.46
5.13 4.90 4.88 5.18 5.45 5.80 5.12 4.42
;

proc anova;
class Rep Soil Calcium Fertilizer;
model Yield =
Rep
Fertilizer Fertilizer*Rep
Calcium Calcium*Fertilizer Calcium*Rep(Fertilizer)
Soil Soil*Rep
Soil*Fertilizer Soil*Rep*Fertilizer
Soil*Calcium Soil*Fertilizer*Calcium
Soil*Calcium*Rep(Fertilizer);
test h=Fertilizer e=Fertilizer*Rep;
test h=Calcium Calcium*Fertilizer e=Calcium*Rep(Fertilizer);

114
test h=Soil e=Soil*Rep;
test h=Soil*Fertilizer e=Soil*Rep*Fertilizer;
test h=Soil*Calcium
Soil*Fertilizer*Calcium e=Soil*Calcium*Rep(Fertilizer);
means Fertilizer Calcium Soil Calcium*Fertilizer;
run;
Kết quả xử lý:

Strip-split Plot

The ANOVA Procedure

Class Level Information

Class Levels Values

Rep 4 1 2 3 4

Soil 3 1 2 3

Calcium 2 0 1

Fertilizer 4 0 1 2 3

Number of Observations Read 96


Number of Observations Used 96

TEST OF EFFECTS
EFFECTS

Tests of Hypotheses Using the Anova MS for Rep*Fertilizer as an Error Term

Source DF Anova SS Mean Square F Value Pr > F

Fertilizer 3 7.22127083 2.40709028 3.56 0.0604

Tests of Hypotheses Using the Anova MS for Rep*Calcium(Fertili) as an Error Term

Source DF Anova SS Mean Square F Value Pr > F

Calcium 1 0.27735000 0.27735000 1.88 0.1950


Calcium*Fertilizer 3 1.96395833 0.65465278 4.45 0.0255

Strip-split Plot

The ANOVA Procedure

Dependent Variable: Yield

Tests of Hypotheses Using the Anova MS for Rep*Soil as an Error Term

Source DF Anova SS Mean Square F Value Pr > F

Soil 2 1.92658958 0.96329479 3.47 0.0999

115
Tests of Hypotheses Using the Anova MS for Rep*Soil*Fertilizer as an Error Term
Source DF Anova SS Mean Square F Value Pr > F

Soil*Fertilizer 6 0.68828542 0.11471424 1.30 0.3063

Tests of Hypotheses Using the Anova MS for Rep*Soil*Calc(Ferti) as an Error Term

Source DF Anova SS Mean Square F Value Pr > F

Soil*Calcium 2 0.04493125 0.02246562 0.25 0.7843


Soil*Calcium*Fertili 6 0.18936042 0.03156007 0.34 0.9059

Strip-split Plot
The ANOVA Procedure

Level of ------------Yield------------
Fertilizer N Mean Std Dev

0 24 5.18416667 0.48266395
1 24 5.12916667 0.38337082
2 24 5.75458333 0.53293265
3 24 5.64125000 0.63926801

Level of ------------Yield------------
Calcium N Mean Std Dev

0 48 5.48104167 0.54186141
1 48 5.37354167 0.61565219

Level of ------------Yield------------
Soil N Mean Std Dev

1 32 5.54312500 0.55806369
2 32 5.51093750 0.62176315
3 32 5.22781250 0.51825224

Level of Level of ------------Yield------------


Calcium Fertilizer N Mean Std Dev
0 0 12 5.34666667 0.45029956
0 1 12 5.08833333 0.44986530
0 2 12 5.62666667 0.44707806
0 3 12 5.86250000 0.52886027
1 0 12 5.02166667 0.47615569
1 1 12 5.17000000 0.31826233
1 2 12 5.88250000 0.59856077
1 3 12 5.42000000 0.68409197

Giải thích:
Thí nghiệm cho thấy bảng ANOVA phần trên không có nghĩa, không cần sử dụng. Sử dụng từ
bảng TEST OF EFFECTS.
EFFECTS.
Không có tương tác giữa loại đất, lượng vôi và lượng phân bón (p = 0,9059).
Hiệu quả tương tác chỉ có của tương tác lượng vôi và lượng phân bón (Calcium*Fertilizer) ở
mức xác suất p = 0, 0255.

Bố trí thí nghiệm kiểu hoàn toàn ngẫu nhiên (CRD), khối đầy đủ hoàn toàn ngẫu nhiên
(RCBD) có thể thực hiện với bốn yếu tố hay nhiều hơn, tuy nhiên cần qui mô lớn và giải thích
tương tác theo qui tắc chung như ba yếu tố, nhưng tốn kém hơn.

116
3.12. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng
Đây là phần liệt kê một số cách xử lý tính phương sai thường dùng, với ký tự và chữ để dễ sử
dụng. Tuy nhiên SAS có thể dùng tên dài hơn và tùy thí nghiệm có thể thay đổi rất linh động
các chữ này, ngay cả tên các nghiệm thức được nhập vào trong hàng, có thể sửa đổi tùy ý.

Ghi chú ký tự và chữ cho dễ lập trình, không cứng nhắc vì SAS hiểu và xử lý được các từ.

Ghi biến số ở phần Input và


Giải thích nội dung
xử lý Proc
A,B,C,... Yếu tố thí nghiệm: yếu tố A, yếu tố C
A*B, A*B*C Tương tác giữa hai yếu tố A và B, ba yếu tố A với B và C
Y Chỉ tiêu theo dõi như năng suất, chiều cao cây…
T Nghiệm thức áp dụng cho thí nghiệm một yếu tố
K Khối
Rep Lặp lại nếu không bố trí theo khối
Hang, Cot Hàng và cột (kiểu ô vuông La tin)
Ddiem Địa điểm, nơi thực hiện thí nghiệm

- Phân tích phương sai có thể áp dụng cách xử lý như PROC ANOVA, nhưng khi muốn
so sánh các lô thiếu hoặc so sánh tương tác các yếu tố, thường sử dụng PROC GLM,
hoặc PROC MIXED. Các lệnh đầy đủ để nhập biến, nhập số liệu, xử lý ANOVA, xếp
hạng các trung bình của kiểu RCBD và tính tương tác như sau (bảng số liệu được rút
gọn):

RCBD một yếu tố, so sánh các trung bình RCBD lô phụ, so sánh tương tác các trung bình
data; Data;
input K $ T $ Y; Input K $ D $ V $ DV $ Y;
cards; cards;
1 A 9 1 1 1 D1V1 6789
2 B 14.6 1 1 2 D1V2 6578
3 C 18.3 1 1 3 D1V3 6589
... 1 1 4 D1V4 6534
; ...
proc anova; ;
class K T; proc glm;
model Y = K T; class K D V;
means T /duncan alpha=0.01; model Y = K D K*V V D*V;
title 'Thi nghiem 1 yeu to test h=D e=K*V;
RCDDIEM2'; means D V D*V/lsd alpha=0.05;
run; lsmeans D*V/pdiff=control
adjust=dunnett;
title‘SPLIT PLOT P 52 statistix’;
run;
proc glm;
class K DV;
model Y = K DV;
means DV/Duncan alpha=0.05;
run;

117
• Ghi chú:
- Phần lệnh nhập số liệu phải có trước khi nhập số liệu như:
data;
input K $ T $ Y;
cards;
- Chuyển số liệu từ file excel vào.
- Tùy theo kết quả của bảng phân tích ANOVA, các cách xếp nhóm means với LSD,
Duncan, alpha = 0,05 hay 0,01 và so sánh tương tác như lsmeans D*V/pdiff=control
adjust=dunnett; được bổ sung vào phần lệnh xử lý, trước hàng run;
Các cách xử lý ANOVA (phỏng theo Schabenberger, 2000) như sau :

3.12.1. Kiểu hoàn toàn ngẫu nhiên: Completely Randomized Design (CRD)

• CRD không lấy mẫu


proc glm;
class Rep T;
model Y = Rep(T) T;
test h=T e=Rep(T);
means T;
run;

• CRD có lấy mẫu


proc anova;
class T;
model Y = T;
means T;
run;

• CRD hai yếu tố


proc glm;
class A B;
model Y=A B A*B;
means A B A*B;
run;

• CRD ba yếu tố có tương tác các yếu tố


proc glm;
class A B C;
model Y = A B C A*B A*C B*C A*B*C;
means A B C A*B A*C B*C A*B*C;
run; hoặc sử dụng thanh đứng A | B | C;
= A B C A*B A*C A*B*C;

3.12. 2. Khối đầy đủ hoàn toàn ngẫu nhiên: Randomized Complete Block Designs
(RCBD) với ảnh hưởng khối cố định

118
GLM MIXED
proc glm; proc mixed;
class K T; class K T;
model Y = K T; model Y = K T;
means T; means T;
run; run;

• RCBD khảo sát ảnh hưởng của khối ngẫu nhiên

GLM MIXED
proc mixed;
proc glm;
class K T;
class K T;
model Y = K T;
model Y = K T;
lsmeans T / pdiff stderr;
lsmeans T / pdiff stderr;
random K;
run;
run;

Ghi chú: stderr (standard error), sai số chuẩn; pdiff: khác biệt xác suất p.

• Các thí nghiệm bố trí ở nhiều địa điểm (Tree Fruit Research and Extension Center,
2000)

proc glm;
class ddiem K T;
model Y = ddiem ddiem(K) T T*ddiem ;
test h = ddiem e = ddiem(K);
means T; run;

• Các thí nghiệm bố trí với nhiều thời gian

proc glm; class tgian K T;

model Y = tgian tgian(K) T T* tgian ;


test h = tgian e = tgian(K);
means T; run;

• Khối không đầy đủ với khối cố định: Incomplete Block Designs

proc glm; class K T;


model Y = K T;
lsmeans T/ pdiff stderr;
run;

• Kiểu ô vuông La tin: Latin Square Designs

proc glm;
119
class Hang Cot T;
model Y = Hang Cot T;
means T;
run;

• Kiểu lô phụ có khối cố định, lô chính A, Split-Plot Designs (SPD)

GLM MIXED
proc mixed;
proc glm;
class K A B;
class K A B;
model Y = K A K*A B A*B/
model Y = K A K*A B A*B;
ddfm=satterth;
test h=A e=K*A;
random K*A;
means A B A*B;
means A B A*B;
run;
run;

Ghi chú: MODEL của MIXED tính độ tự do (degrees of freedom) theo phương pháp
Satterthwaite.

. Kiểu lô sọc cố định lần lặp lại, Split-Block (Strip-Plot)


GLM MIXED
proc glm; proc mixed;
class K A B; class K A B;
model y = K A K*A B K*B A*B; model y = K A B A*B
test h = A e=K*A; /ddfm=satterth ;
test h = B e=K*B; random K*A K*B;
means A B A*B; means A B A*B;
run; run;

• Kiểu khối đầy đủ ngẫu nhiên RCBD ba yếu tố có tương tác các yếu tố
proc glm;
class K A B C;
model Y = K A B C A*B A*C B*C A*B*C;
means A B C A*B A*C A*B*C;
run;
hoặc sử dụng thanh đứng A | B | C; = A B C A*B A*C A*B*C;
proc glm;
class K A B C;
model Y = K A | B | C;
means A | B | C;
run;
• Kiểu khối đầy đủ ngẫu nhiên RCBD 3 yếu tố bố trí lô phụ (three way factorial
one split,không phải split plit plot), lô chính A*B, lô phụ C.
proc glm;
class K A B C;
120
model Y = K A B A*B K*A*B C A*C B*C A*B*C;
test h= a e= K*A*B;
test h= b e= Ki*A*B;
test h=a*b e= K*A*B;
means A B C A*B A*C B*C A*B*C;
run;
• Kiểu khối đầy đủ ngẫu nhiên RCBD ba yếu tố bố trí lô phụ (three way
factorial one split,không phải split plit plot),lô chính A, lô phụ
B*C.
proc glm;
class K A B C;
model y = K A K*A B A*B C A*C B*C A*B*C;
test h=A e=K*A;
means A B C A*B A*C B*C A*B*C;
run;

• Kiểu Split-Split-Plot Design (SSPD)

GLM MIXED
proc glm;
proc mixed;
class K A B C;
class K A B C;
model y = K A K*A
model y = K A
B A*B K*A*B
B A*B
C A*C B*C
C A*C B*C A*B*C ;
A*B*C;
random K*A K*A*B;
test h=A e=K*A;
means A B C A*B A*C A*B*C;
test h=B e=K*A*B;
run;
test h=A*B e=K*A*B;
means A B C A*B A*C A*B*C;
run;

• Kiểu Strip Split Plot (Barnard, 1994)

(ghi chú: soil: loại đất, fert: phân bón, ca: calcium: vôi)
proc anova;
class rep soil fert ca;
model y = rep fert fert*rep ca ca*fert rep*fert*ca soil rep*soil fert*soil rep*fert*soil
soil*ca soil*fert*ca;
test h=fert e=rep*fert; test h=ca fert*ca e=rep*fert*ca; test h=soil e=rep*soil;
test h=fert*soil e=rep*fert*soil;
means fert ca soil ca*fert;
run;

121
Chương 4

PHÂN TÍCH PHƯƠNG SAI


THÍ NGHIỆM MẠNG LƯỚI (LATTICE),
KHỐI KHÔNG ĐẦY ĐỦ (Incomplete Block Design)

4.1. Áp dụng kiểu mạng lưới

Đây là kiểu bố trí áp dụng cho số lượng nghiệm thức nhiều và không thể bố trí theo khối đầy
đủ ngẫu nhiên RCBD. Thí dụ trong nhà lưới chiều rộng luống hạn chế để bố trí chậu thành
khối. Ngoài đồng ruộng không đủ đất đồng đều hay đất hẹp để bố trí nghiệm thức. Kiểu lattice
tính phương sai và hiệp phương sai đơn giản.

Có 3 dạng chính là: mạng lưới ô vuông cân đối (balanced square lattices), mạng lưới ô
vuông cân đối một phần (partially balanced square lattices) và mạng lưới chữ nhật (rectangular
lattices). Bảng xếp hạng nghiệm thức được trình bày và so sánh với kiểu RCBD. Phương thức
xử lý là Proc lacttice. Cách bố trí chỉ có nghiệm thức lặp lại 1 lần cạnh nhau, do đó tăng độ
chính xác. Kết quả trung bình được điều chỉnh để so sánh giá trị cao nhất. Cách bố trí thí
nghiệm theo qui định phức tạp, với dạng bố trí khối không đầy đủ cân đối (Balanced
Incomplete Block, BIB), thường phải theo đúng mẫu, độ chính xác không bằng nhau khi so
sánh các trung bình.

Thí nghiệm có: t nghiệm thức, b khối, k đơn vị thí nghiệm hay ô trong khối (k < t) để mỗi
nghiệm thức t xuất hiện 1 lần trong r các khối và mỗi cặp nghiệm thức xuất hiện với nhau
trong λ khối. Công thức được áp dụng là t x r = b x k và λ(t-1) = r(k -1) theo Clewer (2001).

4.2. Thí nghiệm mạng lưới ô vuông cân đối (balanced square lattices)

Thí nghiệm với số nghiệm thức bằng bình phương số khối: t = k2, hay là số khối bằng căn bậc
hai của số nghiệm thức: k = √t. Nếu t = 9, thì k = 3. Nếu k = 3 thì t = 9.
Số lần lặp lại là r = k +1 = 4. Mỗi lần lặp lại có k khối, mỗi khối chứa k nghiệm thức.
Số khối b = k x r = 12 = λ (k + 1). Do đó t x r = b x k = 36 = tổng số số mẫu quan sát. Khi đó
mỗi cặp nghiệm thức xuất hiện 1 lần trong khối với λ = [r(k -1)]/ (t-1) = [4(3 -1)]/ (9-1) = 1.

Sơ đồ bố trí cân bằng hai chiều như sau:

Khối Lặp lại 1 Lặp lại 2 Lặp lại 3 Lặp lại 4


(1) 1 2 3 (4) 1 4 7 (7) 1 5 9 (10) 1 8 6
(2) 4 5 6 (5) 2 5 8 (8) 7 2 6 (11) 4 2 9
(3) 7 8 9 (6) 3 6 9 (9) 4 8 3 (12) 7 5 3

Bài tập khảo sát ảnh hưởng của chín khẩu phần thức ăn đến tốc độ tăng trọng heo (SAS,
2004). Lưu ý nhập số liệu xem các nghiệm thức bố trí như sơ đồ trên.

Các biến phải được ghi theo tên là Group, Block, Treatmnt, và Rep.

122
Thí nghiệm này có 9 Treatmnt (nghiệm thức) là 9 khẩu phần. Block (khối) 1, 2, 3 chỉ ngăn
chuồng chứa 2 con heo. Group (nhóm) 1 đến 4 chỉ lần lặp lại trên cơ sở đơn vị thí nghiệm. Thí
nghiệm này không có Rep (không có lặp lại). Biến đáp ứng là Trgluong (trọng lượng).
title 'Khao sat muc tang trong cua heo';
data Heo;
input Group Block Treatmnt Trgluong @@;
datalines;
1 1 1 2.20 1 1 2 1.84 1 1 3 2.18
1 2 4 2.05 1 2 5 0.85 1 2 6 1.86
1 3 7 0.73 1 3 8 1.60 1 3 9 1.76
2 1 1 1.19 2 1 4 1.20 2 1 7 1.15
2 2 2 2.26 2 2 5 1.07 2 2 8 1.45
2 3 3 2.12 2 3 6 2.03 2 3 9 1.63
3 1 1 1.81 3 1 5 1.16 3 1 9 1.11
3 2 2 1.76 3 2 6 2.16 3 2 7 1.80
3 3 3 1.71 3 3 4 1.57 3 3 8 1.13
4 1 1 1.77 4 1 6 1.57 4 1 8 1.43
4 2 2 1.50 4 2 4 1.60 4 2 9 1.42
4 3 3 2.04 4 3 5 0.93 4 3 7 1.78
;
proc lattice data=Heo;
var Trgluong;
run;
Kết quả xử lý:
Khao sat muc tang trong cua heo
The Lattice Procedure
Analysis of Variance for Trgluong
Sum of Mean
Source DF Squares Square

Replications 3 0.07739 0.02580


Blocks within Replications (Adj.) 8 1.4206 0.1776
Component B 8 1.4206 0.1776
Treatments (Unadj.) 8 3.2261 0.4033
Intra Block Error 16 1.2368 0.07730
Randomized Complete Block Error 24 2.6574 0.1107
Total 35 5.9609 0.1703

Additional Statistics for Trgluong

Variance of Means in Same Block 0.04593


LSD at .01 Level 0.6259
LSD at .05 Level 0.4543
Efficiency Relative to RCBD 120.55

Adjusted Treatment
Means for Trgluong

Treatment Mean

1 1.8035
2 1.7544
3 1.9643
4 1.7267
5 0.9393
6 1.8448
7 1.3870
8 1.4347
9 1.5004

123
Giải thích: khẩu phần 3 cho tốc độ tăng trọng cao nhất là 1,9643 pounds cho 2 con heo (trung
bình 0,9822 cho 1 con), hiệu quả của thí nghiệm so với kiểu bố trí khối đầy đủ hoàn toàn ngẫu
nhiên (RCBD) là 120,55%, do đó sử dụng bố trí lattice tăng độ chính xác và ước lượng hiệu
quả của nghiệm thức.
Chú ý giá trị điều chỉnh nhỏ hơn giá trị thực khẩu phần 3 là 2,0125 khẩu phần 5 là 1,0025.

4.3. Thí nghiệm mạng lưới ô vuông cân đối một phần (partially balanced square lattices)

Bố trí thí nghiệm có số lần lặp lại thay đổi hơn, r có thể là 2, 3 hay 4. Thí nghiệm cho thấy so
sánh cùng khối có độ chính xác cao, nhưng khác khối ít chính xác với các nghiệm thức.

Thí nghiệm khảo sát năng suất (bushels/ acre) của 25 giống đậu nành(Treatmnt). Thí nghiệm
có hai lần lặp lại (Group) và năm khối (Block), mỗi khối có năm giống (SAS, 2004).

title 'Khao sat nang suat dau nanh';


data Daunanh;
do Group = 1 to 2;
do Block = 1 to 5;
do Plot = 1 to 5;
input Treatmnt Nangsuat @@;
output;
end;
end;
end;
drop Plot;
datalines;
1 6 2 7 3 5 4 8 5 6
6 16 7 12 8 12 9 13 10 8
11 17 12 7 13 7 14 9 15 14
16 18 17 16 18 13 19 13 20 14
21 14 22 15 23 11 24 14 25 14
1 24 6 13 11 24 16 11 21 8
2 21 7 11 12 14 17 11 22 23
3 16 8 4 13 12 18 12 23 12
4 17 9 10 14 30 19 9 24 23
5 15 10 15 15 22 20 16 25 19
;
proc print data=Daunanh;
id Treatmnt;
run;
proc lattice data=Daunanh;
run;

Kết quả xử lý:


Khao sat nang suat dau nanh

Treatmnt Group Block Nangsuat

1 1 1 6
2 1 1 7
3 1 1 5
4 1 1 8
5 1 1 6
6 1 2 16
7 1 2 12

124
8 1 2 12
9 1 2 13
10 1 2 8
11 1 3 17
12 1 3 7
13 1 3 7
14 1 3 9
15 1 3 14
16 1 4 18
17 1 4 16
18 1 4 13
19 1 4 13
20 1 4 14
21 1 5 14
22 1 5 15
23 1 5 11
24 1 5 14
25 1 5 14
1 2 1 24
6 2 1 13
11 2 1 24
16 2 1 11
21 2 1 8
2 2 2 21
7 2 2 11
12 2 2 14
17 2 2 11
22 2 2 23
3 2 3 16
8 2 3 4
13 2 3 12
18 2 3 12
23 2 3 12
4 2 4 17
9 2 4 10
14 2 4 30
19 2 4 9
24 2 4 23
5 2 5 15
10 2 5 15
15 2 5 22
20 2 5 16
25 2 5 19

Khao sat nang suat dau nanh

The Lattice Procedure

Analysis of Variance for Nangsuat

Sum of Mean
Source DF Squares Square

Replications 1 212.18 212.18


Blocks within Replications (Adj.) 8 501.84 62.7300
Component B 8 501.84 62.7300
Treatments (Unadj.) 24 559.28 23.3033
Intra Block Error 16 218.48 13.6550
Randomized Complete Block Error 24 720.32 30.0133
Total 49 1491.78 30.4445

125
Additional Statistics for Nangsuat

Variance of Means in Same Block 15.7915


Variance of Means in Different Bloc 17.9280
Average of Variance 17.2159
LSD at .01 Level 12.1189
LSD at .05 Level 8.7959
Efficiency Relative to RCBD 174.34

Adjusted Treatment
Means for Nangsuat
Treatment Mean
1 19.0681
2 16.9728
3 14.6463
4 14.7687
5 12.8470
6 13.1701
7 9.0748
8 6.7483
9 8.3707
10 8.4489
11 23.5511
12 12.4558
13 12.6293
14 20.7517
15 19.3299
16 12.6224
17 10.5272
18 10.7007
19 7.3231
20 11.4013
21 11.6259
22 18.5306
23 12.2041
24 17.3265
25 15.4048

Giải thích: năng suất đậu nành cao nhất là giống số 11 (23,5511 bushels/acre), giống thấp
nhất là giống số 8 (6,783 bushels/acre). Hiệu quả của thí nghiệm này so với kiểu RCBD là
174,34% tăng độ chính xác ước lượng ảnh hưởng của nghiệm thức.

4.4. Thí nghiệm mạng lưới chữ nhật (rectangular lattices)

Bài tập thí nghiệm khảo sát năng suất (bushels/acre) hai kiểu bố trí, kiểu một cho 12 giống,
kiểu hai cho 20 giống (SAS, 2004)
Title ‘Nang suat kieu lattice chu nhat’;

Data rect;
input group block treatmnt Nangsuat design;
cards;
1 1 1 .89 1
1 1 2 .55 1
1 1 3 .65 1
1 2 4 .96 1
1 2 5 .75 1
1 2 6 .96 1
1 3 7 .35 1
126
1 3 8 .12 1
1 3 9 .15 1
1 4 10 .93 1
1 4 11 .14 1
1 4 12 .15 1
2 1 4 .23 1
2 1 7 .65 1
2 1 10 .98 1
2 2 1 .63 1
2 2 8 .98 1
2 2 11 .12 1
2 3 2 .65 1
2 3 5 .65 1
2 3 12 .35 1
2 4 3 .49 1
2 4 6 .98 1
2 4 9 .78 1
3 1 6 .95 1
3 1 8 .29 1
3 1 12 .85 1
3 2 2 .25 1
3 2 9 .14 1
3 2 10 .76 1
3 3 3 .35 1
3 3 4 .97 1
3 3 11 .15 1
3 4 1 .35 1
3 4 5 .15 1
3 4 7 .48 1
1 1 1 16 2
1 1 2 9 2
1 1 3 4 2
1 1 4 0 2
1 2 5 3 2
1 2 6 11 2
1 2 7 16 2
1 2 8 23 2
1 3 9 15 2
1 3 10 7 2
1 3 11 11 2
1 3 12 12 2
1 4 13 8 2
1 4 14 13 2
1 4 15 0 2
1 4 16 5 2
1 5 17 14 2
1 5 18 9 2
1 5 19 8 2
1 5 20 7 2
2 1 5 5 2
2 1 9 14 2
2 1 13 6 2
2 1 17 17 2
2 2 1 19 2
2 2 10 8 2
2 2 14 10 2
2 2 18 6 2
2 3 2 9 2
2 3 6 11 2
2 3 15 20 2
2 3 19 17 2

127
2 4 3 15 2
2 4 7 20 2
2 4 11 10 2
2 4 20 15 2
2 5 4 16 2
2 5 8 9 2
2 5 12 3 2
2 5 16 7 2
;
Proc lattice data=rect;
by design;
var Nangsuat;
run;

Kết quả xử lý:


Nang suat kieu lattice chu nhat

------------------------------------------- design=1 --------------------------------------------

The Lattice Procedure

Analysis of Variance for Nangsuat


Sum of Mean
Source DF Squares Square

Replications 2 0.1350 0.06750


Blocks within Replications (Adj.) 9 1.1241 0.1249
Component B 9 1.1241 0.1249
Treatments (Unadj.) 11 1.6742 0.1522
Intra Block Error 13 0.6019 0.04630
Randomized Complete Block Error 22 1.7260 0.07845
Total 35 3.5352 0.1010

Additional Statistics for Nangsuat

Variance of Means in Same Block 0.03779


Variance of Means in Different Bloc 0.04125
Average of Variance 0.03936
LSD at .01 Level 0.5976
LSD at .05 Level 0.4286
Efficiency Relative to RCBD 132.89

Adjusted Treatment
Means for Nangsuat

Treatment Mean

1 0.5873
2 0.4757
3 0.3712
4 0.6846
5 0.5101
6 0.8363
7 0.6756
8 0.4651
9 0.4505
10 1.0204
11 0.08906
12 0.4276
Nang suat kieu lattice chu nhat

128
-------------------------------------------- design=2 --------------------------------------------

The Lattice Procedure

Analysis of Variance for Nangsuat

Sum of Mean
Source DF Squares Square

Replications 1 52.9000 52.9000


Blocks within Replications (Adj.) 8 263.93 32.9917
Component B 8 263.93 32.9917
Treatments (Unadj.) 19 585.40 30.8105
Intra Block Error 11 316.17 28.7424
Randomized Complete Block Error 19 580.10 30.5316
Total 39 1218.40 31.2410

Additional Statistics for Nangsuat

Variance of Difference 28.7424


LSD at .01 Level 15.3380
LSD at .05 Level 11.2211
Efficiency Relative to RCBD 100.69

Treatment Means
for Nangsuat

Treatment Mean

1 17.5000
2 9.0000
3 9.5000
4 8.0000
5 4.0000
6 11.0000
7 18.0000
8 16.0000
9 14.5000
10 7.5000
11 10.5000
12 7.5000
13 7.0000
14 11.5000
15 10.0000
16 6.0000
17 15.5000
18 7.5000
19 12.5000
20 11.0000

Giải thích:
- Kiểu một cho 12 giống: năng suất cao nhất là giống số 10 (1,0204 bushels/acre), giống
thấp nhất là giống số 3 (0,3712). Hiệu quả của thí nghiệm này so với kiểu RCBD là
132,89% , tăng độ chính xác ước lượng ảnh hưởng của nghiệm thức.
- Kiểu hai cho 20 giống: năng suất cao nhất là giống số 7 (18 bushels/acre), giống thấp nhất
là giống số 6 (11 bushels/acre). Hiệu quả của thí nghiệm này so với kiểu RCBD là
100,69%.
129
Chương 5

PHÂN TÍCH TƯƠNG TÁC (Interaction)


VÀ TỔNG HỢP (Mixed Effect)

Phân tích tương tác và tổng hợp sử dụng phương pháp mô hình tuyến tính tổng quát (General
Linear Model, GLM) và phân tích tổng hợp (Mixed Linear Model, MLM). Các trung bình
bình phương nhỏ nhất (Least Square Means) được so sánh theo từng cách thức khác nhau như
tương tác A*B, A*B*C hoặc yếu tố A hoặc B trong tương tác A*B.

5.1. Phân tích tương tác (Interaction)

Các nghiệm thức trong thí nghiệm có ảnh hưởng với nhau làm cho hiệu quả sử dụng có thể cao
hơn hoặc thấp hơn. Trong trường hợp sử dụng các loại thuốc, biểu hiện tương tác rõ đối với đối
tượng được sử dụng. Giá trị trung bình bình phương nhỏ nhất (LS-Means) được dùng để so
sánh tương tác thuốc và tương tác của thuốc*bệnh với lệnh xử lý proc GLM (General Linear
Model).

Tương tác loại thuốc theo bài tập xử lý ANOVA hai chiều không cân đối có tương tác. Lưu ý
dấu “.” trong các ô nhỏ là các ô thiếu giá trị số liệu, Unbalanced ANOVA for Two-Way
Design with Interaction (SAS, 2004).
title 'Phan tich phuong sai 2 chieu khong can doi';
data;
input Thuoc Benh @;
do i=1 to 6;
input y @;
output;
end;
datalines;

1 1 42 44 36 13 19 22
1 2 33 . 26 . 33 21
1 3 31 -3 . 25 25 24
2 1 28 . 23 34 42 13
2 2 . 34 33 31 . 36
2 3 3 26 28 32 4 16
3 1 . . 1 29 . 19
3 2 . 11 9 7 1 -6
3 3 21 1 . 9 3 .
4 1 24 . 9 22 -2 15
4 2 27 12 12 -5 16 15
4 3 22 7 25 5 12 .

;
proc glm;
class Thuoc Benh;
model y=Thuoc Benh Thuoc*Benh/ ss1 ss2 ss3 ss4;
run;
lsmeans Thuoc / pdiff=all adjust=tukey;
run;

130
Kết quả xử lý:
The GLM Procedure
Class Level Information
Class Levels Values

Thuoc 4 1 2 3 4

Benh 3 1 2 3

Number of observations 72

NOTE: Due to missing values, only 58 observations can be used in this analysis.

Phan tich phuong sai 2 chieu khong can doi

The GLM Procedure

Dependent Variable: y

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 11 4259.338506 387.212591 3.51 0.0013

Error 46 5080.816667 110.452536

Corrected Total 57 9340.155172

R-Square Coeff Var Root MSE y Mean

0.456024 55.66750 10.50964 18.87931

Source DF Type I SS Mean Square F Value Pr > F

Thuoc 3 3133.238506 1044.412835 9.46 <.0001


Benh 2 418.833741 209.416870 1.90 0.1617
Thuoc*Benh 6 707.266259 117.877710 1.07 0.3958

Source DF Type II SS Mean Square F Value Pr > F

Thuoc 3 3063.432863 1021.144288 9.25 <.0001


Benh 2 418.833741 209.416870 1.90 0.1617
Thuoc*Benh 6 707.266259 117.877710 1.07 0.3958

Source DF Type III SS Mean Square F Value Pr > F

Thuoc 3 2997.471860 999.157287 9.05 <.0001


Benh 2 415.873046 207.936523 1.88 0.1637
Thuoc*Benh 6 707.266259 117.877710 1.07 0.3958

Source DF Type IV SS Mean Square F Value Pr > F

Thuoc 3 2997.471860 999.157287 9.05 <.0001


Benh 2 415.873046 207.936523 1.88 0.1637
Thuoc*Benh 6 707.266259 117.877710 1.07 0.3958
131
Phan tich phuong sai 2 chieu khong can doi

The GLM Procedure


Least Squares Means
Adjustment for Multiple Comparisons: Tukey-Kramer

LSMEAN
Thuoc y LSMEAN Number

1 25.9944444 1
2 26.5555556 2
3 9.7444444 3
4 13.5444444 4

Least Squares Means for effect Thuoc


Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: y

i/j 1 2 3 4

1 0.9989 0.0016 0.0107


2 0.9989 0.0011 0.0071
3 0.0016 0.0011 0.7870
4 0.0107 0.0071 0.7870

Giải thích: kết quả phân tích cho thấy có khác biệt có nghĩa giữa bốn loại thuốc, trong khi ảnh
hưởng của bệnh và tương tác của thuốc và bệnh không có nghĩa. Kiểu tổng bình phương loại
III (Type III sums of squares) tương ứng với khác biệt của các trung bình bình phương nhỏ
nhất (LS-means), vì vậy sử dụng loại III để trắc nghiệm các trung bình bình phương nhỏ nhất.
Vì xử lý với GLM dùng cho tương tác, sử dụng lệnh xử lý đặt sau xử lý GLM để có bảng
ANOVA.

lsmeans drug / pdiff=all adjust=tukey;


run;

Tất cả các trung bình bình phương nhỏ nhất và ma trận của giá trị p điều chỉnh (adjusted p-
values) dùng để tính khác biệt từng cặp với nhau được thể hiện trong bảng.

Giải thích: phân tích so sánh nhiều biến cho thấy thuốc 1 và 2 có ảnh hưởng tương tác như
nhau đến bệnh (p = 0,9899). Thuốc 3 và 4 có ảnh hưởng cũng giống nhau, với xác suất p =
0,0016 và p = 0,0107 hay là không có ảnh hưởng tương tác đến bệnh. Kết quả cho thấy ảnh
hưởng khác biệt của 2 nhóm thuốc 1 và 2 với nhóm thuốc 3 và 4. Ảnh hưởng trong nhóm thuốc
tương tác của thuốc 1 và 2 trong đó cao nhất là thuốc 2.

5.2. Phân tích hiệp phương sai (Covariance)

Phân tích hai phương sai của thí nghiệm trước và sau gọi là hiệp phương sai, là kết hợp cả hồi
qui và phân tích phương sai. Đặc điểm của hiệp biến (covariate) được đưa vào mô hình thí
nghiệm phân tích phương sai. Thí nghiệm khảo sát sử dụng thuốc trước xử lý và sau xử lý theo

132
bài tập của Snedecor và Cochran (1967), Statistical Methods, tr. 422 (SAS, 2004) dùng 3 loại
thuốc là A và D so với đối chứng là F để trị bệnh phong.

Ghi chú: thuốc (Thuoc), trước xử lý (TruocXuly: thời điểm trước xử lý vi khuẩn), sau xử lý
(SauXly: thời điểm sau xử lý vi khuẩn). Có 10 bệnh nhân cho dùng 1 loại thuốc.

Số liệu mẫu phân tích như sau:


Data;
input Thuoc $ TruocXly SauXuly @@;
datalines;
A 11 6 A 8 0 A 5 2 A 14 8 A 19 11
A 6 4 A 10 13 A 6 1 A 11 8 A 3 0
D 6 0 D 6 2 D 7 3 D 8 1 D 18 18
D 8 4 D 19 14 D 8 9 D 5 1 D 15 9
F 16 13 F 13 10 F 11 18 F 9 5 F 21 23
F 16 12 F 12 5 F 12 16 F 7 1 F 12 20
;
proc glm;
class Thuoc;
model SauXuly = Thuoc TruocXly / solution;
lsmeans Thuoc / stderr pdiff cov out=adjmeans;
run;
proc print data=adjmeans;
run;

Kết quả xử lý:


The GLM Procedure
Class Level Information
Class Levels Values

Thuoc 3 A D F

Number of observations 30

The SAS System

The GLM Procedure

Dependent Variable: SauXuly


Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 871.497403 290.499134 18.10 <.0001

Error 26 417.202597 16.046254

Corrected Total 29 1288.700000

R-Square Coeff Var Root MSE SauXuly Mean

0.676261 50.70604 4.005778 7.900000

Source DF Type I SS Mean Square F Value Pr > F

133
Thuoc 2 293.6000000 146.8000000 9.15 0.0010
TruocXly 1 577.8974030 577.8974030 36.01 <.0001

Source DF Type III SS Mean Square F Value Pr > F

Thuoc 2 68.5537106 34.2768553 2.14 0.1384


TruocXly 1 577.8974030 577.8974030 36.01 <.0001

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept -0.434671164 B 2.47135356 -0.18 0.8617


Thuoc A -3.446138280 B 1.88678065 -1.83 0.0793
Thuoc D -3.337166948 B 1.85386642 -1.80 0.0835
Thuoc F 0.000000000 B . . .
TruocXly 0.987183811 0.16449757 6.00 <.0001

NOTE: The X'X matrix has been found to be singular, and a generalized inverse was used to solve
the normal equations. Terms whose estimates are followed by the letter 'B' are not
uniquely estimable.
The SAS System

The GLM Procedure


Least Squares Means

SauXuly Standard LSMEAN


Thuoc LSMEAN Error Pr > |t| Number

A 6.7149635 1.2884943 <.0001 1


D 6.8239348 1.2724690 <.0001 2
F 10.1611017 1.3159234 <.0001 3

Least Squares Means for effect Thuoc


Pr > |t| for H0: LSMean(i)=LSMean(j)

Dependent Variable: SauXuly

i/j 1 2 3

1 0.9521 0.0793
2 0.9521 0.0835
3 0.0793 0.0835

NOTE: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
The SAS System

Obs _NAME_ Thuoc LSMEAN STDERR NUMBER COV1 COV2 COV3

1 SauXuly A 6.7150 1.28849 1 1.66022 0.02844 -0.08403


2 SauXuly D 6.8239 1.27247 2 0.02844 1.61918 -0.04299
3 SauXuly F 10.1611 1.31592 3 -0.08403 -0.04299 1.73165

Giải thích: mô hình giả định các độ dốc liên quan đến số điểm sau xử lý với số điểm trước xử
lý là song song với tất cả các loại thuốc (hay là không tương tác).
Bảng phương sai tổng bình phương loại I (Type I SS) cho giá trị tổng bình phương của thuốc là
293,6 biểu thị sự đo lường trung bình số học của số điểm sau xử lý, không quan tâm đến hiệp
biến (covariate).
134
Bảng phương sai tổng bình phương loại III (Type III SS) cho giá trị tổng bình phương của
thuốc là 68,55 biểu thị tổng bình phương của thuốc điều chỉnh cho hiệp biến. Giá trị này để
tính được sự khác biệt các trung bình bình phương nhỏ nhất của thuốc, kiểm soát hiệp biến.
Trắc nghiệm F loại I SS rất có nghĩa cho biến số Thuốc, nhưng trắc nghiệm F loại III SS không
có nghĩa. Kết quả cho thấy có khác biệt thống kê số học các trung bình của thuốc rất có nghĩa
trước xử lý, nhưng giảm xuống không có nghĩa sau xử lý.

Bảng ước lượng của phương trình hồi qui cho thấy 3 phương trình hồi qui như sau:
Sau xử lý = -0,435 + (- 3,446) + 0,978 * Trước xử lý cho thuốc A
Sau xử lý = -0,435 + (- 3,337) + 0,987 * Trước xử lý cho thuốc B
Sau xử lý = -0,435 + 0,987 * Trước xử lý cho thuốc F
*(Tuy nhiên lưu ý phương trình có nghĩa khi các trị số của thuốc có mức xác suất p < 0,05).

Bảng các trung bình bình phương nhỏ nhất tương tác của thuốc (Least Squares Means for
effect Thuoc) cho thấy giá trị xác suất để cho giả thiết null là các trung bình này có ảnh hưởng
như nhau:
[Pr > |t| for H0: LSMean(i)=LSMean(j)] được xác định đều trên 0,05; chứng tỏ các loại thuốc
có ảnh hưỏng như nhau.

5.3. Phân tích đa biến phương sai (MANOVA, Multivariate Analysis of Variance)
Phương pháp phân tích các biến số hay chỉ tiêu ở nhiều địa điểm thu thập mẫu.
Bài tập khảo sát đặc điểm hóa học của các bình cổ ở các lò nung tại Anh (số liệu của Tubb và
ctv., 1980; theo SAS, 2004). Tổng cộng có 26 bình cổ, khảo sát tỉ lệ % của năm nguyên tố là
Al Fe Mg Ca Na. Để hiểu sự khác nhau của bình cổ Llanederyn từ xứ Wales, sử dụng so sánh
đối chiếu (contract) để thử nghiệm giả thiết.

Ghi chú ký hiệu: BinhCo = bình cổ; Binh Co tai Anh = Bình Cổ tại Anh; Ddiem = địa
điểm.

data BinhCo;
title1 "Binh Co tai Anh";
input Ddiem $12. Al Fe Mg Ca Na;
datalines;
Llanederyn 14.4 7.00 4.30 0.15 0.51
Llanederyn 13.8 7.08 3.43 0.12 0.17
Llanederyn 14.6 7.09 3.88 0.13 0.20
Llanederyn 11.5 6.37 5.64 0.16 0.14
Llanederyn 13.8 7.06 5.34 0.20 0.20
Llanederyn 10.9 6.26 3.47 0.17 0.22
Llanederyn 10.1 4.26 4.26 0.20 0.18
Llanederyn 11.6 5.78 5.91 0.18 0.16
Llanederyn 11.1 5.49 4.52 0.29 0.30
Llanederyn 13.4 6.92 7.23 0.28 0.20
Llanederyn 12.4 6.13 5.69 0.22 0.54
Llanederyn 13.1 6.64 5.51 0.31 0.24
Llanederyn 12.7 6.69 4.45 0.20 0.22
Llanederyn 12.5 6.44 3.94 0.22 0.23
Caldicot 11.8 5.44 3.94 0.30 0.04
Caldicot 11.6 5.39 3.77 0.29 0.06
IslandThorns 18.3 1.28 0.67 0.03 0.03
IslandThorns 15.8 2.39 0.63 0.01 0.04

135
IslandThorns 18.0 1.50 0.67 0.01 0.06
IslandThorns 18.0 1.88 0.68 0.01 0.04
IslandThorns 20.8 1.51 0.72 0.07 0.10
AshleyRails 17.7 1.12 0.56 0.06 0.06
AshleyRails 18.3 1.14 0.67 0.06 0.05
AshleyRails 16.7 0.92 0.53 0.01 0.05
AshleyRails 14.8 2.74 0.67 0.03 0.05
AshleyRails 19.1 1.64 0.60 0.10 0.03
;
proc glm data=BinhCo;
class Ddiem;
model Al Fe Mg Ca Na = Ddiem;
contrast 'Llanederyn vs. the rest' Ddiem 1 1 1 -3;
manova h=_all_ / printe printh;
run;
Kết quả xử lý:
Binh Co tai Anh

The GLM Procedure


Class Level Information

Class Levels Values

Ddiem 4 AshleyRails Caldicot IslandThorns Llanederyn

Number of observations 26

Binh Co tai Anh

The GLM Procedure

Dependent Variable: Al

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 175.6103187 58.5367729 26.67 <.0001

Error 22 48.2881429 2.1949156

Corrected Total 25 223.8984615

R-Square Coeff Var Root MSE Al Mean

0.784330 10.22284 1.481525 14.49231

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 3 175.6103187 58.5367729 26.67 <.0001

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 3 175.6103187 58.5367729 26.67 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

136
Llanederyn vs. the rest 1 58.58336640 58.58336640 26.69 <.0001

Binh Co tai Anh


The GLM Procedure

Dependent Variable: Fe

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 134.2216158 44.7405386 89.88 <.0001

Error 22 10.9508457 0.4977657

Corrected Total 25 145.1724615

R-Square Coeff Var Root MSE Fe Mean

0.924567 15.79171 0.705525 4.467692

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 3 134.2216158 44.7405386 89.88 <.0001

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 3 134.2216158 44.7405386 89.88 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

Llanederyn vs. the rest 1 71.15144132 71.15144132 142.94 <.0001

Binh Co tai Anh

The GLM Procedure

Dependent Variable: Mg

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 103.3505270 34.4501757 49.12 <.0001

Error 22 15.4296114 0.7013460

Corrected Total 25 118.7801385

R-Square Coeff Var Root MSE Mg Mean

0.870099 26.65777 0.837464 3.141538

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 3 103.3505270 34.4501757 49.12 <.0001

137
Source DF Type III SS Mean Square F Value Pr > F

Ddiem 3 103.3505270 34.4501757 49.12 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

Llanederyn vs. the rest 1 56.59349339 56.59349339 80.69 <.0001

Binh Co tai Anh


The GLM Procedure

Dependent Variable: Ca

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 0.20470275 0.06823425 29.16 <.0001

Error 22 0.05148571 0.00234026

Corrected Total 25 0.25618846

R-Square Coeff Var Root MSE Ca Mean

0.799032 33.01265 0.048376 0.146538

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 3 0.20470275 0.06823425 29.16 <.0001

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 3 0.20470275 0.06823425 29.16 <.0001

Contrast DF Contrast SS Mean Square F Value Pr > F

Llanederyn vs. the rest 1 0.03531688 0.03531688 15.09 0.0008

Binh Co tai Anh

The GLM Procedure

Dependent Variable: Na

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 3 0.25824560 0.08608187 9.50 0.0003

Error 22 0.19929286 0.00905877

Corrected Total 25 0.45753846

R-Square Coeff Var Root MSE Na Mean

138
0.564424 60.06350 0.095178 0.158462

Source DF Type I SS Mean Square F Value Pr > F

Ddiem 3 0.25824560 0.08608187 9.50 0.0003

Source DF Type III SS Mean Square F Value Pr > F

Ddiem 3 0.25824560 0.08608187 9.50 0.0003

Contrast DF Contrast SS Mean Square F Value Pr > F

Llanederyn vs. the rest 1 0.23344446 0.23344446 25.77 <.0001

Binh Co tai Anh

The GLM Procedure

Multivariate Analysis of Variance

E = Error SSCP Matrix

Al Fe Mg Ca Na

Al 48.288142857 7.0800714286 0.6080142857 0.1064714286 0.5889571429


Fe 7.0800714286 10.950845714 0.5270571429 -0.155194286 0.0667585714
Mg 0.6080142857 0.5270571429 15.429611429 0.4353771429 0.0276157143
Ca 0.1064714286 -0.155194286 0.4353771429 0.0514857143 0.0100785714
Na 0.5889571429 0.0667585714 0.0276157143 0.0100785714 0.1992928571

Partial Correlation Coefficients from the Error SSCP Matrix / Prob > |r|

DF = 22 Al Fe Mg Ca Na

Al 1.000000 0.307889 0.022275 0.067526 0.189853


0.1529 0.9196 0.7595 0.3856

Fe 0.307889 1.000000 0.040547 -0.206685 0.045189


0.1529 0.8543 0.3440 0.8378

Mg 0.022275 0.040547 1.000000 0.488478 0.015748


0.9196 0.8543 0.0180 0.9431

Ca 0.067526 -0.206685 0.488478 1.000000 0.099497


0.7595 0.3440 0.0180 0.6515

Na 0.189853 0.045189 0.015748 0.099497 1.000000


0.3856 0.8378 0.9431 0.6515

Binh Co tai Anh

The GLM Procedure


Multivariate Analysis of Variance

H = Type III SSCP Matrix for Ddiem

139
Al Fe Mg Ca Na

Al 175.61031868 -149.295533 -130.8097066 -5.889163736 -5.372264835


Fe -149.295533 134.22161582 117.74503516 4.8217865934 5.3259491209
Mg -130.8097066 117.74503516 103.35052703 4.2091613187 4.7105458242
Ca -5.889163736 4.8217865934 4.2091613187 0.2047027473 0.154782967
Na -5.372264835 5.3259491209 4.7105458242 0.154782967 0.2582456044

Characteristic Roots and Vectors of: E Inverse * H, where


H = Type III SSCP Matrix for Ddiem
E = Error SSCP Matrix

Characteristic Characteristic Vector V'EV=1


Root Percent Al Fe Mg Ca Na

34.1611140 96.39 0.09562211 -0.26330469 -0.05305978 -1.87982100 -0.47071123


1.2500994 3.53 0.02651891 -0.01239715 0.17564390 -4.25929785 1.23727668
0.0275396 0.08 0.09082220 0.13159869 0.03508901 -0.15701602 -1.39364544
0.0000000 0.00 0.03673984 -0.15129712 0.20455529 0.54624873 -0.17402107
0.0000000 0.00 0.06862324 0.03056912 -0.10662399 2.51151978 1.23668841

MANOVA Test Criteria and F Approximations for the Hypothesis of No Overall Ddiem Effect
H = Type III SSCP Matrix for Ddiem
E = Error SSCP Matrix

S=3 M=0.5 N=8

Statistic Value F Value Num DF Den DF Pr > F

Wilks' Lamda 0.01230091 13.09 15 50.091 <.0001


Pillai's Trace 1.55393619 4.30 15 60 <.0001
Hotelling-Lawley Trace 35.43875302 40.59 15 29.13 <.0001
Roy's Greatest Root 34.16111399 136.64 5 20 <.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound.

Binh Co tai Anh

The GLM Procedure


Multivariate Analysis of Variance

H = Contrast SSCP Matrix for Llanederyn vs. the rest

Al Fe Mg Ca Na

Al 58.583366402 -64.56230291 -57.57983466 -1.438395503 -3.698102513


Fe -64.56230291 71.151441323 63.456352116 1.5851961376 4.0755256878
Mg -57.57983466 63.456352116 56.593493386 1.4137558201 3.6347541005
Ca -1.438395503 1.5851961376 1.4137558201 0.0353168783 0.0907993915
Na -3.698102513 4.0755256878 3.6347541005 0.0907993915 0.2334444577

Characteristic Roots and Vectors of: E Inverse * H, where


H = Contrast SSCP Matrix for Llanederyn vs. the rest
E = Error SSCP Matrix

Characteristic Characteristic Vector V'EV=1


Root Percent Al Fe Mg Ca Na

140
16.1251646 100.00 -0.08883488 0.25458141 0.08723574 0.98158668 0.71925759
0.0000000 0.00 -0.00503538 0.03825743 -0.17632854 5.16256699 -0.01022754
0.0000000 0.00 0.00162771 -0.08885364 -0.01774069 -0.83096817 2.17644566
0.0000000 0.00 0.04450136 -0.15722494 0.22156791 0.00000000 0.00000000
0.0000000 0.00 0.11939206 0.10833549 0.00000000 0.00000000 0.00000000

MANOVA Test Criteria and Exact F Statistics for the Hypothesis


of No Overall Llanederyn vs. the rest Effect
H = Contrast SSCP Matrix for Llanederyn vs. the rest
E = Error SSCP Matrix
S=1 M=1.5 N=8

Statistic Value F Value Num DF Den DF Pr > F


Wilks' Lamda 0.05839360 58.05 5 18 <.0001
Pillai's Trace 0.94160640 58.05 5 18 <.0001
Hotelling-Lawley Trace 16.12516462 58.05 5 18 <.0001
Roy's Greatest Root 16.12516462 58.05 5 18 <.0001

Giải thích: kết quả cho thấy hiệp biến (covariate) cho các biến phụ thuộc khác biệt có nghĩa
cho tất cả các kim loại.
Để trắc nghiệm quan hệ đa biến, đặc điểm của Root và vector E -1 H được xác định. Các so
sánh được qui về giá trị E và xác định mức có nghĩa p (Pr), nói chung đều khác biệt.
Bảng kết quả tương quan cho thấy không có tương quan chặt cho các oxide kim loại, tương
quan cao nhất với trị số là r = 0,4885 giữa Mg và Calcium oxide.
Mẫu bình cổ lấy từ Llanederyn khác biệt với trị số trung bình các nơi khác (SAS, 2004).

5.4. Tương tác tổng hợp (Mixed Effect)

Phân tích mô hình tuyến tính tổng hợp (mixed linear model, MLM) được áp dụng giống như
mô hình tuyến tính tổng quát (general linear model, GLM), nhưng điều khác biệt là mô hình
tuyến tính tổng hợp thể hiện phân tích các trung bình với phương sai (variance) và hiệp
phương sai (covariance). Mô hình này phân tích tham số tương tác cố định (fixed-effect
parameters) và tham số tương tác ngẫu nhiên (random-effect parameters), cách cấu trúc phân
tích số liệu sử dụng phổ biến là phương pháp khả năng tối ưu có hạn (restricted maximum
likelihood, REML).

Bài tập mô hình tuyến tính tổng hợp phân tích tương tác cố định và ngẫu nhiên về biến động
chiều cao (Chieucao = inch) từ khảo sát của các gia đình (Giadinh) và giới tính (Gioitinh) như
sau (phỏng theo SAS, 2004).

Data;
Input Giadinh Gioitinh$ Chieucao @@;
datalines;
1 Nu 67 1 Nu 66 1 Nu 64 1 Nam 71 1 Nam 72 2 Nu 63
2 Nu 63 2 Nu 67 2 Nam 69 2 Nam 68 2 Nam 70 3 Nu 63
3 Nam 64 4 Nu 67 4 Nu 66 4 Nam 67 4 Nam 67 4 Nam 69
run;

proc mixed;
calss Giadinh Gioitinh;

141
model Chieucao = Gioitinh Giadinh Giadinh* Gioitinh;
title ‘phan tich tuong tac co dinh’;
run;

proc mixed;
calss Giadinh Gioitinh;
model Chieucao = Gioitinh;
random Giadinh Giadinh* Gioitinh;
title ‘phan tich tuong tac ngau nhien’;
run;
Kết quả xử lý:
phan tich tuong tac co dinh

The Mixed Procedure

Model Information
Data Set WORK.DATA2
Dependent Variable Chieucao
Covariance Structure Diagonal
Estimation Method REML
Residual Variance Method Profile
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Residual

Class Level Information

Class Levels Values

Giadinh 4 1 2 3 4
Gioitinh 2 Nam Nu

Dimensions

Covariance Parameters 1
Columns in X 15
Columns in Z 0
Subjects 1
Max Obs Per Subject 18
Observations Used 18
Observations Not Used 0
Total Observations 18

Covariance Parameter
Estimates

Cov Parm Estimate

Residual 2.1000

Fit Statistics

Res Log Likelihood -20.8


Akaike's Information Criterion -21.8
Schwarz's Bayesian Criterion -21.9
-2 Res Log Likelihood 41.6

142
phan tich tuong tac co dinh

The Mixed Procedure

Type 3 Tests of Fixed Effects

Num Den
Effect DF DF F Value Pr > F

Gioitinh 1 10 17.63 0.0018


Giadinh 3 10 5.90 0.0139
Giadinh*Gioitinh 3 10 2.89 0.0889

Giải thích:
Phân tích theo mô hình tuyến tính tổng hợp (Mixed Linear Model) sử dụng cách tính
likelihood (tối ưu) nên không có Sum of Square.
Bảng tính ảnh hưởng loại 3 cho thấy yếu tố Giới tính và Gia đình khác biệt có nghĩa, nhưng
tương tác Gia đình*Giới tính không khác biệt.
Giả định sau khi có bảng hiệu quả tương tác trên, vấn đề đặt ra là còn những số liệu có phân bố
chuẩn và độc lập với phương sai cố định. Tuy nhiên số liệu thu thập nằm trong nhóm liên kết
theo gia đình, như vậy các lần lấy mẫu trong nhóm gia đình sẽ có tương quan chặt với nhau,
hay là không có tính độc lập.
Vì vậy để ước lượng chiều cao, sử dụng mô hình tương quan với tương tác ngẫu nhiên (random
effects), với giả định tương tác gia đình là phân bố chuẩn và phương sai chưa biết.

Câu xử lý lệnh như đã ghi phần trên như sau:


proc mixed;
class Giadinh Gioitinh;
model Chieucao = Gioitinh;
random Giadinh Giadinh* Gioitinh;
title ‘phan tich tuong tac ngau nhien’;
run;
Kết quả xử lý:
phan tich tuong tac ngau nhien

The Mixed Procedure

Model Information

Data Set WORK.DATA2


Dependent Variable Chieucao
Covariance Structure Variance Components
Estimation Method REML
Residual Variance Method Profile
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Containment

Class Level Information

Class Levels Values

143
Giadinh 4 1 2 3 4
Gioitinh 2 Nam Nu

Dimensions

Covariance Parameters 3
Columns in X 3
Columns in Z 12
Subjects 1
Max Obs Per Subject 18
Observations Used 18
Observations Not Used 0
Total Observations 18

Iteration History

Iteration Evaluations -2 Res Log Like Criterion

0 1 74.11074833
1 2 71.51614003 0.01441208
2 1 71.13845990 0.00412226
3 1 71.03613556 0.00058188
4 1 71.02281757 0.00001689
5 1 71.02245904 0.00000002
6 1 71.02245869 0.00000000

Convergence criteria met.

phan tich tuong tac ngau nhien

The Mixed Procedure

Covariance Parameter
Estimates

Cov Parm Estimate

Giadinh 2.4010
Giadinh*Gioitinh 1.7657
Residual 2.1668

Fit Statistics

Res Log Likelihood -35.5


Akaike's Information Criterion -38.5
Schwarz's Bayesian Criterion -37.6
-2 Res Log Likelihood 71.0

Type 3 Tests of Fixed Effects

Num Den
Effect DF DF F Value Pr > F

Gioitinh 1 3 7.95 0.0667

144
Kết quả từ bảng tương tác loại 3 cho thấy giá trị xác suất P của Giới tính là 0,0667 cũng chưa
khác biệt có nghĩa như là tương tác cố định, nhưng là phương pháp tổng hợp (mixed
procedure) mô hình hoá tương quan trực tiếp và suy luận (inference) tương tác của giới tính
trong tổng thể các gia đình, trong khi phân tích tương tác cố định chỉ cho thấy tương tác của
giới tính chỉ có trong số gia đình cụ thể.

5.5. Phân tích ảnh hưởng tương tác kiểu lô phụ


Sử dụng proc mixed phân tích với kết quả rõ nhất là thí nghiệm lô phụ.
Thí nghiệm dùng giống và xử lý thuốc lô hạt ảnh hưởng năng suất lúa yến mạch. Ký hiệu: lô
hạt giống (Lohat) gồm có Vic1, Vic2, Clinton, Branch; Khối (Khoi), cách xử lý (Trt) gồm có
Đối chứng (Dchung) và các chất khác là CeresanM, Panagen, AgroxH.
Data Yenmach;
Input Lohat $ Khoi @ ;
Do Trt=1 to 4;
Input Nangsuat @;
If Trt=1 then Xuly = ‘Dchung‘;
If Trt=2 then Xuly = ‘CeresanM‘;
If Trt=3 then Xuly = ‘Panogen‘;
If Trt=4 then Xuly = ‘AgroxH‘;
Output;
End;
Datalines;
Vic1 1 42.9 53.8 49.5 44.4
Vic1 2 41.6 58.5 53.8 41.8
Vic1 3 28.9 43.9 40.7 28.3
Vic1 4 30.8 46.3 39.4 34.7
Vic2 1 53.3 57.6 59.8 64.1
Vic2 2 69.6 69.6 65.8 57.4
Vic2 3 45.4 42.4 41.4 44.1
Vic2 4 35.1 51.9 45.4 51.6
Clinton 1 62.3 63.4 64.5 63.6
Clinton 2 58.5 50.4 46.1 56.1
Clinton 3 44.6 45.0 62.6 52.7
Clinton 4 50.3 46.7 50.3 51.8
Branch 1 75.4 70.3 68.8 71.6
Branch 2 65.6 67.3 65.3 69.4
Branch 3 54.0 57.6 45.6 56.6
Branch 4 52.7 58.5 51.0 47.4
Proc Mixed method=type3;
Classes Lohat Khoi Xuly;
Model Nangsuat = Lohat Xuly Lohat*Xuly;
Random Khoi Lohat*Khoi;
Lsmeans Lohat Xuly;
Lsmeans Lohat*Xuly / slice=Lohat;
Quit;

/* áp dụng method=type3 là chỉ sử dụng ANOVA loại 3, slice=Lohat là khảo sát tương tác
riêng nhóm lô hạt so với tổng thể */
Kết quả xử lý:
The SAS System

The Mixed Procedure

Model Information

145
Data Set WORK.YENMACH
Dependent Variable Nangsuat
Covariance Structure Variance Components
Estimation Method Type 3
Residual Variance Method Factor
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Containment

Class Level Information

Class Levels Values

Lohat 4 Branch Clinton Vic1 Vic2


Khoi 4 1 2 3 4
Xuly 4 AgroxH Ceresa Dchung Panoge

Dimensions

Covariance Parameters 3
Columns in X 25
Columns in Z 20
Subjects 1
Max Obs Per Subject 64
Observations Used 64
Observations Not Used 0
Total Observations 64

Type 3 Analysis of Variance

Sum of
Source DF Squares Mean Square Expected Mean Square

Lohat 3 2848.021875 949.340625 Var(Residual) + 4 Var(Lohat*Khoi)


+ Q(Lohat,Lohat*Xuly)
Xuly 3 170.536875 56.845625 Var(Residual) + Q(Xuly,Lohat*Xuly)
Lohat*Xuly 9 586.465625 65.162847 Var(Residual) + Q(Lohat*Xuly)
Khoi 3 2842.873125 947.624375 Var(Residual) + 4 Var(Lohat*Khoi) + 16 Var(Khoi)
Lohat*Khoi 9 618.294375 68.699375 Var(Residual) + 4 Var(Lohat*Khoi)
Residual 36 731.202500 20.311181 Var(Residual)

The SAS System

The Mixed Procedure

Type 3 Analysis of Variance

Error
Source Error Term DF F Value Pr > F

Lohat MS(Lohat*Khoi) 9 13.82 0.0010


Xuly MS(Residual) 36 2.80 0.0539
Lohat*Xuly MS(Residual) 36 3.21 0.0059
Khoi MS(Lohat*Khoi) 9 13.79 0.0010
Lohat*Khoi MS(Residual) 36 3.38 0.0042
Residual . . . .

Covariance Parameter

146
Estimates

Cov Parm Estimate

Khoi 54.9328
Lohat*Khoi 12.0970
Residual 20.3112

Fit Statistics

Res Log Likelihood -162.7


Akaike's Information Criterion -165.7
Schwarz's Bayesian Criterion -164.8
-2 Res Log Likelihood 325.4

Type 3 Tests of Fixed Effects

Num Den
Effect DF DF F Value Pr > F

Lohat 3 9 13.82 0.0010


Xuly 3 36 2.80 0.0539
Lohat*Xuly 9 36 3.21 0.0059

Phân tích theo mô hình tuyến tính tổng hợp (Mixed Linear Model) với phân tích phương sai
loại 3 cho thấy yếu tố lô hạt và tương tác lô hạt*xử lý đều khác biệt rất có nghĩa (p = 0,001 và
p = 0,0059). Nhưng yếu tố xử lý không khác biệt có nghĩa (p = 0,0539).
Least Squares Means

Standard
Effect Lohat Xuly Estimate Error DF t Value Pr > |t|

Lohat Branch 61.0688 4.2458 9 14.38 <.0001


Lohat Clinton 54.3063 4.2458 9 12.79 <.0001
Lohat Vic1 42.4563 4.2458 9 10.00 <.0001
Lohat Vic2 53.4063 4.2458 9 12.58 <.0001
Xuly AgroxH 52.2250 3.9697 36 13.16 <.0001

The SAS System


The Mixed Procedure

Least Squares Means

Standard
Effect Lohat Xuly Estimate Error DF t Value Pr > |t|

Xuly Ceresa 55.2000 3.9697 36 13.91 <.0001


Xuly Dchung 50.6875 3.9697 36 12.77 <.0001
Xuly Panoge 53.1250 3.9697 36 13.38 <.0001
Lohat*Xuly Branch AgroxH 61.2500 4.6728 36 13.11 <.0001
Lohat*Xuly Branch Ceresa 63.4250 4.6728 36 13.57 <.0001
Lohat*Xuly Branch Dchung 61.9250 4.6728 36 13.25 <.0001
Lohat*Xuly Branch Panoge 57.6750 4.6728 36 12.34 <.0001
Lohat*Xuly Clinton AgroxH 56.0500 4.6728 36 11.99 <.0001
Lohat*Xuly Clinton Ceresa 51.3750 4.6728 36 10.99 <.0001
Lohat*Xuly Clinton Dchung 53.9250 4.6728 36 11.54 <.0001
Lohat*Xuly Clinton Panoge 55.8750 4.6728 36 11.96 <.0001
Lohat*Xuly Vic1 AgroxH 37.3000 4.6728 36 7.98 <.0001

147
Lohat*Xuly Vic1 Ceresa 50.6250 4.6728 36 10.83 <.0001
Lohat*Xuly Vic1 Dchung 36.0500 4.6728 36 7.71 <.0001
Lohat*Xuly Vic1 Panoge 45.8500 4.6728 36 9.81 <.0001
Lohat*Xuly Vic2 AgroxH 54.3000 4.6728 36 11.62 <.0001
Lohat*Xuly Vic2 Ceresa 55.3750 4.6728 36 11.85 <.0001
Lohat*Xuly Vic2 Dchung 50.8500 4.6728 36 10.88 <.0001
Lohat*Xuly Vic2 Panoge 53.1000 4.6728 36 11.36 <.0001

Tests of Effect Slices

Num Den
Effect Lohat DF DF F Value Pr > F

Lohat*Xuly Branch 3 36 1.17 0.3344


Lohat*Xuly Clinton 3 36 0.93 0.4339
Lohat*Xuly Vic1 3 36 9.58 <.0001
Lohat*Xuly Vic2 3 36 0.74 0.5340

Giải thích:
Khi phân tích tương tác ảnh hưởng cố định (Type 3 Tests of Fixed Effects) cho kết quả yếu tố
xử lý không khác biệt có nghĩa.
Khi trắc nghiệm ảnh hưởng tương tác của lô hạt*xử lý với lô hạt tách riêng (slice=Lohat), kết
quả bảng Test of Effect Slices cho thấy tương tác của lô hạt* xử lý cho thấy ảnh hưởng rất có
nghĩa đến giống Vic1 ở mức xác suất p < 0,0001.

5.6. Tương tác tổng hợp và mặt phẳng tối ưu


Thí nghiệm khảo sát lò sấy (SAS, 2004) với mô hình tương tác cố định A, tương tác ngẫu
nhiên B và A*B được thể hiện trên mặt phẳng 3 chiều. Giá trị y là nhiệt độ.
data hh;
input a b c y @@;
datalines;
1 1 1 237 2 1 1 254 3 1 1 246
1 1 2 178 2 1 2 179
1 2 1 208 2 2 1 178 3 2 1 187
1 2 2 146 2 2 2 145 3 2 2 141
1 3 1 186 2 3 1 183
1 3 2 142 2 3 2 125 3 3 2 136
;

proc mixed data=hh asycov mmeq mmeqsol;


class a b c;
model y = b / outp=predicted;
random c b*c;
lsmeans b;
parms (17 to 20 by .1) (.3 to .4 by .005) (1.0);
ods output
ParmSearch = parms;
run;

proc print data=predicted;


run;

proc g3d data=parms;


plot CovP1*CovP2 = ResLogLike

148
/ctop=greens cbottom=blue caxis=black;
run;

/* ASYCOV là lệnh xử lý với asymptotic variance matrix của ước lượng tham số hiệp phương
sai.
MMEQ và MMESOL là lệnh xử lý với phương trình mô hình tổng hợp (mixed model
equation và giải pháp (solution) được nêu ra.
outp=predicted là lệnh tiên đoán các giá trị
parm và ods là lệnh thiết lập mặt phẳng tối ưu (likelihood surface) */

Kết quả xử lý:


The Mixed Procedure

Model Information

Data Set WORK.HH


Dependent Variable y
Covariance Structure Variance Components
Estimation Method REML
Residual Variance Method Profile
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Containment

Class Level Information

Class Levels Values

a 3 1 2 3
b 2 1 2

Dimensions

Covariance Parameters 3
Columns in X 4
Columns in Z 8
Subjects 1
Max Obs Per Subject 16
Observations Used 16
Observations Not Used 0
Total Observations 16

Parameter Search

CovP1 CovP2 CovP3 Variance Res Log Like -2 Res Log Like

17.0000 0.3000 1.0000 80.1400 -52.4699 104.9399


17.0000 0.3050 1.0000 80.0466 -52.4697 104.9393
17.0000 0.3100 1.0000 79.9545 -52.4694 104.9388
17.0000 0.3150 1.0000 79.8637 -52.4692 104.9384
…..
20.0000 0.3900 1.0000 77.6603 -52.4696 104.9392
20.0000 0.3950 1.0000 77.5871 -52.4699 104.9399
20.0000 0.4000 1.0000 77.5148 -52.4703 104.9406

149
Iteration History

Iteration Evaluations -2 Res Log Like Criterion

1 2 104.93416367 0.00000000

Convergence criteria met.

Covariance Parameter
Estimates

Cov Parm Estimate

b 1464.36
a*b 26.9581
Residual 78.8426

The SAS System

The Mixed Procedure

Asymptotic Covariance Matrix of Estimates

Row Cov Parm CovP1 CovP2 CovP3

1 b 4401640 1.2831 -273.32


2 a*b 1.2831 3558.96 -502.84
3 Residual -273.32 -502.84 1249.71

Fit Statistics

Res Log Likelihood -52.5


Akaike's Information Criterion -55.5
Schwarz's Bayesian Criterion -53.5
-2 Res Log Likelihood 104.9

PARMS Model Likelihood Ratio Test

DF Chi-Square Pr > ChiSq

2 0.00 1.0000

Mixed Model Equations

Row Effect a b Col1 Col2 Col3 Col4 Col5 Col6 Col7

1 Intercept 0.2029 0.06342 0.07610 0.06342 0.1015 0.1015 0.03805


2 a 1 0.06342 0.06342 0.03805 0.02537 0.03805
3 a 2 0.07610 0.07610 0.03805 0.03805
4 a 3 0.06342 0.06342 0.02537 0.03805
5 b 1 0.1015 0.03805 0.03805 0.02537 0.1022 0.03805
6 b 2 0.1015 0.02537 0.03805 0.03805 0.1022
7 a*b 1 1 0.03805 0.03805 0.03805 0.07515
8 a*b 1 2 0.02537 0.02537 0.02537

Mixed Model Equations

150
Row Col8 Col9 Col10 Col11 Col12 Col13

1 0.02537 0.03805 0.03805 0.02537 0.03805 36.4143


2 0.02537 13.8757
3 0.03805 0.03805 12.7469
4 0.02537 0.03805 9.7917
5 0.03805 0.02537 21.2956
6 0.02537 0.03805 0.03805 15.1187
7 9.3477
8 0.06246 4.5280

The SAS System

The Mixed Procedure

Mixed Model Equations

Row Effect a b Col1 Col2 Col3 Col4 Col5 Col6 Col7

9 a*b 2 1 0.03805 0.03805 0.03805


10 a*b 2 2 0.03805 0.03805 0.03805
11 a*b 3 1 0.02537 0.02537 0.02537
12 a*b 3 2 0.03805 0.03805 0.03805

Mixed Model Equations

Row Col8 Col9 Col10 Col11 Col12 Col13

9 0.07515 7.2676
10 0.07515 5.4793
11 0.06246 4.6802
12 0.07515 5.1115

Phương trình mô hình tổng hợp (Mixed Model Equations) với 4 hàng đầu là của tương tác cố
định, hàng 5-12 là của tương tác ngẫu nhiên.
Mixed Model Equations Solution

Row Effect a b Col1 Col2 Col3 Col4 Col5 Col6 Col7

1 Intercept 761.84 -29.7718 -29.6578 -731.14 -733.22 -0.4680


2 a 1 -29.7718 59.5436 29.7718 -2.0764 2.0764 -14.0239
3 a 2 -29.6578 29.7718 56.2773 -1.0382 1.0382 0.4680
4 a 3
5 b 1 -731.14 -2.0764 -1.0382 741.63 722.73 -4.2598
6 b 2 -733.22 2.0764 1.0382 722.73 741.63 4.2598
7 a*b 1 1 -0.4680 -14.0239 0.4680 -4.2598 4.2598 22.8027
8 a*b 1 2 0.4680 -12.9342 -0.4680 4.2598 -4.2598 4.1555
9 a*b 2 1 -0.5257 1.0514 -12.9534 -4.7855 4.7855 2.1570
10 a*b 2 2 0.5257 -1.0514 -14.0048 4.7855 -4.7855 -2.1570
11 a*b 3 1 -12.4663 12.9342 12.4663 -4.2598 4.2598 1.9200

Mixed Model Equations Solution

Row Col8 Col9 Col10 Col11 Col12 Col13

1 0.4680 -0.5257 0.5257 -12.4663 -14.4918 159.61


2 -12.9342 1.0514 -1.0514 12.9342 14.0239 53.2049
3 -0.4680 -12.9534 -14.0048 12.4663 14.4918 7.8856
4
5 4.2598 -4.7855 4.7855 -4.2598 4.2598 26.8837

151
6 -4.2598 4.7855 -4.7855 4.2598 -4.2598 -26.8837
7 4.1555 2.1570 -2.1570 1.9200 -1.9200 3.0198
8 22.8027 -2.1570 2.1570 -1.9200 1.9200 -3.0198
9 -2.1570 22.5560 4.4021 2.1570 -2.1570 -1.7134
10 2.1570 4.4021 22.5560 -2.1570 2.1570 1.7134
11 -1.9200 2.1570 -2.1570 22.8027 4.1555 -0.8115

The SAS System

The Mixed Procedure

Mixed Model Equations Solution

Row Effect a b Col1 Col2 Col3 Col4 Col5 Col6 Col7

12 a*b 3 2 -14.4918 14.0239 14.4918 4.2598 -4.2598 -1.9200

Mixed Model Equations Solution

Row Col8 Col9 Col10 Col11 Col12 Col13

12 1.9200 -2.1570 2.1570 4.1555 22.8027 0.8115

Type 3 Tests of Fixed Effects

Num Den
Effect DF DF F Value Pr > F

a 2 2 28.00 0.0345

Khác biệt thống kê của tương tác yếu tố A có nghĩa ở mức p < 0,05 (mức 5%).
Least Squares Means
Standard
Effect a Estimate Error DF t Value Pr > |t|

a 1 212.82 27.6014 2 7.71 0.0164


a 2 167.50 27.5463 2 6.08 0.0260
a 3 159.61 27.6014 2 5.78 0.0286

Kết quả cho thấy yếu tố A khác biệt có nghĩa với các mức độ đầu tiên và cả hai mức sau.
The SAS System

StdErr
Obs a b y Pred Pred DF Alpha Lower Upper Resid

1 1 1 237 242.723 4.72563 10 0.05 232.193 253.252 -5.7228


2 1 1 254 242.723 4.72563 10 0.05 232.193 253.252 11.2772
3 1 1 246 242.723 4.72563 10 0.05 232.193 253.252 3.2772
4 1 2 178 182.916 5.52589 10 0.05 170.603 195.228 -4.9159
5 1 2 179 182.916 5.52589 10 0.05 170.603 195.228 -3.9159
6 2 1 208 192.670 4.70076 10 0.05 182.196 203.144 15.3297
7 2 1 178 192.670 4.70076 10 0.05 182.196 203.144 -14.6703
8 2 1 187 192.670 4.70076 10 0.05 182.196 203.144 -5.6703
9 2 2 146 142.330 4.70076 10 0.05 131.856 152.804 3.6703
10 2 2 145 142.330 4.70076 10 0.05 131.856 152.804 2.6703
11 2 2 141 142.330 4.70076 10 0.05 131.856 152.804 -1.3297
12 3 1 186 185.687 5.52589 10 0.05 173.374 197.999 0.3134
13 3 1 183 185.687 5.52589 10 0.05 173.374 197.999 -2.6866
14 3 2 142 133.542 4.72563 10 0.05 123.013 144.072 8.4578

152
15 3 2 125 133.542 4.72563 10 0.05 123.013 144.072 -8.5422
16 3 2 136 133.542 4.72563 10 0.05 123.013 144.072 2.4578

Res Log Li ke

- 52. 4671

- 52. 4687

- 52. 4702
0. 4000

0. 3667

- 52. 4718 CovP2


20. 0000 0. 3333
19. 0000
CovP1 18. 0000
0. 3000
17. 0000

Hình 5.1. Mặt đáp ứng tối ưu của lò sấy với nhiệt độ và các yếu tố ảnh hưởng.

Đỉnh cao của mặt đáp ứng áp dụng phương pháp khả năng tối ưu có hạn (restricted maximum
likelihood, REML). REML áp dụng cho thành phần phương sai B và tương tác A*B.

5.7. Phân tích xác suất tiên nghiệm (prior probabilities)


Phương pháp phân tích biệt số (discriminant) dựa trên tiêu chuẩn biệt số để xếp nhóm các
mẫu quan sát trong cùng nhóm (khác với nhóm liên kết: cluster analysis).
Khi phân bố trong mỗi nhóm theo dạng chuẩn đa biến, phương pháp tham số (parametric)
được sử dụng để phát triển phương trình biệt số, được tính bằng các đo lường khoảng cách
bình phương tổng quát (generalized squared distance). Tiêu chuẩn xếp nhóm căn cứ trên ma
trận hiệp phương sai cùng nhóm của cá thể (phương trình bậc hai) hay ma trận hiệp phương sai
chung (phương trình tuyến tính), nhằm giải thích xác suất tiên nghiệm (prior probabilities) của
các nhóm. Khi các mật độ (densities) riêng biệt trong nhóm được ước lượng kết hợp với xác
suất tiên nghiệm (prior probability), xác suất hậu nghiệm (posterior probability) được ước đoán
từng nhóm theo xếp đặt các biến số.

Các cây trồng thu thập viễn thám gồm: bắp, đậu nành, bông vải, cải đường, clover (cỏ xa trục
thảo). Giá trị x1 đến x4 thực hiện ở các cánh đồng từ 1 đến 4.

153
data cay;
title 'Discriminant Analysis so lieu vien tham 5 loai cay trong';
input caytrong $ 1-10 x1-x4 xvalues $ 11-21;
cards;
Bap 16 27 31 33
Bap 15 23 30 30
Bap 16 27 27 26
Bap 18 20 25 23
Bap 15 15 31 32
Bap 15 32 32 15
Bap 12 15 16 73
Daunanh 20 23 23 25
Daunanh 24 24 25 32
Daunanh 21 25 23 24
Daunanh 27 45 24 12
Daunanh 12 13 15 42
Daunanh 22 32 31 43
Bongvai 31 32 33 34
Bongvai 29 24 26 28
Bongvai 34 32 28 45
Bongvai 26 25 23 24
Bongvai 53 48 75 26
Bongvai 34 35 25 78
Caiduong 22 23 25 42
Caiduong 25 25 24 26
Caiduong 34 25 16 52
Caiduong 54 23 21 54
Caiduong 25 43 32 15
Caiduong 26 54 2 54
Clover 12 45 32 54
Clover 24 58 25 34
Clover 87 54 61 21
Clover 51 31 31 16
Clover 96 48 54 62
Clover 31 31 11 11
Clover 56 13 13 71
Clover 32 13 27 32
Clover 36 26 54 32
Clover 53 8 6 54
Clover 32 32 62 16

;
proc discrim data=cay
method=normal pool=no
crossvalidate;
class caytrong;
priors prop;
id xvalues;
var x1-x4;
title2 'Using Quadratic Discriminant Function';
run;

154
/* proc discrim sử dụng phương pháp tập hợp phương sai không bằng nhau (POOL=NO) cho
dữ liệu viễn thám. Priors prop là tỉ lệ xác suất có trước của cỡ mẫu, crossvalidate là xác định
mức sai số của các biến giao nhau*/.

Kết quả xử lý:


Discriminant Analysis so lieu vien tham 5 loai cay trong
Using Quadratic Discriminant Function

The DISCRIM Procedure

Observations 36 DF Total 35
Variables 4 DF Within Classes 31
Classes 5 DF Between Classes 4

Class Level Information

Variable Prior
caytrong Name Frequency Weight Proportion Probability

Bap 1 Bap______1 7 7.0000 0.194444 0.194444


Bongvai Bongvai 6 6.0000 0.166667 0.166667
Caiduong Caiduong 6 6.0000 0.166667 0.166667
Clover Clover 11 11.0000 0.305556 0.305556
Daunanh Daunanh 6 6.0000 0.166667 0.166667

Within Covariance Matrix Information

Natural Log of the


Covariance Determinant of the
caytrong Matrix Rank Covariance Matrix

Bap 1 4 11.13472
Bongvai 4 13.23569
Caiduong 4 17.76293
Clover 4 23.64618
Daunanh 4 12.45263

Discriminant Analysis so lieu vien tham 5 loai cay trong


Using Quadratic Discriminant Function

The DISCRIM Procedure

Pairwise Generalized Squared Distances Between Groups

2 _ _ -1 _ _
D (i|j) = (X - X )' COV (X - X ) + ln |COV | - 2 ln PRIOR
i j j i j j j

Generalized Squared Distance to caytrong

From
caytrong Bap 1 Bongvai Caiduong Clover Daunanh

Bap 1 14.40994 366.27424 31.36080 28.92809 138.91966


Bongvai 1216 16.81921 37.15560 26.38544 52.03266
Caiduong 827.50109 43.98280 21.34645 26.80188 107.95676

155
Clover 2213 104.18297 31.40816 26.01743 194.10546
Daunanh 278.85707 41.01631 23.15920 27.07134 16.03615

Discriminant Analysis so lieu vien tham 5 loai cay trong


Using Quadratic Discriminant Function

The DISCRIM Procedure


Classification Summary for Calibration Data: WORK.CAY
Resubstitution Summary using Quadratic Discriminant Function

Generalized Squared Distance Function

2 _ -1 _
D (X) = (X-X )' COV (X-X ) + ln |COV | - 2 ln PRIOR
j j j j j j

Posterior Probability of Membership in Each caytrong

2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k

Number of Observations and Percent Classified into caytrong

From Bap
caytrong 1 Bongvai Caiduong Clover Daunanh Total

Bap 1 7 0 0 0 0 7
100.00 0.00 0.00 0.00 0.00 100.00

Bongvai 0 6 0 0 0 6
0.00 100.00 0.00 0.00 0.00 100.00

Caiduong 0 1 4 0 1 6
0.00 16.67 66.67 0.00 16.67 100.00

Clover 0 0 2 9 0 11
0.00 0.00 18.18 81.82 0.00 100.00

Daunanh 0 0 0 0 6 6
0.00 0.00 0.00 0.00 100.00 100.00

Total 7 7 6 9 7 36
19.44 19.44 16.67 25.00 19.44 100.00

Priors 0.19444 0.16667 0.16667 0.30556 0.16667

Error Count Estimates for caytrong

Bap
1 Bongvai Caiduong Clover Daunanh Total

Rate 0.0000 0.0000 0.3333 0.1818 0.0000 0.1111


Priors 0.1944 0.1667 0.1667 0.3056 0.1667

Nếu sử dụng phương pháp tái thay thế (resubstitution), mức sai số (Error Rate) là 0,1111.
Discriminant Analysis so lieu vien tham 5 loai cay trong
Using Quadratic Discriminant Function
156
The DISCRIM Procedure
Classification Summary for Calibration Data: WORK.CAY
Cross-validation Summary using Quadratic Discriminant Function

Generalized Squared Distance Function

2 _ -1 _
D (X) = (X-X )' COV (X-X ) + ln |COV | - 2 ln PRIOR
j (X)j (X)j (X)j (X)j j

Posterior Probability of Membership in Each caytrong

2 2
Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X))
j k k

Number of Observations and Percent Classified into caytrong

From Bap
caytrong 1 Bongvai Caiduong Clover Daunanh Total

Bap 1 2 0 1 4 0 7
28.57 0.00 14.29 57.14 0.00 100.00

Bongvai 0 2 1 3 0 6
0.00 33.33 16.67 50.00 0.00 100.00

Caiduong 0 1 1 3 1 6
0.00 16.67 16.67 50.00 16.67 100.00

Clover 0 0 2 9 0 11
0.00 0.00 18.18 81.82 0.00 100.00

Daunanh 0 0 1 3 2 6
0.00 0.00 16.67 50.00 33.33 100.00

Total 2 3 6 22 3 36
5.56 8.33 16.67 61.11 8.33 100.00

Priors 0.19444 0.16667 0.16667 0.30556 0.16667

Error Count Estimates for caytrong

Bap
1 Bongvai Caiduong Clover Daunanh Total

Rate 0.7143 0.6667 0.8333 0.1818 0.6667 0.5556


Priors 0.1944 0.1667 0.1667 0.3056 0.1667

Nếu sử dụng phương pháp cross - vadidation, mức sai số (Error Rate) là 0,5556.

5.8. Phương pháp ước lượng Bootstrap

Phương pháp dùng ước số bootstrap tạo ra số liệu giả định (pseudo-data sets) bằng cách lấy
mẫu lặp lại (hay không lặp lại) của từng lớp trong số mẫu quan sát. Vì vậy, cần tính xác suất p
157
điều chỉnh cho giá trị của số liệu giả định này tăng lên có thể là 1000 đến 20000 lần, do đó giá
trị điều chỉnh này khác giá trị p thực sự cho trắc nghiệm ban đầu. Mức xác suất điều chỉnh này
(adjusted p-value) sẽ được tính cho số mẫu ước lượng mới để xác định khác biệt có nghĩa hay
không.

5.8.1. Thí nghiệm thuốc và khảo sát hiệu ứng phụ (side-effect)
Mục tiêu là khảo sát có hay không hiệu ứng phụ trên 15 đối tượng khảo sát, chia làm 3 nhóm
với liều thuốc là 0 mg, 1 mg và 2 mg. Nếu có hiệu ứng phụ ghi số 1, không có hiệu ứng phụ
ghi số 0. Đặc điểm ký hiệu từ s1 đến s10. Số liệu ghi như sau:
data a;
input nhom$ s1-s10;
datalines;
0MG 0 0 1 0 0 1 0 0 0 0
0MG 0 0 0 0 0 0 0 0 0 1
0MG 0 0 0 0 0 0 0 0 1 0
0MG 0 0 0 0 0 0 0 0 0 0
0MG 0 1 0 0 0 0 0 0 0 0
1MG 1 0 0 1 0 1 0 0 1 0
1MG 0 0 0 1 1 0 0 1 0 1
1MG 0 1 0 0 0 0 1 0 0 0
1MG 0 0 1 0 0 0 0 0 0 1
1MG 1 0 1 0 0 0 0 1 0 0
2MG 0 1 1 1 0 1 1 1 0 1
2MG 1 1 1 1 1 1 0 1 1 0
2MG 1 0 0 1 0 1 1 0 1 0
2MG 0 1 1 1 1 0 1 1 1 1
2MG 1 0 1 0 1 1 1 0 0 1
;

proc multtest bootstrap nsample=1000 seed=41287


order=data notables pvals;
class nhom;
test ca(s1-s10);
contrast 'Trend' 0 1 2;
run;
/* Xử lý multtest áp dụng phân tích ANOVA 1chiều. Bootstrap dùng điều chỉnh giá trị p.
Nsample là số mẫu chọn để ước lượng trong phân tích ước số (bootstrap) với số mẫu ngẫu
nhiên seed là 41287.
Class để xếp các biến trong đó là nhóm (nhom), ca biểu thị test hướng tuyến tính Cochran-
Armitage cho 10 đặc tính. Pvals là giá trị p, contrast để tính các hệ số hướng tuyến tính.*/
Kết quả xử lý:
The SAS System

The Multtest Procedure

Model Information

Description Value

Test for discrete variables: Cochran-Armitage


Z-score approximation used: Everywhere
Continuity correction: 0
Tails for discrete tests: Two-tailed
Strata adjustment? No
P-value adjustment: Bootstrap
Number of resamples: 1000
158
Seed: 41287
Contrast Coefficients

nhom

Contrast 0MG 1MG 2MG

Trend 0 1 2

p-Values

Variable Contrast Raw Bootstrap

s1 Trend 0.0519 0.3450


s2 Trend 0.1949 0.8170
s3 Trend 0.0662 0.5060
s4 Trend 0.0126 0.1050
s5 Trend 0.0382 0.2500
s6 Trend 0.0614 0.4370
s7 Trend 0.0095 0.0680
s8 Trend 0.0519 0.3450
s9 Trend 0.1949 0.8170
s10 Trend 0.2123 0.8840

Giải thích:
Kết quả cho thấy cột Raw gồm giá trị p theo cách tính trắc nghiệm Cochran-Armitage với số
liệu nguyên thủy, và cột Bootstrap với giá trị p điều chỉnh theo giá trị p nguyên thủy.
Kết quả cho thấy nếu chọn mức xác suất có nghĩa là 5%, thì ở cột Raw có 3/10 đặc điểm là đạt
yêu cầu. Nếu chọn mức xác suất có nghĩa là 10%, có 7/10 đạt yêu cầu.
Khi chọn cột Bootstrap với so sánh tất cả 10 đặc điểm, thì với mức xác suất có nghĩa là 5%,
không có giá trị nào đạt yêu cầu, nhưng nếu chọn mức xác suất có nghĩa là 10%, có 2/10 đạt
yêu cầu.

5.8.2. Xác định khoảng tin cậy của bootstrap

Khoảng tin cậy của phương pháp ước số bootstrap (Confident Interval) được xác định và thể
hiện bằng đường biểu diễn xử lý TPSPLINE.
Khảo sát cho thấy phơi nắng mặt trời thường xảy ra tỉ lệ cao nám da (melanoma). Phân tích số
liệu 37 năm gồm số mẫu là 100.000 người, xác định khoảng tin cậy Bayesian Confident
Interval 90% theo ước lượng. Bảng số liệu như sau (SAS, 2004):

data melanoma;
input nam tilenhiem @@;
datalines;
1936 0.9 1937 0.8 1938 0.8 1939 1.3
1940 1.4 1941 1.2 1942 1.7 1943 1.8
1944 1.6 1945 1.5 1946 1.5 1947 2.0
1948 2.5 1949 2.7 1950 2.9 1951 2.5
1952 3.1 1953 2.4 1954 2.2 1955 2.9
1956 2.5 1957 2.6 1958 3.2 1959 3.8
1960 4.2 1961 3.9 1962 3.7 1963 3.3

159
1964 3.7 1965 3.9 1966 4.1 1967 3.8
1968 4.7 1969 4.4 1970 4.8 1971 4.8
1972 4.8
;
proc tpspline data=melanoma;
model tilenhiem = (nam) /alpha =0.05;
output out = result pred uclm lclm;
run;

/* generate the bootstrapped C.I. */


/* sigma = 0.232823 */

data bootstrap; set result;


array y{1070} y1-y1070;
do i=1 to 1070;
y{i} = p_tilenhiem + 0.232823*rannor(123456789);
end;
keep y1-y1070 p_tilenhiem nam;
run;

ods listing close;

proc tpspline data=bootstrap;


id p_tilenhiem;
ods output FitStatistics=FitResult;
model y1-y1070 = (nam);
output out=result2;
run;

ods listing;

data FitResult; set FitResult;


if Parameter="Standard Deviation";
keep Value;
run;

proc transpose data=FitResult out=sd prefix=sd;


run;

data result2;
if _N_ = 1 then set sd;
set result2;

data boot;
set result2;
array y{1070} P_y1-P_y1070;
array sd{1070} sd1-sd1070;
do i=1 to 1070;
if sd{i} > 0 then do;
d = (y{i} - P_tilenhiem)/sd{i};
obs = _N_;
output;
end;
end;
keep d obs P_tilenhiem nam;
run;

proc sort data=boot;


by obs;
run;

160
data boot;
set boot;
by obs;
retain n;
if first.obs then n=1;
else n=n+1;
if n > 1000 then delete;
run;

proc sort data=boot;


by obs d;
run;

data chi1 chi2;


set boot;
if (_N_ = (obs-1)*1000+50) then output chi1;
if (_N_ = (obs-1)*1000+950) then output chi2;
run;

proc sort data=result;


by nam;
run;

proc sort data=chi1;


by nam;
run;

proc sort data=chi2;


by nam;
run;

data result;
merge result
chi1(rename=(d=chi05))
chi2(rename=(d=chi95));
keep nam tilenhiem P_tilenhiem lower upper
LCLM_tilenhiem UCLM_tilenhiem;

lower = -chi95*0.232823 + P_tilenhiem;


upper = -chi05*0.232823 + P_tilenhiem;

label lower="Lower 90% CL (Bootstrap)"


upper="Upper 90% CL (Bootstrap)"
lclm_tilenhiem = "Lower 90% CL (Bayesian)"
uclm_tilenhiem = "Upper 90% CL (Bayesian)";
run;

legend1 frame cborder=black position=center;


axis1 label=(angle=90 rotate=0) minor=none;
axis2 minor=none;

title1 'Ti le nhiem Melanoma dieu chinh theo tuoi trong 37 nam';

symbol1 color=blue interpol=none value=dot;


symbol2 color= red interpol=join value=none;
symbol3 color= yellow interpol=join value=none;
symbol4 color=greens interpol=join value=none;

proc gplot data=result;


plot tilenhiem*nam = 1

161
p_tilenhiem*nam = 2
lclm_tilenhiem*nam = 3
uclm_tilenhiem*nam = 3
lower*nam = 4
upper*nam = 4
/ overlay legend=legend1 vaxis=axis1
haxis=axis2 frame cframe=ligr;
run;

Kết quả xử lý:

Ti le nhiem Melanoma dieu chinh theo tuoi trong 37 nam

The TPSPLINE Procedure

Dependent Variable: tilenhiem

Summary of Input Data Set

Number of Non-Missing Observations 37


Number of Missing Observations 0
Unique Smoothing Design Points 37

Summary of Final Model

Number of Regression Variables 0


Number of Smoothing Variables 1
Order of Derivative in the Penalty 2
Dimension of Polynomial Space 2

Summary Statistics
of Final Estimation

log10(n*LamDdiem2a) -0.0607
Smoothing Penalty 0.5171
Residual SS 1.2243
Tr(I-A) 22.5852
Model DF 14.4148
Standard Deviation 0.2328

162
6

1930 1940 1950 1960 1970 1980

nam

PLOT t i l enhi em Pr edi ct ed Val ue of t i l enhi em


Lower 90%CL ( Bayesi an) Upper 90%CL ( Bayesi an)
Lower 90%CL ( Boot st r ap) Upper 90%CL ( Boot st r ap)

Hình 5.2. So sánh khoảng tin cậy của ước lượng phương pháp Bayes và Bootstrap

Giải thích:
Kết quả cho thấy ước lượng bootstrap có kết quả như khoảng tin cậy Bayesian CI. Khoảng tin
cậy Bayesian CI đối xứng quanh các giá trị ước lượng nhưng bootstrap thì không có.

163
Chương 6

TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI-BÌNH PHƯƠNG


TƯƠNG QUAN VÀ HỒI QUI

6.1. Tính giá trị trung bình và độ lệch chuẩn


Bài tập chủ đề: thống kê mô tả tính giá trị trung bình (MEAN) và độ lệch chuẩn (SD, STD,
standard deviation) của thí nghiệm khối đầy đủ ngẫu nhiên, ba khối của 13 giống cỏ ký hiệu số
như là 4405, 4366. Khảo sát ba chỉ tiêu là tỉ lệ nảy mầm % (TLNMAM), điểm cường lực
(vigor, CLUC) và điểm khả năng sản xuất hạt (SXHAT). Lưu ý: K là khối, giá trị này chỉ ghi
theo khối, không dùng phân tích mô tả (phỏng theo bài tập thống kê mô tả, NRCS, 2007).
data A;
input K GIONG $ TLNMAM CLUC SXHAT;
cards;
1 4405 39 6 6
1 4366 100 7 6
1 4356 90 6 5
1 4414 100 5 5
1 2275 56 7 5
1 4386 100 7 6
1 4432 98 5 6
1 4361 100 5 4
1 4365 75 7 5
1 4456 100 4 5
1 4430 88 6 6
1 4376 100 5 6
1 1261 100 6 7
2 4405 56 5 6
2 4366 98 7 5
2 4356 100 5 7
2 4414 100 6 6
2 2275 89 4 4
2 4386 98 7 6
2 4432 89 8 8
2 4361 100 4 5
2 4365 85 5 7
2 4456 95 5 3
2 4430 90 6 5
2 4376 100 9 4
2 1261 100 7 6
3 4405 65 6 4
3 4366 90 5 5
3 4356 100 4 6
3 4414 100 8 4
3 2275 85 7 5
3 4386 93 6 3
3 4432 88 4 5
3 4361 100 4 6
3 4365 88 8 7
3 4456 100 8 4

164
3 4430 93 5 7
3 4376 100 5 8
3 1261 98 6 9
;
proc sort;
by GIONG;
proc means data=A noprint;
var TLNMAM CLUC SXHAT;
by GIONG;
output out=newA;
proc print data=newA;
run;
Kết quả xử lý:
The SAS System
Obs GIONG _TYPE_ _FREQ_ _STAT_ TLNMAM CLUC SXHAT

1 1261 0 3 N 3.000 3.00000 3.00000


2 1261 0 3 MIN 98.000 6.00000 6.00000
3 1261 0 3 MAX 100.000 7.00000 9.00000
4 1261 0 3 MEAN 99.333 6.33333 7.33333
5 1261 0 3 STD 1.155 0.57735 1.52753
6 2275 0 3 N 3.000 3.00000 3.00000
7 2275 0 3 MIN 56.000 4.00000 4.00000
8 2275 0 3 MAX 89.000 7.00000 5.00000
9 2275 0 3 MEAN 76.667 6.00000 4.66667
10 2275 0 3 STD 18.009 1.73205 0.57735
11 4356 0 3 N 3.000 3.00000 3.00000
12 4356 0 3 MIN 90.000 4.00000 5.00000
13 4356 0 3 MAX 100.000 6.00000 7.00000
14 4356 0 3 MEAN 96.667 5.00000 6.00000
15 4356 0 3 STD 5.774 1.00000 1.00000
16 4361 0 3 N 3.000 3.00000 3.00000
17 4361 0 3 MIN 100.000 4.00000 4.00000
18 4361 0 3 MAX 100.000 5.00000 6.00000
19 4361 0 3 MEAN 100.000 4.33333 5.00000
20 4361 0 3 STD 0.000 0.57735 1.00000
21 4365 0 3 N 3.000 3.00000 3.00000
22 4365 0 3 MIN 75.000 5.00000 5.00000
23 4365 0 3 MAX 88.000 8.00000 7.00000
24 4365 0 3 MEAN 82.667 6.66667 6.33333
25 4365 0 3 STD 6.807 1.52753 1.15470
26 4366 0 3 N 3.000 3.00000 3.00000
27 4366 0 3 MIN 90.000 5.00000 5.00000
28 4366 0 3 MAX 100.000 7.00000 6.00000
29 4366 0 3 MEAN 96.000 6.33333 5.33333
30 4366 0 3 STD 5.292 1.15470 0.57735
31 4376 0 3 N 3.000 3.00000 3.00000
32 4376 0 3 MIN 100.000 5.00000 4.00000
33 4376 0 3 MAX 100.000 9.00000 8.00000
34 4376 0 3 MEAN 100.000 6.33333 6.00000
35 4376 0 3 STD 0.000 2.30940 2.00000
36 4386 0 3 N 3.000 3.00000 3.00000
37 4386 0 3 MIN 93.000 6.00000 3.00000
38 4386 0 3 MAX 100.000 7.00000 6.00000
39 4386 0 3 MEAN 97.000 6.66667 5.00000
40 4386 0 3 STD 3.606 0.57735 1.73205
41 4405 0 3 N 3.000 3.00000 3.00000
42 4405 0 3 MIN 39.000 5.00000 4.00000
43 4405 0 3 MAX 65.000 6.00000 6.00000
44 4405 0 3 MEAN 53.333 5.66667 5.33333

165
45 4405 0 3 STD 13.204 0.57735 1.15470
46 4414 0 3 N 3.000 3.00000 3.00000
47 4414 0 3 MIN 100.000 5.00000 4.00000
48 4414 0 3 MAX 100.000 8.00000 6.00000
49 4414 0 3 MEAN 100.000 6.33333 5.00000
50 4414 0 3 STD 0.000 1.52753 1.00000
51 4430 0 3 N 3.000 3.00000 3.00000
52 4430 0 3 MIN 88.000 5.00000 5.00000
53 4430 0 3 MAX 93.000 6.00000 7.00000
54 4430 0 3 MEAN 90.333 5.66667 6.00000
55 4430 0 3 STD 2.517 0.57735 1.00000
56 4432 0 3 N 3.000 3.00000 3.00000
57 4432 0 3 MIN 88.000 4.00000 5.00000
58 4432 0 3 MAX 98.000 8.00000 8.00000
59 4432 0 3 MEAN 91.667 5.66667 6.33333
60 4432 0 3 STD 5.508 2.08167 1.52753
61 4456 0 3 N 3.000 3.00000 3.00000
62 4456 0 3 MIN 95.000 4.00000 3.00000
63 4456 0 3 MAX 100.000 8.00000 5.00000
64 4456 0 3 MEAN 98.333 5.66667 4.00000
65 4456 0 3 STD 2.887 2.08167 1.00000

Giải thích: N là số lần lặp lại, MAX và MIN là giá trị cao nhất và thấp nhất. MEAN là giá trị
trung bình, STD là standard deviation: độ lệch chuẩn. Kết quả đối với giống cỏ 4456 có giá trị
tỉ lệ nảy mầm trung bình là 98,33 với STD là 2,89; điểm cường lực trung bình là 5,67 và STD
là 2,08; điểm khả năng sản xuất hạt là 4 với STD là 1.

6.2. T test: so sánh khác biệt trung bình hai mẫu

Áp dụng trong trường hợp điều tra chọn mẫu hai lô đối chứng và tác động kỹ thuật như phun
thuốc tăng nở hoa, đậu quả, bón phân và không bón, xịt thuốc diệt cỏ và không xịt thuốc. So
sánh hai giá trị trung bình của hai biến, cũng căn cứ trên xác suất p. Nếu p > 0,05 thì hai biến
số không khác nhau có nghĩa. Áp dụng cho chọn mẫu có số điểm chọn bằng nhau. Nếu bố trí
các ô theo dõi ở vị trí giống nhau của hai nhóm mẫu, gọi là bắt cặp (paired comparison), nếu
bố trí các ô theo dõi ở vị trí khác nhau của hai mẫu, gọi là không bắt cặp (unpaired
comparison).

Thí nghiệm sử dụng chất điều hòa sinh trưởng Z cho giống cải dầu (B) và giống đối chứng (A)
không xử lý, kết quả năng suất (tấn/ha) như sau (phỏng theo Clewer, 2001):
data;
input S A B;
diff=B-A;
cards;
1 3.5 5.5
2 4.6 4.1
3 4.0 4.5
4 4.3 6.1
5 4.0 4.6
6 4.6 5.3
7 5.0 5.4
8 3.9 3.9
9 3.5 4.4
10 4.8 6.1

166
;
proc means mean stderr t prt;
var diff;
title 'SO SANH T TEST';
run;

Kết quả xử lý:


SO SANH T TEST

The MEANS Procedure

Analysis Variable : diff

Mean Std Error t Value Pr > |t|


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
0.7700000 0.2431506 3.17 0.0114
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Giải thích:
Giá trị Pr > |t| = 0,0114 cho thấy giống cải dầu B có sử dụng chất điều hòa sinh trưởng Z có
khác biệt năng suất với giống A không xử lý ở mức p < 0,05.

6.3. Chi-bình phương (Chi-square) so sánh tính độc lập của hai yếu tố

Trắc nghiệm tính độc lập căn cứ vào vấn đề đặt ra là giả thiết H0 là các biện pháp áp dụng đều
có ảnh hưởng như nhau. Sử dụng xác suất của Chi-bình phương để tính, nếu p < 0,05 là bác bỏ
giả thiết trên, kỹ thuật áp dụng có ảnh hưởng, nếu p > 0,05 thì chấp nhận giả thiết trên, kỹ thuật
áp dụng như nhau. Thường áp dụng cho các biện pháp kỹ thuật để xác định ảnh hưởng đến
sinh trưởng của cây, cây bệnh hay không bệnh.

Điều tra sau phun thuốc ảnh hưởng sinh trưởng cây với hai yếu tố là: (1) phun thuốc và không
phun, (2) cây tốt và cây bệnh. Số lượng cây được đếm trong tổng số 1000 cây. Giả thiết H0 là
chấp nhận phun thuốc và cây bệnh không ảnh hưởng nhau.
data Dieutra;
input Xitthuoc $ Struong $ Soluong @@;
datalines;
phun benh 10
phun tot 190
khong benh 96
khong tot 704
;
proc freq data=Dieutra order=data;
weight Soluong;
tables Xitthuoc*Struong / chisq expected cellchi2 norow nocol;
output out=ChiSqData pchi lrchi n nmiss;
title 'Chi-Square Tests Xitthuoc';
run;

167
Kết quả xử lý:
Chi-Square Tests Xitthuoc

The FREQ Procedure

Table of Xitthuoc by Struong

Xitthuoc Struong

Frequency ‚
Expected ‚
Cell Chi-Square‚
Percent ‚benh ‚tot ‚ Total
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
phun ‚ 10 ‚ 190 ‚ 200
‚ 21.2 ‚ 178.8 ‚
‚ 5.917 ‚ 0.7016 ‚
‚ 1.00 ‚ 19.00 ‚ 20.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
khong ‚ 96 ‚ 704 ‚ 800
‚ 84.8 ‚ 715.2 ‚
‚ 1.4792 ‚ 0.1754 ‚
‚ 9.60 ‚ 70.40 ‚ 80.00
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 106 894 1000
10.60 89.40 100.00

Statistics for Table of Xitthuoc by Struong

Statistic DF Value Prob


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Chi-Square 1 8.2732 0.0040
Likelihood Ratio Chi-Square 1 9.6535 0.0019
Continuity Adj. Chi-Square 1 7.5510 0.0060
Mantel-Haenszel Chi-Square 1 8.2649 0.0040
Phi Coefficient -0.0910
Contingency Coefficient 0.0906
Cramer's V -0.0910

Fisher's Exact Test


ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cell (1,1) Frequency (F) 10
Left-sided Pr <= F 0.0017
Right-sided Pr >= F 0.9994

Table Probability (P) 0.0011


Two-sided Pr <= P 0.0030

Sample Size = 1000

Giải thích:
Kết quả cho thấy giá trị của Chi-Square là 8,273 với p = 0,004 < 0,05 có nghĩa là bác bỏ giả
thiết trên, xịt thuốc hạn chế cây bệnh.

168
6.4. Tương quan (correlation)

6.4.1. Giá trị tương quan:

Hệ số tương quan được tính như sau:

trong đó x và y là 2 giá trị so sánh, n là số mẫu lặp lại.


Có 3 chi tiết cần xác định hệ số tương quan r là:
- xét dấu tương quan thuận (+) hay nghịch (-)
- mức có nghĩa của hệ số tương quan r với cặp mẫu n (cặp X và Y, XY pairs) ở p = 0,05 hay
0,01.
- xét mức độ tương quan từ yếu đến rất chặt (r từ 0 đến 1 ở trị số tuyệt đối).

- dấu tương quan thuận nghịch: tương quan dương là đồng biến, tương quan âm là nghịch
biến.

- mức có nghĩa (significant level): là giá trị p (prob, probability) xác định mức tồn tại có nghĩa
của giá trị hệ số tương quan r. Khi giá trị này được xác định với giá trị p < 0,05 là hệ số r có
nghĩa. Số mẫu tính theo từng cặp mẫu tính tương quan (n) càng nhỏ thì r càng lớn mới có
nghĩa, và khi n càng lớn thì hệ số r có nghĩa ở giá trị càng nhỏ. Mức có nghĩa p có thể ở mức
0,05 hay 0,01 hoặc 0,001 nhưng không phải là tương quan chặt (Rummel, 1976).

Hệ số tương quan r có nghĩa với số cặp mẫu xử lý tương quan (n) và mức xác suất p xác định
tồn tại của r có nghĩa ở mức xác suất p = 0,05. Số mẫu n (cặp X và Y) với r có nghĩa như sau:

n (số cặp Degree of Hệ số tương quan r Hệ số xác định r2


X và Y) freedom có nghĩa mức p = 0,05
(độ tự do)
5 3 0,878 0,771
10 8 0,632 0,399
20 18 0,444 0,197
100 98 0,195 0,038
1000 998 0,062 0,004

Khi chọn n = 10 để tính tương quan, giá trị r phải lớn hơn 0,632 mới có nghĩa ở mức p = 0,05.
Ở n = 1000 thì giá trị r phải trên 0,06 là có nghĩa ở mức xác suất p = 0,05. Phương sai chung r2
là hệ số xác định tương quan của X với Y (Rummel, 1976). Khi xác định mức có nghĩa của hệ
số r ở p = 0,05 hay p = 0,01; sử dụng bảng giá trị của r ở độ tự do df = n – 2 xử lý two-tailed
test (Siegle, 2006). Tuy nhiên khi xử lý tương quan với SAS, xác suất có nghĩa p được tính và
thể hiện ở hàng dưới giá trị hệ số tương quan r và được dùng đánh giá mức có nghĩa của r.
169
- mức độ tương quan (correlation range):
Hệ số tương quan có giá trị từ -1 đến +1. Giá trị -1 và 0 là hiếm gặp. Khi giá trị r tuyệt đối từ 0
đến 1, nếu càng gần 0 thì tương quan yếu và càng gần 1 chứng tỏ mức độ tương quan càng chặt
(Hiền, 2007). Hệ số tương quan nhỏ thì mức độ tương quan yếu, r tương quan mạnh khi r =
0,75 (Thanh, 2005). Hệ số r có nghĩa ở mức p < 0,05 thì r tương quan chặt với giá trị r > 0,7
(Phong, 2003).

Hình 6.1. Hệ số tương quan rất chặt (r = -1, r = +1) và tương quan yếu (r = 0,3)

Trên cơ sở đã xác định mức có nghĩa của hệ số r, mức độ tương quan được chia (phỏng theo
cấp chia của Williams, 1968):

0,00 – < 0,20: tương quan yếu (slight; almost negligible relationship)
0,20 – < 0,40: tương quan thấp (low correlation; definite but small relationship)
0,40 – < 0,70: tương quan khá (moderate correlation; substantial relationship)
0,70 – < 0,90: tương quan chặt (high correlation; marked relationship)
0,90 – 1 : tương quan rất chặt (very high correlation; very dependable relationship)

6.4.2. Tính ma trận tương quan (correlation matrix)

Xác định ma trận tương quan hai chiều các biến số đồng nhất áp dụng đối với năng suất cây là
tìm yếu tố nào ảnh hưởng lớn nhất đến năng suất cây, từ đó đề xuất biện pháp cải thiện năng
suất hợp lý.

Lưu ý sử dụng giá trị hệ số tương quan r và xác suất p. Với số cặp mẫu n = 12, nếu r > 0,7 là
tương quan chặt, nếu p < 0,05 thì kết luận có khác biệt giữa hai biến số. Nếu p > 0,05 thì hai
biến số không khác nhau có nghĩa.

Khảo sát tương quan năng suất cây cà phê (kg/cây), ký hiệu là NSUATCAY với tỉ lệ hạt tròn
(%) (HATTRON), tỉ lệ nhân/quả (%) (NHANQUA), cấp hạt R1 (%) là tỉ lệ hạt được giữ lại
trên sàng rây 6,3 mm và trọng lượng 100 quả (g) (TL100QUA). Tương quan này được khảo
sát từ thí nghiệm bón phân đạm kết hợp thạch cao.

170
DATA;
INPUT NSUATCAY HATTRON NHANQUA R1 TL100QUA;
CARDS;
1.83 22.8 15.6 40.8 103.7
1.82 18.0 16.2 41.3 112.6
1.82 21.1 15.7 42.4 106.6
1.83 20.9 15.5 41.2 105.9
1.84 14.9 16.6 43.7 112.5
1.86 12.8 16.9 44.9 124.4
1.90 12.8 17.1 42.4 118.6
1.93 11.9 17 69.6 134.2
1.85 12.4 17.2 43.9 118.6
1.96 11.9 17.2 70.7 128.7
2.08 11.5 17.4 80.4 142.3
2.01 12.5 17.0 70.4 134.6
;
PROC CORR OUTP=P;
RUN;
PROC PRINT DATA=P;
RUN;
Kết quả xử lý:
The SAS System

The CORR Procedure


5 Variables: NSUATCAY HATTRON NHANQUA R1 TL100QUA

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

NSUATCAY 12 1.89417 0.08469 22.73000 1.82000 2.08000


HATTRON 12 15.29167 4.21048 183.50000 11.50000 22.80000
NHANQUA 12 1.66167 0.06873 19.94000 1.55000 1.74000
R1 12 52.64167 15.15205 631.70000 40.80000 80.40000
TL100QUA 12 120.22500 12.66894 1443 103.70000 142.30000

Pearson Correlation Coefficients, N = 12


Prob > |r| under H0: Rho=0

NSUATCAY HATTRON NHANQUA R1 TL100QUA

NSUATCAY 1.00000 -0.66965 0.69682 0.93389 0.90831


0.0172 0.0118 <.0001 <.0001

HATTRON -0.66965 1.00000 -0.98192 -0.63167 -0.85691


0.0172 <.0001 0.0276 0.0004

NHANQUA 0.69682 -0.98192 1.00000 0.63218 0.84715


0.0118 <.0001 0.0274 0.0005

R1 0.93389 -0.63167 0.63218 1.00000 0.90515


<.0001 0.0276 0.0274 <.0001

TL100QUA 0.90831 -0.85691 0.84715 0.90515 1.00000


<.0001 0.0004 0.0005 <.0001

The SAS System

171
Obs _TYPE_ _NAME_ NSUATCAY HATTRON NHANQUA R1 TL100QUA

1 MEAN 1.8942 15.2917 1.6617 52.6417 120.225


2 STD 0.0847 4.2105 0.0687 15.1520 12.669
3 N 12.0000 12.0000 12.0000 12.0000 12.000
4 CORR NSUATCAY 1.0000 -0.6697 0.6968 0.9339 0.908
5 CORR HATTRON -0.6697 1.0000 -0.9819 -0.6317 -0.857
6 CORR NHANQUA 0.6968 -0.9819 1.0000 0.6322 0.847
7 CORR R1 0.9339 -0.6317 0.6322 1.0000 0.905
8 CORR TL100QUA 0.9083 -0.8569 0.8472 0.9052 1.000
Pearson Correlation Coefficients là hệ số tương quan, thường gọi là r. Hệ số tương quan r chặt
khi từ 0,7 trở lên với số mẫu n là 7 cặp. Prob > |r| là xác xuất có nghĩa của hệ số r.

Trình bày tương quan của năng suất với các chỉ tiêu như sau (phỏng theo trình bày của Filippi,
1997):

Bảng 4.1. Tương quan của năng suất cây (kg/cây) và các chỉ tiêu theo dõi

Năng suất cây Hạt tròn(%) Nhân/quả cấp R1(%) Trọng lượng nhân/quả

Năng suất cây 1.00000 -0.66965 0.69682 0.93389 0.90831


0.0172 0.0118 <.0001 <.0001

Hạt tròn (%) -0.66965 1.00000 -0.98192 -0.63167 -0.85691


0.0172 <.0001 0.0276 0.0004

Nhân/quả 0.69682 -0.98192 1.00000 0.63218 0.84715


0.0118 <.0001 0.0274 0.0005

cấp R1(%) 0.93389 -0.63167 0.63218 1.00000 0.90515


<.0001 0.0276 0.0274 <.0001

Trọng lượng nhân/quả 0.90831 -0.85691 0.84715 0.90515 1.00000


<.0001 0.0004 0.0005 <.0001

Chú thích: giá trị ở hàng trên là hệ số tương quan r (Pearson Correlation Coefficients), số
mẫu quan sát = 12, hàng dưới là xác suất p.

Giải thích: năng suất cây có tương quan với các chỉ tiêu: cấp hạt R1 với hệ số tương quan r =
0,93389 và trọng lượng 100 quả với hệ số tương quan r = 0,90831 (xác suất đều là p < 0,0001).
Năng suất cây tương quan nghịch với tỉ lệ hạt tròn, khi tỉ lệ hạt tròn thấp thì năng suất cao, với
hệ số tương quan r = - 0,6965.

6.5. Hồi qui tuyến tính đơn biến (simple regression)

Xác định phương trình y = ax + b của hai chỉ tiêu thể hiện với phương trình hồi qui có nghĩa.
Khảo sát phương trình hồi qui của trọng lượng khô X g (TLKHO) và diện tích lá Y cm2
(DTLA) của cây cỏ thức ăn gia súc do bón phân như sau (Clewer, 2001):

DATA A;
INPUT TLKHO DTLA;
CARDS;
0.29 144
172
0.43 180
0.21 60
0.53 226
0.27 105
0.33 111
0.47 217
0.40 221
0.48 218
0.30 137
0.37 153
0.30 105
;
PROC REG DATA=A;
MODEL DTLA = TLKHO;
RUN;
PLOT R.*P.;
RUN;
Kết quả xử lý:
The SAS System

The REG Procedure


Model: MODEL1
Dependent Variable: DTLA

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 29416 29416 61.22 <.0001


Error 10 4805.16144 480.51614
Corrected Total 11 34221

Root MSE 21.92068 R-Square 0.8596


Dependent Mean 156.41667 Adj R-Sq 0.8455
Coeff Var 14.01429

Parameter Estimates

Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 -36.49953 25.45564 -1.43 0.1821


TLKHO 1 528.53751 67.55225 7.82 <.0001

Giải thích: phương trình hồi qui có nghĩa ở mức p < 0,01, giá trị X của phương trình có
xác suất p < 0,01 nên chấp nhận là rất có nghĩa, phương trình được ghi như sau:
Diện tích lá = 528,54*Trọng lượng khô – 36,50.

173
DTLA = - 36. 5 +528. 54 TLKHO
50 N
12
Rsq
40 0. 8596
Adj Rsq
0. 8455
30 RMSE
21. 921

20

10

- 10

- 20

- 30

60 80 100 120 140 160 180 200 220 240 260

Pr edi ct ed Val ue

Hình 6.2. Phương trình tương quan và sai số của diện tích lá và trọng lượng khô cỏ.

6.6. Hồi qui tuyến tính đa biến (multiple regression)


Thí nghiệm tính hồi qui năng suất với cấp hạt R1 và trọng lượng 100 quả cà phê.

Xác định phương trình hồi qui đa biến y = ax1 + bx2 + cx3 để tìm ra các biến số x nào có p <
0,05 là chấp nhận có ảnh hưởng đến y. Trước hết xác định phương trình hồi qui và xem xác
suất p của từng biến, sau đó chọn các biến có giá trị p < 0,05 để xác định phương trình hồi qui
đa biến có nghĩa.

Từ kết quả ma trận tương quan của năng suất cà phê (kg/cây) tương quan rất chặt với cấp hạt
R1 và trọng lượng 100 quả đó là tương quan đơn. Để tính hồi qui tuyến tính đa biến, lập bảng
tính sau đây để xác định tương quan đa biến và hai biến số này có ảnh hưởng đến năng suất có
nghĩa hay không.
data HOIQUI;
input NSUATCAY R1 TL100QUA;
cards;
1.83 40.8 103.7
1.82 41.3 112.6
1.82 42.4 106.6
1.83 41.2 105.9
1.84 43.7 112.5
1.86 44.9 124.4
1.9 42.4 118.6
1.93 69.6 134.2
1.85 43.9 118.6
1.96 70.7 128.7
2.08 80.4 142.3
2.01 70.4 134.6
;
proc reg data=HOIQUI;
model NSUATCAY=R1 TL100QUA;
run;
Kết quả xử lý:

174
The SAS System

The REG Procedure

Model: MODEL1

Dependent Variable: NSUATCAY


Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 2 0.07054 0.03527 38.00 <.0001


Error 9 0.00835 0.00092820
Corrected Total 11 0.07889

Root MSE 0.03047 R-Square 0.8941


Dependent Mean 1.89417 Adj R-Sq 0.8706
Coeff Var 1.60844

Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 1.43207 0.14105 10.15 <.0001


R1 1 0.00346 0.00143 2.42 0.0384
TL100QUA 1 0.00233 0.00171 1.37 0.2050

Giải thích: từ kết quả ước tính của hồi qui đa biến cho thấy chỉ có cấp hạt R1 là có xác suất
có nghĩa với năng suất (p = 0,0384) còn trọng lượng 100 quả không có ý nghĩa (p = 0,205). Kết
luận phương trình hồi qui năng suất với cấp hạt R1 có nghĩa ở mức p < 0,05 và cần lập phương
trình tương quan đơn biến cho hai chỉ tiêu này. Phương trình hồi qui của năng suất cây và cấp
hạt R1 như sau:
data HOIQUI;
input NSUATCAY R1;
cards;
1.83 40.8
1.82 41.3
1.82 42.4
1.83 41.2
1.84 43.7
1.86 44.9
1.9 42.4
1.93 69.6
1.85 43.9
1.96 70.7
2.08 80.4
2.01 70.4
;
proc reg data=HOIQUI;
model NSUATCAY=R1;
run;
PLOT R.*P.;
RUN;
Kết quả xử lý:
The SAS System
The REG Procedure
Model: MODEL1
175
Dependent Variable: NSUATCAY
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 0.06881 0.06881 68.22 <.0001


Error 10 0.01009 0.00101
Corrected Total 11 0.07889

Root MSE 0.03176 R-Square 0.8721


Dependent Mean 1.89417 Adj R-Sq 0.8594
Coeff Var 1.67668

Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 1.61939 0.03451 46.93 <.0001


R1 1 0.00522 0.00063197 8.26 <.0001

Giải thích:
Phương trình hồi qui năng suất và cấp hạt R1 được viết là:
Năng suất cây = 0,0052 R1 + 1,6194 với R2 = 0,8721
NSUATCAY = 1. 6194 +0. 0052 R1
0. 06 N
12
Rsq
0. 8721
0. 04 Adj Rsq
0. 8594
RM SE
0. 0318
0. 02

0. 00

- 0. 02

- 0. 04

- 0. 06

1. 825 1. 850 1. 875 1. 900 1. 925 1. 950 1. 975 2. 000 2. 025 2. 050

Pr edi ct ed Val ue

Hình 6.3. Phương trình tương quan và sai số của năng suất và cấp hạt R1 cà phê.

6.7. Hồi qui bậc hai, xác định điểm tối ưu

Đối với một số thí nghiệm, cần xác định phương trình hồi qui của quan hệ năng suất và các
nghiệm thức như phân bón thường có giới hạn khi tăng lượng phân bón cao, lúc đó năng suất
giảm khi lượng phân bón cao, đường biểu diễn không phải là tuyến tính mà là đường cong
thuộc phương trình bậc hai.

Thí nghiệm về lượng phân đạm N (lbs/acre) đến năng suất cỏ (tấn/ha) biểu thị bằng đường biểu
diễn của phương trình bậc hai y = ax2 + bx + c (NRCS, 2007). Phương trình hồi qui được xác
định như sau:

176
data HOIQUI;
input N NSUATCO;
cards;
0 2.30545
120 3.5875
240 4.862
360 4.899
480 5.179
0 2.8665
120 3.544
240 4.042
360 5.479
480 5.3125
0 2.3125
120 3.207
240 4.5475
360 4.6585
480 4.5945
;
proc rsreg data=HOIQUI;
model NSUATCO=N/lackfit;
run;
Kết quả xử lý:
The RSREG Procedure

Coding Coefficients for the Independent Variables

Factor Subtracted off Divided by

N 240.000000 240.000000

Response Surface for Variable NSUATCO

Response Mean 4.093130


Root MSE 0.342317
R-Square 0.9111
Coefficient of Variation 8.3632

Type I Sum
Regression DF of Squares R-Square F Value Pr > F

Linear 1 13.201793 0.8345 112.66 <.0001


Quadratic 1 1.212814 0.0767 10.35 0.0074
Crossproduct 0 0 0.0000 . .
Total Model 2 14.414607 0.9111 61.51 <.0001

Sum of
Residual DF Squares Mean Square F Value Pr > F

Lack of Fit 2 0.122413 0.061207 0.48 0.6342


Pure Error 10 1.283757 0.128376
Total Error 12 1.406171 0.117181

177
Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data

Intercept 1 2.426528 0.186001 13.05 <.0001 4.432992


N 1 0.011192 0.001836 6.10 <.0001 1.326740
N*N 1 -0.000011801 0.000003668 -3.22 0.0074 -0.679724

Sum of
Factor DF Squares Mean Square F Value Pr > F
N 2 14.414607 7.207303 61.51 <.0001
06:19 WeDdiem3esday, June 16, 1993 7
The RSREG Procedure
Canonical Analysis of Response Surface Based on Coded Data

Critical Value
Factor Coded Uncoded

N 0.975941 474.225722
474.225722

Predicted value at stationary point: 5.080402

Eigenvectors
Eigenvalues N

-0.679724 1.000000

Stationary point is a maximum.

Giải thích:
- Giá trị xác suất của N là p < 0,0001 và N*N là p = 0,0074, do đó hai giá trị này rất có nghĩa
trong phương trình hồi qui bậc hai.
- Phương trình được viết là: Năng suất cỏ (tấn/ha) = - 0,0000118N2 + 0,0112N + 2,4265 với hệ
số tương quan đa biến là R2 = 0,9111.

- Xác định điểm tối đa năng suất cỏ ở lượng đạm:


Năng suất cỏ Y đạt tối đa khi X = - (β1/2 β2) = - 0,01192/(2(- 0,0000118)) = 474,2 lbs N/acre.
- Tương tự theo kết quả xử lý, yếu tố đạm N có Critical Value Uncoded là 474,2 và đây là
điểm tối đa cho năng suất cỏ tối ưu là 5,08 tấn/ha.

6.8. Hồi qui bậc hai, xác định đường biễu diễn
title 'Thi nghiem tieu thu xang va khoang cach’;
data kcach;
input mph mpg @@;
datalines;
20 15.4
30 20.2
40 25.7
50 26.2
50 26.6
50 27.4
55 .
60 24.8
;

178
proc rsreg data= kcach;
model mpg=mph /lackfit;
run;
proc glm;
model mpg=mph mph*mph / p clm;
output out=pp p=mpgpred r=resid;

axis1 minor=none major=(number=5);


axis2 minor=none major=(number=8);
symbol1 c=blue i=none v=dot;
symbol2 c=red i=spline v=none;
proc gplot data=pp;
plot mpg*mph=1 mpgpred*mph=2 / overlay haxis=axis1 vaxis=axis2;
run;
Kết quả xử lý:
Thi nghiem tieu thu xang va khoang cach

The RSREG Procedure

Coding Coefficients for the Independent Variables

Factor Subtracted off Divided by

mph 40.000000 20.000000

Response Surface for Variable mpg

Response Mean 23.757143


Root MSE 0.846836
R-Square 0.9750
Coefficient of Variation 3.5646

Type I Sum
Regression DF of Squares R-Square F Value Pr > F

Linear 1 85.644643 0.7468 119.43 0.0004


Quadratic 1 26.163975 0.2282 36.48 0.0038
Crossproduct 0 0 0.0000 . .
Total Model 2 111.808618 0.9750 77.96 0.0006

Sum of
Residual DF Squares Mean Square F Value Pr > F

Lack of Fit 2 2.121858 1.060929 2.84 0.2603


Pure Error 2 0.746667 0.373333
Total Error 4 2.868525 0.717131

Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data

Intercept 1 -5.985246 3.185222 -1.88 0.1334 25.267213


mph 1 1.305246 0.172599 7.56 0.0016 5.147541
mph*mph 1 -0.013098 0.002169 -6.04 0.0038 -5.239344

179
Sum of
Factor DF Squares Mean Square F Value Pr > F

mph 2 111.808618 55.904309 77.96 0.0006

Thi nghiem tieu thu xang va khoang cach

The RSREG Procedure


Canonical Analysis of Response Surface Based on Coded Data

Critical Value
Factor Coded Uncoded

mph 0.491239 49.824781

Predicted value at stationary point: 26.531550

Eigenvectors
Eigenvalues mph

-5.239344 1.000000

Stationary point is a maximum.

Thi nghiem tieu thu xang va khoang cach

The GLM Procedure

Number of observations 8

NOTE: Due to missing values, only 7 observations can be used in this analysis.

Thi nghiem tieu thu xang va khoang cach

The GLM Procedure

Dependent Variable: mpg

Sum of
Source DF Squares Mean Square F Value Pr > F

Model 2 111.8086183 55.9043091 77.96 0.0006

Error 4 2.8685246 0.7171311

Corrected Total 6 114.6771429

R-Square Coeff Var Root MSE mpg Mean

0.974986 3.564553 0.846836 23.75714

Source DF Type I SS Mean Square F Value Pr > F

mph 1 85.64464286 85.64464286 119.43 0.0004


mph*mph 1 26.16397541 26.16397541 36.48 0.0038

Source DF Type III SS Mean Square F Value Pr > F

180
mph 1 41.01171219 41.01171219 57.19 0.0016
mph*mph 1 26.16397541 26.16397541 36.48 0.0038

Standard
Parameter Estimate Error t Value Pr > |t|

Intercept -5.985245902 3.18522249 -1.88 0.1334


mph 1.305245902 0.17259876 7.56 0.0016
mph*mph -0.013098361 0.00216852 -6.04 0.0038

Thi nghiem tieu thu xang va khoang cach

The GLM Procedure

95% Confidence Limits for


Observation Observed Predicted Residual Mean Predicted Value

1 15.40000000 14.88032787 0.51967213 12.69701317 17.06364257


2 20.20000000 21.38360656 -1.18360656 20.01727192 22.74994119
3 25.70000000 25.26721311 0.43278689 23.87460041 26.65982582
4 26.20000000 26.53114754 -0.33114754 25.44573423 27.61656085
5 26.60000000 26.53114754 0.06885246 25.44573423 27.61656085
6 27.40000000 26.53114754 0.86885246 25.44573423 27.61656085
7 * . 26.18073770 . 24.88679308 27.47468233
8 24.80000000 25.17540984 -0.37540984 23.05954977 27.29126990

* Observation was not used in this analysis

Sum of Residuals 0.00000000


Sum of Squared Residuals 2.86852459
Sum of Squared Residuals - Error SS -0.00000000
PRESS Statistic 23.18107335
First Order Autocorrelation -0.54376613
Durbin-Watson D 2.94425592

mpg
28

26

24

22

20

18

16

14

20 30 40 50 60

mph

Hình 6.4. Phương trình hồi qui của tốc độ và tiêu thụ xăng là Y = -0,013 mph2 + 1,305 mph
– 5,985, R2 = 0,795.
181
6.9. Tối ưu hóa và xác định điểm (simple optimum)
Đáp ứng mặt phẳng: Saddle-Surface Response Using Ridge Analysis
Bài tập tính hiệu suất % Mercaptobenzothiazole do ảnh hưởng của thời gian và nhiệt độ.
Đường đồng mức xác định điểm tối ưu.

nguồn: từ Myers, Response Surface Methodology 1976 (SAS,2004).

data d;
input Thgian Nhietdo MBT;
label Thgian = "Thoi gian phan ung(gio)"
Nhietdo = "Nhiet do (do C)"
MBT = "Hieu suat (%)Mercaptobenzothiazole";
datalines;
4.0 250 83.8
20.0 250 81.7
12.0 250 82.4
12.0 250 82.9
12.0 220 84.7
12.0 280 57.9
12.0 250 81.2
6.3 229 81.3
6.3 271 83.1
17.7 229 85.3
17.7 271 72.7
4.0 250 82.0
;
proc sort;
by Thgian Nhietdo;
run;

proc rsreg;
model MBT=Thgian Nhietdo / lackfit;
ridge max;
run;

/* Plot contours of predicted response */


data b;
set d;
flag=1;
MBT=.;
do Thgian=0 to 20 by 1;
do Nhietdo=220 to 280 by 5;
output;
end;
end;
data c;
set d b;
run;

proc rsreg data=c out=e noprint;


model MBT=Thgian Nhietdo / predict;
id flag;
run;

data f;
set e;
if flag=1;
data annote;
length function color style $8 text $8;
retain hsys ysys xsys '2' size 1 function 'label'
182
color 'black' style 'swissl' position '5';
x=255; y=10 ; text='80.3'; output;
x=245; y=11 ; text='82.9'; output;
x=227; y= 7 ; text='80.3'; output;
x=235; y= 8 ; text='82.9'; output;
x=235; y=14.5; text='85.5'; output;
x=230; y=18 ; text='88.1'; output;
x=250; y= 3 ; text='85.5'; output;
run;
axis1 label=(angle=90) minor=none;
axis2 order=(220 to 280 by 20) minor=none;

proc gcontour data=f annotate=annote;


plot Thgian*Nhietdo=MBT
/ nlevels=12 vaxis=axis1 haxis=axis2 nolegend;
run;
Kết quả xử lý:
The SAS System

The RSREG Procedure

Coding Coefficients for the Independent Variables

Factor Subtracted off Divided by

Thgian 12.000000 8.000000


Nhietdo 250.000000 30.000000

Response Surface for Variable MBT: Hieu suat (%%)Mercaptobenzothiazole

Response Mean 79.916667


Root MSE 4.615964
R-Square 0.8003
Coefficient of Variation 5.7760

Type I Sum
Regression DF of Squares R-Square F Value Pr > F

Linear 2 313.585803 0.4899 7.36 0.0243


Quadratic 2 146.768144 0.2293 3.44 0.1009
Crossproduct 1 51.840000 0.0810 2.43 0.1698
Total Model 5 512.193947 0.8003 4.81 0.0410

Sum of
Residual DF Squares Mean Square F Value Pr > F

Lack of Fit 3 124.696053 41.565351 39.63 0.0065


Pure Error 3 3.146667 1.048889
Total Error 6 127.842720 21.307120

Parameter
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data

Intercept 1 -545.867976 277.145373 -1.97 0.0964 82.173110

183
Thgian 1 6.872863 5.004928 1.37 0.2188 -1.014287
Nhietdo 1 4.989743 2.165839 2.30 0.0608 -8.676768
Thgian*Thgian 1 0.021631 0.056784 0.38 0.7164 1.384394
Nhietdo*Thgian 1 -0.030075 0.019281 -1.56 0.1698 -7.218045
Nhietdo*Nhietdo 1 -0.009836 0.004304 -2.29 0.0623 -8.852519

The SAS System

The RSREG Procedure

Sum of
Factor DF Squares Mean Square F Value Pr > F Label

Thgian 3 61.290957 20.430319 0.96 0.4704 Thoi gian phan ung(gio)


Nhietdo 3 461.250925 153.750308 7.22 0.0205 Nhiet do (do C)

The SAS System

The RSREG Procedure


Canonical Analysis of Response Surface Based on Coded Data

Critical Value
Factor Coded Uncoded Label

Thgian -0.441758 8.465935 Thoi gian phan ung(gio)


Nhietdo -0.309976 240.700718 Nhiet do (do C)

Predicted value at stationary point: 83.741940

Eigenvectors
Eigenvalues Thgian Nhietdo

2.528816 0.953223 -0.302267


-9.996940 0.302267 0.953223

Stationary point is a saddle point.

The SAS System

The RSREG Procedure

Estimated Ridge of Maximum Response for Variable MBT: Hieu suat (%%)Mercaptobenzothiazole

Coded Estimated Standard Uncoded Factor Values


Radius Response Error Thgian Nhietdo

0.0 82.173110 2.665023 12.000000 250.000000


0.1 82.952909 2.648671 11.964493 247.002956
0.2 83.558260 2.602270 12.142790 244.023941
0.3 84.037098 2.533296 12.704153 241.396084
0.4 84.470454 2.457836 13.517555 239.435227
0.5 84.914099 2.404616 14.370977 237.919138
0.6 85.390012 2.410981 15.212247 236.624811
0.7 85.906767 2.516619 16.037822 235.449230
0.8 86.468277 2.752355 16.850813 234.344204
0.9 87.076587 3.130961 17.654321 233.284652
1.0 87.732874 3.648568 18.450682 232.256238

184
Hình 6.5. Hiệu suất % Mercaptobenzothiazole (MBT) do ảnh hưởng của thời gian phản ứng
và nhiệt độ theo mặt phẳng đồng mức.

* Lưu ý: điểm tối ưu hiệu suất của MBT có thể chọn 1 dãy các trị số căn cứ vào stationary
point: 83,741940 với các giá trị thời gian và nhiệt độ Uncoded lần lượt là 8,465935 và
240,700718.

Xử lý lại với lệnh từ đoạn:

data annote;
length function color style $8 text $8;
retain hsys ysys xsys '2' size 1 function 'label'
color 'black' style 'swissl' position '5';
x=240.7; y=8.466 ; text='83.742'; output;
run;
axis1 label=(angle=90) minor=none;
axis2 order=(220 to 280 by 20) minor=none;

proc gcontour data=f annotate=annote;


plot Thgian*Nhietdo=MBT
/ nlevels=12 vaxis=axis1 haxis=axis2 nolegend;
run;

Đồ thị sẽ có điểm tối ưu được xác định là 83,742.

185
Hình 6.6. Hiệu suất % Mercaptobenzothiazole (MBT) do ảnh hưởng của thời gian phản ứng
và nhiệt độ theo mặt phẳng đồng mức với điểm tối ưu là 83,742.

6.10. Đồ thị tương quan ba yếu tố

Ảnh hưởng của K và N đến năng suất cây đậu phụng (kg/ha) trình bày theo tương quan 3
chiều (sử dụng SAS 9.1) như sau:

data measure;
input Potassium Nitrogen Nangsuat @@;
lines;
50 100 1140
50 200 776
50 300 1786
100 100 1020
100 200 1224
100 300 1807
200 100 1186
200 200 1030
200 300 1724
50 100 910
50 200 1100
50 300 1275
100 100 1142
100 200 1900
100 300 2185
200 100 906
200 200 1111
200 300 1872
50 100 905

186
50 200 1052
50 300 1741
100 100 900
100 200 1100
100 300 1700
200 100 900
200 200 1700
200 300 2100

data measure1;
set measure;
run;

proc sort data=measure1;


by Nitrogen Potassium;
run;

data Measure1;
set measure1;
by Nitrogen Potassium;
if last.Potassium then Potassium=Potassium+0.000001;
run;

data pred;
do Potassium=50 to 200 by 5;
do Nitrogen=100 to 300 by 5;
output;
end;
end;
run;

proc tpspline data=measure;


model Nangsuat=(Potassium Nitrogen) / lognlamda=(-4 to -2 by 0.1);
score data=pred out=preNangsuat;
output out=estimate pred uclm lclm;
title ' ';
run;

proc g3d data=preNangsuat;


plot Nitrogen*Potassium=p_Nangsuat/grid
zmin=0
zmax=2500
zticknum=3;
title 'Tuong quan nang suat dau phung (kg/ha) voi luong K va N (kg/ha)’;
run;

Kết quả xử lý:


The TPSPLINE Procedure
Dependent Variable: Nangsuat

Summary of Input Data Set

Number of Non-Missing Observations 27


Number of Missing Observations 0
Unique Smoothing Design Points 9

Summary of Final Model

187
Number of Regression Variables 0
Number of Smoothing Variables 2
Order of Derivative in the Penalty 2
Dimension of Polynomial Space 3

GCV Function

log10(n*Lamda) GCV

-4.000000 98321
-3.900000 98321
-3.800000 98321
-3.700000 98321
-3.600000 98321
-3.500000 98321
-3.400000 98321
-3.300000 98321
-3.200000 98321
-3.100000 98321
-3.000000 98321
-2.900000 98321
-2.800000 98321
-2.700000 98320
-2.600000 98320
-2.500000 98320
-2.400000 98320
-2.300000 98320
-2.200000 98320
-2.100000 98320
-2.000000 98320*

Note: * indicates minimum GCV value.

Summary Statistics
of Final Estimation

log10(n*Lamda) 3.4880
Smoothing Penalty 30.3665
Residual SS 1487461.5077

The TPSPLINE Procedure


Dependent Variable: Nangsuat

Summary Statistics
of Final Estimation

Tr(I-A) 22.5202
Model DF 4.4798
Standard Deviation 257.0021

188
Pr edi ct ed Val ue of Nangsuat

2500

1250

200

150

0 Pot assi um
300 100
233
Ni t r ogen 167
50
100

Hình 6.7. Đồ thị tương quan ba chiều của K, N và năng suất đậu phụng

6.11. Tối ưu hóa đáp ứng phẳng bốn biến số và xác định điểm
Bài tập dùng mô hình bậc hai 3 yếu tố trong thí nghiệm là giảm mùi của hóa chất. Mùi
hương là biến số phụ thuộc, T R H là biến độc lập.

title 'Mat dap ung toi uu mui huong voi chieu cao chai 6';

data Mui;
input Muihuong T R H @@;
label
T = "Nhiet do"
R = "Ti le Gas - Chat long"
H = "Chieu cao chai";
datalines;
66 40 .3 4 39 120 .3 4 43 40 .7 4 49 120 .7 4
58 40 .5 2 17 120 .5 2 -5 40 .5 6 -40 120 .5 6
65 80 .3 2 7 80 .7 2 43 80 .3 6 -22 80 .7 6
-31 80 .5 4 -35 80 .5 4 -26 80 .5 4
;
proc rsreg data=Mui;
model Muihuong = T R H / lackfit;
run;

data grid;
do;
Muihuong = . ;
H = 6.1;
do T = 20 to 140 by 5;
do R = .1 to .9 by .05;
output;
end;
end;
end;
189
data grid;
set Mui grid;
run;

proc rsreg data=grid out=predict noprint;


model Muihuong = T R H / predict;
run;

data plot;
set predict;
if H = 6.1;
proc g3d data=plot;
plot T*R=Muihuong / rotate=38 tilt=75 xticknum=3 yticknum=3
zmax=300 zmin=-60 ctop=greens cbottom=orange caxis=black;
run;
title;
Kết quả xử lý:
Mat dap ung toi uu mui huong voi chieu cao chai 6

The RSREG Procedure

Coding Coefficients for the Independent Variables

Factor Subtracted off Divided by

T 80.000000 40.000000
R 0.500000 0.200000
H 4.000000 2.000000

Response Surface for Variable Muihuong

Response Mean 15.200000


Root MSE 22.478508
R-Square 0.8820
Coefficient of Variation 147.8849

Type I Sum
Regression DF of Squares R-Square F Value Pr > F

Linear 3 7143.250000 0.3337 4.71 0.0641


Quadratic 3 11445 0.5346 7.55 0.0264
Crossproduct 3 293.500000 0.0137 0.19 0.8965
Total Model 9 18882 0.8820 4.15 0.0657

Sum of
Residual DF Squares Mean Square F Value Pr > F

Lack of Fit 3 2485.750000 828.583333 40.75 0.0240


Pure Error 2 40.666667 20.333333
Total Error 5 2526.416667 505.283333

Loại I Sum cho thấy các kiểu hồi qui tuyến tính, bậc hai, crossproduct, lack of fit.

Parameter

190
Estimate
Standard from Coded
Parameter DF Estimate Error t Value Pr > |t| Data

Intercept 1 568.958333 134.609816 4.23 0.0083 -30.666667


T 1 -4.102083 1.489024 -2.75 0.0401 -12.125000
R 1 -1345.833333 335.220685 -4.01 0.0102 -17.000000
H 1 -22.166667 29.780489 -0.74 0.4902 -21.375000
T*T 1 0.020052 0.007311 2.74 0.0407 32.083333
R*T 1 1.031250 1.404907 0.73 0.4959 8.250000
R*R 1 1195.833333 292.454665 4.09 0.0095 47.833333
H*T 1 0.018750 0.140491 0.13 0.8990 1.500000
H*R 1 -4.375000 28.098135 -0.16 0.8824 -1.750000
H*H 1 1.520833 2.924547 0.52 0.6252 6.083333

Mat dap ung toi uu mui huong voi chieu cao chai 6

The RSREG Procedure

Sum of
Factor DF Squares Mean Square F Value Pr > F Label

T 4 5258.016026 1314.504006 2.60 0.1613 Nhiet do


R 4 11045 2761.150641 5.46 0.0454 Ti le Gas - Chat long
H 4 3813.016026 953.254006 1.89 0.2510 Chieu cao chai

Mat dap ung toi uu mui huong voi chieu cao chai 6

The RSREG Procedure


Canonical Analysis of Response Surface Based on Coded Data

Critical Value
Factor Coded Uncoded Label

T 0.121913 84.876502 Nhiet do


R 0.199575 0.539915 Ti le Gas - Chat long
H 1.770525 7.541050 Chieu cao chai

Predicted value at stationary point: -52.024631

Điểm tối ưu của mùi hương khi các biến T R H được xác định.
Eigenvectors
Eigenvalues T R H

48.858807 0.238091 0.971116 -0.015690


31.103461 0.970696 -0.237384 0.037399
6.037732 -0.032594 0.024135 0.999177

Stationary point is a minimum.

Các giá trị Eigenvalues ở mức 48,8588 tương ứng với T là 0,2380; R là 0,9711 và H là
-0,01569.
Mặt đáp ứng được thể hiện ảnh hưởng do các đường T và R, trong đó cố định biến số H với
mức tối thiểu để tạo ra đường biểu diễn phù hợp với biến số mùi hương.

191
Mui huong

300

180

60

- 60
140
0. 9

80
0. 5
Nhi et do
Ti le Gas - Chat l ong

20 0. 1

Mui huong

300

180

60

- 60
140
0. 9

80
0. 5
Nhi et do
Ti le Gas - Chat l ong

20 0. 1

Mui huong

300

180

60

- 60
140
0. 9

80
0. 5
Nhi et do
Ti le Gas - Chat l ong

20 0. 1

Hình 6.8. Mặt đáp ứng của mùi hương theo nhiệt độ tỉ lệ gas-chất lỏng theo các chiều cao
chai.
192
6.12. Đồ thị hình lưới chiếu mặt phẳng ba chiều
Ảnh hưởng nhiệt độ (độ C) và nồng độ chất xúc tác (g) đến năng suất sinh khối (g) của vi
khuẩn (bài tập rút gọn từ TSPLINE, SAS, 1999).

data VIKHUAN;
input nhiet nongdo nsuat @@;
datalines;
60 0 6.8389 64 0 7.3874 68 0 7.6236 72 0 7.5902 76 0 7.3299
60 0.002 7.1584 64 0.002 7.7366 68 0.002 7.9968 72 0.002 7.9817 76 0.002 7.7339
60 0.004 7.4337 64 0.004 8.0436 68 0.004 8.3297 72 0.004 8.3348 76 0.004 8.1016
60 0.006 7.6658 64 0.006 8.3092 68 0.006 8.6232 72 0.006 8.6504 76 0.006 8.4337
60 0.008 7.8556 64 0.008 8.5345 68 0.008 8.8783 72 0.008 8.9296 76 0.008 8.7313
60 0.01 8.004 64 0.01 8.7204 68 0.01 9.0959 72 0.01 9.1733 76 0.01 8.9953
60 0.012 8.1121 64 0.012 8.8678 68 0.012 9.277 72 0.012 9.3824 76 0.012 9.2267
60 0.014 8.1807 64 0.014 8.9778 68 0.014 9.4226 72 0.014 9.5579 76 0.014 9.4265
60 0.016 8.2109 64 0.016 9.0512 68 0.016 9.5336 72 0.016 9.7008 76 0.016 9.5955
60 0.018 8.2035 64 0.018 9.089 68 0.018 9.6109 72 0.018 9.8119 76 0.018 9.7347
60 0.02 8.1595 64 0.02 9.0922 68 0.02 9.6555 72 0.02 9.8923 76 0.02 9.8451
60 0.022 8.08 64 0.022 9.0617 68 0.022 9.6684 72 0.022 9.9428 76 0.022 9.9277
60 0.024 7.9657 64 0.024 8.9985 68 0.024 9.6505 72 0.024 9.9646 76 0.024 9.9834
60 0.026 7.8178 64 0.026 8.9035 68 0.026 9.6028 72 0.026 9.9584 76 0.026 10.0131
60 0.028 7.6371 64 0.028 8.7777 68 0.028 9.5262 72 0.028 9.9253 76 0.028 10.0178
60 0.03 7.4245 64 0.03 8.622 68 0.03 9.4217 72 0.03 9.8662 76 0.03 9.9984
60 0.032 7.1812 64 0.032 8.4375 68 0.032 9.2902 72 0.032 9.7821 76 0.032 9.956
60 0.034 6.9079 64 0.034 8.2249 68 0.034 9.1327 72 0.034 9.6739 76 0.034 9.8914
60 0.036 6.6057 64 0.036 7.9854 68 0.036 8.9501 72 0.036 9.5426 76 0.036 9.8057
60 0.038 6.2755 64 0.038 7.7198 68 0.038 8.7434 72 0.038 9.3891 76 0.038 9.6997
60 0.04 5.9183 64 0.04 7.4291 68 0.04 8.5135 72 0.04 9.2144 76 0.04 9.5744
60 0.042 5.5349 64 0.042 7.1142 68 0.042 8.2615 72 0.042 9.0194 76 0.042 9.4308
60 0.044 5.1265 64 0.044 6.7762 68 0.044 7.9882 72 0.044 8.8051 76 0.044 9.2699
60 0.046 4.6939 64 0.046 6.4159 68 0.046 7.6946 72 0.046 8.5725 76 0.046 9.0925
60 0.048 4.238 64 0.048 6.0344 68 0.048 7.3816 72 0.048 8.3225 76 0.048 8.8997
60 0.05 3.7599 64 0.05 5.6325 68 0.05 7.0503 72 0.05 8.056 76 0.05 8.6923
60 0.052 3.2604 64 0.052 5.2112 68 0.052 6.7015 72 0.052 7.774 76 0.052 8.4714
60 0.054 2.7406 64 0.054 4.7716 68 0.054 6.3362 72 0.054 7.4774 76 0.054 8.2379
60 0.056 2.2014 64 0.056 4.3144 68 0.056 5.9554 72 0.056 7.1673 76 0.056 7.9927
60 0.058 1.6438 64 0.058 3.8407 68 0.058 5.5601 72 0.058 6.8445 76 0.058 7.7369
60 0.06 1.0686 64 0.06 3.3515 68 0.06 5.1511 72 0.06 6.5101 76 0.06 7.4713
60 0.062 0.4769 64 0.062 2.8476 68 0.062 4.7294 72 0.062 6.1649 76 0.062 7.1969
60 0.064 0 64 0.064 2.3302 68 0.064 4.2961 72 0.064 5.81 76 0.064 6.9146
60 0.066 0 64 0.066 1.7999 68 0.066 3.8519 72 0.066 5.4462 76 0.066 6.6255
60 0.068 0 64 0.068 1.258 68 0.068 3.398 72 0.068 5.0745 76 0.068 6.3305
60 0.07 0 64 0.07 0.7053 68 0.07 2.9352 72 0.07 4.696 76 0.07 6.0305
60 0.072 0 64 0.072 0.1427 68 0.072 2.4645 72 0.072 4.3115 76 0.072 5.7264
60 0.074 0 64 0.074 0 68 0.074 1.9868 72 0.074 3.9219 76 0.074 5.4193
60 0.076 0 64 0.076 0 68 0.076 1.5032 72 0.076 3.5283 76 0.076 5.1101
60 0.078 0 64 0.078 0 68 0.078 1.0145 72 0.078 3.1316 76 0.078 4.7997
60 0.08 0 64 0.08 0 68 0.08 0.5217 72 0.08 2.7328 76 0.08 4.4891
62 0 7.1549 66 0 7.5419 70 0 7.6379 74 0 7.4857 78 0 7.128
62 0.002 7.49 66 0.002 7.9038 70 0.002 8.021 74 0.002 7.8842 78 0.002 7.5362
62 0.004 7.7818 66 0.004 8.2244 70 0.004 8.3647 74 0.004 8.2453 78 0.004 7.909

193
62 0.006 8.0314 66 0.006 8.5047 70 0.006 8.67 74 0.006 8.5699 78 0.006 8.2472
62 0.008 8.2396 66 0.008 8.7456 70 0.008 8.9378 74 0.008 8.859 78 0.008 8.5519
62 0.01 8.4075 66 0.01 8.9481 70 0.01 9.1692 74 0.01 9.1136 78 0.01 8.824
62 0.012 8.536 66 0.012 9.1131 70 0.012 9.365 74 0.012 9.3345 78 0.012 9.0644
62 0.014 8.626 66 0.014 9.2416 70 0.014 9.5263 74 0.014 9.5229 78 0.014 9.2741
62 0.016 8.6784 66 0.016 9.3345 70 0.016 9.6539 74 0.016 9.6795 78 0.016 9.454
62 0.018 8.6944 66 0.018 9.3927 70 0.018 9.7488 74 0.018 9.8054 78 0.018 9.6052
62 0.02 8.6747 66 0.02 9.4174 70 0.02 9.8121 74 0.02 9.9015 78 0.02 9.7285
62 0.022 8.6204 66 0.022 9.4093 70 0.022 9.8445 74 0.022 9.9688 78 0.022 9.8249
62 0.024 8.5324 66 0.024 9.3694 70 0.024 9.8471 74 0.024 10.0082 78 0.024 9.8954
62 0.026 8.4116 66 0.026 9.2988 70 0.026 9.8209 74 0.026 10.0207 78 0.026 9.9409
62 0.028 8.2591 66 0.028 9.1983 70 0.028 9.7668 74 0.028 10.0072 78 0.028 9.9624
62 0.03 8.0757 66 0.03 9.0689 70 0.03 9.6857 74 0.03 9.9687 78 0.03 9.9608
62 0.032 7.8624 66 0.032 8.9116 70 0.032 9.5786 74 0.032 9.9062 78 0.032 9.937
62 0.034 7.6202 66 0.034 8.7273 70 0.034 9.4464 74 0.034 9.8205 78 0.034 9.8921
62 0.036 7.3501 66 0.036 8.5169 70 0.036 9.2902 74 0.036 9.7127 78 0.036 9.827
62 0.038 7.0529 66 0.038 8.2815 70 0.038 9.1108 74 0.038 9.5836 78 0.038 9.7427
62 0.04 6.7296 66 0.04 8.0219 70 0.04 8.9092 74 0.04 9.4344 78 0.04 9.64
62 0.042 6.3813 66 0.042 7.7392 70 0.042 8.6864 74 0.042 9.2658 78 0.042 9.52
62 0.044 6.0087 66 0.044 7.4342 70 0.044 8.4434 74 0.044 9.0789 78 0.044 9.3835
62 0.046 5.613 66 0.046 7.108 70 0.046 8.1809 74 0.046 8.8746 78 0.046 9.2316
62 0.048 5.195 66 0.048 6.7615 70 0.048 7.9002 74 0.048 8.6538 78 0.048 9.0653
62 0.05 4.7557 66 0.05 6.3956 70 0.05 7.602 74 0.05 8.4176 78 0.05 8.8853
62 0.052 4.2961 66 0.052 6.0113 70 0.052 7.2873 74 0.052 8.1669 78 0.052 8.6928
62 0.054 3.817 66 0.054 5.6095 70 0.054 6.9571 74 0.054 7.9026 78 0.054 8.4887
62 0.056 3.3196 66 0.056 5.1912 70 0.056 6.6123 74 0.056 7.6256 78 0.056 8.2739
62 0.058 2.8046 66 0.058 4.7574 70 0.058 6.254 74 0.058 7.337 78 0.058 8.0493
62 0.06 2.2731 66 0.06 4.309 70 0.06 5.883 74 0.06 7.0377 78 0.06 7.816
62 0.062 1.7261 66 0.062 3.847 70 0.062 5.5003 74 0.062 6.7287 78 0.062 7.5749
62 0.064 1.1644 66 0.064 3.3723 70 0.064 5.1068 74 0.064 6.4108 78 0.064 7.3269
62 0.066 0.589 66 0.066 2.8858 70 0.066 4.7036 74 0.066 6.085 78 0.066 7.0729
62 0.068 0.0009 66 0.068 2.3886 70 0.068 4.2915 74 0.068 5.7524 78 0.068 6.8141
62 0.07 0 66 0.07 1.8815 70 0.07 3.8715 74 0.07 5.4138 78 0.07 6.5512
62 0.072 0 66 0.072 1.3656 70 0.072 3.4446 74 0.072 5.0703 78 0.072 6.2852
62 0.074 0 66 0.074 0.8417 70 0.074 3.0117 74 0.074 4.7227 78 0.074 6.0172
62 0.076 0 66 0.076 0.3109 70 0.076 2.5738 74 0.076 4.372 78 0.076 5.748
62 0.078 0 66 0.078 0 70 0.078 2.1319 74 0.078 4.0191 78 0.078 5.4787
62 0.08 0 66 0.08 0 70 0.08 1.6868 74 0.08 3.6651 78 0.08 5.2101
80 0 6.8855 84 0 6.2997 88 0 5.6152 92 0 4.8749 100 0 3.3975
80 0.002 7.2964 84 0.002 6.7118 88 0.002 6.0229 92 0.002 5.2723 100 0.002 3.7574
80 0.004 7.6729 84 0.004 7.0914 88 0.004 6.3999 92 0.004 5.6411 100 0.004 4.0926
80 0.006 8.0158 84 0.006 7.4394 88 0.006 6.7472 92 0.006 5.9821 100 0.006 4.4038
80 0.008 8.3261 84 0.008 7.7567 88 0.008 7.0659 92 0.008 6.2963 100 0.008 4.6922
80 0.01 8.6048 84 0.01 8.0443 88 0.01 7.3567 92 0.01 6.5847 100 0.01 4.9586
80 0.012 8.8528 84 0.012 8.3032 88 0.012 7.6208 92 0.012 6.8483 100 0.012 5.204
80 0.014 9.071 84 0.014 8.5343 88 0.014 7.859 92 0.014 7.088 100 0.014 5.4294
80 0.016 9.2605 84 0.016 8.7385 88 0.016 8.0723 92 0.016 7.3046 100 0.016 5.6358
80 0.018 9.4221 84 0.018 8.9169 88 0.018 8.2617 92 0.018 7.4993 100 0.018 5.824
80 0.02 9.5569 84 0.02 9.0703 88 0.02 8.4281 92 0.02 7.6729 100 0.02 5.995
80 0.022 9.6657 84 0.022 9.1997 88 0.022 8.5724 92 0.022 7.8264 100 0.022 6.1498
80 0.024 9.7496 84 0.024 9.3061 88 0.024 8.6956 92 0.024 7.9608 100 0.024 6.2893
80 0.026 9.8095 84 0.026 9.3905 88 0.026 8.7987 92 0.026 8.077 100 0.026 6.4145

194
80 0.028 9.8463 84 0.028 9.4537 88 0.028 8.8827 92 0.028 8.1759 100 0.028 6.5264
80 0.03 9.861 84 0.03 9.4968 88 0.03 8.9484 92 0.03 8.2586 100 0.03 6.6258
80 0.032 9.8546 84 0.032 9.5206 88 0.032 8.9968 92 0.032 8.3259 100 0.032 6.7138
80 0.034 9.8279 84 0.034 9.5262 88 0.034 9.0289 92 0.034 8.3788 100 0.034 6.7914
80 0.036 9.7821 84 0.036 9.5145 88 0.036 9.0457 92 0.036 8.4184 100 0.036 6.8593
80 0.038 9.7179 84 0.038 9.4864 88 0.038 9.048 92 0.038 8.4454 100 0.038 6.9187
80 0.04 9.6364 84 0.04 9.4429 88 0.04 9.0369 92 0.04 8.4609 100 0.04 6.9704
80 0.042 9.5384 84 0.042 9.385 88 0.042 9.0132 92 0.042 8.4659 100 0.042 7.0154
80 0.044 9.4251 84 0.044 9.3136 88 0.044 8.978 92 0.044 8.4612 100 0.044 7.0548
80 0.046 9.2973 84 0.046 9.2296 88 0.046 8.9323 92 0.046 8.4479 100 0.046 7.0893
80 0.048 9.156 84 0.048 9.1341 88 0.048 8.8768 92 0.048 8.4269 100 0.048 7.12
80 0.05 9.0021 84 0.05 9.028 88 0.05 8.8127 92 0.05 8.3991 100 0.05 7.1478
80 0.052 8.8365 84 0.052 8.9121 88 0.052 8.7409 92 0.052 8.3656 100 0.052 7.1737
80 0.054 8.6603 84 0.054 8.7875 88 0.054 8.6622 92 0.054 8.3272 100 0.054 7.1987
80 0.056 8.4744 84 0.056 8.6552 88 0.056 8.5778 92 0.056 8.2849 100 0.056 7.2236
80 0.058 8.2798 84 0.058 8.5161 88 0.058 8.4884 92 0.058 8.2396 100 0.058 7.2495
80 0.06 8.0773 84 0.06 8.3711 88 0.06 8.3952 92 0.06 8.1924 100 0.06 7.2773
80 0.062 7.868 84 0.062 8.2211 88 0.062 8.2989 92 0.062 8.1442 100 0.062 7.3079
80 0.064 7.6528 84 0.064 8.0672 88 0.064 8.2007 92 0.064 8.0958 100 0.064 7.3423
80 0.066 7.4327 84 0.066 7.9104 88 0.066 8.1014 92 0.066 8.0484 100 0.066 7.3815
80 0.068 7.2085 84 0.068 7.7514 88 0.068 8.0019 92 0.068 8.0028 100 0.068 7.4264
80 0.07 6.9814 84 0.07 7.5914 88 0.07 7.9033 92 0.07 7.9599 100 0.07 7.478
80 0.072 6.7521 84 0.072 7.4312 88 0.072 7.8066 92 0.072 7.9208 100 0.072 7.5371
80 0.074 6.5217 84 0.074 7.2719 88 0.074 7.7125 92 0.074 7.8864 100 0.074 7.6049
80 0.076 6.2912 84 0.076 7.1143 88 0.076 7.6222 92 0.076 7.8577 100 0.076 7.6822
80 0.078 6.0614 84 0.078 6.9594 88 0.078 7.5365 92 0.078 7.8355 100 0.078 7.7699
80 0.08 5.8333 84 0.08 6.8082 88 0.08 7.4565 92 0.08 7.8209 100 0.08 7.8691
82 0 6.6076 86 0 5.9671 90 0 5.2494 94 0 4.4971 98 0 3.7531
82 0.002 7.0198 86 0.002 6.3777 90 0.002 5.6526 94 0.002 4.8873 98 0.002 4.1245
82 0.004 7.3986 86 0.004 6.7567 90 0.004 6.0262 94 0.004 5.2498 98 0.004 4.4702
82 0.006 7.7447 86 0.006 7.1051 90 0.006 6.3711 94 0.006 5.5855 98 0.006 4.791
82 0.008 8.0593 86 0.008 7.4238 90 0.008 6.6883 94 0.008 5.8954 98 0.008 5.088
82 0.01 8.3431 86 0.01 7.7137 90 0.01 6.9786 94 0.01 6.1805 98 0.01 5.3621
82 0.012 8.5973 86 0.012 7.9759 90 0.012 7.2431 94 0.012 6.4416 98 0.012 5.6142
82 0.014 8.8226 86 0.014 8.2113 90 0.014 7.4828 94 0.014 6.6799 98 0.014 5.8453
82 0.016 9.0202 86 0.016 8.4208 90 0.016 7.6985 94 0.016 6.8961 98 0.016 6.0563
82 0.018 9.1909 86 0.018 8.6053 90 0.018 7.8912 94 0.018 7.0913 98 0.018 6.2483
82 0.02 9.3357 86 0.02 8.766 90 0.02 8.0619 94 0.02 7.2664 98 0.02 6.4221
82 0.022 9.4556 86 0.022 8.9035 90 0.022 8.2116 94 0.022 7.4224 98 0.022 6.5787
82 0.024 9.5514 86 0.024 9.0191 90 0.024 8.3411 94 0.024 7.5602 98 0.024 6.7191
82 0.026 9.6243 86 0.026 9.1135 90 0.026 8.4514 94 0.026 7.6807 98 0.026 6.8442
82 0.028 9.675 86 0.028 9.1878 90 0.028 8.5436 94 0.028 7.785 98 0.028 6.9549
82 0.03 9.7046 86 0.03 9.2429 90 0.03 8.6185 94 0.03 7.874 98 0.03 7.0523
82 0.032 9.714 86 0.032 9.2797 90 0.032 8.6771 94 0.032 7.9487 98 0.032 7.1373
82 0.034 9.7042 86 0.034 9.2993 90 0.034 8.7203 94 0.034 8.0099 98 0.034 7.2108
82 0.036 9.6761 86 0.036 9.3025 90 0.036 8.7491 94 0.036 8.0586 98 0.036 7.2738
82 0.038 9.6307 86 0.038 9.2904 90 0.038 8.7645 94 0.038 8.0959 98 0.038 7.3272
82 0.04 9.5689 86 0.04 9.2638 90 0.04 8.7675 94 0.04 8.1226 98 0.04 7.372
82 0.042 9.4917 86 0.042 9.2237 90 0.042 8.7588 94 0.042 8.1397 98 0.042 7.4092
82 0.044 9.4 86 0.044 9.1712 90 0.044 8.7396 94 0.044 8.1482 98 0.044 7.4396
82 0.046 9.2949 86 0.046 9.107 90 0.046 8.7108 94 0.046 8.149 98 0.046 7.4643
82 0.048 9.1771 86 0.048 9.0322 90 0.048 8.6733 94 0.048 8.143 98 0.048 7.4842

195
82 0.05 9.0478 86 0.05 8.9478 90 0.05 8.6281 94 0.05 8.1313 98 0.05 7.5003
82 0.052 8.9078 86 0.052 8.8547 90 0.052 8.5761 94 0.052 8.1148 98 0.052 7.5135
82 0.054 8.7582 86 0.054 8.7538 90 0.054 8.5183 94 0.054 8.0943 98 0.054 7.5247
82 0.056 8.5998 86 0.056 8.6461 90 0.056 8.4556 94 0.056 8.071 98 0.056 7.535
82 0.058 8.4336 86 0.058 8.5326 90 0.058 8.389 94 0.058 8.0457 98 0.058 7.5452
82 0.06 8.2606 86 0.06 8.4141 90 0.06 8.3195 94 0.06 8.0193 98 0.06 7.5564
82 0.062 8.0817 86 0.062 8.2918 90 0.062 8.2479 94 0.062 7.9929 98 0.062 7.5694
82 0.064 7.8978 86 0.064 8.1664 90 0.064 8.1754 94 0.064 7.9674 98 0.064 7.5853
82 0.066 7.71 86 0.066 8.039 90 0.066 8.1027 94 0.066 7.9438 98 0.066 7.605
82 0.068 7.5192 86 0.068 7.9106 90 0.068 8.0309 94 0.068 7.9229 98 0.068 7.6294
82 0.07 7.3263 86 0.07 7.782 90 0.07 7.9609 94 0.07 7.9058 98 0.07 7.6595
82 0.072 7.1323 86 0.072 7.6542 90 0.072 7.8937 94 0.072 7.8934 98 0.072 7.6962
82 0.074 6.9382 86 0.074 7.5282 90 0.074 7.8301 94 0.074 7.8867 98 0.074 7.7406
82 0.076 6.7448 86 0.076 7.405 90 0.076 7.7713 94 0.076 7.8866 98 0.076 7.7935
82 0.078 6.5532 86 0.078 7.2854 90 0.078 7.7181 94 0.078 7.894 98 0.078 7.8559
82 0.08 6.3643 86 0.08 7.1705 90 0.08 7.6715 94 0.08 7.91 98 0.08 7.9288
;
%let nlevels=8;
%let colors='black vibg cyan green lime gold orange red';
proc means data= VIKHUAN noprint min max;
var nhiet nongdo nsuat;
output out=range
min=nhietmin nongdomin nsuatmin
max=nhietmax nongdomax nsuatmax;
run;
data _null_;
set range;
call symput('nhietmin', nhietmin);
call symput('nhietmax', nhietmax);
call symput('nongdomin', nongdomin);
call symput('nongdomax', nongdomax);
call symput('nsuatmin', nsuatmin);
call symput('nsuatmax', nsuatmax);
call symput('floor', int(nsuatmin-4));
call symput('ceil', int(nsuatmax+2));
call symput('step', (nsuatmax- nsuatmin)/&nlevels);
run;
proc sort data= VIKHUAN;
by nhiet nongdo;
run;
data plane1 surf1;
length function color $ 8;
retain xsys ysys zsys '2';
drop nongdo nhiet nsuat ncol;
set VIKHUAN;
by nhiet;
x=nhiet; y=nongdo; z=&floor;
if first.nhiet then function='move';
else
do;
function='draw';
ncol=min(&nlevels,int(1+(nsuat-&nsuatmin)/&step));
color=scan(&colors,ncol);
end;
output plane1;
z=nsuat; output surf1;
run;

196
proc sort data= VIKHUAN;
by nongdo nhiet;
run;
data plane2 surf2;
length function color $ 8;
retain xsys ysys zsys '2';
drop nongdo nhiet nsuat ncol;
set VIKHUAN;
by nongdo;
x=nhiet; y=nongdo; z=&floor;
if first.nongdo then function='move';
else
do;
function='draw';
ncol=min(&nlevels,int(1+(nsuat-&nsuatmin)/&step));
color=scan(&colors,ncol);
end;
output plane2;
z=nsuat; output surf2;
run;
data legend;
length function color $ 8;
retain xsys ysys zsys '2';
drop legend ncol;
do legend=&nsuatmin to (&nsuatmax-&step) by &step;
x=&nhietmin; y=&nongdomax; z=legend;
function='poly'; style='solid';
ncol=min(&nlevels, int(1+(legend+(&step/2)-&nsuatmin)/&step));
color=scan(&colors,ncol); output;
z=legend+&step;
function='polycont'; output;
x=&nhietmin+(&nhietmax-&nhietmin)*.05; output;
z=legend; output;
end;
run;
data annoall;
set surf1 surf2 plane1 plane2 legend;
run;
data plotdata;
nhiet=&nhietmin; nongdo=&nongdomin; nsuat=&floor; output;
nhiet=&nhietmax; nongdo=&nongdomax; output;
run;
proc g3d data=plotdata;
scatter nongdo*nhiet=nsuat/rotate=40 xticknum=5 yticknum=5 zticknum=5
shape='point' zmin=&floor zmax=&ceil annotate=annoall;
label nongdo='Chat xuc tac(g)'
nhiet ='Nhiet do (do C)'
nsuat ='Nang suat sinh khoi(g)';
run;
quit;

Kết quả xử lý:

197
Nang suat si nh khoi ( g)

12

-4
0. 08
100
0. 06
90
0. 04 80
Chat xuc t ac( g) 0. 02 70 Nhi et do ( do C)
0. 00 60

Hình 6.9. Tương quan ba chiều và mặt phẳng năng suất sinh khối của vi khuẩn với nồng độ
chất xúc tác và nhiệt độ.

198
Chương 7

PHÂN TÍCH SỐ LIỆU BẰNG ĐỒ THỊ

Số liệu được phân tích bằng đồ thị trong chương này thể hiện số liệu ở dạng biểu đồ xác định
thành phần chính, mặt tương ứng đa biến, đồ thị thành phần chất lượng chính, sơ đồ cây phả
hệ.

7.1. Phân tích thành phần chính (Principal component analysis)

Phân tích thành phần chính có thể sử dụng số liệu thô, ma trận tương quan, ma trận hiệp
phương sai, tổng bình phương. Thành phần chính thứ nhất có biến lượng lớn nhất, sau đó thành
phần chính cuối cùng có biến lượng nhỏ nhất của kết hợp tuyến tính với các biến ban đầu.
Bài tập về thống kê nhiệt độ trung bình tháng 1 và tháng 7 ở một số vùng trồng cà phê Việt
Nam, so với nhiệt độ thích hợp cho cà phê Arabica và Robusta.

Data Nhietdo;
title 'Nhiet do trung binh thang 1 va thang 7 mot so tinh trong ca phe';
input Tinh $1-15 Thang1 Thang7;
datalines;
Lam Dong 18.0 24.0
Gia Lai 19.0 27.0
Dak Lak 20.0 26.0
Quang Tri 18.0 27.0
Binh Phuoc 24.0 27.0
Dong Nai 25.0 27.0
Son La 17.0 26.0
Nghe An 20.0 26.0
ARABICA 18.0 23.0
ROBUSTA 20.0 30.0
;
title2 'Do thi nhiet do (do C)';
%plotit(data=Nhietdo, labelvar=Tinh,
plotvars=Thang7 Thang1, color=black, colors=blue);
run;

proc princomp data=Nhietdo cov out=Prin;


title2;
var Thang7 Thang1;
run;
title2 'Cac diem cua Principal Components';
%plotit(data=Prin, labelvar=Tinh,
plotvars=Prin2 Prin1, color=black, colors=blue);
run;

Kết quả xử lý:


Nhiet do trung binh thang 1 va thang 7 mot so tinh trong ca phe

199
The PRINCOMP Procedure

Observations 10
Variables 2

Simple Statistics

Thang7 Thang1

Mean 26.30000000 19.90000000


StD 1.88856206 2.64365067

Covariance Matrix

Thang7 Thang1

Thang7 3.566666667 1.811111111


Thang1 1.811111111 6.988888889

Total Variance 10.555555556

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 7.76936857 4.98318159 0.7360 0.7360


2 2.78618698 0.2640 1.0000

Eigenvectors

Prin1 Prin2

Thang7 0.395756 0.918356


Thang1 0.918356 -.395756

Kết quả phân tích cho sơ đồ các điểm của 10 cặp số liệu nhiệt độ tháng 7 so với nhiệt độ tháng
1.
Kết quả bảng tính giá trị nhiệt độ trung bình và độ lệch chuẩn cho thấy tháng 1 có độ lệch
chuẩn nhiệt độ cao hơn (2,64) so với độ lệch chuẩn nhiệt độ tháng 7 (1,88). Lệnh cov để tính
hiệp phương sai (covariance). Tổng phương sai là 10,55 trong đó thành phần chính thứ nhất
chiếm 73,6% và thành phần chính thứ hai chiếm 26,4%. Giá trị eigenvalue là tổng của 2 thành
phần bằng với tổng phương sai.
Tháng 1 là thành phần chính thứ nhất vì có độ lệch chuẩn lớn hơn so với tháng 7, phương pháp
xử lý PRINCOMP tính điểm (score) dựa trên các biến trung tâm hơn là các biến đã chuẩn hóa.

Khi so sánh sơ đồ các thành phần chính Prin1 với Prin2, có sự luân chuyển trực giao
(orthogonal) của các biến ban đầu, và thành phần chính thứ nhất có phương sai lớn hơn thành
phần chính thứ hai.

200
Hình 7.1. Điểm biểu thị nhiệt độ trung bình tháng 1 và tháng 7.

Hình 7.2. Điểm biểu thị thành phần chính của nhiệt độ.

201
7.2. Phân tích tương ứng đa biến (Multiple Correspondance Analysis, MCA)
Phương pháp phân tích tương ứng đa biến cho thấy sự hiện diện trên đồ thị chiều thấp của hàng
và cột của số liệu trong bảng ngẫu nhiên. Mỗi hàng và cột được xác định bằng điểm (plot) từ
tần số của ô.

Bài tập: phân tích tương ứng nhiều biến với 4 biến ảnh hưởng đến cà phê nhân Robusta ở các
tỉnh. Các biến là tỉnh (Tinh), độ cao trên mặt biển (Docao), sâu bệnh (Saubenh) và năng suất
(Nangsuat).
Title 'MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh';
proc format;
value Tinh 1 = 'Dak Lak' 2 = 'Gia Lai' 3 = 'Lam Dong' 4= ‘Binh Phuoc’ 5= ‘Dong
Nai’;
value Docao 1 = '100m asl' 2 = '200m asl' 3 = '500m asl' 4 = '1000m asl';

value Saubenh 1= ‘Nam hong’ 2= ‘Tuyen trung’ ;

value Nangsuat 1= ‘3Tan/ha’ 2= ‘4Tan/ha’ 3=’5Tan/ha’ 4=’6Tan/ha’;

run;

data Robusta;
missing a;
input (Tinh Docao Saubenh Nangsuat) (1.) @@;
* Check for End of Line;
if n(of Tinh -- Nangsuat) eq 0 then do; input; return; end;
format Tinh Tinh. Docao Docao. Saubenh Saubenh. Nangsuat Nangsuat.;
output;
datalines;
1324
5121
2312
1314
3423
2322
3413
4221
4211

;
*---Perform Multiple Correspondence Analysis---;
proc corresp mca observed data=Robusta outc=Coor;
tables Tinh Docao Saubenh Nangsuat;
run;
*---Plot the Multiple Correspondence Analysis Results---;
%plotit(data=Coor, datatype=corresp, href=0, vref=0)

title 'Nang suat nhan ca phe Robusta (Tan/ha) o 5 tinh';


title2 'Binary Table';
title3 'Bang 2 chieu';

*---Perform Multiple Correspondence Analysis---;


proc corresp data=Robusta binary;
ods select RowCoors;
tables Tinh Docao Saubenh Nangsuat;
run;

202
Kết quả xử lý:
MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh

The CORRESP Procedure

Burt Table
Binh 1000m
Phuoc Dak Lak Dong Nai Gia Lai Lam Dong asl 100m asl 200m asl

Binh Phuoc 2 0 0 0 0 0 0 2
Dak Lak 0 2 0 0 0 0 0 0
Dong Nai 0 0 1 0 0 0 1 0
Gia Lai 0 0 0 2 0 0 0 0
Lam Dong 0 0 0 0 2 2 0 0
1000m asl 0 0 0 0 2 2 0 0
100m asl 0 0 1 0 0 0 1 0
200m asl 2 0 0 0 0 0 0 2
500m asl 0 2 0 2 0 0 0 0
Nam hong 1 1 0 1 1 1 0 1
Tuyen trung 1 1 1 1 1 1 1 1
3Tan/ha 2 0 1 0 0 0 1 2
4Tan/ha 0 0 0 2 0 0 0 0
5Tan/ha 0 0 0 0 2 2 0 0
6Tan/ha 0 2 0 0 0 0 0 0

Burt Table

Tuyen
500m asl Nam hong trung 3Tan/ha 4Tan/ha 5Tan/ha 6Tan/ha

Binh Phuoc 0 1 1 2 0 0 0
Dak Lak 2 1 1 0 0 0 2
Dong Nai 0 0 1 1 0 0 0
Gia Lai 2 1 1 0 2 0 0
Lam Dong 0 1 1 0 0 2 0
1000m asl 0 1 1 0 0 2 0
100m asl 0 0 1 1 0 0 0
200m asl 0 1 1 2 0 0 0
500m asl 4 2 2 0 2 0 2
Nam hong 2 4 0 1 1 1 1
Tuyen trung 2 0 5 2 1 1 1
3Tan/ha 0 1 2 3 0 0 0
4Tan/ha 2 1 1 0 2 0 0
5Tan/ha 0 1 1 0 0 2 0
6Tan/ha 2 1 1 0 0 0 2

MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh

The CORRESP Procedure


Inertia and Chi-Square Decomposition

Singular Principal Chi- Cumulative


Value Inertia Square Percent Percent 6 12 18 24 30
----+----+----+----+----+---
0.87172 0.75989 68.266 27.63 27.63 ***********************
0.86603 0.75000 67.377 27.27 54.91 ***********************
0.72870 0.53100 47.703 19.31 74.21 ****************
0.70711 0.50000 44.918 18.18 92.40 ***************
0.45728 0.20911 18.785 7.60 100.00 ******
Total 2.75000 247.050 100.00
Degrees of Freedom = 196
203
Column Coordinates

Dim1 Dim2

Binh Phuoc 1.3266 0.0000


Dak Lak -0.7034 -0.8660
Dong Nai 1.5675 0.0000
Gia Lai -0.7034 -0.8660
Lam Dong -0.7034 1.7321
1000m asl -0.7034 1.7321
100m asl 1.5675 0.0000
200m asl 1.3266 0.0000
500m asl -0.7034 -0.8660
Nam hong -0.2784 0.0000
Tuyen trung 0.2227 0.0000
3Tan/ha 1.4069 0.0000
4Tan/ha -0.7034 -0.8660
5Tan/ha -0.7034 1.7321
6Tan/ha -0.7034 -0.8660

Summary Statistics for the Column Points

Quality Mass Inertia

Binh Phuoc 0.5028 0.0556 0.0707


Dak Lak 0.3557 0.0556 0.0707
Dong Nai 0.3071 0.0278 0.0808
Gia Lai 0.3557 0.0556 0.0707
Lam Dong 0.9985 0.0556 0.0707
1000m asl 0.9985 0.0556 0.0707
100m asl 0.3071 0.0278 0.0808
200m asl 0.5028 0.0556 0.0707
500m asl 0.9959 0.1111 0.0505

MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh

The CORRESP Procedure

Summary Statistics for the Column Points

Quality Mass Inertia

Nam hong 0.0620 0.1111 0.0505


Tuyen trung 0.0620 0.1389 0.0404
3Tan/ha 0.9897 0.0833 0.0606
4Tan/ha 0.3557 0.0556 0.0707
5Tan/ha 0.9985 0.0556 0.0707
6Tan/ha 0.3557 0.0556 0.0707

Partial Contributions to Inertia for the Column Points

Dim1 Dim2

Binh Phuoc 0.1287 0.0000


Dak Lak 0.0362 0.0556
Dong Nai 0.0898 0.0000
Gia Lai 0.0362 0.0556
Lam Dong 0.0362 0.2222

204
1000m asl 0.0362 0.2222
100m asl 0.0898 0.0000
200m asl 0.1287 0.0000
500m asl 0.0724 0.1111
Nam hong 0.0113 0.0000
Tuyen trung 0.0091 0.0000
3Tan/ha 0.2171 0.0000
4Tan/ha 0.0362 0.0556
5Tan/ha 0.0362 0.2222
6Tan/ha 0.0362 0.0556

Indices of the Coordinates that Contribute Most to Inertia for the Column Points

Dim1 Dim2 Best

Binh Phuoc 1 0 1
Dak Lak 2 0 2
Dong Nai 1 0 1
Gia Lai 0 2 2
Lam Dong 0 2 2
1000m asl 0 2 2
100m asl 1 0 1
200m asl 1 0 1
500m asl 2 2 2
Nam hong 0 0 1
Tuyen trung 0 0 1
3Tan/ha 1 0 1
4Tan/ha 2 0 2

MCA Nang suat nhan ca phe Robusta (Tan/ha) o cac tinh

The CORRESP Procedure

Indices of the Coordinates that Contribute Most to Inertia for the Column Points

Dim1 Dim2 Best

5Tan/ha 0 2 2
6Tan/ha 2 0 2

Squared Cosines for the Column Points

Dim1 Dim2

Binh Phuoc 0.5028 0.0000


Dak Lak 0.1414 0.2143
Dong Nai 0.3071 0.0000
Gia Lai 0.1414 0.2143
Lam Dong 0.1414 0.8571
1000m asl 0.1414 0.8571
100m asl 0.3071 0.0000
200m asl 0.5028 0.0000
500m asl 0.3959 0.6000
Nam hong 0.0620 0.0000
Tuyen trung 0.0620 0.0000
3Tan/ha 0.9897 0.0000
4Tan/ha 0.1414 0.2143
5Tan/ha 0.1414 0.8571
6Tan/ha 0.1414 0.2143

205
Nang suat nhan ca phe Robusta (Tan/ha) o 5 tinh
Binary Table
Bang 2 chieu

The CORRESP Procedure

Row Coordinates

Dim1 Dim2

1 -0.5414 -0.7500
2 1.3665 0.0000
3 -0.6851 -0.7500
4 -0.6851 -0.7500
5 -0.5414 1.5000
6 -0.5414 -0.7500
7 -0.6851 1.5000
8 1.2282 0.0000

9 1.0845 0.0000

Giải thích: kết quả cho thấy tổng chi-bình phương, biểu thị kết hợp giữa hàng và cột trong 5
phần của bảng thống kê, có giá trị là 247,05. Có 27,63 % tổng chi-bình phương thuộc về chiều
thứ nhất (Dimension 1), cho thấy sự cần thiết kết hợp của hàng và cột trong 1 chiều, và 27,27%
thuộc về chiều thứ hai (Dimension 2).

Phân tích MCA xác định tất cả các loại chỉ tiêu theo khoảng cách Euclid. Cơ sở giải thích trên
căn cứ vào các điểm cùng chiều của số liệu thô và vùng không gian. Bảng hai chiều đầu xác
định sự kết hợp của các loại chỉ tiêu. Phần ô một phần tư trên cùng bên trái là kết hợp của tỉnh
Lâm Đồng với độ cao 1000 m trên mặt biển và năng suất cà phê 5 tấn/ha cùng với có hiện diện
của bệnh nấm hồng. Theo chiều kim đồng hồ là kết hợp của 2 nhóm tỉnh Đồng Nai ở độ cao
100 m và tình Bình Phước ở độ cao 200 m, cùng có năng suất cà phê là 3 tấn/ha, đồng thời có
hiện diện mức thấp của bệnh tuyến trùng. Phần ô một phần tư cuối là tỉnh Gia Lai và Dak Lak
với độ cao 500 m, năng suất cà phê ở Gia Lai là 4 tấn/ha và ở Dak Lak là 6 tấn/ha, có hiện diện
mức thấp của bệnh nấm hồng.

Bảng 2 chiều tính điểm (score) được thực hiện với lệnh:
proc corresp data=Robusta binary;
ods select RowCoors;
tables Tinh Docao Saubenh Nangsuat;
run;

Kết quả cho thấy bảng Năng suất nhân cà phê Robusta (Tấn/ha) ở 5 tỉnh, (Binary Table) bảng
hai chiều với 9 cặp trị số tương ứng.

206
Hình 7.3. Đồ thị điểm năng suất cà phê ở các tỉnh theo phân tích tương ứng đa biến với các
tỉnh, độ cao và sâu bệnh.

7.3. Phân tích thành phần chính PRINQUAL

Phân tích PRINQUAL (principle component of qualitative data) sử dụng chuyển đổi tương
quan tuyến tính và không tuyến tính của các biến thành ma trận hiệp phương sai và ma trận
tương quan. Các số liệu chất lượng và số lượng được chuyển đổi thành ma trận và được thể
hiện trên đồ thị.
Đồ thị gồm có vector từ gốc trung tâm chỉ rõ hướng xác định của các biến trong bảng biplot,
lấy trục 0 làm chuẩn.
Các biến được xác định với điểm hình hoa thị (*) và càng gần nhau thì càng thuộc nhóm liên
kết (cluster) càng chặt.

Phương pháp phân tích đa chiều và đồ thị cho các giống đậu phụng VD1, VD2, VD99-2,
VD99-3, VD99-6, L9801-10, Lỳ, Sẻ, Mỏ két và Giấy. Các chỉ tiêu theo dõi: Giong (giống),
Ngmmam (ngày mọc mầm), TLNMam (tỉ lệ nảy mầm), Ngrhoa (ngày ra hoa), Ngdtia (ngày
đâm tia), TSLa60n (tổng số lá ở 60 ngày), Cao60ng (cao 60 ngày), TGSTrg (thời gian sinh
trưởng), Strai1c (số trái 1 cây), T100trai (trọng lượng 100 trái), Tlhattrai (tỉ lệ hạt trên trái),
TL100hat (trọng lượng 100 hạt), Nsuatm2 (năng suất trên m2), Protein (%), Lipid (lượng dầu
%).
207
data Dauphung;
input Giong $ Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c
T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid;
cards;
VD1 6 81.7 22 29 56.4 38.2 90 56.3 95.9 72.3 37.2 173 23.5 51.8
VD2 6 87 22 29 62.4 42.5 90 62.4 95.2 71.1 39 198 21.4 49.9
VD99-2 8 71 25 35 59 47 90 43 127.3 69.2 48.7 216 23.5 48.6
VD99-3 7 73.7 24 31 55.4 37.3 90 58.7 84.9 68.8 36.6 156 21.5 49
VD99-6 9 72.3 24 35 65.9 47.1 90 40 124.8 68.8 48 226 24.6 46.7
L9801-10 7 74.7 24 31 58.2 40.1 90 58.3 99 63.5 38.2 163 21.8 48.3
Ly 6 82.7 23 30 60.1 40.7 90 71.7 89.8 66.3 37.7 196 22.2 48.7
Se 6 93.9 26 30 64 50.3 90 44.4 95 44.2 41.9 173 22.4 43.1
MoKet 6 95 22 29 62.3 45.7 95 47 125.6 42.3 45.2 153 27.3 45.3
Giay 6 97 21 27 58.4 44.7 85 63 76.2 37.5 43.4 148 24.5 50.9
;
* Principal Component Analysis of the Original Data;
proc factor data= Dauphung nfactors=2 scree;
var Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c T100trai Tlhattrai TL100hat
Nsuatm2 Protein Lipid;
title3 'Principal Components of Original Data';
run;

* Transform the Data to Better Fit a Two Component Giong;


proc prinqual data= Dauphung out=Results n=2 replace mdpref;
id Giong;
transform monotone(Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c T100trai Tlhattrai
TL100hat Nsuatm2 Protein Lipid);
title2 'Phan tich da huong (MDPREF)';
title3 'Optimal Monotonic Transformation of Preference Data';
run;

* Final Principal Component Analysis;


proc factor data=Results nfactors=2 scree;
var Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c T100trai Tlhattrai TL100hat Nsuatm2
Protein Lipid;
where _TYPE_='SCORE';
title3 'Principal Components of Monotonically Transformed Data';
run;

title3 'Biplot cho giong dau phung';


%plotit(data=results, datatype=mdpref 2);
Run;
Kết quả xử lý:
The SAS System

Principal Components of Original Data

The FACTOR Procedure


Initial Factor Method: Principal Components

Prior Communality Estimates: ONE

Eigenvalues of the Correlation Matrix: Total = 14 Average = 1

208
Eigenvalue Difference Proportion Cumulative

1 5.92181086 2.14519234 0.4230 0.4230


2 3.77661852 2.25947056 0.2698 0.6927
3 1.51714796 0.16726114 0.1084 0.8011
4 1.34988682 0.43583989 0.0964 0.8975
5 0.91404692 0.65197510 0.0653 0.9628
6 0.26207183 0.08344944 0.0187 0.9815
7 0.17862239 0.11716586 0.0128 0.9943
8 0.06145652 0.04311834 0.0044 0.9987
9 0.01833818 0.01833818 0.0013 1.0000
10 0.00000000 0.00000000 0.0000 1.0000
11 0.00000000 0.00000000 0.0000 1.0000
12 0.00000000 0.00000000 0.0000 1.0000
13 0.00000000 0.00000000 0.0000 1.0000
14 0.00000000 0.0000 1.0000

2 factors will be retained by the NFACTOR criterion.

The SAS System

Principal Components of Original Data

The FACTOR Procedure


Initial Factor Method: Principal Components

Factor Pattern

Factor1 Factor2

Ngmmam 0.75180 0.49310


TLNMam -0.36274 -0.90024
Ngrhoa 0.59627 0.25281
Ngdtia 0.82765 0.53769
TSLa60n 0.65430 -0.40861
Cao60ng 0.69560 -0.56950
TGSTrg 0.38646 -0.16439
Strai1c -0.87501 0.18419
T100trai 0.87408 -0.02787
Tlhattrai 0.08525 0.92332
TL100hat 0.81180 -0.30431
Nsuatm2 0.65512 0.47429
Protein 0.35303 -0.64170
Lipid -0.61108 0.48490

Variance Explained by Each Factor

Factor1 Factor2

5.9218109 3.7766185

Final Communality Estimates: Total = 9.698429

Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg

0.80835346 0.94201530 0.41945644 0.97410685 0.59506814 0.80818714 0.17637673

Strai1c T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid

0.79957505 0.76478687 0.85979201 0.75161895 0.65413208 0.53641607 0.60854429

209
The SAS System
Phan tich da huong (MDPREF)
Optimal Monotonic Transformation of Preference Data

The PRINQUAL Procedure

PRINQUAL MTV Algorithm Iteration History

Iteration Average Maximum Proportion Criterion


Number Change Change of Variance Change Note
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 0.20351 0.83641 0.69274
2 0.07181 1.09585 0.82090 0.12815
3 0.04550 0.33232 0.84840 0.02750
4 0.03918 0.24838 0.85755 0.00914
5 0.02535 0.17629 0.86378 0.00624
6 0.01504 0.11248 0.86606 0.00228
7 0.00963 0.08323 0.86694 0.00089
8 0.00651 0.07822 0.86732 0.00038
9 0.00492 0.07302 0.86755 0.00023
10 0.00403 0.06816 0.86772 0.00017
11 0.00349 0.06366 0.86786 0.00014
12 0.00310 0.05947 0.86797 0.00012
13 0.00279 0.05557 0.86808 0.00010
14 0.00254 0.05193 0.86817 0.00009
15 0.00232 0.04853 0.86825 0.00008
16 0.00208 0.03971 0.86832 0.00007
17 0.00182 0.02555 0.86839 0.00006
18 0.00151 0.01892 0.86842 0.00003
19 0.00133 0.01463 0.86844 0.00002
20 0.00117 0.01163 0.86845 0.00001
21 0.00103 0.00944 0.86846 0.00001
22 0.00091 0.00780 0.86846 0.00001
23 0.00081 0.00655 0.86847 0.00000
24 0.00072 0.00557 0.86847 0.00000
25 0.00065 0.00479 0.86847 0.00000
26 0.00058 0.00416 0.86848 0.00000
27 0.00052 0.00364 0.86848 0.00000
28 0.00047 0.00321 0.86848 0.00000
29 0.00042 0.00284 0.86848 0.00000
30 0.00038 0.00253 0.86848 0.00000 Not Converged

WARNING: Failed to converge, however criterion change is less than 0.0001.

The SAS System


Phan tich da huong (MDPREF)
Principal Components of Monotonically Transformed Data

The FACTOR Procedure


Initial Factor Method: Principal Components

Prior Communality Estimates: ONE

Eigenvalues of the Correlation Matrix: Total = 14 Average = 1

Eigenvalue Difference Proportion Cumulative

1 7.28333322 2.40791635 0.5202 0.5202


2 4.87541688 4.05945061 0.3482 0.8685

210
3 0.81596626 0.34827490 0.0583 0.9268
4 0.46769136 0.12050493 0.0334 0.9602
5 0.34718643 0.25186390 0.0248 0.9850
6 0.09532252 0.01812708 0.0068 0.9918
7 0.07719544 0.04663799 0.0055 0.9973
8 0.03055745 0.02322701 0.0022 0.9995
9 0.00733044 0.00733044 0.0005 1.0000
10 0.00000000 0.00000000 0.0000 1.0000
11 0.00000000 0.00000000 0.0000 1.0000
12 0.00000000 0.00000000 0.0000 1.0000
13 0.00000000 0.00000000 0.0000 1.0000
14 0.00000000 0.0000 1.0000

2 factors will be retained by the NFACTOR criterion.

The SAS System


Phan tich da huong (MDPREF)
Principal Components of Monotonically Transformed Data

The FACTOR Procedure


Initial Factor Method: Principal Components

Factor Pattern

Factor1 Factor2

Ngmmam 0.88863 -0.15329


TLNMam -0.65792 0.74555
Ngrhoa 0.65328 -0.48546
Ngdtia 0.92576 -0.32519
TSLa60n 0.80816 0.08000
Cao60ng 0.83655 0.42759
TGSTrg 0.07446 0.88083
Strai1c -0.97021 -0.17814
T100trai 0.84396 0.43606
Tlhattrai 0.28832 -0.90837
TL100hat 0.80090 0.54491
Nsuatm2 0.67575 -0.72746
Protein 0.21734 0.95910
Lipid -0.73246 -0.44336

Variance Explained by Each Factor

Factor1 Factor2

7.2833332 4.8754169

Final Communality Estimates: Total = 12.158750

Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg

0.81315199 0.98870029 0.66244286 0.96279017 0.65952494 0.88265053 0.78140278

Strai1c T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid

0.97304369 0.90242578 0.90826310 0.93836191 0.98582622 0.96710695 0.73305892

211
Hình 7.4. Đồ thị phân tích đa hướng xếp nhóm các giống đậu phụng

Giải thích:
Kết quả cho thấy ở phần bên phải là nhóm có các đặc tính trội hơn các giống khác. Vector chỉ
rõ về phía phần tư bên phải cho thấy giống này có nhiều tính chất ảnh hưởng xếp nhóm gần
nhau.
Trong 10 giống có thể chia thành 4 nhóm là: đậu phụng Mỏ két, Giấy và Sẻ, VD99-2, VD99-6
và còn lại là VD1, VD2, VD99-3, L9801-10, Lỳ. Các nhóm có các giống càng gần nhau thì
càng có tính chất tương đồng di truyền gần nhau.

7.4. Phân tích tương đồng (similarity) và khoảng cách khác biệt (distance) với sơ đồ hình
cây phả hệ (tree plot, dendrogram)

Khi so sánh sự giống nhau hoặc khác nhau của nhiều mẫu, mỗi mẫu theo dõi nhiều chỉ tiêu,
phương pháp xếp nhóm liên kết (cluster) áp dụng để chia nhóm với mức tương đồng như nhau
và thể hiện trên sơ đồ hình cây phả hệ (tree plot) còn gọi là dendrogram hay phenogram. Có
212
thể dùng lệnh varclus, cluster để vẽ sơ đồ cây và distance để xác định ma trận khoảng cách.
Phương pháp này được áp dụng trong nhiều lĩnh vực kinh tế, tài chính, quản lý, giáo dục, hóa
học, tâm lý, nghiên cứu thực vật, di truyền dựa trên ma trận tương quan (correlation matrix)
với hệ số tương quan r (corr) và các hệ số Euclid, Dice hay Jaccard (SAS, 2004; Finch, 2005).
Những bảng ma trận tương quan trên được thể hiện bằng sơ đồ cây gồm phần gốc (root) ở phần
trên hay bên phải, bên trái theo dạng nằm ngang, tiếp theo là nhánh mẹ (branch) tối thiểu có 2
đối tượng và chia thành nhiều nhánh con ở phần dưới, nốt (node) là điểm nối các nhánh con có
chứa đối tượng được xếp nhóm liên kết (cluster) gọi là lá (leaves). Sơ đồ có thể xếp dọc thẳng
đứng, hình vòng xoáy, nhưng thường được chuyển sang xếp nằm ngang (horizontal), với trục x
có giá trị từ 0 đến 1.
Tiêu chí để chia nhóm có thể căn cứ trên các giá trị của:
- Cubic Clustering Criterion (CCC) thể hiện tiêu chuẩn chia nhóm và R2 thích hợp trong giả
thiết null đồng nhất.
- Pseudo F và t2 (PST2) thể hiện thống kê F và t2. Pseudo F xác định chia nhóm ở mức độ hiện
có. Pseudo t2 (PST2) xác định chia nhóm giữa 2 nhóm liên kết gần nhất. Hai giá trị này được
dùng để xác định chia nhóm trong các nhóm được thể hiện (Finch, 2005).
- SPRSQ: Semipartial của hệ số tương quan đa biến hay là sự giảm tỉ lệ phương sai do xếp
nhóm hiện tại.

Xác định số nhóm liên kết (cluster):


* Căn cứ trên bảng kết quả phân tích, chọn số nhóm trong dãy chia nhóm (NCL, number of
cluster) từ nhóm 1 trở lên, khi giá trị của CCC và PST lớn và PST2 nhỏ (SAS, 2004 tr. 1012).

* Chia nhóm với xử lý varclus, mức độ tương quan (1-R2) của điểm chia gần nhất với một
cluster (1- R2 gần nhất) càng nhỏ thì càng cho kết quả chọn điểm chia nhóm càng tốt (SAS,
2004, tr. 4803).

Trên cơ sở đó có thể giải thích R2 là tỉ lệ phương sai hay là hệ số xác định của điểm chia các
nhóm liên kết (SAS, 2004 tr. 962). Giá trị R2 thể hiện trong phân tích nhóm liên kết phổ biến
với phương pháp AVERAGE (UPGMA), CENTROID và WARD, với đặc tính chủ yếu là lưu
dữ liệu và khoảng cách (distance).

7.4.1. Phương pháp varclus áp dụng centroid (Unweighted Pair-Group Method Using
Centroids, UPGMC).

Phương pháp này sử dụng lệnh varclus (xếp nhóm theo phương sai) để chia các biến
(variables) thành nhóm thứ bậc (hierachy), sau đó tạo ra dữ liệu của SAS có cấu trúc cây phả
hệ. Xử lý với TREE (Tree procedure) sẽ tạo ra sơ đồ dendrogram. Cơ sở của phương pháp là
việc tính toán thành phần các nhóm theo trung bình khác biệt (unweighted average) của các
biến số đã tiêu chuẩn hóa (standardized variables).

Bài tập trích từ SAS, 2004 về mức tiêu thụ lượng protein của các nước châu Âu với các loại
thực phẩm là: thịt đỏ (Thitdo), thịt trắng (Thittrang), trứng (Trung), sữa (Sua), cá (Ca), ngũ cốc
(Ngucoc), tinh bột (Tinhbot), hạt đậu (Hatdau) và rau quả (Rauqua). Từ Var biểu thị cho tên
các biến số như thịt đỏ (Thitdo), ngũ cốc (Ngucoc).

213
title 'Tieu thu protein tai Chau Au';
data Protein;
input Country $18. Thitdo Thittrang Trung Sua
Ca Ngucoc Tinhbot Hatdau Rauqua;
datalines;
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14.0 4.3 19.9 2.1 28.0 3.6 1.3 4.3
Belgium 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4.0
Bulgaria 7.8 6.0 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Czechoslovakia 9.7 11.4 2.8 12.5 2.0 34.3 5.0 1.1 4.0
Denmark 10.6 10.8 3.7 25.0 9.9 21.9 4.8 0.7 2.4
E Germany 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finland 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.0 1.4
France 18.0 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Greece 10.2 3.0 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungary 5.3 12.4 2.9 9.7 0.3 40.1 4.0 5.4 4.2
Ireland 13.9 10.0 4.7 25.8 2.2 24.0 6.2 1.6 2.9
Italy 9.0 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Netherlands 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Norway 9.4 4.7 2.7 23.3 9.7 23.0 4.6 1.6 2.7
Poland 6.9 10.2 2.7 19.3 3.0 36.1 5.9 2.0 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27.0 5.9 4.7 7.9
Romania 6.2 6.3 1.5 11.1 1.0 49.6 3.1 5.3 2.8
Spain 7.1 3.4 3.1 8.6 7.0 29.2 5.7 5.9 7.2
Sweden 9.9 7.8 3.5 4.7 7.5 19.5 3.7 1.4 2.0
Switzerland 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
USSR 9.3 4.6 2.1 16.6 3.0 43.6 6.4 3.4 2.9
W Germany 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5.0 1.2 9.5 0.6 55.9 3.0 5.7 3.2
;

proc varclus data=Protein outtree=tree centroid maxclusters=4;


var Thitdo--Rauqua;
run;

axis1 label=(angle=90 rotate=0) minor=none;


axis2 minor=none order=(0 to 1 by .2);
proc tree data=tree horizontal vaxis=axis1 haxis=axis2 lines=(color=greens) lines=
(width=1);
height _propor_;
run;

Lưu ý: phương pháp centroid (điểm trung tâm) cần có số nhóm tối đa: centroid maxclusters
=4 hoặc nhiều hơn để phân tích và sau đó chọn nhóm liên kết. Chọn màu theo line = (color=
greens) và độ dày của đường là (width= 2).

Một số phương pháp sử dụng khác tính giá trị UPGMA (phương pháp Average: xếp nhóm các
trung bình số học, Unweighted Pair-Group Method Using Arithmethic Average) với phương
pháp corr, proportion có kết quả tương tự UPGMC.

Kết quả xử lý:


Tieu thu protein tai Chau Au

Oblique Centroid Component Cluster Analysis

Observations 25 PROPORTION 1
Variables 9 MAXEIGEN 0

214
Clustering algorithm converged.

Cluster summary for 1 cluster

Cluster Variation Proportion


Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 9 9 0.732343 0.0814

Total variation explained = 0.732343 Proportion = 0.0814

Cluster 1 will be split.

Clustering algorithm converged.

Cluster summary for 2 clusters


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 6 6 2.245707 0.3743
2 3 3 1.71501 0.5717

Total variation explained = 3.960717 Proportion = 0.4401

R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.3144 0.2139 0.8722
Thittrang 0.4347 0.2395 0.7433
Trung 0.6629 0.3375 0.5088
Sua 0.3632 0.2840 0.8894
Ca 0.1007 0.0319 0.9290
Tinhbot 0.5134 0.1656 0.5832
-------------------------------------------------------
Cluster 2 Ngucoc 0.5601 0.5693 1.0213
Hatdau 0.7978 0.6182 0.5297
Rauqua 0.3928 0.0095 0.6131

Tieu thu protein tai Chau Au

Oblique Centroid Component Cluster Analysis

Standardized Scoring Coefficients

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.272426 0.000000
Thittrang 0.272426 0.000000
Trung 0.272426 0.000000
Sua 0.272426 0.000000
Ca 0.272426 0.000000
Ngucoc 0.000000 0.440865
Tinhbot 0.272426 0.000000
Hatdau 0.000000 0.440865
Rauqua 0.000000 0.440865

215
Cluster Structure

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.560699 -.462485
Thittrang 0.659329 -.489394
Trung 0.814214 -.580944
Sua 0.602650 -.532932
Ca 0.317323 -.178659
Ngucoc -.754495 0.748389
Tinhbot 0.716511 -.406991
Hatdau -.786274 0.893179
Rauqua -.097622 0.626698

Inter-Cluster Correlations

Cluster 1 2

1 1.00000 -0.72231
2 -0.72231 1.00000

Cluster 1 will be split.

Clustering algorithm converged.

Cluster summary for 3 clusters


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 4 4 2.173024 0.5433
2 3 3 1.71501 0.5717
3 2 2 1.403853 0.7019

Tieu thu protein tai Chau Au

Oblique Centroid Component Cluster Analysis

Total variation explained = 5.291887 Proportion = 0.5880

R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.4375 0.2139 0.7155
Thittrang 0.6302 0.2395 0.4863
Trung 0.7024 0.3375 0.4492
Sua 0.4288 0.2840 0.7978
-------------------------------------------------------
Cluster 2 Ngucoc 0.5601 0.3983 0.7311
Hatdau 0.7978 0.5901 0.4933
Rauqua 0.3928 0.0578 0.6445
-------------------------------------------------------
Cluster 3 Ca 0.7019 0.0319 0.3079

216
Tinhbot 0.7019 0.1730 0.3604

Standardized Scoring Coefficients

Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.339186 0.000000 0.000000
Thittrang 0.339186 0.000000 0.000000
Trung 0.339186 0.000000 0.000000
Sua 0.339186 0.000000 0.000000
Ca 0.000000 0.000000 0.596794
Ngucoc 0.000000 0.440865 0.000000
Tinhbot 0.000000 0.000000 0.596794
Hatdau 0.000000 0.440865 0.000000
Rauqua 0.000000 0.440865 0.000000

Cluster Structure

Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.661447 -.462485 0.064497
Thittrang 0.793849 -.489394 0.047602
Trung 0.838114 -.580944 0.309021
Sua 0.654826 -.532932 0.168047
Ca -.081081 -.178659 0.837810
Ngucoc -.580705 0.748389 -.631105
Tinhbot 0.415932 -.406991 0.837810
Hatdau -.768166 0.893179 -.370886
Rauqua -.240446 0.626698 0.209205

Tieu thu protein tai Chau Au


Oblique Centroid Component Cluster Analysis

Inter-Cluster Correlations

Cluster 1 2 3

1 1.00000 -0.70067 0.19984


2 -0.70067 1.00000 -0.34951
3 0.19984 -0.34951 1.00000

Cluster 2 will be split.

Clustering algorithm converged.

Cluster summary for 4 clusters


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 4 4 2.173024 0.5433
2 2 2 1.650997 0.8255
3 2 2 1.403853 0.7019
4 1 1 1 1.0000

Total variation explained = 6.227874 Proportion = 0.6920

217
R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 Thitdo 0.4375 0.1518 0.6631
Thittrang 0.6302 0.3331 0.5545
Trung 0.7024 0.4902 0.5837
Sua 0.4288 0.2721 0.7847
-------------------------------------------------------
Cluster 2 Ngucoc 0.8255 0.3983 0.2900
Hatdau 0.8255 0.5901 0.4257
-------------------------------------------------------
Cluster 3 Ca 0.7019 0.1365 0.3452
Tinhbot 0.7019 0.3075 0.4304
-------------------------------------------------------
Cluster 4 Rauqua 1.0000 0.0578 0.0000

Tieu thu protein tai Chau Au

Oblique Centroid Component Cluster Analysis

Standardized Scoring Coefficients

Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.33919 0.00000 0.00000 0.00000
Thittrang 0.33919 0.00000 0.00000 0.00000
Trung 0.33919 0.00000 0.00000 0.00000
Sua 0.33919 0.00000 0.00000 0.00000
Ca 0.00000 0.00000 0.59679 0.00000
Ngucoc 0.00000 0.55032 0.00000 0.00000
Tinhbot 0.00000 0.00000 0.59679 0.00000
Hatdau 0.00000 0.55032 0.00000 0.00000
Rauqua 0.00000 0.00000 0.00000 1.00000
Cluster Structure

Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Thitdo 0.66145 -0.38959 0.06450 -0.34109
Thittrang 0.79385 -0.57715 0.04760 -0.06132
Trung 0.83811 -0.70012 0.30902 -0.04552
Sua 0.65483 -0.52163 0.16805 -0.26096
Ca -0.08108 -0.36947 0.83781 0.26614
Ngucoc -0.58070 0.90857 -0.63111 0.04655
Tinhbot 0.41593 -0.55448 0.83781 0.08441
Hatdau -0.76817 0.90857 -0.37089 0.37497
Rauqua -0.24045 0.23197 0.20920 1.00000

Inter-Cluster Correlations

Cluster 1 2 3 4

1 1.00000 -0.74230 0.19984 -0.24045


2 -0.74230 1.00000 -0.55141 0.23197
3 0.19984 -0.55141 1.00000 0.20920
4 -0.24045 0.23197 0.20920 1.00000

218
Total Proportion Minimum Minimum Maximum
Number Variation of Variation Proportion R-squared 1-R**2 Ratio
of Explained Explained Explained for a for a
Clusters by Clusters by Clusters by a Cluster Variable Variable
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 0.732343 0.0814 0.0814 0.0875
2 3.960717 0.4401 0.3743 0.1007 1.0213
3 5.291887 0.5880 0.5433 0.3928 0.7978
4 6.227874 0.6920 0.5433 0.4288 0.7847

Giải thích:
Các nhóm tồn tại theo đường nằm ngang do câu lệnh có horizontal. Các vạch đứng thể hiện
điểm nối của lá và nhánh để hình thành nhóm lớn hơn.
Xem bảng phân chia có từ 1 đến 4 nhóm liên kết. Tối đa có 4 nhóm liên kết (Cluster summary
for 4 clusters) có tỉ lệ Proportion = 0,692 và đây là điểm chia nhóm với điểm chia có giá trị là
69,2% tổng phương sai các số liệu có trong 4 thành phần nhóm. Tỉ lệ = phần trăm (Proportion
= Percent, SAS, 2004 tr. 4811). Sơ đồ cây cho thấy có 4 điểm chia nhóm liên kết thể hiện ở 4
vạch thẳng đứng nối các nhánh, với trị số từ 0,0814 đến 0,692.

Có 4 nhóm là:
nhóm 1với thịt đỏ, thịt trắng,
nhóm 2 với trứng và sữa,
nhóm 3 với cá và tinh bột,
nhóm 4 với ngũ cốc, hạt đậu và rau quả.
Bảng tổng hợp sau cùng cho thấy tỉ lệ phương sai giải thích theo nhóm liên kết cho thấy có thể
xếp từ 1 đến 4 nhóm liên kết với điểm chia nhóm từ 0,0814 đến 0,692.

Thi t do

Thi t t r ang

Tr ung

Sua

Ca

Ti nhbot

Ngucoc

Hat dau

Rauqua

1. 0 0. 8 0. 6 0. 4 0. 2 0. 0

Pr opor t i on of Var i ance Expl ai ned

Hình 7.5. Đồ thị cây phả hệ tiêu thụ protein tại châu Âu
Biểu đồ cho thấy từ trái qua phải, các đối tượng (objects) và nhóm liên kết (clusters) được xếp
nhỏ dần về phía 1 nhóm chung ở bên phải (phần gốc, root).
Mức độ tương quan (1-R2) của điểm gần nhất với 1 cluster (1- R2 gần nhất) càng nhỏ thì càng
cho kết quả chọn điểm chia nhóm càng tốt, với giá trị phân tích là 0,7978.

219
Kết luận chọn điểm chia nhóm: có thể chọn mức chia nhóm là 3 nhóm, thể hiện với các
nhánh hoàn chỉnh thì tỉ lệ là 58,8% (tỉ lệ phương sai là 0,588).

7.4.2. Xử lý varclus và ma trận tương quan correlation (corr)


Áp dụng UPGMA (phương pháp Average, xếp nhóm các trung bình số học (Unweighted Pair-
Group Method Using Arithmethic Average). Áp dụng khảo sát tính chịu mặn, thích nghi của
giống ở các vùng đất (Singh, 2008).

Bài tập xếp nhóm các giống đậu phụng trồng trên một số vùng đất tại các tỉnh khác nhau.
Giống VD1, VD2, VD 99-2, VD 99-3, VD 99-6, L9801-10, Lỳ, Sẻ, Mỏ Két, Giấy.
Ký hiệu chitieu (chỉ tiêu), Ngmmam (ngày mọc mầm), TLNMam (tỉ lệ nảy mầm), Ngrhoa
(ngày ra hoa), Ngdtia (ngày đâm tia), TSLa60n (tổng số lá ở 60 ngày), Cao60ng (cao 60 ngày),
TGSTrg (thời gian sinh trưởng), Strai1c (số trái 1 cây), T100trai (trọng lượng 100 trái),
Tlhattrai (tỉ lệ hạt trên trái), TL100hat (trọng lượng 100 hạt), Nsuatm2 (năng suất trên m2),
Protein (%), Lipid (lượng dầu %).
Áp dụng varclus xác định bảng tương quan và xếp nhóm các giống đậu phụng với các chỉ tiêu
theo dõi có giá trị số đo đếm khác nhau. Các giống được xếp nhóm theo đồ thị dendrogram
(cây phả hệ) với phương pháp ma trận tương quan (correlation, corr) với giá trị của trục x từ
khoảng 0 đến 1, trong bài chọn giá trị từ 0,9 đến 1 và chia khoảng cách là 0,05 vì mức độ
tương đồng rất gần nhau.
data Dauphung;
input chitieu $ VD1 VD2 VD99_2 VD99_3 VD99_6 L9801_10 Ly Se MoKet Giay;
datalines ;
Ngmmam 6 6 8 7 9 7 6 6 6 6
TLNMam 81.7 87 71 73.7 72.3 74.7 95 93.9 95 97
Ngrhoa 22 22 25 24 24 24 23 26 22 21
Ngdtia 29 29 35 31 35 31 30 30 29 27
TSLa60n 56.4 62.4 59 55.4 65.9 58.2 60.1 64 62.3 58.4
Cao60ng 38.2 42.5 47 37.3 47.1 40.1 40.7 50.3 45.7 44.7
TGSTrg 90 90 90 90 90 90 90 90 95 85
Strai1c 56.3 62.4 43 58.7 40 58.3 71.7 44.4 47 63
T100trai 95.9 95.2 127.3 84.9 124.8 99 89.8 95 125.6 76.2
Tlhattrai 72.3 71.1 69.2 68.8 68.8 63.5 66.3 44.2 42.3 37.5
TL100hat 37.2 39 48.7 36.6 48 38.2 37.7 41.9 45.2 43.4
Nsuatm2 173 198 216 156 226 163 196 173 153 148
Protein 23.5 21.4 23.5 21.5 24.6 21.8 22.2 22.4 27.3 24.5
Lipid 51.8 49.9 48.6 49 46.7 48.3 48.7 43.1 45.3 50.9
;
proc varclus data= Dauphung outtree=tree corr maxclusters=4;
var VD1--Giay;
run;
axis1 label=(angle=90 rotate=0) minor=none;
axis2 minor=none order=(0.9 to 1 by .01);
proc tree data=tree horizontal vaxis=axis1 haxis=axis2 lines=(color=greens) lines=
(width=1);
height _propor_;
title ‘ He so tuong dong’;
run;
Kết quả xử lý:
220
The SAS System

Oblique Principal Component Cluster Analysis

Observations 14 Proportion 1
Variables 10 Maxeigen 0

Correlations

VD1 VD2 VD99_2 VD99_3 VD99_6 L9801_10 Ly Se MoKet Giay

VD1 1.000 0.995 0.973 0.997 0.971 0.996 0.989 0.970 0.942 0.950
VD2 0.995 1.000 0.973 0.992 0.974 0.991 0.996 0.975 0.929 0.956
VD99_2 0.973 0.973 1.000 0.962 0.999 0.977 0.955 0.961 0.939 0.901
VD99_3 0.997 0.992 0.962 1.000 0.959 0.995 0.988 0.963 0.931 0.949
VD99_6 0.971 0.974 0.999 0.959 1.000 0.973 0.955 0.963 0.932 0.901
L9801_10 0.996 0.991 0.977 0.995 0.973 1.000 0.984 0.974 0.957 0.951
Ly 0.989 0.996 0.955 0.988 0.955 0.984 1.000 0.972 0.923 0.969
Se 0.970 0.975 0.961 0.963 0.963 0.974 0.972 1.000 0.969 0.975
MoKet 0.942 0.929 0.939 0.931 0.932 0.957 0.923 0.969 1.000 0.942
Giay 0.950 0.956 0.901 0.949 0.901 0.951 0.969 0.975 0.942 1.000

Clustering algorithm converged.

Cluster Summary for 1 Cluster

Cluster Variation Proportion Second


Cluster Members Variation Explained Explained Eigenvalue
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 10 10 9.679009 0.9679 0.1498

Total variation explained = 9.679009 Proportion = 0.9679

Cluster 1 will be split because it has the largest second eigenvalue, 0.149768, which is greater
than the MAXEIGEN=0 value.

Clustering algorithm converged.

Cluster Summary for 2 Clusters

Cluster Variation Proportion Second


Cluster Members Variation Explained Explained Eigenvalue
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 7 7 6.883898 0.9834 0.0886
2 3 3 2.92452 0.9748 0.0582

Total variation explained = 9.808418 Proportion = 0.9808

The SAS System

Oblique Principal Component Cluster Analysis

R-squared with
2 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2

221
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9941 0.9337 0.0897
VD2 0.9944 0.9325 0.0832
VD99_2 0.9702 0.8940 0.2810
VD99_3 0.9858 0.9216 0.1812
VD99_6 0.9681 0.8912 0.2933
L9801_10 0.9927 0.9474 0.1386
Ly 0.9787 0.9349 0.3280
------------------------------------------------------
Cluster 2 Se 0.9883 0.9534 0.2503
MoKet 0.9661 0.8910 0.3115
Giay 0.9701 0.8981 0.2933

Standardized Scoring Coefficients

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.144834 0.000000
VD2 0.144858 0.000000
VD99_2 0.143087 0.000000
VD99_3 0.144231 0.000000
VD99_6 0.142930 0.000000
L9801_10 0.144736 0.000000
Ly 0.143708 0.000000
Se 0.000000 0.339938
MoKet 0.000000 0.336083
Giay 0.000000 0.336789

Cluster Structure

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.997023 0.966303
VD2 0.997186 0.965639
VD99_2 0.984997 0.945525
VD99_3 0.992871 0.960008
VD99_6 0.983915 0.944031
L9801_10 0.996347 0.973340
Ly 0.989271 0.966918
Se 0.976445 0.994156
MoKet 0.943951 0.982882
Giay 0.947696 0.984945

The SAS System

Oblique Principal Component Cluster Analysis

Inter-Cluster Correlations

Cluster 1 2

1 1.00000 0.96835
2 0.96835 1.00000

Cluster 1 will be split because it has the largest second eigenvalue, 0.088648, which is greater
than the MAXEIGEN=0 value.

Clustering algorithm converged.

222
Cluster Summary for 3 Clusters

Cluster Variation Proportion Second


Cluster Members Variation Explained Explained Eigenvalue
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 5 5 4.969227 0.9938 0.0209
2 3 3 2.92452 0.9748 0.0582
3 2 2 1.998563 0.9993 0.0014

Total variation explained = 9.89231 Proportion = 0.9892

R-squared with
3 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9970 0.9451 0.0541
VD2 0.9960 0.9488 0.0791
VD99_3 0.9948 0.9224 0.0670
L9801_10 0.9926 0.9514 0.1525
Ly 0.9889 0.9349 0.1712
------------------------------------------------------
Cluster 2 Se 0.9883 0.9487 0.2270
MoKet 0.9661 0.8824 0.2885
Giay 0.9701 0.9177 0.3631
------------------------------------------------------
Cluster 3 VD99_2 0.9993 0.9426 0.0125
VD99_6 0.9993 0.9397 0.0119

The SAS System

Oblique Principal Component Cluster Analysis

Standardized Scoring Coefficients

Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.200939 0.000000 0.000000
VD2 0.200831 0.000000 0.000000
VD99_2 0.000000 0.000000 0.500180
VD99_3 0.200715 0.000000 0.000000
VD99_6 0.000000 0.000000 0.500180
L9801_10 0.200491 0.000000 0.000000
Ly 0.200115 0.000000 0.000000
Se 0.000000 0.339938 0.000000
MoKet 0.000000 0.336083 0.000000
Giay 0.000000 0.336789 0.000000

Cluster Structure

Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.998512 0.966303 0.972146
VD2 0.997974 0.965639 0.974081
VD99_2 0.970884 0.945525 0.999641
VD99_3 0.997398 0.960008 0.960439
VD99_6 0.969383 0.944031 0.999641
L9801_10 0.996286 0.973340 0.975380

223
Ly 0.994415 0.966918 0.955378
Se 0.973987 0.994156 0.961944
MoKet 0.939342 0.982882 0.935518
Giay 0.957971 0.984945 0.901765

Inter-Cluster Correlations

Cluster 1 2 3

1 1.00000 0.96943 0.97048


2 0.96943 1.00000 0.94512
3 0.97048 0.94512 1.00000

Cluster 2 will be split because it has the largest second eigenvalue, 0.058162, which is greater
than the MAXEIGEN=0 value.

Clustering algorithm converged.

The SAS System

Oblique Principal Component Cluster Analysi


s

Cluster Summary for 4 Clusters

Cluster Variation Proportion Second


Cluster Members Variation Explained Explained Eigenvalue
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 5 5 4.969227 0.9938 0.0209
2 2 2 1.975249 0.9876 0.0248
3 2 2 1.998563 0.9993 0.0014
4 1 1 1 1.0000

Total variation explained = 9.943039 Proportion = 0.9943

R-squared with
4 Clusters ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 VD1 0.9970 0.9451 0.0541
VD2 0.9960 0.9488 0.0791
VD99_3 0.9948 0.9257 0.0700
L9801_10 0.9926 0.9514 0.1525
Ly 0.9889 0.9537 0.2405
------------------------------------------------------
Cluster 2 Se 0.9876 0.9487 0.2410
Giay 0.9876 0.9177 0.1504
------------------------------------------------------
Cluster 3 VD99_2 0.9993 0.9426 0.0125
VD99_6 0.9993 0.9397 0.0119
------------------------------------------------------
Cluster 4 MoKet 1.0000 0.9248 0.0000

Standardized Scoring Coefficients

Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.20094 0.00000 0.00000 0.00000

224
VD2 0.20083 0.00000 0.00000 0.00000
VD99_2 0.00000 0.00000 0.50018 0.00000
VD99_3 0.20071 0.00000 0.00000 0.00000
VD99_6 0.00000 0.00000 0.50018 0.00000
L9801_10 0.20049 0.00000 0.00000 0.00000
Ly 0.20011 0.00000 0.00000 0.00000
Se 0.00000 0.50312 0.00000 0.00000
MoKet 0.00000 0.00000 0.00000 1.00000
Giay 0.00000 0.50312 0.00000 0.00000

The SAS System

Oblique Principal Component Cluster Analysis

Cluster Structure

Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
VD1 0.99851 0.96597 0.97215 0.94211
VD2 0.99797 0.97147 0.97408 0.92913
VD99_2 0.97088 0.93678 0.99964 0.93852
VD99_3 0.99740 0.96214 0.96044 0.93108
VD99_6 0.96938 0.93789 0.99964 0.93185
L9801_10 0.99629 0.96896 0.97538 0.95706
Ly 0.99441 0.97656 0.95538 0.92283
Se 0.97399 0.99379 0.96194 0.96930
MoKet 0.93934 0.96168 0.93552 1.00000
Giay 0.95797 0.99379 0.90176 0.94213

Inter-Cluster Correlations

Cluster 1 2 3 4

1 1.00000 0.97201 0.97048 0.93934


2 0.97201 1.00000 0.93767 0.96168
3 0.97048 0.93767 1.00000 0.93552
4 0.93934 0.96168 0.93552 1.00000

Total Proportion Minimum Maximum Minimum Maximum


Number Variation of Variation Proportion Second R-squared 1-R**2 Ratio
of Explained Explained Explained Eigenvalue for a for a
Clusters by Clusters by Clusters by a Cluster in a Cluster Variable Variable
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 9.679009 0.9679 0.9679 0.149768 0.9250
2 9.808418 0.9808 0.9748 0.088648 0.9661 0.3280
3 9.892310 0.9892 0.9748 0.058162 0.9661 0.3631
4 9.943039 0.9943 0.9876 0.024751 0.9876 0.2410

Giải thích kết quả:


- Ma trận tương quan của các giống thể hiện rất chặt (và r > 0,9) với số cặp mẫu là n = 10.
- Đồ thị cho thấy mức biến thiên rất hẹp, hình cây phả hệ cho thấy tối đa có 4 điểm chia nhóm,
mức chia đầu tiên là 2 nhóm.
- Mức độ tương quan (1-R2) của điểm gần nhất với 1 cluster (1- R2 gần nhất) càng nhỏ thì càng
cho kết quả chọn điểm chia nhóm càng tốt, với giá trị phân tích là 0,3631.
Có 3 nhóm được chia , nhóm 1 gồm giống Mỏ két, Giấy, Sẻ, nhóm 2 có VD99-2, VD 99-6,
nhóm 3 gồm VD1, VD2, VD99-3, L9801-10 và Lỳ. Điểm chọn chia nhóm là 3 nhóm với các
225
nhánh hoàn chỉnh có tỉ lệ phương sai là 98,92% (giá trị hệ số là 0,9892). Giống Lỳ là giống địa
phương nhưng được tuyển chọn và đặt tên là VD1, VD2 (có lai tạo) nên vẫn có tính chất di
truyền gần nhau dựa trên các phân tích hình thái và sinh hóa như đã nêu trên.

VD1

VD2

VD99_3

L9801_10

Ly

VD99_2

VD99_6

Se

Gi ay

MoKet

1. 00 0. 99 0. 98 0. 97 0. 96 0. 95 0. 94 0. 93 0. 92 0. 91 0. 90

Pr opor t i on of Var i ance Expl ai ned

Hình 7.6. Đồ thị cây phả hệ của hệ số tương đồng các giống đậu phụng

7.4.3. So sánh khác biệt (dissimilarity) theo phương pháp Euclid


7.4.3.1. So sánh khác biệt (dissimilarity) các giống đậu phụng
Với số liệu các giống đậu phụng được so sánh khác biệt với hệ số Euclid, xử lý proc distance
với SAS 9 và vẽ sơ đồ cây với lệnh cluster dùng phương pháp Average (UPGMA).

data Dauphung;
input Giong $ Ngmmam TLNMam Ngrhoa Ngdtia TSLa60n Cao60ng TGSTrg Strai1c
T100trai Tlhattrai TL100hat Nsuatm2 Protein Lipid;
cards;
VD1 6 81.7 22 29 56.4 38.2 90 56.3 95.9 72.3 37.2 173 23.5 51.8
VD2 6 87 22 29 62.4 42.5 90 62.4 95.2 71.1 39 198 21.4 49.9
VD99-2 8 71 25 35 59 47 90 43 127.3 69.2 48.7 216 23.5 48.6
VD99-3 7 73.7 24 31 55.4 37.3 90 58.7 84.9 68.8 36.6 156 21.5 49
VD99-6 9 72.3 24 35 65.9 47.1 90 40 124.8 68.8 48 226 24.6 46.7
L9801-10 7 74.7 24 31 58.2 40.1 90 58.3 99 63.5 38.2 163 21.8 48.3
Ly 6 82.7 23 30 60.1 40.7 90 71.7 89.8 66.3 37.7 196 22.2 48.7
Se 6 93.9 26 30 64 50.3 90 44.4 95 44.2 41.9 173 22.4 43.1
MoKet 6 95 22 29 62.3 45.7 95 47 125.6 42.3 45.2 153 27.3 45.3
Giay 6 97 21 27 58.4 44.7 85 63 76.2 37.5 43.4 148 24.5 50.9
;
proc distance data= Dauphung out=Dist method=Euclid;
var interval(Ngmmam--Lipid / std=Std);
id Giong;
226
run;
options ls=120;
proc print data=Dist(obs=10);
title2 'So sanh 10 giong dau phung xu ly PROC DISTANCE';
run;

proc cluster data= Dist method=average pseudo outtree=Tree;


id Giong;
run;

axis1 order=(0 to 1 by 0.1);

proc tree data=Tree haxis=axis1 horizontal lines=(color=greens);


height _rsq_;
id Giong;
run;
Kết quả xử lý:
The SAS System
So sanh 10 giong dau phung xu ly PROC DISTANCE

Obs Giong VD1 VD2 VD99_2 VD99_3 VD99_6 L9801_10 Ly Se MoKet Giay

1 VD1 0.00000 . . . . . . . . .
2 VD2 2.76693 0.00000 . . . . . . . .
3 VD99-2 5.80429 5.52445 0.00000 . . . . . . .
4 VD99-3 2.67133 3.73372 5.56304 0.00000 . . . . . .
5 VD99-6 6.84753 6.02752 2.58014 6.74732 0.00000 . . . . .
6 L9801-10 2.72744 3.02177 4.61118 1.47585 5.64688 0.00000 . . . .
7 Ly 2.69751 1.70199 5.61064 2.98101 6.34145 2.43890 0.00000 . . .
8 Se 6.28931 5.10740 5.65515 5.93566 5.84022 4.88369 5.21932 0.00000 . .
9 MoKet 5.92005 5.77392 6.31877 6.78507 6.34666 5.79760 5.98061 4.94219 0.00000 .
10 Giay 4.68217 4.77496 7.55737 5.66126 8.15186 5.28352 4.84322 6.03236 6.12524 0

So sanh 10 giong dau phung xu ly PROC DISTANCE

The CLUSTER Procedure


Average Linkage Cluster Analysis

Root-Mean-Square Distance Between Observations = 5.291503

Cluster History
Norm T
RMS i
NCL --Clusters Joined--- FREQ PSF PST2 Dist e

9 VD99-3 L9801-10 2 14.3 . 0.2789


8 VD2 Ly 2 13.9 . 0.3216
7 VD99-2 VD99-6 2 10.2 . 0.4876
6 VD1 CL9 3 8.9 4.1 0.5102
5 CL6 CL8 5 7.6 3.2 0.5608
4 Se MoKet 2 6.4 . 0.934
3 CL5 Giay 6 5.5 5.2 0.9567
2 CL3 CL4 8 4.2 4.4 1.1042
1 CL2 CL7 10 . 4.2 1.1751

Giải thích: Sơ đồ cho thấy có thể chia 3 nhóm là VD1, VD2, VD99-3, L9801-10, Lỳ, Giấy;
Sẻ và Mỏ Két; VD99-2 và VD99-6.

227
So sanh 10 gi ong dau phung xu l y PROC DI STANCE
Gi ong

VD1

VD99- 3

L9801- 10

VD2

Ly

Gi ay

Se

MoKet

VD99- 2

VD99- 6

1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0

R- Squar ed

Hình 7.7. Đồ thị UPGMA so sánh khoảng cách Euclid các giống đậu phụng.

7.4.3.2. So sánh khác biệt tiêu thụ protein phương pháp Euclid
Số liệu khảo sát lượng protein tiêu thụ ở các nước châu Âu (SAS, 2004). Tính khoảng cách
(distance) bằng phương pháp Euclid (sử dụng SAS 9.1 để tính bảng ma trận tương quan) và vẽ
sơ đồ cây với lệnh cluster dùng phương pháp Ward hay Average (UPGMA) với số liệu như
sau:

data Protein;
input Country $1-14 Thitdo Thittrang Trung Sua
Ca Ngucoc Tinhbot Hatdau Rauqua;
datalines;
Albania 10.1 1.4 0.5 8.9 0.2 42.3 0.6 5.5 1.7
Austria 8.9 14.0 4.3 19.9 2.1 28.0 3.6 1.3 4.3
Belgium 13.5 9.3 4.1 17.5 4.5 26.6 5.7 2.1 4.0
Bulgaria 7.8 6.0 1.6 8.3 1.2 56.7 1.1 3.7 4.2
Czechoslovakia 9.7 11.4 2.8 12.5 2.0 34.3 5.0 1.1 4.0
Denmark 10.6 10.8 3.7 25.0 9.9 21.9 4.8 0.7 2.4
EGermany 8.4 11.6 3.7 11.1 5.4 24.6 6.5 0.8 3.6
Finland 9.5 4.9 2.7 33.7 5.8 26.3 5.1 1.0 1.4
France 18.0 9.9 3.3 19.5 5.7 28.1 4.8 2.4 6.5
Greece 10.2 3.0 2.8 17.6 5.9 41.7 2.2 7.8 6.5
Hungary 5.3 12.4 2.9 9.7 0.3 40.1 4.0 5.4 4.2
Ireland 13.9 10.0 4.7 25.8 2.2 24.0 6.2 1.6 2.9
Italy 9.0 5.1 2.9 13.7 3.4 36.8 2.1 4.3 6.7
Netherlands 9.5 13.6 3.6 23.4 2.5 22.4 4.2 1.8 3.7
Norway 9.4 4.7 2.7 23.3 9.7 23.0 4.6 1.6 2.7
Poland 6.9 10.2 2.7 19.3 3.0 36.1 5.9 2.0 6.6
Portugal 6.2 3.7 1.1 4.9 14.2 27.0 5.9 4.7 7.9
Romania 6.2 6.3 1.5 11.1 1.0 49.6 3.1 5.3 2.8
Spain 7.1 3.4 3.1 8.6 7.0 29.2 5.7 5.9 7.2
Sweden 9.9 7.8 3.5 4.7 7.5 19.5 3.7 1.4 2.0
Switzerland 13.1 10.1 3.1 23.8 2.3 25.6 2.8 2.4 4.9
UK 17.4 5.7 4.7 20.6 4.3 24.3 4.7 3.4 3.3
USSR 9.3 4.6 2.1 16.6 3.0 43.6 6.4 3.4 2.9

228
WGermany 11.4 12.5 4.1 18.8 3.4 18.6 5.2 1.5 3.8
Yugoslavia 4.4 5.0 1.2 9.5 0.6 55.9 3.0 5.7 3.2
;

proc distance data=Protein out=Dist method=Euclid;


var interval(Thitdo--Rauqua / std=Std);
id Country;
run;

options ls=120;
proc print data=Dist(obs=25);
title2 '25 dia diem khao sat va xu ly PROC DISTANCE';
run;

proc cluster data= Dist method=Ward pseudo outtree=Tree;


id Country;
run;

axis1 order=(0 to 1 by 0.1);

proc tree data=Tree haxis=axis1 horizontal lines=(color=greens);


height _rsq_;
id Country;
run;
Kết quả xử lý:
The SAS System
25 dia diem khao sat va xu ly PROC DISTANCE

Obs Country Albania Austria Belgium Bulgaria Czechoslovakia Denmark EGermany

1 Albania 0.00000 . . . . . .
2 Austria 6.12388 0.00000 . . . . .
3 Belgium 5.94109 2.44987 0.00000 . . . .
4 Bulgaria 2.76446 4.88331 5.22711 0.00000 . . .
5 Czechoslovakia 5.13959 2.11498 2.21330 3.94761 0.00000 . .
6 Denmark 6.61002 3.01392 2.52541 6.00803 3.34049 0.00000 .
7 EGermany 6.39178 2.56341 2.10211 5.40824 1.87962 2.72112 0.00000
8 Finland 5.81458 4.04271 3.45779 5.74882 3.91378 2.61570 3.99426
9 France 6.29601 3.58891 2.19329 5.54675 3.36011 3.65772 3.78184
10 Greece 4.24495 5.16330 4.69515 3.74849 4.86684 5.59084 5.61496
11 Hungary 4.67336 3.26615 3.98527 3.34502 2.74957 5.01035 3.67595
12 Ireland 6.73100 2.73297 1.63091 6.18211 3.12292 2.82942 2.98932
13 Italy 4.02203 3.71117 3.71630 2.85918 3.34590 4.76289 4.31946
14 Netherlands 5.98645 1.11657 2.23940 5.14131 2.16015 2.53598 2.49470

Obs Finland France Greece Hungary Ireland Italy Netherlands Norway Poland Portugal

1 . . . . . . . . . .
2 . . . . . . . . . .
3 . . . . . . . . . .
4 . . . . . . . . . .
5 . . . . . . . . . .
6 . . . . . . . . . .
7 . . . . . . . . . .
8 0.00000 . . . . . . . . .
9 4.56796 0.00000 . . . . . . . .
10 5.47453 4.54456 0.00000 . . . . . . .
11 5.32855 4.96278 4.10065 0.00000 . . . . . .
12 3.22412 3.14393 5.69729 4.78439 0.00000 . . . . .
13 4.86459 3.79669 2.14576 3.15028 4.82518 0.00000 . . . .
14 3.36508 3.40538 5.15202 3.45779 2.34252 3.90521 0.00000 . . .

The SAS System 09:58 Sunday, March 14, 2010 5


25 dia diem khao sat va xu ly PROC DISTANCE

Obs Country Albania Austria Belgium Bulgaria Czechoslovakia Denmark EGermany

15 Norway 5.44178 3.87366 2.95368 5.25046 3.50658 1.99277 3.24419


16 Poland 5.87145 2.79592 2.93522 4.41766 2.09085 3.83948 2.69356
17 Portugal 6.61052 6.50788 5.63392 6.00344 5.51252 5.82737 5.24812
18 Romania 2.68849 4.64022 4.75504 1.88687 3.56189 5.51234 4.78417
19 Spain 5.56834 4.87195 3.98546 4.84193 4.14692 5.07941 4.08636

229
20 Sweden 5.22944 3.52991 2.94965 4.90308 2.96513 3.09211 2.54219
21 Switzerland 5.09692 2.19841 2.33380 4.44962 2.59340 3.18797 3.54323
22 UK 5.92615 3.74771 1.94298 5.77994 3.82035 3.47157 3.91392
23 USSR 4.33689 4.16099 3.16046 3.81977 2.71279 4.15141 3.41144
24 WGermany 6.34518 1.64394 1.41722 5.59879 2.17266 2.38230 1.87240
25 Yugoslavia 2.94227 5.43320 5.59674 1.99252 4.33933 6.33887 5.52464

Obs Finland France Greece Hungary Ireland Italy Netherlands Norway Poland Portugal

15 2.03008 3.91823 4.62327 4.88478 3.60867 3.98567 3.36336 0.00000 . .


16 4.09765 3.59881 4.41374 3.02379 3.73043 3.11200 2.76912 3.70428 0.00000 .
17 6.42860 5.63273 4.76283 5.69540 7.02540 4.65176 6.33645 4.75256 4.78869 0.00000
18 5.00423 5.51826 3.61269 2.47072 5.58093 3.10808 4.62207 4.66359 3.94388 5.62572
19 5.40970 4.43361 3.08246 3.88004 5.24820 2.86840 4.83841 4.12941 3.37744 2.92989
20 4.27574 4.25484 5.19098 4.21567 4.04956 4.02692 3.49771 2.94082 4.25916 5.16550
21 3.52019 2.42006 4.10114 3.82185 2.81506 2.91546 1.90104 3.33778 3.06945 6.08627
22 3.85555 2.57096 4.62073 5.10496 2.24629 4.17848 3.51575 3.54862 4.49932 6.51467
23 3.41711 4.23594 4.11413 3.42134 3.88474 3.55810 3.87441 3.25141 2.91558 5.05847
24 3.61588 2.93547 5.36366 3.88934 1.79071 4.13338 1.26266 3.29529 2.99695 6.12288
25 5.73243 6.29622 3.92036 3.03062 6.43628 3.57797 5.48128 5.38656 4.47784 5.82376

Obs Romania Spain Sweden Switzerland UK USSR WGermany Yugoslavia

15 . . . . . . . .
16 . . . . . . . .
17 . . . . . . . .
18 0.00000 . . . . . . .
19 4.24162 0.00000 . . . . . .
20 4.55089 4.27496 0.00000 . . . . .
21 4.33627 4.54883 3.74053 0.00000 . . . .
22 5.41331 4.69515 3.76520 2.83914 0.00000 . . .
23 2.74972 3.61680 3.94293 3.78653 4.00305 0.00000 . .
24 5.08342 4.58914 3.01661 2.27832 2.89414 3.89435 0.00000 .
25 0.98463 4.56699 5.32598 5.18532 6.25436 3.34542 5.95489 0

25 dia diem khao sat va xu ly PROC DISTANCE


The CLUSTER Procedure
Ward's Minimum Variance Cluster Analysis
Root-Mean-Square Distance Between Observations = 4.242641

Cluster History
T
i
NCL --------Clusters Joined--------- FREQ SPRSQ RSQ PSF PST2 e

24 Romania Yugoslavia 2 0.0022 .998 19.3 .


23 Austria Netherlands 2 0.0029 .995 17.6 .
22 Belgium WGermany 2 0.0046 .990 14.5 .
21 CL22 Ireland 3 0.0075 .983 11.4 1.6
20 Czechoslovakia EGermany 2 0.0082 .975 10.1 .
19 Denmark Norway 2 0.0092 .965 9.3 .
18 Greece Italy 2 0.0107 .955 8.7 .
17 Bulgaria CL24 3 0.0109 .944 8.4 4.8
16 CL23 Switzerland 3 0.0121 .932 8.2 4.2
15 CL19 Finland 3 0.0139 .918 8.0 1.5
14 CL20 Poland 3 0.0152 .903 7.8 1.9
13 France UK 2 0.0153 .887 7.9 .
12 Portugal Spain 2 0.0199 .867 7.7 .
11 CL16 CL21 6 0.0226 .845 7.6 3.3
10 Albania CL17 4 0.0240 .821 7.6 3.7
9 CL14 USSR 4 0.0260 .795 7.8 2.2
8 CL9 Hungary 5 0.0289 .766 8.0 1.8
7 CL15 Sweden 4 0.0365 .730 8.1 3.2
6 CL11 CL13 8 0.0370 .693 8.6 3.4
5 CL18 CL12 4 0.0566 .636 8.7 3.7
4 CL6 CL7 12 0.0751 .561 8.9 4.6
3 CL4 CL8 17 0.0894 .472 9.8 4.3
2 CL10 CL5 8 0.1381 .333 11.5 6.7
1 CL2 CL3 25 0.3334 .000 . 11.5

230
25 di a di em khao sat va xu l y PROC DI STANCE
Count r y
Al bani a
Bul gar i a
Rom ani a
Yugosl avi a
G r eece
I t al y
Por t ugal
Spai n
Aust r i a
Net her l ands
Swi t zer l and
Bel gi um
W G er many
I r el and
Fr ance
UK
Denm ar k
Nor way
Fi nl and
Sweden
Czechosl ovaki a
EG er many
Pol and
USSR
Hungar y

1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0

R- Squar ed

Hình 7.8. Đồ thị cây phả hệ so sánh khoảng cách tiêu thụ protein của các nước.

Giải thích:
Kết quả cho thấy giá trị R-squared chỉ rõ xếp nhóm các biến theo chiều cao. Điểm phân chia
nhóm ở RSQ = 0,693 ; có 6 nhóm được phân chia ở tỉ lệ phương sai là 69,3%.

7.4.4. Phương pháp so sánh hệ số tương đồng và khác biệt với giá trị 2 số nhị phân

Các sự hiện diện của yếu tố được thể hiện theo định tính như có hay không, được mã hóa bằng
số, nếu xác định là có ký hiệu là 1, và không có ký hiệu là 0. Các yếu tố này áp dụng cho sự
phân tích các yếu tố xã hội, nghiên cứu sinh học, di truyền (SAS, 2004).

7.4.4.1. Xác định hệ số tương đồng: kết quả của 14 giống cây trồng ký hiệu từ A1 đến Q14
phân tích bằng kỹ thuật PCR (Polymerase Chain Reaction), có giá trị 1 là thể hiện có band
(allen) và không có được ký hiệu là 0. Cột thứ nhất là các primer phân tích. Sử dụng phương
pháp xếp nhóm với đồ thị nằm ngang trục x có giá trị từ 0 đến 1.
data Giong;
input chitieu $ A1 B2 C3 D4 E5 G6 H7 K8 l9 M10 N11 O12 P13 Q14;
datalines;
P1 1 0 0 1 1 1 1 1 0 0 1 0 0 1
P2 1 1 1 1 0 0 0 1 1 1 1 1 1 1
P3 0 0 0 1 1 1 1 1 1 1 1 0 0 1
P4 1 1 1 1 1 1 0 0 0 0 1 1 0 0
P5 1 0 0 0 1 1 1 1 1 1 1 1 1 1
P6 1 1 1 1 0 0 0 0 1 1 1 1 1 1
P7 0 0 0 1 1 1 1 1 0 0 0 0 0 1
P8 1 1 1 1 0 0 1 1 1 1 1 0 0 0
P9 1 0 0 0 1 1 1 1 0 0 1 1 1 1
231
;
proc varclus data= Giong outtree=tree centroid maxclusters=4;
var A1--Q14;
run;

axis1 label=(angle=90 rotate=0) minor=none;


axis2 minor=none order=(0 to 1 by .1);
proc tree data=tree horizontal vaxis=axis1 haxis=axis2 lines=(color=greens)
lines= (width=1);
height _propor_;
title ‘He so tuong dong’;
run;
Kết quả xử lý:
The SAS System

Oblique Centroid Component Cluster Analysis

Observations 9 PROPORTION 1
Variables 14 MAXEIGEN 0

Clustering algorithm converged.

Cluster summary for 1 cluster


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 14 14 0.764831 0.0546

Total variation explained = 0.764831 Proportion = 0.0546

Cluster 1 will be split.

Clustering algorithm converged.

Cluster summary for 2 clusters


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 5 5 2.623193 0.5246
2 9 9 3.327264 0.3697

Total variation explained = 5.950458 Proportion = 0.4250

R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.6250 0.9828
G6 0.6315 0.6250 0.9828
H7 0.6612 0.4955 0.6715
K8 0.4731 0.1882 0.6490
Q14 0.2823 0.0563 0.7605
------------------------------------------------------
Cluster 2 A1 0.4154 0.2217 0.7511
B2 0.6531 0.9700 11.579
C3 0.6531 0.9700 11.579
D4 0.0092 0.2217 1.2731

232
l9 0.4485 0.1295 0.6336
M10 0.4485 0.1295 0.6336
N11 0.4345 0.0970 0.6263
O12 0.3451 0.1425 0.7637
P13 0.2802 0.0214 0.7356

The SAS System

Oblique Centroid Component Cluster Analysis

Standardized Scoring Coefficients

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 0.000000 0.182741
B2 0.000000 0.182741
C3 0.000000 0.182741
D4 0.000000 0.182741
E5 0.276121 0.000000
G6 0.276121 0.000000
H7 0.276121 0.000000
K8 0.276121 0.000000
l9 0.000000 0.182741
M10 0.000000 0.182741
N11 0.000000 0.182741
O12 0.000000 0.182741
P13 0.000000 0.182741
Q14 0.276121 0.000000

Cluster Structure

Cluster 1 2
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 -.470876 0.644551
B2 -.984907 0.808154
C3 -.984907 0.808154
D4 -.470876 0.095994
E5 0.794667 -.790594
G6 0.794667 -.790594
H7 0.813153 -.703913
K8 0.687828 -.433821
l9 -.359925 0.669709
M10 -.359925 0.669709
N11 -.311455 0.659144
O12 -.377461 0.587476
P13 -.146442 0.529346
Q14 0.531282 -.237246

Inter-Cluster Correlations

Cluster 1 2

1 1.00000 -0.81626
2 -0.81626 1.00000

Cluster 2 will be split.

The SAS System

Oblique Centroid Component Cluster Analysis

233
Clustering algorithm converged.

Cluster summary for 3 clusters


Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 5 5 2.623193 0.5246
2 5 5 2.790282 0.5581
3 4 4 2.624328 0.6561

Total variation explained = 8.037804 Proportion = 0.5741

R-squared with
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.7450 1.4453
G6 0.6315 0.7450 1.4453
H7 0.6612 0.3711 0.5387
K8 0.4731 0.1329 0.6076
Q14 0.2823 0.1329 0.8277
------------------------------------------------------
Cluster 2 B2 0.7240 0.9700 9.2142
C3 0.7240 0.9700 9.2142
D4 0.3088 0.2290 0.8964
l9 0.5459 0.1295 0.5217
M10 0.5459 0.1295 0.5217
------------------------------------------------------
Cluster 3 A1 0.7137 0.2217 0.3679
N11 0.5364 0.1092 0.5204
O12 0.7431 0.1425 0.2996
P13 0.6412 0.0214 0.3667

The SAS System

Oblique Centroid Component Cluster Analysis


Standardized Scoring Coefficients
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 0.000000 0.000000 0.308646
B2 0.000000 0.267726 0.000000
C3 0.000000 0.267726 0.000000
D4 0.000000 0.267726 0.000000
E5 0.276121 0.000000 0.000000
G6 0.276121 0.000000 0.000000
H7 0.276121 0.000000 0.000000
K8 0.276121 0.000000 0.000000
l9 0.000000 0.267726 0.000000
M10 0.000000 0.267726 0.000000
N11 0.000000 0.000000 0.308646
O12 0.000000 0.000000 0.308646
P13 0.000000 0.000000 0.308646
Q14 0.276121 0.000000 0.000000
Cluster Structure
Cluster 1 2 3
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 -.470876 0.211501 0.844809
B2 -.984907 0.850858 0.384054

234
C3 -.984907 0.850858 0.384054
D4 -.470876 0.555721 -.478526
E5 0.794667 -.863153 -.340223
G6 0.794667 -.863153 -.340223
H7 0.813153 -.609166 -.486626
K8 0.687828 -.364488 -.312520
l9 -.359925 0.738861 0.279339
M10 -.359925 0.738861 0.279339
N11 -.311455 0.330386 0.732402
O12 -.377461 0.112956 0.862018
P13 -.146442 0.080957 0.800727
Q14 0.531282 -.364488 0.019493
Inter-Cluster Correlations
Cluster 1 2 3

1 1.00000 -0.84616 -0.40316


2 -0.84616 1.00000 0.22710
3 -0.40316 0.22710 1.00000
Cluster 2 will be split.
The SAS System

Oblique Centroid Component Cluster Analysis


Clustering algorithm converged.
Cluster summary for 4 clusters
Cluster Variation Proportion
Cluster Members Variation Explained Explained
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 5 5 2.623193 0.5246
2 3 3 2.304122 0.7680
3 4 4 2.624328 0.6561
4 2 2 2 1.0000

Total variation explained = 9.551643 Proportion = 0.6823


R-squared with

ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Own Next 1-R**2
Cluster Variable Cluster Closest Ratio
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
Cluster 1 E5 0.6315 0.5552 0.8286
G6 0.6315 0.5552 0.8286
H7 0.6612 0.5552 0.7617
K8 0.4731 0.3173 0.7718
Q14 0.2823 0.3173 1.0513
------------------------------------------------------
Cluster 2 B2 0.8884 0.9700 3.7253
C3 0.8884 0.9700 3.7253
D4 0.5536 0.2290 0.5790
------------------------------------------------------
Cluster 3 A1 0.7137 0.2217 0.3679
N11 0.5364 0.1563 0.5494
O12 0.7431 0.1425 0.2996
P13 0.6412 0.1225 0.4089
------------------------------------------------------
Cluster 4 l9 1.0000 0.1295 0.0000
M10 1.0000 0.1295 0.0000

The SAS System

Oblique Centroid Component Cluster Analysis

Standardized Scoring Coefficients

235
Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 0.000000 0.000000 0.308646 0.000000
B2 0.000000 0.380353 0.000000 0.000000
C3 0.000000 0.380353 0.000000 0.000000
D4 0.000000 0.380353 0.000000 0.000000
E5 0.276121 0.000000 0.000000 0.000000
G6 0.276121 0.000000 0.000000 0.000000
H7 0.276121 0.000000 0.000000 0.000000
K8 0.276121 0.000000 0.000000 0.000000
l9 0.000000 0.000000 0.000000 0.500000
M10 0.000000 0.000000 0.000000 0.500000
N11 0.000000 0.000000 0.308646 0.000000
O12 0.000000 0.000000 0.308646 0.000000
P13 0.000000 0.000000 0.308646 0.000000
Q14 0.276121 0.000000 0.000000 0.000000

Cluster Structure

Cluster 1 2 3 4
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
A1 -0.47088 0.25501 0.84481 0.05976
B2 -0.98491 0.94255 0.38405 0.35000
C3 -0.98491 0.94255 0.38405 0.35000
D4 -0.47088 0.74404 -0.47853 0.05976
E5 0.79467 -0.74515 -0.34022 -0.63246
G6 0.79467 -0.74515 -0.34022 -0.63246
H7 0.81315 -0.74515 -0.48663 -0.15811
K8 0.68783 -0.56328 -0.31252 0.05976
l9 -0.35992 0.28898 0.27934 1.00000
M10 -0.35992 0.28898 0.27934 1.00000
N11 -0.31145 0.16868 0.73240 0.39528
O12 -0.37746 0.08440 0.86202 0.10000
P13 -0.14644 -0.15123 0.80073 0.35000
Q14 0.53128 -0.56328 0.01949 0.05976

Inter-Cluster Correlations

Cluster 1 2 3 4

1 1.00000 -0.92832 -0.40316 -0.35992


2 -0.92832 1.00000 0.11014 0.28898
3 -0.40316 0.11014 1.00000 0.27934
4 -0.35992 0.28898 0.27934 1.00000

The SAS System

Oblique Centroid Component Cluster Analysis

Total Proportion Minimum Minimum Maximum


Number Variation of Variation Proportion R-squared 1-R**2 Ratio
of Explained Explained Explained for a for a
Clusters by Clusters by Clusters by a Cluster Variable Variable
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1 0.764831 0.0546 0.0546 0.0013
2 5.950458 0.4250 0.3697 0.0092 11.579
3 8.037804 0.5741 0.5246 0.2823 9.2142
4 9.551643 0.6823 0.5246 0.2823 3.7253

236
B2

C3

D4

l9

M10

A1

N11

O12

P13

E5

G6

H7

K8

Q14

1. 0 0. 9 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0

Pr opor t i on of Var i ance Expl ai ned

Hình 7.9. Đồ thị cây phả hệ với hệ số tương đồng phương sai các giống khảo sát

Giải thích: theo đồ thị cho thấy có 2 nhóm chính. Theo kết quả PSPT2 có 3 nhóm được chia
với tỉ lệ phương sai là 57,41% (tỉ lệ 0,5741).

7.4.4.2. Xác định khác biệt khoảng cách:


Sử dụng phương pháp tính khác biệt khoảng cách theo phương pháp trung bình số học
(UPGMA) và WARD với bài tập trên (7.4.4.1) cho kết quả như sau:
data PCR;
title 'khoang cach cac giong';
input giong $ p1 p2 p3 p4 p5 p6 p7 p8 p9;
cards;
A1 1 1 0 1 1 1 0 1 1
B2 0 1 0 1 0 1 0 1 0
C3 0 1 0 1 0 1 0 1 0
D4 1 1 1 1 0 1 1 1 0
E5 1 0 1 1 1 0 1 0 1
G6 1 0 1 1 1 0 1 0 1
H7 1 0 1 0 1 0 1 1 1
K8 1 1 1 0 1 0 1 1 1
L9 0 1 1 0 1 1 0 1 0
M10 0 1 1 0 1 1 0 1 0
N11 1 1 1 1 1 1 0 1 1
O12 0 1 0 1 1 1 0 0 1
P13 0 1 0 0 1 1 0 0 1
Q14 1 1 1 0 1 1 1 0 1
;
/*----------- Phuong phap Average (UPGMA) --------------------*/
proc cluster data= PCR method=average pseudo;
id giong;
run;
237
proc tree horizontal spaces=2 lines=(color=greens dots);
id giong;
title ‘UPGMA’;
run;

Kết quả xử lý:

khoang cach cac giong

The CLUSTER Procedure

Average Linkage Cluster Analysis

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 0.93804895 0.55382854 0.4434 0.4434


2 0.38422041 0.03652462 0.1816 0.6251
3 0.34769579 0.16634065 0.1644 0.7894
4 0.18135514 0.04941886 0.0857 0.8752
5 0.13193628 0.03642069 0.0624 0.9375
6 0.09551559 0.07054656 0.0452 0.9827
7 0.02496903 0.01640523 0.0118 0.9945
8 0.00856380 0.00548418 0.0040 0.9985
9 0.00307962 0.0015 1.0000

Root-Mean-Square Total-Sample Standard Deviation = 0.484812


Root-Mean-Square Distance Between Observations = 2.056883

Cluster History

Norm T
RMS i
NCL --Clusters Joined--- FREQ PSF PST2 Dist e

13 B2 C3 2 . . 0 T
12 E5 G6 2 . . 0 T
11 L9 M10 2 . . 0
10 H7 K8 2 24.0 . 0.4862 T
9 A1 N11 2 16.6 . 0.4862 T
8 O12 P13 2 14.9 . 0.4862
7 CL12 CL10 4 7.4 9.0 0.7687 T
6 CL7 Q14 5 6.5 1.8 0.8062
5 CL13 D4 3 6.1 . 0.8421 T
4 CL9 CL8 4 5.9 5.0 0.8421
3 CL5 CL11 5 6.0 4.8 0.8876
2 CL4 CL3 9 7.1 3.4 0.9477
1 CL2 CL6 14 . 7.1 1.139

238
gi ong

A1

N11

O12

P13

B2

C3

D4

L9

M10

E5

G6

H7

K8

Q14

0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2

Aver age Di st ance Bet ween Cl ust er s

Hình 7.10. Đồ thị cây phả hệ so sánh khoảng cách các giống (phương pháp UPGMA)

Giải thích:
Có thể phân chia làm 2 nhóm chính (PST2 là 3,4) và có thể chia tiếp là 3 nhóm.

Sử dụng phương pháp Ward cho kết quả tương tự với lệnh xử lý như sau:

/* -- Phuong phap Ward's minimum variance -------------------*/


proc cluster data= PCR method=ward pseudo;
id giong;
run;

proc tree horizontal spaces=2 lines=(color=red dots);


id giong;
title ‘Ward’;
run;
Kết quả xử lý:
khoang cach cac giong

The CLUSTER Procedure


Ward's Minimum Variance Cluster Analysis

Eigenvalues of the Covariance Matrix

Eigenvalue Difference Proportion Cumulative

1 0.93804895 0.55382854 0.4434 0.4434


2 0.38422041 0.03652462 0.1816 0.6251
3 0.34769579 0.16634065 0.1644 0.7894
4 0.18135514 0.04941886 0.0857 0.8752
5 0.13193628 0.03642069 0.0624 0.9375
6 0.09551559 0.07054656 0.0452 0.9827
7 0.02496903 0.01640523 0.0118 0.9945

239
8 0.00856380 0.00548418 0.0040 0.9985
9 0.00307962 0.0015 1.0000

Root-Mean-Square Total-Sample Standard Deviation = 0.484812


Root-Mean-Square Distance Between Observations = 2.056883

Cluster History
T
i
NCL --Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 e

13 B2 C3 2 0.0000 1.00 . . T
12 E5 G6 2 0.0000 1.00 . . T
11 L9 M10 2 0.0000 1.00 . .
10 H7 K8 2 0.0182 .982 24.0 . T
9 A1 N11 2 0.0182 .964 16.6 . T
8 O12 P13 2 0.0182 .945 14.9 .
7 CL10 Q14 3 0.0545 .891 9.5 3.0
6 CL13 D4 3 0.0727 .818 7.2 . T
5 CL12 CL7 5 0.0873 .731 6.1 3.6
4 CL9 CL8 4 0.0909 .640 5.9 5.0
3 CL6 CL11 5 0.1164 .524 6.0 4.8
2 CL4 CL3 9 0.1523 .371 7.1 3.4
1 CL2 CL5 14 0.3713 .000 . 7.1

gi ong

A1

N11

O12

P13

B2

C3

D4

L9

M10

E5

G6

H7

K8

Q14

0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0. 35 0. 40

Semi - Par t i al R- Squar ed

Hình 7.11. Đồ thị cây phả hệ so sánh khoảng cách các giống (phương pháp Ward)

Có thể phân chia làm 2 nhóm chính (PST2 là 3,4) và tiếp theo chia 3 nhóm.

7.4.5. Phân tích khoảng cách địa lý với khoảng cách Euclid

Phân tích khoảng cách có thể sử dụng các phương pháp như sau:
- Phương pháp Average: yêu cầu liên kết các trung bình (Unweighted Pair-Group Method
Using Arithmethic Avergae, UPGMA).
- Phương pháp Centroid: yêu cầu xếp loại centroid (Unweighted Pair-Group Method Using
Centroids, UPGMC).
- Phương pháp Ward: yêu cầu phương pháp phương sai tối thiểu của Ward (sai số tổng bình
phương, error sum of square).

240
- Phương pháp Twostage: yêu cầu liên kết mật độ hai giai đoạn. Cần phải xác định giá trị
K=, R= hay HYBRID để chỉ định loại ước lượng mật độ được sử dụng.
Bài tập: phân tích nhóm liên kết khoảng cách địa lý giữa các thành phố Hoa Kỳ (đơn vị tính =
dặm Anh); SAS, 2004. Bài tập này sử dụng nhiều phương pháp tạo nhóm liên kết khác nhau.
* Ký hiệu: Kcach = khoảng cách.

title 'Phan tich nhom khoang cach cac thanh pho Hoa Ky’;
data Kcach (type=distance);
input (atlanta chicago denver houston losangeles
miami newyork sanfran seattle washdc) (5.)
@55 city $15.;
datalines;
0 ATLANTA
587 0 CHICAGO
1212 920 0 DENVER
701 940 879 0 HOUSTON
1936 1745 831 1374 0 LOS ANGELES
604 1188 1726 968 2339 0 MIAMI
748 713 1631 1420 2451 1092 0 NEW YORK
2139 1858 949 1645 347 2594 2571 0 SAN FRANCISCO
2182 1737 1021 1891 959 2734 2408 678 0 SEATTLE
543 597 1494 1220 2300 923 205 2442 2329 0 WASHINGTON D.C.
;
/*----------- Phuong phap Average (UPGMA) --------------------*/
proc cluster data= Kcach method=average pseudo;
id city;
run;
proc tree horizontal spaces=2 lines=(color=greens dots);
id city;
title ‘UPGMA’;
run;
/*-----------Phuong phap Centroid --------------------------*/
proc cluster data= Kcach method=centroid pseudo;
id city;
run;
proc tree horizontal spaces=2 lines=(color=orange dots);
id city;
title ‘Centroid’;
run;

/* -- Phuong phap Ward's minimum variance -------------------*/


proc cluster data= Kcach method=ward pseudo;
id city;
run;

proc tree horizontal spaces=2 lines=(color=red dots);


id city;
title ‘Ward’;
run;
/*-Phuong phap Two-stage density linkage with 3rd-nearest-neighbor-*/
proc cluster data= Kcach method=twostage k=3;
id city;
run;
proc tree horizontal spaces=2 lines=(color=blue dots);
id city;
title ‘Two-stage density’;
run;

241
Kết quả xử lý:
Phan tich nhom khoang cach cac thanh pho Hoa Ky
The CLUSTER Procedure
Average Linkage Cluster Analysis

Root-Mean-Square Distance Between Observations = 1580.242

Cluster History
Norm T
RMS i
NCL ---------Clusters Joined---------- FREQ PSF PST2 Dist e

9 NEW YORK WASHINGTON D.C. 2 66.7 . 0.1297


8 LOS ANGELES SAN FRANCISCO 2 39.2 . 0.2196
7 ATLANTA CHICAGO 2 21.7 . 0.3715
6 CL7 CL9 4 14.5 3.4 0.4149
5 CL8 SEATTLE 3 12.4 7.3 0.5255
4 DENVER HOUSTON 2 13.9 . 0.5562
3 CL6 MIAMI 5 15.5 3.8 0.6185
2 CL3 CL4 7 16.0 5.3 0.8005
1 CL2 CL5 10 . 16.0 1.2967

ci t y

ATLANTA

CHI CAGO

NEWYORK

W
ASHI NGTON D. C.

MI AMI

DENVER

HOUSTON

LOS ANGELES

SAN FRANCI SCO

SEATTLE

0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2 1. 3

Aver age Di st ance Bet ween Cl ust er s

Hình 7.12. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp UPGMA)

Có thể chia làm 2 nhóm chính và 3 nhóm nhỏ với tỉ lệ là 61,85%.


The CLUSTER Procedure
Centroid Hierarchical Cluster Analysis
Root-Mean-Square Distance Between Observations = 1580.242
Cluster History
Norm T
Cent i
NCL ---------Clusters Joined---------- FREQ PSF PST2 Dist e

9 NEW YORK WASHINGTON D.C. 2 66.7 . 0.1297


8 LOS ANGELES SAN FRANCISCO 2 39.2 . 0.2196
7 ATLANTA CHICAGO 2 21.7 . 0.3715
6 CL7 CL9 4 14.5 3.4 0.3652
5 CL8 SEATTLE 3 12.4 7.3 0.5139
4 DENVER CL5 4 12.4 2.1 0.5337
3 CL6 MIAMI 5 14.2 3.8 0.5743
2 CL3 HOUSTON 6 22.1 2.6 0.6091
1 CL2 CL4 10 . 22.1 1.173

242
ci t y

ATLANTA

CHI CAGO

NEWYORK

W
ASHI NGTON D. C.

MI AMI

HOUSTON

DENVER

LOS ANGELES

SAN FRANCI SCO

SEATTLE

0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2

Di st ance Bet ween Cl ust er Cent r oi ds

Hình 7.13. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp Centroid)

Có thể chia làm 2 nhóm chính với tỉ lệ là 60,91%.


The CLUSTER Procedure
Ward's Minimum Variance Cluster Analysis
Root-Mean-Square Distance Between Observations = 1580.242
Cluster History
T
i
NCL ---------Clusters Joined---------- FREQ SPRSQ RSQ PSF PST2 e

9 NEW YORK WASHINGTON D.C. 2 0.0019 .998 66.7 .


8 LOS ANGELES SAN FRANCISCO 2 0.0054 .993 39.2 .
7 ATLANTA CHICAGO 2 0.0153 .977 21.7 .
6 CL7 CL9 4 0.0296 .948 14.5 3.4
5 DENVER HOUSTON 2 0.0344 .913 13.2 .
4 CL8 SEATTLE 3 0.0391 .874 13.9 7.3
3 CL6 MIAMI 5 0.0586 .816 15.5 3.8
2 CL3 CL5 7 0.1488 .667 16.0 5.3
1 CL2 CL4 10 0.6669 .000 . 16.0

ci t y

ATLANTA

CHI CAGO

NEWYORK

W
ASHI NGTON D. C.

MI AMI

DENVER

HOUSTON

LOS ANGELES

SAN FRANCI SCO

SEATTLE

0. 00 0. 05 0. 10 0. 15 0. 20 0. 25 0. 30 0. 35 0. 40 0. 45 0. 50 0. 55 0. 60 0. 65 0. 70

Semi - Par t i al R- Squar ed

Hình 7.14. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp WARD)
243
Có thể chia làm 2 nhóm chính và 3 nhóm nhỏ với tỉ lệ là 0,0586.
The CLUSTER Procedure
Two-Stage Density Linkage Clustering
K = 3
Cluster History
Normalized Maximum Density T
Fusion in Each Cluster i
NCL ---------Clusters Joined---------- FREQ Density Lesser Greater e

9 ATLANTA WASHINGTON D.C. 2 96.106 92.5043 100.0


8 CL9 CHICAGO 3 95.263 90.9548 100.0
7 CL8 NEW YORK 4 86.465 76.1571 100.0
6 CL7 HOUSTON 5 74.079 61.7747 100.0 T
5 CL6 MIAMI 6 74.079 58.8299 100.0
4 LOS ANGELES SAN FRANCISCO 2 71.968 65.3430 80.0885
3 CL4 SEATTLE 3 66.341 56.6215 80.0885
2 CL3 DENVER 4 63.509 61.7747 80.0885
1 CL5 CL2 10 61.775 80.0885 100.0
2 modal clusters have been formed.

ci t y

DENVER

LOS ANGELES

SAN FRANCI SCO

SEATTLE

HOUSTON

ATLANTA

W
ASHI NGTON D. C.

CHI CAGO

NEWYORK

MI AMI

100 90 80 70 60 50 40 30 20 10 0

Cl ust er Fusi on Densi t y

Hình 7.15. Đồ thị cây phả hệ so sánh khoảng cách các thành phố Mỹ (phương pháp Two-stage
Density)
Có thể chia làm 2 nhóm chính theo đồ thị.
Giải thích:
Các phương pháp trên đều cho kết quả phân chia là 2 nhóm chính. Kết quả với phương pháp
Two-stage density và Centroid có thể có 2 nhóm liên kết được phân chia (2 clusters), nhưng
với phương pháp Average (UPGMA) và Ward còn có thể chia thành 3 nhóm, nhóm 3 là
Denver và Houston (SAS, 2004 tr. 995).

Nếu xử lý với lệnh sau đây sẽ có đồ thị đa chiều các thành phố:
proc mds data= Kcach level=absolute out=out;
id city;
run;

%plotit(data=out, datatype=mds, labelvar= city,


vtoh=1.75, labfont=swissb);
run;

244
Hình 7.16. Đồ thị phân tích đa chiều khoảng cách các thành phố Mỹ

7.4.6. So sánh khoảng cách theo hệ số Jaccard

Lệnh xử lý DISTANCE dùng để tính hệ số Jaccard giữa các cặp trong mẫu khảo sát. Hệ
số Jaccard là số biến ký hiệu là 1 cho cả hai đối tượng chia cho số biến có ký hiệu là 1 với
hoặc là hay cả các đối tượng khảo sát. Vì định lượng sự khác biệt (dissimilarity) cho phương
thức xếp nhóm liên kết, dùng hệ số DJACCARD (SAS, 2004).

Số liệu được ghi với giá trị 1 cho thấy có hiện diện, giá trị 0 là không có. Bài tập sử dụng các
primer (pr) để so sánh các giống từ A1 đến S18.
data Kcdtruyen;
input giong $10.
(Pr1 Pr2 Pr3 Pr4 Pr5 Pr6 Pr7 Pr8 Pr9)(1.) @@;
if mod(_n_,2) then input +4 @@; else input;
cards;
A1 110111011 K10 111010111
B2 010101010 L11 011011010
C3 010101010 M12 011011010
D4 111101110 N13 111111011
E5 101110101 O14 010111001
G6 101110101 P15 010011001
H7 101010111 Q16 111011101
I8 101010101 R17 111011001
J9 101000101 S18 001010101
;

/* compute distance matrix containing (1.0 - Jaccard coefficient) */


data distjacc(type=distance);
array dj(*) dj1-dj18; /* variables to contain 1-Jaccard */

245
retain dj1-dj18 .; /* initialize to missing values */

do row=1 to 18; /* loop over rows of distance matrix */


set Kcdtruyen point=row; /* read row giong */
array grounds(*)Pr1--Pr9; /*declare arrays after */
array save(*) save1-save9; /* the SET statement */

do g=1 to 9; /* save data for row giong */


save(g)=grounds(g);
end;

do col=1 to row; /* loop over columns of distance matrix */


set Kcdtruyen(drop=giong) point=col; /* read column giong */
num=0; /* number of grounds that apply to both giong */
den=0; /* number of grounds that apply to either giong */
do g=1 to 9; /* loop over grounds for Kcdtruyen */
num=num+(grounds(g) & save(g));
den=den+(grounds(g) | save(g));
end;
if den then dj(col)=1-num/den; /* convert to distance */
else dj(col)=1;
end;

output; /* output a row of the distance matrix */


end;
stop; /* stop statement is needed because set statement
uses point= option */
keep giong dj1-dj18; /* keep only the giong and distance matrix */
run;

proc print data=distjacc(obs=18);


id giong; var dj1-dj18;
title2 '18 giong';
run;
title2;

proc cluster data=distjacc method=centroid pseudo outtree=tree;


id giong; var dj1-dj18;
run;

proc tree horizontal spaces=4 lines=(color=greens);


id giong;
title ‘Khoang cach Jaccard’;
run;
Kết quả xử lý:
The SAS System
18 giong

giong dj1 dj2 dj3 dj4 dj5 dj6 dj7 dj8 dj9

A1 0.00000 . . . . . . . .
K10 0.44444 0.00000 . . . . . . .
B2 0.42857 0.77778 0.00000 . . . . . .
L11 0.50000 0.50000 0.50000 0.00000 . . . . .
C3 0.42857 0.77778 0.00000 0.50000 0.00000 . . . .
M12 0.50000 0.50000 0.50000 0.00000 0.50000 0.00000 . . .
D4 0.44444 0.44444 0.42857 0.50000 0.42857 0.50000 0.00000 . .
N13 0.12500 0.33333 0.50000 0.37500 0.50000 0.37500 0.33333 0.00000 .
E5 0.55556 0.37500 0.88889 0.77778 0.88889 0.77778 0.55556 0.44444 0.00000
O14 0.28571 0.66667 0.50000 0.57143 0.50000 0.57143 0.66667 0.37500 0.62500

246
G6 0.55556 0.37500 0.88889 0.77778 0.88889 0.77778 0.55556 0.44444 0.00000
P15 0.42857 0.62500 0.66667 0.50000 0.66667 0.50000 0.77778 0.50000 0.75000
H7 0.55556 0.14286 0.88889 0.62500 0.88889 0.62500 0.55556 0.44444 0.28571
Q16 0.44444 0.25000 0.77778 0.50000 0.77778 0.50000 0.44444 0.33333 0.37500
I8 0.66667 0.28571 1.00000 0.75000 1.00000 0.75000 0.66667 0.55556 0.16667
R17 0.37500 0.37500 0.75000 0.42857 0.75000 0.42857 0.55556 0.25000 0.50000
J9 0.77778 0.42857 1.00000 0.87500 1.00000 0.87500 0.62500 0.66667 0.33333
S18 0.77778 0.42857 1.00000 0.71429 1.00000 0.71429 0.77778 0.66667 0.33333

giong dj10 dj11 dj12 dj13 dj14 dj15 dj16 dj17 dj18

A1 . . . . . . . . .
K10 . . . . . . . . .
B2 . . . . . . . . .
L11 . . . . . . . . .
C3 . . . . . . . . .
M12 . . . . . . . . .
D4 . . . . . . . . .
N13 . . . . . . . . .
E5 . . . . . . . . .
O14 0.00000 . . . . . . . .
G6 0.62500 0.00000 . . . . . . .
P15 0.20000 0.75000 0.00000 . . . . . .
H7 0.77778 0.28571 0.75000 0.00000 . . . . .
Q16 0.50000 0.37500 0.42857 0.37500 0.00000 . . . .
I8 0.75000 0.16667 0.71429 0.16667 0.28571 0.00000 . . .
R17 0.42857 0.50000 0.33333 0.50000 0.14286 0.42857 0.00000 . .
J9 0.87500 0.33333 0.85714 0.33333 0.42857 0.20000 0.57143 0.0 .
S18 0.71429 0.33333 0.66667 0.33333 0.42857 0.20000 0.57143 0.4 0

The SAS System

The CLUSTER Procedure


Centroid Hierarchical Cluster Analysis

Root-Mean-Square Distance Between Observations = 0.581121

Cluster History
Norm T
Cent i
NCL ----Clusters Joined----- FREQ PSF PST2 Dist e

17 B2 C3 2 . . 0 T
16 L11 M12 2 . . 0 T
15 E5 G6 2 . . 0
14 A1 N13 2 113 . 0.2151
13 K10 H7 2 66.0 . 0.2458 T
12 Q16 R17 2 54.9 . 0.2458
11 CL15 I8 3 42.3 . 0.2868 T
10 O14 P15 2 37.3 . 0.3442
9 CL13 CL11 5 18.6 10.2 0.4899
8 CL9 J9 6 16.0 2.3 0.5052 T
7 CL8 S18 7 15.1 1.9 0.5062
6 CL14 CL12 4 13.7 13.2 0.5935
5 CL6 CL10 6 12.3 4.4 0.6176
4 CL5 CL16 8 10.8 4.9 0.7274
3 CL17 D4 3 14.2 . 0.7375
2 CL4 CL3 11 15.4 5.9 0.7999
1 CL2 CL7 18 . 15.4 0.9872

247
gi ong
A1
N13
Q16
R17
O14
P15
L11
M12
B2
C3
D4
K10
H7
E5
G6
I8
J9
S18

0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0

Di st ance Bet ween Cl ust er Cent r oi ds

Hình 7.17. Đồ thị cây phả hệ so sánh khoảng cách các giống với phương pháp Jaccard

Giải thích:
Khác biệt của các nhóm theo khoảng cách Jaccard cho thấy có thể chia 5 nhóm với PST2 nhỏ
là 3,5 ở giá trị 0,6176 hay là tỉ lệ chia nhóm là 61,76%. Tối đa có thể chia 7 nhóm ở giá trị
phân chia là 0,5062. Bảng hệ số Jaccard cho thấy các giống tương đồng nhau về các đặc điểm
như L11 và M12, B2 và C3, E5 và G6.

248
Tài liệu tham khảo

Tiếng Anh
Barnard, J., 1994. Computer Analysis of Standard Experimental Designs (with GENSTAT,
MINITAB, S, and SAS). New York State Agricultural Experiment Station, 115 pp.
Barlett, J. E., et al., 2001. Organization Research : Determinating Appropriate Sample Size in
Survey Research. Information Technology, Learning and Performance Journal. Vol. 19, No 1,
43-50.
Catala, M., 1993. Red Rice (Oryza sativa L.) Control In Rice Fields With The Puddling
Technique. Cahiers Options Méditerranéennes, vol. 15, no. 4, 143-146.
Clewer, A. G. and D. H. Scarisbrick, 2001. Practical Statistics and Experimental Design for
Plant and Crop Science. John Wiley & Sons, Ltd, 331 pp.
Eng, 2003. Sample size estimation. Radiology, 227: 309-313.
Jones, E. E., J. P. Clarkson, A. Mead and J. M. Whipps, 2004. Effect of inoculum type and
timing of application of Coniothyrium minitans on Sclerotinia sclerotiorum: influence on
apothecial production. Plant Pathology 53, 621–628.
Filippi, M. C. and A. S. Prabhu, 1997. Integrated Effect of Host Plant Resistance and
Fungicidal Seed Treatment on Rice Blast Control in Brazil. Plant Disease, April 1997, 351.
Finch, H., 2005. Comparison of Distance Measure in Cluster Analysis with Dichotomous Data.
J. of Data Sci., 85-100.
Gomez, K. A. and A. A. Gomez , 1984. Statistical Procedures for Agricultural Research, 2nd
ed. Wiley, New York, 590-601.
Hasanuzzaman, M., 2008. Data analysis with MSTAT-C. AGRO 516 Lecture Sheet# 09. 4 pp.
Israel, G. D., 2009. Determining Sample Size, PEOD6, University of Florida IFAS Extension.
Kuehl, R. O., 2000. Design of Experiments: Statistical Principles of Research Design and
Analysis. 2nd ed. 666 pp.
Kumar S. R., 2008. Characterizing Nutrient Management Effects on Yield of Sweet Sorghum
Genotypes. J. of Agric. Sci. 4(6), 787-789.
McDonald, J.H., 2009. Handbook of Biological Statistics (2nd ed.). Sparky House Publishing,
Baltimore, Maryland.
Mozaffarri M. et al., 2003. Yield and Petiole Potassium Levels of Two Modern Cotton
Cultivars as Influenced by Potassium Fertilization. AAES Research Series 521, 75-80.
MSTAT Development Team, 1993. MSTATC, Computer Program for the Design,
Management and Analysis of Agromomic Research Experiment. Michigan State University,
152 pp.
NRCS (Natural Resource Conservation Service, USDA), 2007. Statistix 8 User Guide for the
Plant Materials Program, version 2.0, 80 pp.
Oad F. C., Burio U. A and S. K. Agha, 2004. Effect of Organic Fertilizer Application on Maize
Fodder Production. Asian J. of Plant Sci. 3(3):375-377.
Peer, Van de Y. and De Wachter, R., 1994. TREECON for Windows user manual. 19 p.
Petersen, R.G., 1994. Agricultural Field Experiment. Marcel Dekker, Inc. USA, 409 pp.
Podlaski S. et al., 2003. The effect of parsley hydration treatment and pelleting on seed vigor.
Plant Soil Environ., 49, 114-118.
Qu, L., X. Wang, Y. Chen, and R. Scalzo, 2005. Commercial Seed Lots Exhibit Reduced Seed
Dormancy in Comparison to Wild Seed Lots of Echinacea purpurea. Hort Science. October;
40(6): 1843–1845.
249
Rummel, R.J., 1976. Understanding Correlation. University of Hawaii.
Rohlf F. J., 2000. NTSYSpc version 2.1 User Guide, 44pp.
SAS. 2004. SAS/STAT User’s Guide 9.1, 5123 pp.
SAS Institute, 1999. SAS version 8. Cary, NC, USA.
Schabenberger, O., 2000. SAS Code for Some Advanced Experimental Designs. UCLA
Academic Technological Services.
Siegle, D., 2006. Pearson Product-Moment Correlation Coefficient, University of Connecticut.
Singh, A. L.; K. Hariprassana and R. M. Solanki, 2008. Screening and Selection of Genotypes
for Tolerance of Soil Salinity. Australian J. of. Crop Sci. 1 (3): 69-77.
Statistix 9, 2008. Statistical software.
Taa, A.; Tanner and A. T. P. Bennie, 2002. Effects of Stubble Management, Tillage and
Cropping Sequence on the Severity of Take-all and Eyespot Diseases of Wheat. African Crop
Science Journal, Vol. 10. No. 1, 67-79.
Tan, Zhiyuan et al., 2001. Specific Detection of Bradyrhizobium and Rhizobium Strains
Colonizing Rice (Oryza sativa) Roots by 16S-23S Ribosomal Intergenic Spacer-Targeted PCR
Applied and Environmental Microbiology, Vol. 67, No. 8, p. 3655-3664.
Toit Lindsey du, Inglis D., and Miles C., 2007. Evaluation of Seed and Drench Treatments for
Management of Damping-off and Seedling Blight Pathogens of Spinach for Organic
Production. Progess Report : Organic Cropping Research for the Northwest.
Tree Fruit Research and Extension Center, 2000. A Field Guide to Experimental Designs.
Washington State University.
Westfall, P. H., 2008. A Course in Multiple Comparisons and Multiple Tests. Texas Tech
University.
Williams, F., 1968. Reasoning With Statistics. New York.
Xu, G., 1999. Estimating sample size for a descriptive study in quantitative research.
Philadelphia.

Tiếng Việt
Bùi Việt Hải, 2001. Phương pháp nghiên cứu khoa học và xử lý số liệu thực nghiệm. ĐH Nông
Lâm TP HCM, 135 tr.
Nguyễn Đình Hiền, 2007. Bài giảng về xử lý số liệu trong sinh học. NXB Nông nghiệp, 212 tr.
Ngô Đằng Phong, Huỳnh Thị Thùy Trang, Nguyễn Duy Năng, 2003. Hướng dẫn sử dụng phần
mềm MSTATC trong phương pháp thí nghiệm nông nghiệp, 90 tr.
Nguyễn Hải Thanh, 2005. Tin học ứng dụng trong ngành nông nghiệp. NXB Khoa học kỹ
thuật, 503 tr.
Phạm Chí Thành, 1976. Phương pháp thí nghiệm đồng ruộng. XN in Hà Nội, 264 tr.
Trịnh Công Thành, 2003. Ứng dụng SAS trong phân tích số liệu. ĐH Nông Lâm TP HCM,
304 tr.
Nguyễn Văn Tuấn, 2006. Phân tích số liệu và biểu đồ bằng R. Garvan Institute of Medical
Research, Sydney Australia, 118 tr.

250
Phụ lục trình bày số liệu trích từ một số tài liệu khoa học
(để tham khảo)

1. Chuyển đổi giá trị sang log[x+1] và Duncan test (DMRT)


Nguồn: Catala, M., 1993. Red Rice (Oryza sativa L.) Control in Rice Fields with the Pudding
Technique. Cahiers Options Méditteranéenees

Giải thích: các giá trị trung bình trong cùng một cột có cùng ký tự không khác biệt ở mức 5%
theo trắc nghiệm đa đoạn Duncan. Số liệu được chuyển sang (log [x+1]) để phân tích thống kê.

2. Chuyển đổi giá trị arcsin √% và trình bày kết quả thí nghiệm 2 yếu tố có tương tác
Nguồn: Luping Qu, Xiping Wang1, Ying Chen, and Richard Scalzo, 2005. Commercial Seed
Lots Exhibit Reduced Seed Dormancy in Comparison to Wild Seed Lots of Echinacea
purpurea. HortScience. 40(6): 1843–1845.
Table 1. Seed germination results of Echinacea purpurea from different seed lots.
Treatment

Seed lot Light Dark Mean Harvest year Origin in U.S.


z
Commercial populations
C-purp 1 95y 97 y 96.0 (1.374) ax 2002 Colorado
C-purp 2 95 88 91.5 (1.355) ab 1998 Oregon
C-purp 3 93 90 91.5 (1.283) abc 2002 Colorado
C-purp 4 90 88 89.0 (1.241) bc 2002 Colorado
C-purp 5 89 82 85.5 (1.192) c 1998 Colorado
C-purp 6 84 83 83.5 (1.161) c 1997 Colorado
C-purp 7 82 86 84.0 (1.161) c 1997 Oregon
Mean 90 88
ANOVA (two-way)
*
Seed lot
NS
Treatment
NS
S×T
USDA/NCRPIS accessionsx
PI 633669 92 73 82.0 (1.153) c 2002 Louisiana
PI 633667 88 78 83.0 (1.161) c 2002 Arkansas
PI 631307 76 52 64.0 (0.933) d 2000 Missouri

251
Treatment

Seed lot Light Dark Mean Harvest year Origin in U.S.


PI 633668 68 47 57.5 (0.861) de 2002 Louisiana
PI 631313 67 34 50.5 (0.790) e 2002 North Carolina
PI 633670 64 31 47.5 (0.759) e 2002 Mississippi
PI 633671 27 5 16.0 (0.386) f 2002 Ohio
PI 633666 16 4 10.0 (0.298) f 2002 Arkansas
PI 633665 9 5 7.0 (0.267) f 2002 Arkansas
Mean 56 37
ANOVA (two-way)
*** ***
Seed lot
*** ***
Treatment
NS *
S×T

z
n = 50 seeds, three replications.
x
n = 32 seeds, three replications.
y
Percentage.
x
Mean separation within columns by Duncan’s multiple range test after a combined analysis of transformed data representing all seed lots;
transformed means (in parentheses) follow the untransformed data.
NS,*,***
Nonsignificant or significant at P < 0.05 or 0.0001, respectively.
Giải thích: các giá trị tỉ lệ % được chuyển sang arcsin √% và ghi trong dấu ngoặc. Tương tác lô
hạt và nghiệm thức được ghi khác biệt với chữ NS (không khác biệt) và dấu * là khác biệt ở
mức p < 0,05 hay *** là khác biệt ở mức p < 0,0001.

Chuyển đổi giá trị góc arcsin √%


Nguồn: Jones, E. E.,, J. P. Clarkson, A. Mead and J. M. Whipps, 2004. Effect of inoculum type
and timing of application of Coniothyrium minitans on Sclerotinia sclerotiorum: influence on
apothecial production. Plant Pathology 53, 621–628.

252
Giải thích: số trong hoặc là giá trị chuyển đổi sang góc arcsin của tỉ lệ nảy mầm, hồi phục, sức
sống, tỉ lệ nhiễm.

3. Chuyển đổi giá trị sang căn số: √ (giá trị +0,5)
Nguồn: Taa, A.; Tanner and A. T. P. Bennie, 2002. Effects of Stubble Management, Tillage
and Cropping Sequence on the Severity of Take-all and Eyespot Diseases of Wheat. African
Crop Science Journal, Vol. 10. No. 1, 67-79.

Giải thích: các giá trị được chuyển sang căn bậc hai của (chỉ số nhiễm + 0,5).

4. Chuyển đổi nhiều giá trị trong một cột của bảng số liệu

Nguồn: Lindsey du Toit, Inglis D., and Miles C., 2007. Evaluation of Seed and Drench
Treatments for Management of Damping-off and Seedling Blight Pathogens of Spinach for
Organic Production. Progess Report : Organic Cropping Research for the Northwest.
Giải thích:
Không chuyển đổi: trị số từ 47,8 đến 95,6%

253
Xếp hạng Rank: trị số từ 0,0 đến 42,8%
Rank: trị số từ 48,3 đến 95,6%
Chuyển đổi:
Square root: trị số từ 0,6 đến 61,3%
Log: trị số từ 2,3 đến 95,4%
Log: trị số từ 0,85 đến 6,06 g
Log: trị số từ 1,8 đến 91,0%
Arcsin: trị số từ 1,8 đến 64,1%
Arcsin: trị số từ 1,24 đến 5,20 g

5. Trình bày bảng số liệu nhiều chỉ tiêu


Nguồn: Contreas, S. and Barros, M., 2005. Vigor Test on Lettuce Seeds and Their Correlation
with Emergence. Cien. Inv.Agr. (in English) 32(1). 3-10.

254
Giải thích: 2 Các giá trị trung bình cùng ký tự sau cột không khác biệt thống kê theo phân tích
tỉ lệ với mức tin cậy 95%.
3
Các giá trị trung bình cùng cột có cùng ký tự không khác biệt thống kê LSD (p =
0,05).

6. Trình bày so sánh các giá trị với mức LSD α=0.05
Nguồn: Podlaski S. et al., 2003. The effect of parsley hydration treatment and pelleting on seed
vigor. Plant Soil Environ., 49, 114-118.

Giải thích:
Sử dụng giá trị LSD α=0,05 để so sánh các trung bình.

7. Trình bày kết quả hai chiều của thí nghiệm 2 yếu tố
Nguồn: Oad F. C., Burio U. A and S. K. Agha, 2004. Effect of Organic Fertilizer Application
on Maize Fodder Production. Asian J. of Plant Sci. 3(3):375-377.

255
Giải thích:
Bảng 2 chiều trình bày yếu tố phân chuồng và lượng đạm N (kg/ha) ảnh hưởng năng suất bắp
làm thức ăn gia súc. Các chỉ tiêu là chiều cao cây, đường kính thân, số lá trên cây, năng suất
bắp cây. So sánh khác biệt ở mức LSD 5% và 1% và sai số chuẩn S.E.

8. Sử dụng xác suất F(Prob) trong bảng phân tích phương sai
Nguồn: Kumar S. R., 2008. Characterizing Nutrient Management Effects on Yield of Sweet
Sorghum Genotypes. J. of Agric. Sci. 4(6), 787-789.
256
Giải thích:
Đây là thí nghiệm Split Split Plot. F (Prob) chỉ trắc nghiệm F theo bảng tính với xác suất Prob
(probability) có giá trị thực trong bảng ANOVA.
9. Trình bày so sánh các giá trị với ký tự ns: non-significant (không khác biệt)
Nguồn: Yildirim E. and I. Güvenç, 2006. Salt Tolerance of Pepper Cultivars during
Germination and Seedling Growth. Turk J. Agric. For. 30, 347-353

257
Giải thích:
**: không khác biệt, các trị số này có thể dùng ns ghi vào cột trị số (cột thứ hai).

10. Trình bày so sánh MSD (Minimum Significant Difference)


Nguồn: Mozaffarri M. et al., 2003. Yield and Petiole Potassium Levels of Two Modern Cotton
Cultivars as Influenced by Potassium Fertilization. AAES Research Series 521, 75-80.

Giải thích: *: MSD: khác biệt có nghĩa tối thiểu xác định theo trắc nghiệm Waller-Duncan.

11. Hệ số tương quan với xác suất p và mức độ tương quan

Nguồn: Fateh, E., 2009. Effects of Organic and Chemical Fertilizers on Forage Yield and
Quality of Globe Artichoke (Cynara scolymus L.). Asian J. Crop Sci., 1: 40-48.

Table 4: Correlation coefficients between forage yield, quality traits of globe


artichoke (Cynara scolymus) as affected by soil fertilization

Ns: Means no significant (p<0.01), *Means significant at level (p<0.05) and


**Means significant at level (p<0.01)
258
Giải thích:
** Giá trị trung bình có nghĩa ở mức p<0,01.
Không có tương quan có nghĩa giữa năng suất và các chỉ tiêu chất lượng, nhưng có tương quan
chặt với trọng lượng tươi với r = 0,8** (Fateh, 2009).

12. Trình bày bảng tương quan với hệ số r và xác suất có nghĩa p

Nguồn: Filippi M. C. and A. S. Prabhu, 1997. Integrated Effect of Host Plant Resistance and
Fungicidal Seed Treatment on Rice Blast Control in Brazil. Plant Disease / April 1997, 351.

Giải thích:
- Số cặp mẫu để tính tương quan là n = 24, có ảnh hưởng đến mức xác định có nghĩa (p) cho hệ
số tương quan r.
- Hệ số tương quan r có giá trị tương quan thuận với số dương (không ghi dấu) và tương quan
nghịch với dấu ‘–‘.
- Giá trị trong ngoặc là giá trị xác suất xác định mức tồn tại có nghĩa của giá trị hệ số tương
quan r do phần mềm thống kê xử lý. Mức độ nghiêm trọng của bệnh thể hiện với hệ số tương
quan r = -0,731 có nghĩa ở mức p = 0,0001.

259
13. Trình bày đồ thị cây phả hệ

Nguồn: Miguel Angel Cantamutto Sanchez, 2008. Agronomic Study of Two Annual Helianthus
Species Naturalized in Argentina as Potential Sunflower Crop Genetic Resource. PhD Thesis,
301pp.

Giải thích:
Khoảng cách dặm đường theo phương pháp liên kết đơn thứ bậc giữa các quần thể hướng
dương (p) và trạm lai tạo hướng dương (br), (phần mềm SAS).

260
Giải thích:
Nhóm liên kết của quần thể hướng dương Argentine và Bắc Mỹ, sử dụng phương pháp liên kết
phương sai tối thiểu Ward dựa trên khoảng cách Mahalanobis (phần mềm SAS).

261
Nguồn: Lukonge, E.,L. Herselman and M. T. Labuschagne, 2007. Analysis of Genetic
Diversity in Cotton (Gossypium hirsutum L.) Cultivars using Amplified Fragment Length
Polymorphism (AFLP) Markers. Agriculture Research Institute, Tanzania.

Figure 1.The dendrogram based on AFLP marker analysis for cotton.

Giải thích: Sơ đồ cây phả hệ phân tích AFLP marker cho cây bông vải.

262
14. Trình bày sơ đồ cây tiến hóa và ước số boostrap

Nguồn : Gimenses M. A. et al., 2002. Genetic Relationship among Arachis species based on
AFLP. Genetics and Molacular Biology, 25:3, 349-353.

Giải thích:
Cây tiến hóa theo phương pháp trung bình số học cho thấy quan hệ 20 loài của 7 nhóm trong
giống Arachis.

263
Phụ lục các bảng tính

Bảng 1.a. F Table for alpha=.05

df2/d
f1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 INF
161.44 199.50 215.70 224.58 230.16 233.98 236.76 238.88 240.54 241.88 243.90 245.94 248.01 249.05 250.09 251.14 252.19 253.25 254.31
1 76 00 73 32 19 60 84 27 33 17 60 99 31 18 51 32 57 29 44
2 18.518 19.000 19.164 19.246 19.296 19.329 19.353 19.371 19.384 19.395 19.412 19.429 19.445 19.454 19.462 19.470 19.479 19.487 19.495
3 10.12 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 8.7446 8.7029 8.6602 8.6385 8.6166 8.5944 8.5720 8.5494 8.5264
4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5.9117 5.8578 5.8025 5.7744 5.7459 5.7170 5.6877 5.6581 5.6281
5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 4.6777 4.6188 4.5581 4.5272 4.4957 4.4638 4.4314 4.3985 4.3650

6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 3.9999 3.9381 3.8742 3.8415 3.8082 3.7743 3.7398 3.7047 3.6689
7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 3.5747 3.5107 3.4445 3.4105 3.3758 3.3404 3.3043 3.2674 3.2298
8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 3.2839 3.2184 3.1503 3.1152 3.0794 3.0428 3.0053 2.9669 2.9276
9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 3.0729 3.0061 2.9365 2.9005 2.8637 2.8259 2.7872 2.7475 2.7067
10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 2.9130 2.8450 2.7740 2.7372 2.6996 2.6609 2.6211 2.5801 2.5379

11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 2.7876 2.7186 2.6464 2.6090 2.5705 2.5309 2.4901 2.4480 2.4045
12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 2.6866 2.6169 2.5436 2.5055 2.4663 2.4259 2.3842 2.3410 2.2962
13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 2.6037 2.5331 2.4589 2.4202 2.3803 2.3392 2.2966 2.2524 2.2064
14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 2.5342 2.4630 2.3879 2.3487 2.3082 2.2664 2.2229 2.1778 2.1307
15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 2.4753 2.4034 2.3275 2.2878 2.2468 2.2043 2.1601 2.1141 2.0658

16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 2.4247 2.3522 2.2756 2.2354 2.1938 2.1507 2.1058 2.0589 2.0096
17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 2.3807 2.3077 2.2304 2.1898 2.1477 2.1040 2.0584 2.0107 1.9604
18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117 2.3421 2.2686 2.1906 2.1497 2.1071 2.0629 2.0166 1.9681 1.9168
19 4.3807 3.5219 3.1274 2.8951 2.7401 2.6283 2.5435 2.4768 2.4227 2.3779 2.3080 2.2341 2.1555 2.1141 2.0712 2.0264 1.9795 1.9302 1.8780
20 4.3512 3.4928 3.0984 2.8661 2.7109 2.5990 2.5140 2.4471 2.3928 2.3479 2.2776 2.2033 2.1242 2.0825 2.0391 1.9938 1.9464 1.8963 1.8432

21 4.3248 3.4668 3.0725 2.8401 2.6848 2.5727 2.4876 2.4205 2.3660 2.3210 2.2504 2.1757 2.0960 2.0540 2.0102 1.9645 1.9165 1.8657 1.8117
22 4.3009 3.4434 3.0491 2.8167 2.6613 2.5491 2.4638 2.3965 2.3419 2.2967 2.2258 2.1508 2.0707 2.0283 1.9842 1.9380 1.8894 1.8380 1.7831
23 4.2793 3.4221 3.0280 2.7955 2.6400 2.5277 2.4422 2.3748 2.3201 2.2747 2.2036 2.1282 2.0476 2.0050 1.9605 1.9139 1.8648 1.8128 1.7570
24 4.2597 3.4028 3.0088 2.7763 2.6207 2.5082 2.4226 2.3551 2.3002 2.2547 2.1834 2.1077 2.0267 1.9838 1.9390 1.8920 1.8424 1.7896 1.7330
25 4.2417 3.3852 2.9912 2.7587 2.6030 2.4904 2.4047 2.3371 2.2821 2.2365 2.1649 2.0889 2.0075 1.9643 1.9192 1.8718 1.8217 1.7684 1.7110

26 4.2252 3.3690 2.9752 2.7426 2.5868 2.4741 2.3883 2.3205 2.2655 2.2197 2.1479 2.0716 1.9898 1.9464 1.9010 1.8533 1.8027 1.7488 1.6906
27 4.2100 3.3541 2.9604 2.7278 2.5719 2.4591 2.3732 2.3053 2.2501 2.2043 2.1323 2.0558 1.9736 1.9299 1.8842 1.8361 1.7851 1.7306 1.6717
28 4.1960 3.3404 2.9467 2.7141 2.5581 2.4453 2.3593 2.2913 2.2360 2.1900 2.1179 2.0411 1.9586 1.9147 1.8687 1.8203 1.7689 1.7138 1.6541
29 4.1830 3.3277 2.9340 2.7014 2.5454 2.4324 2.3463 2.2783 2.2229 2.1768 2.1045 2.0275 1.9446 1.9005 1.8543 1.8055 1.7537 1.6981 1.6376
30 4.1709 3.3158 2.9223 2.6896 2.5336 2.4205 2.3343 2.2662 2.2107 2.1646 2.0921 2.0148 1.9317 1.8874 1.8409 1.7918 1.7396 1.6835 1.6223

40 4.0847 3.2317 2.8387 2.6060 2.4495 2.3359 2.2490 2.1802 2.1240 2.0772 2.0035 1.9245 1.8389 1.7929 1.7444 1.6928 1.6373 1.5766 1.5089
60 4.0012 3.1504 2.7581 2.5252 2.3683 2.2541 2.1665 2.0970 2.0401 1.9926 1.9174 1.8364 1.7480 1.7001 1.6491 1.5943 1.5343 1.4673 1.3893
120 3.9201 3.0718 2.6802 2.4472 2.2899 2.1750 2.0868 2.0164 1.9588 1.9105 1.8337 1.7505 1.6587 1.6084 1.5543 1.4952 1.4290 1.3519 1.2539
inf 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799 1.8307 1.7522 1.6664 1.5705 1.5173 1.4591 1.3940 1.3180 1.2214 1.0000

264
Bảng 1.b. F Table for alpha=.01

df2/d
f1 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 INF
4052.1 4999.5 5403.3 5624.5 5763.6 5858.9 5928.3 5981.0 6022.4 6055.8 6106.3 6157.2 6208.7 6234.6 6260.6 6286.7 6313.0 6339.3 6365.8
1 81 00 52 83 50 86 56 70 73 47 21 85 30 31 49 82 30 91 64
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.491 99.499
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.221 26.125
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.558 13.463
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.112 9.020

6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.969 6.880
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.737 5.650
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.946 4.859
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.398 4.311
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849 4.706 4.558 4.405 4.327 4.247 4.165 4.082 3.996 3.909

11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.690 3.602
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.449 3.361
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.255 3.165
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.094 3.004
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.959 2.868

16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.845 2.753
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.746 2.653
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.660 2.566
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.584 2.489
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.517 2.421

21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.457 2.360
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.403 2.305
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.354 2.256
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.310 2.211
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.270 2.169

26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.233 2.131
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.198 2.097
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.167 2.064
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.138 2.034
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.111 2.006

40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.917 1.805
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.726 1.601
120 6.851 4.787 3.949 3.480 3.174 2.956 2.792 2.663 2.559 2.472 2.336 2.192 2.035 1.950 1.860 1.763 1.656 1.533 1.381
inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.325 1.000

265
Bảng 2. Student’s t value (giá trị t bảng Student)
Degrees of Freedom Probability, p (Xác xuất)
(độ tự do)

0.1 0.05 0.01 0.001


1 6.31 12.71 63.66 636.62

2 2.92 4.30 9.93 31.60

3 2.35 3.18 5.84 12.92


4 2.13 2.78 4.60 8.61

5 2.02 2.57 4.03 6.87

6 1.94 2.45 3.71 5.96

7 1.89 2.37 3.50 5.41


8 1.86 2.31 3.36 5.04

9 1.83 2.26 3.25 4.78

10 1.81 2.23 3.17 4.59

11 1.80 2.20 3.11 4.44


12 1.78 2.18 3.06 4.32

13 1.77 2.16 3.01 4.22

14 1.76 2.14 2.98 4.14

15 1.75 2.13 2.95 4.07


16 1.75 2.12 2.92 4.02

17 1.74 2.11 2.90 3.97

18 1.73 2.10 2.88 3.92

19 1.73 2.09 2.86 3.88

20 1.72 2.09 2.85 3.85

21 1.72 2.08 2.83 3.82

22 1.72 2.07 2.82 3.79


23 1.71 2.07 2.82 3.77
24 1.71 2.06 2.80 3.75

25 1.71 2.06 2.79 3.73

26 1.71 2.06 2.78 3.71


27 1.70 2.05 2.77 3.69

28 1.70 2.05 2.76 3.67

29 1.70 2.05 2.76 3.66

30 1.70 2.04 2.75 3.65


40 1.68 2.02 2.70 3.55

60 1.67 2.00 2.66 3.46

120 1.66 1.98 2.62 3.37

Inf 1.65 1.96 2.58 3.29

266
Bảng 3.a. Giá trị cực trọng q (p, df; 0.05) cho trắc nghiệm đa đoạn Duncan
Critical values q'(p, df; 0.05) for Duncan's multiple range tests
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
1 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969 17.969
2 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085 6.085
3 4.501 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516 4.516
4 3.926 4.013 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033 4.033
5 3.635 3.749 3.796 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814 3.814
6 3.460 3.586 3.649 3.680 3.694 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697 3.697
7 3.344 3.477 3.548 3.588 3.611 3.622 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625 3.625
8 3.261 3.398 3.475 3.521 3.549 3.566 3.575 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579 3.579
9 3.199 3.339 3.420 3.470 3.502 3.523 3.536 3.544 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547 3.547
10 3.151 3.293 3.376 3.430 3.465 3.489 3.505 3.516 3.522 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525 3.525
------------------------------------------------------------------------------------------------------------------------------------------
11 3.113 3.256 3.341 3.397 3.435 3.462 3.480 3.493 3.501 3.506 3.509 3.510 3.510 3.510 3.510 3.510 3.510 3.510 3.510
12 3.081 3.225 3.312 3.370 3.410 3.439 3.459 3.474 3.484 3.491 3.495 3.498 3.498 3.498 3.498 3.498 3.498 3.498 3.498
13 3.055 3.200 3.288 3.348 3.389 3.419 3.441 3.458 3.470 3.478 3.484 3.488 3.490 3.490 3.490 3.490 3.490 3.490 3.490
14 3.033 3.178 3.268 3.328 3.371 3.403 3.426 3.444 3.457 3.467 3.474 3.479 3.482 3.484 3.484 3.484 3.484 3.484 3.484
15 3.014 3.160 3.250 3.312 3.356 3.389 3.413 3.432 3.446 3.457 3.465 3.471 3.476 3.478 3.480 3.480 3.480 3.480 3.480
16 2.998 3.144 3.235 3.297 3.343 3.376 3.402 3.422 3.437 3.449 3.458 3.465 3.470 3.473 3.476 3.477 3.477 3.477 3.477
17 2.984 3.130 3.222 3.285 3.331 3.365 3.392 3.412 3.429 3.441 3.451 3.459 3.465 3.469 3.472 3.474 3.475 3.475 3.475
18 2.971 3.117 3.210 3.274 3.320 3.356 3.383 3.404 3.421 3.435 3.445 3.454 3.460 3.465 3.469 3.472 3.473 3.474 3.474
19 2.960 3.106 3.199 3.264 3.311 3.347 3.375 3.397 3.415 3.429 3.440 3.449 3.456 3.462 3.466 3.469 3.472 3.473 3.474
20 2.950 3.097 3.190 3.255 3.303 3.339 3.368 3.390 3.409 3.423 3.435 3.445 3.452 3.459 3.463 3.467 3.470 3.472 3.473
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
21 2.941 3.088 3.181 3.247 3.295 3.332 3.361 3.385 3.403 3.418 3.431 3.441 3.449 3.456 3.461 3.465 3.469 3.471 3.473
22 2.933 3.080 3.173 3.239 3.288 3.326 3.355 3.379 3.398 3.414 3.427 3.437 3.446 3.453 3.459 3.464 3.467 3.470 3.472
23 2.926 3.072 3.166 3.233 3.282 3.320 3.350 3.374 3.394 3.410 3.423 3.434 3.443 3.451 3.457 3.462 3.466 3.469 3.472
24 2.919 3.066 3.160 3.226 3.276 3.315 3.345 3.370 3.390 3.406 3.420 3.431 3.441 3.449 3.455 3.461 3.465 3.469 3.472
25 2.913 3.059 3.154 3.221 3.271 3.310 3.341 3.366 3.386 3.403 3.417 3.429 3.439 3.447 3.454 3.459 3.464 3.468 3.471
26 2.907 3.054 3.149 3.216 3.266 3.305 3.336 3.362 3.382 3.400 3.414 3.426 3.436 3.445 3.452 3.458 3.463 3.468 3.471
27 2.902 3.049 3.144 3.211 3.262 3.301 3.332 3.358 3.379 3.397 3.412 3.424 3.434 3.443 3.451 3.457 3.463 3.467 3.471
28 2.897 3.044 3.139 3.206 3.257 3.297 3.329 3.355 3.376 3.394 3.409 3.422 3.433 3.442 3.450 3.456 3.462 3.467 3.470
29 2.892 3.039 3.135 3.202 3.253 3.293 3.326 3.352 3.373 3.392 3.407 3.420 3.431 3.440 3.448 3.455 3.461 3.466 3.470
30 2.888 3.035 3.131 3.199 3.250 3.290 3.322 3.349 3.371 3.389 3.405 3.418 3.429 3.439 3.447 3.454 3.460 3.466 3.470
------------------------------------------------------------------------------------------------------------------------------------------
31 2.884 3.031 3.127 3.195 3.246 3.287 3.319 3.346 3.368 3.387 3.403 3.416 3.428 3.438 3.446 3.454 3.460 3.465 3.470
32 2.881 3.028 3.123 3.192 3.243 3.284 3.317 3.344 3.366 3.385 3.401 3.415 3.426 3.436 3.445 3.453 3.459 3.465 3.470
33 2.877 3.024 3.120 3.188 3.240 3.281 3.314 3.341 3.364 3.383 3.399 3.413 3.425 3.435 3.444 3.452 3.459 3.465 3.470
34 2.874 3.021 3.117 3.185 3.238 3.279 3.312 3.339 3.362 3.381 3.398 3.412 3.424 3.434 3.443 3.451 3.458 3.464 3.469
35 2.871 3.018 3.114 3.183 3.235 3.276 3.309 3.337 3.360 3.379 3.396 3.410 3.423 3.433 3.443 3.451 3.458 3.464 3.469
36 2.868 3.015 3.111 3.180 3.232 3.274 3.307 3.335 3.358 3.378 3.395 3.409 3.421 3.432 3.442 3.450 3.457 3.464 3.469
37 2.865 3.013 3.109 3.178 3.230 3.272 3.305 3.333 3.356 3.376 3.393 3.408 3.420 3.431 3.441 3.449 3.457 3.463 3.469
38 2.863 3.010 3.106 3.175 3.228 3.270 3.303 3.331 3.355 3.375 3.392 3.407 3.419 3.431 3.440 3.449 3.456 3.463 3.469
39 2.861 3.008 3.104 3.173 3.226 3.268 3.301 3.330 3.353 3.373 3.391 3.406 3.418 3.430 3.440 3.448 3.456 3.463 3.469
40 2.858 3.005 3.102 3.171 3.224 3.266 3.300 3.328 3.352 3.372 3.389 3.404 3.418 3.429 3.439 3.448 3.456 3.463 3.469
------------------------------------------------------------------------------------------------------------------------------------------
48 2.843 2.991 3.087 3.157 3.211 3.253 3.288 3.318 3.342 3.363 3.382 3.398 3.412 3.424 3.435 3.445 3.453 3.461 3.468
60 2.829 2.976 3.073 3.143 3.198 3.241 3.277 3.307 3.333 3.355 3.374 3.391 3.406 3.419 3.431 3.441 3.451 3.460 3.468
80 2.814 2.961 3.059 3.130 3.185 3.229 3.266 3.297 3.323 3.346 3.366 3.384 3.400 3.414 3.427 3.438 3.449 3.458 3.467
120 2.800 2.947 3.045 3.116 3.172 3.217 3.254 3.286 3.313 3.337 3.358 3.377 3.394 3.409 3.423 3.435 3.446 3.457 3.466
240 2.786 2.933 3.031 3.103 3.159 3.205 3.243 3.276 3.304 3.329 3.350 3.370 3.388 3.404 3.418 3.432 3.444 3.455 3.466
Inf 2.772 2.918 3.017 3.089 3.146 3.193 3.232 3.265 3.294 3.320 3.343 3.363 3.382 3.399 3.414 3.428 3.442 3.454 3.466
------------------------------------------------------------------------------------------------------------------------------------------

Bảng 3.b. Giá trị cực trọng q (p, df; 0.01) cho trắc nghiệm đa đoạn Duncan
Critical values q'(p, df; 0.01) for Duncan's multiple range tests
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
1 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024 90.024
2 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036 14.036
3 8.260 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321 8.321
4 6.511 6.677 6.740 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755 6.755
5 5.702 5.893 5.989 6.040 6.065 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074 6.074
6 5.243 5.439 5.549 5.614 5.655 5.680 5.694 5.701 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703 5.703
7 4.949 5.145 5.260 5.333 5.383 5.416 5.439 5.454 5.464 5.470 5.472 5.472 5.472 5.472 5.472 5.472 5.472 5.472 5.472
8 4.745 4.939 5.056 5.134 5.189 5.227 5.256 5.276 5.291 5.302 5.309 5.313 5.316 5.317 5.317 5.317 5.317 5.317 5.317
9 4.596 4.787 4.906 4.986 5.043 5.086 5.117 5.142 5.160 5.174 5.185 5.193 5.199 5.202 5.205 5.206 5.206 5.206 5.206
10 4.482 4.671 4.789 4.871 4.931 4.975 5.010 5.036 5.058 5.074 5.087 5.098 5.106 5.112 5.117 5.120 5.122 5.123 5.124
------------------------------------------------------------------------------------------------------------------------------------------
11 4.392 4.579 4.697 4.780 4.841 4.887 4.923 4.952 4.975 4.994 5.009 5.021 5.031 5.039 5.045 5.050 5.054 5.057 5.059
12 4.320 4.504 4.622 4.705 4.767 4.815 4.852 4.882 4.907 4.927 4.944 4.957 4.969 4.978 4.986 4.993 4.998 5.002 5.005
13 4.260 4.442 4.560 4.643 4.706 4.754 4.793 4.824 4.850 4.871 4.889 4.904 4.917 4.927 4.936 4.944 4.950 4.955 4.960
14 4.210 4.391 4.508 4.591 4.654 4.703 4.743 4.775 4.802 4.824 4.843 4.859 4.872 4.884 4.894 4.902 4.909 4.916 4.921
15 4.167 4.346 4.463 4.547 4.610 4.660 4.700 4.733 4.760 4.783 4.803 4.820 4.834 4.846 4.857 4.866 4.874 4.881 4.887
16 4.131 4.308 4.425 4.508 4.572 4.622 4.662 4.696 4.724 4.748 4.768 4.785 4.800 4.813 4.825 4.835 4.843 4.851 4.858
17 4.099 4.275 4.391 4.474 4.538 4.589 4.630 4.664 4.692 4.717 4.737 4.755 4.771 4.785 4.797 4.807 4.816 4.824 4.832
18 4.071 4.246 4.361 4.445 4.509 4.559 4.601 4.635 4.664 4.689 4.710 4.729 4.745 4.759 4.771 4.782 4.792 4.801 4.808
19 4.046 4.220 4.335 4.418 4.483 4.533 4.575 4.610 4.639 4.664 4.686 4.705 4.722 4.736 4.749 4.760 4.771 4.780 4.788
20 4.024 4.197 4.312 4.395 4.459 4.510 4.552 4.587 4.617 4.642 4.664 4.684 4.701 4.716 4.729 4.741 4.751 4.761 4.769
------------------------------------------------------------------------------------------------------------------------------------------
df p-> 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
------------------------------------------------------------------------------------------------------------------------------------------
21 4.004 4.177 4.291 4.374 4.438 4.489 4.531 4.567 4.597 4.622 4.645 4.664 4.682 4.697 4.711 4.723 4.734 4.743 4.752
22 3.986 4.158 4.272 4.355 4.419 4.470 4.513 4.548 4.578 4.604 4.627 4.647 4.664 4.680 4.694 4.706 4.718 4.728 4.737
23 3.970 4.141 4.254 4.337 4.402 4.453 4.496 4.531 4.562 4.588 4.611 4.631 4.649 4.665 4.679 4.692 4.703 4.713 4.723
24 3.955 4.126 4.239 4.322 4.386 4.437 4.480 4.516 4.546 4.573 4.596 4.616 4.634 4.651 4.665 4.678 4.690 4.700 4.710
25 3.942 4.112 4.224 4.307 4.371 4.423 4.466 4.502 4.532 4.559 4.582 4.603 4.621 4.638 4.652 4.665 4.677 4.688 4.698
26 3.930 4.099 4.211 4.294 4.358 4.410 4.452 4.489 4.520 4.546 4.570 4.591 4.609 4.626 4.640 4.654 4.666 4.677 4.687
27 3.918 4.087 4.199 4.282 4.346 4.397 4.440 4.477 4.508 4.535 4.558 4.579 4.598 4.615 4.630 4.643 4.655 4.667 4.677
28 3.908 4.076 4.188 4.270 4.334 4.386 4.429 4.465 4.497 4.524 4.548 4.569 4.587 4.604 4.619 4.633 4.646 4.657 4.667
29 3.898 4.065 4.177 4.260 4.324 4.376 4.419 4.455 4.486 4.514 4.538 4.559 4.578 4.595 4.610 4.624 4.637 4.648 4.659
30 3.889 4.056 4.168 4.250 4.314 4.366 4.409 4.445 4.477 4.504 4.528 4.550 4.569 4.586 4.601 4.615 4.628 4.640 4.650
------------------------------------------------------------------------------------------------------------------------------------------

267
31 3.881 4.047 4.159 4.241 4.305 4.357 4.400 4.436 4.468 4.495 4.519 4.541 4.560 4.577 4.593 4.607 4.620 4.632 4.643
32 3.873 4.039 4.150 4.232 4.296 4.348 4.391 4.428 4.459 4.487 4.511 4.533 4.552 4.570 4.585 4.600 4.613 4.625 4.635
33 3.865 4.031 4.142 4.224 4.288 4.340 4.383 4.420 4.452 4.479 4.504 4.525 4.545 4.562 4.578 4.592 4.606 4.618 4.629
34 3.859 4.024 4.135 4.217 4.281 4.333 4.376 4.413 4.444 4.472 4.496 4.518 4.538 4.555 4.571 4.586 4.599 4.611 4.622
35 3.852 4.017 4.128 4.210 4.273 4.325 4.369 4.406 4.437 4.465 4.490 4.511 4.531 4.549 4.565 4.579 4.593 4.605 4.616
36 3.846 4.011 4.121 4.203 4.267 4.319 4.362 4.399 4.431 4.459 4.483 4.505 4.525 4.543 4.559 4.573 4.587 4.599 4.611
37 3.840 4.005 4.115 4.197 4.260 4.312 4.356 4.393 4.425 4.452 4.477 4.499 4.519 4.537 4.553 4.568 4.581 4.594 4.605
38 3.835 3.999 4.109 4.191 4.254 4.306 4.350 4.387 4.419 4.447 4.471 4.493 4.513 4.531 4.548 4.562 4.576 4.589 4.600
39 3.830 3.993 4.103 4.185 4.249 4.301 4.344 4.381 4.413 4.441 4.466 4.488 4.508 4.526 4.542 4.557 4.571 4.584 4.595
40 3.825 3.988 4.098 4.180 4.243 4.295 4.339 4.376 4.408 4.436 4.461 4.483 4.503 4.521 4.537 4.552 4.566 4.579 4.591
------------------------------------------------------------------------------------------------------------------------------------------
48 3.793 3.955 4.064 4.145 4.209 4.261 4.304 4.341 4.374 4.402 4.427 4.450 4.470 4.489 4.506 4.521 4.535 4.548 4.561
60 3.762 3.922 4.030 4.111 4.174 4.226 4.270 4.307 4.340 4.368 4.394 4.417 4.437 4.456 4.474 4.489 4.504 4.518 4.530
80 3.732 3.890 3.997 4.077 4.140 4.192 4.236 4.273 4.306 4.335 4.360 4.384 4.405 4.424 4.442 4.458 4.473 4.487 4.500
120 3.702 3.858 3.964 4.044 4.107 4.158 4.202 4.239 4.272 4.301 4.327 4.351 4.372 4.392 4.410 4.426 4.442 4.456 4.469
240 3.672 3.827 3.932 4.011 4.073 4.125 4.168 4.206 4.239 4.268 4.294 4.318 4.339 4.359 4.378 4.394 4.410 4.425 4.439
Inf 3.643 3.796 3.900 3.978 4.040 4.091 4.135 4.172 4.205 4.235 4.261 4.285 4.307 4.327 4.345 4.363 4.379 4.394 4.408
------------------------------------------------------------------------------------------------------------------------------------------

Bảng 4. Critical Values of Correlation Coefficient (R)

Bảng giá trị cực trọng của hệ số tương quan (R)

No of No of
XY Degree of Freedom Confidence XY Degree of Freedom Confidence
Pairs (n - 2) Pairs (n - 2)
Số cặp Độ tự do Độ tin cậy Số cặp Độ tự do Độ tin cậy
XY (n) XY (n)
0.05 0.01 0.05 0.01
3 1 0.997 1 27 25 0.381 0.487
4 2 0.950 0.990 28 26 0.374 0.479
5 3 0.878 0.959 29 27 0.367 0.471
6 4 0.811 0.917 30 28 0.361 0.463
7 5 0.754 0.875 31 29 0.355 0.456
8 6 0.707 0.834 32 30 0.349 0.449
9 7 0.666 0.798 33 31 0.344 0.442
10 8 0.632 0.765 34 32 0.339 0.436
11 9 0.602 0.735 35 33 0.334 0.430
12 10 0.576 0.708 36 34 0.329 0.424
13 11 0.553 0.684 37 35 0.325 0.418
14 12 0.532 0.661 38 36 0.32 0.413
15 13 0.514 0.641 39 37 0.316 0.408
16 14 0.497 0.623 40 38 0.312 0.403
17 15 0.482 0.606 41 39 0.308 0.398
18 16 0.468 0.590 42 40 0.304 0.393
19 17 0.456 0.575 43 41 0.301 0.389
20 18 0.444 0.561 44 42 0.297 0.384
21 19 0.433 0.549 45 43 0.294 0.380
22 20 0.423 0.537 46 44 0.291 0.376
23 21 0.413 0.526 47 45 0.288 0.372
24 22 0.404 0.515 48 46 0.285 0.368
25 23 0.396 0.505 49 47 0.282 0.365
26 24 0.388 0.496 50 48 0.279 0.361

• Nguồn: Brighton Webs Ltd, 2006.

268
269

You might also like