You are on page 1of 19

2.

Phân tích điểm giống và khác nhau giữa ANOVA 1 chiều, ANOVA 2 chiều và
ANOVA trong Minitab
2.1 Khái quát về ANOVA 1 chiều [1]
Để hiểu về ANOVA 1 chiều thì trước tiên phân tích một ví dụ về so sánh năng suất
của ba giống lúa mì khác nhau. Giả thuyết nghiên cứu đưa ra là năng suất của các giống
lúa mì khác nhau và thực hiện kiểm định giả thuyết nghiên cứu này thì cần kiểm định giả
thuyết H0
H0: μ1 = μ2 = μ3
Ngược lại với giả thuyết H0, có giả thuyết nghịch là giả thuyết HA, tức là:
HA: μ1 ≠ μ2 hoặc μ1 ≠ μ3 hoặc μ2 ≠ μ3
Để kiểm tra giả thuyết nghiên cứu này thì ta cần trồng 3 giống lúa mì này trong
chậu, tạm gọi là Giống A, Giống B và Giống C. Với kết quả thu được được trình bày
dưới bảng sau (lặp lại thí nghiệm 4 lần)
Giống lúa mì Năng suất (g/chậu)
Giống A Lần 1 21,56
Lần 2 18,92
Lần 3 17,91
Lần 4 20,69
Trung bình 19,77
Giống B Lần 1 21,77
Lần 2 22,83
Lần 3 22,85
Lần 4 23,09
Trung bình 22,64
Giống C Lần 1 20,09
Lần 2 18,02
Lần 3 20,38
Lần 4 19,52
Trung bình 19,50
Từ kết quả thu được thì tính được giá trị trung bình về năng suất của mỗi giống lúa
mì. Giống A có năng suất trung bình là 19,77 (g/chậu), Giống B có năng suất trung bình
là 22,64 (g/chậu), Giống C có năng suất trung bình là 19,50 (g/chậu). Từ đó nếu muốn
đánh giá năng suất của các loại lúa mì này có khác nhau hay không thì chúng ta cần phải
phân tích ANOVA. Vậy cần tìm hiểu về ANOVA
ANOVA là viết tắt của ANALYSIS OF VARIANCE và có nghĩa là phân tích
phương sai hay còn gọi là kiểm định ANOVA là một kỹ thuật thống kê tham số được sử
dụng để so sánh các bộ dữ liệu. Nói một cách dễ hiểu, phân tích ANOVA có chức năng
đánh giá sự khác biệt tiềm năng trong một biến phụ thuộc mức quy mô bằng một biến
mức danh nghĩa có từ 2 loại trở lên. Các nhà phân tích sử dụng thử nghiệm ANOVA để
xác định ảnh hưởng của các biến độc lập đối với biến phụ thuộc trong nghiên cứu hồi
quy. Kỹ thuật kiểm định ANOVA này được phát triển bởi Ronald Fisher năm 1918.
Bản chất của phân tích ANOVA 1 chiều là đi xác định tỉ số sự khác nhau giữa các
nhóm trên sai số
Sự khác nhau giữa các nhóm
F=
Sai số

Thế nên, khi trở lại với ví dụ trên thì sự khác nhau giữa các nhóm chất là sự khác
nhau giữa các giống A, B và C, Còn sai số đó chính là sự biến động trong mỗi nhóm
nghiên cứu này. Vậy để xác định được sự khác nhau giữa các nhóm và sai số thì cần nhớ
rằng “phương sai” được sử dụng để đánh giá sự biến động, do đó, phương sai giữa các
nhóm có thể được sử dụng để xác định sự khác nhau giữa các nhóm nghiên cứu. Còn
phương sai trong các nhóm có thể được sử dụng để xác định sai số hay xác định sự biến
động trong mõi nhóm nghiên cứu này. Theo công thức tổng quát thì phương sai được tính
như sau
Tổng bình phương độ lệch
Phương sai =
Bậc tự do

Trong đó:
Tổng bình phương độ lệch hay còn gọi là tổng bình phương (SS T) bằng tổng bình
phương độ lệch giữa các nhóm (SS b) cộng với tổng bình phương độ lệch trong các nhóm
(SSe). Với SSb: biến động giữa các nhóm/cột (SSc)/công thức thí nghiệm. SSe: biến động
do sai số (error)/biến động trong các nhóm (SSw).
Sau khi đã xác định được tổng bình phương độ lệch giữa các nhóm (SS b) và tổng
bình phương độ lệch trong các nhóm (SSe) thì sẽ xác định được trung bình tổng bình
phương độ lệch giữa các nhóm (MSb) và trung bình tổng bình phương độ lệch trong các
nhóm (MSe) với công thức như sau:
SS (b)
MSb = , tương ứng với phương sai giữa các nhóm hay thể hiện sự khác nhau
df (b)
giữa các nhóm
SS (e)
MSe = , tương ứng với phương sai trong các nhóm hay thể hiện sai số
df (e)

MS( b) Trung bình tổng bình phương giữa các nhóm


Vì vậy, F =
MS (e)
= Trung bình tổng bình phương trong các nhóm
Nếu giá trị F càng lớn thì khả năng có sự khác nhau giữa các nhóm càng lớn.
Nếu F > Fcrit (giá trị F tới hạn) thì kết luận có sự khác nhau giữa các nhóm có ý
nghĩa thống kê.
Với ví dụ trên, khi chạy ANOVA 1 chiều trên phần mềm Excel thì thu được kết quả
như bên dưới
k: Số nhóm hay công thức thí nghiệm

N: Tổng số quan sát


Nhìn vào kết quả thu được thì giá trị p-value = 0,00809 < 0,05 nên kết luận có sự
khác nhau về năng suất giữa 3 nhóm lúa mì này.
Vậy ANOVA 1 chiều dùng khi so sánh giá trị trung bình của nhiều nhóm, nghĩa là
từ 2 nhóm trở lên. Nói cách khác dùng ANOVA 1 chiều khi muốn đánh giá mối liên quan
giữa một biến phụ thuộc là biến định lượng với một biến độc lập là biến phân loại có từ
hai nhóm trở lên [2].
Ví dụ về thời điểm sử dụng ANOVA một chiều
Tình huống 1: Bạn có một nhóm cá nhân ngẫu nhiên được chia thành các nhóm nhỏ
hơn và hoàn thành các nhiệm vụ khác nhau. Ví dụ, bạn có thể đang nghiên cứu tác dụng
của trà trong việc giảm cân và hình thành ba nhóm: trà xanh, trà đen và không trà.
Tình huống 2: Tương tự như tình huống 1, nhưng trong trường hợp này các cá nhân
được chia thành các nhóm dựa trên một thuộc tính mà họ sở hữu. Ví dụ, bạn có thể đang
nghiên cứu sức mạnh chân của mọi người theo trọng lượng. Bạn có thể chia người tham
gia thành các loại cân nặng (béo phì, thừa cân và bình thường) và đo sức mạnh chân của
họ trên máy tập.
ANOVA sẽ cho biết rằng có ít nhất hai nhóm khác biệt với nhau. Nhưng nó sẽ
không cho bạn biết nhóm nào khác nhau. Nếu thử nghiệm của bạn trả về một thống kê f
quan trọng, bạn có thể cần phải chạy thử nghiệm đặc biệt (như thử nghiệm Sự khác biệt
đáng kể nhất) để cho bạn biết chính xác những nhóm nào có sự khác biệt [3]
2.2 Khái quát về ANOVA 2 chiều [4]
Để hiểu về ANOVA 2 chiều thì trước tiên hãy lấy một ví dụ về ảnh hưởng của
giống và chế độ bón phân P đến năng suất của lúa mì. Giả thuyết cho nghiên cứu này là
giống (G) và chế độ bón P ảnh hưởng đến năng suất lúa mì. Để kiểm định giả thuyết
nghiên cứu này thì sẽ đi kiểm định giả thuyết H0 với các phát biểu sau:
Không có sự khác nhau về năng suất giữa các giống
Không có sự khác nhau về năng suất giữa các chế độ bón P
Không có tương tác giữa G x P
Sau khi thực hiện thí nghiệm thì ta thu được bảng kết quả như sau
Bón P Giống
A B C
P1 13,61 14,57 12,57
14,39 14,52 11,49
14,13 14,29 11,49
14,87 13,88 11,11
P2 21,56 21,77 20,09
18,92 22,83 18,02
17,91 22,85 20,38
20,69 23,09 19,52
Từ bảng kết quả này chúng ta có thể đặt ra câu hỏi: Liệu có sự khác nhau về năng
suất giữa các giống lúa mì hay có sự khác nhau về năng suất giữa các chế độ bón phốt
pho hay không. Để trả lời được những câu hỏi này thì thông thường việc đầu tiên ta thực
hiện là đi tính giá trị trung bình của mỗi giống và tính giá trị trung bình của mỗi chế độ
bón phốt pho rồi sau đó đi phân tích phương sai 2 yếu tố vì đây là một thí nghiệm chứa
hai yếu tố, một là giống, hai là chế độ bón phốt pho.
Trước khi phân tích phương sai thì cần phải hiểu bản chất của phân tích phương sai
hai yếu tố. Bản chất của phân tích phương sai hai yếu tố có 2 nội dung chính:
Nội dung thứ nhất: Phân tích sự biến động giữa các nhóm trong mỗi yếu tố nghiên
cứu.
Nội dung thứ hai: Phân tích sự tương tác giữa hai yếu tố.
Những phân tích này sẽ được thực hiện thông qua tính giá trị F c (giá trị F theo cột
hay trong trường hợp này tương ứng là theo giống), giá trị F c bằng tổng bình phương
trung bình theo cột hay phương sai giữa các giống chia cho phương sai trong các nhóm
hay còn gọi là sai số
MS( c)
Fc =
MS (e)

MSc: Phương sai giữa các giống


MSe: Phương sai trong các nhóm hay còn gọi là sai số
MS (r )
Fr =
MS( e)

MSc: Phương sai giữa các chế độ bón phốt pho (hàng)
MSe: Phương sai trong các nhóm hay còn gọi là sai số
MS (i )
Fi =
MS( e)

MSc: Phương sai do tương tác giữa giống và chế độ bón phốt pho
MSe: Phương sai trong các nhóm hay còn gọi là sai số
Nếu những giá trị F trên mà lớn hơn F crit tương ứng thì sẽ kết luận có sự khác nhau
có ý nghĩa thống kê hoặc là có sự tương tác giữa 2 yếu tố có ý nghĩa thống kê.
Cách tính các giá trị sẽ theo công thức trong bảng dưới đây
Nguồn phương SS df MS F
sai
Giống (cột) SSc dfc MS( c) MS( c)
MSc = Fc =
df (c) MS (e)

Bón P (hàng) SSr dfr SS (r ) MS (r )


MSr = Fr =
df (r ) MS( e)

Tương tác (G x SSi dfi SS (i) MS (i)


MSi = Fi =
P) df (i) MS( e)
Sai số (Error) SSe dfe SS (e)
MSe =
df (e)

Tổng (Total) SST dfT


Tính tổng bình phương (SST) của toàn bộ dữ liệu bằng tổng bình phương giữa các
cột (SSc)cộng tổng bình phương giữa các hàng (SSr) cộng tổng bình phương tương tác
(SSi)cộng tổng bình phương trong các nhóm (SSe)
SST = SSc + SSr + SSi + SSe

Sau khi tính toán ta sẽ thu được kết quả sau


Từ bảng trên sẽ kết luận được rằng có sự khác nhau về năng suất giữa các giống, có
sự khác nhau về năng suất giữa các chế độ bón P, có sự tương tác giữa giống và chế độ
bón P có ý nghĩa thống kê.
Từ ví dụ trên có thể hiểu ANOVA hai chiều như tên của nó biểu thị, là một thử
nghiệm giả thuyết trong đó việc phân loại dữ liệu dựa trên hai yếu tố. Ví dụ, hai cơ sở
phân loại cho chất lượng sản phẩm bánh cake trước hết dựa vào việc thay đổi công thức
nguyên liệu và thứ hai là thay đổi quy trình chế biến. Đây là một kỹ thuật thống kê được
sử dụng bởi nhà nghiên cứu để so sánh một số cấp độ (điều kiện) của hai biến độc lập liên
quan đến nhiều quan sát ở mỗi cấp độ. ANOVA hai chiều kiểm tra ảnh hưởng của hai
yếu tố đến biến phụ thuộc liên tục. Nó cũng nghiên cứu mối quan hệ giữa các biến độc
lập ảnh hưởng đến các giá trị của biến phụ thuộc, nếu có. Giả định của ANOVA hai
chiều: Phân phối bình thường của dân số mà từ đó các mẫu được rút ra. Đo lường biến
phụ thuộc ở mức liên tục. Hai hoặc nhiều hơn hai nhóm độc lập phân loại trong hai yếu
tố. Các nhóm độc lập phân loại nên có cùng kích thước. Độc lập quan sát. Tính đồng nhất
của phương sai của dân số [5].
2.3 So sánh ANOVA một chiều và ANOVA hai chiều, ANOVA trong Minitab
Giống: Đều là phân tích phương sai. Phân tích phương sai (ANOVA) là một công
thức thống kê được sử dụng để so sánh phương sai trên các phương tiện (hoặc trung bình)
của các nhóm khác nhau. Một loạt các tình huống sử dụng nó để xác định xem có sự khác
biệt nào giữa phương tiện của các nhóm khác nhau hay không.
Khác: Một chiều hoặc hai chiều đề cập đến số lượng các biến độc lập trong phân
tích kiểm tra phương sai của bạn. ANOVA một chiều đánh giá tác động của một yếu tố
duy nhất lên một biến phản hồi duy nhất. Nó xác định xem tất cả các mẫu có giống nhau
hay không. ANOVA một chiều được sử dụng để xác định liệu có bất kỳ sự khác biệt có ý
nghĩa thống kê nào giữa các phương tiện của ba hoặc nhiều nhóm độc lập (không liên
quan) hay không. ANOVA hai chiều là phần mở rộng của ANOVA một chiều. Với một
chiều, bạn có một biến độc lập ảnh hưởng đến một biến phụ thuộc. Với ANOVA hai
chiều, có hai phần tử độc lập. Ví dụ, ANOVA hai chiều cho phép một công ty so sánh
chất lượng sản phẩm bánh dựa trên hai biến số độc lập, chẳng hạn như nguyên liệu và giá
bán sản phẩm. Nó được sử dụng để quan sát sự tương tác giữa hai yếu tố và kiểm tra ảnh
hưởng của hai yếu tố cùng một lúc [6].
Sau khi chạy phần mềm Minitab thì ta được kết quả giá trị p cho độ cứng bánh nhỏ
hơn 0,05. Kết quả này chỉ ra rằng độ cứng của các loại bánh có sự khác biệt đáng kể. Kỹ
sư biết rằng một số phương tiện của nhóm là khác nhau. Kỹ sư sử dụng kết quả so sánh
Tukey để chính thức kiểm tra xem sự khác biệt giữa một cặp nhóm có ý nghĩa thống kê
hay không. Biểu đồ bao gồm khoảng tin cậy đồng thời Tukey cho thấy rằng khoảng tin
cậy cho sự khác biệt giữa giá trị trung bình của Blend 2 và 4 là 3,114 đến 15,886. Phạm
vi này không bao gồm số không, điều này cho thấy sự khác biệt giữa các phương tiện này
là đáng kể. Kỹ sư có thể sử dụng ước tính chênh lệch này để xác định xem liệu chênh
lệch có thực sự đáng kể hay không. Khoảng tin cậy cho các cặp phương tiện còn lại đều
bao gồm 0, điều này cho thấy sự khác biệt là không đáng kể. Giá trị R 2 dự đoán thấp
(24,32%) chỉ ra rằng mô hình tạo ra các dự đoán không chính xác cho các quan sát mới.
Sự không chính xác có thể là do quy mô của các nhóm nhỏ. Do đó, kỹ sư không nên sử
dụng mô hình để đưa ra những khái quát hóa ngoài dữ liệu mẫu [7].
3. BoxPlot
3.1 Định nghĩa BoxPlot
Biểu đồ hộp hay BoxPlot là một dạng đồ thị để mô tả số liệu định lượng thông qua
các khoảng tứ phân vị. Nó được phát minh bởi John Tukey vào năm 1977.
Boxplot là một kỹ thuật đồ họa mô tả, ở dạng truyền thống, năm bản tóm tắt số về
một tập dữ liệu để hình dung độ phân tán và độ lệch của nó. Các bản tóm tắt đó dựa trên
giá trị trung bình và tương ứng với quan sát nhỏ nhất, giá trị trung bình của nửa đầu dữ
liệu (phần tư thứ nhất, Q1), trung vị (phần tư thứ hai, Q2), giá trị trung bình của nửa sau
dữ liệu (phần ba phần tư, Q3), và quan sát lớn nhất. Khu vực giữa phần tư thứ nhất và
phần tư thứ ba được gọi là phạm vi liên phần tư và nó cho biết mức độ chênh lệch trong
dữ liệu (IQR = Q3 - Q1). IQR tương ứng trực quan với ô duy nhất trong màn hình và nó
bao gồm khoảng 50% các quan sát gần trung vị hơn. Các quan sát nhỏ nhất và lớn nhất là
những quan sát nằm ngoài đường (hoặc râu) kết nối IQR với giá trị nhỏ nhất hoặc lớn
nhất không phải là giá trị ngoại lệ (ví dụ: trong 1,5 lần IQR). Ngoài ra, đôi khi biểu đồ
truyền thống có thể bao gồm khoảng tin cậy gần đúng 95% xung quanh giá trị trung bình.
Biểu đồ hộp gồm 5 yếu tố: Median (trung vị), hinges (25% và 75% bách phân vị), fences,
whiskers, outliers [8].
3.2 Vai trò của Boxplot
Biểu đồ hộp rất hữu ích vì chúng cung cấp một bản tóm tắt trực quan về dữ liệu cho
phép các nhà nghiên cứu nhanh chóng xác định các giá trị trung bình, sự phân tán của tập
dữ liệu và các dấu hiệu của độ lệch.
Giáo sư Larsen đã mô tả việc xây dựng và giải thích các định dạng đồ họa này, cho
thấy các ứng dụng liên quan đến năng lượng liên kết, độ nóng của hình thành, độ nóng
của dung dịch và các sản phẩm hòa tan. Ông tuyên bố rằng việc trình bày dữ liệu dưới
dạng này cung cấp động lực đáng kể cho các "giải thích" mà chúng ta thường đưa ra cho
các xu hướng hóa học và vật lý. Theo ông, các bảng dữ liệu xuất hiện trong sách giáo
khoa nhập môn, đặc biệt là dữ liệu được sắp xếp theo thứ tự bảng chữ cái, có vẻ khá thiếu
thông tin và không thú vị, và nên đi kèm với một ô trống thể hiện nội dung của bảng dữ
liệu. Ông liên tục nhấn mạnh rằng việc đơn giản chỉ tìm kiếm các giá trị cao nhất và thấp
nhất và các nhóm cụ thể trong một bảng không tạo ra kết quả giống nhau và đưa ra manh
mối mà công việc thám tử số phân tích dữ liệu khám phá đạt được, và ông nói rằng “các
biểu đồ hộp có thể nhanh chóng được xây dựng và do đó cung cấp một phương tiện để
nhanh chóng đánh giá các giá trị dữ liệu tương đối trong một tập dữ liệu lớn (hoặc nhỏ)
bao gồm các đặc tính hóa học và vật lý [9].
3.3 Ứng dụng của Boxplot
Boxplot được sử dụng khá rộng rãi trong lĩnh vực hóa thực phẩm. Lĩnh vực này rất
quan trọng đối với cuộc sống của chúng ta và việc nghiên cứu nó nói chung yêu cầu phân
tích rất nhiều dữ liệu.
Boxplots đặc biệt hữu ích trong việc trình bày dữ liệu theo cách đồ họa, tạo điều
kiện thuận lợi cho việc so sánh, tìm kiếm xu hướng và cung cấp thêm thông tin chi tiết.
Người đọc được hướng dẫn để xác định thông qua hình hộp các đặc điểm chính có trong
một số thực phẩm liên quan đến các nguyên tố và phân tử vô cơ và được hình dung thông
qua trung gian, phần tư và ngoại lai, cùng mô tả hình dạng, xu hướng trung tâm và sự
biến đổi của phân bố.
Ví dụ 1: Trong ngành Thực phẩm và Đồ uống, nơi khối lượng và trọng lượng chiết
rót đóng vai trò quan trọng, loại biểu đồ này giúp dễ dàng nhìn thấy:
Làm đầy sản phẩm đến mức tối thiểu cần thiết
Khối lượng lấp đầy trung bình là bao nhiêu
Trường hợp rót ít hơn hoặc nhiều hơn yêu cầu
Biểu đồ hộp dưới đây hiển thị dữ liệu từ một nhà máy đóng chai đồ uống. Dữ liệu
cho thấy rõ ràng rằng đầu 2 và 6 đang lấp đầy khối lượng ít hơn các đầu khác, và đầu 6
thể hiện sự thay đổi nhiều nhất. Kỹ sư chất lượng có thể nhanh chóng thấy rằng những cái
đầu đó có thể cần được bảo trì hoặc điều chỉnh.

So sánh trực quan, dễ dàng cho phép phát hiện ra các điểm khác biệt và xác định vị
trí các điểm ngoại lệ gây ra vấn đề. Ngoài ra cũng có thể kiểm tra dữ liệu thực sự có trong
thông số kỹ thuật để tìm ra những lợi ích và tiết kiệm chi phí.
Ví dụ 2: Độ ngọt tương đối của đường và cồn đường đối với Sucrose [9]
Mono- và oligosaccharid và rượu đường tương ứng của chúng, với một vài ngoại lệ,
là ngọt. Sucrose được phân biệt với các loại đường khác bởi hương vị dễ chịu ngay cả ở
nồng độ cao và là chất tham chiếu thường được chọn để so sánh các chất tạo ngọt. Rượu
đường có trong một số loại trái cây và được sản xuất công nghiệp làm nguyên liệu thực
phẩm. Sự liên quan của một số rượu đường như chất tạo ngọt đối với chế độ ăn kiêng
nằm ở chỗ chúng chỉ được hấp thụ chậm và do đó, có thể được sử dụng trong thực phẩm
dành cho người tiểu đường, có giá trị calo sinh lý giảm và không gây ung thư về cường
độ của vị ngọt.

Hình 1. Boxplot cho độ ngọt tương đối của đường và rượu đường đối với đường
sucrose. Phần tư được gắn nhãn bên cạnh các hộp. D-Galactose, có độ ngọt tương đối là
63 (giá trị trung vị của tập dữ liệu), cho biết điểm giữa của độ ngọt tương đối. Một phân
loại được đề xuất theo độ ngọt tương đối: độ ngọt thấp (độ ngọt tương đối ≤ Q1), độ ngọt
trung bình (Q1 <độ ngọt tương đối <Q3) và độ ngọt cao (độ ngọt tương đối ≥ Q3).
Hình 1 xếp hạng các loại đường và rượu đường đối với sucrose theo độ ngọt tương
đối của chúng, mà sự phân bố các giá trị của chúng theo hình dạng hơi đối xứng với râu
ngắn. D-Galactose, có độ ngọt tương đối là 63 (giá trị trung vị của tập dữ liệu), cho biết
điểm giữa của thang độ ngọt. Có thể phân loại chất tạo ngọt thành ba loại chính liên quan
đến các phần tư. Một nhóm chất tạo ngọt có độ ngọt tương đối cao (≥Q3) bao gồm D-
fructose, xylitol, sucrose và đường nghịch đảo. Tất cả chúng đều là chất tạo ngọt quan
trọng trong chế biến thực phẩm, và một boxplot chỉ ra đặc điểm này, đó là khả năng làm
ngọt cao của chúng. Nhìn vào hình có thể thấy xylitol ngọt hơn sucrose và xylitol tạo ra
tác dụng làm mát trong miệng khi nó hòa tan. Hiệu ứng này được sử dụng trong một số
loại kẹo. Vì những lý do này, xylitol đã được sử dụng như một chất thay thế đường. Một
khoảng trống trong thang phân tách nhóm chất ngọt quan trọng này với các hợp chất khác
có độ ngọt kém hơn. Các chất có độ ngọt trung bình (Q1 <độ ngọt tương đối <Q3) bao
gồm D-glucose, D-mannitol, D-xylose, D-galactose, D-man mũi, D-sorbitol và maltose.
Nhóm chất ngọt thứ ba bao gồm các chất có độ ngọt tương đối thấp nhất (≤Q1), có các
chất là galactitol, lactose, D-rhamnose và raffinose. Trong cả ba loại chất tạo ngọt, chúng
ta có thể tìm thấy mono- và oligosaccharid và rượu đường. Không có mẫu nào được phân
loại là ngoại lệ, không bên trên hộp cũng như bên dưới hộp.
Ví dụ 3: Hàm lượng Kali của trái cây và rau quả [9]
Các chất khoáng được phân loại là các nguyên tố chính, bao gồm kali, rất cần thiết
cho con người với lượng> 50 mg mỗi ngày. Tầm quan trọng của các chất khoáng làm
nguyên liệu thực phẩm không chỉ phụ thuộc vào vai trò dinh dưỡng và sinh lý của chúng.
Chúng cũng góp phần vào hương vị thực phẩm và kích hoạt các phản ứng xúc tác bởi
enzym và các phản ứng khác, và chúng ảnh hưởng đến kết cấu của thực phẩm. nói chung,
rau có hàm lượng kali cao hơn trái cây. Trên thực tế, trái cây thường ít giàu khoáng chất
hơn rau. Kết luận này được rút ra từ vị trí hơi phía trên của hộp và râu liên quan đến rau
và phần trung bình lớn hơn của chúng, cho biết điểm giữa của sự phân bố khoáng chất.
Các tác giả đề xuất, với ví dụ này, phân loại rau quả theo hàm lượng kali: hàm lượng kali
thấp (≤Q2 đối với trái cây), hàm lượng kali trung bình (giữa Q2 đối với trái cây và Q3 đối
với rau) và hàm lượng kali cao (> Q3 đối với các loại rau, trừ đậu lăng, được xếp vào loại
có hàm lượng kali rất cao, 837 mg).

Hình 2. Trái cây và rau được sử dụng để tạo ra các biểu đồ hộp trong Hình 3
Hình 3. Các hộp chứa hàm lượng kali của một số loại trái cây và rau quả được liệt
kê trong Hình 2. Phần tư được dán nhãn bên cạnh các hộp. Thực phẩm nổi bật là có hàm
lượng khoáng chất này rất cao là đậu lăng. Trái cây thường ít giàu kali hơn rau. Một phân
loại được đề xuất cho trái cây và rau theo hàm lượng kali: hàm lượng kali thấp (≤Q2 đối
với trái cây), hàm lượng kali trung bình (giữa Q2 đối với trái cây và Q3 đối với rau), và
hàm lượng kali cao (> Q3 đối với rau, ngoại trừ đậu lăng, được phân loại là có hàm lượng
kali rất cao, 837 mg).
Hình 4. Phân loại trái cây và rau quả theo hàm lượng kali được xác định trong Hình
3
Trong Hình 4, các loại trái cây và rau quả được liệt kê theo phân loại mà chúng
nhận được trên cơ sở hàm lượng kali mà chúng có. Theo tiêu chí này, chúng ta có thể nói
rằng các loại rau có hàm lượng kali cao bao gồm rau bina, cải xoăn và cải bruxen. Tuy
nhiên, ví dụ như khoai tây, cà rốt, đậu Hà Lan và cà chua có hàm lượng trung bình trong
khoáng chất này. Về trái cây, quả lý chua đen, quả lý chua đỏ, hồng hông, mơ và mận có
thể được phân loại là có hàm lượng kali trung bình, trong khi cam, dâu tây, bưởi và táo,
chẳng hạn, có hàm lượng kali thấp. Không có trái cây nào được xếp vào loại có hàm
lượng kali cao. Ngoài ra, không có loại rau nào được xếp vào loại nghèo chất khoáng
này.
Với việc xem xét hình dạng của sự phân bố kali trong các loại thực phẩm được khảo
sát, Hình 3 mô tả một hộp rau quả có phần đối xứng hơn. Tuy nhiên, biểu đồ hộp cho trái
cây thiếu tính đối xứng, bị lệch phải xung quanh đường trung bình, vì phần mở rộng giữa
Q1 và Q2 ngắn hơn về mặt trực quan so với phần mở rộng giữa Q2 và Q3. Trong ví dụ
này, việc so sánh hàm lượng kali trong trái cây và rau quả cho thấy một trong những lợi
thế của hộp. Chúng cho phép so sánh hai hoặc nhiều tập dữ liệu cạnh nhau (song song).
Trong khi so sánh, chúng tôi quan sát sự phân bố của các giá trị. Mức độ giống nhau liên
quan đến các tập dữ liệu được đo lường định tính bằng sự chồng chéo của các hộp.
Ví dụ 4: Thành phần axit amin của lòng trắng trứng và lòng đỏ trứng [9]
Trứng gà là một trong những loại thực phẩm cung cấp protein hoàn hảo của tự
nhiên. Hơn nữa, protein có nguồn gốc động vật, chẳng hạn như protein trứng, được sử
dụng rộng rãi trong thực phẩm chế tạo. Hình 5A, B cho thấy các boxplot đối với hàm
lượng axit amin có trong lòng trắng và lòng đỏ trứng. Có thể thấy rằng glutamine là thành
phần chính trong cả hai phần của trứng. Thật thú vị khi phân tích cụ thể loại axit amin
này. Hàng rào phía trên trong ô vuông đối với lòng trắng trứng (đường đứt nét phía trên
ô) nằm ở Q3 + 1,5 × IQR (0,77 + 1,5 × 0,36 = 1,31). Tuy nhiên, điểm cho glutamine nằm
ở mức 1,52. Sau đó, axit amin này nằm ngoài hàng rào và phải được phân loại là yếu tố
ngoại lai. Bây giờ chúng ta hãy xem xét ô hộp cho lòng đỏ trứng. Hàng rào phía trên nằm
ở Q3 + 1,5 × IQR (1,18 + 1,5 × 0,65 = 2,16), nhưng điểm cho glutamine nằm ở 1,95,
trong hàng rào. Sau đó, axit amin này không được phân loại là ngoại lai, mặc dù hàm
lượng axit amin trong trường hợp này lớn hơn trong trường hợp trước. Vì vậy, trở thành
một ngoại lệ hay không phụ thuộc vào tập dữ liệu. Thực tế là glutamine nằm ngoài lòng
trắng trứng có nghĩa là glutamine có mặt với số lượng lớn hơn nhiều so với các axit amin
khác.

Hình 5. Boxplot cho hàm lượng axit amin có trong lòng trắng trứng (A) và lòng đỏ
trứng (B). Các phần tư được dán nhãn bên cạnh hộp và các axit amin thiết yếu được viết
bằng màu đỏ. Một phân loại được đề xuất cho các axit amin theo hàm lượng chúng có
trong lòng trắng và lòng đỏ trứng. Trong lòng trắng trứng có các axit amin ở hàm lượng
thấp (≤Q1), hàm lượng trung bình (từ Q1 đến Q1 + 1,5 × IQR) và hàm lượng cao (> Q3 +
1,5 × IQR). Trong lòng đỏ trứng có các axit amin với hàm lượng thấp (≤Q1), hàm lượng
trung gian (giữa Q1 và Q3), và hàm lượng cao (> Q3).
Boxplot cho lòng trắng trứng hơi lệch âm so với lòng đỏ trứng. Axit amin trong
lòng đỏ trứng có một lượng lớn hơn một chút so với trong lòng trắng trứng vì chúng ta có
thể lưu ý bằng cách so sánh vị trí tương đối của hộp, râu và trung bình (0,64 g, lòng trắng
trứng và 0,83 g, lòng đỏ trứng). Hơn nữa, thứ tự mà chúng được xếp hạng không có sự
khác biệt lớn về vị trí giữa lòng trắng và lòng đỏ trứng. Với ví dụ này, các tác giả đề xuất
phân loại axit amin theo hàm lượng mà chúng có trong lòng trắng và lòng đỏ trứng.
Trong lòng trắng trứng (Hình 5A), các axit amin có ở hàm lượng thấp (≤Q1) là histidine,
tryptophan, glycine, cysteine và proline; nội dung trung gian (giữa Q1 và Q3 + 1,5 ×
IQR) bao gồm valine, leucine, asparagine, phenylalanine, lysine, isoleucine, alanine,
serine, threonine, methionine, tyrosine và arginine; hàm lượng cao (> Q3 + 1,5 × IQR)
chỉ bao gồm glutamine. Trong lòng đỏ trứng (Hình 5B), các axit amin có hàm lượng thấp
(≤Q1) là tryptophan, methionine, histidine và cysteine; nội dung trung gian (giữa Q1 và
Q3) bao gồm valine, lysine, isoleucine, arginine, threonine, phenylalanine, tyrosine,
proline, glycine và alanine. Hàm lượng cao (> Q3) bao gồm glutamine, leucine, serine và
asparagine.
Ví dụ 5: Thành phần protein và thành phần chất béo của cá nước ngọt và nước mặn
[9]

Hình 6. Cá nước ngọt và nước mặn được sử dụng để tạo ô vuông trong Hình 7
Cá và các sản phẩm từ cá đóng một vai trò quan trọng trong dinh dưỡng của con
người như một nguồn cung cấp protein, chất béo và vitamin tan trong chất béo có giá trị
sinh học. Chúng đặc biệt được tiêu thụ mạnh bởi những người sống gần sông hoặc bờ
biển. Trong ví dụ này, mục tiêu là phân tích xem môi trường mà cá được tìm thấy có ảnh
hưởng đến hàm lượng protein và chất béo có trong thịt cá hay không. Hình 6 liệt kê các
loài từ cả hai lớp được điều tra. Nhìn nhanh vào Hình 7 cho thấy thành phần chất béo của
các loại cá được liệt kê trong Hình 6 thay đổi rất nhiều so với hàm lượng protein. Một
quan sát khác là phân phối các giá trị cho hàm lượng chất béo bị lệch thuận, như chúng ta
có thể thấy bởi thanh ngang hoặc trung vị rất gần với Q1 và bởi râu dài hơn phía trên hộp
và râu ngắn bên dưới hộp. Điều này cho thấy rằng 50% loài thấp nhất trong số các loài cá

được xếp hạng có phạm vi hẹp về thành phần chất béo trong khi con số này ngược lại là
50%.
Hình 7. Các boxplot cho thành phần hóa học (protein và chất béo) của cá nước ngọt
và nước mặn. Xảy ra sự chồng chéo của các boxplot cho mỗi thành phần thực phẩm; do
đó, không có sự khác biệt trực quan về thành phần dinh dưỡng giữa cá nước ngọt và cá
nước mặn về thịt của cả hai loại cá. Sự thay đổi về thành phần đối với chất béo lớn hơn
so với protein.
Kết quả cũng cho thấy sự chồng chéo của các hộp cho từng thành phần thực phẩm.
Lập luận này được hỗ trợ bởi thực tế là có sự tương đồng lớn về hình dạng và vị trí trong
ô hộp khi chúng ta so sánh cả hai loại cá. Trên thực tế, các giá trị trung gian cho thành
phần protein đều giống nhau. Đối với thành phần chất béo, các chất trung gian cũng
tương tự. Bây giờ so sánh các chỉ số IQR, những điểm tương đồng vẫn tiếp tục. Sau đó,
ấn tượng trực quan đầu tiên là thành phần dinh dưỡng giữa cá nước ngọt và cá nước mặn
về thịt khi xét đến hàm lượng protein và chất béo là tương tự nhau. Rõ ràng, sự khác biệt
có thể tồn tại khi chỉ một số loài được so sánh. Thật kỳ lạ, lươn được đánh giá là ngoại lệ
vì có hàm lượng protein thấp nhất nhưng hàm lượng chất béo cao nhất trong số các loài
cá nước ngọt. Với ví dụ này, các tác giả đề xuất phân loại cá theo hàm lượng chất béo mà
chúng có trong cá nước ngọt và nước mặn (Hình 8 và Hình 9). Cá nước ngọt có hàm
lượng chất béo rất thấp (≤Q2 đối với cá nước mặn) bao gồm cá rô, zander, tench, pike, và
smelt. Hàm lượng chất béo thấp (giữa Q2 đối với cá nước mặn và Q3 đối với cá nước
ngọt) bao gồm cá chép và cá hồi sông. Xét hàm lượng chất béo cao (> Q3 đối với cá nước
ngọt), chúng ta có cá hồi và cá chình. Việc phân loại cá nước mặn khá giống nhau. Các
loại cá nước mặn có hàm lượng chất béo rất thấp bao gồm cá tuyết, cá tuyết chấm đen, cá
linh, cá chim, cá bơn, cá bơn, cá bơn (mông) và cá bơn (giòn). Hàm lượng chất béo thấp
bao gồm cá trích (biển Baltic), cá hake, cá đá và cá mòi. Xem xét hàm lượng chất béo
cao, các ví dụ là cá trích (Đại Tây Dương), cá thu và cá ngừ.

Hình 8. Biểu đồ hộp cho thành phần chất béo của cá nước ngọt và nước mặn. Phần
tư được gắn nhãn bên cạnh các hộp. Một phân loại được đề xuất cho cá nước ngọt và
nước mặn theo hàm lượng chất béo: hàm lượng chất béo rất thấp (≤Q2 đối với cá nước
mặn), hàm lượng chất béo thấp (giữa Q2 đối với cá nước mặn và Q3 đối với cá nước
ngọt) và hàm lượng chất béo cao (> Q3 đối với cá nước ngọt).

Hình 9. Phân loại cá nước ngọt và cá nước mặn theo hàm lượng chất béo được xác
định trong Hình 8.
Ví dụ 6: Sự khác biệt về thành phần axit béo của các loại dầu đậu nành khác nhau [9]
Việc canh tác bằng kỹ thuật truyền thống và kỹ thuật di truyền đã giúp phát triển
các kiểu gen đậu tương có thành phần axit béo đáp ứng các nhu cầu khác nhau đối với
các loại dầu ăn bởi vì các loại dầu riêng biệt có thể chất riêng biệt tính chất hóa học và
khía cạnh dinh dưỡng. Ứng dụng cuối cùng của boxplot này nhằm chỉ ra cách đồ họa này
có thể được sử dụng để phân tích sự phát triển của một quá trình theo các kỹ thuật khác
nhau. Do đó, một trường hợp liên quan đến sự thay đổi thành phần của các axit béo trong
dầu đậu nành được biến đổi thông qua các kỹ thuật khác nhau để tạo ra các loại dầu mới
được trình bày. Các axit béo được phân tích là palmitic (16: 0, bão hòa), stearic (18: 0,
bão hòa), oleic (18: 1, không bão hòa), linoleic (18: 2, không bão hòa) và linolenic (18: 3,
không bão hòa). Các boxplot cho dầu có độ bão hòa thấp (Hình 10B) hiển thị thành phần
thấp cho cả axit palmitic (bão hòa) và axit stearic (bão hòa). So với dầu thông thường
(Hình 10A), sự giảm thành phần của axit palmitic là từ khoảng 10% (dầu thông thường)
xuống còn khoảng 5% (dầu bão hòa thấp). Một nhận xét khác là thành phần của axit oleic
tăng lên. Sự thay đổi thành phần axit béo như vậy có thể có tầm quan trọng lớn vì axit
oleic có liên quan đến cholesterol trong lipoprotein tỷ trọng thấp (LDL). Một điểm khác
cần xem xét là các loại dầu thông thường và có độ bão hòa thấp có các ô hộp có hình
dạng rất giống nhau: chúng bị lệch thuận về sự phân bố các giá trị đối với thành phần axit
béo trong dầu được khảo sát. Trong dầu có hàm lượng stearic cao (Hình 10C), axit stearic
được xếp ở vị trí trung bình. Thành phần của axit béo này tăng từ giá trị nhỏ hơn 5% (dầu
thông thường) lên 20% (dầu stearic cao). Đó là một sự gia tăng đáng kể: trong dầu thông
thường, axit stearic xếp hạng thấp nhất về thành phần nhưng lại xếp thứ ba trong dầu có
hàm lượng stearic cao. Đối với dầu này, sự phân bố các giá trị cho thành phần của các
axit béo tuân theo một hình dạng hơi đối xứng.
Hình 10. Biểu đồ hộp cho thành phần axit béo của dầu đậu nành thông thường (A),
ít bão hòa (B) và cao stearic (C) thông qua canh tác truyền thống hoặc sử dụng kỹ thuật
công nghệ gen. Một sự thay đổi rõ ràng về thứ hạng của thành phần xảy ra khi dầu bình
thường được biến đổi thành dầu có độ bão hòa thấp và dầu có hàm lượng stearic cao.
Từ những điều trên đề xuất phân loại axit béo theo hàm lượng chúng có trong dầu.
Vì vậy, trong dầu thông thường, axit palmitic, linolenic và stearic có mặt với số lượng
thấp (≤Q2); chỉ có axit oleic được tìm thấy với số lượng trung bình (giữa Q2 và Q3), và
chỉ axit linoleic được tìm thấy với số lượng cao (> Q3). Đối với dầu có độ bão hòa thấp,
có thể áp dụng cách phân loại tương tự. Trong dầu stearic cao, axit palmitic và axit
linolenic có mặt với số lượng thấp (khoảng Q1); axit oleic và axit stearic được tìm thấy
với số lượng trung bình (khoảng Q2), và chỉ axit linoleic được tìm thấy với số lượng cao
(> Q3).
[1] Learn to do Science. [Trực tuyến]. Địa chỉ: https://www.youtube.com/watch?
v=JWiznZZEjBw
[2] Lê Thị Kim Anh. [Trực tuyến]. Địa chỉ: https://www.youtube.com/watch?
v=_12oDZLKPL8&ab_channel=LeThiKimAnh
[3] Miller, R. G. Beyond ANOVA: Basics of Applied Statistics. Boca Raton, FL:
Chapman & Hall, 1997
[4] Learn to do Science. [Trực tuyến]. Địa chỉ: https://www.youtube.com/watch?
v=87dDLjh-EDM&t=83s
[5] Sự khác biệt giữa một chiều và hai chiều ANOVA. [Trực tuyến]. Địa chỉ:
https://vi.gadget-info.com/difference-between-one-way.
[6] Will Kenton. Analysis of Variance (ANOVA), 2022. [Trực tuyến]. Địa chỉ:
https://www.investopedia.com/terms/a/anova.asp.
[7] Example of One-Way ANOVA. [Trực tuyến]. Địa chỉ:
https://support.minitab.com/en-us/minitab/18/help-and-how-to/modeling-statistics/
anova/how-to/one-way-anova/before-you-start/example/.
[8] McGill, R., Tukey, J., & Larsen, W. A. (1978). Variations of boxplots.
American Statistician, 32 (1), 12-16.
[9] Joao E. V. Ferreira, Ricardo M. Miranda, Antonio F. Figueiredo, Jardel P.
Barbosa and Edykarlos M. Brasil. Box-and-Whisker Plots Applied to Food Chemistry. J.
Chem. Educ. 2016, 93, 2026−2032.

You might also like