You are on page 1of 30

I.

Phân tích ảnh hưởng của các tính chất hóa- lý đến chất lượng (cảm quan)
của rượu vang trắng

Axit citric: được tìm thấy với số lượng nhỏ có thể thêm 'độ tươi' và hương vị cho
rượu vang trắng. Lượng axit citric tính bằng g/dm3 nằm trong khoảng từ 0 đến
1,66. Biểu đồ ít nhiều thể hiện phân phối bình thường.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.2700 0.3200 0.3342 0.3900 1.6600
Đường dư là lượng đường còn lại sau khi ngừng lên men, hiếm khi tìm được loại
rượu có hàm lượng dưới 1 gam/lít và loại rượu có hàm lượng lớn hơn 45 gam/lít
được coi là ngọt. Lượng đường còn lại tối đa và tối thiểu được tìm thấy trong rượu
lần lượt là 0,6 và 65. Biến số đường còn lại là một phân phối đuôi bị lệch về bên
phải. Do sự phân bố của lượng đường còn lại rất sai lệch nên hàm scale_x log10
được sử dụng để xem rõ ràng hơn.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.600 1.700 5.200 6.391 9.900 65.800
Clorua cho biết lượng muối (Natri Clorua, g/dm3) có trong rượu. Trong tập dữ liệu,
giá trị nằm trong khoảng từ 0,009 đến 0,34. Biểu đồ cho Clorua mô tả rằng phân
phối hiển thị bình thường.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00900 0.03600 0.04300 0.04577 0.05000 0.34600
Lưu huỳnh đioxit tự do là dạng SO2 tự do (tính bằng mg/dm 3) tồn tại ở trạng thái
cân bằng giữa phân tử SO2 (dưới dạng khí hòa tan) và ion bisulfite; nó ngăn chặn
sự phát triển của vi sinh vật và quá trình oxy hóa rượu vang. Giá trị của rượu vang
trắng nằm trong khoảng từ 2,0 đến 289. Biểu đồ biểu thị phân bố bình thường đối
với sulfur dioxide. Nhóm chúng em đã sử dụng phân vị 95 để có một bức tranh rõ
ràng hơn và loại bỏ các giá trị ngoại lai.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 23.00 34.00 35.31 46.00 289.00
Tổng sulfur dioxide là tổng lượng SO2 dạng tự do và dạng liên kết: ở nồng độ
thấp, SO2 hầu như không thể phát hiện được trong rượu, nhưng ở nồng độ SO2 tự
do trên 50 ppm, SO2 trở nên rõ ràng trong mũi và vị của rượu. Tóm tắt cho biến
hiển thị giá trị tối đa và tối thiểu lần lượt là 9,0 đến 440 tính bằng mg/dm 3. Biểu đồ
biểu thị gần với phân phối bình thường hơn.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.0 108.0 134.0 138.4 167.0 440.0
Mật độ của rượu nằm trong khoảng từ 0,9871 đến 1,039 tính bằng g/cm 3, biểu đồ
mô tả sự phân bố bình thường của mật độ thay đổi
Độ pH mô tả mức độ axit hoặc cơ bản của rượu vang trên thang điểm từ 0 (rất axit)
đến 14 (rất cơ bản); hầu hết các loại rượu vang trắng nằm trong khoảng từ 3-4 trên
thang độ pH. Giá trị của pH trong khoảng quan sát nằm trong khoảng từ 2,720 đến
3,82. Biểu đồ thể hiện sự phân bố bình thường đối với pH được nhóm em biểu
diễn:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.720 3.090 3.180 3.188 3.280 3.820

Sulphate là một chất phụ gia rượu vang có thể góp phần làm tăng nồng độ khí
sulfur dioxide (S02), hoạt động như một chất kháng khuẩn và chống oxy hóa.
Lượng sunfat trong rượu dao động từ 0,22 đến 1,08. Biểu đồ cho thấy sự phân bố
hàm lượng Sulphate trong rượu vang trắng gần như bình thường. Để giới hạn trục
x cho vừa với dữ liệu, chúng em đã áp dụng phân vị 95 để xem hình ảnh rõ nét.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2200 0.4100 0.4700 0.4898 0.5500 1.0800
Phần trăm nồng độ cồn của rượu tính bằng ppm (phần triệu) là biến đầu vào khác,
nó thay đổi từ 8,0 đến 14,2. Biểu đồ cho thấy một phân phối lệch sang bên phải.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 9.50 10.40 10.51 11.40 14.20
Thuộc tính cuối cùng của biến trong tập dữ liệu là chất lượng, đây là biến đầu ra bị
ảnh hưởng bởi sự kết hợp của biến đầu vào khác. Độ axit dễ bay hơi cho biết lượng
axit axetic có trong rượu, hàm lượng của nó nằm trong khoảng từ 0,08 đến 1,1 tính
bằng gm/ dm3.
Nhóm chúng em đã thực hiện vẽ biểu đồ cho độ axit dễ bay hơi được tìm thấy
trong rượu vang trắng cho toàn bộ tập dữ liệu nhóm đã quan sát. Lượng axit axetic
trong rượu chủ yếu bị ràng buộc trong khoảng từ 0,1 đến 0,8 như được mô tả bằng
biểu đồ dưới đây:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.878 6.000 9.000
Bộ dữ liệu được cung cấp này chứa 12 biến số và 11 trong số đó là biến số đầu vào
hóa lý ảnh hưởng đến thử nghiệm hoặc chất lượng của rượu vang trắng. Vì vậy,
bên dưới, chúng em đã cố gắng xem các biến đầu vào này có liên quan như thế nào
với biến (chất lượng) đầu ra bằng cách sử dụng biểu đồ hộp vẽ từng biến đầu vào
để đánh giá lại chất lượng của rượu vang trắng.
Và chúng em nhận thấy được mối quan hệ giữa chất lượng và các biến đầu vào
khác được định lượng bằng cách tính toán sự kết hợp.
Hệ số tương quan giữa độ cồn và chất lượng rượu vang trắng là 0,4355747 cho
thấy có mối tương quan thuận.
Boxplot cho thấy hầu hết chất lượng của rượu vang trong quan sát đều ở mức chất
lượng 5,6 và 7. Boxplot cũng hiển thị ngoại lệ trong tập dữ liệu. Mô hình tuyến
tính cũng cho thấy tồn tại mối tương quan tích cực giữa rượu và chất lượng.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$alcohol
## t = 33.858, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4126015 0.4579941
## sample estimates:
## cor
## 0.4355747
Hệ số tương quan là -0,1136628, cho thấy mối tương quan nghịch giữa chất lượng
và độ axit cố định. Biểu đồ hộp do nhóm thực hiện hiển thị được các ngoại lệ trong
tập dữ liệu đối với hầu hết các mức chất lượng. Mô hình tuyến tính cũng cho thấy
mối tương quan nghịch giữa độ axit cố định và chất lượng. Mức chất lượng 5, 6 và
7 cho thấy hầu hết các quan sát ở mức này chứa axit cố định trong khoảng từ 4 đến
9.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$fixed.acidity
## t = -8.005, df = 4896, p-value = 1.48e-15
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.14121974 -0.08592991
## sample estimates:
## cor
## -0.1136628

Mối tương quan rất yếu hoặc không có giữa axit xitric và chất lượng, hệ số tương
quan được cho là -0,009209091.
Boxplots cho trường hợp này cho thấy rằng hầu hết các quan sát trong rượu vang
trắng có chứa axit xitric trong khoảng từ 0,2 đến 0,75 và cũng có nhiều giá trị
ngoại lệ trong bộ dữ liệu.
Tồn tại mối tương quan nghịch giữa chất lượng và lượng đường dư. Mặc dù lượng
đường tái chế lên tới 60, nhưng hầu hết các quan sát đều cho thấy lượng đường còn
lại dưới 20. Mô hình tuyến tính cho thấy mối tương quan âm giữa chất lượng và
lượng đường còn lại. Chức năng coord cartesian được sử dụng để loại bỏ các ngoại
lệ để có cái nhìn tốt hơn về cốt truyện.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$residual.sugar
## t = -6.8603, df = 4896, p-value = 7.724e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.12524103 -0.06976101
## sample estimates:
## cor
## -0.09757683
Tương quan nghịch giữa chất lượng và clorua với hệ số tương quan là -0,2099344.
Nhiều quan sát về clorua rơi vào trường hợp ngoại lệ, lượng clorua trong bộ dữ
liệu dưới 0,1 đối với hầu hết các quan sát.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$chlorides
## t = -15.024, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2365501 -0.1830039
## sample estimates:
## cor
## -0.2099344
Một mối tương quan tích cực yếu giữa free.surfur.dioxide và chất lượng. Boxplot
chỉ ra rằng trong phần lớn thời gian quan sát, free.sulfur.dioxide thấp hơn 100, mặc
dù nó lên tới 300 đối với một số quan sát, đây là một ngoại lệ.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$free.sulfur.dioxide
## t = 0.57085, df = 4896, p-value = 0.5681
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.01985292 0.03615626
## sample estimates:
## cor
## 0.008158067
Mối tương quan nghịch giữa tổng lượng sulfur dioxide và chất lượng. Hệ số tương
quan giữa chất lượng và tổng.sulfur dioxide là 0,00815, đây là một mối quan hệ rất
yếu. Mặc dù vậy, sự kiện, các giá trị cao tới 400, boxplot cho thấy rằng hầu hết các
quan sát tổng lượng sulfer dioxide đều dưới 250.

##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$total.sulfur.dioxide
## t = -12.418, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2017563 -0.1474524
## sample estimates:
## cor
## -0.1747372
Tuy nhiên, mối tương quan giữa mật độ và chất lượng là âm với hệ số tương quan
là -0,3071233.
Từ biểu đồ hình hộp, nhóm em đã nhận ra rằng trong hầu hết các quan sát, tỷ trọng
của rượu nhỏ hơn 1, nhỏ hơn tỷ trọng của nước. Ngoài ra còn có một số quan sát
mật độ ngoại lệ trong khi mức chất lượng là 6.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$density
## t = -22.581, df = 4896, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3322718 -0.2815385
## sample estimates:
## cor
## -0.3071233

Tương quan thuận giữa chất lượng và pH của rượu vang trắng với hệ số tương
quan là 0,09942725.
Boxplot cho thấy có nhiều ngoại lệ và độ pH của hầu hết các quan sát nằm trong
khoảng từ 3 đến 3,3, đó là loại có tính axit.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$pH
## t = 6.9917, df = 4896, p-value = 3.081e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.07162022 0.12707983
## sample estimates:
## cor
## 0.09942725
Tồn tại mối tương quan thuận giữa chất lượng và và chất phụ gia trong rượu vang
trắng, hệ số tương quan là 0,05367788.
Các biểu đồ nhóm em thực hiện mô tả rằng có nhiều ngoại lệ trong tập dữ liệu
quan sát. Hầu hết các quan sát có chứa mức sulphate cao hơn rơi xuống mức chất
lượng cho 5,6 và 7.
##
## Pearson's product-moment correlation
##
## data: wht_wine_quality$quality and wht_wine_quality$sulphates
## t = 3.7613, df = 4896, p-value = 0.000171
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.02571007 0.08156172
## sample estimates:
## cor
## 0.05367788

Tóm tắt lớp phủ với biểu đồ dữ liệu thô hiển thị biểu đồ dữ liệu thô về chất lượng
và rượu. Biểu đồ cũng phủ biểu đồ của giá trị trung bình lớn (tức là giá trị trung
bình của nồng độ cồn trong rượu đối với từng loại hoặc cấp độ), đường màu đen,
phân vị thứ 50, đường màu xanh lá cây, phân vị thứ 10, đường màu xanh lam và
phân vị thứ 90 , vạch đỏ cho từng hạng mục chất lượng rượu vang trắng. Tất cả các
biểu đồ cho thấy rằng có sự gia tăng về lượng cồn hiện diện trong rượu vang đối
với các mức chất lượng trên 5.
Tóm lại, những phân tích trên đã chỉ ra rằng chất lượng của rượu vang trắng phụ
thuộc vào các biến số lý hóa đầu vào. Chất lượng của rượu vang có mối tương
quan thuận với rượu, free.sulfur.dioxide, sulphate và pH và nó có mối tương quan
nghịch với các biến số đầu vào hóa lý khác. Mối tương quan giữa từng biến không
phải là mạnh mà tất cả các hệ số tương quan đều dưới 0,5 về mặt tuyệt đối, ngoại
lệ là có mối tương quan chặt chẽ giữa mật độ và tổng.sulfur dioxide trên 0,8.
III. Xây dựng mô hình dự báo chất lượng rượu vang trắng và kiểm định chất
lượng dự báo mô hình

Dựa trên phân tích trong phần trước, dường như không có bất kỳ mối quan hệ
tuyến tính đơn giản nào giữa chất lượng và các đặc tính hóa lý.
Nếu quan sát này là chính xác, mô hình hồi quy tuyến tính sẽ không hoạt động tốt
về mặt dự đoán chất lượng theo các đặc tính hóa lý. Vì vậy, nhóm em xác định bắt
đầu từ đó để xác nhận nó.
Nhóm em thực hiện xác định tất cả các công thức được sử dụng trong phần này và
một hàm tiện ích để tóm tắt hiệu suất của mô hình.
# Original numeric variable prediction
fml1 <- as.formula(paste("quality", "~",
paste(INDEPENDENT, collapse=' + ')))
# As a classification prediction
fml2 <- as.formula(paste("quality.f", "~",
paste(INDEPENDENT, collapse=' + ')))
# As a simpler classification ("bad", "normal", "good") prediction
fml3 <- as.formula(paste("quality.f2", "~",
paste(INDEPENDENT, collapse=' + ')))
# Extreme case detection for excellent ones
fml.e <- as.formula(paste("excellent", "~",
paste(INDEPENDENT, collapse=' + ')))
# Extreme case detection for inferior ones
fml.i <- as.formula(paste("inferior", "~",
paste(INDEPENDENT, collapse=' + ')))
describePerformance <- function(org, pred) {
cat("[Contingency Table]\n")
print(table(org, pred))
cat("\n")

cat("[Contingency Table by Proportion]\n")


print(round(prop.table(table(org, pred), 1), 3))
cat("\n")

cat("[Overall Accuracy]\n")
cat(sum(org == pred) / length(org) * 100, '%')
cat("\n\n")

cat("[Cohen's kappa]\n")
kp <- cohen.kappa(cbind(org, pred))
cat("Unweighted:", kp$kappa, '\n')
cat(" Weighted:", kp$weighted.kappa)
}
Mô hình I: Tất cả các yếu tố dự đoán trong mô hình

Mô hình II: Sau khi loại bỏ mật độ VIFS được cải thiện

Không phải tất cả các yếu tố dự báo đều có ý nghĩa. Một phương pháp lựa chọn
chuyển tiếp được sử dụng để xây dựng mô hình làm việc. mẫu R đầu ra như sau:
Mô hình III: Mô hình làm việc
Đầu ra mẫu R:
Lưu ý rằng nhiều R2 là 25%. Chẩn đoán hồi quy được kiểm tra để có thể cải thiện
mô hình.

Phần dư có phân phối đối xứng xấp xỉ nhưng dường như có ngoại lệ ở cả hai đầu.
Một phần ô còn lại được đưa ra dưới đây. Lưu ý mẫu trong biểu đồ giá trị được
trang bị. Vì phản hồi thực sự chỉ nhận các giá trị nguyên nhưng đã được giả định là
liên tục, nên mô hình như vậy sẽ phát sinh.

Mô hình IV: Mô hình cuối cùng

Đầu ra mẫu R:
Việc áp dụng mô hình này trên dữ liệu thử nghiệm cho tổng bình phương chênh
lệch giữa phản hồi thực tế và phản hồi dự đoán là 1196,205 trong khi tổng bình
phương độ lệch của phản hồi thực tế là 1554,754.
Tỷ lệ của hai tỷ lệ này có thể được coi là tỷ lệ của Tổng bình phương lỗi và tổng
bình phương. Do đó, một thước đo tương tự như của R 2 có thể được tính là 1 -
1196,205/1554,754 = 0,2306.
Qfit6 <- lm(quality ~ poly(alcohol,2) + poly(volatile.acidity,2) + residual.sugar +
poly(free.sulfur.dioxide,2) + chlorides + sulphates + poly(pH,2),
data=WWTrain50In)
summary(Qfit6)
residualPlots(Qfit6, pch=19, col="blue", cex=0.6)
Để điều tra xem liệu một mối quan hệ đa thức có phù hợp với mô hình hơn hay
không, một mô hình thay thế với các số hạng bình phương của các biến quan trọng
đã được thử, giúp cải thiện giá trị R2 lên 31%.

Đầu ra mẫu R:

Việc áp dụng mô hình này trên dữ liệu thử nghiệm cho tổng bình phương chênh
lệch giữa phản hồi thực tế và phản hồi dự đoán là 1139,41 trong khi tổng bình
phương độ lệch của phản hồi thực tế là 1554,754. Tỷ lệ của hai tỷ lệ này có thể
được coi là tỷ lệ của Tổng bình phương lỗi và tổng bình phương. Do đó, một thước
đo tương tự như của R2 có thể được tính là 1 - 1139,41/1554,754 = 0,2671.

You might also like