You are on page 1of 28

A.

Mục đích
-Trong bài tiểu luận này, chúng ta sẽ nghiên cứu và phân tích các yếu tố khác nhau
ảnh hưởng đến chất lượng của rượu vang đỏ. Sau đó, chúng ta sẽ bắt đầu xây dựng
một mô hình tuyến tính từ các dữ diệu về mối quan hệ giữa các yếu tố ảnh hưởng
đến chất lượng rượu vang đỏ. Từ đó đưa ra đánh giá khách quan về chất lượng của
rượu vang đỏ là tốt hay không tốt.
B. Phân tích dữ liệu
-Dữ liệu:
 Tên: Red wine quality (winequality-red.csv)
 Nguồn: https://archive.ics.uci.edu/ml/datasets/wine+quality
-Tên các thuộc tính và mô tả dữ liệu dùng để nghiên cứu:
 Độ axit cố định (fixed acidity): là thước đo axit không bay hơi hoặc cố định.
Các axit này hầy hết bắt nguồn từ nho. Các axit cố định chủ yếu tìm thấy
trong rượu vang là tartaric, malic, citric và succinic. Đơn vị tính là (gam/l)
 Độ bay hơi axit (volatile acidity): là thước đo axit dễ bay hơi (hoặc ở dạng
khí) của rượu vang. Axit dễ bay hơi chính trong rượu vang là axit axetic, đây
cũng là axit chính liên quan đến mùi và vị của giấm. Đơn vị tính là (gam/l)
 Axit citric (citric acid): là axit hữu cơ yếu, được cho vào rượu vang như chất
bảo quản tự nhiên và tạo thêm độ chua cho rượu.
 Đường dư (residual sugar): là lượng đường tự nhiên từ trái nho còn lại sau khi
quá trình lên men rượu vang đỏ kết thúc. Được tính bằng (gam/l)
 Clorua (chlorides): rượu vang có chứa 2 đến 4 (gam/l) muối của axit khoáng,
khác với các axit hữu cơ khác. Chúng là nguyên nhân tiềm năng dẫn đến vị
muối của rượu. Như vậy clorua trở thành yếu tố chính cho độ mặn của rượu.
Đơn vị tính là (gam/l)
 Lưu huỳnh đioxit tự do (Free sulfur dioxide): là thước đo lượng SO2 không
liên kết với các phân tử khác và sử dụng để tính SO2 phân tử. Được dùng
trong quá trình sản xuất rượu vang để ngăn chặn quá trình oxi hóa và sự phát
triển của vi sinh vật. Đơn vị tính là (mg/l)
 Tổng lượng lưu huỳnh đioxit (total sulfur dioxide): là thước đo của dạng liên
kết và tự do của SO2. SO2 liên kết dùng để chỉ các phân tử SO2 được liên kết
với các hợp chất khác, chủ yếu là aldehyde, pyruvate và anthocyanins. Được
dùng trong sản xuất rượu vang để ngăn chặn quá trình oxi hóa và sự phát triển
của vi sinh vật. Lượng SO2 quá nhiều có thể ức chế quá trình lên men và gây
ra các hiệu ứng cảm quan không mong muốn. Đơn vị tính là (mg/l)
 Mật độ (density): Đơn vị đo (gam/cm3)
 Độ pH (pH): mô tả độ axit hoặc bazơ của rượu trên thang từ 0 (rất axit) đến
14 (rất bazơ); hầu hết các loại rượu đều nằm trong khoảng 3-4 trên thang độ
pH
 Muối sulfat (sulphates): Có công thức hóa học là (S04) (2-). là một chất phụ
gia rượu vang có thể góp phần tạo ra khí ga sulfur dioxide (SO2), nó hoạt
động như một chất chống vi khuẩn và chống oxi hóa. Đơn vị tính là (gam/l)
 Cồn (alcohol): nồng độ phần trăm cồn của rượu vang
 Chất lượng (quality): là thang điểm từ 1 đến 10 dựa trên dữ liệu cảm quan,
trong dữ liệu này là từ 3 đến 8
 Đánh giá rượu (good wine): đánh giá rượu đó tốt hay không tốt (1 hay 0).
Rượu có điểm từ 6 trở lên là rượu tốt, còn lại là không tốt.
-Thư viện dữ liệu cần dùng:
> library("ggplot2")
> library("ggthemes")
> library("corrplot")
> library("reshape2")
> library("dplyr")
-Nhập dữ liệu từ file CSV:
> redwine=read.csv(file="C:/Users/Admin/Documents/winequality-red.csv")
-Tạo vùng dữ liệu mới “Quality”
> redwine$good.wine <- ifelse(redwine$quality>=6, 1, 0)

-Cấu trúc dữ liệu tổng quan:


> redwine$good.wine <- ifelse(redwine$quality>=6, 1, 0)
> str(redwine)
'data.frame': 1599 obs. of 13 variables:
$ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
$ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58
0.5 ...
$ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
$ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
$ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069
0.065 0.073 0.071 ...
$ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
$ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
$ density : num 0.998 0.997 0.997 0.998 0.998 ...
$ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36
3.35 ...
$ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57
0.8 ...
$ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
$ quality : int 5 5 5 6 5 5 5 7 7 5 ...
$ good.wine : num 0 0 0 1 0 0 0 1 1 0 ...

> summary(redwine)

-Dữ liệu thống kê:


> table(redwine$quality)
3 4 5 6 7 8

10 53 681 638 199 18

> myTable=with(redwine,table(redwine$good))
> myTable
0 1

744 855
-Độ chua trung bình trong mẫu rượu vang đỏ:
>aggregate(redwine[,c("fixed.acidity"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality fixed.acidity

1 3 8.360000
2 4 7.779245
3 5 8.167254
4 6 8.347179
5 7 8.872362
6 8 8.566667

-Độ lệch chuẩn của chất lượng rượu vang:


>aggregate(redwine[,c("fixed.acidity"),drop=FALSE],by=list(Quality=redwine$quality),sd)
Quality fixed.acidity

1 3 1.770875
2 4 1.626624
3 5 1.563988
4 6 1.797849
5 7 1.992483
6 8 2.119656

-Độ chua trung bình giữa loại rượu tốt và không tốt:
> aggregate(redwine[,c("fixed.acidity"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality fixed.acidity

1 0 8.142204
2 1 8.474035

-Giá trị trung bình của citric acid trong nhiều mẫu rượu vang đỏ:
> aggregate(redwine[,c("citric.acid"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality citric.acid

1 3 0.1710000
2 4 0.1741509
3 5 0.2436858
4 6 0.2738245
5 7 0.3751759
6 8 0.3911111

-Độ lệch chuẩn của citric acid trong chất lượng rượu vang đỏ:
> aggregate(redwine[,c("citric.acid"),drop=FALSE],by=list(Quality=redwine$quality),sd)
Quality citric.acid

1 3 0.2506636
2 4 0.2010304
3 5 0.1800027
4 6 0.1951084
5 7 0.1944322
6 8 0.1995256

-Giá trị trung bình của citric acid giữa loại rượu tốt và không tốt:
> aggregate(redwine[,c("citric.acid"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality citric.acid

1 0 0.2377554
2 1 0.2998830

-Lượng đường trung bình trong các loại rượu khác nhau:
> aggregate(redwine[,c("residual.sugar"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality residual.sugar

1 3 2.635000
2 4 2.694340
3 5 2.528855
4 6 2.477194
5 7 2.720603
6 8 2.577778

-Độ lệch chuẩn của lượng đường dư trong các mẫu rượu:
> aggregate(redwine[,c("residual.sugar"),drop=FALSE],by=list(Quality=redwine$quality),sd)
Quality residual.sugar

1 3 1.401596
2 4 1.789436
3 5 1.359753
4 6 1.441576
5 7 1.371509
6 8 1.295038

-Lượng đường trung bình còn lại trong hai mẫu rượu tốt và không tốt:
> aggregate(redwine[,c("residual.sugar"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality residual.sugar

1 0 2.542070
2 1 2.535965

-Hàm lượng Clorua trung bình trong các loại rượu khác nhau:
> aggregate(redwine[,c("chlorides"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality chlorides

1 3 0.12250000
2 4 0.09067925
3 5 0.09273568
4 6 0.08495611
5 7 0.07658794
6 8 0.06844444

-Độ lệch chuẩn của hàm lượng Clorua trong các rượu khác nhau:
> aggregate(redwine[,c("chlorides"),drop=FALSE],by=list(Quality=redwine$quality),sd)

Quality chlorides
1 3 0.06624072
2 4 0.07619176
3 5 0.05370741
4 6 0.03956329
5 7 0.02945551
6 8 0.01167815

-Giá trị trung bình của hàm lượng Clorua giữa loại rượu tốt và không tốt:
> aggregate(redwine[,c("chlorides"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality chlorides
1 0 0.09298925
2 1 0.08266082

-Tổng lượng Sulfure Dioxide trung bình giữa các loại rượu khác nhau:
>aggregate(redwine[,c("total.sulfur.dioxide"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality total.sulfur.dioxide

1 3 24.90000
2 4 36.24528
3 5 56.51395
4 6 40.86991
5 7 35.02010
6 8 33.44444

-Độ lệch chuẩn của Sulfure Dioxide trong các mẫu rượu khác nhau:
>aggregate(redwine[,c("total.sulfur.dioxide"),drop=FALSE],by=list(Quality=redwine$quality),sd)
Quality total.sulfur.dioxide

1 3 16.82888
2 4 27.58337
3 5 36.99312
4 6 25.03825
5 7 33.19121
6 8 25.43324

-Tổng lượng Sulfure Dioxide trung bình giữa loại rượu tốt và không tốt:
>aggregate(redwine[,c("total.sulfur.dioxide"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality total.sulfur.dioxide

1 0 54.64516
2 1 39.35205

-Mật độ trung bình của các loại rượu khác nhau:


> aggregate(redwine[,c("density"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality density

1 3 0.9974640
2 4 0.9965425
3 5 0.9971036
4 6 0.9966151
5 7 0.9961043
6 8 0.9952122

-Mật độ trung bình giữa loại rượu tốt và không tốt:


> aggregate(redwine[,c("density"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality density

1 0 0.9970685
2 1 0.9964666

-Giá trị pH trung bình trong các mẫu rượu khác nhau:
> aggregate(redwine[,c("pH"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality pH

1 3 3.398000
2 4 3.381509
3 5 3.304949
4 6 3.318072
5 7 3.290754
6 8 3.267222

-Giá trị pH trung bình giữa các mẫu rượu tốt và không tốt:
> aggregate(redwine[,c("pH"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality pH

1 0 3.311653
2 1 3.310643

-Nồng độ cồn trong các loại rượu khác nhau:


> aggregate(redwine[,c("alcohol"),drop=FALSE],by=list(Quality=redwine$quality),mean)
Quality alcohol

1 3 9.955000
2 4 10.265094
3 5 9.899706
4 6 10.629519
5 7 11.465913
6 8 12.094444

-Nồng độ cồn trong mẫu rượu tốt và không tốt:


> aggregate(redwine[,c("alcohol"),drop=FALSE],by=list(Quality=redwine$good),mean)
Quality alcohol

1 0 9.926478
2 1 10.855029

C. Biểu đồ về sự phân phối giữa các yếu tố khác nhau.


-Ma trận rải rác của các biến:
> plot(redwine)

-Biểu đồ tương quan giữa các biến:


Từ biểu trên, chúng ta dễ dàng nhận thấy nồng độ cồn có ảnh hưởng lớn đến chất
lượng rượu.
-Xếp hạng thuộc tính chất lượng của rượu vang đỏ:
> plot(redwine)
> corrplot(cor(redwine))
> ggplot(redwine,aes(x=quality))+geom_bar(stat = "count", position =
"dodge") +
+ scale_x_continuous(breaks = seq(3, 8, 1)) +
+ ggtitle("Thuộc tính về xếp hạng chất lượng rượu vang đỏ") +
theme_classic()
-Xếp hạng thuộc tính của rượu vang đỏ:
> ggplot(redwine,aes(x=good.wine, fill=factor(good.wine))) + geom_bar(stat
= "count", position = "dodge") +
+ scale_x_continuous(breaks = seq(0, 1, 1)) +
+ ggtitle("Thuộc tính về tính tốt/xấu của rượu vang đỏ") +
+ theme_classic()
Từ hai biểu đồ trên, chúng ta thấy chất lượng rượu vang tốt và không tốt là gần như
nhau. Loại rượu được đánh giá mức 5 và 6 chiếm đa số.
C. Ảnh hưởng của các yếu tố bên ngoài đến chất lượng của rượu vang đỏ
-Ảnh hưởng của axit cố định và chất lượng rượu vang đỏ:
>ggplot(redwine,aes(x=fixed.acidity,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(fixed.acidity[good.wine==0],na.rm=T)),color
="red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(fixed.acidity[good.wine==1],na.rm=T)),color
="blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(4,16,1))+
+ xlab(label = "Mức độ axit cố định")+
+ ggtitle("Phân bố các mức axit cố định")+
+ theme_classic()

-Ảnh hưởng của mức độ axit dễ bay hơi và chất lượng rượu vang đỏ:
>ggplot(redwine,aes(x=volatile.acidity,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(volatile.acidity[good.wine==0],na.rm=T)),co
lor="red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(volatile.acidity[good.wine==1],na.rm=T)),co
lor="blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0,1.6,0.1))+
+ xlab(label = "Mức độ axit dễ bay hơi")+
+ ggtitle("Phân bố các mức độ axit dễ bay hơi")+
+ theme_classic()

-Ảnh hưởng của Acid Nitric và chất lượng của rượu vang đỏ:
>ggplot(redwine,aes(x=citric.acid,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(citric.acid[good.wine==0],na.rm=T)),color="
red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(citric.acid[good.wine==1],na.rm=T)),color="
blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0,1,0.1))+
+ xlab(label = "Mức độ Acid Nitric")+
+ ggtitle("Phân bố các mức độ Acid Nitric")+
+ theme_classic()

-Ảnh hưởng của đường dư và chất lượng rượu vang đỏ:


>ggplot(redwine,aes(x=residual.sugar,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(residual.sugar[good.wine==0],na.rm=T)),colo
r="red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(residual.sugar[good.wine==1],na.rm=T)),colo
r="blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0.5,15.5,1))+
+ xlab(label = "Lượng đường dư")+
+ ggtitle("Mức độ lượng đường dư")+
+ theme_classic()
-Ảnh hưởng của Clorua và chất lượng rượu vang đỏ :
>ggplot(redwine,aes(x=chlorides,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(chlorides[good.wine==0],na.rm=T)),color="re
d",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(chlorides[good.wine==1],na.rm=T)),color="bl
ue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0.01,0.62,0.1))+
+ xlab(label = "Mức độ Clorua")+
+ ggtitle("Phân bố các mức Clorua")+
+ theme_classic()
-Ảnh hưởng của mức độ lưu huỳnh đioxit tự do và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=free.sulfur.dioxide,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(free.sulfur.dioxide[good.wine==0],na.rm=T))
,color="red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(free.sulfur.dioxide[good.wine==1],na.rm=T))
,color="blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0,72,8))+
+ xlab(label = "Mức độ lưu huỳnh đioxit tự do")+
+ ggtitle("Phân bố mức độ lưu huỳnh đioxit tự do")+
+ theme_classic()
-Ảnh hưởng của tổng mức lưu huỳnh đioxit và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=total.sulfur.dioxide,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(total.sulfur.dioxide[good.wine==0],na.rm=T)
),color="red",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(total.sulfur.dioxide[good.wine==1],na.rm=T)
),color="blue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0,300,2))+
+ xlab(label = "Tổng mức độ lưu huỳnh đioxit")+
+ ggtitle("Phân bố tổng mức độ lưu huỳnh đioxit")+
+ theme_classic()
-Ảnh hưởng của mật độ và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=density,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(density[good.wine==0],na.rm=T)),color="red"
,linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(density[good.wine==1],na.rm=T)),color="blue
",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0.9,1.1,0.05))+
+ xlab(label = "Mức độ đậm đạc của rượu vang đỏ")+
+ ggtitle("Phân bố mức độ đậm đặc của rượu vang đỏ")+
+ theme_classic()
-Ảnh hưởng của độ pH và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=pH,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(pH[good.wine==0],na.rm=T)),color="red",line
type="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(pH[good.wine==1],na.rm=T)),color="blue",lin
etype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(2.5,5,0.5))+
+ xlab(label = "Độ pH của rượu vang đỏ")+
+ ggtitle("Phân phối độ pH của rượu vang đỏ")+
+ theme_classic()
-Ảnh hưởng của Sulphates và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=sulphates,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(sulphates[good.wine==0],na.rm=T)),color="re
d",linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(sulphates[good.wine==1],na.rm=T)),color="bl
ue",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(0,2,0.25))+
+ xlab(label = "Mức độ Sulphates")+
+ ggtitle("Phân phối mức độ Sulphates")+
+ theme_classic()
-Ảnh hưởng của nồng độ cồn và chất lượng rượu vang đỏ:
> ggplot(redwine,aes(x=alcohol,fill=factor(good.wine)))
+geom_density(alpha=0.25)+
+
geom_vline(aes(xintercept=mean(alcohol[good.wine==0],na.rm=T)),color="red"
,linetype="dashed",lwd=1)+
+
geom_vline(aes(xintercept=mean(alcohol[good.wine==1],na.rm=T)),color="blue
",linetype="dashed",lwd=1)+
+ scale_x_continuous(breaks = seq(8,15,1))+
+ xlab(label = "Nồng độ cồn")+
+ ggtitle("Phân phối nồng độ cồn")+
+ theme_classic()
D. Kiểm tra thống kê

a) Kiểm tra sự tương quan


-Kiểm tra hệ số tương quan của alcolhol:
> cor.test(redwine$alcohol,redwine$quality)
Pearson's product-moment correlation

data: redwine$alcohol and redwine$quality


t = 21.639, df = 1597, p < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4373540 0.5132081
sample estimates:
cor
0.4761663

Ta thấy rằng giá trị p nhỏ hơn 0,05 do đó nồng độ cồn là một yếu tố quan trọng ảnh
hưởng đến chất lượng rượu.
-Kiểm tra hệ số tương quan của pH:
> cor.test(redwine$pH,redwine$quality)
Pearson's product-moment correlation
data: redwine$pH and redwine$quality
t = -2.3109, df = 1597, p = 0.02096
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.106451268 -0.008734972
sample estimates:
cor
-0.05773139

Ta thấy giá trị p nhỏ hơn 0,05 do đó pH gây ra ảnh hưởng rất nhỏ đến chất lượng
rượu.
-volatile.acidity:
> cor.test(redwine$volatile.acidity,redwine$quality)
Pearson's product-moment correlation
data: redwine$volatile.acidity and redwine$quality
t = -16.954, df = 1597, p < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4313210 -0.3482032
sample estimates:
cor
-0.3905578

Ta thấy giá trị p nhỏ lơn 0,05 do đó chúng ta có thể sử dụng độ axit để phân tích
chất lượng của rượu.
-Citric acid:
> cor.test(redwine$citric.acid,redwine$quality)
Pearson's product-moment correlation
data: redwine$citric.acid and redwine$quality
t = 9.2875, df = 1597, p < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1793415 0.2723711
sample estimates:
cor
0.2263725

Ta thấy giá trị p nhỏ lơn 0,05 vì thế nồng độ acid citrc là yếu tố quan trọng dùng để
kiểm định chất lượng rượu.
-Sulphates
> cor.test(redwine$sulphates,redwine$quality)
Pearson's product-moment correlation
data: redwine$sulphates and redwine$quality
t = 10.38, df = 1597, p < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.2049011 0.2967610
sample estimates:
cor
0.2513971

Ta thấy giá trị p nhỏ hơn 0,05 vì vậy ta có thể dùng sulphates để phân tích chất
lượng rượu.
b) Kiểm định giả thuyết thống kê (T-test):
-Giả thuyết 1: Nồng độ cồn không ảnh hưởng đến chất lượng rượu vang.
> t.test(redwine$alcohol~redwine$good)
Welch Two Sample t-test
data: redwine$alcohol by redwine$good
t = -19.782, df = 1516.8, p < 2.2e-16
alternative hypothesis: true difference in means between group 0 and group
1 is not equal to 0
95 percent confidence interval:
-1.020622 -0.836479
sample estimates:
mean in group 0 mean in group 1
9.926478 10.855029

Ta thấy giá trị p nhỏ hơn 0,05 ta bác bỏ giả thuyết 1. Do đó, nồng độ cồn có ảnh hưởng
đến chất lượng rượu vang.
-Giả thuyết 2: Không có sự khác biệt đáng kể về nồng độ sunfat trong rượu vang ngon và
rượu dở.
> t.test(redwine$sulphates~redwine$good)
Welch Two Sample t-test
data: redwine$sulphates by redwine$good
t = -8.8531, df = 1494.5, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 0 and group
1 is not equal to 0
95 percent confidence interval:
-0.09049978 -0.05767010
sample estimates:
mean in group 0 mean in group 1
0.6185349 0.6926199

Ta thấy giá trị p nhỏ hơn 0,05 ta bác bỏ giả thuyết 2. Do đó, nồng độ sunfat có ảnh hưởng
đến chất lượng rượu vang.
-Giả thuyết 3: Không có sự khác biệt đáng kể về độ axit trong rượu vang ngon và rượu
dở, do đó chất lượng không phụ thuộc vào độ chua.
> t.test(redwine$volatile.acidity~redwine$good)
Welch Two Sample t-test
data: redwine$volatile.acidity by redwine$good
t = 13.478, df = 1515.4, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 0 and group
1 is not equal to 0
95 percent confidence interval:
0.0985674 0.1321456
sample estimates:
mean in group 0 mean in group 1
0.5895027 0.4741462

Ta thấy giá trị p nhỏ hơn 0,05 ta bác ỏ giả thuyết 3. Do đó, độ axit có ảnh hưởng đến chất
lượng rượu vang.
-Giả thuyết 4: Không có sự thay đổi về độ pH trong rượu vang ngon và rượu vang không
ngon.
> t.test(redwine$pH~redwine$good)
Welch Two Sample t-test
data: redwine$pH by redwine$good
t = 0.13045, df = 1567.3, p-value = 0.8962
alternative hypothesis: true difference in means between group 0 and group
1 is not equal to 0
95 percent confidence interval:
-0.01417561 0.01619551
sample estimates:
mean in group 0 mean in group 1
3.311653 3.310643
Ta thấy giá trị p nhỏ hơn 0,05 ta bác bỏ giả thuyết 4. Do đó, độ pH có ảnh hưởng đến
chất lượng rượu.
D. Tổng Kết
Từ những phân tích trên, chúng ta thấy rằng các yếu tố quan trọng ảnh hưởng đến chất
lượng rượu vang đó là nồng độ cồn, độ axit, nồng độ axit xitric, nồng độ sunfat. Trong
khi các yếu tố còn lại không ảnh hưởng quá nhiều đến chất lượng rượu nên chúng ta có
thể bỏ qua không xét đến.

You might also like