You are on page 1of 21

I.

HOẠT ĐỘNG 1

2.1 Đề bài

Tập dữ liệu "airfoil_self_noise.dat" là một bộ dữ liệu của NASA thu được từ một loạt
các thử nghiệm khí động học và âm thanh của các phần cánh quạt máy bay hai chiều
và ba chiều được tiến hành trong một đường hầm gió không dội âm. Dữ liệu được lấy
từ Kho lưu trữ học máy của UCI: https://archive.ics.uci.edu/ml/datasets/airfoil+self-
noise. Bộ dữ liệu của NASA bao gồm các cánh máy bay NACA 0012 có kích thước
khác nhau (n0012-il) http://airfoiltools.com/airfoil/details?airfoil=n0012-il) ở các tốc
độ và góc tấn công khác nhau của đường hầm gió. Khoảng cách của cánh máy bay và
vị trí của người quan sát là như nhau trong tất cả các thí nghiệm.
Theo thông tin từ nguồn gốc, tập dữ liệu này được thu thập bằng cách sử dụng mô hình
số học để mô phỏng một mô hình cánh máy bay, sau đó các thông số kỹ thuật khác
nhau của cánh máy bay được thay đổi để tạo ra các điểm dữ liệu khác nhau. Các thông
số kỹ thuật này bao gồm độ dày của cánh máy bay, góc bị tấn công của cánh, độ cong
của cánh, tốc độ gió và tần số của cánh máy bay. Mỗi điểm dữ liệu được đo bằng cách
sử dụng phương pháp thực nghiệm và ghi lại các thông số kỹ thuật của cánh máy bay
cùng với âm thanh được ghi lại.
Bộ dữ liệu này chứa thông tin về 1503 thử nghiệm cụ thể được tiến hành trên một mẫu
cánh máy bay NACA 0012 với các thông số khác nhau.. Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
• V1: Frequency: Tần số của dòng khí đi qua cánh máy bay. ( đơn vị Hz)
• V2: Angle of attack: Góc tác động của cánh máy bay với dòng khí.(đơn vị: độ)
V3: Chord length: Chiều dài của mẫu cánh máy bay. ( đơn vị: mét)
• V4: Free-stream velocity: Tốc độ dòng khí tự do. (đơn vị: m/s)
• V5: Suction side displacement thickness: Độ dày của lớp khí bám vào mặt sau của
mẫu cánh (đơn vị: mét)
• V6: Scaled sound pressure level, in decibels: Mức độ ồn được đo lường ở một
điểm cố định trên mẫu cánh máy bay, được chia tỉ lệ và chuyển đổi thành đơn vị
đo decibel để có thể so sánh với các mức độ ồn khác.
• Yêu cầu:
1. Đọc dữ liệu (Import data): " airfoil_self_noise"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
2.2 Thực hiện

2.2.1 Đọc dữ liệu (Impost data)

Đọc tệp tin “airfoil_self_noise”.

setwd("D:/BTL")
mydata <- read.table("airfoil_self_noise.dat")
library(readxl)
head(mydata,10)

Xuất ra kết quả:

## V1 V2 V3 V4 V5 V6
## 1 800 0 0.3048 71.3 0.00266337 126.201
## 2 1000 0 0.3048 71.3 0.00266337 125.201
## 3 1250 0 0.3048 71.3 0.00266337 125.951
## 4 1600 0 0.3048 71.3 0.00266337 127.591
## 5 2000 0 0.3048 71.3 0.00266337 127.461
## 6 2500 0 0.3048 71.3 0.00266337 125.571
## 7 3150 0 0.3048 71.3 0.00266337 125.201
## 8 4000 0 0.3048 71.3 0.00266337 123.061
## 9 5000 0 0.3048 71.3 0.00266337 121.301
## 10 6300 0 0.3048 71.3 0.00266337 119.541

2.2.2 Làm sạch sữ liệu (Data cleaning)

Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề tìa đưa ra, lưu với tên là
new_DF.

new_DF=mydata[,c("V1","V2","V3","V4","V5","V6")]
head(new_DF,10)

Xuất ra kết quả

## V1 V2 V3 V4 V5 V6

## 1 800 0 0.3048 71.3 0.00266337 126.201

## 2 1000 0 0.3048 71.3 0.00266337 125.201

## 3 1250 0 0.3048 71.3 0.00266337 125.951


## 4 1600 0 0.3048 71.3 0.00266337 127.591

## 5 2000 0 0.3048 71.3 0.00266337 127.461

## 6 2500 0 0.3048 71.3 0.00266337 125.571

## 7 3150 0 0.3048 71.3 0.00266337 125.201

## 8 4000 0 0.3048 71.3 0.00266337 123.061

## 9 5000 0 0.3048 71.3 0.00266337 121.301

## 10 6300 0 0.3048 71.3 0.00266337 119.541

Kiểm tra dữ liệu khuyết:

apply(is.na(new_DF),2,which)

xuất ra kết quả

## integer(0)

Nhận xét: Dựa vào kết quả thu được ta có thể thấy trong data airfoil_self_noise không
tồn tại dữ liệu khuyết.

2.2.3 Làm rõ dữ liệu (Data visualization)

Biểu đồ tần số của biến phụ thuộc V6 Mức độ ồn được đo lường ở một điểm cố định
trên mẫu cánh máy bay

hist(new_DF$V7,xlab="V6",ylab="frequency",main="Histogram of V7 and frequency


",labels=T,ylim=c(0,600),col=c("pink","blue","red"))

Xuất ra biểu đồ
Nhận xét : biểu đồ có xu hướng lệch trái từ đó ta có thể nhận thấy mức độ ồn của
cánh máy bay là khá lớn với 436 thực nghiệm cho thấy độ ồn trong khoảng 125 đến 130
(dB)

-Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các
điểm tứ phân vị) của mức độ ồn được đo lường ở một điểm cố định trên mẫu cánh máy bay
của từng biến độc lập.

Đầu tiên là mức độ ồn được đo lường so với tần số của dòng khí đi qua cánh máy
bay (V6 vs V1)

# cac gia tri trong V1


V11 <- subset(new_DF, new_DF$V1 == 6300)# min
summary(V11$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 103.4 114.0 117.5 119.3 124.2 138.5

V12 <- subset(new_DF, new_DF$V1 == 1250)#max


summary(V12$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 112.2 125.8 128.6 128.1 131.3 141.0

Vẽ biểu đồ boxplot của biến V1 vs V6:

#Biểu Đồ hộp

#V6 vs V1
boxplot(new_DF$V6 ~ new_DF$V1, xlab = "V1", ylab = "V6", main = "Boxplot of V
1 and V6", col = c(7,2,3,4,5,6))
Nhận xét: Đối với tần số của dòng khí đi qua cánh máy bay = 6300 Hz
+ Min = 103.4 : Mức độ ồn được đo lường nhỏ nhất = 103.4 dB
+ Max = 138.5 : : Mức độ ồn được đo lường lớn nhất = 138.5 dB
+ Q1 = 114 : 25% Mức độ ồn được đo lường = 114 dB
+ Q3 = 124.2 : 75% Mức độ ồn được đo lường = 124.2dB

Nhận xét: Đối với tần số của dòng khí đi qua cánh máy bay = 1250 Hz

+ Min = 112.2 : Mức độ ồn được đo lường nhỏ nhất = 112.2 dB


+ Max = 141 : : Mức độ ồn được đo lường lớn nhất = 141 dB
+ Q1 = 125.8 : 25% Mức độ ồn được đo lường = 125.8 dB
+ Q3 = 131.3: 75% Mức độ ồn được đo lường = 131.3 dB

Nhìn chung có sự khác biệt về mức độ ồn được đo lường đối với tần số của dòng khí đi
qua cánh máy bay khác nhau, với mức độ ồn được đo lường lớn nhất = 141 dB ở tần số
1250 Hz và nhỏ nhất = 103,4 ở tần số = 6300 . Đồng thời qua đó chúng ta có cơ sở kết
luận được rằng mức độ ồn (V6) phụ thuộc vào tần số của dòng khí đi qua cánh máy bay
(V1)
Thứ hai là mức độ ồn được đo lường so với góc tác động của cánh máy bay với
dòng khí (V6 vs V2)

V21<- subset(new_DF, new_DF$V2 == 22.2)#max


summary(V21$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 115.9 120.7 123.2 124.5 127.0 141.0

V22<- subset(new_DF, new_DF$V2 == 12.6)#min


summary(V22$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 103.4 109.1 115.6 115.5 120.8 129.7

Vẽ biểu đồ hộp của V6 vs V2

#V6 vsV2
boxplot(new_DF$V6 ~ new_DF$V2, xlab = "V2", ylab = "V6", main = "Boxplot of V
2 and V6", col = c(7,2,3,4,5,6))

Nhận xét: Đối với góc tác động của cánh máy bay với dòng khí = 22.2 độ

+ Min = 115.9 : Mức độ ồn được đo lường nhỏ nhất = 115.9 dB


+ Max = 141 : Mức độ ồn được đo lường lớn nhất = 141 dB
+ Q1 = 120.7 : 25% Mức độ ồn được đo lường = 120.7 dB
+ Q3 = 127 : 75% Mức độ ồn được đo lường = 127 dB

Nhận xét: Đối với góc tác động của cánh máy bay với dòng khí = 12.6 độ

+ Min = 103.4 : Mức độ ồn được đo lường nhỏ nhất = 103.4 dB


+ Max = 129.7 : : Mức độ ồn được đo lường lớn nhất = 129.7 dB
+ Q1 = 109.1 : 25% Mức độ ồn được đo lường = 109.1 dB
+ Q3 = 120.8 : 75% Mức độ ồn được đo lường = 120.8 dB

Nhìn chung có sự khác biệt về mức độ ồn được đo lường đối với góc tác động của cánh
máy bay với dòng khí khác nhau, với mức độ ồn được đo lường lớn nhất = 141 dB ở góc
tác động = 22.2 độ và nhỏ nhất = 103,4 ở góc tác động = 12.6 độ . Đồng thời qua đó
chúng ta có cơ sở kết luận được rằng mức độ ồn (V6) phụ thuộc vào góc tác động của
cánh máy bay với dòng khí (V2)

Thứ ba là mức độ ồn được đo lường so với chiều dài của mẫu cánh máy bay (V6 vs
V3)

V31<- subset(new_DF, new_DF$V3 == 0.0254)#max


summary(V31$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 110.0 122.8 127.2 127.0 131.7 141.0

V32<- subset(new_DF, new_DF$V3 == 0.1524)#min


summary(V32$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 103.4 117.1 124.1 123.0 128.8 136.0

Vẽ biểu đồ hộp cho biến V6 vs V3

#V6 vs V3
boxplot(new_DF$V6~new_DF$V3,xlab="V3",ylab="V6",main="boxplot of V3 and V6",c
ol=c(7,2,3,4,5,6))
Nhận xét: Đối với chiều dài của mẫu cánh máy bay = 0.0254 mét

+ Min = 110 : Mức độ ồn được đo lường nhỏ nhất = 110 dB


+ Max = 141 : : Mức độ ồn được đo lường lớn nhất = 141 dB
+ Q1 = 122.8 : 25% Mức độ ồn được đo lường = 122.8 dB
+ Q3 = 131.7 : 75% Mức độ ồn được đo lường = 131.7 dB

Nhận xét: Đối với chiều dài của mẫu cánh máy bay = 0.1524 mét

+ Min = 103.4 : Mức độ ồn được đo lường nhỏ nhất = 103.4 dB


+ Max = 136 : Mức độ ồn được đo lường lớn nhất = 136 dB
+ Q1 = 117.1 : 25% Mức độ ồn được đo lường = 117.1 dB
+ Q3 = 128.8: 75% Mức độ ồn được đo lường = 128.8 dB

Nhìn chung có sự khác biệt về mức độ ồn được đo lường đối với chiều dài cánh máy bay
khác nhau, với mức độ ồn được đo lường lớn nhất = 141 dB ở chiều dài = 0.0254m và
nhỏ nhất = 103,4 ở chiều dài = 0.1524m . Đồng thời qua đó chúng ta có cơ sở kết luận
được rằng mức độ ồn (V6) phụ thuộc vào chiều dài của mẫu cánh máy bay (V3)
Thứ tư là mức độ ồn được đo lường so với tốc độ dòng khí tự do (V6 vs V4)

V41<- subset(new_DF, new_DF$V4 ==71.3)#max


summary(V41$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 106.6 121.2 126.8 125.9 131.0 141.0

V42<- subset(new_DF, new_DF$V4 ==39.6) #min


summary(V42$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 103.4 118.9 124.6 123.7 129.2 138.3

Vẽ biểu đồ hộp cho biến V6 vs V4

#V6 vs V4
boxplot(new_DF$V6 ~ new_DF$V4, xlab = "V4", ylab = "V6", main = "Boxplot of V
4 and V6", col = c(7, 2, 3, 4, 5, 6))
Nhận xét: Đối với Tốc độ dòng khí tự do = 71.3 m/s

+ Min = 106.6 : Mức độ ồn được đo lường nhỏ nhất = 106.6 dB


+ Max = 141 : : Mức độ ồn được đo lường lớn nhất = 141 dB
+ Q1 = 121.2 : 25% Mức độ ồn được đo lường = 121.2 dB
+ Q3 = 131 : 75% Mức độ ồn được đo lường = 131 dB

Nhận xét: Đối với Tốc độ dòng khí tự do = 39.6 m/s

+ Min = 103.4 : Mức độ ồn được đo lường nhỏ nhất = 103.4 dB


+ Max = 138.3: : Mức độ ồn được đo lường lớn nhất = 138.3 dB
+ Q1 = 118.9 : 25% Mức độ ồn được đo lường = 118.9 dB
+ Q3 = 129.2 : 75% Mức độ ồn được đo lường = 129.2 dB

Nhìn chung có sự khác biệt về mức độ ồn được đo lường đối tốc độ dòng khí tự do khác
nhau, với mức độ ồn được đo lường lớn nhất = 141 dB tốc độ dòng khí = 71.3m/s và nhỏ
nhất = 103,4 dB ở tốc độ dòng khí = 39.6m/s. Đồng thời qua đó chúng ta có cơ sở kết
luận được rằng mức độ ồn (V6) phụ thuộc vào tốc độ dòng khí tự do (V4)
Thứ năm là mức độ ồn được đo lường so với độ dày của lớp khí bám vào mặt sau
của mẫu cánh

V51 <- subset(new_DF, new_DF$V5 == 0.0214178)#max


summary(V51$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 115.9 121.2 123.9 125.0 126.6 141.0

V52 <- subset(new_DF, new_DF$V5 == 0.0584113)#min


summary(V52$V6)

## Min. 1st Qu. Median Mean 3rd Qu. Max.


## 103.4 106.7 113.4 111.4 115.9 116.6

Vẽ biểu đồ hộp cho biến V6 vs V5

#V6 vs V5
boxplot(new_DF$V6~new_DF$V5,xlab="V5",ylab="V6",main="boxplot of V5 and V6",c
ol=c(7,2,3,4,5,6))

Nhận xét: Đối với Độ dày của lớp khí bám vào mặt sau của mẫu cánh = 0.0214178
mét
+ Min = 115.9 : Mức độ ồn được đo lường nhỏ nhất = 115.9 dB
+ Max = 141 : Mức độ ồn được đo lường lớn nhất = 141 dB
+ Q1 = 121.2 : 25% Mức độ ồn được đo lường = 121.2 dB
+ Q3 = 126.6 : 75% Mức độ ồn được đo lường = 126.6 dB

Nhận xét: Đối với Độ dày của lớp khí bám vào mặt sau của mẫu cánh = 0.0584113
mét.

+ Min = 103.4 : Mức độ ồn được đo lường nhỏ nhất = 103.4 dB


+ Max =116.60 : : Mức độ ồn được đo lường lớn nhất = 116.60 dB
+ Q1 = 106.7 : 25% Mức độ ồn được đo lường = 106.7 dB
+ Q3 = 115.9 : 75% Mức độ ồn được đo lường = 115.9 dB

Nhìn chung có sự khác biệt về mức độ ồn được đo lường đối độ dày của lớp khí bám
vào mặt sau của mẫu cánh khác nhau, với mức độ ồn được đo lường lớn nhất = 141 dB
khi bề dày lớp khí =0.0214178 mét và nhỏ nhất = 103,4 dB khi bề dày lớp khí
=0.0584113 mét . Đồng thời qua đó chúng ta có cơ sở kết luận được rằng mức độ ồn
(V6) phụ thuộc vào Độ dày của lớp khí bám vào mặt sau của mẫu cánh (V5)

Biểu đồ phân tán của dữ liệu đầu vào V1~V5 so với dữ liệu đầu ra V6.

# Vẽ biểu đồ phân tán cho biến V1 và biến V6


scatterplot(new_DF$V1, new_DF$V6, xlab = "V1", ylab = "V6", main = "Scatterpl
ot of V1 vs V6")
# Vẽ biểu đồ phân tán cho biến V2 và biến V6
scatterplot(new_DF$V2, new_DF$V6, xlab = "V2", ylab = "V6", main = "Scatterpl
ot of V2 vs V6")
# Vẽ biểu đồ phân tán cho biến V3 và biến V6
scatterplot(new_DF$V3, new_DF$V6, xlab = "V3", ylab = "V6", main = "Scatterpl
ot of V3 vs V6")
# Vẽ biểu đồ phân tán cho biến V4 và biến V6
scatterplot(new_DF$V4, new_DF$V6, xlab = "V4", ylab = "V6", main = "Scatterpl
ot of V4 vs V6")

# Vẽ biểu đồ phân tán cho biến V5 và biến V6


scatterplot(new_DF$V5, new_DF$V6, xlab = "V4", ylab = "V6", main = "Scatterpl
ot of V5 vs V6")
Dựa vào biểu đồ phân tán của dữ liệu đầu vào V1~V5 so với dữ liệu đầu ra V6 ta chưa
thấy rõ mối quan hệ tuyến tình nào giữa biến đầu vào và đầu ra, do đó cần sử dụng đến
mô hình hồi quy tuyến tính bội để xử lý dữ liệu trên.

2.2.4 Mô hình hồi quy tuyến tính

#Xay dung mo hinh hoi quy tuyen tinh boi

model_1 <- lm(V6 ~ V1+V2 + V3 + V4 + V5 , data = new_DF)

summary(model_1)

Xuất ra kết quả:

## Call:
## lm(formula = V6 ~ V1 + V2 + V3 + V4 + V5, data = new_DF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.480 -2.882 -0.209 3.152 16.064
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.328e+02 5.447e-01 243.87 <2e-16 ***
## V1 -1.282e-03 4.211e-05 -30.45 <2e-16 ***
## V2 -4.219e-01 3.890e-02 -10.85 <2e-16 ***
## V3 -3.569e+01 1.630e+00 -21.89 <2e-16 ***
## V4 9.985e-02 8.132e-03 12.28 <2e-16 ***
## V5 -1.473e+02 1.501e+01 -9.81 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.809 on 1497 degrees of freedom
## Multiple R-squared: 0.5157, Adjusted R-squared: 0.5141
## F-statistic: 318.8 on 5 and 1497 DF, p-value: < 2.2e-16

Đây là kết quả của một mô hình tuyến tính đa biến (multiple linear regression) được
phân tích bằng hàm lm() trong R.

Giả thuyết H0: 𝛽1 = 0

Giả thuyết H1: 𝛽1 ≠ 0

Kết quả trên cho thấy các hệ số ước lượng cho mô hình tuyến tính đa biến, được ước
lượng bằng phương pháp bình phương tối thiểu, với đầu vào là biến V1, V2, V3, V4, V5.
Tất cả các hệ số ước lượng đều có giá trị p <0,05, cho thấy rằng chúng ta có thể từ chối giả
thuyết H0: 𝛽1 = 0 và có cơ sở chấp nhận H1: 𝛽1 ≠ 0. Điều này cho thấy rằng có sự tương
quan thống kê giữa biến đầu vào V1~V5 và biến đầu ra V6. Các hệ số ước lượng của mô
hình cho thấy sự ảnh hưởng của từng biến độc lập đến biến phụ thuộc V6. Giá trị của hệ
số ước lượng cho biến V1 là -1.282e-03, biến V2 là -4.219e-01, biến V3 là -3.569e+01,
biến V4 là 9.985e-02, và biến V5 là -1.473e+02. Các giá trị p-value của các hệ số đều rất
nhỏ (< 0.001), cho thấy rằng các biến độc lập này có tác động đáng kể đến biến phụ thuộc
V6.

Cụ thể, mô hình tuyến tính đa biến này mô tả mối quan hệ giữa biến phụ thuộc V6 và
các biến độc lập V1, V2, V3, V4 và V5. Kết quả cho thấy mô hình này có độ chính xác khá
cao, với R-squared là 0.5157 và Adjusted R-squared là 0.5141, tức là các biến độc lập đã
giải thích được khoảng 51.57% phương sai của biến phụ thuộc.

Mối quan hệ tuyến tính của V6 với V1~V5:

cor(new_DF[, "V6"], new_DF[, c("V1", "V2", "V3", "V4", "V5")])

Xuất ra kết quả :

V1 V2 V3 V4 V5
[1,] -0.3907114 -0.1561075 -0.2361615 0.1251028 -0.3126695

Từ đó chúng ta có thể đưa ra kết luận rằng:

Với rV6,V1 = 0.3907114 : V6 và V1 có mối tương quan tuyến tính yếu.


rV6,V 2 = 0.1561075 : V6 và V2 có mối tương quan tuyến tính rất yếu .
rV6,V3 = 0.2361615 : V6 và V3 có mối tương quan tuyến tính rất yếu.
rV6,V 4 = 0.1251028 : V6 và V4 có mối tương quan tuyến tính rất yếu.
rV6,V5 = 0.3126695 : V6 và V1 có mối tương quan tuyến tính yếu.

Tiếp theo chúng ta sẽ có các biểu đồ của mô hình hồi quy tuyến tính như sau:

plot(model_1)

You might also like