Professional Documents
Culture Documents
6
• Độ giãn dài (%)
7
CƠ SỞ LÝ THUYẾT
1. HỒI QUI TUYẾN TÍNH BỘI
Mô hình Hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + . . . + βkXk + u
Trong đó:
• Y: Biến phụ thuộc
• Xi: Biến độc lập
• β1: Hệ số tự do (hệ số chẵn)
• βi: Hệ số hồi quy riêng.
Như vậy, “Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ
thuộc(Y) dựa trên giá trị của biến độc lập (X).
8
Phần dư sinh ra: ei = yi. Ký hiệu: βm là ước lượng của βm. Chúng ta trông đợi β m
̂ là
ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả.
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua
việc tìm các tham số của F ̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho
tham số của F.
4. CÁC GIẢ THIẾT CỦA PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT
CHO MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:
• Các sai số độc lập với nhau. Các sai số có phương sai bằng nhau.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho: Var (ui)
= E(u2) = σ2.
9
• Σei2: SSR – Residual Sum of Squares
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được tà hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác
của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được tà hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. R2 được
xác định theo công thức:
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được
giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2
chúng ta thay R2 đo tỉ lệ hay số % của toàn b sai lệch Y với giá trị trung bình được giải thích
bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy: 0 ≤ R2 ≤ 1.
R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về thay đổi của biến phụ
thuộc y.
Ta có thể sử dụng giá trị P-value: P-value < mác ý nghĩa thì bác bỏ giả thiết H0.
10
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k
là số hệ số có trong phương trình hồi quy đa biến:
Loại gia thiết Giả thiết H0 Giả thiết đôi H Miền bác bổ
11
Kiểm định βj:
Giả thuyết H0: βj = 0 ⇔ xj không tác động.
12
Với R2 là số đo đ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân phối
F với (k − m)
Bậc tự do đoi với tả số và (n − k) bậc tự do đoi với mẫu số.
Bác bỏ giả thuyết H0 khi:
Fc > F (α, k − m, n − k)
Hoặc giá trị p-value của thống kê F nhỏ hơn mác ý nghĩa cho trước.
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa
được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0. sai số RSSU, RSSR. Phân phối F là t
số của hai biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
Vì H0: β2 = β3 = . . . = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết
này sẽ là:
sai số RSSU, RSSR. Phân phối F là t số của hai biến ngẫu nhiên phân phối khi bình
phương độc lập. Điều này cho ta trị thống kê:
Vì H0: β2 = β3 = . . . = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết
này sẽ là:
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k-1) cho tả số và (n - k)
Cho mẫu số, và với mác ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết H0 ở mác ý nghĩa α nếu Fc > F (α, k − 1, n − k)
Đối với phương pháp giá trị p-value, tính giá trị p = P (F > Fc H0) và bác bỏ|
giả thuyết H0 nếu p bé hơn mác ý nghĩa α.
13
TIỀN XỬ LÝ DỮ LIỆU
1. ĐỌC DỮ LIỆU
Input
thong_so <- read.csv("C:/Users/Windows 10/Downloads/BTL XSTK/data.cs
v")
View(thong_so)
Giải thích
2. XỬ LÝ DỮ LIỆU KHUYẾT
2.1 Các phương pháp xử lý dữ liệu khuyết
• Phương pháp Deletion (Xóa): phương pháp này được dùng khi khi xác suất
thiếu biến là như nhau cho tất cả các quan sát. Phương pháp này được thực
hiện bởi 2 cách: List Wise Deletion and Pair Wise Deletion.
List wise deletion: xóa các quan sát mà bất kỳ biến nào bị thiếu, nhưng
phương pháp này có một lỗ hỗng bởi việc xoá quan sát của bất cứ biến nào
bị thiếu này sẽ làm giảm tính chất của mô hình vì nó xóa toàn bộ hàng quan
sát trong đó dữ liệu bị thiếu.
Pair Wise Deletion: thực hiện phân tích với tất cả các trường hợp có các biến
quan tâm. Ưu điểm là nó giữ được nhiều trường hợp có sẵn để phân tích.
Nhược điểm là nó sử dụng cỡ mẫu khác nhau cho các biến khác nhau.
14
• Phương pháp 2 - Mean/Mode/Median Imputation: là một phương pháp để
điền vào các giá trị còn thiếu với các giá trị ước tính. Mục tiêu là sử dụng các
mối quan hệ đã biết có thể được xác định các giá trị hợp lệ của tập dữ liệu để
hỗ trợ ước tính cho các giá trị còn thiếu. Mean/ Mode/ Median Imputation là
một trong những phương pháp được sử dụng thường xuyên nhất.
• Phương pháp 3 - Prediction Model (Mô hình dự đoán): tạo mô hình dự đoán
để ước tính các giá trị sẽ thay thế dữ liệu bị thiếu. Trong trường hợp này, chia
tập dữ liệu thành hai tập: Một tập không có giá trị bị thiếu cho biến và một
tập khác có giá trị bị thiếu. Tập dữ liệu đầu tiên trở thành tập dữ liệu huấn
luyện của mô hình trong khi tập dữ liệu thứ hai có giá trị bị thiếu là tập dữ
liệu thử nghiệm và biến có giá trị bị thiếu được coi là biến mục tiêu. Tiếp
theo, tạo một mô hình dự đoán biến mục tiêu dựa trên các thuộc tính khác của
tập dữ liệu huấn luyện và điền các giá trị còn thiếu của tập dữ liệu thử nghiệm.
• Phương pháp 4 - KNN Imputation: Trong phương pháp này gán giá trị, các
giá trị bị thiếu của một thuộc tính được gán bằng cách sử dụng một số thuộc
tính đã cho giống nhất với thuộc tính có giá trị bị thiếu. Sự giống nhau của
hai thuộc tính được xác định bằng cách sử dụng hàm khoảng cách.
Dù R có nhiều cách khác nhau để xử lý các dữ liệu khuyết. Tuy nhiên dựa trên những
ưu nhược điểm của từng phương pháp, thường nếu số dữ liệu khuyết không quá lớn và tỉ lệ
dữ liệu khuyết chỉ chiếm khoảng nhỏ so với tổng số quan sát của dữ liệu, ta sẽ chọn phương
pháp Delection (Xóa) các quan sát mà bất kỳ biến nào bị thiếu.
Giải thích
• Kiểm tra và đếm tổng số dữ liệu khuyết của từng biến trong dữ liệu
“thong_so”.
• Xuất vị trí dòng chứa dữ liệu khuyết của từng biến trong dữ liệu “thong_so”.
15
Output
Hình 2. Kết quả kiểm tra dữ liệu khuyết của từng biến trong dữ liệu “thong_so”
Kết quả kiểm tra trên cho thấy các biến của dữ liệu “thong_so” không chứa dữ liệu bị
khuyết nào và tỉ lệ dữ liệu bị khuyết của các biến đều bằng 0.
Giải thích
Vì dữ liệu 2 biến Material và Infill_partern đang ở dạng chữ vậy nên cần mã hóa biến
thành số là dạng nhị phân.
Quy ước ở Material là 1 với Abs và 0 với Pla.
Quy ước ở Infill pattern là 1 với Grid và 0 với Honeycomb.
Output
16
THỐNG KÊ MÔ TẢ
1. MÔ TẢ BIẾN
Input
mean=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,mean)
median=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,median)
sd=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,sd)
max=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,max)
min=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,min)
bien_lien_tuc=data.frame(mean,median,sd,max,min)
View(bien_lien_tuc)
Giải thích
Tính trung bình của các biến liên tục và lưu vào biến có tên là mean.
Tính trung vị của các biến liên tục và lưu vào biến có tên là median.
Tính độ lệch chuẩn của các biến liên tục và lưu vào biến có tên là sd.
Tính giá trị lớn nhất của các biến liên tục và lưu vào biến có tên là max.
Tính giá trị nhỏ nhất của các biến liên tục và lưu vào biến có tên là min.
Tạo dữ liệu thể hiện các giá trị thống kê mô tả cho các biến liên tục lưu với tên là
“bien_lien_tuc”.
Output
17
hist(thong_so$tension_strenght, xlab="tension_strenght", ylab="T",
main="Histogram of Tension_strenght", col= "blue")
hist(thong_so$elongation, xlab="elongation", ylab="T",
main="Histogram of Elongation", col="green")
Giải thích
Vẽ biểu đồ histogram của các biến đầu ra
Output
3. VẼ HEADMAP
Input
library(ggplot2)
library(reshape2)
correlation_matrix <- cor(thong_so)
ggplot(data = melt(correlation_matrix), aes(x = Var1, y = Var2, fill
= value)) +
18
geom_tile() + geom_text(aes(label = round(value, 2))) +
scale_fill_gradient2(low = "red", mid = "white", high = "green", midpoint
= 0) + labs(title = " Headmap")
Giải thích
Dùng hàm ggplot để vẽ headmap nhằm xem mức độ tương quan của các biến đầu vào
và đầu ra
Output
Giải thích
Vẽ các biểu đồ boxplot thể hiện giữa biến roughness và các biến phân loại
Output
20
Hình 7. Biểu đồ boxplot
Giải thích
Vẽ các biểu đồ scatter giữa biến roughness và các biến liên tục để xem xét mức độ
phân tán.
Ouput
Giải thích
Tạo mô hình hồi quy dựa trên các biến đầu vào và đầu ra roughness.
Biến phụ thuộc: roughness.
Biến độc lập: layer_height, wall_thickness, infill_density, infill_parttern,
nozzle_temperature, material, print_speed, bed_temperature.
Output
Giải thích
Loại bỏ biến infill_parttern, xây dựng mô hình hồi quy tuyến tính mới.
Output
Output
Output
Hình 14. Kết quả mô hình hồi quy (model4)
Nhận xét
Mô hình 3 có R² hiệu chỉnh = 0.8577 cao hơn so với R² hiệu chỉnh ở mô hình 4 = 0.8571 nên
có thể cho rằng mô hình 3 là mô hình hiệu quả hơn.
Output
Output
Output
• Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố lên roughness:
𝑟𝑜𝑢𝑔ℎ𝑛𝑒𝑠𝑠 = − 2060,9297 + 1268,9371. 𝑙𝑎𝑦𝑒𝑟_ℎ𝑒𝑖𝑔ℎ𝑡
+ 2,2796 . 𝑤𝑎𝑙𝑙_𝑡ℎ𝑖𝑐𝑘𝑛𝑒𝑠𝑠 + . .. −15,9967. 𝑏𝑒𝑑_𝑡𝑒𝑚𝑝𝑎𝑟𝑎𝑡𝑢𝑟𝑒
• Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy và p-value
tương ứng với các biến. Biến layer_height bé hơn 2e−16, điều này nói lên rằng ảnh
hưởng của biến này có ý nghĩa rất cao lên biến độ nhám roughness.
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính.
Output
Hình 8: Các giả định của mô hình
Nhược điểm
Phương pháp hồi quy tuyến tính có các nhược điểm đưới đây
• Đối với dữ liệu phi tuyến tính, hồi quy đa thức có thể khá khó khăn để thiết kế, vì người ta
phải có một số thông tin về cấu trúc của dữ liệu và mối quan hệ giữa các biến tính năng.
• Kết quả của những điều trên, các mô hình này không tốt như các mô hình khác khi nói đến
dữ liệu rất phức tạp.
TÀI LIỆU THAM KHẢO
1. Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Bài tập xác suất thống kê, NXB Đại học
quốc gia Tp.HCM, 2018.
2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số
liệu, NXB Đại học quốc gia Tp.HCM , 2019.
4. Máy in 3D, Làm thế nào để có được cài đặt nhiệt độ giường & in ấn hoàn hảo,
(3dprinterly.com).
5. Máy in 3D, Làm thế nào để có được cài đặt quạt & làm mát in hoàn hảo (3dprinterly.com).
6. Việt Machine, Nhựa in 3d PLA và ABS nên sử dụng loại nào? (vietmachine.com.vn).