You are on page 1of 31

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA CƠ KHÍ
BỘ MÔN: KHOA HỌC VÀ ỨNG DỤNG
--------------o0o--------------

XÁC SUẤT VÀ THỐNG KÊ


BÁO CÁO BÀI TẬP LỚN

ĐỀ TÀI: XÁC ĐỊNH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC


THÔNG SỐ ĐIỀU CHỈNH TRONG MÁY IN 3D

GVHD: NGUYỄN BÁ THY


LỚP: L09
NHÓM: 02

THÀNH PHỐ HỒ CHÍ MINH THÁNG 9/2023


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA CƠ KHÍ
BỘ MÔN: KHOA HỌC VÀ ỨNG DỤNG
--------------o0o--------------

XÁC SUẤT VÀ THỐNG KÊ


BÁO CÁO BÀI TẬP LỚN

SINH VIÊN THỰC HIỆN

STT MSSV HỌ VÀ TÊN QUÁ TRÌNH

1 2113554 Trần Quang Huy 100%

2 2113106 Thạch Ngọc Đa 100%

4 2211055 Phùng Thế Hoan 100%

5 2013530 Nguyễn Đăng Khôi 100%

ĐÁNH GIÁ CỦA GIẢNG VIÊN


LỜI CẢM ƠN
Xác suất thống kê là môn học đại cương có tầm quan trọng đối với sinh viên nói chung và
sinh viên nhóm nghành Khoa học Kỹ thuật nói riêng. Sự phát triển và ra đời của toán tin và phần
mềm R Studio, ngôn ngữ R đã hỗ trợ rất nhiều trong quá trình học tập và nghiên cứu bộ môn Xác
suất thống kê. Việc phân tích và xử lý số liệu đã được rút ngắn và có hiệu quả cao hơn. Vì vậy mà
việc tìm hiểu R Studio và ngôn ngữ R trong việc thực hành môn học Xác suất thống kê rất quan
trọng và có tính cấp thiết.
Xác suất thống kê là một môn học rất hay và bổ ích, đặc biệt nó còn được ví von như 1
“chân” trong “kiềng 3 chân” của ngành mà em đang theo học. Chính vì tầm quan trọng của môn
học này mà chúng em luôn cố gắng hết sức để hiểu và vận dụng được các khái niệm và kiến thức
có phần trừu tượng và xa lạ với chúng em. Tuy nhiên, chúng em rất may mắn khi được thầy giảng
dạy rất tận tình và cung cấp những tài liệutham khảo hữu ích. Từ đó, chúng em có thể nắm chắc
kiến thức và vận dụng vô cácbài tập lớn của nhóm. Tuy vậy, việc bài báo cáo của chúng em vẫn
sẽ có những sai sót không thể tránh khỏi, mong thầy sẽ thông cảm cho nhóm chúng em. Sau cùng,
chúng em xin kính chúc thầy thật nhiều sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp
của mình là truyền đạt kiến thức cho các thế hệ tiếp theo.
Nhóm chúng em xin chân thành cảm ơn!
MỤC LỤC
DANH MỤC HÌNH ẢNH ............................................................................................................................ 5
TỔNG QUAN DỮ LIỆU ............................................................................................................................. 6
CƠ SỞ LÝ THUYẾT ................................................................................................................................... 8
1. HỒI QUI TUYẾN TÍNH BỘI .......................................................................................................... 8
2. HÀM HỒI QUY TỔNG THỂ (PRF- POPULATION REGRESSION FUNCTION) ..................... 8
3. HÀM HỒI QUY MẪU (SRF - SAMPLE REGRESSION FUNCTION) ........................................ 8
4. CÁC GIẢ THIẾT CỦA PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT CHO MÔ HÌNH HỒI
QUY TUYẾN TÍNH BỘI ........................................................................................................................ 9
5. ĐỘ PHÙ HỢP CỦA MÔ HÌNH ...................................................................................................... 9
6. KHOẢNG TIN CẬY VÀ KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY ................................................. 10
7. KIỂM ĐỊNH MỨC ĐỘ Ý NGHĨA CHUNG CỦA MÔ HÌNH (TRƯỜNG HỢP ĐẶC BIỆT CỦA
KIỂM ĐỊNH WALD) ............................................................................................................................ 12
TIỀN XỬ LÝ DỮ LIỆU ............................................................................................................................ 14
1. ĐỌC DỮ LIỆU .............................................................................................................................. 14
2. XỬ LÝ DỮ LIỆU KHUYẾT ......................................................................................................... 14
3. CHUYỂN ĐỔI BIẾN ..................................................................................................................... 16
THỐNG KÊ MÔ TẢ .................................................................................................................................. 17
1. MÔ TẢ BIẾN ................................................................................................................................. 17
2. VẼ BIỂU ĐỒ HISTOGRAM ......................................................................................................... 17
3. VẼ HEADMAP .............................................................................................................................. 18
4. VẼ BIỂU ĐỒ BOXBLOT .............................................................................................................. 20
5. VẼ BIỂU ĐỒ SCATTER ............................................................................................................... 21
THỐNG KÊ SUY DIỄN ............................................................................................................................ 23
1. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 1 (MODEL1) ............................................... 23
2. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 2 (MODEL2)............................................... 24
3. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 3 (MODEL3) ............................................... 25
4. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 4 (MODEL4) ............................................... 25
5. SO SÁNH, LỰA CHỌN CÁC MÔ HÌNH ..................................................................................... 26
7. KIỂM ĐỊNH GIẢ ĐỊNH CỦA MÔ HÌNH .................................................................................... 28
THẢO LUẬN VÀ MỞ RỘNG .................................................................................................................. 30
TÀI LIỆU THAM KHẢO .......................................................................................................................... 31
DANH MỤC HÌNH ẢNH
Hình 1. Dữ liệu “thong_so” ................................................................................................. 14
Hình 2. Kết quả kiểm tra dữ liệu khuyết của từng biến trong dữ liệu “thong_so” .............. 16
Hình 3. Kết quả mô tả dữ liệu ............................................................................................. 17
Hình 4. Kết quả dữ liệu sau khi chuyển chữ thành số ........................................................ 16
Hình 5. Biểu đồ histogram................................................................................................... 18
Hình 6. Kết quả headmap thể hiện mức độ tương quan ...................................................... 19
Hình 7. Biểu đồ boxplot ...................................................................................................... 21
Hình 8. Biểu đồ boxplot (tiếp theo) ..................................................................................... 21
Hình 9. Biểu đồ Scatter ....................................................................................................... 22
Hình 10. Biểu đồ Scatter (tiếp theo) .................................................................................... 22
Hình 11. Kết quả mô hình hồi quy (model1) ....................................................................... 23
Hình 12. Kết quả mô hình hồi quy (model2) ....................................................................... 24
Hình 13. Kết quả mô hình hồi quy (model3) ....................................................................... 25
Hình 14. Kết quả mô hình hồi quy (model4) ....................................................................... 26
Hình 15. Kết quả so sánh mô hình 1 và mô hình 2 ............................................................. 26
Hình 16. Kết quả so sánh mô hình 2 và mô hình 3 ............................................................. 27
Hình 17. Kết quả so sánh mô hình 3 và mô hình 4 ............................................................. 27
TỔNG QUAN DỮ LIỆU
Bộ dữ liệu sử dụng cho nghiên cứu có tên gọi “3D Printer Dataset for Mechanical
Engineers - Bộ dữ liệu máy in 3D dành cho kỹ sư cơ khí”. Bộ dữ liệu xuất phát từ nghiên
cứu của khoa Cơ khí Đại học TR/Selcuk.
Bộ dữ liệu chứa thông tin về các thông số điều chỉnh (chiều cao lớp, độ dày thành,...)
và các thông số về chất lượng sản phẩm (độ nhám, sức căng,...) của một máy in 3D. Các
thông số được đo từ thực tế bằng những thiết bị chuyên dụng và được lưu trữ bằng công cụ
bảng tính Microsoft Excel.
Tập tin chứa dữ liệu của bộ dữ liệu sử dụng được cung cấp tại trang web:
https://www.kaggle.com/datasets/afumetto/3dprinter/

1. Mục đích của nghiên cứu:


Nghiên cứu nhằm xác định bao nhiêu thông số điều chỉnh trong máy in 3d ảnh hưởng
đến chất lượng in, độ chính xác và độ bền. Trong đó có chín thông số cài đặt (biến đầu vào)
và ba thông số đầu ra (biến đầu ra) đo được.

2. Các biến của dữ liệu:


Biến đầu vào:
• Chiều cao lớp (mm)
• Độ dày thành (mm)
• Mật độ lấp vào (%)
• Mẫu điền vào()
• Nhiệt độ vòi phun (Cº)
• Nhiệt độ giường (Cº)
• Tốc độ in (mm/s)
• Chất liệu ()
• Tốc độ quạt (%)
Biến đầu ra:
• Độ nhám (μm)
• Sức căng (cực hạn) (MPa)

6
• Độ giãn dài (%)

3. Các bước thực hiện:


1. Tiền xử lý dữ liệu:
a. Đọc dữ liệu.
b. Xử lý dữ liệu khuyết.
c. Xử lý định dạng dữ liệu.
d. Thêm, bớt, chuyển đổi biến (nếu cần thiết).
2. Thống kê mô tả: Dùng thống kê mẫu và dùng đồ thị.
3. Thống kê suy diễn: Xây dựng mô hình hồi quy tuyến tính để tìm mối
quan hệ giữa các thông số đầu vào của máy in tác động đến các thông
số đầu ra.
4. Dự báo để kiểm tra độ chính xác của kết quả về sự ảnh hưởng của các
thông số điều chỉnh đến chất lượng sản phẩm in ra.

4. Ngữ cảnh dữ liệu:


Dữ liệu đầu vào là dữ liệu được cài đặt ở máy in để cho ra nhiều thông số đầu ra khác
nhau. Bộ dữ liệu với nhiều thông số và với mỗi thông số có một khoảng nhất định. Đối với
chiều cao lớp sẽ biến động từ 0.02mm - 0.2mm, đối với độ dày thành sẽ biến động từ 1mm
- 10mm, đối với mật độ lấp vào dữ liệu biến thiên từ 10% - 90%, bộ dữ liệu với 2 mẫu là
grid và honeycomb, nhiệt độ vòi phun biến động từ 210ºC - 250ºC, đối với nhiệt độ giường
biến động từ 60ºC - 80ºC, với tốc độ in là 40, 60 và 120 mm/s. tốc độ quạt từ 0 - 100% chứng
tỏ quạt có thể hoạt động hết năng suất hoạt không hoạt động.
Với những biến đầu vào biến động với của dữ liệu đầu vào, kết quả đầu ra đối với độ
nhám dao động từ 21 - 360 (μm). Số liệu thu thập được với khoản dữ liệu đầu ra sức căng
thu được từ 5 - 37 và biến đầu ra cuối cùng độ giãn dài 0.4 - 3.3%.

7
CƠ SỞ LÝ THUYẾT
1. HỒI QUI TUYẾN TÍNH BỘI
Mô hình Hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + . . . + βkXk + u
Trong đó:
• Y: Biến phụ thuộc
• Xi: Biến độc lập
• β1: Hệ số tự do (hệ số chẵn)
• βi: Hệ số hồi quy riêng.
Như vậy, “Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ
thuộc(Y) dựa trên giá trị của biến độc lập (X).

2. HÀM HỒI QUY TỔNG THỂ (PRF- POPULATION REGRESSION


FUNCTION)
Với Y là biến phụ thuộc X2, X3, ..., Xk là biến độc lập, Y là ngẫu nhiên và có một
phân phối xác suất nào đó. Suy ra: Tồn tại E (Y|X2, X3, ..., Xk) = giá trị xác định. Do vậy,
F (X2, X3, ..., Xk )=E (Y|X2, X3, ..., Xk) là hàm hồi quy tổng thể của Y theo X2, X3, ...,Xk
. Với một cá thể i, tồn tại (X2,i, X3,i, ..., Xk,i, Yi)

Ta có: Yi F (X2, X3, ..., Xk) ⇒ ui = Yi − F


Do vậy: Yi = E (Y X2, X3, ..., Xk) + ui
Hồi quy tổng thể PRF:
• Y = E(Y|X) + U
• E (Y|X) = F(X)

3. HÀM HỒI QUY MẪU (SRF - SAMPLE REGRESSION FUNCTION)


Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một
mẫu có n cá thể, gọi Y ̂ =( F) ̂ (X2, X3, . . ., Xk) là hồi quy mẫu. Với một cá thể mẫu
Yi ≠ F(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂ (X2, X3,…, Xk); ei gọi là phần dư SRF.

8
Phần dư sinh ra: ei = yi. Ký hiệu: βm là ước lượng của βm. Chúng ta trông đợi β m
̂ là
ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả.
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua
việc tìm các tham số của F ̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho
tham số của F.

4. CÁC GIẢ THIẾT CỦA PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT
CHO MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:

• Hàm hồi quy là tuyến tính theo các tham số.


Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối
quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + . . . + βkxk + u hoặc mối quan hệ thực
tế có thể được viết lại ví dụ như dưới dạng lay loga cả hai vế.

• Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.


Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang
dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể
giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trà nhau, ở mác trung bình, trong tổng thể.

• Các sai số độc lập với nhau. Các sai số có phương sai bằng nhau.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho: Var (ui)
= E(u2) = σ2.

• Các sai số có phân phối chuẩn.


Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết
trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, Điều này trở nên không mấy
quan trong.

5. ĐỘ PHÙ HỢP CỦA MÔ HÌNH


Để có thể biết mô hình giải thích được như thể nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng R2.
Ta có:
• Σ(yi – ӯ)2: SST – Total Sum of Squares
• Σ(ŷi – ӯ)2: SSE – Explained Sum of Squares

9
• Σei2: SSR – Residual Sum of Squares
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được tà hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác
của hàm hồi quy.
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được tà hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. R2 được
xác định theo công thức:

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được
giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2
chúng ta thay R2 đo tỉ lệ hay số % của toàn b sai lệch Y với giá trị trung bình được giải thích
bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy: 0 ≤ R2 ≤ 1.
R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về thay đổi của biến phụ
thuộc y.
Ta có thể sử dụng giá trị P-value: P-value < mác ý nghĩa thì bác bỏ giả thiết H0.

6. KHOẢNG TIN CẬY VÀ KIỂM ĐỊNH CÁC HỆ SỐ HỒI QUY


Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2, . . ., βk mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bo xác suất của β1, β2, ...,
βk. Các phân bố này phụ thuộc vào phân bố của các ui. Với các giả thiết OLS, ui có phân
phối N (0, σ2). Các hệ số ước lượng tuân theo phân phối chuẩn:

10
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k
là số hệ số có trong phương trình hồi quy đa biến:

Uớc lượng 2 phía, ta tìm được tα/2(n-k) thỏa mãn


Khoảng tin cậy 1 − α của βj là:
[β ̂j − tα/2(n − k).Se(β ̂j)]; [β ̂j + tα/2(n − k).Se(β ̂j)]

Kiểm định giả thiết đối với βj:


Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đển biến phụ thuộc hay không. Nói cách khác là
hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đoi với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng
thì:

Loại gia thiết Giả thiết H0 Giả thiết đôi H Miền bác bổ

Hai phía β1 = βi ∗ βi /= βi∗ |t| > tα/2;n−k

Phải β1 ≤ βi∗ βi > βi∗ t > tα;n−k

Trái β1 ≥ βi∗ β1 < βi∗ t < −tα;n−k

Bước 1: Giả thuyết H0: β2 = β3 = ... = βk = 0.


Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”.
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, . . ., Xk, sau đó
tính tổng bình

11
Kiểm định βj:
Giả thuyết H0: βj = 0 ⇔ xj không tác động.

Giả thuyết H1: βj 0 ⇔ xj có tác động.

βj < 0 ⇔ xj có tác động ngược.

βj > 0 ⇔ xj có tác động thuận.

7. KIỂM ĐỊNH MỨC ĐỘ Ý NGHĨA CHUNG CỦA MÔ HÌNH (TRƯỜNG


HỢP ĐẶC BIỆT CỦA KIỂM ĐỊNH WALD)
BIỆT CỦA KIỂM ĐỊNH WALD)
Khái quát về kiểm định WALD:
Giả sử chúng ta có 2 mô hình dưới đây
• ( U): Y = β1 + β2X2 + β3X3 + β4X4 + u
• (R): Y = β1 + β2X2 + v
Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được gọi là
mô hình giới hạn (Restrict). Đó là do β3 và β4 bu c phải bằng 0 trong mô hình R. Ta có thể
kiểm định giả thuyết liên kết β3 = β4 = 0 với giả thuyết đối là ít nhất một trong những hệ số
này không bằng 0. Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald, thủ tục
như sau.
Đặt các mô hình giới hạn và không giới hạn là:
(U): Y = β1 + β2X2 + . . . + βmXm + βm+1Xm+1 + . . . + βkXk + u
( R) : Y = β1 + β2X2 + . . . + βmXm + v Mô hình (R) có được bằng cách bỏ bớt một
số biến ở mô hình (U), đó là: Xm+1, Xm+1, ..., Xk
• Giả thuyết H0: βm + 1 = . . . = βk = 0
• Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”.
Lưu ý rằng (U) cháa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết.
Do đó, mô hình R có ít hơn (k m) thông số số với U. Câu hỏi chúng ta nêu ra là (k-m) biến
bị loại ra có ảnh hưởng liên kết có ý nghĩa đoi với Y hay không.
Trị thống kê kiểm định đối với giả thiết này là:

12
Với R2 là số đo đ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân phối
F với (k − m)
Bậc tự do đoi với tả số và (n − k) bậc tự do đoi với mẫu số.
Bác bỏ giả thuyết H0 khi:
Fc > F (α, k − m, n − k)
Hoặc giá trị p-value của thống kê F nhỏ hơn mác ý nghĩa cho trước.
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa
được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0. sai số RSSU, RSSR. Phân phối F là t
số của hai biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
Vì H0: β2 = β3 = . . . = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết
này sẽ là:
sai số RSSU, RSSR. Phân phối F là t số của hai biến ngẫu nhiên phân phối khi bình
phương độc lập. Điều này cho ta trị thống kê:

Vì H0: β2 = β3 = . . . = βk = 0, nhận thay rằng trị thống kê kiểm định đoi với giả thuyết
này sẽ là:

Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k-1) cho tả số và (n - k)
Cho mẫu số, và với mác ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết H0 ở mác ý nghĩa α nếu Fc > F (α, k − 1, n − k)
Đối với phương pháp giá trị p-value, tính giá trị p = P (F > Fc H0) và bác bỏ|
giả thuyết H0 nếu p bé hơn mác ý nghĩa α.

13
TIỀN XỬ LÝ DỮ LIỆU
1. ĐỌC DỮ LIỆU
Input
thong_so <- read.csv("C:/Users/Windows 10/Downloads/BTL XSTK/data.cs
v")
View(thong_so)

Giải thích

• Đọc file dữ liệu “data.csv” và lưu dưới tên “thong_so”.

• Xem dữ liệu “thong_so”.


Output

Hình 1. Dữ liệu “thong_so”

2. XỬ LÝ DỮ LIỆU KHUYẾT
2.1 Các phương pháp xử lý dữ liệu khuyết

• Phương pháp Deletion (Xóa): phương pháp này được dùng khi khi xác suất
thiếu biến là như nhau cho tất cả các quan sát. Phương pháp này được thực
hiện bởi 2 cách: List Wise Deletion and Pair Wise Deletion.
List wise deletion: xóa các quan sát mà bất kỳ biến nào bị thiếu, nhưng
phương pháp này có một lỗ hỗng bởi việc xoá quan sát của bất cứ biến nào
bị thiếu này sẽ làm giảm tính chất của mô hình vì nó xóa toàn bộ hàng quan
sát trong đó dữ liệu bị thiếu.
Pair Wise Deletion: thực hiện phân tích với tất cả các trường hợp có các biến
quan tâm. Ưu điểm là nó giữ được nhiều trường hợp có sẵn để phân tích.
Nhược điểm là nó sử dụng cỡ mẫu khác nhau cho các biến khác nhau.

14
• Phương pháp 2 - Mean/Mode/Median Imputation: là một phương pháp để
điền vào các giá trị còn thiếu với các giá trị ước tính. Mục tiêu là sử dụng các
mối quan hệ đã biết có thể được xác định các giá trị hợp lệ của tập dữ liệu để
hỗ trợ ước tính cho các giá trị còn thiếu. Mean/ Mode/ Median Imputation là
một trong những phương pháp được sử dụng thường xuyên nhất.

• Phương pháp 3 - Prediction Model (Mô hình dự đoán): tạo mô hình dự đoán
để ước tính các giá trị sẽ thay thế dữ liệu bị thiếu. Trong trường hợp này, chia
tập dữ liệu thành hai tập: Một tập không có giá trị bị thiếu cho biến và một
tập khác có giá trị bị thiếu. Tập dữ liệu đầu tiên trở thành tập dữ liệu huấn
luyện của mô hình trong khi tập dữ liệu thứ hai có giá trị bị thiếu là tập dữ
liệu thử nghiệm và biến có giá trị bị thiếu được coi là biến mục tiêu. Tiếp
theo, tạo một mô hình dự đoán biến mục tiêu dựa trên các thuộc tính khác của
tập dữ liệu huấn luyện và điền các giá trị còn thiếu của tập dữ liệu thử nghiệm.

• Phương pháp 4 - KNN Imputation: Trong phương pháp này gán giá trị, các
giá trị bị thiếu của một thuộc tính được gán bằng cách sử dụng một số thuộc
tính đã cho giống nhất với thuộc tính có giá trị bị thiếu. Sự giống nhau của
hai thuộc tính được xác định bằng cách sử dụng hàm khoảng cách.
Dù R có nhiều cách khác nhau để xử lý các dữ liệu khuyết. Tuy nhiên dựa trên những
ưu nhược điểm của từng phương pháp, thường nếu số dữ liệu khuyết không quá lớn và tỉ lệ
dữ liệu khuyết chỉ chiếm khoảng nhỏ so với tổng số quan sát của dữ liệu, ta sẽ chọn phương
pháp Delection (Xóa) các quan sát mà bất kỳ biến nào bị thiếu.

Kiểm tra dữ liệu khuyết


Input
apply(is.na(thong_so),2,sum)
apply(is.na(thong_so),2,which)
apply(is.na(thong_so),2,mean)

Giải thích

• Kiểm tra và đếm tổng số dữ liệu khuyết của từng biến trong dữ liệu
“thong_so”.

• Xuất vị trí dòng chứa dữ liệu khuyết của từng biến trong dữ liệu “thong_so”.

• Tính tỉ lệ dữ liệu khuyết của từng biến trong dữ liệu “thong_so”.

15
Output

Hình 2. Kết quả kiểm tra dữ liệu khuyết của từng biến trong dữ liệu “thong_so”
Kết quả kiểm tra trên cho thấy các biến của dữ liệu “thong_so” không chứa dữ liệu bị
khuyết nào và tỉ lệ dữ liệu bị khuyết của các biến đều bằng 0.

3. CHUYỂN ĐỔI BIẾN


Input
thong_so$material <- ifelse(thong_so$material == "abs", 1, 0)
thong_so$infill_pattern <- ifelse(thong_so$infill_pattern == "grid",
1, 0)
thong_so$material <- as.numeric(thong_so$material)
thong_so$infill_pattern <- as.numeric(thong_so$infill_pattern)
print(thong_so)

Giải thích
Vì dữ liệu 2 biến Material và Infill_partern đang ở dạng chữ vậy nên cần mã hóa biến
thành số là dạng nhị phân.
Quy ước ở Material là 1 với Abs và 0 với Pla.
Quy ước ở Infill pattern là 1 với Grid và 0 với Honeycomb.
Output

Hình 3. Kết quả dữ liệu sau khi chuyển chữ thành số

16
THỐNG KÊ MÔ TẢ
1. MÔ TẢ BIẾN
Input
mean=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,mean)
median=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,median)
sd=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,sd)
max=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,max)
min=apply(thong_so[,c(1,2,3,5,6,7,9,10,11,12)],2,min)
bien_lien_tuc=data.frame(mean,median,sd,max,min)
View(bien_lien_tuc)

Giải thích
Tính trung bình của các biến liên tục và lưu vào biến có tên là mean.
Tính trung vị của các biến liên tục và lưu vào biến có tên là median.
Tính độ lệch chuẩn của các biến liên tục và lưu vào biến có tên là sd.
Tính giá trị lớn nhất của các biến liên tục và lưu vào biến có tên là max.
Tính giá trị nhỏ nhất của các biến liên tục và lưu vào biến có tên là min.
Tạo dữ liệu thể hiện các giá trị thống kê mô tả cho các biến liên tục lưu với tên là
“bien_lien_tuc”.
Output

Hình 4. Kết quả mô tả dữ liệu

2. VẼ BIỂU ĐỒ HISTOGRAM


Input
hist(thong_so$roughness, xlab="roughness", ylab= "T", main="Histogram
of Roughness", col="red", ylim=c(0,10))

17
hist(thong_so$tension_strenght, xlab="tension_strenght", ylab="T",
main="Histogram of Tension_strenght", col= "blue")
hist(thong_so$elongation, xlab="elongation", ylab="T",
main="Histogram of Elongation", col="green")

Giải thích
Vẽ biểu đồ histogram của các biến đầu ra
Output

Hình 5. Biểu đồ histogram


Nhận xét
Đồ thị phân bố độ nhám là phân bố răng cưa, phân bố cao nhất từ khoảng 50-200 (mm)
với tần suất từ 8 đến 9 lần. Thấp nhất trong khoảng 300-400 (mm) với tần suất trung bình là
3 lần.
Đồ thị phân bố giới hạn bền kéo là phân bố lệch phải, có đỉnh phải tương ứng tần suất
cao nhất từ 25-30 (N/mm2) xuất hiện 12 lần. Thấp nhất là khoảng 35-40
(N/mm2) với 1 lần.
Đồ thị phân bố độ dãn dài là phân bố đỉnh bên méo trái, cao nhất từ 1-1.5 (mm)
với tần suất 14 lần và thấp nhất từ 0-0.5 (mm) với 2 lần.

3. VẼ HEADMAP
Input
library(ggplot2)
library(reshape2)
correlation_matrix <- cor(thong_so)
ggplot(data = melt(correlation_matrix), aes(x = Var1, y = Var2, fill
= value)) +

18
geom_tile() + geom_text(aes(label = round(value, 2))) +
scale_fill_gradient2(low = "red", mid = "white", high = "green", midpoint
= 0) + labs(title = " Headmap")

Giải thích
Dùng hàm ggplot để vẽ headmap nhằm xem mức độ tương quan của các biến đầu vào
và đầu ra
Output

Hình 6. Kết quả headmap thể hiện mức độ tương quan


Nhận xét
Hệ số tương quan giữa roughness và các biến độc lập cho ta dự đoán roughness có
quan hệ tuyến tính mạnh với layer_height, roughness không có quan hệ tuyến tính mạnh với
các biến còn lại.
Hệ số tương quan giữa tension_strenght và các biến độc lập cho ta dự đoán
tension_strenght không có quan hệ tuyến tính mạnh với các biến này.
Hệ số tương quan giữa elongation và các biến độc lập cho ta dự đoán elongation không
có quan hệ tuyến tính mạnh với các biến này.
Trong quá trình phân tích dữ liệu, chúng ta đã nhận thấy có sự tồn tại của hiện tượng
đa tuyến trong mô hình. Đa tuyến được biểu thị thông qua mức tương quan cao giữa một số
19
cặp biến đầu vào. Hiện tượng này làm cho sai số chuẩn của các hệ số, cũng như khoảng tin
cậy, trở nên lớn hơn và làm giảm tính chất quan trọng của các thống kê t (t-statistic).
Đa tuyến là một vấn đề phổ biến trong phân tích dữ liệu, và nó có thể ảnh hưởng đáng
kể đến độ chính xác của các kết quả. Khi các biến đầu vào có mức tương quan mạnh với
nhau, mô hình có thể trở nên không ổn định và dự đoán không chính xác.
Bằng cách giảm đa tuyến, chúng ta sẽ cải thiện tính chính xác và độ tin cậy của mô
hình. Điều này giúp chúng ta có được các kết quả phân tích đáng tin cậy và hợp lý, giúp hỗ
trợ quyết định và đưa ra dự đoán chính xác về các biến đầu ra quan trọng.
Hệ số tương quan giữa biến bed_temperater và fan_speed = 1 nên cho thấy có hiện
tượng đa cộng tuyến xảy ra (2 biến độc lập này có mối quan hệ phụ thuộc) do đó ta sẽ loại
bỏ 1 trong 2 biến này khi xây dựng dựng mô hình. Ở bài toán này ta chọn bỏ biến fan_speed.
Từ phần này trở về sau khi ta xây dựng mô hình, ta sẽ không đưa biến fan_speed vào mô
hình.

4. VẼ BIỂU ĐỒ BOXBLOT


Input
par(mfrow = c(1, 2))
boxplot(roughness~layer_height,main="Boxplot of roughness for each
categogy of layer_height" ,col=c(3,5,6,8), data=thong_so)
boxplot(roughness~infill_pattern,main="Boxplot of roughness for each
categogy of infill_parttern" ,col=c(3,5,6,8), data=thong_so)
boxplot(roughness~print_speed,main="Boxplot of roughness for each
categogy of print_speed" ,col=c(3,5,6,8), data=thong_so)
boxplot(roughness~material,main="Boxplot of roughness for each
categogy of material" ,col=c(3,5,6,8), data=thong_so)

Giải thích
Vẽ các biểu đồ boxplot thể hiện giữa biến roughness và các biến phân loại
Output

20
Hình 7. Biểu đồ boxplot

Hình 8. Biểu đồ boxplot (tiếp theo)

5. VẼ BIỂU ĐỒ SCATTER


Input
par(mfrow = c(1, 3))
plot(roughness~layer_height, main = "Biểu đồ Scatter", xlab =
"layer_height", ylab = "Roughness", pch=16, data=thong_so)
plot(roughness~wall_thickness, main = "Biểu đồ Scatter", xlab =
"Wall_thickness", ylab = "Roughness", pch=16, data=thong_so)
plot(roughness~infill_density, main = "Biểu đồ Scatter", xlab =
"Infill_density", ylab = "Roughness", pch=16, data=thong_so)
plot(roughness~nozzle_temperature, main = "Biểu đồ Scatter", xlab =
"Nozzle_temperature", ylab = "Roughness", pch=16, data=thong_so)
21
plot(roughness~bed_temperature, main = "Biểu đồ Scatter", xlab =
"Bed_temperature", ylab = "Roughness", pch=16, data=thong_so)
plot(roughness~print_speed, main = "Biểu đồ Scatter", xlab =
"print_speed", ylab = "Roughness", pch=16, data=thong_so)

Giải thích
Vẽ các biểu đồ scatter giữa biến roughness và các biến liên tục để xem xét mức độ
phân tán.
Ouput

Hình 9. Biểu đồ Scatter

Hình 10. Biểu đồ Scatter (tiếp theo)


Nhận xét
Dựa trên các đồ thị phân tán cho ta dự đoán roughness có quan hệ tuyến tính mạnh với
layer_height, roughness không có quan hệ tuyến tính mạnh với các biến còn lại.
22
THỐNG KÊ SUY DIỄN
1. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 1 (MODEL1)
Input
model1=lm(roughness~layer_height+wall_thickness+infill_density+infill_pat
tern+nozzle_temperature+material+print_speed+bed_temperature,thong_so)
summary(model1)

Giải thích
Tạo mô hình hồi quy dựa trên các biến đầu vào và đầu ra roughness.
Biến phụ thuộc: roughness.
Biến độc lập: layer_height, wall_thickness, infill_density, infill_parttern,
nozzle_temperature, material, print_speed, bed_temperature.
Output

Roughness = 𝛽0 + 𝛽1.layer_height + 𝛽2.wall_thickness + 𝛽3 .infill_density+ 𝛽4 .infill_parttern


+ 𝛽5 .nozzle_temperature + 𝛽6.material + 𝛽7.print_speed + 𝛽8.bed_temperature

Hình 11. Kết quả mô hình hồi quy (model1)


Nhận xét
Mô hình hồi quy tuyến tính:
Mô hình hồi quy tuyến tính:
Roughness = - 2.072 + 1.269.layer_height + 2.334.wall_thickness – 4.231.infill_density +
1.255.infill_parttern + 1.506.nozzle_temperature - 2.985.material + 6.496.print_speed.
Kiểm định hệ số βi:
Giả thiết H0: βi = 0
Giả thiết H1: βi ≠ 0
Ta thấy rằng p-value ứng với các biến wall_thickness, infill_density, infill_patter lớn hơn
mức ý nghĩa 5% nên ta chưa đủ bằng chứng để bác bỏ H0. Vì vậy, các biến này không có ý nghĩa
đối với mô hình hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ biến các biến này ra khỏi mô hình
hồi quy.
R² hiệu chỉnh (adjusted R-squared) = 0.8509 thể hiện 85.09% biến thiên của độ nhám được
giải thích bởi các biến độc lập trong mô hình.
Ta xây dựng mô hình 2 là mô hình là loại bỏ biến infill_pattern từ mô hình 1.

2. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 2 (MODEL2)


Input
model2=lm(roughness~layer_height+wall_thickness+infill_density+nozzle_tem
perature+material+print_speed+bed_temperature,thong_so)
summary(model2)

Giải thích
Loại bỏ biến infill_parttern, xây dựng mô hình hồi quy tuyến tính mới.
Output

Hình 12. Kết quả mô hình hồi quy (model2)


Nhận xét
Mô hình 2 có R² hiệu chỉnh = 0.8544 cao hơn so với R² hiệu chỉnh ở mô hình 1 = 0.8509 nên
có thể cho rằng mô hình 2 là mô hình hiệu quả hơn.
Ta xây dựng mô hình 3 là mô hình là loại bỏ biến infill_density từ mô hình 2.

3. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 3 (MODEL3)


Input
model3=lm(roughness~layer_height+wall_thickness+nozzle_temperature+materi
al+print_speed+bed_temperature,thong_so)
summary(model3)

Output

Hình 13. Kết quả mô hình hồi quy (model3)


Nhận xét
Mô hình 3 có R² hiệu chỉnh = 0.8577 cao hơn so với R² hiệu chỉnh ở mô hình 2 = 0.8544 nên
có thể cho rằng mô hình 3 là mô hình hiệu quả hơn.
Ta xây dựng mô hình 4 là mô hình là loại bỏ biến wall_thickness từ mô hình 3.

4. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH 4 (MODEL4)


Input
model4=lm(roughness~layer_height+nozzle_temperature+material+print_speed+
bed_temperature,thong_so)
summary(model4)

Output
Hình 14. Kết quả mô hình hồi quy (model4)
Nhận xét
Mô hình 3 có R² hiệu chỉnh = 0.8577 cao hơn so với R² hiệu chỉnh ở mô hình 4 = 0.8571 nên
có thể cho rằng mô hình 3 là mô hình hiệu quả hơn.

5. SO SÁNH, LỰA CHỌN CÁC MÔ HÌNH


5.1 Mô hình 1 và mô hình 2
Input
anova(model1,model2)

Output

Hình 15. Kết quả so sánh mô hình 1 và mô hình 2


Nhận xét
Giả thiết H0: Hai mô hình model1 và model2 giống nhau.
Giả thiết H1: Hai mô hình model1 và model2 khác nhau.
Ta thấy rằng Pvalue = 0.9912 > mức ý nghĩa α = 0.05 nên chưa đủ cơ sở để bác bỏ H0, tức 2
mô hình model1 và model3 như nhau. (1)

5.2 Mô hình 2 và mô hình 3


Input
anova(model2,model3)

Output

Hình 16. Kết quả so sánh mô hình 2 và mô hình 3


Nhận xét
Giả thiết H0: Hai mô hình model2 và 0model3 giống nhau.
Giả thiết H1: Hai mô hình model2 và model3 khác nhau.
Ta thấy rằng Pvalue = 0,8557 > mức ý nghĩa α = 0.05 nên chưa đủ cơ sở để bác bỏ H0, tức 2
mô hình model2 và model3 như nhau. (2)

5.3 Mô hình 3 và mô hình 4


Input
anova(model3,model4)

Output

Hình 17. Kết quả so sánh mô hình 3 và mô hình 4


Nhận xét
Giả thiết H0: Hai mô hình model3 và model4 giống nhau.
Giả thiết H1: Hai mô hình model3 và model4 khác nhau.
Ta thấy rằng Pvalue = 0,2828 > mức ý nghĩa α = 0.05 nên chưa đủ cơ sở để bác bỏ H0, tức 2
mô hình model3 và model4 như nhau. (3)
6. KẾT LUẬN
Từ (1), (2), (3) ta nhận thấy khi so sánh các mô hình Pvalue đều lớn
hơn mức ý nghĩa α = 0.05 cho thấy các mô hình đều có hiệu quả như nhau. Tuy nhiên
ta nhận thấy hệ số R² hiệu chỉnh ở mô hình model3 là cao nhất (0.824), từ đó ta lựa chọn
mô hình hồi quy phù hợp nhất là mô hình model3.
Phân tích sự ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến độ nhám
(roughness) của bản in.

• Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố lên roughness:
𝑟𝑜𝑢𝑔ℎ𝑛𝑒𝑠𝑠 = − 2060,9297 + 1268,9371. 𝑙𝑎𝑦𝑒𝑟_ℎ𝑒𝑖𝑔ℎ𝑡
+ 2,2796 . 𝑤𝑎𝑙𝑙_𝑡ℎ𝑖𝑐𝑘𝑛𝑒𝑠𝑠 + . .. −15,9967. 𝑏𝑒𝑑_𝑡𝑒𝑚𝑝𝑎𝑟𝑎𝑡𝑢𝑟𝑒

• Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy và p-value
tương ứng với các biến. Biến layer_height bé hơn 2e−16, điều này nói lên rằng ảnh
hưởng của biến này có ý nghĩa rất cao lên biến độ nhám roughness.

7. KIỂM ĐỊNH GIẢ ĐỊNH CỦA MÔ HÌNH


Nhắc lại các giả định của mô hình hồi quy:

• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính.

• Sai số có phân phối chuẩn.

• Sai số có kỳ vọng bằng 0.

• Phương sai của các sai số là hằng số.

• Các sai số độc lập với nhau.


Input
par(mfrow=c(1,2))
plot(model3)

Output
Hình 8: Các giả định của mô hình

Hình 9: Các giả định của mô hình ( tiếp theo)


Nhận xét
Đồ thị 1: Residuals and Fitted vẽ các giá trị thặng dư (sai số) tương ứng với các giá trị dự
báo. Đường màu đỏ không phải là đường thẳng nằm ngang nên giả định tuyến tính của dữ liệu
không thoả mãn. Đường màu đỏ chưa nằm sát đường đứt nét residual bằng 0 nên giả định sai số
có kỳ vọng bằng 0 không thoả mãn. Các giá trị thặng dư phân tán chưa ngẫu nhiên dọc theo đường
màu đỏ nên giả định sai số có phương sai là hằng số không thoả mãn.
Đồ thị 2: Q-Q Residuals vẽ các giá trị thặng dư được chuẩn hoá. Ta nhận thấy các giá trị này
nằm dọc theo đường đứt nét kỳ vọng phân phối chuẩn nên giả định sai số có phân
phối chuẩn thoả mãn.
Đồ thị 3: Scale – Location vẽ căn bậc hai các giá trị thặng du được chuẩn hoá. Ta nhận thấy
đường màu đỏ không phải là đường thẳng nằm ngang và các giá trị này không phân tán dọc theo
đường màu đỏ nên giả định sai số có phương sai là hằng số không thoả mãn.
Đồ thị 4: Residuals and Leverage vẽ các điểm có thể gây ảnh hưởng cao trong bộ dữ liệu.
Ta nhận thấy các điểm 23, 24 và 5 là những điểm có thể gây ảnh hưởng cao trong bộ dữ liệu, tuy
nhiên các điểm này chưa vượt ra khỏi đường gạch đứt Cook’s Distances.
THẢO LUẬN VÀ MỞ RỘNG
Ưu điểm
Phương pháp hồi quy tuyến tính có các ưu điểm dưới đây
• Dễ hiểu và triển khai: Hồi quy tuyến tính là một phương pháp đơn giản và dễ hiểu.
• Dễ dàng diễn giải: Mô hình hồi quy tuyến tính cho phép bạn xác định mức độ ảnh hưởng
của mỗi biến độc lập lên biến phụ thuộc. Bạn có thể đánh giá tác động của mỗi biến một cách riêng
lẻ và quyết định xem chúng có ảnh hưởng tích cực hay tiêu cực đối với biến phụ thuộc.
• Dễ kiểm tra và đánh giá: Có nhiều phương pháp để kiểm tra và đánh giá mô hình hồi quy
tuyến tính, bao gồm kiểm định t-Student, kiểm tra F, và các độ đo như R-squared (R^2), MSE
(Mean Squared Error), RMSE (Root Mean Squared Error), và nhiều mô hình khác.

Nhược điểm
Phương pháp hồi quy tuyến tính có các nhược điểm đưới đây
• Đối với dữ liệu phi tuyến tính, hồi quy đa thức có thể khá khó khăn để thiết kế, vì người ta
phải có một số thông tin về cấu trúc của dữ liệu và mối quan hệ giữa các biến tính năng.
• Kết quả của những điều trên, các mô hình này không tốt như các mô hình khác khi nói đến
dữ liệu rất phức tạp.
TÀI LIỆU THAM KHẢO
1. Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Bài tập xác suất thống kê, NXB Đại học
quốc gia Tp.HCM, 2018.
2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân tích số
liệu, NXB Đại học quốc gia Tp.HCM , 2019.

3. Nguyễn Văn Tuấn, Xử lý số liệu bằng R, 2006.

4. Máy in 3D, Làm thế nào để có được cài đặt nhiệt độ giường & in ấn hoàn hảo,
(3dprinterly.com).
5. Máy in 3D, Làm thế nào để có được cài đặt quạt & làm mát in hoàn hảo (3dprinterly.com).
6. Việt Machine, Nhựa in 3d PLA và ABS nên sử dụng loại nào? (vietmachine.com.vn).

You might also like