You are on page 1of 51

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA



BÁO CÁO BÀI TẬP LỚN


MÔN XÁC SUẤT THỐNG KÊ (MT2013)

ĐỀ TÀI: XÁC ĐỊNH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC THÔNG SỐ ĐIỀU
CHỈNH TRONG MÁY IN 3D ẢNH HƯỞNG ĐẾN CHẤT LƯỢNG BẢN IN

LỚP – NHÓM – HK 231

NGÀY NỘP: //2023

GIẢNG VIÊN HƯỚNG DẪN: NGUYỄN KIỀU DUNG

STT SINH VIÊN THỰC HIỆN MSSV ĐIỂM SỐ

Thành phố Hồ Chí Minh – 2023


MỤC LỤC

MỤC LỤC..................................................................................................................................2
PHỤ LỤC HÌNH ẢNH...............................................................................................................4
LỜI NÓI ĐẦU............................................................................................................................5
NỘI DUNG.................................................................................................................................6
I. TỔNG QUAN DỮ LIỆU........................................................................................................6
1. Mô tả về bộ dữ liệu.............................................................................................................6
2. Mô tả về biến......................................................................................................................6
II. KIẾN THỨC NỀN.................................................................................................................7
1. Tổng quát về mô hình hồi quy tuyến tính bội.....................................................................7
2. Hàm hồi quy tổng thể (PRF - Population RegSSREion Function).....................................7
3 Hàm hồi quy mẫu (SRF – Sample RegSSREion Function):...............................................8
4. Các giả thuyết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính
bội 9
5. Phân tích phương sai hồi quy.............................................................................................9
6. Khoảng tin cậy và kiểm định các hệ số hồi quy...............................................................10
6.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy.................................................10

6.2. Kiểm định giả thiết đối với 𝛃𝐣.̇ ..................................................................................11

7 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định
WALD).................................................................................................................................12
7.1 Khái quát về kiểm định WALD..................................................................................12

7.2 Kiểm định ý nghĩa của mô hình.................................................................................13

8. Đa cộng tuyến (Multicollinearity)....................................................................................14


III. TIỀN XỬ LÝ SỐ LIỆU......................................................................................................15
1. Đọc dữ liệu (Import data):...........................................................................................15
2. Làm sạch dữ liệu..........................................................................................................15
2.1 Kiểm tra dữ liệu khuyết..............................................................................................15

2.2 Kiểm tra định dạng của biến......................................................................................15

2.3 Xử lý định dạng của biến...........................................................................................17

IV THỐNG KÊ MÔ TẢ...........................................................................................................17
1.Thực hiện thống kê tổng thể cho các biến.........................................................................17
1. Tính toán giá trị thống kê của các biến liên tục...........................................................18
2. Thống kê số lượng cho các biến định tính...................................................................19
3. Vẽ đồ thị histogram (biểu đồ cột) thể hiện phân phối của biến phản hồi....................20

2
4. Vẽ biểu dồ boxplot (biểu đồ hộp của biến phản hồi so với biến phân loại..................20
5.1 Vẽ biểu đồ boxplot thể hiện phân phổi của của biến roughness................................20

5.2 Vẽ biểu đồ boxplot thể hiện phân phối của biến tension_strenght............................21

5.3 Vẽ biểu đồ boxplot thể hiện phân phối của biến elongation......................................21

5. Vẽ ma trận tương quan giữa các biến..........................................................................22


6. Vẽ biểu đồ scatter plot (biểu đồ tán xạ) thể hiện phân phối........................................23
V. THỐNG KÊ SUY DIỄN......................................................................................................26
1. Đọc dữ liệu các giá trị từ bảng.....................................................................................27
2. Xây dựng mô hình hồi quy tuyến tính.........................................................................27
2.1 Các mô hình hồi quy..................................................................................................27

2.2 Kiểm định để tìm mô hình hồi quy phù hợp...............................................................32

NHẬN XÉT CHUNG........................................................................................................34

2.3 Vẽ đồ thị kiểm tra các giả định của mô hình.............................................................36

3. Kiểm định trung bình hai mẫu.....................................................................................37


3.1 Tạo bảng dữ liệu........................................................................................................38

3.2 Kiểm tra tính chuẩn của biến roughness của các nhóm............................................39

3.3 Kiểm định phương sai 2 mẫu.....................................................................................39

3.4 Bài toán kiểm định trung bình mẫu...........................................................................40

3.5 Sự khác biệt về kết luận ở hai bài toán......................................................................41

4. Bài toán anova một yếu tố...........................................................................................42


4.1 Kiểm tra các điều kiện...............................................................................................42

4.2 Phân tích phương sai (anova)....................................................................................45

KÊT LUẬN...............................................................................................................................47
TÀI LIỆU THAM KHẢO........................................................................................................47

3
PHỤ LỤC HÌNH ẢNH

4
LỜI NÓI ĐẦU
Lời đầu tiên, nhóm gửi đến cô Nguyễn Kiều Dung, giảng viên đã hướng dẫn
cho nhóm hoàn thành đề tài này, một lời tri ân sâu sắc. Nhờ có những bài giảng cùng
sự tâm huyết của cô trên lớp mà tụi em nắm được cơ sở lí thuyết một cách khoa học,
cụ thể nhất để giải quyết bài báo cáo trên theo đúng thời hạn đã giao. Bên cạnh đó,
nhóm cũng xin trân trọng cám ơn những ý kiến đóng góp, giúp đỡ và chỉ bảo tận tình
của thầy cô, bạn bè, đã giúp cho bài báo cáo trở nên hoàn thiện hơn.

Nhóm xin chân thành cám ơn sự hỗ trợ, tương tác lẫn nhau của từng cá nhân
trong nhóm. Qua quá trình làm việc nhóm đã dần hiểu rõ nhau hơn, đoàn kết hết trong
học tập lẫn công việc. Do chưa có nhiều kinh nghiệm làm việc bằng phần mềm
RStudio, cũng như những hạn chế về mặt kiến thức chắc chắn sẽ không tránh khỏi
những thiếu sót. Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía
cô để bài báo cáo được hoàn thiện hơn.

Lời cuối cùng, nhóm xin gửi lời cám ơn chân thành nhất tới những người đã hỗ
trợ nhóm trong quá trình làm bài báo cáo.

5
NỘI DUNG

I. TỔNG QUAN DỮ LIỆU


1. Mô tả về bộ dữ liệu
Tập tin “data.csv” chứa bộ dữ iệu của nhóm nghiên cứu khoa học của khoa Cơ
khí Đại học TR/Selcuk. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/datasets/afumetto/3dprinter
Nghiên cứu tập trung vào việc xác định tác động của các tham số cài đặt trên chất
lượng, độ chính xác và độ bền của sản phẩm in. Bộ dữ liệu bao gồm 50 quan sát với 9
tham số cài đặt và 3 thông số đầu ra được đo lường.
Để đạt được mục tiêu này, các thử nghiệm về chất liệu và độ bền đã được thực
hiện trên máy thử nghiệm Sincotec GMBH có khả năng kéo 20 kN.
2. Mô tả về biến
Các thông số đầu vào (được cài đặt)

ST Biến Loại dữ liệu Đơn vị


T

1 Layer Height (Độ dày mỗi lớp in) Liên tục (mm)

2 Wall Thickness (Độ dày) Liên tục (mm)

3 Infill Density Liên tục %

4 Infill Pattern Phân loại

5 Nozzle Temperature (Nhiệt độ mũi) Liên tục

6 Bed Temperature (Nhiệt độ bàn in) Liên tục

7 Print Speed (Tốc độ in) Liên tục mm/s

8 Material (Nguyên liệu) Phân loại

9 Fan Speed (FS - Tốc độ quạt) Liên tục %

Các thông số đầu ra (được đo)

6
1 Roughness (Độ nhám) Liên tục

2 Tension Strenght (Sức căng) Liên tục

3 Elongation (Độ giãn dài) Liên tục %

Trong bảng trên, có 9 biến cài đặt, 3 biến đầu ra xác định chất lượng của bản in. Vì vậy
ta sẽ dự đoán về 3 biến chất lượng bản in dựa trên 9 biến cài đặt. Ở đây có 2 biến phân
loại là Infill Pattern, Material

II. KIẾN THỨC NỀN


1. Tổng quát về mô hình hồi quy tuyến tính bội
Hồi quy tuyến tính bội là mô hình với một biến phụ thuộc với hai hoặc nhiều
biến độc lập:

Yi = β0 + β1X1i +β2X2i +β3X3i ...βkXki +ϵi

Trong đó:

β0: là hệ số tung độ góc


β1: là hệ dốc của Y theo biến X1 và giữa các biến X2, X3,..., Xk không đổi.
β2: là hệ dốc của Y theo biến X2 và giữa các biến X1, X3,..., Xk không đổi.
β3: là hệ dốc của Y theo biến X3 và giữa các biến X1, X2,..., Xk không đổi.
...

βk: là hệ dốc của Y theo biến Xk và giữa các biến X1, X2,..., Xk không đổi.
ϵi: là thành phần ngẫu nhiên (yếu tố nhiễu), có kì vọng bằng 0 và phương sai
không đổi σ2.
Hồi quy tuyến tính là một phương pháp để dự đoán giá trị biến phụ thuộc (Y)
dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất
của các thông số của tổng thể β 1 và tổng thể βk là tuyến tính (bậc nhất). Nó có thể được
sử dụng cho các trường hợp chúng ta muốn dự đoán số lượng liên tục. Ví dụ: dự đoán
thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một
website nào đó... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng
thể, đó là ước lượng các tham số của tổng thể: β1, β2, ..., βk.

7
2. Hàm hồi quy tổng thể (PRF - Population Regression Function)
Với Y là biến phụ thuộc, X 1 , X 2 , … , X k là biến độc lập, Y là ngẫu nhiên và có
một phân phối xác suất nào đó. Suy ra: Tồn tại E (Y|X1, X2,…, Xk) = giá trị xác định.
Do vậy F (X1, X2,…, Xk) = E (Y|X1, X2,…, Xk) là hàm hồi quy tổng thể của Y theo X 1,
X2,…, Xk.

Với một cá thể i, tồn tại (X1,i, X2,i,…, Xk,i, Yi)

Ta có: Yi ≠ F (X1, X2,…, Xk) ⇒ ui = Yi – F

Do vậy: Yi = E (Y|X1, X2,…, Xk) + ui

Hồi quy tổng thể PRF:

Y = E(Y|X) + U

E(Y|X) = F(X)

3 Hàm hồi quy mẫu (SRF – Sample Regression Function):


Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của
biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để
ước lượng.

Trên một mẫu có n cá thể, gọi Y^ = F


^ (X , X ,.. X ) là hồi quy mẫu.
1 2 K

^ X , X ,.. X , với ε gọi là phần dư


^ (X , X ,.. X ) sinh ra ε i=Y − F
Với một cá thể mẫu có thể Y ≠ F 1 2 K ( 1 2 ) K
i

SRF.

Giả sử có một mẫu quan sát với giá trị thực tế là (Xi, X2i, ...Xki) với (i = 1, 2, 3, ...k). Ta
sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số β m (với m = 1,
2, 3, ...k). Từ các giá trị ước lượng này có thể viết thành hàm hồi quy.

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

Y^i= β^0 + β^1 × X 1 + ^


β2× X2+ ^
β 3 × X 3 +⋯ + ^
βk × Xk

8
Trong đó, ^
β m là ước lượng của β m. Chúng ta trông đợi ^
β m là ước lượng không

chệch của β m, hơn nữa phải là một ước lượng hiệu quả. Y^i là giá trị ước lượng cho Y i
và sai lệch giữa hai giá trị này được gọi là phần dư: ε i=Y i−Y^i .

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của
F qua việc tìm các tham số của ^
F và lấy giá trị quan sát của các tham số này làm giá
trị xấp xỉ cho tham số của F .

4. Các giả thuyết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến
tính bội
Xét mô hình hồi quy bội:

Yi = β0 + β1X1i +β2X2i +β3X3i ...βkXki +ϵi

Giống như mô hình hồi quy đơn, mô hình hồi quy bội này có các tính chất sau:

• Đường hồi quy bội đi qua điểm (Y , X 1 , … , X k ¿

• Y^ =Y
n
• ∑ εi=0
i=1

n
• ϵi không tương quan với Xpi, (p = 1,2, … , k), ∑ u i X pi =0
i=1

n
• Các ε i không tương quan với Y^ : ∑ εi × Y^i=0
i=1

• ^
β i là các ước lượng tuyến tính không chệch và có phương sai nhỏ nhất

cho các β i (i=1 , k )


5. Phân tích phương sai hồi quy
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động
của biến phụ thuộc, người ta sử dụng R2.

5.1 Hệ số xác định

Ta có:

+ Σ (yi − y ) 2 : SST – Sum of Squares Total

+ Σ (yi – ^
y i)2 : SSE – Sum of Squares Explained

9
+ Σ ( ^y i − y )2 : SSR – Sum of Squares Residual

Ta có thể viết: SST = SSE + SSR

Ý nghĩa của các thành phần:

+ SST là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.

+ SSE là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính
xác của hàm hồi quy.

+ SSR là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các
giá trị nhận được từ hàm hồi quy.

+ SST được chia thành 2 phần: một phần do SSE và một phần do SSR gây ra.

Khi đó hệ số xác định R2 được xác định theo công thức:

R 2=
SSR
SST (
× 100 %= 1−
SSE
SST )
×100 %

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương
cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ
định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị
trung bình được giải thích bằng mô hình. Khi đó người ta sử dụng R 2 để đo sự phù
hợp của hàm hồi quy:

+ 0 ≤ R2 ≤ 1.

+ R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.

+ Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.

+ Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến
phụ thuộc y.

10
6. Khoảng tin cậy và kiểm định các hệ số hồi quy
6.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ là suy đoán về β 1, β2,..., βk mà
còn phải kiểm tra bản chất của sự phụ thuộc. Do vậy cần phải biết phân bố xác suất
của β1, β2,..., βk . Các phân bố này phụ thuộc vào phân bố của các ui .

Với các giả thiết OLS, ui có phân phối N (θ, 𝜎2). Các hệ số ước lượng tuân theo
phân phối chuẩn:
^
βj N ¿

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k
là hệ số có trong phương trình hồi quy đa biến:

Ước lượng 2 phía, ta tìm được thỏa mãn:

Khoảng tin cậy 1 − α của βj̇ là:

6.2. Kiểm định giả thiết đối với 𝛃𝐣̇


Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không; kiểm
định rằng biến giải thích có thật sự ảnh hưởng đến biến phụ thuộc hay không. Nói
cách khác là hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj̇ , chẳng hạn βj̇ = βj̇ ∗ . Nếu giả thiết này đúng
thì:

Ta có bảng sau:

11
Bảng 1.1 Kiểm định giả thiết đối với 𝛃𝐣̇

Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía βj̇ = β∗j βj̇ ≠ β∗j |t| > tα(n − k)
2
Phía phải t > tα(n − k)
Phía trái t < −tα(n − k)

Kiểm định βj̇ :

 H0 : βj̇ = 0  xj̇ không tác động


 H1 : βj̇ ≠ 0  xj̇ có tác động
 βj̇ < 0  xj̇ có tác động ngược
 βj̇ > 0  xj̇ có tác động thuận

7 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định
WALD)
7.1 Khái quát về kiểm định WALD
Giả sử chúng ta có 2 mô hình dưới đây:

(U) : Y = β1 + β2X2 + β3X3 + β4X4 + u

(R) : Y = β1 + β2X2 + v

Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R


được gọi là mô hình giới hạn (Restrict). Đó là do β 3 và β4 buộc phải bằng 0 trong mô
hình R. Ta có thể kiểm định giả thuyết liên kết β 3 = β4 = 0 với giả thuyết đối là ít nhất
một trong những hệ số này không bằng 0. Kiểm định giả thuyết liên kết này được gọi
là kiểm định Wald, thủ tục như sau.

Đặt các mô hình giới hạn và không giới hạn là:

(U) : Y = β1 + β2X2 + . . . + βmXm + βm+1Xm+1 + . . . + βkXk + u

(R) : Y = β1 + β2X2 + . . . + βmXm + v

12
Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: X m+1, Xm+1,...
Xk Giả thuyết:
• H0 : βm+1 = . . . = βk = 0

• H1 : “Không phải đồng thời các tham số bằng 0”

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy
chưa biết. Do đó, mô hình R có ít hơn (k˘m) thông số so với U. Câu hỏi chúng ta nêu
ra là (k˘m) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không.

Trị thống kê kiểm định đối với giả thiết này là:

Với R2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, F c có
phân phối F với (k-m) bậc tự do đối với tử số và (n-k) bậc tự do đối với mẫu số.

Bác bỏ giả thuyết H0 khi:

Fc > F(α, k − m, n − k)

Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước

7.2 Kiểm định ý nghĩa của mô hình


Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không
có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể
như sau:

• Bước 1: Giả thuyết “không” là H0: β1 = β2 = . . . = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.

• Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X 1, X2, . . . , X k,
sau đó tính tổng bình phương sai số SSR U, SSRR. Phân phối F là tỷ số của hai
biến ngẫu nhiên phân phối khi bình phương độc lập.

Điều này cho ta trị thống kê:

13
Vì H0: β1 = β2 = . . . = β k = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết
này sẽ là:

• Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k-1) cho tử số và
(n-k) cho mẫu số, và với mức ý nghĩa α cho trước.
• Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k − 1, n − k)

Đối với phương pháp giá trị p-value, tính giá trị p = P (F > Fc | H0) và bác bỏ giả
thuyết H0 nếu p bé hơn mức ý nghĩa α.

8. Đa cộng tuyến (Multicollinearity)


Một trong những giả định của mô hình hồi quy tuyến tính cổ điển (CLRM) là
không có mối quan hệ tuyến tính chính xác (exact linear relationship) giữa các biến
giải thích. Nếu có một hoặc nhiều mối quan hệ như vậy giữa các biến giải thích thì
chúng ta gọi ngắn gọn là đa cộng tuyến hoặc cộng tuyến (multicollinearity hoặc
collinearity).

Hình 1.1 Trường hợp đa cộng tuyến

14
III. TIỀN XỬ LÝ SỐ LIỆU
1. Đọc dữ liệu (Import data):
Ta sử dụng hàm read.csv để đọc dữ liệu:
Code:

data <- read.csv("~/Năm 2/HK231/XÁC SUẤT THỐNG KÊ/data.csv")

head(data,6)

Giải thích:
 Đọc dữ liệu và lưu với tên data
 Trích 6 dòng đầu tiên của dữ liệu data
Kết quả:

Hình: Hiển thị 6 giá trị đầu tiên của tập dữ liệu
2. Làm sạch dữ liệu
2.1 Kiểm tra dữ liệu khuyết
Code:

apply(is.na(data),2,which)

Giải thích: Kiểm tra và xuất vị trí NA (không có giá trị)


Kết quả

## integer(0)

Nhận xét: Dữ liệu data không có dữ liệu khuyết.


2.2 Kiểm tra định dạng của biến

15
Như đã trình bày ở trên, ở dữ liệu có 2 biến là biến phân loại, ta cần sử dụng hàm
is.numeric() để kiểm tra định dạng của biến

Code và kết quả:

is.numeric(data$layer_height)
## [1] TRUE
is.numeric(data$wall_thickness)
## [1] TRUE
is.numeric(data$infill_density)
## [1] TRUE
is.numeric(data$nozzle_temperature)
## [1] TRUE
is.numeric(data$bed_temperature)
## [1] TRUE
is.numeric(data$print_speed)
## [1] TRUE
is.numeric(data$fan_speed)
## [1] TRUE
is.numeric(data$roughness)
## [1] TRUE
is.numeric(data$tension_strenght)
## [1] TRUE
is.numeric(data$elongation)
## [1] TRUE
is.numeric(data$infill_pattern)
## [1] FALSE
is.numeric(data$material)
## [1] FALSE

Hình: Định dạng của 9 biến đầu vào và 3 biến đầu ra


Giải thích:
Kiểm tra dữ liệu là liên tục (định lượng), nếu đúng trả về TRUE. Ngược lại, nếu là
biến phân loại (định tính), trả về giá trị TRUE.

Nhận xét:
 Các biến liên túc: layer_height, wall_thickness, infill_density,
nozzle_temperature, bed_temperature, print_speed, fan_speed, roughness, tension
strength, elongation.
16
 Các biến phân loại: infill_pattern, material

2.3 Xử lý định dạng của biến


Như đã trình bày ở trên dữ liệu có 2 biến phân loại, ta cần sử dụng hàm as.factor() để
định nghĩa cho 2 biến này:

data$infill_pattern<-as.factor(data$infill_pattern)
data$material<-as.factor(data$material)
str(data)
## 'data.frame': 50 obs. of 12 variables:
## $ layer_height : num 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02 0.02
0.02 ...
## $ wall_thickness : int 8 7 1 4 6 10 5 10 9 8 ...
## $ infill_density : int 90 90 80 70 90 40 10 10 70 40 ...
## $ infill_pattern : Factor w/ 2 levels "grid","honeycomb": 1 2 1 2 1
2 1 2 1 2 ...
## $ nozzle_temperature: int 220 225 230 240 250 200 205 210 215 220 ...
## $ bed_temperature : int 60 65 70 75 80 60 65 70 75 80 ...
## $ print_speed : int 40 40 40 40 40 40 40 40 40 40 ...
## $ material : Factor w/ 2 levels "abs","pla": 1 1 1 1 1 2 2 2 2
2 ...
## $ fan_speed : int 0 25 50 75 100 0 25 50 75 100 ...
## $ roughness : int 25 32 40 68 92 60 55 21 24 30 ...
## $ tension_strenght : int 18 16 8 10 5 24 12 14 27 25 ...
## $ elongation : num 1.2 1.4 0.8 0.5 0.7 1.1 1.3 1.5 1.4 1.7 ...

NHẬN XÉT CHUNG: Tập dữ liệu sẽ gồm 12 cột dữ liệu với 50 quan sát được trình
bày như ở Bảng 1, không có dữ liệu khuyết trong tập dữ liệu. Đây là một tập dữ liệu
nhỏ giữa các quan sát, chúng ta sẽ sử dụng mô hình hồi quy tuyến tính bội để xây
dựng mô hình hồi quy cho biến Roughness theo các biến đầu vào, kiểm định trung
bình 2 mẫu để đánh giá sự ảnh hưởng của biến Material tác động lên biến Roughness,
anova 1 yếu tố đánh giá Fan-speed lên Roughness.(anova 2 yếu tố nếu có- coming
soon or not)

IV THỐNG KÊ MÔ TẢ
1.Thực hiện thống kê tổng thể cho các biến
Sử dụng hàm Summary() để tóm tắt dữ liệu:
Code:
17
summary(data)

Kết quả:

## layer_height wall_thickness infill_density infill_pattern

## Min. :0.020 Min. : 1.00 Min. :10.0 Length:50

## 1st Qu.:0.060 1st Qu.: 3.00 1st Qu.:40.0 Class :character

## Median :0.100 Median : 5.00 Median :50.0 Mode :character

## Mean :0.106 Mean : 5.22 Mean :53.4

## 3rd Qu.:0.150 3rd Qu.: 7.00 3rd Qu.:80.0

## Max. :0.200 Max. :10.00 Max. :90.0

## nozzle_temperature bed_temperature print_speed material

## Min. :200.0 Min. :60 Min. : 40 Length:50

## 1st Qu.:210.0 1st Qu.:65 1st Qu.: 40 Class :character

## Median :220.0 Median :70 Median : 60 Mode :character

## Mean :221.5 Mean :70 Mean : 64

## 3rd Qu.:230.0 3rd Qu.:75 3rd Qu.: 60

## Max. :250.0 Max. :80 Max. :120

## fan_speed roughness tension_strenght elongation

## Min. : 0 Min. : 21.0 Min. : 4.00 Min. :0.400

## 1st Qu.: 25 1st Qu.: 92.0 1st Qu.:12.00 1st Qu.:1.100

## Median : 50 Median :165.5 Median :19.00 Median :1.550

## Mean : 50 Mean :170.6 Mean :20.08 Mean :1.672

## 3rd Qu.: 75 3rd Qu.:239.2 3rd Qu.:27.00 3rd Qu.:2.175

## Max. :100 Max. :368.0 Max. :37.00 Max. :3.300

Hình. Tóm tắt bộ dữ liệu


1. Tính toán giá trị thống kê của các biến liên tục
Code: x

trung_binh<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,mean)

do_lech_chuan<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,sd)

GTNN<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,min)

GTLN<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,max)

trung_vi<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,median)

Q1<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,quantile,probs=0.25)

Q3<-apply(data[,c(1,2,3,5,6,7,9,10,11,12)],2,quantile,probs=0.75)

18
t(data.frame(trung_binh,do_lech_chuan,GTNN,GTLN,trung_vi,Q1,Q3))

Giải thích:
Thực hiện tính toán giá trị các biến liên tục rồi lần lượt gán vào trung_binh,
do_lech_chuan, GTNN, GTLN, trung_vi, Q1, Q3
 Xuất kết quả dưới dạng bảng.

2. Thống kê số lượng cho các biến định tính


Lập bảng thống kê số lượng cho biến infill_pattern và biến material
Code:

table(data$infill_pattern)

table(data$material)

Kết quả:

##

## grid honeycomb

## 25 25

##

## abs pla

## 25 25

Nhận xét:

19
Từ bảng thống kê ta có thể nhận biết được: có 25 mẫu in dạng grid (lưới
thẳng), 25 mẫu in dạng honeycomb (tổ ong).
Từ bảng thống kê ta có thể nhận biết được: có 25 mẫu sử dụng vật liệu ABS
(acrylonitrile butadiene styrene), 25 mẫu sử dụng vật liệu PLA (axit polylactic).

3. Vẽ đồ thị histogram (biểu đồ cột) thể hiện phân phối của biến phản hồi
Code:

hist(data[,"roughness"], xlab="Độ nhám", ylab="Tần số", main="Đồ thị phân


phối của biến roughness")
hist(data[,"tension_strenght"], xlab="Sức căng", ylab="Tần số",
main="Histogram of tension strenght", label=T,
col=c("lightblue"),ylim=c(0,15))
hist(data[,"elongation"], xlab="Độ dãn dài", ylab="Tần số", main="Histogram
of elongation", label=T, col=c("lightblue"),ylim=c(0,15))

Kết quả:

20
Nhận xét:

21
4. Vẽ biểu dồ boxplot (biểu đồ hộp của biến phản hồi so với biến phân loại
5.1 Vẽ biểu đồ boxplot thể hiện phân phổi của của biến roughness
Code:

boxplot(data$roughness~data$infill_pattern, main="Boxplot of roughness and


infill pattern",xlab="infill pattern", ylab="roughness", col=c(2,5))
boxplot(data$roughness~data$material, main="Boxplot of roughness and
material",xlab="material", ylab="roughness", col=c(3,5))

Kết quả

Hình: Biểu đồ boxplot của biến roughness với biến phân loại infill_pattern và
material
5.2 Vẽ biểu đồ boxplot thể hiện phân phối của biến tension_strenght
Code:

22
boxplot(data$tension_strenght~data$infill_pattern, main="Boxplot of tension
strenght and infill pattern",xlab="infill patern", ylab="tension strenght",
col=c(2,4))

boxplot(data$ tension_strenght~data$material, main="Boxplot of tension


strength and material",xlab="material", ylab="tension strenght",
col=c(3,5))

Kết quả:

Hình: Biểu đồ boxplot của biến tension_strengh với biến phân loại infill_pattern và
material

5.3 Vẽ biểu đồ boxplot thể hiện phân phối của biến elongation
Code:

boxplot(data$elongation~data$infill_pattern, main="Boxplot of elongation


and infill pattern",xlab="infill patern", ylab="elongation", col=c(2,4))

boxplot(data$elongation~data$material, main="Boxplot of elongation and


material",xlab="material", ylab="elongation", col=c(3,5))

Hình: Biểu đồ boxplot của biến elongation với biến phân loại infill_pattern và
material

23
Nhận xét: Dựa trên kết quả của ba nhóm biểu đồ trên, ta thấy đối với biến phân loại
infill pattern, ở 3 biến phản hồi dường như không có sự khác biệt, còn đối với biến
phân loại material thì ngược lại, có sự thay đổi có thể dễ dàng thấy được.

5. Vẽ ma trận tương quan giữa các biến


Để thể hiện sự tương quan giữa các biến, giúp hiểu rõ hơn về mối quan hệ
tương quan giữa các biến trong một ma trận tương quan ta sử dụng hàm: corrplot
Code:

Kết quả:

Hình. Biểu đồ hệ số tương quan giữa các biến liên tục


Qua biểu đồ trên, ta nhận thấy rằng:

24
 Roughness tương quan dương cao với layer height (0.80)
 Bed temperature tương quan với nozzle temperature (0.60)
 Fan speed tương quan với nozzle temperature (0.60)
 Fan speed và bed temperature tương quan dương hoàn toàn với nhau (1.00)
 Hai biến phản hồi elongation và tension strength tương quan dương cao với
nhau (0.84)

Ta kết luận được rằng:

 Hệ số tương quan giữa roughness và các biến độc lập cho ta dự đoán
roughness có quan hệ tuyến tính mạnh với layer_height, và không có quan hệ
tuyến tính mạnh với các biến còn lại.
 Hệ số tương quan giữa tension_strenght/elongation và các biến độc lập cho ta
dự đoán tension_strenght/elongation không có quan hệ tuyến tính mạnh với
các biến này.
 Hệ số tương quan giữa biến fan_speed và bed_temperature là 1 nên ở đây có
hiện tượng đa cộng tuyến, do đó, khi xây dựng mô hình ta có thể bỏ một
trong hai biến.

6. Vẽ biểu đồ scatter plot (biểu đồ tán xạ) thể hiện phân phối
Ta có thể vẽ biểu đồ scatter plot (biểu đồ tán xạ) để kiểm tra nhận xét về mối
tương quan giữa các biến phản hồi với các biến đầu vào ở mục 4. Ở đây ta không xét
đến biến fan_speed (vì nó có hiện tượng đa cộng tuyến với biến bed_temperature)

6.1 Vẽ biểu đồ scatter plot thể hiện phân phổi của của biến roughness

plot(data$layer_height,data$roughness, xlab="layer height",


ylab="roughness")
plot(data$wall_thickness,data$roughness, xlab="wall thickness",
ylab="roughness")
plot(data$infill_density,data$roughness, xlab="infill density",
ylab="roughness")
plot(data$nozzle_temperature,data$roughness, xlab="nozzle_temperature",
ylab="roughness")
plot(data$bed_temperature,data$roughness, xlab="bed temperature",
ylab="roughness")
plot(data$print_speed,data$roughness, xlab="print speed", ylab="roughness")

25
26
27
Hình:

Nhận xét: Dựa trên đồ thị phân tán, ta lại một lần nữa có thể dự đoán được biến
rougness có quan hệ tuyến tính với layer_height, và không có quan hệ tuyến tính mạnh
với các biến còn lại.

6.2 Vẽ biểu đồ scatter plot thể hiện phân phối của biến tension_strenght

plot(data$layer_height,data$tension_strenght, xlab="layer height",


ylab="tension strenght")
plot(data$wall_thickness,data$tension_strenght, xlab="wall thickness",
ylab="tension strenght")
plot(data$infill_density,data$tension_strenght, xlab="infill density",
ylab="tension strenght")
plot(data$nozzle_temperature,data$tension_strenght,
xlab="nozzle_temperature", ylab="tension strenght")
plot(data$bed_temperature,data$tension_strenght, xlab="bed temperature",
ylab="tension strenght")
plot(data$print_speed,data$tension_strenght, xlab="print speed",
ylab="tension strenght")

Kết quả:

28
Hình:

Nhận xét: Dựa vào đồ thị phân tán, ta thấy biến tension_strenght không có quan hệ
tuyến tính với các biến còn lại

6.3 Vẽ biểu đồ scatter plot thể hiện phân phối của biến elongation

plot(data$layer_height,data$elongation, xlab="layer height",


ylab="elongation")

plot(data$wall_thickness,data$elongation, xlab="wall thickness",


ylab="elongation")

plot(data$infill_density,data$elongation, xlab="infill density",


ylab="elongation")

plot(data$nozzle_temperature,data$elongation, xlab="nozzle_temperature",
ylab="elongations")

plot(data$bed_temperature,data$elongation, xlab="bed temperature",


ylab="elongation")

plot(data$print_speed,data$elongation, xlab="print speed",


ylab="elongation")

29
Hình:

Nhận xét: Tương tự, biến Elongation không có quan hệ tuyến tính với các biến còn lại.

V. THỐNG KÊ SUY DIỄN

Ở phần thống kê mô tả, ta nhận xét được các biến đầu ra Tension strength và
Elongation không có quan hệ tương quan cao với các biến đầu vào, nên trong phần
thống kê suy diễn, nhóm nghiên cứu mức độ ảnh hưởng của các thông số điều chỉnh
trong máy in 3D đến độ nhám của bản in.

1. Đọc dữ liệu các giá trị từ bảng


2. Xây dựng mô hình hồi quy tuyến tính
2.1 Các mô hình hồi quy

Chúng ta xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể
ảnh hưởng đến độ nhám của bản in. Ta dùng lệnh lm() để thực thi mô hình hồi quy
tuyến tính bội.

MÔ HÌNH 1:

Ta sẽ xây dụng mô hình hồi quy bao gồm:

 1 biến phụ thuộc: roughness


 8 biến đầu vào: layer_height, wall_thickness, infill_density, infill_pattern,
nozzle_temperature, bed_temperature, print_speed, material. (nhóm không
xét đến biến fan_speed vì nó có hiện tượng cộng tuyến)

Mô hình 1 được biểu diễn như sau

roughness=β 0 + β 1 ×layerheight + β 2 × wallthickness+ β3 ×infilldensity


+ β 4 ×infill pattern+ β5 × nozzle temperature
+ β 6 × bed temperature+ β 7 × printspeed + β 8 × material+ ε

βi
Ta thực hiện ước lượng các hệ số (với từ 0 đến 8)
30
Trong đó:

β0: là hệ số tung độ góc


β1: là hệ dốc của Y theo biến X1 và giữa các biến X2, X3,..., Xk không đổi.
β2: là hệ dốc của Y theo biến X2 và giữa các biến X1, X3,..., Xk không đổi.
β3: là hệ dốc của Y theo biến X3 và giữa các biến X1, X2,..., Xk không đổi.
...

βk: là hệ dốc của Y theo biến Xk và giữa các biến X1, X2,..., Xk không đổi.

Code:

Kết quả:

Nhận xét:
Từ cột Estimate ta có phương trình hồi quy

^
roughness=−2371+1269 ×layerheight +2.344 × wallthicknessy
−0.04231× infill density −0.1255 ×infill pattern
+15.06 ×nozzle temperature−16.13 ×bed temperature
+ 0.6496 × printspeed+298.5 × material

31
 Hệ số R2(Multiple R-squared) = 0.8752: điều này cho thấy khoảng 87.52 % biến
thiên trong giá trị của biến phụ thuộc Roughness có thể được giải thích bởi mối liên hệ
tuyến tính giữa biến phụ thuộc Roughness với các biến độc lập trong mô hình hồi quy
này. Nhưng giá trị này sẽ giảm khi ta bỏ bớt biến trong mô hình hồi quy nên không
thường được sử dụng khi đánh giá 2 mô hình khác số lượng biến độc lập nên thay vào
đó ta sẽ sử dụng R2 hiệu chỉnh.
 Hệ số R2 hiệu chỉnh (Adjusted R-squared) = 0.8509: cũng cho biết sự thay đổi
của biến Roughness được giải thích bởi khoảng 85.09% biến độc lập. Giá trị này lớn
hơn 0.8 chứng tỏ mô hình khá hiệu quả.
 Ta thấy rằng p-value tương ứng với thống kê F = 3.834e-16 , có ý nghĩa rất cao.
Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất
cao cho biến độ nhám roughness.

Dựa vào kết quả của mô hình hồi quy tuyến tính trên,sau đây ta sẽ xem những
biến nào có thể loại khỏi mô hình (lấy mức tin cậy là 5%).

Giả thuyết

H0
: giá trị trung bình của hệ số hồi quy

H1
: giá trị trung bình của hệ số hồi quy

của các biến wall_thickness, infill_density, infill_patternhoneycomb


lớn hơn mức ý nghĩa 5% nên ta chưa đủ bằng chứng để bác bỏ H 0. Vì vậy, với các
biến này ta chưa có cơ sở để nói lên việc chúng có ý nghĩa đối với mô hình hồi quy ta
vừa xây dựng, do đó ta phải đi thử loại từng biến này ra khỏi mô hình từ đó mới nhận
xét được các biến này có ý nghĩa hay không.

Như vậy từ việc kiểm định các hệ số hồi quy, ta cân nhắc việc loại bỏ các biến
wall_thickness, infill_density, infill_patternhoneycomb theo thứ tự giảm dần của giá
trị Pr(>|t|) vì giá trị này càng lớn thì càng khó bác bỏ H 0 và biến này càng có ít ý nghĩa.

Chính vì vậy ta xây dụng các mô hình sau:

 Mô hình 1: chứa tất cả các biến độc lập (như trên)

32
 Mô hình 2: loại bỏ đi biến infill_patternhoneycomb từ mô hình 1
 Mô hình 3: loại bỏ đi biến infill_density từ mô hình 2
 Mô hình 4: Loại bỏ đi biến wall_thickness từ mô hình 3.

MÔ HÌNH 2: bỏ đi biến infill_patternhoneycomb từ mô hình 1.

Code:

Kết quả:

Phương trình hồi quy:

^
roughness=−2371+1269 ×layerheight +2.330 ×wallthickness
−0.04199× infill density + 15.06 ×nozzle temperature
−16.13 ×bed temperature+0.6496 × printspeed+ 298.5 ×material

Ta cần kiểm tra hiệu quả

MÔ HÌNH 3: loại bỏ biến infill_density từ mô hình 2


Code:

Kết quả:
33
Phương trình hồi quy:

^
roughness=−2357.52+1268.9371 ×layerheight +2.2796 × wallthickness
14.9504 × nozzle temperature−15.9967 × bed temperature+ 0.6507 × printspeed
+ 296.5902× material

MÔ HÌNH 4: loại bỏ biến wall_thickness từ mô hình 3

Code:

Kết quả

Phương trình hồi quy:

34
^
roughness=−2310.7356+1246.5353 ×layerheight +14.7774 × nozzle temperature
−15.8078 × bed temperature+0.5538 × printspeed+ +294.1610 ×material

2.2 Kiểm định để tìm mô hình hồi quy phù hợp


Ta dùng lệnh anova() để kiểm định độ hiệu quả của các mô hình với nhau để
chọn ra mô hình phù hợp nhất.
2.2.1 Mô hình 1 và mô hình 2:
Giả thuyết

H 0: 2 mô hình có hiệu quả giống nhau

H 1: 2 mô hình có hiệu quả khác nhau

Code:

Kết quả:

Nhận xét:
Với p_value của kiểm định bằng 0.9912 > 0.05 nên ta chưa bác bỏ H 0, vậy t có
thể coi mô hình 2 hiệu quả giống mô hình 1.

Ở đây ta thấy mô hình 2 vừa ít biến hơn và vừa có R2 hiệu chỉnh lớn hơn nên ta
sẽ ưu tiên chọn mô hình 2 hơn mô hình 1.

2.2.2 Mô hình 2 và mô hình 3:


Giả thuyết

H 0: 2 mô hình có hiệu quả giống nhau

35
H 1: 2 mô hình có hiệu quả khác nhau

Code:

Kết quả:

Nhận xét:

Với p_value của kiểm định bằng 0.8557 > 0.05 nên ta chưa bác bỏ H 0, vậy t có
thể coi mô hình 3 hiệu quả bằng mô hình 2.

Ta dựa vào hệ số R2 hiệu chỉnh (Adjusted R-squared) = 0.8577: giá trị này lớn
hơn Hệ số R2 hiệu chỉnh của mô hình 2 nên ta có thể nói mô hình 3 hiệu quả hơn mô
hình 2.
36
2.2.3 Mô hình 3 và mô hình 4:
Giả thuyết

H 0: 2 mô hình có hiệu quả giống nhau

H 1: 2 mô hình có hiệu quả khác nhau

Code:

Kết quả:

Nhận xét:
Với p_value của kiểm định bằng 0.2828 > 0.05 nên ta chưa bác bỏ H 0, vậy t có
thể coi mô hình 4 hiệu quả bằng mô hình 3.

Hệ số R2 hiệu chỉnh (Adjusted R-squared) = 0.8571: giá trị này nhỏ hơn Hệ số
R hiệu chỉnh của mô hình 3 nên ta sẽ giữ mô hình 3.
2

Sau khi xong ta đã có được mô hình hồi quy phù hợp nhất là mô hình 3:

^
roughness=−2357.52+1268.9371 ×layerheight +2.2796 × wallthickness
14.9504 × nozzle temperature−15.9967 × bed temperature+ 0.6507 × printspeed
+ 296.5902× material

NHẬN XÉT CHUNG


Từ mô hình hợp lý nhất ở phần trên, ta phân tích tác động của các biến lên độ nhám
của máy in 3D

37
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên độ nhám
roughness:
^
roughness=−2357.52+1268.9371 ×layerheight +2.2796 × wallthickness
14.9504 × nozzle temperature−15.9967 × bed temperature+ 0.6507 × printspeed
+ 296.5902× material
 Trước hết, để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số
β i) và p value tương ứng. Ta thấy rằng p value tương ứng với biến layer_height bé hơn

2e-16, điều này nói lên rằng ảnh hưởng của layer_height có ý nghĩa rất cao lên biến
roughness. Ngoài ra, biến nozzle_temperature, bed_temperature, material cũng có ý
nghĩa cao, còn biến print_speed ít ảnh hưởng lên độ nhám roughness của máy in. Còn
biến wall_thickness không ảnh hưởng đến độ nhám.

 Mặt khác, hệ số hồi quy của một biến dự báo cũng có thể được xem như ảnh
hưởng trung bình lên biến phụ thuộc roughness khi tăng một đơn vị của biến dự báo
đó, giả sử rằng các biến dự báo khác không đổi. Cụ thể, β1 = 1268.9371 thì khi độ dày

lớp layer height tăng lên 1 mm, thì ta có thể kỳ vọng độ nhám tăng lên 1268,9371 ;

Với β3 = 14.9504, khi nhiệt độ phun nozzle temperature tăng lên 1 , ta có thể kỳ

vọng độ nhám tăng lên 14.9504 (giả sử rằng các biến dự báo khác không đổi).
Tương tự, đối với các biến còn lại

38
 Hệ số hiệu chỉnh bằng 0.8577 nghĩa là 85,77% sự biến thiên trong độ nhám
của máy in 3D được giải thích bởi các biến các biến độc lập.

2.3 Vẽ đồ thị kiểm tra các giả định của mô hình.


Sau khi đã xây dựng được mô hình hồi quy tuyến tính ta cần kiểm định lại sự phù
hợp của mô hình hay kiểm định lại các giả định của mô hình hồi quy tuyến tính. Hay
nói cách khác, ta sẽ đi phân tích phần dư ε để đảm bảo nó có những tính chất sau:

Có phân phối chuẩn


Có giá trị trung bình bằng 0
Có phương sai cố định

Code:

Kết quả:

39
 Đồ thị Residual vs Fitted: miêu tả sự phân bố phần dư (Residual) theo giá trị dự
báo (Fitted), dùng để kiểm tra giả định các sai số có kỳ vọng bằng 0 và tính đồng nhất
các phương sai sai số.

+ Ta nhận thấy đường màu đỏ không được thẳng, Đồ thị phân tán ngẫu nhiên
chưa đều dọc đường màu đỏ vì tập trung chủ yếu ở giữa, điều này bắt nguồn từ bộ dữ
liệu chưa đủ lớn và chưa trải đều theo giá trị biến Roughness

+ Đường màu đỏ dao động quanh giá trị 0 nên ta có thể nói mô hình hồi quy có
sai số kì vong bằng không

+ Bên cạnh đó giá trị sai số ở những giá trị Roughness nhỏ khá gần giá trị dự
báo nhưng đoạn cuối lại có phần thừa nhiều nên phương sai của sai số chưa phải hằng
số.

 Đồ thị Q-Q residual: đồ thị để xem phần dư của mô hình có tuân theo phân
phối chuẩn hay không. Ta thấy các giá trị phần lớn nằm trên đường thẳng kì vọng nên
có thể nói là hàm đang có phân phối chuẩn, vậy giả định sai số có phân phối chuẩn
thỏa mãn.
 Đồ thị Scale-Location: đồ thị biểu điễn căn bậc hai của phần dư chuẩn theo sự
thay đổi của giá trị dự báo, dùng để kiểm tra giả định phương sai của các sai số là hằng
số. Phần dư chuẩn là một loại phần dư được chuyển đổi để có phân phối chuẩn với
mean bằng 0 và độ lệch chuẩn bằng 1. Việc này giúp thuận tiện trong việc so sánh các
phần dư từ các mô hình khác nhau hoặc từ cùng một mô hình trên các phần của dữ liệu
khác nhau. Trên đồ thị ta thấy đường màu đỏ chưa nằm ngang và lý do có thể giống
như sự không đều của đồ thị Residual vs Fitted vì thế phương sai của sai số không
hằng số.
 Đồ thị Residual vs Leverage: đồ thị sẽ chỉ ra những điểm gây ra phần dư lớn,
những điểm gây nhiễu (điểm ngoại lai). Đồ thị biểu diễn phần dư dựa trên Leverage
(đòi hỏi) với leverage của một điểm dữ liệu đo lường mức độ mà giá trị dự đoán của
mô hình thay đổi khi thay đổi giá trị tại điểm đó. Các điểm có Leverage cao có thể ảnh
hưởng lớn đến hình dạng của mô hình. Những điểm gây nhiễu là những điểm nằm
ngoài đường cook’s distaince nhưng ở đồ thị này ta không thấy điểm nào lọt ra ngoài
vì thế chưa cần loại điểm nào ra.

40
3. Kiểm định trung bình hai mẫu
Xét hai biến phân loại infill_pattern và material, ta thấy ở đây mô hình hồi quy
phụ thuộc vào biến material. Nhóm xem xét xem độ nhám bề mặt (roughness) của
từng loại vật liệu chế tạo (material) có khác nhau hay không?

3.1 Tạo bảng dữ liệu


Đầu tiên sẽ là tạo bảng dữ liệu mới đắt tên là new_dulieu theo 2 biến là material và
roughness.

Các bước kiểm tra và làm sạch dữ liệu sẽ được bỏ qua vì đã làm ở trên.

Ta sẽ tách dữ liệu ra thành 2 phần: abs và pla

Code:

Kết quả:

41
3.2 Kiểm tra tính chuẩn của biến roughness của các nhóm
Ở đây ta sẽ sử đụng kiểm định Shapiro-Wilk với giả thuyết

H 0: Phân phối cần kiểm tra tuân theo phân phối chuẩn

42
H 1: Phân phối cần kiểm tra không tuân theo phân phối chuẩn

 Cho nhóm “group_abs”

Code:

Kết quả:

Nhận xét: Giá trị W = 0.94235 ( giá trị thống kê kiểm định ) và p_value = 0.1677
(p_value > 0.05) tức là chưa bác bỏ H 0 vậy trong giới hạn bài toán này ta coi như sự
phân bố giá trị Roughness của vật liệu Abs tuân theo phân phối chuẩn.

Cho nhóm “group_pla”


Code

Kết quả

Nhận xét: giá trị W = 0.97437 ( giá trị thống kê kiểm định ) và p-value =
0.7561(p_value > 0.05) tức là chưa bác bỏ H 0 vậy trong giới hạn bài toán này ta coi
như sự phân bố giá trị Roughness của vật liệu Pla tuân theo phân phôi chuẩn.
3.3 Kiểm định phương sai 2 mẫu
Ở đây ta sẽ sử dụng leveneTest với

Giả thuyết

H 0: Các phương sai của biến Roughness theo vật liệu khác nhau là như nhau (ở

đây vật liệu ta chỉ có 2 loại nên ta còn có thể nói là σ 21=σ 22).

43
H 1: Có ít nhất 1 cặp phương sai của biến Roughness theo vật liệu khác nhau là

khác nhau ( σ 21 ≠ σ 22).

Code:

Kết quả:

Nhận xét: P_value ở đây < 0.05 tức là với mức ý nghĩa 5% ta bác bỏ H 0 chấp nhận H 1
tức là 2 phương sai này là khác nhau

3.4 Bài toán kiểm định trung bình mẫu


Ta xây dựng bài toán kiểm định 2 mẫu như sau:

μ1 là độ nhám trung bình khi dùng vật liệu pla

μ2 là độ nhám trung bình khi dùng vật liệu abs

Giả thuyết

H 0 : μ1=μ2(giả thuyết không thay đổi (null hypothesis))

H 1 : μ 1 ≠ μ2 (Giả thuyết thay thế (alternative hypothesis))

Đây là bài toán 2 mẫu có phân phối chuẩn và phương sai không bằng nhau như
đã chứng minh ở trên.

Code:

Kết quả:

44
Nhận xét: “alternative hypothesis: true difference in means is not equal to 0”
“95 percent confidence interval”

Nghĩa là:

 Với giả thuyết thay thế H 1 hiệu hai giá trị trung bình là không bằng 0 với độ
tin cậy là 95%.
 Kết quả tính toán trên cho biết độ nhám của vật liệu abs có thể thấp chênh lệc
pla hoặc 101.18638. Vì có đi qua giá trị 0 nên đó là thêm bằng
chứng cho thấy không có khác biệt có ý nghĩa thống kê giữa hai nhóm.
 Khi giá trị p-value = 0.1038, với ngưỡng ý nghĩa thường được thiết lập là
0.05, kết quả này không đủ bằng chứng để bác bỏ giả thuyết H 0 (null
hypothesis) nên vì thế có thể kết luận không có sự khác biệt về giá trị trung
bình giữa hai nhóm dữ liệu.
 Cũng có nghĩa là giá trị thống kê kiểm định không thuộc miền bác bỏ nên ta
không thể bác bỏ H 0. Chúng ta không có cơ sở để nói là độ nhám trung bình
của sản phẩm in 3D của 2 vật liệu abs và pla là khác nhau.

3.5 Sự khác biệt về kết luận ở hai bài toán


Như chúng ta có thể thấy trung quá trình xây dựng mô hồi quy tuyến tính bội ở trên, ta
đã không chứng minh được là biến vật liệu không ảnh hưởng tới độ nhám. Sự khác
nhau này ta phải nhìn lại cả 2 thông số.

45
Ở bài toán xây dựng mô hình hồi quy trên, ta rõ ràng có thể thấy biến material có
p_value là 3.92e-06 đây chỉ là chứng minh được hệ số hồi quy biến này khác không.
Nhưng khi nhìn vào hệ số trung bình của hệ số hồi quy β này ta sẽ thấy là bằng

296.5902 tức là khi vật liệu là pla thì độ nhám sẽ tăng 296.5902 và khi là vật liệu
abs thì sẽ không đổi nhưng nếu so sánh với giá trị trung bình của hệ số hồi quy β 0 thì
giá trị này chỉ khoảng 10% nên vì thế độ ảnh hưởng sẽ không rõ

4. Bài toán anova một yếu tố


Trong bài toán anova một yếu tố, nhóm xét tốc độ quạt (fan_speed) sẽ ảnh hưởng
như nào tới độ nhám (roughness) của vật liệu. Ta sẽ dùng anova để phân tích phương
sai để coi độ nhám có phụ thuộc vào tốc độ quạt hay không. Vì thế ở đây ta chia dữ
liệu thành các nhóm có tốc độ quạt lần lượt là 0 (nhóm 1), 25 (nhóm 2), 50 (nhóm 3),
75 (nhóm 4), 100 (nhóm 5).
Điều kiện thực hiện anova:

 Các tổng thể tuân theo phân phối chuẩn: độ nhám theo các tốc độ quạt khác
nhau tuân theo phân phối chuẩn.
 Đồng nhất phương sai: phương sai về độ nhám ở các tốc độ quạt khác nhau
là như nhau.
 Các mẫu phải độc lập (điều này đã được đảm bảo khi lấy mẫu).

46
4.1 Kiểm tra các điều kiện
4.1.1 Điều kiện biến độ nhám tuân theo phân phối chuẩn.

Ta sẽ sử dụng shapiro.test trong R để sự phân bố của biến roughness có tuân


theo phân phối chuẩn hay không.

Kiểm định shapiro-wilk với giả thuyết

H 0: Phân phối cần kiểm tra tuân theo phân phối chuẩn

H 1: Phân phối cần kiểm tra không tuân theo phân phối chuẩn

 NHÓM 1:

Code:

Kết quả:

Nhận xét: P_value = 0.8374 lớn hơn 0.05 nên ta chưa bác bỏ H 0 và ta có thể coi như
phân phối giá trị độ nhám của nhóm 1 có tuân theo phân phối chuẩn.

 NHÓM 2:

Code:

Kết quả:

47
Nhận xét: P_value = 0.747 lớn hơn 0.05 nên ta chưa bác bỏ H 0 và ta có thể coi như
phân phối giá tị độ nhám của nhóm 2 có tuân theo phân phối chuẩn.
 NHÓM 3:
Code:

Kết quả:

Nhận xét: P_value = 0.4978 lớn hơn 0.05 nên ta chưa bác bỏ H 0 và ta có thể coi như
phân phối giá tị độ nhám của nhóm 3 có tuân theo phân phối chuẩn.

 NHÓM 4
Code:

Kết quả:

Nhận xét: P_value = 0.9056 lớn hơn 0.05 nên ta chưa bác bỏ H 0 và ta có thể coi như
phân phối giá tị độ nhám của nhóm 4 có tuân theo phân phối chuẩn.
 NHÓM 5
Code:
48
Kết quả:

Nhận xét: P_value = 0.4095 lớn hơn 0.05 nên ta chưa bác bỏ H 0 và ta có thể coi như
phân phối giá tị độ nhám của nhóm 5 có tuân theo phân phối chuẩn.
Như vậy, ta có được vậy ta có được phần phối biến roughness của cá nhóm dữ liệu
đều tuân theo phân phối chuẩn.
4.1.2 Kiểm tra đồng nhất phương sai của các nhóm
Ta sẽ sử dụng leveneTest: đây là một phương pháp thống kê được sử dụng để kiểm tra
giả định về sự đồng nhất của các phương sai giữa các nhóm trong một mô hình phân
tích phương sai.

H 0: Phương sai về roughness ở các tốc độ quạt khác nhau là bằng nhau.

H 1:Có ít nhất 2 nhóm tốc độ quạt cho ra phương sai về roughness khác nhau.

Code:

Kết quả:

Nhận xét: P_value lớn hơn mức ý nghĩa 0.05 nên ta chưa bác bỏ H 0 và ở đây ta sẽ coi
như phương sai giữa các nhóm khác nhau là bằng nhau.

4.2 Phân tích phương sai (anova)


Giả thuyết

H 0: Đồ nhám trung bình ở các tốc độ quạt khác nhau là bằng nhau.

49
H 1: Có ít nhất 2 nhóm tốc độ quạt cho ra giá trị trung bình về độ nhám khác nhau.( giả

thuyết chính)

Code:

Kết quả:

Đọc kết quả:

 Hàng as.factor(fan_speed) sẽ là giá trị giữa các nhóm, hàng residual là trong nội
bộ nhóm
 Sum Sq của as.factor(fan_speed) là tổng bình phương giữa các nhóm SSB
 Sum Sq của residual là tổng bình phương trong nhóm SSW
 DF của as.factor(fan_speed) là bật tự do giữa các nhóm k −1
 DF của residual là bật tự do trong nội bộ nhóm n−k
 F_value: đây là giá trị kiểm định F:
 Prf: kiểm định giá trị

MSB
F= với miền bác bỏ là RR=(f a ,;k −1 ;n−k ;+ ∞)
MSW

MSB: TB bình phương giữa các nhóm

MSW: bình phương trong nội bộ nhóm

Ở đây ta có thể tính miền bác bỏ và dựa vào giá trị F để nhận xét có bác bỏ H 0,
hay không.

Nhận xét:

Có thể thấy p_value = 0,764 > 0,05, tức là không bác bỏ giả thuyết H 0, như vậy là ta
kết luận là độ nhám theo các mức độ tốc độ quạt khác nhau là bằng nhau.

50
KÊT LUẬN
Bài tập lớn môn Xác suất thống kê sử dụng các kiến thức cơ bản đã học trên lớp
kèm theo các tài liệu sinh viên tự tìm hiểu thêm về hồi quy tuyến tính bội và ngôn ngữ
R để có thể phân tích và đưa ra được các khía cạnh cơ bản trong lĩnh vực thống kê.
Trong bài sử dụng ngôn ngữ R để phân tích dữ liệu, xây dựng mô hình hồi quy, phân
tích phương sai, đưa ra các dự đoán liên quan và kiểm định độ chính xác của chúng.
Thông qua bài tập lớn này, chúng em đã áp dụng được những kiến thức đã học
được môn trong môn Xác suất và thống kê trong thời gian vừa qua, nâng cao năng lực
và tinh thần tự học của bản thânthông qua việc tìm hiểu về ngôn ngữ R.
Trong suốt quá trình làm việc, các thành viên trong nhóm đoàn kết, giúp đỡ lẫn
nhau, lắng nghe tiếp thu ý kiến từ mọi người và làm việc đúng deadline mà nhóm
giaotừ nâng cao kĩ năng làm việc nhóm của mỗi thành viên. Bên cạnh đó, chúng em
còn học được cách sử dụng ngôn ngữ R để phân tích và kiểm định dữ liệu, thống kê và
đưa ra các dự đoán hợp lý.

TÀI LIỆU THAM KHẢO


1. Peter bruce & Andrew Bruce, Practical Statistics For Data Scientists, NXB
O'Reilly Media, 2017.

51

You might also like