You are on page 1of 45

----------

TRƯỜNG ĐẠI HỌC BÁCH KHOA


ĐẠI HỌC QUỐC GIA TP-HCM

KHOA KHOA HỌC ỨNG DỤNG

BÁO CÁO BÀI TẬP LỚN MÔN HỌC


XÁC SUẤT VÀ THỐNG KÊ

Đề tài: XÁC ĐỊNH MỨC ĐỘ ẢNH HƯỞNG CỦA CÁC


THÔNG SỐ ĐIỀU CHỈNH TRONG MÁY IN 3D

Giảng viên hướng dẫn: TS. Nguyễn Kiều Dung


Nhóm thực hiện: CK03-HK 231
Phạm Nguyễn Sơn Bình 2112905
Trần Thị Thái Thanh 1912040
Lê Nhật Nam 2111799
Bùi Lê Anh Trung 2115106
Vũ Thành Trung 1912331
Trịnh Thanh Bình 2112911
Phần Mục lục

A. CƠ SỞ LÝ THUYẾT .................................................................................................5
I. Hồi quy ........................................................................................................................ 5
1. Giới thiệu mô hình hồi quy tuyến tính bội .................................................................5
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội .....................................5
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) ............................ 5
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function): ......................................6
2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) ........................... 6
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội............................................................................................................6
2.3.2 Ước lượng ........................................................................................................7
2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay
bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2 ............................... 8
2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy ....................................................... 9
2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy ......................................9
2.5.2 Kiểm định giả thiết đối với βj ..........................................................................9
2.6 Kiểm định ý nghĩa của mô hình ............................................................................. 10
II. ANOVA một yếu tố.................................................................................................. 11
1. Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau ....... 11
2. Kiểm tra các giả định của phân tích phương sai ..................................................... 15
3. Phân tích sâu ANOVA .............................................................................................. 16
B. 3D – BRINTER ........................................................................................................ 19
I. Thống kê mô tả: ........................................................................................................ 19
1. Đọc dữ liệu ................................................................................................................ 19
2. Làm sạch dữ liệu ....................................................................................................... 20
3. Làm rõ dữ liệu .......................................................................................................... 20
II.Thống kê suy diễn ..................................................................................................... 31
1. Tìm khoảng tin cậy : tìm khoảng tin cậy của giá trị trung bình của nhiệt độ bàn in
....................................................................................................................................... 31
1.1. Cơ sở lý thuyết ....................................................................................................... 31
1.2. Code ........................................................................................................................ 31
2. Bài toán kiểm định 2 mẫu: SO SÁNH SỰ KHÁC BIỆT VỀ ĐỘ NHÁM TRONG
VIỆC SỬ DỤNG CHẤT LIỆU KHÁC NHAU. .......................................................... 31
2.1. Cơ sở lý thuyết ....................................................................................................... 31
2.2. Code ........................................................................................................................ 31
3. ANOVA một nhân tố: tốc độ in nào ảnh hưởng rõ ràng đến độ nhám .................. 32
3.1. Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối
thuyết. Nêu các giả định của mô hình cần kiểm tra. ................................................... 32
3.2. Thực hiện kiểm tra giả định của mô hình: ........................................................... 32
3.2.1. Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách
ngẫu nhiên. ............................................................................................................. 32
3.2.2. Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn
để được xem như tiệm cận phân phối chuẩn: ....................................................... 32
a) Tốc độ in : 40 (mm/s) ................................................................................... 33
b) Tốc độ in : 60 (mm/s) .................................................................................. 34
c) Tốc độ in : 120 (mm/s) ................................................................................. 35
3.2.3. Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test ..... 36
3.3. Thực hành phân tích phương sai một nhân tố. Cho kết luận về ảnh hưởng của
tốc độ in đối với độ nhám. ............................................................................................ 37
4. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH:............................................... 39
4.1. Cơ sở lý thuyết ....................................................................................................... 39
4.2. Code ........................................................................................................................ 39
Sử dụng lệnh anova để so sánh mô hình 1 và 2: .......................................................... 41
TÀI LIỆU THAM KHẢO ............................................................................................ 45
A. CƠ SỞ LÝ THUYẾT
I. Hồi quy
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến
phụ thuộc và một nhóm tập hợp các biến độc lập. Mô hình với một biến phụ thuộc với hai
hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến). Ví dụ:
Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí
địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu
người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm,
độ tuổi,…
1. Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + … + βkXk + u
Trong đó:
Y: biến phụ thuộc
Xi: biến độc lập
β1: hệ số tự do (hệ số chặn)
βi: hệ số hồi quy riêng.
βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong
mô hình không đổi. Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng
của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc
(Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất
của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất). Nó có thể được sử dụng cho
các trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự đoán thời gian
người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó
v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước
lượng các tham số của tổng thể: β1, β2, …., β k.
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3, …, Xk là biến độc lập, Y là ngẫu nhiên và có một phân
phối xác suất nào đó. Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định. Do vậy, F(X2,
X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk.
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:
Y = E(Y|X) + U
E(Y|X) = F
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂ (𝑋2 , 𝑋3 , … , 𝑋𝑘 ) là hồi quy mẫu.
Với một cá thể mẫu Yi ≠ 𝐹̂ = 𝐹̂ (𝑋2,𝑖 , 𝑋3,𝑖 , … , 𝑋𝑘,𝑖 ) sinh ra ei = Yi - 𝐹̂ (𝑋2 , 𝑋3 , … , 𝑋𝑘 );
ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
̂ +𝛽
𝑦𝑖 = 𝛽
̂ ̂ 𝑥 +𝛽 ̂ 𝑥 +⋯+ 𝛽
̂ 𝑥
1 2 2,𝑖 3 3,𝑖 𝑘 𝑘,𝑖

Phần dư sinh ra 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖


Kí hiệu: 𝛽̂ 𝑚 là ước lượng của 𝛽𝑚 . Chúng ta trong đợi 𝛽̂ 𝑚 ước lượng không chênh
lệch của 𝛽𝑚 , hơn nữa phải là một ước lượng hiệu quả.
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua
việc tìm các tham số của 𝐹̂ và lấy giá trị quan sát của các tham số này là xấp xỉ cho tham
số của F.
2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl
Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần
dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có
tung độ gốc và độ dốc sao cho phần dư là nhỏ.
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong
việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giả
thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng
tuyến tính không chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS
đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS
là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS
có phương sai bé nhất. Các giả thiết như sau: 1/ Hàm hồi quy là tuyến tính theo các hệ số.
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan
hệ dưới dạng:
Y = β1 + β2X2 + β3X3 + … + βkXk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
2/ E(ui) = 0:
Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0. Trung bình tổng thể sai số là bằng 0.
Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu
âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên
trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
3/Var(ui) = σ 2:
Phương sai bằng nhau và thuần nhất với mọi ui. Tất cả giá trị u được phân phối
giống nhau với cùng phương sai σ 2, sao cho:
Var(ui) = E(ui2) =σ 2.
4/ ui phân phối chuẩn.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên
không mấy quan trọng.
5/ Giữa các ui thì độc lập với nhau.
2.3.2 Ước lượng
Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu
ei ký hiệu phần dư yi - ŷi

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra 𝛽̂0, 𝛽̂1,
…, 𝛽̂k.
Ta có:
Σei2 = Σ(yi –( 𝛽̂ 1 + 𝛽̂2 𝑥2,𝑖 + 𝛽̂3 𝑥3,𝑖 + ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖 ))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
𝜕Σ𝑒2𝑖 ̂ +𝛽̂ 𝑥 +𝛽̂ 𝑥 +⋯+ 𝛽
̂ 𝑥 )) 𝑥 = 0
̂
= −2𝛴 (𝑦𝑖 – ( 𝛽 1 2 2𝑖 3 3𝑖 𝑘 𝑘𝑖 𝑖
𝜕𝛽 1

𝜕Σ𝑒2𝑖 ̂ +𝛽̂ 𝑥 +𝛽̂ 𝑥 +⋯+ 𝛽


̂ 𝑥 )) 𝑥 = 0
̂
= −2𝛴 (𝑦𝑖 – ( 𝛽 1 2 2𝑖 3 3𝑖 𝑘 𝑘𝑖 2𝑖
𝜕𝛽2

𝜕Σ𝑒2𝑖 ̂ +𝛽̂ 𝑥 +𝛽̂ 𝑥 +⋯+ 𝛽


̂ 𝑥 )) 𝑥 = 0
̂
= −2𝛴 (𝑦𝑖 – ( 𝛽 1 2 2𝑖 3 3𝑖 𝑘 𝑘𝑖 𝑘𝑖
𝜕𝛽𝑘
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy
mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số 𝛽̂ chưa biết. 𝛽̂1, 𝛽̂2, ….,
𝛽̂𝑘 được gọi là các ước lượng bình phương nhỏ nhất.
2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay
bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2
Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷi) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)]2
= Σei2 + 2Σei(ŷi – ӯ) + Σ(ŷi – ӯ) 2
Đặt:
Σ(yi – ӯ)2 : TSS – Total Sum of Squares
Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares
Σei2: RSS – Residual Sum of Squares
Do Σei(ŷi – ӯ) = 0 ⇐ (Σeiŷi = 0; Σeiӯ = 0)
Ta có thể viết: TSS = ESS + RSS
Ý nghĩa của các thành phần:
TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung
bình.
ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận
được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của
hàm hồi quy.
RSS là tổng bình phương của tấ cả các sai lệch giữa các giá trị quan sát Y và các giá trị
nhận được từ hàm hồi quy.
TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. Từ TTS = ESS
+ RSS, ta chia cả hai vế cho TSS, ta có:
2
𝐸𝑆𝑆 𝑅𝑆𝑆 𝛴(𝑦̂𝑖 − 𝑦) 𝛴𝑒𝑖 2
1= + = +
𝑇𝑆𝑆 𝑇𝑆𝑆 𝛴(𝑦𝑖 − 𝑦)2 𝛴(𝑦𝑖 − 𝑦)2

2
2
𝐸𝑆𝑆 𝑅𝑆𝑆 𝛴((𝑦𝑖 − 𝑦)(𝑦𝑖 − 𝑦̂))
𝑅 = =1− =
𝑇𝑆𝑆 𝑇𝑆𝑆 𝛴(𝑦𝑖 − 𝑦)2 𝛴(𝑦𝑖 − 𝑦)2

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải
thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R 2 chúng
ta thấy R 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích
bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:
0 ≤ R2 ≤ 1.
♣ R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của
biến phụ thuộc.
♣ Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
♣ Nếu R 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ
thuộc y.
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2

𝛽̂2 𝛴(𝑦𝑖 − 𝑦)(𝑥2𝑖 − 𝑥2 ) + 𝛽̂3 𝛴(𝑦𝑖 − 𝑦)(𝑥3𝑖 − 𝑥3 ) 𝛴𝑒𝑖2


2
𝑅 = =1−
𝛴(𝑦𝑖 − 𝑦)2 𝛴(𝑦𝑖 − 𝑦)2

2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy


2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β 1, β2,…, βk mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β 1, β2,…,
βk. Các phân bố này phụ thuộc vào phân bố của các ui. Với các giả thiết OLS, ui có phân
phối N (0, σ 2). Các hệ số ước lượng tuân theo phân phối chuẩn:
̂ 𝑗 ~𝑁(𝛽𝑗 , 𝑆𝑒(𝛽̂𝑗 ))
𝛽

̂ 𝑗 − 𝛽𝑗
𝛽
~𝑇(𝑛 − 𝑘)
𝑆𝑒(𝛽̂𝑗 )
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó
k là số hệ số có trong phương trình hồi quy đa biến:

2𝛴𝑒𝑖2
̂ =
𝜎
𝑛−𝑘
Ước lượng 2 phía, ta tìm được 𝑡𝛼 (𝑛 − 3) = 1 − 𝛼 thỏa mãn
2

𝛽̂𝑗 − 𝛽𝑗
𝑃(−𝑡𝛼 (𝑛 − 3)) ≤ ≤ 𝑃(𝑡𝛼 (𝑛 − 3))
2 𝑆𝑒(𝛽̂𝑗 ) 2

Khoảng tin cậy 1 – 𝛼 của 𝛽𝑗 là

[𝛽̂ 𝑗 − 𝑡𝛼 (𝑛 − 3)𝑆𝑒(𝛽̂𝑗 )]; [𝛽̂𝑗 + 𝑡𝛼 (𝑛 − 3)𝑆𝑒(𝛽̂ 𝑗 )];


2 2

2.5.2 Kiểm định giả thiết đối với βj


Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói cách khác là
hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này đúng
thì:
𝛽̂𝑗 − 𝛽𝑗
𝑇= ~𝑇(𝑛 − 𝑘)
𝑆𝑒(𝛽̂𝑗 )
Ta có bảng sau:
Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía βj = βj* βj ≠ βj* |t|> 𝑡𝛼 (𝑛 − 𝑘)
2

Phía trái βj ≤ βj* βj > βj* t> 𝑡𝛼 (𝑛 − 𝑘)


Phía phải βj ≥ βj* βj < βj* |t|< −𝑡𝛼 (𝑛 − 𝑘

Kiểm định βj:


H0: βj = 0 ⇔ xj không tác động
H1: βj ≠ 0 ⇔ xj có tác động
βj < 0 ⇔ xj có tác động ngược
βj > 0 ⇔ xj có tác động thuận
2.6 Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như
sau:
Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.
Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk, sau đó tính
tổng bình phương sai số RSSU, RSSR. Phân phối F là tỷ số của hai biến ngẫu nhiên phân
phối khi bình phương độc lập. Điều này cho ta trị thống kê:
[𝑅𝑆𝑆𝑅 − 𝑅𝑆𝑆𝑈 ]/(𝑘 − 𝑚)
𝐹𝑐 = ~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)
𝑅𝑆𝑆𝑈 /(𝑛 − 𝑘)
Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này
sẽ là:
𝐸𝑆𝑆/(𝑘 − 1)
𝐹𝐶 = ~𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘)
𝑅𝑆𝑆/(𝑛 − 𝑘)
♣ Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k) cho
mẫu số, và với mức ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với phương
pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α.
II. ANOVA một yếu tố
- Mục tiêu của phân tích phương sai (Analysis of Variance ANOVA) là so sánh trung
bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các
nhóm này, và thông qua kiểm định giải thuyết để kết luận về sự bằng nhau của các trung
bình tổng thể này. Trong nghiên cứu, phân tích phương sai được dùng như một công cụ để
xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả (định
lượng).
- Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng của
một yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến
định lượng) đang nghiên cứu.
1. Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu
nhiên độc lập gồm n1, n2, . . ., nk quan sát từ k tổng thể này. Cần ghi nhớ ba giả định sau
đây về các nhóm tổng thể được tiến hành phân tích ANOVA
- Các tổng thể này có phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu là độc lập nhau
Nếu trung bình của các tổng thể được kí hiệu là μ1, μ2, . . ., μk thì khi các giả định
trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới
dạng kiểm định giả thuyết như sau:
H0 : μ 1 = μ 2 = . . . = μ k
Giả thuyết H0 cho rằng trung bình của k tổng thể đầu bằng nhau (về mặt nghiên cứu
liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề ta
đang nghiên cứu). Và giả thuyết đối là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới
đây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối
giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau. Rõ
ràng là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng
như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ H 0
hay 3 tổng thể này có trị trung bình khác nhau.
Nhưng bạn chỉ có mẫu đại diện dược quan sát, nên để kiểm định giả thuyết này, ta thực
hiên các bước sau:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể) Trước
hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập
(kí hiệu 𝑥1 , 𝑥2 , …,𝑥𝑘 ) và trung bình chung của k mẫu quan sát (kí hiệu 𝑥) từ trường hợp
tổng quát như sau:
Bảng 1: Bảng số liệu tổng quát thực hiện phân tích phương sai
Tổng thể
1 2 … K
x11 x21 … xk1
x12 x22 … xk2 (xij)
… … …
𝑥1𝑛1 𝑥2𝑛2 … 𝑥𝑘𝑛𝑘

Tính trung bình mẫu của từng nhóm 𝑥1 ,𝑥2 , …,𝑥𝑘 theo công thức
∑𝑘
𝑖=1 𝑥𝑖𝑗
𝑥𝑖 = (i = 1,2, …, k)
∑𝑘
𝑖=1 𝑛𝑖

Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖
𝑥𝑖 = 𝑘
∑𝑖=1 𝑛𝑖
Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộng tất cả các x ij
trên Bảng 1 lại rồi đem chia cho 𝛴 𝑛𝑖 với với (i=1, 2, …, k). Kết quả là như nhau:
Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổng các chênh lệch
bình phương giữa các nhóm SSG2
♣ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng
nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SWW phản ánh phần biến
thiên của yếu tooskeets quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố
nguyên nhân đăng nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so
sánh)
Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức:
1 𝑛 2
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1(𝑥1𝑗 − 𝑥̅1 )

1 𝑛 2
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1(𝑥2𝑗 − 𝑥̅2 )

Tương tự như vậy ta tính cho đến nhóm thứ k được SSk. Vậy tổng các chênh lệch bình
phương trong nội bộ các nhóm được tính như sau:
SSW=SS1 + SS2 + … + SSk
Hay viết tổng quát theo công thức ta có:
𝑘 𝑛𝑖

𝑆𝑆𝑊 = ∑ ∑(𝑥𝑖𝑗 − 𝑥𝑖 )2
𝑖=1 𝑗=1

Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các
chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình
chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng của
từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố
nguyên nhân đang nghiên cứu.
𝑘

𝑆𝑆𝐺 = ∑ 𝑛𝑖 (𝑥𝑖 − 𝑥)2


𝑖=1

Tổng các chênh lệch bình phương toàn bộ SST 3 được tính bằng cách cộng tổng các chênh
lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (x ij) với
trung bình chung toàn bộ (𝑥) SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của
các nguyên nhân.
𝑘 𝑛𝑖

𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥)2


𝑖=1 𝑗=1
Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng
cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình
phương giữa các nhóm.
SST = SSW + SSG
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã
được phân tích thành 2 phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và
phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW). Nếu phần
biến thiên do yếu tố nguyên nhân đang xét tạo ra căng "đáng kể” so với phần biến thiên do
các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ H0 và kết luận là
yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả.
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)
Các phương sai được tính bằng cách lấy các tổng các chênh lệch bình phương chia
cho bậc tự do tương ứng.
Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n-k (n là số quan
sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết quả do các
yếu tố khác gây ra (hay giải thích)
𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑛−𝑘
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình
phương giữa các nhóm chia cho bậc tự do tương ứng là k – 1. MSG là ước lượng phần biến
thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra (hay giải thích
được).
𝑆𝑆𝐺
𝑀𝑆𝐺 =
𝑘−1
Bước 4: Kiểm định giả thuyết Giả thuyết về sự bằng nhau của k trung bình tổng thể được
quyết định dựa trên tỉ số của hai phương sai: phương sai giữa các nhóm (MSG) và phương
sai trong nội bộ nhóm (MSW), tỉ số này được gọi là tỷ số F vì nó tuần theo qui luật Fisher–
Snedecor với bậc tự do là k - 1 ở tử số và n – k ở mẫu số
𝑀𝑆𝐺
𝐹=
𝑀𝑆𝑊
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi
F > F(k−1;n−k );α

F > F(k−1;n−k );α là giá trị giới hạn tra từ bảng tra số 8 với bậc tự do tra theo cột số k-1 và
hàng n-k, nhớ chọn bảng có mức ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả tổng quát của ANOVA khi phân tích bằng chương trình
Excel hay SPSS.
Bảng 2 Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS
Bảng gốc bằng tiếng Anh:
Source of Sum of squares Degree of Mean SquareS F ratio
Variation (SS) Freedom (df) (MS)
Between - SSG k-1 𝑆𝑆𝐺 𝑀𝑆𝐺
𝑀𝑆𝐺 = 𝐹=
groups 𝑘−1 𝑀𝑆𝑊

Within - groups SSW n-k 𝑆𝑆𝑊


𝑀𝑆𝑊 =
𝑛−𝑘

Total SST n-1


Tạm dịch sang tiếng Việt:
Nguồn biến Tổng chênh Bậc tự do (df) Phương sai Tỉ số F
thiên lệch bình (MS)
phương (SS)
Giữa các nhóm SSG k-1 𝑆𝑆𝐺 𝑀𝑆𝐺
𝑀𝑆𝐺 = 𝐹=
𝑘−1 𝑀𝑆𝑊

Trong nội bộ SSW n-k 𝑆𝑆𝑊


𝑀𝑆𝑊 =
các nhóm 𝑛−𝑘

Toàn bộ SST n-1


2. Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương
pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏi
một số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt
trong tình huống số quan sát ít hơn. Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù
hợp với phân phối bình thường đã thỏa mãn. Hình dưới mô tả biểu đồ hộp râu cho tập dữ
liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta. Đồ thị cho thấy ngoại trừ
nhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu hơi lệch sang trái, còn
hai nhóm còn lại có phân phối khá cân đối. Với số quan sát không nhiều thì biểu hiện như
thế này của dữ liệu là khả quan và có thể chấp nhận được. Để khảo sát giả định bằng nhau
của phương sai, biểu đồ hộp và râu cũng cho cảm nhận ban đầu nhanh chóng, với ba biểu
đồ này, mức độ phân tán của dữ liệu trong trong mỗi tập dữ liệu mẫu không khác biệt nhau
nhiều.
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là
kiểm định Leneve về phương sai của các tổng thể. Kiểm định này xuất phát từ giả thuyết
sau.
H0: σ12= σ22 =…= σk2
H1: Không phải tất cả các phương sai đều bằng nhau
Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
2
𝑠𝑚𝑎𝑥
𝐹𝑚𝑎𝑥 = 2
𝑠𝑚𝑖𝑛

2 2
Trong đó 𝑠𝑚𝑎𝑥 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝑠𝑚𝑖𝑛 là phương sai
nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị F(k;df); α tra được từ bảng phân phối Hartley
Fmax (là bảng số 5 trong phần phụ lục). Trong đó k là số nhóm so sánh, bậc tự do df tính
∑𝑘
𝑖=1 𝑛𝑖
theo công thức df = (𝑛 − 1). Trong tình huống các nhóm ni khác nhau thì 𝑛 = (chú
𝑘
ý là nếu kết quả tính 𝑛 là số thập phân thì ta lấy phần nguyên.
Quy tắc quyết định:
Fmax > F(k;df); α thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại.
F(k;df); α =F(3;21); 0.05 = 2.95 > Fmax → chấp nhận H0
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả
định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thì một phương
pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định phi tham số Krusksl-
Wallis sẽ được áp dụng. Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giả định để tiến
hành phân tích phương sai đã được thỏa mãn.
3. Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng
thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả
thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết Họ thì phân tích kết thúc.
Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằng nhau. Vì
vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào,
nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H 0. Trong
chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey, phương
pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Nội dung
của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho
tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau. Nếu có k nhóm
nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải so sánh là
tổ hợp chập 2 của k nhóm.
𝑘! 𝑘(𝑘−1)
𝐶𝑘2 = hay =
2!(𝑘−2)! 2

ác giả thuyết cần kiểm định sẽ là:


1. H0: μ1 = μ2 2. H0: μ2 = μ3 3. H0: μ1 = μ3
H1: μ1 ≠ μ2 H 1: μ2 ≠ μ3 H1: μ1 ≠ μ3
Giá trị giới hạn Tukey được tính theo công thức:

𝑀𝑆𝑊
𝑇 = 𝑞𝛼,𝑘,𝑛−𝑘 √
𝑛𝑖

Trong đó:
qα, k, n−k là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α,
với bậc tự do k và n-k, với n là tổng số quan sát mẫu (n = ∑ 𝑛𝑖 )
MSW là phương sai trong nội bộ nhóm
ni là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát ni
khác nhau, sử dụng giá trị ni nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thiết H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hay bằng T giới hạn.
Như vậy chúng ta có thể kết luận rằng điểm trung bình học tập của các nhóm sinh
viên có thời gian tự học khác nhau là khác nhau. Cụ thể, dựa vào trung bình nhóm, chúng
ta có thể thấy điểm trung bình học tập của nhóm có thời gian tự học nhiều cao hơn hẳn hai
nhóm kia, nhóm có thời gian tự học ít thấp hơn hẳn hai nhóm kia, nhóm có thời gian tự
học trung bình cao hơn nhóm tự học ít nhưng thấp hơn nhóm tự học nhiều. Như vậy, thời
gian tự học có ảnh hưởng đến kết quả học tập.

2𝑀𝑆𝑊
𝜇1 − 𝜇2 = 𝑥1 − 𝑥2 ± (𝑡𝑛−𝑘,𝛼 √
2 𝑛𝑖
Trong đó t là giá trị tra từ bảng phân phối Student t với (n-k) bậc tự do.
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có
thể thực hiện phân tích này bằng chương trình SPSS. Ngoài ra kết quả của SPSS còn cung
cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tổng thể là
kiểm định Levene. (Bạn đọc có thể xem cách thức tiến hành kiểm tra giả định của phân
tích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiên
cứu với SPSS của cùng tác giả).
Phân tích phướng sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh có
phân phối bình thường và phương sai bằng nhau. Trong trường hợp không thỏa điều kiện
này, chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạng định
tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phù hợp tên là Kruskal- Wallis.
Bạn đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiểm định phi tham số.
B. 3D – BRINTER

I. Thống kê mô tả:
Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học
Selcuk. Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số
điều chỉnh trong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in.
Trong đó có 9 thông số cài đặt và 3 thông số đầu ra được đo lường. Dữ liệu gốc
được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
• layer_height (mm): Độ cao mỗi lớp in
• infill_pattern: Dạng lưới bên trong chi tiết
• nozzle_temperature (ºC): Nhiệt độ của mũi in
• bed_temperature (ºC): Nhiệt độ bàn in
• print_speed (mm/s): Tốc độ in
• material: Chất liệu (pla hoặc abs)
• roughness (µm): Độ nhám
(Trong đó: infill_pattern, material là các biến phân loại, còn lại là biến liên tục)

1. Đọc dữ liệu
Đọc tệp tin data.
data <- read.csv("~/Desktop/data.csv") #Doc tep tin
head(data, 3) #Xem 3 dong dau tien cua du lieu
## layer_height wall_thickness infill_density infill_pattern nozzle_temperat
ure
## 1 0.02 8 90 grid
220
## 2 0.02 7 90 honeycomb
225
## 3 0.02 1 80 grid
230
## bed_temperature print_speed material fan_speed roughness tension_strenght
## 1 60 40 abs 0 25 18
## 2 65 40 abs 25 32 16
## 3 70 40 abs 50 40 8
## elongation
## 1 1.2
## 2 1.4
## 3 0.8
2. Làm sạch dữ liệu
Trích ra dữ liệu con, đặt tên data.frame new_DF bao gồm các biến chính.
new_DF <- data[,c("layer_height","infill_pattern","nozzle_temperature","bed_te
mperature","print_speed","material","roughness")] #Trich ra du lieu bao gom ca
c bien chinh
head(new_DF, 3) #Xem 3 dong dau tien cua du lieu
## layer_height infill_pattern nozzle_temperature bed_temperature print_spee
d
## 1 0.02 grid 220 60 4
0
## 2 0.02 honeycomb 225 65 4
0
## 3 0.02 grid 230 70 4
0
## material roughness
## 1 abs 25
## 2 abs 32
## 3 abs 40

Kiểm tra các dữ liệu bị khuyết trong tệp tin:

apply(is.na(new_DF), 2, which) #Kiem tra va xuat vi tri dong chua du lieu khu
yet
## integer(0)

Nhận xét: Dựa trên kết quả, ta thấy data new_DF không có dữ liệu khuyết.

3. Làm rõ dữ liệu
Các biến liên tục trong dữ liệu là: layer_height, nozzle_temperature,
bed_temperature, print_speed, roughness.
Vì trong R không có hàm sẵn để tìm mode, nên ta tạo hàm chức năng để
tìm mode của dữ liệu.
getmode <- function(v) {uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]} #tao ham tim mode

Thực hiện thống kê mô tả của các biến liên tục trong dữ liệu. Xuất kết quả dưới
dạng bảng.
mean <- apply(new_DF[,c(1,3,4,5,7)],2,mean)
#Tinh trung binh mau
sd <- apply(new_DF[,c(1,3,4,5,7)],2,sd)
#Tinh do lech chuan mau hieu chinh
median <- apply(new_DF[,c(1,3,4,5,7)],2,median)
#Tinh trung vi
max <- apply(new_DF[,c(1,3,4,5,7)],2,max)
#Tinh gia tri lon nhat
min <- apply(new_DF[,c(1,3,4,5,7)],2,min)
#Tinh gia tri nho nhat
mode <- apply(new_DF[,c(1,3,4,5,7)],2,getmode)
#Tinh mode
data.frame(mean,median,sd,max,min,mode) #Tao bang thong ke
## mean median sd max min mode
## layer_height 0.106 0.1 0.06439673 0.2 0.02 0.02
## nozzle_temperature 221.500 220.0 14.82035280 250.0 200.00 220.00
## bed_temperature 70.000 70.0 7.14285714 80.0 60.00 60.00
## print_speed 64.000 60.0 29.69229956 120.0 40.00 40.00
## roughness 170.580 165.5 99.03412935 368.0 21.00 92.00

Lập bảng thống kê số lượng cho infill_pattern, material:


table(new_DF$infill_pattern) #Tao bang thong ke so luong
##
## grid honeycomb
## 25 25
table(new_DF$material) #Tao bang thong ke so luong
##
## abs pla
## 25 25

Vẽ đồ thị histogram thể hiện phân phối của biến roughness:


hist(new_DF$roughness,xlab = "roughness", main = "Histogram of roughness", lab
els = T,col = "blue", ylim = c(0,10)) #Ve do thi histogram
Nhận xét: Đây là biểu đồ phân bố tần số cho biến roughness. Dựa trên biểu đồ ta
nhận thấy: Độ nhám bề mặt tập trung phần lớn ở mức 0 đến 300, cao nhất ở mức
50 đến 100 và mức 150 đến 200, thấp nhất ở mức 300 đến 400.
Vẽ biểu đồ boxplot thể hiện phân phối của biến roughness theo từng phân loại của
các biến infill_pattern:
boxplot(roughness ~ infill_pattern, main = "Boxplot of roughness for infill_pa
ttern", data = new_DF, col = c("red","blue")) #Ve boxplot
Nhận xét:
Đối với mẫu dạng hình lưới:
• Độ nhám cao nhất khoảng 360.
• Độ nhám thấp nhất khoảng 25.
• Có 25% mẫu dạng hình lưới có độ nhám khoảng dưới 90.
• Có 50% mẫu dạng hình lưới có độ nhám khoảng dưới 170.
• Có 75% mẫu dạng hình lưới có độ nhám khoảng dưới 245.
Đối với mẫu dạng hình tổ ong:
• Độ nhám cao nhất khoảng 355.
• Độ nhám thấp nhất khoảng 20.
• Có 25% mẫu dạng hình tổ ong có độ nhám khoảng dưới 85.
• Có 50% mẫu dạng hình tổ ong có độ nhám dưới 150.
• Có 75% mẫu dạng hình tổ ong có độ nhám khoảng dưới 220.
Vẽ phân phối của biến roughness lần lượt theo từng phân loại của các
biến infill_pattern, material:
boxplot(roughness ~ material, main ="Boxplot of roughness for material", data
= new_DF, col = c("red","blue")) #Ve boxplot
Nhận xét:
Đối với nhóm chất liệu abs:
• Độ nhám cao nhất khoảng 370.
• Độ nhám thấp nhất khoảng 20.
• Có 25% nhóm chất liệu abs có độ nhám khoảng dưới 95.
• Có 50% nhóm chất liệu abs có độ nhám dưới 200.
• Có 75% nhóm chất liệu abs có độ nhám khoảng dưới 290.
Với nhóm chất liệu pla:
• Độ nhám cao nhất khoảng 310.
• Độ nhám thấp nhất khoảng 15.
• Có 25% nhóm chất liệu pla có độ nhám khoảng dưới 90.
• Có 50% nhóm chất liệu pla có độ nhám khoảng dưới 145.
• Có 75% nhóm chất liệu pla có độ nhám khoảng dưới 180.
Vẽ biểu đồ pairs thể hiện phân phối của biến roughness lần lượt theo các
biến layer_height, nozzle_temperature, bed_temperature, print_speed.
pairs(roughness ~ layer_height, main ="Pairs of roughness for layer_height", d
ata = new_DF, col = "red") #Ve bieu do pairs
pairs(roughness ~ nozzle_temperature, main ="Pairs of roughness for nozzle_tem
perature", data = new_DF, col = "blue") #Ve bieu do pairs
pairs(roughness ~ bed_temperature, main ="Pairs of roughness for bed_temperatu
re", data = new_DF, col = "orange") #Ve bieu do pairs
pairs(roughness ~ print_speed, main ="Pairs of roughness for print_speed", dat
a = new_DF, col = "darkgreen") #Ve bieu do pairs
Nhận xét: Từ các đồ thị phân tán, ta có thể nhận xét rằng các
biến layer_height có mối quan hệ tuyến tính với biến roughness (nói rõ hơn là
quan hệ đồng biến) trong khi biến nozzle_temperature, bed_temperature,
print_speed không có mối quan hệ với biến roughness.
II.Thống kê suy diễn

1. Tìm khoảng tin cậy : tìm khoảng tin cậy của giá trị trung bình của nhiệt độ
bàn in

1.1. Cơ sở lý thuyết

1.2. Code
Input :

Output :

Nhận xét : từ kết qua có thể thấy khoảng tin cậy 95% : 67,97002 đến 72,02998

2. Bài toán kiểm định 2 mẫu: SO SÁNH SỰ KHÁC BIỆT VỀ ĐỘ NHÁM


TRONG VIỆC SỬ DỤNG CHẤT LIỆU KHÁC NHAU.

2.1. Cơ sở lý thuyết

2.2. Code
Thực hiện kiểm định t.test để so sánh sự khác biệt về độ nhóm trong việc sử dụng
chất liệu in khác nhau.
t.test(new_DF$roughness ~ new_DF$material) #Kiem dinh t.test
##
## Welch Two Sample t-test
##
## data: new_DF$roughness by new_DF$material
## t = 1.6613, df = 44.106, p-value = 0.1038
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -9.741638 101.181638
## sample estimates:
## mean in group abs mean in group pla
## 193.44 147.72

Nhận xét:
Giả thuyết H0: Độ nhám trung bình trong việc sử dụng 2 loại chất liệu in bằng
nhau.
Đối thuyết H1: Độ nhám trung bình trong việc sử dụng 2 loại chất liệu in khác
nhau.
Vì pvalue = 0.1038 > mức ý nghĩa 5%, nên ta chưa đủ cơ sở bác bỏ H0. Vậy ta có
thể kết luận không có sự khác biệt về độ nhám trong việc sử dụng chất liệu in khác
nhau.

3. ANOVA một nhân tố: tốc độ in nào ảnh hưởng rõ ràng đến độ nhám

3.1. Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và
đối thuyết. Nêu các giả định của mô hình cần kiểm tra.
- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm (nhiều
hơn 2 nhóm)
-Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể
-Giả thuyết đảo: H1: có tối thiểu một sự khác biệt trong quần thể.

3.2. Thực hiện kiểm tra giả định của mô hình:


Một số giả định khi phân tích ANOVA:
– Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.
– Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được
xem như tiệm cận phân phối chuẩn.
– Phương sai của các nhóm so sánh phải đồng nhất.
3.2.1. Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách ngẫu
nhiên.

Các nhóm so sánh phải độc lập và được chọn ngẫu nhiên: thỏa mãn, vì 3
nhóm khảo sát trên những người khác nhau.
3.2.2. Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn để
được xem như tiệm cận phân phối chuẩn:

Ở đây các nhóm có cỡ tương đối nhỏ nên phải xem các nhóm có là phân phối
chuẩn hay không với 2 bước sau:
(1) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot). Phân phối chuẩn khi biểu đồ
xác suất này có quan hệ tuyến tính (đường thẳng).
(2) Để chính xác hơn ta thực hiện thêm Shapiro - Wilk test
a) Tốc độ in : 40 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)

Input:

Output :

Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì
vọng.

Thực hiện Sharpio - Wilk tes


Input:
Output:

Nhận xét: giá trị p < 0.05 nên các nhóm mà ta khảo sát không tuân theo luật
phân phối chuẩn.
b) Tốc độ in : 60 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:

Outpu
Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị
kì vọng.
Thực hiện Sharpio - Wilk test.
Input:

Output:

Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân
phối chuẩn.
c) Tốc độ in : 120 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:

Output
Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị
kì vọng.

Thực hiện Sharpio - Wilk test.

Input:

Output:

Nhận xét: giá trị p <0.05 nên các nhóm mà ta khảo sát không tuân theo luật
phân phối chuẩn.
3.2.3. Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test

Lý thuyết: giả thuyết vô hiệu là tất cả các phương sai của quần thể đều bằng
nhau; giả thuyết thay thế là ít nhất hai trong số chúng khác nhau.
Giả thuyết:
H0 : tất cả các nhóm có phương sai tương đương nhau.
H1 : Có ít nhất 1 cặp trong số các nhóm có phương sai không tương đương
nhau.
Câu lệnh:

Kết quả:
Nhận xét: giá trị p <0.05 nên chấp nhận H1, tức là cho thấy phương sai của 3
tốc độ in có sự khác biệt rõ rệt, tức 3 tốc độ in có phương sai tương đương nhau.

3.3. Thực hành phân tích phương sai một nhân tố. Cho kết luận về ảnh hưởng
của tốc độ in đối với độ nhám.
Câu hỏi đặt ra: mức độ ảnh hưởng tới độ nhám của 3 tốc độ in có khác nhau
hay không?
Gọi độ nhám trung bình của 3 tốc độ in là µ1, µ2, µ3;
H0: µ1= µ2=µ3;
H1: có một sự khác biệt giữa 3 µj (j=40, 60, 120);
Đầu tiên, nhập dữ liệu:
Input:

Output:

Dựa vào kết quả này, chúng ta có:

Tổng bình phương giữa các nhóm (SSB) = 7588

Trung bình bình phương giữa các nhóm (MSB) = 3793,3

Tổng bình phương trong mỗi nhóm (SSW) = 472992

Trung bình bình phương trong mỗi nhóm (MSW) = 10063.7

Như vậy, F = MSB/MSW = 7588/ 10063,7 = 0,7539


Trị số p = 0,688 > 0.05 nên không bác bỏ H0 có nghĩa là độ nhám chưa có sự
thay đổi rõ rệt khi tốc độ in khác nhau
Để biết thêm kết quả phân tích, chúng ta dùng lệnh summary như sau:
Nhận xét: So với chế độ tốc độ 40 và tốc độ 120 thì tốc độ 60 ảnh hưởng tới

độ nhám rõ ràng

4. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH:

4.1. Cơ sở lý thuyết

4.2. Code
Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong

máy in 3D đến độ nhám của bản in như thế nào?

Xây dựng các mô hình hồi quy.


Ta sẽ xây dựng mô hình hồi quy (mô hình 1) bao gồm:
Biến phụ thuộc: roughness.
Biến dư báo (biến độc lập): layer_height, nozzle_temperature,
bed_temperature, print_speed, infill_pattern, material.
Mô hình được biểu diễn như sau:
roughness=β0+β1.layer_height+β2.nozzle_temperature+...+β6.materialpla
Ta thực hiện ước lượng các hệ số βi β
model_1 <- lm(roughness ~ layer_height + nozzle_temperature + bed_tempera
ture + print_speed + infill_pattern + material, data = new_DF) #Xay dung
mo hinh 1
summary(model_1) #Tom tat mo hinh 1
##
## Call:
## lm(formula = roughness ~ layer_height + nozzle_temperature +
## bed_temperature + print_speed + infill_pattern + material,
## data = new_DF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -73.549 -26.298 -1.853 23.137 93.159
##
## Coefficients:

39
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2316.6207 359.1068 -6.451 8.07e-08 ***
## layer_height 1246.5353 84.1150 14.819 < 2e-16 ***
## nozzle_temperature 14.8131 2.4353 6.083 2.77e-07 ***
## bed_temperature -15.8524 3.1369 -5.053 8.49e-06 ***
## print_speed 0.5538 0.1824 3.036 0.00406 **
## infill_patternhoneycomb 1.7388 10.9759 0.158 0.87487
## materialpla 294.6336 56.8696 5.181 5.59e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37.86 on 43 degrees of freedom
## Multiple R-squared: 0.8718, Adjusted R-squared: 0.8539
## F-statistic: 48.72 on 6 and 43 DF, p-value: < 2.2e-16

Nhận xét:
• Mô hình hồi quy tuyến
tính: roughness=−2316.6207+1246.5353.layer_height+14.7774.nozzle_
temperature+...+294.6336.materialplaroughness=−2316.6207+1246.53
53.layer_height+14.7774.nozzle_temperature+...+294.6336.materialpla
.
• Ta thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e−16, có ý
nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô
hình có ý nghĩa giải thích rất cao cho biến độ nhám roughness.
•Ta cũng nhận thấy rằng p-value của bài toán kiểm định giả thuyết H0:
Hệ số ứng với infill_patternhoneycomb không có ý nghĩa thống
kê (β5=0) bằng 0.87487 cho thấy rằng
biến infill_patternhoneycomb này không có ý nghĩa đối với mô hình
hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ
biến infill_patternhoneycomb ra khỏi mô hình hồi quy.
Ta xây dựng mô hình 2 là mô hình là loại bỏ biến infill_pattern từ mô hình
1**
Ta xây dựng mô hình 2:
model_2 <- lm(roughness ~ layer_height + nozzle_temperature + bed_tempera
ture + print_speed + material, data = new_DF) #Xay dung mo hinh 2
summary(model_2) #om tat mo hinh 2
##
## Call:
## lm(formula = roughness ~ layer_height + nozzle_temperature +

40
## bed_temperature + print_speed + material, data = new_DF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74.084 -26.500 -1.662 22.585 92.356
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2310.7356 353.2009 -6.542 5.38e-08 ***
## layer_height 1246.5353 83.1780 14.986 < 2e-16 ***
## nozzle_temperature 14.7774 2.3979 6.163 1.95e-07 ***
## bed_temperature -15.8078 3.0895 -5.117 6.55e-06 ***
## print_speed 0.5538 0.1804 3.070 0.00366 **
## materialpla 294.1610 56.1586 5.238 4.38e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37.44 on 44 degrees of freedom
## Multiple R-squared: 0.8717, Adjusted R-squared: 0.8571
## F-statistic: 59.78 on 5 and 44 DF, p-value: < 2.2e-16

Sử dụng lệnh anova để so sánh mô hình 1 và 2:

anova(model_1, model_2) #So sanh mo hinh 1 và 2


## Analysis of Variance Table
##
## Model 1: roughness ~ layer_height + nozzle_temperature + bed_temperatu
re +
## print_speed + infill_pattern + material
## Model 2: roughness ~ layer_height + nozzle_temperature + bed_temperatu
re +
## print_speed + material
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 43 61631
## 2 44 61667 -1 -35.971 0.0251 0.8749

41
Nhận xét:
Giả thuyết H0: Hai mô hình 1, 2 hiệu quả như nhau
Giả thuyết H1: Hai mô hình 1, 2 hiệu quả khác nhau
Vì pvalue = 0.8749 > mức ý nghĩa 5%, nên chưa đủ cơ sở để bác bỏ H0. Vậy
mô hình 1, 2 hiệu quả giống nhau. Mặt khác biến bỏ đi là biến
*infill_patterhoneycomb không có ý nghĩa thống kê nên việc bỏ
biến infill_patter không ảnh hưởng đến mô hình hồi quy, do vậy mô hình 2
hiệu quả hơn mô hình 1.
Phân tích sự ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến
độ nhám của bản in.
• Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố
lên roughness: roughness=−2310.7356+1246.5353.layer_height+14.81
31.nozzle_temperature+...+294.1610.materialplaroughness=−2310.735
6+1246.5353.layer_height+14.8131.nozzle_temperature+...+294.1610.
materialpla.
• Hệ số xác định hiệu chỉnh (Adjusted R-squared): R2 hiệu chỉnh =
0.8571 nghĩa là 85.71% sự biến thiên trong độ nhám roughness được
giải thích bởi các biến độc lập.
• Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi
quy (βi)và p-value tương ứng. Ta thấy rằng p-value tương ứng với các
biến layer_height bé hơn 2e−16, điều này nói lên rằng ảnh hưởng của
biến này có ý nghĩa rất cao lên biến độ nhám roughness. Mặt khác, hệ
số hồi quy của một biến độc lập cũng có thể được xem như ảnh hưởng
trung bình lên biến phụ thuộc roughness khi tăng một đơn vị của biến
dự báo đó, giả sử rằng các biến dự báo khác không đổi. Cụ thể, hệ số
hồi quy ứng với biến layer_height β1=1246.5353thì với mỗi khi chiều
cao mỗi lớp in tăng 1mm, ta có thể kỳ vọng độ nhám sẽ tăng lên
1246.5353 μm về mặt trung bình (giả sử rằng các biến độc lập khác
không thay đổi). Hệ số hồi quy ứng với
biến nozzle_temperature β2=14.7774thì mỗi khi tăng 1^0C nhiệt độ
của mũi in, ta có thể kỳ vọng rằng độ nhám sẽ tăng lên 14.7774 μm về
mặt trung bình (giả sử rằng các biến độc lập khác không thay đổi).
Tương tự đối với các biến còn lại.
Kiểm tra các giả định của mô hình.
Nhắc lại các giả định của mô hình hồi quy:
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến
phụ thuộc Y được giả sử là tuyến tính.
• Sai số có phân phối chuẩn.
• Phương sai của các sai số là hằng số: ϵn∼N(0,σ2)
42
• Các sai số ϵ1,...,ϵn độc lập với nhau.
Vẽ đồ thị kiểm tra các giả định của mô hình.
par(mfrow=c(2,2))
plot(model_2) #Ve do thi kiem tra gia dinh

Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị dự báo với các giá trị thặng dư
(sai số) tương ứng, dùng để kiểm tra tính tuyến tính của dữ liệu (giả định 1)
và tính đồng nhất của các phương sai sai số (giả định 3). Nếu như giả định về
tính tuyến tính của dữ liệu KHÔNG thỏa, ta sẽ quan sát thấy rằng các điểm
thặng dư (residuals) trên đồ thị sẽ phân bố theo một hình mẫu (pattern) đặc
trưng nào đó (ví dụ parabol). Nếu đường màu đỏ trên đồ thị phân tán là đường
thẳng nằm ngang mà không phải là đường cong, thì giả định tính tuyến tính

43
của dữ liệu được thỏa mãn. Để kiểm tra giả định thứ 3 (phương sai đồng nhất)
thì các điểm thặng dự phải phân tán đều nhau xung quanh đường thẳng y=0.
Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn
của các sai số. Nếu các điểm thặng dư nằm trên cùng 1 đường thẳng thì điều
kiện về phân phối chuẩn được thỏa.
Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư được
chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3
(phương sai của các sai số là hằng số). Nếu như đường màu đỏ trên đồ thị là
đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh
đường thẳng này thì giả định thứ 3 được thỏa. Nếu như đường màu đỏ có độ
dốc (hoặc cong) hoặc các điểm thặng dư phân tán không đều xung quanh
đường thẳng này, thì giả định thứ 3 bị vi phạm.
Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có ảnh
hưởng cao (influential observations), nếu chúng có hiện diện trong bộ dữ liệu.
Những điểm có ảnh hưởng cao này có thể là các điểm outliers, là những điểm
có thể gây nhiều ảnh hưởng nhất khi phân tích dữ liệu. Nếu như ta quan sát
thấy một đường thẳng màu đỏ đứt nét (Cook’s distance), và có một số điểm
vượt qua đường thẳng khoảng cách này, nghĩa là các điểm đó là các điểm có
ảnh hưởng cao. Nếu như ta chỉ quan sát thấy đường thẳng khoảng cách Cook
ở góc của đồ thị và không có điểm nào vượt qua nó, nghĩa không có điểm nào
thực sự có ảnh hưởng cao.
Nhận xét:
• Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn thỏa
mãn.
• Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính
của dữ liệu bị vi phạm.
• Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về
tính đồng nhất của phương sai bị vi phạm.
• Đồ thị thứ tư chỉ ra có các quan trắc thứ 5, 25 và 23 có thể là các điểm
có ảnh hưởng cao trong bộ dữ liệu.
• Tuy nhiên ta cũng quan sát thấy rằng các điểm này chưa vượt qua
đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s
distance). Do vậy, các điểm này chưa thực sự là các điểm có ảnh hưởng
cao trong bộ dữ liệu. Do đó ta không cần phải loại bỏ chúng khi phân
tích

44
TÀI LIỆU THAM KHẢO
[1] Nguyễn Đình Huy, Giáo trình xác suất thống kê, lần 9, 2018. NXB Đại học
Quốc gia TP.HCM.

[2] Nguyễn Kiều Dung, Slide bài giảng trên lớp.

[3] Hoàng Trọng & Chu Nguyễn Mộng Ngọc, Sách Thống kê ứng dụng, 2008.
NXB Thống kê.

[4] GS. Nguyễn Tiến Dũng & GS. Đỗ Đức Thái, Sách Nhập môn hiện đại xác suất
& thống kê. Tủ sách SPUTNIK.

[5] Bách khoa toàn thư mở Wikipedia, R (ngôn ngữ lập trình). Truy cập tại:
https://vi.wikipedia.org/wiki/R_(ng%C3%B4n_ng%E1%BB%AF_l%E1%BA%AD
p_tr% C3%ACnh)

[6] Phân tích dữ liệu với R-Nguyễn Văn Tuấn.

[7] Trang web :

-https://rstudio-pubs-
static.s3.amazonaws.com/540930_74707ea4cc5b44a1a9baf8a69439b02a.html

- http://ranalytics.vn/blog/2019/01/15/2019-01-15-xu-ly-du-lieu-missing/

- http://ranalytics.vn/blog/2019/01/15/2019-01-15-xu-ly-du-lieu-missing/

- https://thetalog.com/r-lang/dataframe-trong-r/

- https://epirhandbook.com/vn/missing-data.html\

- https://rpubs.com/svcuonghvktqs/365863

- http://ranalytics.vn/blog/2019/01/25/2019-01-25-lam-sach-moi-truong-lam-viec-
hieu-qua-trong-r/

- https://cuuduongthancong.com/pvf/530373/ngon-ngu-r//chuong-11.--phan-tich-
phuong-sai-(analysis-of-variance).pdf

https://svcuong.github.io/post/remove-outliers/

- https://epirhandbook.com/vn/regression.html

45

You might also like