Professional Documents
Culture Documents
Đề tài 4:
MỤC LỤC..................................................................................................................................1
CHƯƠNG 1. TỔNG QUAN DỮ LIỆU.............................................................................3
1.1. Mục đích của nghiên cứu..................................................................................................3
1.2. Nguồn dữ liệu....................................................................................................................3
1.3. Mô tả các biến...................................................................................................................3
CHƯƠNG 2. KIẾN THỨC NỀN.......................................................................................5
2.1. Phân tích hồi quy:.............................................................................................................5
2.1.1 Định nghĩa:...............................................................................................................5
2.1.2 Mô hình hồi quy tuyến tính đơn:..............................................................................5
2.2. Mô hình hồi quy bội:.........................................................................................................6
2.2.1 Định nghĩa:...............................................................................................................6
2.2.2 Kiểm định ý nghĩa của mô hình...............................................................................6
2.2.3 Kiểm tra các giả thuyết của mô hình hồi quy bội:....................................................7
2.3. Phân tích phương sai:........................................................................................................7
2.3.1 Định nghĩa:...............................................................................................................7
2.3.2 Phân tích phương sai hai nhân tố:............................................................................7
CHƯƠNG 3. TIỀN XỬ LÝ SỐ LIỆU.............................................................................11
3.1. Đọc dữ liệu:.....................................................................................................................11
3.2. Xử lý dữ liệu khuyết.......................................................................................................11
3.3. Chuyển đổi biến..............................................................................................................11
CHƯƠNG 4. THỐNG KÊ MÔ TẢ.................................................................................13
4.1. Thống kê dữ liệu dưới dạng bảng...................................................................................13
4.2. Một số đồ thị...................................................................................................................13
4.2.1 Đồ thị boxplot.........................................................................................................13
4.2.2 Đồ thị histogram.....................................................................................................17
4.2.3 Hệ số tương quan của các biến...............................................................................19
CHƯƠNG 5. THỐNG KÊ SUY DIỄN............................................................................21
5.1. “roughness”.....................................................................................................................21
5.1.1 Xây dựng mô hình và anova tìm mô hình lí tưởng nhất.........................................21
5.1.2 Kiểm tra các giả định của mô hình model_2..........................................................23
5.2. “tension_strenght”...........................................................................................................26
5.2.1 Xây dựng mô hình và anova tìm mô hình lý tưởng nhất........................................26
5.2.2 Kiểm tra các giả định của mô hình model_4..........................................................28
5.3. “elongation”....................................................................................................................31
5.3.1 Xây dựng mô hình và ANOVA tìm mô hình lý tưởng nhất...................................31
5.3.2 Kiểm định giả định của mô hình model_6.............................................................33
1
CHƯƠNG 6. THẢO LUẬN VÀ MỞ RỘNG.................................................................36
6.1. Mở rộng...........................................................................................................................36
6.1.1 Phân Tích Phương Sai (ANOVA)..........................................................................36
6.1.2 Hồi Quy Tuyến Tính..............................................................................................36
CHƯƠNG 7. NGUỒN DỮ LIỆU VÀ NGUỒN CODE.................................................37
7.1. Nguồn dữ liệu..................................................................................................................37
7.2. Nguồn code:....................................................................................................................37
PHỤ LỤC.................................................................................................................................38
TÀI LIỆU THAM KHẢO......................................................................................................41
2
CHƯƠNG 1. TỔNG QUAN DỮ LIỆU
1.1. Mục đích của nghiên cứu
Xác định mức độ ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến chất
lượng in, độ chính xác và độ bền. Trong đó có chín thông số cài đặt và ba thông số đầu ra
được đo.
1.2. Nguồn dữ liệu
Dự liệu được cung cấp tại: https://www.kaggle.com/datasets/afumetto/3dprinter.
1.3. Mô tả các biến
Gồm 12 biến:
3
Bước 4: Phân tích mối quan hệ giữa các biến để hiểu cách chúng ảnh hưởng đến chất
lượng và tính chất của sản phẩm in 3D. Chúng em sẽ dùng mô hình hồi quy bội vào bộ dữ liệu
này.
4
CHƯƠNG 2. KIẾN THỨC NỀN
Trong đó ∈ là phần sai số (cũng là một biến ngẫu nhiên). Ta muốn chọn hàm F một
cách thích hợp nhất có thể, và các tham số , sao cho sai số là nhỏ nhất có thể.
Đại lượng:
√ Ε(|ϵ| )được gọi là sai số chuẩn (standard error) của mô hình hồi qui. Mô hình nào mà
2
có sai số chuẩn càng thấp thì được coi là càng chính xác.
Trong mối liên hệ hàm số, với mỗi một giá trị X ta tìm được duy nhất một giá trị Y. Tuy
nhiên trong thống kê, một giá trị X có thể cho tương ứng nhiều giá trị Y khác nhau, bởi vì
ngoài biến chính là X, biến Y có thể còn chịu tác động bởi một số yếu tố khác.
2.1.2 Mô hình hồi quy tuyến tính đơn:
Một mô hình hồi quy tuyến tính đơn liên quan đến một biến phụ thuộc Y và một biến
ngẫu nhiên X là phương trình:
Y = β0 + β 1 X +ε
Trong đó:
- β 0 và β 1 là các tham số chưa biết (được gọi là hệ số chặn ( intercept) và hệ số
góc (slope) của đường thẳng hồi quy);
- Y là biến phụ thuộc và X là biến ngẫu nhiên.
- ε là thành phần sai số, ε được giả sử có phân phối chuẩn N (0, σ 2).
Thuật ngữ tuyến tính (linear) trong mô hình hồi quy tuyến tính nghĩa là tuyến tính ở các
hệ số hồi quy (linearity in the regression coefficients) và không phải tuyến tính ở các biến Y
và X.
5
2.2. Mô hình hồi quy bội:
2.2.1 Định nghĩa:
Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn. Nó được sử
dụng khi ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều
biến giải thích khác. Biến mà chúng ta muốn dự đoán được gọi là biến phản hồi (biến phụ
thuộc). Các biến mà ta đang sử dụng để dự đoán giá trị của biến phản hồi được gọi là các biến
giải thích (biến dự báo, biến phụ thuộc).
Mô hình hồi quy tuyến tính bội có dạng tổng quát:
Y = β1 + β 2 X 2+ β3 X 3 +… β i X i +u
Trong đó:
- Y là biến phụ thuộc
- X i là biến ngẫu nhiên
- β i là hệ số tự do
- u là sai số ngẫu nhiên
Các β i là các hệ số hồi quy riêng, là tác động riêng phần của biến X i lên Y với điều kiện
các biến số khác trong mô hình không đổi. Cụ thể hơn, nếu các biến khác trong mô hình
không đổi. giá trị kỳ vọng của Y sẽ tăng β i đơn vị nếu X i tăng 1 đơn vị.
Hệ số β i > 0 : khi đó mối quan hệ giữa Y và X i là thuận chiều, nghĩa là khi X i tăng
(hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ tăng (hoặc giảm).
Hệ số β i < 0 : khi đó mối quan hệ giữa Y và X i là ngược chiều, nghĩa là khi X i tăng
(hoặc giảm) trong điều kiện các biến độc lập khác không đổi thì Y cũng sẽ giảm (hoặc tăng).
Hệ số β i = 0 : có thể cho rằng giữa Y và X i không có sự tương quan với nhau, cụ thể
là Y có thể không phụ thuộc vào X i hay là X i không thực sự ảnh hưởng đến Y .
2.2.2 Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa
được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như
sau:
B1: Giả thuyết “không” là H 0: β 2=β 3=…=β k =0
B2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2 , X 3 , …, X i , sau đó tính
tổng bình phương sai số RSSU, RSSR. Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối
khi bình phương độc lập.
B3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k) cho
mẫu số, và với mức ý nghĩa α cho trước.
6
B4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với phương
pháp giá trị p, tính giá trị p = P (F>Fc| H 0) và bác bỏ giả thuyết H 0 nếu p < α.
2.2.3 Kiểm tra các giả thuyết của mô hình hồi quy bội:
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: : Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: : Phương sai của các sai số là hằng số.
- Giả thuyết 4: : Các sai số u có kỳ vọng = 0.
- Giả thuyết 5: Các sai số u1,..., un thì độc lập với nhau
2.3. Phân tích phương sai:
2.3.1 Định nghĩa:
Phân tích phương sai ( Analysis of Variance) hay còn gọi là kiểm định ANOVA là kỹ
thuật thống kê tham số được sử dụng để so sánh các nhóm dữ liệu dựa trên các giá trị trung
bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thuyết để đánh giá và
kết luận sự bằng nhau của các trung bình nhóm dữ liệu này. Trong nghiên cứu, phân tích
phương sai được sử dụng như một công cụ để xem xét ảnh hưởng của một yếu tố ngẫu nhiên
đến một yếu tố kết quả. Phân tích phương sai được phát triển bởi Ronald Fisher năm 1918.
ANOVA thật ra là một mở rộng của phương pháp kiểm định T cho các mẫu độc lập khi
so sánh trung bình của các nhóm gồm các quan sát độc lập. Không như phương pháp kiểm
định T, ANOVA có thể so sánh nhiều hơn hai nhóm. Lưu ý rằng ANOVA không so sánh các
phương sai, mà là phân tích các phương sai để so sánh với các kỳ vọng.
- Phân tích phương sai được dùng để kiểm định giả thuyết các tổng thể nhóm có
giá trị trung bình bằng nhau.
- Kỹ thuật này được dựa trên cơ sở tính toán mức độ biến thiên trong nội bộ các
nhóm và biến thiên giữa trung bình các nhóm.
- Có hai thủ tục phân tích phương sai: ANOVA một nhân tố ( One way ANOVA)
và ANOVA hai nhân tố (Two way ANOVA).
2.3.2 Phân tích phương sai hai nhân tố:
ANOVA hai nhân tố một phần mở rộng của phân tích phương sai một nhân tố. Với One
way, ta có một biến độc lập ảnh hưởng đến biến phụ thuộc. Còn với Two way ANOVA, sẽ có
2 biến độc lập.
Giả thuyết phân tích phương sai hai yếu tố:
- Tổng thể có phân phối chuẩn.
7
- Mỗi mẫu được quan sát 1 lần không lặp.
Các bước tiến hành kiểm định giả thuyết: ta lấy mẫu không lặp lại, sau đó các đơn vị
mẫu của nhân tố ngẫu nhiên thứ nhất xếp thành K nhóm (cột), các đơn vị mẫu của nhân tố
ngẫu nhiên thứ hai sắp xếp thành H khối (hàng). Như vậy ta có bảng kết hợp hai nhân tố
nguyên nhân gồm K cột và H hàng và (K x H) ô dữ liệu. Tổng số mẫu quan sát là n= (K x H).
1 X 11 X 12 X K1
2 X 21 X 22 X K2
…
H X1 K X2 K X KH
∑ X ij (ι=1 , 2 ,… , K )
X i = j=1
H
Trung bình riêng của từng khối ( H hàng):
K
∑ X ij ( j=1 ,2 , … , H )
X j= i=1
K
Trung bình chung của toàn bộ mẫu quan sát:
K H K H
∑ ∑ X ij = ∑ X i = ∑ X j
X = i =1 j=0 i=1 j =1
n K H
B2: Tính tổng các độ lệch bình phương
Tổng các độ lệch bình phương chung (SST): Phản ánh biến động của nhân tố kết quả do
ảnh hưởng của tất cả các nhân tố.
Công thức :
K
SST =∑ ( X ij −X )2
i=1
Tổng các độ lệch bình phương giữa các nhóm (SSK): Phản ánh biến động của nhâ tố kết
quả do ảnh hưởng của nhân tố nguyên tố thứ nhất ( xếp theo cột).
Công thức:
8
K
SSK=H ∑ ( X i−X )2
i=1
Tổng các độ lệch bình phương giữa các nhóm ( SSH): ): Phản ánh biến động của nhâ tố
kết quả do ảnh hưởng của nhân tố nguyên tố thứ hai ( xếp theo hàng).
Công thức :
H
SSH=K ∑ ( X j −X )2
j=1
Tổng các độ lệch bình phương phần dư (ERROR): Phản ánh biến động của nhân tố kết
quả do ảnh hưởng của nhân tố nguyên nhân khác không nghiên cứu.
Công thức: SSE = SST – SSK – SSH
B3: Tính các phương sai
Phương sai giữa các nhóm (cột) (MSK)
SSK
Công thức : MSK =
K−1
Phương sai giữa các khối (hàng) (MSH)
SSH
Công thức : MSH =
H−1
Phương sai phần dư (MSE)
SSE
Công thức: MSE =
( K −1)(H −1)
B4: Kiểm định giả thuyết
Tính tiêu chuẩn kiểm định F ( F thực nghiệm)
MSK
F 1=
MSE
Trong đó:
- MSK là phương sai giữa các nhóm (cột)
- MSE là phương sai phần dư
- F 1dùng để kiểm định cho nhân tố nguyên nhân thứ nhất
MSH
F 2=
MSE
Trong đó:
- MSH là phương sai giữa các khối ( hàng)
- MSE là phương sai phần dư
- F 2 dùng để kiểm định cho nhân tố nguyên nhân thứ hai
Tìm F lý thuyết cho 2 nhân tố nguyên nhân
9
- Nhân tố nguyên nhân thứ nhất:
F tiêu chuẩn = F (k-1; (k-1)(h-1), α ) là giá trị giới hạn tra từ bảng phân phối F với k-1
bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý
nghĩa α .
- Nhân tố nguyên nhân thứ hai:
F tiêu chuẩn = F (h-1; (k-1)(h-1), α ) là giá trị giới hạn tra từ bảng phân phối F với h-1
bậc tự do của phương sai ở tử số và (k-1)(h-1) bậc tự do của phương sai ở mẫu số với mức ý
nghĩa α .
Nếu F 1 thực nghiệm > F 1 lý thuyết, bác bỏ H 0, nghĩa là số trung bình của k tổng thể
nhóm (cột) không bằng nhau.
Nếu F 2 thực nghiệm > F 2 lý thuyết, bác bỏ H 0, nghĩa là số trung bình của k tổng thể
khối (hàng) không bằng nhau.
Bảng 2.1 Bảng phân tích phương sai hai yếu tố:
10
CHƯƠNG 3. TIỀN XỬ LÝ SỐ LIỆU
3.1. Đọc dữ liệu:
Đọc dữ liệu trong tệp tin và gán vào R với tên data.
Đoạn code:
Giải thích:
- Đọc dữ liệu và lưu với tên data.
- Trích 10 dòng đầu tiên của bộ dữ liệu.
Kết quả:
Hình 3.1 Kết quả khi xem 10 dòng đầu tiên của tệp tin “data.csv”
11
12
CHƯƠNG 4. THỐNG KÊ MÔ TẢ
Cột mean biểu thị cho giá trị trung bình, sd là độ lệch chuẩn, p0, p25, p50, p75, p100
lần lượt ứng với các giá trị min, điểm tứ phân vị Q1, median, điểm tứ phân vị Q3, max, và cột
histogram.
Cột hist biểu thị biểu đồ histogram đơn giản cho biến. Qua hình dạng, ta có thể thấy một
số biến quan trọng không có phân phối chuẩn như infill density.
4.2. Một số đồ thị
4.2.1 Đồ thị boxplot
Code:
13
Hình 4.1 Đồ thị Boxplot của infill_pattern và roughness
Nhận xét: Ở hình trên ta có thể tháya mức trung vị của grid cao hơn một chút so với
mức trung vị của honeycomb. Tuy nhiên nhìn chung hai đồ thị là tương đương nhau và không
có điểm cụ thể nào phân biệt rõ mức độ ảnh hường của infill_pattern đến roughness.
Code:
14
Nhận xét: Ở “abs” các giá trị roughness phân bố từ khoảng 90 đến 290. Trong khi đó
“pla” chỉ phân bố đến bé hơn mức trung vị của “abs”.
Code:
Nhận xét: Ở hình 4.3 ta có thể thấy được 2 đồ thị gần như giống nhau chỉ có sự chênh
lệch nhỏ về mức trung vị của 2 đồ thị khi mức trung vị của “honeycomb” chỉ cao hơn một
chút so với trung vị của “grid”.
Code:
15
Hình 4.4 Đồ thị Boxplot của material và tension_strenght
Nhận xét: Ở hình 4.4, ta có thể thấy cả hai đều có phân bố lệch so với trung vị. Với
“pla” các giá trị phân phối từ 14 đến 27. Còn “abs” đa số phân phối bé hơn mức trung vị của
“pla”.
Code:
Nhận xét: Nhìn hình 4.5, ta thấy mức trung vị của “honeycomb” cao hơn so với “grid”
và giá trị của cả hai đa số phân phối từ 1,2 đến 2,3.
Code:
16
Hình 4.6 Đồ thị Boxplot của material và elongation
Nhận xét: Về boxplot của dữ liệu material. Cả hai boxplot đều phân bố lệch so với trung
vị. Ở “abs” có điểm ngoại lai và hầu như các giá trị của “pla” đều lớn hơn các giá trị của
“abs”.
4.2.2 Đồ thị histogram
Code:
17
Hình 4.2 Đồ thị histogram của tension_strenght
Từ 3 hình trên ta có thể thấy các đồ thị phân bố không đều. Như ở đồ thị histogram của
roughness các giá trị lớn thường tập trung trong khoảng từ 50 đến 200. Trong khi đó ở đồ thị
histogram của elongation các giá trị lớn lại tập trung về giữa từ 1 đến 2. Còn đồ thị histogram
của tension_strenght thì lại tập trung về phía bên phải từ 25 đến 30.
18
4.2.3 Hệ số tương quan của các biến.
Trước khi biểu diễn, ta phải chuyển hai biến “material” và “infill_pattern” sang dạng số
Code:
Để thấy mối quan hệ tuyến tính giữa từng biến, ta sẽ vẽ hệ số tương quan của tất cả các
biến
Code:
Hình 4.1 Hình biểu diễn hệ số tương quan của tất cả các biến
19
20
CHƯƠNG 5. THỐNG KÊ SUY DIỄN
Các biến “roughness”, “tension_strenght”, ”elongation” là các biến phụ thuộc còn lại là
các biến độc lập.
5.1. “roughness”
5.1.1 Xây dựng mô hình và anova tìm mô hình lí tưởng nhất
Dùng lệnh lm () để xây dựng mô hình hồi quy tuyến tính bội và dùng lệnh summary để
tóm tắt kết quả thu được:
Code và kết quả của model_1
Hình 5.1 kết quả mô hình hồi quy tuyến tính model_1
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát):
Nếu p-value < α ⇒ bác bỏ H0, chấp nhận H1
Nếu p-value ≥ α ⇒ chưa bác bỏ H0
Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê ( 𝛽𝑖= 0)
Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0)
- Đối với mức tin cậy 5%:
Pr (>|𝑡|) của các hệ số ứng với biến layer_height, nozzle_temperature,
bed_temperature, print_speed, materia, bé hơn mức ý nghĩa 𝛼 = 0,05 nên ta bác
bỏ H0 và chấp nhận H1. Do đó các hệ số ứng với biến này có ý nghĩa thống kê
đối với mô hình hồi quy mà ta xây dựng.
21
Pr (>|t|) của các hệ số ứng với biến infill_pattern, wall_thickness, infill_density,
lớn hơn mức ý nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H0. Do đó các hệ số này
ứng với các biến này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây
dựng, có thể cân nhắc để loại bỏ các biến wall_thickness, infill_density,
infill_pattern.
Code và kết quả của model_2 (bỏ các biến wall_thickness, infill_density, infill_pattern)
Hình 5.2 : kết quả mô hình hồi quy tuyến tính model_2
22
Nhận xét:
Giả thuyết H0: model_2 hiệu quả hơn
Giả thuyết H1: model_1 hiệu quả hơn
Ta nhận thấy giá trị Pr (>F) bằng 0.7627 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên chưa
bác bỏ được giả thuyết H0, nên model_2 hiệu quả hơn.
5.1.2 Kiểm tra các giả định của mô hình model_2
Nhắc lại các giả định của mô hình hồi quy:
Yi = β0 + β1X1 +β2X2 +β3X3 ...βiXi +ϵi với i = 1,..., n.
- Giả thuyết 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: Phương sai của các sai số là hằng số.
- Giả thuyết 4: Các sai số ε có kỳ vọng = 0.
- Giả thuyết 5: Các sai số ε1,..., εn thì độc lập với nhau.
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Code
Kết quả
23
Hình 5.1 Kết quả khi vẽ các đồ thị phân tích thặng dư
Nhận xét:
- Đồ thị Residuals vs Fitted là đường cong có độ dóc chưa thỏa được giả thuyết 1
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số. Nếu
các điểm sai số nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2
phân phối chuẩn được thoả.
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá
trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng
số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều
xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
- Đồ thị Residuals vs Leverage: Các điểm thứ 5, 23 và 25 là những điểm ảnh
hưởng cao trong bộ dữ liệu. Tuy nhiên những điểm ảnh hưởng cao này chưa
vượt qua đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không
phải là các điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu.
24
Cách 2: Kiểm tra các gải thiết dựa vào các kiểm định:
Giả thiết 2: Sai số có phân phối chuẩn.
H0: Các sai số hồi quy có phân phối chuẩn.
H1: Dữ liệu không có phân phối chuẩn.
Hình 5.2 kết quả kiểm tra giả thiết sai số có phân phối chuẩn
Nhận xét:
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 1 > 𝛼 = 5%, nên không bác bỏ H0. Vậy giả
thiết 2: Sai số có phân phối chuẩn thỏa mãn.
Giả thiết 4: Các sai số ε có kỳ vọng = 0.
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Hình 5.3 Hình 5.1.6 Kết quả kiểm tra giả thiết sai số hồi quy
Giả thuyết:
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Miền bác bỏ
25
Tiêu chuẩn kiểm định:
Hình 5.1 Hình 5.2.1 Kết quả mô hình hồi quy tuyến tính model_3
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát)
Nếu p-value < α ⇒ bác bỏ H0, chấp nhận H1.
26
Nếu p-value ≥ α ⇒ chưa bác bỏ H0.
Giả thuyết H0: Hệ số hồi quy không có ý nghĩa thống kê (𝛽𝑖 = 0).
Giả thuyết H1: Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0).
- Đối với mức tin vậy 5%.
Pr (>|𝑡|) của các hệ số ứng với biến: layer_height, materia, wall_thickness,
infill_density,nozzle_temperature, bed_temperature , bé hơn mức ý nghĩa 𝛼 =
0,05 nên ta bác bỏ H0 và chấp nhận H1. Do đó các hệ số ứng với biến này có ý
nghĩa thống kê đối với mô hình hồi quy mà ta xây dựng.
Pr (>|t|) của các hệ số ứng với biến: infill_pattern, print_speed, lớn hơn mức ý
nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H0. Do đó các hệ số này ứng với các biến
này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây dựng, có thể cân
nhắc để loại bỏ các biến :infill_pattern, print_speed.
Code và kết quả model_4 (bỏ các biến infill_pattern, print_speed)
Hình 5.2 Kết quả mô hình hồi quy tuyến tính model_4
27
So sánh model_3, model_4
Nhận xét:
Giả thuyết H0: model_4 hiệu quả hơn
Giả thuyết H1: model_3 hiệu quả hơn
Ta nhận thấy giá trị Pr (>F) bằng 0.6745 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên
chưa bác bỏ được giả thuyết H0, nên model_4 hiệu quả hơn
5.2.2 Kiểm tra các giả định của mô hình model_4
Nhắc lại các giả định của mô hình hồi quy:
Yi = β0 + β1X1 +β2X2 +β3X3 … βiXi +ϵi với i = 1,..., n.
- Giả thuyết 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.
- Giả thuyết 2: Sai số có phân phối chuẩn
- Giả thuyết 3: Phương sai của các sai số là hằng số.
- Giả thuyết 4: Các sai số ε có kỳ vọng = 0.
- Giả thuyết 5: Các sai số ε1,..., εn thì độc lập với nhau.
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Code
Kết quả
28
Hình 5.1 Kết quả khi vẽ các đồ thị phân tích thặng dư
Nhận xét:
- Đồ thị Residuals vs Fitted: Ta nhận thấy đường màu đỏ gần như là đường thẳng
nên giả định tuyến tính của dữ liệu thỏa mãn.
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số, các
điểm sai số không nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2
phân phối chuẩn không được thoả.
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá
trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng
số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều
xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
- Đồ thị Residuals vs Leverage: Các điểm thứ 3, 11 và 40 là những điểm ảnh
hưởng cao trong bộ dữ liệu. Tuy nhiên những điểm ảnh hưởng cao này chưa
vượt qua đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không
phải là các điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu
Cách 2: Kiểm tra các gải thiết dựa vào các kiểm định:
Giả thiết 2: Sai số có phân phối chuẩn
29
H0: Các sai số hồi quy có phân phối chuẩn.
H1: Dữ liệu không có phân phối chuẩn.
Hình 5.2 Kết quả kiểm tra giả thiết sai số có phân phối chuẩn
Nhận xét:
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 0.3517> 𝛼 = 5%, nên không bác bỏ H0,. Vậy
giả thiết 2: Sai số có phân phối chuẩn thỏa mãn.
Giả thuyết 4 :
H0: Các sai số có kỳ vọng μ = 0
H1: Các sai số có kỳ vọng μ ≠ 0
Hình 5.3 Kết quả kiểm tra giả thiết sai số hồi quy
Miền bác bỏ
30
Từ kết quả R cho ta thấy z0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết H0
nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn.
Cách 2: Kiểm định theo p-value
Ta nhận thấy p-value =1 chưa bác bỏ được giả thuyết H0, nên giả định về các sai số có
kỳ vọng bằng 0 được thoả mãn.
5.3. “elongation”
5.3.1 Xây dựng mô hình và ANOVA tìm mô hình lý tưởng nhất
Code và kết quả của model_5
Hình 5.1 Kết quả mô hình hồi quy tuyến tính model_5
Kiểm định hệ số hồi quy (Dùng p-value :mức ý nghĩa quan sát, xác suất quan sát)
Nếu p-value < α ⇒ bác bỏ H 0, chấp nhận H 1.
Nếu p-value ≥ α ⇒ chưa bác bỏ H 0
Giả thuyết H 0: Hệ số hồi quy không có ý nghĩa thống kê ( β i = 0).
Giả thuyết H 1: Hệ số hồi quy có ý nghĩa thống kê ( β i ≠ 0).
- Đối với mức tin vậy 5%.
Pr (>|𝑡|) của các hệ số ứng với biến: layer_height ,nozzle_temperature, materia,
infill_density, bed_temperature, bé hơn mức ý nghĩa 𝛼 = 0,05 nên ta bác bỏ H 0
và chấp nhận H 1. Do đó các hệ số ứng với biến này có ý nghĩa thống kê đối với
mô hình hồi quy mà ta xây dựng.
31
Pr (>|t|) của các hệ số ứng với biến: infill_pattern, print_speed, lớn hơn mức ý
nghĩa 𝛼 = 0,05 nên ta chưa thể bác bỏ H 0 . Do đó các hệ số này ứng với các
biến này không có ý nghĩa thống kê với mô hình hồi quy mà ta xây dựng, có thể
cân nhắc để loại bỏ các biến :infill_pattern, print_speed.
Hình 5.2 Kết quả mô hình hồi quy tuyến tính model_6
Nhận xét:
Giả thuyết H 0: model_6 hiệu quả hơn
Giả thuyết H 1: model_5 hiệu quả hơn
Ta nhận thấy giá trị Pr : (>F) bằng 0.1396 lớn hơn mức ý nghĩa 𝛼 = 0,05 nên chưa
bác bỏ được giả thuyết H 0: , nên model_6 hiệu quả hơn.
32
5.3.2 Kiểm định giả định của mô hình model_6
Nhắc lại các giả định của mô hình hồi quy:
- Giả thuyết 1: : Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.
- Giả thuyết 2: Sai số có phân phối CHUẨN.
- Giả thuyết 3: Phương sai của các sai số là hằng số.
- Giả thuyết 4: Các sai số u có kỳ vọng = 0.
- Giả thuyết 5: Các sai số u1,..., un thì độc lập với nhau.
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Hình 5.1 Kết quả khi vẽ các đồ thị phân tích thặng dư
Nhận xét:
- Đồ thị Residuals vs Fitted là đường cong có độ dóc chưa thỏa được giả thuyết 1.
- Đồ thị Normal Q-Q: kiểm tra giả định về phân phối chuẩn của các sai số, các
điểm sai số không nằm trên cùng một đường thẳng thì điều kiện về giả thuyết 2
phân phối chuẩn không được thoả.
- Đồ thị Scale-Location: vẽ căn bậc hai của các sai số được chuẩn hoá bởi các giá
trị dự báo, được dùng để kiểm tra giả thuyết 3 (phương sai của các sai số là hằng
số), các điểm đường màu đỏ có độ dốc và các điểm thặng dư phân tán không đều
xung quanh đường thẳng này nên giả thiết 3 bị vi phạm
33
- Đồ thị Residuals vs Leverage: Các điểm thứ 15,41 là những điểm ảnh hưởng cao
trong bộ dữ liệu. Tuy nhiên những điểm ảnh hưởng cao này chưa vượt qua
đường thẳng khoảng cách Cook (Cook’s distance) nên chúng không phải là các
điểm outliers và ta không cần loại bỏ chúng khỏi bộ dữ liệu.
Cách 2: : Kiểm tra các giả thiết dựa vào các kiểm định:
Giả thuyết 2: Sai số có phân phối chuẩn.
H 0: Các sai số hồi quy có phân phối chuẩn.
H 1: Dữ liệu không có phân phối chuẩn.
Hình 5.2 Kết quả kiểm tra giả thuyết sai số có phân phối chuẩn
Nhận xét:
- Từ kết quả trên ta có 𝑝 - 𝑣𝑎𝑙𝑢𝑒 = 0.4972 >𝛼 = 5%, nên không bác bỏ H 0. Vậy
giả thiết 2: Sai số có phân phối chuẩn thỏa mãn.
Giả thuyết 4:
H 0: : Các sai số có kỳ vọng μ = 0
H 1: : Các sai số có kỳ vọng μ ≠ 0
Hình 5.3 Kết quả kiểm tra giả thuyết sai số hồi quy
34
Miền bác bỏ
( )∪ (t )
;+∞ =(−∞ ;−t 0.025 ) ∪ ( t 0.025 ;+∞ ) =(−∞ ;−1 , 13 ) ∪ ( 1 ,13 ;+ ∞ )
n −1 n−1 50−1 50−1
RR= −∞ ;−t a a
2 2
n−1
Vì n − 1 = 49 ≥ 30 nên t a ≈ z a /2
2
X−μ
Tiêu chuẩn kiểm định: z0 = s / n0 = 3.3301e-16
√
Cách 2.1: Kiểm định theo tiêu chuẩn kiểm định.
Từ kết quả R cho ta thấy z 0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết H 0
nên giả định về các sai số có kỳ vọng bằng 0 được thoả mãn.
Cách 2.2: Kiểm định theo p-value
Ta nhận thấy p-value =1 chưa bác bỏ được giả thuyết H 0, nên giả định về các sai số có
kỳ vọng bằng 0 được thoả mãn.
35
CHƯƠNG 6. THẢO LUẬN VÀ MỞ RỘNG
6.1. Mở rộng
6.1.1 Phân Tích Phương Sai (ANOVA)
- Ưu điểm:
Kiểm tra sự khác biết của nhiều nhóm: ANOVA rất hiệu quả khi muốn biết dữ
liệu có sự khác biệt ý nghĩa nào đó giữa ba hoặc nhiều nhóm về các yếu tố như
layer height, wall thickness, infill density, vv. Điều này có thể hữu ích nếu muốn
so sánh hiệu suất của máy in 3D trong các điều kiện khác nhau.
Phân Tích Phương Sai: ANOVA cho phép bạn phân tích mức độ biến động giữa
các nhóm và mức độ biến động bên trong các nhóm. Có thể cung cấp thông tin
về độ đồng nhất hoặc độ chệch lệch giữa chúng.
Phân loại các yếu tố ảnh hưởng: ANOVA cho phép xác định xem yếu tố nào (ví
dụ: nhiệt độ nozzle, tốc độ in) có ảnh hưởng đáng kể đến các biến đo lường.
- Nhược Điểm: Giới hạn về tuyến tính: ANOVA giả định về tuyến tính giữa biến độc
lập và biến phụ thuộc, và nếu mối quan hệ không tuyến tính, phương pháp này có thể không
hiệu quả. Phụ thuộc vào giả định: ANOVA đòi hỏi các giả định như phân phối chuẩn và đồng
nhất của phương sai giữa các nhóm. ANOVA có thể mở rộng để xử lý nhiều biến độc lập nếu
cần thiết.
- Hạn chế: Phương pháp ANOVA giả định rằng các nhóm có phân phối chuẩn. Nếu dữ
liệu không tuân theo phân phối chuẩn, kết quả có thể không chính xác. ANOVA chỉ phản ánh
mối quan hệ thống kê giữa các biến mà không thể xác định được mối quan hệ nguyên nhân -
hiệu quả giữa chúng.
6.1.2 Hồi Quy Tuyến Tính
- Ưu điểm:
Hồi quy tuyến tính giúp mô hình hóa mối quan hệ tuyến tính giữa các biến, giúp
bạn hiểu rõ hơn về cách các yếu tố ảnh hưởng đến kết quả các biến như nhiệt độ,
tốc độ in và chất lượng in.
+Dự Đoán Giá Trị: Hồi quy tuyến tính sử dụng để dự đoán giá trị của biến phụ
thuộc dựa trên giá trị của các biến độc lập. Dự đoán chất lượng in dựa trên các
giá trị cụ thể của các yếu tố đầu vào.
+ Xác Định Mức Độ Ảnh Hưởng Của Từng Biến: Hồi quy tuyến tính cung cấp
thông tin về mức độ ảnh hưởng của từng yếu tố lên chất lượng in, giúp xác định
yếu tố nào quan trọng nhất.
- Hạn chế: Hồi quy tuyến tính cho rằng mối quan hệ giữa biến độc lập và biến phụ thuộc
là tuyến tính. Nếu mối quan hệ này không tuyến tính, mô hình có thể không phản ánh đúng
mối quan hệ thực tế. Mô hình hồi quy tuyến tính yêu cầu dữ liệu độc lập và đồng đều, tức là
các quan sát không ảnh hưởng lẫn nhau và có cùng phương sai. Nếu không thỏa mãn, kết quả
có thể không chính xác. Khi số lượng biến tăng lên, mô hình có thể trở nên không ổn định và
dễ làm giảm hiệu xuất, đặc biệt nếu kích thước mẫu nhỏ.
36
CHƯƠNG 7. NGUỒN DỮ LIỆU VÀ NGUỒN CODE
7.1. Nguồn dữ liệu
https://www.kaggle.com/datasets/afumetto/3dprinter
7.2. Nguồn code:
https://drive.google.com/file/d/1pOQr-8vVNtDtrohlRcqiDrRcGlD0L5RX/view?usp=sharing
37
PHỤ LỤC
data<-read.csv("D:/Desktop/khodulieu/data.csv")
View(data)
head(data,10)
apply(is.na(data),2,which)
data$infill_pattern=as.factor(data$infill_pattern)
summary(data$infill_pattern)
data$material=as.factor(data$material)
summary(data$material)
apply(is.na(data),2,which)
summary(data)
boxplot(data$roughness~data$infill_pattern)
boxplot(data$roughness~data$material)
boxplot(data$tension_strenght~data$infill_pattern)
boxplot(data$tension_strenght~data$material)
boxplot(data$elongation~data$infill_pattern)
boxplot(data$elongation~data$material)
hist(data$roughness,main="Histogram of
roughness",xlab="roughness",col=heat.colors(5))
hist(data$tension_strenght,main="Histogram of
tension_strenght",xlab="tension_strenght",col=heat.colors(5))
hist(data$elongation,main="Histogram of
elongation",xlab="elongation",col=heat.colors(5))
model_1<-
lm(roughness~layer_height+wall_thickness+infill_density+nozzle_temperature+bed_tempera
ture+infill_pattern+print_speed+material,data)
summary(model_1)
model_2<-
lm(roughness~layer_height+nozzle_temperature+bed_temperature+print_speed+material,data
)
summary(model_2)
anova(model_1,model_2)
par(mfrow=c(2,2))
38
plot(model_2)
re<-residuals(model_2)
shapiro.test(re)
re<-residuals(model_2)
t.test(re,mu=0)
model_3<-
lm(tension_strenght~layer_height+wall_thickness+infill_density+nozzle_temperature+bed_te
mperature+infill_pattern+print_speed+material+fan_speed,data)
summary(model_3)
model_4<-
lm(tension_strenght~layer_height+wall_thickness+infill_density+nozzle_temperature+bed_te
mperature+material,data)
summary(model_4)
anova(model_3,model_4)
par(mfrow=c(2,2))
plot(model_4)
re<-residuals(model_4)
shapiro.test(re)
re<-residuals(model_4)
t.test(re,mu=0)
model_5<-
lm(elongation~layer_height+wall_thickness+infill_density+nozzle_temperature+bed_tempera
ture+infill_pattern+print_speed+material,data)
summary(model_5)
model_6<-
lm(elongation~layer_height+infill_density+nozzle_temperature+bed_temperature+material,d
ata)
summary(model_6)
anova(model_5,model_6)
plot(model_6)
re<-residuals(model_6)
shapiro.test(re)
re<-residuals(model_6)
t.test(re,mu=0)
39
# đồ thị tương quan.
data<-read.csv("E:/XSTK/CSV/data.csv")
data$infill_pattern = as.factor(data$infill_pattern)
data$material = as.factor(data$material)
data$infill_pattern = as.numeric(data$infill_pattern)
data$material = as.numeric(data$material)
View(data)
summary(data)
cor(data)
c <-cor(data)
library(corrplot)
corrplot(c)
corrplot(c, order = "AOE" ,method = "color", addCoef.col = "Gray")
40
TÀI LIỆU THAM KHẢO
[1] Nguyễn Tiến Dũng ( chủ biên) & Nguyễn Đình Huy, 2019, Xác suất – Thống kê &
Phân tích số liệu.
[2] Nguyễn Văn Huấn, Phân tích số liệu và biểu đồ bằng R, truy cập từ https://cran.r-
project.org/doc/contrib/Intro_to_R_Vietnamese.pdf6
[3] Hướng dẫn sử dụng phần mềm Rstudio, otworzumysl.com, 21/04/2021, truy cập từ
https://otworzumysl.com/huong-dan-su-dung-phan-mem-r-studio/
[5] Nguyễn Tiến Dũng, Đỗ Đức Thái, 2015, Nhập môn hiện đại Xác suất &
Thống kê
41