Professional Documents
Culture Documents
A. CƠ SỞ LÝ THUYẾT .................................................................................................5
I. Hồi quy ........................................................................................................................ 5
1. Giới thiệu mô hình hồi quy tuyến tính bội .................................................................5
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội .....................................5
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) ............................ 5
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function): ......................................6
2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) ........................... 6
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội............................................................................................................6
2.3.2 Ước lượng ........................................................................................................7
2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay
bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2 ............................... 8
2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy ....................................................... 9
2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy ......................................9
2.5.2 Kiểm định giả thiết đối với βj ..........................................................................9
2.6 Kiểm định ý nghĩa của mô hình ............................................................................. 10
II. ANOVA một yếu tố.................................................................................................. 11
1. Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau ....... 11
2. Kiểm tra các giả định của phân tích phương sai ..................................................... 15
3. Phân tích sâu ANOVA .............................................................................................. 16
B. 3D – BRINTER ........................................................................................................ 19
I. Thống kê mô tả: ........................................................................................................ 19
1. Đọc dữ liệu ................................................................................................................ 19
2. Làm sạch dữ liệu ....................................................................................................... 20
3. Làm rõ dữ liệu .......................................................................................................... 20
II.Thống kê suy diễn ..................................................................................................... 31
1. Tìm khoảng tin cậy : tìm khoảng tin cậy của giá trị trung bình của nhiệt độ bàn in
....................................................................................................................................... 31
1.1. Cơ sở lý thuyết ....................................................................................................... 31
1.2. Code ........................................................................................................................ 31
2. Bài toán kiểm định 2 mẫu: SO SÁNH SỰ KHÁC BIỆT VỀ ĐỘ NHÁM TRONG
VIỆC SỬ DỤNG CHẤT LIỆU KHÁC NHAU. .......................................................... 31
2.1. Cơ sở lý thuyết ....................................................................................................... 31
2.2. Code ........................................................................................................................ 31
3. ANOVA một nhân tố: tốc độ in nào ảnh hưởng rõ ràng đến độ nhám .................. 32
3.1. Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và đối
thuyết. Nêu các giả định của mô hình cần kiểm tra. ................................................... 32
3.2. Thực hiện kiểm tra giả định của mô hình: ........................................................... 32
3.2.1. Kiểm tra giả định các nhóm so sánh phải độc lập và được chọn một cách
ngẫu nhiên. ............................................................................................................. 32
3.2.2. Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn
để được xem như tiệm cận phân phối chuẩn: ....................................................... 32
a) Tốc độ in : 40 (mm/s) ................................................................................... 33
b) Tốc độ in : 60 (mm/s) .................................................................................. 34
c) Tốc độ in : 120 (mm/s) ................................................................................. 35
3.2.3. Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test ..... 36
3.3. Thực hành phân tích phương sai một nhân tố. Cho kết luận về ảnh hưởng của
tốc độ in đối với độ nhám. ............................................................................................ 37
4. XÂY DỰNG MÔ HÌNH HỒI QUY TUYẾN TÍNH:............................................... 39
4.1. Cơ sở lý thuyết ....................................................................................................... 39
4.2. Code ........................................................................................................................ 39
Sử dụng lệnh anova để so sánh mô hình 1 và 2: .......................................................... 41
TÀI LIỆU THAM KHẢO ............................................................................................ 45
A. CƠ SỞ LÝ THUYẾT
I. Hồi quy
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến
phụ thuộc và một nhóm tập hợp các biến độc lập. Mô hình với một biến phụ thuộc với hai
hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến). Ví dụ:
Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí
địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu
người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm,
độ tuổi,…
1. Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β2X2 + β3X3 + … + βkXk + u
Trong đó:
Y: biến phụ thuộc
Xi: biến độc lập
β1: hệ số tự do (hệ số chặn)
βi: hệ số hồi quy riêng.
βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong
mô hình không đổi. Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng
của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc
(Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất
của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất). Nó có thể được sử dụng cho
các trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự đoán thời gian
người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó
v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước
lượng các tham số của tổng thể: β1, β2, …., β k.
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3, …, Xk là biến độc lập, Y là ngẫu nhiên và có một phân
phối xác suất nào đó. Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định. Do vậy, F(X2,
X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…, Xk.
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:
Y = E(Y|X) + U
E(Y|X) = F
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂ (𝑋2 , 𝑋3 , … , 𝑋𝑘 ) là hồi quy mẫu.
Với một cá thể mẫu Yi ≠ 𝐹̂ = 𝐹̂ (𝑋2,𝑖 , 𝑋3,𝑖 , … , 𝑋𝑘,𝑖 ) sinh ra ei = Yi - 𝐹̂ (𝑋2 , 𝑋3 , … , 𝑋𝑘 );
ei gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
̂ +𝛽
𝑦𝑖 = 𝛽
̂ ̂ 𝑥 +𝛽 ̂ 𝑥 +⋯+ 𝛽
̂ 𝑥
1 2 2,𝑖 3 3,𝑖 𝑘 𝑘,𝑖
Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra 𝛽̂0, 𝛽̂1,
…, 𝛽̂k.
Ta có:
Σei2 = Σ(yi –( 𝛽̂ 1 + 𝛽̂2 𝑥2,𝑖 + 𝛽̂3 𝑥3,𝑖 + ⋯ + 𝛽̂𝑘 𝑥𝑘,𝑖 ))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
𝜕Σ𝑒2𝑖 ̂ +𝛽̂ 𝑥 +𝛽̂ 𝑥 +⋯+ 𝛽
̂ 𝑥 )) 𝑥 = 0
̂
= −2𝛴 (𝑦𝑖 – ( 𝛽 1 2 2𝑖 3 3𝑖 𝑘 𝑘𝑖 𝑖
𝜕𝛽 1
2
2
𝐸𝑆𝑆 𝑅𝑆𝑆 𝛴((𝑦𝑖 − 𝑦)(𝑦𝑖 − 𝑦̂))
𝑅 = =1− =
𝑇𝑆𝑆 𝑇𝑆𝑆 𝛴(𝑦𝑖 − 𝑦)2 𝛴(𝑦𝑖 − 𝑦)2
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải
thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R 2 chúng
ta thấy R 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích
bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:
0 ≤ R2 ≤ 1.
♣ R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của
biến phụ thuộc.
♣ Nếu R 2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
♣ Nếu R 2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ
thuộc y.
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2
̂ 𝑗 − 𝛽𝑗
𝛽
~𝑇(𝑛 − 𝑘)
𝑆𝑒(𝛽̂𝑗 )
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó
k là số hệ số có trong phương trình hồi quy đa biến:
2𝛴𝑒𝑖2
̂ =
𝜎
𝑛−𝑘
Ước lượng 2 phía, ta tìm được 𝑡𝛼 (𝑛 − 3) = 1 − 𝛼 thỏa mãn
2
𝛽̂𝑗 − 𝛽𝑗
𝑃(−𝑡𝛼 (𝑛 − 3)) ≤ ≤ 𝑃(𝑡𝛼 (𝑛 − 3))
2 𝑆𝑒(𝛽̂𝑗 ) 2
Tính trung bình mẫu của từng nhóm 𝑥1 ,𝑥2 , …,𝑥𝑘 theo công thức
∑𝑘
𝑖=1 𝑥𝑖𝑗
𝑥𝑖 = (i = 1,2, …, k)
∑𝑘
𝑖=1 𝑛𝑖
Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
∑𝑘𝑖=1 𝑛𝑖 𝑥𝑖
𝑥𝑖 = 𝑘
∑𝑖=1 𝑛𝑖
Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộng tất cả các x ij
trên Bảng 1 lại rồi đem chia cho 𝛴 𝑛𝑖 với với (i=1, 2, …, k). Kết quả là như nhau:
Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổng các chênh lệch
bình phương giữa các nhóm SSG2
♣ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng
nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SWW phản ánh phần biến
thiên của yếu tooskeets quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố
nguyên nhân đăng nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so
sánh)
Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức:
1 𝑛 2
Nhóm 1: 𝑆𝑆1 = ∑𝑗=1(𝑥1𝑗 − 𝑥̅1 )
1 𝑛 2
Nhóm 2: 𝑆𝑆2 = ∑𝑗=1(𝑥2𝑗 − 𝑥̅2 )
Tương tự như vậy ta tính cho đến nhóm thứ k được SSk. Vậy tổng các chênh lệch bình
phương trong nội bộ các nhóm được tính như sau:
SSW=SS1 + SS2 + … + SSk
Hay viết tổng quát theo công thức ta có:
𝑘 𝑛𝑖
𝑆𝑆𝑊 = ∑ ∑(𝑥𝑖𝑗 − 𝑥𝑖 )2
𝑖=1 𝑗=1
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các
chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình
chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng của
từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố
nguyên nhân đang nghiên cứu.
𝑘
Tổng các chênh lệch bình phương toàn bộ SST 3 được tính bằng cách cộng tổng các chênh
lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (x ij) với
trung bình chung toàn bộ (𝑥) SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của
các nguyên nhân.
𝑘 𝑛𝑖
F > F(k−1;n−k );α là giá trị giới hạn tra từ bảng tra số 8 với bậc tự do tra theo cột số k-1 và
hàng n-k, nhớ chọn bảng có mức ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả tổng quát của ANOVA khi phân tích bằng chương trình
Excel hay SPSS.
Bảng 2 Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS
Bảng gốc bằng tiếng Anh:
Source of Sum of squares Degree of Mean SquareS F ratio
Variation (SS) Freedom (df) (MS)
Between - SSG k-1 𝑆𝑆𝐺 𝑀𝑆𝐺
𝑀𝑆𝐺 = 𝐹=
groups 𝑘−1 𝑀𝑆𝑊
2 2
Trong đó 𝑠𝑚𝑎𝑥 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝑠𝑚𝑖𝑛 là phương sai
nhỏ nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị F(k;df); α tra được từ bảng phân phối Hartley
Fmax (là bảng số 5 trong phần phụ lục). Trong đó k là số nhóm so sánh, bậc tự do df tính
∑𝑘
𝑖=1 𝑛𝑖
theo công thức df = (𝑛 − 1). Trong tình huống các nhóm ni khác nhau thì 𝑛 = (chú
𝑘
ý là nếu kết quả tính 𝑛 là số thập phân thì ta lấy phần nguyên.
Quy tắc quyết định:
Fmax > F(k;df); α thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại.
F(k;df); α =F(3;21); 0.05 = 2.95 > Fmax → chấp nhận H0
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả
định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thì một phương
pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định phi tham số Krusksl-
Wallis sẽ được áp dụng. Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giả định để tiến
hành phân tích phương sai đã được thỏa mãn.
3. Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng
thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả
thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết Họ thì phân tích kết thúc.
Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằng nhau. Vì
vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào,
nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H 0. Trong
chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey, phương
pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Nội dung
của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho
tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau. Nếu có k nhóm
nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải so sánh là
tổ hợp chập 2 của k nhóm.
𝑘! 𝑘(𝑘−1)
𝐶𝑘2 = hay =
2!(𝑘−2)! 2
𝑀𝑆𝑊
𝑇 = 𝑞𝛼,𝑘,𝑛−𝑘 √
𝑛𝑖
Trong đó:
qα, k, n−k là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α,
với bậc tự do k và n-k, với n là tổng số quan sát mẫu (n = ∑ 𝑛𝑖 )
MSW là phương sai trong nội bộ nhóm
ni là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát ni
khác nhau, sử dụng giá trị ni nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thiết H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hay bằng T giới hạn.
Như vậy chúng ta có thể kết luận rằng điểm trung bình học tập của các nhóm sinh
viên có thời gian tự học khác nhau là khác nhau. Cụ thể, dựa vào trung bình nhóm, chúng
ta có thể thấy điểm trung bình học tập của nhóm có thời gian tự học nhiều cao hơn hẳn hai
nhóm kia, nhóm có thời gian tự học ít thấp hơn hẳn hai nhóm kia, nhóm có thời gian tự
học trung bình cao hơn nhóm tự học ít nhưng thấp hơn nhóm tự học nhiều. Như vậy, thời
gian tự học có ảnh hưởng đến kết quả học tập.
2𝑀𝑆𝑊
𝜇1 − 𝜇2 = 𝑥1 − 𝑥2 ± (𝑡𝑛−𝑘,𝛼 √
2 𝑛𝑖
Trong đó t là giá trị tra từ bảng phân phối Student t với (n-k) bậc tự do.
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có
thể thực hiện phân tích này bằng chương trình SPSS. Ngoài ra kết quả của SPSS còn cung
cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tổng thể là
kiểm định Levene. (Bạn đọc có thể xem cách thức tiến hành kiểm tra giả định của phân
tích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiên
cứu với SPSS của cùng tác giả).
Phân tích phướng sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh có
phân phối bình thường và phương sai bằng nhau. Trong trường hợp không thỏa điều kiện
này, chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạng định
tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phù hợp tên là Kruskal- Wallis.
Bạn đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiểm định phi tham số.
B. 3D – BRINTER
I. Thống kê mô tả:
Tập tin “data.csv” chứa bộ dữ liệu của nhóm nghiên cứu khoa Cơ khí Đại học
Selcuk. Mục đích của nghiên cứu là xác định mức độ ảnh hưởng của các thông số
điều chỉnh trong máy in 3D đến chất lượng in, độ chính xác và độ giãn của bản in.
Trong đó có 9 thông số cài đặt và 3 thông số đầu ra được đo lường. Dữ liệu gốc
được cung cấp tại: https://www.kaggle.com/afumetto/3dprinter
Các biến chính trong bộ dữ liệu gồm:
• layer_height (mm): Độ cao mỗi lớp in
• infill_pattern: Dạng lưới bên trong chi tiết
• nozzle_temperature (ºC): Nhiệt độ của mũi in
• bed_temperature (ºC): Nhiệt độ bàn in
• print_speed (mm/s): Tốc độ in
• material: Chất liệu (pla hoặc abs)
• roughness (µm): Độ nhám
(Trong đó: infill_pattern, material là các biến phân loại, còn lại là biến liên tục)
1. Đọc dữ liệu
Đọc tệp tin data.
data <- read.csv("~/Desktop/data.csv") #Doc tep tin
head(data, 3) #Xem 3 dong dau tien cua du lieu
## layer_height wall_thickness infill_density infill_pattern nozzle_temperat
ure
## 1 0.02 8 90 grid
220
## 2 0.02 7 90 honeycomb
225
## 3 0.02 1 80 grid
230
## bed_temperature print_speed material fan_speed roughness tension_strenght
## 1 60 40 abs 0 25 18
## 2 65 40 abs 25 32 16
## 3 70 40 abs 50 40 8
## elongation
## 1 1.2
## 2 1.4
## 3 0.8
2. Làm sạch dữ liệu
Trích ra dữ liệu con, đặt tên data.frame new_DF bao gồm các biến chính.
new_DF <- data[,c("layer_height","infill_pattern","nozzle_temperature","bed_te
mperature","print_speed","material","roughness")] #Trich ra du lieu bao gom ca
c bien chinh
head(new_DF, 3) #Xem 3 dong dau tien cua du lieu
## layer_height infill_pattern nozzle_temperature bed_temperature print_spee
d
## 1 0.02 grid 220 60 4
0
## 2 0.02 honeycomb 225 65 4
0
## 3 0.02 grid 230 70 4
0
## material roughness
## 1 abs 25
## 2 abs 32
## 3 abs 40
apply(is.na(new_DF), 2, which) #Kiem tra va xuat vi tri dong chua du lieu khu
yet
## integer(0)
Nhận xét: Dựa trên kết quả, ta thấy data new_DF không có dữ liệu khuyết.
3. Làm rõ dữ liệu
Các biến liên tục trong dữ liệu là: layer_height, nozzle_temperature,
bed_temperature, print_speed, roughness.
Vì trong R không có hàm sẵn để tìm mode, nên ta tạo hàm chức năng để
tìm mode của dữ liệu.
getmode <- function(v) {uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]} #tao ham tim mode
Thực hiện thống kê mô tả của các biến liên tục trong dữ liệu. Xuất kết quả dưới
dạng bảng.
mean <- apply(new_DF[,c(1,3,4,5,7)],2,mean)
#Tinh trung binh mau
sd <- apply(new_DF[,c(1,3,4,5,7)],2,sd)
#Tinh do lech chuan mau hieu chinh
median <- apply(new_DF[,c(1,3,4,5,7)],2,median)
#Tinh trung vi
max <- apply(new_DF[,c(1,3,4,5,7)],2,max)
#Tinh gia tri lon nhat
min <- apply(new_DF[,c(1,3,4,5,7)],2,min)
#Tinh gia tri nho nhat
mode <- apply(new_DF[,c(1,3,4,5,7)],2,getmode)
#Tinh mode
data.frame(mean,median,sd,max,min,mode) #Tao bang thong ke
## mean median sd max min mode
## layer_height 0.106 0.1 0.06439673 0.2 0.02 0.02
## nozzle_temperature 221.500 220.0 14.82035280 250.0 200.00 220.00
## bed_temperature 70.000 70.0 7.14285714 80.0 60.00 60.00
## print_speed 64.000 60.0 29.69229956 120.0 40.00 40.00
## roughness 170.580 165.5 99.03412935 368.0 21.00 92.00
1. Tìm khoảng tin cậy : tìm khoảng tin cậy của giá trị trung bình của nhiệt độ
bàn in
1.1. Cơ sở lý thuyết
1.2. Code
Input :
Output :
Nhận xét : từ kết qua có thể thấy khoảng tin cậy 95% : 67,97002 đến 72,02998
2.1. Cơ sở lý thuyết
2.2. Code
Thực hiện kiểm định t.test để so sánh sự khác biệt về độ nhóm trong việc sử dụng
chất liệu in khác nhau.
t.test(new_DF$roughness ~ new_DF$material) #Kiem dinh t.test
##
## Welch Two Sample t-test
##
## data: new_DF$roughness by new_DF$material
## t = 1.6613, df = 44.106, p-value = 0.1038
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -9.741638 101.181638
## sample estimates:
## mean in group abs mean in group pla
## 193.44 147.72
Nhận xét:
Giả thuyết H0: Độ nhám trung bình trong việc sử dụng 2 loại chất liệu in bằng
nhau.
Đối thuyết H1: Độ nhám trung bình trong việc sử dụng 2 loại chất liệu in khác
nhau.
Vì pvalue = 0.1038 > mức ý nghĩa 5%, nên ta chưa đủ cơ sở bác bỏ H0. Vậy ta có
thể kết luận không có sự khác biệt về độ nhám trong việc sử dụng chất liệu in khác
nhau.
3. ANOVA một nhân tố: tốc độ in nào ảnh hưởng rõ ràng đến độ nhám
3.1. Trình bày Phân tích phương sai một nhân tố, phát biểu các giả thuyết và
đối thuyết. Nêu các giả định của mô hình cần kiểm tra.
- Phân tích phương sai ANOVA: so sánh 1 biến liên tục giữa các nhóm (nhiều
hơn 2 nhóm)
-Giả thuyết vô hiệu: H0: không có sự khác biệt nào giữa các quần thể
-Giả thuyết đảo: H1: có tối thiểu một sự khác biệt trong quần thể.
Các nhóm so sánh phải độc lập và được chọn ngẫu nhiên: thỏa mãn, vì 3
nhóm khảo sát trên những người khác nhau.
3.2.2. Kiểm tra giả định các nhóm phải có phân phối chuẩn hoặc cỡ mẫu đủ lớn để
được xem như tiệm cận phân phối chuẩn:
Ở đây các nhóm có cỡ tương đối nhỏ nên phải xem các nhóm có là phân phối
chuẩn hay không với 2 bước sau:
(1) Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot). Phân phối chuẩn khi biểu đồ
xác suất này có quan hệ tuyến tính (đường thẳng).
(2) Để chính xác hơn ta thực hiện thêm Shapiro - Wilk test
a) Tốc độ in : 40 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Output :
Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị kì
vọng.
Nhận xét: giá trị p < 0.05 nên các nhóm mà ta khảo sát không tuân theo luật
phân phối chuẩn.
b) Tốc độ in : 60 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Outpu
Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị
kì vọng.
Thực hiện Sharpio - Wilk test.
Input:
Output:
Nhận xét: giá trị p > 0.05 nên các nhóm mà ta khảo sát tuân theo luật phân
phối chuẩn.
c) Tốc độ in : 120 (mm/s)
Vẽ biểu đồ xác suất chuẩn (normal Q-Q plot)
Input:
Output
Nhận xét: gần như là phân phối chuẩn, dù có vài giá trị hơi lệch so với giá trị
kì vọng.
Input:
Output:
Nhận xét: giá trị p <0.05 nên các nhóm mà ta khảo sát không tuân theo luật
phân phối chuẩn.
3.2.3. Kiểm tra giả định về tính đồng nhất của các phương sai: Bartlett test
Lý thuyết: giả thuyết vô hiệu là tất cả các phương sai của quần thể đều bằng
nhau; giả thuyết thay thế là ít nhất hai trong số chúng khác nhau.
Giả thuyết:
H0 : tất cả các nhóm có phương sai tương đương nhau.
H1 : Có ít nhất 1 cặp trong số các nhóm có phương sai không tương đương
nhau.
Câu lệnh:
Kết quả:
Nhận xét: giá trị p <0.05 nên chấp nhận H1, tức là cho thấy phương sai của 3
tốc độ in có sự khác biệt rõ rệt, tức 3 tốc độ in có phương sai tương đương nhau.
3.3. Thực hành phân tích phương sai một nhân tố. Cho kết luận về ảnh hưởng
của tốc độ in đối với độ nhám.
Câu hỏi đặt ra: mức độ ảnh hưởng tới độ nhám của 3 tốc độ in có khác nhau
hay không?
Gọi độ nhám trung bình của 3 tốc độ in là µ1, µ2, µ3;
H0: µ1= µ2=µ3;
H1: có một sự khác biệt giữa 3 µj (j=40, 60, 120);
Đầu tiên, nhập dữ liệu:
Input:
Output:
độ nhám rõ ràng
4.1. Cơ sở lý thuyết
4.2. Code
Ta cần nghiên cứu xem mức độ ảnh hưởng của các thông số điều chỉnh trong
39
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2316.6207 359.1068 -6.451 8.07e-08 ***
## layer_height 1246.5353 84.1150 14.819 < 2e-16 ***
## nozzle_temperature 14.8131 2.4353 6.083 2.77e-07 ***
## bed_temperature -15.8524 3.1369 -5.053 8.49e-06 ***
## print_speed 0.5538 0.1824 3.036 0.00406 **
## infill_patternhoneycomb 1.7388 10.9759 0.158 0.87487
## materialpla 294.6336 56.8696 5.181 5.59e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37.86 on 43 degrees of freedom
## Multiple R-squared: 0.8718, Adjusted R-squared: 0.8539
## F-statistic: 48.72 on 6 and 43 DF, p-value: < 2.2e-16
Nhận xét:
• Mô hình hồi quy tuyến
tính: roughness=−2316.6207+1246.5353.layer_height+14.7774.nozzle_
temperature+...+294.6336.materialplaroughness=−2316.6207+1246.53
53.layer_height+14.7774.nozzle_temperature+...+294.6336.materialpla
.
• Ta thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e−16, có ý
nghĩa rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô
hình có ý nghĩa giải thích rất cao cho biến độ nhám roughness.
•Ta cũng nhận thấy rằng p-value của bài toán kiểm định giả thuyết H0:
Hệ số ứng với infill_patternhoneycomb không có ý nghĩa thống
kê (β5=0) bằng 0.87487 cho thấy rằng
biến infill_patternhoneycomb này không có ý nghĩa đối với mô hình
hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ
biến infill_patternhoneycomb ra khỏi mô hình hồi quy.
Ta xây dựng mô hình 2 là mô hình là loại bỏ biến infill_pattern từ mô hình
1**
Ta xây dựng mô hình 2:
model_2 <- lm(roughness ~ layer_height + nozzle_temperature + bed_tempera
ture + print_speed + material, data = new_DF) #Xay dung mo hinh 2
summary(model_2) #om tat mo hinh 2
##
## Call:
## lm(formula = roughness ~ layer_height + nozzle_temperature +
40
## bed_temperature + print_speed + material, data = new_DF)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74.084 -26.500 -1.662 22.585 92.356
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2310.7356 353.2009 -6.542 5.38e-08 ***
## layer_height 1246.5353 83.1780 14.986 < 2e-16 ***
## nozzle_temperature 14.7774 2.3979 6.163 1.95e-07 ***
## bed_temperature -15.8078 3.0895 -5.117 6.55e-06 ***
## print_speed 0.5538 0.1804 3.070 0.00366 **
## materialpla 294.1610 56.1586 5.238 4.38e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37.44 on 44 degrees of freedom
## Multiple R-squared: 0.8717, Adjusted R-squared: 0.8571
## F-statistic: 59.78 on 5 and 44 DF, p-value: < 2.2e-16
41
Nhận xét:
Giả thuyết H0: Hai mô hình 1, 2 hiệu quả như nhau
Giả thuyết H1: Hai mô hình 1, 2 hiệu quả khác nhau
Vì pvalue = 0.8749 > mức ý nghĩa 5%, nên chưa đủ cơ sở để bác bỏ H0. Vậy
mô hình 1, 2 hiệu quả giống nhau. Mặt khác biến bỏ đi là biến
*infill_patterhoneycomb không có ý nghĩa thống kê nên việc bỏ
biến infill_patter không ảnh hưởng đến mô hình hồi quy, do vậy mô hình 2
hiệu quả hơn mô hình 1.
Phân tích sự ảnh hưởng của các thông số điều chỉnh trong máy in 3D đến
độ nhám của bản in.
• Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố
lên roughness: roughness=−2310.7356+1246.5353.layer_height+14.81
31.nozzle_temperature+...+294.1610.materialplaroughness=−2310.735
6+1246.5353.layer_height+14.8131.nozzle_temperature+...+294.1610.
materialpla.
• Hệ số xác định hiệu chỉnh (Adjusted R-squared): R2 hiệu chỉnh =
0.8571 nghĩa là 85.71% sự biến thiên trong độ nhám roughness được
giải thích bởi các biến độc lập.
• Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi
quy (βi)và p-value tương ứng. Ta thấy rằng p-value tương ứng với các
biến layer_height bé hơn 2e−16, điều này nói lên rằng ảnh hưởng của
biến này có ý nghĩa rất cao lên biến độ nhám roughness. Mặt khác, hệ
số hồi quy của một biến độc lập cũng có thể được xem như ảnh hưởng
trung bình lên biến phụ thuộc roughness khi tăng một đơn vị của biến
dự báo đó, giả sử rằng các biến dự báo khác không đổi. Cụ thể, hệ số
hồi quy ứng với biến layer_height β1=1246.5353thì với mỗi khi chiều
cao mỗi lớp in tăng 1mm, ta có thể kỳ vọng độ nhám sẽ tăng lên
1246.5353 μm về mặt trung bình (giả sử rằng các biến độc lập khác
không thay đổi). Hệ số hồi quy ứng với
biến nozzle_temperature β2=14.7774thì mỗi khi tăng 1^0C nhiệt độ
của mũi in, ta có thể kỳ vọng rằng độ nhám sẽ tăng lên 14.7774 μm về
mặt trung bình (giả sử rằng các biến độc lập khác không thay đổi).
Tương tự đối với các biến còn lại.
Kiểm tra các giả định của mô hình.
Nhắc lại các giả định của mô hình hồi quy:
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến
phụ thuộc Y được giả sử là tuyến tính.
• Sai số có phân phối chuẩn.
• Phương sai của các sai số là hằng số: ϵn∼N(0,σ2)
42
• Các sai số ϵ1,...,ϵn độc lập với nhau.
Vẽ đồ thị kiểm tra các giả định của mô hình.
par(mfrow=c(2,2))
plot(model_2) #Ve do thi kiem tra gia dinh
Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị dự báo với các giá trị thặng dư
(sai số) tương ứng, dùng để kiểm tra tính tuyến tính của dữ liệu (giả định 1)
và tính đồng nhất của các phương sai sai số (giả định 3). Nếu như giả định về
tính tuyến tính của dữ liệu KHÔNG thỏa, ta sẽ quan sát thấy rằng các điểm
thặng dư (residuals) trên đồ thị sẽ phân bố theo một hình mẫu (pattern) đặc
trưng nào đó (ví dụ parabol). Nếu đường màu đỏ trên đồ thị phân tán là đường
thẳng nằm ngang mà không phải là đường cong, thì giả định tính tuyến tính
43
của dữ liệu được thỏa mãn. Để kiểm tra giả định thứ 3 (phương sai đồng nhất)
thì các điểm thặng dự phải phân tán đều nhau xung quanh đường thẳng y=0.
Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn
của các sai số. Nếu các điểm thặng dư nằm trên cùng 1 đường thẳng thì điều
kiện về phân phối chuẩn được thỏa.
Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư được
chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3
(phương sai của các sai số là hằng số). Nếu như đường màu đỏ trên đồ thị là
đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh
đường thẳng này thì giả định thứ 3 được thỏa. Nếu như đường màu đỏ có độ
dốc (hoặc cong) hoặc các điểm thặng dư phân tán không đều xung quanh
đường thẳng này, thì giả định thứ 3 bị vi phạm.
Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có ảnh
hưởng cao (influential observations), nếu chúng có hiện diện trong bộ dữ liệu.
Những điểm có ảnh hưởng cao này có thể là các điểm outliers, là những điểm
có thể gây nhiều ảnh hưởng nhất khi phân tích dữ liệu. Nếu như ta quan sát
thấy một đường thẳng màu đỏ đứt nét (Cook’s distance), và có một số điểm
vượt qua đường thẳng khoảng cách này, nghĩa là các điểm đó là các điểm có
ảnh hưởng cao. Nếu như ta chỉ quan sát thấy đường thẳng khoảng cách Cook
ở góc của đồ thị và không có điểm nào vượt qua nó, nghĩa không có điểm nào
thực sự có ảnh hưởng cao.
Nhận xét:
• Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn thỏa
mãn.
• Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính
của dữ liệu bị vi phạm.
• Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về
tính đồng nhất của phương sai bị vi phạm.
• Đồ thị thứ tư chỉ ra có các quan trắc thứ 5, 25 và 23 có thể là các điểm
có ảnh hưởng cao trong bộ dữ liệu.
• Tuy nhiên ta cũng quan sát thấy rằng các điểm này chưa vượt qua
đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s
distance). Do vậy, các điểm này chưa thực sự là các điểm có ảnh hưởng
cao trong bộ dữ liệu. Do đó ta không cần phải loại bỏ chúng khi phân
tích
44
TÀI LIỆU THAM KHẢO
[1] Nguyễn Đình Huy, Giáo trình xác suất thống kê, lần 9, 2018. NXB Đại học
Quốc gia TP.HCM.
[3] Hoàng Trọng & Chu Nguyễn Mộng Ngọc, Sách Thống kê ứng dụng, 2008.
NXB Thống kê.
[4] GS. Nguyễn Tiến Dũng & GS. Đỗ Đức Thái, Sách Nhập môn hiện đại xác suất
& thống kê. Tủ sách SPUTNIK.
[5] Bách khoa toàn thư mở Wikipedia, R (ngôn ngữ lập trình). Truy cập tại:
https://vi.wikipedia.org/wiki/R_(ng%C3%B4n_ng%E1%BB%AF_l%E1%BA%AD
p_tr% C3%ACnh)
-https://rstudio-pubs-
static.s3.amazonaws.com/540930_74707ea4cc5b44a1a9baf8a69439b02a.html
- http://ranalytics.vn/blog/2019/01/15/2019-01-15-xu-ly-du-lieu-missing/
- http://ranalytics.vn/blog/2019/01/15/2019-01-15-xu-ly-du-lieu-missing/
- https://thetalog.com/r-lang/dataframe-trong-r/
- https://epirhandbook.com/vn/missing-data.html\
- https://rpubs.com/svcuonghvktqs/365863
- http://ranalytics.vn/blog/2019/01/25/2019-01-25-lam-sach-moi-truong-lam-viec-
hieu-qua-trong-r/
- https://cuuduongthancong.com/pvf/530373/ngon-ngu-r//chuong-11.--phan-tich-
phuong-sai-(analysis-of-variance).pdf
https://svcuong.github.io/post/remove-outliers/
- https://epirhandbook.com/vn/regression.html
45