Professional Documents
Culture Documents
Multiple Regression
Design
Thiết kế không lường
hết tác ộng.
KPOV
Thiết kế khó thao tác process Key
dễ sai
Process
Machine
Output
Không ổn ịnh
Không tin cậy
Man Variable
Hiểu sai, nhận diện sai
Không ạt năng lực Thao tác sai
Quên, mất tập trung,
nhầm lẫn
NGUỒN GÂY RA DAO ĐỘNG – PHÂN TÍCH ANOVA
Công
nhân
vận
hành
TÌM KiẾM YẾU TỐ CÓ QUAN HỆ VỚI TUFT –
PHÂN TÍCH TƯƠNG QUAN
X có mối quan
hệ với tuft
Dựa vào X để
dự đoán sự
thay đổi Tuft
TÌM KiẾM YẾU TỐ CÓ TÁC ĐỘNG NHÂN QUẢ
(GÂY RA SỰ THAY ĐỔI) VỚI TUFT
– PHÂN TÍCH HỒI QUY (REGRESSION)
X
Lượng hóa
mối quan hệ
giữa X và tuft
Khi X là
nguyên nhân
gây ra Tuft
Điều khiểu
Tuft dựa vào X
Analysis Of Variance (ANOVA)
ANOVA là một kỹ thuật phân tích thống kê để làm rỏ tổng
thể sự dao động bị tác động bởi các nguồn nào được chia
thành các nguồn của sự biến đổi có ý nghĩa
Total
2
Component
2
1 2
Component 2 2
Component k
Factor X’s
P value
phương pháp
< 0.01 bác
bỏ Ho
Ví dụ: Tại Fujikura, các SSGB đang tìm xem yếu tố nào là
quan trọng ảnh hưởng đến tốc độ lắp ráp 01 bo mạch điện
tử có 12 component.
Có 03 factors được đưa ra xem xét
a. Giới tính (nam/nữ)
b. Phương pháp (pp 1/ pp 2)
c. Đào tạo (kinh nghiệm/đang đào tạo)
Nhóm đã đo thời gian của 50 bo mạch được làm ra
Thoi gian lap rap tai Fujikura.xls
Three-Way ANOVA Model I
Minitab
Stat ANOVA General Linear Model
Kết quả –
đáp ứng
Biến tác
động -
factors
Three-Way ANOVA Model I
Minitab
Stat ANOVA General Linear Model
đọc kết quả
Ảnh hưởng
của giới tính
và qui trình có
ý nghĩa thống
kê
Đào tạo thì
chưa
Ảnh hưởng thế nào ?
Tổng quát cho k factor ANOVA Model I
k-Way ANOVA Model I, II, III
Minitab
Stat ANOVA General Linear Model
Thực hành nhóm
Thu thập dữ liệu cho ANOVA
► Mỗi nhóm chọn 01 tình huống
Xác định các factor X, response Y, đề xuất cách thu thập dữ liệu, mô hình ANOVA sử
dụng
Phân tích hồi quy
regression analysis
(đầu ra)
Y (output)
(đầu vào)
X (input)
Lưu ý
một số tên gọi khác nhau của X và Y
X Y
Systems Input Output
Mathematics Independent Variable Dependent Variable
Statistics Predictor (Factor) Response
Quality Engineering Cause Effect (Quality)
Control Engineering Parameter Performance Index
Process Engineering Control Characteristic Process Characteristic
Phân tích hồi quy:
Lượng hóa mối quan hệ giữa X và Y
► Phân tích hồi quy là phát tạo một đường thẳng/cong (có thể biểu diễn
được ở dạng đại số – phương trình) lượng hóa mối quan hệ giữa X và Y
2
b1 = hệ số góc (thay đổi của
1
biến, hay thay đổi của Y đối
0 1 2 3 4 5 6 7 8 9 10 với mỗi đơn vị tăng thêm của
X (input)
(đầu vào) X)
Lợi ích của việc lượng hóa mối quan hệ
► Dự đoán:
► Phương trình có thể được sử dụng để dự đoán đầu ra Y’s trong tương lai bằng cách
thay giá trị X vào phương trình
► Kiểm soát:
► Nếu X có thể kiểm soát được, -> có thể điều khiển được các điều kiện của quá trình
để tránh những kết quả không mong muốn và tạo ra kết quả mong muốn
Phần dư (Residuals)
Y
15
10
Phần dư7
0
0 5 10 15
X
Những thuật ngữ này có thể sử dụng thay thế cho nhau:
► Phương trình hồi quy
► Đường thẳng hồi quy
► Phương trình dự báo
► Đường thẳng dự báo
► Fitted line or fits*
► Mô hình hồi quy
Explained variation
R-sq x 100 % Explained
Total variation
Y
15
Lưu ý: hệ số tương quan tính được là trên mẫu muốn
suy diễn hệ số tương quan có ý nghĩa thống kê phải kiểm
định hệ số tương quan
Kiểm định hệ số tương quan
MiniTab,
Stat Basic Statistics Correlation
hypothesis test
H0 : = 0 vs H1 : 0
Relationship
X
Tương quan thuận mạnh X Không tương quan
X
Tương quan thuận tương đối
r = 0.95 r = 0.70 r = 0.006
R2 = 90% R2 = 49% R2 = 0.0036%
Y Y Y
X
Tương quan nghịch mạnh Tương quan nghịch X Mô thức khác: X
tương đối Không có tương quan
r = –0.90
r = –0.73 tuyến tính
R2 = 81%
R2 = 53% r = –0.29
R2 = 8%
Cảnh báo! Tương quan không có nghĩa là ‘Quan hệ
nhân quả’
► Khi hai biến cho thấy có mối quan hệ với nhau trên biểu
đồ phân tán, chúng được gọi là có tương quan, nhưng
điều này không có nghĩa là chúng có mối quan hệ
nhân quả:
► Tương quan có nghĩa là hai thứ thay đổi cùng nhau
► Nhân quả có nghĩa là biến này gây ra những thay đổi cho biến
kia
Những giả thuyết về Hồi quy: Phần dư (Residuals)
► Những giả định hồi quy được dựa trên đặc tính của phần dư (không phải
dữ liệu gốc)
► Phần dư được giả định là:
15
► Không liên quan với X’s
► Ổn định và độc lập: không
thay đổi qua thời gian 10
► Bất biến: không tăng khi residual
Y-được dự báo (predicted Y)
tăng 5
residual
► Phân phối chuẩn (phân phối
hình chuông) với giá trị trung
0
bình bằng 0
0 5 10 15
Kiểm tra giả thuyết về Phần dư
► Biểu đồ phần dư (Residuals plots) phải được kiểm tra để
đảm bảo các giả thiết có giá trị; nếu không, phương trình
hồi quy có thể không đúng hoặc sai lầm
Giả định Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động
Phần dư Phần dư
1.Phần dư so Mối quan hệ giữa X
3 3
2 2 và Y không phải là
Không với mỗi X 1 1 một đường thẳng,
liên 0 0 mà là đường cong.
quan 1 1
Thử các phép biến
đổi với X, Y hoặc cả
đến X 2 2
hai. Hoặc sử dụng
3 3
3 4 5 6 7 8 9 10 11 12 10 20 30 X2 trong Hồi quy đa
X X biến
2.Biểu đồ theoPhần dư Phần dư
thời gian của 3 3
Bất kỳ kiểu mẫu lặp
Ổn định phần dư
2 2
lại nào qua thời gian
1 1 có nghĩa là một nhân
0 0 tố nào khác, liên
1 1 quan đến thời gian,
2 2
ảnh hưởng đến Y.
3 3
Cố gắng tìm ra và
0 50 100 0 50 100 đưa nó vào Hồi quy
Time Order Time Order đa biến.
Kiểm tra giả thuyết về Phần dư (tt)
3.Phần dư so
có nghĩa là dao
2 2
2 2
dư không bất biến.)
3 3
Thử lấy căn Y, Log
30 40 50 0 50 100 Y, hoặc phép biến
Pred. Y Pred. Y đổi nghịch đảo lên
Y
Nscore Nscore
3 3
4. Biểu đồ xác 2 2
Phần dư không
suất chuẩn 1 1
chuẩn. Thử phép
Phân phối của phần dư 0 0
biến đổi lên X, Y
chuẩn 1 1
hoặc cả hai
2 2
3 3
3 2 1 0 1 2 3 1 0 1 2 3 4
Residual Residual
Những quan sát bất thường (outliers)
► Quan sát được coi là bất thường nếu nó nằm xa đường hồi quy hoặc có
ảnh hưởng lớn đến đường kết quả
► Nếu có bất cứ quan sát bất thường nào được nhìn thấy:
► Kiểm tra xem có sai sót nào không
► Tìm hiểu xem liệu có điều gì bất thường đang xảy ra
► Chạy lại phân tích hồi quy loại bỏ những quan sát bất thường để xác định xem các hệ
số (b0 và b1) thay đổi nhiều như thế nào:
► Nếu các hệ số thay đổi đáng kể, bạn phải quyết định liệu các quan sát bất thường này có
được để xác định phương trình hồi quy hay không
Những quan sát bất thường (tt)
► Chạy lại phân tích hồi quy loại bỏ những quan sát bất thường để
xác định xem các hệ số (b0 và b1) thay đổi nhiều như thế nào
(tt):
► Đường hồi quy nên thể hiện rõ ràng mối quan hệ giữa X và Y:
► Loại bỏ một vài quan sát có thể làm giảm khoảng (range) của dữ liệu X
► Không loại bỏ những điểm thật sự nằm ngoài (true outliers) có thể gây
ảnh hưởng bất thường lên phương trình hồi quy
Sử dụng P-Value để kiểm định ‘Giả thuyết H0’
rằng Hệ số góc hồi quy bằng 0
R-sqr (adj) 90
85
0 50% 99.9%
% Yield
80
explained. significant.
20
15
Y
10 16
Y
collect more
14
5
12
0
1.0 1.5 2.0 2.5 3.0 3.5
0.9
4.0
data. 10
1.0 1.5 2.0
X
2.5 3.0
9
Các giả định trong phân tích hồi quy
Rsquare Phần trăm của dao động được 0 đến 100% Phần trăm dao động trong các giá trị Y
(Rsq) giải thích= r2 được giải thích bởi mối quan hệ với X)
Standardized Phần dư Khoảng –3 Nếu giá trị tuyệt đối của phần dư chuẩn
Residual = đến +3 hóa > 3, thì nó là một quan sát bất
Độ lệch chuẩn thường. Hãy tìm hiểu thêm về nó.
Một quan sát mà giá trị X có
Quan sát có ảnh hưởng lớn đến giá trị các - ∞ đến ∞ Xem quan sát có tầm ảnh hưởng này trên
biểu đồ để quyết định liệu có giữ hay loại
ảnh hưởng hệ số (của đường hồi quy) bỏ nó khỏi phân tích hồi quy.
Hồi quy tuyến tính đa biến
Các loại Hồi quy
Tuyến tính đơn giản (Một X) Đa biến (bằng hoặc Đơn phi tuyến tính (Một X)
nhiều hơn 2 X’s)
Y Y
Y
X2
X X
1
X
Sử dụng biến biểu thị Hồi quy Logistic (Cho Y’s rời rạc)
Bội phi tuyến tính (Cho X’s rời rạc)
((bằng hoặc nhiều hơn 2X’s) 1
X2 a
x x X2 b
x x
% yes
x x
Y Y x
x
x x xx X2 c
x x
x
X2
0
X X1 X
1
Bạn có thể hoàn thiện dự báo này?
► Các nhà quản lý bán hàng và quản lý sản xuất của một
xưởng gia công theo đơn đặt hàng rất hài lòng khi biết được
con số cài đặt thiết bị giải thích được 57% dao động trong
thời gian sản xuất chu kỳ (lead time).
► Họ tự hỏi liệu họ có thể cải thiện việc dự báo thời gian chu
kỳ và giải thích được nhiều hơn sự dao động.
► Họ nghĩ về các biến khác, chẳng hạn như số lượng các đặc
tính khách hàng yêu cầu, giá tiền đặt hàng, và số lượng các
nhãn hàng đặc biệt cần thiết cho mỗi đơn đặt hàng.
► Họ yêu cầu bạn xem xét kỹ:
1. Bạn cần những dữ liệu nào?
2. Bạn sẽ trình bày và phân tích các dữ liệu đó như thế nào?
3. Bạn có thể sử dụng các biểu đồ và phân tích như thế nào để tìm
được “một vài X’s quan trọng” giải thích được dao động trong ngày?
Biểu đồ ma trận phân tán: cho thấy mối quan hệ
giữa nhiều X’s và Y’s
► Định nghĩa: Một biểu đồ ma trận gồm các biểu đồ
phân tán cho tất cả các cặp dữ liệu được tổ chức
trong một ma trận
X1
600
Y1
200
75000
Y2
25000
20 60 15
0 0 00 0 0
50 50 10 20 60
Đọc biểu đồ ma trận
► Đánh giá Y1 :
X1 có giúp giải thích cho Y1 hay không? Không
X2 có giúp giải thích cho Y1 hay không? Có
X3 có giúp giải thích cho Y1 hay không? Có
► Đánh giá Y2 :
X1 có giúp giải thích cho Y2 hay không? Không
X2 có giúp giải thích cho Y2 hay không? Có
X3 có giúp giải thích cho Y2 hay không? Có
Hiểu biểu đồ ma trận (tt)
► Kết luận:
Kết luận được gì cho đến lúc này?
X1 không có ích
X2 và X3 có ích trong việc giải thích dao động của cả Y1 và Y2
► Đánh giá các mối quan hệ khác :
X2 có liên quan đến X3 hay không? Có
Y1 có liên quan đến Y2 hay không? Có
Ma trận quan hệ: Lượng hóa độ mạnh
mối quan hệ giữa X’s and Y’s
Correlations (Pearson)
X1 X2 X3 Y1
X2 0.259
X3 0.2930.979
Y1 0.2450.928 0.934
Y2 0.139 0.631 0.635 0.746
Ma trận quan hệ: Lượng hóa độ mạnh
mối quan hệ giữa X’s and Y’s (tt)
150
X2
50
1000
X3
500
600
Y1
200
75000
Y2
25000
20 60 15
0 0 00 0 0
50 50 10 20 60
Correlations
X1 X2 X3 Y1
X2 0.259
X3 0.293 0.979
Y1 0.245 0.928 0.934
Y2 0.139 0.631 0.635 0.746
Hồi quy đa biến: Lượng hóa mối quan hệ
giữa nhiều X’s và một Y
► Phân tích hồi quy đa biến cho ra phương trình như sau:
► ProdTime = 6.20 + 5.86(Setups) + 0.000151($Price) +
1.39(Features) + 0.86(Labels)
Ví dụ
Sử dụng phương trình hồi quy đa biến
1. Bảng dữ liệu: Can you
Bạn có thểmanage or kiểm
quản lý hay control
soátX
Name Loại dữ
Type ofliệu
Data or dự báo
X hay chỉ dùng để
Tên
use it only to predict?
Y ProdTime Continuous
Liên tục
X1 Setups Count
Đếm Can
Có thểpossibly
quản lýmanage
số lần càithe
đặt thiết
number of equipment
bị hoặc dùng để dự báo setups or
use it to predict
X2 $Price Continuous
Liên tục
Can
Có thểmanage
quản lýthe pricedùng
giá hoặc or use
để it
to
dựpredict
báo
X3 Features Count
Đếm Can usedùng
Có thể it to để
predict
dự báo
X4 Labels Count
Đếm Can usedùng
Có thể it to để
predict
dự báo
Cho một X
1
0
-1
-2
-3
Y = 3 – 3X
-4
-5
-6
0 1 2 3
X
xxx
X2
xxx
X3
xxx
X4
xxx
X5
xxx
Y1
xxx
Y2
xxx
Y3
xxx
► Từ các biến trong dữ liệu máy tính xxx xxx xxx xxx xxx
xxx
xxx xxx
xx
xxx
xxx
Lợi ích của Hồi quy Đa biến (tt)
► Cũng giống như đối với Hồi quy tuyến tính đơn giản:
► Ngoại suy ngoài phạm vi dữ liệu X’s là rủi ro
► Nếu ngoại suy, đảm bảo bạn có những dữ liệu khác, kiến thức về quá trình hoặc lý
thuyết nào đó hướng dẫn bạn
► Tương quan không có nghĩa là nhân quả (hy vọng rằng bằng cách kiểm soát các X’s
quan trọng, sẽ ảnh hưởng được Y)
► Không có tương quan không có nghĩa là không có quan hệ nhân quả:
► Kiểm tra phạm vi của X’s: Có phải phạm vi quá hẹp không?
► Biểu đồ phân tán phân tầng bởi các dữ liệu rời rạc khác
► Bây giờ bạn có thể thấy mối quan hệ nào không?
Cảnh báo đối với Hồi quy đa biến (tt)
► Cũng giống như đối với Hồi quy tuyến tính đơn giản (tt):
► Dữ liệu cho X và Y phải hợp với nhau theo từng cặp: đơn vị với đơn vị, hay trường
hợp với trường hợp; nếu không, kết luận và dự báo có thể không đúng.
► “Hợp theo cặp” có nghĩa là bạn có thể liên kết mỗi thang đo của X với Y với cùng đơn vị lấy
mẫu (ngày, ứng dụng, hành động, giao dịch,…)
► Riêng cho hồi quy đa biến:
► Các X’s nên không liên quan (tương quan) với nhau —nếu không, các hệ số (b) của
các X’s có tương quan với nhau rất đáng nghi ngờ (về tính đúng đắn và chính xác)
Đa cộng tuyến (Multicollinearity): Vấn đề
gây ra bởi các X’s tương quan với nhau
► Nếu hai X’s (giả sử chúng là: X1 và X2) có tương quan nhiều với nhau,
thì:
► Hệ số của chúng (b1 hoặc b2) có thể rất lớn, rất nhỏ, hay có dấu hiệu sai lầm
► Pvalues có thể sai lệch:
► P-value lớn không đáng kể có thể trở thành đáng kể nếu một X ‘có tương quan’ được loại
bỏ khỏi mô hình
► Kết luận rất có thể là sai lầm
► “Các X’s có tương quan với nhau” được gọi là đa cộng tuyến
(multicollinearity)
Các X’s có tương quan: Ví dụ
X1 (Tuổi)
X1 X2
Y (Thu nhập) X2 0.979
Y 0.928 0.934
► Minitab menu:
Stat > Regression > Regression > Options
(Select Display “ Variance inflation factors”)
Rsq và Rsqđiều chỉnh (Rsqadj)
trong Hồi quy đa biến
► Rsq:
► Phần trăm dao động của Y được giải thích bởi các biến dự báo (X’s)
► Bằng với bình phương của tương quan giữa Y-quan sát và Y-nằm trên đường hồi
quy (Y-dự báo)
► Luôn luôn tăng khi có thêm một X vào mô hình
► Luôn luôn giảm khi loại một X khỏi mô hình
Rsq và Rsqđiều chỉnh (Rsqadj)
trong Hồi quy đa biến (tt)
► Rsqadj:
► Được điều chỉnh theo số lượng các X’s trong mô hình
► Tương tự như Rsq nếu n tương đối lớn
► Nhỏ hơn Rsq nếu n tương đối nhỏ
► Có thể tăng hoặc giảm khi thêm hoặc bớt các biến X’s vào mô hình
► Được dùng hợp lý hơn cho phân tích đa biến
Chiến lược đối phó với hiện tượng
Đa cộng tuyến (Multicollinearity)
► Ngắn hạn:
► Chọn một biến X có tương quan để loại bỏ khỏi mô hình:
► Biến được chọn nên là biến có ít ý nghĩa nhất trong mô hình
và/ hoặc
► Biến mà bạn không thể kiểm soát
► Ghi chú điều này
► Chạy lại phương trình hồi quy
Chiến lược đối phó với hiện tượng
Đa cộng tuyến (Multicollinearity) (tt)
► Dài hạn:
► Xem xét chạy lại thiết kế thử nghiệm nhằm:
► Tìm hiểu mối quan hệ giữa các biến và tách các tác động của chúng lên Y
► Tìm hiểu các biến với phạm vi không đủ
► Tìm hiểu các biến mà bạn thiếu dữ liệu
► Định nghĩa tốt hơn mối quan hệ giữa một vài biến X’s quan trọng (chẳng hạn như chúng
tương tác với nhau như thế nào)
Giả định cho
Hồi quy tuyến tính đa biến
► Mới đối với Hồi quy đa biến:
► Các biến X’s không liên quan (tương quan) với nhau
► Giống như đối với Hồi quy tuyến tính đơn giản :
► Các giả định hồi quy chính dựa trên đặc điểm của phần dư (Y-quan sát – Y-dự báo),
giả định rằng:
► Không liên quan đến X’s
► Ổn định và độc lập; không thay đổi theo thời gian
► Bất biến; không tăng khi Y-dự báo tăng
► Chuẩn (phân phối hình chuông) với số trung bình bằng 0
Kiểm tra giả thuyết về Phần dư
► Biểu đồ phần dư (Residuals plots) phải được kiểm tra để
đảm bảo các giả thiết có giá trị; nếu không, phương trình
hồi quy có thể không đúng hoặc sai lầm
Giả định Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động
Phần dư Phần dư
1.Phần dư so Mối quan hệ giữa X
3 3
2 2
và Y không phải là
Không với mỗi X 1 1
một đường thẳng,
liên 0 0 mà là đường cong.
quan 1 1 Thử các phép biến
đến X 2 2 đổi với X, Y hoặc cả
3 3 hai. Hoặc sử dụng
3 4 5 6 7 8 9 10 11 12 10 20 30
X2 trong Hồi quy đa
X X biến
2.Biểu đồ theoPhần3 dư Phần dư
3 Bất kỳ kiểu mẫu lặp
Ổn định thời gian 2 2 lại nào qua thời gian
có nghĩa là một
của phần dư 1 1
nhân tố nào khác,
0 0
1 1
liên quan đến thời
gian, ảnh hưởng
2 2
đến Y. Cố gắng tìm
3
0 50 100
3
0 50 100
ra và đưa nó vào
Time Order Time Order Hồi quy đa biến.
Kiểm tra giả thuyết về Phần dư (tt)
3.Phần dư so
có nghĩa là dao
2 2
2 2
dư không bất biến.)
3 3
Thử lấy căn Y, Log
30 40 50 0 50 100 Y, hoặc phép biến
Pred. Y Pred. Y đổi nghịch đảo lên
Y
Nscore Nscore
3 3
4. Biểu đồ xác 2 2
Phần dư không
suất chuẩn 1 1
chuẩn. Thử phép
Phân phối của phần dư 0 0
biến đổi lên X, Y
chuẩn 1 1
hoặc cả hai
2 2
3 3
3 2 1 0 1 2 3 1 0 1 2 3 4
Residual Residual
Đánh giá R2
► Đây là hướng dẫn giúp bạn đánh giá phần dao động còn lại (không giải
thích được) là chỉ bởi vì các nguyên nhân thông thường hoặc liệu bạn
nên tiếp tục tìm kiếm các yếu tố khác để giải thích cho Y:
Loại thang đo Giá trị R-sq điển hình Nhận xét
Nhận thức/ Hành vi .20 đến .60 Quá trình đo lường nhận thức của
(Ý kiến, quan điểm, …) con người (bao gồm sử dụng các
Ví dụ: Khảo sát sự hài lòng của công cụ đo lường) thường có nhiều
khách hàng, khảo sát thái độ của nguyên nhân dao động phổ biến
nhân viên, …. (không giải thích được), vì thế R-sq
sẽ thấp hơn
Vật lý (kích thước, sức mạnh,…) .70 đến .90 Quá trình đo lường các đặc tính vật
Ví dụ: Cân nặng hộp thức ăn, độ lýnhận thức của con người (bao
dày của gỗ dán gồm sử dụng các công cụ đo
lường) thường có ít các nguyên
nhân dao động phổ biến (không giải
thích được), vì thế R-sq sẽ cao hơn
► Bạn đánh giá mô hình cuối cùng cho dữ liệu độ dày bức tường như thế
nào?
► Liệu bạn có nên tiếp tục tìm kiếm thêm các biến X’s nhằm giải thích dao
động được nhiều hơn?
Qui tắc kinh nghiệm đối với
cỡ mẫu cần thiết cho Hồi quy đa biến
► Kích thước mẫu thực tế cần thiết cho một phân tích hồi quy thay đổi phụ
thuộc vào lượng dao động trong dữ liệu và độ lớn của các hệ số góc bạn
muốn khám phá
► Điều này được thực hiện tốt nhất với nguyên tắc kinh nghiệm
► Nhưng bạn cũng có thể thấy hướng dẫn này có ích:
► Có ít nhất 10–30 giá trị cho mỗi biến X bạn muốn đưa vào mô hình
► Ví dụ:
4 X’s 40–120 điểm dữ liệu
Tóm tắt
Hồi quy tuyến tính đa biến
Tên gọi Định nghĩa Phạm vi Ý nghĩa
Hệ số góc bi, của xi Giá trị hệ số của Xi trong phương trình Đơn vị thay đổi trong Y đối với một đơn vị tăng
hồi quy - ∞ đến ∞ thêm của X khi tất cả các X’s khác giữa nguyên
Pvalue cho hệ Xác suất hệ số góc là đáng kể (Khác 0)
0 đến1 Nếu < 0.05, hệ số góc là đáng kể (khác 0) và X liên
số góc quan đến Y
Hệ số tương quan Chỉ ra độ mạnh của mối quan hệ tuyến tính. Các
r 1 đến +1 con số gần bằng 0 ngụ ý không có mối quan hệ
Rsquare Phần trăm của dao động trong giá trị Y được giải
Phần trăm dao động được giải thích = r2 0 đến 100%
(Rsq) thích bởi mối quan hệ với X
R-square điều Rsquare điều chỉnh cho số lượng 0 đến khoảng Sử dụng giá trị này để so sánh các mô hình với
chỉnh (R-sqADJ) terms trong mô hình 100% các số lượng terms khác nhau
Chỉ ra giá trị quan sát điển hình khác bao nhiêu so
S Độ lệch chuẩn của phần dư (Dao động
không được giải thích)
- ∞ đến ∞ với giá trị dự báo, theo đơn vị của dữ liệu gốc.
Phần dư = Y-quan sát –Y-dự báo - ∞ đến ∞ Phần dư được giả định là ngẫu nhiên và chuẩn
hóa với số trung bình bằng 0 (đại diện cho nguyên
nhân dao động phổ biến).
Hệ số lạm phát phương sai phản ánh Nếu VIF > 5 đến 10, thì có vấn đề với đa cộng tuyến.
VIF tương quan giữa một X với các X’s 1 đến ∞ Các hệ số và P-value có thể sai lầm. Loại bỏ một X
khác có tương quan.
Quy trình chung cho
Hồi quy đa biến
Quy trình hồi quy đa biến 5 bước: Tổng quan
1. Làm quen với ►Quan sát biếu đồ
dữ liệu ►Quan sát thống kê mô tả
4.
Khớp không
đủ Kiểm tra
mô hình và ►Quan sát VIFS
Inadequate giả thuyết
►Quan sát biểu đồ phần dư
►Quan sátR-SqADJ, S
Khớp tốt
►Quan sát P-value cho tất các các hệ số (b)
Một kỹ sư thủy sản thường xuyên phải kiểm tra độ mặn
của nước biển để đảm bảo độ mặn phù hợp cho tôm sú
Tuy nhiên việc kiểm tra độ mặn theo phương pháp hóa
học rất tốn kém và mất thời gian.
Kỹ sư này đã nghĩ ra cách lấy nước cất pha 1 lượng muối
(biết trước) sau đó đo độ dẫn điện của dung dịch
Kỹ sư này hy vọng sẽ xây dựng được 1 phương trình hồi
quy để khi đo độ dẫn diện của nước (có máy đo, nhanh,
rẽ..) có thể suy ra hàm lượng muối trong nước biển
ky su thuy san.xls
Minitab
Stat > Regression > Regression
Đọc kết quả
Thực hành 2
Một kỹ sư xây dựng làm việc tại dự án xây dựng đường
hầm Thủ Thiêm. Anh được giao nhiệm vụ khảo sát các
yêu tố ảnh hưởng và dự đoán cường độ betong. Một mô
hình nghiên cứu được xây dựng như sau
-Y: cường độ bêtong
-X1: hàm lượng xi măng
-X2: hàm lượng phụ gia – tăng cường lực
-X3: nhiệt độ nước trộn betong
Ky su xay dung.xls
Trước khi chạy hồi quy, chạy ma trận quan hệ
trước
minitab graph Matrix plots
Kiểm định tương quan
minitabbasic statisticcorrelation
Minitab
Stat > Regression > Regression
Đọc kết quả
Đọc kết quả
Hệ số lạm phát phương sai -
Variance Inflation Factor (VIF):
Kiểm tra Đa cộng tuyến
VIF <
5 ok
Thực hành 3
Cử nhân Quản lý CN làm việc tại công ty sản xuất mủ bảo
hiểm AAA. Tại khâu ép mủ, anh cử nhân muốn tìm hiểu sự
ảnh hưởng của các yếu tố lên độ cứng của mủ
Có hai yếu tố được đưa ra
-Nhiệt độ ép
-Nhà cung cấp hạt nhựa
Biến phân
loại
Đọc kết quả
Đọc kết quả
Một kỹ sư hóa làm việc cho nước rữa chén Mỹ Hảo muốn
nghiên cứu ảnh hưởng của hàm lượng chất hoạt động bề
mặt đến sức căng bề mặt của nước rửa chén (sức căng
bề mặt càng thấp, nước rửa chén càng tốt). Vấn đề là anh
ta không biết mô hình hồi quy nào phù hợp
ky su hoa.xls
Correlations: Sức căng bề mặt, Hàm lượng chất
hoạt động bề mặt
Kiểm định
tương quan và
ma trận quan
hệ không cho
một thông tin
nào để có thể
phán đoán
được
Dùng chức năng Fitted line
Chọn cả
03 mô
hình để so
sánh
Cho phép suy
đoán được điều gì
?
Phần dư
Quadratic
Phần dư Cubic
Thực hành 5
Nhóm nghiên Nestle đang nghiên cứu thời gian sấy. Họ muốn
biết thời gian sấy bị ảnh hưởng bởi yếu tố gì