You are on page 1of 108

Multi-Factor ANOVA

Multiple Regression

Huỳnh Bảo Tuân - 2016


Bài toán trong Six Sigma
KPIV – Key Process
Input Variable
Material Method & Measure
Sai mã, sai spec Sai SOP
Kém ổn định Đo sai
Đo không chính xác

Design
Thiết kế không lường
hết tác ộng.
KPOV
Thiết kế khó thao tác process Key
 dễ sai
Process
Machine
Output
Không ổn ịnh
Không tin cậy
Man Variable
Hiểu sai, nhận diện sai
Không ạt năng lực Thao tác sai
Quên, mất tập trung,
nhầm lẫn
NGUỒN GÂY RA DAO ĐỘNG – PHÂN TÍCH ANOVA

1 nguồn: one way


2..n nguồn: multi
MÁY factor ANOVA (n way)
Nguyên vật
liệu

Công
nhân
vận
hành
TÌM KiẾM YẾU TỐ CÓ QUAN HỆ VỚI TUFT –
PHÂN TÍCH TƯƠNG QUAN

X có mối quan
hệ với tuft
Dựa vào X để
dự đoán sự
thay đổi Tuft
TÌM KiẾM YẾU TỐ CÓ TÁC ĐỘNG NHÂN QUẢ
(GÂY RA SỰ THAY ĐỔI) VỚI TUFT
– PHÂN TÍCH HỒI QUY (REGRESSION)
X

Lượng hóa
mối quan hệ
giữa X và tuft
Khi X là
nguyên nhân
gây ra Tuft
Điều khiểu
Tuft dựa vào X
Analysis Of Variance (ANOVA)

ANOVA là một kỹ thuật phân tích thống kê để làm rỏ tổng
thể sự dao động bị tác động bởi các nguồn nào được chia
thành các nguồn của sự biến đổi có ý nghĩa
Total
2
 Component
2
1   2
Component 2     2
Component k

ANOVA thường được sử dụng để nghiên cứu mối quan hệ


giữa một biến đáp ứng (response variable Y) với một hoặc
nhiều biến giải thích hay dự đoán (explanatory or
predictor variables X’s). Các biến dự đoán còn được gọi là
các yếu tố, nhân tố (factors).
Lưu ý: phân tích ANOVA giả định rằng các tác động của
các yếu tố là độc lập. ANOVA không xác định được các tác
động có sự tương tác lẫn nhau
Các mô hình ANOVA
ANOVA models

Factor X’s

Bản chất của X’s Số lượng X’s


-Cố định (Fixed Effects) - ANOVA loại I - 1 (one way)
-Ngẫu nhiên (Random Effects ) – ANOVA loại II - 2 (two way)
-Hỗn hợp (Mixed Effects ) – ANOVA loại III - nhiều (Multi-Factor)

One-Way ANOVA-I và ANOVA-II


Two-Way ANOVA-I, ANOVA-II và ANOVA-III
Multi-Factor ANOVA -I, ANOVA-II và ANOVA-III
ANOVA — Models

Fixed Effects (ANOVA I) Model


► X’s là xác định và biết trước
► Các kết luận là chỉ có giá trị trên các cấp độ của các yếu tố đó,
không thể mở rộng sự suy diễn.
► Thường dùng trong các nghiên cứu thử nghiệm, thiết kế

Random Effects (ANOVA II) Model


► X’s là ngẫn nhiên, thu thập dữ liệu mẫu từ tổng thể
► Có thể suy diễn cho tổng thể
► Thường dùng trong sản xuất

Mixed Effects (ANOVA III) Model


► X’s : có biến là cố định, có biến là ngẫu nhiên
► Thường dùng trong sản xuất
two-way ANOVA – model I
ví dụ

Chiet suat duoc lieu.xls


two-way ANOVA – model I
Minitab
Stat  ANOVA  two - way
two-way ANOVA – model I
Minitab
Đọc kết quả
P value dung
môi > 0.01 
chấp nhận Ho

P value
phương pháp
< 0.01  bác
bỏ Ho

Kết luận phương pháp có


ảnh hưởng đến kết quả chiết
R-sq: giải thích được bao nhiêu phần trăm suất
sự thay đổi của Y Dung môi không ảnh hưởng
R-sq (adj): điều chỉnh R-sq theo bậc tự do
two-way ANOVA – model I
Minitab
Thực hành
Một nghiên cứu được thực hiện nhằm xem xét sự ảnh hưởng
của máy và công nhân đến năng suất. Năng suất được ghi
nhận từ các thực nghiệm sau (tấn sản phẩm/h):
Máy Công nhân
A B C
1 65 69 75
2 74 72 70
3 64 68 78
4 83 78 76
Hãy đánh giá sự ảnh hưởng máy, công nhân đến năng suất
alpha = 0,05.
Nang suat theo may va CN.xls
Three-Way ANOVA Model I

Ví dụ: Tại Fujikura, các SSGB đang tìm xem yếu tố nào là
quan trọng ảnh hưởng đến tốc độ lắp ráp 01 bo mạch điện
tử có 12 component.
Có 03 factors được đưa ra xem xét
a. Giới tính (nam/nữ)
b. Phương pháp (pp 1/ pp 2)
c. Đào tạo (kinh nghiệm/đang đào tạo)
Nhóm đã đo thời gian của 50 bo mạch được làm ra
Thoi gian lap rap tai Fujikura.xls
Three-Way ANOVA Model I
Minitab
Stat  ANOVA  General Linear Model
Kết quả –
đáp ứng

Biến tác
động -
factors
Three-Way ANOVA Model I
Minitab
Stat  ANOVA  General Linear Model
đọc kết quả

Ảnh hưởng
của giới tính
và qui trình có
ý nghĩa thống

Đào tạo thì
chưa
Ảnh hưởng thế nào ?
Tổng quát cho k factor ANOVA Model I
k-Way ANOVA Model I, II, III
Minitab
Stat  ANOVA  General Linear Model
Thực hành nhóm
Thu thập dữ liệu cho ANOVA
► Mỗi nhóm chọn 01 tình huống

Xác định các factor X, response Y, đề xuất cách thu thập dữ liệu, mô hình ANOVA sử
dụng
Phân tích hồi quy
regression analysis

Huỳnh Bảo Tuân


Biểu đồ phân tán: trình bày mối quan hệ giữa X và Y

(đầu ra)
Y (output)

Nhắc lại: biểu đồ phân tán cho thấy


đầu ra (Y) thay đồi như thế nào
trong mối quan hệ với đầu vào (X)

Nếu không có mối quan hệ nào giữa


X và Y, các điểm sẽ phân tán ngẫu
nhiên trên biểu đồ.

(đầu vào)
X (input)
Lưu ý
một số tên gọi khác nhau của X và Y

X Y
Systems Input Output
Mathematics Independent Variable Dependent Variable
Statistics Predictor (Factor) Response
Quality Engineering Cause Effect (Quality)
Control Engineering Parameter Performance Index
Process Engineering Control Characteristic Process Characteristic
Phân tích hồi quy:
Lượng hóa mối quan hệ giữa X và Y
► Phân tích hồi quy là phát tạo một đường thẳng/cong (có thể biểu diễn
được ở dạng đại số – phương trình) lượng hóa mối quan hệ giữa X và Y

Hồi quy tuyến tính - Đường


(đầu ra)
thẳng, hay phương trình hồi
Y (output)
quy, thể hiện qua phương
8
trình:
7
Y = b 0 + b1 X
b0 = hệ số tự do (Giá trị Y
6

khi X = 0 hoặc là điểm mà


5

đường thẳng cắt trục Y)


4

2
b1 = hệ số góc (thay đổi của
1
biến, hay thay đổi của Y đối
0 1 2 3 4 5 6 7 8 9 10 với mỗi đơn vị tăng thêm của
X (input)
(đầu vào) X)
Lợi ích của việc lượng hóa mối quan hệ

► Dự đoán:
► Phương trình có thể được sử dụng để dự đoán đầu ra Y’s trong tương lai bằng cách
thay giá trị X vào phương trình
► Kiểm soát:
► Nếu X có thể kiểm soát được, -> có thể điều khiển được các điều kiện của quá trình
để tránh những kết quả không mong muốn và tạo ra kết quả mong muốn
Phần dư (Residuals)
Y
15

10
Phần dư7

5 Y quan sát (Y thật sự))


Phần dư2

Y dự đoán (nằm trên đường thẳng)

0
0 5 10 15
X

► Phần dư = Y quan sát – Y dự đoán


Phương trình Hồi quy được xác định như thế nào?
Phương pháp bình phương nhỏ nhất (The least-squares
method):
► Phương trình hồi quy được xác định bằng một quy trình
nhằm tối thiểu hóa tổng bình phương khoảng cách của tất
cả các điểm đến
đường thẳng
► Nhắc lại: tối thiểu hóa
‘bình phương’ của tất cả
các phần dư

Phương pháp bình phương nhỏ nhất


1. Đo khoảng cách thẳng đứng từ các điểm đển
đường thẳng
2. Lấy bình phương các con số này
3. Tổng tất cả các bình phương khoảng cách
4. Tìm đường thằng nào có tổng này nhỏ nhất
Ghi chú về Thuật ngữ

Những thuật ngữ này có thể sử dụng thay thế cho nhau:
► Phương trình hồi quy
► Đường thẳng hồi quy
► Phương trình dự báo
► Đường thẳng dự báo
► Fitted line or fits*
► Mô hình hồi quy

* Thuật ngữ được dùng trong Minitab


RSquared (RSq or R2): Phần trăm dao động được
giải thích
► RSquared (Rsq or R2):
► Đo lường phần trăm dao động trong các giá trị Y được giải thích bởi mối quan hệ
tuyến tính với X
► Phạm vi từ 0 đến 1 (= 0% đến 100%)
R-Squared (R-Sq or R2)
► R squared = r2 (r is Pearson’s correlation
coefficient)
► R2: the percent of variation in the Y-values
explained by the linear relationship with X

Explained variation
R-sq  x 100  % Explained
Total variation

► Ranges from 0% to 100%


R-square

Y
15

Think of this distance


10 conceptually as the
Total explained variation*;
Variation remaining variation is
5
in Y unexplained, and
presumed to result from
common causes
0
0 5 10 15
X
Total Variation  Explained  Unexplaine d

 *“Variation” as used in the R-sq formula above is actually the sum of


variance units (not ranges, as shown on the plot), but that is beyond the
scope of this course..
Hệ số tương quan (r):
Độ mạnh của mối quan hệ
► Hệ số tương quan, r:
► Phạm vi –1 đến 1:
► r = –1 = Tương quan ngược hoàn hảo
►r= 0 = Không có mối quan hệ tương quan
► r = +1 = Tương quan thuận hoàn hảo
► Đo lường ‘độ mạnh’ của mối quan hệ
► Được biết đến với tên Hệ số tương quan Pearson

Lưu ý: hệ số tương quan tính được là trên mẫu  muốn
suy diễn hệ số tương quan có ý nghĩa thống kê phải kiểm
định hệ số tương quan
Kiểm định hệ số tương quan

MiniTab,
Stat  Basic Statistics  Correlation

hypothesis test
H0 :  = 0 vs H1 :   0
Relationship

P Value < 0.05  bác bỏ Ho  có tương quan


Hệ số tương quan (r):
Độ mạnh của mối quan hệ (tt)
Y Y Y

X
Tương quan thuận mạnh X Không tương quan
X
Tương quan thuận tương đối
r = 0.95 r = 0.70 r = 0.006
R2 = 90% R2 = 49% R2 = 0.0036%

Y Y Y

X
Tương quan nghịch mạnh Tương quan nghịch X Mô thức khác: X
tương đối Không có tương quan
r = –0.90
r = –0.73 tuyến tính
R2 = 81%
R2 = 53% r = –0.29
R2 = 8%
Cảnh báo! Tương quan không có nghĩa là ‘Quan hệ
nhân quả’
►  Khi hai biến cho thấy có mối quan hệ với nhau trên biểu
đồ phân tán, chúng được gọi là có tương quan, nhưng
điều này không có nghĩa là chúng có mối quan hệ
nhân quả:
► Tương quan có nghĩa là hai thứ thay đổi cùng nhau
► Nhân quả có nghĩa là biến này gây ra những thay đổi cho biến
kia
Những giả thuyết về Hồi quy: Phần dư (Residuals)

► Những giả định hồi quy được dựa trên đặc tính của phần dư (không phải
dữ liệu gốc)
► Phần dư được giả định là:
15
► Không liên quan với X’s
► Ổn định và độc lập: không
thay đổi qua thời gian 10
► Bất biến: không tăng khi residual
Y-được dự báo (predicted Y)
tăng 5
residual
► Phân phối chuẩn (phân phối
hình chuông) với giá trị trung
0
bình bằng 0
0 5 10 15
Kiểm tra giả thuyết về Phần dư
► Biểu đồ phần dư (Residuals plots) phải được kiểm tra để
đảm bảo các giả thiết có giá trị; nếu không, phương trình
hồi quy có thể không đúng hoặc sai lầm
Giả định Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động
Phần dư Phần dư
1.Phần dư so Mối quan hệ giữa X
3 3

2 2 và Y không phải là
Không với mỗi X 1 1 một đường thẳng,
liên 0 0 mà là đường cong.
quan 1 1
Thử các phép biến
đổi với X, Y hoặc cả
đến X 2 2
hai. Hoặc sử dụng
3 3
3 4 5 6 7 8 9 10 11 12 10 20 30 X2 trong Hồi quy đa
X X biến
2.Biểu đồ theoPhần dư Phần dư
thời gian của 3 3
Bất kỳ kiểu mẫu lặp
Ổn định phần dư
2 2
lại nào qua thời gian
1 1 có nghĩa là một nhân
0 0 tố nào khác, liên
1 1 quan đến thời gian,
2 2
ảnh hưởng đến Y.
3 3
Cố gắng tìm ra và
0 50 100 0 50 100 đưa nó vào Hồi quy
Time Order Time Order đa biến.
Kiểm tra giả thuyết về Phần dư (tt)

Giả thuyết Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động


Phần dư Phần dư
Hình cánh quạt này
3 3

3.Phần dư so
có nghĩa là dao
2 2

Bất biến với Y-dự báo 1 1


động tăng dần khi
(Fits) 0 0
Y tăng thêm. (Phần
1 1

2 2
dư không bất biến.)
3 3
Thử lấy căn Y, Log
30 40 50 0 50 100 Y, hoặc phép biến
Pred. Y Pred. Y đổi nghịch đảo lên
Y

Nscore Nscore
3 3

4. Biểu đồ xác 2 2
Phần dư không
suất chuẩn 1 1
chuẩn. Thử phép
Phân phối của phần dư 0 0
biến đổi lên X, Y
chuẩn 1 1
hoặc cả hai
2 2

3 3
3 2 1 0 1 2 3 1 0 1 2 3 4

Residual Residual
Những quan sát bất thường (outliers)

► Quan sát được coi là bất thường nếu nó nằm xa đường hồi quy hoặc có
ảnh hưởng lớn đến đường kết quả
► Nếu có bất cứ quan sát bất thường nào được nhìn thấy:
► Kiểm tra xem có sai sót nào không
► Tìm hiểu xem liệu có điều gì bất thường đang xảy ra
► Chạy lại phân tích hồi quy loại bỏ những quan sát bất thường để xác định xem các hệ
số (b0 và b1) thay đổi nhiều như thế nào:
► Nếu các hệ số thay đổi đáng kể, bạn phải quyết định liệu các quan sát bất thường này có
được để xác định phương trình hồi quy hay không
Những quan sát bất thường (tt)

► Chạy lại phân tích hồi quy loại bỏ những quan sát bất thường để
xác định xem các hệ số (b0 và b1) thay đổi nhiều như thế nào
(tt):
► Đường hồi quy nên thể hiện rõ ràng mối quan hệ giữa X và Y:
► Loại bỏ một vài quan sát có thể làm giảm khoảng (range) của dữ liệu X
► Không loại bỏ những điểm thật sự nằm ngoài (true outliers) có thể gây
ảnh hưởng bất thường lên phương trình hồi quy
Sử dụng P-Value để kiểm định ‘Giả thuyết H0’
rằng Hệ số góc hồi quy bằng 0

► Diễn giải giá trị P (P-values) cho hệ số góc (slope) trong


phân tích hồi quy:
► Nếu Pi ≥ 0.05:
► Không loại bỏ H0:
► Không có đủ bằng chứng để phát biểu rằng có một hệ số góc có
ý nghĩa thống kê
► Nếu có hệ số góc thật sự, thì hoặc là dao động quá lớn hoặc mẫu
quá nhỏ để hệ số góc có thể được phát hiện
► Nếu Pi < 0.05:
► Loại bỏ H0, kết luậnHa
► Khác 0 về mặt thống kê (có hệ số góc hay một mối quan hệ đáng
kể)
► Hành động: Đánh giá tầm quan trọng của mối quan hệ — Có
đảm bảo hành động nào xa hơn không?
P- value and R-sqr
Scatterplot of % Yield vs Temperature

R-sqr (adj) 90

85

0 50% 99.9%

% Yield
80

0.000 % Statistically Variance is 75

significant but explained and 70

variance is partially statistically 150 175 200


Temperature
225 250

explained. significant.

P-value Look for Good model!


other X’s.
Variance is not Variance is
0.05 explained and explained but
statistically not statistically not Scatterplot of Y vs X
Scatterplot of Y vs X
20
significant. significant. 24

Look for Get more


22

20
15

other X’s, data!


18

Y
10 16
Y

collect more
14

5
12

0
1.0 1.5 2.0 2.5 3.0 3.5
0.9
4.0
data. 10
1.0 1.5 2.0
X
2.5 3.0

9
Các giả định trong phân tích hồi quy

► Tất cả các giả định là liên quan đến phần dư


► Không có giả định nào cho X hay Y
► X và Y không cần thiết phải là:
► Phân phối hình chuông (Phân phối chuẩn)
► Ổn định (qua thời gian)
► Ngẫu nhiên
Tổng kết: Diễn dịch đầu ra cho Hồi quy một biến X
Tên Định nghĩa Phạm vi Ý nghĩa
Pvalue cho hệ Xác suất hệ số góc là đáng kể Nếu nhỏ hơn 0.05, hệ số góc là đáng kể
(khác 0) 0 đến 1
số góc (slope) (khác 0) và X có quan hệ với Y

r Cho thấy độ mạnh của mối quan hệ


Hệ số tương quan –1 đến +1 tuyến tính. Các con số gần số 0 ngụ ý
không có mối quan hệ tuyến tính

Rsquare Phần trăm của dao động được 0 đến 100% Phần trăm dao động trong các giá trị Y
(Rsq) giải thích= r2 được giải thích bởi mối quan hệ với X)

Cho thấy giá trị quan sát điển hình khác


S Độ lệch chuẩn của phần dư
(Dao động không được giải
0 đến ∞ như thế nào với giá trị dự báo, trong các
thích) đơn vị dữ liệu gốc
Phần dư được giả thiết là ngẫu nhiên và tuân
(Phần dư)
Residual
= Y quan sát – Y dự báo - ∞ đến ∞ theo phân phối chuẩn với số trung bình bằng 0
(cho thấy nguyên nhân dao động thông thường).

Standardized Phần dư Khoảng –3 Nếu giá trị tuyệt đối của phần dư chuẩn
Residual = đến +3 hóa > 3, thì nó là một quan sát bất
Độ lệch chuẩn thường. Hãy tìm hiểu thêm về nó.
Một quan sát mà giá trị X có
Quan sát có ảnh hưởng lớn đến giá trị các - ∞ đến ∞ Xem quan sát có tầm ảnh hưởng này trên
biểu đồ để quyết định liệu có giữ hay loại
ảnh hưởng hệ số (của đường hồi quy) bỏ nó khỏi phân tích hồi quy.
Hồi quy tuyến tính đa biến
Các loại Hồi quy
Tuyến tính đơn giản (Một X) Đa biến (bằng hoặc Đơn phi tuyến tính (Một X)
nhiều hơn 2 X’s)

Y Y
Y

X2

X X
1
X
Sử dụng biến biểu thị Hồi quy Logistic (Cho Y’s rời rạc)
Bội phi tuyến tính (Cho X’s rời rạc)
((bằng hoặc nhiều hơn 2X’s) 1
X2 a

x x X2 b
x x

% yes
x x
Y Y x
x
x x xx X2 c
x x
x

X2
0
X X1 X
1
Bạn có thể hoàn thiện dự báo này?
► Các nhà quản lý bán hàng và quản lý sản xuất của một
xưởng gia công theo đơn đặt hàng rất hài lòng khi biết được
con số cài đặt thiết bị giải thích được 57% dao động trong
thời gian sản xuất chu kỳ (lead time).
► Họ tự hỏi liệu họ có thể cải thiện việc dự báo thời gian chu
kỳ và giải thích được nhiều hơn sự dao động.
► Họ nghĩ về các biến khác, chẳng hạn như số lượng các đặc
tính khách hàng yêu cầu, giá tiền đặt hàng, và số lượng các
nhãn hàng đặc biệt cần thiết cho mỗi đơn đặt hàng.
► Họ yêu cầu bạn xem xét kỹ:
1. Bạn cần những dữ liệu nào?
2. Bạn sẽ trình bày và phân tích các dữ liệu đó như thế nào?
3. Bạn có thể sử dụng các biểu đồ và phân tích như thế nào để tìm
được “một vài X’s quan trọng” giải thích được dao động trong ngày?
Biểu đồ ma trận phân tán: cho thấy mối quan hệ
giữa nhiều X’s và Y’s
► Định nghĩa: Một biểu đồ ma trận gồm các biểu đồ
phân tán cho tất cả các cặp dữ liệu được tổ chức
trong một ma trận
X1

Đừng căng mắt tìm các chi tiết về các điểm


150 đơn lẻ trên biểu đồ ma trận!
X2 Mục tiêu là để có được cái nhìn ban đầu
50 nhanh chóng về các kiểu mẫu cho thấy các
biến có liên hệ với nhau như thế nào.
1000
X3
500

600
Y1
200

75000
Y2
25000

20 60 15
0 0 00 0 0
50 50 10 20 60
Đọc biểu đồ ma trận

► Đánh giá Y1:


X1 có giúp giải thích cho Y1 hay không?
X2 có giúp giải thích cho Y1 hay không?
X3 có giúp giải thích cho Y1 hay không?
► Đánh giá Y2:
X1 có giúp giải thích cho Y2 hay không?
X2 có giúp giải thích cho Y2 hay không?
X3 có giúp giải thích cho Y2 hay không?
► Kết luận:
Kết luận được gì cho đến lúc này?
► Đánh giá các mối quan hệ khác:
X2 có liên quan đến X3 hay không?
Y1 có liên quan đến Y2 hay không?
Hiểu biểu đồ ma trận

► Đánh giá Y1 :
X1 có giúp giải thích cho Y1 hay không? Không
X2 có giúp giải thích cho Y1 hay không? Có
X3 có giúp giải thích cho Y1 hay không? Có
► Đánh giá Y2 :
X1 có giúp giải thích cho Y2 hay không? Không
X2 có giúp giải thích cho Y2 hay không? Có
X3 có giúp giải thích cho Y2 hay không? Có
Hiểu biểu đồ ma trận (tt)

► Kết luận:
Kết luận được gì cho đến lúc này?
X1 không có ích
X2 và X3 có ích trong việc giải thích dao động của cả Y1 và Y2
► Đánh giá các mối quan hệ khác :
X2 có liên quan đến X3 hay không? Có
Y1 có liên quan đến Y2 hay không? Có
Ma trận quan hệ: Lượng hóa độ mạnh
mối quan hệ giữa X’s and Y’s

► Định nghĩa: Một ma trận tương quan bao gồm các hệ số


tương quan (r) cho tất cả các cặp biến có trong ma trận
► Đầu ra khi dùng Minitab:

Correlations (Pearson)

X1 X2 X3 Y1
X2 0.259
X3 0.2930.979
Y1 0.2450.928 0.934
Y2 0.139 0.631 0.635 0.746
Ma trận quan hệ: Lượng hóa độ mạnh
mối quan hệ giữa X’s and Y’s (tt)

► Nhắc lại về hệ số tương quan:


r = –1 Mối tương quan nghịch tuyệt đối
r = 0 Không có tương quan tuyến tính
r = +1 Mối tương quan thuận tuyệt đối
► Minitab menu để thực hiện ma trận tương quan:
Stat > Basic Statistics > Correlation
Liên kết
Biểu đồ ma trận và Biểu đồ quan hệ
X1

150
X2
50

1000
X3
500

600
Y1
200

75000
Y2
25000

20 60 15
0 0 00 0 0
50 50 10 20 60

Gần 0; Tương quan tương Tương quan mạng, có


Không tương quan đối mạnh quan hệ tuyến tính mạnh

Correlations
X1 X2 X3 Y1
X2 0.259
X3 0.293 0.979
Y1 0.245 0.928 0.934
Y2 0.139 0.631 0.635 0.746
Hồi quy đa biến: Lượng hóa mối quan hệ
giữa nhiều X’s và một Y

► Phương trình hồi quy với một biến X:


Y = b0 + b 1 X
► (Đa biến) Phương trình hồi quy cho nhiều biến X’s:
Y = b0 + b1 X1 + b2 X2 + b3 X3 + … + bk Xk
Ví dụ minh họa
Sử dụng phương trình hồi quy đa biến
Tóm tắt của dữ liệu thu được từ 50 Đơn hàng (job)

Job ProdTime Setups $Price Features Labels


Y = Thời gian sảncycle
Production xuất chu
timekỳ (giờ)
(hrs) 1 61 6 8299 7 5
X1 = Số lần cài of
Number đặtequipment
thiết bị setups 2 129 14 48835 31 2
X2 = Số tiền đặtprice
Booking hàng (đô-la)
(dollars) 3 77 5 45848 18 1
X3 = Số đặc tính được
Number of custom yêu cầufeatures … … … … … …
X4 = Số lượng of
Number nhãn đặc biệt
unique labels 49 112 7 73518 29 1
50 72 10 50508 21 4

► Phân tích hồi quy đa biến cho ra phương trình như sau:
► ProdTime = 6.20 + 5.86(Setups) + 0.000151($Price) +
1.39(Features) + 0.86(Labels)
Ví dụ
Sử dụng phương trình hồi quy đa biến
1. Bảng dữ liệu: Can you
Bạn có thểmanage or kiểm
quản lý hay control
soátX
Name Loại dữ
Type ofliệu
Data or dự báo
X hay chỉ dùng để
Tên
use it only to predict?
Y ProdTime Continuous
Liên tục
X1 Setups Count
Đếm Can
Có thểpossibly
quản lýmanage
số lần càithe
đặt thiết
number of equipment
bị hoặc dùng để dự báo setups or
use it to predict
X2 $Price Continuous
Liên tục
Can
Có thểmanage
quản lýthe pricedùng
giá hoặc or use
để it
to
dựpredict
báo
X3 Features Count
Đếm Can usedùng
Có thể it to để
predict
dự báo
X4 Labels Count
Đếm Can usedùng
Có thể it to để
predict
dự báo

2. Dự báo cho 20 đặc tính, 7 nhãn, 10 lần cài đặt,


và $35,000:
Thời gian sản xuất
= –6.20 + 5.86(10) + 0.000151(35,000) + 1.39(20) + 0.86(7)
= –6.20 + 58.6 + 5.285 + 27.8 + 6.02
= 91.5 giờ
Ví dụ
Sử dụng phương trình hồi quy đa biến (tt)
3. Đánh giá việc dự báo:
Từ dữ liệu trích dẫn được cung cấp, việc dự báo nằm trong giới hạn
dữ liệu cho số lần cài đặt, giá và đặc tính:
► Nhưng bạn không thể xác định được liệu nó có nằm trong
phạm vi dữ liệu của nhãn hàng hay không, bạn cần phải kiểm
tra tất cả các dữ liệu
4. Giải thích các hệ số:
b1: Với mỗi lần cài đặt tăng thêm, bạn có thể dụ đoán thời gian sản xuất
sẽ tăng thêm 5.9 giờ
b2: Với mỗi $10,000 tăng thêm trong giá tiền đặt hàng, bạn có thể dụ
đoán thời gian sản xuất sẽ tăng thêm 1.5 giờ
b3: Với mỗi một đặc tính đặt hàng tăng thêm, bạn có thể dụ đoán thời
gian sản xuất sẽ tăng thêm 1.4 giờ
b4: Với mỗi một nhãn hàng đặc biệt cần thiết tăng thêm, bạn có thể dụ
đoán thời gian sản xuất sẽ tăng thêm 0.9 giờ
Cảnh báo!
Đừng so sánh các hệ số với nhau
► Độ lớn của các hệ số:
► Giá trị của các hệ số (độ lớn) không hàm ý rằng X nào sẽ có
tác động lớn nhất lên Y
► Tất các các X’s có thang đo khác nhau
► Ví dụ:
► Hệ số của giá tiền đặt hàng = 0.000151 theo đơn vị giờ/ đô-la
(có nghĩa là, thời gian sản xuất tăng thêm 0.000151 giờ cho
mỗi một đô-la tăng thêm)
► Hệ số của số lần cài đặt = 5.86 theo đơn vị giờ/ lần (có nghĩa
là, thời gian sản xuất tăng thêm 5.86 giờ cho mỗi lần thay đổi)
► Chỉ vì 5.86 lớn hơn 0.000151 không nhất thiết có nghĩa là số
lần cài đặt có nhiều ảnh hưởng hơn so với giá tiền đặt hàng
Hình ảnh hóa
Phương trình hồi quy đa biến
Y
3
2

Cho một X
1
0
-1
-2
-3
Y = 3 – 3X
-4
-5
-6

0 1 2 3
X

Cho hai X’s 10


5 Y = 3 – 3X1 + 2 X2
0
Y
5 3
2
0 1
1 0
2 3 X
X
2
1

Không thể hình ảnh hóa


được. Nhưng tất cả các khái
Cho > = X’s niệm vừa rồi mở rộng đa
Y = 3 – 3X1 + 2 X2 5 X3
chiều, bao gồm cả phương
pháp bình phương nhỏ nhất
được dùng để khớp phương
trình cho dữ liệu
Lợi ích của Hồi quy Đa biến

1. Phân tích thông qua nhiều biến:


► Phân tích thông qua nhiều biến đầu vào và biến quá trình tại cùng
thời điểm để tìm ra những biến quan trọng liên quan đến biến đầu
ra Quá trình

Đầu vào Đầu ra


(Xs) (Ys)
► Liệt kê từ sơ đồ SIPOC
Biến quá trình
(Xs)

Potential Causes (Xs) Effect on


Output (Y)

► Liệt kê từ các ý kiến lên


biểu đồ nhân quả X1

xxx
X2

xxx
X3

xxx
X4

xxx
X5

xxx
Y1

xxx
Y2

xxx
Y3

xxx

xxx xxx xxx xxx xxx xxx xxx xxx

xxx xxx xxx xxx xxx xxx xxx xxx

xxx xxx xxx xxx xxx xxx xxx xxx

► Từ các biến trong dữ liệu máy tính xxx xxx xxx xxx xxx

xxx
xxx xxx

xx
xxx

xxx
Lợi ích của Hồi quy Đa biến (tt)

2. Thiết lập bản chất của mối quan hệ:


► Thiết lập bản chất của mối quan hệ (phương trình) giữa các
đầu vào quan trọng (X’s) và đầu ra (Y):
Y = b0 + b1X1 + b2X2 + . . . + bkXk
3. Phát triển các giải pháp:
► Phát triển các giải pháp nhằm cải tiến và kiểm soát quá trình
(dựa vào những kiến thức từ phương trình):
► Hy vọng các X’s quan trọng là nhân tố điều khiển: chúng làm Y
thay đổi (hơn là chỉ đơn thuần có tương quan với nhau)
► Hy vọng bạn có thể kiểm soát hay quản lý được các nhân tố điều
khiển chính này (X’s)
► Nếu bạn không thể kiểm soát được X’s hay chúng không gây ra
thay đổi của Y, bạn vẫn có thể dự báo kết quả với các X’s quan
trọng (cho mục đích hoạch định) trong lúc bạn tìm kiếm các nhân
tố điều khiển mà bạn có thể kiểm soát
Cảnh báo đối với Hồi quy đa biến

► Cũng giống như đối với Hồi quy tuyến tính đơn giản:
► Ngoại suy ngoài phạm vi dữ liệu X’s là rủi ro
► Nếu ngoại suy, đảm bảo bạn có những dữ liệu khác, kiến thức về quá trình hoặc lý
thuyết nào đó hướng dẫn bạn
► Tương quan không có nghĩa là nhân quả (hy vọng rằng bằng cách kiểm soát các X’s
quan trọng, sẽ ảnh hưởng được Y)
► Không có tương quan không có nghĩa là không có quan hệ nhân quả:
► Kiểm tra phạm vi của X’s: Có phải phạm vi quá hẹp không?
► Biểu đồ phân tán phân tầng bởi các dữ liệu rời rạc khác
► Bây giờ bạn có thể thấy mối quan hệ nào không?
Cảnh báo đối với Hồi quy đa biến (tt)

► Cũng giống như đối với Hồi quy tuyến tính đơn giản (tt):
► Dữ liệu cho X và Y phải hợp với nhau theo từng cặp: đơn vị với đơn vị, hay trường
hợp với trường hợp; nếu không, kết luận và dự báo có thể không đúng.
► “Hợp theo cặp” có nghĩa là bạn có thể liên kết mỗi thang đo của X với Y với cùng đơn vị lấy
mẫu (ngày, ứng dụng, hành động, giao dịch,…)
► Riêng cho hồi quy đa biến:
► Các X’s nên không liên quan (tương quan) với nhau —nếu không, các hệ số (b) của
các X’s có tương quan với nhau rất đáng nghi ngờ (về tính đúng đắn và chính xác)
Đa cộng tuyến (Multicollinearity): Vấn đề
gây ra bởi các X’s tương quan với nhau
► Nếu hai X’s (giả sử chúng là: X1 và X2) có tương quan nhiều với nhau,
thì:
► Hệ số của chúng (b1 hoặc b2) có thể rất lớn, rất nhỏ, hay có dấu hiệu sai lầm
► Pvalues có thể sai lệch:
► P-value lớn không đáng kể có thể trở thành đáng kể nếu một X ‘có tương quan’ được loại
bỏ khỏi mô hình
► Kết luận rất có thể là sai lầm
► “Các X’s có tương quan với nhau” được gọi là đa cộng tuyến
(multicollinearity)
Các X’s có tương quan: Ví dụ
X1 (Tuổi)

X2 (Số năm làm việc)


Hệ số tương quan

X1 X2
Y (Thu nhập) X2 0.979
Y 0.928 0.934

► Tuổi và số năm làm việc có tương quan cao với nhau


► Đâu là nhân tố điều khiển chính cho thu nhập?
► Chỉ có tuổi tác?
► Chỉ có số năm làm việc?
► Cả tuổi tác và số năm làm việc?
► Không thể biết được
► Điều này giống như có được thông tin chỉ từ một X
(không phải hai X) trong phân tích hồi quy.
Các X’s có tương quan là phổ biến

► Số trung bình (mean) của các biến dự báo có tương


quan với nhau |r| > 0.9 (hay 0.8, phụ thuộc vào toàn bộ
tập dữ liệu)
► Các biến dự báo có tương quan với nhau là đặc điểm
của dữ liệu thu thập từ một quá trình:
► Từng X thì không bị ‘điều khiển” mà được quan sát như nó
xảy ra tự nhiên (thường là trong phạm vi hẹp)
► Một vài X’s di chuyển cùng nhau một cách tự nhiên (khi X1
cao X2 cũng cao)
► Ví dụ: Số lượng đặc tính yêu cầu tăng, giá sẽ tăng
► Các biến có tương quan với nhau thường phổ biến đối
với các biến xếp hạng và tỷ số của các biến:
► Ví dụ: “đô-la/ đặc điểm” thường có tương quan với “số đặc
điểm”
Hệ số lạm phát phương sai - Variance Inflation
Factor (VIF): Kiểm tra Đa cộng tuyến

► Hệ số lạm phát phương sai (VIF):


► Đo lường Đa cộng tuyến – Hướng dẫn
Guidelines
mối quan hệ giữa các biến VIF Multicollinearity
VIF Đa cộng tuyến
dự báo <5 No Problem
Không có vấn đề gì
► VIF đối với Xi: >5 Problem
Vấn đề:
• Regression
Hệ số hồi quy coefficients
được dự báoaretệ:
► VIFi = (1 – Ri2 ) –1 poorly estimated:
• Quá lớn hoặc quá nhỏ
- •tooSai hướng
large or too small
► Trong đó Ri là tương quan đa - wrong sign
biến của Xi với tất cả các biến
Hành động:
dự báo khác trong mô hình Action
• Loại bỏ một trong những biến có
 Drop one of the correlated X’s
tương quan với nhau trong mô
from the model
hình (phương (equation)
trình) và thực and
hiện
do the quy
lại hồi regression again

► Minitab menu:
Stat > Regression > Regression > Options
(Select Display “ Variance inflation factors”)
Rsq và Rsqđiều chỉnh (Rsqadj)
trong Hồi quy đa biến
► Rsq:
► Phần trăm dao động của Y được giải thích bởi các biến dự báo (X’s)
► Bằng với bình phương của tương quan giữa Y-quan sát và Y-nằm trên đường hồi
quy (Y-dự báo)
► Luôn luôn tăng khi có thêm một X vào mô hình
► Luôn luôn giảm khi loại một X khỏi mô hình
Rsq và Rsqđiều chỉnh (Rsqadj)
trong Hồi quy đa biến (tt)
► Rsqadj:
► Được điều chỉnh theo số lượng các X’s trong mô hình
► Tương tự như Rsq nếu n tương đối lớn
► Nhỏ hơn Rsq nếu n tương đối nhỏ
► Có thể tăng hoặc giảm khi thêm hoặc bớt các biến X’s vào mô hình
► Được dùng hợp lý hơn cho phân tích đa biến
Chiến lược đối phó với hiện tượng
Đa cộng tuyến (Multicollinearity)
► Ngắn hạn:
► Chọn một biến X có tương quan để loại bỏ khỏi mô hình:
► Biến được chọn nên là biến có ít ý nghĩa nhất trong mô hình
và/ hoặc
► Biến mà bạn không thể kiểm soát
► Ghi chú điều này
► Chạy lại phương trình hồi quy
Chiến lược đối phó với hiện tượng
Đa cộng tuyến (Multicollinearity) (tt)
► Dài hạn:
► Xem xét chạy lại thiết kế thử nghiệm nhằm:
► Tìm hiểu mối quan hệ giữa các biến và tách các tác động của chúng lên Y
► Tìm hiểu các biến với phạm vi không đủ
► Tìm hiểu các biến mà bạn thiếu dữ liệu
► Định nghĩa tốt hơn mối quan hệ giữa một vài biến X’s quan trọng (chẳng hạn như chúng
tương tác với nhau như thế nào)
Giả định cho
Hồi quy tuyến tính đa biến
► Mới đối với Hồi quy đa biến:
► Các biến X’s không liên quan (tương quan) với nhau
► Giống như đối với Hồi quy tuyến tính đơn giản :
► Các giả định hồi quy chính dựa trên đặc điểm của phần dư (Y-quan sát – Y-dự báo),
giả định rằng:
► Không liên quan đến X’s
► Ổn định và độc lập; không thay đổi theo thời gian
► Bất biến; không tăng khi Y-dự báo tăng
► Chuẩn (phân phối hình chuông) với số trung bình bằng 0
Kiểm tra giả thuyết về Phần dư
► Biểu đồ phần dư (Residuals plots) phải được kiểm tra để
đảm bảo các giả thiết có giá trị; nếu không, phương trình
hồi quy có thể không đúng hoặc sai lầm
Giả định Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động
Phần dư Phần dư
1.Phần dư so Mối quan hệ giữa X
3 3

2 2
và Y không phải là
Không với mỗi X 1 1
một đường thẳng,
liên 0 0 mà là đường cong.
quan 1 1 Thử các phép biến
đến X 2 2 đổi với X, Y hoặc cả
3 3 hai. Hoặc sử dụng
3 4 5 6 7 8 9 10 11 12 10 20 30
X2 trong Hồi quy đa
X X biến
2.Biểu đồ theoPhần3 dư Phần dư
3 Bất kỳ kiểu mẫu lặp
Ổn định thời gian 2 2 lại nào qua thời gian
có nghĩa là một
của phần dư 1 1
nhân tố nào khác,
0 0

1 1
liên quan đến thời
gian, ảnh hưởng
2 2
đến Y. Cố gắng tìm
3
0 50 100
3
0 50 100
ra và đưa nó vào
Time Order Time Order Hồi quy đa biến.
Kiểm tra giả thuyết về Phần dư (tt)

Giả thuyết Biểu đồ phần dư Tốt Xấu Ý nghĩa/ Hành động


Phần dư Phần dư
Hình cánh quạt này
3 3

3.Phần dư so
có nghĩa là dao
2 2

Bất biến với Y-dự báo 1 1


động tăng dần khi
(Fits) 0 0
Y tăng thêm. (Phần
1 1

2 2
dư không bất biến.)
3 3
Thử lấy căn Y, Log
30 40 50 0 50 100 Y, hoặc phép biến
Pred. Y Pred. Y đổi nghịch đảo lên
Y

Nscore Nscore
3 3

4. Biểu đồ xác 2 2
Phần dư không
suất chuẩn 1 1
chuẩn. Thử phép
Phân phối của phần dư 0 0
biến đổi lên X, Y
chuẩn 1 1
hoặc cả hai
2 2

3 3
3 2 1 0 1 2 3 1 0 1 2 3 4

Residual Residual
Đánh giá R2
► Đây là hướng dẫn giúp bạn đánh giá phần dao động còn lại (không giải
thích được) là chỉ bởi vì các nguyên nhân thông thường hoặc liệu bạn
nên tiếp tục tìm kiếm các yếu tố khác để giải thích cho Y:
Loại thang đo Giá trị R-sq điển hình Nhận xét

Nhận thức/ Hành vi .20 đến .60 Quá trình đo lường nhận thức của
(Ý kiến, quan điểm, …) con người (bao gồm sử dụng các
Ví dụ: Khảo sát sự hài lòng của công cụ đo lường) thường có nhiều
khách hàng, khảo sát thái độ của nguyên nhân dao động phổ biến
nhân viên, …. (không giải thích được), vì thế R-sq
sẽ thấp hơn
Vật lý (kích thước, sức mạnh,…) .70 đến .90 Quá trình đo lường các đặc tính vật
Ví dụ: Cân nặng hộp thức ăn, độ lýnhận thức của con người (bao
dày của gỗ dán gồm sử dụng các công cụ đo
lường) thường có ít các nguyên
nhân dao động phổ biến (không giải
thích được), vì thế R-sq sẽ cao hơn

► Bạn đánh giá mô hình cuối cùng cho dữ liệu độ dày bức tường như thế
nào?
► Liệu bạn có nên tiếp tục tìm kiếm thêm các biến X’s nhằm giải thích dao
động được nhiều hơn?
Qui tắc kinh nghiệm đối với
cỡ mẫu cần thiết cho Hồi quy đa biến
► Kích thước mẫu thực tế cần thiết cho một phân tích hồi quy thay đổi phụ
thuộc vào lượng dao động trong dữ liệu và độ lớn của các hệ số góc bạn
muốn khám phá
► Điều này được thực hiện tốt nhất với nguyên tắc kinh nghiệm
► Nhưng bạn cũng có thể thấy hướng dẫn này có ích:
► Có ít nhất 10–30 giá trị cho mỗi biến X bạn muốn đưa vào mô hình
► Ví dụ:
4 X’s 40–120 điểm dữ liệu
Tóm tắt
Hồi quy tuyến tính đa biến
Tên gọi Định nghĩa Phạm vi Ý nghĩa
Hệ số góc bi, của xi Giá trị hệ số của Xi trong phương trình Đơn vị thay đổi trong Y đối với một đơn vị tăng
hồi quy - ∞ đến ∞ thêm của X khi tất cả các X’s khác giữa nguyên
Pvalue cho hệ Xác suất hệ số góc là đáng kể (Khác 0)
0 đến1 Nếu < 0.05, hệ số góc là đáng kể (khác 0) và X liên
số góc quan đến Y

Hệ số tương quan Chỉ ra độ mạnh của mối quan hệ tuyến tính. Các
r 1 đến +1 con số gần bằng 0 ngụ ý không có mối quan hệ
Rsquare Phần trăm của dao động trong giá trị Y được giải
Phần trăm dao động được giải thích = r2 0 đến 100%
(Rsq) thích bởi mối quan hệ với X

R-square điều Rsquare điều chỉnh cho số lượng 0 đến khoảng Sử dụng giá trị này để so sánh các mô hình với
chỉnh (R-sqADJ) terms trong mô hình 100% các số lượng terms khác nhau
Chỉ ra giá trị quan sát điển hình khác bao nhiêu so
S Độ lệch chuẩn của phần dư (Dao động
không được giải thích)
- ∞ đến ∞ với giá trị dự báo, theo đơn vị của dữ liệu gốc.

Phần dư = Y-quan sát –Y-dự báo - ∞ đến ∞ Phần dư được giả định là ngẫu nhiên và chuẩn
hóa với số trung bình bằng 0 (đại diện cho nguyên
nhân dao động phổ biến).

Phần dư chuẩn Phần dư


residual Khoảng 3 Nếu giá trị tuyệt đối của phần dư chuẩn hóa
= > 3, thì nó là quan sát bất thường. Tìm hiểu nó.
hóa standard
Độ lệchdeviation
chuẩn đến +3
Một quan sát mà giá trị X của nó có
Quan sát có ảnh hưởng lớn lên giá trị của các hệ - ∞ đến ∞ Xem chúng trên biểu đồ, quyết định liệu sẽ giữ hay
loại bỏ chúng khỏi phân tích hồi quy.
ảnh hưởng số (trên đường hồi quy)

Hệ số lạm phát phương sai phản ánh Nếu VIF > 5 đến 10, thì có vấn đề với đa cộng tuyến.
VIF tương quan giữa một X với các X’s 1 đến ∞ Các hệ số và P-value có thể sai lầm. Loại bỏ một X
khác có tương quan.
Quy trình chung cho
Hồi quy đa biến
Quy trình hồi quy đa biến 5 bước: Tổng quan
1. Làm quen với ►Quan sát biếu đồ
dữ liệu ►Quan sát thống kê mô tả

2. Đưa ra mô ►Tuyến tính hay phi tuyến?


hình ►Một X hay nhiều X’s?
►Có cần biến đổi?
►X rời rạc? Y rời rạc
3. Khớp mô hình
vào dữ liệu
►Thực hiện hồi quy

4.
Khớp không
đủ Kiểm tra
mô hình và ►Quan sát VIFS
Inadequate giả thuyết
►Quan sát biểu đồ phần dư
►Quan sátR-SqADJ, S
Khớp tốt
►Quan sát P-value cho tất các các hệ số (b)

5. Báo cáo kết quả


và sử dụng phương
trình ►Thực hiện dự báo đối với các X’s quan trọng
Kỹ hơn về bước 2: Hình thành mô hình
► Sử dụng kiến thức của bạn về quá trình:
► Phỏng đoán về dạng quan hệ giữa X và Y
► Theo bạn thì dạn quan hệ này là gì?
► Nhìn vào biểu đồ tương quan của Y với mỗi X:
► Nó là đường thẳng hay đường cong?
► Tuyến tính hóa chúng?
► Tìm thêm các biến rời rạc khác nhằm chỉ ra nhiều quan hệ phức
tạp khác
► Khoảng (range) của X đủ rộng để thấy được mối liên hệ ?
► Kiểm tra các điểm khác thường
► Xem xét biểu đồ thời gian cho từng biến:
► Các thông tin bạn có thêm được về các nhân tố liên quan tới thời
gian là gì?
► Xem xét ma trận tương quan của Y và X:
► |r| > 0.4 thể hiện có sự tương quan tuyến tính nào đó
Cảnh báo! Đừng loại bỏ biến dự báo trước khi thực
hiện hồi quy
► Đừng loại bỏ biến ra khỏi phương trình trước khi thực
hiện hồi qui, cho dù :
► Đồ thị tương quan chỉ ra tương quan giữa Xk và Y là nhỏ
hoặc
► Sự tương quan, r, giữa Xk và Y là thấp
► Mối liên hệ phức tạp giữa Xk và những X’s khác với Y
có thể làm cho Xk trên thực tế trở yếu tố quan trọng đối
với Y
► Giá trị trong hồi qui đa biến:
► Một số X’s được phần tích cùng với nhau, tại cùng thời điểm,
hơn là phân tích riêng lẻ
► Mối quan hệ phức tạp có thể được nhận dạng và định lượng
Tổng kết về Hồi quy

► Phần này đã bao gồm những điểm sau đây:


► Hồi quy là một công cụ tiên tiến dùng cho cải tiến
► Phân tích hồi quy lượng hóa mối quan hệ giữa thang đo đầu
ra (Y) với một hoặc nhiều thang đo đầu vào hay quá trình
(X’s) bằng cách khớp một đường thẳng, đường cong hoặc
mặt phẳng vào dữ liệu
► Phân tích hồi quy phát tạo một phương trình đường thẳng,
đường cong hoặc mặt phẳng:
► Giải thích biến động trong các giá trị của Y
► Cho phép dự báo tác động kiểm soát của biến quá trình (X)
► Cho phép dự báo sự thực hiện của quá trình trong tương lai đối
với một giá trị cụ thể của X
► Giúp nhận dạng một vài biến quan trọng tác động đến Y
Phân tích hồi quy
regression analysis
Thực hành

Huỳnh Bảo Tuân


Thực hành 1

Một kỹ sư thủy sản thường xuyên phải kiểm tra độ mặn
của nước biển để đảm bảo độ mặn phù hợp cho tôm sú
Tuy nhiên việc kiểm tra độ mặn theo phương pháp hóa
học rất tốn kém và mất thời gian.
Kỹ sư này đã nghĩ ra cách lấy nước cất pha 1 lượng muối
(biết trước) sau đó đo độ dẫn điện của dung dịch
Kỹ sư này hy vọng sẽ xây dựng được 1 phương trình hồi
quy để khi đo độ dẫn diện của nước (có máy đo, nhanh,
rẽ..) có thể suy ra hàm lượng muối trong nước biển
ky su thuy san.xls
Minitab
Stat > Regression > Regression
Đọc kết quả
Thực hành 2

Một kỹ sư xây dựng làm việc tại dự án xây dựng đường
hầm Thủ Thiêm. Anh được giao nhiệm vụ khảo sát các
yêu tố ảnh hưởng và dự đoán cường độ betong. Một mô
hình nghiên cứu được xây dựng như sau
-Y: cường độ bêtong
-X1: hàm lượng xi măng
-X2: hàm lượng phụ gia – tăng cường lực
-X3: nhiệt độ nước trộn betong

Ky su xay dung.xls
Trước khi chạy hồi quy, chạy ma trận quan hệ
trước
minitab  graph Matrix plots
Kiểm định tương quan
minitabbasic statisticcorrelation
Minitab
Stat > Regression > Regression
Đọc kết quả
Đọc kết quả
Hệ số lạm phát phương sai -
Variance Inflation Factor (VIF):
Kiểm tra Đa cộng tuyến

Stat > Regression > Regression > Options


(Select Display “ Variance inflation factors”)

VIF <
5  ok
Thực hành 3

Cử nhân Quản lý CN làm việc tại công ty sản xuất mủ bảo
hiểm AAA. Tại khâu ép mủ, anh cử nhân muốn tìm hiểu sự
ảnh hưởng của các yếu tố lên độ cứng của mủ
Có hai yếu tố được đưa ra
-Nhiệt độ ép
-Nhà cung cấp hạt nhựa

Cu nhan Quan ly CN.xls


Trước khi chạy hồi quy, chạy ma trận quan hệ
trước
mintab  graph Matrix plots
Minitab
Stat > Regression > General Regression

Biến phân
loại
Đọc kết quả
Đọc kết quả

Phương trình hồi


quy cho từng nhà
cung cấp

Sự dao động của


nhà cung cấp A là
có ý nghĩa  lưu
ý anh này
Thực hành 4

Một kỹ sư hóa làm việc cho nước rữa chén Mỹ Hảo muốn
nghiên cứu ảnh hưởng của hàm lượng chất hoạt động bề
mặt đến sức căng bề mặt của nước rửa chén (sức căng
bề mặt càng thấp, nước rửa chén càng tốt). Vấn đề là anh
ta không biết mô hình hồi quy nào phù hợp

ky su hoa.xls
Correlations: Sức căng bề mặt, Hàm lượng chất
hoạt động bề mặt

Pearson correlation of Sức căng bề mặt and Hàm


lượng chất hoạt động b = 0.153
P-Value = 0.673

Kiểm định
tương quan và
ma trận quan
hệ không cho
một thông tin
nào để có thể
phán đoán
được
Dùng chức năng Fitted line

► Stat > Regression > Fitted Line Plot

Chọn cả
03 mô
hình để so
sánh
Cho phép suy
đoán được điều gì
?
Phần dư
Quadratic

Phần dư Cubic
Thực hành 5

Nhóm nghiên Nestle đang nghiên cứu thời gian sấy. Họ muốn
biết thời gian sấy bị ảnh hưởng bởi yếu tố gì

Du bao thoi gian say tai Nestle.xls

Hàm ý cải tiến ?


Thực hành 6

Lên men Bia tại Sabeco

Len men bia tai SABECO.xls

Hàm ý cải tiến và quản lý ?


Thực hành 7

Dự báo lượng điện tiêu thụ tại Xi măng Hà Tiên

- Dien nang va sản lượng tai Vicem.xls

Hàm ý cải tiến và quản lý ?


Q&A

You might also like