Cơ Sở Lý Thuyết Sxtk

CƠ SỞ LÝ THUYẾT
1/ Hồi quy tuyến tính bội
Trong nghiên cứu, chúng ta thường phải kiểm định các giả thuyết về mối quan hệ giữa
hai hay nhiều biến, trong đó có một biến phụ thuộc và một hay nhiều biến độc lập. Nếu
chỉ có một biến độc lập, mô hình được gọi là mô hình hồi quy đơn biến SLR (Simple
Linear Regression). Trường hợp có từ hai biến độc lập trở lên, mô hình được gọi là hồi
quy bội MLR (Multiple Linear Regression).
- Phương trình hồi quy đơn biến: Y = β0 + β1X + e
- Phương trình hồi quy bội: Y = β0 + β1X1 + β2X2 + … + βnXn + e
Trong đó:
 Y: biến phụ thuộc, là biến chịu tác động của biến khác.
 X, X1, X2, Xn: biến độc lập, là biến tác động lên biến khác.
 β0: hằng số hồi quy, hay còn được gọi là hệ số chặn. Đây là chỉ số nói lên giá trị
của Y sẽ là bao nhiêu nếu tất cả X cùng bằng 0. Nói cách khác, chỉ số này cho
chúng ta biết giá trị của Y là bao nhiêu nếu không có các X. Khi biểu diễn trên đồ
thị Oxy, β0 là điểm trên trục Oy mà đường hồi quy cắt qua.
 β1, β2, βn: hệ số hồi quy, hay còn được gọi là hệ số góc. Chỉ số này cho chúng ta
biết về mức thay đổi của Y gây ra bởi X tương ứng. Nói cách khác, chỉ số này nói
lên có bao nhiêu đơn vị Y sẽ thay đổi nếu X tăng hoặc giảm một đơn vị.
 e: sai số. Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi quy trở
nên kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế. Sai số trong hồi quy
tổng thể hay phần dư trong hồi quy mẫu đại diện cho hai giá trị, một là các biến
độc lập ngoài mô hình, hai là các sai số ngẫu nhiên.
Trong thống kê, vấn đề chúng ta muốn đánh giá là các thông tin của tổng thể. Tuy nhiên
vì tổng thể quá lớn, chúng ta không thể có được các thông tin này. Vì vậy, chúng ta dùng
thông tin của mẫu nghiên cứu để ước lượng hoặc kiểm định thông tin của tổng thể. Với
hồi quy tuyến tính cũng như vậy, các hệ số hồi quy tổng thể như β1, β2 … hay hằng số hồi
quy β0 là những tham số chúng ta muốn biết nhưng không thể đo lường được. Do đó,
chúng ta sẽ sử dụng tham số tương ứng từ mẫu để ước lượng và từ đó suy diễn ra tổng
thể. Phương trình hồi quy trên mẫu nghiên cứu:
Y = B0 + B1X1 + B2X2 + … + BnXn + ε
Trong đó:
 Y: biến phụ thuộc

 X, X1, X2, Xn: biến độc lập
 B0: hằng số hồi quy
 B1, B2, Bn: hệ số hồi quy
 ε: phần dư
1.1/ Hàm hồi quy tổng thể (PRF- Population Regression Function)
Hàm hồi quy tổng thể (PRF) là một hàm toán học biểu diễn mối quan hệ giữa biến
phụ thuộc Y và biến độc lập X trong tổng thể. PRF cho biết giá trị kỳ vọng của Y
khi biết X, hay còn gọi là hàm kỳ vọng có điều kiện của Y theo X . PRF có thể có
nhiều dạng khác nhau, tùy thuộc vào tính chất của dữ liệu và mục đích nghiên cứu.
Một dạng phổ biến của PRF là hàm hồi quy tuyến tính, có công thức như sau:
E(Y/X)=β1+β2X
Trong đó:
 β1 là hệ số chặn
 β2 là hệ số góc
 E(Y/X) là giá trị trung bình của Y khi X được giữ cố định .
1.2/ Hàm hồi quy mẫu (SRF - Sample Regression Function)
Hàm hồi quy mẫu (SRF) là một hàm toán học biểu diễn mối quan hệ giữa biến phụ
thuộc Y và biến độc lập X trong mẫu. SRF là một ước lượng của PRF dựa trên dữ
liệu mẫu. SRF cho biết giá trị ước lượng của Y khi biết X, hay còn gọi là hàm ước
lượng có điều kiện của Y theo X . SRF cũng có thể có nhiều dạng khác nhau,
nhưng thường được giả định là có cùng dạng với PRF. Một dạng phổ biến của
SRF là hàm hồi quy tuyến tính, có công thức như sau:
Y^/X=β^1+β^2X
Trong đó:
 β^1 là ước lượng của β1

 β^2 là ước lượng của β2
 Y^/X là giá trị ước lượng của Y khi X được giữ cố định .
1.3/ Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Tổng bình phương sai số (Sum of Squares for Errors - SSE) cho n điểm dữ liệu
được định nghĩa như sau
Nội dung của phương pháp bình phương nhỏ nhất là tìm các ước lượng βˆ 0 và
βˆ 1 sao cho SSE đạt giá trị bé nhất.
1.3.1/ Các giả thiết của phương pháp bình phương nhỏ nhất cho mô
hình hồi quy tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là một phương pháp ước lượng các
tham số của một mô hình hồi quy tuyến tính bằng cách tối thiểu hóa tổng bình
phương của các sai số giữa các giá trị quan sát được và các giá trị dự đoán bởi
mô hình. Để áp dụng phương pháp này, mô hình hồi quy tuyến tính bội cần
thỏa mãn một số giả thiết cơ bản, bao gồm:
Giả thiết 1: Hàm hồi qui có dạng tuyến tính đối với các tham số. Nghĩa là, mô
hình có thể viết dưới dạng:
y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + ε
Trong đó
 Y là biến phụ thuộc

 X1,X2,...,Xk là các biến độc lập
 β0,β1,...,βk là các tham số cần ước lượng
 ϵ là sai số ngẫu nhiên.
Giả thiết 2: Biến độc lập (giải thích) là phi ngẫu nhiên hay xác định. Nghĩa là
các giá trị của biến độc lập không phụ thuộc vào sai số ngẫu nhiên, và có thể
coi là cho trước hoặc được chọn một cách độc lập.
Giả thiết 3: Kỳ vọng của các yếu tố ngẫu nhiên bằng không. Nghĩa là
E(ϵ)=0
Điều này đảm bảo rằng các ước lượng bình phương nhỏ nhất không bị chệch.
Giả thiết 4: Phương sai sai số ngẫu nhiên không thay đổi và bằng nhau. Nghĩa
là
Var(ϵ)=σ2
Điều này được gọi là giả thiết về tính đồng nhất của phương sai
(homoscedasticity). Nếu sai số ngẫu nhiên có phương sai thay đổi theo các giá
trị của biến độc lập, thì gọi là hiện tượng không đồng nhất của phương sai
(heteroscedasticity).
Giả thiết 5: Các sai số ngẫu nhiên là độc lập với nhau. Nghĩa là
Cov(ϵi,ϵj)=0, ∀I khác j
Điều này loại trừ khả năng có sự tương quan giữa các sai số ngẫu nhiên
(autocorrelation).
1.3.2/ Ước lượng bình phương bé nhất
• Các ước lượng βˆ 0 và βˆ 1 tìm được gọi là các ước lượng BPBN.
• Đường thẳng yˆ = βˆ 0 +βˆ 1x gọi là đường thẳng BPBN, thỏa các tính chất
sau:
(1) SSE = ∑ (yi − yˆi)2 đạt giá trị bé nhất,
(2) SE = ∑(yi − yˆi) = ∑ ei= 0 với SE là tổng các sai số (Sum of Errors)
1.3.3/ Độ phù hợp của mô hình
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động
của biến phụ thuộc, người ta sử dụng 𝑅2 .
Ta có:
+∑(𝑦𝑖 − 𝑦)2 : TSS – Total Sum of Squares
+ ∑(𝑦̂𝑖 − 𝑦)2 : ESS – Explained Sum of Squares
+∑ 𝑒i2 : RSS – Residual Sum of Squares
Ta có thể viết: TSS = ESS + RSS
Ý nghĩa của các thành phần:
+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi
và giá trị trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ
thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần
này đo độ chính xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và
các giá trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.
𝑅2 được xác định theo công thức:
𝑅2 = 𝐸𝑆𝑆/𝑇𝑆𝑆 = 1 − 𝑅𝑆𝑆/𝑇𝑆𝑆
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương
cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”.
Từ định nghĩa 𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với
giá trị trung bình được giải thích bằng mô hình. Khi đó người ta sử dụng 𝑅2 để
đo sự phù hợp của hàm hồi quy:
+ 0 ≤ 𝑅 2 ≤ 1.
+ 𝑅2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao
biến động của biến phụ thuộc.
+ Nếu 𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu 𝑅2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của
biến phụ thuộc y.
1.4/ Khoảng tin cậy và kiểm định các hệ số hồi quy
a. Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không phải chỉ suy đoán về 𝛽1 , 𝛽1 , … . 𝛽𝑘
mà còn phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác
suất của 𝛽1 , 𝛽1 , … . 𝛽𝑘. Các phân bố này phụ thuộc vào phân bố của các 𝑢𝑖 .
Với các giả thiết OLS, 𝑢𝑖 có phân phối 𝑁(0, 𝜎2 ). Các hệ số ước lượng tuân
theo phân phối chuẩn:
𝛽̂ 𝑗~𝑁 (𝛽̂ 𝑗 , 𝑆𝑒(𝛽̂ 𝑗))
β̂ j− βj
~𝑇(𝑛 − 𝑘)
Se (β̂ j)
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu.
Trong đó k là số hệ số có trong phương trình hồi quy đa biến:
∑ ei 2
𝜎̂2=
n−k
+ Ước lượng 2 phía, ta tìm được 𝑡𝛼 2 (𝑛 − 𝑘) thỏa mãn:
β̂ j− βj
𝑃 (−𝑡a/2 (𝑛 − 𝑘)) ≤ ≤ 𝑃 (𝑡a/2 (𝑛 − 𝑘)) = 1 − 𝛼
Se (β̂ j)
+ Khoảng tin cậy 1− 𝛼 của 𝛽𝑗 là:
[𝛽̂ 𝑗 − 𝑡a/2 (𝑛 − 𝑘)𝑆𝑒(𝛽̂ 𝑗); 𝛽̂ 𝑗 + 𝑡a/2 (𝑛 − 𝑘)𝑆𝑒(𝛽̂ 𝑗)]
b. Kiểm định giả thiết đối với 𝜷𝒋
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm
định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không.
Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không. Có thể đưa ra
giả thiết nào đó đối với 𝛽𝑗 , chẳng hạn 𝛽𝑗 = 𝛽𝑗∗. Nếu giả thiết này đúng thì:
β̂ j−βj
~𝑇(𝑛 − 𝑘)
e ( β̂ j)
Bảng 1. Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng
Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết
H0
Kiểm định βj:
Giả thuyết H0 : 𝛽𝑗= 0 ⇔ xj không tác động
Giả thuyết H1 : 𝛽𝑗 ≠ 0 ⇔ xj có tác động.
𝛽𝑗< 0 ⇔ xj có tác động ngược
𝛽𝑗 > 0 ⇔ xj có tác động thuận
1.5/ Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt
của kiểm định WALD)
a. Khái quát về kiểm định WALD.
Giả sử chúng ta có 2 mô hình dưới đây:
(U) : Y = 𝛽1 + 𝛽2𝑋2 + 𝛽3𝑋3 + 𝛽4𝑋4 + 𝑢
(R) : Y = 𝛽1 + 𝛽2𝑋2 + 𝑣
Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được
gọi là mô hình giới hạn (Restrict). Đó là do 𝛽3 và 𝛽4 buộc phải bằng 0 trong
mô hình R. Ta có thể kiểm định giả thuyết liên kết 𝛽3 = 𝛽4 = 0 với giả thuyết
đối là ít nhất một trong những hệ số này không bằng 0. Kiểm định giả thuyết
liên kết này được gọi là kiểm định Wald, thủ tục như sau.
Đặt các mô hình giới hạn và không giới hạn là:
(U) : Y = β1 + β2X2 + ... + βmXm + βm+1Xm+1+ ... + 𝛽𝑘𝑋𝑘+ u
(R) : Y = β1 + β2X2 + ... + βmXm +v. Mô hình (R) có được bằng cách bỏ bớt
một số biến ở mô hình (U), đó là: Xm+1 , Xm+1 ,... X𝑘
Giả thiết H0 : βm+1=…= βk=0
Giả thuyết H1 : “Không phải đồng thời các tham số bằng 0”.
Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy
chưa biết. Do đó, mô hình R có ít hơn (k−m) thông số so với U. Câu hỏi chúng
ta nêu ra là (k−m) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay
không. Trị thống kê kiểm định đối với giả thiết này là:
2 2
[ RSSR−RSSU ]/(k−m) Ru −RR /(k −m)
𝐹𝑐 = ~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘) =
RSSU /(n−k ) 1−RU 2 /(n−k )
Với 𝑅2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có
phân phối F với (k−m) bậc tự do đối với tử số và (n−k) bậc tự do đối với mẫu
số.
Bác bỏ giả thuyết H0 khi:
𝐹𝑐 > 𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)
Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước.
b. Kiểm định ý nghĩa của mô hình.
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có
ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ
thể như sau:
Bước 1: Giả thuyết H0 : β2 = β3 = ... = βk = 0.
Giả thuyết H1 : “có ít nhất một trong những giá trị β khác không”.
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2 , X3 ,..., Xk,
sau đó tính tổng bình phương sai số 𝑅𝑆𝑆𝑈, 𝑅𝑆𝑆𝑅. Phân phối F là tỷ số của hai
biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống
kê:
[ RSSR−RSSU ]/(k−m)
𝐹𝑐 = ~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)
RSSU /(n−k )
Vì H0 : β2= β3 = ... = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
ESS/(k−1)
thuyết này sẽ là: 𝐹𝐶 = ) ~𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘)
RSS /(n−k )
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k−1) cho tử số và
(n−k) cho mẫu số, và với mức ý nghĩa α cho trước.
Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu 𝐹𝐶 > 𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘) Đối
với phương pháp giá trị p-value, tính giá trị p = P (F >𝐹𝐶|H0 ) và bác bỏ giả
thuyết H0 nếu p bé hơn mức ý nghĩa α
2/ Phân tích phương sai
2.1/ Lý thuyết về ANOVA (Phân tích phương sai)
ANOVA là viết tắt của Analysis of Variance, tức phân tích phương sai. Đây là một
phương pháp thống kê được dùng để so sánh trung bình của nhiều nhóm (tổng thể) dựa
trên các dữ liệu định lượng .
Ý tưởng chính của ANOVA là xem xét sự biến đổi tổng thể thành hai thành phần: sự biến
đổi giữa các nhóm và sự biến đổi trong nhóm. Phương pháp này đo lường mức độ sự biến
đổi giữa các nhóm bằng cách so sánh phương sai giữa chúng với phương sai trong nhóm
Nếu sự biến đổi giữa các nhóm lớn hơn sự biến đổi trong nhóm, điều đó có nghĩa là có sự
khác biệt về trung bình giữa các nhóm. Ngược lại, nếu sự biến đổi giữa các nhóm nhỏ
hơn sự biến đổi trong nhóm, điều đó có nghĩa là không có sự khác biệt về trung bình giữa
các nhóm.
Ta có các mô hình phân tích phương sai: phân tích phương sai một yếu tố và hai yếu tố.
Cụm từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết quả
đang nghiên cứu.
2.2/ Phân tích phương sai một yếu tố:
Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên nhân
(dạng biến định tính) đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu
Giả sử cần so sánh số trung bình của k tổng thể độc lập. Ta lấy k mẫu có số quan sát là n1,
n2… nk; tuân theo phân phối chuẩn. Trung bình của các tổng thể được ký hiệu là µ1; µ 2
….µk thì mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm
định giả thuyết như sau:
Ho: µ1 = µ 2 =….=µ k
H1: Tồn tại ít nhất 1 cặp có µi ≠µ j; i ≠ j
Để kiểm định ta đưa ra 3 giả thiết sau:
1) Mỗi mẫu tuân theo phân phối chuẩn N(µ, σ2)
2) Các phương sai tổng thể bằng nhau
3) Ta lấy k mẫu độc lập từ k tổng thể. Mỗi mẫu được quan sát nj lần
Các bước tiến hành:
Bước 1: Tính các trung bình mẫu và trung bình chung của k mẫu
• Ta lập bảng tính toán như sau:

Trung bình mẫu x1, x2, xk được tính theo công thức:
¿
𝑥̅1 = ∑
xij
j =1 (𝑖 = 1,2, … 𝑘)
¿
Trung bình chung của k mẫu được tính theo công thức:
k
∑ ¿ . x̅ i
x̅ = i=1k
∑¿
i=1
Bước 2: Tính các tổng độ lệch bình phương
− Tổng các độ lệch bình phương trong nội bộ nhóm (nội bộ từng mẫu - SSW) được tính
theo công thức sau:
Bước 2: Tính các tổng độ lệch bình phương
Tổng các độ lệch bình phương giữa các nhóm(SSB)

k
SSB = ∑ ¿(𝑥̅i - 𝑥̅)2
i=1
Tổng các độ lệch bình phương của toàn bộ tổng thể(SST)

k k
SST = SSW + SSB = ∑ ∑ ¿ ¿ ¿Xij - 𝑥̅)2
i=1 i=1
Bước 3: Tính các phương sai (phương sai của nội bộ nhóm và phương sai giữa các
nhóm)
Ta ký hiệu k là số nhóm (mẫu); n là tổng số quan sát của các nhóm thì các phương sai
được tính theo công thức sau:
MSW = SSW MSB = SSB

n−k k−1
MSW: Là phương sai nội bộ nhóm
SSB: Là phương sai giữa các nhóm
Bước 4: Kiểm định giả thiết
• Tính tiêu chuẩn kiểm định F (F thực nghiệm)
F= MSB
MSW
• F > F ((k-1; n-k); α)
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau
• Tìm F lý thuyết (F tiêu chuẩn = F (k-1; n-k; α)):
• F lý thuyết là giá trị giới hạn tra từ bảng phân phối F với k-1 bậc tự do của phương sai
ở tử số và ; n-k bậc tự do của phương sai ở mẫu số với mức ý nghĩa α.
• F lý thuyết có thể tra qua hàm FINV(α, k-1, n-1) trong EXCEL.
• Nếu F thực nghiệm > F lý thuyết, bác bỏ Ho, nghĩa là các số trung bình của k tổng thể
không bằng nhau
Bảng phân tích phương sai 1 yếu tố khi sử dụng máy tính (phần mềm EXCEL
hoặcSPSS) tóm tắt như sau:
2.3/ Phân tích ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của tőng
thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp thuận giả
thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì phân tích kết
thúc. Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tőng thể không bằng
nhau. Vì vậy, vấn đề tiếp theo là phân tích sâu hơn để xác minh nhóm (tőng thể) nào
khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0.
Trong phần này chỉ đề cập đến một phương pháp thôn dụng đó là phương pháp Tukey,
phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences).
Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mác ý nghĩa
nào đó cho tất cả các cặp kiểm định có thể dễ phát hiện ra những nhóm khác nhau. Nếu
có k nhóm nghiên cứu và chúng ta so sánh tất cả các cặp nhóm thì số lượng cặp cần phải
so sánh là tő hợp chập 2 của k nhóm.
k! k (k−1)
C2k= =
2! ( k−2 ) ! 2
Giá trị giới hạn Tukey được tính theo công thức:
√
𝑇 = 𝑞∝;𝑘;𝑛−𝑘 MSW
¿
Trong đó:
+ 𝑞∝;𝑘;𝑛−𝑘 là giá trị tra bảng phân phối kiểm định Tukey ở mác ý nghĩa, với bậc tự do k và
n – k, với n là tőng số quan sát mẫu (n = Σni).
+ 𝑀𝑆𝑊 là phương sai trong nội bộ nhóm.
+ 𝑛𝑖 là số quan sát trong một nhóm (tőng thể), trong trường hợp mọi nhóm có số quan
sát ni khác nhau, sử dụng giá trị ni nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hay bằng T giới hạn.
Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có thể tìm
khoảng ước lượng cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa thống kê. Ước
lượng khoảng về chênh lệch giữa hai trung bình nhóm có khác biệt tính theo công thức:
√
𝜇1 − 𝜇2 = (𝑥̅1 − 𝑥̅2) ± (𝑡 𝑛−𝑘; ∝/2 2 MSW
¿
Trong đó, t là giá trị được tra tà bảng phân phoi Student t với (n - k) bậc tự do. Trong
chương trình Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có thể thực hiện
phân tích này bằng chương trình SPSS. Ngoài ra kết quả của SPSS còn cung cấp cho các
bạn một kiểm định chính thức về sự bằng nhau của các phương sai tőng thể là kiểm định
Levene.

Cơ Sở Lý Thuyết Sxtk

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cơ Sở Lý Thuyết Sxtk

Uploaded by

Copyright:

Available Formats

CƠ SỞ LÝ THUYẾT

1/ Hồi quy tuyến tính bội

- Phương trình hồi quy đơn biến: Y = β0 + β1X + e

- Phương trình hồi quy bội: Y = β0 + β1X1 + β2X2 + … + βnXn + e

Y = B0 + B1X1 + B2X2 + … + BnXn + ε

 Y: biến phụ thuộc

1.2/ Hàm hồi quy mẫu (SRF - Sample Regression Function)

 β^1 là ước lượng của β1

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + ε

 Y là biến phụ thuộc

(1) SSE = ∑ (yi − yˆi)2 đạt giá trị bé nhất,

1.3.3/ Độ phù hợp của mô hình

+∑(𝑦𝑖 − 𝑦)2 : TSS – Total Sum of Squares

+ ∑(𝑦̂𝑖 − 𝑦)2 : ESS – Explained Sum of Squares

+∑ 𝑒i2 : RSS – Residual Sum of Squares

Ta có thể viết: TSS = ESS + RSS

Ý nghĩa của các thành phần:

𝑅2 được xác định theo công thức:

1.4/ Khoảng tin cậy và kiểm định các hệ số hồi quy

𝛽̂ 𝑗~𝑁 (𝛽̂ 𝑗 , 𝑆𝑒(𝛽̂ 𝑗))

+ Ước lượng 2 phía, ta tìm được 𝑡𝛼 2 (𝑛 − 𝑘) thỏa mãn:

+ Khoảng tin cậy 1− 𝛼 của 𝛽𝑗 là:

[𝛽̂ 𝑗 − 𝑡a/2 (𝑛 − 𝑘)𝑆𝑒(𝛽̂ 𝑗); 𝛽̂ 𝑗 + 𝑡a/2 (𝑛 − 𝑘)𝑆𝑒(𝛽̂ 𝑗)]

b. Kiểm định giả thiết đối với 𝜷𝒋

Kiểm định βj:

Giả thuyết H0 : 𝛽𝑗= 0 ⇔ xj không tác động

Giả thuyết H1 : 𝛽𝑗 ≠ 0 ⇔ xj có tác động.

𝛽𝑗< 0 ⇔ xj có tác động ngược

𝛽𝑗 > 0 ⇔ xj có tác động thuận

2/ Phân tích phương sai

2.1/ Lý thuyết về ANOVA (Phân tích phương sai)

2.2/ Phân tích phương sai một yếu tố:

H1: Tồn tại ít nhất 1 cặp có µi ≠µ j; i ≠ j

Để kiểm định ta đưa ra 3 giả thiết sau:

1) Mỗi mẫu tuân theo phân phối chuẩn N(µ, σ2)

2) Các phương sai tổng thể bằng nhau

Các bước tiến hành:

• Ta lập bảng tính toán như sau:

Bước 2: Tính các tổng độ lệch bình phương

Bước 2: Tính các tổng độ lệch bình phương

Tổng các độ lệch bình phương giữa các nhóm(SSB)

Tổng các độ lệch bình phương của toàn bộ tổng thể(SST)

MSW = SSW MSB = SSB

MSW: Là phương sai nội bộ nhóm

SSB: Là phương sai giữa các nhóm

Bước 4: Kiểm định giả thiết

• Tính tiêu chuẩn kiểm định F (F thực nghiệm)

• F > F ((k-1; n-k); α)

• Tìm F lý thuyết (F tiêu chuẩn = F (k-1; n-k; α)):

+ 𝑀𝑆𝑊 là phương sai trong nội bộ nhóm.

You might also like