You are on page 1of 44

TS.

Trần Kim Thanh

PHÂN TÍCH DỮ LIỆU


ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG

TP. HỒ CHÍ MINH - 2023


Chương 1. Tổng quan về phân tích dữ liệu định 4.2. Dự báo khoảng tin cậy cho các tham số
tính và định lượng trong mô hình
1.1. Đặt vấn đề 4.3. Kiểm định giả thuyết về mô hình
1.2. Dữ liệu định tính và dữ liệu định lượng 4.4. Dự báo điểm và dự báo khoảng cho giá trị
1.3. Phân loại và nguồn dữ liệu cá biệt và giá trị trung bình
1.4. Một số phân phối xác suất quan trọng 4.5. Hướng dẫn chạy dự báo và kiểm định trên
Sự phụ thuộc thống kê- Thống kê mô tả phần mềm ứng dụng
1.5. Mô hình hồi quy và các phương pháp ước Chương 5. Bảng ngẫu nhiên và suy diễn thống kê
lượng 5.1. Bảng ngẫu nhiên hai chiều
Chương 2. Mô hình hồi quy cho biến định 5.2. Suy diễn thống kê cho bảng ngẫu nhiên hai
lượng liên tục chiều
2.1. Mô hình hồi quy đơn 5.3. Bảng ngẫu nhiên ba chiều
2.2. Hướng dẫn chạy mô hình hồi quy đơn trên 5.4. Suy diễn thống kê trên bảng ngẫu nhiên 3
phần mềm ứng dụng chiều.
2.3. Mô hình hồi quy bội. 5.5. Mở rộng cho bảng ngẫu nhiên nhiều chiều
2.4. Hướng dẫn chạy mô hình hồi quy bội trên Chương 6. Mô hình hồi quy logistics
phần mềm ứng dụng 6.1. Đặt vấn đề
2.5. Mô hình hồi quy với biến giả 6.2. Mô hình Logistics hai biến
Chương 3. Các vấn đề vi phạm các giả thiết OLS 6.3. Mô hình Logistics đa biến
3.1. Vấn đề đa cộng tuyến 6.4. Mô hình logistics đa cấp độ
3.2. Vấn đề phương sai nhiễu thay đổi 6.5. Các yếu tố đánh giá mô hình
3.3. Vấn đề tựu tương quan của nhiễu 6.6. Lựa chọn mô hình và ứng dụng
Chương 4. Sử dụng mô hình hồi quy trong 6.7. Các mô hình Nhị thức và Poisson
phân tích và dự báo 6.8. Hướng dẫn chạy các mô hình Logistics trên
4.1. Lựa chọn mô hình phần mềm ứng dụng
TS. Trần Kim Thanh
Chương 1. Tổng quan về phân tích dữ liệu định tính và định lượng

1.1. Mở đầu
1.1.1. Đặt vấn đề
Trong nghiên cứu cũng như trong các hoạt động thực tiễn, người ta muốn phân
tích và dự báo sự biến động của một biến quan sát Y trong sự phụ thuộc vào các
biến quan sát khác (có thể định lượng hoặc định tính): X1 , X2 , … , Xk−1 . Biến Y
được gọi là biến phụ thuộc, X1 , X2 , … , Xk−1 gọi là các biến độc lập hay các biến
giải thích. Khi sự biến động của Y không ảnh hưởng bởi các tác động của các biến
giải thích thì có nghĩa là Y độc lập thống kê với các biến này. Trong trường hợp
ngược lại, ta nói có sự phụ thuộc thống kê giữa Y và các biến giải thích và cần tìm
một mô hình toán học để mô tả sự phụ thuộc đó, đồng thời thông qua mô hình
này để phân tích, đánh giá và dự báo cho sự biến động của biến phụ thuộc Y.
- Biến định lượng là biến quan sát mà các giá trị thể hiện của nó là các con số.
- Biến định tính là biến quan sát mà các giá trị thể hiện của nó không phải là các
con số mà là các thuộc tính
1.1.2. Các ví dụ
Ví dụ 1: K/sát sự phụ thuộc của Y là điểm thi môn Toán cao cấp của sinh viên vào
điểm quá trình X1 và điểm môn Toán tốt nghiệp PTTH X2 , ta thấy:
Y là biến phụ thuộc (định lượng) và X1 , X2 là các biến giải thích (đều định lượng)
Ví dụ 2. Nếu quan tâm đến Y là kết quả thi đạt hay không đạt môn Toán cao cấp
trong sự liên hệ với điểm quá trình X1 , điểm môn Toán tốt nghiệp PTTH X2 và
giới tính X3 của sinh viên, thì: Y là biến phụ thuộc (biến định tính với 2 thuộc
tính: đạt, không đạt), các biến giải thích là: X1 (định lượng), X2 (định lượng) và X3
(biến định tính với 2 thuộc tính: nam, nữ).
1.2. Dữ liệu định tính và dữ liệu định lượng
1.2.1. K/n về dữ liệu
- Dữ liệu về một biến quan sát là kết quả quan sát (điều tra, lấy mẫu) của biến
quan sát đó
- Dữ liệu định tính là kết quả quan sát được về một biến định tính
- Dữ liệu định lượng là kết quả quan sát được về một biến định lượng
Quá trình chạy mô hình và chất lượng mô hình phụ thuộc vào các đặc tính của
dữ liệu
Ví dụ 3. Có số liệu về lãi suất X (%) gửi tiết kiệm 6 tháng của 10 ngân hàng như
sau: 6, 7, 6,5, 6, 6,5, 7, 7,5, 5,5, 7, 6. Đây là dữ liệu định lượng
Ví dụ 4. Có kết quả thăm dò sự ưa thích Y (thích/không thích) của người dùng
đ/v các nồng độ chất béo khác nhau X(%) trong một loại nước sauce:
Nồng độ chất béo 1.35 1.60 1.75 1.85 1.95 2.05 2.15 2.25 2.35
Số người thích 13 19 67 45 71 50 35 7 1
Số người không thích 0 0 2 5 8 20 31 49 12
- Dữ liệu về X là dữ liệu định lượng, dữ liệu về Y là dữ liệu định tính
TS. Trần Kim Thanh
1.2.2. Phân loại dữ liệu.
- Dữ liệu thời gian (chuỗi thời gian): Dữ liệu về biến quan sát trên cùng một đối tượng tại
nhiều thời kỳ, thời điểm khác nhau.
- Dữ liệu chéo : Dữ liệu về biến quan sát trên cùng một thời gian (thời kỳ hay thời điểm)
trên nhiều đối tượng khác nhau.
- Dữ liệu hỗn hợp: Dữ liệu về biến quan sát trên nhiều đối tượng khác nhau tại nhiều thời
gian (thời kỳ, thời điểm) khác nhau.
7 ngày qua tại Tp. HCM → Dữ liệu theo t. g
Ví dụ 5. K/s giá vàng: �trong 1 ngày tại 7 đ. p khác nhau → Dữ liệu chéo
trong 10 ngày tại 7 tỉnh → Dữ liệu hỗn hợp
1.2.3. Nguồn dữ liệu.
- S.liệu thử nghiệm nhận được từ việc tiến hành thử nghiệm trong những đ/k nhất định
nào đó để q.sát, đo đạc. Chúng thường x.hiện trong các l.vực KH, KT.
- S.liệu thực tế không chịu t.động ả.hưởng của người đ.tra, q.sát. Đ.với các s.liệu thực tế,
việc p.tích ả.hưởng của một yếu tố nào đó đ.với biến p.thuộc sẽ k.khăn hơn do không
k.soát được những tác động của chúng.
1.3. Sự phụ thuộc thống kê. Thống kê mô tả
1.3.1. Sự phụ thuộc thống kê. Nói biến quan sát Y phụ thuộc thống kê vào biến (hoặc véc
tơ) quan sát X, nếu với mỗi giá trị của X có nhiều giá trị tương ứng của Y.
- Sự phụ thuộc này là khá phổ biến trong thực tế. Chẳng hạn: ứng với cùng một chỉ số
chiều cao X, có nhiều người có cân nặng Y khác nhau; với cùng một mức chi phí đầu vào
X, nhưng có nhiều doanh nghiệp có mức lợi nhuận Y khác nhau,...
1.3.2. Một số đặc trưng trên mẫu. Với (X1 , X2 , … , Xn ) là mẫu kích thước n về biến X:
𝟏𝟏
- Trung bình mẫu: X = 𝒏𝒏 ∑𝒏𝒏𝒋𝒋=𝟏𝟏 𝑿𝑿𝒋𝒋
2
- Phương sai mẫu: S 2 X = 𝑋𝑋 2 − 𝑋𝑋 ; Độ lệch chuẩn của mẫu: S X = S2 X
n 1 𝟏𝟏
Chú ý: Các phần mềm thống kê gọi : S′2 X = n−1 S 2 X = 𝑛𝑛−1 ∑𝑛𝑛𝑗𝑗=1 𝑋𝑋𝑗𝑗2 − 𝒏𝒏−1 ∑𝒏𝒏𝒋𝒋=𝟏𝟏 𝑿𝑿𝒋𝒋 là
phương sai mẫu và thường ký hiệu là Var(X); S′ X = 𝑆𝑆 ′ 2 X = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋 = se(X) là
độ lệch chuẩn trên mẫu.
- Tần suất mẫu: nếu số phần tử có tính chất A trên mẫu là m(A), thì tần suất mẫu về tính
m(A)
chất A (hay tỷ lệ tính chất A trên mẫu là: f A =
n
- Mốt: Mod (X) = giá trị mẫu được lặp lại nhiều nhất
- Trung vị (median): Med (X) là giá trị chia mẫu thành 2 nửa đều nhau
Nếu (Y1 , Y2 , … , Yn ) là mẫu ngẫu nhiên kích thước n về biến quan sát Y:
X.Y −X.Y
- Hệ số tương quan mẫu giữa X và Y là: r X, Y =
S X .S(Y)
Ví dụ 6. Từ kết quả điều tra sau về chiều cao X(cm) và cân nặng Y(kg) của một số nam sinh
viên năm thứ nhất của một trường đại học, hãy tính các đặc trưng: độ lệch chuẩn trên
mẫu, Med(X), Med(Y) và hệ số tương quan mẫu r(X,Y):
Y X 158 160 162 164 168 170 172
50 20 25 15 5
55 5 16 20 3 2
60 2 3 20 20 3 2
65 4 6 10 15 3 2
1.4. Một số phân phối xác suất quan trọng
1.4.1. Phân phối Nhị thức B(n,p)
a. ĐN. Phân phối Nhị thức với các tham số n và p (n ∈ ℕ∗ , 0 < p < 1) là phân phối xác
suất của biến ngẫu nhiên rời rạc X có tập giá trị: 0, 1, 2,..., n có xác suất tương ứng
j
p0 , p1 , … , pn , với: pj = Cn . pj 1 − p n−j , j = 0,1, … , n . Khi đó ta viết: X~B(n, p)
b. Chú ý:
b1. Với X~B(n, p) thì: EX = n.p; Var(X) = n.p.(1 – p).
b2. Nếu X1 , X2 , … , X k là các biến ngẫu nhiên độc lập, có cùng phân phối B(n,p) thì biến
X = X1 + X2 + Xk có phân phối Nhị thức B(k.n, p).
c. Mô hình Nhị thức (cơ chế tạo ra một biến ngẫu nhiên có phân phối Nhị thức): Giả sử
trong phép thử ta quan sát biến cố ngẫu nhiên A, mà ta gọi là sự kiện “Thành công”, với
xác suất p = P(A) là xác suất thành công. Khi đó nếu gọi X là số thành công trong n lần
lặp lại phép thử, thì theo công thức Becnoulli, xác suất để có k lần thành công là:
𝑝𝑝𝑘𝑘 = 𝑃𝑃 𝑌𝑌 = 𝑘𝑘 = 𝐶𝐶𝑛𝑛𝑘𝑘 . 𝑝𝑝𝑘𝑘 . 1 − 𝑝𝑝 𝑛𝑛−𝑘𝑘 , 𝑘𝑘 = 0,1,2, … , 𝑛𝑛
Như vậy mô hình lặp lại n lần một phép thử cho ta một biến ngẫu nhiên có phân phối
Nhị thức 𝐵𝐵(𝑛𝑛, 𝑝𝑝), đó là X: Số thành công trong n lần thử.
Ví dụ 7. Được biết trong số những người điều khiển phương tiện giao thông gây tai nạn,
tỷ lệ người có uống bia rượu quá nồng độ cho phép ở hai khu vực A và B đều là p = 40%.
Gọi X1 và X2 tương ứng là số người uống bia rượu quá nồng độ cho phép trong số n
người đ/k phương tiện giao thông gây tai nạn ở khu vực A và B. Khi đó X1 và X2 độc lập
nhau và có cùng phân phối B(n; 0,4) và tổng số người uống bia rượu quá nồng độ cho
phép trong số n vụ đ/k phương tiện giao thông gây tai nạn ở khu vực A và n vụ tương tự
ở B là: X = X1 + X2 có phân phối Nhị thức B(2n; 0,4)
TS. Trần Kim Thanh
1.4.2. Phân phối Đa thức
a. ĐN. Xét dãy n phép thử độc lập , trong mỗi phép thử có một và chỉ một trong k sự kiện
𝐴𝐴1 , 𝐴𝐴2 , … , 𝐴𝐴𝑘𝑘 xảy ra với xác suất tương ứng 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘 , 𝑝𝑝1 + 𝑝𝑝2 + ⋯ + 𝑝𝑝𝑘𝑘 = 1 . Gọi 𝑋𝑋𝑖𝑖
là số lần xuất hiện sự kiện 𝐴𝐴𝑖𝑖 𝑖𝑖 = 1,2, … , 𝑘𝑘 trong n lần thử. Khi đó luật phân phối của
véc tơ ngẫu nhiên 𝑋𝑋 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 được gọi là phân phối đa thức k chiều với các
tham số 𝑛𝑛, 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘−1 .
b. Phân phối của véc tơ ngẫu nhiên có phân phối đa thức k chiều.
Giả sử 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) là véc tơ có phân phối đa thức k chiều. Ta có 𝑋𝑋𝑖𝑖 ~𝐵𝐵 𝑛𝑛, 𝑝𝑝𝑖𝑖 (𝑖𝑖 =
1,2, … , 𝑘𝑘) và: 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑘𝑘 = 𝑛𝑛, vì thế 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) là véc tơ rời rạc k chiều,
mỗi giá trị của nó là một điểm k chiều có tọa độ nguyên không âm: 𝑟𝑟1 , 𝑟𝑟2 , … , 𝑟𝑟𝑘𝑘 , sao cho:
𝑟𝑟1 + 𝑟𝑟2 + ⋯ + 𝑟𝑟𝑘𝑘 = 𝑛𝑛. Mỗi kết cục thuận lợi cho biến cố (𝑋𝑋1 = 𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 ) là
một dãy gồm n sự kiện liên kết với nhau bởi phép giao, trong đó: 𝐴𝐴1 xuất hiện 𝑟𝑟1 lần, 𝐴𝐴2
xuất hiện 𝑟𝑟2 lần, ,…, 𝐴𝐴𝑘𝑘 xuất hiện 𝑟𝑟𝑘𝑘 lần. Như vậy số kết cục thuận lợi cho biến cố (𝑋𝑋1 =
𝑟𝑟
𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 ) chính là số cách chọn 𝑟𝑟1 vị trí cho 𝐴𝐴1 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛1 𝑐𝑐𝑐𝑐𝑐𝑐), 𝑟𝑟2 vị trí cho
𝑟𝑟2 𝑟𝑟𝑘𝑘−1
𝐴𝐴2 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛−𝑟𝑟 1
𝑐𝑐𝑐𝑐𝑐𝑐),…,𝑟𝑟 𝑘𝑘 vị trí cho 𝐴𝐴 𝑘𝑘 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛−𝑟𝑟1 −𝑟𝑟2 −⋯𝑟𝑟𝑘𝑘−2 𝑐𝑐𝑐𝑐𝑐𝑐) trong dãy n vị trí nói trên,
𝑟𝑟 𝑟𝑟 𝑟𝑟 𝑟𝑟 𝑛𝑛!
tức là bằng: 𝐶𝐶𝑛𝑛1 . 𝐶𝐶𝑛𝑛−𝑟𝑟
2
. 𝐶𝐶𝑛𝑛−𝑟𝑟
3
1 −𝑟𝑟2
… . . 𝐶𝐶𝑛𝑛−𝑟𝑟
𝑘𝑘−1
1 −𝑟𝑟2 −⋯𝑟𝑟𝑘𝑘−2
=
𝑟𝑟
1 1 !𝑟𝑟2 !…𝑟𝑟𝑘𝑘 !
Mặt khác do các lần thử độc lập nhau nên mỗi kết cục này đều có xác suất:
𝑟𝑟 𝑟𝑟 𝑟𝑟
𝑝𝑝11 . 𝑝𝑝22 … . . 𝑝𝑝𝑘𝑘𝑘𝑘
Từ đó nhận được phân phối xác suất của véc tơ ngẫu nhiên có phân phối đa thức k chiều:
𝑛𝑛! 𝑟𝑟 𝑟𝑟 𝑟𝑟
𝑃𝑃 𝑋𝑋1 = 𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 = !𝑟𝑟 !…𝑟𝑟 ! . 𝑝𝑝11 . 𝑝𝑝22 … . . 𝑝𝑝𝑘𝑘𝑘𝑘 (*)
𝑟𝑟1 2 𝑘𝑘
với mọi điểm 𝑟𝑟1 , 𝑟𝑟2 , … , 𝑟𝑟𝑘𝑘 có tọa độ nguyên, không âm mà: 𝑟𝑟1 + 𝑟𝑟2 + ⋯ + 𝑟𝑟𝑘𝑘 = 𝑛𝑛.
TS. Trần Kim Thanh

Nhận xét:
- Đối với véc tơ ngẫu nhiên 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) có phân phối đa thức k chiều, với các
tham số 𝑛𝑛, 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘−1 , ta có véc tơ kỳ vọng:
𝐸𝐸𝐸𝐸 = 𝐸𝐸𝑋𝑋1 , 𝐸𝐸𝑋𝑋2 , … , 𝐸𝐸𝑋𝑋𝑘𝑘 = (𝑛𝑛𝑛𝑛1 , 𝑛𝑛𝑝𝑝2 , … , 𝑛𝑛𝑝𝑝𝑘𝑘 )
- Phân phối đa thức với k = 2, là phân phối đồng thời của 2 biến nhị thức X1, n – X1, trong
đó X1 ~ B(n, p1), (n – X1) ~ B(n, 1- p1).
- Nói chung tham số n được xác định trước, nên phân phối đa thức được xác định bởi k –
1 tham số trong k tham số 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘 .
Ví dụ 8. Mỗi khách hàng sử dụng dịch vụ A có thể chọn một trong 3 mức phí phục vụ: 100
ngàn đồng, 150 ngàn đồng và 200 ngàn đồng. Được biết lượng khách chọn các mức phí
này tương ứng theo tỷ lệ: 5: 3: 2. Có 3 khách hàng vào sử dụng dịch vụ này và sự lựa chọn
của họ là độc lập với nhau, Tìm xác suất để có ít nhất 2 khách chọn mức phí 200 ngàn
đồng.
Giải: Gọi 𝑋𝑋1 , 𝑋𝑋2 , 𝑋𝑋3 lần lượt là số khách chọn mức phí 100 ngàn đồng, 150 ngàn đồng,
200 ngàn đồng trong số 3 khách nói trên. Khi đó véc tơ 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , 𝑋𝑋3 ) là véc tơ ngẫu
nhiên có phân phối đa thức 3 chiều. Ký hiệu S là biến cố trong số 3 khách hàng có ít nhất
2 khách chọn mức phí 200 ngàn đồng, ta có biểu diễn:
𝑆𝑆 = 𝑋𝑋1 = 0, 𝑋𝑋2 = 1, 𝑋𝑋3 = 2 ∪ 𝑋𝑋1 = 1, 𝑋𝑋2 = 0, 𝑋𝑋3 = 2 ∪ 𝑋𝑋1 = 0, 𝑋𝑋2 = 0, 𝑋𝑋3 = 3
Từ đó suy ra xác suất cần tính:
3! 3! 3!
𝑃𝑃 𝑆𝑆 = . 0,3. 0,22 + . 0,5. 0,22 + . 0,23 = 0,104
0! 1! 2! 1! 0! 2! 0! 0! 3!
1.4.3. Phân phối Poisson
a. ĐN: Phân phối Poisson với tham số 𝜆𝜆 (𝜆𝜆 > 0), ký hiệu là 𝑃𝑃(𝜆𝜆) là phân phối của biến
ngẫu nhiên rời rạc X có bảng phân phối xác suất như sau:
X 0 1 2 … n … ∑
P p0 p1 p2 … pn … 1
𝜆𝜆𝑘𝑘 .𝑒𝑒 −𝜆𝜆
Trong đó: 𝑝𝑝𝑘𝑘 = 𝑃𝑃 X = 𝑘𝑘 = 𝑘𝑘!
, 𝑘𝑘
= 0,1,2, …
Ký hiệu: X ∼ 𝑃𝑃(𝜆𝜆) để chỉ Y là biến có phân phối Poisson với tham số 𝜆𝜆.
b. Mô hình: Số lần xuất hiện một biến cố ngẫu nhiên A nào đó trong một khoảng thời
gian, hay trong một không gian nhất định, là biến ngẫu nhiên có phân phối Poisson.
c. Chú ý:
c1. Với X ∼ 𝑃𝑃(𝜆𝜆) thì E(X) = Var(X) = 𝜆𝜆
c2. Nếu X1 , X2 , … , Xk là các biến ngẫu nhiên độc lập, có cùng phân phối 𝑃𝑃(𝜆𝜆) thì
X = X1 + X2 + Xk có phân phối 𝑃𝑃 k. 𝜆𝜆 .
c3. Phân phối 𝑃𝑃(𝜆𝜆) xủa biến X hoàn toàn được xác định bởi tham số 𝜆𝜆 = E(X)
Ví dụ 9. Được biết bình quân số khách hàng đến các hệ dịch vụ A và B trong một giờ làm
việc đều là 20. Gọi X1 , X2 tương ứng là số khách hàng đến hệ dịch vụ A, B trong một giờ
làm việc. Khi đó X1 , X2 là các biến độc lập nhau, có cùng phân phối 𝑃𝑃 20 và tổng số
khách đến các hệ dịch vụ A, B trong một giờ làm việc là X = X1 + X2 có phân phối 𝑃𝑃 40 .
1.4.4. Phân phối chuẩn
a. ĐN. Phân phối chuẩn với các tham số 𝜇𝜇 và σ 𝜎𝜎 > 0 , ký hiệu N(𝜇𝜇, 𝜎𝜎 2 ) là phân phối
1 x−𝜇𝜇 2
1 −2 𝜎𝜎
của biến ngẫu nhiên X có hàm mật độ xác suất: f x = .e ,x ∈ ℝ.
𝜎𝜎 2𝜋𝜋
TS. Trần Kim Thanh
b. Chú ý
b1. Ký hiệu X~N(𝜇𝜇, 𝜎𝜎 2 ) để chỉ X là biến ngẫu nhiên có phân phối chuẩn với các tham số
𝜇𝜇, 𝜎𝜎 2 và khi đó E X = 𝜇𝜇, Var X = 𝜎𝜎 2 .
b2. Nếu X~N(𝜇𝜇, 𝜎𝜎 2 ) thì hàm phân phối xác suất của X là:
x x 1 t−𝜇𝜇 2
1 −
F x = P(X < x) = � f t dt = � e 2 𝜎𝜎 dt
−∞ 𝜎𝜎 2𝜋𝜋 −∞
1
b3. X~N 𝜇𝜇, 𝜎𝜎 2 ⇔ Y = (X − 𝜇𝜇)~N(0,1)
𝜎𝜎
Phân phối N 0,1 (𝜇𝜇 = 0, 𝜎𝜎 2 = 1) được gọi là phân phối chuẩn chính tắc, có hàm mật độ:
1 1
1 −2x2 1 x −2t2
φ x = .e và hàm phân phối: Φ x = ∫ e dt
2𝜋𝜋 2𝜋𝜋 −∞
b4. Nếu X1 , X2 , … , Xk độc lập, có phân phối N 𝜇𝜇, 𝜎𝜎 2 thì X = X 1 + X 2 + X k ~N k𝜇𝜇, k𝜎𝜎
2

b5. Mô hình phân phối chuẩn: Trong thực tế, nhiều biến quan sát liên tục tuân theo luật
phân phối chuẩn hoặc xấp xỉ chuẩn như: sai số của các phép đo; tuổi thọ của một loại sinh
vật, của sản phẩm; sự dao động (sai lệch) giữa giá trị của một biến quan sát xung quanh
giá trị trung bình của nó; biến trung bình mẫu khi cỡ mẫu lớn,...
1.4.5. Phân phối Chi-square và phân phối Student
a/ Phân phối Chi-square với n bậc tự do là phân phối của đại lượng ngẫu nhiên:
2 2 2
𝜒𝜒 2 (Chi − square) = 𝑋𝑋 + 𝑋𝑋 + ⋯ + 𝑋𝑋 ,
1 2 𝑛𝑛
trong đó 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có phân phối chuẩn chính tắc.
2
Ký hiệu 𝜒𝜒 2 ~𝜒𝜒 để chỉ 𝜒𝜒 2 là đại lượng ngẫu nhiên có phân phối khi-bình phương với n bậc
𝑛𝑛
tự do.
b/ Phân phối Student với n bậc tự do là phân phối xác suất của đại lượng ngẫu nhiên:
𝑋𝑋 2
𝑇𝑇 = , trong đó 𝑋𝑋 và 𝑌𝑌 độc lập nhau và 𝑋𝑋~𝑁𝑁 0, 1 , 𝑌𝑌~𝜒𝜒 .
𝑌𝑌/𝑛𝑛 𝑛𝑛
2
• Ký hiệu 𝜒𝜒 (α) là phân vị mức 1 − α của biến ngẫu nhiên có phân phối khi-bình
𝑛𝑛
phương với n bậc tự do, còn gọi là giá trị tới hạn mức 𝛼𝛼 của phân phối khi-bình phương.
Hàm phân phối xác suất của T dần về hàm phân phối chuẩn chính tắc khi 𝑛𝑛 → ∞
Trong thực hành, với 𝑛𝑛 ≥ 30 thì có thể coi T có phân phối xấp xỉ phân phối chuẩn N(0; 1).
• Ký hiệu 𝑡𝑡𝑛𝑛 (𝛼𝛼) là phân vị mức 1 − 𝛼𝛼 của đại lượng ngẫu nhiên có phân phối Student với
n bậc tự do, còn gọi là giá trị tới hạn mức 𝛼𝛼 của phân phối Student và được cho bởi bảng
phụ lục II với chú ý: 𝑡𝑡𝑛𝑛 (𝛼𝛼) = −𝑡𝑡𝑛𝑛 (1 − 𝛼𝛼).
• Nếu 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có cùng phân phối 𝜒𝜒 2 với m bậc tự do thì 𝑋𝑋1 + 𝑋𝑋2 +
⋯ + 𝑋𝑋𝑛𝑛 có phân phối 𝜒𝜒 2 với n.m bậc tự do.
• Nếu 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có cùng phân phối 𝑁𝑁 𝑎𝑎, 𝜎𝜎 2 thì biến ngẫu nhiên
𝑋𝑋�𝑛𝑛 −𝑎𝑎 𝑛𝑛−1 1
𝑡𝑡 = có phân phối Student với (n – 1) bậc tự do (𝑋𝑋�𝑛𝑛 = . ∑nj=1 Xj )
𝑆𝑆(𝜉𝜉) 𝑛𝑛

1.5. Mô hình hồi quy và các phương pháp ước lượng


1.5.1. Mô hình hồi quy 𝛀𝛀 (X, Y)
G.sử trên mỗi cá thể của tổng thể Ω, ta q.sát
sự phụ thuộc của biến q/s 𝑌𝑌 vào véc tơ q/s
𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ), qua đó xây dựng một mô
hình toán học để biểu thị sự phụ thuộc đó. 𝛀𝛀x
Nói chung đây là sự phụ thuộc thống kê, nên quan hệ
này không thể là quan hệ hàm số, tức là không thể tìm được một hàm Y = f(X)
a. Mô hình hồi quy cho biến định lượng liên tục
Với Y là biến định lượng liên tục, ứng với mỗi giá trị x của véc tơ quan sát X, ký hiệu 𝛀𝛀x là
tập hợp các phần tử của 𝛀𝛀 có cùng tiêu chí X = x (𝛀𝛀x = 𝝎𝝎 ∈ 𝛀𝛀: X 𝝎𝝎 = x ). Trên 𝛀𝛀x ta
quan sát các giá trị của Y mà ta kí hiệu là Yx , như vậy Yx = Y|𝛀𝛀x cũng là một biến quan
sát. Khi đó giá trị trung bình (kỳ vọng) của biến Yx là E(Yx ) (giá trị trung bình của biến Y
lấy trên 𝛀𝛀x ) phụ thuộc vào giá trị x, cụ thể là một hàm của biến x: E(Yx ) = f x .
E(Yx ) được gọi là giá trị trung bình có điều kiện (hay kỳ vọng có điều kiện của biến Y, với
điều kiện X = x, ký hiệu: E(Yx ) = E Y X = x . Khi x thay đổi ta có hàm số:
f x = E(Yx ) = E Y X = x
mà ta gọi là hàm hồi quy của Y theo X.
Rõ ràng là ứng với mỗi x, giá trị của Y sẽ dao động xung quanh giá trị trung bình với sai
lệch là: Ux = Yx − f x = Yx − E Y X = x , do đó ta có biểu diễn: Yx = E Y X = x + Ux
Tóm lại ta có mô hình biểu diễn: 𝐘𝐘 = 𝒇𝒇 𝑿𝑿 + 𝑼𝑼 = 𝑬𝑬 𝒀𝒀 𝑿𝑿 + 𝑼𝑼 (1)
Mô hình (1) được gọi là mô hình hồi quy của Y theo X.
Trong (1), 𝒇𝒇 𝑿𝑿 = 𝑬𝑬 𝒀𝒀 𝑿𝑿 gọi là hàm hồi quy, 𝑼𝑼 = 𝒀𝒀 − 𝑬𝑬 𝒀𝒀 𝑿𝑿 gọi là nhiễu hay sai số
ngẫu nhiên, đại diện cho những yếu tố ngẫu nhiên khác ngoài X, tác động lên Y khiến cho
các giá trị của Y lệch khỏi giá trị trung bình 𝑬𝑬 𝒀𝒀 𝑿𝑿 .
b. Mô hình hồi quy cho biến Nhị phân.
Với Y là biến Nhị phân với 2 thuộc tính: một thuộc tính kí hiệu là 1, gọi là sự kiện “Thành
công”: Y = 1; thuộc tính còn lại kí hiệu là 0, gọi là sự kiện “không thành công”: Y = 0. Do Y
phụ thuộc thống kê vào tập biến giải thích X, nên với 𝑋𝑋: = 𝑥𝑥 = (𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑘𝑘−1 ), thì xác
suất “Thành công” 𝜋𝜋 là hàm của x: 𝜋𝜋 = 𝜋𝜋 x = P Y = 1|X=x
TS. Trần Kim Thanh
Mặt khác Yx là biến 0 – 1 tham số 𝜋𝜋 x (Yx = 1 với xác suất 𝜋𝜋 x , Yx = 0 với xác suất 1 −
𝜋𝜋 x ), nên : E Y X = x = E(Yx ) = 𝜋𝜋 x , tức là xác suất thành công chính là hàm hồi quy
của Y theo X. Thay vì mô hình hồi quy của Y theo X:
Y = E Y X + U = 𝝅𝝅 + U
người ta đưa ra mh biểu diễn sự phụ thuộc của xác suất “Thành công” theo X dưới dạng:
𝜋𝜋 x
Log = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 (2a)
1 − 𝜋𝜋 x
Mô hình (2) gọi là mô hình hồi quy logistic cho biến Nhị phân.
𝜋𝜋(𝑥𝑥)
Chú ý: 𝑙𝑙𝑙𝑙𝑙𝑙 được gọi là hàm logit và ký hiệu là 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝜋𝜋(x) và mô hình hồi quy
1−𝜋𝜋(𝑥𝑥)
tương ứng là:
𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝜋𝜋(x) = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 (2b)
(2b) được gọi là mô hình logistic hay mô hình logit. Từ mô hình (2a) hoặc (2b), ta có:
1
𝜋𝜋 𝑥𝑥 = (2c)
1+𝑒𝑒 −𝛽𝛽0 −𝛽𝛽1 𝑥𝑥1 −𝛽𝛽2 𝑥𝑥2 − … −𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1
c. Mô hình logistic đa thức (Mô hình Logistics đa cấp độ)
Ta đề cập đến mô hình hồi quy logistic mà trong đó biến đáp ứng Y có k + 1 giá trị khác
nhau: 0, 1, 2, …, k (hay có các thuộc tính được gán số 0, 1, 2,…, k) với k > 1, và 𝑋𝑋 =
𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑚𝑚 là tập biến giải thích. Mô hình logistic đa thức dựa trên cơ sở bộ dữ liệu
liên quan đến phân phối đa thức. Cụ thể ở đây là với bộ dữ liệu cho các biến Y,
𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑚𝑚 gồm n quan sát, ta ký hiệu 𝑌𝑌0 , 𝑌𝑌1 , … , 𝑌𝑌𝑘𝑘 tương ứng là tần số của các sự kiện
(Y = 0), (Y = 1), …, (Y = k) thì khi đó véc tơ: 𝑌𝑌0 , 𝑌𝑌1 , … , 𝑌𝑌𝑘𝑘 có phân phối đa thức với các
tham số 𝜋𝜋0 , 𝜋𝜋1 , … , 𝜋𝜋𝑘𝑘 , 𝑛𝑛 (𝜋𝜋𝑗𝑗 = 𝑃𝑃(𝑌𝑌 = 𝑗𝑗) > 0, ∀𝑗𝑗, 𝜋𝜋0 + 𝜋𝜋1 + ⋯ + 𝜋𝜋𝑘𝑘 = 1).
Để xây dựng mh logistic đa thức, trước hết người ta chọn một thuộc tính nào đó của đáp
ứng Y làm đường cơ sở, để từ đó so sánh xác suất của các thuộc tính khác của Y theo xác
suất của đường cơ sở này. Cụ thể là, nếu chọn thuộc tính Y = 0 làm thuộc tính cơ sở,
người ta muốn so sánh các xác suất 𝜋𝜋𝑗𝑗 𝑥𝑥 = 𝑃𝑃 𝑌𝑌 = 𝑗𝑗 𝑋𝑋 = 𝑥𝑥 với xác suất 𝜋𝜋0 𝑥𝑥 =
𝑃𝑃 𝑌𝑌 = 0 𝑋𝑋 = 𝑥𝑥 thông qua mô hình:
𝑃𝑃 𝑌𝑌 = 𝑗𝑗 𝑋𝑋 = 𝑥𝑥
𝐿𝐿𝐿𝐿𝐿𝐿 𝑃𝑃 𝑌𝑌 = 0 𝑋𝑋 = 𝑥𝑥 = 𝛽𝛽𝑗𝑗𝑗 + 𝛽𝛽𝑗𝑗𝑗 . 𝑥𝑥1 + ⋯ + 𝛽𝛽𝑗𝑗𝑗𝑗 . 𝑥𝑥𝑚𝑚 , 𝑗𝑗 = 1, 𝑘𝑘 (3a)
𝜋𝜋𝑗𝑗 𝑥𝑥
Hay: 𝐿𝐿𝐿𝐿𝐿𝐿 𝜋𝜋 = 𝛽𝛽𝑗𝑗𝑗 + 𝛽𝛽𝑗𝑗𝑗 . 𝑥𝑥1 + ⋯ + 𝛽𝛽𝑗𝑗𝑗𝑗 . 𝑥𝑥𝑚𝑚 , 𝑗𝑗 = 1, 𝑘𝑘 (3b)
0 𝑥𝑥
Mô hình này được gọi là mô hình hồi quy Multibinomial Logistic. Các tài liệu tiếng Việt có
liên qua thường gọi là mô hình logistic đa thức hoặc mô hình logistic đa cấp độ.
d. Mô hình hồi quy Poisson
Người ta thường xét hai mô hình GLM cho dữ liệu đếm là mô hình sử dụng liên kết đồng
nhất, và mô hình liên kết log. Nhưng phổ biến hơn là mô hình liên kết log. Log trung bình
là tham số tự nhiên cho phân phối Poisson, và liên kết log là liên kết kinh điển cho GLM
với thành phần ngẫu nhiên Poisson. Một mô hình loglinear Poisson là một GLM giả định
phân phối Poisson cho Y và sử dụng liên kết log.
Ký hiệu λ(𝑥𝑥) là giá trị kỳ vọng cho biến ngẫu nhiên Poisson 𝑌𝑌 ứng với mức 𝑥𝑥 của biến 𝑋𝑋,
tức là: 𝜆𝜆 𝑥𝑥 = 𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝑥𝑥 . Mô hình loglinear Poisson có dạng:
𝑙𝑙𝑙𝑙𝑙𝑙 𝜆𝜆 𝑥𝑥 = 𝛽𝛽0 + 𝛽𝛽1 . 𝑥𝑥1 + 𝛽𝛽2 . 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑚𝑚 . 𝑥𝑥𝑚𝑚 (4a)
hay 𝜆𝜆 𝑥𝑥 = 𝑒𝑒𝑒𝑒𝑒𝑒 𝛽𝛽0 + 𝛽𝛽1 . 𝑥𝑥1 + 𝛽𝛽2 . 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑚𝑚 . 𝑥𝑥𝑚𝑚 (4b)
e. Hồi quy Poisson cho dữ liệu tỷ lệ
Khi các sự kiện của một loại nhất định xuất hiện theo thời gian, không gian hoặc một số
chỉ mục kích thước khác, nó thường liên quan đến mh tỷ lệ xảy ra sự kiện. Mh này có thể
mô tả tỷ lệ phụ thuộc vào các biến giải thích như thế nào chẳng hạn như tỷ lệ thất nghiệp
của thành phố, tỷ lệ phần trăm cư dân đã tốt nghiệp trung học, v.v,
Khi biến phản ứng 𝑌𝑌 có chỉ số (như kích thước quần thể) bằng t, thì dữ liệu tỷ lệ là các giá
trị q.sát của 𝑌𝑌/𝑡𝑡. Giá trị kỳ vọng có điều kiện của tỷ lệ này là 𝜆𝜆(𝑥𝑥)/𝑡𝑡. Mô hình log - lin cho
dữ liệu tỷ lệ có dạng:
𝑙𝑙𝑙𝑙𝑙𝑙 𝜆𝜆(𝑥𝑥)/𝑡𝑡 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 (5a)
hay: 𝑙𝑙𝑙𝑙𝑙𝑙 𝜆𝜆(𝑥𝑥) − 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 (5b)
Số hạng điều chỉnh, - logt, trong (5b) được gọi là phần bù (offset).
Đối với mô hình (5a), giá trị trung bình 𝜆𝜆(𝑥𝑥) có biểu diễn:
λ 𝑥𝑥 = 𝑡𝑡. 𝑒𝑒𝑒𝑒𝑒𝑒 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + 𝛽𝛽2 𝑥𝑥2 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 (5c)
λ 𝑥𝑥 tỷ lệ thuận với chỉ số t, với hệ số tỷ lệ là 𝑒𝑒𝑒𝑒𝑒𝑒 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + ⋯ + 𝛽𝛽𝑘𝑘−1 𝑥𝑥𝑘𝑘−1 phụ thuộc
vào giá trị của các biến giải thích.
1.5. Các phương pháp ước lượng cho các mô hình
Mục này giới thiệu hai phương pháp ước lượng được ứng dụng để ước lượng cho các mô
hình hồi quy. Phương pháp bình phương bé nhất được sử dụng để ước lượng cho các mô
hình hồi quy của biến định lượng liên tục. Phương pháp hợp lý nhất được sử dụng để ước
lượng cho các mô hình hồi quy của biến định lượng rời rạc hoặc biến định tính
TS. Trần Kim Thanh
TS. Trần Kim Thanh
1.5.1. Phương pháp bình phương bé nhất thông dụng(OLS: Ordinary Least Squares)
Được biết biến Y có quan hệ hàm số với X (một biến số hoặc một biến véc tơ): Y = Y(X)
(Y(X) chưa biết) và qua quan sát có dữ liệu: x1 , y1 , x2 , y2 , … , (xn , yn )
Ta muốn xấp xỉ Y(X) với một dạng hàm f(x, a1 , a2 , … , am ) đã biết, trong đó a1 , a2 , … , am
là các tham số chưa biết (ví như dạng đa thức bậc 3: f x = ax 3 + bx 2 + cx + d có 4
tham số a, b, c, d chưa biết). Phương pháp OLS dựa vào dữ liệu quan sát để tìm các ước
lượng cho các tham số a1 , a2 , … , am sao cho tổng bình phương các sai số giữa các giá trị
ước lượng và các giá trị quan sát được của hàm Y(x) là bé nhất, tức là:
n 2
F a1 , a2 , … , am = � f xj , a1 , a2 , … , am − yj ⟶ min
j=1
Như vậy các ước lượng cho các tham số a1 , a2 , … , am là nghiệm của hệ phương trình:
𝜕𝜕𝜕
= 0, ∀k = 1,2, … , m (6)
𝜕𝜕ak
Ví dụ 10. Giả sử từ bảng n dữ liệu quan sát về mối quan hệ hàm của biến Y và biến số X
được cho ở trên, ta tìm hàm số f(x) = a + bx xấp xỉ cho hàm Y(x).
2 2
Giải. Ta có: F a, b = ∑nj=1 f xj , a, b − yj = ∑nj=1 a + bxj − yj . Theo phương pháp
OLS, ta tìm a, b từ hệ phương trình:
𝜕𝜕F
=0 ∑nj=1 a + bxj − yj = 0 a = a� = Y − b.� X
𝜕𝜕a
⟺ ⟺� � X.Y−X.Y (*)
𝜕𝜕𝜕
=0 ∑nj=1 a + bxj − yj xj = 0 b = b = 2
𝜕𝜕b X2 − X
𝜕𝜕2 F 𝜕𝜕2 F 𝜕𝜕2 F 𝜕𝜕2 F
Thay a, b xác định từ (*) vào, ta có: A = > 0; ∆= . > 0, nên (a,b) là

𝜕𝜕a2 𝜕𝜕a2 𝜕𝜕b2 𝜕𝜕𝜕𝜕𝜕𝜕
điểm cực tiểu duy nhất của F, tức là F đạt trị nhỏ nhất tại (a,b) xác định bởi (*). Do đó
hàm f x = a + bx, với (a,b) xác định từ (*) là hàm ước lượng cần tìm.
1.5.2. Phương pháp Hợp lý cực đai ML (ML: Maximum Likelihood)
Giả sử biến X có phân phối xác suất phụ thuộc vào tham véc tơ 𝜃𝜃 = 𝜃𝜃1 , 𝜃𝜃2 , … , 𝜃𝜃𝑘𝑘 chưa
biết, ta cần tìm ước lượng cho 𝜃𝜃. Với 𝑊𝑊𝑛𝑛 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 là mẫu ngẫu nhiên của biến
quan sát X. Ký hiệu 𝑞𝑞 𝑥𝑥, 𝜃𝜃 là xác suất để 𝑊𝑊𝑛𝑛 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 nhận giá trị 𝑥𝑥 =
𝑥𝑥1 , … , 𝑥𝑥𝑛𝑛 : 𝑞𝑞 𝑥𝑥, 𝜃𝜃 = 𝑃𝑃 𝑋𝑋1 = 𝑥𝑥1 , … , 𝑋𝑋𝑛𝑛 = 𝑥𝑥𝑛𝑛 = 𝑃𝑃 𝑋𝑋1 = 𝑥𝑥1 ). … 𝑃𝑃(𝑋𝑋𝑛𝑛 = 𝑥𝑥𝑛𝑛 , nếu X là
biến ngẫu nhiên rời rạc, và 𝑞𝑞 𝑥𝑥, 𝜃𝜃 là giá trị hàm mật độ xác suất của véc tơ 𝑊𝑊𝑛𝑛 =
𝑋𝑋1 , … , 𝑋𝑋𝑛𝑛 tại 𝑥𝑥, nếu X là biến ngẫu nhiên liên tục. Ta gọi hàm 𝐿𝐿 𝜃𝜃 = 𝑞𝑞 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 , 𝜃𝜃
là hàm hợp lý và ước lượng 𝜃𝜃̂ mà tại đó hàm hợp lý 𝐿𝐿 𝜃𝜃 = 𝑞𝑞 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 , 𝜃𝜃 đạt trị lớn
nhất, là ước lượng hợp lý cực đại hay ước lượng hợp lý nhất, và nó là nghiệm hệ phương
trinh sau mà ta gọi là hệ phương trình hợp lý:
𝜕𝜕𝜕𝜕(𝜃𝜃1 ,𝜃𝜃2 ,…,𝜃𝜃𝑘𝑘 )
= 0, ∀𝑗𝑗 = 1,2, … , 𝑘𝑘 (7a)
𝜕𝜕𝜃𝜃𝑗𝑗
Phương pháp hợp lý cực đại, ký hiệu là phương pháp ML (Maximum Liklihood) là phương
pháp tìm ước lượng 𝜃𝜃̂ cho tham ẩn 𝜃𝜃 là tìm nghiệm 𝜃𝜃̂ của hệ phương trình hợp lý sao cho
tại đó hàm hợp lý đạt trị lớn nhất.
Vì L θ cùng tính đơn điệu với hàm Log L θ , nên hệ phương trình hợp lý được thay bởi:
𝜕𝜕Log 𝑙𝑙(𝜃𝜃1 ,𝜃𝜃2 ,…,𝜃𝜃𝑘𝑘 )
= 0, ∀𝑗𝑗 = 1,2, … , 𝑘𝑘 (7b)
𝜕𝜕𝜃𝜃𝑗𝑗
Ví dụ 11. Với Wn = X1 , X2 , … , Xn là mẫu ngẫu nhiên của biến quan sát X~N μ, σ2 ,
trong đó μ và σ2 là các tham số chưa biết. Cần tìm ước lượng hợp lý cực đại cho μ và σ2
Giải. Đặt t = σ2 , ta cần tìm ước lượng hợp lý cực đại cho tham véc tơ : 𝜃𝜃 = 𝜇𝜇, t .
1 x−𝜇𝜇 2
1 −2 t
X có hàm mật độ xác suất là : f x = 2𝜋𝜋t . e , do đó hàm hợp lý là:
n n 2
−2 −2 1
L 𝜃𝜃 = L 𝜇𝜇, t = ∏j=1 f xj = (2𝜋𝜋) t . exp − ∑nj=1
n
xj − 𝜇𝜇
2t
n n 1 n 2
Log L 𝜃𝜃 = − log 2𝜋𝜋 − log t − � xj − 𝜇𝜇
2 2 2t j=1
Hệ phương trình hợp lý:
𝜕𝜕Log 𝑙𝑙(𝜃𝜃) 1 n 1
𝜕𝜕𝜇𝜇
=0 ∑ x − 𝜇𝜇 = 0
t j=1 j
� = X = ∑nj=1 xj
𝝁𝝁 = 𝝁𝝁 n
�𝜕𝜕Log 𝑙𝑙(𝜃𝜃) ⟺ � n 1 2 ⟺� 2
=0 − + 2 ∑nj=1 xj − 𝜇𝜇 =0 t = t̂ = S 2 X = X 2 − X
𝜕𝜕t 2t 2t

Như vậy đối với biến ngẫu nhiên có phân phối chuẩn thì trung bình mẫu X là ước lượng
hợp lý nhất cho giá trị trung bình tổng thể μ = EX và phương sai mẫu S 2 X là ước
lượng hợp lý nhất cho phương sai tổng thể σ2 = Var(X).

TS. Trần Kim Thanh


Chương 2. Mô hình hồi quy cho biến định lượng liên tục
2.1. Mô hình hồi quy đơn (Mô hình hai biến)
Trong mục này ta xét mô hình hồi quy hai biến: biến giải thích ký hiệu là X, một biến định
lượng, biến phụ thuộc Y là biến định lượng liên tục. Hàm hồi quy: f X = E Y X còn
được gọi là hàm hồi quy tổng thể, viết tắt là PRF (Population Regression Fanction)
2.1.1. Các khái niệm
- Mô hình hồi quy của biến Y theo biến X là: Y = E Y X + U (1)
trong đó: U = Y − E Y X được gọi là nhiễu hay sai số ngẫu nhiên, nó là tác động của các
yếu tố ngẫu nhiên khác (ngoài X) lên Y khiến cho giá trị của Y lệch khỏi giá trị trung bình
E Y X . Chẳng hạn: X là thu nhập, Y là chi tiêu cho tiêu dùng, thì nhiễu U chính là tác
động của các yếu tố ngẫu nhiên khác (ngoài thu nhập) như: giới tính, độ tuổi, nghề
nghiệp,... cùng tác động lên tiêu dùng Y.
- Hàm hồi quy f X = E Y X có chứa các tham số. Mô hình được xem là tuyến tính nếu
các tham số trong hàm hồi quy ở dạng bậc nhất, ngược lại thì được gọi là mô hình phi
tuyến, chẳng hạn xét các mô hình:
Y = a + bX + U 𝒂𝒂 ; Y = a + b. lnX + U 𝒃𝒃 ; lnY = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 + U 𝒄𝒄 ;
𝑏𝑏
𝑙𝑙𝑙𝑙𝑙𝑙 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 + 𝑈𝑈 𝒅𝒅 ; 𝑌𝑌 = 𝑎𝑎 + + 𝑈𝑈 𝒆𝒆 ; 𝑌𝑌 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 + 𝑐𝑐𝑋𝑋 2 + 𝑈𝑈 𝒇𝒇 ;
𝑋𝑋
1
𝑌𝑌 = 𝑎𝑎. 𝑒𝑒 𝑏𝑏𝑏𝑏 + 𝑈𝑈 𝒈𝒈 ; 𝑌𝑌 = + 𝑈𝑈 (𝒉𝒉)
1+𝑒𝑒 𝑎𝑎+𝑏𝑏𝑏𝑏
(a), (b), (c), (d), (e), (f) là các mh tuyến tính: (a) mh tuyến tính cổ điển, (b) mh lean-log, (c)
mh log-lean, (d) mh tuyến tính log, (e) mh nghịch đảo, (f) mh Parabol.
TS. Trần Kim Thanh
Các mh (g) và (h) là các mh phi tuyến.
- Các mh phi tuyến mà có thể biến đổi, đặt tham số mới để đưa về mh tuyến tính được
gọi là các mh tuyến tính hóa được. Chẳng hạn: các mh (g) và (f) là tuyến tính hóa được
1
(mh (g) được đưa về mh: lnY = 𝑎𝑎 ′ + 𝑏𝑏𝑏𝑏 + U(a′ = lna), mh (f) được đưa về mh: ln( −
Y
1) = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 + U )
- Tài liệu giới hạn chỉ xét các mh hồi quy là tuyến tính hoặc tuyến tính hóa được. Vì vậy
mh tuyến tính cổ điển được khảo sát chi tiết.
- Nếu mh được khảo sát theo thời gian trên một đối tượng thì viết dưới dạng
Yt = 𝑬𝑬 𝒀𝒀 Xt + Ut
- Nếu mh được khảo sát theo nhiều đối tượng trong cùng một thời gian thì viết dưới dạng
Yi = 𝑬𝑬 𝒀𝒀 Xi + Ui
- Nếu mh được khảo sát theo thời gian trên nhiều đối tượng thì viết dưới dạng
Yit = 𝑬𝑬 𝒀𝒀 Xit + Uit
2.1.2. Mô hình tuyến tính cổ điển: Y = a + b.X + U (a, b là các tham số) (2)
𝑼𝑼 = 𝒀𝒀 − 𝑬𝑬 𝒀𝒀 𝑿𝑿 : sai số ngẫu nhiên, là biến ngẫu nhiên được xem là có phân phối chuẩn.
- PRF: 𝑬𝑬 𝒀𝒀 𝑿𝑿 = 𝒂𝒂 + 𝒃𝒃. 𝑿𝑿 ∶ a, b gọi là các hệ số hồi quy, trong đó:
𝒂𝒂 = 𝑬𝑬 𝒀𝒀 𝑿𝑿 = 𝟎𝟎 (hệ số chặn hay tung độ gốc của đường thẳng hồi quy):
ý nghĩa của a: là giá trị trung bình của Y khi X = 0.
b: hệ số hồi quy của biến X, là hệ số góc hay độ dốc của đường thẳng hồi quy.
ý nghĩa của b: là lượng thay đổi (tăng/giảm) bình quân của biến phụ thuộc Y khi biến giải
thích X tăng thêm 1 đơn vị (hay là lượng tăng/giảm của biến phụ thuộc Y khi biến giải
thích X tăng thêm 1 đơn vị, trong điều kiện các yếu tố khác không đổi)
2.1.3. Ước lượng cho mô hình: 𝒀𝒀 = 𝒇𝒇 𝑿𝑿 + 𝑼𝑼 = 𝑬𝑬 𝒀𝒀 𝑿𝑿 + 𝑼𝑼 (3a)
a. Xây dựng mô hình ước lượng: Từ dữ liệu điều tra về (X, Y),
B1. Xác định biến giải thích X, biến phụ thuộc Y
B2. Nhận dạng hàm hồi quy: f(X) = E Y X (Dựa vào bản chất mối quan hệ, biểu đồ phân
tán của Y theo X từ dữ liệu điều tra là tập các điểm Xi , Yi , i = 1, n trong tọa độ Oxy.)
B3. Ước lượng hàm hồi quy: tức là ước lượng các tham số trong dạng hàm hồi quy, nhận
được hàm hồi quy ước lượng là Y �=� �=�
f(X). Khi đó Y f(X) gọi là hàm hồi quy ước
lượng, hay hàm hồi quy mẫu, ký hiệu SRF (SRF: Sample Regression Function); gọi:
� =Y−�
U f(X) là ước lượng của nhiễu. Mô hình ước lượng cho (3a) là:
� + 𝑼𝑼
𝒀𝒀 = 𝒀𝒀 � + 𝑼𝑼
� = 𝒇𝒇(𝑿𝑿) � (3b)
b. Phương pháp tìm mô hình ước lượng: Như đã trình bày ở trên, mô hình (3a) được giả
thiết là mh tuyến tính, tức là PRF: f(X) = E Y X (có chứa các tham số a1 , a2 , … , a𝑘𝑘 ) được
nhận dạng là tuyến tính hoặc tuyến tính hóa được, do đó áp dụng phương pháp OLS, ta
nhận được các ước lượng: a� 1 , a� 2 , … , a� 𝑘𝑘 tương ứng cho a1 , a2 , … , a𝑘𝑘 . Thay a1 , a2 , … , a𝑘𝑘
bới các ước lượng a� 1 , a� 2 , … , a� 𝑘𝑘 vào dạng hàm f(X), nhận được hàm hồi quy ước lượng
�f(X). Mô hình hồi quy ước lượng sau đây sẽ thay cho mô hình hồi quy tổng thể để phân
tích, đánh giá và dự báo: � + 𝑼𝑼
𝒀𝒀 = 𝒀𝒀 � + 𝑼𝑼
� = 𝒇𝒇(𝑿𝑿) �.
c. Đối với mô hình tuyến tính cổ điển: 𝒀𝒀 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 . 𝑿𝑿 + 𝑼𝑼 (𝑬𝑬 𝒀𝒀 𝑿𝑿 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 . 𝑿𝑿)
𝑿𝑿.𝒀𝒀−𝑿𝑿.𝒀𝒀
�𝟏𝟏 =
𝒂𝒂 𝟐𝟐
Sử dụng OLS, ước lượng cho 𝒂𝒂𝟎𝟎 , 𝒂𝒂𝟏𝟏 là: � 𝑿𝑿𝟐𝟐 − 𝑿𝑿 (*) (xem ví dụ 9, chương 1)
�𝟎𝟎 = 𝒀𝒀 − 𝒂𝒂
𝒂𝒂 �𝟏𝟏 . 𝑿𝑿
Chú ý: Có thể chạy mh tuyến tính cổ điển trên MT bỏ túi hoặc các phần mềm ứng dụng.
Ví dụ 1. Từ mẫu điều tra về thu nhập X (USD/tuần) và tiêu dùng Y (USD/tuần) gồm 10 hộ
X 80 100 120 140 160 180 200 220 240 260
Y 60 78 90 108 114 132 138 144 150 174
B1. Xác định biến độc lập: X, biến phụ thuộc: Y
B2. Mh hồi quy tổng thể: Y = 𝑬𝑬 𝒀𝒀 𝑿𝑿 + 𝑼𝑼 . Để nhận dạng PRF f X = 𝑬𝑬 𝒀𝒀 𝑿𝑿 ta thấy:
* X tăng nói chung kéo theo Y tăng, nên f X đồng biến
* Biểu đồ phân tán của Y theo X (hình bên) dao động rất gần 1 đường thẳng, cho phép
nhận dạng PRF ∶ f X = 𝑬𝑬 𝒀𝒀 𝑿𝑿 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 . 𝑿𝑿. 200

Do đó SRF có dạng: 𝒇𝒇(𝑿𝑿) � = a� 0 + a� 1 X


a� 0 , a� 1 được tính bởi hệ thức (*) theo OLS
150

(tính nhờ MTBT hoặc chạy trên các phần mềm ứng dụng) 100

Chẳng hạn nhờ Eviews, có kết quả:

Y
50

Dependent Variable: Y
0
Method: Least Squares
Included observations: 10 -50

Variable Coefficient Std. Error t-Statistic Prob.


C 20.50909 5.608465 3.656810 0.0064 -100 0 100 200 300

X 0.578182 0.031255 18.49901 0.0000 X

R-squared 0.977157 Mean dependent var 118.8000


S.E. of regression 5.677708 Akaike info criterion 6.487829
Sum squared resid 257.8909 Schwarz criterion 6.548346
Prob(F-statistic) 0.000000
Nhận được mh SRF: Y = 20,50909 + 0,578182. X + U �
a� 1 = 0,578182 cho thấy: khi thu nhập X tăng thêm 1 USD/tuần thì bình quân chi tiêu Y
tăng thêm 0,578182 USD/tuần.
2.1.4. Một số MH tuyến tính thường gặp.
Tên Mô hình MH PRF Ý nghĩa của hệ số hồi quy b

*Tuyến tính cổ điển Y = a + b.X + U Lượng thay đổi của Y khi X tăng 1 đơn vị.
*Tuyến tính log (log kép) lnY = a + b.lnX +U Khi X tăng 1% thì Y thay đổi b%.
*Log –lean lnY = a + b.X + U Khi X tăng 1 đ.vị thì Y thay đổi 100b%
*Lean –log Y = a + b.lnX + U Khi X tăng 1% thì Y thay đổi b/100 đ.vị.
*Nghịch đảo 𝑏𝑏
𝑌𝑌 = 𝑎𝑎 + + U
𝑋𝑋
- MH log-log được ứng dụng trong các MH sản xuất, quan hệ giữa đầu ra với đầu vào
- MH log-lean thích hợp cho các trường hợp k/sát tốc độ tăng trưởng, suy thoái của các
biến kinh tế vĩ mô: lượng cung tiền, thâm hụt thương mại, năng suất, dân số, lao động,
GDP, GNP,....
- MH lean – log thường sử dụng trong trường hợp quan tâm đến lượng thay đổi tuyệt
đối của biến phụ thuộc khi biến độc lập thay đổi 1%. Nó có thể được dùng để k/sát một
số quan hệ như: diện tích sử dụng của căn nhà tác động tới giá nhà, diện tích trồng trọt
tác động tới sản lượng của cây trồng, lượng cung tiền ảnh hưởng tới GNP,...
- MH nghịch đảo có thể áp dụng khi: Y là chi phí sản xuất cố định bình quân và sản lượng
X. Khi sản lượng tăng thì chi phí sản xuất cố định bình quân trên một sản phẩm có khuynh
hướng giảm dần, nhưng không vượt quá một mức tối thiểu a.

2.2. Hướng dẫn chạy MH hồi quy đơn trên phần mềm ứng dụng
2.2.1. Chạy trên MTBT (máy tính bỏ túi): HD S/v tham khảo trên Google
2.2.2. Chạy trên phần mềm Eviews
B1. Xác định biến độc lập, biến phụ thuộc, loại dữ liệu và khai biến, nhập dữ liệu
B2. Vẽ biểu đồ phân tán và nhận dạng PRF.
B3. Chạy hồi quy (tìm SRF) ước lượng cho PRF, viết MH SRF
Lưu ý: Khi chạy hồi quy cho các MH tuyến tính lean-log, log-lean, tuyến tính log, nghịch
đảo, Parabol,... , sau B1 (khai biến X, Y và nhập dữ liệu, chuyển sang chạy hồi quy:
- Đ/v MH lean-log: gõ y c log(x). Đ/v MH log-lean: gõ log(y) c x. Đ/v MH log-log: gõ log(y) c
log(x). Đ/v MH nghịch đảo: gõ y c 1/x . Nếu MH nào không có hệ số chặn thì không gõ c.
2.2.3. Tính các đặc trưng thống kê trên phần mềm Eviews

2.3. Mô hình hồi quy bội (mô hình hồi quy nhiều biến)
2.3.1. Các khái niệm
a. ĐN. MH hồi quy của một biến phụ thuộc Y theo véc tơ X gồm k – 1 biến độc lập
𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ), k ≥ 3) gọi là MH hồi quy bội k biến, cụ thể là MH
Y = f(𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U = E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U (4)
b. MH tuyến tính cổ điển k biến: PRF có dạng:
E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) = a0 + a1 X1 + a2 X2 + ⋯ + ak−1 Xk−1
tức là MH có dạng: 𝒀𝒀 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 𝑿𝑿𝟏𝟏 + 𝒂𝒂𝟐𝟐 𝑿𝑿𝟐𝟐 + ⋯ + 𝒂𝒂𝒌𝒌−𝟏𝟏 𝑿𝑿𝒌𝒌−𝟏𝟏 + 𝑼𝑼 (5)
a0 , a1 , … , a𝑘𝑘−1 là các tham số, trong đó: a0 gọi là hệ số chặn hay hệ số tự do, aj gọi là hệ
số hồi quy riêng của biến Xj , j = 1,2, … , k − 1
Ý nghĩa: + a0 : giá trị trung bình của biến phụ thuộc Y khi 𝑋𝑋1 = 𝑋𝑋2 = ⋯ = 𝑋𝑋𝑘𝑘−1 = 0
+ aj : lượng thay đổi của biến phụ thuộc Y khi các biến Xj (j = 1,2, … , k − 1) tăng
thêm 1 đơn vị trong đ.kiện các biến độc lập khác và các yếu tố khác (nhiễu) không đổi.
c. Mô hình hồi quy bội tuyến tính hóa đươc:
- MH hồi quy bội mà PRF có tất cả các tham số ở dạng bậc nhất gọi là MH tuyến tính
- MH đưa được về MH tuyến tính bằng cách đổi biến hoặc đổi sang các tham số mới được
gọi là MH tuyến tính hóa được.
- MH tuyến tính được gọi: là tuyến tính log hay log-log, nếu tất cả các biến đều ở dạng
log; là lean-log, nếu biến phụ thuộc ở dạng bậc nhất (Y) và tất cả các biến giải thích ở
dạng log; là log-lean, nếu biến phụ thuộc ở dạng log (log(Y)) và tất cả các biến giải thích ở
dạng bậc nhất;
Tài liệu này chỉ xét các MH tuyến tính hóa được, do đó chỉ cần khảo sát chi tiết MH hồi
quy tuyến tính cổ điển làm đại diện.
𝛽𝛽 𝛽𝛽
Ví dụ 2. MH hàm sản xuất Cob-Douglas: Hàm f X1 , X2 = α. X1 1 . X2 2 biểu thị sự phụ
thuộc giữa sản lượng đầu ra Y theo hai yếu tố đầu vào chủ yếu của một mh sản xuất là
lượng lao động X1 và vốn X2 . Tuy nhiên sự phụ thuộc của Y vào X1 và X2 là sự phụ thuộc
thống kê, nên Y dao động xung quanh f X1 , X2 . Vì vậy chỉ có thể nhận dạng PRF của Y
𝛽𝛽 𝛽𝛽
theo X1 , X2 là: E Y X1 , X2 = f X1 , X2 = α. X1 1 . X2 2 , gọi là hàm sản xuất Cob-Douglas.
MH hàm sản xuất Cob-Douglas là:
𝛽𝛽 𝛽𝛽
Y = α. X1 1 . X2 2 + U (a)
Hàm s/x Cob-Douglas chứa các tham số α, 𝛽𝛽1 , 𝛽𝛽2 , mà 𝛽𝛽1 , 𝛽𝛽2 không ở dạng bậc nhất, nên
(a) là phi tuyến. Y dao động x/quanh f X1 , X2 nên lnY dao động x.quanh lnf X1 , X2 =
𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 (𝛽𝛽0 = ln𝛼𝛼) với sai số U = lnY − (𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 ). Có MH:
lnY = 𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 + U (b)
Như vậy (a) là MH phi tuyến, nhưng sau khi tuyến tính hóa ta nhận được (b)
TS. Trần Kim Thanh
2.3.2. Mô hình ước lượng cho mô hình hồi quy bội
Xét mô hình hồi quy tuyến tính cổ điển k biến:
𝒀𝒀 = E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 𝑿𝑿𝟏𝟏 + 𝒂𝒂𝟐𝟐 𝑿𝑿𝟐𝟐 + ⋯ + 𝒂𝒂𝒌𝒌−𝟏𝟏 𝑿𝑿𝒌𝒌−𝟏𝟏 + 𝑼𝑼 (6)
Khi đó hàm hồi quy ước lượng SRF tương ứng ký hiệu là Y � có dạng:
�= �
Y f (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) = a� 0 + a� 1 X1 + a� 2 X2 + ⋯ + a� k−1 Xk−1 (7)
Trong đó: a� 0 là ước lượng cho hệ số chặn 𝒂𝒂0 , a� j là hệ số ước lượng cho hệ số hồi quy
riêng 𝒂𝒂j của biến giải thích Xj , j = 1,2, … , k − 1. Khi đó U � =Y−Y � là sai số ước lượng cho
sai số ngẫu nhiên U và mô hình ước lượng là:
Y=Y �+U � = a� 0 + a� 1 X1 + a� 2 X2 + ⋯ + a� k−1 Xk−1 + U � (8)
Tiến hành n quan sát cho véc tơ ngẫu nhiên k chiều (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 , Y) ta có n bộ dữ
liệu: (𝑋𝑋1i , 𝑋𝑋2i , … , 𝑋𝑋𝑘𝑘−1,i , Yi ), i = 1, n. Khi đó U � i = Yi − Y
�i là sai số ước lượng ở lần quan
sát thứ i, i = 1, 2,..., n (Y �i = � f (𝑋𝑋1i , 𝑋𝑋2i , … , 𝑋𝑋𝑘𝑘−1,i ))
Chú ý: Các hệ số hồi quy ước lượng a� j có ý nghĩa như aj (trên cơ sở mẫu quan sát)
Theo phương pháp OLS, ta cần tìm các ước lượng a� 0 , a� 1 , … , a� k−1 cho a0 , a1 , … , a𝑘𝑘−1 sao
cho tổng bình phương các sai số ước lượng là nhỏ nhất, tức là:
n n
2
� �i = �
U Yi − (�a0 + a� 1 X1 + ⋯ + a� k−1 Xk−1 ) 2
= F(�a0 , a� 1 , … , a� k−1 ) ⟶ min
i=1 i=1
Bài toán đưa về tìm cực trị của F(�a0 , a� 1 , … , a� k−1 ) là hàm bậc 2 của k biến . Vì thế các hệ
số ước lượng cần tìm a� 0 , a� 1 , … , a� k−1 là nghiệm của hệ k phương trình tuyến tính k ẩn:
𝒂𝒂𝟎𝟎 ,�
𝝏𝝏𝝏𝝏(� 𝒂𝒂𝟏𝟏 ,…,�
𝒂𝒂𝒌𝒌−𝟏𝟏 )
= 𝟎𝟎, 𝒋𝒋 = 𝟎𝟎, 𝟏𝟏, … , 𝒌𝒌 − 𝟏𝟏 (9)
𝝏𝝏�
𝒂𝒂𝒋𝒋
Các MH (6), (8) được biểu diễn dưới dạng ma trận:
PRF: 𝒴𝒴 = 𝒳𝒳. 𝑎𝑎 + 𝒰𝒰 ; (6a) SRF: 𝒴𝒴 = 𝒳𝒳. 𝑎𝑎� + 𝒰𝒰� (8a)
−𝟏𝟏
Với đ/kiện 𝓧𝓧 khả nghịch, (9) có nghiệm duy nhất: 𝒂𝒂� = 𝓧𝓧𝑻𝑻 . 𝓧𝓧 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 (10)
1 𝑋𝑋11 ⋯ 𝑋𝑋𝑘𝑘−1,1 𝑌𝑌1 𝑈𝑈1 𝑎𝑎0
1 𝑋𝑋12 ⋯ 𝑋𝑋𝑘𝑘−1,2 𝑌𝑌2 𝑈𝑈2 𝑎𝑎1
Trong đó: 𝒳𝒳 = ; 𝒴𝒴 = ; 𝒰𝒰 = ; 𝑎𝑎 = ;
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮
1 𝑋𝑋1𝑛𝑛 ⋯ 𝑋𝑋𝑘𝑘−1,𝑛𝑛 𝑌𝑌𝑛𝑛 𝑈𝑈𝑛𝑛 𝑎𝑎𝑘𝑘−1
𝑌𝑌�1 �1
𝑈𝑈 𝑎𝑎�0
� � 𝑎𝑎�1
𝒴𝒴� = 𝑌𝑌2 ; 𝒰𝒰� = 𝑈𝑈2 ; 𝑎𝑎� =
⋮ ⋮ ⋮
𝑌𝑌�𝑛𝑛 �𝑛𝑛
𝑈𝑈 𝑎𝑎�𝑘𝑘−1
Chú thích: MH SRF nhiều biến có thể chạy trên các phần mềm ứng dụng như: Eviews, Stata,...
2.3.3.Hệ số xác định và hệ số tương quan
Từ mẫu ng ẫu nhiên kích thước n về véc tơ quan sát (Y, X1, X2, ..., Xk-1) là:
𝑌𝑌𝑖𝑖 , 𝑋𝑋1𝑖𝑖 , 𝑋𝑋2𝑖𝑖 , … , 𝑋𝑋𝑘𝑘−1,𝑖𝑖 , 𝑖𝑖 = 1,2, … , 𝑛𝑛
MH SRF (8) ước lượng cho PRF (6) đã được xây dựng bằng phương pháp OLS. Các chỉ tiêu
sau đây giúp cho việc đánh giá chất lượng của MH (8)
a. Các tổng bình phương độ lệch:
a1. 𝑇𝑇𝑇𝑇𝑇𝑇 = ∑ 𝑌𝑌𝑖𝑖 − 𝑌𝑌� 2 = ∑ 𝑌𝑌𝑖𝑖2 − 𝑛𝑛. 𝑌𝑌� 2 = 𝒴𝒴 𝑇𝑇 . 𝒴𝒴 − 𝑛𝑛. 𝑌𝑌� 2 ; (11)
TSS là tổng bình phương các độ lệch giữa các giá trị quan sát thực tế Yi và giá trị trung bình
𝑌𝑌� của các quan sát, còn gọi là tổng bình phương các độ lệch của Y (trên mẫu).(TSS: Total
Sum of Squares ), nó cho thấy toàn bộ sự biến thiên của biến phụ thuộc Y.
2
a2. 𝐸𝐸𝐸𝐸𝐸𝐸 = ∑ 𝑌𝑌�𝑖𝑖 − 𝑌𝑌� = 𝒂𝒂 �𝑇𝑇 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 − 𝑛𝑛. 𝑌𝑌� 2 ; (12)
ESS: tổng bình phương độ lệch của Y được giải thích bởi SRF (ESS: Explained Sum of Squares).
2
�𝑖𝑖2 = ∑ 𝑌𝑌𝑖𝑖 − 𝑌𝑌�𝑖𝑖
a3. 𝑅𝑅𝑅𝑅𝑅𝑅 = ∑ 𝑈𝑈 = 𝑇𝑇𝑇𝑇𝑇𝑇 − 𝐸𝐸𝐸𝐸𝐸𝐸 (13)
RSS là tổng bình phương các độ lệch giữa các giá trị quan sát 𝑌𝑌𝑖𝑖 và giá trị ước lượng (tính toán) 𝑌𝑌�𝑖𝑖 ,
còn được gọi là tổng bình phương các độ lệch của Y không được giải thích bởi SRF, hay tổng bình
phương các phần dư (thặng dư) RSS do các yếu tố ngẫu nhiên gây ra (RSS: Residual Sum of Squares ).
Nhận xét: 𝑇𝑇𝑇𝑇𝑇𝑇 = 𝐸𝐸𝐸𝐸𝐸𝐸 + 𝑅𝑅𝑅𝑅𝑅𝑅 (14)
𝐸𝐸𝐸𝐸𝐸𝐸 𝑅𝑅𝑅𝑅𝑅𝑅
b. Hệ số xác định: 𝑅𝑅2 = = 1− (15)
𝑇𝑇𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇𝑇𝑇
𝑅𝑅2 là tỷ lệ (phần trăm) những biến thiên của biến phụ thuộc Y đã được giải thích bời mô
hình SRF (hay bởi các biến độc lập). Phần trăm còn lại là do các yếu tố ngẫu nhiên khác.
Tính chất: (1) 0 ≤ 𝑅𝑅2 ≤ 1; (2) Khi 𝑅𝑅2 = 1 thì SRF thích hợp hoàn hảo với các số liệu
q/sát, khi đó 𝑌𝑌�𝑖𝑖 = 𝑌𝑌𝑖𝑖 , ∀𝑖𝑖 = 1,2, … , 𝑛𝑛, ℎ𝑎𝑎𝑎𝑎 𝑅𝑅𝑅𝑅𝑅𝑅 = 0: tất cả các sai lệch của 𝑌𝑌𝑖𝑖 (so với trị
t.bình) đều được giải thích bởi SRF. Khi 𝑅𝑅2 = 0 thì SRF không thích hợp, tất cả các sai
lệch của 𝑌𝑌𝑖𝑖 ( so với trị t.bình) đều không được giải thích bởi SRF (khi đó RSS = TSS, hay
𝑌𝑌�𝑖𝑖 = 𝑌𝑌,
� ∀𝑖𝑖 = 1,2, … , 𝑛𝑛.); (3) 𝑅𝑅 2 càng tăng thì MH càng phù hợp với dữ liệu điều tra, 𝑅𝑅2
càng giảm thì MH càng kém phù hợp.
Chẳng hạn xét MH trong ví dụ 1, 𝑅𝑅2 = 0.977157: cho thấy MH phù hợp rất tốt với dữ liệu
điều tra: 97,7157% những biến động của tiêu dùng Y đã được giải thích bởi thu nhập X.
c. Hệ số xác định hiệu chỉnh (Adjusted R – squared)
Khi số biến giải thích trong mh tăng thì số bậc tự do bị giảm đi. Để hạn chế bất lợi này,
người ta điều chỉnh hệ số xác định để có hệ số xác định hiệu chỉnh sau
� 𝟐𝟐 = 𝑹𝑹𝟐𝟐 + 𝟏𝟏 − 𝑹𝑹𝟐𝟐 . 𝟏𝟏−𝒌𝒌 (k là số biến của mh)
𝑹𝑹 (16)
𝒏𝒏−𝒌𝒌
Thường thì một biến giải thích nên được đưa thêm vào khi nó làm tăng giá trị của 𝑅𝑅� 2 và hệ số hồi
quy của biến này phải khác không một cách có ý nghĩa thống kê.
TS. Trần Kim Thanh
Chú ý: Thực tế không có một tiêu chuẩn chung để đánh giá mức độ cao thấp của 𝑅𝑅 2 và không nên chỉ
dựa vào 𝑅𝑅 2 để đánh giá mức độ phù hợp của mh, mà còn phải dựa vào các yếu tố khác như kinh
nghiệm thực tế, khả năng dự báo chính xác,.... Trong thực hành, đối với số liệu chuỗi thời gian thì
𝑹𝑹𝟐𝟐 > 𝟎𝟎, 𝟗𝟗 được xem phù hợp tốt, đối với số liệu chéo thì 𝑹𝑹𝟐𝟐 > 𝟎𝟎, 𝟕𝟕 được xem phù hợp tốt.
d. Hệ số tương quan (Coefficient of Correlation). Với mẫu ngẫu nhiên kích thước n về véc
tơ quan sát (Y, X1, X2, ..., Xk-1) là: 𝑌𝑌𝑖𝑖 , 𝑋𝑋1𝑖𝑖 , 𝑋𝑋2𝑖𝑖 , … , 𝑋𝑋𝑘𝑘−1,𝑖𝑖 , 𝑖𝑖 = 1,2, … , 𝑛𝑛
� 𝑋𝑋� 𝑗𝑗
𝑌𝑌𝑋𝑋𝑗𝑗 −𝑌𝑌.
* Hệ số tương quan mẫu giữa Y và Xj là: 𝑟𝑟0𝑗𝑗 = 𝑆𝑆 (17a)
𝑌𝑌 .𝑆𝑆(𝑋𝑋𝑗𝑗 )
𝑋𝑋𝑠𝑠 𝑋𝑋𝑗𝑗 −𝑋𝑋�𝑠𝑠 .𝑋𝑋� 𝑗𝑗
* Hệ số tương quan mẫu giữa 𝑋𝑋𝑠𝑠 𝑣𝑣𝑣 𝑋𝑋𝑗𝑗 𝑙𝑙𝑙: 𝑟𝑟𝑠𝑠𝑠𝑠 = (17b)
𝑆𝑆 𝑋𝑋𝑠𝑠 .𝑆𝑆(𝑋𝑋𝑗𝑗 )
𝑟𝑟01 ⋯ 𝑟𝑟0,𝑘𝑘−1
1
1 ⋯ 𝑟𝑟1,𝑘𝑘−1
𝑟𝑟10
* Ma trận các hệ số tương quan mẫu là: 𝑅𝑅 = (17c)
⋮ ⋯ ⋮ ⋮
𝑟𝑟𝑘𝑘−1,0 𝑟𝑟𝑘𝑘−1,1 ⋯ 1
Ý nghĩa: Hệ số tương quan r giữa 2 biến đánh giá xu thế tương quan và mức độ tương
quan tuyến tính giữa chúng: r > 0 biểu thị tương quan thuận, r < 0 biểu thị tương quan
nghịch, r = 0 là không tương quan, r ↑ 1: xu thế tương quan tuyến tính càng chặt
2.3.4. Các giả thiết của phương pháp OLS
Để giải quyết các bài toán thống kê: phân tích, đánh giá, lựa chọn, ước lượng, dự
báo,…trên SRF thì phải có một mh SRF tốt, trước hết các hệ số hồi quy ước lượng phải có
những tính chất tốt. Muốn vậy, mô hình cần đáp ứng các điều kiện sau đây mà người ta
thường gọi là các giả thiết của phương pháp OLS đ/với mh hồi quy.
GT1: Ma trận 𝒳𝒳 đã được xác định theo nghĩa: Mẫu về biến X không chọn ngẫu nhiên.
GT2: 𝑟𝑟 𝒳𝒳 ℎạ𝑛𝑛𝑛𝑛 𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝒳𝒳 = 𝑘𝑘, hay không có cột nào của ma trận 𝒳𝒳 là tổ hợp
tuyến tính của các cột khác, tức là không có hiện tượng cộng tuyến xảy ra giữa các
biến độc lập (giả thiết này cũng có nghĩa là 𝑑𝑑𝑑𝑑𝑑𝑑𝒳𝒳 ≠ 0, tức là ước lượng các hệ số hồi quy
theo phương pháp OLS luôn tìm được và duy nhất).
GT3: Nhiễu có phương sai thuần nhất và không có tương quan chuỗi.
𝑽𝑽𝑽𝑽𝑽𝑽𝑼𝑼𝒊𝒊 = 𝝈𝝈𝟐𝟐
� , ∀𝒊𝒊, 𝒋𝒋 = 𝟏𝟏, 𝒏𝒏, 𝒊𝒊 ≠ 𝒋𝒋, hay: 𝑬𝑬 𝓤𝓤. 𝓤𝓤𝑻𝑻 = 𝝈𝝈𝟐𝟐 . 𝑰𝑰𝒏𝒏×𝒏𝒏
𝒄𝒄𝒄𝒄𝒄𝒄 𝑼𝑼𝒊𝒊 , 𝑼𝑼𝒋𝒋 = 𝑬𝑬 𝑼𝑼𝒊𝒊 . 𝑼𝑼𝒋𝒋 = 𝟎𝟎
Nhiễu U là mức độ dao động của các giá trị của Y xung quanh 𝐸𝐸 𝑌𝑌 𝑋𝑋 . Giả thiết 𝑽𝑽𝑽𝑽𝑽𝑽𝑼𝑼𝒊𝒊 =
𝝈𝝈𝟐𝟐 có nghĩa là dao động này có biên độ không đổi khi giá trị của X thay đổi. Thực tế, giả
thiết này có thể bị vi phạm, đặc biệt là khi sử dụng dữ liệu chéo mà các đối tượng q/sát
khác xa nhau về quy mô, tầm cỡ. Gt 𝒄𝒄𝒄𝒄𝒄𝒄 𝑼𝑼𝒊𝒊 , 𝑼𝑼𝒋𝒋 = 0, ∀i ≠ j có thể bị vi phạm khi đối
tượng điều tra có sự ràng buộc, phụ thuộc nhau về tiêu chuẩn điều tra Y. Chẳng hạn: Khi
khảo sát về thu nhập X và tiêu dùng Y mà đối tượng khảo sát là các thành viên trong một
gia đình thì mặc dù các thành viên có mức thu nhập X khác nhau, nhưng những yếu tố
ngoài thu nhập tác động lên chi tiêu như hoàn cảnh gia đình, tập quán, sở thích, thói
quen tiêu dùng đều có thể tác động gần như tương đồng đến chi tiêu của các thành viên
trong gia đình, điều này dẫn đến các tác động ngẫu nhiên có sự tương quan.
GT 4: Giữa các biến độc lập và nhiễu không có sự tương quan: 𝑐𝑐𝑐𝑐𝑐𝑐 X𝑖𝑖 , 𝑈𝑈𝑗𝑗 = 0, ∀i, j
Tức là trong sự tác động riêng của các biến độc lập lên biến phụ thuộc không có tác động của nhiễu.
GT5: 𝒰𝒰 𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣 𝑡𝑡𝑡 𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
GT 5 thường ít bị vi phạm
Khi các giả thiết của OLS được thỏa mãn, các hệ số ước lượng theo OLS có các t/c tốt sau:
T/c 1. 𝑌𝑌� = 𝑌𝑌� , 𝑈𝑈� = 0
–𝟏𝟏
T/c 1. 𝒂𝒂
� = 𝓧𝓧𝑻𝑻 . 𝓧𝓧 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 là một véc tơ ngẫu nhiên có phân phối chuẩn với giả thiết
U có phân phối chuẩn, được xác định duy nhất với một mẫu cụ thể. Hơn nữa là ước lượng
tuyến tính không chệch, có phương sai bé nhất trong trong lớp các ước lượng tuyến tính
không chệch của 𝑎𝑎 (tính chất BLUE).
T/c 3. 𝒂𝒂
� có ma trận hiệp phương sai: cov 𝒂𝒂 � = 𝜎𝜎 2 . 𝒳𝒳 𝑇𝑇 . 𝒳𝒳 −1
� 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞 𝑣𝑣𝑣𝑣𝑣 các biến độc lập và 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞 𝑣𝑣𝑣𝑣𝑣 𝑌𝑌�
T/c 4. 𝑈𝑈
Chú ý: 𝑉𝑉𝑉 𝜎𝜎 2 = VarU (𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛) chưa biết nên người ta dùng ước lượng
𝑹𝑹𝑹𝑹𝑹𝑹
� 𝟐𝟐 =
𝝈𝝈 (gọi là phương sai hồi quy) thay thế cho 𝜎𝜎 2 .
𝒏𝒏−𝒌𝒌
𝑹𝑹𝑹𝑹𝑹𝑹
�=
𝝈𝝈 gọi là sai số chuẩn của hồi quy
𝒏𝒏−𝒌𝒌
2.4. Hướng dẫn chạy SRF cho hồi quy bội trên Eviews.
B1. Xác định biến phụ thuộc, các biến độc lập và thiết lập PRF
B2. Xác định loại dữ liệu. Vào Eviews, khai các biến và nhập dữ liệu
B3 (nếu cần) Tính các đặc trưng thống kê của các biến, tìm ma trận tương quan mẫu
B4. Chạy hồi quy SRF: gõ tên biến phụ thuộc, biến hằng (c) (nếu không có hệ số chặn thì
không gõ (c), các biến độc lập (mỗi biến cách nhau một khoảng trống). Nhấp OK.
Ví dụ 3. Có số liệu về doanh thu Y, chi phí quảng cáo X1 và tiền lương X2 của 12 nhân viên
tiếp thị (đơn vị: triệu đồng).
Y 102 140 127 128 139 138 144 159 161 163 180 106
X1 15 25 18 16 17 15 23 22 25 24 26 19
X2 7 11 10 12 12 15 12 14 14 16 17 6
a. Xác định biến phụ thuộc, các biến giải thích. Thiết lập mh PRF tuyến tính cổ điển
b. Từ dữ liệu, phân tích thống kê mô tả, lập mh SRF ước lượng cho mh PRF đã thiết lập.
- Biến phụ thuộc: Y, các biến giải thích: X1, X2 . Mh PRF: Y = a0 + a1 𝑋𝑋1 + a2 𝑋𝑋2 + U
- Dữ liệu đã cho là dữ liệu chéo. Eviews cho kết quả về Thống kê mô tả và chạy hồi quy
Descriptive Statistics Estimate equation

Ma trận tương quan mẫu:

- Giải thích kết quả Descriptive Statistics và Estimate equation


- MH SRF: Y = 34,69682 + 2,185409. X1 + 5,035705. X2 + U �
a� 1 = 2,185409: Khi chi phí quảng cáo tăng thêm 1 triệu đồng thì d.thu tăng thêm
2,185409 triệu đồng, trong đ/kiện lương n/viên và các yếu tố khác không thay đổi.
a� 2 = 5,035705: Khi lương n/viên tăng thêm 1 triệu đồng thì d.thu tăng thêm 5,035705
triệu đồng, trong đ/kiện chi phí quảng cáo và các yếu tố khác không đổi.
R2 = 0.970799: 97,0799% những biến động của d.thu đã được giải thích bởi MH.
Ví dụ 4. Có số liệu về sản lượng Y(đo bằng chỉ tiêu GDP thực: đơn vị tính: triệu pesos) và lực
lượng lao động X1 được đo bằng tổng lao động (đơn vị: ngàn người), vốn cố định X2 (đơn
vị: triệu pesos) ở Mexico từ 1955-1974.
Năm GDP Lượng LĐ Vốn c.định Năm GDP Lượng LĐ Vốn c.định
1955 114043 8310 182113 1965 212323 11746 315715
1956 120410 8529 193749 1966 226977 11521 337642
1957 129187 8738 205192 1967 241194 11540 363599
1958 134705 8952 215130 1968 260881 12066 391847
1959 139960 9171 225021 1969 277498 12297 422382
1960 150511 9569 237026 1970 296530 12955 455049
1961 157897 9527 248897 1971 306712 13338 484677
1962 165286 9662 260661 1972 329030 13738 520553
1963 178491 10334 275466 1973 354057 15924 561531
1964 199457 10981 295378 1974 374977 14154 609825
Sources of Growth: A study of seven Latin American Economies, Victor J.Elias, (D.N.Gujarati)
Chạy SRF cho MH Cob – Douglas: lnY = 𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 + U
Dependent Variable: LOG(Y)
Method: Least Squares
Sample: 1 20
Variable Coefficient Std. Error t-Statistic Prob.
C -1.652419 0.606198 -2.725873 0.0144
LOG(X1) 0.339732 0.185692 1.829548 0.0849
LOG(X2) 0.845997 0.093352 9.062488 0.0000
R-squared 0.995080 Mean dependent var 12.22605
Adjusted R-squared 0.994501 S.D. dependent var 0.381497
S.E. of regression 0.028289 Akaike info criterion -4.155221
Sum squared resid 0.013604 Schwarz criterion -4.005861
F-statistic 1719.231 Durbin-Watson stat 0.425667
Prob(F-statistic) 0.000000

- MH SRF nhận được: 𝑙𝑙𝑙𝑙𝑙𝑙 = −1,652419 + 0,339732. 𝑙𝑙𝑙𝑙𝑋𝑋1 + 0,845997. 𝑙𝑙𝑙𝑙𝑋𝑋2 + 𝑈𝑈
𝛽𝛽̂1 = 0.339732: Khi lao động tăng thêm 1% thì GDP tăng thêm 0,339732% trong đ/k vốn
và các yếu tố ngẫu nhiên khác không thay đổi.
𝛽𝛽̂2 = 0,845997: Khi vốn cố định tăng thêm 1% thì GDP tăng thêm 0,845997% trong đ/k
lao động và các yếu tố ngẫu nhiên khác không thay đổi.
R2 = 0.995080: MH phù hợp rất tốt với dữ liệu thực tế: 99,5080% những biến động của
GDP đã được giải thích bởi MH.
Ví dụ 5 (BT). Bảng sau đây là số liệu của ngành công nghiệp Việt Nam từ 1976 – 1991:
Năm Y: Sản lượng X1: Chi phí lao động X2: Vốn Năm Y: Sản lượng X1: Chi phí lao động X2: Vốn
1976 65344 2033.4 23.88 1984 93953 2460.2 43.23
1977 72399 2151.2 25.79 1985 103258 2571.8 45.36
1978 78300 2092.4 28.32 1986 109632 2587.0 46.80
1979 74594 2134.8 31.31 1987 130551 2844.7 47.70
1980 66925 2250.3 33.74 1988 137819 2945.0 49.20
1981 67594 2232.7 35.99 1989 133311 2531.4 51.60
1982 73463 2273.2 38.14 1990 139350 2251.0 52.99
1983 83034 2365.1 40.67 1991 145621 2115.0 55.60

Hãy thiết lập MH SRF ước lượng cho MH PRF: lnY = 𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 + U
Phân tích kết quả về thống kê mô tả và ý nghĩa của các giá trị 𝛽𝛽̂1 , 𝛽𝛽̂2 và R2 nhận được.

TS. Trần Kim Thanh


2.5. Mô hình hồi quy với biến giả
2.5.1. Các khái niệm về MH có biến giả.
a. Biến giả. Trong các mục trước, các biến giải thích là các biến định lượng. Tuy nhiên
trong thực tế có những trường hợp biến giải thích là biến định tính hay tiêu chuẩn chất
lượng như: màu sắc, âm thanh, giới tính, chủng tộc, tôn giáo, hình thức sở hữu, nghề
nghiệp,... mà chúng ta cảm nhận được ảnh hưởng không bỏ qua được của chúng vào
biến phụ thuộc đang xét. Để đưa những thuộc tính của biến định tính vào mô hình hồi
quy định lượng, người ta lượng hóa các thuộc tính bằng cách sử dụng kỹ thuật biến giả
(dummy variables). Biến định tính sau khi được lượng hóa để đưa vào mô hình được gọi
là biến giả.
b. Thay biến định tính bằng các biến giả.
Giả sử muốn đưa vào MH biến định tính X có k thuộc tính A1 , A2 , … , Ak
b1. Hướng thứ nhất: Gán cho mỗi thuộc tính Ai một giá trị bằng số ci (số này đại diện cho
thuộc tính tương ứng), trong đó thuộc tính mà ta muốn căn cứ vào nó để so sánh với các
thuộc tính khác được gọi là thuộc tính cơ sở và gán số 0. Nếu A1 , A2 , … , Ak có cấp độ, thứ
tự từ thấp lên cao thì thuộc tính cơ sở nên chọn là thuộc tính có cấp độ thấp nhất hoặc
cao nhất A1 hoặc Ak và các thuộc tính được gán số tương ứng tỷ lệ với cấp độ hay thứ tự
của chúng. Giả sử Ak là thuộc tính cơ sở, khi đó biến định lượng
0, cho Ak
Z=�
ci , cho Ai , 1 ≤ i ≤ k − 1
là biến giả thay thế cho biến định tính X trong MH.
b2. Hướng thứ 2: Chọn một thuộc tính làm thuộc tính cơ sở, giả sử Ak . Khi đó ta dùng k –
1 biến giả nhị phân (biến chỉ có 2 giá trị 0 và 1) để thay thế X:
1, cho Ai
Zi = � , i = 1,2, … , k − 1
0, nếu không phải Ai
Thường thì người ta hay theo hướng thứ 2: Thay một biến định tính gồm k thuộc tính bởi
k – 1 biến giả nhị phân.
Ví dụ 1. Khảo sát lượng hàng A bán được theo hai k.vực bán là TP và NT. Ký hiệu Y là
lượng hàng A bán được, Y là một biến định lượng phụ thuộc vào k.vực bán là một biến
định tính gồm 2 thuộc tính: TP và NT. Để biểu thị sự phụ thuộc của lượng hàng bán được
Y vào biến định tính là khu vực bán trong một mô hình hồi quy, ta lượng hóa biến định
tính khu vực bằng cách đặt:
0, 𝑛𝑛𝑛𝑛𝑛 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 ℎà𝑛𝑛𝑛𝑛 𝑥𝑥 đượ𝑐𝑐 𝑏𝑏𝑏𝑏𝑏 ở 𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑡𝑡𝑡𝑡𝑡𝑡,
𝐷𝐷 𝑥𝑥 = �
1, 𝑛𝑛𝑛𝑛𝑛 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 ℎà𝑛𝑛𝑛𝑛 𝑥𝑥 đượ𝑐𝑐 𝑏𝑏𝑏𝑏𝑏 ở 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡.
Khi đó D là một biến giả (định lượng), thay cho vai trò của biến định tính khu vực, được
đưa vào MH hồi quy sau đây:
𝐸𝐸 𝑌𝑌 𝐷𝐷 = 𝑎𝑎 + 𝑏𝑏. 𝐷𝐷

𝑌𝑌 = 𝑎𝑎 + 𝑏𝑏. 𝐷𝐷 + 𝑈𝑈
Theo đó: 𝐸𝐸 𝑌𝑌 𝐷𝐷 = 0 = 𝑎𝑎: là lượng hàng bình quân bán được ở khu vực NT.
𝐸𝐸 𝑌𝑌 𝐷𝐷 = 1 = 𝑎𝑎 + 𝑏𝑏: là lượng hàng bình quân bán được ở khu vực TP.
Vì thế: 𝑏𝑏 = 𝐸𝐸 𝑌𝑌 𝐷𝐷 = 1 − 𝐸𝐸 𝑌𝑌 𝐷𝐷 = 0 : là mức chênh lệch bình quân về lượng hàng bán
được ở k.vực TP so với k.vực NT. Lúc này lượng hàng bình quân bán được ở k.vực NT là
tiêu chuẩn để so sánh. Thuộc tính “ NT” là thuộc tính cơ sở (hay phạm trù cơ sở), tương
ứng với giá trị D = 0.
Ví dụ 2. Hãy thiết lập MH hồi quy trong đó: d.số bán s.phẩm A phụ thuộc vào: giá bán,
kiểu dáng 1, kiểu dáng 2, kiểu dáng 3, k.vực NT, k.vực TP.
2.5.2. Phương pháp thiết lập MH có biến giả
a. Thiết lập MH PRF:
B1. Xác định biến phụ thuộc, các biến giải thích, các biến định tính trong tập biến giải thích
B2. Đối với mỗi biến định tính, xác định số thuộc tính của nó, từ đó đưa ra các biến giả nhị
phân để thay thế biến định tính.
B3. Thiết lập MH PRF của biến phụ thuộc theo các biến giải thích bao gồm các biến giả.
Chẳng hạn xét ví dụ 2: Biến phụ thuộc là d.số Y, các biến giải thích: giá bán X (định lượng),
k.vực bán (định tính) với 2 thuộc tính: TP và NT, kiểu dáng s.phẩm (định tính) với 3 thuộc
tính: kiểu dáng 1, kiểu dáng 2, kiểu dáng 3. Do đó biến k.vực được đại diện bởi 1 biến giả:
1, cho k. v TP
Z=� (NT là thuộc tính cơ sở)
0, cho k. v NT
biến kiểu dáng được đại diện bởi 2 biến giả:
1, cho kiểu 1 1, cho kiểu 2
D1 = � ; D2 = � (Kiểu 3 là thuộc tính cơ sở)
0, cho các kiểu khác 0, cho các kiểu khác
Vậy MH PRF gồm 5 biến: Y, X, Z, D1, D2, có dạng:
E Y X, Z, D1 , D2 = a + b. X + c1 D1 + c2 D2

Y = a + b. X + c1 D1 + c2 D2 + U
b. Thiết lập SRF cho MH có biến giả
B1. Viết SRF tương ứng với PRF đã thiết lập. Chẳng hạn trong ví dụ trên, SRF có dạng:
� X + c�1 D1 + c�2 D2
� = a� + b.
Y

� X + c�1 D1 + c�2 D2 + U
Y = a� + b. �
B2. Chạy SRF trên phần mềm ứng dụng:
Lưu ý: Nhập số liệu cho các biến giả và ý nghĩa hệ số hồi quy của biến giả.
Ví dụ 3: Có dữ liệu về lượng tủ lạnh Y(ngàn cái) bán được tại Mỹ từ 1978Q1 -1985Q4
Năm-quý Frig Năm-quý Frig Năm-quý Frig Năm-quý Frig Năm-quý Frig Năm-quý Frig Năm-quý Frig Năm-quý Frig
1978-1 1317 1979-1 1271 1980-1 1277 1981-1 1196 1982-1 943 1983-1 1102 1984-1 1429 1985-1 1242
1978-2 1615 1979-2 1555 1980-2 1258 1981-2 1410 1982-2 1175 1983-2 1344 1984-2 1699 1985-2 1684
1978-3 1662 1979-3 1639 1980-3 1417 1981-3 1417 1982-3 1269 1983-3 1641 1984-3 1749 1985-3 1764
1978-4 1295 1979-4 1238 1980-4 1185 1981-4 919 1982-4 973 1983-4 1225 1984-4 1117 1985-4 1328
a. Thiết lập PRF tuyến tính cổ điển biểu thị sự phụ thuộc của Y(FRIG) theo mùa vụ
b. Chạy SRF ước lượng cho PRF ở trên. Cho nhận xét.
Giải. Biến phụ thuộc Y, biến giải thích: mùa vụ (định tính) có 4 thuộc tính: Q1, Q2, Q3, Q4
Chọn Q4 làm thuộc tính cơ sở, Mùa vụ được đại diện bởi 3 biến giả nhị phân:
1 cho Q1 1 cho Q2 1 cho Q3
D1 = � ; D2 = � ; D3 = �
0, cho các quý khác 0 cho các quý khác 0, cho các quý khác
E Y D1 , D2 , D3 = a0 + a1 D1 + a2 D2 + a3 D3
MH PRF cần thiết lập: �
Y = a0 + a1 D1 + a2 D2 + a3 D3 + U
Từ Bảng dữ liệu cho Y, D1 , D2 , D3 (bảng sau), có kết quả chạy hồi quy:
Dependent Variable: Y
Method: Least Squares
Sample: 1978Q1 1985Q4
Included observations: 32
Variable Coefficient Std. Error t-Statistic Prob.
C 1160.000 59.99041 19.33642 0.0000
D1 62.12500 84.83926 0.732267 0.4701
D2 307.5000 84.83926 3.624501 0.0011
D3 409.7500 84.83926 4.829722 0.0000
R-squared 0.531797 Mean dependent var 1354.844
Adjusted R-squared 0.481632 S.D. dependent var 235.6719
Prob(F-statistic) 0.000079 Durbin-Watson stat 0.392512
Năm:quý FRIG D1 D2 D3 Năm: quý FRIG D1 D2 D3
1978-1 1317 1 0 0 1982-1 943 1 0 0
1978-2 1615 0 1 0 1982-2 1175 0 1 0
1978-3 1662 0 0 1 1982-3 1269 0 0 1
1978-4 1295 0 0 0 1982-4 973 0 0 0
1979-1 1271 1 0 0 1983-1 1102 1 0 0
1979-2 1555 0 1 0 1983-2 1344 0 1 0
1979-3 1639 0 0 1 1983-3 1641 0 0 1
1979-4 1238 0 0 0 1983-4 1225 0 0 0
1980-1 1277 1 0 0 1984-1 1429 1 0 0
1980-2 1258 0 1 0 1984-2 1699 0 1 0
1980-3 1417 0 0 1 1984-3 1749 0 0 1
1980-4 1185 0 0 0 1984-4 1117 0 0 0
1981-1 1196 1 0 0 1985-1 1242 1 0 0
1981-2 1410 0 1 0 1985-2 1684 0 1 0
1981-3 1417 0 0 1 1985-3 1764 0 0 1
1981-4 919 0 0 0 1985-4 1328 0 0 0

� = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏𝑫𝑫𝟏𝟏 + 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟓𝟓𝑫𝑫𝟐𝟐 + 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟕𝟕𝟕𝟕𝑫𝑫𝟑𝟑


𝒀𝒀
Nhận được MH SRF: � � + 𝑼𝑼
𝒀𝒀 = 𝒀𝒀 � = 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏, 𝟎𝟎𝟎𝟎𝟎𝟎 + 𝟔𝟔𝟔𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏𝑫𝑫𝟏𝟏 + 𝟑𝟑𝟑𝟑𝟑𝟑, 𝟓𝟓𝑫𝑫𝟐𝟐 + 𝟒𝟒𝟒𝟒𝟒𝟒, 𝟕𝟕𝟕𝟕𝑫𝑫𝟑𝟑 + 𝑼𝑼

Nhận xét: Quý 4: bình quân số tủ lạnh bán được là: a� 0 = 1160000 (cái)
Q1: bình quân số tủ lạnh bán được là: a� 0 + a� 1 = 1160000 + 62125 = 1222125 (cái)
Q2: bình quân số tủ lạnh bán được là: a� 0 + a� 2 = 1160000 + 307500 = 1467500 (cái)
Quý 3: bình quân số tủ lạnh bán được: a� 0 + a� 3 = 1160000 + 409750 = 1569750 (cái)
Y = 1354.844: Bình quân mỗi quý số tủ lạnh bán được là 1354844 (cái)
R2 = 0.531797: MH (hay yếu tố thời vụ) giải thích được 53,1797% những biến động của
lượng tủ lạnh bán được
2.5.3. Kỹ thuật sử dụng biến giả
Biến giả không những được đưa vào MH để đại diện cho biến định tính, mà còn được sử
dụng theo nhiều mục đích khác nhau trong việc phân tích MH. Sau đây là một số kỹ thuật
sử dụng biến giả.
a. Tác động vào các hệ số hồi quy: Khi hệ số hồi quy phụ thuộc vào các thuộc tính của một
biến định tính, ta dùng biến giả tác động vào hệ số hồi quy (dịch chuyển hệ số hồi quy)
Ví dụ 4. Để khảo sát lương Y của giáo viên theo thâm niên giảng dạy X, ta sử dụng
𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝑎𝑎 + 𝑏𝑏. 𝑋𝑋
mô hình hồi quy sau: �
𝑌𝑌 = 𝑎𝑎 + 𝑏𝑏. 𝑋𝑋 + 𝑈𝑈
𝐸𝐸 𝑌𝑌 𝑋𝑋 = 0 = 𝑎𝑎: mức lương khởi điểm của giáo viên;
b = 𝐸𝐸 𝑌𝑌 𝑋𝑋 = x + 1 − 𝐸𝐸 𝑌𝑌 𝑋𝑋 = x là tốc độ tăng lương b.quân của g.viên
Để tìm hiểu sự tác động của giới tính đến lương cần đưa thêm một biến giả D vào mô
1, 𝑛𝑛𝑛𝑛𝑛 g. v 𝑥𝑥 𝑙𝑙𝑙 𝑛𝑛𝑛𝑛𝑛𝑛
hình để mô tả sự tác động của giới tính. Đặt: Z(𝑥𝑥) = �
0, 𝑛𝑛𝑛𝑛𝑛 g. v 𝑥𝑥 𝑙𝑙𝑙 𝑛𝑛𝑛
Có các tình huống:
* TH1: Lương khởi điểm của g.v nam và nữ khác nhau, nhưng tốc độ tăng lương của nam
và nữ là như nhau. Như vậy giới tính chỉ tác động vào hệ số a (tung độ gốc), vì thế ta đặt:
𝑎𝑎 = a0 + a1 Z (dịch chuyển tung độ gốc) và MH trong TH1 là:
𝐸𝐸 𝑌𝑌 𝑋𝑋 = a0 + a1 Z + 𝑏𝑏. 𝑋𝑋

𝑌𝑌 = a0 + a1 Z + 𝑏𝑏. 𝑋𝑋 + 𝑈𝑈
Do đó: Lương khởi điểm b.quân của g.v nữ là 𝑎𝑎 = a0 Z = 0 , của g.v nam là 𝑎𝑎 = a0 + a1

TS. Trần Kim Thanh


* TH2: Lương khởi điểm của g.v nam và nữ như nhau, nhưng tốc độ tăng lương của nam
và nữ là khác nhau. Như vậy giới tính chỉ tác động vào hệ số b (hệ số góc), vì thế ta đặt:
b = b0 + b1 Z (dịch chuyển độ dốc) và MH trong TH2 là:
𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝑎𝑎 + b0 + b1 Z . 𝑋𝑋 = a + b0 X + b1 XZ

𝑌𝑌 = a + b0 X + b1 XZ + 𝑈𝑈
Do đó: tốc độ tăng lương b.quân của g.v nữ là b = b0 (Z = 0), của nam là b = b0 + b1
* TH3: Lương khởi điểm của g.v nam và nữ khác nhau và tốc độ tăng lương của nam và
nữ cũng khác nhau. Như vậy giới tính tác động vào cả hệ số a và hệ số b, vì thế ta đặt:
𝑎𝑎 = a0 + a1 Z, b = b0 + b1 Z và MH TH3 là:
𝐸𝐸 𝑌𝑌 𝑋𝑋 = 𝑎𝑎 = a0 + a1 Z + b0 + b1 Z . 𝑋𝑋 = a0 + a1 Z + b0 X + b1 XZ

𝑌𝑌 = a0 + a1 Z + b0 X + b1 XZ + 𝑈𝑈
Do đó: Lương khởi điểm b.quân của g.v nữ là 𝑎𝑎 = a0 Z = 0 , của g.v nam là 𝑎𝑎 = a0 + a1 ,
tốc độ tăng lương b.quân của g.v nữ là b = b0 (Z = 0), của nam là b = b0 + b1
b. MH hồi quy tuyến tính từng khúc
Khi mẫu q/sát về biến phụ thuộc Y theo biến độc lập X được chia theo k giai đoạn biến
thiên khác nhau của X, thay vì phải dùng k MH để mô tả sự phụ thuộc thì bằng việc sử
dụng k – 1 biến giả, có thể gộp k MH hồi quy đó vào một MH có biến giả. Hơn nữa nếu
cần ta chia nhỏ mỗi giai đoạn biến thiên của X, để có thể xem trong mỗi giai đoạn đó PRF
là tuyến tính cổ điển, phương pháp này gọi là hồi quy tuyến tính từng khúc. Do PRF trên
mỗi giai đoạn có tung độ gốc và độ dốc có thể khác nhau, nên cần dịch chuyến cả tung độ
dốc và độ dốc.
Ví dụ 5. Từ kết quả điều tra về biến phụ thuộc Y và biến độc lập X dưới đây, hãy thiết lập
MH PRF hồi quy tuyến tính từng khúc của Y theo X và MH SRF ước lượng.
X Y X Y X Y X Y X Y X Y X Y X Y
1 1 2.5 4.5 4 6 5.5 2.5 7 2.5 8.5 7.5 10 9.5 11.5 5.5
1.5 2.5 3 6 4.5 6.5 6 1.5 7.5 4 9 7 10.5 8.5 12 5
2 3.5 3.5 7.5 5 4 6.5 1.5 8 5 9.5 9.5 11 7 12.5 3.5
10
Biểu đồ phân tán của Y theo X cho thấy các điểm q.sát
dao động theo một đường cong khó định dạng mà 8

chắc chắn không thể là đường thẳng. Tuy nhiên


trong mỗi khoảng biến thiên [1, 4], (4, 7], (7, 10],
6

(10, 12], các điểm phân tán lại rất thẳng, nên ta

Y
4

nhận dạng PRF là tuyến tính cổ điển trên mỗi


khoảng đó. Điều đó cho thấy các PRF phụ thuộc vào 2

4 giai đoạn biến thiên của X nên ta đưa vào 3 biến 0

giả nhị phân thay thế cho biến thuộc tính 0 2 4 6 8 10 12 14

trong đó khoảng (10, 12] là thuộc tính cơ sở : X

1, 𝑋𝑋 ∈ [1, 4] 1, 𝑋𝑋 ∈ (4, 7] 1, 𝑋𝑋 ∈ (7, 10]


D1 = � ; D2 = � ; D3 = �
0, 𝑋𝑋 ∉ [1, 4] 0, 𝑋𝑋 ∉ (4, 7] 0, 𝑋𝑋 ∉ (7, 10]
Khi đó MH PRF tuyến tính từng khúc của Y theo X là:
E Y X, D1 , D2 , D3 = a0 + a1 D1 + a2 D2 + a3 D3 + b0 + b1 D1 + b2 D2 + b3 D3 X

Y = a0 + a1 D1 + a2 D2 + a3 D3 + b0 + b1 D1 + b2 D2 + b3 D3 X + U
Từ k.quả chạy SRF với các biến Y, X, D1 , D2 , D3 , X. D1 , X. D2 , X. D3 , nhận được SRF:

Y = 33,5 − 33,98D1 − 21,05D2 − 46,67D3 + −2,4 + 4,36D1 + 0,77D2 + 4.71D3 X + U
Trong hình trên, SRF được mô tả bởi đường gấp khúc, trong đó đoạn đầu ứng với D1 = 1,
D2 = D3 = 0; đoạn thứ hai ứng với D1 = 0, D2 = 1, D3 = 0; đoạn thứ ba ứng với
D1 = D2 = 0, D3 = 1; đoạn thứ tư ứng với D1 = D2 = D3 = 0;
Dependent Variable: Y
Method: Least Squares
Included observations: 24
Variable Coefficient Std. Error t-Statistic Prob.
C 33.50000 6.539605 5.122633 0.0001
X -2.400000 0.567589 -4.228409 0.0006
D1 -33.98214 6.603075 -5.146412 0.0001
D2 -21.05238 6.999082 -3.007877 0.0083
D3 -46.66667 7.549508 -6.181418 0.0000
X*D1 4.364286 0.661222 6.600337 0.0000
X*D2 0.771429 0.711511 1.084212 0.2943
X*D3 4.714286 0.711511 6.625739 0.0000
R-squared 0.910298 Mean dependent var 5.062500
Adjusted R-squared 0.871053 S.D. dependent var 2.499185
S.E. of regression 0.897438 Akaike info criterion 2.882655
Sum squared resid 12.88631 Schwarz criterion 3.275340
Log likelihood -26.59186 Hannan-Quinn criter. 2.986835
Prob(F-statistic) 0.000000 Durbin-Watson stat 2.599273

R2 = 0,910298: cho thấy MH phù hợp tốt với dữ liệu q.sát, 91,0298% những biến động
của biến phụ thuộc Y đã được giải thích bởi MH.
c. Ứng dụng phân tích mùa trong chuỗi thời gian. Trong phân tích chuỗi thời gian, để thấy
rõ sự tác động của yếu tố thời vụ và lượng hóa sự tác động đó lên chuỗi thời gian, người
ta sử dụng kỹ thuật biến giả, coi yếu tố thời vụ là một biến định tính tác động lên chuỗi
thời gian, từ đó đưa các biến giả đại diện cho biến Thời vụ vào MH hồi quy. Có thể minh
họa ứng dụng này bởi ví dụ 3 (chuỗi thời gian là lượng tủ lạnh bán được theo các quý)

You might also like