Professional Documents
Culture Documents
1.1. Mở đầu
1.1.1. Đặt vấn đề
Trong nghiên cứu cũng như trong các hoạt động thực tiễn, người ta muốn phân
tích và dự báo sự biến động của một biến quan sát Y trong sự phụ thuộc vào các
biến quan sát khác (có thể định lượng hoặc định tính): X1 , X2 , … , Xk−1 . Biến Y
được gọi là biến phụ thuộc, X1 , X2 , … , Xk−1 gọi là các biến độc lập hay các biến
giải thích. Khi sự biến động của Y không ảnh hưởng bởi các tác động của các biến
giải thích thì có nghĩa là Y độc lập thống kê với các biến này. Trong trường hợp
ngược lại, ta nói có sự phụ thuộc thống kê giữa Y và các biến giải thích và cần tìm
một mô hình toán học để mô tả sự phụ thuộc đó, đồng thời thông qua mô hình
này để phân tích, đánh giá và dự báo cho sự biến động của biến phụ thuộc Y.
- Biến định lượng là biến quan sát mà các giá trị thể hiện của nó là các con số.
- Biến định tính là biến quan sát mà các giá trị thể hiện của nó không phải là các
con số mà là các thuộc tính
1.1.2. Các ví dụ
Ví dụ 1: K/sát sự phụ thuộc của Y là điểm thi môn Toán cao cấp của sinh viên vào
điểm quá trình X1 và điểm môn Toán tốt nghiệp PTTH X2 , ta thấy:
Y là biến phụ thuộc (định lượng) và X1 , X2 là các biến giải thích (đều định lượng)
Ví dụ 2. Nếu quan tâm đến Y là kết quả thi đạt hay không đạt môn Toán cao cấp
trong sự liên hệ với điểm quá trình X1 , điểm môn Toán tốt nghiệp PTTH X2 và
giới tính X3 của sinh viên, thì: Y là biến phụ thuộc (biến định tính với 2 thuộc
tính: đạt, không đạt), các biến giải thích là: X1 (định lượng), X2 (định lượng) và X3
(biến định tính với 2 thuộc tính: nam, nữ).
1.2. Dữ liệu định tính và dữ liệu định lượng
1.2.1. K/n về dữ liệu
- Dữ liệu về một biến quan sát là kết quả quan sát (điều tra, lấy mẫu) của biến
quan sát đó
- Dữ liệu định tính là kết quả quan sát được về một biến định tính
- Dữ liệu định lượng là kết quả quan sát được về một biến định lượng
Quá trình chạy mô hình và chất lượng mô hình phụ thuộc vào các đặc tính của
dữ liệu
Ví dụ 3. Có số liệu về lãi suất X (%) gửi tiết kiệm 6 tháng của 10 ngân hàng như
sau: 6, 7, 6,5, 6, 6,5, 7, 7,5, 5,5, 7, 6. Đây là dữ liệu định lượng
Ví dụ 4. Có kết quả thăm dò sự ưa thích Y (thích/không thích) của người dùng
đ/v các nồng độ chất béo khác nhau X(%) trong một loại nước sauce:
Nồng độ chất béo 1.35 1.60 1.75 1.85 1.95 2.05 2.15 2.25 2.35
Số người thích 13 19 67 45 71 50 35 7 1
Số người không thích 0 0 2 5 8 20 31 49 12
- Dữ liệu về X là dữ liệu định lượng, dữ liệu về Y là dữ liệu định tính
TS. Trần Kim Thanh
1.2.2. Phân loại dữ liệu.
- Dữ liệu thời gian (chuỗi thời gian): Dữ liệu về biến quan sát trên cùng một đối tượng tại
nhiều thời kỳ, thời điểm khác nhau.
- Dữ liệu chéo : Dữ liệu về biến quan sát trên cùng một thời gian (thời kỳ hay thời điểm)
trên nhiều đối tượng khác nhau.
- Dữ liệu hỗn hợp: Dữ liệu về biến quan sát trên nhiều đối tượng khác nhau tại nhiều thời
gian (thời kỳ, thời điểm) khác nhau.
7 ngày qua tại Tp. HCM → Dữ liệu theo t. g
Ví dụ 5. K/s giá vàng: �trong 1 ngày tại 7 đ. p khác nhau → Dữ liệu chéo
trong 10 ngày tại 7 tỉnh → Dữ liệu hỗn hợp
1.2.3. Nguồn dữ liệu.
- S.liệu thử nghiệm nhận được từ việc tiến hành thử nghiệm trong những đ/k nhất định
nào đó để q.sát, đo đạc. Chúng thường x.hiện trong các l.vực KH, KT.
- S.liệu thực tế không chịu t.động ả.hưởng của người đ.tra, q.sát. Đ.với các s.liệu thực tế,
việc p.tích ả.hưởng của một yếu tố nào đó đ.với biến p.thuộc sẽ k.khăn hơn do không
k.soát được những tác động của chúng.
1.3. Sự phụ thuộc thống kê. Thống kê mô tả
1.3.1. Sự phụ thuộc thống kê. Nói biến quan sát Y phụ thuộc thống kê vào biến (hoặc véc
tơ) quan sát X, nếu với mỗi giá trị của X có nhiều giá trị tương ứng của Y.
- Sự phụ thuộc này là khá phổ biến trong thực tế. Chẳng hạn: ứng với cùng một chỉ số
chiều cao X, có nhiều người có cân nặng Y khác nhau; với cùng một mức chi phí đầu vào
X, nhưng có nhiều doanh nghiệp có mức lợi nhuận Y khác nhau,...
1.3.2. Một số đặc trưng trên mẫu. Với (X1 , X2 , … , Xn ) là mẫu kích thước n về biến X:
𝟏𝟏
- Trung bình mẫu: X = 𝒏𝒏 ∑𝒏𝒏𝒋𝒋=𝟏𝟏 𝑿𝑿𝒋𝒋
2
- Phương sai mẫu: S 2 X = 𝑋𝑋 2 − 𝑋𝑋 ; Độ lệch chuẩn của mẫu: S X = S2 X
n 1 𝟏𝟏
Chú ý: Các phần mềm thống kê gọi : S′2 X = n−1 S 2 X = 𝑛𝑛−1 ∑𝑛𝑛𝑗𝑗=1 𝑋𝑋𝑗𝑗2 − 𝒏𝒏−1 ∑𝒏𝒏𝒋𝒋=𝟏𝟏 𝑿𝑿𝒋𝒋 là
phương sai mẫu và thường ký hiệu là Var(X); S′ X = 𝑆𝑆 ′ 2 X = 𝑉𝑉𝑉𝑉𝑉𝑉 𝑋𝑋 = se(X) là
độ lệch chuẩn trên mẫu.
- Tần suất mẫu: nếu số phần tử có tính chất A trên mẫu là m(A), thì tần suất mẫu về tính
m(A)
chất A (hay tỷ lệ tính chất A trên mẫu là: f A =
n
- Mốt: Mod (X) = giá trị mẫu được lặp lại nhiều nhất
- Trung vị (median): Med (X) là giá trị chia mẫu thành 2 nửa đều nhau
Nếu (Y1 , Y2 , … , Yn ) là mẫu ngẫu nhiên kích thước n về biến quan sát Y:
X.Y −X.Y
- Hệ số tương quan mẫu giữa X và Y là: r X, Y =
S X .S(Y)
Ví dụ 6. Từ kết quả điều tra sau về chiều cao X(cm) và cân nặng Y(kg) của một số nam sinh
viên năm thứ nhất của một trường đại học, hãy tính các đặc trưng: độ lệch chuẩn trên
mẫu, Med(X), Med(Y) và hệ số tương quan mẫu r(X,Y):
Y X 158 160 162 164 168 170 172
50 20 25 15 5
55 5 16 20 3 2
60 2 3 20 20 3 2
65 4 6 10 15 3 2
1.4. Một số phân phối xác suất quan trọng
1.4.1. Phân phối Nhị thức B(n,p)
a. ĐN. Phân phối Nhị thức với các tham số n và p (n ∈ ℕ∗ , 0 < p < 1) là phân phối xác
suất của biến ngẫu nhiên rời rạc X có tập giá trị: 0, 1, 2,..., n có xác suất tương ứng
j
p0 , p1 , … , pn , với: pj = Cn . pj 1 − p n−j , j = 0,1, … , n . Khi đó ta viết: X~B(n, p)
b. Chú ý:
b1. Với X~B(n, p) thì: EX = n.p; Var(X) = n.p.(1 – p).
b2. Nếu X1 , X2 , … , X k là các biến ngẫu nhiên độc lập, có cùng phân phối B(n,p) thì biến
X = X1 + X2 + Xk có phân phối Nhị thức B(k.n, p).
c. Mô hình Nhị thức (cơ chế tạo ra một biến ngẫu nhiên có phân phối Nhị thức): Giả sử
trong phép thử ta quan sát biến cố ngẫu nhiên A, mà ta gọi là sự kiện “Thành công”, với
xác suất p = P(A) là xác suất thành công. Khi đó nếu gọi X là số thành công trong n lần
lặp lại phép thử, thì theo công thức Becnoulli, xác suất để có k lần thành công là:
𝑝𝑝𝑘𝑘 = 𝑃𝑃 𝑌𝑌 = 𝑘𝑘 = 𝐶𝐶𝑛𝑛𝑘𝑘 . 𝑝𝑝𝑘𝑘 . 1 − 𝑝𝑝 𝑛𝑛−𝑘𝑘 , 𝑘𝑘 = 0,1,2, … , 𝑛𝑛
Như vậy mô hình lặp lại n lần một phép thử cho ta một biến ngẫu nhiên có phân phối
Nhị thức 𝐵𝐵(𝑛𝑛, 𝑝𝑝), đó là X: Số thành công trong n lần thử.
Ví dụ 7. Được biết trong số những người điều khiển phương tiện giao thông gây tai nạn,
tỷ lệ người có uống bia rượu quá nồng độ cho phép ở hai khu vực A và B đều là p = 40%.
Gọi X1 và X2 tương ứng là số người uống bia rượu quá nồng độ cho phép trong số n
người đ/k phương tiện giao thông gây tai nạn ở khu vực A và B. Khi đó X1 và X2 độc lập
nhau và có cùng phân phối B(n; 0,4) và tổng số người uống bia rượu quá nồng độ cho
phép trong số n vụ đ/k phương tiện giao thông gây tai nạn ở khu vực A và n vụ tương tự
ở B là: X = X1 + X2 có phân phối Nhị thức B(2n; 0,4)
TS. Trần Kim Thanh
1.4.2. Phân phối Đa thức
a. ĐN. Xét dãy n phép thử độc lập , trong mỗi phép thử có một và chỉ một trong k sự kiện
𝐴𝐴1 , 𝐴𝐴2 , … , 𝐴𝐴𝑘𝑘 xảy ra với xác suất tương ứng 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘 , 𝑝𝑝1 + 𝑝𝑝2 + ⋯ + 𝑝𝑝𝑘𝑘 = 1 . Gọi 𝑋𝑋𝑖𝑖
là số lần xuất hiện sự kiện 𝐴𝐴𝑖𝑖 𝑖𝑖 = 1,2, … , 𝑘𝑘 trong n lần thử. Khi đó luật phân phối của
véc tơ ngẫu nhiên 𝑋𝑋 = 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 được gọi là phân phối đa thức k chiều với các
tham số 𝑛𝑛, 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘−1 .
b. Phân phối của véc tơ ngẫu nhiên có phân phối đa thức k chiều.
Giả sử 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) là véc tơ có phân phối đa thức k chiều. Ta có 𝑋𝑋𝑖𝑖 ~𝐵𝐵 𝑛𝑛, 𝑝𝑝𝑖𝑖 (𝑖𝑖 =
1,2, … , 𝑘𝑘) và: 𝑋𝑋1 + 𝑋𝑋2 + ⋯ + 𝑋𝑋𝑘𝑘 = 𝑛𝑛, vì thế 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) là véc tơ rời rạc k chiều,
mỗi giá trị của nó là một điểm k chiều có tọa độ nguyên không âm: 𝑟𝑟1 , 𝑟𝑟2 , … , 𝑟𝑟𝑘𝑘 , sao cho:
𝑟𝑟1 + 𝑟𝑟2 + ⋯ + 𝑟𝑟𝑘𝑘 = 𝑛𝑛. Mỗi kết cục thuận lợi cho biến cố (𝑋𝑋1 = 𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 ) là
một dãy gồm n sự kiện liên kết với nhau bởi phép giao, trong đó: 𝐴𝐴1 xuất hiện 𝑟𝑟1 lần, 𝐴𝐴2
xuất hiện 𝑟𝑟2 lần, ,…, 𝐴𝐴𝑘𝑘 xuất hiện 𝑟𝑟𝑘𝑘 lần. Như vậy số kết cục thuận lợi cho biến cố (𝑋𝑋1 =
𝑟𝑟
𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 ) chính là số cách chọn 𝑟𝑟1 vị trí cho 𝐴𝐴1 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛1 𝑐𝑐𝑐𝑐𝑐𝑐), 𝑟𝑟2 vị trí cho
𝑟𝑟2 𝑟𝑟𝑘𝑘−1
𝐴𝐴2 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛−𝑟𝑟 1
𝑐𝑐𝑐𝑐𝑐𝑐),…,𝑟𝑟 𝑘𝑘 vị trí cho 𝐴𝐴 𝑘𝑘 (𝑐𝑐𝑐 𝐶𝐶𝑛𝑛−𝑟𝑟1 −𝑟𝑟2 −⋯𝑟𝑟𝑘𝑘−2 𝑐𝑐𝑐𝑐𝑐𝑐) trong dãy n vị trí nói trên,
𝑟𝑟 𝑟𝑟 𝑟𝑟 𝑟𝑟 𝑛𝑛!
tức là bằng: 𝐶𝐶𝑛𝑛1 . 𝐶𝐶𝑛𝑛−𝑟𝑟
2
. 𝐶𝐶𝑛𝑛−𝑟𝑟
3
1 −𝑟𝑟2
… . . 𝐶𝐶𝑛𝑛−𝑟𝑟
𝑘𝑘−1
1 −𝑟𝑟2 −⋯𝑟𝑟𝑘𝑘−2
=
𝑟𝑟
1 1 !𝑟𝑟2 !…𝑟𝑟𝑘𝑘 !
Mặt khác do các lần thử độc lập nhau nên mỗi kết cục này đều có xác suất:
𝑟𝑟 𝑟𝑟 𝑟𝑟
𝑝𝑝11 . 𝑝𝑝22 … . . 𝑝𝑝𝑘𝑘𝑘𝑘
Từ đó nhận được phân phối xác suất của véc tơ ngẫu nhiên có phân phối đa thức k chiều:
𝑛𝑛! 𝑟𝑟 𝑟𝑟 𝑟𝑟
𝑃𝑃 𝑋𝑋1 = 𝑟𝑟1 , 𝑋𝑋2 = 𝑟𝑟2 , … , 𝑋𝑋𝑘𝑘 = 𝑟𝑟𝑘𝑘 = !𝑟𝑟 !…𝑟𝑟 ! . 𝑝𝑝11 . 𝑝𝑝22 … . . 𝑝𝑝𝑘𝑘𝑘𝑘 (*)
𝑟𝑟1 2 𝑘𝑘
với mọi điểm 𝑟𝑟1 , 𝑟𝑟2 , … , 𝑟𝑟𝑘𝑘 có tọa độ nguyên, không âm mà: 𝑟𝑟1 + 𝑟𝑟2 + ⋯ + 𝑟𝑟𝑘𝑘 = 𝑛𝑛.
TS. Trần Kim Thanh
Nhận xét:
- Đối với véc tơ ngẫu nhiên 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘 ) có phân phối đa thức k chiều, với các
tham số 𝑛𝑛, 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘−1 , ta có véc tơ kỳ vọng:
𝐸𝐸𝐸𝐸 = 𝐸𝐸𝑋𝑋1 , 𝐸𝐸𝑋𝑋2 , … , 𝐸𝐸𝑋𝑋𝑘𝑘 = (𝑛𝑛𝑛𝑛1 , 𝑛𝑛𝑝𝑝2 , … , 𝑛𝑛𝑝𝑝𝑘𝑘 )
- Phân phối đa thức với k = 2, là phân phối đồng thời của 2 biến nhị thức X1, n – X1, trong
đó X1 ~ B(n, p1), (n – X1) ~ B(n, 1- p1).
- Nói chung tham số n được xác định trước, nên phân phối đa thức được xác định bởi k –
1 tham số trong k tham số 𝑝𝑝1 , 𝑝𝑝2 , … , 𝑝𝑝𝑘𝑘 .
Ví dụ 8. Mỗi khách hàng sử dụng dịch vụ A có thể chọn một trong 3 mức phí phục vụ: 100
ngàn đồng, 150 ngàn đồng và 200 ngàn đồng. Được biết lượng khách chọn các mức phí
này tương ứng theo tỷ lệ: 5: 3: 2. Có 3 khách hàng vào sử dụng dịch vụ này và sự lựa chọn
của họ là độc lập với nhau, Tìm xác suất để có ít nhất 2 khách chọn mức phí 200 ngàn
đồng.
Giải: Gọi 𝑋𝑋1 , 𝑋𝑋2 , 𝑋𝑋3 lần lượt là số khách chọn mức phí 100 ngàn đồng, 150 ngàn đồng,
200 ngàn đồng trong số 3 khách nói trên. Khi đó véc tơ 𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , 𝑋𝑋3 ) là véc tơ ngẫu
nhiên có phân phối đa thức 3 chiều. Ký hiệu S là biến cố trong số 3 khách hàng có ít nhất
2 khách chọn mức phí 200 ngàn đồng, ta có biểu diễn:
𝑆𝑆 = 𝑋𝑋1 = 0, 𝑋𝑋2 = 1, 𝑋𝑋3 = 2 ∪ 𝑋𝑋1 = 1, 𝑋𝑋2 = 0, 𝑋𝑋3 = 2 ∪ 𝑋𝑋1 = 0, 𝑋𝑋2 = 0, 𝑋𝑋3 = 3
Từ đó suy ra xác suất cần tính:
3! 3! 3!
𝑃𝑃 𝑆𝑆 = . 0,3. 0,22 + . 0,5. 0,22 + . 0,23 = 0,104
0! 1! 2! 1! 0! 2! 0! 0! 3!
1.4.3. Phân phối Poisson
a. ĐN: Phân phối Poisson với tham số 𝜆𝜆 (𝜆𝜆 > 0), ký hiệu là 𝑃𝑃(𝜆𝜆) là phân phối của biến
ngẫu nhiên rời rạc X có bảng phân phối xác suất như sau:
X 0 1 2 … n … ∑
P p0 p1 p2 … pn … 1
𝜆𝜆𝑘𝑘 .𝑒𝑒 −𝜆𝜆
Trong đó: 𝑝𝑝𝑘𝑘 = 𝑃𝑃 X = 𝑘𝑘 = 𝑘𝑘!
, 𝑘𝑘
= 0,1,2, …
Ký hiệu: X ∼ 𝑃𝑃(𝜆𝜆) để chỉ Y là biến có phân phối Poisson với tham số 𝜆𝜆.
b. Mô hình: Số lần xuất hiện một biến cố ngẫu nhiên A nào đó trong một khoảng thời
gian, hay trong một không gian nhất định, là biến ngẫu nhiên có phân phối Poisson.
c. Chú ý:
c1. Với X ∼ 𝑃𝑃(𝜆𝜆) thì E(X) = Var(X) = 𝜆𝜆
c2. Nếu X1 , X2 , … , Xk là các biến ngẫu nhiên độc lập, có cùng phân phối 𝑃𝑃(𝜆𝜆) thì
X = X1 + X2 + Xk có phân phối 𝑃𝑃 k. 𝜆𝜆 .
c3. Phân phối 𝑃𝑃(𝜆𝜆) xủa biến X hoàn toàn được xác định bởi tham số 𝜆𝜆 = E(X)
Ví dụ 9. Được biết bình quân số khách hàng đến các hệ dịch vụ A và B trong một giờ làm
việc đều là 20. Gọi X1 , X2 tương ứng là số khách hàng đến hệ dịch vụ A, B trong một giờ
làm việc. Khi đó X1 , X2 là các biến độc lập nhau, có cùng phân phối 𝑃𝑃 20 và tổng số
khách đến các hệ dịch vụ A, B trong một giờ làm việc là X = X1 + X2 có phân phối 𝑃𝑃 40 .
1.4.4. Phân phối chuẩn
a. ĐN. Phân phối chuẩn với các tham số 𝜇𝜇 và σ 𝜎𝜎 > 0 , ký hiệu N(𝜇𝜇, 𝜎𝜎 2 ) là phân phối
1 x−𝜇𝜇 2
1 −2 𝜎𝜎
của biến ngẫu nhiên X có hàm mật độ xác suất: f x = .e ,x ∈ ℝ.
𝜎𝜎 2𝜋𝜋
TS. Trần Kim Thanh
b. Chú ý
b1. Ký hiệu X~N(𝜇𝜇, 𝜎𝜎 2 ) để chỉ X là biến ngẫu nhiên có phân phối chuẩn với các tham số
𝜇𝜇, 𝜎𝜎 2 và khi đó E X = 𝜇𝜇, Var X = 𝜎𝜎 2 .
b2. Nếu X~N(𝜇𝜇, 𝜎𝜎 2 ) thì hàm phân phối xác suất của X là:
x x 1 t−𝜇𝜇 2
1 −
F x = P(X < x) = � f t dt = � e 2 𝜎𝜎 dt
−∞ 𝜎𝜎 2𝜋𝜋 −∞
1
b3. X~N 𝜇𝜇, 𝜎𝜎 2 ⇔ Y = (X − 𝜇𝜇)~N(0,1)
𝜎𝜎
Phân phối N 0,1 (𝜇𝜇 = 0, 𝜎𝜎 2 = 1) được gọi là phân phối chuẩn chính tắc, có hàm mật độ:
1 1
1 −2x2 1 x −2t2
φ x = .e và hàm phân phối: Φ x = ∫ e dt
2𝜋𝜋 2𝜋𝜋 −∞
b4. Nếu X1 , X2 , … , Xk độc lập, có phân phối N 𝜇𝜇, 𝜎𝜎 2 thì X = X 1 + X 2 + X k ~N k𝜇𝜇, k𝜎𝜎
2
b5. Mô hình phân phối chuẩn: Trong thực tế, nhiều biến quan sát liên tục tuân theo luật
phân phối chuẩn hoặc xấp xỉ chuẩn như: sai số của các phép đo; tuổi thọ của một loại sinh
vật, của sản phẩm; sự dao động (sai lệch) giữa giá trị của một biến quan sát xung quanh
giá trị trung bình của nó; biến trung bình mẫu khi cỡ mẫu lớn,...
1.4.5. Phân phối Chi-square và phân phối Student
a/ Phân phối Chi-square với n bậc tự do là phân phối của đại lượng ngẫu nhiên:
2 2 2
𝜒𝜒 2 (Chi − square) = 𝑋𝑋 + 𝑋𝑋 + ⋯ + 𝑋𝑋 ,
1 2 𝑛𝑛
trong đó 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có phân phối chuẩn chính tắc.
2
Ký hiệu 𝜒𝜒 2 ~𝜒𝜒 để chỉ 𝜒𝜒 2 là đại lượng ngẫu nhiên có phân phối khi-bình phương với n bậc
𝑛𝑛
tự do.
b/ Phân phối Student với n bậc tự do là phân phối xác suất của đại lượng ngẫu nhiên:
𝑋𝑋 2
𝑇𝑇 = , trong đó 𝑋𝑋 và 𝑌𝑌 độc lập nhau và 𝑋𝑋~𝑁𝑁 0, 1 , 𝑌𝑌~𝜒𝜒 .
𝑌𝑌/𝑛𝑛 𝑛𝑛
2
• Ký hiệu 𝜒𝜒 (α) là phân vị mức 1 − α của biến ngẫu nhiên có phân phối khi-bình
𝑛𝑛
phương với n bậc tự do, còn gọi là giá trị tới hạn mức 𝛼𝛼 của phân phối khi-bình phương.
Hàm phân phối xác suất của T dần về hàm phân phối chuẩn chính tắc khi 𝑛𝑛 → ∞
Trong thực hành, với 𝑛𝑛 ≥ 30 thì có thể coi T có phân phối xấp xỉ phân phối chuẩn N(0; 1).
• Ký hiệu 𝑡𝑡𝑛𝑛 (𝛼𝛼) là phân vị mức 1 − 𝛼𝛼 của đại lượng ngẫu nhiên có phân phối Student với
n bậc tự do, còn gọi là giá trị tới hạn mức 𝛼𝛼 của phân phối Student và được cho bởi bảng
phụ lục II với chú ý: 𝑡𝑡𝑛𝑛 (𝛼𝛼) = −𝑡𝑡𝑛𝑛 (1 − 𝛼𝛼).
• Nếu 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có cùng phân phối 𝜒𝜒 2 với m bậc tự do thì 𝑋𝑋1 + 𝑋𝑋2 +
⋯ + 𝑋𝑋𝑛𝑛 có phân phối 𝜒𝜒 2 với n.m bậc tự do.
• Nếu 𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑛𝑛 độc lập nhau và có cùng phân phối 𝑁𝑁 𝑎𝑎, 𝜎𝜎 2 thì biến ngẫu nhiên
𝑋𝑋�𝑛𝑛 −𝑎𝑎 𝑛𝑛−1 1
𝑡𝑡 = có phân phối Student với (n – 1) bậc tự do (𝑋𝑋�𝑛𝑛 = . ∑nj=1 Xj )
𝑆𝑆(𝜉𝜉) 𝑛𝑛
Như vậy đối với biến ngẫu nhiên có phân phối chuẩn thì trung bình mẫu X là ước lượng
hợp lý nhất cho giá trị trung bình tổng thể μ = EX và phương sai mẫu S 2 X là ước
lượng hợp lý nhất cho phương sai tổng thể σ2 = Var(X).
(tính nhờ MTBT hoặc chạy trên các phần mềm ứng dụng) 100
Y
50
Dependent Variable: Y
0
Method: Least Squares
Included observations: 10 -50
*Tuyến tính cổ điển Y = a + b.X + U Lượng thay đổi của Y khi X tăng 1 đơn vị.
*Tuyến tính log (log kép) lnY = a + b.lnX +U Khi X tăng 1% thì Y thay đổi b%.
*Log –lean lnY = a + b.X + U Khi X tăng 1 đ.vị thì Y thay đổi 100b%
*Lean –log Y = a + b.lnX + U Khi X tăng 1% thì Y thay đổi b/100 đ.vị.
*Nghịch đảo 𝑏𝑏
𝑌𝑌 = 𝑎𝑎 + + U
𝑋𝑋
- MH log-log được ứng dụng trong các MH sản xuất, quan hệ giữa đầu ra với đầu vào
- MH log-lean thích hợp cho các trường hợp k/sát tốc độ tăng trưởng, suy thoái của các
biến kinh tế vĩ mô: lượng cung tiền, thâm hụt thương mại, năng suất, dân số, lao động,
GDP, GNP,....
- MH lean – log thường sử dụng trong trường hợp quan tâm đến lượng thay đổi tuyệt
đối của biến phụ thuộc khi biến độc lập thay đổi 1%. Nó có thể được dùng để k/sát một
số quan hệ như: diện tích sử dụng của căn nhà tác động tới giá nhà, diện tích trồng trọt
tác động tới sản lượng của cây trồng, lượng cung tiền ảnh hưởng tới GNP,...
- MH nghịch đảo có thể áp dụng khi: Y là chi phí sản xuất cố định bình quân và sản lượng
X. Khi sản lượng tăng thì chi phí sản xuất cố định bình quân trên một sản phẩm có khuynh
hướng giảm dần, nhưng không vượt quá một mức tối thiểu a.
2.2. Hướng dẫn chạy MH hồi quy đơn trên phần mềm ứng dụng
2.2.1. Chạy trên MTBT (máy tính bỏ túi): HD S/v tham khảo trên Google
2.2.2. Chạy trên phần mềm Eviews
B1. Xác định biến độc lập, biến phụ thuộc, loại dữ liệu và khai biến, nhập dữ liệu
B2. Vẽ biểu đồ phân tán và nhận dạng PRF.
B3. Chạy hồi quy (tìm SRF) ước lượng cho PRF, viết MH SRF
Lưu ý: Khi chạy hồi quy cho các MH tuyến tính lean-log, log-lean, tuyến tính log, nghịch
đảo, Parabol,... , sau B1 (khai biến X, Y và nhập dữ liệu, chuyển sang chạy hồi quy:
- Đ/v MH lean-log: gõ y c log(x). Đ/v MH log-lean: gõ log(y) c x. Đ/v MH log-log: gõ log(y) c
log(x). Đ/v MH nghịch đảo: gõ y c 1/x . Nếu MH nào không có hệ số chặn thì không gõ c.
2.2.3. Tính các đặc trưng thống kê trên phần mềm Eviews
2.3. Mô hình hồi quy bội (mô hình hồi quy nhiều biến)
2.3.1. Các khái niệm
a. ĐN. MH hồi quy của một biến phụ thuộc Y theo véc tơ X gồm k – 1 biến độc lập
𝑋𝑋 = (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ), k ≥ 3) gọi là MH hồi quy bội k biến, cụ thể là MH
Y = f(𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U = E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U (4)
b. MH tuyến tính cổ điển k biến: PRF có dạng:
E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) = a0 + a1 X1 + a2 X2 + ⋯ + ak−1 Xk−1
tức là MH có dạng: 𝒀𝒀 = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 𝑿𝑿𝟏𝟏 + 𝒂𝒂𝟐𝟐 𝑿𝑿𝟐𝟐 + ⋯ + 𝒂𝒂𝒌𝒌−𝟏𝟏 𝑿𝑿𝒌𝒌−𝟏𝟏 + 𝑼𝑼 (5)
a0 , a1 , … , a𝑘𝑘−1 là các tham số, trong đó: a0 gọi là hệ số chặn hay hệ số tự do, aj gọi là hệ
số hồi quy riêng của biến Xj , j = 1,2, … , k − 1
Ý nghĩa: + a0 : giá trị trung bình của biến phụ thuộc Y khi 𝑋𝑋1 = 𝑋𝑋2 = ⋯ = 𝑋𝑋𝑘𝑘−1 = 0
+ aj : lượng thay đổi của biến phụ thuộc Y khi các biến Xj (j = 1,2, … , k − 1) tăng
thêm 1 đơn vị trong đ.kiện các biến độc lập khác và các yếu tố khác (nhiễu) không đổi.
c. Mô hình hồi quy bội tuyến tính hóa đươc:
- MH hồi quy bội mà PRF có tất cả các tham số ở dạng bậc nhất gọi là MH tuyến tính
- MH đưa được về MH tuyến tính bằng cách đổi biến hoặc đổi sang các tham số mới được
gọi là MH tuyến tính hóa được.
- MH tuyến tính được gọi: là tuyến tính log hay log-log, nếu tất cả các biến đều ở dạng
log; là lean-log, nếu biến phụ thuộc ở dạng bậc nhất (Y) và tất cả các biến giải thích ở
dạng log; là log-lean, nếu biến phụ thuộc ở dạng log (log(Y)) và tất cả các biến giải thích ở
dạng bậc nhất;
Tài liệu này chỉ xét các MH tuyến tính hóa được, do đó chỉ cần khảo sát chi tiết MH hồi
quy tuyến tính cổ điển làm đại diện.
𝛽𝛽 𝛽𝛽
Ví dụ 2. MH hàm sản xuất Cob-Douglas: Hàm f X1 , X2 = α. X1 1 . X2 2 biểu thị sự phụ
thuộc giữa sản lượng đầu ra Y theo hai yếu tố đầu vào chủ yếu của một mh sản xuất là
lượng lao động X1 và vốn X2 . Tuy nhiên sự phụ thuộc của Y vào X1 và X2 là sự phụ thuộc
thống kê, nên Y dao động xung quanh f X1 , X2 . Vì vậy chỉ có thể nhận dạng PRF của Y
𝛽𝛽 𝛽𝛽
theo X1 , X2 là: E Y X1 , X2 = f X1 , X2 = α. X1 1 . X2 2 , gọi là hàm sản xuất Cob-Douglas.
MH hàm sản xuất Cob-Douglas là:
𝛽𝛽 𝛽𝛽
Y = α. X1 1 . X2 2 + U (a)
Hàm s/x Cob-Douglas chứa các tham số α, 𝛽𝛽1 , 𝛽𝛽2 , mà 𝛽𝛽1 , 𝛽𝛽2 không ở dạng bậc nhất, nên
(a) là phi tuyến. Y dao động x/quanh f X1 , X2 nên lnY dao động x.quanh lnf X1 , X2 =
𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 (𝛽𝛽0 = ln𝛼𝛼) với sai số U = lnY − (𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 ). Có MH:
lnY = 𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 + U (b)
Như vậy (a) là MH phi tuyến, nhưng sau khi tuyến tính hóa ta nhận được (b)
TS. Trần Kim Thanh
2.3.2. Mô hình ước lượng cho mô hình hồi quy bội
Xét mô hình hồi quy tuyến tính cổ điển k biến:
𝒀𝒀 = E Y (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) + U = 𝒂𝒂𝟎𝟎 + 𝒂𝒂𝟏𝟏 𝑿𝑿𝟏𝟏 + 𝒂𝒂𝟐𝟐 𝑿𝑿𝟐𝟐 + ⋯ + 𝒂𝒂𝒌𝒌−𝟏𝟏 𝑿𝑿𝒌𝒌−𝟏𝟏 + 𝑼𝑼 (6)
Khi đó hàm hồi quy ước lượng SRF tương ứng ký hiệu là Y � có dạng:
�= �
Y f (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 ) = a� 0 + a� 1 X1 + a� 2 X2 + ⋯ + a� k−1 Xk−1 (7)
Trong đó: a� 0 là ước lượng cho hệ số chặn 𝒂𝒂0 , a� j là hệ số ước lượng cho hệ số hồi quy
riêng 𝒂𝒂j của biến giải thích Xj , j = 1,2, … , k − 1. Khi đó U � =Y−Y � là sai số ước lượng cho
sai số ngẫu nhiên U và mô hình ước lượng là:
Y=Y �+U � = a� 0 + a� 1 X1 + a� 2 X2 + ⋯ + a� k−1 Xk−1 + U � (8)
Tiến hành n quan sát cho véc tơ ngẫu nhiên k chiều (𝑋𝑋1 , 𝑋𝑋2 , … , 𝑋𝑋𝑘𝑘−1 , Y) ta có n bộ dữ
liệu: (𝑋𝑋1i , 𝑋𝑋2i , … , 𝑋𝑋𝑘𝑘−1,i , Yi ), i = 1, n. Khi đó U � i = Yi − Y
�i là sai số ước lượng ở lần quan
sát thứ i, i = 1, 2,..., n (Y �i = � f (𝑋𝑋1i , 𝑋𝑋2i , … , 𝑋𝑋𝑘𝑘−1,i ))
Chú ý: Các hệ số hồi quy ước lượng a� j có ý nghĩa như aj (trên cơ sở mẫu quan sát)
Theo phương pháp OLS, ta cần tìm các ước lượng a� 0 , a� 1 , … , a� k−1 cho a0 , a1 , … , a𝑘𝑘−1 sao
cho tổng bình phương các sai số ước lượng là nhỏ nhất, tức là:
n n
2
� �i = �
U Yi − (�a0 + a� 1 X1 + ⋯ + a� k−1 Xk−1 ) 2
= F(�a0 , a� 1 , … , a� k−1 ) ⟶ min
i=1 i=1
Bài toán đưa về tìm cực trị của F(�a0 , a� 1 , … , a� k−1 ) là hàm bậc 2 của k biến . Vì thế các hệ
số ước lượng cần tìm a� 0 , a� 1 , … , a� k−1 là nghiệm của hệ k phương trình tuyến tính k ẩn:
𝒂𝒂𝟎𝟎 ,�
𝝏𝝏𝝏𝝏(� 𝒂𝒂𝟏𝟏 ,…,�
𝒂𝒂𝒌𝒌−𝟏𝟏 )
= 𝟎𝟎, 𝒋𝒋 = 𝟎𝟎, 𝟏𝟏, … , 𝒌𝒌 − 𝟏𝟏 (9)
𝝏𝝏�
𝒂𝒂𝒋𝒋
Các MH (6), (8) được biểu diễn dưới dạng ma trận:
PRF: 𝒴𝒴 = 𝒳𝒳. 𝑎𝑎 + 𝒰𝒰 ; (6a) SRF: 𝒴𝒴 = 𝒳𝒳. 𝑎𝑎� + 𝒰𝒰� (8a)
−𝟏𝟏
Với đ/kiện 𝓧𝓧 khả nghịch, (9) có nghiệm duy nhất: 𝒂𝒂� = 𝓧𝓧𝑻𝑻 . 𝓧𝓧 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 (10)
1 𝑋𝑋11 ⋯ 𝑋𝑋𝑘𝑘−1,1 𝑌𝑌1 𝑈𝑈1 𝑎𝑎0
1 𝑋𝑋12 ⋯ 𝑋𝑋𝑘𝑘−1,2 𝑌𝑌2 𝑈𝑈2 𝑎𝑎1
Trong đó: 𝒳𝒳 = ; 𝒴𝒴 = ; 𝒰𝒰 = ; 𝑎𝑎 = ;
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮
1 𝑋𝑋1𝑛𝑛 ⋯ 𝑋𝑋𝑘𝑘−1,𝑛𝑛 𝑌𝑌𝑛𝑛 𝑈𝑈𝑛𝑛 𝑎𝑎𝑘𝑘−1
𝑌𝑌�1 �1
𝑈𝑈 𝑎𝑎�0
� � 𝑎𝑎�1
𝒴𝒴� = 𝑌𝑌2 ; 𝒰𝒰� = 𝑈𝑈2 ; 𝑎𝑎� =
⋮ ⋮ ⋮
𝑌𝑌�𝑛𝑛 �𝑛𝑛
𝑈𝑈 𝑎𝑎�𝑘𝑘−1
Chú thích: MH SRF nhiều biến có thể chạy trên các phần mềm ứng dụng như: Eviews, Stata,...
2.3.3.Hệ số xác định và hệ số tương quan
Từ mẫu ng ẫu nhiên kích thước n về véc tơ quan sát (Y, X1, X2, ..., Xk-1) là:
𝑌𝑌𝑖𝑖 , 𝑋𝑋1𝑖𝑖 , 𝑋𝑋2𝑖𝑖 , … , 𝑋𝑋𝑘𝑘−1,𝑖𝑖 , 𝑖𝑖 = 1,2, … , 𝑛𝑛
MH SRF (8) ước lượng cho PRF (6) đã được xây dựng bằng phương pháp OLS. Các chỉ tiêu
sau đây giúp cho việc đánh giá chất lượng của MH (8)
a. Các tổng bình phương độ lệch:
a1. 𝑇𝑇𝑇𝑇𝑇𝑇 = ∑ 𝑌𝑌𝑖𝑖 − 𝑌𝑌� 2 = ∑ 𝑌𝑌𝑖𝑖2 − 𝑛𝑛. 𝑌𝑌� 2 = 𝒴𝒴 𝑇𝑇 . 𝒴𝒴 − 𝑛𝑛. 𝑌𝑌� 2 ; (11)
TSS là tổng bình phương các độ lệch giữa các giá trị quan sát thực tế Yi và giá trị trung bình
𝑌𝑌� của các quan sát, còn gọi là tổng bình phương các độ lệch của Y (trên mẫu).(TSS: Total
Sum of Squares ), nó cho thấy toàn bộ sự biến thiên của biến phụ thuộc Y.
2
a2. 𝐸𝐸𝐸𝐸𝐸𝐸 = ∑ 𝑌𝑌�𝑖𝑖 − 𝑌𝑌� = 𝒂𝒂 �𝑇𝑇 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 − 𝑛𝑛. 𝑌𝑌� 2 ; (12)
ESS: tổng bình phương độ lệch của Y được giải thích bởi SRF (ESS: Explained Sum of Squares).
2
�𝑖𝑖2 = ∑ 𝑌𝑌𝑖𝑖 − 𝑌𝑌�𝑖𝑖
a3. 𝑅𝑅𝑅𝑅𝑅𝑅 = ∑ 𝑈𝑈 = 𝑇𝑇𝑇𝑇𝑇𝑇 − 𝐸𝐸𝐸𝐸𝐸𝐸 (13)
RSS là tổng bình phương các độ lệch giữa các giá trị quan sát 𝑌𝑌𝑖𝑖 và giá trị ước lượng (tính toán) 𝑌𝑌�𝑖𝑖 ,
còn được gọi là tổng bình phương các độ lệch của Y không được giải thích bởi SRF, hay tổng bình
phương các phần dư (thặng dư) RSS do các yếu tố ngẫu nhiên gây ra (RSS: Residual Sum of Squares ).
Nhận xét: 𝑇𝑇𝑇𝑇𝑇𝑇 = 𝐸𝐸𝐸𝐸𝐸𝐸 + 𝑅𝑅𝑅𝑅𝑅𝑅 (14)
𝐸𝐸𝐸𝐸𝐸𝐸 𝑅𝑅𝑅𝑅𝑅𝑅
b. Hệ số xác định: 𝑅𝑅2 = = 1− (15)
𝑇𝑇𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇𝑇𝑇
𝑅𝑅2 là tỷ lệ (phần trăm) những biến thiên của biến phụ thuộc Y đã được giải thích bời mô
hình SRF (hay bởi các biến độc lập). Phần trăm còn lại là do các yếu tố ngẫu nhiên khác.
Tính chất: (1) 0 ≤ 𝑅𝑅2 ≤ 1; (2) Khi 𝑅𝑅2 = 1 thì SRF thích hợp hoàn hảo với các số liệu
q/sát, khi đó 𝑌𝑌�𝑖𝑖 = 𝑌𝑌𝑖𝑖 , ∀𝑖𝑖 = 1,2, … , 𝑛𝑛, ℎ𝑎𝑎𝑎𝑎 𝑅𝑅𝑅𝑅𝑅𝑅 = 0: tất cả các sai lệch của 𝑌𝑌𝑖𝑖 (so với trị
t.bình) đều được giải thích bởi SRF. Khi 𝑅𝑅2 = 0 thì SRF không thích hợp, tất cả các sai
lệch của 𝑌𝑌𝑖𝑖 ( so với trị t.bình) đều không được giải thích bởi SRF (khi đó RSS = TSS, hay
𝑌𝑌�𝑖𝑖 = 𝑌𝑌,
� ∀𝑖𝑖 = 1,2, … , 𝑛𝑛.); (3) 𝑅𝑅 2 càng tăng thì MH càng phù hợp với dữ liệu điều tra, 𝑅𝑅2
càng giảm thì MH càng kém phù hợp.
Chẳng hạn xét MH trong ví dụ 1, 𝑅𝑅2 = 0.977157: cho thấy MH phù hợp rất tốt với dữ liệu
điều tra: 97,7157% những biến động của tiêu dùng Y đã được giải thích bởi thu nhập X.
c. Hệ số xác định hiệu chỉnh (Adjusted R – squared)
Khi số biến giải thích trong mh tăng thì số bậc tự do bị giảm đi. Để hạn chế bất lợi này,
người ta điều chỉnh hệ số xác định để có hệ số xác định hiệu chỉnh sau
� 𝟐𝟐 = 𝑹𝑹𝟐𝟐 + 𝟏𝟏 − 𝑹𝑹𝟐𝟐 . 𝟏𝟏−𝒌𝒌 (k là số biến của mh)
𝑹𝑹 (16)
𝒏𝒏−𝒌𝒌
Thường thì một biến giải thích nên được đưa thêm vào khi nó làm tăng giá trị của 𝑅𝑅� 2 và hệ số hồi
quy của biến này phải khác không một cách có ý nghĩa thống kê.
TS. Trần Kim Thanh
Chú ý: Thực tế không có một tiêu chuẩn chung để đánh giá mức độ cao thấp của 𝑅𝑅 2 và không nên chỉ
dựa vào 𝑅𝑅 2 để đánh giá mức độ phù hợp của mh, mà còn phải dựa vào các yếu tố khác như kinh
nghiệm thực tế, khả năng dự báo chính xác,.... Trong thực hành, đối với số liệu chuỗi thời gian thì
𝑹𝑹𝟐𝟐 > 𝟎𝟎, 𝟗𝟗 được xem phù hợp tốt, đối với số liệu chéo thì 𝑹𝑹𝟐𝟐 > 𝟎𝟎, 𝟕𝟕 được xem phù hợp tốt.
d. Hệ số tương quan (Coefficient of Correlation). Với mẫu ngẫu nhiên kích thước n về véc
tơ quan sát (Y, X1, X2, ..., Xk-1) là: 𝑌𝑌𝑖𝑖 , 𝑋𝑋1𝑖𝑖 , 𝑋𝑋2𝑖𝑖 , … , 𝑋𝑋𝑘𝑘−1,𝑖𝑖 , 𝑖𝑖 = 1,2, … , 𝑛𝑛
� 𝑋𝑋� 𝑗𝑗
𝑌𝑌𝑋𝑋𝑗𝑗 −𝑌𝑌.
* Hệ số tương quan mẫu giữa Y và Xj là: 𝑟𝑟0𝑗𝑗 = 𝑆𝑆 (17a)
𝑌𝑌 .𝑆𝑆(𝑋𝑋𝑗𝑗 )
𝑋𝑋𝑠𝑠 𝑋𝑋𝑗𝑗 −𝑋𝑋�𝑠𝑠 .𝑋𝑋� 𝑗𝑗
* Hệ số tương quan mẫu giữa 𝑋𝑋𝑠𝑠 𝑣𝑣𝑣 𝑋𝑋𝑗𝑗 𝑙𝑙𝑙: 𝑟𝑟𝑠𝑠𝑠𝑠 = (17b)
𝑆𝑆 𝑋𝑋𝑠𝑠 .𝑆𝑆(𝑋𝑋𝑗𝑗 )
𝑟𝑟01 ⋯ 𝑟𝑟0,𝑘𝑘−1
1
1 ⋯ 𝑟𝑟1,𝑘𝑘−1
𝑟𝑟10
* Ma trận các hệ số tương quan mẫu là: 𝑅𝑅 = (17c)
⋮ ⋯ ⋮ ⋮
𝑟𝑟𝑘𝑘−1,0 𝑟𝑟𝑘𝑘−1,1 ⋯ 1
Ý nghĩa: Hệ số tương quan r giữa 2 biến đánh giá xu thế tương quan và mức độ tương
quan tuyến tính giữa chúng: r > 0 biểu thị tương quan thuận, r < 0 biểu thị tương quan
nghịch, r = 0 là không tương quan, r ↑ 1: xu thế tương quan tuyến tính càng chặt
2.3.4. Các giả thiết của phương pháp OLS
Để giải quyết các bài toán thống kê: phân tích, đánh giá, lựa chọn, ước lượng, dự
báo,…trên SRF thì phải có một mh SRF tốt, trước hết các hệ số hồi quy ước lượng phải có
những tính chất tốt. Muốn vậy, mô hình cần đáp ứng các điều kiện sau đây mà người ta
thường gọi là các giả thiết của phương pháp OLS đ/với mh hồi quy.
GT1: Ma trận 𝒳𝒳 đã được xác định theo nghĩa: Mẫu về biến X không chọn ngẫu nhiên.
GT2: 𝑟𝑟 𝒳𝒳 ℎạ𝑛𝑛𝑛𝑛 𝑐𝑐𝑐𝑐𝑐 𝑚𝑚𝑚𝑚 𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝒳𝒳 = 𝑘𝑘, hay không có cột nào của ma trận 𝒳𝒳 là tổ hợp
tuyến tính của các cột khác, tức là không có hiện tượng cộng tuyến xảy ra giữa các
biến độc lập (giả thiết này cũng có nghĩa là 𝑑𝑑𝑑𝑑𝑑𝑑𝒳𝒳 ≠ 0, tức là ước lượng các hệ số hồi quy
theo phương pháp OLS luôn tìm được và duy nhất).
GT3: Nhiễu có phương sai thuần nhất và không có tương quan chuỗi.
𝑽𝑽𝑽𝑽𝑽𝑽𝑼𝑼𝒊𝒊 = 𝝈𝝈𝟐𝟐
� , ∀𝒊𝒊, 𝒋𝒋 = 𝟏𝟏, 𝒏𝒏, 𝒊𝒊 ≠ 𝒋𝒋, hay: 𝑬𝑬 𝓤𝓤. 𝓤𝓤𝑻𝑻 = 𝝈𝝈𝟐𝟐 . 𝑰𝑰𝒏𝒏×𝒏𝒏
𝒄𝒄𝒄𝒄𝒄𝒄 𝑼𝑼𝒊𝒊 , 𝑼𝑼𝒋𝒋 = 𝑬𝑬 𝑼𝑼𝒊𝒊 . 𝑼𝑼𝒋𝒋 = 𝟎𝟎
Nhiễu U là mức độ dao động của các giá trị của Y xung quanh 𝐸𝐸 𝑌𝑌 𝑋𝑋 . Giả thiết 𝑽𝑽𝑽𝑽𝑽𝑽𝑼𝑼𝒊𝒊 =
𝝈𝝈𝟐𝟐 có nghĩa là dao động này có biên độ không đổi khi giá trị của X thay đổi. Thực tế, giả
thiết này có thể bị vi phạm, đặc biệt là khi sử dụng dữ liệu chéo mà các đối tượng q/sát
khác xa nhau về quy mô, tầm cỡ. Gt 𝒄𝒄𝒄𝒄𝒄𝒄 𝑼𝑼𝒊𝒊 , 𝑼𝑼𝒋𝒋 = 0, ∀i ≠ j có thể bị vi phạm khi đối
tượng điều tra có sự ràng buộc, phụ thuộc nhau về tiêu chuẩn điều tra Y. Chẳng hạn: Khi
khảo sát về thu nhập X và tiêu dùng Y mà đối tượng khảo sát là các thành viên trong một
gia đình thì mặc dù các thành viên có mức thu nhập X khác nhau, nhưng những yếu tố
ngoài thu nhập tác động lên chi tiêu như hoàn cảnh gia đình, tập quán, sở thích, thói
quen tiêu dùng đều có thể tác động gần như tương đồng đến chi tiêu của các thành viên
trong gia đình, điều này dẫn đến các tác động ngẫu nhiên có sự tương quan.
GT 4: Giữa các biến độc lập và nhiễu không có sự tương quan: 𝑐𝑐𝑐𝑐𝑐𝑐 X𝑖𝑖 , 𝑈𝑈𝑗𝑗 = 0, ∀i, j
Tức là trong sự tác động riêng của các biến độc lập lên biến phụ thuộc không có tác động của nhiễu.
GT5: 𝒰𝒰 𝑙𝑙𝑙 𝑣𝑣𝑣𝑣𝑣 𝑡𝑡𝑡 𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑐𝑐𝑐 𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑛𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
GT 5 thường ít bị vi phạm
Khi các giả thiết của OLS được thỏa mãn, các hệ số ước lượng theo OLS có các t/c tốt sau:
T/c 1. 𝑌𝑌� = 𝑌𝑌� , 𝑈𝑈� = 0
–𝟏𝟏
T/c 1. 𝒂𝒂
� = 𝓧𝓧𝑻𝑻 . 𝓧𝓧 . 𝓧𝓧𝑻𝑻 . 𝒴𝒴 là một véc tơ ngẫu nhiên có phân phối chuẩn với giả thiết
U có phân phối chuẩn, được xác định duy nhất với một mẫu cụ thể. Hơn nữa là ước lượng
tuyến tính không chệch, có phương sai bé nhất trong trong lớp các ước lượng tuyến tính
không chệch của 𝑎𝑎 (tính chất BLUE).
T/c 3. 𝒂𝒂
� có ma trận hiệp phương sai: cov 𝒂𝒂 � = 𝜎𝜎 2 . 𝒳𝒳 𝑇𝑇 . 𝒳𝒳 −1
� 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞 𝑣𝑣𝑣𝑣𝑣 các biến độc lập và 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞 𝑣𝑣𝑣𝑣𝑣 𝑌𝑌�
T/c 4. 𝑈𝑈
Chú ý: 𝑉𝑉𝑉 𝜎𝜎 2 = VarU (𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑠𝑠𝑠𝑠𝑠𝑠 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛) chưa biết nên người ta dùng ước lượng
𝑹𝑹𝑹𝑹𝑹𝑹
� 𝟐𝟐 =
𝝈𝝈 (gọi là phương sai hồi quy) thay thế cho 𝜎𝜎 2 .
𝒏𝒏−𝒌𝒌
𝑹𝑹𝑹𝑹𝑹𝑹
�=
𝝈𝝈 gọi là sai số chuẩn của hồi quy
𝒏𝒏−𝒌𝒌
2.4. Hướng dẫn chạy SRF cho hồi quy bội trên Eviews.
B1. Xác định biến phụ thuộc, các biến độc lập và thiết lập PRF
B2. Xác định loại dữ liệu. Vào Eviews, khai các biến và nhập dữ liệu
B3 (nếu cần) Tính các đặc trưng thống kê của các biến, tìm ma trận tương quan mẫu
B4. Chạy hồi quy SRF: gõ tên biến phụ thuộc, biến hằng (c) (nếu không có hệ số chặn thì
không gõ (c), các biến độc lập (mỗi biến cách nhau một khoảng trống). Nhấp OK.
Ví dụ 3. Có số liệu về doanh thu Y, chi phí quảng cáo X1 và tiền lương X2 của 12 nhân viên
tiếp thị (đơn vị: triệu đồng).
Y 102 140 127 128 139 138 144 159 161 163 180 106
X1 15 25 18 16 17 15 23 22 25 24 26 19
X2 7 11 10 12 12 15 12 14 14 16 17 6
a. Xác định biến phụ thuộc, các biến giải thích. Thiết lập mh PRF tuyến tính cổ điển
b. Từ dữ liệu, phân tích thống kê mô tả, lập mh SRF ước lượng cho mh PRF đã thiết lập.
- Biến phụ thuộc: Y, các biến giải thích: X1, X2 . Mh PRF: Y = a0 + a1 𝑋𝑋1 + a2 𝑋𝑋2 + U
- Dữ liệu đã cho là dữ liệu chéo. Eviews cho kết quả về Thống kê mô tả và chạy hồi quy
Descriptive Statistics Estimate equation
Hãy thiết lập MH SRF ước lượng cho MH PRF: lnY = 𝛽𝛽0 + 𝛽𝛽1 lnX1 + 𝛽𝛽2 X2 + U
Phân tích kết quả về thống kê mô tả và ý nghĩa của các giá trị 𝛽𝛽̂1 , 𝛽𝛽̂2 và R2 nhận được.
(10, 12], các điểm phân tán lại rất thẳng, nên ta
Y
4
R2 = 0,910298: cho thấy MH phù hợp tốt với dữ liệu q.sát, 91,0298% những biến động
của biến phụ thuộc Y đã được giải thích bởi MH.
c. Ứng dụng phân tích mùa trong chuỗi thời gian. Trong phân tích chuỗi thời gian, để thấy
rõ sự tác động của yếu tố thời vụ và lượng hóa sự tác động đó lên chuỗi thời gian, người
ta sử dụng kỹ thuật biến giả, coi yếu tố thời vụ là một biến định tính tác động lên chuỗi
thời gian, từ đó đưa các biến giả đại diện cho biến Thời vụ vào MH hồi quy. Có thể minh
họa ứng dụng này bởi ví dụ 3 (chuỗi thời gian là lượng tủ lạnh bán được theo các quý)