You are on page 1of 36

ARIMA

Mô hình Arima là gì?

Mô hình Arima là một loại mô hình được sử dụng phổ biến trong kinh tế lượng. Có thể hiểu, Arima là mô
hình được sử dụng để dự đoán và khai phá các dữ liệu trong ngành tài chính và chứng khoán. Đây là một
phương pháp nghiên cứu độc lập thông qua việc dự đoán theo các chuỗi thời gian. Sau đó, các nhà
nghiên cứu sẽ sử dụng các thuật toán dự báo độ trễ để đưa ra mô hình phù hợp.

ỨNG DỤNG MÔ HÌNH ARIMA TRONG DỰ BÁO CHỈ SỐ VN-INDEX


Vì vậy, để dự báo được VnIndex ta cần phải kiểm định xem tỷ suất sinh lợi của VnIndex (RVNI) có tính
dừng hay không

LOGIT

Hồi quy logistic (Logistic Regression) trong phân tích thống kê (hay còn được
gọi là mô hình logit) là phân tích hồi quy thích hợp để tiến hành khi biến phụ
thuộc là nhị phân (lưỡng phân), nói cách khác là hồi quy với biến phụ thuộc bị
giới hạn (Limited Dependent Variable Models). Giống như tất cả các phân tích
hồi quy, hồi quy logistic là một phân tích dự đoán. Hồi quy logistic được sử
dụng để mô tả dữ liệu và giải thích mối quan hệ giữa một biến nhị phân phụ
thuộc và một hoặc nhiều biến độc lập cấp danh nghĩa, thứ tự, khoảng hoặc tỷ
lệ.MOSL
Hồi quy logistic (Logistic Regression) là một mô hình thống kê ở dạng cơ bản
của nó sử dụng một hàm logistic để mô hình hóa một biến phụ thuộc nhị phân
, mặc dù tồn tại nhiều phần mở rộng phức tạp hơn . Trong phân tích hồi quy ,
hồi quy logistic (hay hồi quy logit ) là ước lượng các tham số của mô hình
logistic (một dạng của hồi quy nhị phân ). Về mặt toán học, mô hình logistic
nhị phân có một biến phụ thuộc với hai giá trị có thể có, chẳng hạn như đạt
hoặc không đạt được đại diện bởi một biến chỉ báo, trong đó hai giá trị được
gắn nhãn “0” và “1”.

1.2. Ví dụ
Loại phân tích này có thể giúp bạn dự đoán khả năng xảy ra một sự kiện hoặc một lựa
chọn được đưa ra. 

Ví dụ: Bạn có thể muốn biết khả năng khách truy cập chọn một ưu đãi được thực hiện
trên trang web của bạn – hay không (biến phụ thuộc). Phân tích của bạn có thể xem
xét các đặc điểm đã biết của khách truy cập, chẳng hạn như các trang web họ đến, lượt
truy cập lặp lại vào trang web của bạn, hành vi trên trang web của bạn (các biến độc
lập). 

Mô hình hồi quy logistic giúp bạn xác định xác suất loại khách truy cập có khả năng
chấp nhận đề nghị hay không. Do đó, bạn có thể đưa ra quyết định tốt hơn về việc
quảng cáo phiếu mua hàng của mình hoặc đưa ra quyết định về chính phiếu mua hàng
đó.

1.3. Ưu nhược điểm của Logistic Regression


Đến đây, hy vọng bạn đã có một ý tưởng rõ ràng hơn nhiều về hồi quy logistic là gì và
các loại kịch bản mà nó có thể được sử dụng. Bây giờ chúng ta hãy xem xét một số ưu
điểm và nhược điểm của loại phân tích hồi quy.

Ưu điểm
 Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác, đặc
biệt là trong Machine Learning: Mô hình Machine Learning có thể được
mô tả như một mô tả toán học của một quá trình trong thế giới
thực. Quá trình thiết lập mô hình học máy yêu cầu đào tạo và thử
nghiệm mô hình. Huấn luyện là quá trình tìm kiếm các mẫu trong dữ
liệu đầu vào, để mô hình có thể ánh xạ một đầu vào cụ thể (ví dụ, một
hình ảnh) tới một loại đầu ra nào đó, chẳng hạn như một nhãn. Hồi quy
logistic dễ đào tạo và triển khai hơn so với các phương pháp khác.
 Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ liệu có thể
phân tách tuyến tính:  Tập dữ liệu được cho là có thể phân tách tuyến
tính nếu có thể vẽ một đường thẳng có thể tách hai lớp dữ liệu khỏi
nhau. Hồi quy logistic được sử dụng khi biến Y của bạn chỉ có thể nhận
hai giá trị và nếu dữ liệu có thể phân tách tuyến tính, thì việc phân loại
nó thành hai lớp riêng biệt sẽ hiệu quả hơn.
 Hồi quy logistic cung cấp những hiểu biết hữu ích:  Hồi quy logistic không
chỉ cho phép đo lường mức độ liên quan của một biến độc lập (tức là
(kích thước hệ số), mà còn cho chúng ta biết về hướng của mối quan
hệ (tích cực hoặc tiêu cực). Hai biến được cho là có một liên kết tích
cực khi sự gia tăng giá trị của một biến số cũng làm tăng giá trị của biến
số khác. Ví dụ: bạn càng dành nhiều giờ tập luyện, bạn càng trở nên
giỏi hơn trong một môn thể thao cụ thể. Tuy nhiên: Điều quan trọng là
phải biết mối tương quan đó Nói cách khác, hồi quy logistic có thể cho
bạn thấy rằng có mối tương quan thuận giữa nhiệt độ ngoài trời và
doanh số bán hàng, nhưng điều này không nhất thiết có nghĩa là doanh
số bán hàng tăng do nhiệt độ.

Nhược điểm
 Hồi quy logistic không dự đoán được kết quả liên tục. Hãy xem xét một ví
dụ để hiểu rõ hơn về hạn chế này. Trong các ứng dụng y tế, hồi quy
logistic không thể được sử dụng để dự đoán nhiệt độ của bệnh nhân
viêm phổi sẽ tăng cao như thế nào. Điều này là do quy mô đo lường là
liên tục (hồi quy logistic chỉ hoạt động khi biến phụ thuộc hoặc biến kết
quả là lưỡng phân).
 Hồi quy logistic giả định tính tuyến tính giữa biến dự đoán (phụ thuộc) và
biến dự báo (độc lập). Tại sao đây là một hạn chế? Trong thế giới thực,
rất khó có khả năng các quan sát được phân tách tuyến tính. Hãy
tưởng tượng bạn muốn phân loại cây diên vĩ thành một trong hai họ:
sentosa hoặc versicolor. Để phân biệt giữa hai loại, bạn sẽ phân biệt
kích thước cánh hoa và kích thước đài hoa. Bạn muốn tạo ra một thuật
toán để phân loại cây diên vĩ, nhưng thực sự không có sự phân biệt rõ
ràng — một cánh hoa kích thước 2cm có thể đủ tiêu chuẩn cho cây
trồng cho cả hai loại màu xanh lá và màu sắc. Vì vậy, trong khi dữ liệu
có thể phân tách tuyến tính là giả định cho hồi quy logistic, trên thực tế,
nó không phải lúc nào cũng thực sự khả thi.
 Hồi quy logistic có thể không chính xác nếu kích thước mẫu quá nhỏ. Nếu
kích thước mẫu ở mức nhỏ, thì mô hình được tạo ra bằng hồi quy
logistic dựa trên số lượng quan sát thực tế nhỏ hơn. Điều này có thể
dẫn đến trang bị quá nhiều. Trong thống kê, overfitting là một lỗi mô
hình hóa xảy ra khi mô hình quá khớp với một bộ dữ liệu hạn chế vì
thiếu dữ liệu đào tạo. Hay nói cách khác, không có đủ dữ liệu đầu vào
để mô hình tìm ra các mẫu trong đó. Trong trường hợp này, mô hình
không thể dự đoán chính xác kết quả của một tập dữ liệu mới hoặc
trong tương lai.

5. Ứng dụng của hồi quy logistic

Đánh giá rủi ro tín dụng


Sử dụng hồi quy logistic nhị phân để đánh giá rủi ro tín dụng. Nếu bạn là một nhân
viên cho vay của một ngân hàng, thì bạn muốn có thể xác định các đặc điểm chỉ ra
những người có khả năng vỡ nợ và sử dụng các đặc điểm đó để xác định rủi ro tín
dụng tốt và xấu.

 Giả sử thông tin về 850 khách hàng trong quá khứ và khách hàng tiềm
năng được chứa trong 1 file dữ liệu. 700 trường hợp đầu tiên là những
khách hàng đã được cho vay trước đó. Sử dụng một mẫu ngẫu nhiên
trong số 700 khách hàng này để tạo mô hình hồi quy logistic, đặt các
khách hàng còn lại sang một bên để xác nhận phân tích. Sau đó, sử
dụng mô hình để phân loại 150 khách hàng tiềm năng là rủi ro tín dụng
tốt hay xấu.
 Tương tự như vậy, một công ty mỹ phẩm có thể muốn xác định xem
một khách hàng nhất định có khả năng phản hồi tích cực đối với ưu đãi
khuyến mại 2 tặng 1 trên dòng sản phẩm chăm sóc da của họ hay
không? Trong trường hợp đó, họ có thể sử dụng hồi quy logistic để đưa
ra mô hình dự đoán liệu khách hàng sẽ là “người phản hồi” hay “người
không phản hồi”. Dựa trên những thông tin chi tiết này, họ sẽ có ý
tưởng tốt hơn về nơi cần tập trung các nỗ lực tiếp thị của mình.

Xác định hồ sơ người tiêu dùng hàng hóa đóng gói


Sử dụng hồi quy logistic đa thức cho hồ sơ người tiêu dùng hàng hóa đóng gói

 Là một phần trong nỗ lực cải thiện hoạt động tiếp thị các lựa chọn bữa
sáng của mình, một công ty Hàng tiêu dùng đóng gói thăm dò ý kiến
của 880 người, ghi nhận tuổi tác, giới tính, tình trạng hôn nhân và liệu
họ có lối sống năng động hay không (dựa trên việc họ có tập thể dục ít
nhất hai lần hay không. một tuần). Sau đó, mỗi người tham gia được
nếm 3 món ăn sáng và được hỏi họ thích món nào nhất.
 Và các bạn có thể đơn giản sử dụng hồi quy logistic đa thức để xác
định hồ sơ tiếp thị cho mỗi tùy chọn bữa sáng.

Khái niệm

Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử
dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình
logit "log odds" của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của
các biến độc lập.

Ví dụ

Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm
khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn,
nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường
Đại Học đó.

Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:

3 biến độc lập:

     Điểm cuối kì GRE


     Điểm trung bình GPA
     Uy tín của trường trung học rank ( có 4 mức 1 2 3 4), với 1 là uy tín tốt nhất.

Và 1 biến phụ thuộc :

     Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến
nhị phân.

Dữ liệu có thể được lấy ở đây bằng lệnh sau:

use https://phantichstata.com/data/binary.dta

Sau đó thực hiện chạy thống kê mô tả, tần số biến


Thực hiện chạy hồi quy nhị phân Binary Logistic với Stata

Sử dụng lệnh logit để ước lượng hồi quy nhị phân

logit admit gre gpa i.rank

Hoặc dùng giao diện

Vào menu Statistics > Binary outcomes > Logistic regression

     Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình

Sau đó nhấn OK

Kết quả hồi quy nhị phân như sau:


Giải thích ý nghĩa kết quả

  Number of obs = 400 : có 400 quan sát

 Trong bảng kết quả có  hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-
statistic, p-values, và  95% confidence interval of the coefficients. Cả hai biến GRE và
GPA  đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có
ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột P>|z| , nếu giá
trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho
biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ
thể như sau:

     – Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO
HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.

     – Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO
HỌC tăng 0.804

     – Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học
trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP
NHẬN VÀO HỌC giá trị là 0.675

    Muốn kiểm tra tác động chung của biến RANK, dùng  lệnh test , Ta thấy biến rank có
tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:

test 2.rank = 3.rank

( 1) [admit]2.rank - [admit]3.rank = 0

chi2( 1) = 5.51

Prob > chi2 = 0.0190

Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) ,
lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng
cách gõ lệnh sau:
Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận
vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng
2.234545

Bảng sau dùng phân loại học sinh đậu vào trường đại học và không đậu vào trường đại
học theo hai tiêu chí : quan sát thực tế và dự đoán. Ta vào menu  Statistics >
Postestimation > Reports and statistics , hoặc menu Statistics > Binary outcomes >
Classification statistics after logistic/logit/probit/ivprobit để thực hiện, kết quả ra như
sau:

Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học
sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học
sinh đậu.

Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán
đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ
dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là
(254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào
đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng
được không.

PROBIT

Tìm hiểu về mô hình probit

Hồi quy probit, còn được gọi là mô hình probit, được sử dụng để mô hình các biến kết
cục nhị phân hoặc nhị phân. Trong mô hình probit, phân phối chuẩn của nghịch đảo xác
suất được mô hình hóa như một tổ hợp tuyến tính của các yếu tố dự đoán.

Xin lưu ý: Mục đích của trang này là hiển thị cách sử dụng các lệnh phân tích dữ liệu
khác nhau. Nó không bao gồm tất cả các khía cạnh của quá trình nghiên cứu mà các
nhà nghiên cứu dự kiến sẽ làm. Đặc biệt, nó không bao gồm việc làm sạch và kiểm tra
dữ liệu, xác minh các giả định, chẩn đoán mô hình và phân tích theo dõi tiềm năng.

Một mô hình probit là một đặc điểm kỹ thuật phổ biến cho một mô hình phản ứng nhị
phân hoặc nhị phân . Do đó, nó xử lý cùng một tập hợp các vấn đề như hồi quy logistic
bằng các kỹ thuật tương tự. Mô hình probit, sử dụng hàm liên kết probit , thường được
ước tính bằng cách sử dụng thủ tục khả năng tối đa tiêu chuẩn , một ước tính như vậy
được gọi là hồi quy probit .

Mô hình tổng quát


CÁC LỖI KIỂM ĐỊNH

Định nghĩa phương sai của sai số thay đổi


     Một giả thiết quan trọng trong mô hình hồi quy tuyến tính cổ điển là các yếu tố  nhiễu
ui (hay còn gọi là phần dư residuals) xuất hiện trong hàm hồi quy tổng thể có phương
sai không thay đổi (homoscedasticity,  còn gọi là phương sai có điều kiện không đổi);
tức là chúng có cùng phương sai. Nếu giả thiết này không được thỏa mãn thì có sự
hiện diện của phương sai thay đổi. Phương sai thay đổi (Heteroscedasticity, còn gọi là
phương sai của sai số thay đổi) .

     Phương sai thay đổi không làm mất đi tính chất không thiên lệch và nhất quán của
các ước lượng OLS. Nhưng các ước lượng này không còn có phương sai nhỏ nhất hay
là các ước lượng hiệu quả. Tức là chúng không còn là các ước lượng tuyến tính không
thiên lệch tốt nhất (BLUE). Khi có phương sai thay đổi, các phương sai của các ước
lượng OLS không được tính từ các công thức OLS thông thường. Nhưng nếu ta vẫn sử
dụng các công thức OLS thông thường, các kiểm định t và F dựa vào chúng có thể gây
ra những kết luận sai lầm.

Cách phát hiện phương sai sai số thay đổi


trong Stata
Kiểm định phương sai sai số thay đổi trong mô hình hồi
quy tuyến tính đa biến OLS
Có hai cách chính để kiểm định phương sai sai số thay đổi trong Stata,đó là dùng
kiểm định White , hoặc dùng kiểm định Breusch-Pagan

Cách 1: Dùng kiểm định White để kiểm tra phương sai thay đổi( White’s test)

Cú pháp lệnh:

estat imtest

Cách 2: Dùng kiểm định Breusch-Pagan

            estat hettest


Cách đọc kết quả: hai cách trên ,nếu p-value <5% thì,chấp nhận giả thiết H1:Phương
sai không đồng nhất, nghĩa là phương sai thay đổi (the variance is not homogenous)
( dĩ nhiên là không tốt, giá trị mong đợi là p.value >5%, lúc đó phương sai đồng nhất,
phương sai không đổi).

Kiểm định phương sai sai số thay đổi trong mô hình hồi
quy dữ liệu bảng sử dụng fix và random effect
     Phương sai sai số thay đổi heteroskedasticity của mô hình REM: (sử dụng kiểm định
LM – Breusch and pagan Lagrangian Multiplier ). Dùng lệnh xttest0, nếu  p-value <
0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua các thực thể là không đổi)( làm bài
mong đợi p-value >5% để kết luận phương sai ko đổi)

     Phương sai sai số thay đổi heteroskedasticity của mô hình FEM( dùng kiểm định
wald): Dùng lệnh xttest3 (lệnh này không có sẵn trong Stata, phải cài thêm bằng lệnh
ssc install xttest3) . Nếu  p-value < 0.05, bác bỏ Ho (với phát biểu  Ho: Phương sai qua
các thực thể là không đổi)( làm bài mong đợi p-value >5% để kết luận phương sai ko
đổi)

CÁCH KHẮC PHỤC

Vấn đề

Khi chạy mô hình gặp hiện tượng phương sai sai số thay đổi, chúng ta cần dùng
phương pháp này để cải thiện mô hình cho tốt hơn.

Định nghĩa

Mô hình sai số chuẩn mạnh (Robust Standard errors) , hay còn gọi là Ước lượng sai số
chuẩn vững

Nhắc lại rằng khi mô hình có hiện tượng phương sai sai số thay đổi, các ước lượng
OLS cho các hệ số vẫn là ước lượng không chệch, chỉ có phương sai của các hệ số
ước lượng và hiệp phương sai giữa các hệ số ước lượng thu được bằng phương pháp
OLS là chệch. Từ đó White (1980) đề xuất phương pháp sai số chuẩn vững (robust
standard error) với tư tưởng như sau: vẫn sử dụng các hệ số ước lượng từ phương
pháp OLS, tuy nhiên phương sai các hệ số ước lượng thì được tính toán lại mà không
sử dụng đến giả thiết phương sai sai số không đổi. Ước lượng mô hình sai số chuẩn
mạnh sẽ cho một kết quả ước lượng đúng của sai số chuẩn trong đó chấp nhận sự
hiện diện của hiện tượng phương sai thay đổi (heteroskedasticity).

Cách thực hiện trong Stata


– Giả sử có 1 biến phụ thuộc và 3 biến độc lập, ta chạy hồi quy FE thường cú pháp như
sau

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,fe

– Hồi quy với theo phương trình mô hình sai số chuẩn mạnh (Robust Standard errors):
thêm chữ robust vào câu lệnh hồi quy.

xtreg bienphuthuoc biendoclap1 biendoclap2 biendoclap3 ,robust fe


3. Hậu quả của phương sai sai số thay đổi là gì?

Heteroscedasticity là gì

Phương sai sai số thay đổi (Heteroscedasticity) vẫn không làm thiên lệch và mất đi tính
nhất quán (unbiased and consistent) của các ước lượng từ mô hình OLS (Ordinary
Least Squares).

Tuy nhiên, hậu quả là mô hình OLS không còn là mô hình ước lượng tốt nhất nữa mà
cần phải khắc phục trong các mô hình cao cấp hơn.
Ngoài ra hiện tượng này sẽ làm chệch đi các kiểm định T và F khiến chúng ta đưa ra
các kết luận sai lầm.

. Hậu quả:

Nếu như mô hình chỉ xảy ra lỗi phương sai sai số thay đổi thôi thì ước lượng OLS vẫn
là ước lượng ko bị thiên lệch và nhất quán (unbiased and consistent), tuy nhiên nó
không phải là ước lượng tốt nhất (hiệu quả nhất) nữa. Bởi vì, phương sai của sai số
trong trường hợp này không thể đạt được giá trị nhỏ nhất nữa. Khi đó, các kiểm định hệ
số hồi quy và kiểm định F của mô hình trở nên không đáng tin cậy. Vì vậy, việc đưa ra
các kết luận dựa trên các kiểm định này sẽ không chính xác.

Phương sai thay đổi có các hậu quả sau đây:

1. Phương sai thay đổi không làm thay đổi các tính chất không chệch

(unbiasedness) và nhất quán (consistency) của các ước lượng OLS.

2. Nhưng các ước lượng OLS không còn hiệu quả, hoặc không có phương sai bé

nhất nữa. Nghĩa là, chúng không còn là các ước lượng tuyến tính không chệch

tốt nhất (BLUE); chúng chỉ đơn giản là các ước lượng tuyến tính không chệch

(LUE).
3. Kết quả là, các kiểm định t và F dựa trên các giả định chuẩn của mô hình hồi quy
tuyến tính cổ điển không thể tin cậy, dẫn đến các kết luận sai lầm về ý nghĩa thống kê
của các hệ số hồi quy được ước lượng. 4. Khi có hiện tượng phương sai thay đổi, các
ước lượng BLUE được cung cấp bởi phương pháp bình phương bé nhất có trọng số
(WLS, weighted least squares).

4. Kiểm định phương sai thay đổi trong STATA

khi mô hình có phương sai số thay đổi, ta luôn có thể khắc phục nó bằng hai cách bằng kiểm định
phương sai thay đổi trong STATA.

Tải về bộ dữ liệu của Mosl xong rồi thực hành lun nhé!
DỮ LIỆU MOSL.VN

Tải ngay

Dưới đây là 2 cách phát hiện phương sai thay đổi trong mô hình hồi quy gồm:

Cách 1: Vẽ đồ thị sai số thể hiện phương sai thay đổi trong Stata

Đầu tiên hồi quy mô hình với biến phụ thuộc ROA trong phần mềm Stata.

kiểm định phương sai thay đổi trong Stata

Sau đó dùng lệnh rvfplot và yline(0) để giá trị xuất hiện quanh đường thẳng sai số 0.

kiểm định phương sai thay đổi trong Stata

Có thể các chấm xanh là các sai số đối với từng giá trị ước lượng của các biến trong mô hình đa phần
tập trung quanh đường trung bình.

Tuy nhiên các sai số này có vị trí nằm không đối xứng với nhau nên có thể mô hình đang bị hiện tượng
phương sai sai thay đổi.

Để rõ ràng hơn chúng ta đi qua kiểm định phương sai thay đổi trong Stata cho chắc hơn nhé!

Xem thêm: Kiểm định phương sai phần dư không đổi trong SPSS

Cách 2: Chạy kiểm định phương sai thay đổi trong Stata

Giả thuyết:
H0: Mô hình không xảy ra hiện tượng phương sai sai số thay đổi

H1: Mô hình xảy ra hiện tượng phương sai sai số thay đổi

Kiểm định Breusch-Pagan trong Stata với lệnh: estat hettest

kiểm định phương sai thay đổi trong Stata

Kiểm định phương sai thay đổi trong Stata

Kiểm định White trong Stata bằng lệnh: estat imtest,white

kiểm định phương sai thay đổi trong Stata

Kiểm định phương sai thay đổi trong Stata

Tham khảo thêm: Kiểm định phương sai thay đổi trong SPSS Eview

Có thể thấy trong hai kiểm định thì giá trị Prob > chi2 đều bằng 0.0000 < 0.05 (mức ý nghĩa 5%), điều này
chứng tỏ ta phải bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1 rằng: Mô hình xảy ra hiện tượng
phương sai sai số thay đổi.

Trong quá trình hồi quy mô hình các bạn sẽ kỳ vọng Prob > chi2 lớn hơn mức ý nghĩa 5%.

Bạn có biết: Trong nghiên cứu đa phần sẽ sử dụng kiểm định White trong Stata bởi vì tính thông dụng
của nó!

5. Kiểm định phương sai thay đổi trong STATA nâng cao
Giả thuyết chung:

H0: Phương sai sai số trong các thực thể là không thay đổi

H1: Phương sai sai số trong các thực thể là thay đổi

Có thêm 2 cách nâng cao để phát hiện phương sai thay đổi hay kiểm định nó trong phần mềm Stata

Kiểm định Wald trong Stata

Kiểm định Phương sai sai số thay đổi Heteroskedasticity cho mô hình FEM bằng kiểm định Wald trong
Stata bằng lệnh: xttest3

kiểm định phương sai thay đổi trong Stata

Từ kết quả hình trên ta thấy Prob>chi2 = 0.0000 < 5% nên bác bỏ H0 và kết luận Phương sai sai số trong
các thực thể là thay đổi.

Lưu ý: Kết luận này là không tốt và chúng ta mong đợi P-value > 5% các bạn nhé!

Kiểm định Breusch and Pagan Lagrangian trong Stata

Kiểm định Phương sai sai số thay đổi Heteroskedasticity cho mô hình REM bằng kiểm định Breusch and
Pagan Lagrangian trong Stata bằng lệnh: xttest0

image 6

Từ kết quả hình trên ta thấy Prob>chi2 = 0.1092 > 5% nên chấp nhận H0 và kết luận Phương sai sai số
trong các thực thể là không thay đổi.
Lưu ý: Kết luận này điều mà chúng ta mong đợi vì P-value > 5% nha các bạn nè :)))

Xem thêm: Hồi quy mô hình FEM và REM trong dữ liệu bảng

6. Khắc phục phương sai sai số thay đổi trong STATA

Có khá nhiều cách cách khắc phục phương sai sai số thay đổi như sau:

Sử dụng mô hình WLS (Weighted Least Squares), mô hình khá tương tự với mô hình OLS giúp khắc
phục phương sai sai số thay đổi tuy nhiên cần phải sử dụng nhiều phép thử để chọn lọc ra được kết quả.

Tham khảo thêm mô hình WLS tại: https://www.stata.com/manuals13/rvwls.pdf

Biến đổi các biến thành dạng logarit để giảm bớt và khắc phục hiện tượng phương sai thay đổi.

Dùng mô hình phương sai sai số chuẩn (Standard Errors or Robust Standard Errors) để khắc phục
phương sai sai số thay đổi.

Tham khảo: Khắc phục phương sai thay đổi bằng Eviews

khắc phục phương sai sai số thay đổi

Cách này khá phổ biến để khắc phục hiện tượng phương sai thay đổi trong mô hình:

Chỉ cần bỏ thêm lệnh ,robust sau lệnh hồi quy mô hình tuyến tính.

Ví dụ:
 

\5.3 Phát hiện phương sai thay đổi

Bên cạnh các phương pháp đồ thị được mô tả ở phần trước, chúng ta có thể sử dụng

hai kiểm định phương sai thay đổi được sử dụng phổ biến, đó là kiểm định BreuschPagan và kiểm định
White5

.TỰ TƯƠNG QUAN

Thực hành kiểm định tự tương quan

Kiểm định tự tương quan với dữ liệu chuỗi thời gian

Dùng kiểm định Durbin-Watson, kiểm định Breusch-Godfrey

Cách 1: Gõ lệnh dwstat ngay sau khi chạy hồi quy để tính toán giá trị Durbin-Watson, từ đó mới kết
luận có tự tương quan hay không

. dwstat

Durbin-Watson d-statistic( 7, 174) = 2.079461

Cách 2: Có cách khác để kiểm tra tự tương quan Durbin, đó là dùng lệnh durbinalt (kiểm định thay
thế Durbin's alternative test for serial correlation) để tính toán trực tiếp ra mức ý nghĩa thống kê của
kiểm định Durbin-Watson luôn.

Cú pháp lệnh là: estat durbinalt


Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% như trên, ta kết luận chấp
nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Cách 3: Hoặc cách khác nữa, dùng lệnh bgodfrey để kiểm định tự tương quan bằng kiểm định
Breusch-Godfrey

Với giả thiết H0: không có tự tương quan, do đó với giá trị Prob>chi2 >5% của kiểm định Breusch-
Godfrey như trên, ta kết luận chấp nhận giả thiết H0, có nghĩa là không có hiện tượng tự tương
quan( đây là điều mong đợi khi làm bài)
Trên đây là tự tương quan bậc 1, nếu muốn bậc 2, hoặc cao hơn thì thêm tham số lags vào, ví dụ lệnh
sau kiểm tra tự tương quan bậc 2: estat bgodfrey,lags(2)

Kiểm định tự tương quan với dữ liệu bảng

Dùng kiểm định Wooldridge, với cú pháp như sau: xtserial y x1, x2…. ( y là biến phụ thuộc, x1,x2… là
biến độc lập)

Với giả thiết Ho: Không có tương quan chuỗi(no first-order autocorrelation)

Do đó với giá trị Prob>F >5% của kiểm định Wooldridge như trên, ta kết luận chấp nhận giả thiết H0,
có nghĩa là không có hiện tượng tự tương quan( đây là điều mong đợi khi làm bài)

Lý thuyết

Bản chất của tự tương quan là gì ?

Thuật ngữ tự tương quan có thể được định nghĩa như là: quan hệ tương quan giữa các thành viên
của chuỗi của các quan sát được sắp xếp theo thời gian (như trong dữ liệu chuỗi thời gian) hoặc
không gian (như trong dữ liệu chéo). Trong ngữ cảnh hồi qui, mô hình hồi qui tuyến tính cổ điển giả
định rằng quan hệ tự tương quan không tồn tại trong các nhiễu ui.

Tự tương quan và tương quan chuỗi có khác nhau?

Mặc dù hiện nay trên thực tế thường coi các từ tự tương quan và tương quan chuỗi là đồng nghĩa,
một số tác giả vẫn muốn phân biệt hai từ này. Mặc dù sự khác biệt giữa hai từ này có thể là hữu ích,
trong bài này chúng ta sẽ coi chúng là đồng nghĩa.
Mặc dù việc xảy ra tự tương quan là hay có với dữ liệu chuỗi thời gian, nó vẫn có thể xảy ra trong dữ
liệu chéo. Một số tác giả gọi tự tương quan trong dữ liệu chéo là tự tương quan không gian, tức là
tương quan theo không gian chứ không phải là theo thời gian. Tuy nhiên, vấn đề quan trọng là cần
nhớ rằng trong phân tích chéo việc sắp xếp thứ tự dữ liệu cần theo lô gich, hoặc lợi ích kinh tế nào đó,
để làm cho bất cứ việc xác định xem có tồn tại tự tương quan tồn tại hay không là có ý nghĩa.

2. Hậu quả của hiện tượng tự tương quan là gì?

Các ước lượng mô hình OLS vẫn không chệch và nhất quán theo phân phối chuẩn cho dù có hiện tượng
này xảy ra.

Các ước lượng nói trên không còn hiệu quả nữa nghĩa là chúng không còn là ước lượng tuyến tính không
chệch tốt nhất nữa (còn gọi là BLUE).

Các giá trị sai số chuẩn của mô hình OLS bị ước lượng thấp (underestimated), tức các giá trị t ước lượng
bị thổi phồng cao hơn mức bình thường.

Các kiểm định giả thuyết trở nên đáng nghi vì các sai số ước lượng không còn đáng tin cậy. Do đó, kiểm
định t và F có thể sẽ không còn hiệu lực.

Các trường hợp khác có thể dẫn đến mô hình bị hiện tượng hồi quy giả mạo (spurios regression)

3. Kiểm định tự tương quan và cách phát hiện tự tương quan bằng Stata

Mặc dù có nhiều kiểm định tự tương quan, nhưng ở đây MOSL sẽ chỉ thảo luận một vài cách, cụ thể là
phương pháp đồ thị (graphical method), kiểm định Durbin-Watson, và kiểm định Breusch-Godfrey.

ĐA CỘNG TUYẾN

1. Đa cộng tuyến là gì?

Khái niệm: Đa cộng tuyến trong tiếng Anh gọi là Multicollinearity.

Đa cộng tuyến là gì? Đa cộng tuyến là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các
biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm
số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điển. (Giả thuyết vi phạm: Các biến độc
lập không có quan hệ tuyến tính với nhau)
Trong thống kê , đa cộng tuyến (cũng là tính cộng tuyến) là hiện tượng trong đó một biến dự báo trong
mô hình hồi quy bội số có thể được dự đoán tuyến tính từ các biến khác với mức độ chính xác đáng kể.
Trong trường hợp này, các ước lượng hệ số của hồi quy bội có thể thay đổi thất thường để đáp ứng với
những thay đổi nhỏ trong mô hình hoặc dữ liệu.

Đa cộng tuyến không làm giảm sức mạnh dự đoán hoặc độ tin cậy của mô hình nói chung, ít nhất là
trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố dự đoán riêng lẻ.
Nghĩa là, một mô hình hồi quy đa biến với các yếu tố dự đoán cộng tuyến có thể cho biết toàn bộ nhóm
các yếu tố dự báo dự đoán biến kết quả tốt như thế nào, nhưng nó có thể không đưa ra kết quả hợp lệ
về bất kỳ dự đoán riêng lẻ nào hoặc về những yếu tố dự đoán nào là dư thừa so với những người khác.

3. Cách để phát hiện hiện tượng Đa cộng tuyến là gì?

Có hai cách phát hiện ra hiện tượng đa cộng tuyến trong phần mềm hồi quy.

Cách 1: Phát hiện từ Ma trận hệ số tương quan (Correlation Matrix)

Cách 2: Từ Kiểm định đa cộng tuyến bằng hệ số VIF (Variance Inflation Factor)

4. Hậu quả của đa cộng tuyến

Các hậu quả của đa cộng tuyến là gì, cùng đọc bên dưới:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật
chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết “không” và điều này có thể không
đúng.

Đa cộng tuyến có thể dẫn đến kết quả sai lệch hoặc sai lệch khi nhà nghiên cứu hoặc nhà phân tích cố
gắng xác định mức độ sử dụng hiệu quả nhất của từng biến độc lập để dự đoán hoặc hiểu biến phụ
thuộc trong mô hình thống kê.

Đa cộng tuyến có thể dẫn đến khoảng tin cậy rộng hơn tạo ra xác suất kém tin cậy hơn về ảnh hưởng
của các biến độc lập trong một mô hình.

5. Khắc phục hậu quả của Đa cộng tuyến

Khi mô hình của bạn xảy ra hiện tượng đa cộng tuyến hay trong quá trình làm bài tập đa cộng tuyến
trong kinh tế lượng, hãy nhớ cân nhắc sử dụng các giải pháp khắc phục đa cộng tuyến như sau nhé:

Cân nhắc loại bỏ các biến mà có chỉ số VIF thể hiện rằng biến đã bị đa cộng tuyến.
Hãy chắc chắn rằng bạn không rơi vào bẫy biến giả ; bao gồm một biến giả cho mọi danh mục (ví dụ:
mùa hè, mùa thu, mùa đông và mùa xuân) và bao gồm một số hạng không đổi trong hồi quy cùng nhau
đảm bảo đa cộng tuyến hoàn hảo.

Gia tăng cỡ mẫu thu thập thêm cho nghiên cứu khắc phục đa cộng tuyến là gì?

Ví dụ như gia tăng số lượng phiếu khảo sát hay gia tăng số lượng năm, số cá thể thu thập.

Thay đổi, tái cấu trúc dạng mô hình có thể là từ mô hình tuyến tính sang mô hình phi tuyến, hoặc chuyển
sang các mô hình đặt biệt khác….

Cũng có thể loại bỏ đa cộng tuyến bằng cách kết hợp hai hoặc nhiều biến thẳng hàng thành một biến
duy nhất. Sau đó, phân tích thống kê có thể được tiến hành để nghiên cứu mối quan hệ giữa biến phụ
thuộc xác định và chỉ một biến độc lập duy nhất.

Giải pháp cuối cùng hết sức quan trọng là trước khi thực hiện một mô hình nghiên cứu bạn cần phải
tham khảo từ một số paper nghiên cứu trước đó rồi hãy kết luận xem các biến nào nên hoặc không nên
đưa vào mô hình; test trước bộ dữ liệu sơ cấp trên phần mềm để giúp đưa ra nhận định và hướng giải
quyết sớm cho mô hình.

Cuối của cuối cùng là giữ nguyên mô hình, bất chấp đa cộng tuyến. Sự hiện diện của đa cộng tuyến
không ảnh hưởng đến hiệu quả của việc ngoại suy mô hình phù hợp với dữ liệu mới với điều kiện là các
biến dự báo tuân theo cùng một mẫu đa cộng tuyến trong dữ liệu mới như trong dữ liệu dựa trên mô
hình hồi quy.

Gom lại hết các cách trên để cân nhắc khắc phục đa cộng tuyến cho mô hình bạn nhé!

6. Các ví dụ về đa cộng tuyến trong thực tế

Trong Đầu tư

Đối với đầu tư, đa cộng tuyến là yếu tố thường được xem xét khi thực hiện phân tích kỹ thuật để dự
đoán biến động giá có thể xảy ra trong tương lai của một chứng khoán, chẳng hạn như cổ phiếu hoặc
hàng hóa trong tương lai .

Các nhà phân tích thị trường muốn tránh sử dụng các chỉ báo kỹ thuật có tính chất chặt chẽ mà chúng
dựa trên các đầu vào rất giống nhau hoặc có liên quan; chúng có xu hướng tiết lộ những dự đoán tương
tự liên quan đến biến phụ thuộc của chuyển động giá.
Để giải quyết vấn đề, các nhà phân tích tránh sử dụng hai hoặc nhiều chỉ báo kỹ thuật cùng loại. Thay
vào đó, họ phân tích chứng khoán bằng một loại chỉ báo, chẳng hạn như chỉ báo động lượng , sau đó
thực hiện phân tích riêng biệt bằng cách sử dụng một loại chỉ báo khác, chẳng hạn như chỉ báo xu
hướng.

Ví dụ: ngẫu nhiên, chỉ số sức mạnh tương đối (RSI) và Williams% R là tất cả các chỉ báo động lượng dựa
trên các đầu vào tương tự và có khả năng tạo ra kết quả tương tự. Trong trường hợp này, tốt hơn là loại
bỏ tất cả trừ một trong các chỉ báo hoặc tìm cách hợp nhất một số trong số chúng thành một chỉ báo,
đồng thời thêm một chỉ báo xu hướng không có khả năng tương quan cao với chỉ báo động lượng.

Link2:

Ví dụ minh họa đa cộng tuyến

File ví dụ để chạy hồi quy đa cộng tuyến Stata bạn có thể tải ở đây:
phantichstata.com/data/hausman.dta

Sau khi tải về, tiến hành chạy hồi quy OLS bằng lệnh reg ROA ROE DA STD được kết quả như sau:

Kết quả hồi quy OLS với biến phụ thuộc là ROA, biến độc lập là ROE DA STD
Sau đó ta tiến hành dùng lệnh vif để kiểm tra đa cộng tuyến như sau:

Đánh giá kết quả đa cộng tuyến vif

Ta thấy giá trị VIF lần lượt là 3.85 3.6 1.77 , thường thì nếu vif <2 thì mình sẽ kết luận là không có hiện
tượng đa cộng tuyến giữa các biến độc lập. Tuy nhiên thực tế, nếu vif <10 thì ta vẫn có thể chấp nhận
được, kết luận là không có hiện tượng đa cộng tuyến. Trên đây là phần ví dụ đa cộng tuyến stata, còn
sau đây là các phần lý thuyết liên quan và các khắc phục đa cộng tuyến stata

Định nghĩa đa cộng tuyến là gì?

Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ
tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng
tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng
hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu
của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến
này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa
cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối
quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến trong stata

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy
nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.
Cách 1 Dựa vào hệ số vif

khi thực hiện hồi quy OLS, ta gõ lệnh vif dể đánh giá: đây là cách đã làm trong ví dụ ở trên.

Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là
điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng
tuyến

Cách 2 dựa vào hệ số tương quan

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa
các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để
nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi
quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai
này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến stata

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật
chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không
đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc
vào một điều kiện khác.

Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể

Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ
thuộc và biến độc lập bị loại bỏ mô hình).

Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên
nếu mẫu lớn hơn mà vẫn còn đag cộng tuyến multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm
cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng
mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn
phải thay đổi mô hình nghiên cứu.

NỘI SINH
Đnghĩa 1: Trong mô hình kinh tế, một biến được gọi là biến nội sinh nếu nó chịu tác động của các biến
khác trong mô hình, và biến được gọi là ngoại sinh (exogenous variable) nếu nó không chịu tác động của
các biến khác trong mô hình. Như vậy, biến phụ thuộc dĩ nhiên là biến nội sinh. Do nó chịu tác động của
các biến độc lập.

Đnghĩa 2: Hiện tượng nội sinh là một thuật ngữ diễn tả hiện tượng khi một hoặc nhiều biến giải thích
(biến X) có mối quan hệ với sai số của mô hình. Như trong một số bài viết trước, các bạn đã biết sai số
của mô hình là hiệu số giữa giá trị quan sát được của Y và giá trị dự báo của Y được tính toán dựa trên
các hệ số hồi quy và giá trị của biến X. Giả sử ta có mô hình hồi quy dạng Y = a + bX + u thì sai số u cho
mỗi dòng quan sát sẽ được tính là: u = Y – (a+b*X). Sai số của mô hình sẽ đại diện cho ảnh hưởng của
những biến mà mình không quan sát được/không đưa vào mô hình. Những ảnh hưởng không quan sát
được này phải là những ảnh hưởng không mang tính hệ thống (nghĩa là nó ảnh hưởng đến đối tượng
này, nhưng không ảnh hưởng đến đối tượng khác), không tuân theo một quy luật nào cả, và là những
ảnh hưởng không quá đáng kể.

Lưu ý là tất cả các mô hình đều có sai số, tuy nhiên điều quan trọng là sai số đó cần phải thỏa mãn một
trong những giả định rất quan trọng của mô hình hồi quy đó là: E(u|X) = 0. Giả định này nói rằng, giá trị
trung bình của các sai số dựa trên điều kiện của các biến X trong mô hình phải bằng 0. Đơn giản hơn, giả
định này yêu cầu sai số không được có mối quan hệ với X. Nếu như giả định này không được đảm bảo,
điều đó có nghĩa là trong sai số chứa đựng những thành phần nào đó (mà mình đã không đưa vào mô
hình) có thể giải thích được Y và bản thân các biến X chắc chắn phải là những biến có mối quan hệ với Y.
Vô hình chung, biến X và sai số có mối quan hệ với nhau và như vậy hiện tượng nội sinh xảy ra. Khi đó,
các hệ số hồi quy ước lượng theo phương pháp hồi quy tuyến tính OLS sẽ bị chệch (biased) và nó sẽ
không phản ánh đúng được mối quan hệ giữa X và Y. Hay nói một cách đơn giản, ta không thể nào sử
dụng các hệ số hồi quy này được.

Ví dụ: Để dễ hình dung hơn thì ad nói về một ví dụ nhé. Giả sử như ad muốn tìm mối quan hệ giữa số
năm đi học và thu nhập của mỗi người. Như vậy, ad sẽ thực hiện hồi quy biến X là biến số năm đi học
trên biến Y là biến thu nhập để tìm hiểu xem liệu học nhiều có giúp mình kiếm được thu nhập cao hơn
trong tương lai hay không? Vấn đề trong mô hình của ad là có thể có nhiều yếu tố khác ảnh hưởng
đến thu nhập mà ad đã quên đưa vào mô hình ví dụ như khả năng của mỗi người. Ta có thể thấy là
khả năng có mối quan hệ khá chặt chẽ với số năm đi học của mỗi người và cả thu nhập trong tương
lai. Vậy nên, mô hình của ad chắc chắn bị hiện tượng nội sinh và biến số năm đi học thường được gọi
là biến nội sinh.
Các phương thức

Kiểm định Weak instruments:

H0: Biến công cụ sử dụng là yếu

H1: Biến công cụ sử dụng là mạnh

Ta có Pvalue <0.05 => Biến công cụ là mạnh tức là biến công cụ là hợp lí

Kiểm định Wu-Hausman

ta đặt giả thuyết:

H0: mô hình có hiện tượng nội sinh

H1: mô hình không có hiện tượng nội sinh

Ta có Pvalue >0.05, ta chấp nhận H0 bác bỏ H1, tức là mô hình có hiện tượng nội sinh hay nói cách khác
là hồi quy 2 giai đoạn là hợp lý.

Kiểm định Sargan

H0: Tất cả các biến cộng cụ được sử dụng là hợp lý

H1: Có ít nhất 1 biến công cụ là không phù hợp

Ta có Pvalue >0.05, ta chấp nhận H0 bác bỏ H1, tức là tất cả biến công cụ trong mô hình là hợp lý.

LEAST SQUARES

Phương pháp bình phương tối thiểu

Khái niệm
Phương pháp bình phương tối thiểu trong tiếng Anh là Least Squares Method.

Phương pháp bình phương tối thiểu là một dạng phân tích hồi qui toán học được sử dụng để xác định
đường biểu diễn phù hợp nhất cho một tập dữ liệu, cung cấp một phép minh họa trực quan về mối quan
hệ giữa các điểm dữ liệu trong tập dữ liệu.

Mỗi điểm dữ liệu biểu thị mối quan hệ giữa một biến độc lập đã biết và một biến phụ thuộc chưa biết.

Đặc điểm Phương pháp bình phương tối thiểu

Phương pháp bình phương tối thiểu cung cấp cơ sở lí luận chung cho việc sắp xếp tạo ra đường biểu
diễn phù hợp nhất từ các điểm dữ liệu đang được nghiên cứu.

Ứng dụng phổ biến nhất của phương pháp này là các phương pháp xác định đường tuyến tính, vẽ ra một
đường thẳng tối thiểu hóa tổng bình phương của các lỗi có thể xuất hiện trong các kết quả của các
phương trình liên quan.

Chẳng hạn như như phần dư hay mức chênh lệch giữa giá trị quan sát và giá trị dự đoán bình phương.

Phương pháp phân tích hồi qui này được thực hiện bằng cách biểu diễn tập hợp các điểm dữ liệu trên
biểu đồ gồm có trục x và trục y.

Sau đó, nhà phân tích sẽ xác định một đường biểu diễn phù hợp nhất giải thích mối quan hệ tiềm năng
giữa các biến độc lập và phụ thuộc.

Trong phân tích hồi qui, các biến phụ thuộc được minh họa trên trục y hay trục hoành, trong khi các biến
độc lập được minh họa trên trục x hay trục tung.

Ngược lại với bài toán tuyến tính là bài toán bình phương tối thiểu phi tuyến tính không có kết quả cuối
cùng mà được giải quyết bằng cách lặp lại.
Nhà toán học và nhà khoa học người Đức, Carl Friedrich Gauss là người đã phát hiện ra phương pháp
bình phương tối thiểu vào năm 1795.

Ví dụ về Phương pháp bình phương tối thiểu

Giả sử một nhà phân tích muốn kiểm tra mối quan hệ giữa lợi nhuận cổ phiếu của công ty A và lợi nhuận
của chỉ số B mà cổ phiếu công ty A là thành phần.

Trong ví dụ này, nhà phân tích tìm cách kiểm tra sự phụ thuộc của lợi nhuận cổ phiếu A vào lợi nhuận
của chỉ số B. Để đạt được điều này, tất cả các tỉ lệ lợi nhuận của cả cổ phiếu A và chỉ số B được biểu diễn
trên biểu đồ.

Với lợi nhuận của chỉ số B là biến độc lập và lợi nhuận của cổ phiếu A là biến phụ thuộc. Đường thẳng
đúng nhất sẽ là đường giải thích mối quan hệ giữa hai biến trên, cũng như cung cấp các hệ số giải thích
mức độ phụ thuộc cho nhà phân tích.

Đường hồi qui bình phương tối thiểu

Đường biểu diễn phù hợp nhất được xác định bởi phương pháp bình phương tối thiểu có dạng phương
trình tổng quát để cho biết mối quan hệ giữa các điểm dữ liệu.

Nếu dữ liệu cho thấy mối quan hệ rõ ràng giữa hai biến nhất định, đường biểu diễn phù hợp nhất với
mối quan hệ tuyến tính này được gọi là đường hồi qui bình phương tối thiểu.

Đường hồi qui bình phương tối thiểu có khoảng cách sao cho giữa các điểm dữ liệu đến đường này bình
phương nhỏ nhất.

Nguyên nhân cần phải bình phương khoảng cách giữa các điểm dữ liệu và đường hồi qui là để ngăn các
điểm dữ liệu trái dấu triệt tiêu cho nhau.
Nó dùng để làm gì??

Trong các vấn đề xảy ra trong khoa học tự nhiên hoặc xã hội, thật thuận tiện để tiennghich.mobiết các
mối quan hệ xảy ra giữa các biến khác nhau bằng một số biểu thức toán học.

Ví dụ: chúng ta có thể liên quan đến chi phí (C), thu nhập (I) và lợi nhuận (U) trong kinh tế bằng một
công thức đơn giản:

You might also like