Professional Documents
Culture Documents
• Có rất nhiều ví dụ về những mô hình trong lĩnh vực tài chính sử dụng hồi quy
với biến phụ thuộc bị giới hạn:
• Tại sao các công ty lựa chọn các công ty niểm yết cổ phiếu trên TTCK
NASDAQ thay vì NYSE
• Tại sao một số công ty chi trả cổ tức trong khi một số khác lại không?
• Những nhân tố nào ảnh hưởng đến sự vở nợ chủ quyền của các quốc gia?
• Tại sao một số công ty lựa chọn phát hành cổ phiếu để tài trợ cho các dự án đầu
tư mở rộng hay đầu tư mới trong khi một số công ty khác lại chọn phát hành trái
phiếu?
• Tại sao một số công ty lại quyết định chia tách cổ phần trong khi những công ty
khác lại không?
• Rất dễ để thấy rằng trong những trường hợp này các biến phụ thuộc cho các câu
hỏi nghiên cứu trên đều có chung một mẫu hình đó là đều sử dụng biến giả
(dummy) với hai giá trị duy nhất 0 và 1cho 2 thành quả duy nhất thay thế nhau.
• Tuy nhiên cũng có những tình huống mà theo đó biến phụ thuộc sẽ có nhiều giá
trị lựa chọn hơn là chỉ 0 và 1. Và chúng ta sẽ thảo luận trong cùng chương này.
• Mô hình này dựa trên giả định rằng xác suất xảy ra sự kiện, Pi, là tuyến tính với
các biến giải thích:
Pi p ( yi 1) 1 2 x2i 3 x3i k xki ui
• Các giá trị xác suất trên thực tế là không thể quan sát được vì vậy chúng ta sẽ ước
lượng mô hình mà các giá trị của thành quả yi (thực tế là một chuỗi giá trị 0 và
1), sẽ là biến phụ thuộc.
• Đây là mô hình hồi quy tuyến tính và có thể ước lượng bằng phương pháp OLS.
• Các biến giải thích có thể bao gồm biến định lượng hay biến giải hay cả hai.
• Giá trị ước lượng (fitted values) từ mô hình hồi quy này là những giá trị xác suất
cho yi =1 ứng với mỗi quan sát i.
• Các hệ số độ dốc của mô hình hồi quy xác suất tuyến tính có thể được diễn đạt
như là thay đổi trong xác suất để biến phụ thuộc bằng 1 ứng với một đơn vị thay
đổi cho trước trong biến giải thích, đồng thời cố định các tác động từ các biến
giải thích khác.
• Ví dụ: giả sử chúng ta muốn lập mô hình hồi quy xác suất một công ty i sẽ chi trả
cổ tức p(yi = 1) theo giá trị thị trường của công ty đó (x2i, đo lường bằng triệu
đôla). Như vậy chúng ta sẽ có phương trình ước lượng tuyến tính sau:
Pˆi 0.3 0.012 x2i
Với P̂i ký hiệu cho giá trị xác suất được ước lượng của công ty i.
• Kết quả hồi quy từ mô hình này cho thấy ứng với mỗi $1 triệu gia tăng trong quy
mô công ty, thì xác suất công ty chi trả cổ tức sẽ gia tăng bởi 0.012 (hay1.2%).
• Một công ty có giá trị thị trường là $50triệu sẽ có xác suất chi trả cổ tức là -
0.3+0.01250=0.3 (hay 30%).
• Mô hình hồi quy xác suất tuyến tính là đơn giản, dễ ước lượng và diễn đạt kết
quả. Tuy nhiên đồ thị mô tả kết quả hồi quy của mô hình này cho thấy những sai
sót sau:
• Cho bất kỳ một công ty nào mà có quy mô nhỏ hơn $25triệu, thì mô hình hồi quy
xác suất tuyến tính sẽ dự báo công ty này có xác suất chi trả cổ tức là âm hay nhỏ
hơn 0. Và ngược lại với bất cứ công ty nào có giá trị thị trường lớn hơn $88triệu,
thì xác suất công ty đó chi trả cổ tức là lớn hơn 1.
• Rõ ràng những kết quả ước lượng này là không đúng bởi vì các giá trị xác suất
phải nằm trong phạm vi (0,1).
• Có một giải pháp là ta cắt bỏ những giá trị xác suất vượt ra khỏi phạm vi này và
điều chỉnh lại thành 0 và 1. Ví dụ giá trị xác suất ước lượng là -0.3 sẽ được điều
chỉnh về 0 và nếu giá trị ước lượng là 1.2, thì sẽ được điều chỉnh về 1.
• Việc điều chỉnh các kết quả hồi quy sẽ cho ra quá nhiều các quan sát có giá
trị xác suất được ước lượng là 0 và 1.
• Quan trọng hơn, việc chúng ta đơn giản diễn đạt kết quả hồi quy là xác suất
một công ty chi trả cổ tức là đúng bằng 0 hay đúng bằng 1 là không hiện
thực. Bời vì không thể chắc chắn rằng một công ty có quy mô rất nhỏ sẽ
không trả cổ tức và ngược lại một công ty có quy mô rất lớn thì sẽ luôn luôn
chi trả cổ tức.
• Vì những lý do trên nên các mô hình logit hay probit đã được sử dụng để hồi
quy cho các biến phụ thuộc có 2 giá trị 1 và 0 (binary dependent variables )
thay thế cho mô hình hồi quy xác suất tuyến tính.
• Mô hình hồi quy xác suất tuyến tính - LPM cũng đồng thời tiềm ẩn những vi
phạm giả định nền tảng của OLS mà chúng ta đã làm rõ ở các chương trước:
• Phân phối chuẩn của phần dư: bởi vì các biến phụ thuộc chỉ có 2 giá trị 1 và
0 ứng với bất kỳ giá trị cho trước nào của biến giải thích, nên các giá trị sai
số hồi quy cũng sẽ có giá trị tương ứng với một trong 2 giá trị này.
– Và như vậy sai số hồi quy sẽ không thể được giải định là có phân phối chuẩn
• Phương sai thay đổi: và cũng bởi vì các sai số hồi quy thay đổi một cách có
hệ thống với các biến giải thích nên sẽ dẫn đến hiện tượng phương sai thay
đổi.
– Chính vì lý do này mà “sai số chuẩn vững” (heteroscedasticity-robust standard
errors) luôn luôn được sử dụng trong các mô hình với biến số phụ thuộc bị giới
hạn.
• Với e là cơ số mũ tự nhiên tương ứng với phân phối logit vì vậy mô hình
Logit sẽ có phương trình hồi quy như sau:
• Đối với mô hình Logit thì các giá trị 0 và 1 luôn là giá trị tiệm cận và vì vậy
xác suất được ước lượng sẽ không bao giờ đạt được mức tuyệt đối là zero
hay 1, mặc dù các giá trị ước lượng này có thể là rất gần (tiệm cận).
• Mô hình hồi quy Logit không phải là mô hình tuyến tính và do vậy không sử
dụng phương cách chuyển đổi (transformation) để có thể sử dụng phương
pháp hồi quy OLS.
• Thay vào đó phương pháp hồi quy MLE (maximum likelihood estimation)
thương được sử dụng để ước lượng các hệ số hồi quy (parameters) của mô
hình.
• Lý thuyết POT cho rằng các công ty sẽ ưu tiên sử dụng nguồn tài trợ “rẻ
nhất” là nguồn tài trợ từ lợi nhuận giữ lại và sau đó mới đến các nguồn tài trợ
từ bên ngoài theo thứ tự là sử dụng nợ vay và cuối cùng là vốn cổ phần.
• Sự khác biệt trong chi phí sử dụng vốn giữa các nguồn tài trợ được cho là có
bắt nguồn chủ yếu từ bất cân xứng thông tin (information asymmetries) bởi
vì các nhà quản lý bên trong một doanh nghiệp luôn biết nhiều hơn những rủi
ro về doanh nghiệp mình so với các nhà đầu tư bên ngoài.
• Và do vậy nếu cố định những nhân tố còn lại thì các công ty sẽ ưu tiên sử
dụng nguồn vối nội bộ trước và sau đó mới đến nguồn tài trợ bên ngoài nếu
cần thiết.
• Những công ty mới niêm yết này được giả định là có tiềm năng tăng trưởng
cao và do vậy có rất nhiều khả năng là sẽ cần huy động thêm vốn từ bên
ngoài so với các công ty đã niêm yết từ lâu trên TTCK.
– Những công ty mới niêm yết này có nhiều khả năng là sẽ đối mặt với
những bất lợi của bất cân xứng thông tin đo bởi thông tin về hoạt động
kinh doanh của những công ty này còn ít.
• Danh sách các công ty IPOs đã được thu thập từ bộ dữ liệu SDC (securities
Data Corporation) cũng như tại SEC (Securities and Exchange
Commission). Các dữ liệu về kế toán được thu thập qua bộ dữ liệu
Compustat.
• Theo mục tiêu này thì biến phụ thuộc sẽ có giá trị “binary”: giá trị là 1 nếu
công ty thực tế đã huy động vốn thêm từ bên ngoài và giá trị 0 nếu ngược lại.
• Và như đã phân tích ở trên, mô hình OLS sẽ không phù hợp và mô hình
Logit được sử dụng.
• Các biến giải thích bao gồm những biến số có thể đo lường mức độ tương đối
về bất cân xứng thông tin cũng như rủi ro của công ty.
• Nếu lý thuyết POT đúng và được hỗ trợ bởi kết quả hồi quy thì khi đó ta có
thể nói rằng các công ty có khuynh hướng huy động vốn từ bên ngoài chỉ khi
nguồn vốn nội bộ đã cạn.
• Biến số giải thích quan trọng nhất của mô hình, deficit có hệ số hồi quy
không có ý nghĩa thống kê và do đó xác suất sử dụng nguồn tài trợ từ bên
ngoài không phụ thuộc vào mức độ thâm hụt ngân sách (firm's cash deficit).
• Hệ số hồi quy của biến surplus có dấu âm, thể hiện rằng một công ty với mức
thặng dư ngân quỹ nội bộ càng lớn thì xác suất công ty tìm kiếm nguồn tài
trợ từ bên ngoài là càng thấp. Kết quả này hỗ trợ phần nào lý thuyết POT.
• Các công ty lớn hơn trong quy mô tổng tài sản thì có xác suất nhiều hơn
trong việc tìm kiếm nguồi tài trợ từ bên ngoài, giống như những công ty đã
sử sụng nguồn tài trợ này trong năm trước đó.
• Giống như mô hình Logit, hàm phân phối chuẩn sẽ giúp chuyển đổi các giá
trị được ước lượng sao cho không vượt ra khỏi giới hạn (0, 1).
• Một lần nữa cũng giống như mô hình Logit, tác động cận biên từ 1 đơn vị
thay đổi trong biến giải thích, ví dụ x4i , sẽ dẫn đến sự thay đổi trong xác suất
của biến phụ thuộc là β4f (zi ), với β4 là hệ số hồi quy của biến số giải thích x4i
và
zi = β1 + β2x2i + β3x3i +· · ·+ui .
• Trong đa số các ứng dụng, mô hình hồi quy Logit và Probit sẽ cho ra các
kết quả không khác biệt bởi vì hàm số mật độ phân phối là tương tự như
nhau.
• Điều này có nghĩa là đồ thị các giá trị được ước lượng y sẽ hầu như
không phân biệt được và mối quan hệ ngụ ý giữa các biến giải thích và
xác suất để yi =1 sẽ rất giống nhau.
• Các 2 phương pháp tiếp cận này đều có ưu điểm vượt trội so với mô
hình LPM (linear probability model). Chỉ có một điểm mà cả 3 mô hình
đều cho ra kết quả không khác biệt nhau mấy đó là khi yi có các giá trị 0
và 1 không cân xứng, ví dụ yi =1 chỉ chiếm khoảng 10%.
• Stock và Watson (2006) đề xuất rằng phương các tiếp cận Logit
được ưa thích hơn Probit bởi vì hàm phân phối mật độ Logit
không yêu cầu tính toán các giá trị tích phân và do vậy các hệ số
hồi quy sẽ được ước lượng nhanh hơn.
• Tuy nhiên lý do này đã không còn đúng khi mà các ứng dụng của
máy tính ngày càng nhanh và hiệu quả với chi phí thấp do vậy
việc lựa chọn mô hình Logit hay Probit là tùy nghi.
• Tuy nhiên việc diễn giải kết quả hồi quy đối với mô hình Logit và Probit thì có
đôi chút khác biệt.
• Mặc dù là không đúng nhưng chúng ta sẽ rất dễ bị cám dỗ đễ diễn giải kết quả
hồi quy mô hình Logit hay Probit theo hướng sau: với 1 đơn vị gia tăng trong
biến giải thích, ví dụ x2i, sẽ dẫn đến 2 % gia tăng trong xác suất để thành quả
tương ứng với yi =1 xảy ra.
• Cách diễn đạt này có thể là đúng nếu mô hình hồi quy là tuyến tính.
• Tuy nhiên đối với mô hình phi tuyến như Logit hay Probit, cách diễn đạt này
là không chính xác bởi vì phương trình hồi quy là Pi = F(x2i) thay vì Pi = 1 +
2 x2i + ui, với F là hàm số phi tuyến (non-linear logistic function)
• Để có thể giải thích chính xác mối quan hệ giữa x2i và Pi, chúng ta cần tìm giá
trị thay đổi của hàm F đối với biến x2i hay tính toán đạo hàm của F theo biến
x2i và kết quả thú vị chính là 2F(x2i) .
• Vì vậy với 1 đơn vị thay đổi trong x2i sẽ dẫn đến 2F(x2i) gia tăng trong xác
suất của yi.
• Ví dụ, giả sử chúng ta có kết quả hồi quy mô hình Logit (Probit) theo 3 biến
giải thích sử dụng phương pháp ước lượng MLE như sau:
• Chúng ta cần tính giá trị f(zi) với zi là các giá trị bình quân của các biến giải
thích. Giả sử gttb của x2i là 1.6; của x3i là 0.2 và của x4i là 0.1
• Khi đó giá trị ước lượng của f(zi) sẽ được cho bởi phương trình:
• Do vậy với 1 đơn vị gia tăng trong x2 sẽ dẫn đến sự gia tăng trong xác suất
thành quả tương ứng với yi = 1 là 0.3 × 0.63 = 0.019.
• Sự thay đổi tương ứng trong xác suất thành quả tương ứng với yi = 1 từ các
thay đổi của các biến số x3 và x4 lần lượt sẽ là:
−0.6 × 0.63 = −0.38 và 0.9 × 0.63 = 0.57
• Những ước lượng theo GTTB này còn gọi là phương pháp đo lường hiệu ứng
cận biên marginal effects.
• Có một cách khác để diễn đạt cho mô hình lựa chọn rời rạc (discrete choice
models) được biết như là mô hình hữu dụng ngẫu nhiên (random utility
model).
• Theo phương pháp này chúng ta có thể xem giá trị của yi được lựa chọn bởi cá
nhân i (hoặc 0 hoặc 1) như là đo lường mức độ hữu dụng mà cá nhân đó được
hưởng. Và sự lựa chọn đã tạo ra mức độ hữu dụng lớn nhất cho cá nhân đó.
• Cách diễn đạt này là đặc biệt hữu dụng trong trường hợp các cá nhân đối mặt
với rất nhiều lựa chọn thay vì chỉ là 2 như được trình bày trong phần tiếp theo
sau.
• Thứ nhất là bởi vì mục tiêu của phương pháp ML là tối đa hóa giá trị của LLF,
chứ không phải tối thiểu hóa RSS.
• Thứ hai R2, nếu được tính theo cách thông thường sẽ không còn đúng bởi vì
các giá trị ước lượng từ mô hình có thể có bất kỳ giá trị nào nhưng thực tế
trong mô hình Logit và Probit các giá trị chỉ là 0 hoặc 1.
• Có 2 cách đo lường mức độ phù hợp của mô hình Logit hay Probit mà thường
được báo cáo từ kết quả hồi quy các mô hình biến phụ thuộc bị giới hạn
(limited dependent variable models):
– Phần trăm của giá trị yi được dự báo chính xác
– ‘pseudo-R2’ (cũng còn được gọi như là McFadden's R2), được định nghĩa
như là (1 - LLFlogit or probit model /LLFonly an intercept model)
• Ví dụ:
– Một công ty có thể cân nhắc niêm yết trên các sàn giao dịch chứng khoán
NYSE, NASDAQ hay AMEX.
– Một công ty đang dự định mua lại một công ty khác có thể cân nhắc giữa
chi trả bằng tiền mặt, cổ phiếu hay cả hai.
– Một nhà đầu tư cá nhân có thể lựa chọn mua cổ phần của của 5 quỹ đầu tư
tương hỗ cho trước (mutual funds).
– Một tổ chức xếp hạng tín nhiệm có thể phân bổ giá trị xếp hạng khác nhau
từ 1 đến 16 (AAA cho đến B3/B-) cho khoản nợ của một công ty.
Khoa Tài Chính - ĐHKT TPHCM 34
Mô hình với biến phụ thuộc có nhiều giá trị lựa chọn
(Multinomial Linear Dependent Variables)
• Lưu ý rằng 3 ví dụ đầu khác biệt với ví dụ thứ 4.
• Trong 3 ví dụ đầu tiên, không có trật tự tự nhiên của các giá trị thay thế: sự lựa
chọn chỉ đơn giản là chọn 1 trong số các khả năng.
• Trong ví dụ cuối, các giá trị thay thế có sự xếp hạng bởi vì giá trị 1, ký hiệu
như là AAA-rated bond, là tốt hơn 2, ký hiệu là AA1/AA+-rated bond, và v.v..
• Hai tình huống khác nhau này cần phải được phân biệt và các phương pháp
tiếp cận khác nhau sẽ được áp dụng riêng rẽ:
o Trong 3 trường hợp đầu, (các biến số không có trật tự xấp hạng – no
natural ordering), thì mô hình Logit hay Probit với nhiều giá trị lựa chọn
được áp dụng (multinomial logit or probit).
o Trong trường hợp cuối, (trật tự hay đặc tính xếp hạng của biến số là quan
trọng), thì lúc này mô hình Logit hay Probit cho biến xếp hạng (ordered
logit or probit) sẽ được áp dụng.
Khoa Tài Chính - ĐHKT TPHCM 35
Mô hình với các lựa chọn rời rạc (Discrete Choice Problems)
• Khi các giá trị lựa chọn thay thế là không được xếp hạng (unordered), thì các
mô hình được gọi là mô hình với các lựa chọn rời rạc (discrete choice
problem) hay mô hình với nhiều lựa chọn (multiple choice problem).
• Những mô hình này được rút ra từ nguyên tắc tối đa hóa hữu dụng (utility
maximisation) theo đó một cá nhân sẽ lựa chọn sao cho tối đa hóa hữu dụng
(utility) cho mình trong mối tương quan với các cá nhân khác.
• Về mặt kinh tế lượng, nguyên tắc này sẽ được nắm bắt bằng cách sử dụng sự
khái quát hóa đơn giản từ mô hình lựa chọn nhị phân “binary choice” trước
đó. Do vậy mô hình Logit hay Probit với nhiều giá trị lựa chọn (multinomial
logit hay probit) chính là sự mở rộng trực tiếp từ mô hình “binary”.
• Trong mô hình Multinomial logit, các sai số hồi quy (error terms) trong mô
hình hồi quy ở ví dụ trên là ui và vi phải được giả định là độc lập với nhau và
đây chính là cản trở khi mà các lựa chọn gần giống như nhau. Vấn đề này còn
được gọi là sự độc lập của các lựa chọn không có liên quan “independence of
irrelevant alternatives”.
• Trong slide sau ta sẽ quay trở lại ví dụ về kiểm định lý thuyết POT. Bây giờ ta
có mô hình với 3 lựa chọn: Bond issue, Private debt issue và Equity issue.
• Việc diễn đạt kết quả mô hình Multinomial logit /Probit sẽ dựa trên nguyên tắc
tham chiếu (reference point).
• Trong thực tế có nhiều trường hợp biến phụ thuộc sẽ có các giá trị được phân
bổ bằng số với các trật tự trên đó.
• Trong tài chính những trường hợp này thường là xếp hạng tín nhiệm (credit
ratings) nhưng đã thảo luận trong phần trước, hay mô hình đo lường chênh lệch
giá mua-bán của cổ phiếu (security's bid-ask spread).
• Trong những trường hợp này, việc sử dụng mô hình Multinomial logit or probit
là không phù hợp vì các kỹ thuật được áp dụng trong các mô hình này không
tính đến trật tự của lựa chọn (ordering on the dependent variables).
• Ví dụ mô hình đánh giá “credit rating” sẽ được thiết kế sao cho một trái phiếu
bất kỳ sẽ được xếp hạng là AA+ nếu biến giải thích uy tín tín dụng của nó
(unobserved variables) rơi vào vùng xác định cho trước.
• Các giá trị của từng nhóm xếp hạng sẽ được ước lượng cùng với các thông số
khác của mô hình.
• Phần nhiều các công ty trên thế giới không tìm kiếm xếp hạng tín nhiệm vì họ
tin rằng các tổ chức xếp hạng không nắm rõ thông tin về rủi ro ở quốc gia củah
ọ hoặc các công ty này không có kế hoạch vay nợ hoặc nhậtn hức được rằgn
mình sẽ bị xếp hạng thấp.
• Tuy nhiên ngay cả không được yêu cầu các tổ chức xếp hạng vẫn cho ra các
kết quả đánh giá và loại xếp hạng này còn được gọi là unsolicited ratings.
• Các công ty không yêu cầu nhưng vẫn bị đánh giá tín nhiệm thường phàn nàn
nàn rằng kết quả thiên lệch theo hướng thấp đi và kết quả này không đáng tin
cậy khi mà tổ chức xếp hạng không có được đầy đủ thông tin chi tiết cung cấp
bởi các công ty.
• Dữ liệu bao gồm các công ty trên danh sách S&P 500 từ1998-2000.
• Danh sách sẽ bao gồm các công ty solicited và unsolicited ratings với 295 firms
trên 15 quốc gia (595 observations).
• Kết quả đúng như mong đợi, các đặc điểm và tình hình tài chính của các công
ty với unsolicited ratings yếu hơn hẳn các công ty chủ động yêu cầu xếp hạng.
• Phương pháp nghiên cứu chính là ordered probit model với biến giả dummy là
công ty chủ đổng đăng ký xếp hạng hay không.
1 if Ri* 0
Ri* X i i 2 if 0 Ri* 1
Ri 3 if 1 Ri* 2
4 if 2 Ri* 3
5 if Ri* 3
Khoa Tài Chính - ĐHKT TPHCM 43
Dữ liệu và phương pháp nghiên cứu (Data and
Methodology)
Với
– Ri là mức độ xếp hạng tín nhiệm thực tế: AA hay cao hơn
= 6, A = 5, BBB = 4, BB = 3, B = 2 và CCC hoặc thấp hơn
=1
– Ri* là kết quả xếp hạng đúng nhưng không quan sát được
– Xi là các biến đo lường tình hình tài chính của các công ty
– là các hệ số hồi quy; i là threshold parameters cần
được ước lượng.
– i là phần dư được giả định là normally distributed.
• .
• SOVAA, SOVA, và SOVBBB là các biến giả đo lường debt issuer's sovereign
credit rating (AA; A; BBB or below)
• Để khắc phục hiện tượng sample selection bias, Heckman (1979) đề xuất
phương pháp hồi quy 2 giai đoạn (2-step procedure):
• Phương trình hồi quy thứ nhất sẽ là mô hình 0-1 probit model giải thích lý do
tại sao biến giải thích không quan sát được (một số công ty không muốn được
xếp hạng). Y* Z
i i i
• Yi = 1 nếu công ty yêu cầu xếp hạng và ngược lại là 0, Zi là những biến số giải
thích lý do công ty yêu cầu được xếp hạng, và là các hệ số cần ước lượng.
• Phương trình thức hai là mô hình ordered probit model để giải thích các nhân
tố ảnh hưởng đến kết quả xếp hạng. 1 if R* i 0
2 if 0 R 1
*
i
Ri = Xiβ + ε Ri 3 if 1 R 2
*
i
4 if 2 R 3
*
i
Khoa Tài Chính - ĐHKT TPHCM 5 if Ri* 3 47
The Heckman 2-Step Procedure
• Ví dụ: kiểm định mức độ quyên tặng của một cá nhân theo thu nhập của
người đó. Thực tế là có một số cá nhân có thể thích thực hiện “quyên
tặng” có giá trị âm.
• Điều này có nghĩa là anh ta thích nhận quyên tặng hơn là làm từ thiện.
Nhưng vì điều này là không khả thi trong khảo sát thực tế nên rất nhiều
quan sát sẽ có giá trị bằng 0.
• Do vậy trong trường hợp này phương pháp OLS sẽ cho ra các ước lượng
“chệch” (biased) và “không nhất quán” (inconsistent).
• Có một cách đễ giải quyết hiễn nhiên là ta sẽ loại bỏ những giá trị
zero.Nhưng điều này sẽ là không đúng khi mà không thể biết rõ giá trị nào
chính xác là zero và giá trị nào là âm.
• Và cách làm này sẽ dẫn đến kết quả hồi quy tệ hơn: bên cạnh cho ra ước
lượng “biased” và “inconsistent” thì còn dẫn đến “inefficient” vì một số
thông tin cần thiết (giá trị zero đúng nghĩa) đã bị loại bỏ khỏi mô hình.
• Một nhược điểm khác của cách giải quyết này là sai số hồi quy sẽ có thể
không còn giá trị kỳ vọng bằng 0 và có thể sẽ tương quan với các biến giải
thích (vi phạm thêm 2 giả định khác của OLS).
• Tóm lại, trong trường hợp dữ liệu quan sát có biến “censored” hoặc
“truncated”, OLS sẽ không phù hợp, và phương pháp tiếp cận dựa trên ước
lượng MLE (maximum likelihood) phải được áp dụng, mặc dù sự khác biệt
trong mô hình giữa 2 trường hợp “censored” hoặc “truncated” là rất ít.
• Để diễn giải kết quả hồi quy, chúng ta có thể áp dụng phương pháp “hiệu
ứng cận biên” (marginal effects) với các hệ số ước lượng tìm được, nhưng
mức độ phức tạp sẽ cao hơn so với mô hình Logit hay Probit.
• Dữ liệu bị “kiểm duyệt” (censored) xảy ra khi biến phụ thuộc đã bị “kiểm duyệt”
(censored) tại một điểm tham chiếu nào đó sao cho các giá trị bên trên (above)
hay bên dưới (below) giá trị tham chiếu là không thể quan sát được.
• Lưu ý: mặc dù bị “kiểm duyệt” nhưng các giá trị tương ứng của các biến độc
lập vẫn có thể quan sát được.
• Ví dụ: giả định rằng nhu cầu mua cổ phiếu của các công ty thực hiện IPO
thường là rất lớn, và chúng ta đang thực hiện kiểm định xem có mối quan hệ nào
giữa như cầu mua cổ phiếu IPO với các biến giải thích như thu nhập, tuổi, giáo
dục... Số lượng cổ phiếu cho mỗi nhà đầu tư cá nhân có thể bị hạn chế là không
quá mức nào đó, ví dụ 250, và điều này dẫn đến phân phối của quan sát bị “kiểm
duyệt” .
• Trong ví dụ này mặc dù chúng ta có trong mô hình rất nhiều giá trị cầu đối với
cổ phiếu IPO là 250 và không có giá trị nào trên 250, nhưng tất cả các quan sát
đối với biến giải thích đều hiện hữu và do vậy biến độc lập được gọi là “kiểm
duyệt” (censored), không phải là “cắt bỏ” (truncated).
Khoa Tài Chính - ĐHKT TPHCM 52
Biến phụ thuộc “bị cắt bỏ” (truncated)
• Ngược lại dữ liệu sẽ được gọi là “bị cắt bỏ” khi các quan sát cho cả biến phụ
thuộc và biến độc lập đều bị mất khi biến phụ thuộc ở trên hay ở dưới một
ngưỡng giới hạn nào đó.
• Do vậy sự khác biệt chính của dữ liệu “bị cắt bỏ” so với dự liệu “bị kiểm duyệt”
là chúng ta không thể quan sát được biến phụ thuộc yi và cả biến giải thích xi,
khi một số quan sát bị cắt bỏ mất hoàn toàn ra khỏi dữ liệu quán sát.
• Ví dụ:
Một ngân hàng muốn kiểm định xem những nhân tố nào ví dụ như tuổi tác, nghề
nghiệp, và thu nhập có thể ảnh hưởng đến quyết định của một cá nhân sẽ thực
hiện giao dịch tại một chi nhánh của ngân hàng hay online.
Giả định là ngân hàng cố gắng đê đạt được điều này bằng cách khuyến khích các
khách hàng của mình điền vào bảng câu hỏi khảo sát online khi họ đăng nhập tài
khoản online. Tuy nhiên dữ liệu khảo sát sẽ thiếu mất những khách hàng thực tế
giao dịch ở quầy và họ sẽ không bao giờ cần phải “log-on” trên website của ngân
hàng và sẽ không có cơ hội để trả lời khảo sát.
• Do vậy giải quyết vấn đề dữ liệu bị “cắt bỏ” thật sự là một vấn đề nan giải
trong khâu thu thập dữ liệu bởi vì mẫu dữ liệu có thể được quan sát không
phải là mẫu đầy đủ để có thể đại diện cho tổng thể.
• Và một khi mẫu quan sát bị “chệch” thì sẽ nhiều khả năng cho ra kết quả ước
lượng bị “chệch” (biased) và thiếu “nhất quán”.
• Đây là vấn đề phổ biến bất kể khi nào dữ liệu là có thể quan sát được cho
người sử dụng hay người mua nhưng dữ liệu lại không có sẵn đối với những
người không sử dụng hay cũng không mua.
• Tuy nhiên sẽ không có vấn đề gì nếu như mục tiêu nghiên cứu hay tổng thể
của quan sát chỉ nhắm vào các đối tượng sử dụng giao dịch ngân hàng trên
internet.
• Giả dụ chúng rằng chúng ta muốn kiểm định mô hình nhu cầu mua cổ phiếu IPO
như thảo luận trong ví dụ ở trên. Như vậy nhu cầu này sẽ là hàm số của thu nhập
(x2i), tuổi (x3i), và trình độ học thức (x4i), và vùng cư ngụ (x5i).
• Mô hình này có dạng:
yi* đo lường nhu cầu thực của của cổ phiếu (số cổ phiếu hỏi mua) và nhu cầu
này sẽ chỉ có thể quan sát được yi cho những nhu cầu mua ít hơn 250 cổ phiếu.
• Lưu ý: trong mô hình này 2, 3, etc., đo lường tác động của thay đổi trong số
lượng cổ phiếu hỏi mua từ một đơn vị thay đổi trong x2i, x3i, etc. và do vậy
không phải là tác động đối với số lượng cổ phiếu thực tế có thể mua được.
Khoa Tài Chính - ĐHKT TPHCM 55
Mô hình hồi quy Tobit – Thực hành trên Eviews
• Mô hình Tobit có ít nhất hai nhược điểm chính mà chúng ta cần nắm rõ:
Trước hết, kết quả mô hình Tobit bị ảnh hưởng tiêu cực nhiều hơn từ
hiện tượng phương sai thay đổi (heteroscedasticity ) và phần dư không
có phân phối chuẩn (non-normality) so với mô hình hồi quy thông
thường (standard regression models) và do vậy các ước lượng sẽ bị
“biased” và “inconsistent”.
Thứ hai là mô hình Tobit yêu cầu rằng biến phụ thuộc có thể có các giá
trị gần tới mức giới hạn (limit).
• Tuy nhiên sẽ là không phù hợp cho việc lựa chọn mô hình Tobit trong
những tình huống mà biến phụ thuộc là số lượng cổ phần phát hành bởi
mỗi công ty trong một tháng nào đó.
• Cho hầu hết các công ty, số lượng phát hành có thể chính xác là zero,
nhưng với những công ty có phát hành cổ phần mới thì số lượng cổ
phần có thể là rất lớn và do đó không thể có những công ty mà lượng cổ
phần phát hành mới chỉ là 1, 3 hay 5 cổ phần.
• Trong trường hợp này sử dụng phương cách tiếp cận khác là cần thiết
• Đối với dữ liệu bị cắt bỏ hay “truncated”, mô hình tổng quát sẽ bao gồm
2 phương trình hồi quy:
• Một phương trình với các điểm dữ liệu rơi vào vùng có thể quan sát hay
vùng bị cắt bỏ và phương trình còn lại để mô hình hóa các biến cho ra kết
quả (resulting variable).
• Phương trình thứ hai tương đương với phương pháp Tobit.
• Phương pháp hồi quy với “hai phương trình” cho phép một tập hợp nhân
tố khác (ví dụ quyết định mở tài khoản giao dịch trên mạng) so với tập dữ
liệu với các nhân tố được sử dụng cho phương trình hồi quy được ước
lượng (ví dụ mô hình các nhân tố tác động đến một giao dịch ngân hàng
sẽ được thực hiện online hay tại một chi nhánh ngân hàng) có tác đổng
đến việc thu thập dữ liệu
• Nếu bạn nghĩ rằng hai tập dữ liệu là như nhau thì khi đó một phương
trình đơn có thể được sử dụng và một mình mô hình Tobit là đầy đủ.
Khoa Tài Chính - ĐHKT TPHCM 62
Các mô hình hồi quy cho biến phụ thuộc “bị cắt bỏ”
(Truncated Dependent Variables)
• Tuy nhiên trong nhiều trường hợp các nhà nghiên cứu có thể tin rằng các biến
số trong mẫu dữ liệu thu thập và các phương trình ước lượng là khác nhau.
với yi = yi* khi ai* > 0 và yi là giá trị yi không quan sát được khi ai* 0.
ai* ký hiệu cho “lợi thế” tương đối của việc xuất hiện trong mẫu dữ liệu quan
sát được so với trong mẫu dữ liệu không quan sát được.
• Phương trình đầu tiên kiểm định một điểm dữ liệu i (particular data point i) sẽ
được quan sát hay không, bằng việc hồi quy một biến số đại diện cho biến
không quan sát được (latent or unobserved variable), ai*, trên một tập hợp các
biến giải thích, zi.
• Một cách lý tưởng là cả 2 phương trình sẽ được ước lượng đồng thời
bởi phương pháp Maximum likelihood.
• Tuy nhiên điều này dựa vào giả định rằng các sai số hồi quy εi và ui là
có phân phối chuẩn và sự tương quan có thể có (correlations) giữa các
sai số này là được phép..
• Mặc dù việc ước lượng đồng thời 2 phương trình sẽ cho ra kết quả hồi
quy “hiệu quả” hơn, tuy nhiên sẽ khó khăn khăn hơn về mặt thực
hành. Do vậy phương pháp hồi quy 2 giai đoạn Heckman (1976) đã
được sử dụng phổ biến.
• Phương pháp hồi quy 2 giai đoạn Heckman cho phép sự tự tương quan
giữa các sai số hồi quy trong lúc ước lượng các phương trình tách biệt
nhau.