Professional Documents
Culture Documents
NHÓM 5 - Bài cuối kì
NHÓM 5 - Bài cuối kì
Môn: ĐÁNH GIÁ TÁC ĐỘNG CÁC CHƯƠNG TRÌNH PHÁT TRIỂN
[NHÓM 5]
Kết quả đánh giá của nhóm đối với sự đóng góp của từng thành viên
BÀI LÀM
Câu 1: Đánh giá sơ bộ về tính khả thi của bốn phương pháp định lượng đã học nếu áp dụng để
đánh giá tác động trong tình huống đề bài:
(1) Phương pháp ngẫu nhiên: Không khả thi. Do người dân tự quyết định mình thuộc nhóm tham
gia hay không tham gia dự án, lý do dẫn đến sự lựa chọn có thể quan sát hoặc không quan sát được.
(2) Phương pháp Biến công cụ: Khả thi. Do có thể sử dụng kinh nghiệm, kiến thức từ các nghiên
cứu đi trước để tìm ra (các) biến công cụ tác động lên quyết định có tham gia chương trình hay
không. Tuy nhiên, việc này không dễ do cần khối lượng lớn kinh nghiệm, kiến thức chuyên ngành
cũng như việc khó có thể tìm được dữ liệu của các biến công cụ trong quá khứ.
(3) Phương pháp Khác biệt trong khác biệt: Không khả thi. Do phương pháp này phải xét đến
sự khác biệt trước và sau dự án, nên cần có dữ liệu trước dự án (từ năm 2011 đổ về trước) và sau
dự án. Trong dữ kiện đề bài đưa ra không nhắc đến việc có thu thập dữ liệu từ năm 2011 về trước
hay không, nên phương pháp này tạm thời được cho là không khả thi. Việc phương pháp này thực
hiện được hay không phụ thuộc vào việc năm trước 2011 cán bộ dự án có lấy số liệu các biến trong
mô hình đánh giá (vốn chưa được xây dựng tại thời điểm đó) hay không.
(4) Phương pháp So sánh điểm xu hướng: Khả thi. Phương pháp này xây dựng nhóm so sánh
(comparison group) dựa trên các đặc điểm thống kê, do đó sử dụng được ngay cả khi không xây
dựng cơ sở dữ liệu của nhóm tham gia (treatment group) và nhóm không tham gia (comparison
group) trước khi triển khai.
Câu 2: Có một số ý kiến trong buổi họp thống nhất rằng phương pháp So sánh điểm xu hướng
(PSM) là khả thi trong bối cảnh hiện tại. Dựa vào số liệu có sẵn, các bạn hãy đánh giá tác động
của dự án BHYT theo phương pháp PSM.
a) Thuyết minh việc chọn các biến độc lập (X) dựa vào ít nhất một bài báo hàn lâm. Khi thuyết
minh, cần chỉ rõ căn cứ vào nội dung nào trong bài báo để từ đó các bạn quyết định chọn biến
Để đánh giá tác động của dự án Bảo hiểm y tế (BHYT), ta sẽ so sánh trung bình chi tiêu cho
sức khỏe bình quân đầu người trong năm 2018 giữa những hộ gia đình có tham gia dự án, tức có
mua BHYT cho tất cả thành viên, và hộ không tham gia dự án hoặc không mua BHYT cho tất cả
thành viên. Do đó, biến so sánh dùng để đánh giá tác động được chọn là ln_chibq (biến được tạo
bằng cách lấy log của tỷ số giữa exptot_health và famsize) và biến phân nhóm là insurance. Cách
lựa chọn biến so sánh sẽ được giải thích chi tiết ở phần b. Liên quan đến biến phân nhóm so sánh,
như đã biết, mẫu sẽ được phân thành 2 nhóm là nhóm có tham gia dự án và nhóm không tham gia
dự án, tuy nhiên với hạn chế về mặt dữ liệu hiện có thì không chỉ những hộ gia đình không mua
BHYT mà cả những hộ gia đình chỉ mua BHYT cho vài thành viên chứ không phải là tất cả cũng
sẽ được phân vào nhóm “không mua BHYT cho tất cả thành viên” (biến insurance nhận giá trị 0).
Ý kiến cho rằng sử dụng phương pháp so sánh điểm xu hướng (PSM) để đánh giá tác động
là khả thi trong bối cảnh này là có cơ sở, vì quyết định đánh giá tác động xảy ra ở thời điểm sau
khi dự án đã được triển khai dẫn đến phương pháp chọn mẫu ngẫu nhiên đã không được áp dụng
ngay từ đầu trong dự án. Để phục vụ cho việc tính toán theo phương pháp PSM, ngoài biến phụ
thuộc (insurance) và biến so sánh (ln_chibq) đã có, ta cần chuẩn bị thêm thông số về các biến độc
lập đại diện cho các nhân tố ảnh hưởng đến trạng thái có/không tham gia dự án BHYT. Việc xác
định các biến độc lập dựa trên tham khảo hai bài nghiên cứu của (Jehu-Appiah et al., 2011) và
(Boyer, Lalou, & Ventelou, 2021).
(Jehu-Appiah et al., 2011) sử dụng dữ liệu ở cấp độ hộ gia đình để đánh giá sự công bằng
trong việc đăng ký tham gia Chương trình Bảo hiểm y tế Quốc gia ở Ghana và đánh giá các yếu tố
quyết định nhu cầu tham gia giữa các nhóm hộ có đặc điểm kinh tế - xã hội khác nhau. Mô hình
của họ đề xuất rằng quyết định đăng ký của hộ gia đình là một hàm của ba nhóm yếu tố: cá nhân,
chương trình, và nhà cung cấp dịch vụ chăm sóc sức khỏe. Nhóm yếu tố cá nhân (phỏng vấn chủ
hộ) bao gồm các yếu tố về khuynh hướng, khả năng, và nhu cầu. Các yếu tố về khuynh hướng ảnh
hưởng đến thái độ về bảo hiểm (tuổi, giới tính, giáo dục, sở hữu nhà, nghề nghiệp, quy mô gia
đình, tình trạng hôn nhân, áp lực đồng trang lứa và niềm tin và thái độ đối với sức khỏe). Các yếu
tố về khả năng tạo điều kiện thuận lợi hoặc ngăn cản một cá nhân cố gắng đăng ký (chi tiêu tiêu
dùng, chi tiêu sức khỏe, phần trăm chi tiêu sức khỏe trong tổng chi tiêu, thu nhập, nơi cư trú, kiến
thức về bảo hiểm). Tự nhận thức về tình trạng sức khỏe là yếu tố nhu cầu và thể hiện nguyên nhân
trực tiếp nhất của việc sử dụng dịch vụ y tế. Nhóm yếu tố chương trình bao gồm sự thuận tiện của
vị trí cơ sở y tế chấp nhận chương trình, sự thuận tiện trong quản lý, giá cả và lợi ích của bảo hiểm.
Nhóm yếu tố nhà cung cấp dịch vụ chăm sóc sức khỏe bao gồm chất lượng chăm sóc, thái độ của
nhân viên nhà cung cấp, và sự thích hợp của việc cung cấp dịch vụ. Các yếu tố phức tạp này tương
tác với nhau để tạo ra kết quả có đăng ký hay không. Phụ lục 1 trình bày tóm tắt bảng mô tả các
biến được sử dụng trong bài báo.
(Boyer et al., 2021) thì cho rằng sự khác biệt trong tiếp cận thông tin có thể quyết định nhận
thức của các cá nhân về các chương trình bảo hiểm y tế, từ đó ảnh hưởng đến khả năng (xác suất)
tham gia của họ. Tức là trong tình huống bài nghiên cứu này xuất hiện thêm biến trung gian “nhận
thức về chương trình BHYT cộng đồng (community-based health insurance, CBHI)”, do đó cần
phân biệt rõ hai nhóm biến độc lập: (i) các biến độc lập ảnh hưởng đến quyết định tham gia của cá
nhân và (ii) các biến độc lập ảnh hưởng đến nhận thức về chương trình BHYT cộng đồng của cá
nhân. Nhóm biến i được hàm chứa trong nhóm biến ii, tuy nhiên theo kết quả nghiên cứu của bài
báo này thì trình độ học vấn và khoảng cách đến cơ sở y tế chấp nhận chương trình gần nhất chỉ
tác động lên nhận thức về BHYT cộng đồng chứ không có tác động lên xác suất tham gia về mặt
thống kê. Phụ lục 2 trình bày tóm tắt bảng mô tả các biến được sử dụng trong bài báo. Ngoài các
yếu tố tương tự như nhóm yếu tố cá nhân trong bài (Jehu-Appiah et al., 2011) (yếu tố khuynh
hướng: giáo dục, tuổi, tình trạng hôn nhân, giới tính, và tình trạng sức khỏe tự đánh giá; yếu tố khả
năng: chi tiêu tiêu dùng), bài đưa thêm vào các yếu tố địa lý (khoảng cách đến cơ sở y tế chấp nhận
chương trình gần nhất và khoảng cách khác biệt) và yếu tố ưa thích rủi ro của cá nhân.
Dựa trên lược khảo nghiên cứu và bộ dữ liệu hiện có, nhóm quyết định chọn các biến độc
lập bao gồm: income, agehead, married, genderhead, famsize, sickness (có thể proxy cho yếu tố
nhu cầu, thay thế cho biến tự đánh giá về tình trạng sức khỏe trong cả hai bài), job, location. Để
dễ so sánh sự phù hợp của các biến trong bộ dữ liệu sẵn có với hai bài nghiên cứu tham khảo bên
trên, phụ lục 3 sẽ trình bày tóm tắt bảng mô tả các biến được nhóm sử dụng đánh giá tác động.
b) Thực hiện đánh giá tác động bằng phương pháp PSM với cách so sánh cận gần nhất (Nearest
neighbour matching). Trình bày cách tiến hành và giải thích kết quả
Các bước thực hiện đánh giá tác động chương trình BHYT bằng phương pháp PSM với cách
so sánh cận gần nhất được trình bày tuần tự và chi tiết trong những phần theo sau.
● Đầu tiên, ta sẽ nhập bộ dữ liệu Data_5 vào Rstudio và tiến hành làm sạch dữ liệu. Ở bước này
có hai vấn đề quan trọng cần lưu ý.
o Thứ nhất, tên “distance” bị xung đột do vừa xuất hiện như là tên biến trong bộ dữ liệu
vừa xuất hiện trong cú pháp của câu lệnh “matchit” dùng để tạo hai nhóm tương đồng.
Để phòng tránh lỗi do xung đột này thì ta sẽ xử lý đơn giản bằng cách đổi tên biến
“distance” trong bộ Data_5 thành “dist”.
o Thứ hai, do lựa chọn biến so sánh là ln_chibq (=log(exptot_health/famsize)), những giá
trị là kết quả của phép chia mà trong đó exptot_health bằng 0 sẽ bị lỗi vì logarit của 0 là
không xác định, nó không thể hiện lỗi ngay khi ta gán giá trị cho ln_chibq mà sẽ thể hiện
trong phân phối ln_chibq khiến cho không thể xác định được dạng phân phối khi chạy
kiểm định phân phối chuẩn Shapiro Francia (p-value = NA). Do đó, ta tạo bộ dữ liệu mới
tương tự bộ cũ có tên Data_nhom5, nhưng chỉ chứa các quan sát có exptot_health lớn hơn
0. Liên quan đến việc chọn biến so sánh, tại sao là ln_chibq mà không phải chibq? Do
phân phối của các biến như thu nhập hoặc chi tiêu hầu hết là phân phối lệch phải, vì thu
nhập hoặc chi tiêu càng cao sẽ có càng ít người chạm đến được những mức đó, để đảm
bảo tính vững và nhất quán trong kết quả hồi quy thì cần điều chỉnh thành phân phối
chuẩn bằng cách lấy logarit tự nhiên của chúng.
● Bước hai, ta sử dụng những thông số đã chuẩn bị ở câu a để chạy hồi quy logit. Trong đó, cần
lưu ý biến thu nhập cũng được lấy log khi đưa vào mô hình. Những biến độc lập khác giữ
nguyên, không cần tuân theo giả định phân phối chuẩn vì chúng là những biến định danh hoặc
là biến rời rạc. Kết quả hồi quy được thể hiện trong Bảng 1. Trong đó có 4 biến không có ý
nghĩa thống kê là ln_income, famsize, job, và location. Loại bỏ 4 biến đó khỏi mô hình hồi
quy và chạy lại, ta được kết quả như Bảng 2 với các hệ số đều có ý nghĩa thống kê.
Bảng 1. Kết quả hồi quy logit ban đầu
Call:
glm(formula = insurance ~ ln_income + famsize + agehead + married + genderhead +
sickness + location + job, family = binomial, data = Data_nhom5)
---
Mã ý nghĩa thống kê
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Tham số phân tán cho họ nhị thức được coi là 1)
Độ lệch rỗng: 6280,7 trên 7486 bậc tự do
Độ lệch dư: 6042,8 trên 7478 bậc tự do
AIC: 6060.8
Số lần lặp lại Fisher Scoring: 5
Bảng 2. Kết quả hồi quy logit khi đã loại bỏ các biến không có ý nghĩa thống kê
Call:
glm(formula = insurance ~ agehead + married + genderhead + sickness, family =
binomial, data = Data_nhom5)
---
Mã ý nghĩa thống kê
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Tham số phân tán cho họ nhị thức được coi là 1)
Sai số chuẩn: 1.249 trên 7480 bật tự do
Độ lệch dư: 6044,8 trên 7478 bậc tự do
AIC: 6054.8
Số lần lặp lại Fisher Scoring: 5
● Ở bước kế tiếp, ta tiến hành tạo hai nhóm tương đồng với cách so sánh cận gần nhất tỷ lệ 1:1
như Bảng 3. Do số lượng quan sát của nhóm ngoài dự án ít hơn khá nhiều so với số lượng
quan sát của nhóm tham gia dự án nên chỉ có thể sử dụng tỷ lệ ghép nhóm so sánh 1:1. Sau
đó lưu hai nhóm tương đồng thành Nhom5.data dùng phân tích ở bước tiếp theo.
Bảng 3. Kết quả tạo hai nhóm tương đồng
Call:
matchit(formula = insurance ~ agehead + married + genderhead + sickness,data =
Data_nhom5, method = "nearest", distance = "glm", ratio = 1)
eCDF Max
distance 0,2219
agehead 0,1946
married 0,0393
genderhead 0,0614
sickness 0,1162
Kích cỡ mẫu
Nhóm không Nhóm tham gia dự
tham gia án
Tất cả 1109 6378
Nhóm tương 1109 1109
đồng
Nhóm không 0 5269
tương đồng
Dữ liệu bị bỏ 0 0
● Cuối cùng, ta thực hiện đánh giá tác động bằng cách so sánh liệu có sự khác biệt nào trong kết
quả trung bình của ln_chibq giữa hai nhóm hay không?
o Đầu tiên, ta tạo biến ln_chibq trong bộ dữ liệu hai nhóm tương đồng Nhom5.data.
o Tiếp theo, ta kiểm định phân phối chuẩn của ln_chibq trong mỗi nhóm bằng kiểm định
Shapiro Francia. Kích thước mẫu của mỗi nhóm đáp ứng yêu cầu từ 5 đến 5000 nên câu
lệnh được tiến hành. Kết quả p-value của nhóm 0 và nhóm 1 lần lượt là 5.687e-08 và
0.003341. Do cả 2 bé hơn mức ý nghĩa 10% nên ta bác bỏ giả thuyết H0 (dữ liệu có phân
phối chuẩn) và sử dụng kiểm định phi tham số để so sánh.
o Sử dụng kiểm định Wilcoxon Rank-Sum Test với giả thuyết H0 không có sự khác biệt
trong giá trị trung bình của biến so sánh giữa 2 nhóm. Kết quả p-value rất nhỏ (p-value <
2.2e-16), ta bác bỏ H0, tức là có sự khác biệt trong giá trị trung bình của biến so sánh giữa
2 nhóm.
o Khi này, căn cứ vào giá trị trung bình thực tế của biến so sánh giữa 2 nhóm để kết luận
giá trị trung bình của nhóm nào cao hơn. Giá trị trung bình của nhóm 0 và nhóm 1 lần
lượt là 6.338108 và 7.194876.
Đúc kết từ những phân tích bên trên, nếu xem tổng chi tiêu cho sức khỏe trong bộ dữ liệu
này là những chi phí y tế được hộ gia đình chi trả bằng tiền túi, thì ta có thể kết luận Dự án
BHYT là không hiệu quả, vì giá trị trung bình chi tiêu bình quân của nhóm tham gia dự án lại
cao hơn nhóm không tham gia. Đáng lẽ nhờ sự hỗ trợ một phần chi phí từ bảo hiểm, những hộ
gia đình tham gia BHYT phải được giảm bớt gánh nặng về tài chính và chi tiêu cho y tế ít hơn
trong khi lợi ích cho sức khỏe nhận được là cao hơn.
Câu 3: Một số ý kiến khác trong buổi họp cho rằng phương pháp Biến công cụ (Instrumental
Variable) cũng khả thi trong bối cảnh hiện tại. Dựa vào số liệu có sẵn, các bạn hãy đánh giá tác
động của dự án BHYT theo phương pháp này.
a. Thuyết minh việc chọn các biến độc lập (X) và biến công cụ (Z) dựa vào ít nhất một bài báo
hàn lâm. Khi thuyết minh, cần chỉ rõ căn cứ vào nội dung nào trong bài báo để từ đó các bạn
quyết định chọn biến.
b, Thực hiện đánh giá tác động bằng phương pháp Biến công cụ. Trình bày cách tiến hành và
giải thích kết quả.
Đầu tiên, trước khi nhập bộ dữ liệu Data_5 vào Rstudio, ta cần lưu ý rằng, do lựa chọn biến
so sánh là hàm logarit của chi tiêu bình quân (chibq=exptot_health/famsize), mà logarit của số
0 là một giá trị không xác định, nên ta phần phải làm sạch dữ liệu trong Data_5 bằng cách tạo bộ
dữ liệu tương tự như dữ liệu đã cho, nhưng riêng exptot_health là những giá trị lớn hơn 0 (như
đã giải thích ở câu 2a).
Sử dụng hàm logarit của chibq để đảm bảo tính vững và nhất quán trong kết quả hồi quy
(như đã giải thích ở câu 2a).
Tạo thêm biến chi tiêu bình quân đầu người chibq bằng cách lấy Tổng chi tiêu sức khoẻ 2018
(exptot_health) chia cho Tổng số người trong hộ gia đình (famsize)
Tiếp theo, dựa vào Data_5 đã được xử lý, ta tiến hành hồi quy theo phương pháp Biến
công cụ, với các biến độc lập được nhóm lập luận ở mục 3a (Agehead, Genderhead, Job,
Sickness, Location), biến phân loại là Insurance và biến công cụ là Network. Kết quả hồi quy
theo Biến công cụ được trình bày ở bảng … dưới
Bảng 4: Kết quả hồi quy theo phương pháp biến công cụ
Call:
ivreg(formula = log(chibq) ~ agehead + genderhead + job + sickness + location | insurance |
network, data = Data_5)
Phần dư sai lệch
Min 1Q Trung vị 3Q Max
-5.60145 -0.73599 0.010347 0.767962 1 5.93395
Hệ số:
Ước tính Độ lệch chuẩn Giá trị z Pr(>|z|)
Hệ số cắt 4.6513159 0.198763 23.401 < 2e-16
Insurance 0.838641 0.301812 2.779 0.00547 ***
Agehead 0.008704 0.001656 5.257 1.50e-07 **
Genderhead -0.012708 0.034945 -0.364 0.71611 **
Job -0.112013 0.026197 -4.276 1.93e-05 ***
Sickness 1.131070 0.039880 28.362 < 2e-16 **
Location 0.263360 0.032518 8.099 6.42e-16 ***
Kiểm tra chuẩn đoán:
Sargan 0 NA NA NA
Mã ý nghĩa thống kê
• Kết quả tính toán từ R có trình bày các thông số liên quan đến kiểm định về tính phù hợp
của biến công cụ (Network), đặc biệt là kiểm định Wu-Hausman. Kết quả kiểm định cho
thấy biến Network có ý nghĩa thống kê ở mức 5% (0.00547 < 5%), kết luận bác bỏ giả
thuyết H0, có hiện tượng nội sinh trong mô hình gốc nên việc sử dụng biến công cụ là
phù hợp.
• Kết quả hồi quy cho thấy đa số các biến độc lập đều có ý nghĩa thống kê, biến phân loại
Insurance có ý nghĩa thống kê (0,0161 <5%), nghĩa là có sự khác biệt trong giá trị trung
bình của biến so sánh log(chibq) giữa hai nhóm tham gia dự án và không tham gia dự án.
Vì có sự khác biệt trong giá trị trung bình của biến so sánh, ta căn cứ vào giá trị trung bình thực
tế của biến so sánh để so sánh sự khác biệt của 2 nhóm:
Giá trị trung bình của nhóm không tham gia: 6.338108
=> Chi tiêu bình quân đầu người của nhóm tham gia bảo hiểm y tế cao hơn so với nhóm không
tham gia
Kết luận: Ý kiến cho rằng đánh giá bằng Phương pháp biến công cụ trong bối cảnh hiện tại là có
khả thi, có tồn tại sự khác biệt về chi tiêu bình quân cho BHYT giữa hộ tham gia dự án và hộ
không tham gia dự án. Tuy nhiên, vì giá trị trung bình chi tiêu bình quân của nhóm tham gia cao
hơn không tham gia, dự án BHYT được đánh giá là không hiệu quả (nhất quán với kết quả đã
phân tích ở mục 2b)
TÀI LIỆU THAM KHẢO
Aryeetey, G. C., Westeneng, J., Spaan, E., Jehu-Appiah, C., Agyepong, I. A., & Baltussen, R. (2016). Can
health insurance protect against out-of-pocket and catastrophic expenditures and also support
poverty reduction? Evidence from Ghana’s National Health Insurance Scheme. International
Journal for Equity in Health, 15(1), 116. doi:10.1186/s12939-016-0401-1
Bousmah, M.-a.-Q., Boyer, S., Lalou, R., & Ventelou, B. (2021). Reassessing the demand for community-
based health insurance in rural Senegal: Geographic distance and awareness. SSM - Population
Health, 16, 100974. doi:https://doi.org/10.1016/j.ssmph.2021.100974
Boyer, S., Lalou, R., & Ventelou, B. J. S.-p. h. (2021). Reassessing the demand for community-based health
insurance in rural Senegal: Geographic distance and awareness. 16, 100974.
Jehu-Appiah, C., Aryeetey, G., Spaan, E., De Hoop, T., Agyepong, I., Baltussen, R. J. S. s., & medicine.
(2011). Equity aspects of the National Health Insurance Scheme in Ghana: Who is enrolling, who
is not and why? , 72(2), 157-165.
PHỤ LỤC
(Bao gồm câu lệnh và bảng biểu giải thích)
Phụ lục 1. Giải thích các biến trong nghiên cứu của Caroline (2011)
Factors/Dimensions Variables
Household welfare Mean monthly income; Mean monthly expenditure; Mean Health
expenditure; Proportion of THE spent on health
Reasons for not renewing Could not afford renewal payment; Not satisfied with the provider
membership
Health beliefs & attitudes Buying insurance may bring bad luck and illness.
Health is a matter of fate (in the hands of God) and insurancecannot help
me deal with its consequences.
Phụ lục 2. Giải thích các biến trong nghiên cứu của Bousmah (2021)
Distance to Continuous Shortest geographical distance (in km) between the household
the nearest and the CBHI (based on GPS coordinates)
CBHI
Equivalized Continuous Log of total monthly consumption expenditures (in CFA Francs)
household per consumption equivalent in the household
consumption
expenditure
Individual Discrete Qualitative scale ranging from 0 (“not at all willing to take
risk tolerance risks”) to 10 (“very willing to take risks”)
income Tổng thu nhập của hộ trong năm 2018 (ngàn ĐVT)
exptot_health Tổng chi tiêu cho sức khỏe trong năm 2018 của hộ (ngàn ĐVT)
married Tình trạng hôn nhân của chủ hộ (1: đang có vợ/chồng, 2: độc thân, 3:
khác)
insurance Hộ có mua bảo hiểm y tế cho tất cả các thành viên hay không (0:
không, 1: có)
sickness Tình hình sức khỏe của các thành viên trong hộ (0: trong năm 2018
không có thành viên phải đi thăm khám tại các sơ sở y tế, 1: trong năm
2018 có ít nhất một thành viên phải đi thăm khám tại các sơ sở y tế)
job Tình trạng nghề nghiệp của chủ hộ (0: đang thất nghiệp, 1: đang có
nguồn thu từ một việc làm, 2: đang có nguồn thu từ hai việc làm, 3:
đang có nguồn thu từ ba việc làm)
location Nơi sinh sống của hộ (0: nông thôn, 1: thành thị)
Phụ lục 4. Câu lệnh phần mềm R của câu 2b
#Nhập bộ dữ liệu
library(readxl)
Data_5 <- read_excel("D:/KTLR/Data_5.xlsx")
View(Data_5)
#Đổi tên biến “distance” thành “dist”
colnames(Data_5)[19] <- "dist"
#Tạo bộ dữ liệu mới với các quan sát có exptot_health lớn hơn 0
Data_nhom5 <- Data_5[Data_5$exptot_health > 0,]
View(Data_nhom5)
#Kiểm tra phân phối biến income và tạo biến ln_income
hist(Data_nhom5$income)
hist(log(Data_nhom5$income))
Data_nhom5$ln_income=log(Data_nhom5$income)
#Máy đã có packages "stats" nên bỏ qua bước cài đặt, chỉ yêu cầu trình diện gói stats
library(stats)
#Chạy hồi quy logit với các biến được xác định ban đầu
Modelling<-
glm(insurance~ln_income+famsize+agehead+married+genderhead+sickness+location+job,data
= Data_nhom5,family= binomial)
summary(Modelling)
#Chạy hồi quy logit sau khi đã loại bỏ các biến không có ý nghĩa thống kê
Modelling<- glm(insurance~agehead+married+genderhead+sickness,data = Data_nhom5,family=
binomial)
summary(Modelling)
#Tạo hai nhóm tương đồng
library(MatchIt)
Model<-matchit(insurance~agehead+married+genderhead+sickness,data = Data_nhom5, method
= "nearest", distance = "glm", ratio = 1)
summary(Model)
#Lưu hai nhóm tương đồng
Nhom5.data<-match.data(Model)
View(Nhom5.data)
#Kiểm tra phân phối và tạo biến so sánh
Nhom5.data$Chibq = Nhom5.data$exptot_health/Nhom5.data$famsize
hist(Nhom5.data$Chibq)
hist(log(Nhom5.data$Chibq))
Nhom5.data$ln_Chibq=log(Nhom5.data$Chibq)
#Kiểm định phân phối chuẩn của biến so sánh giữa hai nhóm tham gia và không tham gia
library(nortest)
sf.test(Nhom5.data$ln_Chibq[Nhom5.data$insurance==1])
sf.test(Nhom5.data$ln_Chibq[Nhom5.data$insurance==0])
#Kiểm định phi tham số
wilcox.test(ln_Chibq~insurance, data=Nhom5.data)
#Tính giá trị biến so sánh trung bình thực tế của hai nhóm
mean(Nhom5.data$ln_Chibq[Nhom5.data$insurance==0])
mean(Nhom5.data$ln_Chibq[Nhom5.data$insurance==1])
“chibq”: Data_5$chibq=Data_5$exptot_health/Data_5$famsize
summary(Modelling)
#Kiểm tra giá trị trung bình của biến so sánh giữa 2 nhóm tham gia và không tham gia (0: không
tham gia, 1: có tham gia)
mean(log(Data_5$chibq)[Data_5$insurance==0])
mean(log(Data_5$chibq)[Data_5$insurance==1])