Professional Documents
Culture Documents
Võ Thị Lệ Uyển
VTLU PT.DLB 1 / 32
NỘI DUNG
VTLU PT.DLB 2 / 32
PHÂN TÍCH DỮ LIỆU BẢNG
Định nghĩa
Phân tích dữ liệu bảng là một phương pháp thống kê được sử dụng
để phân tích dữ liệu trong đó các quan sát được thực hiện trên cùng
một nhóm cá nhân hoặc một cá nhân theo thời gian.
Loại dữ liệu này thường được sử dụng trong các lĩnh vực như kinh tế,
khoa học xã hội và nghiên cứu y học.
Các nhà nghiên cứu thường quan tâm đến việc tìm hiểu xem các biến
thay đổi như thế nào theo thời gian hoặc chúng có liên quan với nhau
như thế nào.
VTLU PT.DLB 3 / 32
PHÂN TÍCH DỮ LIỆU BẢNG
1 Stata có khá nhiều công cụ cho phân tích dữ liệu bảng với:
Các công cụ và phương pháp để khám phá, trực quan hóa và lập mô
hình dữ liệu.
Các lệnh tích hợp của Stata để phân tích dữ liệu bảng giúp ước lượng
các mô hình hiệu ứng cố định và ngẫu nhiên, mô hình bảng động và
các phương pháp nâng cao khác một cách dễ dàng.
Ngoài ra, khả năng đồ họa của Stata giúp dễ dàng tạo trực quan hóa
dữ liệu bảng có thể hỗ trợ khám phá dữ liệu và giải thích mô hình.
VTLU PT.DLB 5 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
Sử dụng bộ dữ liệu bảng mẫu về tổng chi phí cho các hãng hàng không
Hoa Kỳ (1970-1984), gồm tổng chi phí, chỉ số sản lượng, giá nhiên
liệu và hệ số tải của sáu hãng hàng không Hoa Kỳ được đo tại 15 điểm
thời gian.
Tạo bộ dữ liệu con bằng cách giữ lại các biến cần thiết cho phân tích:
. keep airline year cost output fuel load
VTLU PT.DLB 7 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
storage display
variable name variable label
type format
airline int %8.0 g Airline name
year int %8.0 g Year
cost float %9.0 g Total cost in $1, 000
Output in revenue
output float %9.0 g
passenger miles, index number
fuel float %9.0 g Fuel price
load float %9.0 g Load factor
VTLU PT.DLB 8 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
Bảng: Thống kê mô tả
VTLU PT.DLB 9 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
VTLU PT.DLB 10 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
Xử lý dữ liệu bị thiếu:
. drop if missing(var)
hoặc
. replace variable = mean(var) if missing(var)
Lệnh ‘merge‘
Lệnh ‘merge‘ sẽ kết hợp dữ liệu vào phía bên phải bộ dữ liệu hiện có,
dựa trên các biến chung như biến phân nhóm và biến thời gian.
Cú pháp:
. merge 1:1 panelvar timevar using "other-dataset.dta"
VTLU PT.DLB 12 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA KẾT HỢP DỮ LIỆU
Lệnh ‘append‘
Lệnh ‘append‘ được sử dụng để thêm các quan sát mới vào phía
bên dưới của tập dữ liệu hiện có.
Lệnh ‘append‘ được sử dụng nếu cần một bộ dữ liệu dạng "long".
cú pháp:
. use "existing-dataset.dta", clear
. append using "other-data.dta"
VTLU PT.DLB 13 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA KẾT HỢP DỮ LIỆU
Lệnh ‘joinby‘
Lệnh ‘joinby‘ được sử dụng để kết hợp dữ liệu theo biến và trong các
nhóm cụ thể.
Cú pháp:
. sort entityvar timevar
. joinby panelvar using "other-dataset.dta"
VTLU PT.DLB 14 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA TÁI CẤU TRÚC DỮ LIỆU BẢNG
Lệnh ‘reshape‘
Lệnh ‘reshape‘ được sử dụng để thay đổi cấu trúc dữ liệu từ dạng
"long" sang dạng "wide" hoặc ngược lại.
VTLU PT.DLB 15 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA TÁI CẤU TRÚC DỮ LIỆU BẢNG
Lệnh ‘stack‘ xếp các biến lên trên nhau, tạo thành dạng "long".
Cú pháp:
stack var1 var2 var3, into(stacked-var) clear
Lệnh ‘unstack‘ được sử dụng để chuyến từ dạng "wide" sang "long".
Cú pháp:
unstack variable, by(entityvar) clear
VTLU PT.DLB 16 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng
Khi làm việc với dữ liệu bảng, việc sử dụng các trị thống kê mẫu có
thể giúp nhận biết rõ hơn tính chất của dữ liệu.
VTLU PT.DLB 17 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng
Lệnh "xtsum"
Lệnh "xtsum" là một lệnh dành riêng cho dữ liệu bảng nhằm tính các
trị thống kê mẫu như: trung bình, độ lệch chuẩn và tần suất của một
hoặc nhiều biến.
Cú pháp:
. xtsum
Lệnh "xtsum" cũng có thể được sử dụng để tính các trị thống kê cho
từng nhóm trong bộ dữ liệu.
Cú pháp:
. xtsum timevar
. xtsum groupvar
VTLU PT.DLB 18 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng
Lệnh "xtdescribe"
Lệnh "xtdescribe" được sử dụng để tính một loạt các trị thống kê
mẫu, bao gồm: trung bình, độ lệch chuẩn, giá trị tối thiểu, tối đa và
các phân vị của một hoặc nhiều biến.
Cú pháp:
. xtdescribe
Lệnh "xtdescribe" cũng được sử dụng để tính các trị thống kê cho
từng nhóm con trong dữ liệu.
Cú pháp:
. xtdescribe timevar
. xtdes groupvar
VTLU PT.DLB 19 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng
Lệnh "xttab"
Lệnh "xttab" được sử dụng để tạo bảng tần số hoặc bảng tần số
đồng thời cho dữ liệu bảng.
Việc sử dụng lệnh "xttab" có thể giúp khám phá mối quan hệ giữa
các biến riêng biệt như giới tính, quốc gia,...
Cú pháp:
. xttab timevar
. xttab groupvar
VTLU PT.DLB 20 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng
Lệnh ‘pwcorr‘
Lệnh ‘pwcorr‘ tính hệ số tương quan theo cặp giữa các biến trong dữ
liệu bảng.
Cú pháp:
pwcorr var1 var2, by(idvar)
VTLU PT.DLB 21 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng
Lệnh ‘xtcorr‘
Lệnh ‘xtcorr‘ tính toán tương quan giữa các biến cho từng nhóm
(groupvar) trong dữ liệu bảng.
Cú pháp:
xtcorr var1 var2, clear
VTLU PT.DLB 22 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng
Lệnh ‘xtmixed‘
Lệnh ‘xtmixed‘ cung cấp hệ số tương quan trong nội bộ nhóm nhằm
mô tả cấu trúc tương quan bên trong và giữa các nhóm thông qua
thông ước lượng mô hình hiệu ứng gộp.
Cú pháp:
xtmixed dependent-var || groupvar: cov(unstructured)
VTLU PT.DLB 23 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng
Lệnh ‘areg‘
Sử dụng lệnh:
areg dependent-var independent-var, absorb(groupvar)
VTLU PT.DLB 24 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến
Biểu đồ thời gian hiển thị sự thay đổi của một biến theo thời gian
cho từng cá nhân (hoặc nhóm) riêng lẻ.
Cú lệnh:
tsline varname, by(idvar)
VTLU PT.DLB 25 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến
Biểu đồ phân tán giúp hiển thị mối quan hệ giữa hai biến trong dữ
liệu bảng.
Cú pháp:
scatter var1 var2, by(idvar)
VTLU PT.DLB 26 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến
Biểu đồ hộp râu hiển thị phân phối của một biến cho từng cá nhân
(hoặc nhóm).
Cú pháp:
graph box varname, over(idvar)
VTLU PT.DLB 27 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến
Biểu Đồ Nhiệt
Biểu đồ nhiệt giúp hiển thị sự biến thiên của một biến theo thời
gian và theo cá nhân (hoặc nhóm).
Cú pháp:
graph heatmap varname, over(idvar timevar)
VTLU PT.DLB 28 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến
Bản đồ được sử dụng nhằm trực quan hóa cho một bộ dữ liệu bảng
có yếu tố địa lý.
Cú pháp:
spmap varname, idfield(idvar) over(timevar)
VTLU PT.DLB 29 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm
Biểu Đồ thanh
Biểu đồ thanh thể hiện sự khác biệt trung bình giữa các nhóm theo
thời gian.
Cú pháp:
graph bar (mean-var), over(group-var)
VTLU PT.DLB 30 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm
Biểu đồ đường cũng có thể biểu thị sự khác biệt trung bình qua thời
gian.
Cú pháp:
tsline (mean-var), by(group-var)
VTLU PT.DLB 31 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm
Biểu đồ hộp râu có thể trực quan hóa phân phối cho sự khác biệt
trung bình trong từng nhóm.
Cú pháp:
graph box (mean-var), over(group-var)
VTLU PT.DLB 32 / 32