You are on page 1of 32

TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

KHOA TOÁN KINH TẾ

PHÂN TÍCH DỮ LIỆU BẢNG


BÀI 1.3. DỮ LIỆU BẢNG: TÓM TẮT VÀ MÔ TẢ VỚI
STATA

Võ Thị Lệ Uyển

Thành phố Hồ Chí Minh, Ngày 18 tháng 10 năm 2023

VTLU PT.DLB 1 / 32
NỘI DUNG

1 PHÂN TÍCH DỮ LIỆU BẢNG


2 QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
3 QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA
KẾT HỢP DỮ LIỆU
TÁI CẤU TRÚC DỮ LIỆU BẢNG
4 MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ
Các đại lượng số đặc trưng
Mô tả sự tương quan giữa các biến trong dữ liệu bảng

5 HIỂN THỊ DỮ LIỆU BẢNG


Mô tả trực quan các biến
Mô tả khác biệt trung bình giữa các nhóm

VTLU PT.DLB 2 / 32
PHÂN TÍCH DỮ LIỆU BẢNG

Định nghĩa

Phân tích dữ liệu bảng là một phương pháp thống kê được sử dụng
để phân tích dữ liệu trong đó các quan sát được thực hiện trên cùng
một nhóm cá nhân hoặc một cá nhân theo thời gian.

Loại dữ liệu này thường được sử dụng trong các lĩnh vực như kinh tế,
khoa học xã hội và nghiên cứu y học.

Các nhà nghiên cứu thường quan tâm đến việc tìm hiểu xem các biến
thay đổi như thế nào theo thời gian hoặc chúng có liên quan với nhau
như thế nào.

VTLU PT.DLB 3 / 32
PHÂN TÍCH DỮ LIỆU BẢNG

Phân tích dữ liệu bảng


Một số ưu điểm của phân tích dữ liệu bảng bao gồm:
1 Kiểm Soát Tính Không Đồng Nhất:
Phân tích dữ liệu bảng giúp kiểm soát tính không đồng nhất (phương
sai sai số không bằng nhau) không quan sát được.
Bằng cách bao gồm các tác động cố định ở cấp độ cá nhân, phân tích
dữ liệu bảng có thể giải thích các đặc điểm cụ thể của từng cá nhân
không đổi theo thời gian và có thể tương quan với các biến quan tâm.
2 Quan sát Các Biến Theo Thời Gian:
Phương pháp phân tích này còn giúp phát hiện tác động của các biến
theo thời gian.
Bằng cách bao gồm các biến động theo thời gian, phân tích dữ liệu
bảng có thể nắm bắt được những thay đổi của các biến theo thời gian
và cách chúng ảnh hưởng đến kết quả.
3 Do đó, phân tích dữ liệu bảng là một phương pháp lý tưởng để nghiên
cứu các quá trình động và tác động của các can thiệp chính sách.
VTLU PT.DLB 4 / 32
PHÂN TÍCH DỮ LIỆU BẢNG

Phân tích dữ liệu bảng với phần mềm Stata

1 Stata có khá nhiều công cụ cho phân tích dữ liệu bảng với:
Các công cụ và phương pháp để khám phá, trực quan hóa và lập mô
hình dữ liệu.

Các lệnh tích hợp của Stata để phân tích dữ liệu bảng giúp ước lượng
các mô hình hiệu ứng cố định và ngẫu nhiên, mô hình bảng động và
các phương pháp nâng cao khác một cách dễ dàng.

Ngoài ra, khả năng đồ họa của Stata giúp dễ dàng tạo trực quan hóa
dữ liệu bảng có thể hỗ trợ khám phá dữ liệu và giải thích mô hình.

VTLU PT.DLB 5 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Chuẩn bị dữ liệu với Stata


Thiết lập dữ liệu là tổ chức và chuẩn bị dữ liệu cho phân tích khi bắt
đầu làm việc với dữ liệu bảng trong Stata.
Dữ liệu bảng là dữ liệu quan sát sự thay đổi theo thời gian và theo
từng cá nhân (hoặc nhóm).
Thiết lập dữ liệu bảng trong Stata bao gồm các bước như sau:
1 Nhập dữ liệu vào Stata
– Sử dụng lệnh import hoặc mở tệp dữ liệu trực tiếp trong Stata.
2 Định hình lại dữ liệu
– Sắp xếp dữ liệu theo định dạng thích hợp để phân tích.
– Dữ liệu bảng thường được tổ chức ở định dạng “long”, trong đó:
- mỗi dòng là một quan sát
- mỗi cột tương ứng với một trong các biến như: biến ID của cá
nhân hoặc nhóm, biến thời gian, biến giải thích và biến kết quả.

3 Tạo biến cho nhóm và biến thời gian.


VTLU PT.DLB 6 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Chuẩn bị dữ liệu với Stata

Sử dụng bộ dữ liệu bảng mẫu về tổng chi phí cho các hãng hàng không
Hoa Kỳ (1970-1984), gồm tổng chi phí, chỉ số sản lượng, giá nhiên
liệu và hệ số tải của sáu hãng hàng không Hoa Kỳ được đo tại 15 điểm
thời gian.

Nhập dữ liệu vào Stata:


. use airline, clear

Tạo bộ dữ liệu con bằng cách giữ lại các biến cần thiết cho phân tích:
. keep airline year cost output fuel load

VTLU PT.DLB 7 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Chuẩn bị dữ liệu với Stata

Mô tả các biến được giữ lại trong bộ dữ liệu:

. describe airline year cost output fuel load

storage display
variable name variable label
type format
airline int %8.0 g Airline name
year int %8.0 g Year
cost float %9.0 g Total cost in $1, 000
Output in revenue
output float %9.0 g
passenger miles, index number
fuel float %9.0 g Fuel price
load float %9.0 g Load factor

VTLU PT.DLB 8 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Chuẩn bị dữ liệu với Stata

Kiểm tra và làm sạch dữ liệu


. sum airline year cost output fuel load

Bảng: Thống kê mô tả

mean sd min max


airline 11.33333 6.910341 1 21
YEAR 1977 4.344698 1970 1984
COST 1122524 1192075 68978 4748317
OUTPUT .5449949 .5335868 .0376815 1.936463
FUEL .5109021 .4570766 .0586083 1.378495
LOADFCTR .5604602 .0527934 .432066 .6762868
Observations 90

VTLU PT.DLB 9 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Chuẩn bị dữ liệu với Stata

Khai báo dữ liệu bảng (xtset)

. xtset airline year

Panel variable: airline (strongly balanced)


Time variable: year, 1970 to 1984
Delta: 1 unit

VTLU PT.DLB 10 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA

Các lệnh Stata cho việc quản lý dữ liệu bảng


Tạo biến nhóm:
. egen panelvar = group(biến phân loại)

Tạo biến thời gian:


. egen timevar = group(biến thời gian)

Kiểm tra dữ liệu bị thiếu (missing value):


. missingsummary

Xử lý dữ liệu bị thiếu:
. drop if missing(var)
hoặc
. replace variable = mean(var) if missing(var)

Sắp xếp dữ liệu theo thứ tự:


. sort panelvar timevar
VTLU PT.DLB 11 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA KẾT HỢP DỮ LIỆU

Lệnh ‘merge‘

Lệnh ‘merge‘ sẽ kết hợp dữ liệu vào phía bên phải bộ dữ liệu hiện có,
dựa trên các biến chung như biến phân nhóm và biến thời gian.

Lệnh ’merge’được sử dụng khi muốn có một bộ dữ liệu dạng "wide’.

Cú pháp:
. merge 1:1 panelvar timevar using "other-dataset.dta"

VTLU PT.DLB 12 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA KẾT HỢP DỮ LIỆU

Lệnh ‘append‘

Lệnh ‘append‘ được sử dụng để thêm các quan sát mới vào phía
bên dưới của tập dữ liệu hiện có.

Lệnh ‘append‘ được sử dụng nếu cần một bộ dữ liệu dạng "long".

cú pháp:
. use "existing-dataset.dta", clear
. append using "other-data.dta"

VTLU PT.DLB 13 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA KẾT HỢP DỮ LIỆU

Lệnh ‘joinby‘

Lệnh ‘joinby‘ được sử dụng để kết hợp dữ liệu theo biến và trong các
nhóm cụ thể.

Cú pháp:
. sort entityvar timevar
. joinby panelvar using "other-dataset.dta"

VTLU PT.DLB 14 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA TÁI CẤU TRÚC DỮ LIỆU BẢNG

Lệnh ‘reshape‘

Lệnh ‘reshape‘ được sử dụng để thay đổi cấu trúc dữ liệu từ dạng
"long" sang dạng "wide" hoặc ngược lại.

Chuyển từ dạng "long" sang "wide":


reshape wide variable, i(idvar) j(timevar)

Chuyển từ dạng "wide" sang "long":


reshape long variable, i(idvar) j(timevar)

VTLU PT.DLB 15 / 32
QUẢN LÝ DỮ LIỆU BẢNG VỚI STATA TÁI CẤU TRÚC DỮ LIỆU BẢNG

Lệnh ‘stack‘ và ‘unstack‘

Lệnh ‘stack‘ xếp các biến lên trên nhau, tạo thành dạng "long".

Cú pháp:
stack var1 var2 var3, into(stacked-var) clear
Lệnh ‘unstack‘ được sử dụng để chuyến từ dạng "wide" sang "long".

Cú pháp:
unstack variable, by(entityvar) clear

VTLU PT.DLB 16 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng

Các lệnh cơ bản

Khi làm việc với dữ liệu bảng, việc sử dụng các trị thống kê mẫu có
thể giúp nhận biết rõ hơn tính chất của dữ liệu.

Trong Stata, có một số lệnh và kỹ thuật có thể được sử dụng để tính


các trị thống kê mẫu của dữ liệu bảng, chẳng hạn như:
1 Lệnh "tabstat".
Lệnh "tabstat" được sử dụng để tính các trị thống kê mẫu như: trung
bình, độ lệch chuẩn và tần suất của một hoặc nhiều biến.
Lệnh "tabstat" được sử dụng để tính các trị thống kê mẫu của các
nhóm con trong dữ liệu:
–Trị thống kê mẫu theo biến nhóm với cú pháp:
. tabstat panelvar
–Hoặc trị thống kê mẫu theo biến thời gian với cú pháp:
. tabstat timevar.

VTLU PT.DLB 17 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng

Lệnh "xtsum"

Lệnh "xtsum" là một lệnh dành riêng cho dữ liệu bảng nhằm tính các
trị thống kê mẫu như: trung bình, độ lệch chuẩn và tần suất của một
hoặc nhiều biến.

Cú pháp:
. xtsum

Lệnh "xtsum" cũng có thể được sử dụng để tính các trị thống kê cho
từng nhóm trong bộ dữ liệu.

Cú pháp:
. xtsum timevar
. xtsum groupvar

VTLU PT.DLB 18 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng

Lệnh "xtdescribe"

Lệnh "xtdescribe" được sử dụng để tính một loạt các trị thống kê
mẫu, bao gồm: trung bình, độ lệch chuẩn, giá trị tối thiểu, tối đa và
các phân vị của một hoặc nhiều biến.

Cú pháp:
. xtdescribe
Lệnh "xtdescribe" cũng được sử dụng để tính các trị thống kê cho
từng nhóm con trong dữ liệu.
Cú pháp:
. xtdescribe timevar
. xtdes groupvar

VTLU PT.DLB 19 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Các đại lượng số đặc trưng

Lệnh "xttab"

Lệnh "xttab" được sử dụng để tạo bảng tần số hoặc bảng tần số
đồng thời cho dữ liệu bảng.

Việc sử dụng lệnh "xttab" có thể giúp khám phá mối quan hệ giữa
các biến riêng biệt như giới tính, quốc gia,...

Cú pháp:
. xttab timevar
. xttab groupvar

VTLU PT.DLB 20 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng

Lệnh ‘pwcorr‘

Lệnh ‘pwcorr‘ tính hệ số tương quan theo cặp giữa các biến trong dữ
liệu bảng.

Cú pháp:
pwcorr var1 var2, by(idvar)

VTLU PT.DLB 21 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng

Lệnh ‘xtcorr‘

Lệnh ‘xtcorr‘ tính toán tương quan giữa các biến cho từng nhóm
(groupvar) trong dữ liệu bảng.

Cú pháp:
xtcorr var1 var2, clear

VTLU PT.DLB 22 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng

Lệnh ‘xtmixed‘

Lệnh ‘xtmixed‘ cung cấp hệ số tương quan trong nội bộ nhóm nhằm
mô tả cấu trúc tương quan bên trong và giữa các nhóm thông qua
thông ước lượng mô hình hiệu ứng gộp.

Cú pháp:
xtmixed dependent-var || groupvar: cov(unstructured)

VTLU PT.DLB 23 / 32
MÔ TẢ DỮ LIỆU BẢNG BẰNG CÁC ĐẶC TRƯNG SỐ Mô tả sự tương quan giữa các biến trong dữ liệu bảng

Lệnh ‘areg‘

Lệnh ‘areg‘ được sử dụng để mô tả tương quan bên trong nhóm


thông qua ước lượng mô hình hiệu ứng cố định.

Sử dụng lệnh:
areg dependent-var independent-var, absorb(groupvar)

VTLU PT.DLB 24 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến

Biểu Đồ thời gian

Biểu đồ thời gian hiển thị sự thay đổi của một biến theo thời gian
cho từng cá nhân (hoặc nhóm) riêng lẻ.

Cú lệnh:
tsline varname, by(idvar)

VTLU PT.DLB 25 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến

Biểu Đồ Phân Tán

Biểu đồ phân tán giúp hiển thị mối quan hệ giữa hai biến trong dữ
liệu bảng.

Cú pháp:
scatter var1 var2, by(idvar)

VTLU PT.DLB 26 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến

Biểu Đồ Hộp râu

Biểu đồ hộp râu hiển thị phân phối của một biến cho từng cá nhân
(hoặc nhóm).

Cú pháp:
graph box varname, over(idvar)

VTLU PT.DLB 27 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến

Biểu Đồ Nhiệt

Biểu đồ nhiệt giúp hiển thị sự biến thiên của một biến theo thời
gian và theo cá nhân (hoặc nhóm).

Cú pháp:
graph heatmap varname, over(idvar timevar)

VTLU PT.DLB 28 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả trực quan các biến

Bản Đồ dữ liệu bảng

Bản đồ được sử dụng nhằm trực quan hóa cho một bộ dữ liệu bảng
có yếu tố địa lý.

Cú pháp:
spmap varname, idfield(idvar) over(timevar)

VTLU PT.DLB 29 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm

Biểu Đồ thanh

Biểu đồ thanh thể hiện sự khác biệt trung bình giữa các nhóm theo
thời gian.

Cú pháp:
graph bar (mean-var), over(group-var)

VTLU PT.DLB 30 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm

Biểu Đồ thời gian

Biểu đồ đường cũng có thể biểu thị sự khác biệt trung bình qua thời
gian.

Cú pháp:
tsline (mean-var), by(group-var)

VTLU PT.DLB 31 / 32
HIỂN THỊ DỮ LIỆU BẢNG Mô tả khác biệt trung bình giữa các nhóm

Biểu Đồ Hộp râu

Biểu đồ hộp râu có thể trực quan hóa phân phối cho sự khác biệt
trung bình trong từng nhóm.

Cú pháp:
graph box (mean-var), over(group-var)

VTLU PT.DLB 32 / 32

You might also like