You are on page 1of 16

BÀI TẬP THỰC HÀNH

HVM Exersire Feb2023 1 / 32

NỘI DUNG
Tạo khung phập liệu
Tiền xứ lý dữ liệu
Làm quen phần mềm thống kê
Nạp dữ liệu vào phần mềm thống kê
Biên tập dữ liệu
Thống kê mô tả và trình bày kết quả
Thống kê phân tích và trình bày kết quả

HVM Exersire Feb2023 2 / 32


Quy trình phân tích dữ liệu
Quy trình phân tích dữ liệu bao gồm các bước chính như sau:
1 Thu thập dữ liệu: thu thập dữ liệu từ các nguồn khác nhau, có thể
là từ cuộc khảo sát, các bảng số liệu, hoặc các tệp dữ liệu khác.
2 Tiền xử lý: dữ liệu thu thập về có thể chưa đủ sạch, hoặc chưa đủ
để phân tích. Bước tiền xử lý giúp kiểm tra, loại bỏ các giá trị thiếu,
dữ liệu nhiễu, dữ liệu ngoại lai và chuẩn hóa dữ liệu.
3 Phân tích: Giai đoạn này bao gồm thống kê mô tả, và thống kê
phân tích. Áp dụng các phương pháp phân tích thống kê để tìm ra
các mối quan hệ giữa các biến trong dữ liệu.
4 Trình bày kết quả: Sử dụng các biểu đồ, bảng và các phương tiện
trực quan khác để giải thích các phát hiện trong dữ liệu.

HVM Exersire Feb2023 3 / 32

BT 1 (Tạo khung nhập liệu)


1 Phần mềm EpiData (miễn phí, chuyên nghiệp). Tham khảo tại
https://www.epidata.dk.
2 Phần mềm MS. Excel (thông dụng, dễ dùng).
Thiết lập kiểu ngày, dấu ngăn cách thập phân trong Control Panel.
Dòng đầu tiên là tên của biến. Tên biến không khoảng trắng, gợi nhớ ...
Tạo ràng buộc (Data Validation), cố định dòng/cột (Freeze Panes), ...
3 Ứng dụng G. Form (linh hoạt).
Tài khoảng Google, lưu trữ G. Drive, xuất dữ liệu ở dạng G. Sheet.
Tạo ràng buộc (Response validation), mô tả dữ liệu bằng biểu đồ.
4 Phần mềm thống kê.
BT 1: Tạo khung nhập dữ liệu theo phiếu khảo sát ý kiến người
bệnh ngoại trú (mẫu phiếu số 2 - BYT). Nhập thông tin 5 phiếu.
BT 2: Tạo khung nhập liệu đối với câu hỏi nhiều lựa chọn. Ví dụ:
Trong năm qua Anh/Chị mắc bệnh nào? Người trả lời có thể mắc
ít nhất 1 bệnh (Cảm, sốt rét, bướu cổ, da liễu, kiết lỵ).

HVM Exersire Feb2023 4 / 32


BT 2 (Tiền xứ lý dữ liệu bằng MS. Excel)
Dữ liệu BaiTap2.xlsx ghi nhận thông tin của 586 ca sinh, gồm các biến số:

1 Phát hiện và bổ sung/điều chỉnh các giá trị không hợp lệ.
2 Thay thế các giá trị ghi nhận bởi kiểu chuỗi bằng ký hiệu mã hóa.

HVM Exersire Feb2023 5 / 32

BT 2 (tt)
Gợi ý: Dùng các chức năng trong MS. Excel như: Filter, Find and
Replace, conditional formatting, sort, ...
1 Giá trị không đồng nhất. Ví dụ biến giới tính (Bé trai, Boy, Nam, ....).
2 Giá trị bất thường, khuyết. Xứ lý: Lục hồ sơ/khảo sát lại. Đối với bài
tập, thay thế bằng giá trị trung bình hoặc trung vị.
3 Mã số trong các bộ dữ liệu là duy nhất. Trong dữ liệu, có một số
trường hợp bị trùng mã số. Hãy tìm cách phát hiện và nêu cách xứ lý.

HVM Exersire Feb2023 6 / 32


BT 2a (Xứ lý dữ liệu thô)
1 Bước 1: Sinh viên trả lời bảng khảo sát qua G.Forms (Bước 1a) và tải
dữ liệu từ G.sheets (Bước 1b)

2 Bước 2: Làm sạch dữ liệu bằng MS. Excel hoặc G.sheets theo gợi ý:
Đặt lại tên biến
Quy ước và mã hóa các giá trị của biến (các trả lời)
3 Lưu lại thành tệp: HoTenSV.xlsx

HVM Exersire Feb2023 7 / 32

Phần mềm Thống kê


Phần mềm thống kê là một loại phần mềm máy tính được sử dụng
để phân tích, tổng hợp và trực quan hoá dữ liệu.
Phần mềm thống kê phổ biến nhất bao gồm Microsoft Excel, IBM
SPSS, Minitab, SAS, Stata, R và Python. Chúng ta có thể chọn sử
dụng phần mềm thống kê phù hợp với nhu cầu và kinh nghiệm của
mình.

HVM Exersire Feb2023 8 / 32


Phần mềm SPSS
SPSS (Statistical Package for the Social Sciences) được phát triển
bởi Norman H. Nie, Dale H. Bent, and C. Hadlai Hull năm 1968 tại
University of Chicago.
Đầu tiên, SPSS được sử dụng cho các nghiên cứu trong lĩnh vực xã hội
học và kinh tế, và sau đó mở rộng đến các lĩnh vực khác như y học và
quản lý.
Từ năm 2009, SPSS được IBM Corporation mua lại và hiện tại đang
được sử dụng trong hơn 140 quốc gia.
SPSS cung cấp một giao diện người dùng trực quan, dễ sử dụng. Cho
phép người dùng tạo ra các báo cáo và biểu đồ, thực hiện các phân
tích dữ liệu, và tạo ra các mô hình dự báo.

HVM Exersire Feb2023 9 / 32

BT 3 (Làm quen SPSS)


1 Khởi động, xem giao diện (Menu, Toolbar), thực hành trên 2 chức
năng chính:
Variable view: Thông tin của biến số như tên, kiểu biến, nhãn, ...
Data View: Hiển thị/chỉnh sửa/nhập dữ liệu
2 Khai báo các biến và nhập dữ liệu của 3 trường hợp (cho tùy ý) theo
thông tin dưới đây:

3 Lưu thành tập tin: BaiTap.sav (File => Save). Mở lại dữ liệu (File
=> Open => Data) và nhập thêm 2 trường hợp. Lưu, đóng.

HVM Exersire Feb2023 10 / 32


BT 3 (tt)
Khi sử dụng SPSS, có các cửa số có thể xuất hiện như:
1 Cửa số Data: Chứa thông tin các biến số và dữ liệu, là nơi thực hiện
các thao tác trên dữ liệu. Dữ liệu được lưu ở dạng *.sav. Mở file: File
=> Open => Data
2 Cửa số Output: Chứa kết quả khi thực hiện các thao tác trong
SPSS. Dữ liệu được lưu ở dạng *.spv. Mở file: File => Open =>
Output
3 Cửa số Syntax: Gõ lệnh. Dữ liệu được lưu ở dạng *.sps. Mở file:
File => Open => Syntax
Ngoài ra, khi hiệu chính biểu đồ, SPSS có thêm cửa số Chart editor, để
hiệu chỉnh biểu đồ.

HVM Exersire Feb2023 11 / 32

BT 4 (Nạp dữ liệu từ các PM khác vào SPSS)


Nhận diện dữ liệu của một số nguồn:
SPSS (.sav)
Excel (.xls/.xlsx)
Text (.txt/.csv)
Stata (.dta), Sas (.sat7bdat, .sd7, ..), R (.rda), . . .
Bài tập
1 Dữ liệu Excel (.xls/.xlsx): Nạp tệp đã xứ lý ở bài tập 2.
2 Dữ liệu Text (.txt/.csv): Nạp tệp dữ liệu BaiTap4.txt.
Hướng dẫn: File => Open => Data => Lựa chọn kiểu tập tin cần mở
(File of Types)

HVM Exersire Feb2023 12 / 32


Dữ liệu dùng cho các bài tập tiếp theo
Tập dữ liệu weight.sav ghi nhận thông tin của 550 trẻ 1 tháng tuổi, gồm
các biến sau:

HVM Exersire Feb2023 13 / 32

BT 5 (Biên tập dữ liệu): Chọn 1 phần dữ liệu


DATA => SELECT CASES
Cách lựa chọn: Theo điều kiện, ngẫu nhiên, đoạn
Các toán tử: Và (&) hoặc (|)
Bài tập (sử dụng tệp weight.sav): Chọn 1 phần dữ liệu thỏa
1 gender = 1. Có bao nhiêu ca?
2 gender = 1 và weight >= 5. Có bao nhiêu ca?
3 Chọn ngẫu nhiên 400/550 trường hợp, lưu lại với tên random400.sav

HVM Exersire Feb2023 14 / 32


BT 6 (Biên tập dữ liệu): Chuyển đổi biến số
Transform => Recode Into Different (Same) Variables
Chuyển biến định lượng thành biến định tính
Chuyển biến định tính thành biến định tính
Chuyển biến kiểu chuỗi (String) thành kiểu số (Numeric)
Bài tập (sử dụng tệp weight.sav): chuyển đổi các biến số
1 weight thành weight1, với 3 nhóm: 1 = <=3,5kg, 2 =>3,5kg và <=5
kg,3 = >5 kg
2 Chuyển biến party thành biến party1, với 2 nhóm: <2 và >=2.
3 Chuyển biến weight thành biến weight2, với các điểm chia: Mean-2SD,
Mean, Mean+2SD. Ghi chú: Mean (trung bình) = 4.4, SD (Độ lệch
chuẩn) = 0.6
Transform => Visual Binning
Tập dữ liệu surgery.sav, ghi nhận thông tin của 141 ca sơ sinh có trải
qua phẫu thuật, gồm các biến: Giới tính, nơi sinh, cân nặng sơ sinh,
tuổi thai, tình trạng sơ sinh, vị trí phẫu thuật, thời gian hậu phẫu, tình
trạng nhiễm trùng.
Yêu cầu: Chuyến biến thời gian hậu phẫu thành 5 nhóm (Number of
Cutpoits = 4).
HVM Exersire Feb2023 15 / 32

BT 7 (Biên tập dữ liệu): Tính toán trên các biến số


Tính toán đại số: Transform => Compute Variable
1 Sử dụng tệp weight.sav. Tính: BMI, ln(length), exp(length),
sqrt(length), length3 , length ∗ gender .
2 Sử dụng tệp weight.sav.Tính các biến weightM, d với
weightM=0.178*length – 5.412, d = weightM-weight
Tính toán thời gian: Transform > Date and Time Wizard. Nạp dữ
liệu day.xlsx vào SPSS, lưu lại với tên days.sav
1 Tính số ngày nằm viện
2 Tính số ngày từ thời điểm bệnh nhân xuất viện tới thời điểm hiện tại.

HVM Exersire Feb2023 16 / 32


Một số chứng năng dùng mô tả dữ liệu trong SPSS
Trong SPSS, để thực hiện các tính toán mô tả dữ liệu, thường:

Analyze => Descriptive_Statistics

Tùy vào ý định mô tả để chọn tiếp


Nếu mô tả 1 biến định tính: Frequencies
Nếu mô tả 1 biến định lượng: Frequencies hoặc Explore
Nếu mô tả 1 định lượng 1 định tính: Explore
Nếu mô tả 2 định tính: Crosstabs
Ghi chú:
Trường hợp 2 định lượng: Analyze => Correlate => Bivariate
Trường hợp câu hỏi nhiều lựa chọn: Analyze => Multiple Responese
Vẽ biểu đồ: Graphs => Chart Builder. Double click chuột trái vào
biểu đồ, để mở cửa số Chart Editor (hiệu chỉnh biểu đồ)

HVM Exersire Feb2023 17 / 32

Gợi ý diễn đạt PP mô tả dữ liệu


Các biến số định lượng được mô tả bằng giá trị trung bình và độ lệch
chuẩn nếu dữ liệu có phân bố chuẩn (phân bố bình thường). Trường
hợp dữ liệu có phân bố không chuẩn, dùng trung vị và khoảng phân
vị.
Các biến số định tính được mô tả bằng tần số và tỷ lệ phần trăm.

HVM Exersire Feb2023 18 / 32


BT 8: Mô tả 1 biến số
Sử dụng tệp weight.sav. Điền thông tin còn thiếu trong bảng sau:

Viết nhận xét. Vẽ biểu đồ thích hợp để mô tả từng biến số ở trên.

HVM Exersire Feb2023 19 / 32

BT 9: Mô tả 1 biến số (dạng câu hỏi nhiều lựa chọn)


Sử dụng tệp Mulchoise.sav. Điền thông tin còn thiếu trong bảng sau:

1 Vẽ biểu đồ thích hợp để mô tả tỷ lệ mắc bệnh.


2 Tính và mô tả phân bố số bệnh mắc của từng người.

HVM Exersire Feb2023 20 / 32


BT 9a: Xứ lý dữ liệu thô (câu hỏi nhiều lựa chọn)
Tệp mulchoise2.xlsx ghi nhận thông tin của 41 SV, đối với câu hỏi sau:

1 Lập bảng mô tả các phương pháp học.


2 Vẽ biểu đồ phù hợp.

HVM Exersire Feb2023 21 / 32

BT 10: Mô tả 1 biến số
Tập dữ liệu LOWBWT.sav chứa thông tin về 189 ca sinh. Các biến được
xác định trong bảng dưới đây

Hãy lập bảng mô tả dữ liệu như gợi ý ở bài tập 8,9. Viết nhận xét.
HVM Exersire Feb2023 22 / 32
BT 11: Mô tả 2 biến số
Sử dụng tệp LOWBWT.sav. Điền thông tin còn thiếu trong bảng sau:

Vẽ biểu đồ thể hiện các mối liên hệ. Viết nhận xét.

HVM Exersire Feb2023 23 / 32

Lựa chọn phương pháp phân tích dữ liệu

HVM Exersire Feb2023 24 / 32


Một số chức năng phân tích dữ liệu trong SPSS

HVM Exersire Feb2023 25 / 32

Gợi ý diễn đạt PPPT dữ liệu


So sánh sự khác biệt về giá trị trung bình (hay xét mối liên hệ giữa 1
biến định tính và 1 biến định lượng):
So sánh 2 số trung bình, dùng kiểm định t mẫu độc lập (Independent
sample t test) khi dữ liệu có PP chuẩn. Trong trường dữ liệu PP không
chuẩn, dùng kiểm định phi tham số Mann-Whitney U.
So sánh nhiều hơn 2 số trung bình, dùng kiểm định F (trong mô hình
phân tích phương sai 1 chiều, One way ANOVA) nếu dữ liệu có PP
chuẩn. Phân tích hậu định (Post hoc), bằng kiểm định Bonferoni khi
phương sai các nhóm đồng nhất, bằng kiểm định Games-Howell khi
phương sai các nhóm không đồng nhất. Trong trường hợp dữ liệu PP
không chuẩn, dùng kiểm định phi tham số Kruskal-Wallis H.
Ghi chú: Kiểm tra tính chất PP chuẩn của 1 phân bố bằng kiểm định
Shapiro-Wilk (hoặc Kolmogorov-Smirnov) kết hợp biểu đồ (Histogram,
boxplot, Q-Q plot) và các giá trị đánh giá độ lệch (Skewness), độ nhọn
(Kurtosis). Kiểm tra tính đồng nhất của phương sai bằng kiểm định
Levene.

HVM Exersire Feb2023 26 / 32


Gợi ý diễn đạt PPPT dữ liệu (tt)
So sánh sự khác biệt về tỷ lệ (hay xét mối liên hệ giữa 2 biến định
tính) bằng kiểm định Chi Bình phương (Pearson Chi - square) khi ít
hơn 20% các ô trong bảng chéo có tần số kỳ vọng (Counts Expected)
nhỏ hơn 5. Khi điều kiện về tần số kỳ vọng không thỏa, dùng kiểm
chính xác Fisher (Fisher’s Exact test).
Phân tích tương quan bằng biểu đồ Scatter, hệ số tương quan
Pearson và kiểm định t khi dữ liệu của 2 biến có PP chuẩn. Khi dữ
liệu 2 biến PP không chuẩn, dùng phương pháp phi tham số
Spearman hoặc Kendall.
Và các diễn đạt khi sử dụng các mô hình hồi qui: Tuyến tính,
Logistic, Poisson, Cox, ...

HVM Exersire Feb2023 27 / 32

BT 12 (phân tích đơn biến): Biến phụ thuộc ĐT


Sử dụng tệp LOWBWT.sav. Phân tích (đơn biến) MLH giữa các yếu tố
với tình trạng CNSS, và trình bày kết quả theo gợi ý:

Viết nhận xét và vẽ các biểu đồ các kết quả chính.

HVM Exersire Feb2023 28 / 32


BT 13 (Phân tích đơn biến): Biến phụ thuộc ĐL
Sử dụng tệp LOWBWT.sav. Phân tích (đơn biến) MLH giữa các yếu tố
với CNSS, và trình bày kết quả theo gợi ý:

Viết nhận xét và vẽ các biểu đồ các kết quả chính.


HVM Exersire Feb2023 29 / 32

BT 13a (Tiếp theo): Hồi qui tuyến tính đơn


1 Viết phương trình hồi qui, với:
Biến phụ thuộc: Cân nặng trẻ sơ sinh, biến độc lập: Cân nặng mẹ tại
thời điểm kinh cuối.
Biến phụ thuộc: Cân nặng trẻ sơ sinh, biến độc lập: tình trạng hút
thuốc lá trong thai kì.
2 Ứng với mỗi trường hợp, diễn giải các kết quả:
Bảng phân tích ANOVA: SSE, SSR, SST, F, ...
Hệ số xác định, Hệ số hồi qui.

HVM Exersire Feb2023 30 / 32


BT 14 (Parired Sample T test/Wilcoxon signed-rank test)
Dữ liệu BMD_study_wide_file.sav chứa thông tin của 60 người cao tuổi
đã tham gia vào một thử nghiệm ngẫu nhiên có đối chứng (randomized
controlled trial), trong đó nhóm can thiệp trải qua chương trình 4 tuần
điều trị nhằm tăng mật độ xương và nhóm đối chứng được điều trị bằng
giả dược. Mật độ khoáng xương (BMD = Bone mineral density) được đo
tại 2 thời điểm (ban đầu và 6 tháng).
Can thiệp có hiệu quả trong việc tăng BMD lúc 6 tháng không?

HVM Exersire Feb2023 31 / 32

NGUỒN THAM KHẢO


1 Barton B., Peat J. (2014), Medical Statistics: A Guide to SPSS, Data
Analysis and Critical Appraisal (2nd Edition), John Wiley and Sons
Inc.
2 Hair J. F., Babin B. J., Anderson R. E. (2019), Multivariate Data
Analysis [8th Edition], Published by Pearson.
3 Lê Trường Giang (2011), Thống kê Y học, NXB Y học.
4 Nguyễn Văn Tuấn (2014), Phân tích dữ liệu với R, NXB tổng hợp
TP. HCM.
5 Vittinghoff E. and et al (2005), Regression Methods in Biostatistics:
Linear, Logistic, Survival, and Repeated Measures Models, Springer.
6 Zeileis A. and et al (2008), Regression Models for Count Data in R,
Journal of Statistical Software Volume 27, Issue 8.

HVM Exersire Feb2023 32 / 32

You might also like