You are on page 1of 7

Bài tập 2: Diet

Giới thiệu về bộ dữ liệu:


Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm về hiệu quả
của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng thành. Một người
tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong vòng 6 tuần lễ. Cân nặng
của người tham gia sẽ được ghi nhận trước và sau khi kết thúc thử nghiệm để đánh giá hiệu quả
của từng chế độ ăn kiêng.
Các biến chính trong bộ dữ liệu:
 Person = số thứ tự của người tham gia thử nghiệm
 gender = giới tính của người tham gia (1 = nam, 0 = nữ)
 Age = tuổi (năm)
 Height = chiều cao (cm)
 pre.weight = cân nặng trước khi áp dụng chế độ ăn kiêng (kg)
 Diet = chế độ ăn kiêng (3 chế độ khác nhau)
 weight6weeks = cân nặng sau 6 tuần ăn kiêng
Bài làm:

1. Khám phá dữ liệu, làm sạch dữ liệu:


- Kiểm tra có missing data:

Ta thấy bộ dữ liệu có biến gender có hai giá trị bị thiếu, nhận thấy biến giới tính có
thể có ảnh hưởng tới cân nặng, do đó ta thực hiện kiểm định ANOVA 1 nhân tố với
giả thuyết H0: Trung bình cân nặng của nữ không khác đáng kể so với trung bình
cân nặng của nam
Dựa vào bảng ANOVA ta nhận thấy p-value nhỏ hơn mức ý nghĩa alpha (5%), vì vậy
ta có đủ cơ cở để bác bỏ giả thuyết H0, tức trung bình cân nặng của nữ khác đáng
kể so với trung bình cân nặng của nam. Vì mục đích của kiểm định chỉ là để có căn
cứ dựa vào điền 2 dữ liệu khuyết trong tập dữ liệu nên các giả thiết ban đầu của
kiểm định ANOVA ta không đi sâu vào kiểm tra, ta tạm chấp nhận rằng các giả thiết
ban đầu đều thỏa mãn.
Trong hai dòng dữ liệu có missing data, với dòng đầu tiên có pre.weight = 60 gần giá
trị mean của pre.weight nhóm nữ hơn nên ta chấp nhận người này giới tính nữ, tức
điền giá trị 0. Với dòng thứ 2 có pre.weight = 103 gần giá trị mean của pre.weight
nhóm nam hơn nên ta chấp nhận người này giới tính nam, tức điền giá trị 1.
- Làm rõ dữ liệu
 Tạo biến mới, biến weightLOST = pre.weight - weight6weeks
 Thống kê mô tả cho các biến liên tục : age, height, pre.weight, weight loss,
weight6weeks
 Kiểm tra outlier: Thông qua biểu đồ boxplot có thể thấy biến height là
biến có nhiều outlier nhất thường có giá trị cao hơn giá trị trung bình,
là phân phối lệch đuôi phải nhiều nhất so với các biến khác trong dữ
liệu

 Kiểm tra phân phối thông qua biểu đồ phân phối xác suất: nhìn
chung các biến đều có phân phối xác suất khá tương đồng với nhau
và phân phối có độ nhọn lớn hơn phân phối chuẩn
 Thống kê mô tả cho các biến định tính: giới tính gender và diet: Có thể thấy
số lượng nữ tham gia thử nghiệm khảo sát nhiều hơn nam, nhưng nhìn
chung số lượng các quan trắc tại mỗi category phân bố khá ổn định, với số
lượng quan trắc như trên, ta có thể đủ cơ sở tiến hành các thống kê và kiểm
định.

2. Phân tích phương sai ANOVA


- Phân tích phương sai ANOVA 1 nhân tố: chế độ ăn kiêng nào phù hợp nhất cho
giảm cân
Để có thể biết được chế độ ăn kiêng nào hiệu quả nhất cho việc giảm cân, ta cần
xem trung bình số cân nặng giảm được của từng chế độ Diet, tức xem xét cột
“weightLOST”. Dựa vào biểu đồ boxplot phía dưới ta có thể nói rằng phương pháp
Diet thứ 3 là hiệu quả nhất vì giá trị median của weightLOST tại phương pháp Diet
thứ 3 cao hơn thấy rõ. Để có những căn cứ thống kê chắc chắn hơn cho kết luận
trên, ta cần làm kiểm định ANOVA một nhân tố. Để ý thấy rằng ở phương pháp Diet
thứ 1 có giá trị cực ngoại lai. Vì đây là 2 giá trị cực ngoại lai nên sẽ ảnh hưởng lớn
tới kiểm định ANOVA, khả năng cao sẽ vi phạm các giả thiết của kiểm định. Ta thử
xem xét xử lý giá trị 2 cực ngoại lai này bằng cách xây dựng một mô hình tuyến tính
dự đoán biến weightLOST từ các biến còn lại.
- Thực hiện kiếm định ANOVA một nhân tố với giả thuyết
H0: Không có sự khác nhau về hiệu quả giữa các chế độ ăn kiêng.
H1: Tồn tại ít nhất 1 chế độ ăn kiêng có sự ảnh hưởng khác biệt đáng kể với 2 chế độ ăn
kiêng còn lại.

Với p-value < alpha (alpha = 0.05), ta đủ cơ sở để bác bỏ H0, tức ta có thể kết luận:
Tồn tại ít nhất 1 chế độ ăn kiêng có sự ảnh hưởng khác biệt đáng kể với 2 chế độ ăn
kiêng còn lại.
Thực hiện kiểm định Turkey để so sánh từng cặp trung bình tổng thể:
Từ các giá trị p trong bảng Tukey, ta có thể kết luận rằng chế độ Diet 3 cho sự ảnh
hưởng khác biệt đáng kể so với 2 chế độ còn lại. Còn 2 chế độ 1 và 2 không có sự
khác biệt nhau về hiệu quả. Do đó ta có thể kết luận biến Diet 3 là chế độ ăn kiêng
phù hợp nhất cho giảm cân
- Phân tích phương sai ANOVA 2 nhân tố: Chế độ ăn kiêng Diet và giới tính gender
ảnh hưởng thế nào đến việc giảm cân weightLOST?
 Xét sự tương tác của hai biến chế độ ăn kiêng Diet và giới tính gender bằng biểu
đồ interaction plots:

Nhìn vào biểu đồ ta thấy hai biến chế độ ăn kiêng Diet và giới tính gender có mối
quan hệ tương tác với nhau.
 Thực hiện kiểm định ANOVA hai nhân tố với interaction model:
Với alpha chọn 0.05, bảng ANOVA cho thấy rằng p-value tại biến “gender” >
alpha vì vậy biến “gender” không có ảnh hưởng tới biến “weightLOST”, trong
khi đó biến “Diet” và sự kết hợp “Diet” với “gender” có ảnh hưởng tới biến
“weightLOST”.
 Thực hiện kiểm định Turkey để xem thêm ý nghĩa chi tiết của từng yếu tố trong
hai nhóm factor ảnh hưởng như thế nào với nhau

 Ở sự kiết hợp Diet và gender, với mức ý nghĩa alpha = 0,05 ta thấy có 3
nhóm “0:3-0:1”, “0:3-1:1” và “0:3-0:2” là thể hiện trung bình 2 nhóm có sự
khác biệt đáng kể, trong đó có 2 nhóm”0:3-0:1” và “0:3-0:2” là gender cố định
= 0, kết quả kiểm định của 2 nhóm này có thể chỉ là hệ quả của kiểm định
ANOVA 1 chiều ở câu trên, tức chỉ có biến Diet ảnh hưởng lên weightLOST.
Tại đây ta có thể kết luận rằng chỉ có biến Diet là ảnh hưởng đến việc giảm
cân còn biến giới tính chỉ có mối quan hệ tương tác với biến Diet còn không
ảnh hưởng tới việc giảm cân.

You might also like