You are on page 1of 22

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA KỸ THUẬT XÂY DỰNG

BÁO CÁO BÀI TẬP LỚN

MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211

NHÓM: XD29 - ĐỀ TÀI: 05

GIẢNG VIÊN HƯỚNG DẪN: ThS. NGUYỄN KIỀU DUNG


DANH SÁCH NHÓM:

STT Họ và tên MSSV Lớp/Tổ Ngành học Kí tên


1 Nguyễn Công Hiếu 2013146 L01/B Kỹ thuật Xây Dựng
2 Nguyễn Hữu Thịnh 2014597 L01/C Kỹ thuật Xây Dựng
3 Phạm Thanh Nhân 2013980 L04/B Kỹ thuật Xây Dựng
4 Phạm Nguyễn Yến Vi 2015039 L04/C Kỹ thuật Xây Dựng
5 Phạm Trần Gia Huy 2013328 L19/B Kỹ thuật Xây Dựng

Tp. Hồ Chí Minh, Tháng 01/11/2021


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

PHÂN CÔNG LÀM VIỆC

STT Họ và tên Nội dung Nhiệm vụ


1 Nguyễn Công Hiếu
2 Nguyễn Hữu Thịnh
3 Phạm Thanh Nhân
4 Phạm Nguyễn Yến Vi
5 Phạm Trần Gia Huy

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 1


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Mục lục
1 HOẠT ĐỘNG 1: 5
1.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Đọc dữ liệu (Import data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.3 Làm rõ dữ liệu: (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.4 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến tính phù hợp
để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà. . . . 14
1.3.5 So sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà. . . . . . . . . 18

2 Hoạt động 2 20
2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 2


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Danh sách bảng

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 3


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Danh sách hình vẽ


1 code R và kết quả khi đọc dữ liệu và xem 3 dòng đầu tiên của dữ liệu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 code R và kết quả khi kiểm tra dữ liệu khuyết
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 code R và kết quả khi tính thống kê mô tả cho các biến X1, X2, X3, X4, Y1, Y
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 code R và kết quả khi lập bảng thống kê số lượng cho từng phân loại X5, X6, X7, X8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối cho biến Y1 và Y2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân
loại của biến X5
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
7 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân
loại của biến X6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân
loại của biến X7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
9 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân
loại của biến X8
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
10 code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến
X1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
11 code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến
X2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
12 code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến
X3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
13 code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến
X4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
14 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
15 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
16 code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô
hình
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
17 code R và kết quả khi thực hiện tính trung bình Y1 và Y2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
18 code R và kết quả khi vẽ biểu đồ boxplot so sánh phân phối Y1 và Y2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
19 code R và kết quả khi thực hiện kiểm định so sánh trung bình mức thu nhiệt và toả
nhiệt của các ngôi nhà
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 4


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

ĐỀ TÀI 05

1 HOẠT ĐỘNG 1:
1.1 Đề bài
Tập tin "heat_data.xlsx" được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ
thu nhiệt và toả nhiệt của các ngôi nhà. Các biến chính trong bộ dữ liệu:
• X1: Độ nhỏ gọn.
• X2: Diện tích bề mặt.
• X3: Diện tích tường.
• X4: Khu vực mái nhà.
• X5: Chiều cao tổng thể.
• X6: Định hướng.
• X7: Khu vực dán kính.
• X8: Phân bố khu vực dán kính.
• Y1: Mức độ thu nhiệt.
• Y2: Mức độ toả nhiệt.
Các bước thực hiện:
1. Đọc dữ liệu (Import data): "heat_data.xlsx"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến tính phù hợp để đánh giá các
nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà.
5. t.test: Đề xuất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt và toả nhiệt của các
ngôi nhà.

1.2 Cơ sở lý thuyết

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 5


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

1.3 Thực hiện


1.3.1 Đọc dữ liệu (Import data)
Đọc dữ liệu "heat_data.xlsx".

Hình 1: code R và kết quả khi đọc dữ liệu và xem 3 dòng đầu tiên của dữ liệu

Thông tin các biến có trong dữ liệu:


X1: Độ nhỏ gọn tương đối
X2: Diện tích bề mặt (m2 )
X3: Diện tích tường (m2 )
X4: Diện tích mái nhà (m2 )
X5: Chiều cao tổng thể (m)
X6: Định hướng (2: Bắc, 3: Đông, 4: Nam, 5: Tây)
X7: Diện tích kính (0%, 10%, 25%, 40% so với diện tích sàn)
X8: Phân bố khu vực dán kính (1: Đồng nhất, 2: Bắc, 3: Đông, 4: Nam, 5: Tây)
Y1: Mức độ thu nhiệt (kW h)
Y2: Mức độ toả nhiệt (kW h)

1.3.2 Làm sạch dữ liệu (Data cleaning)


Kiểm tra dữ liệu khuyết.

Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết

Nhận xét: Dựa trên kết quả, không có dữ liệu khuyết cần xử lý.

1.3.3 Làm rõ dữ liệu: (Data visualization)


Tính các giá trị thống kê mô tả (trung bình, độ lệch chuẩn, min, max, trung vị, các phân vị) cho các
biến X1, X2, X3, X4, Y1, Y2. Xuất kết quả dưới dạng bảng.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 6


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Hình 3: code R và kết quả khi tính thống kê mô tả cho các biến X1, X2, X3, X4, Y1, Y

Lập bảng thống kê số lượng cho từng phân loại X5, X6, X7, X8.

Hình 4: code R và kết quả khi lập bảng thống kê số lượng cho từng phân loại X5, X6, X7, X8

Vẽ biểu đồ histogram thể hiện phân phối cho biến Y1 và Y2.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 7


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Hình 5: code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối cho biến Y1 và Y2

Vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của biến X5.

Hình 6: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của
biến X5

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 8


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Nhận xét: Dựa trên biểu đồ, ta có thể thấy mức độ thu nhiệt và toả nhiệt của các ngôi nhà có chiều
cao 7m cao hơn so với có chiều cao 3.5m. ta có thể dự đoán chiều cao tổng thể là một nhân tố ảnh
hưởng đến mức độ thu nhiệt hay toả nhiệt.

Vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của biến X6.

Hình 7: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của
biến X6

Nhận xét: Dựa trên biểu đồ, ta có thể thấy các ngôi nhà có định hướng khác nhau đều mức độ thu
nhiệt và toả nhiệt tương đối như nhau. Ta có thể dự đoán định hướng là một nhân tố không ảnh
hưởng đến mức độ thu nhiệt hay toả nhiệt.

Vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của biến X7.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 9


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Hình 8: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của
biến X7

Nhận xét: Dựa trên biểu đồ, ta có thể thấy các ngôi nhà có diện tích kính càng cao (so với diện tích
sàn) thì phân bố mức độ thu nhiệt và toả nhiệt càng cao. Ta có thể dự đoán diện tích kính là một
nhân tố ảnh hưởng đến mức độ thu nhiệt hay toả nhiệt.

Vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của biến X8.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 10


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Hình 9: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của Y1, Y2 theo phân loại của
biến X8

Nhận xét: Dựa trên biểu đồ, các ngôi nhà có phân bố khu vực dán kính đều có phân bố mức độ thu
nhiệt và toả nhiệt tương đối như nhau, riêng trường hợp những ngôi nhà không dán kính thì phân
bố mức độ thu nhiệt và toả nhiệt thấp hơn. Ta có thể đoán rằng việc dán kính hay không có thể ảnh
hưởng đến phân bố mức độ thu nhiệt và toả nhiệt, tuy nhiên việc phân bố khu vực dán kính có thể
không ảnh hưởng đến phân bố mức độ thu nhiệt và toả nhiệt.

Vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X1

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 11


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Hình 10: code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X1

Vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X2

Hình 11: code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X2

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 12


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X3

Hình 12: code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X3

Vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X4

Hình 13: code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của Y1, Y2 theo biến X4

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 13


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Nhận xét: Từ các đồ thị phân tán, ta có thể nhận xét các biến X1, X2, X3, X4 ta nhận thấy chưa
thực sự rõ về mối quan hệ tuyến tính với biến Y1 (hay Y2). Do đó, ta cần xây dựng mô hình hồi quy
để đánh giá rõ hơn mối quan hệ giữa các biến lên Y1 (hay Y2).

1.3.4 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến tính phù hợp
để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà.
Ta xây dựng mô hình hồi quy tuyến tính để đánh giá những các nhân tố tác động đến mức độ thu
nhiệt của các ngôi nhà.
Mô hình hồi quy với với biến phụ thuộc là Y1, và giả sử các biến độc lập là: X1, X2, X3, X4, X5,
X6, X7, X8.

Mô hình được biểu diễn như sau:


Y1 = β0 + β1 × X1 + β2 × X2 + β3 × X3 + β4 × X4 + β5 × X5 + β6 × X6 + β7 × X7 + β8 × X8
Ta thực hiện ước lượng các hệ số βi , i = 0, ..., 8.

Hình 14: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1

Nhận xét: Từ kết quả phân tích, ta thu được:

βb0 = 84.013418; βb1 = −64.773432; βb2 = −0.087289; βb3 = 0.060813; βb4 = N A


βb5 = 4.169954; βb6 = −0.023330; βb7 = 19.932736; βb8 = 0.203777

Đối với biến X4 ta không tìm được hệ số hồi quy và tính được các thông số liên quan, có thể giải
thích X4 là một biến phụ thuộc theo các biến còn lại (diện tích mái nhà có thể phụ thuộc vào diện
tích tường hoặc diện tích bề mặt,. . . ). Do vậy ta sẽ loại bỏ X4 ra khỏi mô hình hồi quy.

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
Y1 = 84.013418 − 64.773432 × X1 − 0.087289 × X2 + 0.060813 × X3 + 4.169954 × X5 − 0.023330 ×
X6 + 19.932736 × X7 + 0.203777 × X8

Ta thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e − 16, có ý nghĩa rất cao. Điều này
chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến mức độ thu
nhiệt Y1.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 14


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Ta cũng nhận thấy rằng p-value của bài toán kiểm định giả thuyết H0 : Hệ số ứng với X6 không có ý
nghĩa thống kê (β6 = 0) bằng 0.80548 cho thấy rằng biến X6 này không có ý nghĩa đối với mô hình
hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ biến X6 ra khỏi mô hình hồi quy.

Ta xây dựng lại mô hình hồi quy tuyến tính với biến phụ thuộc là Y1, và các biến độc lập lúc
này là: X1, X2, X3, X5, X7, X8.

Hình 15: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2

Nhận xét: Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên mức độ thu nhiệt
được cho bởi:
Y1 = 83.931762 − 64.773432 × X1 − 0.087289 × X2 + 0.060813 × X3 + 4.169954 × X5 + 19.932736 ×
X7 + 0.203777 × X8

Hệ số xác định hiệu chỉnh (Adjusted R-squared): R2 hiệu chỉnh = 0.9155 nghĩa là 91.55% sự biến
thiên trong mức độ thu nhiệt Y1 được giải thích bởi các biến độc lập (X1, X2, X3, X5, X7, X8).

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy (βi ) và p-value tương
ứng. Ta thấy rằng p-value tương ứng với các biến X3, X5, X7 đều bé hơn 2e − 16, điều này nói lên
rằng ảnh hưởng của ba biến có ý nghĩa rất cao lên biến mức độ thu nhiệt Y1.

Mặt khác, hệ số hồi quy của một biến độc lập cũng có thể được xem như ảnh hưởng trung bình
lên biến phụ thuộc Y1 khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến dự báo khác
không đổi. Cụ thể, hệ số hồi quy ứng với biến X1 β1 = −64.773432 thì với mỗi khi độ nhỏ gọn tăng 1
đơn vị, ta có thể kỳ vọng mức độ thu nhiệt của ngồi nhà sẽ giảm đi 64.773432 đơn vị về mặt trung bình
(giả sử rằng các biến độc lập khác không thay đổi). Hệ số hồi quy ứng với biến X2 β2 = −0.087289
thì mỗi khi tăng 1 m2 diện tích bề mặt, ta có thể kỳ vọng rằng mức độ thu nhiệt sẽ giảm đi 0.087289
đơn vị về mặt trung bình (giả sử rằng các biến độc lập khác không thay đổi). Tương tự đối với các
biến còn lại.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 15


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Kiểm tra các giả định của mô hình


Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 .X1 + ...βi .Xi + i , i = 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là
tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: i ∼ N (0, σ 2 )
+ Các sai số 1 , ..., n thì độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 16: code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 16


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị dự báo với các giá trị thặng dư (sai số) tương ứng,
dùng để kiểm tra tính tuyến tính của dữ liệu (giả định 1) và tính đồng nhất của các phương sai sai số
(giả định 3). Nếu như giả định về tính tuyến tính của dữ liệu KHÔNG thỏa, ta sẽ quan sát thấy rằng
các điểm thặng dư (residuals) trên đồ thị sẽ phân bố theo một hình mẫu (pattern) đặc trưng nào đó
(ví dụ parabol). Nếu đường màu đỏ trên đồ thị phân tán là đường thẳng nằm ngang mà không phải
là đường cong, thì giả định tính tuyến tính của dữ liệu được thỏa mãn. Để kiểm tra giả định thứ 3
(phương sai đồng nhất) thì các điểm thặng dự phải phân tán đều nhau xung quanh đường thẳng y = 0.

Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn của các sai số. Nếu
các điểm thặng dư nằm trên cùng 1 đường thẳng thì điều kiện về phân phối chuẩn được thỏa.

Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư được chuẩn hóa với các
giá trị dự báo, được dùng để kiểm tra giả định thứ 3 (phương sai của các sai số là hằng số). Nếu như
đường màu đỏ trên đồ thị là đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh
đường thẳng này thì giả định thứ 3 được thỏa. Nếu như đường màu đỏ có độ dốc (hoặc cong) hoặc
các điểm thặng dư phân tán không đều xung quanh đường thẳng này, thì giả định thứ 3 bị vi phạm.

Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có ảnh hưởng cao (influen-

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 17


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

tial observations), nếu chúng có hiện diện trong bộ dữ liệu. Những điểm có ảnh hưởng cao này có thể
là các điểm outliers, là những điểm có thể gây nhiều ảnh hưởng nhất khi phân tích dữ liệu. Nếu như
ta quan sát thấy một đường thẳng màu đỏ đứt nét (Cook’s distance), và có một số điểm vượt qua
đường thẳng khoảng cách này, nghĩa là các điểm đó là các điểm có ảnh hưởng cao. Nếu như ta chỉ
quan sát thấy đường thẳng khoảng cách Cook ở góc của đồ thị và không có điểm nào vượt qua nó,
nghĩa không có điểm nào thực sự có ảnh hưởng cao.

Nhận xét:
+ Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn.
+ Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính của dữ liệu hơi bị vi phạm,
ta có thể thấy rằng sự vi phạm này bởi vì mối quan hệ giữa Y1 và các biến còn lại là phi tuyến tính.
+ Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về tính đồng nhất của phương
sai cũng hơi bị vi phạm. Tuy nhiên, ta cũng thấy này sự vi phạm này tương đối nhỏ và có thể chấp
nhận được.
+ Đồ thị thứ tư chỉ ra có các quan trắc thứ 16, 22 và 24 có thể là các điểm có ảnh hưởng cao trong
bộ dữ liệu.
Tuy nhiên ta cũng quan sát thấy rằng các điểm này chưa vượt qua đường thẳng khoảng cách Cook
(đường thẳng đứt nét màu đỏ Cook’s distance). Do vậy, các điểm này chưa thực sự là các điểm có ảnh
hưởng cao trong bộ dữ liệu. Do đó ta không cần phải loại bỏ chúng khi phân tích.

1.3.5 So sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà.
Ta tính trung bình Y1 và Y2.

Hình 17: code R và kết quả khi thực hiện tính trung bình Y1 và Y2

Vẽ biểu đồ boxplot so sánh phân phối của Y1 và Y2.

Hình 18: code R và kết quả khi vẽ biểu đồ boxplot so sánh phân phối Y1 và Y2

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 18


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

Nhận xét: Dựa trên trung bình mẫu và biểu đồ boxplot, ta nhận thấy mức độ thu nhiệt trung bình
có xu hướng thấp hơn mức độ toả nhiệt trung bình, tuy nhiên để đánh giá lại điều đó là ngẫu nhiên
hay nó thực sự mức độ thu nhiệt trung bình có xu hướng thấp hơn toả nhiệt, ta cần thực hiện kiểm
định trung bình so sánh mức độ thu nhiệt và toả nhiệt giữa các ngôi nhà.

Thực hiện kiểm định để so sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà.
Giả thuyết H0 : µ1 = µ2 hay µD = 0: Mức độ thu nhiệt trung bình và mức độ toả nhiệt trung bình
bằng nhau (không có sự khác biệt giữa mức độ thu nhiệt trung bình và toả nhiệt trung bình của các
ngôi nhà)
Đối thuyết H1 : µ1 6= µ2 hay µD 6= 0: Mức độ thu nhiệt trung bình và mức độ toả nhiệt trung bình
khác nhau (Có sự khác biệt giữa mức độ thu nhiệt trung bình và toả nhiệt trung bình của các ngôi
nhà)

Hình 19: code R và kết quả khi thực hiện kiểm định so sánh trung bình mức thu nhiệt và toả nhiệt
của các ngôi nhà

Nhận xét: Dựa trên kết quả, ta nhận đọc được các kết quả:
Thống kê kiểm định: t = -28.358, bậc tự do 767 và p-value < 2.2e-16, rất bé nên ta có đủ bằng chứng
mạnh để bác bỏ H0 . Ta kết luận là có sự khác biệt giữa mức độ thu nhiệt trung bình và toả nhiệt
trung bình của các ngôi nhà. Mặt khác, mức độ thu nhiệt trung bình trong mẫu thấp hơn so với mức
độ toả nhiệt trung bình trong mẫu. Do đó, ta có thể kết luận mức độ thu nhiệt trung bình của các
ngôi nhà thấp hơn so với mức độ toả nhiệt.
Sự khác biệt giữa trung bình mức độ thu nhiệt và mức độ tỏa nhiệt là -2.280565 và khoảng tin cậy
95% cho sự khác biệt giữa trung bình mức độ thu nhiệt và mức độ tỏa nhiệt: (-2.438434; -2.122696).

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 19


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

2 Hoạt động 2
2.1 Đề bài
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng
dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,... trong chuyên ngành của mình. Ngoài ra
sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung
cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình,
nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 20


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm XD29

TÀI LIỆU THAM KHẢO

1. Hoàng Văn Hà, Bài giảng Xác suất Thống Kê.


2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 21

You might also like