You are on page 1of 58

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Bài tập lớn Xác suất - Thống kê


Nhóm: 09 - Chủ đề: 04

Giảng viên hướng dẫn: TS. Hoàng Văn Hà


Danh sách nhóm:

STT Họ và tên MSSV Khoa Ghi chú


1 Nguyễn Khánh Học 1916079 Xây dựng
2 Kim Thị Huỳnh Như 2014046 Cơ khí
3 Lê Tiến Phát 2011792 Cơ khí Nhóm trưởng
4 Chế Tâm 2012006 Cơ khí
5 Lê Bửu Thạch 2012066 Cơ khí

Tp. Hồ Chí Minh, Tháng 01/05/2022


Bài tập lớn Xác suất - Thống kê Nhóm 09

PHÂN CÔNG LÀM VIỆC

STT Họ và tên Nội dung Nhiệm vụ


1 Nguyễn Khánh Học hoạt động 2 Code, giải thích code
2 Kim Thị Huỳnh Như hoạt động 2 Nhận xét và trình bày, góp ý
3 Lê Tiến Phát hoạt động 1, 2 Tìm đề tài, phân công, thuyết trình, gõ latex
4 Chế Tâm hoạt động 1 Nhận xét và trình bày, góp ý
5 Lê Bửu Thạch hoạt động 1 Code, giải thích code

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 1


Bài tập lớn Xác suất - Thống kê Nhóm 09

Mục lục
1 CƠ SỞ LÝ THUYẾT 7
1.1 Hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Hàm hồi quy tổng thể (PRF - Population Regression Function) . . . . . . . . . 7
1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function): . . . . . . . . . . . . . 7
1.1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.4 Độ phù hợp của mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5 Khoảng tin cậy và kiểm định các hệ số hồi quy . . . . . . . . . . . . . . . . . . 9
1.1.6 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm
định WALD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Phân tích phương sai một yếu tố . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Lý thuyết về ANOVA (Phân tích phương sai) . . . . . . . . . . . . . . . . . . . 11
1.2.2 Phân tích phương sai một yếu tố . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 HOẠT ĐỘNG 1 16
2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Đọc dữ liệu (Import data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 Làm rõ dữ liệu: (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân
tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay. 39

3 Hoạt động 2 46
3.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.1 Đọc dữ liệu (Import data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.2 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.3 Làm rõ dữ liệu: (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.4 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân
tích các yếu tố ảnh hưởng đến năng lượng tạo ra từ cối xay gió. . . . . . . . . . 52

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 2


Bài tập lớn Xác suất - Thống kê Nhóm 09

Danh sách bảng


1 Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng . . . . . . . . . . . . . . . . . . . . 9
2 Bảng số liệu tổng quát thực hiện phân tích phương sai. . . . . . . . . . . . . . . . . . 12
3 Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS. . . . . . . . 14

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 3


Bài tập lớn Xác suất - Thống kê Nhóm 09

Danh sách hình vẽ


1 code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 code R khi xoá các quan sát chứa dữ liệu khuyết
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 code R và kết quả khi kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã
xoá.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
6 code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
7 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo
từng hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
8 code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
9 code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10 code R khi ghép các dữ liệu lại với nhau
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11 code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 . . . . 21
12 code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng
không . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
13 code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3 . . . . . . . . . . . 21
14 code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA . . . . . . . . . . 21
15 code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
16 code R và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay
theo từng hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
17 code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong
năm 2014
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
18 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
19 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
20 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không B6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
21 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không DL
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
22 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không F9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 4


Bài tập lớn Xác suất - Thống kê Nhóm 09

23 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không HA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
24 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
25 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không UA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
26 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không US
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
27 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không VX
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
28 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không WN
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
29 code R và kết quả khi kiểm định giả định về tính đồng nhất của phương sai
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
30 code R và kết quả khi thực hiện ANOVA một nhân tố . . . . . . . . . . . . . . . . . . 36
31 code R và kết quả khi thực hiện so sánh bội . . . . . . . . . . . . . . . . . . . . . . . . 37
32 code R và kết quả khi vẽ đồ thị so sánh bội . . . . . . . . . . . . . . . . . . . . . . . . 38
33 code R và kết quả khi vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến
dep_delay và distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
34 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
35 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
36 code R và kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
37 code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô
hình
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
38 code R và kết quả khi vẽ đồ thị Residuals and fitted
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
39 code R và kết quả khi vẽ đồ thị QQ-plot
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
40 code R và kết quả khi vẽ đồ thị Scale-Location
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
41 code R và kết quả khi vẽ đồ thị Residuals vs Leverage
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
42 code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
43 code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
44 code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
45 code R khi xoá các quan sát chứa dữ liệu khuyết
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
46 code R và kết quả khi tính các giá trị thống kê mô tả cho các biến
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 5


Bài tập lớn Xác suất - Thống kê Nhóm 09

47 code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến wind-
mill_generated_power
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
48 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến windmill_generated_power
theo cấp độ mây cloud_level
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
49 code R và kết quả khi vẽ đồ phân tán thể hiện phân phối của biến biến wind-
mill_generated_power theo các biến wind_speed, area_temperature
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
50 code R và kết quả khi vẽ đồ phân tán thể hiện phân phối của biến biến wind-
mill_generated_power theo các biến motor_torque, blade_breadth
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
51 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
52 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
53 code R và kết quả khi so sánh 2 mô hình model_1 và model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
54 code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô
hình
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
55 code R và kết quả khi vẽ đồ thị Residuals and fitted
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
56 code R và kết quả khi vẽ đồ thị QQ-plot
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
57 code R và kết quả khi vẽ đồ thị QQ-plot
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
58 code R và kết quả khi vẽ đồ thị QQ-plot
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 6


Bài tập lớn Xác suất - Thống kê Nhóm 09

CHỦ ĐỀ 4

1 CƠ SỞ LÝ THUYẾT
1.1 Hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y = β 1 + β 2 X2 + β 3 X3 + . . . + β k Xk + u
Trong đó:
+ Y: Biến phụ thuộc
+ Xi : Biến độc lập
+ β1 : Hệ số tự do (hệ số chặn)
+ βi : Hệ số hồi quy riêng.

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa
trên giá trị của biến độc lập (X).

1.1.1 Hàm hồi quy tổng thể (PRF - Population Regression Function)
Với Y là biến phụ thuộc X2 , X3 ,...,Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất
nào đó.
Suy ra: Tồn tại E (Y | X2 , X3 , . . . , Xk ) = giá trị xác định.
Do vậy, F (X2 , X3 , . . . , Xk )=E (Y | X2 , X3 , . . . , Xk ) là hàm hồi quy tổng thể của Y theo X2 , X3 ,...,Xk .
Với một cá thể i, tồn tại (X2,i , X3,i , . . . , Xk,i , Yi )
Ta có: Yi 6= F (X2 , X3 , . . . , Xk ) ⇒ ui = Yi − F
Do vậy: Yi = E (Y | X2 , X3 , . . . , Xk ) + ui
Hồi quy tổng thể PRF:
+ Y = E(Y | X) + U
+ E(Y | X) = F(X)

1.1.2 Hàm hồi quy mẫu (SRF - Sample Regression Function):


Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là
đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng. Trên một mẫu có n cá
thể, gọi Ŷ = F̂ (X2 , X3 , . . . , Xk ) là hồi quy mẫu. Với một cá thể mẫu Yi 6= F̂ (X2,i , X3,i , . . . , Xk,i ) sinh
ra ei − Yi − F̂ (X2 , X3 , . . . , Xk ); ei gọi là phần dư SRF. Ta có hàm hồi quy mẫu tổng quát được viết
dưới dạng như sau:

ŷi = β̂1 + β̂2 x2,i + β̂3 x3,i + . . . + β̂k xk,i


Phần dư sinh ra: ei = yi − ŷi Ký hiệu: β̂m là ước lượng của βm . Chúng ta trông đợi β̂m là ước lượng
không chệch của βm , hơn nữa phải là một ước lượng hiệu quả. Ước lượng SRF: chọn một phương pháp
nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của
các tham số này làm giá trị xấp xỉ cho tham số của F.

1.1.3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến
tính bội
Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:

a. Hàm hồi quy là tuyến tính theo các tham số.


Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới
dạng: y = β1 + β2 x2 + β3 x3 + β4 x4 + . . . + βk xk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 7


Bài tập lớn Xác suất - Thống kê Nhóm 09

b. Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.


Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang dấu dương
và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các
sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.

c. Các sai số độc lập với nhau.

d. Các sai số có phương sai bằng nhau.


Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ 2 , sao cho: Var (ui ) = E u2i = σ 2 .


e. Các sai số có phân phối chuẩn.


Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những
phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng.

1.1.4 Độ phù hợp của mô hình


Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc,
người ta sử dụng R2 .

Ta có:
+ Σ (yi − ȳ)2 : TSS – Total Sum of Squares
+ Σ (ŷi − ȳ)2 : ESS – Explained Sum of Squares
+ Σe2i : RSS – Residual Sum of Squares

Ta có thể viết: T SS = ESS + RSS

Ý nghĩa của các thành phần:

+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung
bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được
từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được
từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.

R2 được xác định theo công thức:


ESS RSS
R2 = =1−
T SS T SS
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được
gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ
hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình. Khi đó người ta
sử dụng R2 để đo sự phù hợp của hàm hồi quy:

+ 0 ≤ R2 ≤ 1.
+ R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ
thuộc.
+ Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 8


Bài tập lớn Xác suất - Thống kê Nhóm 09

1.1.5 Khoảng tin cậy và kiểm định các hệ số hồi quy


a. Ước lượng khoảng tin cậy đối với các hệ số hồi quy:

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1 , β2 , . . . , βk mà còn phải kiểm tra
bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1 , β2 , . . . , βk . Các phân bố này
phụ thuộc vào phân bố của các ui .

Với các giả thiết OLS, ui có phân phối N 0, σ 2 . Các hệ số ước lượng tuân theo phân phối chuẩn:


  
β̂j ∼ N β̂j , Se β̂j

β̂j − βj
  ∼ T (n − k)
Se β̂j

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số hệ số có
trong phương trình hồi quy đa biến: P 2
ei
σ̂ 2 =
n−k
+ Ước lượng 2 phía, ta tìm được t α (n − k) thỏa mãn:
2
   
β̂j − βj
P −t α (n − k) ≤ ≤ P t α (n − k) = 1 − α
Se(β̂j)
2 2

+ Khoảng tin cậy 1 − α của βj là:


 
β̂j − t α (n − k) Se(β̂j); β̂j + t α (n − k) Se(β̂j)
2 2

b. Kiểm định giả thiết đối với βj

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến
giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói cách khác là hệ số hồi quy có ý
nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj , chẳng hạn βj = βj ∗ . Nếu giả thiết này đúng thì:

β̂j − βj
T =   ∼ T (n − k)
Se β̂j

Ta có bảng sau:

Bảng 1: Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng

Loại giả thiết Giả thiết H0 Giả thiết đối H1 Miền bác bỏ
Hai phía β1 = βi∗ βi 6= βi∗ |t| > tα/2;n−k
Phía phải β1 ≤ βi∗ βi > βi∗ t > tα;n−k
Phía trái β1 ≥ βi ∗ β1 < βi∗ t < −tα;n−k

Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 9


Bài tập lớn Xác suất - Thống kê Nhóm 09

Kiểm định βj :
Giả thuyết H0 : βj = 0 ⇔ xj không tác động
Giả thuyết H1 : βj 6= 0 ⇔ xj có tác động.
βj < 0 ⇔ xj có tác động ngược
βj > 0 ⇔ xj có tác động thuận

1.1.6 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm
định WALD)
a. Khái quát về kiểm định WALD.

Giả sử chúng ta có 2 mô hình dưới đây:


(U) : Y = β1 + β2 X2 + β3 X3 + β4 X4 + u
(R) : Y = β1 + β2 X2 + v

Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được gọi là mô hình
giới hạn (Restrict). Đó là do β3 và β4 buộc phải bằng 0 trong mô hình R. Ta có thể kiểm định giả
thuyết liên kết β3 = β4 = 0 với giả thuyết đối là ít nhất một trong những hệ số này không bằng 0.
Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald, thủ tục như sau.

Đặt các mô hình giới hạn và không giới hạn là:


(U) : Y = β1 + β2 X2 + . . . + βm Xm + βm+1 Xm+1 + . . . + βk Xk + u
(R) : Y = β1 + β2 X2 + . . . + βm Xm + v Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình
(U), đó là:Xm+1 , Xm+1 ,... Xk

Giả thuyết H0 : βm+1 = . . . = βk = 0


Giả thuyết H1 : “Không phải đồng thời các tham số bằng 0”.

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết. Do đó,
mô hình R có ít hơn (k − m) thông số so với U. Câu hỏi chúng ta nêu ra là (k − m) biến bị loại ra có
ảnh hưởng liên kết có ý nghĩa đối với Y hay không.
Trị thống kê kiểm định đối với giả thiết này là:

[RSSR − RSSU ] /(k − m) R 2 − RR2 /(k − m)


Fc = ∼ F (α, k − m, n − k) = U 2
RSSU /(n − k) 1 − RU /(n − k)

Với R2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân phối F với (k − m)
bậc tự do đối với tử số và (n − k) bậc tự do đối với mẫu số.

Bác bỏ giả thuyết H0 khi:


Fc > F (α, k − m, n − k)
Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước.

b. Kiểm định ý nghĩa của mô hình.

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là
tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

Bước 1: Giả thuyết H0 : β2 = β3 = . . . = βk = 0.


Giả thuyết H1 : “có ít nhất một trong những giá trị β khác không”.
Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2 , X3 , . . . , Xk , sau đó tính tổng bình

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 10


Bài tập lớn Xác suất - Thống kê Nhóm 09

phương sai số RSSU , RSSR . Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương
độc lập. Điều này cho ta trị thống kê:

[RSSR − RSSU ] /(k − m)


Fc = ∼ F (α, k − m, n − k)
RSSU /(n − k)

Vì H0 : β2 = β3 = . . . = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này sẽ là:

ESS/(k − 1)
Fc = ∼ F (α, k − 1, n − k)
RSS/(n − k)

Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k − 1) cho tử số và (n − k) cho mẫu số, và
với mức ý nghĩa α cho trước.

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F (α, k − 1, n − k)

Đối với phương pháp giá trị p-value, tính giá trị p = P (F > Fc | H0 ) và bác bỏ giả thuyết H0 nếu p
bé hơn mức ý nghĩa α.

1.2 Phân tích phương sai một yếu tố


1.2.1 Lý thuyết về ANOVA (Phân tích phương sai)
Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là so sánh trung bình của nhiều
nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các nhóm này và thông qua
kiểm định giả thuyết của kết luận về sự bằng nhau của các trung bình tổng thể này.

Ta có các mô hình phân tích phương sai: phân tích phương sai một yếu tố và hai yếu tố. Cụm
từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết quả đang nghiên cứu.

1.2.2 Phân tích phương sai một yếu tố


Phân tích phương sai một yếu tố (One way ANOVA) là phân tích ảnh hưởng của một yếu tố nguyên
nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạng biến định lượng) đang nghiên cứu.

a. Trường hợp k tổng thể có phân phối chuẩn và phương sai bằng nhau

Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể (với ví dụ trên thì k = 3) dựa
trên những mẫu ngẫu nhiên độc lập gồm n1 , n2 , n3 , . . . , nk quan sát từ k tổng thể. Cần ghi nhớ ba giả
định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA.

+ Các tổng thể này có phân phối bình thường.


+ Các phương sai tổng thể bằng nhau
+ Các quan sát được lấy mẫu là độc lập nhau.

Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = ... = µk thì khi các giả định trên
được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định
giả thuyết như sau:

H0 : µ1 = µ2 = ... = µk

Và giả thuyết đối là:

H1 : Tồn tại ít nhất một cặp trung bình tổng thể khác nhau.

Các bước thực hiện:

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 11


Bài tập lớn Xác suất - Thống kê Nhóm 09

Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể) Trước hết
ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập (ký hiệu
x̄1 x̄2 , ....x̄k ) và trung bình chung của k mẫu quan sát (ký hiệu x̄) từ trường hợp tổng quát như sau:

Bảng 2: Bảng số liệu tổng quát thực hiện phân tích phương sai.

Tổng thể
1 2 3 4
X11 X21 ... Xk1
X11 X22 ... Xk1
... ... ... ...
X1n1 X2n2 ... Xknk

Tính trung bình mẫu của từng nhóm x̄1 x̄2 , ....x̄k theo công thức:
ni
P
xij
j=1
x̄1 = ni (i = 1, 2, ...k)

Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
k
P
ni .x̄i
i=1
x̄ = k
P
ni
i=1

Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương) Tính tổng các
chênh lệch bình phương trong nội bộ nhóm SSW 1 và tổng các chênh lệch bình phương giữa các nhóm
SSG2 .

+ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng các chênh
lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng
cộng kết quả tất cả các nhóm lại. SSW phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng
của các yếu tố khác, chứ không phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân
biệt các tổng thể / nhóm đang so sánh).

+ Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
ni
(x1j − x̄1 )2
P
Nhóm 1: SS1 =
j=1
ni
(x2j − x̄2 )2
P
Nhóm 2: SS2 =
j=1

Tương tự như vậy ta tính cho đến nhóm thứ k được SSk . Vậy tổng các chênh lệch bình phương
trong nội bộ các nhóm được tính như sau:
SSW = SS1 + SS2 + ... + SSk
+ Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch
được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các
chênh lệch này đều được nhân thêm với số quan sát tương ứng cả từng nhóm). SSG phản ánh phần
biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu.
k
ni (x̄i − x̄)2
P
SSG =
i=1

Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng các chênh lệch đã lấy
bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij ) với trung bình toàn bộ (x).
SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của tất cả các nguyên nhân.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 12


Bài tập lớn Xác suất - Thống kê Nhóm 09

ni
k P
(xij − x̄)2
P
SST =
i=1 j=1

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các
chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm.

SST = SSW + SSG

Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được phân tích
thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến thiên còn lại
do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW). Nếu phần biến thiên do yếu tố nguyên nhân
đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác không cét tạo ra, thì chúng
ta càng có cơ sở để bác bỏ H0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý
nghĩa đến yếu tố kết quả.

Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương). Các phương sai được
tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự do tương ứng.

Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bình phương trong nội
bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n - k (n là số quan sát, k là số nhóm so sánh).
MSW là ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra.

SSW
M SW =
n−k
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương giữa các nhóm
chia cho bậc tự do tương ứng là k - 1. MSG là ước lượng phần biến thiên của yếu tố kết quả do yếu
tố nguyên nhân đang nghiên cứu gây ra.
SSG
M SG =
k−1
Bước 4: Kiểm định giả thuyết:
Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết đinh dựa trên tỉ số của hai phương
sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm (MSW). Tỉ số này gọi là tỉ số
F vì nó tuân theo định luật Fisher – Snedecor với bậc tự do k - 1 ở tử số và n - k ở mẫu số.
M SG
F =
M SW
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:

F > Fk−1;n−k;α

F > Fk−1;n−k;α là giá trị giới hạn với bậc tự do k tra theo hàng đầu tiên và n – k tra theo cột đầu
tiên, nhớ chọn bảng với mức ý nghĩa phù hợp.

Sau đây là dạng bảng kết quả tổng quát của ANOVA khi phân tích bằng chương tình Excel hay
SPSS.
b. Kiểm tra các giả định của phân tích phương sai

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là phương pháp tốt nhất để
kiểm tra giả định về phân phối chuẩn của dữ liệu nhưng nó đòi hỏi một số lượng quan sát khá lớn.
Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong tình huống số quan sát ít hơn. Nếu
công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường thì ta có thể xem
giả định phân phối bình thường đã thỏa mãn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 13


Bài tập lớn Xác suất - Thống kê Nhóm 09

Bảng 3: Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS.

Nguồn biến thiên Tổng bình phương Bậc tự do Phương sai Tỉ số F


Giữa các nhóm SSG k−1 M SG = SSG
k−1 F =M M SG
SW
Trong nội bộ nhóm SSW n−k M SW = SSW
n−k
Toàn bộ SST n−1

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm
định Levene về phương sai của các tổng thể. Kiểm định này xuất phát từ giả thyết sau.

H0 : σ12 = σ22 = ... = σk2


H1 : có ít nhất một cặp phương sai khác nhau.

Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức:

2
Smax
Fmax = 2
Smin

Trong đó:
2
Smax 2
là phương sai lớn nhất trong các nhóm nghiên cứu và Smin là phương sai nhỏ nhất trong các
nhóm nghiên cứu.

Giá trị F tính được được đem so sánh với giá trị Fk;df ;α tra được từ bảng phân phối Hartley Fmax .
Trong đó, k là số nhóm so sánh, bậc tự do df tính theo công thức df = (n̄ − 1).
Pk
ni
i=1
Trong tình huống, các nhóm có số quan sát khác nhau thì n̄ = (chú ý là nếu kết quả tính n̄ là
k
một số thập phân thì ta lấy phần nguyên).

Quy tắc quyết định:


Fmax > Fk;df ;α thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược lại.

Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả định
không được thỏa mãn thì một phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm
định phi tham số Kruskal - Wallis sẽ được áp dụng.

c. Phân tích sâu ANOVA

Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của tổng thể bằng
nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp thuận giả thuyết H0 hoặc bác
bỏ giả thuyết H0 . Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc. Nếu bác bỏ giả thuyết H0 ,
bạn kết luận trung bình của các tổng thể không bằng nhau. Vì vậy, vấn đề tiếp theo là phân tích sâu
hơn để xác minh nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.

Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thyết H0 . Trong phần
này chỉ đề cập đến một phương pháp thôn dụng đó là phương pháp Tukey, phương pháp này còn được
gọi là kiểm định HSD (Honestly Significant Differences). Nội dung của phương pháp này là so sánh
từng cặp các trung bình nhóm ở mức ý nghĩa nào đó cho tất cả các cặp kiểm định có thể để phát hiện
ra những nhóm khác nhau. Nếu có k nhóm nghiên cứu và chúng ta so sánh tất cả các cặp nhóm thì
số lượng cặp cần phải so sánh là tổ hợp chập 2 của k nhóm.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 14


Bài tập lớn Xác suất - Thống kê Nhóm 09

k! k(k − 1)
C2k = =
2!(k − 2)! 2

Giá trị giới hạn Tukey được tính theo công thức:
q
M SW
T = qα;k;n−k ni

Trong đó:

+ qα;k;n−k là giá trị tra bảng phân phối kiểm định Tukey ở mức ý nghĩa, với bậc tự do k và n –
k, với n là tổng số quan sát mẫu (n = Σni ).
+ MSW là phương sai trong nội bộ nhóm.
+ ni là số quan sát trong một nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát ni khác
nhau, sử dụng giá trị ni nhỏ nhất.

Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn
hơn hay bằng T giới hạn.

Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có thể tìm khoảng ước lượng
cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa thống kê. Ước lượng khoảng về chênh lệch giữa
hai trung bình nhóm có khác biệt tính theo công thức:
q
µ1 − µ2 = (x̄1 − x̄2 ) ± (tn−k; α2 2MnSW
i
)

Trong đó, t là giá trị được tra từ bảng phân phối Student t với (n - k) bậc tự do. Trong chương trình
Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có thể thực hiện phân tích này bằng chương
trình SPSS. Ngoài ra kết quả của SPSS còn cung cấp cho các bạn một kiểm định chính thức về sự
bằng nhau của các phương sai tổng thể là kiểm định Levene.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 15


Bài tập lớn Xác suất - Thống kê Nhóm 09

2 HOẠT ĐỘNG 1
2.1 Đề bài
Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân bay lớn của vùng
Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở Portland trong năm 2014. Dữ liệu cung cấp
bởi Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov). Dữ liệu này được dùng để phân
tích các nguyên nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau:

Các biến chính trong bộ dữ liệu:


• year, month, day: ngày khởi hành của mỗi chuyến bay
• carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA = United Air
Lines, AA = American Airlines, DL = Delta Airlines, v.v.
• origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và
PDX (Portland)
• dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
• dep_delay và arr_delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời
gian cất cánh/hạ cánh in trong vé
• distance: khoảng cách giữa hai sân bay (dặm)

Yêu cầu:
1. Đọc dữ liệu (Import data): "flights.rda"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay.
5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnh
hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 16


Bài tập lớn Xác suất - Thống kê Nhóm 09

2.2 Thực hiện


2.2.1 Đọc dữ liệu (Import data)
Đọc tệp tin "flights.rda".

Hình 1: code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin

2.2.2 Làm sạch dữ liệu (Data cleaning)


Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề bài đưa ra, lưu với tên là new_DF.

Hình 2: code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính

Kiểm tra dữ liệu khuyết trong tệp tin.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 17


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 3: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhận
thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time, dep_delay. Vì lượng
khuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan sát (dưới 10%), do đó ta lựa chọn phương pháp
xoá các quan sát của biến nào có giá trị khuyết trong tệp tin new_DF.

Hình 4: code R khi xoá các quan sát chứa dữ liệu khuyết

Kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá.

Hình 5: code R và kết quả khi kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá.

Nhận xét: Ta nhận thấy số lượng quan sát sau khi xoá là 1301 quan sát, chiếm tỷ lệ 0.8% so với dữ
liệu ban đầu, có thể thấy việc xoá các quan sát của biến có giá trị khuyết trong tệp tin new_DF
không ảnh hưởng nhiều đến kết quả của dữ liệu.

2.2.3 Làm rõ dữ liệu: (Data visualization)


Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân
vị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất cánh/hạ cánh in trong vé (biến
dep_delay) của từng hãng hàng không (carrier). Xuất kết quả dưới dạng bảng.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 18


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 6: code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng
hàng không (carrier)

Vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier).

Hình 7: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng
hãng hàng không (carrier)

Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến dep_delay,
điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau. Do đó, ta sử dụng khoảng

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 19


Bài tập lớn Xác suất - Thống kê Nhóm 09

tứ phân vị (interquartile range) để loại bỏ các điểm outlier.


Ý tưởng cho bài toán: Ta sẽ chuyển các outliers của biến dep_delay ở từng hãng hàng không sang
NA. Từ đó đề xuất phương pháp xử lý các NA đó.
Ta tạo function xác định outliers, chuyển các outliers thành dạng NA. Việc tạo function mới sẽ giúp
ta tối ưu code hơn.

Hình 8: code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA

Ta hiện hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA
.

Hình 9: code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA

Ghép các dữ liệu lại với nhau và lưu vào new_DF3.

Hình 10: code R khi ghép các dữ liệu lại với nhau

Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (sau khi chuyển outliers thành NA):

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 20


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 11: code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3

Nhận xét: Số lượng NA = 18732 và chiếm tỉ lệ 11.65% lượng quan sát của dữ liệu. Trong trường hợp
này, ta không chọn phương pháp xoá các NA, vì lượng NA tương đối nhiều ( >10% dữ liệu). Do đó,
ta sẽ xử lý bằng phương pháp thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng
hàng không.

Hình 12: code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng không

Ghép các dữ liệu lại với nhau và lưu lại vào new_DF3.

Hình 13: code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3

Kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Hình 14: code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn NA.
Tính lại các giá trị thống kê mô tả cho biến dep_delay theo từng hãng hàng không (carrier).

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 21


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 15: code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)

Vẽ lại biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier).

Hình 16: code R và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo
từng hãng hàng không (carrier)

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 22


Bài tập lớn Xác suất - Thống kê Nhóm 09

Nhận xét:
Đối với hãng hàng không AA:
+ Min = - 18 : Thời gian khởi hành sớm nhất: 18 phút.
+ Max = 26 : Thời gian khởi hành trễ nhất: 26 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không AS:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 12 : Thời gian khởi hành trễ nhất: 12 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 2.5563 : 50% chuyến bay có thời gian khởi hành sớm hơn 2.5563 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không B6:
+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 31 : Thời gian khởi hành trễ nhất: 31 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không DL:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 16 : Thời gian khởi hành trễ nhất: 16 phút.
+ Q1 = - 4 : 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không F9:
+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 36 : Thời gian khởi hành trễ nhất: 36 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 4 : 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống.
Đối với hãng hàng không HA:
+ Min = - 16 : Thời gian khởi hành sớm nhất: 16 phút.
+ Max = 8 : Thời gian khởi hành trễ nhất: 8 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.5056 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.5056 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không OO:
+ Min = - 17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 10 : Thời gian khởi hành trễ nhất: 10 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.1136 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.1136 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không UA:
+ Min = - 19 : Thời gian khởi hành sớm nhất: 19 phút.
+ Max = 27 : Thời gian khởi hành trễ nhất: 27 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 1 : 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
+ Q3 = 2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống.
Đối với hãng hàng không US:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 11 : Thời gian khởi hành trễ nhất: 11 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 23


Bài tập lớn Xác suất - Thống kê Nhóm 09

+ Q2 = - 3.0085 : 50% chuyến bay có thời gian khởi hành sớm hơn 3.0085 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không VX:
+ Min = -17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 15 : Thời gian khởi hành trễ nhất: 15 phút.
+ Q1 = -5 : 2% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = -2.6272 : 5% chuyến bay có thời gian khởi hành sớm hơn 2.6272 phút.
+ Q3 = -1 : 7% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
Đối với hãng hàng không WN:
+ Min = - 11 : Thời gian khởi hành sớm nhất: 11 phút.
+ Max = 45 : Thời gian khởi hành trễ nhất: 45 phút.
+ Q1 = - 2 : 2% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q2 = 3 : 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống.
+ Q3 = 11 : 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống.

Nhìn chung, có sự khác biệt về phân phối của thời gian lệch giờ bay ở các hãng hàng không. Cụ
thể, ta thể dự đoán được hãng WN có thời gian khởi hành trễ nhất (so với thời gian bay dự kiến).

2.2.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay.
Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa các
hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm 2014 hay không?

Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:

Hình 17: code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm
2014

Giải thích lý do sử dụng ANOVA một nhân tố:


Ta có 11 hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014. Để thực hiện so
sánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai. Nếu chỉ so
sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy nếu dùng t-test cho bài toán này, ta phải
thực hiện kiểm định rất nhiều lần. Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau
hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất.
Như vậy ta sẽ sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ Portland trong năm 2014.
Trong đó:
Biến phụ thuộc: dep_delay
Các nhân tố (hay biến độc lập): carrier

Đặt giả thuyết:


+ Giả thuyết H0 : µ1 = µ2 = ... = µ1 1 ↔ ⇔ Việc lệch giờ bay trung bình giữa các hãng hàng không
đối với các chuyến bay khởi hành từ Portland năm 2014 bằng nhau.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 24


Bài tập lớn Xác suất - Thống kê Nhóm 09

+ Đối thuyết H1 : ∃µi 6= µj với (i 6= j) ⇔ Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi
hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác nhau.

Bảng ANOVA một nhân tố:

Nguồn của sự biến thiên SS df MS F


Giữa các nhóm SSB k-1 MSB
M SB
Trong từng nhóm SSW N-k MSW F=
Tổng SST N-1 M SW

Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi
hành từ Portland tuân theo phân phối chuẩn.
+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối với
các chuyến bay khởi hành từ Portland bằng nhau.

Kiểm tra giả định phân phối chuẩn:


Giả thuyết H0 : Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland
tuân theo phân phối chuẩn.
Đối thuyết H1 : Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland
không tuân theo phân phối chuẩn.

Hình 18: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 25


Bài tập lớn Xác suất - Thống kê Nhóm 09

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AA không tuân
theo phân phối chuẩn.

Hình 19: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AS

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AS không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AS không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 26


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 20: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không B6

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không B6 không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không B6 không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 27


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 21: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không DL

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không DL không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không DL không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 28


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 22: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không F9

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không F9 không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không F9 không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 29


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 23: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không HA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không HA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không HA không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 30


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 24: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không OO không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không OO không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 31


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 25: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không UA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không UA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không UA không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 32


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 26: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không US

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không US không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không US không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 33


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 27: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không VX

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không VX không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không VX không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 34


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 28: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không WN

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không WN không tuân theo phân
phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không WN không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 35


Bài tập lớn Xác suất - Thống kê Nhóm 09

Kiểm định giả định về tính đồng nhất của các phương sai:
Giả thuyết H0 : Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành
từ Portland bằng nhau.
Đối thuyết H1 : Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi hành từ Portland có phương
sai việc lệch giờ bay khác nhau.

Hình 29: code R và kết quả khi kiểm định giả định về tính đồng nhất của phương sai

Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết H0 , vậy ta có thể đưa ra kết luận là có ít nhất 2 hãng hàng không đối với
các chuyến bay khởi hành từ Portland có phương sai việc lệch giờ bay khác nhau.

Thực hiện phân tích phương sai một nhân tố:

Hình 30: code R và kết quả khi thực hiện ANOVA một nhân tố

Nhận xét: Dựa trên kết quả ANOVA cho thấy:


+ SSB = 748990, bậc tự do k − 1 = 10(k = 11)
+ SSW = 2594172, bậc tự do N − k = 52808 − 11 = 52797 (N là tổng số phần tử khảo sát ở tất cả
các nhóm)
+ M SB = SSB/(k − 1) = 74899
+ M SW = SSW/(N − k) = 49
+ Giá trị thống kê kiểm định: f = M SB/M SW = 1524
+ Mức ý nghĩa quan sát: p − value < 2e − 16.
Dựa vào p − value < 2e − 16 rất bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ được giả thuyết H0 .
Ngoài ta, ta có thể dựa vào f = 1524 > ngưỡng fα;k−1;N −k = f0.05;10;52797 = 1.8309 nên ta cũng đưa
ra kết luận là bác bỏ được giả thuyết H0 .
Vậy có sự khác biệt về việc lệch giờ bay trung bình giữa các hãng hàng không đối với các chuyến bay
khởi hành từ Portland trong năm 2014.

Thực hiện so sánh bội:

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 36


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 31: code R và kết quả khi thực hiện so sánh bội

Nhận xét:
+ Đối với hãng AS-AA:
Giả thuyết H0 : Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng
hàng không AS và AA bằng nhau.
Đối thuyết H1 : Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng
hàng không AS và AA khác nhau.
Dựa và pvalue, ta thấy pvalue = 0.0000 < mức ý nghĩa 5% nên ta bác bỏ H0 , chấp nhận H1 . Vậy thời
gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng hàng không AS và AA

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 37


Bài tập lớn Xác suất - Thống kê Nhóm 09

khác nhau. Mặt khác, diff = -3.0350 < 0 nên ta có thể kết luận thời gian lệch giờ bay trung bình của
các chuyến bay khởi hành từ Porland ở hãng hàng không AS thấp hơn AA.
Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin cậy (-3.5614; -2.5086) không chứa giá trị 0 nên
thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng hàng không AS
và AA khác nhau, và khoảng tin cậy nhận giá trị âm nên thời gian lệch giờ bay trung bình của các
chuyến bay khởi hành từ Porland ở hãng hàng không AS thấp hơn AA.
+ Đối với hãng B6-AA:
Giả thuyết H0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng
hàng không B6 và AA bằng nhau.
Đối thuyết H0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng
hàng không B6 và AA khác nhau.
Dựa và pvalue, ta thấy pvalue = 0.9960 > mức ý nghĩa 5% nên ta bác bỏ H0 , chấp nhận H1 . Vậy thời
gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng hàng không B6 và AA
bằng nhau.
Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin cậy (-1.0454; 0.5512) chứa giá trị 0 nên thời
gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Porland ở hãng hàng không B6 và AA
bằng nhau.
Tương tự, ta sẽ thực hiện so sánh đối với từng cặp hãng hàng không. Ta sẽ đưa ra kết luận rằng hãng
WN có thời gian khởi hành trễ nhất.

Ta cũng có thể đưa ra kết luận dựa vào đồ thị sánh bội:

Hình 32: code R và kết quả khi vẽ đồ thị so sánh bội

Nhận xét:
Nếu khoảng tin cậy cắt đường x = 0, tức có nghĩa là thời gian lệch giờ bay trung bình của các chuyến
bay khỏi hành từ Porland ở 2 hãng hàng không bằng nhau, và ngược lại. Ngoài ra, nếu khoảng tin
cậy nằm về bên phải trục x = 0, cho thấy thời gian lệch giờ bay trung bình của các chuyến bay khỏi
hành từ Porland ở 2 hãng hàng không thứ nhất cao hơn hãng hàng không thứ hai, và ngược lại. Dựa
trên đồ thị so sánh bội, ta cũng đưa ra kết luận rằng hãng WN có thời gian khởi hành trễ nhất.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 38


Bài tập lớn Xác suất - Thống kê Nhóm 09

2.2.5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích
các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.
Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay, ta xem
biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng không (carrier), biến chỉ
sân bay đi (origin), biến chênh lệch thời gian khởi hành (dep_delay) và biến khoảng cách giữa hai
sân bay (distance). Đây là những yếu tố dự báo có thể giúp giải thích sự biến đổi về việc lệch giờ
đến của các chuyến bay.

Thực hiện vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và dis-
tance.

Hình 33: code R và kết quả khi vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến
dep_delay và distance

Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy biến arr_delay có mối quan hệ tuyến tính
với biến dep_delay, tuy nhiên lại không có quan hệ tuyến tính với distance.

Ta xây dựng mô hình hồi quy bao gồm:


Biến phụ thuộc: arr_delay
Biến độc lập: carrier, origin, dep_delay, distance. Mô hình được biểu diễn như sau:
arr_delay = β0 + β1 × carrierAS + β2 × carrierB6 + β3 × carrierDL + β4 × carrierF 9 + ... + β10 ×
carrierW N + β11 × originSEA + β12 × dep_delay + β13 × distance + ε
Ta thực hiện ước lượng các hệ số βi , i = 0, ..., 13 dựa trên tệp tin new_DF2:

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 39


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 34: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_1

Nhận xét: Từ kết quả phân tích, ta thu được:

βb0 = −2.750e − 01; βb1 = 6.322e − 01; βb2 = 7.521e − 02; βb3 = −8.403e − 01; βb4 = 2.068e + 00
βb5 = 6.628e + 00; βb6 = 1.858e − 01; βb7 = −3.494e + 00; βb8 = 1.160e − 01; βb9 = −2.075e + 00
βb10 = −2.890e + 00; βb11 = 3.192e − 01; βb12 = 9.965e − 01; βb13 = −2.684e − 03

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
\
arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 ×
carrierDL + 2.068e + 00 × carrierF 9 + ... − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA +
9.965e − 01 × dep_delay − 2.684e − 03 × distance

Kiểm định các hệ số hồi quy:


Giả thuyết H0 : Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)
Đối thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi 6= 0)
+ P r(> |t|) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý nghĩa
α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0 . Do đó hệ số ứng với các biến này không có
ý nghĩa với mô hình hồi quy ta xây dựng. Ta có thể cân nhắc việc loại bỏ biến carrier ra khỏi mô hình.

Ta xây dựng mô hình 2: là mô hình loại bỏ biến carrier ra khỏi mô hình 1.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 40


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 35: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_2

Ta so sánh các mô hình 1 và mô hình 2:


Giả thuyết H0 : β1 = β2 = ... = β10 = 0: Hai mô hình hiệu quả giống nhau (nghĩa là mô hình 2 hiệu
quả hơn mô hình 1)
Đối thuyết H1 : ∃βi 6= 0, i = 1, ..., 10: Hai mô hình hiệu quả khác nhau (nghĩa là mô hình 1 hiệu quả
hơn mô hình 2)

Hình 36: code R và kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2

Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy p − value < 2.2e − 16 rất bé so với mức ý nghĩa
α = 0.05 nên ta bác bỏ giả thuyết H0 , ta có thể kết luận 2 mô hình hiệu quả khác nhau, tức có nghĩa
là mô hình 1 hiệu quả hơn mô hình 2 (vì có ít nhất 1 hệ số βi có ý nghĩa thống kê nên mô hình đầy
đủ là mô hình 1 sẽ hiệu quả hơn).
Ngoài ra, ta có thể dựa vào hệ số xác định hiệu chỉnh ở mô hình 1 (AdjustedR−squared = 0.8577) cao
hơn so với mô hình 2 (AdjustedR − squared = 0.8548), chứng tỏ sự biến thiên của biến arr_delay
được giải thích nhiều hơn bởi các biến độc lập. Như vậy mô hình 1 là mô hình hiệu quả hơn mô hình 2.

Phân tích sự tác động của các nhân tố lên việc lệch giờ đến:
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ đến được cho bởi:
\
arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 ×
carrierDL + 2.068e + 00 × carrierF 9 + ... − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA +
9.965e − 01 × dep_delay − 2.684e − 03 × distance
Trước hết, ta thấy rằng p − value tương ứng với thống kê F bé hơn 2.2e − 16, có ý nghĩa rất cao. Điều
này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao đến việc lệch giờ
đến arr_delay.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 41


Bài tập lớn Xác suất - Thống kê Nhóm 09

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số βi ) và p − value tương ứng.
Ta thấy rằng p − value tương ứng với các biến carrierHA, carrierVX,carrierWN, dep_delay,
distance bé hơn 2e − 16, điều này nói lên rằng ảnh hưởng của các biến này có ý nghĩa rất cao lên
việc lệch giờ đến arr_delay.

Mặt khác, hệ số hồi quy βi của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên
biến phụ thuộc arr_delay khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến dự báo khác
không đổi. Cụ thể, βb12 = 9.965e − 01 thì khi chênh lệch giữa giờ bay tăng 1 phút ta có thể kỳ vọng
chênh lệch giữa giờ đến sẽ tăng lên 9.965e-01 phút (giả sử rằng các biến dự báo khác không đổi). Với
βb13 = −2.684e − 03 thì khi khoảng cách giữa 2 sân bay tăng tăng 1 dặm, ta có thể kỳ vọng chênh lệch
giờ đến sẽ giảm -2.684e-03 phút (giả sử rằng các biến dự báo khác không đổi).
Hệ số R2 hiệu chỉnh bằng 0.8577 nghĩa là 85.77% sự biến thiên trong việc lệch giờ đến được giải thích
bởi các biến các biến độc lập.

Kiểm tra các giả định của mô hình


Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 .X1 + ...βi .Xi + i , i = 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là
tuyến tính.
+ Sai số có kỳ vọng bằng 0.
+ Phương sai của các sai số là hằng số.
+ Sai số có phân phối chuẩn.
+ Các sai số 1 , ..., n thì độc lập với nhau.

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 37: code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình

Ngoài ra, ta có thể vẽ từng đồ thị để nhìn rõ hơn:

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 42


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 38: code R và kết quả khi vẽ đồ thị Residuals and fitted

Hình 39: code R và kết quả khi vẽ đồ thị QQ-plot

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 43


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 40: code R và kết quả khi vẽ đồ thị Scale-Location

Hình 41: code R và kết quả khi vẽ đồ thị Residuals vs Leverage

Nhận xét:
+ Đồ thị thứ 1 vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tính tuyến tính của
dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai của các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng nằm ngang nên giả định tính tuyến tính
của dữ liệu thoả mãn. Đường màu đỏ nằm sát đường y = 0 nên giả định sai số có kỳ vọng bằng 0
thoả mãn. Các sai số không phân tán ngẫu nhiên dọc theo đường màu đỏ mà phân tán thành cụm ở
góc trái đồ thị nên giả định phương sai các sai số là hằng số không thoả mãn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 44


Bài tập lớn Xác suất - Thống kê Nhóm 09

+ Đồ thị thứ 2 vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối chuẩn.

Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi đường thẳng kì vọng phân phối chuẩn
nên giả định sai số có phân phối chuẩn chưa thỏa mãn.

+ Đồ thị thứ 3 vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả định phương sai
các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ nằm ngang nhưng các quan trắc không phân tán ngẫu
nhiên dọc theo đường màu đỏ mà phân tán thành cụm ở góc trái đồ thị nên giả định phương sai của
các sai số là hằng số không thoả mãn.

+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 52723, 55299 và 120906 có thể là các điểm có ảnh
hưởng cao trong bộ dữ liệu. Tuy nhiên ta không thấy đường Cook ở góc đồ thị bên phải và các điểm
này cũng không vượt ra khỏi đường Cook nên các điểm này không thực sự là điểm có ảnh hưởng cao,
do đó ta không cần loại bỏ các điểm này khi phân tích.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 45


Bài tập lớn Xác suất - Thống kê Nhóm 09

3 Hoạt động 2
3.1 Đề bài
Tệp tin "train_data.csv" chứa các thông số về điều kiện môi trường, cấu tạo và năng lượng tạo ra
từ các máy xoay gió. Dữ liệu được cung cấp tại trang web:
https://www.kaggle.com/datasets/emnikkhil/predict-the-powerkwh-produced-by-windmills

Các biến chính trong bộ dữ liệu:


• wind_speed: Tốc độ gió
• area_temperature: Nhiệt độ môi trường
• motor_torque: Công suất động cơ
• blade_breadth: chiều rộng cánh quạt
• cloud_level: Cấp độ mây
• windmill_generated_power: Năng lượng tạo ra từ cối xây gió

Yêu cầu:
1. Đọc dữ liệu (Import data):
2. Làm sạch dữ liệu (Data cleaning):
3. Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng đồ thị.
4. Mô hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo ra từ cối xây gió.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 46


Bài tập lớn Xác suất - Thống kê Nhóm 09

3.2 Thực hiện


3.2.1 Đọc dữ liệu (Import data)
Đọc tệp tin "train_data.csv".

Hình 42: code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 47


Bài tập lớn Xác suất - Thống kê Nhóm 09

3.2.2 Làm sạch dữ liệu (Data cleaning)


Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề bài đưa ra, lưu với tên là new_DF.

Hình 43: code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính

Kiểm tra dữ liệu khuyết trong tệp tin.

Hình 44: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhận
thấy có nhiều giá trị khuyết tại biến wind_speed, motor_torque, windmill_generated_power.
Vì lượng khuyết trong dữ liệu chỉ chiếm tối đa 2% lượng quan sát (dưới 10%), do đó ta lựa chọn phương
pháp xoá các quan sát của biến nào có giá trị khuyết trong tệp tin new_DF.

Hình 45: code R khi xoá các quan sát chứa dữ liệu khuyết

3.2.3 Làm rõ dữ liệu: (Data visualization)


Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân
vị) của các biến wind_speed, area_temperature, motor_torque, blade_breadth, wind-
mill_generated_power). Xuất kết quả dưới dạng bảng.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 48


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 46: code R và kết quả khi tính các giá trị thống kê mô tả cho các biến

Vẽ biểu đồ histogram thể hiện phân phối của biến windmill_generated_power.

Hình 47: code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến wind-
mill_generated_power

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 49


Bài tập lớn Xác suất - Thống kê Nhóm 09

Nhận xét: Qua biểu đồ trên ta thấy rằng năng lượng tạo ra từ cối xây gió có phân phối trong
khoảng từ 0 - 22 kWh. Năng lượng tạo ra từ cối xây gió có phân phối tần số cao nhất trong khoảng 4
- 6 kWh và phân phối tần số thấp nhất trong khoảng 20 - 22 kWh.

Vẽ biểu đồ boxplot thể hiện phân phối của biến biến windmill_generated_power theo cấp độ
mây cloud_level.

Hình 48: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến wind-
mill_generated_power theo cấp độ mây cloud_level

Nhận xét: Qua biểu đồ trên ta thấy có sự khác biệt về năng lượng được tạo ra từ cối xây giờ khi điều
kiện cấp độ mây khác nhau. Cụ thể, ta có thể nhận thấy, khi điều kiện về cấp độ mây (Extremely
Low) cho thấy năng lượng tạo ra thấp hơn so với các điều kiện cấp độ mây khác.

Vẽ biểu đồ phân tán thể hiện phân phối của biến biến windmill_generated_power theo các
biến wind_speed, area_temperature, motor_torque, blade_breadth.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 50


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 49: code R và kết quả khi vẽ đồ phân tán thể hiện phân phối của biến biến wind-
mill_generated_power theo các biến wind_speed, area_temperature

Hình 50: code R và kết quả khi vẽ đồ phân tán thể hiện phân phối của biến biến wind-
mill_generated_power theo các biến motor_torque, blade_breadth

Nhận xét: Qua các biểu đồ trên ta thấy windmill_generated_power có mối quan hệ tuyến tính
yếu với các biến wind_speed, area_temperature, motor_torque và blade_breadth. Ta dự
đoán rằng các yếu tố trên ít ảnh hưởng đến năng lượng tạo ra từ cối xay gió.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 51


Bài tập lớn Xác suất - Thống kê Nhóm 09

3.2.4 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích
các yếu tố ảnh hưởng đến năng lượng tạo ra từ cối xay gió.
Ta xây dựng mô hình hồi quy bao gồm:
Biến phụ thuộc: windmill_generated_power
Biến độc lập: wind_speed, area_temperature, motor_torque, blade_breadth, cloud_level.
Mô hình được biểu diễn như sau:
windmill_generated_power = β0 +β1 ×wind_speed+β2 ×area_temperature+β3 ×motor_torque+
... + β6 × cloud_levelLow + β7 × cloud_levelM edium + ε
Ta thực hiện ước lượng các hệ số βi , i = 0, ..., 7:

Hình 51: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1

Nhận xét: Từ kết quả phân tích, ta thu được:

βb0 = 0.8770439; βb1 = −0.0052964; βb2 = 0.0724556; βb3 = 0.0014704; βb4 = 1.2872164
βb5 = −2.6682710; βb6 = 0.2156612; βb7 = 0.2915721

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
\
windmill_generated_power = 0.8770439−0.0052964×wind_speed+0.0724556×area_temperature+
0.0014704 × motor_torque + ... + 0.2156612 × cloud_levelLow + 0.2915721 × cloud_levelM edium

Kiểm định các hệ số hồi quy:


Giả thuyết H0 : Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)
Đối thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi 6= 0)
+ P r(> |t|) của các hệ số ứng với biến cloud_levelLow lớn hơn mức ý nghĩa α = 0.05 nên ta chưa
đủ cơ sở để bác bỏ giả thuyết H0 . Do đó hệ số ứng với biến này không có ý nghĩa với mô hình hồi quy
ta xây dựng. Ta có thể cân nhắc việc loại bỏ biến cloud_level ra khỏi mô hình.

Ta xây dựng mô hình 2: là mô hình loại bỏ biến cloud_level ra khỏi mô hình 1.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 52


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 52: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2

Ta so sánh các mô hình 1 và mô hình 2:


Giả thuyết H0 : β5 = β6 = β7 = 0: Hai mô hình hiệu quả giống nhau (nghĩa là mô hình 2 hiệu quả hơn
mô hình 1)
Đối thuyết H1 : ∃βi 6= 0, i = 5, 6, 7: Hai mô hình hiệu quả khác nhau (nghĩa là mô hình 1 hiệu quả hơn
mô hình 2)

Hình 53: code R và kết quả khi so sánh 2 mô hình model_1 và model_2

Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy p − value < 2.2e − 16 rất bé so với mức ý nghĩa
α = 0.05 nên ta bác bỏ giả thuyết H0 , ta có thể kết luận 2 mô hình hiệu quả khác nhau, vậy tức có
nghĩa là mô hình 1 hiệu quả hơn mô hình 2 (vì có ít nhất 1 hệ số βi có ý nghĩa thống kê nên mô hình
đầy đủ là mô hình 1 sẽ hiệu quả hơn).
Ngoài ra, ta có thể dựa vào hệ số xác định hiệu chỉnh ở mô hình 1 (AdjustedR − squared = 0.3196)
cao hơn so với mô hình 2 (AdjustedR − squared = 0.308), chứng tỏ sự biến thiên của biến wind-
mill_generated_power được giải thích nhiều hơn bởi các biến độc lập. Như vậy mô hình 1 là mô
hình hiệu quả hơn mô hình 2.

Kiểm tra các giả định của mô hình


Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 .X1 + ...βi .Xi + i , i = 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là
tuyến tính.
+ Sai số có kỳ vọng bằng 0.
+ Phương sai của các sai số là hằng số.
+ Sai số có phân phối chuẩn.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 53


Bài tập lớn Xác suất - Thống kê Nhóm 09

+ Các sai số 1 , ..., n thì độc lập với nhau.


Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 54: code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình

Ngoài ra, ta có thể vẽ từng đồ thị để nhìn rõ hơn:

Hình 55: code R và kết quả khi vẽ đồ thị Residuals and fitted

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 54


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 56: code R và kết quả khi vẽ đồ thị QQ-plot

Hình 57: code R và kết quả khi vẽ đồ thị QQ-plot

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 55


Bài tập lớn Xác suất - Thống kê Nhóm 09

Hình 58: code R và kết quả khi vẽ đồ thị QQ-plot

Nhận xét:
+ Đồ thị thứ 1 vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tính tuyến tính của
dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai của các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng chưa nằm ngang nên giả định tính tuyến
tính của dữ liệu chưa thực sự thoả mãn. Đường màu đỏ nằm sát đường y = 0 nên giả định sai số có
kỳ vọng bằng 0 thoả mãn. Các sai số không phân tán ngẫu nhiên dọc theo đường màu đỏ mà phân
tán thành cụm nên giả định phương sai các sai số là hằng số không thoả mãn.

+ Đồ thị thứ 2 vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối chuẩn.

Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi đường thẳng kì vọng phân phối chuẩn
nên giả định sai số có phân phối chuẩn chưa thỏa mãn.

+ Đồ thị thứ 3 vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả định phương sai
các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ chưa nằm ngang và các quan trắc không phân tán ngẫu
nhiên dọc theo đường màu đỏ mà phân tán thành cụm nên giả định phương sai của các sai số là hằng
số không thoả mãn.

+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 4, 13152, 22643 có thể là các điểm có ảnh hưởng cao
trong bộ dữ liệu. Tuy nhiên ta không thấy đường Cook ở góc đồ thị bên phải và các điểm này cũng
không vượt ra khỏi đường Cook nên các điểm này không thực sự là điểm có ảnh hưởng cao, do đó ta
không cần loại bỏ các điểm này khi phân tích.

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 56


Bài tập lớn Xác suất - Thống kê Nhóm 09

TÀI LIỆU THAM KHẢO

1. Hoàng Văn Hà, Bài giảng Xác suất Thống Kê.


2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019
3. Introductory Statistic with R, J Jambers - D.Hand - W.Hardle
4. Applied Statistics with R, 2020
5. Link dữ liệu: https://www.kaggle.com/datasets/emnikkhil/predict-the-powerkwh-produced-by-windmills

Giảng viên hướng dẫn: T.S Hoàng Văn Hà Trang 57

You might also like