You are on page 1of 32

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA CƠ KHÍ

BÁO CÁO BÀI TẬP LỚN

MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211

NHÓM: CK04 - ĐỀ TÀI: 04

GIẢNG VIÊN HƯỚNG DẪN: ThS. NGUYỄN KIỀU DUNG


DANH SÁCH NHÓM:

STT Họ và tên MSSV Lớp/Tổ Ngành học Kí tên


1 Hoàng Phạm Minh Vũ 2010796 L01/A Cơ Khí
2 Nguyễn Ngọc Quốc Việt 2015048 L04/C Cơ Khí
3 Lâm Hải Đăng 2011081 L10/A Cơ Khí
4 Nguyễn Hà Anh Minh 2010796 L14/A Cơ Khí
5 Lê Tấn Phát 1911822 L14/A Cơ Khí

Tp. Hồ Chí Minh, Tháng 01/11/2021


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

PHÂN CÔNG LÀM VIỆC

STT Họ và tên Nội dung Nhiệm vụ


1 Hoàng Phạm Minh Vũ
2 Nguyễn Ngọc Quốc Việt
3 Lâm Hải Đăng
4 Nguyễn Hà Anh Minh
5 Lê Tấn Phát

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 1


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Mục lục
1 HOẠT ĐỘNG 1: 6
1.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.1 Đọc dữ liệu (Import data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.2 Làm sạch dữ liệu (Data cleaning) . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3.3 Làm rõ dữ liệu: (Data visualization) . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân
tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay. 27

2 Hoạt động 2 30
2.1 Đề bài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 2


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Danh sách bảng

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 3


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Danh sách hình vẽ


1 code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 code R khi xoá các quan sát chứa dữ liệu khuyết
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 code R và kết quả khi kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã
xoá.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo
từng hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
9 code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
10 code R khi ghép các dữ liệu lại với nhau
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
11 code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 . . . . 11
12 code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng
không . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
13 code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3 . . . . . . . . . . . 11
14 code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA . . . . . . . . . . 11
15 code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
16 code R và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay
theo từng hãng hàng không (carrier)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
17 code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong
năm 2014
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
18 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
19 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AS
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
20 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không B6
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
21 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không DL
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
22 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không F9
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 4


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

23 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không HA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
24 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
25 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không UA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
26 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không US
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
27 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không VX
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
28 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không WN
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
29 code R và kết quả khi kiểm định giả định về tính đồng nhất của phương sai
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
30 code R và kết quả khi thực hiện ANOVA một nhân tố . . . . . . . . . . . . . . . . . . 26
31 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
32 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
33 code R và kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
34 code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô
hình
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 5


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

ĐỀ TÀI 4

1 HOẠT ĐỘNG 1:
1.1 Đề bài
Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân bay lớn của
vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở Portland trong năm 2014. Dữ liệu
cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ . Dữ liệu này được dùng để phân tích các nguyên nhân
gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau: Các biến chính
trong bộ dữ liệu:
• year, month, day: ngày khởi hành của mỗi chuyến bay
• carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA = United Air
Lines, AA = American Airlines, DL = Delta Airlines, v.v.
• origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và
PDX (Portland)
• dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
• dep_delay và arr_delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời
gian cất cánh/hạ cánh in trong vé
• distance: khoảng cách giữa hai sân bay (dặm)
Các bước thực hiện:
1. Đọc dữ liệu (Import data): "flights.rda"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay.
5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnh
hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.

1.2 Cơ sở lý thuyết

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 6


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

1.3 Thực hiện


1.3.1 Đọc dữ liệu (Import data)
Đọc tệp tin "flights.rda".

Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin

1.3.2 Làm sạch dữ liệu (Data cleaning)


Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề bài đưa ra, lưu với tên là new_DF.

Hình 2: code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính

Kiểm tra dữ liệu khuyết trong tệp tin.

Hình 3: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhận
thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time, dep_delay. Vì lượng
khuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan sát (dưới 10%), do đó ta lựa chọn phương pháp
xoá các quan sát của biến nào có giá trị khuyết trong tệp tin new_DF.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 7


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 4: code R khi xoá các quan sát chứa dữ liệu khuyết

Kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá.

Hình 5: code R và kết quả khi kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá.

Nhận xét: Ta nhận thấy số lượng quan sát sau khi xoá là 1301 quan sát, chiếm tỷ lệ 0.8% so với dữ
liệu ban đầu, có thể thấy việc xoá các quan sát của biến có giá trị khuyết trong tệp tin newD F không
ảnh hưởng nhiều đến kết quả của dữ liệu.

1.3.3 Làm rõ dữ liệu: (Data visualization)


Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân
vị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất cánh/hạ cánh in trong vé (biến
dep_delay) của từng hãng hàng không (carrier). Xuất kết quả dưới dạng bảng.

Vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier).

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 8


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 6: code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng
hàng không (carrier)

Hình 7: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng
hãng hàng không (carrier)

Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến dep_delay,
điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau. Do đó, ta sử dụng khoảng
tứ phân vị (interquartile range) để loại bỏ các điểm outlier.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 9


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Ý tưởng cho bài toán: Ta sẽ chuyển các outliers của biến dep_delay ở từng hãng hàng không sang
NA. Từ đó đề xuất phương pháp xử lý các NA đó.
Ta tạo function xác định outliers, chuyển các outliers thành dạng NA. Việc tạo function mới sẽ giúp
ta tối ưu code hơn.

Hình 8: code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA

Ta hiện hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA
.

Hình 9: code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA

Ghép các dữ liệu lại với nhau và lưu vào new_DF3.

Hình 10: code R khi ghép các dữ liệu lại với nhau

Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (sau khi chuyển outliers thành NA):

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 10


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 11: code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3

Nhận xét: Số lượng NA = 18732 và chiếm tỉ lệ 11.65% lượng quan sát của dữ liệu. Trong trường hợp
này, ta không chọn phương pháp xoá các NA, vì lượng NA tương đối nhiều ( >10% dữ liệu). Do đó,
ta sẽ xử lý bằng phương pháp thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng
hàng không.

Hình 12: code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng không

Ghép các dữ liệu lại với nhau và lưu lại vào new_DF3.

Hình 13: code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3

Kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Hình 14: code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn NA.
Tính lại các giá trị thống kê mô tả cho biến dep_delay theo từng hãng hàng không (carrier.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 11


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 15: code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng
hãng hàng không (carrier)

Vẽ lại biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier).

Hình 16: code R và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo
từng hãng hàng không (carrier)

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 12


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Nhận xét:
Đối với hãng hàng không AA:
+ Min = - 18 : Thời gian khởi hành sớm nhất: 18 phút.
+ Max = 26 : Thời gian khởi hành trễ nhất: 26 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không AS:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 12 : Thời gian khởi hành trễ nhất: 12 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 2.5563 : 50% chuyến bay có thời gian khởi hành sớm hơn 2.5563 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không B6:
+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 31 : Thời gian khởi hành trễ nhất: 31 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không DL:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 16 : Thời gian khởi hành trễ nhất: 16 phút.
+ Q1 = - 4 : 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không F9:
+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 36 : Thời gian khởi hành trễ nhất: 36 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 4 : 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống.
Đối với hãng hàng không HA:
+ Min = - 16 : Thời gian khởi hành sớm nhất: 16 phút.
+ Max = 8 : Thời gian khởi hành trễ nhất: 8 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.5056 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.5056 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không OO:
+ Min = - 17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 10 : Thời gian khởi hành trễ nhất: 10 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.1136 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.1136 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không UA:
+ Min = - 19 : Thời gian khởi hành sớm nhất: 19 phút.
+ Max = 27 : Thời gian khởi hành trễ nhất: 27 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 1 : 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
+ Q3 = 2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống.
Đối với hãng hàng không US:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 11 : Thời gian khởi hành trễ nhất: 11 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 13


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

+ Q2 = - 3.0085 : 50% chuyến bay có thời gian khởi hành sớm hơn 3.0085 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không VX:
+ Min = -17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 15 : Thời gian khởi hành trễ nhất: 15 phút.
+ Q1 = -5 : 2% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = -2.6272 : 5% chuyến bay có thời gian khởi hành sớm hơn 2.6272 phút.
+ Q3 = -1 : 7% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
Đối với hãng hàng không WN:
+ Min = - 11 : Thời gian khởi hành sớm nhất: 11 phút.
+ Max = 45 : Thời gian khởi hành trễ nhất: 45 phút.
+ Q1 = - 2 : 2% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q2 = 3 : 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống.
+ Q3 = 11 : 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống.

1.3.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay.
Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa các
hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm 2014 hay không?
Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:

Hình 17: code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm
2014

Giải thích lý do sử dụng ANOVA một nhân tố:


Ta có 11 hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014. Để thực hiện so
sánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai. Nếu chỉ so
sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy nếu dùng t-test cho bài toán này, ta phải
thực hiện kiểm định rất nhiều lần. Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau
hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất.
Như vậy ta sẽ sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ Portland trong năm 2014.
Trong đó:
Biến phụ thuộc: dep_delay
Các nhân tố (hay biến độc lập): carrier

Đặt giả thuyết:


+ Giả thuyết H0 : µ1 = µ2 = ... = µ1 1 ↔ ⇔ Việc lệch giờ bay trung bình giữa các hãng hàng không
đối với các chuyến bay khởi hành từ Portland năm 2014 bằng nhau.
+ Đối thuyết H1 : ∃mui 6= muj với (i 6= j) ⇔ Có ít nhất 2 hãng hàng không đối với các chuyến bay
khởi hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác nhau.

Bảng ANOVA một nhân tố:

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 14


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Nguồn của sự biến thiên SS df MS F


Giữa các nhóm SSB k-1 MSB
M SB
Trong từng nhóm SSW N-k MSW F=
Tổng SST N-1 M SW

Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi
hành từ Portland tuân theo phân phối chuẩn.
+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối với
các chuyến bay khởi hành từ Portland bằng nhau.
Kiểm tra giả định phân phối chuẩn:
Giả thuyết H0 : Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland
tuân theo phân phối chuẩn.
Giả thuyết H1 : Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland
không tuân theo phân phối chuẩn.

Hình 18: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AA không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 15


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 19: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AS

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AS không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AS không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 16


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 20: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không B6

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không B6 không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không B6 không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 17


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 21: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không DL

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không DL không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không DL không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 18


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 22: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không F9

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không F9 không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không F9 không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 19


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 23: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không HA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không HA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không HA không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 20


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 24: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không OO không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không OO không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 21


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 25: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không UA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không UA không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không UA không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 22


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 26: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không US

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không US không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không US không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 23


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 27: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không VX

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không VX không tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không VX không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 24


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Hình 28: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không WN

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kì
vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không WN không tuân theo phân
phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác
bỏ giả thuyết H0 , nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không WN không tuân
theo phân phối chuẩn.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 25


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Kiểm định giả định về tính đồng nhất của các phương sai: Giả thuyết H0 : Phương sai việc
lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portland bằng nhau.
Giả thiết H: Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi hành từ Portland có phương
sai việc lệch giờ bay khác nhau.

Hình 29: code R và kết quả khi kiểm định giả định về tính đồng nhất của phương sai

Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết H0 , vậy ta có thể đưa ra kết luận là có ít nhất 2 hãng hàng không đối với
các chuyến bay khởi hành từ Portland có phương sai việc lệch giờ bay khác nhau.

Thực hiện phân tích phương sai một nhân tố:

Hình 30: code R và kết quả khi thực hiện ANOVA một nhân tố

Nhận xét: Dựa trên kết quả ANOVA cho thấy:


+ SSB = 748990, bậc tự do k − 1 = 10(k = 11)
+ SSW = 2594172, bậc tự do N − k = 52808 − 11 = 52797 (N là tổng số phần tử khảo sát ở tất cả
các nhóm)
+ M SB = SSB/(k − 1) = 74899
+ M SW = SSW/(N − k) = 49
+ Giá trị thống kê kiểm định: f = M SB/M SW = 1524
+ Mức ý nghĩa quan sát: p − value < 2e − 16.
Dựa vào p − value < 2e − 16 rất bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ được giả thuyết H0 .
Ngoài ta, ta có thể dựa vào f = 1524 > ngưỡng fα;k−1;N −k = f0.05;10;52797 = 1.8309 nên ta cũng đưa
ra kết luận là bác bỏ được giả thuyết H0 .
Vậy có sự khác biệt về việc lệch giờ bay trung bình giữa các hãng hàng không đối với các chuyến bay
khởi hành từ Portland trong năm 2014.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 26


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

1.3.5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích
các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay.
Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay, ta xem
biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng không (carrier), biến chỉ
sân bay đi (origin), biến chênh lệch thời gian khởi hành (dep_delay) và biến khoảng cách giữa hai
sân bay (distance). Đây là những yếu tố dự báo có thể giúp giải thích sự biến đổi về việc lệch giờ
đến của các chuyến bay.
Biến phụ thuộc: arr_delay
Biến độc lập: carrier, origin, dep_delay, distance. Mô hình được biểu diễn như sau:
arr_delay = β0 + β1 × carrierAS + β2 × carrierB6 + β3 × carrierDL + β4 × carrierF 9 + ... + β10 ×
carrierW N + β11 × originSEA + β12 × dep_delay + β13 × distance
Ta thực hiện ước lượng các hệ số βi , i = 0, ..., 13 dựa trên tệp tin new_DF2:

Hình 31: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_1

Nhận xét: Từ kết quả phân tích, ta thu được:

βb0 = −2.750e − 01; βb1 = 6.322e − 01; βb2 = 7.521e − 02; βb3 = −8.403e − 01; βb4 = 2.068e + 00
βb5 = 6.628e + 00; βb6 = 1.858e − 01; βb7 = −3.494e + 00; βb8 = 1.160e − 01; βb9 = −2.075e + 00
βb10 = −2.890e + 00; βb11 = 3.192e − 01; βb12 = 9.965e − 01; βb13 = −2.684e − 03

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 ×
carrierDL + 2.068e + 00 × carrierF 9 + ... − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA +
9.965e − 01 × dep_delay − 2.684e − 03 × distance

Kiểm định các hệ số hồi quy:


Giả thuyết H0 : Hệ số hồi quy không có ý nghĩa thống kê (βi = 0)
Giả thuyết H1 : Hệ số hồi quy có ý nghĩa thống kê (βi 6= 0)

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 27


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

+ P r(> |t|) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý nghĩa
α = 0.05 nên ta chưa đủ cơ sở để bác bỏ giả thuyết H0 . Do đó hệ số ứng với các biến này không có
ý nghĩa với mô hình hồi quy ta xây dựng. Ta có thể cân nhắc việc loại bỏ các biến này ra khỏi mô hình.

Ta xây dựng mô hình 2: là mô hình loại bỏ biến carrier ra khỏi mô hình 1.

Hình 32: code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_2

Ta so sánh các mô hình 1 và mô hình 2:

Hình 33: code R và kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2

Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy p − value < 2.2e − 16 rất bé so với mức
ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết H0 , ta có thể kết luận 2 mô hình hiệu quả khác nhau.
Mặt khác dựa vào hệ số xác định hiệu chỉnh ở mô hình 1 (AdjustedR − squared = 0.8577) cao
hơn so với mô hình 2 (AdjustedR − squared = 0.8548), chứng tỏ sự biến thiên của biến arr_delay
được giải thích nhiều hơn bởi các biến độc lập. Như vậy mô hình 1 là mô hình hiệu quả hơn mô hình 2.

Phân tích sự tác động của các nhân tố lên việc lệch giờ đến:
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ đến được cho bởi:
arr_delay = −2.750e − 01 + 6.322e − 01 × carrierAS + 7.521e − 02 × carrierB6 − 8.403e − 01 ×
carrierDL + 2.068e + 00 × carrierF 9 + ... − 2.890e + 00 × carrierW N + 3.192e − 01 × originSEA +
9.965e − 01 × dep_delay − 2.684e − 03 × distance
Trước hết, ta thấy rằng p − value tương ứng với thống kê F bé hơn 2.2e − 16, có ý nghĩa rất cao. Điều
này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao đến việc lệch giờ
đến arr_delay.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 28


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số βi ) và p − value tương ứng.
Ta thấy rằng p − value tương ứng với các biến carrierHA, carrierVX,carrierWN, dep_delay,
distance bé hơn 2e − 16, điều này nói lên rằng ảnh hưởng của các biến này có ý nghĩa rất cao lên việc
lệch giờ đến arr_delay. Mặt khác, hệ số hồi quy βi của một biến dự báo cũng có thể được xem như
ảnh hưởng trung bình lên biến phụ thuộc arr_delay khi tăng một đơn vị của biến dự báo đó, giả sử
rằng các biến dự báo khác không đổi. Cụ thể, βb12 = 9.965e − 01 thì khi chênh lệch giữa giờ bay tăng
1 phút ta có thể kỳ vọng chênh lệch giữa giờ đến sẽ tăng lên 9.965e-01 phút (giả sử rằng các biến dự
báo khác không đổi). Với βb13 = −2.684e − 03 thì khi khoảng cách giữa 2 sân bay tăng tăng 1 dặm, ta
có thể kỳ vọng chênh lệch giờ đến sẽ giảm -2.684e-03 phút (giả sử rằng các biến dự báo khác không
đổi). Hệ số R2 hiệu chỉnh bằng 0.8577 nghĩa là 85.77% sự biến thiên trong việc lệch giờ đến được giải
thích bởi các biến các biến độc lập.

Kiểm tra các giả định của mô hình


Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 .X1 + ...βi .Xi + i , i = 1, ...n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là
tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: i ∼ N (0, σ 2 )
+ Các sai số 1 , ..., n thì độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 34: code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình

Nhận xét:
+ Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn.
+ Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính của dữ liệu thoả mãn.
+ Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về tính đồng nhất của phương
sai cũng bị vi phạm. Ta thấy sự vi phạm này có thể do có quá nhiều sai số.
+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 52723, 55299 và 120906 có thể là các điểm có ảnh hưởng
cao trong bộ dữ liệu.

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 29


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

2 Hoạt động 2
2.1 Đề bài
Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh viên sử dụng
dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,... trong chuyên ngành của mình. Ngoài ra
sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung
cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình,
nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô hình dữ liệu (model fitting).

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 30


BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nhóm CK04

TÀI LIỆU THAM KHẢO

1. Hoàng Văn Hà, Bài giảng Xác suất Thống Kê.


2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất - Thống kê & Phân tích số liệu, 2019

Giảng viên hướng dẫn: Th.S NGUYỄN KIỀU DUNG Trang 31

You might also like