You are on page 1of 65

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

ĐẠI HỌC BÁCH KHOA


KHOA KHOA HỌC ỨNG DỤNG


BÁO CÁO BÀI TẬP LỚN

XÁC XUẤT THỐNG KÊ


ĐỀ TÀI 4
Giảng viên hướng dẫn: Nguyễn Kiều Dung
NHÓM 4:

STT Họ và tên MSSV Lớp Khoa


1 Dương Đình Đức 2113204 L07 Xây dựng
2 Nguyễn Minh Đông 2113198 L07 Xây dựng
3 Cao Hoài Nam 2111790 L12 Xây dựng
4 Huỳnh Phát Phúc 2114431 L12 Xây dựng
5 Trần Tống Tú Tài 2112227 L08 Xây dựng
TP.HCM 12/2022

MỤC LỤC
1
I. CƠ SỞ LÝ THUYẾT...............................................................................................4

1.1 .Hồi quy tuyến tính đơn:.....................................................................................4

2.1 .Hồi quy tuyến tính bội:......................................................................................4

2.1.1.Hàm hồi quy tổng thể (PRF- Population Regression Function)....................5

2.1.2.Hàm hồi quy mẫu (SRF - Sample Regression Function)..............................5

2.1.3.Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội...............................................................................................6

2.1.4.Độ phù hợp của mô hình..............................................................................6

2.1.5.Khoảng tin cậy và kiểm định các hệ số hồi quy...........................................7

2.1.6.Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của
kiểm định WALD)....................................................................................9

2.2.Phân tích phương sai một yếu tố.......................................................................10

2.2.1.Lý thuyết về ANOVA (Phân tích phương sai)...........................................10

2.2.2 Phân tích phương sai một yếu tố................................................................11

II. HOẠT ĐỘNG 1....................................................................................................17

2.1 Đề bài...............................................................................................................17

2.2 Thực hiện..........................................................................................................18

2.2.1 Đọc dữ liệu (Impost data)...........................................................................18

2.2.2 Làm sạch sữ liệu (Data cleaning)..............................................................18

2.2.2 Làm rõ dữ liệu (Data visualization)............................................................20

2.2.4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay...................................................................27

2.2.5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để
phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các
chuyến bay.................................................................................................44

III.HOẠT ĐỘNG 2....................................................................................................51

3.1. Đề bài:.............................................................................................................51

3.2. Thực hiện:........................................................................................................52

2
3.2.1. Đọc dữ liệu:...............................................................................................52

3.2.2. Làm sạch dữ liệu:......................................................................................52

3.2.3. Làm rõ dữ liệu:..........................................................................................53

3.2.4. Xây dựng mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến
tính phù hợp để đánh giá các nhân tố tác động đến chi phí bán chung cư
thực tế.........................................................................................................58

IV.TÀI LIỆU THAM KHẢO....................................................................................62

DANH MỤC BẢNG


Bảng 1. Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng ..................................8
Bảng 2. Bảng số liệu tổng quát thực hiện phân tích phương sai. .........................12
Bảng 3. Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay
SPSS……………………………………………………………………………..14

I.CƠ SỞ LÝ THUYẾT
1.1.Hồi quy tuyến tính đơn:
3
Bài toán phân tích hồi quy là bài toán nghiên cứu mối liên hệ phụ thuộc của một biến
(gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là các biến độc lập), với ý
tưởng ước lượng được giá trị trung bình (tổng thể) của biến phụ thuộc theo giá trị của
các biến độc lập, dựa trên mẫu được biết trước.

Lý thuyết hồi quy đơn nghiên cứu bài toán dự báo biến ngẫu nhiên Y theo một biến
ngẫu nhiên X. Người ta tìm cách thay Y bởi hàm f(X) sao cho chính xác nhất. Hồi quy
tuyến tính đơn. Trong mối liên hệ hàm số y = f(x), với mỗi một giá trị x ta tìm được
duy nhất một giá trị y. Tuy nhiên trong bài toán hồi quy, sự phụ thuộc của Y vào X
mang tính thống kê: một giá trị Xi có thể có tương ứng nhiều giá trị khác nhau của Y,
bởi vì ngoài yếu tố chính là X, biến Y có thể còn chịu tác động bởi một số yếu tố khác
không được xét đến.

Mô hình hồi quy tuyến tính đơn có dạng tổng quát như sau:
Y = β0 + β1 X
Trong đó:

+ β1: Hệ số hồi quy riêng

+Y: Biến phụ thuộc

+ Xi: Biến độc lập

+ β0:Hệ số tự do (hệ số chặn)

Mô hình hồi quy tuyến tính đơn: Ta có các tham số; β0, β1 và σ 2sao cho với mỗi giá trị
X của biến độc lập, biến Y phụ thuộc vào X theo phương trình Y = β0 + β1X +  ; ở
đây, biến  là sai số ngẫu nhiên có phân phối chuẩn N(0;σ 2).

2.1 .Hồi quy tuyến tính bội:


Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn. Nó được
sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của
hai hoặc nhiều biến giải thích. Biến chúng ta muốn dự đoán gọi là biến phản hồi
(hoặc biến phụ thuộc). Các biến mà chúng ta đang sử dụng để dự đoán giá trị của
biến phản hồi được gọi là các biến giải thích (hoặc biến dự báo, biến phụ thuộc).
Mô hình hồi quy tuyến tính bội có dạng tổng quát như
sau: Y = β1 + β2X2 + β3X3 + ... + βkXk + u
Trong đó:

+ βi: Hệ số hồi quy riêng

+Y: Biến phụ thuộc


4
+ Xi: Biến độc lập

+ β1:Hệ số tự do (hệ số chặn)

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị
biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X).

2.1.1.Hàm hồi quy tổng thể (PRF- Population Regression Function)

Với Y là biến phụ thuộc X2, X3,...,Xk là biến độc lập, Y là ngẫu nhiên và
có một phân phối xác suất nào đó.

Suy ra: Tồn tại E(Y | X2,X3,...,Xk) = giá trị xác định.
Do vậy, F(X2,X3,...,Xk)=E(Y | X2,X3,...,Xk) là hàm hồi quy tổng thể
của Y theo X2, X3,...,Xk.
Với một cá thể i, tồn tại (X2,i,X3,i,...,Xk,i,Yi)

Ta có: Yi ≠ F(X2,X3,...,Xk) ⇒ ui = Yi – F

Do vậy: Yi = E(Y | X2,X3,...,Xk)


+ui Hồi quy tổng thể PRF:
+ Y = E(Y| X)+ U

+ E(Y | X) =F(X)

2.1.2.Hàm hồi quy mẫu (SRF - Sample Regression Function)

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể
của biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu
mẫu để ước lượng. Trên một mẫu có n cá thể, gọi Y^ = ^F (𝑋2 , 𝑋3 , … 𝑋𝑘 ) là hồi quy
mẫu. Với một cá thể mẫu 𝑌𝑖 ≠ ^F ( 𝑋2,𝑖 , 𝑋3,𝑖 , … 𝑋𝑘,𝑖 ) sinh ra 𝑒𝑖 − 𝑌𝑖 − ^F (𝑋2 , 𝑋3 , …
𝑋𝑘 ); 𝑒𝑖 gọi là phần dư SRF. Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng
như sau:
,

y i Ký hiệu: ^
Phần dư sinh ra: 𝑒𝑖 = 𝑦𝑖 − ^ βm là ước lượng của 𝛽𝑚 . Chúng ta

trông đợi ^β m là ước lượng không chệch của 𝛽𝑚, hơn nữa phải là một ước lượng hiệu
quả. Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của
F qua việc tìm các tham số của ^F và lấy giá trị quan sát của các tham số này làm giá
trị xấp xỉ cho tham số của F.

5
2.1.3.Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình
hồi quy tuyến tính bội

Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:

a. Hàm hồi quy là tuyến tính theo các tham số.


Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối
quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + ... + βkxk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.

b. Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.


Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số
mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung
bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức
trung bình, trong tổng thể.

c. Các sai số độc lập với nhau.


d. Các sai số có phương sai bằng nhau.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai 𝜎2, sao cho:

𝑉𝑎𝑟(𝑢𝑖 ) = 𝐸(𝑖𝑢2) = 𝜎2.

e. Các sai số có phân phối chuẩn.

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định
giả thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều
này trở nên không mấy quan trọng.

2.1.4.Độ phù hợp của mô hình

Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động
của biến phụ thuộc, người ta sử dụng 𝑅2.
Ta có:

+ ∑(𝑦𝑖 − y )2 : TSS – Total Sum of Squares

+ ∑(𝑦̂𝑖 − y )2 : ESS – Explained Sum of Squares


2
+∑ 𝑖e i : RSS – Residual Sum of
Squares Ta có thể viết: TSS = ESS
+ RSS
6
Ý nghĩa của các thành phần:

+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá
trị trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ
thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này
đo độ chính xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các
giá trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.

𝑅2 được xác định theo công thức:


𝐸𝑆𝑆 𝑅𝑆𝑆
𝑅2 = =1−
𝑇𝑆𝑆 𝑇𝑆𝑆
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương
cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ
định nghĩa 𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị
trung bình được giải thích bằng mô hình. Khi đó người ta sử dụng 𝑅2 để đo sự phù
hợp của hàm hồi quy:
+ 0 ≤ 𝑅2 ≤ 1.

+ 𝑅2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến
động của biến phụ thuộc.
+ Nếu 𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.

+ Nếu 𝑅2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến
phụ thuộc y.

2.1.5.Khoảng tin cậy và kiểm định các hệ số hồi quy

a. Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không phải chỉ suy đoán về 𝛽1, 𝛽1, … . 𝛽𝑘 mà
còn phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của
𝛽1, 𝛽1, … . 𝛽𝑘. Các phân bố này phụ thuộc vào phân bố của các 𝑢𝑖.

Với các giả thiết OLS, 𝑢𝑖 có phân phối 𝑁(0, 𝜎2). Các hệ số ước lượng tuân theo
phân phối chuẩn:

7
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó
k là số hệ số có trong phương trình hồi quy đa biến:

+ Ước lượng 2 phía, ta tìm được 𝑡𝛼(𝑛 − 𝑘) thỏa mãn:


2

+ Khoảng tin cậy 1− 𝛼 của là:

b. Kiểm định giả thiết đối với 𝛽𝑗

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không:
kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không.
Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không. Có thể đưa ra giả
thiết nào đó đối với 𝛽𝑗, chẳng hạn 𝛽𝑗 = 𝛽𝑗∗. Nếu giả thiết này đúng thì:

Ta có bảng 1:

Bảng 1. Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng

Loại giả thiết Giả thiết 𝐇𝟎 Giả thiết 𝐇𝟏 Miền bác bỏ

Hai phía 𝛽1 = 𝛽∗ 𝛽𝑖 ≠ 𝛽∗ |𝑡| > 𝑡𝛼/2; 𝑛 − 𝑘


i i

Phía phải 𝛽1 ≤ 𝛽∗ 𝛽𝑖 > 𝛽∗ 𝑡 > 𝑡𝛼; 𝑛 − 𝑘


i i

Phía trái 𝛽1 ≥ 𝛽∗ 𝛽1 < 𝛽∗ 𝑡 < −𝑡𝛼; 𝑛 − 𝑘


i i

8
Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0

Kiểm định βj:

Giả thuyết H0 : 𝛽𝑗= 0 ⇔ xj không tác


động Giả thuyết H1 : 𝛽𝑗 ≠ 0 ⇔ xj có tác
động.
𝛽𝑗< 0 ⇔ xj có tác động ngược

𝛽𝑗 > 0 ⇔ xj có tác động thuận

2.1.6.Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt
của kiểm định WALD)

a. Khái quát về kiểm định WALD.

Giả sử chúng ta có 2 mô hình dưới đây:

(U) : Y = 𝛽1 + 𝛽2𝑋2 + 𝛽3𝑋3 + 𝛽4𝑋4 + 𝑢

(R) : Y = 𝛽1 + 𝛽2𝑋2 + 𝑣

Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R


được gọi là mô hình giới hạn (Restrict). Đó là do 𝛽3 và 𝛽4 buộc phải bằng 0 trong
mô hình R. Ta có thể kiểm định giả thuyết liên kết 𝛽3 = 𝛽4 = 0 với giả thuyết đối là
ít nhất một trong những hệ số này không bằng 0. Kiểm định giả thuyết liên kết này
được gọi là kiểm định Wald, thủ tục như sau.

Đặt các mô hình giới hạn và không giới hạn là:

(U) : Y = β1 + β2X2 + ... + βmXm + βm+1Xm+1+ ... + 𝛽𝑘𝑋𝑘+ u


(R) : Y = β1 + β2X2 + ... + βmXm +v. Mô hình (R) có được bằng cách bỏ bớt một
số biến ở mô hình (U), đó là: Xm+1, Xm+1,... X𝑘

Giả thiết H0: βm+1=…= βk=0

Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”.

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy
chưa biết. Do đó, mô hình R có ít hơn (k−m) thông số so với U. Câu hỏi chúng ta
nêu ra là (k−m) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay
không. Trị thống kê kiểm định đối với giả thiết này là:

9
Với 𝑅2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân
phối F với (k−m) bậc tự do đối với tử số và (n−k) bậc tự do đối với mẫu số.

Bác bỏ giả thuyết H0 khi:

𝐹𝑐 > 𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)
Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước.

b. Kiểm định ý nghĩa của mô hình.

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể
như sau:

Bước 1: Giả thuyết H0: β2 = β3 = ... = βk = 0.

Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”.

Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3,..., Xk, sau đó
tính tổng bình phương sai số 𝑅𝑆𝑆𝑈 , 𝑅𝑆𝑆𝑅 . Phân phối F là tỷ số của hai biến ngẫu
nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:

Vì H0: β2= β3 = ... = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
thuyết này sẽ là:
E𝑆𝑆/(𝑘 − 1)
𝐹𝐶 = ~𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘)
𝑅𝑆𝑆/(𝑛 − 𝑘)

Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k−1) cho tử số và (n−k)
cho mẫu số, và với mức ý nghĩa α cho trước.

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu 𝐹𝐶 > 𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘)

Đối với phương pháp giá trị p-value, tính giá trị p = P (F >𝐹𝐶 |H0) và bác bỏ giả
thuyết
H0 nếu p bé hơn mức ý nghĩa α.

10
2.2.Phân tích phương sai một yếu tố

2.2.1.Lý thuyết về ANOVA (Phân tích phương sai)

Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là so sánh
trung bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan
sát từ các nhóm này và thông qua kiểm định giả thuyết củaa kết luận và sự bằng
nhau của các trung bình tổng thể này.
ANOVA thực ra là một mở rộng của phương pháp kiểm định t cho các mẫu độc lập
khi so sánh trung bình của các nhóm gồm các quan sát độc lập. Không như phương
pháp kiểm định t, ANOVA có thể so sánh nhiều hơn hai nhóm. Lưu ý rằng
ANOVA không so sánh các phương sai, mà là phân tích các phương sai để so sai để
so sánh các kỳ vọng.
Ta có các mô hình phân tích phương sai: phân tích phương sai một yếu tố và hai
yếu tố. Cụm từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên nhân ảnh hưởng đến
yếu tố kết quả đang nghiên cứu.

2.2.2 Phân tích phương sai một yếu tố

Phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung
bình của hai hay nhiều mẫu được lấy từ các phân số. Đây có thể được xem như
phần mở rộng trắc nghiệm t hay z (so sánh hai giá trị trung bình)
a. Trường hợp k tổng thể có phân phối chuẩn và phương sai bằng nhau

Giả sả rằng chúng ta muốn so sánh trung bình của k tổng thể (với ví dụ trên thì k =
3) dựa trên những mẫu ngẫu nhiên độc lập gồm n1, n2, n3, . . . , nk quan sát từ k
tổng thể. Cần ghi nhớ ba giả định sau đây về các nhóm tổng thể được tiến hành phân
tích ANOVA.
+ Các tổng thể này có phân phối bình thường.

+ Các phương sai tổng thể bằng nhau.

+ Các quan sát được lấy mẫu là độc lập nhau.


Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = ... = µk thì khi các giả
định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được
mô tả dưới dạng kiểm định giả thuyết như sau:
H0: µ1 = µ2 = ... = µk

Giả thuyết 𝐻0 cho rằng trung bình của k tổng thể đều bằng nhau (về mặt nghiên cứu
liên hệ thì giải thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến

11
vấn đề ta đang nghiên cứu). Và giả thuyết đối là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác
nhau. Các bước thực hiện:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng
thể). Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu
ngẫu nhiên độc lập (ký hiệu 𝑥̅1𝑥̅2, … 𝑥̅𝑘) và trung bình chung của k mẫu quan sát (ký
hiệu 𝑥̅) từ trường hợp tổng quát như sau:

Bảng 2. Bảng số liệu tổng quát thực hiện phân tích phương sai.

Tổng thể
1 2 3 4
X X . X
1 2 . k
1 1 . 1
X X . X
1 2 . k
1 2 . 1
… … . …
X X . X
1 2 . K
N N . n
1 2 . K
Tính trung bình mẫu của từng nhóm 𝑥̅1𝑥̅2, … 𝑥̅𝑘 theo công thức:

Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):

Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình
phương) Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổngcác
chênh lệch bình phương giữa các nhóm SSG2.
+ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính
bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình
mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SSW
phản ánh phần biến thiên Tổng các chênh lệch bình phương trong nội bộ nhóm
(SWW) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan
sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng kết quả tất cả các
nhóm lại. SWW phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của các yếu
tố khác, chứ không phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để
12
phân biệt các tổng thể / nhóm đang so sánh).
+ Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:

Tương tự như vậy ta tính cho đến nhóm thứ k được SSk. Vậy tổng các chênh lệch
bình phương trong nội bộ các nhóm được tính như sau:
SSW = SS1 + SS2 + ... + SSk

+ Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách
cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm
với trung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số
quan sát tương ứng cả từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết
quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu.
𝑘

𝑆𝑆𝐺 = ∑ 𝑛𝑖(𝑥̅𝑖 − 𝑥̅)2


𝑖=1

+ Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng
tổngcác chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu
nghiên cứu (xij) với trung bình toàn bộ (x). SST phản ánh biến thiên của yếu tố
kết quả do ảnh hưởng của tất cả các nguyên nhân.
𝑘 𝑘
2
𝑆𝑆𝑇 = ∑ ∑(𝑥𝑖𝑗 − 𝑥̅)
𝑖=1 𝑗=1

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng
cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh
lệch bình phương giữa các nhóm.
SST = SSW + SSG

Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã
được phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra
(SSG) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra
(SSW). Nếu
phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần
biến thiên do các yếu tố khác không cét tạo ra, thì chúng ta càng có cơ sở đe bác bỏ
H0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến
yếu tố kết quả.

13
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương). Các
phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc
tự do tương ứng.
Tính phương sai trong nội bộ nhóm (MSW) bang cách lấy tổngcác chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n - k (n là số
quan sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết
quả do các yếu tố khác gây ra.

Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình
phương giữa các nhóm chia cho bậc tự do tương ứng là k - 1. MSG là ước lượng
phần biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra.

Bước 4: Kiểm định giả thuyết:

Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết đinh dựa trên tỉ số
của hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ
nhóm (MSW). Tỉ số này goi là tỉ số F vì nó tuân theo định luật Fisher – Snedecor
với bậc tự do k - 1 ở tử số và n - k ở mẫu số.

Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:

F > Fk−1;n−k;α

F > Fk−1;n−k;α là giá trị giới hạn với bậc tự do k tra theo hàng đầu tiên
và n – k tra theo cột đầu tiên, nhớ chọn bảng với mác ý nghĩa phù hợp.

Sau đây là dạng bảng kết quả tổng quát của ANOVA khi phân tích bằng
chương tình Excel hay SPSS.
b. Kiểm tra các gia định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là
phương pháp tốt nhất để kiểm tra giả định về phân phối chuẩn của dữ liệu
nhưng nó đòi hỏi một số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ
hộp và râu là một thay thế tốt trong tình huống so quan sát ít hơn. Nếu công
cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường
thì ta có thế xem giả định phân phối bình thường đã thỏa mãn.
BẢNG 3. Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS

14
Nguồn biến Tổng bình Bậc tự do Phương sai Tỉ số F
thiên phương
Giữa các SSG k−1 𝑆𝑆𝐺 𝑀𝑆𝐺
nhóm 𝑀𝑆𝐺 = 𝐹=
𝑘−1 𝑀𝑆𝑊
Trong nội bộ SSW n−k 𝑆𝑆𝑊
nhóm 𝑀𝑆𝑊 =
𝑛−𝑘
Toàn bộ SST n−1

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng
nhau là kiểm định Levene về phương sai của các tổng thể. Kiểm định này xuất phát
từ giả thuyết sau.
𝐻0: 𝜎2, 𝜎2, … 𝜎2
1 2 𝑘

H1: có ít nhất một cặp phương sai khác nhau.

Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công
thức:

Trong đó:
2 2
Smax là phương sai lớn nhất trong các nhóm nghiên cứu và Smin là phương sai nhỏ nhất
trong các nhóm nghiên cứu.

Giá trị F tính được được đem so sánh với giá trị Fk;df;α tra được từ bảng phân
phoi Hartley Fmax. Trong đó, k là so nhóm so sánh, bậc tự do df tính theo
công thức
𝑑𝑓 = 𝑛̅ − 1.
k

Trong tình huống, các nhóm số có số quan sát khác nhay thì
∑ ni (chú ý là nếu
i=1
n=
k
kết quả tính n là một số thập phân thì ta lấy phần nguyên).

Quy tắc quyết định:

Fmax > Fk;df;α thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược
lại.
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định
cho thấy các giả định không được thỏa mãn thì một phương pháp kiểm định
thay the cho ANOVA là phương pháp kiểm định phi tham so Kruskal - Wallis sẽ
được áp dụng.
15
c. Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung
bình của tổng thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra
là chấp thuận giả thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0
thì phân tích kết thúc. Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các
tổng thể không bằng nhau. Vì vậy, vấn đề tiếp theo là phân tích sâu hơn để xác
minh nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ
hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả
thuyết H0. Trong phần này chỉ đề cập đến một phương pháp thôn dụng đó là
phương pháp Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly
Significant Differences). Nội dung của phương pháp này là so sánh từng cặp các
trung bình nhóm ở mác ý nghĩa nào đó cho tất cả các cặp kiểm định có thể dễ phát
hiện ra những nhóm khác nhau. Nếu có k nhóm nghiên cứu và chúng ta so sánh tất
cả các cặp nhóm thì số lượng cặp cần phải so sánh là tổ hợp chập 2 của k nhóm.

Giá trị giới hạn Tukey được tính theo công thức:

Trong đó:

+ 𝑞𝖺;𝑘;𝑛−𝑘 là giá trị tra bảng phân phối kiểm định Tukey ở mác ý nghĩa, với bậc tự do
k và n – k, với n là tổngsố quan sát mẫu (n = Σni).

+ 𝑀𝑆𝑊 là phương sai trong nội bộ nhóm.

+ 𝑛𝑖 là số quan sát trong một nhóm (tổngthể), trong trường hợp mọi nhóm có số
quan sát ni khác nhau, sử dụng giá trị ni nhỏ nhất.

Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các
cặp trung bình mẫu lớn hơn hay bằng T giới hạn.
Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có
thể tìm khoảng ước lượng cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa
thống kê. Ước lượng khoảng về chênh lệch giữa hai trung bình nhóm có khác biệt
tính theo công thức:

Trong đó, t là giá trị được tra tà bảng phân phoi Student t với (n - k) bậc tự do.
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có
thể thực hiện phân tích này bằng chương trình SPSS. Ngoài ra kết quả của SPSS
16
còn cung cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các
phương sai tổngthể là kiểm định Levene.

17
II.HOẠT ĐỘNG 1

2.1 Đề bài

Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân
bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở
Portland trong năm 2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ
(https://www.transtats.bts.gov). Dữ liệu này được dùng để phân tích các nguyên nhân
gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
• year, month, day: ngày khởi hành của mỗi chuyến bay
• carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA
= United AirLines, AA = American Airlines, DL = Delta Airlines, v.v.
• origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị
SEA (Seattle) và PDX (Portland)
• dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
• dep_delay và arr_delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh
thực tế với thời gian cất cánh/hạ cánh in trong vé
• distance: khoảng cách giữa hai sân bay
(dặm) Yêu cầu:
1. Đọc dữ liệu (Import data): "flights.rda"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay.
5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các
yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến ba

18
2.2 Thực hiện

2.2.1Đọc dữ liệu (Impost data)

Đọc tệp tin “flights.rda”.

load("D:/flights.rda")
View(flights)

Hình 1. Kết quả khi đọc tệp tin.

2.2.2 Làm sạch sữ liệu (Data cleaning)

Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề tìa đưa ra, lưu với tên là new_DF.

new_DF<-flights[,c(1:8,11,12,14)]

Hình 2. Kết quả khi tạo ra một tệp tin mới chỉ bao gồm các biến chính.

Cài đặt gói chức năng “naniar” để sử dụng các lệnh tính toán tỷ lệ giá
trị khuyết.

install.packages("naniar")

Kiểm tra dữ liệu khuyết trong tệp tin:


19
Dùng lệnh miss_var_summary() để tính toán tổng các giá trị khuyết (n_miss) và tỷ lệ giá
trị khuyết (pct_miss) của từng biến trong newFlights.

miss = naniar::miss_var_summary(new_DF)

Hình 3. Kết quả kiểm tra dữ liệu khuyết trong tệp tin.

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với
từng biến, ta nhận thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time,
dep_delay. Vì lượng khuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan sát (dưới
100%) do đó ta lựa chọn phương pháp xóa các quan sát của biến nào có giá trị khuyết
trong tệp tin new_DF.

new_DF=na.omit(new_DF)
dim(new_DF)

Giải thích: Xóa các quan sát của bất kỳ biến nào bị thiếu trong new_DF

Hình 4. Kết quả khi xóa các quan sát chứa dữ liệu khuyết

Nhận xét: Ta thấy số lượng dòng là 160748 đã giảm so với số lượng dòng ban đầu là
162049.Ta nhận thấy số lượng quan sát sau khi xóa là 1301 quan sát, chiếm tỉ lệ 0,8%
so với dữ liệu ban đầu, có thể thấy việc xóa các quan sát của biến có giá trị khuyết
trong tệp tin new_DF không ảnh hưởng nhiều đến kết quả của dữ liệu.
20
21
2.2.2Làm rõ dữ liệu (Data visualization)

Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các
điểm tứ phân vị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất/hạ
cánh in trong vé (biến dep_delay) của từng hãng hàng không (carrier). Xuất kết quả
dưới dạng bảng.
 Tính cỡ mẫu thời gian khởi hành trễ, lưu vào length:
length = tapply(new_DF$dep_delay, new_DF$carrier,length)

 Tính độ lệch chuẩn, lưu vào sd:


sd = tapply(new_DF$dep_delay, new_DF$carrier,sd)

 Tính trung bình, lưu vào mean:

mean = tapply(new_DF$dep_delay, new_DF$carrier,mean)

 Tính giá trị nhỏ nhất, lưu vào min:


min = tapply(new_DF$dep_delay, new_DF$carrier,min)

 Tính giá trị lớn nhất, lưu vào max:

max = tapply(new_DF$dep_delay, new_DF$carrier,max)

Q1 = tapply(new_DF$dep_delay, new_DF$carrier,quantile,probs=0.25)
Q2 = tapply(new_DF$dep_delay, new_DF$carrier,quantile,probs=0.5)
Q3 = tapply(new_DF$dep_delay, new_DF$carrier,quantile,probs=0.75)
Q4 = tapply(new_DF$dep_delay, new_DF$carrier,quantile,probs=1)

 Tính lần lượt các điểm tứ phân vị, lưu vào Q1, Q2, Q3, Q4:
 Tạo bảng thống kê:

Descriptive_Statistics<-data.frame(length,mean,sd,min,max,Q1,Q2,Q3,Q4)

22
Hình 5. Kết quả khi tính các giá trị thông kê mô tả cho biến dep_delay của từng hãng
hàng không (carrier).

Vẽ biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng không
(carrier):

boxplot(new_DF$dep_delay~new_DF$carrier,xlab="Carrier",ylab="Dep_delay",main
="BOXPLOT ABOUT DEP_DELAY")

Giải thích: Dùng lệnh boxplot() để vẽ đồ thị boxplot với main là tiêu đề của đồ thị
boxplot.

Hình 6. Biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng
23
không (carrier)
Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến
dep_delay, điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau.
Do đó, ta sử dụng khoang tứ phân vị (intrequartile range) để loại bỏ các điểm outlier.

Ý tưởng cho bài toán: Ta dẽ chuyển các outliers của biến dep_delay ở từng hãng hàng
không sang NA. Từ đó đề xuất các phương pháp xử lý các NA đó. Ta
tạo function xác định outliers, chuyển các outliers thành dạng NA. Việc tạo function
mới sẽ giúp ta tối ưu code hơn.

remove_outliers <- function(x, na.rm = TRUE, ...)


{ qnt <- quantile(x, probs=c(.25, .75), na.rm = na.rm, ...)
H <- 1.5 * IQR(x, na.rm = na.rm)
y <- x
y[x < (qnt[1] - H)] <- NA
y[x > (qnt[2] + H)] <- NA
y
}

Giải thích: Tạo 1 hàm và kiểm tra điều kiện, sau đó chuyển các điểm outliers thành giá
trị NA.
Ta thực hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA:

AA = subset(new_DF,new_DF$carrier =="AA")
AA$dep_delay = remove_outliers(AA$dep_delay)
AS = subset(new_DF,new_DF$carrier =="AS")
AS$dep_delay = remove_outliers(AS$dep_delay)
B6 = subset(new_DF,new_DF$carrier =="B6")
B6$dep_delay = remove_outliers(B6$dep_delay)
DL = subset(new_DF,new_DF$carrier =="DL")
DL$dep_delay = remove_outliers(DL$dep_delay)
F9 = subset(new_DF,new_DF$carrier =="F9")
F9$dep_delay = remove_outliers(F9$dep_delay)
HA = subset(new_DF,new_DF$carrier =="HA")
HA$dep_delay = remove_outliers(HA$dep_delay)
OO = subset(new_DF,new_DF$carrier =="OO")
OO$dep_delay = remove_outliers(OO$dep_delay)
UA = subset(new_DF,new_DF$carrier =="UA")
UA$dep_delay = remove_outliers(UA$dep_delay)
US = subset(new_DF,new_DF$carrier =="US")
US$dep_delay= remove_outliers(US$dep_delay)
VX = subset(new_DF,new_DF$carrier =="VX")
VX$dep_delay= remove_outliers(VX$dep_delay)
WN = subset(new_DF,new_DF$carrier =="WN")
WN$dep_delay= remove_outliers(WN$dep_delay)

24
Giải thích: Lọc số liệu với tên từng chuyến bay và lưu lại. Dùng hàm đã tạo để chuyển
các điểm outliers của biến dep_delay với từng hãng hàng không thành NA.
Ghép các dữ liệu với nhau và lưu vào new_DF2.

new_DF2 = rbind(AA,AS,B6,DL,F9,HA,OO,UA,US,VX,WN)

Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF2 (sau khi chuyển outliers thành
NA):

new_miss = naniar::miss_var_summary(new_DF2)

Hình 7. Kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF2.

Nhận Xét: Số lượng NA = 18732 và chiếm tỉ lệ 11.65% lượng quan sát của dữ liệu.
Trong trường hợp này, ta không chọn phương pháp xoá các NA, vì lượng NA tương đối
nhiều ( >10% dữ liệu). Do đó, ta sẽ xử lý bằng phương pháp thay thế các NA bằng các
giá trị trung bình tương ứng với từng hãng hàng không.

25
AA$dep_delay[is.na(AA$dep_delay)] = mean(AA$dep_delay, na.rm = T)
AS$dep_delay[is.na(AS$dep_delay)] = mean(AS$dep_delay, na.rm = T)
B6$dep_delay[is.na(B6$dep_delay)] = mean(B6$dep_delay, na.rm = T)
DL$dep_delay[is.na(DL$dep_delay)] = mean(DL$dep_delay, na.rm = T)
F9$dep_delay[is.na(F9$dep_delay)] = mean(F9$dep_delay, na.rm = T)
HA$dep_delay[is.na(HA$dep_delay)] = mean(HA$dep_delay, na.rm = T)
OO$dep_delay[is.na(OO$dep_delay)] = mean(OO$dep_delay, na.rm = T)
UA$dep_delay[is.na(UA$dep_delay)] = mean(UA$dep_delay, na.rm = T)
US$dep_delay[is.na(US$dep_delay)] = mean(US$dep_delay, na.rm = T)
VX$dep_delay[is.na(VX$dep_delay)] = mean(VX$dep_delay, na.rm = T)
WN$dep_delay[is.na(WN$dep_delay)] = mean(WN$dep_delay, na.rm = T)

new_DF2 = rbind(AA,AS,B6,DL,F9,HA,OO,UA,US,VX,WN)

Giải thích: Ghép các dữ liệu vừa thay giá trị NA lại với nhau và lưu vào new_DF2.
Kiểm tra lại NA trong data new_DF2 sau khi xử lý NA:

apply(is.na(new_DF2),2,which)

Hình 8. Kết quả kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn
NA.
Tính lại các giá trị mô tả thống kê cho biến dep_delay theo từng hãng hàng không
(carrier).
length_new=tapply(new_DF2$dep_delay, new_DF2$carrier,length)
mean_new=tapply(new_DF2$dep_delay, new_DF2$carrier,mean)
sd_new=tapply(new_DF2$dep_delay, new_DF2$carrier,sd)
min_new=tapply(new_DF2$dep_delay, new_DF2$carrier,min)
max_new=tapply(new_DF2$dep_delay, new_DF2$carrier,max)
Q1_new=tapply(new_DF2$dep_delay, new_DF2$carrier,quantile,probs=0.25)
Q2_new=tapply(new_DF2$dep_delay, new_DF2$carrier,quantile,probs=0.5)
Q3_new=tapply(new_DF2$dep_delay, new_DF2$carrier,quantile,probs=0.75)
Q4_new=tapply(new_DF2$dep_delay, new_DF2$carrier,quantile,probs=1)
Descriptive_Statistics_New<-data.frame(length_new,mean_new,sd_new,min_new,ma- 26
x_new,Q1_new,Q2_new,Q3_new,Q4_new)
Hình 9. Kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng
hàng không (carrier).

Vẽ lại các biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng
không (carrier):
boxplot(new_DF2$dep_delay~new_DF2$carrier,xlab="Carrier",ylab="Dep_delay",m
ain="BOXPLOT ABOUT DEP_DELAY",col=3:7)

Hình 10. Biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng
không
Nhận xét:
Đối với hãng hàng không AA:
+ Min = - 18 : Thời gian khởi hành sớm nhất: 18 phút.
+ Max = 26 : Thời gian khởi hành trễ nhất: 26 phút.
27
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không AS:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 12 : Thời gian khởi hành trễ nhất: 12 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 2.5563 : 50% chuyến bay có thời gian khởi hành sớm hơn 2.5563 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không B6:
+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 31 : Thời gian khởi hành trễ nhất: 31 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không DL:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 16 : Thời gian khởi hành trễ nhất: 16 phút.
+ Q1 = - 4 : 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không F9:
+ Min = - 20 : Thời gian khởi hành sớm nhấtt: 20 phút.
+ Max = 36 : Thời gian khởi hành trễ nhất: 36 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 4 : 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống.
Đối với hãng hàng không HA:
+ Min = - 16 : Thời gian khởi hành sớm nhất: 16 phút.
+ Max = 8 : Thời gian khởi hành trễ nhất: 8 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.5056 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.5056 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không OO:
+ Min = - 17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 10 : Thời gian khởi hành trễ nhất: 10 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.1136 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.1136 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
28
Đối với hãng hàng không UA:
+ Min = - 19 : Thời gian khởi hành sớm nhất: 19 phút.
+ Max = 27 : Thời gian khởi hành trễ nhất: 27 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 1 : 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
+ Q3 = 2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống.
Đối với hãng hàng không US:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 11 : Thời gian khởi hành trễ nhất: 11 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.

+ Q2 = - 3.0085 : 50% chuyến bay có thời gian khởi hành sớm hơn 3.0085 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không VX:
+ Min = -17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 15 : Thời gian khởi hành trễ nhất: 15 phút.
+ Q1 = -5 : 2% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = -2.6272 : 5% chuyến bay có thời gian khởi hành sớm hơn 2.6272 phút.
+ Q3 = -1 : 7% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
Đối với hãng hàng không WN:
+ Min = - 11 : Thời gian khởi hành sớm nhất: 11 phút.
+ Max = 45 : Thời gian khởi hành trễ nhất: 45 phút.
+ Q1 = - 2 : 2% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q2 = 3 : 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống.
+ Q3 = 11 : 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống.

Nhìn chung, có sự khác biệt về phân phối của thời gian lệch giờ bay ở các hãng hàng
không. Cụ thể, ta dự đoán được hãng WN có thời gian khởi hành trễ nhất (so với thời
gian bay dự kiến)

2.2.4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay

Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung
bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm
2014 hay không?

Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:

PDX=subset(new_DF2,new_DF2$origin=="PDX")
head(PDX,3)
29
Hình 11. Kết quả lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm
2014.

Giải thích lý do sử dụng ANOVA một nhân tố:

Ta có 11 hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014. Để
thực hiện so sánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân
tích phương sai. Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy,
nếu dùng t-test cho bài toán này, ta phải thực hiện kiểm định rất nhiều lần. Phương pháp
phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa các nhóm so
sánh thông qua một phép kiểm định duy nhất.

Như vậy ta sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc
lệch giờ bay (dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ
Portland trong năm 2014.

Trong đó:
Biến phụ thuộc: dep_delay

Các nhân tố (hay biến độc lập): carrier


Đặt giả thuyết:
+ Giả thuyết H_0: μ_1= μ_2= … = μ_1 1 ↔ Việc lệch giờ bay trung bình giữa các
hãng hàng không đối với các chuyến bay khởi hành từ Portland năm 2014 bằng nhau.

+ Đối thuyết H_1: ∃μ_i ≠ μ_j với (i ≠j) Có ít nhất 2 hãng hàng không đối với các
chuyến bay khởi hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác
nhau.
Bảng 4: Bảng ANOVA một nhân tố.

Nguồn của sự biến


SS df MS F
thiên

Giữa các nhóm SSB k-1 MSB 𝑀𝑆𝐵


𝐹=
Trong từng nhóm SSW N-k MSW 𝑀𝑆𝑊

Tổng SST N-1

30
Các giả định cần kiểm tra trong ANOVA một nhân tố:

+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các
chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn.

+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng
không đối với các chuyến bay khởi hành từ Portland bằng nhau.

Kiểm tra giả định phân phối chuẩn:

Giả thuyết H_0: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi
hành từ Portland tuân theo phân phối chuẩn.

Đối thuyết H_1: Việc lệch giờ bay ở các hãng hàng không đoói với các chuyến bay khởi
hành từ Portland không tuân theo phân phối chuẩn.

Cài đặt gói chức năng “nortest” để sử dụng các câu lệnh tính giá trị của thống kê

AA = subset(PDX,PDX$carrier =="AA")
install.packages("nortest")
qqnorm(AA$dep_delay,pch=1)
library(nortest)
qqline(AA$dep_delay, col = "green",lwd=2)
ad.test(AA$dep_delay)

Anderson-Darling:

Giải thích: Lọc số liệu theo biến carrier là AA trong PDX và lưu vào AA, vẽ đồ thị phân
phối chuẩn. Dùng lệnh ad.test() để kiểm tra phân phối chuẩn.

31
Hình 12. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AA.

Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
dường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
AA không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không AA không tuân theo phân phối chuẩn.

Thực hiện cấu trúc lệnh tương tự đối với các hãng hàng không khác:

 Hãng hàng không AS:

AS = subset(PDX,PDX$carrier =="AS")
qqnorm(AS$dep_delay, pch = 1)
qqline(AS$dep_delay, col = "green", lwd = 2)
ad.test(AS$dep_delay)

32
Hình 13. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không AS.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AS không
tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không AS không tuân theo phân phối chuẩn.

 Hãng hàng không B6:

B6 = subset(PDX,PDX$carrier =="B6")
qqnorm(B6$dep_delay, pch = 1)
qqline(B6$dep_delay, col = "green", lwd = 2)
ad.test(B6$dep_delay)

33
Hình 14. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không B6.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không B6 không
tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không B6 không tuân theo phân phối chuẩn.
 Hãng hàng không DL:

DL = subset(PDX,PDX$carrier =="DL")
qqnorm(DL$dep_delay, pch = 1)
qqline(DL$dep_delay, col = "green", lwd = 2)
ad.test(DL$dep_delay)

34
Hình 15. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không DL.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không DL không
tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không DL không tuân theo phân phối chuẩn.

 Hãng hàng không F9:

F9 = subset(PDX,PDX$carrier =="F9")
qqnorm(F9$dep_delay, pch = 1)
qqline(F9$dep_delay, col = "green", lwd = 2)
ad.test(F9$dep_delay)

35
Hình 16. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không F9.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không F9 không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không F9 không tuân theo phân phối chuẩn.

 Hãng hàng không HA:

HA = subset(PDX,PDX$carrier =="HA")
qqnorm(HA$dep_delay, pch = 1)
qqline(HA$dep_delay, col = "green", lwd = 2)
ad.test(HA$dep_delay)


36
Hình 17. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không HA.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không HA không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không HA không tuân theo phân phối chuẩn.

 Hãng hàng không OO:

OO = subset(PDX,PDX$carrier =="OO")
qqnorm(OO$dep_delay, pch = 1)
qqline(OO$dep_delay, col = "green", lwd = 2)
ad.test(OO$dep_delay)

37
Hình 18. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không OO.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không OO không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không OO không tuân theo phân phối chuẩn.

 Hãng hàng không UA:

UA = subset(PDX,PDX$carrier =="UA")
qqnorm(UA$dep_delay, pch = 1)
qqline(UA$dep_delay, col = "green", lwd = 2)
ad.test(UA$dep_delay)

38
Hình 19. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không UA.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không UA không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không UA không tuân theo phân phối chuẩn.

 Hãng hàng không US:

US = subset(PDX,PDX$carrier =="US")
qqnorm(US$dep_delay,pch=1)
qqline(US$dep_delay, col = "green",lwd=2)
ad.test(US$dep_delay)

39
Hình 20. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không US.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không US không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không US không tuân theo phân phối chuẩn.

 Hãng hàng không VX:

VX = subset(PDX,PDX$carrier =="VX")
qqnorm(VX$dep_delay, pch = 1)
qqline(VX$dep_delay, col = "green", lwd = 2)
ad.test(VX$dep_delay)

40
Hình 21. Kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng
hàng không VX.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không VX không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không VX không tuân theo phân phối chuẩn.

 Hãng hàng không WN:

WN = subset(PDX,PDX$carrier =="WN")
qqnorm(WN$dep_delay, pch = 1)
qqline(WN$dep_delay, col = "green", lwd = 2)
ad.test(WN$dep_delay)

41
42
Hình 22. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay
ở hãng hàng không WN.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không WN không
tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không WN không tuân theo phân phối chuẩn.

Kiểm định giả định về tính đồng nhất của các phương sai:

Giả thuyết 𝐻0: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các chuyến
bay khởi hành từ Portland bằng nhau.

Đối thuyết 𝐻1: Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi hành từ
Portland có phương sai việc lệch giờ bay khác nhau.

install.packages("car")
library(car)
leveneTest(dep_delay~as.factor(carrier), data=PDX)

43
44
Giải thích: Sử dụng kiểm định Levene để kiểm tra tính đồng nhất của phương sai

Hình 23. Kết quả khi kiểm định về tính đồng nhất của phương sai.

Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý
nghĩa α=0.05, nên ta bác bỏ giả thuyết 𝐻0, vậy ta có thể đưa ra kết luận là có ít nhất 2
hãng hàng không đối với các chuyến bay khởi hành từ Portland có phương sai việc
lệch giờ bay khác nhau.

Thực hiện phân tích phương sai một nhân tố:

anova=aov(dep_delay~carrier, data=PDX)
summary(anova)

Hình 24. Kết quả khi thưc hiện ANOVA một nhân tố.

Nhận xét: Dựa trên kết quả ANOVA cho thấy:

+ SSB=748990, bậc tự do k-1=10(k=11)

+ SSW=2594172, bậc tự do N-k=52808-11=52797 (N là tổng số phần tử khảo sát ở tất


cả các nhóm)

+ MSB=SSB/(k-1)=74899

+ MSW=SSW/(N-k)=49

+ Giá trị thống kê kiểm định: f=MSB/MSW=1524

+ Mức ý nghĩa quan sát: p-value<2e-16

Dựa vào p-value<2e-16 rất bé so với mức ý nghĩa α=0.05 nên ta bác bỏ được giả
thuyết H_0.
Ngoài ra, ta có thể dựa vào f=1524> ngưỡng f_(α:k-1:N-k)=f_(0.05:10:52797)=1.8309
45
nên ta cũng đưa ra kết luận là bác bỏ được giả thuyết H_0.

Vậy có sự khác biệt về việc lêhcj giờ bay trung bình giữa các hãng hàng không đối với
các chuyến bay khởi hành từ Portland trong năm 2014.

Thực hiện so sánh bội:

Hình 25. Code R và kết quả thực hiện so sánh bội.

46
Nhận xét:

Đối với hãng AS-AA:

Giả thuyết 𝐻0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA bằng nhau.

Đối thuyết 𝐻1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãnh hàng không AS và AA khác nhau.

Dựa vào pevalue, ta thấy pvalue = 0.0000 < mức ý nghĩa 5% nên ta bác bỏ H_0, chấp
nhận 𝐻1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA khác nhau. Mặt khác, diff = -3.0350 < 0 nên ta
có thể kết luận thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS thấp hơn AA.

Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-3.5614:-2.5086) không
chứa giá trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA khác nhau, và khoảng tin cậy nhận giá trị âm
nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng
hàng không AS thấp hơn AA.

Đối với hãng B6-AA:

Giả thuyết 𝐻0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không B6 và AA bằng nhau.

Đối thuyết 𝐻1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãnh hàng không B6 và AA khác nhau.

Dựa vào pevalue, ta thấy pvalue = 0.9960 > mức ý nghĩa 5% nên ta bác bỏ H_0, chấp
nhận H_1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không B6 và AA bằng nhau.

Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-1.0454:-0.5512) chứa giá
trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở
hãng hàng không B6 và AA bằng nhau.

Tương tự, ta sẽ thực hiện so sách đối với từng vặp hãng hàng không. Ta sẽ đưa ra kết
luận rằng hãng WN có thời gian khởi hành trễ nhất.

Ta cũng có thể đưa ra kết luận dựa vào đồ thị sánh bội:

47
Hình 26. Kết quả vẽ đồ thị so sánh bội

Nhận xét:
Nếu khoảng tin cậy cắt đường x=0, tức nghĩa là thời gian lệch giờ bay trung bình của
các chuyến bay khởi hành từ Portland ở 2 hãng hàng không bằng nhau, và ngược lại.
Ngoài ra, nếu khoảng tin cậy nằm về bên phải trục x=0, cho thấy thời gian lệch giờ
bay trung bình của các chuyến bay khởi hành từ Portland ở 2 hãng hàng không thứ
nhất cao hơn hãng hàng không thứ 2, và ngược lại. Dựa trên đồ thị so sánh bội, ta cũng
đưa ra kết luận rằng hãng WN có thời gian khởi hành trễ nhất.

2.2.5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy
phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến
(arr_delay) của các chuyến bay.
Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ bay (arr_delay) của các chuyến
bay, ta xe biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng
không (carrier), biến chỉ sân bay đi (origin), biến chênh lệch thời gian khởi hành
(dep_delay) và biến khoảng cách giữa hai sân bay (distance). Đây là những yếu tố dự
báo có thể giúp giải thích sự biến đổi về việc lệch giờ đến của các chuyến bay.

Thực hiện vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và
distance.
Tạo ma trận hiển thị các đồ thị 1×2:
48
par(mfrow=c(1,2))

Vẽ đồ thị sự phân tán của arr_delay theo biến dep_delay và distance:

plot(new_DF$dep_delay,new_DF$arr_delay,xlab="dep_delay",ylab="arr_delay",main
="Dep_delay and Arr_delay",col="blue")
plot(new_DF$distance,new_DF$arr_delay,xlab="distance",ylab="arr_delay",main="D
istance and Arr_delay",col="orange")

Hình 27: Đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và
distance.

Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy biến arr_delay có mối quan hệ
tuyến tính với biến dep_delay, tuy nhiên lại không có quan hệ tuyến tính với distance
Ta xây dựng mô hình hồi quy bao gồm:
Biến phụ thuộc: arr_delay

49
Biến độc lập: carrier, origin, dep_delay, distance. Mô hình được biểu diễn như sau:
𝑎𝑟𝑟 𝑑𝑒𝑙𝑎𝑦 = 𝛽0 + 𝛽1 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 𝛽2 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 + 𝛽3 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿
+ 𝛽4 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9+. . . +𝛽10 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 𝛽11 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴
+ 𝛽12 × 𝑑𝑒𝑝 𝑑𝑒𝑙𝑎𝑦 + 𝛽13 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 + 𝜀
Ta thực hiện ước lượng các hệ số 𝛽𝑖 , 𝑖 = 0, … ,13 dựa trên tệp tin new_DF2:

lm_model_1<-lm(arr_delay~carrier+origin+dep_delay+distance,new_DF)
summary(lm_model_1)

Giải thích: Xây dựng mô hình hồi quy tuyến tính lm_model_1

Hình 28. Kết quả khi xây dưng mô hình hồi quy tuyến tính Im_model_1.

Nhận xét: Từ kết quả phân tích, ta thu được:

Như vây, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
50
arr delay = −2.750 − 01 + 6.322𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 7.521𝑒
^
− 02 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 − 8.403𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿 + 2.068𝑒
+ 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9 + ⋯ − 2.890𝑒 + 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 3.192𝑒
− 01 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴 + 9.965𝑒 − 01 × 𝑑𝑒𝑝𝑑𝑒𝑙𝑎𝑦 − 2.684𝑒
− 03 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒

Kiểm định các hệ số hồi quy:

Giả thuyết 𝐻0: Hệ số hồi quy không có ý nghĩa thống kê (𝛽𝑖 = 0)

Đối thuyết 𝐻1: Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0)


+ Pr (> |𝑡|) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý
nghĩa 𝛼 = 0.05 nên ta chưa đủu cơ sở để bác bỏ giả thuyết 𝐻0. Do đó hệ số ứng với các
biến này không có ý nghĩa với mô hình hồi quy ta xây dựng. Ta có thể cân nhắc việc
loại bỏ biến carrier ra khỏi mô hình.

Ta xây dựng mô hình 2 là mô hình loại bỏ biến carrier ra khỏi mô hình 1.

lm_model_2<-lm(arr_delay~origin+dep_delay+distance,new_DF)
summary(lm_model_2)

Hình 29. Kết quả khi xây dựng mô hình hồi quy tuyến tính Im_model_2.

Ta so sánh các mô hình 1 và mô hình 2:

Giả thuyết 𝐻0: 𝛽1 = 𝛽2 =. . . = 𝛽10 = 0: Hai mô hình hiệu quả giống nhau (nghĩa là mô
hình 2 hiệu quả hơn mô hình 1)

Đối thuyết 𝐻1: ∃𝛽1 ≠ 0, 𝑖 = 1, … ,10: Hai mô hình hiệu quả khác nhau (nghĩa là mô
hình 1 hiệu quả hơn mô hình 2)
51
anova(lm_model_1,lm_model_2)
Hình 30. Kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2.

Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 2,2𝑒 − 16 rất bé so
với mức ý nghĩa 𝛼 = 0.05 nên ta bác bỏ gải thuyết 𝐻0, ta có thể kết luận 2 mô hình
hiệu quả khác nhau, tức có nghĩa là mô hình 1 hiệu quả hơn mô hình 2 (vì có ít nhất 1
hệ số
𝛽𝑖 có ý nghĩa thống kê nên mô hình đầy đủ là mô hình 1 sẽ hiệu quả hơn).
Ngoài ra, ta có thể dựa vào hệ số xác định hiệu chỉnh ở mô hình 1 (𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑𝑅 −
𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 0.8577) cao hơn so với mô hình 2 (𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 0.8548),
chứng tỏ sự biến thiên của biến arr_delay được giải thích nhiều hơn bởi các biến độc
lập. Như vậy mô hình 1 là mô hình hiệu quả hơn mô hình 2.

Phân tích sự tác động của các nhân tố lên việc lệch giờ đến:

Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ
đến được cho bởi:
arr delay = −2.750𝑒 − 01 + 6.322𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 7.521𝑒 − 02 ×
^
𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 − 8.403𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿 + 2.068𝑒 + 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9 + ⋯ −
2.890𝑒 + 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 3.192𝑒 − 01 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴 + 9.965𝑒 − 01 ×
𝑑𝑒𝑝𝑑𝑒𝑙𝑎𝑦 − 2.684𝑒 − 03 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒

Trước hết, ta thấy tằng p-value tương ứng với thống kê F bé hơn 2.2e-16, có ý nghĩa
rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải
thích rất cao đến việc lệch giờ bay đến arr_delay.

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trong hệ số (hệ số 𝛽𝑖) và p-value
tương ứng. Ta thấy rằng p-value tương ứng với các biến carrierHA, carrierVX,
carrierWN, dep_delay, distance bé hơn 2e-16, điều này nói lên rằng ảnh hưởng của các
biến này có ý nghĩa rất cao lên việc lệch giờ đến ar_delay.

Mặt khác, hệ số hồi quy 𝛽𝑖 của một biến dự báo cũng có thể được xem như ảnh hưởng
trung bình lên biến phụ thuộc arr_delay khi tăng một đơn vị của biến dự báo đó, giả sử
rằng các biến dự báo khác không đổi, Cụ thể, ^β12 9.965𝑒 − 01 thì khi chênh lệch
giữa giờ bay tăng 1 phút ta có thể kỳ vọng chênh lệch giữa giờ đến sẽ tăng lên 9.965e-
13 52
01 phút (giả sử rằng các biến dự báo khác không đổi). Với , , ^β = −2.684𝑒 − 03 thì
khi khoảng cách giữa 2 sân bay tăng 1 dặm, ta có thể kỳ vọng chênh lệch giờ đến sẽ
giảm -2.684e-03 phút (giả sử rằng các biến dự báo khác không đổi).

Hệ số 𝑅2 hiệu chỉnh bằng 0.8577 nghĩa là 86.77% sự biến thiên trong việc lệch giờ đến
được giải thích bời các biến độc lập.

Kiểm tra các giả định của mô hình

Nhắc lại các giả định của mô hình hồi quy: 𝑌𝑖 = 𝛽0 + 𝛽1. 𝑋1 + ⋯ 𝛽𝑖 . 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, … 𝑛.

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính.

+ Sai số có kỳ vọng bằng 0

+ Phương sai của các sai số là hằng số.


+ Sai số có phân phối chuẩn.

+ Các sai số ϵ_1,…,ϵ_n thì độc lập nhau.

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

par(mfrow=c(2,2))
plot(lm_model_1)

53
Hình 31. Kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình.

Nhận xét:
+ Đồ thị thứ 1 vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến
tính của dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai cảu sai số là
hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng nằm ngang nên giả định tính
tuyến tính của dữ liệu thoả mãn. Đường màu đỏ nằm sát đường y=0 nên giả định sai số
có kỳ vọng bằng 0 thảo mãn. Các sai số không phân tán ngẫu nhiên dọc theo đường
mài đẻ mà phân tán thành cụm ở góc trái đồ thị nên giả định phương sai các số là hằng
số không thoả mãn.

+ Đồ thị thứ 2 vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối
chuẩn.

Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi dường thẳng kì vọng phân
phối chuẩn nên giả định sai số có phân phối chuẩn chưa thoả mãn.

+ Đồ thị thứ 3 vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả định
phương sai các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ nằm ngang nhưng các quan trắc không phân tán
ngẫu nhiên dọc theo đường màu đỏ mà phân tán thành cụm ở góc trái đồ thị nên giả
định phương sai của các hằng số là không thoả mãn.
+ Đồ thị thứ 4 chỉ ra có các quan tắc thú 52723, 55299 và 120906 có thể là các điểm
có ảnh hưởng cao trong bộ dữ liệu. Tuy nhiên ta không thấy đường Cook ở góc đồ thị
bên phải và các điểm này cũng không vượt ra khỏi đường Cook nên các điểm này
không thực sự là điểm có ảnh hưởng cao, do đó ta không cần loại bỏ các điểm này khi
phân tích.

54
III.HOẠT ĐỘNG 2

3.1. Đề bài:
Tệp tin ‘Building_Data.csv’ chứa thông tin về các thông số toà nhà và giá chi phí xây
dưng từ lúc khởi công đến lúc hoàn thành.
Dữ liệu được lấy tại
trang: https://archive.ics.uci.edu/ml/datasets/Residential+Building+Data+Set
Các biến chính trong bộ dữ liệu:
 V.1. Vị trí khu vực được đánh số theo mã zip.

 V.2: Tổng diện tích sàn của các toà nhà (𝑚2)
 V.3: Diện tích lô đất (𝑚2)
 V.4: Tổng chi phí xây dựng ước tính sơ bộ dựa trên giá lúc bắt đầu dự
án (10000000 IRR, đơn vị tiền tệ của Irianian)
 V.6: Chi phí xây dựng ước tính sơ bộ tương đương dựa trên giá khi bắt đầu
dự án trong năm cơ sở đã chọn (10000000 IRR, đơn vị tiền tệ của Irianian)
 V.7: Thời gian xây dựng
 V.8: Giá bán khởi điểm của dự án theo 𝑚2 (10000000 IRR, đơn vị tiền tệ của
Irianian)
 V.9: Giá bán thực tế (10000000 IRR, đơn vị tiền tệ của
Irianian) Yêu cầu:
1. Đọc dữ liệu (Import data): Building_Data.csv
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
a. Chuyển đổi biến (nếu cần thiết).
b. Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến tính phù
hợp để đánh giá các nhân tố tác động đến chi phí bán chung cư thực tế.

55
3.2. Thực hiện:

3.2.1.Đọc dữ liệu:
Thực hiện đọc dữ liệu vào R

Building_Data <- read.csv("D:/TeraBoxDownload/Residential-Building-Data-Set.csv")

Hình 32. Kết quả khi đọc tệp tin.


3.2.2. Làm sạch dữ liệu:
Trích ra tệp con, bao gồm các biến chính.

new_DF<- Residential_Building_Data_Set[,c(5:12,108)]
head(new_DF,3)

Hình 33. Tệp tin mới chỉ bao gồm các biến chính.

Kiểm tra dữ liệu khuyết trong tệp tin.

apply(is.na(new_DF),2,which)

Hình 34. Kết quả kiểm tra dữ liệu khuyết trong tệp tin.

56
Nhận xét: Tệp tin không có dữ liệu khuyết.

3.2.3. Làm rõ dữ liệu:


Chuyển các biến định lượng sang dạng log().

new_DF[,c(2:4,6:9)]<-log(new_DF[,c(2:4,6:9)]
head(new_DF)

Hìn
h 35. Kết quả chuyển các biến định lượng sang dạng log().

Tính các giá trị thống kê mô tả cho các biến (đã được chuyển sang dạng log):

summary(new_DF[,c(2:4,6:9)])

Hình 36. Kết quả khi tính các giá trị thông kê mô tả.

Thực hiện vẽ biểu đồ histogram cho biến V.9:

hist(new_DF$V.9,xlab = "log(V.9)",main = "Histogram of log(V.9)",ylim = c(0,100),


labels = T,col = "orange")

Hình 37. Kết quả khi vẽ biểu đồ histogram.


Nhận xét: Đồ thị cho biến log(V.9) có dạng phân phối chuẩn.
Vẽ biểu đồ boxplot của V.9 theo các biến V.1

boxplot(V.9~V.1,main="Boxplot of V.9 for V.1",data = new_DF,col="green")


57
Hình 38. Kết quả khi vẽ biểu đồ boxplot.
Nhận xét: Có sự khác biệt trong phân phối của log(V.9) theo từng vị trí khu vực
V.1. Vẽ biểu đồ plot thể hiện sự phân tán của V.9 theo các biến V.2, V.3, V.4, V.5,
V.6, V.7, V.8:

plot(new_DF$V.2,new_DF$V.9,xlab = "V.2",ylab = "V.9",main = "V.2 and


V.9",col="blue", lwd=2)

Hình 39. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.2

plot(new_DF$V.3,new_DF$V.9,xlab = "V.3",ylab = "V.9",main = "V.3 and V.9"


,col="red" , lwd=2)
58
Hình 40. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.3

plot(new_DF$V.4,new_DF$V.9,xlab = "V.4",ylab = "V.9",main = "V.4 and V.9",col


="orange",lwd=2)

59
Hình 41. Code R và kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.4

plot(new_DF$V.5,new_DF$V.9,xlab = "V.5",ylab = "V.9",main = "V.5 and V.9",col=


"navy",lwd=2)

Hình 42. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.5

plot(new_DF$V.6,new_DF$V.9,xlab = "V.6",ylab = "V.9",main = "V.6 and V.9",col=


"violet",lwd=2)

Hình 43. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.6

plot(new_DF$V.7,new_DF$V.9,xlab = "V.7",ylab = "V.9",main = "V.7 and V.9",col=


"brown",lwd=2) 60
Hình 44. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.7

plot(new_DF$V.8,new_DF$V.9,xlab = "V.8",ylab = "V.9",main = "V.8 and V.9",col=


"green",lwd=2)

Hình 45. Kết quả khi vẽ biểu đồ phân tán của V.9 theo biến V.8

Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy các V.9 có mối quan hệ tuyến
tính với các biến V.4 và V.8 (cụ thể là quan hệ đồng biến), còn với các biến còn lại, ta
chưa nhận thấy rõ mối quan hệ tuyến tính. Như vậy mối quan hệ giữa V.9 và các biến
V.4, V.8 là ngẫu nhiên hay thực sự có mối quan hệ tuyến tính, và có phải liệu rằng V.9
thực sự không có mối quan hệ với các biến còn lại. Để trả lời được câu hỏi này, ta cần
xây dựng mô hình hồi quy và thực hiện các kiểm định.
61
3.2.4.Xây dựng mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy
tuyến tính phù hợp để đánh giá các nhân tố tác động đến chi phí bán
chung cư thực tế.
Xây dựng mô hình 1 bao gồm:
 Biến phụ thuộc: V.9
 Biến độc lập: các biến còn lại.
Ta chuyển biến phân loại V.1 sang dạng factor:

new_DF$V.1<-as.factor(new_DF$V.1)

Xây dựng mô hình hồi quy model_1:

model_1<-lm(V.9~V.1+V.2+V.3+V.4+V.6+V.7+V.8,data = new_DF)
summary(model_1)

Hình 46. Kết quả khi xây dựng mô hình hồi quy model_1
Nhận xét:
62
Kiểm định các hệ số hồi quy:
Giả thuyết H0: các hệ số hồi quy không có ý nghĩa thống
kê. Giả thuyết H1: các hệ số hồi quy có ý nghĩa thống kê.
Vì p-value ứng với các biến từ V.12 - V.120, V.6 đều lớn hơn mức ý nghĩa 5% nên ta
chấp nhận H0. Tức hệ số hồi quy ứng với các biến này không có ý nghĩa thống kê.
Do đó ta loại các biến này ra khỏi mô hình.
Xây dựng mô hình hồi quy model_2 là mô hình loại bỏ biến V.1 từ model_1:

model_2<-lm(V.9~V.2+V.3+V.4+V.6+V.7+V.8,data = new_DF)
summary(model_2)

Hình 47. Kết quả khi xây dựng mô hình hồi quy model_2

So sánh hai mô hình :

anova(model_1,model_2

Hình 48. Kết quả khi so sánh hai mô hình

Giả thuyết H0: Hai mô hình hiệu quả giống nhau


63
Giả thuyết H1: Hai mô hình hiệu quả khác nhau
Vì pvalue = 0.994 > mức ý nghĩa 5%, nên ta chấp nhận H0. Vậy hai mô hình hiệu quả
giống nhau. Mặt khác biến bỏ đi từ mô hình 1 đều không có ý nghĩa, nên ta chọn mô
hình 2 là mô hình hiệu quả hơn.
Vẽ đồ thị phân tích thặng dư và giá trị dự báo:

plot(model_2,which=1,col="navy")

Hình 49. Kết quả khi vẽ đồ thị thặng dư

Nhận xét: Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị dự báo với các giá trị
thặng dư (sai số) tương ứng, dùng để kiểm tra giả định các sai số có kỳ vọng bằng 0
và tính đồng nhất của các phương sai sai số.
Dựa trên đồ thị ta thấy đường màu đỏ nằm sát đường y = 0 nên giả định các sai số có
kỳ vọng bằng 0 thoã mãn. Các sai số chưa phân tán ngẫu nhiên dọc theo đường màu
đỏ, nên giả định phương sai các sai số là hằng số không thoả mãn.

64
IV.TÀI LIỆU THAM KHẢO
1. Tan-Duc Nguyen, Học xác suất thống kê qua phần mềm R, [
https://bookdown.org/tanduc307/xstk/ ]
2.

65

You might also like