You are on page 1of 65

MỤC LỤC

Tiêu đề Trang

MỤC LỤC..................................................................................................................... 2

DANH MỤC BẢNG.....................................................................................................4

I. CƠ SỞ LÝ THUYẾT.................................................................................................5

1.1. Hồi quy tuyến tính bội.........................................................................................5

1.1.1. Hàm hồi quy tổng thể (PRF- Population Regression Function).....................5

1.1.2. Hàm hồi quy mẫu (SRF - Sample Regression Function)...............................5

1.1.3. Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội..........................................................................................................6

1.1.4. Độ phù hợp của mô hình...............................................................................6

1.1.5. Khoảng tin cậy và kiểm định các hệ số hồi quy............................................7

1.1.6. Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của
kiểm định WALD)..................................................................................................9

1.2 Phân tích phương sai một yếu tố.........................................................................11

1.2.1 Lý thuyết về ANOVA (Phân tích phương sai).............................................11

1.2.2 Phân tích phương sai một yếu tố..................................................................11

II. HOẠT ĐỘNG 1......................................................................................................18

2.1 Đề bài.................................................................................................................18

2.2 Thực hiện............................................................................................................19

2.2.1 Đọc dữ liệu (Impost data).............................................................................19

2.2.2 Làm sạch sữ liệu (Data cleaning).................................................................19

2.2.3 Làm rõ dữ liệu (Data visualization)..............................................................21

2.2.4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay..............................................................................28
2.2.5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để
phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến
bay. 44

III. HOẠT ĐỘNG 2.....................................................................................................53

3.1. Đề bài:...............................................................................................................53

3.2. Thực hiện:.......................................................................................................... 54

3.2.1. Đọc dữ liệu:.................................................................................................54

3.2.2. Làm sạch dữ liệu.........................................................................................55

3.2.3. Làm rõ dữ liệu:............................................................................................55

3.2.4. Xây dựng mô hình hồi quy tuyến tính: Sử dụng một mô hình hổi quy tuyến
tính phù hợp để đánh giá các nhân tố tác động đến chi phí bán chung cư thực tế.
60
DANH MỤC BẢNG

Bảng 1. Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng..........................................9
Bảng 2. Bảng số liệu tổng quát thực hiện phân tích phương sai...................................12
Bảng 3. Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS....15
I. CƠ SỞ LÝ THUYẾT

1.1. Hồi quy tuyến tính bội

Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn. Nó
được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên
giá trị của hai hoặc nhiều biến giải thích. Biến chúng ta muốn dự đoán gọi là biến
phản hồi (hoặc biến phụ thuộc). Các biến mà chúng ta đang sử dụng để dự đoán
giá trị của biến phản hồi được gọi là các biế giải thích (hoặc biến dự báo, biến phụ
thuộc).

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y = β1 + β2X2 + β3X3 + ... + βkXk + u


Trong đó:
+ βi: Hệ số hồi quy riêng
+Y: Biến phụ thuộc
+ Xi: Biến độc lập
+ β1:Hệ số tự do (hệ số chặn)
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến
phụ thuộc (Y) dựa trên giá trị của biến độc lập (X).

1.1.1. Hàm hồi quy tổng thể (PRF- Population Regression Function)

Với Y là biến phụ thuộc X2, X3,...,Xk là biến độc lập, Y là ngẫu nhiên và có
một phân phối xác suất nào đó.
Suy ra: Tồn tại E(Y | X2,X3,...,Xk) = giá trị xác định.
Do vậy, F(X2,X3,...,Xk)=E(Y | X2,X3,...,Xk) là hàm hồi quy tổng thể của Y
theo X2, X3,...,Xk.
Với một cá thể i, tồn tại (X2,i,X3,i,...,Xk,i,Yi)
Ta có: Yi ≠ F(X2,X3,...,Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y | X2,X3,...,Xk)+ui
Hồi quy tổng thể PRF:
+ Y = E(Y| X)+ U
+ E(Y | X) =F(X)
1.1.2. Hàm hồi quy mẫu (SRF - Sample Regression Function)
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến
phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước
lượng. Trên một mẫu có n cá thể, gọi Y^ = F ^ ( X , X … X ) là hồi quy mẫu. Với một cá thể
2 3 k
mẫu
Yi≠F^ (X 2 , i , X 3 , i … X k ,i ) sinh ra e i−Y i− F
^ ( X 2 , X 3 … X k ); e igọi là phần dư SRF. Ta có
hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

^y i= β^ 1 + ^β 2 x 2 ,i + ^β 3 x 3 ,i + … β^ k x k ,i
Phần dư sinh ra: Ký hiệu à ước lượng. Chúng ta trông đợi là ^β m ước lượng không chệch
của 𝛽𝑚, hơn nữa phải là một ước lượng hiệu quả. Ước lượng SRF: chọn một phương
pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F và lấy giá
trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F.

1.1.3. Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy
tuyến tính bội

Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:

a. Hàm hồi quy là tuyến tính theo các tham số.


Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan
hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + ... + βkxk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
b. Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang
dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên
có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình,
trong tổng thể.

c. Các sai số độc lập với nhau.


d. Các sai số có phương sai bằng nhau.
Tất cả giá trị u được phân phối giống nhau với cùng phương sai 𝜎2, sao cho:

𝑉𝑎𝑟(𝑢𝑖 ) = 𝐸(𝑢2) = 𝜎𝑖 2.

e. Các sai số có phân phối chuẩn.

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này
trở nên không mấy quan trọng.

1.1.4. Độ phù hợp của mô hình


Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của
biến phụ thuộc, người ta sử dụng 𝑅 2.
Ta có:
2
+∑ ( y i− y ) : TSS −¿ Total Sum of Squares
++∑ ¿ ESS – Explained Sum of Squares
+∑ 𝑒𝑖 2 : RSS – Residual Sum of
Squares Ta có thể viết: TSS = ESS +
RSS
Ý nghĩa của các thành phần:
+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính
xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các
giá trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.
𝑅2 được xác định theo công thức:

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được
giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa
𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình
được giải thích bằng mô hình. Khi đó người ta sử dụng 𝑅2 để đo sự phù hợp của hàm
hồi quy:
+ 0 ≤ 𝑅2 ≤ 1.
+ 𝑅2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
+ Nếu 𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu 𝑅2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến
phụ thuộc y.
1.1.5. Khoảng tin cậy và kiểm định các hệ số hồi quy

a. Ước lượng khoảng tin cậy đối với các hệ số hồi quy:
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β1…… βk mà còn phải
kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1, β1…… βk
Các phân bố này phụ thuộc vào phân bố của các 𝑢𝑖 .
Với các giả thiết OLS, 𝑢𝑖 có phân phối 𝑁(0, 𝜎2). Các hệ số ước lượng tuân theo phân
phối chuẩn:

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là
số hệ số có trong phương trình hồi quy đa biến:

+ Ước lượng 2 phía, ta tìm được 𝑡𝛼(𝑛 − 𝑘) thỏa mãn:

+ Khoảng tin cậy 1− 𝛼 của 𝛽𝑗 là:


b. Kiểm định giả thiết đối với 𝜷𝒋

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định
rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói cách
khác là hệ số hồi quy có ý nghĩa thống kê hay không. Có thể đưa ra giả thiết nào đó
đối với 𝛽𝑗 , chẳng hạn 𝛽𝑗 = 𝛽𝑗 ∗. Nếu giả thiết này đúng thì:

Ta có bảng 1:
Bảng 1. Bảng tóm tắt giả thuyết và miền bác bỏ tương ứng

Ta có thể sử
dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0
Kiểm định βj:

Giả thuyết H0 : 𝛽𝑗 = 0 ⇔ xj không tác

động Giả thuyết H1 : 𝛽𝑗 ≠ 0 ⇔ xj có tác

động.

𝛽𝑗 < 0 ⇔ xj có tác động ngược

𝛽𝑗 > 0 ⇔ xj có tác động thuận


1.1.6. Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của
kiểm định WALD)

a. Khái quát về kiểm định WALD.

Giả sử chúng ta có 2 mô hình dưới đây:

(U) : Y = 𝛽1 + 𝛽2𝑋2 + 𝛽3𝑋3 + 𝛽4𝑋4 + 𝑢

(R) : Y = 𝛽1 + 𝛽2𝑋2 + 𝑣
Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được gọi là
mô hình giới hạn (Restrict). Đó là do 𝛽3 và 𝛽4 buộc phải bằng 0 trong mô hình R. Ta
có thể kiểm định giả thuyết liên kết 𝛽3 = 𝛽4 = 0 với giả thuyết đối là ít nhất một trong
những hệ số này không bằng 0. Kiểm định giả thuyết liên kết này được gọi là kiểm
định Wald, thủ tục như sau.

Đặt các mô hình giới hạn và không giới hạn là:

(U) : Y = β1 + β2X2 + ... + βmXm + βm+1Xm+1+ ... + 𝛽𝑘𝑋𝑘+ u


(R) : Y = β1 + β2X2 + ... + βmXm +v. Mô hình (R) có được bằng cách bỏ bớt một số
biến ở mô hình (U), đó là: Xm+1, Xm+1,... X𝑘

Giả thiết H0: βm+1=…= βk=0

Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”.

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết.
Do đó, mô hình R có ít hơn (k−m) thông số so với U. Câu hỏi chúng ta nêu ra là (k−m)
biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không. Trị thống kê
kiểm định đối với giả thiết này là:

Với 𝑅2 là số đo độ thích hợp không hiệu chỉnh. Với giả thuyết không, Fc có phân phối
F với (k−m) bậc tự do đối với tử số và (n−k) bậc tự do đối với mẫu số.

Bác bỏ giả thuyết H0 khi:

Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa

b. Kiểm định ý nghĩa của mô hình.

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể
như sau:

Bước 1: Giả thuyết H0: β2 = β3 = ... = βk = 0.

Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”.

Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3,..., Xk, sau đó
tính tổng bình phương sai số 𝑅𝑆𝑆𝑈 , 𝑅𝑆𝑆𝑅 . Phân phối F là tỷ số của hai biến ngẫu nhiên
phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
Vì H0: β2= β3 = ... = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
thuyết này sẽ là:

Bước 3: Tra số liệu trong bảng F tương ứng


với bậc tự do (k−1) cho tử số và (n−k) cho mẫu số, và với mức ý nghĩa α cho trước.

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu

Đối với phương pháp giá trị p-value, tính giá trị p = P (F >𝐹𝐶 |H0) và bác bỏ giả thuyết
H0 nếu p bé hơn mức ý nghĩa α.
1.2 Phân tích phương sai một yếu tố

1.2.1 Lý thuyết về ANOVA (Phân tích phương sai)

Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là so sánh trung
bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các
nhóm này và thông qua kiểm định giả thuyết củaa kết luận và sự bằng nhau của các
trung bình tổng thể này.
ANOVA thực ra là một mở rộng của phương pháp kiểm định t cho các mẫu độc lập
khi so sánh trung bình của các nhóm gồm các quan sát độc lập. Không như phương
pháp kiểm định t, ANOVA có thể so sánh nhiều hơn hai nhóm. Lưu ý rằng ANOVA
không so sánh các phương sai, mà là phân tích các phương sai để so sai để so sánh các
kỳ vọng.
Ta có các mô hình phân tích phương sai: phân tích phương sai một yếu tố và hai yếu
tố. Cụm từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết
quả đang nghiên cứu.
1.2.2 Phân tích phương sai một yếu tố

Phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình
của hai hay nhiều mẫu được lấy từ các phân số. Đây có thể được xem như phần mở
rộng trắc nghiệm t hay z (so sánh hai giá trị trung bình)
a. Trường hợp k tổng thể có phân phối chuẩn và phương sai bằng nhau
Giả sả rằng chúng ta muốn so sánh trung bình của k tổng thể (với ví dụ trên thì k = 3)
dựa trên những mẫu ngẫu nhiên độc lập gồm n1, n2, n3, . . . , nk quan sát từ k tổng thể.
Cần ghi nhớ ba giả định sau đây về các nhóm tổng thể được tiến hành phân tích
ANOVA.
+ Các tổng thể này có phân phối bình thường.
+ Các phương sai tổng thể bằng nhau.
+ Các quan sát được lấy mẫu là độc lập nhau.
Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = ... = µk thì khi các giả định
trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả
dưới dạng kiểm định giả thuyết như sau:
H0: µ1 = µ2 = ... = µk
Giả thuyết 𝐻0 cho rằng trung bình của k tổng thể đều bằng nhau (về mặt nghiên cứu
liên hệ thì giải thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn
đề ta đang nghiên cứu). Và giả thuyết đối là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau.
Các bước thực hiện:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể).
Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu
nhiên độc lập (ký hiệu 𝑥̅1 𝑥̅2 , … 𝑥̅𝑘 ) và trung bình chung của k mẫu quan sát (ký
hiệu 𝑥̅) từ trường hợp tổng quát như sau:
Bảng 2. Bảng số liệu tổng quát thực hiện phân tích phương sai.
Tổng thể
1 2 3 4
X X . X
1 2 . k
1 1 . 1
X X . X
1 2 . k
1 2 . 1
… … . …
X X . X
1 2 . K
N N . n
1 2 . K

Tính trung bình mẫu của từng nhóm 𝑥̅1 𝑥̅2 , … 𝑥̅𝑘 theo công thức:

Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):

Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tőng các chênh lệch
bình phương giữa các nhóm SSG2.
+ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách
cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng
nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại. SSW phản ánh phần
biến thiên Tổng các chênh lệch bình phương trong nội bộ nhóm (SWW) được tính
bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình
mẫu của từng nhóm, rồi sau đó lại tính tổng kết quả tất cả các nhóm lại. SWW phản
ánh biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải
do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt các tổng thể /
nhóm đang so sánh).
+ Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
Nhóm 1

Tương tự như vậy ta tính cho đến nhóm thứ k được


SSk. Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau:
SSW = SS1 + SS2 + ... + SSk
+ Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng
các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với
trung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát
tương ứng cả từng nhóm). SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh
hưởng của yếu tố nguyên nhân đang nghiên cứu.

+ Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tőng
các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu
nghiên cứu (xij) với trung bình toàn bộ (x). SST phản ánh biến thiên của yếu tố kết
quả do ảnh hưởng của tất cả các nguyên nhân.

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng
cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch
bình phương giữa các nhóm.
SST = SSW + SSG
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được
phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và
phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW). Nếu
phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần
biến thiên do các yếu tố khác không cét tạo ra, thì chúng ta càng có cơ sở đe bác bỏ H0
và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố
kết quả.
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương). Các
phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự
do tương ứng.
Tính phương sai trong nội bộ nhóm (MSW) bang cách lấy tőng các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n - k (n là số
quan sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết quả
do các yếu tố khác gây ra.
𝑆𝑆𝑊
𝑀𝑆𝑊 =
𝑛−𝑘
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình
phương giữa các nhóm chia cho bậc tự do tương ứng là k - 1. MSG là ước lượng phần
biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra.

Bước 4: Kiểm định giả thuyết:


Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết đinh dựa trên tỉ số
của hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ
nhóm (MSW). Tỉ số này goi là tỉ số F vì nó tuân theo định luật Fisher – Snedecor với
bậc tự do k - 1 ở tử số và n - k ở mẫu số.
𝑀𝑆𝐺
𝐹=
𝑀𝑆𝑊
Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:
F > Fk−1;n−k;α

F > Fk−1;n−k;α là giá trị giới hạn với bậc tự do k tra theo hàng đầu tiên và
n – k tra theo cột đầu tiên, nhớ chọn bảng với mác ý nghĩa phù hợp.
Sau đây là dạng bảng kết quả tőng quát của ANOVA khi phân tích bằng
chương tình Excel hay SPSS.
b. Kiểm tra các gia định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị. Histogram là
phương pháp tốt nhất để kiểm tra giả định về phân phối chuẩn của dữ liệu
nhưng nó đòi hỏi một số lượng quan sát khá lớn. Biểu đồ thân lá hay biểu đồ
hộp và râu là một thay thế tốt trong tình huống so quan sát ít hơn. Nếu công cụ
đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường thì ta
có thế xem
giả định phân phối bình thường đã thỏa mãn.
BẢNG 3. Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng
nhau là kiểm định Levene về phương sai của các tőng thể. Kiểm định này xuất phát từ
giả thuyết sau.

H1: có ít nhất một cặp phương sai khác nhau.


Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức:

Trong đó:
𝑆 2 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝑆 2 là phương sai nhỏ
𝑚𝑎𝑥 𝑚𝑖𝑛
nhất trong các nhóm nghiên cứu.
Giá trị F tính được được đem so sánh với giá trị Fk;df;α tra được từ bảng phân phoi
Hartley Fmax. Trong đó, k là so nhóm so sánh, bậc tự do df tính theo công thức

Trong tình huống, các nhóm có số quan sát khác nhau thì
(chú ý là
nếu kết quả tính là một số thập phân thì ta lấy phần nguyên).
Quy tắc quyết định:
Fmax > Fk;df;α thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược
lại.

Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho
thấy các giả định không được thỏa mãn thì một phương pháp kiểm định thay the
cho ANOVA là phương pháp kiểm định phi tham so Kruskal - Wallis sẽ được áp
dụng.
c. Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của tőng
thể bằng nhau. Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp thuận
giả thuyết H0 hoặc bác bỏ giả thuyết H0. Nếu chấp nhận giả thuyết H0 thì phân tích kết
thúc. Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tőng thể không bằng
nhau. Vì vậy, vấn đề tiếp theo là phân tích sâu hơn để xác minh nhóm (tőng thể) nào
khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.
Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0.
Trong phần này chỉ đề cập đến một phương pháp thôn dụng đó là phương pháp Tukey,
phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences).
Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mác ý nghĩa
nào đó cho tất cả các cặp kiểm định có thể dễ phát hiện ra những nhóm khác nhau.
Nếu có k nhóm nghiên cứu và chúng ta so sánh tất cả các cặp nhóm thì số lượng cặp
cần phải so sánh là tő hợp chập 2 của k nhóm.

2
Giá trị giới hạn Tukey được tính theo công thức:
Trong đó:

+ 𝑞∝;𝑘;𝑛−𝑘 là giá trị tra bảng phân phối kiểm định Tukey ở mác ý nghĩa, với bậc tự do k
và n – k, với n là tőng số quan sát mẫu (n = Σni).
+ 𝑀𝑆𝑊 là phương sai trong nội bộ nhóm.
+ 𝑛𝑖 là số quan sát trong một nhóm (tőng thể), trong trường hợp mọi nhóm có số quan
sát ni khác nhau, sử dụng giá trị ni nhỏ nhất.
Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hay bằng T giới hạn.

Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có thể tìm
khoảng ước lượng cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa thống kê.
Ước lượng khoảng về chênh lệch giữa hai trung bình nhóm có khác biệt tính theo công
thức:
Trong đó, t là giá trị được tra tà bảng phân phoi Student t với (n - k) bậc tự do. Trong
chương trình Excel không có các lệnh phân tích sâu ANOVA. Chúng ta có thể thực hiện
phân tích này bằng chương trình SPSS. Ngoài ra kết quả của SPSS còn cung cấp cho
các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tőng thể là kiểm
định Levene.
Bài tập 1: Tập tin “gia_nha.csv” chứa thông tin về giá nhà bán ra ở thị trường (đơn vị đô
la) của 21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gia từ tháng 5/2014 đến
tháng 5/2014. Bên cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chất lượng
ngôi nhà. Dữ liệu gốc được cung cấp tại :
https://www.kaggle.com/harlfoxem/housesalesprediction.

Các biến chính trong bộ dữ liệu :

• price: Giá nhà được bán

• spft_living15: Diện tích trung bình của 15 ngôi nhà gần nhất trong khu dân cư

• floors: Số tầng của ngôi nhà được phân loại từ 1-3-5

• condition: Điều kiện kiến trước của ngôi nhà từ 1-5, 1:rất tệ và 5: rất tốt

• spft_above: diện tích ngôi nhà Spft_living: Diện tích khuôn viên nhà

Câu hỏi
1. Đọc dữ liệu (Import data): house_price.csv
- Đọc dữ liệu “ house_price”
Hình 1: code R và kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu
2. Làm sạch dữ liệu (data cleaning):
a. Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta
quan tâm như đã trình bày trong phần giới thiệu dữ liệu.
- Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên là
new_DF

Hình 2: Code R

Input

Output

b. Kiểm tra các dữ liệu bị khuyết trong tập tin


Input

Output

Hình 2: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Biến price có chứa hai mươi dữ liệu khuyết được thể hiện ở Hình 2 . Vì chỉ có
20 ngôi nhà trong 21447 ngôi nhà không xác định được giá cả (chiếm tỉ lệ rất nhỏ) nên ta
sẽ loại bỏ các quan sát chứa dữ liệu khuyết này

Input

Output

Hình 3 : code R và kết quả khi xoá

3. Làm rõ dữ liệu (data visualization):


a. Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành
log(price), log(sqft_living15), log(sqft_above) và log(sqft_living).

Hình 4 : Các biến sau khi chuyển thành dạng log

Tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn
nhất, giá trị nhỏ nhất. Xuất ra kết quả dạng bảng

Input

Output

Hình 5: Bảng các giác trị thống kê

b. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng
loại.

Input

Output

Hình 6: Bảng các giá trị thống kê

c. Dùng hàm hist() để vẽ đồ thị phân phối của biến price.

Input
Output

Hình 7 : code R và

d. Dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại floors
và biến condition.

Input

Output

Hình 8 : Đồ thị Boxplot thể hiện phân phối của biến price theo floors
Hình

e. Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến price,
sqft_living15, sqft_above, sqft_living

Input

Output

Hình 10 : Các phân


phối của biến price lần lượt theo các biến price, sqft_living15, sqft_above, sqft_living
4. Xây dựng mô hình hồi quy tuyến tính

Ta muốn khám phá rằng những nhân tố nào và tác động như thế nào đến giá bán ra thị
trường của một ngôi nhà.

a. Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc và tất cả
các biến còn lại đều là biến độc lập. Hãy dung lệnh lm() để thực thi mô hình hồi
quy tuyến tính bội.

Xây dựng mô hình tuyến tính bội:

Input

Giải thích: Xây dựng mô hình hồi quy tuyến tính bội và lưu vào biến M1. Dùng lệnh
summary() để thống kê kết quả tính toán khi xây dựng mô hình M1.

Output

Hình 11: Mô
hình hồi quy tuyến tính bội
b. Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại
khỏi mô hình tương ứng với mức tin cậy 5%?

Ở mức tin cậy 5% ta sẽ loại các biến có giá trị Pr(>|t|)>0.05, bao gồm:
as.factor(condition)2 mà ở đây là giá nhà thứ 2.

c. Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:

• Mô hình M1 chứa tất cả các biến còn lại biến độc lập.

• Mô hình M2 loại bỏ biến condition từ mô hình M1. Hãy dùng lệnh anova() để đề xuất
mô hình hồi quy hợp lý hơn.

Xây dựng mô hình M2:

Input

Output
Hình 12: Mô hình M2

Phân tích ANOVA:

Đặt giả thiết:

H0: Hai mô hình giống nhau.

H1: Hai mô hình khác nhau.

Xét cặp mô hình M1 và M2:

Input

Giải thích: Phân tích ANOVA của 2 mô hình hồi quy tuyến tính M1 và M2.

Phân tích Anova M1 và M2:

Hình 13: Phân tích M1 và M2

Nhận xét: Sau khi phân tích ANOVA 2 mô hình M1, M2 theo kết quả thu được thì Pr(>|
t|) = 2,2e – 16. Chọn mức ý nghĩa là 0,05 thì Pr(>|t|) < 0,05 => Không chấp nhận giả thiết
H0. Vậy 2 mô hình M1 và M2 là khác nhau. Nhưng biến loại bỏ đi từ mô hình M2 là biến
“price” có thể có ý nghĩa thống kê hoặc là không. Để đưa ra được kết luận thì ta cần phải
biết chính xác biến “price” bỏ đi từ mô hình M2 có ý nghĩa thống kê hay không. Vì vậy
mặc dù kết quả phân tích ANOVA cho biết 2 mô hình M1 và M2 là khác nhau nhưng ta
vẫn chưa chọn được mô hình nào tốt hơn trong 2 mô hình này.

a. Chọn mô hình hợp lí hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá
nhà.

Vì không chọn được mô hình nào tốt hơn nên không thể suy luận được sự tác động của
các biến lên giá nhà.

Ta tiến hành vẽ biểu đồ biểu thị sai số hồi quy và giá trị dự báo của từng mô hình M1 và
M2

Input

Output

Hình 15: Biểu đồ biểu thị sai số hồi quy và giá trị dự báo của từng mô hình M1

Input

Output
Hình 16: Biểu đồ biểu thị sai số hồi quy và giá trị dự báo của từng mô hình M2

Nhận xét: Quan sát 2 đồ thị cho thấy đường hồi quy ở mô hình M1 gần đường
Residuals = 0 hơn nên trong 2 mô hình này ta chọn mô hình M1 tốt hơn M2.

b. Từ kết quả câu (c), các biến tác động 1 phần nhỏ đến giá nhà bởi từ kết quả phân
tích 2 mô hình trên ta thấy có sự chên lệch nhưng rất ít.

Nhận xét:
Đường hồi quy màu đỏ trên hình vẽ của đồ thị giống nhau và gần sát với đường Residuals

Ý nghĩa: Đường hồi quy gần với đường Residuals = 0 đã chứng tỏ mô hình M1 ta chọn ở
câu trên là mô hình tốt nhất, hoàn toàn hợp lý.

5. Dự báo:

a. Từ mô hình M1, hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính như sau:

x1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living =


mean(sqft_living), floor = 2, condition = 3

x2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living =


max(sqft_living), floor = 2, condition = 3.

So sánh khoảng tin cậy cho 2 giá trị dự báo này.

Tạo biến x chứa 2 vecto thuộc tính mà ta cần, chú ý rằng phải sắp xếp các biến theo đúng
thứ tự trong mô hình hồi quy mình đang sử dụng.

Input

Output

Từ đó ta suy ra dự báo và khoảng tin cậy.

So sánh khoảng tin cậy.

Input

Output

Nhận xét: Từ kết quả dự báo ở trên ta nhận thấy giá trị của biến báo giá chênh lệch tương
đối lớn. Vì vậy, mô hình hồi qui tuyến tính M1 không tốt lắm.
2.1 Đề bài

Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân
bay lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở
Portland trong năm 2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ
(https://www.transtats.bts.gov). Dữ liệu này được dùng để phân tích các nguyên nhân
gây ra sự khởi hành trễ hoặc hoãn các chuyến bay. Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
• year, month, day: ngày khởi hành của mỗi chuyến bay
• carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa. Ví dụ: UA
= United AirLines, AA = American Airlines, DL = Delta Airlines, v.v.
• origin và dest: tên sân bay đi và đến. Đối với sân bay đi, ta chỉ có hai giá trị
SEA (Seattle) và PDX (Portland)
• dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
• dep_delay và arr_delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực
tế với thời gian cất cánh/hạ cánh in trong vé
• distance: khoảng cách giữa hai sân bay (dặm)
Yêu cầu:
1. Đọc dữ liệu (Import data): "flights.rda"
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)
giữa các hãng bay.
5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các
yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến ba
2.2 Thực hiện

2.2.1 Đọc dữ liệu (Impost data)

Đọc tệp tin “flights.rda”.

Hình 1. Code R và kết quả khi đọc tệp tên và xem 10 dòng đầu tiên của tệp tin .

2.2.2 Làm sạch sữ liệu (Data cleaning)

Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề tìa đưa ra, lưu với tên là new_DF.

Hình 2. Code R và kết quả khi tạo ra một tệp tin mới chỉ bao gồm các biến chính.

Kiểm tra dữ liệu khuyết trong tệp tin.


Hình 3. Code R và kết quả kiểm tra dữ liệu khuyết trong tệp tin.

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với
từng biến, ta nhận thấy có nhiều giá trị khuyết tại biến arr_delay, arr_time,
dep_time, dep_delay. Vì lượng khuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan
sát (dưới 100%) do đó ta lựa chọn phương pháp xóa các quan sát của biến nào có giá
trị khuyết trong tệp tin new_DF.

Hình 4. Code R khi xóa các quan sát chứa dữ liệu khuyết

Kiểm tra lại số lượng và quan sát chưa dự liệu khuyết đã xóa.

Hình 5. Code R và kết quả kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xóa.

Nhận xét: Ta nhận thấy số lượng quan sát sau khi xóa là 1301 quan sát, chiếm tỉ lệ
0,8% so với dữ liệu ban đầu, có thể thấy việc xóa các quan sát của biến có giá trị
khuyết trong tệp tin new_DF không ảnh hưởng nhiều đến kết quả của dữ liệu.
2.2.3 Làm rõ dữ liệu (Data visualization)

Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm
tứ phân vị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất/hạ cánh in
trong vé (biến dep_delay) của từng hãng hàng không (carrier). Xuất kết quả dưới
dạng bảng.

Hình 6. Code R và kết quả khi tính các giá trị thông kê mô tả cho biến dep_delay của từng hãng hàng không (carrier).

Vẽ biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng
không (carrier).
Hình 7. Code R và kết quả khi vẽ biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier).

Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến
dep_delay,điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau.
Do đó, ta sử dụng khoang tứ phân vị (intrequartile range) để loại bỏ các điểm outlier.

Ý tưởng cho bài toán: Ta dẽ chuyển các outliers cıa biến dep_delay ở từng hãng hàng
không sang NA. Từ đó đề xuất các phương pháp xử lý các NA đó.
Ta tạo function xác định outliers, chuyển các outliers thành dạng NA. Việc tạo
function mới sẽ giúp ta tối ưu code hơn.

Hình 8. Code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA.
Ta thực hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA

Hình 9. Code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA.

Ghép các dữ liệu với nhau và lưu vào new_DF3.

Hình 10. Code R khi ghép các dữ liệu với nhau.

Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (sau khi chuyển outliers thành
NA):

Hình 11. Code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3.

Nhận Xét: Số lượng NA = 18732 và chiếm tỉ lệ 11.65% lượng quan sát của dữ liệu.
Trong trường hợp này, ta không chọn phương pháp xoá các NA, vì lượng NA tương
đối nhiều ( >10% dữ liệu). Do đó, ta sẽ xử lý bằng phương pháp thay thế các NA bằng
các giá trị trung bình tương ứng với từng hãng hàng không.
Hình 12. Code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng không.

Ghép các dữ liệu lại với nhau và lưu lại vào new_DF3

Hình 13. Code R khi ghép các dữ liệu lịa với nhau và lưu lại vào new_DF3.

Kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Hình 14: Code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Hình 14. Code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA.

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn
NA.
Tính lại các giá trị mô tả thống kê cho biến dep_delay theo từng hãng hàng không
(carrier).
Hình 15. Code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier).

Vẽ lại các biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng
không (carrier).
Hình 16. Code R và kết quả khi vễ lại biểu đồ boxplot thực hiện phân phối của biến dep_delay theo từng hãng hàng không
(carrier).

Nhận xét:
Đối với hãng hàng không AA:
+ Min = - 18 : Thời gian khởi hành sớm nhất: 18 phút.
+ Max = 26 : Thời gian khởi hành trễ nhất: 26 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không AS:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 12 : Thời gian khởi hành trễ nhất: 12 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 2.5563 : 50% chuyến bay có thời gian khởi hành sớm hơn 2.5563 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.

Đối với hãng hàng không B6:


+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút.
+ Max = 31 : Thời gian khởi hành trễ nhất: 31 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không DL:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 16 : Thời gian khởi hành trễ nhất: 16 phút.
+ Q1 = - 4 : 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay.
Đối với hãng hàng không F9:
+ Min = - 20 : Thời gian khởi hành sớm nhấtt: 20 phút.
+ Max = 36 : Thời gian khởi hành trễ nhất: 36 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.
+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q3 = 4 : 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống.
Đối với hãng hàng không HA:
+ Min = - 16 : Thời gian khởi hành sớm nhất: 16 phút.
+ Max = 8 : Thời gian khởi hành trễ nhất: 8 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.5056 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.5056 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không OO:
+ Min = - 17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 10 : Thời gian khởi hành trễ nhất: 10 phút.
+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút.
+ Q2 = - 4.1136 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.1136 phút.
+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
Đối với hãng hàng không UA:
+ Min = - 19 : Thời gian khởi hành sớm nhất: 19 phút.
+ Max = 27 : Thời gian khởi hành trễ nhất: 27 phút.
+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = - 1 : 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
+ Q3 = 2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống.
Đối với hãng hàng không US:
+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút.
+ Max = 11 : Thời gian khởi hành trễ nhất: 11 phút.
+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút.

+ Q2 = - 3.0085 : 50% chuyến bay có thời gian khởi hành sớm hơn 3.0085 phút.
+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút.
Đối với hãng hàng không VX:
+ Min = -17 : Thời gian khởi hành sớm nhất: 17 phút.
+ Max = 15 : Thời gian khởi hành trễ nhất: 15 phút.
+ Q1 = -5 : 2% chuyến bay có thời gian khởi hành sớm hơn 5 phút.
+ Q2 = -2.6272 : 5% chuyến bay có thời gian khởi hành sớm hơn 2.6272 phút.
+ Q3 = -1 : 7% chuyến bay có thời gian khởi hành sớm hơn 1 phút.
Đối với hãng hàng không WN:
+ Min = - 11 : Thời gian khởi hành sớm nhất: 11 phút.
+ Max = 45 : Thời gian khởi hành trễ nhất: 45 phút.
+ Q1 = - 2 : 2% chuyến bay có thời gian khởi hành sớm hơn 2 phút.
+ Q2 = 3 : 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống.
+ Q3 = 11 : 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống.

Nhìn chung, có sự khác biệt về phân phối của thời gian lệch giờ bay ở các hãng hàng
không. Cụ thể, ta dự đoán được hãng WN có thời gian khởi hành trễ nhất (so với thời
gian bay dự kiến)
2.2.4. ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay

Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung
bình giữa các hãng hàng không đối với các chuyến bay khởi hành từ Portland trong
năm 2014 hay không?

Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:

Hình 17. Code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014.

Giải thích lý do sử dụng ANOVA một nhân tố:

Ta có 11 hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014. Để
thực hiện so sánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân
tích phương sai. Nếu chỉ so sánh 2 trung bình của 2 nhóm, ta có thể dùng t-test. Vì
vậy, nếu dùng t-test cho bài toán này, ta phải thực hiện kiểm định rất nhiều lần.
Phương pháp phân tích phương sai cho ta kết luận sự bằng nhau hoặc khác nhau giữa
các nhóm so sánh thông qua một phép kiểm định duy nhất.

Như vậy ta sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc
lệch giờ bay (dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ
Portland trong năm 2014.

Trong đó:
Biến phụ thuộc: dep_delay

Các nhân tố (hay biến độc lập): carrier

Đặt giả thuyết:

+ Giả thuyết H_0: μ_1= μ_2= … = μ_1 1 ↔ Việc lệch giờ bay trung bình giữa các
hãng hàng không đối với các chuyến bay khởi hành từ Portland năm 2014 bằng nhau.

+ Đối thuyết H_1: ∃μ_i ≠ μ_j với (i ≠j) Có ít nhất 2 hãng hàng không đối với các
chuyến bay khởi hành từ Portland năm 2014 có việc lệch giờ bay trung bình khác
nhau.
Bảng 4: Bảng ANOVA một nhân tố.

Nguồn của sự biến SS df MS F


thiên

Giữa các nhóm SSB k-1 MSB 𝑀𝑆𝐵


𝐹=
𝑀𝑆𝑊
Trong từng nhóm SSW N-k MSW

Tổng SST N-1

Các giả định cần kiểm tra trong ANOVA một nhân tố:

+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các
chuyến bay khởi hành từ Portland tuân theo phân phối chuẩn.

+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng
không đối với các chuyến bay khởi hành từ Portland bằng nhau.

Kiểm tra giả định phân phối chuẩn:

Giả thuyết H_0: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi
hành từ Portland tuân theo phân phối chuẩn.

Đối thuyết H_1: Việc lệch giờ bay ở các hãng hàng không đoói với các chuyến bay khởi
hành từ Portland không tuân theo phân phối chuẩn.
Hình 18. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA.

Nhận xét: Xét biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
dường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
AA không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không AA không tuân theo phân phối chuẩn.
Hình 19. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
AS không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không AS không tuân theo phân phối chuẩn.
Hình 20. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
B6 không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không B6 không tuân theo phân phối chuẩn.

Hình 21. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
DL không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không DL không tuân theo phân phối chuẩn.
Hình 22. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không F9.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
F9 không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không F9 không tuân theo phân phối chuẩn.
Hình 23. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không HA.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
HA không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không HA không tuân theo phân phối chuẩn.
Hình 24. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không OO.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
OO không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không OO không tuân theo phân phối chuẩn.
Hình 25. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không UA.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
UA không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không UA không tuân theo phân phối chuẩn.
Hình 26. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không US.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
US không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không US không tuân theo phân phối chuẩn.
Hình 27. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không VX.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
VX không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không VX không tuân theo phân phối chuẩn.
Hình 28. Code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không WN.

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không
WN không tuân theo phân phối chuẩn.

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α=0.05,
nên ta bác bỏ giả thuyết H_0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng
không WN không tuân theo phân phối chuẩn.

Kiểm định giả định về tính đồng nhất của các phương sai:

Giả thuyết 𝐻0: Phương sai việc lệch giờ bay ở các hãng hàng không đối với các
chuyến bay khởi hành từ Portland bằng nhau.

Đối thuyết 𝐻1: Có ít nhất 2 hãng hàng không đối với các chuyến bay khởi hành từ
Portland có phương sai việc lệch giờ bay khác nhau.
Hình 29. Code R và kết quả khi kiểm định về tính đồng nhất của phương sai.

Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý
nghĩa α=0.05, nên ta bác bỏ giả thuyết 𝐻0, vậy ta có thể đưa ra kết luận là có ít nhất 2
hãng hàng không đối với các chuyến bay khởi hành từ Portland có phương sai việc
lệch giờ bay khác nhau.

Thực hiện phân tích phương sai một nhân tố:

Hình 30. Code R và kết quả khi thưc hiện ANOVA một nhân tố.

Nhận xét: Dựa trên kết quả ANOVA cho thấy:

+ SSB=748990, bậc tự do k-1=10(k=11)

+ SSW=2594172, bậc tự do N-k=52808-11=52797 (N là tổng số phần tử khảo sát ở tất


cả các nhóm)

+ MSB=SSB/(k-1)=74899

+ MSW=SSW/(N-k)=49

+ Giá trị thống kê kiểm định: f=MSB/MSW=1524

+ Mức ý nghĩa quan sát: p-value<2e-16

Dựa vào p-value<2e-16 rất bé so với mức ý nghĩa α=0.05 nên ta bác bỏ được giả
thuyết H_0.
Ngoài ra, ta có thể dựa vào f=1524> ngưỡng f_(α:k-1:N-k)=f_(0.05:10:52797)=1.8309
nên ta cũng đưa ra kết luận là bác bỏ được giả thuyết H_0.

Vậy có sự khác biệt về việc lêhcj giờ bay trung bình giữa các hãng hàng không đối với
các chuyến bay khởi hành từ Portland trong năm 2014.

Thực hiện so sánh bội:

Hình 31. Code R và kết quả thực hiện so sánh bội.


Nhận xét:

+ Đối với hãng AS-AA:

Giả thuyết 𝐻0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA bằng nhau.

Đối thuyết 𝐻1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãnh hàng không AS và AA khác nhau.

Dựa vào pevalue, ta thấy pvalue = 0.0000 < mức ý nghĩa 5% nên ta bác bỏ H_0, chấp
nhận 𝐻1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA khác nhau. Mặt khác, diff = -3.0350 < 0 nên ta
có thể kết luận thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS thấp hơn AA.

Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-3.5614:-2.5086) không
chứa giá trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không AS và AA khác nhau, và khoảng tin cậy nhận giá trị âm
nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở hãng
hàng không AS thấp hơn AA.

+ Đối với hãng B6-AA:

Giả thuyết 𝐻0: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không B6 và AA bằng nhau.

Đối thuyết 𝐻1: Thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãnh hàng không B6 và AA khác nhau.

Dựa vào pevalue, ta thấy pvalue = 0.9960 > mức ý nghĩa 5% nên ta bác bỏ H_0, chấp
nhận H_1. Vậy thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ
Portland ở hãng hàng không B6 và AA bằng nhau.

Ngoài ra, ta có thể đưa ra kết luận dựa vào khoảng tin vậy (-1.0454:-0.5512) chứa giá
trị 0 nên thời gian lệch giờ bay trung bình của các chuyến bay khởi hành từ Portland ở
hãng hàng không B6 và AA bằng nhau.

Tương tự, ta sẽ thực hiện so sách đối với từng vặp hãng hàng không. Ta sẽ đưa ra kết
luận rằng hãng WN có thời gian khởi hành trễ nhất.
Ta cũng có thể đưa ra kết luận dựa vào đồ thị sánh bội:

Hình 32. Code R và kết quả khi vẽ đồ thị so sánh bội.

Nhận xét:

Nếu khoảng tin cậy cắt đường x=0, tức nghĩa là thời gian lệch giờ bay trung bình của
các chuyến bay khởi hành từ Portland ở 2 hãng hàng không bằng nhau, và ngược lại.
Ngoài ra, nếu khoảng tin cậy nằm về bên phải trục x=0, cho thấy thời gian lệch giờ bay
trung bình của các chuyến bay khởi hành từ Portland ở 2 hãng hàng không thứ nhất
cao hơn hãng hàng không thứ 2, và ngược lại. Dựa trên đồ thị so sánh bội, ta cũng đưa
ra kết luận rằng hãng WN có thời gian khởi hành trễ nhất.
2.2.5. Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để
phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến
bay.

Để phân tích các yếu tố ảnh hưởng đến việc lệch giờ bay (arr_delay) của các chuyến
bay, ta xe biến (arr_delay) là biến phụ thuộc, và các biến độc lập là biến hãng hàng
không (carrier), biến chỉ sân bay đi (origin), biến chênh lệch thời gian khởi hành
(dep_delay) và biến khoảng cách giữa hai sân bay (distance). Đây là những yếu tố dự
báo có thể giúp giải thích sự biến đổi về việc lệch giờ đến của các chuyến bay.

Thực hiện vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và
dis-tance.
Hình 33. Code R và kết quả khi vẽ đồ thị phân tán thể hiện phân phối của arr_delay theo biến dep_delay và distance.

Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy biến arr_delay có mối quan hệ
tuyến tính với biến dep_delay, tuy nhiên lại không có quan hệ tuyến tính với distance

Ta xây dựng mô hình hồi quy bao gồm:

Biến phụ thuộc: arr_delay

Biến độc lập: carrier, origin, dep_delay, distance. Mô hình được biểu diễn như sau:
𝑎𝑟𝑟 𝑑𝑒𝑙𝑎𝑦 = 𝛽0 + 𝛽1 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 𝛽2 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 + 𝛽3 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿
+ 𝛽4 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9+. . . +𝛽10 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 𝛽11 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴
+ 𝛽12 × 𝑑𝑒𝑝 𝑑𝑒𝑙𝑎𝑦 + 𝛽13 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 + 𝜀

Ta thực hiện ước lượng các hệ số 𝛽𝑖 , 𝑖 = 0, … ,13 dựa trên tệp tin new_DF2:
Hình 34. Code R và kết quả khi xây dưng mô hình hồi quy tuyến tính Im_model_1.

Nhận xét: Từ kết quả phân tích, ta thuh được:


𝛽̂ = −2.750𝑒 − 01; 𝛽̂ = 6.322𝑒 − 01; 𝛽̂ = 7.521𝑒 − 02; 𝛽̂ = −8.403𝑒 − 01; ̂𝛽
0 1 2 3 4
= 2.068𝑒 + 00
𝛽̂ = 6.628𝑒 + 00; 𝛽̂ = 1.858𝑒 − 01; 𝛽̂ = −3.494𝑒 + 00; 𝛽̂ = 1.160𝑒 + 01; 𝛽̂
5 6 7 8 9
= −2.075𝑒 + 00
𝛽̂ = −2.890𝑒 + ô; 𝛽̂ = 3.192𝑒 − 01; 𝛽̂ = 9.965𝑒 − 01; 𝛽̂ = −2.684𝑒 − 03
10 11 12 13

Như vây, đường thẳng hồi quy ước lượng cho bởi phương trình sau:

𝑎𝑟𝑟̂_𝑑𝑒𝑙𝑎𝑦 = −2.750 − 01 + 6.322𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 7.521𝑒


− 02 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 − 8.403𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿 + 2.068𝑒
+ 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9 + ⋯ − 2.890𝑒 + 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 3.192𝑒
− 01 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴 + 9.965𝑒 − 01 × 𝑑𝑒𝑝𝑑𝑒𝑙𝑎𝑦 − 2.684𝑒
− 03 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒

Kiểm định các hệ số hồi quy:


Giả thuyết 𝐻0 : Hệ số hồi quy không có ý nghĩa thống kê (𝛽𝑖 = 0)
Đối thuyết 𝐻1 : Hệ số hồi quy có ý nghĩa thống kê (𝛽𝑖 ≠ 0)
+ Pr (> |𝑡|) của các hệ số ứng với biến carrierB6, carrierOO, carrierUS lớn hơn mức ý
nghĩa 𝛼 = 0.05 nên ta chưa đủu cơ sở để bác bỏ giả thuyết 𝐻0 . Do đó hệ số ứng với các
biến này không có ý nghĩa với mô hình hồi quy ta xây dựng. Ta có thể cân nhắc việc
loại bỏ biến carrier ra khỏi mô hình.

Ta xây dựng mô hình 2: là mô hình loại bỏ biến carrier ra khỏi mô hình 1.

Hình 35. Code R và kết quả khi xây dựng mô hình hồi quy tuyến tính Im_model_2.

Ta so sánh các mô hình 1 và mô hình 2:


Giả thuyết 𝐻0 : 𝛽1 = 𝛽2 =. . . = 𝛽10 = 0: Hai mô hình hiệu quả giống nhau (nghĩa là mô
hình 2 hiệu quả hơn mô hình 1)
Đối thuyết 𝐻1 : ∃𝛽1 ≠ 0, 𝑖 = 1, … ,10: Hai mô hình hiệu quả khác nhau (nghĩa là mô
hình 1 hiệu quả hơn mô hình 2)

Hình 36. Code R và kết quả khi so sánh 2 mô hình lm_model_1 và lm_model_2.

Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 2,2𝑒 − 16 rất bé so với
mức ý nghĩa 𝛼 = 0.05 nên ta bác bỏ gải thuyết 𝐻0, ta có thể kết luận 2 mô hình hiệu quả
khác nhau, tức có nghĩa là mô hình 1 hiệu quả hơn mô hình 2 (vì có ít nhất 1 hệ số
𝛽𝑖 có ý nghĩa thống kê nên mô hình đầy đủ là mô hình 1 sẽ hiệu quả hơn).
Ngoài ra, ta có thể dựa vào hệ số xác định hiệu chỉnh ở mô hình 1 (𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑𝑅 −
𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 0.8577) cao hơn so với mô hình 2 (𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 0.8548), chứng tỏ
sự biến thiên của biến arr_delay được giải thích nhiều hơn bởi các biến độc lập. Như
vậy mô hình 1 là mô hình hiệu quả hơn mô hình 2.

Phân tích sự tác động của các nhân tố lên việc lệch giờ đến:

Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ
đến được cho bởi:

𝑎𝑟𝑟̂_𝑑𝑒𝑙𝑎𝑦 = −2.750𝑒 − 01 + 6.322𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐴𝑆 + 7.521𝑒 − 02 ×


𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐵6 − 8.403𝑒 − 01 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐷𝐿 + 2.068𝑒 + 00 × 𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝐹9 + ⋯ − 2.890𝑒 + 00 ×
𝑐𝑎𝑟𝑟𝑖𝑒𝑟𝑊𝑁 + 3.192𝑒 − 01 × 𝑜𝑟𝑖𝑔𝑖𝑛𝑆𝐸𝐴 + 9.965𝑒 − 01 ×
𝑑𝑒𝑝𝑑𝑒𝑙𝑎𝑦 − 2.684𝑒 − 03 × 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒

Trước hết, ta thấy tằng p-value tương ứng với thống kê F bé hơn 2.2e-16, có ý nghĩa
rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải
thích rất cao đến việc lệch giờ bay đến arr_delay.

Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trong hệ số (hệ số 𝛽𝑖 ) và p-value
tương ứng. Ta thấy rằng p-value tương ứng với các biến carrierHA, carrierVX,
carrierWN, dep_delay, distance bé hơn 2e-16, điều này nói lên rằng ảnh hưởng của các
biến này có ý nghĩa rất cao lên việc lệch giờ đến ar_delay.
Mặt khác, hệ số hồi quy 𝛽𝑖 của một biến dự báo cũng có thể được xem như ảnh hưởng
trung bình lên biến phụ thuộc arr_delay khi tăng một đơn vị của biến dự báo đó, giả sử
rằng các biến dự báo khác không đổi, Cụ thể, 𝛽̂12 = 9.965𝑒 − 01 thì khi chênh lệch
giữa giờ bay tăng 1 phút ta có thể kỳ vọng chênh lệch giữa giờ đến sẽ tăng lên 9.965e-
01 phút (giả sử rằng các biến dự báo khác không đổi). Với , 𝛽̂13 = −2.684𝑒 − 03 thì
khi khoảng cách giữa 2 sân bay tăng 1 dặm, ta có thể kỳ vọng chênh lệch giờ đến sẽ
giảm -2.684e-03 phút (giả sử rằng các biến dự báo khác không đổi).
Hệ số 𝑅2hiệu chỉnh bằng 0.8577 nghĩa là 86.77% sự biến thiên trong việc lệch giờ đến
được giải thích bời các biến độc lập.

Kiểm tra các giả định của mô hình


Nhắc lại các giả định của mô hình hồi quy: 𝑌𝑖 = 𝛽0 + 𝛽1 . 𝑋1 + ⋯ 𝛽𝑖 . 𝑋𝑖 + 𝜖𝑖 , 𝑖 = 1, … 𝑛.

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính.

+ Sai số có kỳ vọng bằng 0

+ Phương sai của các sai số là hằng số.


+ Sai số có phân phối chuẩn.

+ Các sai số ϵ_1,…,ϵ_n thì độc lập nhau.

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 37. Code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình.

Ngoài ra, ta có thể vẽ từng đồ thị để nhìn rõ hơn:

Hình 38. Code R và kết quả khi vẽ đồ thị Residuals and fitted.
Hình 39. Code R và kết quả vẽ đồ thị QQ-plot.

Hình 40. Code R và kết quả khi vẽ đồ thị Scale-Location.


Hình 41. Code R và kết quả khi vẽ đồ thị Residual vs Leverage.

Nhận xét:

+ Đồ thị thứ 1 vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến
tính cỉa dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai cảu sai số là
hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng nằm ngang nên giả định tính
tuyến tính của dữ liệu thoả mãn. Đường màu đỏ nằm sát đường y=0 nên giả định sai số
có kỳ vọng bằng 0 thảo mãn. Các sai số không phân tán ngẫu nhiên dọc theo đường
mài đẻ mà phân tán thành cụm ở góc trái đồ thị nên giả định phương sai các số là hằng
số không thoả mãn.

+ Đồ thị thứ 2 vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối
chuẩn.

Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi dường thẳng kì vọng phân
phối chuẩn nên giả định sai số có phân phối chuẩn chưa thoả mãn.

+ Đồ thị thứ 3 vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả định
phương sai các sai số là hằng số.

Dựa trên đồ thị ta thấy, đường màu đỏ nằm ngang nhuhngư các quan trắc không phân
tán ngẫu nhiên dọc theo đường màu đỏ mà phân tán thành cụm ở góc trái đồ thị nên
giả định phương sai của các hằng số là không thoả mãn.
+ Đồ thị thứ 4 chỉ ra có các quan tắc thú 52723, 55299 và 120906 có thể là các điểm
có ảnh hưởng cao trong bộ dữ lệu. Tuy nhiên ta không thấy đường Cook ở góc đồ thị
bên phải và các điểm này cũng không vượt ra khỏi đường Cook nên các điểm này
không thực sự là điểm có ảnh hưởng cao, do đó ta không cần loại bỏ các điểm này khi
phân tích.
II.

You might also like