You are on page 1of 20

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

XÁC SUẤT THỐNG KÊ


BÁO CÁO BÀI TẬP LỚN

ĐỀ TÀI: 04
NHÓM 15

Giảng viên hướng dẫn: TS.Nguyễn Bá Thi

DANH SÁCH NHÓM

STT Họ và tên MSSV Lớp Ngành học


1 Trần Toàn Thuận 2213366
2 Huỳnh Công Thoại 2213315
3 Trần Đức Thịnh 2213310
4 Nguyễn Nhật Tiến 2213463

TP. Hồ Chí Minh, 10/2023


BÁO CÁO KẾT QUẢ LÀM VIỆC NHÓM

STT Họ và tên MSSV Lớp Nhiệm vụ được % hoàn


phân công thành
1 Trần Toàn Thuận 2213366 100%
2 Huỳnh Công Thoại 2213315 100%
3 Trần Đức Thịnh 2213310 100%
4 Nguyễn Nhật Tiến 2213463 100%
MỤC LỤ
C
Phần 1. Cơ sở lí thuyết......................................................................................3
1. Hồi quy tuyến tính.........................................................................................3
2. Mô hình tuyến tính bội..................................................................................4
2.1 Một số khái niệm về mô hình tuyến tính bội.........................................4
2.2 Mục đích hồi quy tuyến tính bội............................................................4
3. Các dạng mô hình hồi quy tuyến tinh bội...................................................4
3.1 Dạng quan sát của mô hình.........................................................................4
3.2 Dạng ma trận của mô hình..........................................................................5
4. Một số giả thuyết cơ bản liên quan..............................................................5
4.1 Giả thuyết 1.............................................................................................5
4.2 Giả thuyết 2.............................................................................................6
4.3 Giả thuyết 3.............................................................................................6
5. Ước lượng tham số của mô hình hồi quy bằng OLS..................................6
6. Các tính chất của ước lượng bình phương nhỏ nhất..................................6
7. Hệ số xác định bội và hệ số xác định hiệu chỉnh.........................................7
8. Hệ số hồi quy..................................................................................................8
8.1 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F...........................8
8.2 Ước lượng khoảng cho hệ số hồi quy..........................................................9
8.3 Kiểm định giả thuyết cho các hệ số hồi quy................................................9
9. Dự báo mô hình hồi quy tuyến tính bội.....................................................10
Phần 2. Thực hiện, giải quyết bài toán..........................................................10
1. Nhập dữ liệu.................................................................................................10
2. Làm sạch dữ liệu..........................................................................................10
3. Làm rõ các dữ liệu.......................................................................................11
4. Xây dựng mô hình hồi quy tuyến tính nhằm mục đích đánh giá các nhân
tố có thể ảnh hưởng đến giá xe Audi..............................................................14
5. Dự báo...........................................................................................................18
TÀI LIỆU THAM KHẢO...............................................................................19
ĐỀ TÀI
Phần 1. Cơ sở lí thuyết
1. Hồi quy tuyến tính
Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa
một biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mô hình với một
biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay
còn gọi là hồi quy đa biến). Ví dụ: Chỉ tiêu của hộ gia đình về thực phẩm phụ
thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý…; Tỷ lệ tử vong trẻ em
của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo
dục,...; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…
2. Mô hình tuyến tính bội
2.1 Một số khái niệm về mô hình tuyến tính bội
Hồi quy là một mô hình thống kê được sử dụng để dự đoán giá trị của biến
phụ thuộc (dependence variable) hay còn gọi là biến kết quả dựa vào những giá
trị của ít nhất 1 biến độc lập (independence variable) hay còn gọi là biến
nguyên nhân. Nếu mô hình hồi quy phân tích sự phụ thuộc của 1 biến phụ
thuộc vào 1 biến độc lập gọi là hồi quy đơn, nếu có nhiều biến độc lập gọi là
hồi quy bội. Hồi quy tuyến tính là mô hình hồi quy trong đó mối quan hệ giữa
các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp
nhất với dữ liệu). Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến
tính bội. Thuật ngữ tuyến tính dùng để chỉ các bản chất của các thông số của
tổng thể là tuyến tính (bậc nhất). Nó có thể được sử dụng cho các trường hợp
chúng ta muốn dự đoán một số lượng liên tục.
2.2 Mục đích hồi quy tuyến tính bội
Mục tiêu của giải thuật hồi quy tuyến tính là dự đoán giá trị của một hoặc
nhiều biến mục tiêu liên tục (continuous target variable) Y dựa trên một véc-tơ
đầu vào X. Về cơ bản thì ta sẽ có một tập huấn luyện chứa các cặp X, Y tương
ứng và nhiệmvụ của ta là phải tìm giá trị Y ứng với một đầu vào X mới. Để
làm điều này ta cần tìm được quan hệ giữa X và V để từ đó đưa ra được dự
đoán. Hay nói cách trừu tượng hơn là ta cần vẽ được smột đường quan hệ thể
hiện mối quan hệ trong tập dữ liệu.
3. Các dạng mô hình hồi quy tuyến tinh bội
3.1 Dạng quan sát của mô hình
Y i= β 1+ β 2 X 2i + β 3 X 3 i… + β k X k i + ℰ i ∀ i, i = 1,2,… ,n

Trong đó: (ℰ i ¿ = 0, E( ℰi| X 2i , X 3 i, … , X ki ,) = 0


Cov (ℰ i , ℰ j) ∀ i ≠ j
Cov ( X 2 i , ℰi)= 0, Cov ( X ki , ℰi )= 0
Y: là biến phụ thuộc
X 2 , X 3 ,,…, X k là các biến độc lập
Y i , X 2i , X 3 i , ,… , X ki là các quan sát thứ i của Y , X 2 , X 3 , … , X k.
β 1là hệ số chặn ( hệ số tự do )
β 2 , β 3 , … , β k là các hệ số hồi quy riêng hay còn gọi là hệ số của các biến độc lập
ℰ i là sai số ngẫu nhiên có kì vọng 0 và phương sai σ 2.
Mục tiêu: ước lượng những tham số β 1 , β 2 , … , β k
3.2 Dạng ma trận của mô hình

Y = X + β + ℇ
( n , 1) ( n , k ) ( k , 1) ( n , 1)

Trong đó: Y là n- vector quan sát.


X là ma trận cấp n.p của các biến độc lập ( p=k +1).
β là p vector các hệ số hồi quy.
ε là n vector sai số ngẫu nhiên.
4. Một số giả thuyết cơ bản liên quan
4.1 Giả thuyết 1
Ma trận ngẫu nhiên có kì vọng bằng 0.
( )()
E ( ℇ 1) 0
E ( ℇ 2) 0
... = ...
E(ℇ ¿ = 0
E ( ℇ i)
... ...
E ( ℇ n) 0

4.2 Giả thuyết 2


Các thành phần trong ma trận là không tương quan, tức là ( ℰ i , ℰ j) = 0, i ≠ j (
ℰ i , ℰ j)= σ 2

4.3 Giả thuyết 3


Các ℰ i có phân bố chuẩn N (0, σ 2) ( i = 1̅,n) hoặc có thể viết dưới dạng:
E( ℰℰ T )= σ 2I với I là ma trận đơn vị câp n.
5. Ước lượng tham số của mô hình hồi quy bằng OLS
Ta đặt: Y i ký hiệu giá trị thực của biến y tại quan sát iY^i ký hiệu giá trị của hàm
hồi quy mẫu
ℰ i ký hiệu phần dư Y i- 0.Y^i

Với các giả thuyết, cần dựa vào dữ liệu ( Y i , X 2i , X 3 i , ,… , X ki), ( i = 1̅, n) quan sát
được để tìm ước lượng vector hệ số β= (β 1 , β 2 , … , β k )T của mô hình hồi quy bội.
Kí hiệu: β = ( β`1 , β`2 , … , β`k )T là ước lượng của β, khi đó ta có phương trình hồi
quy mẫu (SRF):
Y^ = β^1 , + ^
β 2 X 2i + ^
β3 X3i + … ^
β k X k i + ε^ ( i = 1 , n )
n
Ta cần tìm các hệ số ( β`1 , β`2 , … , β`k )T sao cho tổng các phần dư ∑ ε 1 đạt giá trị
2

i=1

nhỏ nhất.
∑ ε12= ∑ ¿¿ - ( β`1 + β`2 X 2i + β`3 X 3 i + … β`k X k i))
6. Các tính chất của ước lượng bình phương nhỏ nhất
Trong mô hình hồi quy bội có các tính chất như sau:
Đường hồi quy bội đi qua điểm (Y , X 2, X 3 , … , X k)
Y^ = Y
n

∑ ε1 =0
i=1

n
ui không tương quan với X p i ( p=2,3,…,k), ∑ ε 1 X pi = 0
i=1

n
Các ui không tương quan với Y^i: ∑ ε 1 Y^i = 0
i=1

β`1 là các ước lượng tuyến tính không lệch và có phương sai nhỏ nhất cho các β i

(i = 1 , k ).
7. Hệ số xác định bội và hệ số xác định hiệu chỉnh
Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát và giá trị trung
bình:
n
SST = SYY = ∑ (Y ¿¿ i−Y )2 ¿
i=1

Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Đo độ chính xác
của hàm hồi quy:
n
SS R = ∑ (Y ¿¿ i− Y )2 ¿
i=1

Tổng bình phương các phần dư (các sai số) giữa các giá trị quan sát Y và giá trị
nhận được từ hàm hồi quy:
n
SS E = ∑ (Y ¿¿ i− Y )2 ¿
i=1

SSr được chia làm hai phần: một phần do SS R và một phần do SSr = SS R+ SS E
Hệ số xác định độ phù hợp cho mô hình hồi quy tuyến tính bội kí hiệu: R2 được

2
SS R SS E
xác định bởi công thức: R = =1-
SS T SS T

Tính chất của hệ số xác định R2 có tính chất sau:


0 ≤ R2 ≤ 1
- Nếu R2= 1 khi đó đường hồi quy giải thích 100% sự thay đổi của Y bởi vì khi đó:
- Nếu R2= 0 khi đó mô hình không giải thích được sự thay đổi của Y .
- Nếu số biến độc lập càng tăng thì hệ số R2 càng lớn, hay nói cách khác R2 là một
hàm tăng theo biến giải thích. Tính phù hợp của mô hình hồi quy tăng lên khi có
nhiều biến giải thích trong mô hình. Tuy nhiên người ta luôn muốn dùng một số
lượng biến giải thích vừa đủ sao cho vẫn có được mô hình phù hợp mà không quá
tốn kém khi phải thu thập thông tin của nhiều biến giải thích. Hơn nữa nhiều khi
đưa thêm một số biến độc lập vào mô hình thì tác động riêng phần của các biến
độc lập đó tới biến phụ thuộc thật sự không có ý nghĩa thống kê. Cần có tiêu chuẩn
đánh giá sự phù hợp của mô hình, trong đó có cân nhắc đến số lượng biến giải
thích của mô hình. Một trong số các tiêu chuẩn như vậy là hệ số xác định hiệu
chỉnh R2 của R2.
2 ( n− 1)
R = 1 − (1 − R2)
(n − k )
R có các tính chất như sau:
2

- Nếu k >1 thì R2 ≤ R2 ≤ 1


Khi số biến độc lập k-1 tăng lên thì R cũng tăng nhưng tăng chậm so với R2
R ≥ 0 nhưng R có thể âm. Khi R nhận giá trị âm thì để cho tiện, thường thì
2 2 2

người ta lại gán cho nó giá trị bằng 0.


8. Hệ số hồi quy
8.1 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F
Trong mô hình hồi quy bội
Y i= β 1+ β 2 X 2i + β 3 X 3 i… + β k X ki + ℰ i ∀ i, i = 1,2,… ,n

Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải
thích được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng bằng
không. Vì vậy để kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần
kiểm định bài toán sau:

{ H 0 : β 2=β 3=...=β k =0
H 1: ∃ βi ≠ 0

Khi giả thuyết thống kê F có phân phối Fisher với k-1 và n-k bậc tự do. Vậy với
mức ý nghĩa ta có quy tắc kiểm định:
- Nếu F sq > F a(k-1, n-k) thì bác bỏ H 0.
Quan hệ giữa hệ số xác định R2 và thống kê F được diễn giải như sau:
2
R ¿(K − 1)
F=
Y ' Y − nY 2
Thống kế F cũng là tiêu chuẩn thống kê cho bài toán kiểm định.
8.2 Ước lượng khoảng cho hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β 1 , β 2 , … , β k mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của
β 1 , β 2 , … , β k. Các phânbố này phụ thuộc vào phân bố của các ℰ i.

Với các giả thiết OLS, ℰ i có phân phối N (0, σ 2). Các hệ số ước lượng tuân theo
phân phối chuẩn:
β`J ~ N ( β j , Se ¿))
^
βJ − β j
~ T (n - k)
Se ¿ ¿
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong
đó: k là số hệ số có trong phương trình hồi quy đa biến:
2 ∑ ε1
2
σ^ =
n−k
Ước lượng 2 phía ta tìm được t α / 2 (n −k ) thỏa mãn
^
β − βj
P ( −t α /2 (n − k ) ≤ J ≤ t α / 2 (n −k ) = 1 - α 3
Se ¿ ¿
Trong đó: t α / 2 (n −k ) là phân vị của phân phối student với (n-k) bậc tự do tương
ứng với mức ý nghĩa α /2
Khoảng tin cậy 1 - α của β j là:
[^
β J - t α / 2 (n −k )Se ¿; ^
β J + t α / 2 (n −k )Se ¿]

8.3 Kiểm định giả thuyết cho các hệ số hồi quy


Tiêu chuẩn kiểm định: t i = β j - β j∗
{

H 0 : β i= β j
Trường hợp 1: Miền bác bỏ: W = (-∞;
H 1 : β i ≠ β j∗

{

H :β =β
Trường hợp 2: 0 i j∗ Miền bác bỏ: W =
H 1 : βi > β j

{

H :β =β
Trường hợp 3: 0 i j∗ Miền bác bỏ: W = (-∞;
H 1 : βi < β j

So sánh xác xuất ý nghĩa p với mức ý nghĩa α đã định trước như sau:
Với bài toán 1, nếu p≤α thì bác bỏ giả thuyết H 0, còn nếu p>α thì chấp nhận H 0
Với bài toán 2 và 3, nếu p/2 ≤α thì bác bỏ giả thuyết H 0, còn nếu p/2 >α thì
chấp nhận H 0.

9. Dự báo mô hình hồi quy tuyến tính bội


Một trong những ứng dụng quan trọng của hồi quy là dự báo, bài toán đặt
ra là dựa vào mô hình hồi quy hãy dự báo giá trị của Y khi biết giá trị của X là
X*. Xét mô hình hồi quy:
Y^ = ^β + ^
β2 X2 + ^
β3 X3 + … ^
β k X k = X’ ^β

Với X = ( X 1 + X 2 +…+ X k)’; ^β = ( ^


β1 + ^
β 2 +…+ ^ β k )’
∗ ∗ ∗ ∗
Cho trước giá trị của các biến độc lập X = (1, X 1 , X 2 ,…, X k ) khi đó giá trị dự
báo của Y là Y ∗.

Phần 2. Thực hiện, giải quyết bài toán


1. Nhập dữ liệu:

setwd("C:/")
dt<-read.csv("audi.csv")
dt
gia_xeaudi <-dt[,c("price","mileage","tax","mpg","engineSize")]
head(gia_xeaudi,10)
2. Làm sạch dữ liệu:
→ Kết quả integer(0)
→ không có dữ liệu bị khuyết
3. Làm rõ các dữ liệu:
a) Thống kê các định lượng:
Tính các giá trị thống kê mô tả ( trung bình, độ lệch chuẩn, trung vị, max, min,
Q1 và Q3) cho các biến “price”, “mileage”, “mpg”, “enginesize”. Xuất kết
quả dưới dạng bảng
mean<-apply(gia_xeaudi,2,mean)
sd<-apply(gia_xeaudi,2,sd)
median<-apply(gia_xeaudi,2,median)
Q1<-apply(gia_xeaudi,2,quantile,probs=0.25)
Q3<-apply(gia_xeaudi,2,quantile,probs=0.75)
max<-apply(gia_xeaudi,2,max)
min<-apply(gia_xeaudi,2,min)
otput<-cbind(mean,median,sd,min,max,Q1,Q3

b) Biểu đồ phân phối tần số của biến price: Vẽ biểu đồ Histogram thể hiện phân
phối của biến price.
hist(gia_xeaudi$price,xlab="price",main="Histogram of
price",ylim=c(0,6000),col="blue",labels=T)

Nhận xét: Dựa vào biểu đồ Histogram của biến price, ta nhận thấy phân phối
của biến price có xu hướng lệch phải, cho thấy phần lớn chiếc xe có giá trị gần
bằng nhau và chỉ có một phần ít những chiếc xe có giá trị cao hơn. Giá trị của
biến price tập trung phần lớn ở khoảng từ 3000-5000 và tập trung ít ở hai đầu.

c) Phân phối của biến cho từng nhóm phân loại của biến:
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến mileage

plot(price~mileage,data=gia_xeaudi,xlab="mileage",ylab="price",main="Plot of price and


mileage",col="blue")
Nhận xét: Dựa vào đồ thị phân tán của biến price và mileage, ta có thể thấy
được mối quan hệ tuyến tính giữa 2 biến này, nhưng mối quan hệ tuyến tính
giữa 2 biến này là chưa rõ ràng.
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến tax

plot(price~tax,data=gia_xeaudi,xlab="tax",ylab="price",main="Plot of price and tax",col="blue")

*Nhận xét: Dựa vào đồ thị phân tán của biến price và tax, ta chưa nhận thấy rõ
mối quan hệ tuyến tính giữa 2 biến.
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến mpg

plot(price~mpg,data=gia_xeaudi,xlab="mpg",ylab="price",main="Plot of price and mpg",col="blue")

Nhận xét: Dựa vào đồ thị phân tán của biến price và mpg, ta có thể nhận
thấy được mối quan hệ tuyến tính giữa 2 biến, tuy nhiên mối quan hệ này
chưa thực sự rõ ràng.
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến engineSize
plot(price~engineSize,data=gia_xeaudi,xlab="engineSize",ylab="price",main="Plot of price and
engineSize",col="blue
Nhận xét: Dựa vào đồ thị phân tán của biến price và enginesize ta chưa nhận ra
được mối quan hệ tuyến tính giữa 2 biến này.

4. Xây dựng mô hình hồi quy tuyến tính nhằm mục đích đánh giá các nhân
tố có thể ảnh hưởng đến giá xe Audi.
Mô hình hồi quy tuyến tính bao gồm:
Biến phụ thuộc: price
Biến độc lập: mileage, tax, mpg, enginesize
Mô hình được biểu diễn như sau: price = β0 +β1 × mileage+β2 ×tax+β3 ×
mpg + β4 × egineSize + ε

model_1<-lm(price~mileage+tax+mpg+engineSize,data=gia_xeaudi)
summary(model_1)
Nhận xét:
Từ kết quả thu được ta có đường thẳng hồi quy ước lượng bởi phương
trình:
Residuals (sai số hồi quy): là khoảng chênh lệch giữa giá trị thực tế và giá trị
dự báo tìm được từ phương trình hồi quy. Ta lấy lần lượt các giá trị thực
nghiệm của các biến độc lập thay vào phương trình hồi quy để tính được giá trị
price dự báo. Tiếp theo ta lấy giá trị price thực tế trừ đi giá trị price dự báo ở
từng quan sát sẽ thu được sai số hồi quy. Dựa vào dữ liệu thống kê, ta thấy có
tổng cộng 10668 quan sát nên sẽ có 10668 sai số hồi quy ứng với mỗi quan sát.
R2 và R2 hiệu chỉnh: R2 = 0.7221 ; R2 hiệu chỉnh = 0.722. Chúng đều có cùng
ý nghĩa giải thích sự biến thiên của một biến phụ thuộc bởi bao nhiêu % từ sự
biến thiên các biến độc lập. Từ kết quả phân tích ta thấy giá trị R hiệu chỉnh
bằng 0.722. Nghĩa là trong 100% sự biến thiên của biến price thì có 72.2%
nguyên nhân là do các biến độc lập (mileage, tax, mpg, enginesize )gây nên. Và
27.8% còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc lập khác
chưa đưa vào mô hình.

Kiểm định các giả định của mô hình bằng đồ thị phần dư:
Các giả định của mô hình hồi quy: Yi = β0 + X1B1 + ... + XiBi , i = 1, ... n
Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc
Y được giả sử là tuyến tính.Các sai số có kì vọng bằng 0.Phương sai của các sai
số là hằng số. - Sai số có phân phối chuẩn. - Các sai số ε1, ... ,εn thì độc lập với
nhau. Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình.
Các giả định bao gồm:
- Giả định 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến độc lập
và biến phụ thuộc được giả sử là tuyến tính.
- Giả định 2: Sai số có phân phối chuẩn.
- Giả định 3: Phương sai của các sai số là hằng số và có kì vọng bằng 0.
- Giả định 4: Các sai số độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Plot(model_1)
Nhận xét:
Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị sai số hồi quy tương ứng
với các giá trị dự báo, dùng để kiểm tra 3 giả định: tính tuyến tính của dữ liệu
(giả định 1), phương sai các sai số là hằng số và có kỳ vọng bằng 0 (giả định
3). Nhìn đồ thị ta thấy đường màu đỏ là đường cong, không phải đường
nằm ngang nên (giả định 1) Y có quan hệ tuyến tính với các biến độc lập
chưa thỏa mãn. Đường màu đỏ chưa nằm sát đường Y=0 và các điểm sai
số không phân tán đều đường Y=0 nên ( giả định 3 ) phương sai của sai số
là hằng số và có kỳ vọng =0 không được thỏa mãn.
Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn
của các sai số. Ta thấy có nhiều điểm sai số không nằm trên đường kì vọng
phân phối chuẩn. Nên (giả định 2) sai số có phân phối chuẩn là chưa được
thỏa mãn.
Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư
được chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3
(phương sai của các sai số là hằng số). Nếu như đường màu đỏ trên đồ thị là
đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh đường
thẳng này thì giả định thứ 3 được thỏa. Nếu như đường màu đỏ có độ dốc (hoặc
cong) hoặc các điểm thặng dư phân tán không đều xung quanh đường thẳng
này, thì giả định thứ 3 bị vi phạm. Ta thấy rằng các giá trị sai số trong đồ thị
không phân tán đều xung quanh và đường màu đỏ không nằm ngang nên
giả định về phương sai của các sai số là hằng số không được thỏa mãn.
Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có
ảnh hưởng cao trong bộ dữ liệu, ta thấy không có điểm nào vượt ra khỏi đường
Cook’s distance nên không cần phải loại bỏ điểm nào hết.
5. Dự báo
Xây dựng dự báo cho X1 ( sử dụng giá trị trung bình )
X1=data.frame(mileage=mean(gia_xeaudi$mileage),tax=mean
(gia_xeaudi$tax) ,mpg=mean(gia_xeaudi$mpg),engineSize=mean(gia_xeaudi$engineSize))
> predict_X1 = predict(model_1,X1,interval="confidence")
> predict_X1

Xây dựng dự báo cho X2: ( sử dụng giá trị max)

X2 = data.frame(mileage=max(gia_xeaudi$mileage),tax=max(gia_xeaudi$tax),
mpg=max(gia_xeaudi$mpg),engineSize = max(gia_xeaudi$engineSize))
> predict_X2 = predict(model_1,X2,interval="confidence")
> predict_X2
Tạo bảng so sánh:

predapply(is.na(gia_xeaudi),2,which)
= data.frame(rbind(predict_X1,predict_X2))
rownames(pred)=c("X1","X2")
pred$range = pred$upr - pred$lwr
pred

Nhận xét:
Ta thấy độ dài khoảng tin cậy cho cho giá xe Audi trung bình ở thuộc tính
X1=234.4281 bé hơn so với thuộc tính X2 =5335.3973. Do đó đối với thuộc
tính X1(sử dụng giá trị trung bình) cho kết quả dự báo chính xác hơn. Khi dự
báo giá xe ta nên dung các giá trị trung bình ( mean ) của các biến độc lập
( mileage, tax, mpg, enginesize) thay vì dùng các giá trị lớn nhất (max)
của các biến định lượng.

TÀI LIỆU THAM KHẢO


100,000 UK Used Car Data set | Kaggle

You might also like