Professional Documents
Culture Documents
ĐỀ TÀI: 04
NHÓM 15
Y = X + β + ℇ
( n , 1) ( n , k ) ( k , 1) ( n , 1)
Với các giả thuyết, cần dựa vào dữ liệu ( Y i , X 2i , X 3 i , ,… , X ki), ( i = 1̅, n) quan sát
được để tìm ước lượng vector hệ số β= (β 1 , β 2 , … , β k )T của mô hình hồi quy bội.
Kí hiệu: β = ( β`1 , β`2 , … , β`k )T là ước lượng của β, khi đó ta có phương trình hồi
quy mẫu (SRF):
Y^ = β^1 , + ^
β 2 X 2i + ^
β3 X3i + … ^
β k X k i + ε^ ( i = 1 , n )
n
Ta cần tìm các hệ số ( β`1 , β`2 , … , β`k )T sao cho tổng các phần dư ∑ ε 1 đạt giá trị
2
i=1
nhỏ nhất.
∑ ε12= ∑ ¿¿ - ( β`1 + β`2 X 2i + β`3 X 3 i + … β`k X k i))
6. Các tính chất của ước lượng bình phương nhỏ nhất
Trong mô hình hồi quy bội có các tính chất như sau:
Đường hồi quy bội đi qua điểm (Y , X 2, X 3 , … , X k)
Y^ = Y
n
∑ ε1 =0
i=1
n
ui không tương quan với X p i ( p=2,3,…,k), ∑ ε 1 X pi = 0
i=1
n
Các ui không tương quan với Y^i: ∑ ε 1 Y^i = 0
i=1
β`1 là các ước lượng tuyến tính không lệch và có phương sai nhỏ nhất cho các β i
(i = 1 , k ).
7. Hệ số xác định bội và hệ số xác định hiệu chỉnh
Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát và giá trị trung
bình:
n
SST = SYY = ∑ (Y ¿¿ i−Y )2 ¿
i=1
Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Đo độ chính xác
của hàm hồi quy:
n
SS R = ∑ (Y ¿¿ i− Y )2 ¿
i=1
Tổng bình phương các phần dư (các sai số) giữa các giá trị quan sát Y và giá trị
nhận được từ hàm hồi quy:
n
SS E = ∑ (Y ¿¿ i− Y )2 ¿
i=1
SSr được chia làm hai phần: một phần do SS R và một phần do SSr = SS R+ SS E
Hệ số xác định độ phù hợp cho mô hình hồi quy tuyến tính bội kí hiệu: R2 được
2
SS R SS E
xác định bởi công thức: R = =1-
SS T SS T
Mô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải
thích được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng bằng
không. Vì vậy để kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần
kiểm định bài toán sau:
{ H 0 : β 2=β 3=...=β k =0
H 1: ∃ βi ≠ 0
Khi giả thuyết thống kê F có phân phối Fisher với k-1 và n-k bậc tự do. Vậy với
mức ý nghĩa ta có quy tắc kiểm định:
- Nếu F sq > F a(k-1, n-k) thì bác bỏ H 0.
Quan hệ giữa hệ số xác định R2 và thống kê F được diễn giải như sau:
2
R ¿(K − 1)
F=
Y ' Y − nY 2
Thống kế F cũng là tiêu chuẩn thống kê cho bài toán kiểm định.
8.2 Ước lượng khoảng cho hệ số hồi quy
Mục đích của phân tích hồi quy không phải chỉ suy đoán về β 1 , β 2 , … , β k mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của
β 1 , β 2 , … , β k. Các phânbố này phụ thuộc vào phân bố của các ℰ i.
Với các giả thiết OLS, ℰ i có phân phối N (0, σ 2). Các hệ số ước lượng tuân theo
phân phối chuẩn:
β`J ~ N ( β j , Se ¿))
^
βJ − β j
~ T (n - k)
Se ¿ ¿
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong
đó: k là số hệ số có trong phương trình hồi quy đa biến:
2 ∑ ε1
2
σ^ =
n−k
Ước lượng 2 phía ta tìm được t α / 2 (n −k ) thỏa mãn
^
β − βj
P ( −t α /2 (n − k ) ≤ J ≤ t α / 2 (n −k ) = 1 - α 3
Se ¿ ¿
Trong đó: t α / 2 (n −k ) là phân vị của phân phối student với (n-k) bậc tự do tương
ứng với mức ý nghĩa α /2
Khoảng tin cậy 1 - α của β j là:
[^
β J - t α / 2 (n −k )Se ¿; ^
β J + t α / 2 (n −k )Se ¿]
{
∗
H :β =β
Trường hợp 2: 0 i j∗ Miền bác bỏ: W =
H 1 : βi > β j
{
∗
H :β =β
Trường hợp 3: 0 i j∗ Miền bác bỏ: W = (-∞;
H 1 : βi < β j
So sánh xác xuất ý nghĩa p với mức ý nghĩa α đã định trước như sau:
Với bài toán 1, nếu p≤α thì bác bỏ giả thuyết H 0, còn nếu p>α thì chấp nhận H 0
Với bài toán 2 và 3, nếu p/2 ≤α thì bác bỏ giả thuyết H 0, còn nếu p/2 >α thì
chấp nhận H 0.
setwd("C:/")
dt<-read.csv("audi.csv")
dt
gia_xeaudi <-dt[,c("price","mileage","tax","mpg","engineSize")]
head(gia_xeaudi,10)
2. Làm sạch dữ liệu:
→ Kết quả integer(0)
→ không có dữ liệu bị khuyết
3. Làm rõ các dữ liệu:
a) Thống kê các định lượng:
Tính các giá trị thống kê mô tả ( trung bình, độ lệch chuẩn, trung vị, max, min,
Q1 và Q3) cho các biến “price”, “mileage”, “mpg”, “enginesize”. Xuất kết
quả dưới dạng bảng
mean<-apply(gia_xeaudi,2,mean)
sd<-apply(gia_xeaudi,2,sd)
median<-apply(gia_xeaudi,2,median)
Q1<-apply(gia_xeaudi,2,quantile,probs=0.25)
Q3<-apply(gia_xeaudi,2,quantile,probs=0.75)
max<-apply(gia_xeaudi,2,max)
min<-apply(gia_xeaudi,2,min)
otput<-cbind(mean,median,sd,min,max,Q1,Q3
b) Biểu đồ phân phối tần số của biến price: Vẽ biểu đồ Histogram thể hiện phân
phối của biến price.
hist(gia_xeaudi$price,xlab="price",main="Histogram of
price",ylim=c(0,6000),col="blue",labels=T)
Nhận xét: Dựa vào biểu đồ Histogram của biến price, ta nhận thấy phân phối
của biến price có xu hướng lệch phải, cho thấy phần lớn chiếc xe có giá trị gần
bằng nhau và chỉ có một phần ít những chiếc xe có giá trị cao hơn. Giá trị của
biến price tập trung phần lớn ở khoảng từ 3000-5000 và tập trung ít ở hai đầu.
c) Phân phối của biến cho từng nhóm phân loại của biến:
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến mileage
*Nhận xét: Dựa vào đồ thị phân tán của biến price và tax, ta chưa nhận thấy rõ
mối quan hệ tuyến tính giữa 2 biến.
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến mpg
Nhận xét: Dựa vào đồ thị phân tán của biến price và mpg, ta có thể nhận
thấy được mối quan hệ tuyến tính giữa 2 biến, tuy nhiên mối quan hệ này
chưa thực sự rõ ràng.
Vẽ đồ thị phân tán thể hiện phân phối của biến price theo biến engineSize
plot(price~engineSize,data=gia_xeaudi,xlab="engineSize",ylab="price",main="Plot of price and
engineSize",col="blue
Nhận xét: Dựa vào đồ thị phân tán của biến price và enginesize ta chưa nhận ra
được mối quan hệ tuyến tính giữa 2 biến này.
4. Xây dựng mô hình hồi quy tuyến tính nhằm mục đích đánh giá các nhân
tố có thể ảnh hưởng đến giá xe Audi.
Mô hình hồi quy tuyến tính bao gồm:
Biến phụ thuộc: price
Biến độc lập: mileage, tax, mpg, enginesize
Mô hình được biểu diễn như sau: price = β0 +β1 × mileage+β2 ×tax+β3 ×
mpg + β4 × egineSize + ε
model_1<-lm(price~mileage+tax+mpg+engineSize,data=gia_xeaudi)
summary(model_1)
Nhận xét:
Từ kết quả thu được ta có đường thẳng hồi quy ước lượng bởi phương
trình:
Residuals (sai số hồi quy): là khoảng chênh lệch giữa giá trị thực tế và giá trị
dự báo tìm được từ phương trình hồi quy. Ta lấy lần lượt các giá trị thực
nghiệm của các biến độc lập thay vào phương trình hồi quy để tính được giá trị
price dự báo. Tiếp theo ta lấy giá trị price thực tế trừ đi giá trị price dự báo ở
từng quan sát sẽ thu được sai số hồi quy. Dựa vào dữ liệu thống kê, ta thấy có
tổng cộng 10668 quan sát nên sẽ có 10668 sai số hồi quy ứng với mỗi quan sát.
R2 và R2 hiệu chỉnh: R2 = 0.7221 ; R2 hiệu chỉnh = 0.722. Chúng đều có cùng
ý nghĩa giải thích sự biến thiên của một biến phụ thuộc bởi bao nhiêu % từ sự
biến thiên các biến độc lập. Từ kết quả phân tích ta thấy giá trị R hiệu chỉnh
bằng 0.722. Nghĩa là trong 100% sự biến thiên của biến price thì có 72.2%
nguyên nhân là do các biến độc lập (mileage, tax, mpg, enginesize )gây nên. Và
27.8% còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc lập khác
chưa đưa vào mô hình.
Kiểm định các giả định của mô hình bằng đồ thị phần dư:
Các giả định của mô hình hồi quy: Yi = β0 + X1B1 + ... + XiBi , i = 1, ... n
Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc
Y được giả sử là tuyến tính.Các sai số có kì vọng bằng 0.Phương sai của các sai
số là hằng số. - Sai số có phân phối chuẩn. - Các sai số ε1, ... ,εn thì độc lập với
nhau. Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình.
Các giả định bao gồm:
- Giả định 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến độc lập
và biến phụ thuộc được giả sử là tuyến tính.
- Giả định 2: Sai số có phân phối chuẩn.
- Giả định 3: Phương sai của các sai số là hằng số và có kì vọng bằng 0.
- Giả định 4: Các sai số độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:
Plot(model_1)
Nhận xét:
Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị sai số hồi quy tương ứng
với các giá trị dự báo, dùng để kiểm tra 3 giả định: tính tuyến tính của dữ liệu
(giả định 1), phương sai các sai số là hằng số và có kỳ vọng bằng 0 (giả định
3). Nhìn đồ thị ta thấy đường màu đỏ là đường cong, không phải đường
nằm ngang nên (giả định 1) Y có quan hệ tuyến tính với các biến độc lập
chưa thỏa mãn. Đường màu đỏ chưa nằm sát đường Y=0 và các điểm sai
số không phân tán đều đường Y=0 nên ( giả định 3 ) phương sai của sai số
là hằng số và có kỳ vọng =0 không được thỏa mãn.
Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn
của các sai số. Ta thấy có nhiều điểm sai số không nằm trên đường kì vọng
phân phối chuẩn. Nên (giả định 2) sai số có phân phối chuẩn là chưa được
thỏa mãn.
Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư
được chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3
(phương sai của các sai số là hằng số). Nếu như đường màu đỏ trên đồ thị là
đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh đường
thẳng này thì giả định thứ 3 được thỏa. Nếu như đường màu đỏ có độ dốc (hoặc
cong) hoặc các điểm thặng dư phân tán không đều xung quanh đường thẳng
này, thì giả định thứ 3 bị vi phạm. Ta thấy rằng các giá trị sai số trong đồ thị
không phân tán đều xung quanh và đường màu đỏ không nằm ngang nên
giả định về phương sai của các sai số là hằng số không được thỏa mãn.
Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có
ảnh hưởng cao trong bộ dữ liệu, ta thấy không có điểm nào vượt ra khỏi đường
Cook’s distance nên không cần phải loại bỏ điểm nào hết.
5. Dự báo
Xây dựng dự báo cho X1 ( sử dụng giá trị trung bình )
X1=data.frame(mileage=mean(gia_xeaudi$mileage),tax=mean
(gia_xeaudi$tax) ,mpg=mean(gia_xeaudi$mpg),engineSize=mean(gia_xeaudi$engineSize))
> predict_X1 = predict(model_1,X1,interval="confidence")
> predict_X1
X2 = data.frame(mileage=max(gia_xeaudi$mileage),tax=max(gia_xeaudi$tax),
mpg=max(gia_xeaudi$mpg),engineSize = max(gia_xeaudi$engineSize))
> predict_X2 = predict(model_1,X2,interval="confidence")
> predict_X2
Tạo bảng so sánh:
predapply(is.na(gia_xeaudi),2,which)
= data.frame(rbind(predict_X1,predict_X2))
rownames(pred)=c("X1","X2")
pred$range = pred$upr - pred$lwr
pred
Nhận xét:
Ta thấy độ dài khoảng tin cậy cho cho giá xe Audi trung bình ở thuộc tính
X1=234.4281 bé hơn so với thuộc tính X2 =5335.3973. Do đó đối với thuộc
tính X1(sử dụng giá trị trung bình) cho kết quả dự báo chính xác hơn. Khi dự
báo giá xe ta nên dung các giá trị trung bình ( mean ) của các biến độc lập
( mileage, tax, mpg, enginesize) thay vì dùng các giá trị lớn nhất (max)
của các biến định lượng.