You are on page 1of 41

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA KỸ THUẬT XÂY DỰNG


BÁO CÁO BÀI TẬP LỚN


MÔN HỌC XÁC SUẤT - THỐNG KÊ
ĐỀ TÀI 4
LỚP L02--- NHÓM N10 --- HK221

Giảng viên hướng dẫn: HOÀNG VĂN HÀ


Sinh viên thực hiện Mã số sinh viên Khoa Ký Tên
Nguyễn Hữu Quang Minh 2114056 Kỹ thuật xây dựng
Lý An 2112734 Kỹ thuật xây dựng
Lê Hồ Mỹ Giang 2113252 Kỹ thuật xây dựng
Lý Hữu Tài 2114685 Kỹ thuật xây dựng
Nguyễn Phi Hoàng 1913444 Kỹ thuật xây dựng

Thành phố Hồ Chí Minh – 12/2022


DANH SÁCH NHÓM N10 LỚP L02
MÔN HỌC XÁC SUẤT - THỐNG KÊ

Sinh viên thực hiện Mã số sinh viên Hoàn thành Điểm Ghi chú

Nguyễn Hữu Quang Minh 2114056 100% Nhóm trưởng

Lý An 2112734 100%

Lê Hồ Mỹ Giang 2113252 100%

Lý Hữu Tài 2114685 100%

Nguyễn Phi Hoàng 1913444 100%


MỤC LỤC
I. CƠ SỞ LÝ THUYẾT.........................................................................................1
1. Giới thiệu mô hình hồi quy tuyến tính bội.......................................................1
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội...........................1
2.1. Hàm hồi quy..............................................................................................1
2.2. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares).................2
2.3. Độ phù hợp của mô hình............................................................................3
2.4. Kiểm định giả thuyết đối với 𝜷𝒋.................................................................3
2.5. Kiểm định ý nghĩa của mô hình.................................................................4
II. PHẦN TÍNH TOÁN...........................................................................................5
1. HOẠT ĐỘNG 1..............................................................................................5
1.1. Đề bài........................................................................................................5
1.2. Thực hiện...................................................................................................6
1.2.1. Đọc dữ liệu (Import data): house_price.csv........................................6
1.2.2. Làm sạch dữ liệu (Data cleaning)........................................................6
1.2.3. Làm rõ dữ liệu: (Data visualization)...................................................7
1.2.4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể
ảnh hưởng đến giá nhà ở quận King..............................................................16
1.2.5. Thực hiện dự báo cho giá nhà quận King..........................................20
2. HOẠT ĐỘNG 2............................................................................................22
2.1. Đề bài......................................................................................................22
2.2. Thực hiện.................................................................................................24
2.2.1. Đọc dữ liệu (Import Data).................................................................24
2.2.2. Làm sạch dữ liệu (Data cleaning)......................................................24
2.2.3. Làm rõ dữ liệu (data visualization)...................................................25
2.2.4. Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression
models)..........................................................................................................33
2.2.5. Dự báo (Predictions).........................................................................36
TÀI LIỆU THAM KHẢO........................................................................................38
I. CƠ SỞ LÝ THUYẾT

1. Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β 2 X 2+ β3 X 3 +…+ β k X k + ε
Trong đó:
o Y: biến phụ thuộc
o Xi: biến độc lập
o β1: hệ số tự do (hệ số chặn)
o βi: hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y
với điều kiện các biến số khác trong mô hình không đổi. Cụ thể hơn, nếu
các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng β i
đơn vị nếu Xi tăng 1 đơn vị 𝜀: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ
thuộc (Y) dựa trên giá trị của biến độc lập (X). Nó có thể được sử dụng cho các
trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự đoán thời gian
người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào
đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là
ước lượng các tham số của tổng thể: β1, β2, …, βk.

2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội

2.1. Hàm hồi quy


Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của
biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để
ước lượng.
Trên một mẫu có n cá thể, gọi Y^ = ^F (X2, X3,…, Xk) là hồi quy mẫu.
Với một cá thể mẫu Yi ≠ ^F (X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – ^F (X2, X3,…, Xk); ei
gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

Phần dư sinh ra: ei = yi – ŷi


1
Ký hiệu: ^β m là ước lượng của βm. Chúng ta trông đợi ^β m là ước lượng không
chênh lệch nhiều của βm, hơn nữa phải là một ước lượng hiệu quả.
2.2. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl
Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của
các phần dư ei = yi – ŷi. Các giả thiết của phương pháp bình phương nhỏ nhất cho mô
hình hồi quy tuyến tính bội như sau:
a. Hàm hồi quy là tuyến tính theo các tham số.
Điều này có nghĩa là quá trình hồi quy trên thực tế được miêu tả bởi mối quan
hệ dưới dạng y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + 𝜀, hoặc mối quan hệ thực tế có
thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
b. E(𝜀i) = 0: Kỳ vọng của các yếu tố ngẫu nhiên 𝜺i bằng 0.
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai
số mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung
bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức
trung bình, trong tổng thể.
c. Cov(𝜀i, 𝜀j) = 0: Không có sự tương quan giữa các 𝜀i.
Không có sự tương quan giữa các quan sát của yếu tố sai số. Nếu ta xem xét các
chuỗi số liệu thời gian (dữ liệu được thu thập từ một nguồn trong nhiều khoảng thời
gian khác nhau), yếu tố sai số 𝜀i trong khoảng thời gian này không có bất kỳ một
tương quan nào với yếu tố sai số trong khoảng thời gian trước đó.
d. Var(𝜀i) = σ2: Phương sai bằng nhau và thuần nhất với mọi 𝜀i.
Tất cả giá trị 𝜀 được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(𝜀i) = E(𝜀i2) = σ2
a. 𝜀i có phân phối chuẩn.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở
nên không mấy quan trọng.

b. Giữa các x2, x3,…, xk không có quan hệ tuyến tính.


Nếu x2, x3,…, xk có quan hệ tuyến tính thì người ta nói rằng có hiện tượng đa
cộng tuyến.

2
2.3. Độ phù hợp của mô hình
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % sự biến thiên
của dữ liệu, người ta sử dụng R2
Ta có thể viết SST = SSE + SSR
Ý nghĩa của các thành phần:
- SST là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i
và giá trị trung bình.
- SSE là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến
phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của
chúng. Phần này đo độ chính xác của hàm hồi quy.
- SSR là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y
và các giá trị nhận được từ hàm hồi quy.
- SST được chia thành 2 phần: một phần do SSE và một phần do SSR gây
ra.
Ta có: 0≤R2≤1, R2 cao nghĩa là mô hình ước lượng được giải thích được một
mức độ cao sự biến thiên của dữ liệu.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của
biến phụ thuộc y.
Trong mô hình hồi quy 2 biến thì R 2 đo độ thích hợp của hàm hồi quy. Nó chính
là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc y do biến giải thích x gây ra.
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2:

2.4. Kiểm định giả thuyết đối với 𝜷𝒋


Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm
định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói
cách khác là hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*.
Ta có bảng sau:

3
Loại giả thuyết Giả thuyết H0 Giả thuyết đối H1 Miền bác bỏ

Hai phía 𝛽𝑖 = 𝛽𝑖* 𝛽𝑖 ≠ 𝛽𝑖* |t| > t a/ 2(n−k)

Phía trái 𝛽𝑖 ≤ 𝛽𝑖* 𝛽𝑖 > 𝛽𝑖* t > t a(n−k)

Phía phải 𝛽𝑖 ≥ 𝛽𝑖* 𝛽𝑖 < 𝛽𝑖* t <−t a(n−k)

Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0
Đặt giả thuyết kiểm định βj:
• H0: βj = 0 ⇔ xj không tác động
• H1: βj ≠ 0 ⇔ xj có tác động.
2.5. Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ
thể như sau:
• Bước 1:
Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.
Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.
• Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2, X3, …, Xk,
sau đó tính tổng bình phương sai số SSRR, SSRu. Phân phối F là tỷ số của hai biến
ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
[ SSR R−SSRU ] /( k−m) 2 2
R U −R R /( k−m)
F c= F ( α .k −m , n−k )= 2
SSRU /(n−k ) 1−R U /(n−k )
Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
thuyết này sẽ là:
SSE /(k −1)
F c= F (α , k−1 , n−k )
SSR/(n−k )
• Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và
(n– k) cho mẫu số, và với mức ý nghĩa α cho trước.
• Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, 𝑘 − 1, 𝑛 − 𝑘). Đối
với phương pháp giá trị p-value, tính giá trị p= P(F>F c | H0) và bác bỏ H0 nếu p<mức
α.
4
II. PHẦN TÍNH TOÁN

1. HOẠT ĐỘNG 1

1.1. Đề bài
Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của
21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến
5/2015. Bên cạnh giá nhà dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi
nhà. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/harlfoxem/housesalesprediction.

Các biến chính trong bộ dữ liệu:


• price: Giá nhà được bán ra.

• floors: Số tầng của ngôi nhà được phân loại từ 1-3.5.

• condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt.

• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4.

• sqft_above: Diện tích ngôi nhà.

• sqft_living: Diện tích khuôn viên nhà.

• sqft_basement: Diện tích tầng hầm.

Các bước thực hiện:


1. Đọc dữ liệu (Import data): house_price.csv
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
i) Chuyển đổi biến (nếu cần thiết).
ii) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh
hưởng đến giá nhà ở quận King.
5. Thực hiện dự báo cho giá nhà quận King.

5
1.2. Thực hiện

1.2.1. Đọc dữ liệu (Import data): house_price.csv

Ý nghĩa: Đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu.

1.2.2. Làm sạch dữ liệu (Data cleaning)

Ý nghĩa: Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu
với tên là new_DF, sau đó xuất ra 6 dòng đầu tiên.

Ý nghĩa: Kiểm tra dữ liệu khuyết trong new_DF


6
Ý nghĩa: Thống kê số lượng dòng chứa dữ liệu khuyết và tỉ lệ dữ liệu khuyết
trong các biến.

Nhận xét: Thông qua việc kiểm tra dữ liệu khuyết trong new_GiaNha, ta nhận
thấy có 20 dữ liệu khuyết trong biến price. Tiếp theo ta sẽ xử lý các dữ liệu khuyết đó.
Phương pháp xử lí được đề xuất là thay thế giá trị trung bình ở các quan sát còn lại của
biến price tại vị trí chứa dữ liệu khuyết.

Ý nghĩa: Thay thế giá trị trung bình của biến “price” ở các quan sát còn lại ở vị
trí chứa dữ liệu khuyết.

Ý nghĩa: Kiểm tra lại xem đã xử lý hết dữ liệu khuyết chưa.


Nhận xét: Sau khi xử lý dữ liệu, ta nhận thấy không còn dữ liệu khuyết

1.2.3. Làm rõ dữ liệu: (Data visualization)

Tạo một data mới tên là new_DF2 (gồm các biến như new_DF đã làm sạch dữ
liệu) và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt
thành log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1).

Ý nghĩa: Tạo tệp dữ liệu mới tên là new_DF2 từ new_DF và chuyển các biến có
trong tệp dữ liệu này sang dạng log(X+1). Sau đó xuất ra 6 dòng đầu tiên

Giải thích lý do chuyển sang dạng log(x+1):

 Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mô hình hồi quy thì
các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp
7
sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của một biến
giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn. Ngoài ra, trong
trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có
thể chuyển đổi các biến đó sang dạng log.
 Diễn giải: đây là lý do giúp ta có thể diễn giải mối quan hệ giữa hai biến thuận
tiện hơn. Nếu ta lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số
hồi quy β sẽ là hệ số co giãn và diễn giải sẽ như sau: X tăng 1% sẽ dẫn đến tăng
việc ta sẽ kỳ vọng Y tăng lên β% (về mặt trung bình của Y).
 Ước lượng mô hình phi tuyến: việc lấy log cho phép ta ước lượng các mô hình
này bằng hồi quy tuyến tính.
 Ngoài ra, việc chuyển sang dạng log(x+1) thay vì log(x) bởi do trong biến
sqft_basement có nhiều giá trị = 0 (do một số ngôi nhà không có tầng hầm).
Nếu chuyển sang dạng log thì sẽ nhận được giá trị infty. Do đó ta sẽ chuyển các
biến sang log(x+1) thay vì log(x).

Ý nghĩa: Tính các giá trị thống kê mô tả (mean, median, max, min, sd) của biến
trước khi chuyển sang dạng log(X+1).

Ý nghĩa: Tính các giá trị thống kê mô tả (mean, min, max, sd, median) của biến
sau khi chuyển sang dạng log(X+1)

8
Ý nghĩa: Vẽ biểu đồ histogram thể hiện phân phối của biến price trước và sau
khi chuyển sang dạng log(x+1)

• Price

• Log(price + 1):

9
Nhận xét: Dựa trên biểu đồ histogram của biến price, ta nhận thấy phân phối
của biến price có xu hướng lệch phải, cho thấy phần lớn ngôi nhà có giá tiền gần như
nhau, và chỉ có số ít ngôi nhà có giá trị cao hơn. Trong khi với biểu đồ của biến
log(price+1) có hình dạng phân phối chuẩn, phần lớn tập trung trong khoảng từ 12 tới
14 và thấp dần ở hai đầu.

 Vẽ biểu đồ boxplot cho biến price và log(price +1) theo các biến phân loại.

Ý nghĩa: Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và
log(price+1) theo từng phân loại của biến floors.

• Price

10
• Log(price +1)

Nhận xét: Đối với biểu đồ log(price+1) theo floors, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có số tầng khác nhau. Ta dự đoán
floors là một nhân tố ảnh hưởng đến log(price+1)

11
Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và log(price +1) theo
từng phân loại của biến condition.
• Price

• Log(price +1)

.
Nhận xét : Đối biểu đồ log(price+1) theo condition, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có điều kiện khác nhau. Ta dự đoán
condition là một nhân tố ảnh hưởng đến log(price+1).

12
Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và log(price +1)
theo từng phân loại của biến view.

• Price

• Log(price +1)

Nhận xét: Đối với biểu đồ log(price+1) theo view, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có khung cảnh khác nhau. Ta dự đoán
đoán view là một nhân tố ảnh hưởng đến log(price+1).

13
Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_above trước
và sau khi chuyển hai biến này sang dạng log(x+1).

Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_above, ta chưa nhận
thấy rõ mối quan hệ tuyến tính giữa 2 biến. Tuy nhiên với đồ thị phân tán của biến
log(price+1) và log(sqft_above +1) ta nhận thấy rõ hơn về mối quan hệ tuyến tính
giữa 2 biến này, cụ thể là quan hệ đồng biến.

14
Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_living trước và
sau khi chuyển hai biến này sang dạng log(x+1).

Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_living, ta
chưa nhận thấy rõ mối quan hệ tuyến tính giữa 2 biến. Tuy nhiên với đồ thị
phân tán của biến log(price+1) và log(sqft_living +1) ta nhận thấy rõ hơn
về mối quan hệ tuyến tính giữa 2 biến này, cụ thể là quan hệ đồng biến.

Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_basement
trước và sau khi chuyển hai biến này sang dạng log(x+1).
15
Nhận xét: Dựa trên đồ thị phân tán của biến price và
sqft_basement, ta chưa nhận thấy rõ mối quan hệ tuyến tính giữa 2 biến.
Tuy nhiên với đồ thị phân tán của biến log(price+1) và
log(sqft_basement+1) ta nhận thấy rõ hơn về mối quan hệ tuyến tính giữa
2 biến này (đồng biến).

Tóm lại, dựa vào các đồ thị trên, ta nhận thấy việc chuyển đổi các biến
sang dạng log(x+1) sẽ hiệu quả trong việc phân tích mối quan hệ tuyến tính
giữa các biến độc lập với biến phụ thuộc (price).

1.2.4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể
ảnh hưởng đến giá nhà ở quận King

Xét mô hình hồi quy tuyến tính bao gồm:


• Biến phụ thuộc: log(price+1)

• Biến độc lập: floors, condition, view, log(sqft_above+1),


log(sqft_living+1) và log(sqft_basement+1)
Mô hình được biểu diễn như sau:

log(price + 1) = β0 + β1 × floors + β2 × condition + β3 × view + β4 ×


log(sqft_above + 1) + β5 × log(sqft_living + 1) + β6 × log(sqft_basement +1)
+𝜀

16
Ý nghĩa: thực hiện ước lượng các hệ số βi, i=0,…,6 dựa trên tệp tin
new_DF2.

Nhận xét:

𝛽̂0 = 7.168351; 𝛽̂1 = 0.102574; 𝛽̂2= 0.075131; 𝛽̂3 = 0.125203 𝛽̂4= 0.544601; 𝛽̂5 =
0.172785; 𝛽̂6= 0.042919

Đường thẳng hồi quy ước lượng cho bởi phương trình sau:

𝑙𝑜𝑔(pricê + 1) = 7.168351 + 0.102574 × floors + 0.075131 × condition +


0.125203 × view + 0.544601 × log(sqft_above + 1) + 0.172785 ×
log(sqft_living + 1) + 0.042919 × log(sqft_basement + 1)
Residuals (sai số hồi quy): là khoảng chênh lệch giữa giá trị thực tế
và giá trị dự báo tìm được từ phương trình hồi quy. Ta lấy lần lượt các giá
trị thực nghiệm của các biến độc lập thay vào phương trình hồi quy để tính
được giá trị log(price+1) dự báo. Tiếp theo ta lấy giá trị log(price+1) thực
tế trừ đi giá trị log(price+1) dự báo ở từng quan sát sẽ thu được sai số hồi
quy. Dựa vào dữ liệu thống kê, ta thấy có tổng cộng 21613 quan sát nên sẽ
có 21613 sai số hồi quy ứng với mỗi quan sát.

Kiểm định các hệ số hồi quy:


17
 Giả thuyết 𝐻0: βi = 0 i=0,…,6 (Hệ số hồi quy không có ý nghĩa thống kê).

 Giả thuyết 𝐻1: βi ≠ 0 i=0,…,6 (Hệ số hồi quy có ý nghĩa thống kê).
Ta thấy Pr(> |t|) của các hệ số ứng với các biến đều bé hơn mức ý nghĩa α
= 0.05 nên ta bác bỏ giả thuyết 𝐻0, chấp nhận H1. Do đó hệ số ứng với các
biến này đều có ý nghĩa với mô hình hồi quy ta xây dựng.

R2 và R2 hiệu chỉnh:

 R2 = 0,5136; R2 hiệu chỉnh = 0,5134 đều có cùng ý nghĩa giải thích sự biến
thiên của một biến phụ thuộc bởi bao nhiêu % từ sự biến thiên các biến
độc lập. Từ kết quả phân tích ta thấy giá trị R2 hiệu chỉnh bằng 0,5134.
Nghĩa là trong 100% sự biến thiên của biến log(price+1) thì có 51,34%
nguyên nhân là do các biến độc lập (floors, condition, view,…) gây nên.
Và 48,66% còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc
lập khác chưa đưa vào mô hình. Kiểm tra các giả định của mô hình

Nhắc lại các giả định của mô hình hồi quy: 𝑌𝑖 = 𝛽0 + 𝛽1.𝑋1 + ...𝛽𝑖 .𝑋𝑖+ 𝜀𝑖, i =
1, ...n.
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.

• Sai số có kì vọng = 0 (𝜇 = 0).

• Sai số có phân phối chuẩn 𝜀𝑖 ∼ N (0, 𝜎2).

• Phương sai của các sai số là hằng số (𝜎2 = 𝑐𝑜𝑛𝑠𝑡).

• Các sai số 𝜀1, ..., 𝜀𝑛 độc lập với nhau.

Ta thực hiện phân tích để kiểm tra các giả định của mô hình:
Vẽ các đồ thị phần dư để kiểm tra các giả định:

Ý nghĩa: Vẽ các đồ thị phần dư để kiểm tra các giả định:

18
Nhận xét:

 Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị sai số hồi quy tương ứng
với các giá trị dự báo, dùng để kiểm tra 3 giả định: tính tuyến tính của dữ
liệu (giả định 1), các sai số có kì vọng bằng 0 (giả định 2) và phương sai
các sai số là hằng số (giả định 3). Nhìn đồ thị ta thấy đường màu đỏ là
đường cong, không phải đường nằm ngang nên Y không có quan hệ tuyến
tính với các biến độc lập. Đường màu đỏ chưa nằm sát đường Y=0 nên
không thỏa mãn giả định các sai số có kì vọng bằng 0. Các điểm sai số hầu

19
như tập trung ở phần chính giữa đồ thị, không phân bố ngẫu nhiên nên giả
định phương sai các sai số là hằng số cũng không thỏa mãn.
 Đồ thị thứ 2 (Normal Q-Q) vẽ các sai số hồi quy đã được chuẩn hóa dùng
để kiểm tra giả định phân phối chuẩn của các sai số hồi quy. Ta thấy hầu
hết các điểm sai số đều nằm trên đường kì vọng phân phối chuẩn, chỉ một
ít điểm nằm ngoài nên thỏa mãn giả định các sai số có phân phối chuẩn.

 Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị sai số đã
được chuẩn hóa được dùng để kiểm tra giả định phương sai các sai số là
hằng số. Đồ thị cho thấy các điểm sai số hầu như tập trung ở phần chính
giữa đồ thị, không phân bố ngẫu nhiên nên giả định phương sai các sai số
là hằng số không thỏa mãn.

 Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có
ảnh hưởng cao trong bộ dữ liệu. Những điểm ảnh hưởng cao này có thể là
các điểm outliers (những điểm gây nhiễu gây ảnh hưởng nhiều nhất trong
việc phân tích dữ liệu). Nếu như ta thấy Cook’s distance (đường màu đỏ
đứt nét) và có một số điểm vượt qua đường thẳng này, nghĩa là các điểm
đó có ảnh hưởng cao. Ta thấy không có điểm nào vượt qua Cook’s
distance, nghĩa là không có điểm nào có ảnh hưởng cao. Do đó ta không
cần phải loại bỏ chúng khi phân tích.

1.2.5. Thực hiện dự báo cho giá nhà quận King.

Dựa trên mô hình hồi quy ta xây dựng, hãy dự báo giá một ngôi nhà có:

+ 1 tầng

+ Điều kiện kiến trúc ngôi nhà: 3

+ Đánh giá quang cảnh ngôi nhà: 0

+ Diện tích ngôi nhà: 770 m2

+ Diện tích khuôn viên nhà 770 m2

20
+ Diện tích tầng hầm 0 m2

Ý nghĩa: Thực hiện dự báo

Ý nghĩa: Chuyển log(price+1) dự báo thành log(price) dự báo

Nhận xét: Dựa vào kết quả dự báo, ta nhận được:

• Giá nhà dự báo trung bình là 212198.2.


• Khoảng tin cậy so với giá trị dự báo (209602.8; 214825.8).
Ta nhận thấy giá nhà quan sát ở thuộc tính trên (180000) không
thuộc khoảng tin cậy vừa tìm được, chứng tỏ mô hình hồi quy ta xây dựng
chưa thực sự tốt.

2. HOẠT ĐỘNG 2

21
2.1. Đề bài
Tập tin “BTL_TIEU_THU_NANG_LUONG.csv” chứa dữ liệu của điều
kiện nhiệt độ và độ ẩm trong nhà được theo dõi bằng mạng cảm biến không dây
ZigBee. Mỗi nút không dây truyền các điều kiện nhiệt độ và độ ẩm trong khoảng 3,3
phút. Sau đó, dữ liệu không dây được tính trung bình trong khoảng thời gian 10 phút.
Dữ liệu năng lượng được ghi lại cứ sau 10 phút với đồng hồ đo năng lượng m-bus.
Thời tiết từ trạm thời tiết sân bay gần nhất (Sân bay Chievres, Bỉ) đã được tải xuống từ
tập dữ liệu công khai từ Tiên lượng đáng tin cậy (rp5.ru) và được hợp nhất cùng với
tập dữ liệu thử nghiệm bằng cách sử dụng cột ngày và giờ. Hai biến ngẫu nhiên đã
được đưa vào bộ dữ liệu để kiểm tra các mô hình hồi quy và để lọc ra các thuộc tính
(tham số) không dự đoán được.
Dữ liệu được cung cấp tại:
https://archive.ics.uci.edu/ml/datasets/Appliances+energy+prediction?
fbclid=IwAR1CdJNwjqJBmQnpRM1uCry3v4l92sZos7Q1qRyA5Joyd1RhX6akk4UF
KD8
Các biến chính trong bộ dữ liệu:
 Date time năm tháng ngày giờ:phút:giây
 Appliances, sử dụng năng lượng tính bằng Wh
 T1, Nhiệt độ trong khu vực bếp, tính bằng độ C
 RH_1, Độ ẩm trong khu vực nhà bếp, tính bằng %
 T2, Nhiệt độ trong khu vực phòng khách, tính bằng độ C
 RH_2, Độ ẩm trong khu vực phòng khách, tính bằng %
 T3, Nhiệt độ khu vực phòng giặt, tính bằng độ C
 RH_3, Độ ẩm trong khu vực phòng giặt, tính bằng %
 T4, Nhiệt độ trong khu vực văn phòng, tính bằng độ C
 RH_4, Độ ẩm trong khu vực văn phòng, tính bằng %
 T5, Nhiệt độ trong khu vực phòng tắm, tính bằng độ C
 RH_5, Độ ẩm trong khu vực phòng tắm, tính bằng %
 T6, Nhiệt độ bên ngoài tòa nhà (phía Bắc), tính bằng độ C
 RH_6, Độ ẩm bên ngoài tòa nhà (phía Bắc), tính bằng %
 T7, Nhiệt độ trong khu vực phòng ủi, tính bằng độ C

22
 RH_7, Độ ẩm trong khu vực phòng ủi, tính bằng %
 T8, Nhiệt độ trong khu vực phòng dành cho thiếu niên, tính bằng độ C
 RH_8, Độ ẩm trong khu vực phòng dành cho thiếu niên, tính bằng %
 T9, Nhiệt độ khu vực phòng dành cho người lớn, tính bằng độ C
 RH_9, Độ ẩm trong khu vực phòng dành cho người lớn, tính bằng %
 Temperature Outside (từ trạm thời tiết Chievres), tính bằng độ C
 Pressure (từ trạm thời tiết Chievres), tính bằng mm Hg
 RH_out, Độ ẩm bên ngoài (từ trạm thời tiết Chievres), tính bằng %
 Wind speed (từ trạm thời tiết Chievres), tính bằng m/s
 Visibility (từ trạm thời tiết Chievres), tính bằng km
 Tdewpoint (từ trạm thời tiết Chievres), tính bằng AC
 Rv1, biến ngẫu nhiên 1
 Rv2, biến ngẫu nhiên 2
1. Đọc dữ liệu (Import Data): BTL_TIEU_THU_NANG_LUONG.csv
2. Làm sạch dữ liệu (Data cleaning) : NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
a) Chuyển đổi biến (nếu cần thiết).
b) Thống kê mô tả: dùng thống kê mẫu và đồ thị.
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh
hưởng.
5. Thực hiện dự báo.

23
2.2. Thực hiện

2.2.1. Đọc dữ liệu (Import Data)

Ý nghĩa: Đọc dữ liệu và xuất dữ liệu 10 dòng đầu tiên

2.2.2. Làm sạch dữ liệu (Data cleaning)

 Trích dữ liệu mới

Ý nghĩa: Trích ra một dữ liệu con đặt tên là new_appliance bao gồm các biến chính mà
ta quan tâm

24
Ý nghĩa: Xuất 6 dòng tệp dữ liệu mới, có thể thấy đã loại bỏ biến date, light, rv2.
 Kiểm tra các dữ liệu khuyết

Ý nghĩa: Kiểm tra từng cột và xuất vị trí của các dòng có dữ liệu khuyết
Nhận xét: Ta thấy dữ liệu khuyết = 0, vậy không có dữ liệu khuyết nên
không cần tìm phương pháp thay thế.

2.2.3. Làm rõ dữ liệu (data visualization)

Nhận xét: Các biến T và RH của các phòng có giá trị gần bằng nhau bởi vì các
yếu tố tự nhiên không tác động trong phạm vi nhỏ. Nên nhóm tác giả đề xuất chia
trung bình bình các biến T và RH nhằm chỉ xét đến T và RH trong một ngôi nhà.

Ý nghĩa: Trích các biến T và RH thành 2 file dữ liệu mới.

Ý nghĩa: Chia trung bình biến T và RH

Ý nghĩa: Thay thế các biến T và RH cũ thành biến T và RH trung bình


 Tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn, giá
trị lớn nhất và giá trị nhỏ nhất cho các biến “T”, “RH”, “Appliances”,
“Temperature Outside”, “Pressure”, “RH_out”, “Wind speed”, “Visibility”,
“Tdewpoint”

25
 Vẽ đồ thị histogram cho biến “Appliances”

Nhận xét: Khoảng năng lượng sử dụng đa phần tập trung ở 0 Kwh/m2 đến
200 Kwh/m2 và thấp nhất ở khoẳng 425 kwh/m2 đến 800 kwh/m2

26
 Vẽ đồ thị plot của biến “Appliances” biến T.

 Vẽ đồ thị plot của biến “Appliances” biến RH

27
 Vẽ đồ thị plot của biến “Appliances” cho biến “Temperature Outside”.

 Vẽ đồ thị plot của biến “Appliances” cho biến “Pressure”.

28
 Vẽ đồ thị plot của biến “Appliances” cho biến “RH_out”.

 Vẽ đồ thị plot của biến “Appliances” cho biến “Wind speed”.

29
 Vẽ đồ thị plot của biến “Appliances” cho biến “Visibility”.

 Vẽ đồ thị plot của biến “Appliances” cho biến “Tdewpoint”.

30
 Vẽ đồ thị plot của biến “Appliances” cho biến ”rv1”.

Nhận xét: Dựa trên đồ thị phân phối, ta thấy “Appliances” có mối quan hệ
tuyến tính với các biến “Pressure”, “RH_out” (đồng biến), tuy nhiên lại có mối
quan hệ tuyến tính yếu với các biến “Temperature Outside”, “Wind speed”,
“Visibility”, “Tdepoint”, “rv1”. Ta có thể đoán các biến “Pressure”, “RH_out”
là các nhân tố ảnh hưởng đến mức tiêu thụ năng lượng của thiết bị, còn các biến
“Temperature Outside”, “Wind speed”, “Visibility”, “Tdepoint”, “rv1” thì
không.

31
 Vẽ đồ thị plot của biến “Appliances” cho từng nhóm phân loại của biến
”T”.

Nhận xét: Nhìn vào biểu đồ, ta thấy 2 nhóm có quan hệ tuyến tính yếu

 Vẽ đồ thị plot của biến “Appliances” cho từng nhóm phân loại của biến
”RH”.

32
Nhận xét: Nhìn vào biểu đồ, ta thấy 2 nhóm có quan hệ tuyến tính yếu

2.2.4. Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression
models)

Chúng ta muốn khám phá rằng những nhân tố nào và tác động như thế
nào đến khả năng tiêu thụ điện các thiết bị (Appliances).
a) Xét mô hình hồi quy tuyến tính bao gồm biến “Appliances” là biến phụ
thuộc và các biến còn lại là biến độc lập. Ta dùng lệnh lm để thực thi mô hình hồi quy
tuyến tính bội.

Dựa vào kết quả của mô hình hồi quy tuyến tính trên, để lựa chọn những biến
sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%, ta đặt:
Giả thiết H0: Hệ số hồi quy không có ý nghĩa thống kê.
Giả thiết H1: Hệ số hồi quy có ý nghĩa thống kê.
Nhận xét: Dựa vào kết quả của mô hình tuyến tính, Pr(>|t|) ứng với các
biến “ T”, “ RH”, “ T_out”, “Press_mm_hg”, “RH_out”, “Windspeed”,
“Tdewpoint”, “Visibility” bé hơn 0,05 nên ta bác bỏ H0 chấp nhận H1, các hệ số
ứng với các biến này có ý nghĩa thống kê. Ngược lại Pr(>|t|) ứng với biến
“rv1” lớn hơn 0,05 nên ta chấp nhận H0, các hệ số ứng với các biến này không
có ý nghĩa thống kê. Do đó ta sẽ loai biến rv1 ra khỏi mô hình.
33
Xét 2 mô hình tuyến tính cùng bao gồm biến “Appliances” là biến phụ thuộc nhưng:
 Mô hình m1 chứa tất cả các biến còn lại là biến độc lập.
 Mô hình m2 là loại bỏ biến rv1 từ mô hình “m1”.
 Xây dựng mô hình m2

Sử dụng lệnh ANOVA để chọn mô hình hợp lý nhất.


 Phân tích phương sai mô hình m1, m2

Ta đặt giả thiết:


Giả thiết H0: Mô hình 2 là mô hình hiệu quả hơn.
Giả thiết H1: Mô hình 1 là mô hình hiệu quả hơn.
Nhận xét: Dựa vào kết quả phân tích ANOVA hai mô hình m1 và m2, ta thu
được giá trị Pr(>F) = 0,3142. Chon mức ý nghĩa 0,05, khi đó Pr(>F) > 0,05 => chỉ
ra rằng 2 mô hình có hiệu quả như nhau, ta có thể dựa vào hệ số số biến của mỗi mô
hình để chọn mô hình nào hiệu quả hơn. Ta kết luận rằng mô hình m2 tốt hơn m1
bởi vì mô hình m2 xét ít biến hơn nhưng lại có hiệu quả bằng với mô hình m1.

34
Mô hình hồi quy tuyến tính ta chọn hợp lý ở câu trên là mô hình m2. Ta suy
luận sự tác động của các biến lên chỉ số “Appliances”.
Ta có Pr(>|t|) ở các biến “ T”, “ RH”, “ T_out”, “Press_mm_hg”,
“RH_out”, “Windspeed”, “Tdewpoint”, “Visibility” đều rất bé, nên các biến này
đều có ý nghĩa thống kê cao đối với biến “Appliances”, có nghĩa là những thay đổi
của các biến này có ảnh hưởng nhiều đến sư thay đổi của sử dụng điện thiết bị.
Ngoài ra, dựa vào hệ số hồi quy ứng với các biến “ T”, “ RH”, “ T_out”,
“Press_mm_hg”, “RH_out”, “Windspeed”, “Tdewpoint”, “Visibility”, ta cũng
nhận thấy sư ảnh hưởng của các biến này lên biến “Appliances”.
Từ mô hình m2, ta dùng lệnh plot để vẽ đồ thị biểu thị sai số hồi quy (residuals)
và giá trị dự báo (fitted values):
 biểu diễn đồ thị sai số hồi quy và giá trị dự báo

Nhận xét:
+ Chỉ số “Appliances” dự đoán nằm trong khoảng từ 20 kwh/m2 đến 140
kwh/m2. Mật độ dày nhất là ở vùng 80 kwh/m2 đến 120 kwh/m2
+ Đường sai số hồi quy là đường tuyến tính có xu hướng giảm dần và hướng
gần về vô cùng
+ Những giá trị dự đoán có sai số nằm quá xa đường tuyến tính là những dữ
liệu ngoại lai.

35
2.2.5. Dự báo (Predictions)

Từ mô hình m2, ta dùng lệnh predict để dự báo chỉ số Appliances tại 2 thuộc
tính như sau:
xây dựng thuộc tính X1, X2 và dự báo “Appliances” tại X1, X2
Code và kết quả:

Ý nghĩa: Xây dựng thuộc tính X1 và dự báo “Appliances” tại X1.

Ý nghĩa: Xây dựng thuộc tính X1 và dự báo “Appliances” tại X2.

 Tạo bảng so sánh chỉ số “Appliances” dự báo tại thuộc tính X1 và X2.

Nhận xét: Với khoảng tin cậy 95%, ta có thể dự đoán được khả năng tiêu thụ
các thiết bị điện:
- Chỉ số “Appliances” trung bình (fit) của thuộc tính X1 được dự báo là
9.021663
36
- Chỉ số “Appliances” trung bình (fit) của thuộc tính X2 được dự báo là
14.719100
- Với X1 xét khoảng tin cậy 95% của chỉ số “Appliances” được dự báo
nằm trong khoảng (8.693839; 9.349488).
- Còn X2 xét khoảng tin cậy 95% của chỉ số “Appliances” được dự báo
nằm trong khoảng (12.928516; 16.509684)
 Vậy khả năng tiêu thụ năng lượng của thiết bị ở thuộc tính thứ nhất sẽ dao
động nhỏ hơn thuộc tính thứ hai (range (x1)<range (x2)).

37
TÀI LIỆU THAM KHẢO

(1) Douglas C. Montgomery, George C. Runger. Hoboken. Applied Statistics and Probability
for Engineers. NJ: Wiley, (2007).
(2) Peter Dalgaard Introductory Statistics with R. Springer, (2008).
(3) Gareth, J., Daniela, W., Trevor, H. and Robert, T. An introduction to statistical learning:
with applications in R. Springer, (2013).

38

You might also like