Professional Documents
Culture Documents
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa Khoa Kỹ Thuật Xây Dựng
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa Khoa Kỹ Thuật Xây Dựng
Sinh viên thực hiện Mã số sinh viên Hoàn thành Điểm Ghi chú
Lý An 2112734 100%
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β1 + β 2 X 2+ β3 X 3 +…+ β k X k + ε
Trong đó:
o Y: biến phụ thuộc
o Xi: biến độc lập
o β1: hệ số tự do (hệ số chặn)
o βi: hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y
với điều kiện các biến số khác trong mô hình không đổi. Cụ thể hơn, nếu
các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng β i
đơn vị nếu Xi tăng 1 đơn vị 𝜀: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ
thuộc (Y) dựa trên giá trị của biến độc lập (X). Nó có thể được sử dụng cho các
trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự đoán thời gian
người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào
đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là
ước lượng các tham số của tổng thể: β1, β2, …, βk.
2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2
2.3. Độ phù hợp của mô hình
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % sự biến thiên
của dữ liệu, người ta sử dụng R2
Ta có thể viết SST = SSE + SSR
Ý nghĩa của các thành phần:
- SST là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i
và giá trị trung bình.
- SSE là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến
phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của
chúng. Phần này đo độ chính xác của hàm hồi quy.
- SSR là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y
và các giá trị nhận được từ hàm hồi quy.
- SST được chia thành 2 phần: một phần do SSE và một phần do SSR gây
ra.
Ta có: 0≤R2≤1, R2 cao nghĩa là mô hình ước lượng được giải thích được một
mức độ cao sự biến thiên của dữ liệu.
• Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
• Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của
biến phụ thuộc y.
Trong mô hình hồi quy 2 biến thì R 2 đo độ thích hợp của hàm hồi quy. Nó chính
là tỷ lệ của toàn bộ sự biến đổi của biến phụ thuộc y do biến giải thích x gây ra.
Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả
các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2:
3
Loại giả thuyết Giả thuyết H0 Giả thuyết đối H1 Miền bác bỏ
Ta có thể sử dụng giá trị P-value: P-value < mức ý nghĩa thì bác bỏ giả thiết H0
Đặt giả thuyết kiểm định βj:
• H0: βj = 0 ⇔ xj không tác động
• H1: βj ≠ 0 ⇔ xj có tác động.
2.5. Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ
thể như sau:
• Bước 1:
Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.
Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.
• Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X 2, X3, …, Xk,
sau đó tính tổng bình phương sai số SSRR, SSRu. Phân phối F là tỷ số của hai biến
ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê:
[ SSR R−SSRU ] /( k−m) 2 2
R U −R R /( k−m)
F c= F ( α .k −m , n−k )= 2
SSRU /(n−k ) 1−R U /(n−k )
Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
thuyết này sẽ là:
SSE /(k −1)
F c= F (α , k−1 , n−k )
SSR/(n−k )
• Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và
(n– k) cho mẫu số, và với mức ý nghĩa α cho trước.
• Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, 𝑘 − 1, 𝑛 − 𝑘). Đối
với phương pháp giá trị p-value, tính giá trị p= P(F>F c | H0) và bác bỏ H0 nếu p<mức
α.
4
II. PHẦN TÍNH TOÁN
1. HOẠT ĐỘNG 1
1.1. Đề bài
Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của
21613 ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến
5/2015. Bên cạnh giá nhà dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi
nhà. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/harlfoxem/housesalesprediction.
• condition: Điều kiện kiến trúc của ngôi nhà từ 1 - 5, 1: rất tệ và 5: rất tốt.
• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4.
5
1.2. Thực hiện
Ý nghĩa: Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu
với tên là new_DF, sau đó xuất ra 6 dòng đầu tiên.
Nhận xét: Thông qua việc kiểm tra dữ liệu khuyết trong new_GiaNha, ta nhận
thấy có 20 dữ liệu khuyết trong biến price. Tiếp theo ta sẽ xử lý các dữ liệu khuyết đó.
Phương pháp xử lí được đề xuất là thay thế giá trị trung bình ở các quan sát còn lại của
biến price tại vị trí chứa dữ liệu khuyết.
Ý nghĩa: Thay thế giá trị trung bình của biến “price” ở các quan sát còn lại ở vị
trí chứa dữ liệu khuyết.
Tạo một data mới tên là new_DF2 (gồm các biến như new_DF đã làm sạch dữ
liệu) và chuyển đổi các biến price, sqft_above, sqft_living, sqft_basement lần lượt
thành log(price+1), log(sqft_above+1), log(sqft_living+1) và log(sqft_basement+1).
Ý nghĩa: Tạo tệp dữ liệu mới tên là new_DF2 từ new_DF và chuyển các biến có
trong tệp dữ liệu này sang dạng log(X+1). Sau đó xuất ra 6 dòng đầu tiên
Cải thiện sự phù hợp của mô hình: giả định khi ta xây dựng mô hình hồi quy thì
các sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp
7
sai số hồi quy (phần dư) không có phân phối chuẩn thì việc lấy log của một biến
giúp thay đổi tỉ lệ và làm cho biến đó có phân phối chuẩn. Ngoài ra, trong
trường hợp phần dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có
thể chuyển đổi các biến đó sang dạng log.
Diễn giải: đây là lý do giúp ta có thể diễn giải mối quan hệ giữa hai biến thuận
tiện hơn. Nếu ta lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số
hồi quy β sẽ là hệ số co giãn và diễn giải sẽ như sau: X tăng 1% sẽ dẫn đến tăng
việc ta sẽ kỳ vọng Y tăng lên β% (về mặt trung bình của Y).
Ước lượng mô hình phi tuyến: việc lấy log cho phép ta ước lượng các mô hình
này bằng hồi quy tuyến tính.
Ngoài ra, việc chuyển sang dạng log(x+1) thay vì log(x) bởi do trong biến
sqft_basement có nhiều giá trị = 0 (do một số ngôi nhà không có tầng hầm).
Nếu chuyển sang dạng log thì sẽ nhận được giá trị infty. Do đó ta sẽ chuyển các
biến sang log(x+1) thay vì log(x).
Ý nghĩa: Tính các giá trị thống kê mô tả (mean, median, max, min, sd) của biến
trước khi chuyển sang dạng log(X+1).
Ý nghĩa: Tính các giá trị thống kê mô tả (mean, min, max, sd, median) của biến
sau khi chuyển sang dạng log(X+1)
8
Ý nghĩa: Vẽ biểu đồ histogram thể hiện phân phối của biến price trước và sau
khi chuyển sang dạng log(x+1)
• Price
• Log(price + 1):
9
Nhận xét: Dựa trên biểu đồ histogram của biến price, ta nhận thấy phân phối
của biến price có xu hướng lệch phải, cho thấy phần lớn ngôi nhà có giá tiền gần như
nhau, và chỉ có số ít ngôi nhà có giá trị cao hơn. Trong khi với biểu đồ của biến
log(price+1) có hình dạng phân phối chuẩn, phần lớn tập trung trong khoảng từ 12 tới
14 và thấp dần ở hai đầu.
Vẽ biểu đồ boxplot cho biến price và log(price +1) theo các biến phân loại.
Ý nghĩa: Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và
log(price+1) theo từng phân loại của biến floors.
• Price
10
• Log(price +1)
Nhận xét: Đối với biểu đồ log(price+1) theo floors, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có số tầng khác nhau. Ta dự đoán
floors là một nhân tố ảnh hưởng đến log(price+1)
11
Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và log(price +1) theo
từng phân loại của biến condition.
• Price
• Log(price +1)
.
Nhận xét : Đối biểu đồ log(price+1) theo condition, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có điều kiện khác nhau. Ta dự đoán
condition là một nhân tố ảnh hưởng đến log(price+1).
12
Vẽ biểu đồ boxplot thể hiển phân phối chuẩn của biến price và log(price +1)
theo từng phân loại của biến view.
• Price
• Log(price +1)
Nhận xét: Đối với biểu đồ log(price+1) theo view, ta thấy phân phối của
log(price+1) khác biệt đối với những ngôi nhà có khung cảnh khác nhau. Ta dự đoán
đoán view là một nhân tố ảnh hưởng đến log(price+1).
13
Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_above trước
và sau khi chuyển hai biến này sang dạng log(x+1).
Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_above, ta chưa nhận
thấy rõ mối quan hệ tuyến tính giữa 2 biến. Tuy nhiên với đồ thị phân tán của biến
log(price+1) và log(sqft_above +1) ta nhận thấy rõ hơn về mối quan hệ tuyến tính
giữa 2 biến này, cụ thể là quan hệ đồng biến.
14
Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_living trước và
sau khi chuyển hai biến này sang dạng log(x+1).
Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_living, ta
chưa nhận thấy rõ mối quan hệ tuyến tính giữa 2 biến. Tuy nhiên với đồ thị
phân tán của biến log(price+1) và log(sqft_living +1) ta nhận thấy rõ hơn
về mối quan hệ tuyến tính giữa 2 biến này, cụ thể là quan hệ đồng biến.
Vẽ đồ thị plot thể hiện độ phân tán của biến price theo biến sqft_basement
trước và sau khi chuyển hai biến này sang dạng log(x+1).
15
Nhận xét: Dựa trên đồ thị phân tán của biến price và
sqft_basement, ta chưa nhận thấy rõ mối quan hệ tuyến tính giữa 2 biến.
Tuy nhiên với đồ thị phân tán của biến log(price+1) và
log(sqft_basement+1) ta nhận thấy rõ hơn về mối quan hệ tuyến tính giữa
2 biến này (đồng biến).
Tóm lại, dựa vào các đồ thị trên, ta nhận thấy việc chuyển đổi các biến
sang dạng log(x+1) sẽ hiệu quả trong việc phân tích mối quan hệ tuyến tính
giữa các biến độc lập với biến phụ thuộc (price).
1.2.4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể
ảnh hưởng đến giá nhà ở quận King
16
Ý nghĩa: thực hiện ước lượng các hệ số βi, i=0,…,6 dựa trên tệp tin
new_DF2.
Nhận xét:
𝛽̂0 = 7.168351; 𝛽̂1 = 0.102574; 𝛽̂2= 0.075131; 𝛽̂3 = 0.125203 𝛽̂4= 0.544601; 𝛽̂5 =
0.172785; 𝛽̂6= 0.042919
Đường thẳng hồi quy ước lượng cho bởi phương trình sau:
Giả thuyết 𝐻1: βi ≠ 0 i=0,…,6 (Hệ số hồi quy có ý nghĩa thống kê).
Ta thấy Pr(> |t|) của các hệ số ứng với các biến đều bé hơn mức ý nghĩa α
= 0.05 nên ta bác bỏ giả thuyết 𝐻0, chấp nhận H1. Do đó hệ số ứng với các
biến này đều có ý nghĩa với mô hình hồi quy ta xây dựng.
R2 và R2 hiệu chỉnh:
R2 = 0,5136; R2 hiệu chỉnh = 0,5134 đều có cùng ý nghĩa giải thích sự biến
thiên của một biến phụ thuộc bởi bao nhiêu % từ sự biến thiên các biến
độc lập. Từ kết quả phân tích ta thấy giá trị R2 hiệu chỉnh bằng 0,5134.
Nghĩa là trong 100% sự biến thiên của biến log(price+1) thì có 51,34%
nguyên nhân là do các biến độc lập (floors, condition, view,…) gây nên.
Và 48,66% còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc
lập khác chưa đưa vào mô hình. Kiểm tra các giả định của mô hình
Nhắc lại các giả định của mô hình hồi quy: 𝑌𝑖 = 𝛽0 + 𝛽1.𝑋1 + ...𝛽𝑖 .𝑋𝑖+ 𝜀𝑖, i =
1, ...n.
• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và
biến phụ thuộc Y được giả sử là tuyến tính.
Ta thực hiện phân tích để kiểm tra các giả định của mô hình:
Vẽ các đồ thị phần dư để kiểm tra các giả định:
18
Nhận xét:
Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị sai số hồi quy tương ứng
với các giá trị dự báo, dùng để kiểm tra 3 giả định: tính tuyến tính của dữ
liệu (giả định 1), các sai số có kì vọng bằng 0 (giả định 2) và phương sai
các sai số là hằng số (giả định 3). Nhìn đồ thị ta thấy đường màu đỏ là
đường cong, không phải đường nằm ngang nên Y không có quan hệ tuyến
tính với các biến độc lập. Đường màu đỏ chưa nằm sát đường Y=0 nên
không thỏa mãn giả định các sai số có kì vọng bằng 0. Các điểm sai số hầu
19
như tập trung ở phần chính giữa đồ thị, không phân bố ngẫu nhiên nên giả
định phương sai các sai số là hằng số cũng không thỏa mãn.
Đồ thị thứ 2 (Normal Q-Q) vẽ các sai số hồi quy đã được chuẩn hóa dùng
để kiểm tra giả định phân phối chuẩn của các sai số hồi quy. Ta thấy hầu
hết các điểm sai số đều nằm trên đường kì vọng phân phối chuẩn, chỉ một
ít điểm nằm ngoài nên thỏa mãn giả định các sai số có phân phối chuẩn.
Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị sai số đã
được chuẩn hóa được dùng để kiểm tra giả định phương sai các sai số là
hằng số. Đồ thị cho thấy các điểm sai số hầu như tập trung ở phần chính
giữa đồ thị, không phân bố ngẫu nhiên nên giả định phương sai các sai số
là hằng số không thỏa mãn.
Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có
ảnh hưởng cao trong bộ dữ liệu. Những điểm ảnh hưởng cao này có thể là
các điểm outliers (những điểm gây nhiễu gây ảnh hưởng nhiều nhất trong
việc phân tích dữ liệu). Nếu như ta thấy Cook’s distance (đường màu đỏ
đứt nét) và có một số điểm vượt qua đường thẳng này, nghĩa là các điểm
đó có ảnh hưởng cao. Ta thấy không có điểm nào vượt qua Cook’s
distance, nghĩa là không có điểm nào có ảnh hưởng cao. Do đó ta không
cần phải loại bỏ chúng khi phân tích.
Dựa trên mô hình hồi quy ta xây dựng, hãy dự báo giá một ngôi nhà có:
+ 1 tầng
20
+ Diện tích tầng hầm 0 m2
2. HOẠT ĐỘNG 2
21
2.1. Đề bài
Tập tin “BTL_TIEU_THU_NANG_LUONG.csv” chứa dữ liệu của điều
kiện nhiệt độ và độ ẩm trong nhà được theo dõi bằng mạng cảm biến không dây
ZigBee. Mỗi nút không dây truyền các điều kiện nhiệt độ và độ ẩm trong khoảng 3,3
phút. Sau đó, dữ liệu không dây được tính trung bình trong khoảng thời gian 10 phút.
Dữ liệu năng lượng được ghi lại cứ sau 10 phút với đồng hồ đo năng lượng m-bus.
Thời tiết từ trạm thời tiết sân bay gần nhất (Sân bay Chievres, Bỉ) đã được tải xuống từ
tập dữ liệu công khai từ Tiên lượng đáng tin cậy (rp5.ru) và được hợp nhất cùng với
tập dữ liệu thử nghiệm bằng cách sử dụng cột ngày và giờ. Hai biến ngẫu nhiên đã
được đưa vào bộ dữ liệu để kiểm tra các mô hình hồi quy và để lọc ra các thuộc tính
(tham số) không dự đoán được.
Dữ liệu được cung cấp tại:
https://archive.ics.uci.edu/ml/datasets/Appliances+energy+prediction?
fbclid=IwAR1CdJNwjqJBmQnpRM1uCry3v4l92sZos7Q1qRyA5Joyd1RhX6akk4UF
KD8
Các biến chính trong bộ dữ liệu:
Date time năm tháng ngày giờ:phút:giây
Appliances, sử dụng năng lượng tính bằng Wh
T1, Nhiệt độ trong khu vực bếp, tính bằng độ C
RH_1, Độ ẩm trong khu vực nhà bếp, tính bằng %
T2, Nhiệt độ trong khu vực phòng khách, tính bằng độ C
RH_2, Độ ẩm trong khu vực phòng khách, tính bằng %
T3, Nhiệt độ khu vực phòng giặt, tính bằng độ C
RH_3, Độ ẩm trong khu vực phòng giặt, tính bằng %
T4, Nhiệt độ trong khu vực văn phòng, tính bằng độ C
RH_4, Độ ẩm trong khu vực văn phòng, tính bằng %
T5, Nhiệt độ trong khu vực phòng tắm, tính bằng độ C
RH_5, Độ ẩm trong khu vực phòng tắm, tính bằng %
T6, Nhiệt độ bên ngoài tòa nhà (phía Bắc), tính bằng độ C
RH_6, Độ ẩm bên ngoài tòa nhà (phía Bắc), tính bằng %
T7, Nhiệt độ trong khu vực phòng ủi, tính bằng độ C
22
RH_7, Độ ẩm trong khu vực phòng ủi, tính bằng %
T8, Nhiệt độ trong khu vực phòng dành cho thiếu niên, tính bằng độ C
RH_8, Độ ẩm trong khu vực phòng dành cho thiếu niên, tính bằng %
T9, Nhiệt độ khu vực phòng dành cho người lớn, tính bằng độ C
RH_9, Độ ẩm trong khu vực phòng dành cho người lớn, tính bằng %
Temperature Outside (từ trạm thời tiết Chievres), tính bằng độ C
Pressure (từ trạm thời tiết Chievres), tính bằng mm Hg
RH_out, Độ ẩm bên ngoài (từ trạm thời tiết Chievres), tính bằng %
Wind speed (từ trạm thời tiết Chievres), tính bằng m/s
Visibility (từ trạm thời tiết Chievres), tính bằng km
Tdewpoint (từ trạm thời tiết Chievres), tính bằng AC
Rv1, biến ngẫu nhiên 1
Rv2, biến ngẫu nhiên 2
1. Đọc dữ liệu (Import Data): BTL_TIEU_THU_NANG_LUONG.csv
2. Làm sạch dữ liệu (Data cleaning) : NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
a) Chuyển đổi biến (nếu cần thiết).
b) Thống kê mô tả: dùng thống kê mẫu và đồ thị.
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh
hưởng.
5. Thực hiện dự báo.
23
2.2. Thực hiện
Ý nghĩa: Trích ra một dữ liệu con đặt tên là new_appliance bao gồm các biến chính mà
ta quan tâm
24
Ý nghĩa: Xuất 6 dòng tệp dữ liệu mới, có thể thấy đã loại bỏ biến date, light, rv2.
Kiểm tra các dữ liệu khuyết
Ý nghĩa: Kiểm tra từng cột và xuất vị trí của các dòng có dữ liệu khuyết
Nhận xét: Ta thấy dữ liệu khuyết = 0, vậy không có dữ liệu khuyết nên
không cần tìm phương pháp thay thế.
Nhận xét: Các biến T và RH của các phòng có giá trị gần bằng nhau bởi vì các
yếu tố tự nhiên không tác động trong phạm vi nhỏ. Nên nhóm tác giả đề xuất chia
trung bình bình các biến T và RH nhằm chỉ xét đến T và RH trong một ngôi nhà.
25
Vẽ đồ thị histogram cho biến “Appliances”
Nhận xét: Khoảng năng lượng sử dụng đa phần tập trung ở 0 Kwh/m2 đến
200 Kwh/m2 và thấp nhất ở khoẳng 425 kwh/m2 đến 800 kwh/m2
26
Vẽ đồ thị plot của biến “Appliances” biến T.
27
Vẽ đồ thị plot của biến “Appliances” cho biến “Temperature Outside”.
28
Vẽ đồ thị plot của biến “Appliances” cho biến “RH_out”.
29
Vẽ đồ thị plot của biến “Appliances” cho biến “Visibility”.
30
Vẽ đồ thị plot của biến “Appliances” cho biến ”rv1”.
Nhận xét: Dựa trên đồ thị phân phối, ta thấy “Appliances” có mối quan hệ
tuyến tính với các biến “Pressure”, “RH_out” (đồng biến), tuy nhiên lại có mối
quan hệ tuyến tính yếu với các biến “Temperature Outside”, “Wind speed”,
“Visibility”, “Tdepoint”, “rv1”. Ta có thể đoán các biến “Pressure”, “RH_out”
là các nhân tố ảnh hưởng đến mức tiêu thụ năng lượng của thiết bị, còn các biến
“Temperature Outside”, “Wind speed”, “Visibility”, “Tdepoint”, “rv1” thì
không.
31
Vẽ đồ thị plot của biến “Appliances” cho từng nhóm phân loại của biến
”T”.
Nhận xét: Nhìn vào biểu đồ, ta thấy 2 nhóm có quan hệ tuyến tính yếu
Vẽ đồ thị plot của biến “Appliances” cho từng nhóm phân loại của biến
”RH”.
32
Nhận xét: Nhìn vào biểu đồ, ta thấy 2 nhóm có quan hệ tuyến tính yếu
2.2.4. Xây dựng mô hình hồi quy tuyến tính (Fitting linear regression
models)
Chúng ta muốn khám phá rằng những nhân tố nào và tác động như thế
nào đến khả năng tiêu thụ điện các thiết bị (Appliances).
a) Xét mô hình hồi quy tuyến tính bao gồm biến “Appliances” là biến phụ
thuộc và các biến còn lại là biến độc lập. Ta dùng lệnh lm để thực thi mô hình hồi quy
tuyến tính bội.
Dựa vào kết quả của mô hình hồi quy tuyến tính trên, để lựa chọn những biến
sẽ loại khỏi mô hình tương ứng với mức tin cậy 5%, ta đặt:
Giả thiết H0: Hệ số hồi quy không có ý nghĩa thống kê.
Giả thiết H1: Hệ số hồi quy có ý nghĩa thống kê.
Nhận xét: Dựa vào kết quả của mô hình tuyến tính, Pr(>|t|) ứng với các
biến “ T”, “ RH”, “ T_out”, “Press_mm_hg”, “RH_out”, “Windspeed”,
“Tdewpoint”, “Visibility” bé hơn 0,05 nên ta bác bỏ H0 chấp nhận H1, các hệ số
ứng với các biến này có ý nghĩa thống kê. Ngược lại Pr(>|t|) ứng với biến
“rv1” lớn hơn 0,05 nên ta chấp nhận H0, các hệ số ứng với các biến này không
có ý nghĩa thống kê. Do đó ta sẽ loai biến rv1 ra khỏi mô hình.
33
Xét 2 mô hình tuyến tính cùng bao gồm biến “Appliances” là biến phụ thuộc nhưng:
Mô hình m1 chứa tất cả các biến còn lại là biến độc lập.
Mô hình m2 là loại bỏ biến rv1 từ mô hình “m1”.
Xây dựng mô hình m2
34
Mô hình hồi quy tuyến tính ta chọn hợp lý ở câu trên là mô hình m2. Ta suy
luận sự tác động của các biến lên chỉ số “Appliances”.
Ta có Pr(>|t|) ở các biến “ T”, “ RH”, “ T_out”, “Press_mm_hg”,
“RH_out”, “Windspeed”, “Tdewpoint”, “Visibility” đều rất bé, nên các biến này
đều có ý nghĩa thống kê cao đối với biến “Appliances”, có nghĩa là những thay đổi
của các biến này có ảnh hưởng nhiều đến sư thay đổi của sử dụng điện thiết bị.
Ngoài ra, dựa vào hệ số hồi quy ứng với các biến “ T”, “ RH”, “ T_out”,
“Press_mm_hg”, “RH_out”, “Windspeed”, “Tdewpoint”, “Visibility”, ta cũng
nhận thấy sư ảnh hưởng của các biến này lên biến “Appliances”.
Từ mô hình m2, ta dùng lệnh plot để vẽ đồ thị biểu thị sai số hồi quy (residuals)
và giá trị dự báo (fitted values):
biểu diễn đồ thị sai số hồi quy và giá trị dự báo
Nhận xét:
+ Chỉ số “Appliances” dự đoán nằm trong khoảng từ 20 kwh/m2 đến 140
kwh/m2. Mật độ dày nhất là ở vùng 80 kwh/m2 đến 120 kwh/m2
+ Đường sai số hồi quy là đường tuyến tính có xu hướng giảm dần và hướng
gần về vô cùng
+ Những giá trị dự đoán có sai số nằm quá xa đường tuyến tính là những dữ
liệu ngoại lai.
35
2.2.5. Dự báo (Predictions)
Từ mô hình m2, ta dùng lệnh predict để dự báo chỉ số Appliances tại 2 thuộc
tính như sau:
xây dựng thuộc tính X1, X2 và dự báo “Appliances” tại X1, X2
Code và kết quả:
Tạo bảng so sánh chỉ số “Appliances” dự báo tại thuộc tính X1 và X2.
Nhận xét: Với khoảng tin cậy 95%, ta có thể dự đoán được khả năng tiêu thụ
các thiết bị điện:
- Chỉ số “Appliances” trung bình (fit) của thuộc tính X1 được dự báo là
9.021663
36
- Chỉ số “Appliances” trung bình (fit) của thuộc tính X2 được dự báo là
14.719100
- Với X1 xét khoảng tin cậy 95% của chỉ số “Appliances” được dự báo
nằm trong khoảng (8.693839; 9.349488).
- Còn X2 xét khoảng tin cậy 95% của chỉ số “Appliances” được dự báo
nằm trong khoảng (12.928516; 16.509684)
Vậy khả năng tiêu thụ năng lượng của thiết bị ở thuộc tính thứ nhất sẽ dao
động nhỏ hơn thuộc tính thứ hai (range (x1)<range (x2)).
37
TÀI LIỆU THAM KHẢO
(1) Douglas C. Montgomery, George C. Runger. Hoboken. Applied Statistics and Probability
for Engineers. NJ: Wiley, (2007).
(2) Peter Dalgaard Introductory Statistics with R. Springer, (2008).
(3) Gareth, J., Daniela, W., Trevor, H. and Robert, T. An introduction to statistical learning:
with applications in R. Springer, (2013).
38