You are on page 1of 35

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA


KHOA KỸ THUẬT HÓA HỌC


BÁO
CÁO
BÀI
TẬP LỚN XÁC XUẤT
THỐNG KÊ

GVHD: NGUYỄN BÁ THI

Họ và tên: Võ Nhật Thanh 1915102


Nhóm: 3

BÀI TẬP LỚN 2:XÁC SUẤT THỐNG KÊ


I.PHẦN CHUNG

CHỦ ĐỀ HỒI QUY TUYẾN TÍNH BỘI

1.Cơ sở lý thuyết

-Hồi quy bội nghĩa là liên hệ biến phụ thuộc Y cho trước với nhiều biến độc lập X 1,X2,X3,…Xk.Mô hình hồi
quy tuyến tính đa biến có công thức tổng quát sau đây:

Yt = 1 + 2Xt2 + ... + kXtk + ut

-Xt1 được đặt bằng 1 để có được “tung độ gốc”.Chữ t nhỏ biểu thị số lần quan sát từ 1 đến n,u t là các giả
thiết về số hạng nhiễu.Ảnh hưởng của thay đổi trong Yt khi chỉ có Xti thay đổi được xác định bởi Yt /Xti
= i . Vì vậy, ý nghĩa của hệ số hồi quy i là, giữ giá trị của tất cả các biến khác không đổi, nếu Xti thay đổi
một đơn vị thì Yt kỳ vọng thay đổi trung bình là i đơn vị.

2.Đề bài

Bài tập 1. Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở
quân King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên cạnh giá nhà, dữ liệu còn bao
gồm các thuộc tính mô tả chất lượng ngôi nhà. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/harlfoxem/housesalesprediction. Các biến chính trong bộ dữ liệu:

 price:Giá nhà được bán ra


 sqft_living15:Diện tích trung bình của 15 ngôi nhà gần nhất trong khu dân cư
 floor:Số tầng của ngôi nhà được phân loại từ 1-3.5
 condition:Điều kiện kiến trúc của ngôi nhà 1-5,1:rất tệ,5: rất tốt
 sqft_above:Diện tích ngôi nhà
 sqft_living:Diện tích khuôn viên ngôi nhà

Câu hỏi:

1. Đọc dữ liệu(Import data)

Hãy dùng lệnh read.csv() để đọc tập tin

 Câu lệnh

 Kết quả

Page 2
2. Làm sạch dữ liệu(Data clearning)
(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã
trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau, mọi yêu cầu xử lý đều dựa trên tập
dữ liệu con new_DF này.
 Câu lệnh


Kết quả

Page 3
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo: is.na(), which(), apply()).
Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này.

 Câu lệnh

 Kết quả

3. Làm rõ dữ liệu
(a)

Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành log(price), log(sqf
t_living15), log(sqf t_above), và log(sqf t_living). Từ đây mọi sự tính toán với các biến trên
được hiểu là đã qua đổi biến dạng log.
 Câu lệnh

Page 4
 Kết quả

(b) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ
lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng bảng. (Hàm gợi ý:
mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames().
 Câu lệnh

 Kết quả

(c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý:
table().
 Câu lệnh

Page 5
 Kết quả

(d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price.
 Câu lệnh

 Kết quả

(e)
(e)
(e)
(e)

y dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floors và
biến condition.
 Câu lệnh

Page 6
 Kết quả

Page 7
Page 8
(f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sqft_living15,
sqft_above, và sqft_living
 Câu lệnh

 Kết quả

Page 9
4. Xây dựng mô hình
hồi quy tuyến tính

Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King.

(a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và tất cả các biến còn
lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội.
 Câu lệnh

 Kết quả

Page
10
(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô
hình tương ứng với mức tin cậy 5%?

-Giả thiết H0:Các hệ số hồi quy của các biến không có ý nghĩa thống kê

-Giả thiết H1:Các hệ số hồi quy của các biến có ý nghĩa thống kê

 Dựa vào kết quả từ mô hình tuyến tính, tất cả các


 
Pr  t  2e  16  0.05 
Bác bỏ giả
thiết H0, các hệ số hồi quy ứng với các biến đều có ý nghĩa thống kê. Vì vậy sẽ không có biến
nào bị loại khỏi mô hình.
(c) Xét 2 mô hình tuyến tính cùng bao gồm biến price là biến phụ thuộc nhưng:
 Mô hình M1 chứa tất cả các biến còn lại là độc lập
 Mô hình M2 là loại bỏ biến condition từ mô hình M1
 Câu lệnh

Page
11
 Kết quả

-Giả thiết H0 :Hai mô hình M1 và M2 là như nhau

-Giả thiết H1:Hai mô hình M1 và M2 khác nhau

-Từ bảng anova(mh1, mh2) thu được từ hai mô hình mh1 và mh2, ta thấy giá trị:
Pr( F )  2.2e  16  0.05  Bác bỏ giả thiết H0,vậy hai mô hình M1 và M2 là khác nhau

 Nhận xét

Page
12
-Bảng summary(mh1) cho biết các giá trị hệ số hồi quy của mô hình mh1 đều có ý nghĩa thống kê, tức là
các biến đều có ảnh hưởng đến giá nhà.

-Như kết luận ở trên thì mô hình mh1 cho biết nhiều yếu tố tác động lên giá nhà. Vì vậy mô hình mh2
loại bỏ biến condition nên sẽ gây ra sai số lên giá nhà.

 Kết luận

- Mô hình M1 hợp lý hơn Mô hình M2

(d) Chọn mô hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá nhà.

 Ở bảng summary(mh1), ở cột estimate ta thấy rằng:


- Các biến sqft_living15.log, new_DF.condition,new_DF.floor,sqft_living.log đều mang
dấu dương  Các biến này tỉ lệ thuận với giá nhà (price). Tức là khi biến
sqft_living15.log tăng lên một đơn vị thì giá nhà tăng 0,431039 đơn vị,biến new_DF.floor
tăng 1 đơn vị thì giá nhà tăng 0,137082 đơn vị, biến new_DF.condition tăng lên một đơn
vị thì giá nhà tăng 0,085332 đơn vị, biến sqft_living.log tăng lên một đơn vị thì giá nhà
tăng 0,687366 đơn vị.
- Biến sqft_above.log mang dấu âm  Biến này tỉ lệ nghịch với giá nhà (price). Tức là khi
biến sqft_above.log tăng lên một đơn vị thì giá nhà tăng 0,179422 đơn vị.
(e) Từ mô hình hồi quy mà bạn chọn ở câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy
(residuals) và giá trị dự báo (fitted values). Nêu ý nghĩa và nhận xét đồ thị
 Câu lệnh

 Kết quả

Page
13
 Ý nghĩa

-Biểu đồ thể hiện giá trị dự báo về giá nhà ở quận Kinh nước Mỹ phụ thuộc vào các biến
sqft_living15.log, new_DF.condition,new_DF.floor,sqft_living.log, sqft_living.log và sự sai số hồi
quy về giá trị dự báo này,đường màu đỏ biểu diễn sai số với các giá trị thực

 Nhận xét

-giá nhà được dự báo nhiều nhất trong khoảng từ 12,5-13,5

-Trong khoảng từ dưới 12 đến điểm nằm trong khoảng(12,5 và 13) thì giá nhà được dự báo là cao hơn
so với thực tế và trong khoảng này sai số giảm dần đến 0

-Trong khoảng từ 12,7 đến 13,5 thì giá trị nhà dự báo thấp hơn so với thực tế và độ sai số tăng lên rồi
giảm đến 0

-Trong khoảng từ 13,5 về sau thì giá trị dự báo cao hơn thực tế và sai số cũng tăng lên

5. Dự báo(Predictions)
(a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính
như sau:

x1: sqft_living15 = mean(sqft_living15), sqft_above = mean(sqft_above), sqft_living =


mean(sqft_living), floor = 2, condition = 3

x2: sqft_living15 = max(sqft_living15), sqft_above = max(sqft_above), sqft_living =


max(sqft_living), floor = 2, condition = 3.

So sánh khoảng tin cậy cho 2 giá trị dự báo này

Page
14
Trình bày cách làm:

 Câu lệnh

 Kết quả

 Nhận xét:
- Thuộc tính x1: khoảng tin cậy

I1  upr  lwr  13.09012  13.07429  0.01583


- Thuộc tính x2: khoảng tin cậy

I 2  upr  lwr  14.65587  14.60732  0.04855

I1  I 2
- Vì nên thuộc tính x1 đáng tin cậy hơn thuộc tính x2.

Page
15
II.PHẦN RIÊNG

1.1. Giới thiệu dữ liệu


Đề tài: Vật chất dạng hạt, khí tượng ở Bắc Kinh Beijing PM2.5 Data

Lý do chọn dữ liệu:
 Phân tích ảnh hưởng các yếu tố đến nồng độ PM2.5
 Dự đoán nồng độ PM2.5
 Đánh giá được nồng độ tại các thời điểm trong năm
Các biến:
 month: dữ liệu tháng
 hour: dữ liệu giờ
 Pm2.5: nồng độ PM2.5
 DEWP: điểm sương
 TEMP: nhiệt độ
 PRES: áp suất
 cbwd: hướng gió kết hợp
 Iws: tốc độ gió
 Is: lượng tuyết tích lũy nhiều giờ
 Ir: lượng mưa tích lũy nhiều giờ
1.2. Thực hiện thống kê mô tả
1.2.1. Làm sạch dữ liệu
1.2.1.1. Đọc dữ liệu
Câu lệnh:

1.2.1.2. Trích ra dữ liệu con new_DF gồm các biến: month, hour, pm2.5, DEWP, TEMP, PRES,
cbwd, Iws, Is; sau đó đổi tên các cột trong new_DF:
- Câu lệnh:

- Kết quả:

Page
16
1.2.1.3. Xử lí dữ liệu khuyết:
Câu lệnh

Kết quả:

Page
17
1.2.2. Làm rõ dữ liệu
Trong tập dữ liệu ban đầu, biến phân loại duy nhất về các yếu tố khí tượng là cbwd, với 4 mức đại diện cho
4 hướng gió khác nhau: CV (calm and variable - lặng gió và thay đổi), NE (northeast – đông bắc), NW
(northwest – tây bắc), SE (southeast – đông nam). Các biến còn lại đều là biến liên tục. Tuy nhiên 4 biến số
về thời gian gồm: year, month, day, hour cụ thể ở mỗi lần quan sát có ảnh hưởng rất lớn đến nồng độ
PM2.5. Trên thực tế, do sự thay đổi của các yếu tố khí tượng, nồng độ PM2.5 có thể thay đổi đáng kể ở các
mùa và từng thời điểm trong ngày. Vì sự đơn giản và hiệu quả, ta sẽ chuyển đổi các biến số tháng và giờ
thành các mức độ như sau:
Month 3,4,5 6,7,8 9,10,11 12,1,2
Season Spring Summer Fall Winter

Hour 1,2,3,4,5,6 7,8,9,10,11,12 13,14,15,16,17,18 19,20,21,22,23,24(0)


Time Night Morning Afternoon Evening
1.2.2.1. Gộp các biến month thành season, hour thành time
Câu lệnh:

Page
18
Kết quả:

1.2.2.2. Tính các giá trị thống kê cho biến liên tục
Câu lệnh:

Page
19
Kết quả:

1.2.2.3. Lập bảng table cho biến phân loại


Câu lệnh

Kết quả:

1.2.2.4. Vẽ đồ thị phân phối của biến pm2.5 bằng lệnh hist

Page
20
Câu lệnh:

Kết quả:

1.2.2.5. Vẽ phân phối của biến pm2.5 cho biến phân loại bằng hàm boxplot
Câu lệnh

Kết quả:

Page
21
Page
22
1.2.2.6. Vẽ các phân phối của biến pm2.5 với các biến liên tục bằng lệnh pairs
Câu lệnh:

Kết quả:

Page
23
Page
24
Page
25
1.2.3. Phân tích mô hình
1.2.3.1. Phân tích sự ảnh hưởng của các yếu tố đến nồng độ PM2.5 bằng mô hình hồi quy tuyến
tính bội
Xét 2 mô hình hồi quy tuyến tính giữa biến phụ thuộc pm2.5 và các biến độc lập:
Mô hình 1: gồm biến phụ thuộc pm2.5 và tất cả biến độc lập
Mô hình 2: giống mô hình 1 nhưng loại bỏ biến season và time.
Câu lệnh:

Kết quả:

Page
26
Vì kết quả thu được trong bảng Anova cho 2 mô hình hqtt và hqtt1 là Pr(>F) < 2,2.e-16 nhỏ hơn 0.05,
chỉ ra rằng 2 mô hình là không như nhau. Mà ở bảng summary(hqtt) cho ta biết các hệ số hồi quy của mô
hình hqtt đều có ý nghĩa thống kê, tức các biến đều có ảnh hưởng đến biến giá nhà, nên ta đề xuất mô hình

Page
27
hợp lý nhất là mô hình hqtt (mô hình hqtt cho ta biết nhiều nguyên nhân ảnh hưởng đến nồng độ của
PM2.5)
Nếu gọi giả thiết H0: Các hệ số hồi quy đều không có ý nghĩa thống kê, thì dựa vào kết quả của mô
hình tuyến tính, vì các Pr(>|t|) của các biến TEMP, PRES, month, hour, cbwd, Iws và Is đều < 0.05 nên các
hệ số hồi quy ứng với các biến đều có ý nghĩa thống kê. Do đó ta sẽ không cần loại biến nào ra khỏi mô
hình. Trong đó biến TEMP có ảnh hưởng lớn nhất đến nồng độ PM2.5 trong không khí, tuân thủ hiện tượng
nghịch nhiệt (khi nhiệt độ giảm và kéo dài thì lượng bụi trong không khí tăng cao)
1.2.3.2. Phân tích ảnh hưởng của season và time đến nồng độ PM2.5 bằng ANOVA
Trong thực tế, ta thấy rằng, khi nhiệt độ giảm vào những ngày đông, điều thường thấy ở các nước có 4 mùa
như Bắc Kinh, nồng độ của PM2.5 trong không khí tăng cao, trong khi đó vào những ngày hè thì nồng độ
lại giảm. Nồng độ bụi mỗi mùa còn phụ thuộc vào từng khoảng thời gian trong ngày như giờ cao điểm,…
Vì thế ta dùng mô hình ANOVA để xét sự ảnh hưởng của hai biến season và time đến nồng độ PM2.5 và
xét xem có sự tác động qua lại giữa chúng làm ảnh hưởng đến nồng độ PM2.5 hay không
Câu lệnh:

Kết quả:

Page
28
Page
29
Tại bảng anova(seasontime), ta thấy rằng cả hai biến season và time đều có Pr(>F) < 2,2.e-16 nhỏ
hơn 0,05, chỉ ra rằng cả hai biến đều có ý nghĩa thống kê. Qua trung bình bình phương (mean square) chúng
ta thấy ảnh hưởng của season có vẻ quan trọng hơn của time.
Để phân tích cụ thể hơn ta dựa vào bảng summary(seasontime), nếu quy ước giá trị seasonfall là 0
thì seasonspring và seasonsummer đều có pm2.5 thấp hơn (lần lượt là thấp hơn 16,975 và 13,760) và
seasonwinter có pm2.5 cao hơn khoảng 8.574. Tương tự đối với biến time, ta thấy timeafternoon có nồng
độ pm2.5 thấp nhất và timeevening cao nhất.
Để phân tích được hoàn tất, ta phải xét đến sự ảnh hưởng qua lại giữa hai biến season và time. Dựa
vào bảng anova(anhhuong1) ta thấy ảnh hưởng qua lại giữa hai biến có ý nghĩa thống kê vì p rất nhỏ. Để
biết được vào mùa nào và vào thời gian nào cụ thể trong mùa có nồng độ PM2.5 cao nhất và thấp nhất, ta sử
dụng phương pháp TukeyHSD: theo các số liệu thu được và sử dụng nhiều phép so sánh (bảng TukeyHSD)
ta kết luận được rằng nồng độ PM2.5 cao nhất là vào winter-evening và thấp nhất là spring-afternoon.
1.2.3.3. Phân tích ảnh hưởng của season và cbwd đến nồng độ PM2.5 bằng ANOVA

Page
30
Tương tự như mục 1.2.3.2, season và cbwd cũng có sự tác động lớn đến nồng độ PM2.5, và ta sẽ xét xem
chúng ảnh hưởng như thế nào và có sự tác động qua lại giữa chúng hay không bằng ANOVA.
Câu lệnh:

Kết quả:

Page
31
Page
32
Bằng phương pháp phân tích như mục 1.2.3.2, ta thấy được cả hai biến season và cbwd đều có ý
nghĩa thống kê và biến cbwd có ảnh hưởng quan trọng hơn (bảng anova(seasoncbwd))
Khi phân tích cụ thể, ta thấy được cbwdCV có tác động lớn nhất đến nồng độ PM2.5 (cao nhất) (bảng
summary(seasoncbwd))

Page
33
Để phân tích được hoàn tất, ta cũng phải xét đến sự ảnh hưởng qua lại giữa hai biến season và
cbwd. Dựa vào bảng anova(anhhuong2) ta thấy ảnh hưởng qua lại giữa hai biến có ý nghĩa thống kê vì p rất
nhỏ. Để biết được vào mùa nào và hướng gió nào cụ thể trong mùa có nồng độ PM2.5 cao nhất và thấp
nhất, ta sử dụng phương pháp TukeyHSD: theo các số liệu thu được và sử dụng nhiều phép so sánh (bảng
TukeyHSD) ta kết luận được rằng nồng độ PM2.5 cao nhất là vào winter-CV và thấp nhất là summer-NW
1.2.3.4. Vẽ đồ thị plot biểu thị sai số hồi quy và giá trị dự báo cho mô hình 1:
Câu lệnh:

Kết quả:

1.3. Kết luận chung


Từ phân tích trên, chúng ta đạt được nhiều thông tin và kết luận. PM2.5 ở Bắc Kinh cao hơn vào mùa đông
(winter), đặc biệt là buổi tối (evening) và buổi đêm(night), gió CV có ảnh hưởng nhiều hơn so với các loại
gió khác. Trên thực tế, ba yếu tố season+time+cbwd là ba yếu tố quan trọng nhìn chung có mối quan hệ mật
thiết đối với nồng độ PM2.5. Các yếu tố khác như nhiệt độ, điểm sương có ảnh hưởng sâu sắc đến nồng độ
PM2.5 trong không khí. Lí giải cho nguyên nhân này là do ở Bắc Kinh một phần có nhiều nhà máy gây ô
nhiễm không khí, một phần do người dân vào màu lạnh sử dụng than để sưởi ấm và một phần là do hiệu
ứng nghịch nhiệt. Cách làm giảm nồng độ PM2.5 đó là bố trị địa lý của các nhà máy xung quanh Bắc Kinh

Page
34
nên được điều chỉnh, người dân hạn chế sưởi ấm bằng than thay vào đó là sử dụng các năng lượng sạch như
khí đốt tự nhiên.

Page
35

You might also like