Professional Documents
Culture Documents
BÁO
CÁO
BÀI
TẬP LỚN XÁC XUẤT
THỐNG KÊ
1.Cơ sở lý thuyết
-Hồi quy bội nghĩa là liên hệ biến phụ thuộc Y cho trước với nhiều biến độc lập X 1,X2,X3,…Xk.Mô hình hồi
quy tuyến tính đa biến có công thức tổng quát sau đây:
-Xt1 được đặt bằng 1 để có được “tung độ gốc”.Chữ t nhỏ biểu thị số lần quan sát từ 1 đến n,u t là các giả
thiết về số hạng nhiễu.Ảnh hưởng của thay đổi trong Yt khi chỉ có Xti thay đổi được xác định bởi Yt /Xti
= i . Vì vậy, ý nghĩa của hệ số hồi quy i là, giữ giá trị của tất cả các biến khác không đổi, nếu Xti thay đổi
một đơn vị thì Yt kỳ vọng thay đổi trung bình là i đơn vị.
2.Đề bài
Bài tập 1. Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở
quân King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên cạnh giá nhà, dữ liệu còn bao
gồm các thuộc tính mô tả chất lượng ngôi nhà. Dữ liệu gốc được cung cấp tại:
https://www.kaggle.com/harlfoxem/housesalesprediction. Các biến chính trong bộ dữ liệu:
Câu hỏi:
Câu lệnh
Kết quả
Page 2
2. Làm sạch dữ liệu(Data clearning)
(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã
trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau, mọi yêu cầu xử lý đều dựa trên tập
dữ liệu con new_DF này.
Câu lệnh
Kết quả
Page 3
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo: is.na(), which(), apply()).
Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này.
Câu lệnh
Kết quả
3. Làm rõ dữ liệu
(a)
Chuyển đổi các biến price, sqft_living15, sqft_above, sqft_living lần lượt thành log(price), log(sqf
t_living15), log(sqf t_above), và log(sqf t_living). Từ đây mọi sự tính toán với các biến trên
được hiểu là đã qua đổi biến dạng log.
Câu lệnh
Page 4
Kết quả
(b) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ
lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng bảng. (Hàm gợi ý:
mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames().
Câu lệnh
Kết quả
(c) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại (Hàm gợi ý:
table().
Câu lệnh
Page 5
Kết quả
(d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến price.
Câu lệnh
Kết quả
(e)
(e)
(e)
(e)
Hã
y dùng hàm boxplot() vẽ phân phối của biến price cho từng nhóm phân loại của biến floors và
biến condition.
Câu lệnh
Page 6
Kết quả
Page 7
Page 8
(f) Dùng lệnh pairs() vẽ các phân phối của biến price lần lượt theo các biến sqft_living15,
sqft_above, và sqft_living
Câu lệnh
Kết quả
Page 9
4. Xây dựng mô hình
hồi quy tuyến tính
Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến giá nhà ở quận King.
(a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và tất cả các biến còn
lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội.
Câu lệnh
Kết quả
Page
10
(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô
hình tương ứng với mức tin cậy 5%?
-Giả thiết H0:Các hệ số hồi quy của các biến không có ý nghĩa thống kê
-Giả thiết H1:Các hệ số hồi quy của các biến có ý nghĩa thống kê
Page
11
Kết quả
-Từ bảng anova(mh1, mh2) thu được từ hai mô hình mh1 và mh2, ta thấy giá trị:
Pr( F ) 2.2e 16 0.05 Bác bỏ giả thiết H0,vậy hai mô hình M1 và M2 là khác nhau
Nhận xét
Page
12
-Bảng summary(mh1) cho biết các giá trị hệ số hồi quy của mô hình mh1 đều có ý nghĩa thống kê, tức là
các biến đều có ảnh hưởng đến giá nhà.
-Như kết luận ở trên thì mô hình mh1 cho biết nhiều yếu tố tác động lên giá nhà. Vì vậy mô hình mh2
loại bỏ biến condition nên sẽ gây ra sai số lên giá nhà.
Kết luận
(d) Chọn mô hình hợp lý hơn từ câu (c) hãy suy luận sự tác động của các biến lên giá nhà.
Kết quả
Page
13
Ý nghĩa
-Biểu đồ thể hiện giá trị dự báo về giá nhà ở quận Kinh nước Mỹ phụ thuộc vào các biến
sqft_living15.log, new_DF.condition,new_DF.floor,sqft_living.log, sqft_living.log và sự sai số hồi
quy về giá trị dự báo này,đường màu đỏ biểu diễn sai số với các giá trị thực
Nhận xét
-Trong khoảng từ dưới 12 đến điểm nằm trong khoảng(12,5 và 13) thì giá nhà được dự báo là cao hơn
so với thực tế và trong khoảng này sai số giảm dần đến 0
-Trong khoảng từ 12,7 đến 13,5 thì giá trị nhà dự báo thấp hơn so với thực tế và độ sai số tăng lên rồi
giảm đến 0
-Trong khoảng từ 13,5 về sau thì giá trị dự báo cao hơn thực tế và sai số cũng tăng lên
5. Dự báo(Predictions)
(a) Từ mô hình bạn chọn trong câu (c), hãy dùng lệnh predict() để dự báo giá nhà tại 2 thuộc tính
như sau:
Page
14
Trình bày cách làm:
Câu lệnh
Kết quả
Nhận xét:
- Thuộc tính x1: khoảng tin cậy
I1 I 2
- Vì nên thuộc tính x1 đáng tin cậy hơn thuộc tính x2.
Page
15
II.PHẦN RIÊNG
Lý do chọn dữ liệu:
Phân tích ảnh hưởng các yếu tố đến nồng độ PM2.5
Dự đoán nồng độ PM2.5
Đánh giá được nồng độ tại các thời điểm trong năm
Các biến:
month: dữ liệu tháng
hour: dữ liệu giờ
Pm2.5: nồng độ PM2.5
DEWP: điểm sương
TEMP: nhiệt độ
PRES: áp suất
cbwd: hướng gió kết hợp
Iws: tốc độ gió
Is: lượng tuyết tích lũy nhiều giờ
Ir: lượng mưa tích lũy nhiều giờ
1.2. Thực hiện thống kê mô tả
1.2.1. Làm sạch dữ liệu
1.2.1.1. Đọc dữ liệu
Câu lệnh:
1.2.1.2. Trích ra dữ liệu con new_DF gồm các biến: month, hour, pm2.5, DEWP, TEMP, PRES,
cbwd, Iws, Is; sau đó đổi tên các cột trong new_DF:
- Câu lệnh:
- Kết quả:
Page
16
1.2.1.3. Xử lí dữ liệu khuyết:
Câu lệnh
Kết quả:
Page
17
1.2.2. Làm rõ dữ liệu
Trong tập dữ liệu ban đầu, biến phân loại duy nhất về các yếu tố khí tượng là cbwd, với 4 mức đại diện cho
4 hướng gió khác nhau: CV (calm and variable - lặng gió và thay đổi), NE (northeast – đông bắc), NW
(northwest – tây bắc), SE (southeast – đông nam). Các biến còn lại đều là biến liên tục. Tuy nhiên 4 biến số
về thời gian gồm: year, month, day, hour cụ thể ở mỗi lần quan sát có ảnh hưởng rất lớn đến nồng độ
PM2.5. Trên thực tế, do sự thay đổi của các yếu tố khí tượng, nồng độ PM2.5 có thể thay đổi đáng kể ở các
mùa và từng thời điểm trong ngày. Vì sự đơn giản và hiệu quả, ta sẽ chuyển đổi các biến số tháng và giờ
thành các mức độ như sau:
Month 3,4,5 6,7,8 9,10,11 12,1,2
Season Spring Summer Fall Winter
Page
18
Kết quả:
1.2.2.2. Tính các giá trị thống kê cho biến liên tục
Câu lệnh:
Page
19
Kết quả:
Kết quả:
1.2.2.4. Vẽ đồ thị phân phối của biến pm2.5 bằng lệnh hist
Page
20
Câu lệnh:
Kết quả:
1.2.2.5. Vẽ phân phối của biến pm2.5 cho biến phân loại bằng hàm boxplot
Câu lệnh
Kết quả:
Page
21
Page
22
1.2.2.6. Vẽ các phân phối của biến pm2.5 với các biến liên tục bằng lệnh pairs
Câu lệnh:
Kết quả:
Page
23
Page
24
Page
25
1.2.3. Phân tích mô hình
1.2.3.1. Phân tích sự ảnh hưởng của các yếu tố đến nồng độ PM2.5 bằng mô hình hồi quy tuyến
tính bội
Xét 2 mô hình hồi quy tuyến tính giữa biến phụ thuộc pm2.5 và các biến độc lập:
Mô hình 1: gồm biến phụ thuộc pm2.5 và tất cả biến độc lập
Mô hình 2: giống mô hình 1 nhưng loại bỏ biến season và time.
Câu lệnh:
Kết quả:
Page
26
Vì kết quả thu được trong bảng Anova cho 2 mô hình hqtt và hqtt1 là Pr(>F) < 2,2.e-16 nhỏ hơn 0.05,
chỉ ra rằng 2 mô hình là không như nhau. Mà ở bảng summary(hqtt) cho ta biết các hệ số hồi quy của mô
hình hqtt đều có ý nghĩa thống kê, tức các biến đều có ảnh hưởng đến biến giá nhà, nên ta đề xuất mô hình
Page
27
hợp lý nhất là mô hình hqtt (mô hình hqtt cho ta biết nhiều nguyên nhân ảnh hưởng đến nồng độ của
PM2.5)
Nếu gọi giả thiết H0: Các hệ số hồi quy đều không có ý nghĩa thống kê, thì dựa vào kết quả của mô
hình tuyến tính, vì các Pr(>|t|) của các biến TEMP, PRES, month, hour, cbwd, Iws và Is đều < 0.05 nên các
hệ số hồi quy ứng với các biến đều có ý nghĩa thống kê. Do đó ta sẽ không cần loại biến nào ra khỏi mô
hình. Trong đó biến TEMP có ảnh hưởng lớn nhất đến nồng độ PM2.5 trong không khí, tuân thủ hiện tượng
nghịch nhiệt (khi nhiệt độ giảm và kéo dài thì lượng bụi trong không khí tăng cao)
1.2.3.2. Phân tích ảnh hưởng của season và time đến nồng độ PM2.5 bằng ANOVA
Trong thực tế, ta thấy rằng, khi nhiệt độ giảm vào những ngày đông, điều thường thấy ở các nước có 4 mùa
như Bắc Kinh, nồng độ của PM2.5 trong không khí tăng cao, trong khi đó vào những ngày hè thì nồng độ
lại giảm. Nồng độ bụi mỗi mùa còn phụ thuộc vào từng khoảng thời gian trong ngày như giờ cao điểm,…
Vì thế ta dùng mô hình ANOVA để xét sự ảnh hưởng của hai biến season và time đến nồng độ PM2.5 và
xét xem có sự tác động qua lại giữa chúng làm ảnh hưởng đến nồng độ PM2.5 hay không
Câu lệnh:
Kết quả:
Page
28
Page
29
Tại bảng anova(seasontime), ta thấy rằng cả hai biến season và time đều có Pr(>F) < 2,2.e-16 nhỏ
hơn 0,05, chỉ ra rằng cả hai biến đều có ý nghĩa thống kê. Qua trung bình bình phương (mean square) chúng
ta thấy ảnh hưởng của season có vẻ quan trọng hơn của time.
Để phân tích cụ thể hơn ta dựa vào bảng summary(seasontime), nếu quy ước giá trị seasonfall là 0
thì seasonspring và seasonsummer đều có pm2.5 thấp hơn (lần lượt là thấp hơn 16,975 và 13,760) và
seasonwinter có pm2.5 cao hơn khoảng 8.574. Tương tự đối với biến time, ta thấy timeafternoon có nồng
độ pm2.5 thấp nhất và timeevening cao nhất.
Để phân tích được hoàn tất, ta phải xét đến sự ảnh hưởng qua lại giữa hai biến season và time. Dựa
vào bảng anova(anhhuong1) ta thấy ảnh hưởng qua lại giữa hai biến có ý nghĩa thống kê vì p rất nhỏ. Để
biết được vào mùa nào và vào thời gian nào cụ thể trong mùa có nồng độ PM2.5 cao nhất và thấp nhất, ta sử
dụng phương pháp TukeyHSD: theo các số liệu thu được và sử dụng nhiều phép so sánh (bảng TukeyHSD)
ta kết luận được rằng nồng độ PM2.5 cao nhất là vào winter-evening và thấp nhất là spring-afternoon.
1.2.3.3. Phân tích ảnh hưởng của season và cbwd đến nồng độ PM2.5 bằng ANOVA
Page
30
Tương tự như mục 1.2.3.2, season và cbwd cũng có sự tác động lớn đến nồng độ PM2.5, và ta sẽ xét xem
chúng ảnh hưởng như thế nào và có sự tác động qua lại giữa chúng hay không bằng ANOVA.
Câu lệnh:
Kết quả:
Page
31
Page
32
Bằng phương pháp phân tích như mục 1.2.3.2, ta thấy được cả hai biến season và cbwd đều có ý
nghĩa thống kê và biến cbwd có ảnh hưởng quan trọng hơn (bảng anova(seasoncbwd))
Khi phân tích cụ thể, ta thấy được cbwdCV có tác động lớn nhất đến nồng độ PM2.5 (cao nhất) (bảng
summary(seasoncbwd))
Page
33
Để phân tích được hoàn tất, ta cũng phải xét đến sự ảnh hưởng qua lại giữa hai biến season và
cbwd. Dựa vào bảng anova(anhhuong2) ta thấy ảnh hưởng qua lại giữa hai biến có ý nghĩa thống kê vì p rất
nhỏ. Để biết được vào mùa nào và hướng gió nào cụ thể trong mùa có nồng độ PM2.5 cao nhất và thấp
nhất, ta sử dụng phương pháp TukeyHSD: theo các số liệu thu được và sử dụng nhiều phép so sánh (bảng
TukeyHSD) ta kết luận được rằng nồng độ PM2.5 cao nhất là vào winter-CV và thấp nhất là summer-NW
1.2.3.4. Vẽ đồ thị plot biểu thị sai số hồi quy và giá trị dự báo cho mô hình 1:
Câu lệnh:
Kết quả:
Page
34
nên được điều chỉnh, người dân hạn chế sưởi ấm bằng than thay vào đó là sử dụng các năng lượng sạch như
khí đốt tự nhiên.
Page
35