Professional Documents
Culture Documents
XSTK
XSTK
I) THÔNG
TIN DỮ LIỆU
Sức tàn phá của một cơn lốc
xoáy phần lớn bắt nguồn từ tốc
độ gió bên trong nó. Vì lý do
này, các nhà khí tượng đánh giá
lốc xoáy bằng cách sử dụng
thang đo dựa trên tốc độ gió.
Tại Hoa Kỳ, lốc xoáy ban đầu
được đánh giá theo Thang đo
Fujita và kể từ tháng 2 năm
2007 theo Thang đo Fujita
Nâng cao. Sau đây là bảng tổng
quan về hai thang đo tốc độ
gió:
4
## [1] 67558 14
## [1] "yr" "mo" "dy" "date" "st" "mag" "inj" "fat" "slat" "slon"
## [11] "elat" "elon" "len" "wid"
II) THỐNG KÊ MÔ TẢ
1) CHỌN CÁC BIẾN ĐỂ PHÂN TÍCH
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của inj
8
# Bảng tần số
Tb_Inj = cut(inj, breaks = seq(0, 1740, 174), include.lowest = T, right = T)
table(Tb_Inj)
## Tb_Inj
## [0,174] (174,348] (348,522] (522,696]
## 67464 64 19 3
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 3 0 2 1
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 1 1
## Tb_Inj
## [0,174] (174,348] (348,522] (522,696]
## 9.986086e-01 9.473341e-04 2.812398e-04 4.440629e-05
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 4.440629e-05 0.000000e+00 2.960419e-05 1.480210e-05
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 1.480210e-05 1.480210e-05
## [1] 1.437876
Ý nghĩa: Cho biết trung bình cứ mỗi cơn lốc đi qua sẽ có ~ 1 người bị thương
+Trung vị
median(inj)
## [1] 0
Ý nghĩa: Cho biết là có 50% cơn lốc qua mà không có người bị thương.
+Mode
which(table(inj) == max(table(inj)))
## 0
## 1
Ý nghĩa: Trong tập dữ liệu nhiều nhất là các cơn bão đi qua nhưng không có người bị thương.
+Phân vị thứ 95 của inj
* Các số đo phân bố
11
quantile(inj, 0.95)
+Tứ phân vị
## 95%
quantile(inj) ## 3
## 0% 25% 50% 75% 100% Ý nghĩa: Cho biết 95% cơn lốc có số người bị thương không vượt quá 3
## 0 0 0 0 1740
* Các số đo phân tán
Nhìn vào kết quả từ câu lệnh ta thấy có vẻ như tứ phân +Khoảng biến thiên
vị thứ nhất, tứ phân vị thứ hai và tứ phân vị thứ ba của range(inj)
chúng ta đều bằng 0. Điều này xảy ra bởi tập dữ liệu cột
## [1] 0 1740
inj có qua nhiều dữ liệu có giá trị bằng 0, số lượng vượt
quá 75%. Ý nghĩa: Cho biết số người bị thương bởi lốc xoáy biến thiên từ 0-1740
Chúng tôi sẽ thử tính toán xem có bao nhiêu phần trăm +Độ trải giữa (bằng 0(vì Q3 và Q1 bằng 0))
cơn lốc đi qua mà có người bị thương. +Phương sai
var(inj)
bt = which(inj != 0)
(length(bt)/length(inj)) * 100
## [1] 333.5721
## [1] 11.38133
+Độ lệch chuẩn
Vậy có khoảng 11.38% cơn lốc có người bị thương, còn sd(inj)
lại là hơn 88% cơn lốc đi qua không có ai bị thương.
## [1] 18.26396
2.2 PHÂN TÍCH BIẾN FAT
12
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của fat
## Tb_Fat ## Tb_Fat
## [0,16) [16,32) [32,48) [48,64) [64,80) ## [0,16) [16,32) [32,48)
[80,96) [96,112) [112,128) [48,64) [64,80) [80,96)
## 67477 58 12 4 2 ## 9.988010e-01 8.585216e-04 1.776252e-04
2 0 2 5.920838e-05 2.960419e-05 2.960419e-05
## [128,144) [144,160] ## [96,112) [112,128) [128,144)
## 0 1 [144,160]
## 0.000000e+00 2.960419e-05 0.000000e+00
1.480210e-05
#Bảng tần số tích lũy
cumsum(table(Tb_Fat)) #Bảng tần suất tích lũy
cumsum(prop.table(table(Tb_Fat)))
## [1] 0.09047041
+Trung vị
median(fat)
## [1] 0
+Mode
which(table(fat) == max(table(fat)))
## 0
## 1
* Các số đo phân bố * Các số đo phân tán 14
quantile(fat) range(fat)
Xảy ra tương tự như khi phân tích inj, tứ phân +Phương sai
vị thứ nhất, tứ phân vị thứ hai, thứ phân vị thứ 3
var(fat)
của fat đều bằng 0. Điều này xảy ra là do có hơn
75% cơn lốc đi qua mà không có thương vong
## [1] 2.20257
về người.
sd(fat)
## [1] 1.484106
2.3 PHÂN TÍCH BIẾN WID
15
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của wid
# Bảng tần số
Tb_wid = cut(wid, breaks = seq(0, 4576, 572), #Bảng tần suất
include.lowest = T, right = T) prop.table(table(Tb_wid))
table(Tb_wid)
## Tb_wid
## Tb_wid ## [0,572] (572,1.14e+03]
## [0,572] (572,1.14e+03] (1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03] ## 9.687084e-01 2.343172e-02
## 65444 1583 4.692264e-03 2.501554e-03
317 169 ## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03] (3.43e+03,4e+03] (4e+03,4.58e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03] ## 4.292608e-04 1.628231e-04
## 29 11 4.440629e-05 2.960419e-05
3 2
#Bảng tần suất tích lũy
#Bảng tần số tích lũy cumsum(prop.table(table(Tb_wid)))
cumsum(table(Tb_wid))
## [0,572] (572,1.14e+03]
## [0,572] (572,1.14e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
## 0.9687084 0.9921401
## 65444 67027
0.9968324 0.9993339
67344 67513
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03]
## 0.9997632 0.9999260
## 67542 67553
0.9999704 1.0000000
67556 67558
)
## [1] 106.577
Ý nghĩa: Cho biết trung bình các cơn lốc có đường kính khoảng 106.6 yard.
+Trung vị
median(wid)
## [1] 50
Ý nghĩa: Cho biết có 50% cơn lốc có đường kính không quá 50 yard.
+Mode
which(table(wid) == max(table(wid)))
## 10
## 11
Ý nghĩa: Cho biết số lượng cơn lốc có đường kính 10 yard là nhiều nhất.
* Các số đo phân bố * Các số đo phân tán
+Khoảng biến thiên 17
Theo thông tin từ tập dữ liệu thì từ tháng 1 năm 2007 trở về trước thì ta dùng thang đo F. Sau đó trở đi
thì ta dùng thang đo EF. Để phân tích trở nên chính xác ta sẽ tách data ra thành 2 bảng.
before_1_2007 = subset(data, yr < 2007 | (yr == 2007& mo <= 1)) # dữ liệu trước 1-2007
after_1_2007 = subset(data, yr > 2007 | (yr == 2007& mo > 1)) # dữ liệu sau 1-2007
#Mode
which(table(before_1_2007$mag) == max(table(before_1_2007$mag)))
## 0
## 1
#Bảng tần số
table(Tb_Inj, mag)
## mag
## Tb_Inj -9 0 1 2 3 4 5
## [0,174] 605 31375 22885 9516 2524 527 32
## (174,348] 0 0 0 1 11 36 16
## (348,522] 0 0 0 0 1 12 6
## (522,696] 0 0 0 0 0 1 2
## (696,870] 0 0 0 0 0 2 1
## (870,1.04e+03] 0 0 0 0 0 0 0
## (1.04e+03,1.22e+03] 0 0 0 0 0 0 2
## (1.22e+03,1.39e+03] 0 0 0 0 0 1 0
## (1.39e+03,1.57e+03] 0 0 0 0 0 1 0
## (1.57e+03,1.74e+03] 0 0 0 0 0 1 0
#Bảng tần suất
prop.table(table(Tb_Inj, mag)) 20
## mag
## Tb_Inj -9 0 1 2
## [0,174] 8.955268e-03 4.644158e-01 3.387460e-01 1.408567e-01
## (174,348] 0.000000e+00 0.000000e+00 0.000000e+00 1.480210e-05
## (348,522] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (522,696] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (696,870] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (870,1.04e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.04e+03,1.22e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.22e+03,1.39e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.39e+03,1.57e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.57e+03,1.74e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## mag
## Tb_Inj 3 4 5
## [0,174] 3.736049e-02 7.800705e-03 4.736671e-04
## (174,348] 1.628231e-04 5.328755e-04 2.368335e-04
## (348,522] 1.480210e-05 1.776252e-04 8.881258e-05
## (522,696] 0.000000e+00 1.480210e-05 2.960419e-05
## (696,870] 0.000000e+00 2.960419e-05 1.480210e-05
## (870,1.04e+03] 0.000000e+00 0.000000e+00 0.000000e+00
## (1.04e+03,1.22e+03] 0.000000e+00 0.000000e+00 2.960419e-05
## (1.22e+03,1.39e+03] 0.000000e+00 1.480210e-05 0.000000e+00
## (1.39e+03,1.57e+03] 0.000000e+00 1.480210e-05 0.000000e+00
## (1.57e+03,1.74e+03] 0.000000e+00 1.480210e-05 0.000000e+00
21
Lập bảng tần số và tần suất chéo của mag với fat
#Bảng tần số
table(Tb_Fat, mag)
## mag
## Tb_Fat -9 0 1 2 3 4 5
## [0,16) 605 31375 22884 9517 2530 536 30
## [16,32) 0 0 1 0 6 34 17
## [32,48) 0 0 0 0 0 6 6
## [48,64) 0 0 0 0 0 3 1
## [64,80) 0 0 0 0 0 1 1
## [80,96) 0 0 0 0 0 1 1
## [96,112) 0 0 0 0 0 0 0
## [112,128) 0 0 0 0 0 0 2
## [128,144) 0 0 0 0 0 0 0
## [144,160] 0 0 0 0 0 0 1
#Bảng tần suất
prop.table(table(Tb_Fat, mag)) 22
## mag
## Tb_Fat -9 0 1 2 3
## [0,16) 8.955268e-03 4.644158e-01 3.387312e-01 1.408715e-01 3.744930e-02
## [16,32) 0.000000e+00 0.000000e+00 1.480210e-05 0.000000e+00 8.881258e-05
## [32,48) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [48,64) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [64,80) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [80,96) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [96,112) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [112,128) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [128,144) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [144,160] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## mag
## Tb_Fat 4 5
## [0,16) 7.933923e-03 4.440629e-04
## [16,32) 5.032713e-04 2.516356e-04
## [32,48) 8.881258e-05 8.881258e-05
## [48,64) 4.440629e-05 1.480210e-05
## [64,80) 1.480210e-05 1.480210e-05
## [80,96) 1.480210e-05 1.480210e-05
## [96,112) 0.000000e+00 0.000000e+00
## [112,128) 0.000000e+00 2.960419e-05
## [128,144) 0.000000e+00 0.000000e+00
## [144,160] 0.000000e+00 1.480210e-05
23
Hai dữ liệu inj và fat có quá nhiều giá trị bằng 0 (vượt quá 75%) nên chúng tôi quyết định vẽ biểu
đồ phân tích dựa trên dữ liệu có (có người bị thương và người tử vong).
Have_inj = subset(data$inj, inj != 0) #Dữ liệu những cơn lốc có người bị thương
Have_fat = subset(data$fat, fat != 0) #Dữ liệu những cơn lốc có người tử vong
3.2 PHÂN TÍCH BIỂU ĐỒ CỦA INF VÀ FAT
boxplot(Have_inj, Have_fat,
names = c("Have_inj", "Have_fat"),
ylab = "", xlab = "Đơn vị: Người",
main = "Biểu đồ hộp về số người tử vong và số người bị thương", horizontal = TRUE)
Giải quyết vấn đề này, chúng tôi sẽ sử dụng phương pháp loại bỏ giá trị ngoại lệ IQR. Đây là một phương pháp khá phổ
biến và thông dụng để xác định và loại bỏ giá trị ngoại lệ từ một tập dữ liệu. Ý tưởng là ta sẽ phân tích dữ liệu trong khoảng
25
hist(New_Have_inj, breaks = seq(1, 16, 3), col = 'pink', main = 'Biểu đồ phân phối
tần số cho số người bị thương sau bão', ylab = 'Tan So', xlab = 'Đơn vị: Người')
27
Nhận xét:
Nhận xét:
-Biểu đồ tập trung không đồng đều, tập trung chủ yếu ở bên trái.
Nhiều nhất trong khoảng < 60 yard (~ 71%), tiếp theo là là từ
trong khoảng 80-> 100 yard ( ~12%). Theo như quan sát của
chúng tôi các cơn bão có sức gió < 60 yard thường là các cơn
bão có xếp loại là EF0. Cơn bão này có thể gây ra thiệt hại nhẹ
như tốc mái nhà, cây cối đổ, và hư hỏng nhẹ đối với các cấu trúc
nhỏ. Từ 80->100 yard là các cơn bão có xếp loại là EF1. Cơn
bão EF1 có khả năng gây ra thiệt hại vừa phải đối với các cấu
trúc nhà cửa và cây cối, bao gồm cả nguy cơ đổ đốn và hư hỏng
đáng kể cho các kết cấu yếu hơn.
3.3 PHÂN TÍCH BIỂU ĐỒ MAG
Biểu đồ trước tháng 1-2007
piepercent = round(100*table(before_1_2007$mag)/
sum(table(before_1_2007$mag)), 1)
pie(table(before_1_2007$mag),col = c('white',
'lightskyblue', 'green','yellow', 'orange', 'red',
pie(table(before_1_2007$mag), labels = c('0', 'brown' ), labels = piepercent)
'1' ,'2', '3', '4', '5','-9'), col = c('white',
Nhận xét: Trước 1-2007 thì không xuất hiện những cơn bão không xác
'lightskyblue', 'green','yellow', 'orange',
định mức độ. Nhiều nhất là các cơn bão mức 0(~41.1%), tiếp theo là các
'red', 'brown' ), main = 'Biểu đồ tỉ lệ xuất
cơn bão mức 1(~34.2%), mức 2(~4.3%), mức 3(~4.3%), mức 4(~1%) và
hiện của các cơn bão theo mức độ(Thang đo
cuối cùng là mức 5(~0.1%). Nhưng cơn bão mang mức 5 rất ít xuất hiện.
Fujita)')
Biểu đồ sau tháng 1-2007 piepercent = round(100*table(after_1_2007$mag)/ 31
sum(table(after_1_2007$mag)), 1)
pie(table(after_1_2007$mag),col = c('white',
'lightskyblue', 'green','yellow', 'orange', 'red',
'brown' ), labels = piepercent, main = 'Biểu đồ tỉ lệ
xuất hiện của các cơn bão theo mức độ(Thang đo
EFujita)')
pie(table(after_1_2007$mag), labels =
c('-9', '0' ,'1', '2', '3', '4','5'), col
= c('white', 'lightskyblue',
'green','yellow', 'orange', 'red', Nhận xét: Sau 1-2007 thì có thêm sự xuất hiện của các cơn bão không xác định
mức độ. Nhiều nhất vẫn là những cơn bão mức 0, sau đó là mức 1, mức 2, mức
'brown' ), main = 'Biểu đồ tỉ lệ xuất
3 sau đó là đến những cơn bão không xác định mức độ, cuối cùng là mức 4.
hiện của các cơn bão theo mức độ(Thang đo
Sau giai đoạn 1-2007, thì không có sự xuất hiện của các cơn bão mức độ 5.
EFujita)')
III. Thống kê suy diễn
1. ƯỚC LƯỢNG ĐIỂM
Bài toán 1: Tìm ước lượng điểm cho trung bình số người bị
thương sau mỗi cơn bão trong tập dữ liệu.
mean(inj)
## [1] 1.437876
Kết luận: ước lượng điểm cho trung bình số người bị thương sau
mỗi cơn bão là ~ 1.437876
Bài toán 2: Tìm ước lượng điểm cho tỷ lệ cơn bão có số người
bị thương lớn hơn 16 trong tập dữ liệu
## [1] 0.0143
Bài làm:
Gọi n là cỡ mẫu của dữ liệu
length(wid)
## [1] 67558
##
## One Sample t-test
##
## data: wid
## t = 134.6, df = 67557, p-value < 2.2e-16 Kết luận: khoảng tin cậy 95% của trung bình độ rộng bão là
## alternative hypothesis: true mean is not
[105.0251, 108.1289]
equal to 0
## 95 percent confidence interval:
## 105.0251 108.1289
## sample estimates:
## mean of x
## 106.577
Bài toán 2: Tìm khoảng tin cậy 90% cho tỷ lệ bão có độ rộng
lớn hơn 200 yard
length(wid) # n = 67558
Kết luận: khoảng tin cậy 90% cho tỷ lệ bão có độ rộng lớn
hơn 200 yard là [0.1077, 0.1117]
3.BÀI TOÁN KIỂM ĐỊNH 35
3.1. Bài toán kiểm định trung bình một tổng thể.
TBY_before_1_2007 = subset(wid, mag == 0)
Kết luận: Tại mức ý nghĩa 5%, đủ cơ sở để kết luận độ rộng trung bình của các cơn bão mức 0 sẽ nhỏ hơn 100 yard.
3.2 BÀI TOÁN KIỂM ĐỊNH MỘT TỶ LỆ
36
Trước khi đi vào bài toán, chúng em muốn đưa ra một chút
thông tin về biến st(sate)
## st
## AK AL AR AZ CA CO CT DC DE
FL GA HI IA ID IL IN
## 4 2358 1912 270 462 2306 120 3 69
3497 1801 41 2773 218 2682 1543
## KS KY LA MA MD ME MI MN MO
MS MT NC ND NE NH NJ
## 4375 1067 2222 178 389 134 1071 2023 2427
2476 431 1431 1617 2967 94 170 #Bang xuất hiện nhiều nhất trong tập dữ liệu
## NM NV NY OH OK OR PA PR RI trên là
SC SD TN TX UT VA VI which(table(st) == max(table(st)))
## 634 94 476 1196 4092 121 902 28 13
1116 1861 1331 9149 134 787 1 ## TX
## VT WA WI WV WY ## 45
## 46 125 1467 143 711
Nhận xét: Bang Texas là bang xuất hiện nhiều bão nhất
trong tập dữ liệu.
Bài toán: Dùng tập dữ liệu, kiểm định xem tỉ lệ số cơn bão ở
TX có độ rộng lớn hơn 200 yard có lớn hơn 50% không?
Bài làm: Gọi p là tỉ lệ số cơn bão ở TX có độ rộng lớn hơn 200
yard.
Câu hỏi: p ≥ 50%
H0:p ≥ 0.5
H1:p < 0.5
pvalue < 2.2e-16 < 0.5 => Bác bỏ H0 chấp nhận H1.
Kết luận: Tỉ lệ số cơn bão ở Texas có độ rộng lớn hơn 200 yard không
lớn hơn 50%.
3.3 BÀI TOÁN KIỂM ĐỊNH HAI MỨC TRUNG BÌNH
38
Bài toán:Tại mức ý nghĩa 5%, So sánh độ rộng trung bình độ rộng những cơn bão ở Texas với NewYork. Cho biết độ rộng của
các cơn bão tuân theo phân phối chuẩn với phương sai bằng nhau.
t.test(PTTX, PTNY, mu = 0, alternative = 't',
Bài làm: var.equal = T)
Gọi µ1,µ2 lần lượt là trung bình độ rộng của các cơn bão
tại Texas và NewYork
##
## Two Sample t-test
Câu hỏi: µ1 ≠ µ2 ##
H0: µ1 − µ2 = 0 ## data: PTTX and PTNY
H1: µ1 − µ2 ≠ 0 ## t = -4.1346, df = 9623, p-value = 3.586e-05
## alternative hypothesis: true difference in
means is not equal to 0
#Độ rộng các cơn bão ở NY ## 95 percent confidence interval:
PTNY = subset(wid, st == 'NY') ## -57.12843 -20.38118
## sample estimates:
## mean of x mean of y
## 92.48049 131.23529
mu = 0
alternative = ‘t’ pvalue = 3.586e-05 < 0.05 => bác bỏ H0, chấp nhận H1
var.equal = T do phương sai của hai tổng thể được giả
Kết luận: có sự khác biệt giữa độ rộng trung bình của các
thiết bằng nhau.
cơn bão ở TX và NewYork.
39
3.4 BÀI TOÁN KIỂM ĐỊNH GIỮA HAI TỶ LỆ
Bài toán: Dùng tập dữ liệu đã cho, kiểm định xem tỉ lệ người tử vong bởi bão mức 4 có nhiều hơn bão mức 5 hay không. Tại
mức ý nghĩa 5%(Dùng dữ liệu trước 1-2007)
Have_fat_5 = subset(Mag_5_bf_1_2007$fat,
Bài làm: Mag_5_bf_1_2007$fat > 0)# số liệu tử vong do
Gọi p1 và p2 lần lượt là tỉ lệ người tử vong bởi bão mức bão mức 4
length(Have_fat_5)
4 và mức 5.
Câu hỏi: p1>p2 ## [1] 44
H0:p1−p2≤0
prop.test(x = c(292, 44), n = c(498, 50), alt =
H1:p1−p2>0 'g', correct = F)= subset(wid, st == 'NY')
Mag_4_bf_1_2007 = subset(before_1_2007, mag ==
4) # Số liệu về các cơn bão mức 4 ##
length(Mag_4_bf_1_2007$fat) ## 2-sample test for equality of proportions
without continuity correction
##
## [1] 498
## data: c(292, 44) out of c(498, 50)
## X-squared = 16.519, df = 1, p-value = 1
Mag_5_bf_1_2007 = subset(before_1_2007, mag ==
## alternative hypothesis: greater
5) # Số liệu về các cơn bão mức 5
## 95 percent confidence interval:
length(Mag_5_bf_1_2007$fat)
## -0.3775105 1.0000000
## [1] 50 ## sample estimates:
## prop 1 prop 2
Have_fat_4 = subset(Mag_4_bf_1_2007$fat, ## 0.5863454 0.8800000 st == 'NY')
Mag_4_bf_1_2007$fat > 0)# số liệu tử vong do
bão mức 4 pvalue = 1 > 0.05 => Chấp nhận H0
length(Have_fat_4)
Kết luận: Tỷ lệ người tử vong do bão cấp 5 cao hơn tỉ lệ người tử
## [1] 292 vong do bão cấp 4.
3.5 BÀI TOÁN KIỂM ĐỊNH HAI PHƯƠNG SAI
Bài toán: Dùng tập dữ liệu đã cho, kiểm định xem phương sai của số người tử vong bởi bão mức 4 có bằng phương
sai dữ liệu của bão mức 5 hay không, với mức ý nghĩa 5%. (Sử dụng dữ liệu trước 1-2007)
Bài Làm:
Gọi σ21, σ22 lần lượt là phương sai của số người tử vong do
bão mức 4 và số người tử vong do bão mức 5.
Câu hỏi: σ21= σ22
H0:σ21 = σ22
H1:σ21≠ σ22
var.test(Have_fat_4, Have_fat_5, alt = 't')
##
## F test to compare two variances
##
## data: Have_fat_4 and Have_fat_5
## F = 0.13533, num df = 291, denom df = 43, p-
value < 2.2e-16
## alternative hypothesis: true ratio of
variances is not equal to 1
## 95 percent confidence interval:
pvalue < 2.2e-16 < 0.05 => bác bỏ H0, chấp nhận H1
## 0.0823472 0.2056885
## sample estimates:
## ratio of variances Kết luận: Ở mức ý nghĩa 5%, ta kết luận phương sai số người tử
## 0.1353334 vong do bão mức 4 và bão mức 5 là khác nhau.
3.6 BÀI TOÁN PHÂN TÍCH PHƯƠNG SAI
Bài toán: Ở mức ý nghĩa 5%, hãy kiểm định xem độ mạnh của cơn bão có ảnh hưởng đến số người tử vong không?
Bài làm:
H0 : Mức độ của cơn bão không ảnh hưởng tới đến số người tử
vong.
H1 : Mức độ của cơn bão có ảnh hưởng tới đến số người tử
vong.
anova(lm(fat~mag))
## --- Kết luận: Ở mức ý nghĩa 5%, ta kết luận độ mạnh của cơn bão
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' có ảnh hưởng tới số người tử vong.
0.05 '.' 0.1 ' ' 1
3.7 BÀI TOÁN KIỂM ĐỊNH TÍNH ĐỘC LẬP
Bài toán: Từ tập dữ liệu, kiểm định tính độc lập của 2 biến mag và st. Tại mức ý nghĩa 5%.
Bài làm:
H0: Mức độ bão và tiểu bang không có mối liên hệ với nhau.
chisq.test(table(mag, st))
##
## Pearson's Chi-squared test
##
## data: table(mag, st)
## X-squared = 5548.6, df = 312, p-value <
2.2e-16
p-value < 2.2e-16 < 0.05 => Bác bỏ H0, chấp nhận H1
Kết luận: Tại mức ý nghĩa 5%, ta kết luận st và mag mà có mối
liên hệ với nhau.
CẢM ƠN
THẦY CÔ VÀ
CÁC BẠN ĐÃ
XEM.