You are on page 1of 43

BỘ DỮ LIỆU LỐC XOÁY

CỦA HOA KỲ TỪ NĂM


1950-2021
NHÓM 3 – MÔN XÁC SUẤT
THỐNG KÊ
MỤC LỤC
I) Thông tin dữ liệu
II) Thống kê mô tả
​III) Thống kê suy diễn
Nhóm 3 3

I) THÔNG
TIN DỮ LIỆU
Sức tàn phá của một cơn lốc
xoáy phần lớn bắt nguồn từ tốc
độ gió bên trong nó. Vì lý do
này, các nhà khí tượng đánh giá
lốc xoáy bằng cách sử dụng
thang đo dựa trên tốc độ gió.
Tại Hoa Kỳ, lốc xoáy ban đầu
được đánh giá theo Thang đo
Fujita và kể từ tháng 2 năm
2007 theo Thang đo Fujita
Nâng cao. Sau đây là bảng tổng
quan về hai thang đo tốc độ
gió:
4

Rating Wind Speed Damage Rating Wind Speed Damage


F0 40-72 mph Light damage EF0 65-85 mph Light damage
F1 73-112 mph Moderate EF1 86-110 mph Moderate damage
damage
F2 113-157 mph Considerable EF2 111-135 mph Considerable
damage damage
F3 158-206 mph Severe damage
EF3 136-165 mph Severe damage
F4 207-260 mph Devastating EF4 166-200 mph Devastating
damage damage
F5 >261 mph Incredible EF5 >200 mph Incredible
damage damage

Thang đo Fujita Thang đo Enhanced Fujita Scale

LỆNH ĐỌC TẬP DỮ LIỆU


data = read.csv("us_tornado_dataset_1950_2021.csv", header = T)
attach(data)
1. MÔ TẢ TẬP DỮ LIỆU
dim(data)

## [1] 67558 14

Dữ liệu gồm 67558 dòng và 14 cột nói về:


colnames(data)

## [1] "yr" "mo" "dy" "date" "st" "mag" "inj" "fat" "slat" "slon"
## [11] "elat" "elon" "len" "wid"

yr: Năm (4 chữ số)


mn: Tháng (1-12)
dy: Ngày trong tháng
date: Thời gian (ví dụ: 1950-01-01)
st: Mã viết tắt của tiểu bang nơi lốc xoáy bắt nguồn
mag: Độ mạnh của cơn bão tính theo thang F trước tháng 1 năm 2007; thang đo EF sau tháng 1 năm 2007 (-9 nếu không rõ tính theo thang đo
nào)
inj: Số người bị thương
fat: Số người tử vong
slat: Vĩ độ khởi điểm (đơn vị: độ)
slon: Kinh độ khởi điểm (đơn vị: độ)
elat: Vĩ độ kết thúc (giá trị 0 nếu không có thông tin)
elon: Kinh độ kết thúc (giá trị 0 nếu không có thông tin)
len: Độ dài quãng đường di chuyển của cơn lốc xoáy (đơn vị: dặm)
wid: Đường kính cơn lốc (đơn vị: yard(Yard là một đơn vị đo độ dài của Anh và Mỹ 1 yard tương đương khoảng 0,9144 mét.))
2) PHÂN LOẠI 6

Dữ liệu định tính


• yr: Year (năm)
• mn: Month (tháng)
• dy: Day (ngày)
• date: Date (ngày tháng)
• st: State (tiểu bang)
• mag: Magnitude (mức độ, thang
đo)
Dữ liệu định lượng
• fat: Fatalities (số người chết)
• slat: Starting latitude (vĩ độ bắt đầu)
• slon: Starting longitude (kinh độ bắt đầu)
• elat: Ending latitude (vĩ độ kết thúc)
• elon: Ending longitude (kinh độ kết thúc)
• len: Length (độ dài)
• inj: Injuries (số người bị thương)
• wid: Width (chiều rộng)
)

II) THỐNG KÊ MÔ TẢ
1) CHỌN CÁC BIẾN ĐỂ PHÂN TÍCH

Biến định lượng


Biến định tính
inj: Số người bị thương
mag: Độ mạnh của bão
fat: Số người tử vong

wid: Width (chiều rộng)

2) PHÂN TÍCH THỐNG KÊ MÔ TẢ

2.1 PHÂN TÍCH BIẾN INJ

Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của inj
8
# Bảng tần số
Tb_Inj = cut(inj, breaks = seq(0, 1740, 174), include.lowest = T, right = T)
table(Tb_Inj)

## Tb_Inj
## [0,174] (174,348] (348,522] (522,696]
## 67464 64 19 3
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 3 0 2 1
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 1 1

#Bảng tần số tích lũy


cumsum(table(Tb_Inj))

## [0,174] (174,348] (348,522] (522,696]


## 67464 67528 67547 67550
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 67553 67553 67555 67556
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 67557 67558
)

#Bảng tần suất


prop.table(table(Tb_Inj))

## Tb_Inj
## [0,174] (174,348] (348,522] (522,696]
## 9.986086e-01 9.473341e-04 2.812398e-04 4.440629e-05
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 4.440629e-05 0.000000e+00 2.960419e-05 1.480210e-05
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 1.480210e-05 1.480210e-05

#Bảng tần suất tích lũy


cumsum(prop.table(table(Tb_Inj)))

## [0,174] (174,348] (348,522] (522,696]


## 0.9986086 0.9995559 0.9998372 0.9998816
## (696,870] (870,1.04e+03] (1.04e+03,1.22e+03] (1.22e+03,1.39e+03]
## 0.9999260 0.9999260 0.9999556 0.9999704
## (1.39e+03,1.57e+03] (1.57e+03,1.74e+03]
## 0.9999852 1.0000000
)

Các đại lượng thống kê mô tả


10

* Các số đo hướng tâm

+Trung bình cộng


mean(inj)

## [1] 1.437876

Ý nghĩa: Cho biết trung bình cứ mỗi cơn lốc đi qua sẽ có ~ 1 người bị thương
+Trung vị
median(inj)

## [1] 0

Ý nghĩa: Cho biết là có 50% cơn lốc qua mà không có người bị thương.

+Mode
which(table(inj) == max(table(inj)))

## 0
## 1

Ý nghĩa: Trong tập dữ liệu nhiều nhất là các cơn bão đi qua nhưng không có người bị thương.
+Phân vị thứ 95 của inj
* Các số đo phân bố
11
quantile(inj, 0.95)
+Tứ phân vị
## 95%
quantile(inj) ## 3

## 0% 25% 50% 75% 100% Ý nghĩa: Cho biết 95% cơn lốc có số người bị thương không vượt quá 3
## 0 0 0 0 1740
* Các số đo phân tán

Nhìn vào kết quả từ câu lệnh ta thấy có vẻ như tứ phân +Khoảng biến thiên
vị thứ nhất, tứ phân vị thứ hai và tứ phân vị thứ ba của range(inj)
chúng ta đều bằng 0. Điều này xảy ra bởi tập dữ liệu cột
## [1] 0 1740
inj có qua nhiều dữ liệu có giá trị bằng 0, số lượng vượt
quá 75%. Ý nghĩa: Cho biết số người bị thương bởi lốc xoáy biến thiên từ 0-1740

Chúng tôi sẽ thử tính toán xem có bao nhiêu phần trăm +Độ trải giữa (bằng 0(vì Q3 và Q1 bằng 0))
cơn lốc đi qua mà có người bị thương. +Phương sai
var(inj)
bt = which(inj != 0)
(length(bt)/length(inj)) * 100
## [1] 333.5721
## [1] 11.38133
+Độ lệch chuẩn
Vậy có khoảng 11.38% cơn lốc có người bị thương, còn sd(inj)
lại là hơn 88% cơn lốc đi qua không có ai bị thương.
## [1] 18.26396
2.2 PHÂN TÍCH BIẾN FAT
12
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của fat

bt = which(inj != 0) #Bảng tần suất


(length(bt)/length(inj)) * 100 prop.table(table(Tb_Fat))

## Tb_Fat ## Tb_Fat
## [0,16) [16,32) [32,48) [48,64) [64,80) ## [0,16) [16,32) [32,48)
[80,96) [96,112) [112,128) [48,64) [64,80) [80,96)
## 67477 58 12 4 2 ## 9.988010e-01 8.585216e-04 1.776252e-04
2 0 2 5.920838e-05 2.960419e-05 2.960419e-05
## [128,144) [144,160] ## [96,112) [112,128) [128,144)
## 0 1 [144,160]
## 0.000000e+00 2.960419e-05 0.000000e+00
1.480210e-05
#Bảng tần số tích lũy
cumsum(table(Tb_Fat)) #Bảng tần suất tích lũy
cumsum(prop.table(table(Tb_Fat)))

## [0,16) [16,32) [32,48) [48,64) [64,80)


## [0,16) [16,32) [32,48) [48,64)
[80,96) [96,112) [112,128)
[64,80) [80,96) [96,112) [112,128)
## 67477 67535 67547 67551 67553
## 0.9988010 0.9996596 0.9998372 0.9998964
67555 67555 67557
0.9999260 0.9999556 0.9999556 0.9999852
## [128,144) [144,160]
## [128,144) [144,160]
## 67557 67558
## 0.9999852 1.0000000
)

Các đại lượng thống kê mô tả


13

* Các số đo hướng tâm

+Trung bình cộng


mean(fat)

## [1] 0.09047041

+Trung vị
median(fat)

## [1] 0

+Mode
which(table(fat) == max(table(fat)))

## 0
## 1
* Các số đo phân bố * Các số đo phân tán 14

+Tứ phân vị +Khoảng biến thiên

quantile(fat) range(fat)

## 0% 25% 50% 75% 100% ## [1] 0 158


## 0 0 0 0 158

Xảy ra tương tự như khi phân tích inj, tứ phân +Phương sai
vị thứ nhất, tứ phân vị thứ hai, thứ phân vị thứ 3
var(fat)
của fat đều bằng 0. Điều này xảy ra là do có hơn
75% cơn lốc đi qua mà không có thương vong
## [1] 2.20257
về người.

+Độ lệch chuẩn

sd(fat)

## [1] 1.484106
2.3 PHÂN TÍCH BIẾN WID
15
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của wid
# Bảng tần số
Tb_wid = cut(wid, breaks = seq(0, 4576, 572), #Bảng tần suất
include.lowest = T, right = T) prop.table(table(Tb_wid))

table(Tb_wid)
## Tb_wid
## Tb_wid ## [0,572] (572,1.14e+03]
## [0,572] (572,1.14e+03] (1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03] ## 9.687084e-01 2.343172e-02
## 65444 1583 4.692264e-03 2.501554e-03
317 169 ## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03] (3.43e+03,4e+03] (4e+03,4.58e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03] ## 4.292608e-04 1.628231e-04
## 29 11 4.440629e-05 2.960419e-05
3 2
#Bảng tần suất tích lũy
#Bảng tần số tích lũy cumsum(prop.table(table(Tb_wid)))
cumsum(table(Tb_wid))
## [0,572] (572,1.14e+03]
## [0,572] (572,1.14e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
(1.14e+03,1.72e+03] (1.72e+03,2.29e+03]
## 0.9687084 0.9921401
## 65444 67027
0.9968324 0.9993339
67344 67513
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
## (2.29e+03,2.86e+03] (2.86e+03,3.43e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03]
(3.43e+03,4e+03] (4e+03,4.58e+03]
## 0.9997632 0.9999260
## 67542 67553
0.9999704 1.0000000
67556 67558
)

Các đại lượng thống kê mô tả


16

* Các số đo hướng tâm

+Trung bình cộng


mean(wid)

## [1] 106.577

Ý nghĩa: Cho biết trung bình các cơn lốc có đường kính khoảng 106.6 yard.
+Trung vị
median(wid)

## [1] 50

Ý nghĩa: Cho biết có 50% cơn lốc có đường kính không quá 50 yard.

+Mode
which(table(wid) == max(table(wid)))

## 10
## 11

Ý nghĩa: Cho biết số lượng cơn lốc có đường kính 10 yard là nhiều nhất.
* Các số đo phân bố * Các số đo phân tán
+Khoảng biến thiên 17

+Tứ phân vị range(wid)


quantile(wid)
## [1] 0 4576
## 0% 25% 50% 75% 100%
## 0 20 50 100 4576
Ý nghĩa: Cho biết số lượt click biến thiên từ 0-4576

+Độ trải giữa


Ý nghĩa:
- Tứ phân vị thứ nhất: Cho biết có 25% cơn lốc có #Độ trải giữa = Q3 - Q1
#Q3: Là tứ phân vị thứ 3
đường kính không vượt quá 20 yard #Q1: là tứ phân vị thứ 1
- Tứ phân vị thứ hai: Cho biết có 50% cơn lốc có đường TGwid = quantile(wid, 0.75 ) -
kính không vượt quá 50 yard quantile(wid, 0.25)
TGwid
- Tứ phân vị thứ ba: Cho biết có 75% cơn lốc có đường
kính không vượt quá 100 yard ## 75%
## 80
+Phân vị thứ 90 của wid
+Phương sai
quantile(wid, 0.9) var(wid)

## 90% ## [1] 42354.74


## 250 +Độ lệch chuẩn
Ý nghĩa: Có khoảng 90% cơn lốc có đường kính không sd(wid)
quá 250 yard.
## [1] 205.8027
2.4 PHÂN TÍCH BIẾN MAG
18
Lập bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy của mag

Theo thông tin từ tập dữ liệu thì từ tháng 1 năm 2007 trở về trước thì ta dùng thang đo F. Sau đó trở đi
thì ta dùng thang đo EF. Để phân tích trở nên chính xác ta sẽ tách data ra thành 2 bảng.
before_1_2007 = subset(data, yr < 2007 | (yr == 2007& mo <= 1)) # dữ liệu trước 1-2007
after_1_2007 = subset(data, yr > 2007 | (yr == 2007& mo > 1)) # dữ liệu sau 1-2007

Phân tích bằng đại lượng thống kê mô tả

#Mode

which(table(before_1_2007$mag) == max(table(before_1_2007$mag)))

## 0
## 1

which(table(after_1_2007$mag) == Ý nghĩa:Đối chiều với 2 thang đo ở


max(table(after_1_2007$mag))) trên, chúng tôi đưa ra kết luận: các cơn
bão gây thiệt hại ở mức độ nhẹ xuất
## 0 hiện nhiều nhất trong tập dữ liệu.
## 2
19
Lập bảng tần số và tần suất chéo của mag với inj

#Bảng tần số
table(Tb_Inj, mag)

## mag
## Tb_Inj -9 0 1 2 3 4 5
## [0,174] 605 31375 22885 9516 2524 527 32
## (174,348] 0 0 0 1 11 36 16
## (348,522] 0 0 0 0 1 12 6
## (522,696] 0 0 0 0 0 1 2
## (696,870] 0 0 0 0 0 2 1
## (870,1.04e+03] 0 0 0 0 0 0 0
## (1.04e+03,1.22e+03] 0 0 0 0 0 0 2
## (1.22e+03,1.39e+03] 0 0 0 0 0 1 0
## (1.39e+03,1.57e+03] 0 0 0 0 0 1 0
## (1.57e+03,1.74e+03] 0 0 0 0 0 1 0
#Bảng tần suất
prop.table(table(Tb_Inj, mag)) 20

## mag
## Tb_Inj -9 0 1 2
## [0,174] 8.955268e-03 4.644158e-01 3.387460e-01 1.408567e-01
## (174,348] 0.000000e+00 0.000000e+00 0.000000e+00 1.480210e-05
## (348,522] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (522,696] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (696,870] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (870,1.04e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.04e+03,1.22e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.22e+03,1.39e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.39e+03,1.57e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## (1.57e+03,1.74e+03] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## mag
## Tb_Inj 3 4 5
## [0,174] 3.736049e-02 7.800705e-03 4.736671e-04
## (174,348] 1.628231e-04 5.328755e-04 2.368335e-04
## (348,522] 1.480210e-05 1.776252e-04 8.881258e-05
## (522,696] 0.000000e+00 1.480210e-05 2.960419e-05
## (696,870] 0.000000e+00 2.960419e-05 1.480210e-05
## (870,1.04e+03] 0.000000e+00 0.000000e+00 0.000000e+00
## (1.04e+03,1.22e+03] 0.000000e+00 0.000000e+00 2.960419e-05
## (1.22e+03,1.39e+03] 0.000000e+00 1.480210e-05 0.000000e+00
## (1.39e+03,1.57e+03] 0.000000e+00 1.480210e-05 0.000000e+00
## (1.57e+03,1.74e+03] 0.000000e+00 1.480210e-05 0.000000e+00
21
Lập bảng tần số và tần suất chéo của mag với fat

#Bảng tần số
table(Tb_Fat, mag)

## mag
## Tb_Fat -9 0 1 2 3 4 5
## [0,16) 605 31375 22884 9517 2530 536 30
## [16,32) 0 0 1 0 6 34 17
## [32,48) 0 0 0 0 0 6 6
## [48,64) 0 0 0 0 0 3 1
## [64,80) 0 0 0 0 0 1 1
## [80,96) 0 0 0 0 0 1 1
## [96,112) 0 0 0 0 0 0 0
## [112,128) 0 0 0 0 0 0 2
## [128,144) 0 0 0 0 0 0 0
## [144,160] 0 0 0 0 0 0 1
#Bảng tần suất
prop.table(table(Tb_Fat, mag)) 22

## mag
## Tb_Fat -9 0 1 2 3
## [0,16) 8.955268e-03 4.644158e-01 3.387312e-01 1.408715e-01 3.744930e-02
## [16,32) 0.000000e+00 0.000000e+00 1.480210e-05 0.000000e+00 8.881258e-05
## [32,48) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [48,64) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [64,80) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [80,96) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [96,112) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [112,128) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [128,144) 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## [144,160] 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00
## mag
## Tb_Fat 4 5
## [0,16) 7.933923e-03 4.440629e-04
## [16,32) 5.032713e-04 2.516356e-04
## [32,48) 8.881258e-05 8.881258e-05
## [48,64) 4.440629e-05 1.480210e-05
## [64,80) 1.480210e-05 1.480210e-05
## [80,96) 1.480210e-05 1.480210e-05
## [96,112) 0.000000e+00 0.000000e+00
## [112,128) 0.000000e+00 2.960419e-05
## [128,144) 0.000000e+00 0.000000e+00
## [144,160] 0.000000e+00 1.480210e-05
23

3) PHÂN TÍCH CÁC THUỘC TÍNH QUA BIỂU ĐỒ

Hai dữ liệu inj và fat có quá nhiều giá trị bằng 0 (vượt quá 75%) nên chúng tôi quyết định vẽ biểu
đồ phân tích dựa trên dữ liệu có (có người bị thương và người tử vong).

Have_inj = subset(data$inj, inj != 0) #Dữ liệu những cơn lốc có người bị thương
Have_fat = subset(data$fat, fat != 0) #Dữ liệu những cơn lốc có người tử vong
3.2 PHÂN TÍCH BIỂU ĐỒ CỦA INF VÀ FAT

Nhìn biểu đồ của 2 biến ta thấy do


có nhiều giá trị ngoại biên nên kích
thước của hộp thu hẹp đến mức ta
không thể nhìn thấy.

boxplot(Have_inj, Have_fat,
names = c("Have_inj", "Have_fat"),
ylab = "", xlab = "Đơn vị: Người",
main = "Biểu đồ hộp về số người tử vong và số người bị thương", horizontal = TRUE)
Giải quyết vấn đề này, chúng tôi sẽ sử dụng phương pháp loại bỏ giá trị ngoại lệ IQR. Đây là một phương pháp khá phổ
biến và thông dụng để xác định và loại bỏ giá trị ngoại lệ từ một tập dữ liệu. Ý tưởng là ta sẽ phân tích dữ liệu trong khoảng
25

[Q1-1.5 * IQR, Q3 + 1.5 * IQR].

upper_inj = quantile(Have_inj, 0.75) + 1.5 *


IQR(Have_inj)
lower_inj = quantile(Have_inj, 0.25) - 1.5 *
IQR(Have_inj)
New_Have_inj = subset(Have_inj, Have_inj >=
lower_inj & Have_inj <= upper_inj)
upper_fat = quantile(Have_fat, 0.75) + 1.5 *
IQR(Have_fat)
lower_fat = quantile(Have_fat, 0.25) - 1.5 *
IQR(Have_fat)
New_Have_fat = subset(Have_fat, Have_fat >=
lower_fat & Have_fat <= upper_fat)

boxplot(New_Have_inj, New_Have_fat, col =


c('pink', 'magenta'),
names = c("Have_inj", "Have_fat"),
ylab = "Value", xlab = "Đơn vị: Người",
main = "Biểu đồ hộp về số người tử vong
và số người bị thương", horizontal = TRUE)
26

hist(New_Have_inj, breaks = seq(1, 16, 3), col = 'pink', main = 'Biểu đồ phân phối
tần số cho số người bị thương sau bão', ylab = 'Tan So', xlab = 'Đơn vị: Người')
27

hist(New_Have_fat, breaks = seq(1, 6, 1), col = 'magenta',


main = 'Biểu đồ phân phối tần số cho số người tử vong sau
bão', ylab = 'Tan So', xlab = 'Đơn vị: Người')

Nhận xét:

-Dữ liệu phân bố không đồng đều, tập trung


chủ yếu vào phía bên trái.
-Nhìn vào biểu đồ ta thấy, số người bị thương
và số người tử vong sau các cơn bão gần như
là rất thấp.
Số người bị thương và số người tử vong sau
mỗi cơn bão chỉ khoảng 1 người(Với inj ~
36% quan sát và với fat là ~ 59% quan sát).
3.2 PHÂN TÍCH BIỂU ĐỒ CỦA WID 28
boxplot(wid) Tiếp tục áp dụng phương pháp loại bỏ giá trị ngoại lệ

Nhận xét: upper_wid = quantile(wid, 0.75) + 1.5 * IQR(wid)


Tương tự với 2 biến inj và fat,biến wid có sự phân bố lower_wid = quantile(wid, 0.25) - 1.5 * IQR(wid)
không đồng đều, nhiều giá trị ngoại biên, nên hình New_wid = subset(data$wid, wid >= lower_wid & wid
dáng hình biểu đồ trở nên không rõ ràng khó phân tích. <= upper_wid)
Tiếp tục áp dụng phương pháp loại bỏ giá trị ngoại lệ
boxplot(New_wid, col = 'lightskyblue', main =
'Biểu đồ hộp cho biến wid', horizontal = T)
hist(New_wid, breaks = seq(0,220, 20), col = 'lightskyblue', main = 'Biểu đồ phân phối
tần số cho độ rộng của cơn bão', ylab = 'Tan So', xlab = 'Đơn vị: yard')

Nhận xét:
-Biểu đồ tập trung không đồng đều, tập trung chủ yếu ở bên trái.
Nhiều nhất trong khoảng < 60 yard (~ 71%), tiếp theo là là từ
trong khoảng 80-> 100 yard ( ~12%). Theo như quan sát của
chúng tôi các cơn bão có sức gió < 60 yard thường là các cơn
bão có xếp loại là EF0. Cơn bão này có thể gây ra thiệt hại nhẹ
như tốc mái nhà, cây cối đổ, và hư hỏng nhẹ đối với các cấu trúc
nhỏ. Từ 80->100 yard là các cơn bão có xếp loại là EF1. Cơn
bão EF1 có khả năng gây ra thiệt hại vừa phải đối với các cấu
trúc nhà cửa và cây cối, bao gồm cả nguy cơ đổ đốn và hư hỏng
đáng kể cho các kết cấu yếu hơn.
3.3 PHÂN TÍCH BIỂU ĐỒ MAG
Biểu đồ trước tháng 1-2007

piepercent = round(100*table(before_1_2007$mag)/
sum(table(before_1_2007$mag)), 1)

pie(table(before_1_2007$mag),col = c('white',
'lightskyblue', 'green','yellow', 'orange', 'red',
pie(table(before_1_2007$mag), labels = c('0', 'brown' ), labels = piepercent)
'1' ,'2', '3', '4', '5','-9'), col = c('white',
Nhận xét: Trước 1-2007 thì không xuất hiện những cơn bão không xác
'lightskyblue', 'green','yellow', 'orange',
định mức độ. Nhiều nhất là các cơn bão mức 0(~41.1%), tiếp theo là các
'red', 'brown' ), main = 'Biểu đồ tỉ lệ xuất
cơn bão mức 1(~34.2%), mức 2(~4.3%), mức 3(~4.3%), mức 4(~1%) và
hiện của các cơn bão theo mức độ(Thang đo
cuối cùng là mức 5(~0.1%). Nhưng cơn bão mang mức 5 rất ít xuất hiện.
Fujita)')
Biểu đồ sau tháng 1-2007 piepercent = round(100*table(after_1_2007$mag)/ 31
sum(table(after_1_2007$mag)), 1)
pie(table(after_1_2007$mag),col = c('white',
'lightskyblue', 'green','yellow', 'orange', 'red',
'brown' ), labels = piepercent, main = 'Biểu đồ tỉ lệ
xuất hiện của các cơn bão theo mức độ(Thang đo
EFujita)')

pie(table(after_1_2007$mag), labels =
c('-9', '0' ,'1', '2', '3', '4','5'), col
= c('white', 'lightskyblue',
'green','yellow', 'orange', 'red', Nhận xét: Sau 1-2007 thì có thêm sự xuất hiện của các cơn bão không xác định
mức độ. Nhiều nhất vẫn là những cơn bão mức 0, sau đó là mức 1, mức 2, mức
'brown' ), main = 'Biểu đồ tỉ lệ xuất
3 sau đó là đến những cơn bão không xác định mức độ, cuối cùng là mức 4.
hiện của các cơn bão theo mức độ(Thang đo
Sau giai đoạn 1-2007, thì không có sự xuất hiện của các cơn bão mức độ 5.
EFujita)')
III. Thống kê suy diễn
1. ƯỚC LƯỢNG ĐIỂM
Bài toán 1: Tìm ước lượng điểm cho trung bình số người bị
thương sau mỗi cơn bão trong tập dữ liệu.

mean(inj)

## [1] 1.437876

Kết luận: ước lượng điểm cho trung bình số người bị thương sau
mỗi cơn bão là ~ 1.437876

Bài toán 2: Tìm ước lượng điểm cho tỷ lệ cơn bão có số người
bị thương lớn hơn 16 trong tập dữ liệu

round(sum(inj > 16)/ length(inj), 4)

## [1] 0.0143

Kết luận: ước lượng điểm cho tỷ lệ cơn bão có số người bị


thương lớn hơn 16 là ~ 1.43%
2. ƯỚC LƯỢNG KHOẢNG
Bài toán 1: Tìm khoảng tin cậy 95% cho trung bình độ rộng của
cơn bão

Bài làm:
Gọi n là cỡ mẫu của dữ liệu
length(wid)

## [1] 67558

n > 30 => Cỡ mẫu lớn


Nên ta dùng lệnh.
t.test(wid, conf.level = 0.95)

##
## One Sample t-test
##
## data: wid
## t = 134.6, df = 67557, p-value < 2.2e-16 Kết luận: khoảng tin cậy 95% của trung bình độ rộng bão là
## alternative hypothesis: true mean is not
[105.0251, 108.1289]
equal to 0
## 95 percent confidence interval:
## 105.0251 108.1289
## sample estimates:
## mean of x
## 106.577
Bài toán 2: Tìm khoảng tin cậy 90% cho tỷ lệ bão có độ rộng
lớn hơn 200 yard

length(wid) # n = 67558

prop.test(7412, 67558, conf.level = 0.9,


## [1] 67558 correct = F)

sum(wid > 200) # x = 7412 ##


## 1-sample proportions test without
continuity correction
## [1] 7412
##
## data: 7412 out of 67558, null probability
0.5
Kiểm tra điều kiện: n * p^ = x = 7412 > 5 và n * (1 - p^) = n - x ## X-squared = 41163, df = 1, p-value < 2.2e-16
= 67558 - 7412 > 5 ## alternative hypothesis: true p is not equal
to 0.5
## 90 percent confidence interval:
Ta không điều chỉnh liên tục correct = F ## 0.1077509 0.1117066
## sample estimates:
## p
## 0.1097131

Kết luận: khoảng tin cậy 90% cho tỷ lệ bão có độ rộng lớn
hơn 200 yard là [0.1077, 0.1117]
3.BÀI TOÁN KIỂM ĐỊNH 35

3.1. Bài toán kiểm định trung bình một tổng thể.
TBY_before_1_2007 = subset(wid, mag == 0)

t.test(TBY_before_1_2007, mu = 100, alt = 'g')


Bài toán: Từ tập dữ liệu phân tích ở trên, kiểm định giả #H~1~ > 100 nên điều chỉnh tham số alt =
thuyết độ rộng trung bình của các cơn bão mức 0 có 'greater'
nhỏ hơn 100 yard không.(Lấy dữ liệu trước 1-2007)
##
Bài làm: ## One Sample t-test
##
Ta thấy tổng thể > 30 => cỡ mẫu lớn ## data: TBY_before_1_2007
Gọi µ độ rộng trung bình của các cơn bão mức 0. ## t = -137.73, df = 31374, p-value = 1
Câu hỏi: µ <= 100 ## alternative hypothesis: true mean is greater
than 100
H0:u <=100
## 95 percent confidence interval:
H1:µ>100 ## 44.69765 Inf
## sample estimates:
## mean of x
## 45.35031

p-value = 1 > 0.05 => Chấp nhận H0, bác bỏ H1

Kết luận: Tại mức ý nghĩa 5%, đủ cơ sở để kết luận độ rộng trung bình của các cơn bão mức 0 sẽ nhỏ hơn 100 yard.
3.2 BÀI TOÁN KIỂM ĐỊNH MỘT TỶ LỆ
36
Trước khi đi vào bài toán, chúng em muốn đưa ra một chút
thông tin về biến st(sate)

#State là biến tên viết tắt các bang của Mỹ.


#Bảng tần số xuất hiện của các bang trong tập
dữ liệu.
table(st)

## st
## AK AL AR AZ CA CO CT DC DE
FL GA HI IA ID IL IN
## 4 2358 1912 270 462 2306 120 3 69
3497 1801 41 2773 218 2682 1543
## KS KY LA MA MD ME MI MN MO
MS MT NC ND NE NH NJ
## 4375 1067 2222 178 389 134 1071 2023 2427
2476 431 1431 1617 2967 94 170 #Bang xuất hiện nhiều nhất trong tập dữ liệu
## NM NV NY OH OK OR PA PR RI trên là
SC SD TN TX UT VA VI which(table(st) == max(table(st)))
## 634 94 476 1196 4092 121 902 28 13
1116 1861 1331 9149 134 787 1 ## TX
## VT WA WI WV WY ## 45
## 46 125 1467 143 711

Nhận xét: Bang Texas là bang xuất hiện nhiều bão nhất
trong tập dữ liệu.
Bài toán: Dùng tập dữ liệu, kiểm định xem tỉ lệ số cơn bão ở
TX có độ rộng lớn hơn 200 yard có lớn hơn 50% không?
Bài làm: Gọi p là tỉ lệ số cơn bão ở TX có độ rộng lớn hơn 200
yard.
Câu hỏi: p ≥ 50%
H0:p ≥ 0.5
H1:p < 0.5

PTTX = subset(wid, st == 'TX') ##


length(PTTX) ## 1-sample proportions test without
continuity correction
##
## [1] 9149
## data: 777 out of 9149, null probability 0.5
## X-squared = 6305, df = 1, p-value < 2.2e-16
sum(PTTX > 200) ## alternative hypothesis: true p is less than
0.5
## 95 percent confidence interval:
## [1] 777 ## 0.00000000 0.08984482
## sample estimates:
prop.test(x=777, n = 9149, p = 0.5, alt = 'l', ## p
correct = F) ## 0.08492731

pvalue < 2.2e-16 < 0.5 => Bác bỏ H0 chấp nhận H1.

Kết luận: Tỉ lệ số cơn bão ở Texas có độ rộng lớn hơn 200 yard không
lớn hơn 50%.
3.3 BÀI TOÁN KIỂM ĐỊNH HAI MỨC TRUNG BÌNH
38
Bài toán:Tại mức ý nghĩa 5%, So sánh độ rộng trung bình độ rộng những cơn bão ở Texas với NewYork. Cho biết độ rộng của
các cơn bão tuân theo phân phối chuẩn với phương sai bằng nhau.
t.test(PTTX, PTNY, mu = 0, alternative = 't',
Bài làm: var.equal = T)
Gọi µ1,µ2 lần lượt là trung bình độ rộng của các cơn bão
tại Texas và NewYork
##
## Two Sample t-test
Câu hỏi: µ1 ≠ µ2 ##
H0: µ1 − µ2 = 0 ## data: PTTX and PTNY
H1: µ1 − µ2 ≠ 0 ## t = -4.1346, df = 9623, p-value = 3.586e-05
## alternative hypothesis: true difference in
means is not equal to 0
#Độ rộng các cơn bão ở NY ## 95 percent confidence interval:
PTNY = subset(wid, st == 'NY') ## -57.12843 -20.38118
## sample estimates:
## mean of x mean of y
## 92.48049 131.23529
mu = 0
alternative = ‘t’ pvalue = 3.586e-05 < 0.05 => bác bỏ H0, chấp nhận H1
var.equal = T do phương sai của hai tổng thể được giả
Kết luận: có sự khác biệt giữa độ rộng trung bình của các
thiết bằng nhau.
cơn bão ở TX và NewYork.
39
3.4 BÀI TOÁN KIỂM ĐỊNH GIỮA HAI TỶ LỆ
Bài toán: Dùng tập dữ liệu đã cho, kiểm định xem tỉ lệ người tử vong bởi bão mức 4 có nhiều hơn bão mức 5 hay không. Tại
mức ý nghĩa 5%(Dùng dữ liệu trước 1-2007)
Have_fat_5 = subset(Mag_5_bf_1_2007$fat,
Bài làm: Mag_5_bf_1_2007$fat > 0)# số liệu tử vong do
Gọi p1 và p2 lần lượt là tỉ lệ người tử vong bởi bão mức bão mức 4
length(Have_fat_5)
4 và mức 5.
Câu hỏi: p1>p2 ## [1] 44
H0:p1−p2≤0
prop.test(x = c(292, 44), n = c(498, 50), alt =
H1:p1−p2>0 'g', correct = F)= subset(wid, st == 'NY')
Mag_4_bf_1_2007 = subset(before_1_2007, mag ==
4) # Số liệu về các cơn bão mức 4 ##
length(Mag_4_bf_1_2007$fat) ## 2-sample test for equality of proportions
without continuity correction
##
## [1] 498
## data: c(292, 44) out of c(498, 50)
## X-squared = 16.519, df = 1, p-value = 1
Mag_5_bf_1_2007 = subset(before_1_2007, mag ==
## alternative hypothesis: greater
5) # Số liệu về các cơn bão mức 5
## 95 percent confidence interval:
length(Mag_5_bf_1_2007$fat)
## -0.3775105 1.0000000
## [1] 50 ## sample estimates:
## prop 1 prop 2
Have_fat_4 = subset(Mag_4_bf_1_2007$fat, ## 0.5863454 0.8800000 st == 'NY')
Mag_4_bf_1_2007$fat > 0)# số liệu tử vong do
bão mức 4 pvalue = 1 > 0.05 => Chấp nhận H0
length(Have_fat_4)
Kết luận: Tỷ lệ người tử vong do bão cấp 5 cao hơn tỉ lệ người tử
## [1] 292 vong do bão cấp 4.
3.5 BÀI TOÁN KIỂM ĐỊNH HAI PHƯƠNG SAI
Bài toán: Dùng tập dữ liệu đã cho, kiểm định xem phương sai của số người tử vong bởi bão mức 4 có bằng phương
sai dữ liệu của bão mức 5 hay không, với mức ý nghĩa 5%. (Sử dụng dữ liệu trước 1-2007)

Bài Làm:
Gọi σ21, σ22 lần lượt là phương sai của số người tử vong do
bão mức 4 và số người tử vong do bão mức 5.
Câu hỏi: σ21= σ22
H0:σ21 = σ22
H1:σ21≠ σ22
var.test(Have_fat_4, Have_fat_5, alt = 't')

##
## F test to compare two variances
##
## data: Have_fat_4 and Have_fat_5
## F = 0.13533, num df = 291, denom df = 43, p-
value < 2.2e-16
## alternative hypothesis: true ratio of
variances is not equal to 1
## 95 percent confidence interval:
pvalue < 2.2e-16 < 0.05 => bác bỏ H0, chấp nhận H1
## 0.0823472 0.2056885
## sample estimates:
## ratio of variances Kết luận: Ở mức ý nghĩa 5%, ta kết luận phương sai số người tử
## 0.1353334 vong do bão mức 4 và bão mức 5 là khác nhau.
3.6 BÀI TOÁN PHÂN TÍCH PHƯƠNG SAI
Bài toán: Ở mức ý nghĩa 5%, hãy kiểm định xem độ mạnh của cơn bão có ảnh hưởng đến số người tử vong không?

Bài làm:

H0 : Mức độ của cơn bão không ảnh hưởng tới đến số người tử
vong.
H1 : Mức độ của cơn bão có ảnh hưởng tới đến số người tử
vong.
anova(lm(fat~mag))

## Analysis of Variance Table


##
## Response: fat
## Df Sum Sq Mean Sq F value
Pr(>F)
## mag 1 2946 2945.57 1364.3 <
2.2e-16 *** pvalue < 2.2e-16 => Bác bỏ H0 chấp nhận H1
## Residuals 67556 145853 2.16

## --- Kết luận: Ở mức ý nghĩa 5%, ta kết luận độ mạnh của cơn bão
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' có ảnh hưởng tới số người tử vong.
0.05 '.' 0.1 ' ' 1
3.7 BÀI TOÁN KIỂM ĐỊNH TÍNH ĐỘC LẬP

Bài toán: Từ tập dữ liệu, kiểm định tính độc lập của 2 biến mag và st. Tại mức ý nghĩa 5%.

Bài làm:

H0: Mức độ bão và tiểu bang không có mối liên hệ với nhau.

H1: Mức độ bão và tiểu bang có mối liên hệ với nhau.

chisq.test(table(mag, st))

##
## Pearson's Chi-squared test
##
## data: table(mag, st)
## X-squared = 5548.6, df = 312, p-value <
2.2e-16

p-value < 2.2e-16 < 0.05 => Bác bỏ H0, chấp nhận H1

Kết luận: Tại mức ý nghĩa 5%, ta kết luận st và mag mà có mối
liên hệ với nhau.
CẢM ƠN
THẦY CÔ VÀ
CÁC BẠN ĐÃ
XEM.

You might also like