You are on page 1of 8

Statistička analiza podataka:

Podsjetnik na formule

1 Razni testovi
Z-test
¯ 𝑛 − 𝜇0 √
𝑋
𝑍= 𝑛
𝜎
T-test za jedan uzorak

¯ 𝑛 − 𝜇0 √
𝑋
𝑇 = 𝑛
𝑆𝑛

T-test za dva uzorka (uz pretpostavku jednakosti varijanci)

¯1 − 𝑋
𝑋 ¯ − (𝜇1 − 𝜇2 )
𝑇 = √︀ 2
𝑆𝑋 1/𝑛1 + 1/𝑛2

2 1 2 2
𝑆𝑋 = [(𝑛1 − 1)𝑆𝑋 + (𝑛2 − 1)𝑆𝑋 ]
𝑛1 + 𝑛2 − 2 1 2

𝜒2 -test o varijanci
(𝑛 − 1)𝑆𝑛2
𝜒2 =
𝜎2
F-test
2
𝑆𝑋 1
𝐹 = 2
𝑆𝑋 2

𝜒2 -test prilagodbe modela podacima

∑︁ (𝑜𝑖 − 𝑒𝑖 )2
𝜒2 =
𝑒𝑖
𝑖

1
𝜒2 -test nezavisnosti/homogenosti

∑︁ (𝑜𝑖,𝑗 − 𝑒𝑖,𝑗 )2
𝜒2 =
𝑒𝑖,𝑗
𝑖,𝑗

2 Jackknife

ˆ 𝜃)
bias( ˆ jack = (𝑛 − 1)(𝜃ˆ(·) − 𝜃)
ˆ

ps 𝑖 = 𝑛𝜃ˆ − (𝑛 − 1)𝜃ˆ(𝑖)
𝑛
ˆ jack = 𝑛 − 1
(︁ ∑︁ )︁1/2
SE (𝜃) (𝜃ˆ(𝑖) − 𝜃ˆ(·) )2
𝑛
𝑖=1
𝑛
(︁ 1 ∑︁ )︁1/2
= (𝑝𝑠𝑖 − 𝑝𝑠)2
𝑛(𝑛 − 1)
𝑖=1

3 Jednostavna regresija

𝑛
∑︁ 𝑛
∑︁ 𝑛
∑︁
𝑆𝑥𝑥 = ¯ )2 ,
(𝑥𝑖 − 𝑥 𝑆𝑦𝑦 = (𝑦𝑖 − 𝑦¯)2 , 𝑆𝑥𝑦 = (𝑥𝑖 − 𝑥
¯)(𝑦𝑖 − 𝑦¯)
𝑖=1 𝑖=1 𝑖=1

Procjena koeficijenata

𝑆𝑥𝑦
𝑏1 = , 𝑏0 = 𝑦¯ − 𝑏1 𝑥
¯
𝑆𝑥𝑥

𝑆𝑦𝑦 − 𝑏1 𝑆𝑥𝑦
𝑠2 =
𝑛−2
Testovi o regresijskim koeficijentima

𝐵1 − 𝛽 1
𝑇 = √ ∼ 𝑡(𝑛 − 2)
𝑆/ 𝑆𝑥𝑥

𝐵 − 𝛽0
𝑇 = √︁∑︀ 0 ∼ 𝑡(𝑛 − 2)
𝑛 2 /(𝑛𝑆 )
𝑆 𝑥
𝑖=1 𝑖 𝑥𝑥

2
Predikcija srednje vrijednosti

𝑌ˆ0 − 𝜇𝑌 |𝑥0
𝑇 = √︀ ∼ 𝑡(𝑛 − 2)
𝑆 1/𝑛 + (𝑥0 − 𝑥 ¯)2 /𝑆𝑥𝑥

Predikcija vrijednosti 𝑌 za dani 𝑥0

𝑌ˆ0 − 𝑌0
𝑇 = √︀ ∼ 𝑡(𝑛 − 2)
¯)2 /𝑆𝑥𝑥
𝑆 1 + 1/𝑛 + (𝑥0 − 𝑥

Koeficijent determinacije
2
𝑆𝑥𝑦
𝑅2 =
𝑆𝑥𝑥 𝑆𝑦𝑦

Pearsonov koeficijent korelacije

𝑆𝑥𝑦
𝑟 = √︀
𝑆𝑥𝑥 𝑆𝑦𝑦

𝑟 𝑛−2
𝑡= √ ∼ 𝑡(𝑛 − 2)
1 − 𝑟2
√ [︂ (︂ )︂ (︂ )︂]︂
𝑛−3 1+𝑟 1 + 𝜌0
𝑧= ln − ln ∼ 𝐴𝑁 (0, 1)
2 1−𝑟 1 − 𝜌0
Standardizirani reziduali

𝑒𝑖 ¯)2
1 (𝑥𝑖 − 𝑥
𝑡𝑖 = √ , ℎ𝑖𝑖 = +
𝑠 1 − ℎ𝑖𝑖 𝑛 𝑆𝑥𝑥

4 Višestruka regresija

A = X𝑡 X

Procjena koeficijenata
Ab = X𝑡 y
∑︀𝑛
2 (𝑦𝑖 − 𝑦ˆ)2
𝑠 = 𝑖=1
𝑛−𝑘−1

3
Testovi o regresijskim koeficijentima

𝐵𝑗 − 𝛽 𝑗
𝑇 = √ ∼ 𝑡(𝑛 − 𝑘 − 1), 𝑐𝑗𝑗 = (A−1 )𝑗𝑗
𝑠 𝑐𝑗𝑗

Predikcija srednje vrijednosti

𝑌ˆ0 − 𝜇𝑌 |x0
𝑇 = √︁ ∼ 𝑡(𝑛 − 𝑘 − 1)
𝑠 x𝑡0 A−1 x0

Predikcija vrijednosti 𝑌 za dani 𝑥0

𝑌ˆ0 − 𝑌0
𝑇 = √︁ ∼ 𝑡(𝑛 − 𝑘 − 1)
𝑠 1 + x𝑡0 A−1 x0

Dekompozicija kvadratnih odstupanja


𝑛
∑︁ 𝑛
∑︁ 𝑛
∑︁
2
SST = (𝑦𝑖 − 𝑦¯) , SSE = (𝑦𝑖 − 𝑦ˆ𝑖 )2 , SSR = 𝑦𝑖 − 𝑦¯)2

𝑖=1 𝑖=1 𝑖=1

SST = SSE + SSR

Koeficijent determinacije

SSE
𝑅2 = 1 −
SST

Prilagodeni koeficijent determinacije

2 SSE /(𝑛 − 𝑘 − 1)
𝑅𝑎𝑑𝑗 =1−
SST /(𝑛 − 1)

Standardizirani reziduali

𝑒𝑖
𝑡𝑖 = √ , H = X(X𝑡 X)−1 X𝑡
𝑠 1 − H𝑖𝑖

5 Jednofaktorska ANOVA
Formule za sume kvadrata kada imamo uzorke jednakih veličina:

𝑘 ∑︁
∑︁ 𝑛
SST = (𝑦𝑖𝑗 − 𝑦¯.. )2
𝑖=1 𝑗=1

4
𝑘
∑︁
SSA = 𝑛 𝑦𝑖. − 𝑦¯.. )2

𝑖=1
𝑘 ∑︁
∑︁ 𝑛
SSE = (𝑦𝑖𝑗 − 𝑦¯𝑖. )2
𝑖=1 𝑗=1

Source of Sum of Degrees of Mean Computed


Variation Squares Freedom Square 𝑓
SSA 𝑠21
Treatments SSA 𝑘−1 𝑠21 = 𝑘−1 𝑠2

SSE
Error SSE 𝑘(𝑛 − 1) 𝑠2 = 𝑘(𝑛−1)

Total SST 𝑘𝑛 − 1

Tablica 1: Jednofaktorska ANOVA


Formule za sume kvadrata kada imamo uzorke različitih veličina:
𝑛𝑖
𝑘 ∑︁
∑︁
SST = (𝑦𝑖𝑗 − 𝑦¯.. )2
𝑖=1 𝑗=1
𝑘
∑︁
SSA = 𝑦𝑖. − 𝑦¯.. )2
𝑛𝑖 (¯
𝑖=1

SSE = SST − SSA

Bartlettov test:
]︀1/(𝑁 −𝑘)
(𝑠21 )𝑛1 −1 (𝑠22 )𝑛2 −1 · · · (𝑠2𝑘 )𝑛𝑘 −1
[︀
𝑏=
𝑠2𝑝

𝑘
1 ∑︁
𝑠2𝑝 = (𝑛𝑖 − 1)𝑠2𝑖
𝑁 −𝑘
𝑖=1

6 Dvofaktorska ANOVA

𝑎 ∑︁
∑︁ 𝑏 ∑︁
𝑛 𝑎
∑︁ 𝑏
∑︁
2 2
(𝑦𝑖𝑗𝑘 − 𝑦¯... ) = 𝑏𝑛 𝑦𝑖.. − 𝑦¯... ) + 𝑎𝑛
(¯ 𝑦.𝑗. − 𝑦¯... )2

𝑖=1 𝑗=1 𝑘=1 𝑖=1 𝑗=1

5
𝑎 ∑︁
∑︁ 𝑏
+𝑛 𝑦𝑖𝑗. − 𝑦¯𝑖.. − 𝑦¯.𝑗. + 𝑦¯... )2

𝑖=1 𝑗=1
𝑎 ∑︁
∑︁ 𝑏 ∑︁
𝑛
+ (𝑦𝑖𝑗𝑘 − 𝑦¯𝑖𝑗. )2
𝑖=1 𝑗=1 𝑘=1

SST = SSA + SSB + SS (AB ) + SSE

Source of Sum of Degrees of Mean Computed


Variation Squares Freedom Square 𝑓
Main effect:

SSA 𝑠21
𝐴 SSA 𝑎−1 𝑠21 = 𝑎−1 𝑓1 = 𝑠2

SSB 𝑠22
𝐵 SSB 𝑏−1 𝑠22 = 𝑏−1 𝑓2 = 𝑠2

Two-factor
interactions:

SS (AB ) 𝑠23
𝐴𝐵 SS (AB ) (𝑎 − 1)(𝑏 − 1) 𝑠23 = (𝑎−1)(𝑏−1) 𝑓3 = 𝑠2

SSE
Error SSE 𝑎𝑏(𝑛 − 1) 𝑠2 = 𝑎𝑏(𝑛−1)

Total SST 𝑎𝑏𝑛 − 1

Tablica 2: Dvofaktorska ANOVA

7 Neparametarski postupci
Mann-Whitney-Wilcoxonov test (Wilcoxon rank-sum test)

𝑛1 (𝑛1 + 1)
𝑢1 = 𝑤1 −
2
𝑛2 (𝑛2 + 1)
𝑢2 = 𝑤2 −
2
𝑢 = min(𝑢1 , 𝑢2 )

6
Kruskal-Wallisov test

∑︁ 𝑅2 𝑘
12
𝐻= 𝑖
− 3(𝑛 + 1) ∼ 𝜒2𝛼 (𝑘 − 1)
𝑛(𝑛 + 1) 𝑛𝑖
𝑖=1

Spearmanov koeficijent korelacije


𝑛
6 ∑︁
𝑟𝑠 = 1 − 2
𝑑2𝑖
𝑛(𝑛 − 1)
𝑖=1

Za 𝑛 > 30:
𝑟𝑠 − 0 √
𝑧= √ = 𝑟𝑠 𝑛 − 1
1/ 𝑛 − 1

8 Bayesovska statistika
Bayesova formula
𝑓 (x | 𝜃)𝜋(𝜃)
𝜋(𝜃 | x) =
𝑔(x)
Marginalna distribucija
⎧∑︁

⎪ 𝑓 (x | 𝜃)𝜋(𝜃), 𝜃 je diskretan

𝜃
𝑔(x) = ∫︁ ∞
𝑓 (x | 𝜃)𝜋(𝜃)𝑑𝜃, 𝜃 je kontinuiran



−∞

Beta funkcija
∫︁ 1
Γ(𝛼)Γ(𝛽)
𝐵(𝛼, 𝛽) = 𝑥𝛼−1 (1 − 𝑥)𝛽−1 𝑑𝑥 = , 𝛼, 𝛽 > 0,
0 Γ(𝛼 + 𝛽)

gdje je Γ(𝛼) gamma funkcija.


Funkcija gustoće Beta distribucije

1

⎨ 𝑥𝛼−1 (1 − 𝑥)𝛽−1 , 0<𝑥<1
𝑓 (𝑥) = 𝐵(𝛼, 𝛽)

⎩0, inače

𝛼>0,𝛽>0
Očekivanje i varijanca Beta distribucije

𝛼
𝜇=
𝛼+𝛽

7
𝛼𝛽
𝜎2 =
(𝛼 + 𝛽)2 (𝛼 + 𝛽 + 1)
Bayesov interval vjerodostojnosti
Interval 𝑎 < 𝜃 < 𝑏 nazivamo 100(1 − 𝛼)% Bayesov interval za 𝜃 ako
∫︁ 𝑎 ∫︁ ∞
𝑎
𝜋(𝜃 | x)𝑑𝜃 = 𝜋(𝜃 | x)𝑑𝜃 = .
−∞ 𝑏 2

Aposteriorna prediktivna distribucija


Za novi podatak 𝑥novi i poznati uzorak x je:
∫︁ ∫︁
𝑝(𝑥novi | 𝑥) = 𝑝(𝑥novi | 𝜃, x)𝑝(𝜃 | x)𝑑𝜃 = 𝑝(𝑥novi | 𝜃)𝑝(𝜃 | x)𝑑𝜃
Θ Θ

You might also like