Professional Documents
Culture Documents
medelvärde
n
1 X x1 + · · · + xn
x̄ = =
n i=1 n
median
Det mittersta värdet vid udda antal, medelvärdet av de två mittersta vid jämnt
antal.
standardavvikelse v
u n
u 1 X
s=t (xi − x̄)2
n − 1 i=1
standardfelet (SEM)
√
SEM = s/ n
Sannolikheter
För två händelser A och B gäller
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Betingade sannolikheter
P (A ∩ B)
P (A|B) =
P (B)
k
X
P (B) = P (B|Ai )P (Ai )
i=1
Bayes formel
P (B|Ai )P (Ai )
P (Ai |B) =
P (B)
Oberoende händelser
Om P (A|B) = P (A) säges A och B vara oberoende. Detta medför också att A
och B är oberoende om och endast om
1
P (A ∩ B) = P (A)P (B)
Stokastiska variabler En diskret stokastisk variabel X kan anta ett ändigt
(eller uppräkneligt) antal värden. Sannolikheten för varje värde bestäms av en
sannolikhetsfunktion p
p(x) = P (X = x)
och variansen är
X
σ 2 = V [X] = (x − µ)2 p(x) = E[X 2 ] − µ2
x
Z ∞
f (x) = 1
−∞
Z b
P (a ≤ X ≤ b) = f (x)
a
E[XY ] = E[X]E[Y ]
och
V [X + Y ] = V [X] + V [Y ]
2
Binomialfördelning S ∼ bin(n, p)
n k
P (S = k) = p (1 − p)n−k för k = 0, 1, 2, · · · , n
k
E[X] = µ, V [X] = σ 2
Fördelningen med µ=0 och σ=1 kallas standard (el standardiserad) normal-
fördelning
Om X ∼ N (µ, σ) så är
X −µ
Z= ∼ N (0, 1)
σ
X̄ − µ
Z= √ ∼ N (0, 1)
σ/ n
x̄ − µ0
T = √ ∼ tn−1 (t-fördelning med n−1 frihetsgrader)
s/ n
Förkasta H0 om |T | ≥ |tα/2,n−1 | då H1 : µ 6= µ0
√
x̄ ± t1−α/2,n−1 s/ n
Om σ av någon anledning råkar vara känt, ersätt s med σ och använd z1−α/2 i
st f t1−α/2,n−1
3
där varje Di = Xi − Yi ∼ N (δ, σ)
D̄ − δ0
T = √
s/ n
Två stickprov X1 , X2 , · · · , Xm och Y1 , Y2 , · · · , Yn
(m − 1)s21 + (n − 1)s22
s2p =
m+n−2
och testa H0 : µ1 − µ2 = ∆0 (oftast ∆0 = 0) på signikansnivå α med
x̄ − ȳ − ∆0
T = p ∼ tn+m−2 (t-fördelning med n+m−2 frihetsgrader)
sp 1/m + 1/n
Förkasta H0 om |T | ≥ |t1−α/2,n+m−2 | då Ha : µ1 − µ2 6= ∆0
p
x̄ − ȳ ± t1−α/2,m+n−2 sp 1/m + 1/n
ANOVA - Fler än två stickprov (k>2) Anta att de olika grupperna är nor-
malfördelade N (µi , σ ), dvs eventuellt olika medelvärden, men samma varians.
H0 : µ1 = µ2 = · · · = µk
mot
Ha : någon skillnad mellan medelvärdena
med
2
σ̂B
F = 2
σ̂W
2 2
där σ̂W är den poolade variansen analogt med tvåstickprovsfallet och σ̂B är en
skattning av σ baserad på medelvärdena.
4
Efter en ANOVA gör man i allmänhet ett posthoc test. Lämpligt är Tukey om
man vill göra alla parvisa jämförelser, Dunnett om man bara vill jämföra en
speciell mot alla andra. Dessa korrigerar för multipelinferens, men det gör inte
LSD. Om man multiplicerar LSD-pvärden med antal test får man ett Bonferroni
pos hoc test.
1 ··· j ··· c
1 n11 ··· n1j ··· n1c n1.
··· ··· ··· ··· ··· ··· ···
i ni1 ··· nij ··· nij ni.
··· ··· ··· ··· ··· ··· ···
r nr1 ··· nrj ··· nrc nr.
n.1 ··· n.j ··· n.c n
c
X r
X
ni. = nij och n.j = nij
j=1 i=1
1 ··· j ··· c
1 p11 ··· p1j ··· p1c p1.
··· ··· ··· ··· ··· ··· ···
i pi1 ··· pij ··· pij pi.
··· ··· ··· ··· ··· ··· ···
r pr1 ··· prj ··· prc pr.
p.1 ··· p.j ··· p.c 1
Testa H0 : pij = pi. p.j för alla par i, j (dvs oberoende) med
X X (nij − êij )2
χ2 =
êij
som är approximativt χ2 fördelad med (r − 1)(c − 1) frihetsgrader och där
ni. n.j
êij = n . För att approximationen ska vara god bör êij ≥ 5 för minst 80%
av cellerna.
X (ni − npi )2
χ2 =
npi
5
Regression Vid linjär regression med n observationspar (xi , yi ) skattar man
en linje mha modellen
y = β0 + β1 x +
där ∼ N (0, σ) är bruset.
β̂0 = ȳ − β̂1 x̄
Test av H0 : β1 = 0 testas med en teststatistika av typen
β̂1
T =
se(β̂1 )
som är t−fördelad med n−2 frihetsgrader
Korrelation
Pearsons korrelationskoecient r är ett mått mellan −1 och 1.
P
(xi − x̄)(yi − ȳ)
r = pP pP
(xi − x̄)2 (yi − ȳ)2
√
r n−2
T = √
1 − r2
som är t−fördelad med n − 2 frihetsgrader och identisk med teststatistikan för
H0 : β1 = 0 från regressionsanalysen.