Professional Documents
Culture Documents
Tilastotieteen Perusteet 2019 - Tiivistelmä 1
Tilastotieteen Perusteet 2019 - Tiivistelmä 1
Taavi-Okko Tasanko
1
Sisältö
Termejä ............................................................................................................................................... 3
Todennäköisyyslaskenta .................................................................................................................... 5
Joukko-oppi .................................................................................................................................................................. 5
Kombinatoriikka .......................................................................................................................................................... 6
Kertolaskuperiaate..................................................................................................................................................... 6
Yhteenlaskuperiaate .................................................................................................................................................. 6
Kombinaatioiden laskeminen...................................................................................................................................... 7
Komplementtisääntö ............................................................................................................................................... 10
Todennäköisyysjakaumat ................................................................................................................ 17
Satunnaismuuttuja ja sen jakauma .......................................................................................................................... 17
Diskreetti todennäköisyysjakauma........................................................................................................................... 18
Frekvenssifunktio .................................................................................................................................................... 18
Parametrit ................................................................................................................................................................ 23
Kriteerit ................................................................................................................................................................... 23
Jakaumien vinous....................................................................................................................................................... 24
Jatkuva todennäköisyysjakauma.................................................................................................... 25
Tiheysfunktio .............................................................................................................................................................. 25
Normaalijakauma ...................................................................................................................................................... 26
Käyttösääntö ............................................................................................................................................................ 35
Jatkuvuuskorjaus ..................................................................................................................................................... 35
Normaalijakauman ominaisuuksia........................................................................................................................... 37
Termejä
E = perusjoukko, eli kaikkien mahdollisten mielenkiinnon kohteena olevien alkioiden muodostama
joukko
x∈ A = x kuuluu joukkoon A
y ∉ A = y ei kuulu joukkoon A
Φ = Tyhjä joukko
A = B, jos niissä on täsmälleen samat alkiot, Alkioiden esittämisjärjestyksellä ei ole väliä, Jokainen
alkio merkitään joukkoon vain kerran.
C ⊄ A = C ei ole A osajoukko
AC = Joukon A komplementti, eli perusjoukon alkiot, jotka eivät kuulu joukkoon A, eli muutkuin
sinisilmäiset suomalaiset.
A ⋃ B = Unioni, eli ne alkiot, jotka kuuluvat joko toiseen tai molempiin joukkoihin.
A\B = Erotus, eli ne alkiot, jotka kuuluvat A:han, mutta eivät B:hen
Aivan perusteita
Empiirinen ilmiö voi olla deterministinen tai satunnaisilmiö.
Sattuma vaikuttaa empiiriseen ilmiöön, jos tulokset eivät ole aina samat, vaikka ilmiö toistuisi
samoissa olosuhteissa.
sekä systemaattiset että satunnaiset tekijät. Esimerkiksi ensi vuonna syntyvien lasten
lukumäärä, bkt:n suuruus, yrityksen liikevaihto, EU:n kannattajien osuus 1000 suuruisessa
otoksessa
Kuvailevassa tilastotieteessä aineistolle tehdyn operaation tulos kertoo aineistosta jotain ainakin
kohtuullisen hyvin.
Aina kun aineisto hankitaan otannan avulla, sattuma vaikuttaa siihen. Tilastollisen analyysin
päämääränä on systemaattisten ja satunnaisten tekijöiden tunnistaminen ja erottaminen
toisistaan satunnaisilmiöissä.
5
Jotta tämän tunnuslukuihin tiivistetyn informaation avulla voidaan tehdä yleistyksiä eli tilastollista
päättelyä koko perusjoukkoon, on tunnettava sattuman käyttäytymiseen liittyvät lainalaisuudet.
Näitä lainalaisuuksia tutkii todennäköisyyslaskenta.
Todennäköisyyslaskenta
Empiirinen todennäköisyyskäsite
Joukko-oppi
Joukko on kokoelma joitakin objekteja esim. a, b, c, … Näitä olioita sanotaan joukon alkioiksi.
Esim. alkioiden a, b, c ja d joukosta käytetään merkintää {a, b, c, d}. Joukot nimetään yleensä
isoilla kirjaimilla: A, B, C tai A1, A2, A3.
Kombinatoriikka
Kombinatoriikan avulla vastataan kysymykseen ”kuinka monella tavalla jokin operaatio tai
operaatiosarja voidaan tehdä?”
Kertolaskuperiaate
Yhteenlaskuperiaate
Ollaan baaritiskillä ja voit valita bissen tai siiderin, et kuitenkaan molempia. Bissejä on 3 brändi
vaihtoehtoa ja siidereitä 4 vaihtoehtoa. Tällöin voit valita juomasi eli ”bissen tai siiderin” 3 + 4 eli 7
tavalla.
Nyt jos kysytään kuinka monta tapaa on valita näistä juomista sinulle ja heilallesi eri brändin bisset
tai siiderit niin asettelu on seuraava:
Siiderit 4 x 3 = 12 tavalla
7
Mikäli saatte valita vielä täysin saman brändin juomat muuttuu lasku:
Bisset 3 x 3 = 9
Siiderit 4 x 4 = 16
Permutaatioiden laskeminen
n erilaisesta alkiosta voidaan tehdä k:n alkion permutaatioita, eli järjestettyjä jonoja:
Esim. 5 aakkosesta a, b, c, d, ja e voidaan tehdä 2-kirjaimisia sanoja, joissa kaikki kirjaimet ovat
erilaisia:
Permutaatiot ovat erilaisia, jos niissä on edes yksi erilainen alkio tai edes yksi eri järjestys.
Kombinaatioiden laskeminen
Joukosta E, jossa on n erilaista alkiota voidaan valita erilaisia k:n alkion kombinaatioita,
järjestämättömiä jonoja:
Edellisten sääntöjen avulla voidaan laskea erilaisten mahdollisten otosten lukumäärä, kun
perusjoukko on äärellinen.
HUOM!!
Esim:
Komplementtisääntö
, hyödynnä tätä laskuissa esim. ”vähintään 1 tai enemmän toteutuu, eli lasket
1 – P(yksikään ei toteudu) jne..
Ehdollinen todennäköisyys
Eli siis A:n tapahtuminen ei vaikuta B:n tapahtumiseen, joten edeltävää ehdollisuuden vaatimusta ei
tarvitse, joka oli P(B|A). Esimerkkitapahtumana: pojista puolet ja tytöistä 1/3 käyttävät nuuskaa.
Nyt kun poimitaan kummastakin ryhmästä yksi ihminen, niin kuinka todennäköistä on, että
kummatkin nuuskaavat → 1/2 * 1/3 = 1/6. Pojista yhden poimiminen ei siis muunna
todennäköisyyttä poimia nuuskavaa tyttöä.
Seuraavasta taulukosta voidaan laskea millainen tilanne olisi, jos nuuskan käyttö olisi riippumatonta
sukupuolesta.
Nyt sitten mietitään miltä taulukon pitäisi näyttää, jos nuuskan vetäminen ei olisi riippuvainen
sukupuolesta:
Jos muuttujien riippumattomuus olisi voimassa, niin satunnaiskokeessa ℰ = ”Näiden 500 henkilön
joukosta arvotaan 1 henkilö” ja tämä henkilö olisi nainen, joka käyttää nuuskaa:
12
200 – 60 = 140.
Vastaavalla tavalla lasketaan miesten frekvenssit, kuitenkin helpoin tapa on tässä kahden muuttujan
tapauksessa laskea ensin yhden tapauksen frekvenssi niin kuin tuo (nainen ja käyttää nuuskaa).
Sitten vain lasketaan sen avulla vähennyslaskuilla loput frekvenssit. Miesten frekvenssit saadaan →
150 – 60 = 90 käyttää ja 300 – 90 = 210 ei käytä. Tätä samaa vähennyslaskukeinoa voi käyttää
vaikka muuttujia olisi enemmän. Silloin on vain laskettava useampi frekvenssi alkuun tuolla
ensimmäisellä tyylillä.
Tästä saatiinkin alla oleva taulukko, josta voi nähdä, että naiset käyttävät oikeasti vähemmän
nuuskaa kuin riippumattomuuden vallitessa. Miehet taas käyttävät enemmän. Eli näillä muuttujilla
on ainakin jonkinlainen riippuvuus sukupuolesta.
Helppo tapa tarkistaa laskitko frekvenssit perssiilleen, on tarkastaa, että eroavuudet muuttujien
välillä ns. matchaavat. 48 – 60 = -12 ja 152 -140 = 12 → -12 + 12 = 0 eli otoskoko pysyi samana ja
laskit frekvenssit oikein. Ihmisten määränhän tässä ei pitäisi muuttua. Sama pätee miesten kohdalla.
13
Frekventistinen todennäköisyyskäsite
Kun tällaisia kokeita todella on tehty, pitkässä heittosarjassa tapahtuman A = ”Heiton tuloksena on
kruunu” suhteellinen frekvenssi voi vaihdella aluksi paljon, mutta heittojen määrän kasvaessa se
tasaantuu lähelle arvoa 0.5.
Oletetaan, että satunnaiskoe ℰ toistetaan samoissa olosuhteissa n kertaa ja seurataan ℰ:hen liittyvän
tapahtuman A suhteellisen frekvenssin Pn(A) suuruuden kehittymistä toistojen lukumäärän n
kasvaessa. Jos Pn(A):n vaihtelu vähenee ja Pn(A) ”näyttää lähenevän” jotain kiinteää lukua
satunnaiskokeen ℰ pitkässä toistosarjassa, tätä lukua sanotaan tapahtuman A todennäköisyydeksi
P(A).
Tässäkään ei pyritä määrittelemään puhtaan matematiikan käsitettä, vaan ajatus lähtee empiirisen
todellisuuden havainnoimisesta:
Satunnaiskoe ℰ voidaan toistaa vain äärellisen monta kertaa. Mikään ei periaatteessa takaa,
ettei vaikkapa kolikkoa heitettäessä kruunujen suhteellinen osuus ”villiintyisi” esim. 1000
000 000 heiton jälkeen. Empiirinen kokemus ja terve järki kuitenkin sanovat, että näin ei
ilmeisesti kuitenkaan kävisi. Tämä riittää hyvin toimivan empiirisen
todennäköisyyskäsitteen määrittelemiseen. Raja-arvon laskeminen edellyttää ääretöntä
toistoa, siksi siis näin!
Esim. jos lasketaan todennäköisyys, että syntyy poika käytetään tähän käytettävissä olevia
toteutuneita tapahtumia, eli synnytysrekisteriä, josta voi lukea että esim 51% viimeisen 10
vuoden aikana syntyneistä lapsista on ollut poikia. Tällöin käytämme siis todennäköisyyden
arvioimiselle käytettävissä olevaa dataa.
Usein, kuten kolikon heitossa tai syntyvien poikien suhteellisen frekvenssin seuraamisessa
ei tiedetä ainakaan tarkkaan, mistä suhteellisen frekvenssin lähestyminen kohti kiinteää
arvoa johtuu.
4) Otanta- ja koesuunnittelutilanteet asetetaan niin, että tämä ilmiö auttaa, kun tehdään arvioita
perusjoukosta otoksen informaation perusteella
Vaikka emme tiedä esimerkiksi nuuskan O käyttäjien todellista suhteellista osuutta perusjoukossa
(esim. kaikki mursut) voimme suurella varmuudella saada lähellä oikeaa olevan arvion käyttäjien
todellisesta osuudesta perusjoukossa (kaikki käyttäjät) perusjoukon otoksesta havaitun suhteellisen
frekvenssin Pn(H) avulla. Eli siis esim. valitsemalla testiin 100 mursua hatusta vetämällä
(symmetria) ja laskemalla suhteellisen frekvenssin tästä otoksesta.
Kokonaistodennäköisyyden kaava
Arvioidaan ajassa eteenpäin, kuinka todennäköistä on, että valituksi tulee jokin x.
Esim:
Tehdas tilaa komponentteja S alihankkijoilta Kaarlo, Leena ja Mikko. Pieni osa tuotteista on
viallisia. Taulukossa ovat tuottajien osuudet tilauksista ja viallisten tuotteiden osuudet heidän
toimittamistaan tarvikkeista:
Älä tässä turhaan rupea panikoimaan sillä, että kaavalla on jokin erityinen nimi. Kaava tarkoittaa
vaan sitä, että lasketaan erilaisten tapahtumien toteutumisen todennäköisyyttä ehdolla, että jokin
muu tapahtuma toteutuu ensin ja sitten summataan yhteen kaikki toisistaan riippumattomat
vaihtoehdot, kuten yllä.
16
Bayesin kaava
Bayesin kaavaa hyödynnetään arvioidessa taakse päin ”kuinka todennäköistä, että tähän tilanteeseen
päädyttiin juuri tätä reittiä?”.
Todennäköisyysjakaumat
Muistutuksena:
Summafrekvensijakauma → Kertymäfunktio
Keskiluvut (moodi, mediaani, aritmeettinen keskiarvo…)
Hajontaluvut: (keskihajonta, varianssi …)
18
Satunnaismuuttuja X voi olla diskreetti tai jatkuva samoin kuin empiirinen muuttuja.
Diskreetti = tarkka luku esim. ihmisten määrä 10 tai 11 ihmistä. Ei voi olla esim 10,6 ihmistä.
Jatkuva = esimerkiksi pituuden mittaaminen 12 tai 12,1 tai 12,2 tai 12,233456789 jne..
Diskreetti todennäköisyysjakauma
1. Satunnaismuuttujan X arvot, xi
2. Todennäköisyydet pi = P(X=xi),
3. Todennäköisyyksien (pi ≥0) summa Σpi = 1
Frekvenssifunktio
Esim:
Kun heistä poimitaan 4 tyyppiä, mikä on todennäköisyys, että k-määrä niistä harrastaa Judoa?
9 6:
Diskreetillä satunnaismuuttujalla X voi olla äärellinen määrä arvoja tai numeroituvasti ääretön
määrä.
19
Kertymäfunktio:
Summafrekvenssijakauma = Kertymäfunktio
Esim:
Aritmeettinen keskiarvo
Aritmeettinen keskiarvo tarkoittaa sitä tavallisinta keskiarvoa mikä lasketaan tapahtumille. Alla sen
kaava. Eli voidaan laskea frekvensseistä, kuten yläasteella tehtiin: Jannella on 2€, Siirillä 2€ ja
Pekalla 4€. Mikä on keskimääräinen rahamäärä → (1/3) x ((2 x 2€) + (1 x 4€) ) = 2,66€
Toisin esittäen → (2+2+4)/3 = 2,66€. Älä anna monimutkaiselta näyttävän kaavan kusta turhaan
linssiin.
Odotusarvo
Odotusarvo on periaattessa täysin sama asia, mutta se lasketaan vain todennäköisyyksien avulla
painottaen lukumäärien, eli frekvenssin sijasta noita esimerkin euromääriä todennäköisyyksillä
Odotusarvon merkintänä käytetään EX tai 𝝁. Huomaa tuosta EX, että tapahtuma X odotus arvo on
EX, mutta tapahtuman Y on EY ja tapahtuman Z on EZ..jne
Eli vastaavalla tavalla kuin konkreettisessa empiirisessä jakaumassa aritmeettinen keskiarvo kuvaa
konkreettisesti havaittujen arvojen xi keskimääräistä suuruutta, niin todennäköisyysjakaumassa
satunnaismuuttujan X odotusarvo EX kuvaa X:n keskimäärin odotettavissa olevan arvon suuruutta,
jos satunnaiskoe ℰ joskus tullaan tekemään.
Varianssi ja keskihajonta
Keskihajonta
Empiirisen jakauman ja todennäköisyysjakauman käsitteet voivat olla joskus hyvin lähellä toisiaan.
Niissä tutkitaan samoja olioita ja erona ovat ainoastaan näkökulmat:
Binomijakauma
Kriteerit binomijakaumalle
• Tilanteen on oltava toistokoe, jossa joka toistolla seurataan, onko tuloksena jokin
tapahtuma A vai ei
• Toistojen on oltava toisistaan riippumattomia → toistojen riippumattomuus
• Joka toistolla A:n esiintymisen todennäköisyys on oltava sama → symmetrisyys
• Satunnaismuuttuja X = A:n esiintymisten lukumäärä toistosarjassa.
X∼Bin(n, p).
p = todennäköisyys tapahtumalle A
Esim:
Arvotaan värilappuja hatusta palauttaen. Värejä on 4 ja jokaisella värillä lappuja on 2. Yksi väreistä
on sininen. Hatusta vetäminen → symmetrisyys
Edellisessä tapauksessa:
EX = np = 2 x 0,25 = 0,5
Muita jakaumia
Näitä ei käsitellä tässä, mutta paina mieleen mitä nuo yleisellä tasolla ovat.
23
Hypergeometrinen jakauma
Parametrit
• Perusjoukon koko N
• Havaittavien alkioiden määrä K
• Otoskoko n
Kriteerit
Kaava:
Odotusarvo ja varianssi
24
Huomioitavaa:
Edellä esimerkissä perusjoukon koko oli äärimmäisen pieni, jolloin se alkaa tyhjentyä
merkittävästi pientäkin otosta palauttamatta poimittaessa ja vaihtelu pienenee. Otannassa
palauttaen samat henkilöt ovat aina valittavissa. Siksi todennäköisyysjakaumat poikkeavat niin, että
hypergeometrinen jakauma keskittyy tiiviimmin odotusarvonsa ympärille!!!
Kuitenkin jos perusjoukko on ”suuri” (tai jopa ääretön), edellisen tilastoyksikön poimiminen ei
muuta sitä paljon otannassa palauttamatta. Silloin tilastoyksiköitä arvottaessa peräkkäisissä
toistoissa ”onnistumistodennäköisyys” p = P(A) pysyy lähes samana ja toistot ovat ”lähes
riippumattomia” toisistaan. Tällaisessa tilanteessa binomi- ja hypergeometrisen jakauman ero on
pieni.
Jakaumien vinous
Älä välitä nyt niinkään noista merkinnöistä, vaan katso palkkien pientä kallistumista vasemmalle.
Kuviosta näkyy, että kumpikin jakauma on lievästi vasemmalle vino (vasemmalle päin on pidempi
”häntä”.) JAKAUMA ON SIIHEN SUUNTAAN VINO MISSÄ BABYREXIN HÄNTÄ ON!
Jatkuva todennäköisyysjakauma
Tiheysfunktio
Kuitenkin jos todennäköisyyksien tiheys voidaan olettaa vakioksi (ks. seuraava esimerkki), voidaan
laskea ilman normaalijakaumaa:
Esim:
Normaalijakauma
Normaalijakauman taulukko
Taulukossa ovat kertymäfunktion ϕ arvoja taulukoituina. ϕ:n arvot kasvavat rivien suunnassa x:n
kasvaessa aina 0,01:n verran. Esim. ϕ(1,96) = 0.9750 on 1,9 alkavalla rivillä 0,06:n alla.
29
Rajoitettu väli
𝝓(-x) = 1- 𝝓(x)
𝛟 (x) = 0,90
Ja tästä eteenpäin
Esim.
Suklaatehtaassa on todettu erittäin useiden mittausten avulla saadun aineiston perusteella, että
tuotettavien suklaalevyjen paino X on likimain normaalisti jakautunut ja aineistosta laskettu
keskipaino x̄≈ 100 g ja painon keskihajonta s ≈ 4 g.
Tämän perusteella estimoidaan, että X:n keskimäärin odotettavissa oleva paino μ ≈ x̄≈ 100 g ja
keskimäärin odotettavissa oleva painon hajonta σ ≈ s ≈ 4 g. Siis havaintoaineiston perusteella
mallina on, että tuotannosta umpimähkään poimittavan levyn paino X ~N( 100, 42 ).
Jos X ~N( 𝜇,𝜎2 ), niin jakaumaan liittyvät todennäköisyydet saadaan edellä käytetyillä säännöillä:
1) Standardointi
P(Z> a) = 1 – P(Z≤ a)
P(Z≤ a) = 𝝓(a)
Esim.
Esim.
Huom. väli [200-a, 200+a] ei ole luottamusväli, kuten lukiossa on saatettu sitä virheellisesti
nimittää.
1) Empiirinen tosiasia
Useat empiirisiä ilmiöitä kuvaavat satunnaismuuttujat ovat jostain syystä normaalisti jakautuneita.
Monien otoksesta laskettavien tunnuslukujen arvojen määräytymisen mallina käy ainakin likimain
normaalijakauma.
normaaliapproksimaatio
Binomijakauman approksimaatio
Esim.
= 88/200 = 0.44
Vaikka tässä n = 20, kaikki todennäköisyydet voidaan laskea kohtuullisella vaivalla yllä olevalla
frekvenssifunktiolla eli lasketaan yksitellen P(X=0), P(X=1)… P(X=20).
Kun X∼ Bin(n, p) ja np > 5 ja n(1-p) > 5, voidaan sama laskea hyödyntäen normaalijakaumaa.
Huom:
Käyttösääntö
Jatkuvuuskorjaus
Jatkuvassa approksimaatiossa ajatellaan, että täsmällisiä eli diskreettejä X:n arvoja 0, 1, 2,…, n
vastaavat välit, joissa luvut pyöristyvät näihin arvoihin ovat esimerkiksi P(X=8) ≈ P(7.5 < Y ≤ 8.5).
Esim.
Kuinka todennäköistä on, että esiintymään pääsee yli 5, mutta korkeintaan 12 opposition edustajaa?
Ja
Huomaa vaihto 5 → 6, josta otetaan sitten peruskorjaus. Alemmasta -0,5 ja ylemmästä +0,5.
= P(5.5 ≤ Y ≤12.5)
= 0.9525 – 1 + 0.9319
= 0.8844
HUOMAA, että peruskorjaus tehdään vain diskreeteille muuttujille, kuten ihmisten määrä.
Tällainen on muuttuja, joka ei voi olla esim 10,6 ihmistä, vaan on joko 10 tai 11. JATKUVIIN
MUUTTUJIIN PERUSKORJAUSTA EI SOVELLETA.
Esim.
= P(5.5 ≤ Y ≤12.5)
Normaaliapproksimaation suuri merkitys on siinä, että sen avulla saadaan normaalijakauman hyvät
ominaisuudet avuksi tällaisen otantatilanteen tutkimiseen.
Normaalijakauman ominaisuuksia
Y = (X + a)
Y ~ N(𝝁 + a, 𝝈2 ).
Tilanteen voi kuvitella ikään kuin, että jakauman keskikohta eli odotusarvo siirtyy vain vakion
verran, jolloin jakauman muodolle ei käy mitään. Katso alempi luonnostelma:
38
Tästä näkee että jakauman muodolle eli laakeudelle ei käy mitään, joten varianssi pysyy samana!
Kyseessä siis esimerkiksi minuuttien muuttaminen sekunteiksi. Käydään tämä läpi esimerkillä:
DY = 60 · DX = 60 · 2 min = 120 s
Sääntö:
Sääntö on yleistettävissä:
E(a * X) = b * EX
Var(a * X) = a2 * Var(X)
39
Palautetaan muistiin:
X⊥Y, kun:
Eli X kuuluu joukkoon A tapahtumia, jotka ovat täysin riippumattomia joukon B tapahtumista
johon Y kuuluu.
Esim:
Suklaa tulee pakkauskoneeseen toista liukuhihnaa pitkin ja pakkaukset toista, joten voitaneen
olettaa X⊥Y. Minkälainen on kokonaispainon T = X + Y jakauma?
ET = E(X + Y) = EX + EY
Varianssi:
Pakatun suklaalevyn painon T vaihtelun suuruus on sitä suurempi, mitä suurempia ovat suklaan
painon ja pakkauksen painon vaihtelun suuruus.
Huomaa tässä varianssien yhteen laskeminen (𝝈2 + 𝝈2) antaa tuloksen, joka on vielä muunnettava
takaisin muotoon → (𝝈2 + 𝝈2) = 𝝈2
Esimerkkinä:
(10 * 𝝈2) → esim. jos 𝝈 = 2, niin (10 * 22) = (40) → muunnetaan tämä varianssin muotoon: