Tilastotieteen Perusteet 2019 - Tiivistelmä 1

TITI-TIIVISTELMÄ 2019
Osa 1. sivut 1-207
Taavi-Okko Tasanko
1
Sisältö
Termejä ............................................................................................................................................... 3
Aivan perusteita ................................................................................................................................. 4
Todennäköisyyslaskenta .................................................................................................................... 5
Empiirinen todennäköisyyskäsite ............................................................................................................................... 5
Joukko-oppi .................................................................................................................................................................. 5
Kombinatoriikka .......................................................................................................................................................... 6
Kertolaskuperiaate..................................................................................................................................................... 6
Yhteenlaskuperiaate .................................................................................................................................................. 6
Permutaatioiden laskeminen ....................................................................................................................................... 7
Kombinaatioiden laskeminen...................................................................................................................................... 7
Yleisiä huomioita kombinaatioista ja permutaatioista ............................................................................................. 8
Klassinen ja frekventistinen todennäköisyyskäsite ......................................................................... 8

Klassinen todennäköisyys ja sen ominaisuuksia ....................................................................................................... 8
Joukko-opin ja todennäköisyyslaskennan merkintöjen eroavaisuudet ...................................................................... 9
Klassisen todennäköisyyden ominaisuuksia............................................................................................................ 10
Komplementtisääntö ............................................................................................................................................... 10
Ehdollinen todennäköisyys ..................................................................................................................................... 10
Tilastollinen, eli stokastinen riippumattomuus........................................................................................................ 11
Frekventistinen todennäköisyyskäsite ...................................................................................................................... 13
Kokonaistodennäköisyyden kaava ja Bayesin kaava .............................................................................................. 14
Kokonaistodennäköisyyden kaava .......................................................................................................................... 15
Bayesin kaava ......................................................................................................................................................... 16
Todennäköisyysjakaumat ................................................................................................................ 17
Satunnaismuuttuja ja sen jakauma .......................................................................................................................... 17
Diskreetti todennäköisyysjakauma........................................................................................................................... 18
Frekvenssifunktio .................................................................................................................................................... 18
Aritmeettinen keskiarvo .......................................................................................................................................... 20
Varianssi ja keskihajonta ......................................................................................................................................... 20
Binomijakauma ja hypergeometrinen jakauma ........................................................................... 21

Binomijakauma .......................................................................................................................................................... 21
2
Kriteerit binomijakaumalle ..................................................................................................................................... 21
Hypergeometrinen jakauma ..................................................................................................................................... 23
Parametrit ................................................................................................................................................................ 23
Kriteerit ................................................................................................................................................................... 23
Jakaumien vinous....................................................................................................................................................... 24
Jatkuva todennäköisyysjakauma.................................................................................................... 25
Suhteellinen havaintotiheys, eli luokkavälin todennäköisyys ................................................................................. 25
Tiheysfunktio .............................................................................................................................................................. 25
Normaalijakauma ...................................................................................................................................................... 26
Normaalijakauman taulukko ................................................................................................................................... 28
Esimerkkejä normaalijakauman käytöstä ............................................................................................................... 29
Rajoitettu väli .......................................................................................................................................................... 29
Jakauman molemmat ”hännät” ................................................................................................................................ 29
Kuinka normaalit jakaumat normitetaan kurssin Z-jakaumaan .......................................................................... 30
Normaalijakauman hyödyntämisperiaate vielä tarkemmin ..................................................................................... 31
Normaalijakauma on tilastotieteessä tärkeä ainakin seuraavista syistä ................................................................... 33
Binomi- ja hypergeometrisen jakauman normaaliapproksimaatio ............................................ 34

Binomijakauman approksimaatio ............................................................................................................................ 34
Käyttösääntö ............................................................................................................................................................ 35
Jatkuvuuskorjaus ..................................................................................................................................................... 35
Hypergeometrisen jakauman approksimointi ......................................................................................................... 36
Normaalijakauman ominaisuuksia........................................................................................................................... 37
Vakion lisääminen jakauman parametreihin ........................................................................................................... 37
Jakauman skaalaaminen, eli kertominen vakiolla ................................................................................................... 38
Toisistaan riippumattomien normaalisten muuttujien yhteenlasku ......................................................................... 39

3
Termejä
E = perusjoukko, eli kaikkien mahdollisten mielenkiinnon kohteena olevien alkioiden muodostama
joukko
x∈ A = x kuuluu joukkoon A
y ∉ A = y ei kuulu joukkoon A
Φ = Tyhjä joukko
A = B, jos niissä on täsmälleen samat alkiot, Alkioiden esittämisjärjestyksellä ei ole väliä, Jokainen
alkio merkitään joukkoon vain kerran.
B ⊂ A = Jokainen joukon B alkio kuuluu joukkoon A, B on siis An osajoukko
C ⊄ A = C ei ole A osajoukko
A = {x ∊ E | ”ehto”} = Ehto, joka perusjoukon E alkioiden on toteutettava, jotta kuuluvat joukkoon

A. Esim E = Suomalaiset ja ehto on sinisilmäinen. Tällöin A = sinisilmäiset suomalaiset.
AC = Joukon A komplementti, eli perusjoukon alkiot, jotka eivät kuulu joukkoon A, eli muutkuin
sinisilmäiset suomalaiset.
A ⋃ B = Unioni, eli ne alkiot, jotka kuuluvat joko toiseen tai molempiin joukkoihin.
A ⋂ B = Leikkaus, eli VAIN ne alkiot, jotka kuuluvat molempiin joukkoihin.
A\B = Erotus, eli ne alkiot, jotka kuuluvat A:han, mutta eivät B:hen
A x B = Tulojoukko. Esim A= {Z,X} B={1,2,3}
A x B = {Z,1} {Z,2} {Z,3} sekä {X,1} {X,2} {X,3}
B x A = {1,Z} {1,X} sekä {2,Z} {2,X} sekä {3,Z} {3,X}
HUOM!! Siis yleensä A x B ei ole sama kuin B x A

4
Aivan perusteita
Empiirinen ilmiö voi olla deterministinen tai satunnaisilmiö.
Deterministinen: Vain systemaattiset tekijät vaikuttavat siihen
Satunnaisilmiö: Myös sattuma vaikuttaa siihen
Sattuma vaikuttaa empiiriseen ilmiöön, jos tulokset eivät ole aina samat, vaikka ilmiö toistuisi
samoissa olosuhteissa.
Tilastotiedettä tarvitaan erityisesti satunnaisilmiöiden tutkimisessa. Yksittäisen satunnaisilmiön

tulosta ei voida ennustaa tarkkaan. Usein kuitenkin havaitaan, että sattuman käyttäytymisessä on
selvää lainalaisuutta. Todennäköisyyslaskenta ja tilastotiede tutkivat tätä.
Empiirinen ilmiö voi koostua seuraavista tekijöistä:
Vain systemaattiset tekijät, jolloin ilmiön käyttäytyminen pystytään täsmällisesti

ennustamaan
Vain satunnaisia tekijät. Esimerkiksi ensi vuonna ensimmäisenä Suomessa syntyvän

lapsen sukupuoli
sekä systemaattiset että satunnaiset tekijät. Esimerkiksi ensi vuonna syntyvien lasten
lukumäärä, bkt:n suuruus, yrityksen liikevaihto, EU:n kannattajien osuus 1000 suuruisessa
otoksessa
Tilastotieteen ”materia” on tilastoyksiköistä mitattujen muuttujien arvojen sisältämä informaatio, ja

tilastollisessa analyysissä informaatio tiivistetään tarkoituksenmukaisella tavalla empiirisestä
aineistosta.
Kuvailevassa tilastotieteessä aineistolle tehdyn operaation tulos kertoo aineistosta jotain ainakin
kohtuullisen hyvin.
Tilastollisessa päättelyssä puolestaan menetelmän on oltava matemaattisesti niin hyvin toimiva,

että analyysissa ”nähdään käsiteltävän aineiston läpi” tutkittavan ilmiön rakenteisiin.
Aina kun aineisto hankitaan otannan avulla, sattuma vaikuttaa siihen. Tilastollisen analyysin
päämääränä on systemaattisten ja satunnaisten tekijöiden tunnistaminen ja erottaminen
toisistaan satunnaisilmiöissä.
5
Deskriptiivisessä tilastotieteessä käsitellään menetelmiä, joiden avulla voidaan tiivistää

informaatiota aineiston muuttujien arvoista.
Jotta tämän tunnuslukuihin tiivistetyn informaation avulla voidaan tehdä yleistyksiä eli tilastollista
päättelyä koko perusjoukkoon, on tunnettava sattuman käyttäytymiseen liittyvät lainalaisuudet.
Näitä lainalaisuuksia tutkii todennäköisyyslaskenta.
Todennäköisyyslaskenta
Empiirinen todennäköisyyskäsite
Todennäköisyyslaskennan tehtävänä on sattuman käyttäytymiseen liittyvien lainalaisuuksien

kuvaaminen täsmällisten käsitteiden avulla. Empiiristä ilmiötä, johon vaikuttaa sattuma, sanotaan
satunnaisilmiöksi tai satunnaiskokeeksi.
Yksittäisen satunnaiskokeen lopputulosta ei pystytä ennustamaan. Tuloksissa on kuitenkin selvää

säännönmukaisuutta, kun koe toistuu useita kertoja samoissa olosuhteissa.
Todennäköisyyden käsitteen avulla kuvataan ”kuinka suuri mahdollisuus” jollain tapahtumalla on

olla tuloksena jossain satunnaiskokeessa. Todennäköisyyden suuruus esitetään suhteellisena
osuutena eli prosenttilukuna.
Toimintaa, joissa todennäköisyyksien suuruudet päätellään ilman empiiristä kokemusta pelkästään

asetelman rakenteen perusteella, kutsutaan klassisen todennäköisyyden laskemiseksi.
Tilastoista saatavan empiirisen tiedon perusteella laskettavaa todennäköisyys kutsutaan

frekventistiseksi todennäköisyydeksi.
Joukko-oppi
Joukko on kokoelma joitakin objekteja esim. a, b, c, … Näitä olioita sanotaan joukon alkioiksi.
Esim. alkioiden a, b, c ja d joukosta käytetään merkintää {a, b, c, d}. Joukot nimetään yleensä
isoilla kirjaimilla: A, B, C tai A1, A2, A3.
Joukko A voi olla {1, 2, 3, 4, 5} tai joukko B = {3, 5, 7, 8} jne.

6
Kombinatoriikka
Kombinatoriikan avulla vastataan kysymykseen ”kuinka monella tavalla jokin operaatio tai
operaatiosarja voidaan tehdä?”
Alkioista muodostettuja järjestämättömiä jonoja kutsutaan kombinaatioksi. Tällä tarkoitetaan,

että jonon sisäisellä järjestyksellä ei ole siis väliä. Esim heittäessä noppa tulokset {1,2,3} ja {2,3,1}
nähdään samoina tuloksina.
Jonoja, joissa järjestyksellä on merkitystä kutsutaan permutaatioiksi. Näissä {1,2,3} ja {2,3,1}

ovat eri jonot.
Kertolaskuperiaate
Ymmärrä esimerkistä periaate:
Valitaan housut ja paita peräkkäin:
1. Housut voidaan valita 3 tavalla ja paita 2 tavalla

2. Kokonaisuus voidaan valita 3 x 2 eli 6 tavalla
Valitaan 5 kanan joukosta 3 kanaa
• 1. kanan voi valita 5 tavalla

• Valintamahdollisuuksia eli jonoja on 5 x 4 x 3 = 60 tapaa
Yhteenlaskuperiaate
Ymmärrä esimerkistä periaate:
Ollaan baaritiskillä ja voit valita bissen tai siiderin, et kuitenkaan molempia. Bissejä on 3 brändi
vaihtoehtoa ja siidereitä 4 vaihtoehtoa. Tällöin voit valita juomasi eli ”bissen tai siiderin” 3 + 4 eli 7
tavalla.
Nyt jos kysytään kuinka monta tapaa on valita näistä juomista sinulle ja heilallesi eri brändin bisset
tai siiderit niin asettelu on seuraava:
Bisset voidaan valita 3 x 2 = 6 tavalla (kertolaskuperiaatteen hyödyntäminen)
Siiderit 4 x 3 = 12 tavalla
7
Yhteensä vaihtoehtoja on 6 + 12 eli 18.
Mikäli saatte valita vielä täysin saman brändin juomat muuttuu lasku:
Bisset 3 x 3 = 9
Siiderit 4 x 4 = 16
Yhteensä 9 + 16 = 25 tapaa valita juomat.
Tiivistys, kun tehdään:
”jotain” ja ”jotain”, vaihtoehtojen lukumäärät kerrotaan keskenään
”jotain” tai ”jotain”, vaihtoehtojen lukumäärät summataan
Permutaatioiden laskeminen
n erilaisesta alkiosta voidaan tehdä k:n alkion permutaatioita, eli järjestettyjä jonoja:
Esim. 5 aakkosesta a, b, c, d, ja e voidaan tehdä 2-kirjaimisia sanoja, joissa kaikki kirjaimet ovat
erilaisia:
Permutaatiot ovat erilaisia, jos niissä on edes yksi erilainen alkio tai edes yksi eri järjestys.
Kombinaatioiden laskeminen
Joukosta E, jossa on n erilaista alkiota voidaan valita erilaisia k:n alkion kombinaatioita,
järjestämättömiä jonoja:
Kombinaatiot ovat erilaisia, jos niissä on edes yksi erilainen alkio

8
Edellisten sääntöjen avulla voidaan laskea erilaisten mahdollisten otosten lukumäärä, kun
perusjoukko on äärellinen.
Merkintöinä: Äärellisen perusjoukon E koko on N ja otoskoko on n.
Yleisiä huomioita kombinaatioista ja permutaatioista
Otannassa palauttamatta otoksia voidaan tarkastella kombinaatioina tai permutaatioina.
Otannassa palauttaen voi hyödyntää vain permutaatioita, eli järjestettyjä jonoja.
Hyödyntäessä kombinaatioita ja permutaatioita on pidettävä mielessä, että todennäköisyys on

satunnaiskokeeseen liittyvän tapahtuman ”ominaisuus”, ja se ei saa riippua sen ”mittaamiseen”
valitusta hahmotuksesta. Eli kummallakin tavalla lasketut todennäköisyydet on oltava
yhtäsuuret.
Klassinen ja frekventistinen todennäköisyyskäsite
Klassinen todennäköisyys ja sen ominaisuuksia
Klassista todennäköisyyskäsitettä hyödynnetään satunnaiskokeessa ℰ, jossa seuraavat kriteerit

täyttyvät:
• On äärellinen määrä alkeistapauksia

• Satunnaiskokeen rakenteen perusteella voidaan järkevästi olettaa, että jokainen alkeistapaus
voi ”yhtä hyvin” tulla tulokseksi, jolloin alkeistapauksia sanotaan symmetrisiksi
Eli muista: ÄÄRELLINEN MÄÄRÄ JA SYMMETRIA.
Kriteerien täyttyessä satunnaiskokeeseen liittyvän tapahtuman A todennäköisyys P(A) on

suhdeluku:
9
Joukko-opin ja todennäköisyyslaskennan merkintöjen eroavaisuudet
HUOM!!
Todennäköisyyslaskennan avulla voidaan kuvata kuinka sattuma määrää otoksen sisällön

empiirisestä perusjoukosta, kun todennäköisyyslaskennan otos poimitaan ”rehellisesti arpomalla”.
Eli, jos halutaan mallintaa empiiristä tapahtumaa todennäköisyyslaskennan avulla, on jokaisen
alkion oltava yhtä todennäköisesti valittavissa ikään kuin hatusta vetämällä → SYMMETRIA.
10
Klassisen todennäköisyyden ominaisuuksia
Esim:
Miehiä on 20 ja niistä norjalaisia on 5. Naisia on 30 ja niistä norjalaisia on 3. Kuinka todennäköistä

on, että umpimähkään valittu ihminen on norjalainen tai nainen?
(naiset + norjalaiset – norjalaiset naiset)/50 = (30 – 8 – 3)/50= 0,38
VAIN TILANTEESSA, JOSSA A JA B OVAT TOISENSA SULKEVIA HYÖDYNNETÄÄN

KAAVAA:
Komplementtisääntö
, hyödynnä tätä laskuissa esim. ”vähintään 1 tai enemmän toteutuu, eli lasket
1 – P(yksikään ei toteudu) jne..
Ehdollinen todennäköisyys
→ huomaa, että tätä kaavaa voi pyöritellä aikamoisesti.

Pääpointti on kuitenkin ymmärtää, ehdollistaminen rajaa vaihtoehtoja muuntaen todennäköisyyttä.
Ehdollisen todennäköisyyden määritelmä on tärkeä askel empiiristen riippuvuuksien mallintamisen

suuntaan. ”Jos tapahtuu A, mitä sen perusteella voi ennakoida X:stä?” Esim. jos voimme ajaa
Rovan nakkikioskille reittiä A, B tai C sekä kioskilta kotiin reittiä X tai Y, niin kuinka
todennäköistä on, että menemme kotiin reittiä X, jos tulimme kioskille reittiä A
11
Tilastollinen, eli stokastinen riippumattomuus
Satunnaiskokeeseen ℰ liittyvät tapahtumat A ja B ovat riippumattomia, jos seuraava kaava pitää

paikkansa:
Eli siis A:n tapahtuminen ei vaikuta B:n tapahtumiseen, joten edeltävää ehdollisuuden vaatimusta ei
tarvitse, joka oli P(B|A). Esimerkkitapahtumana: pojista puolet ja tytöistä 1/3 käyttävät nuuskaa.
Nyt kun poimitaan kummastakin ryhmästä yksi ihminen, niin kuinka todennäköistä on, että
kummatkin nuuskaavat → 1/2 * 1/3 = 1/6. Pojista yhden poimiminen ei siis muunna
todennäköisyyttä poimia nuuskavaa tyttöä.
Tapahtumien A ja B riippumattomuudesta käytetään merkintää A⊥B.
Riippumattomuuden määritelmällä on usein käyttöä, kun selvitetään millainen ”tilanteen” pitäisi

olla riippumattomuuden vallitessa.
Seuraavasta taulukosta voidaan laskea millainen tilanne olisi, jos nuuskan käyttö olisi riippumatonta
sukupuolesta.
Ensin taulukko, joka kuvaa otoksesta havaittuja frekvenssejä:
Nyt sitten mietitään miltä taulukon pitäisi näyttää, jos nuuskan vetäminen ei olisi riippuvainen
sukupuolesta:
Jos muuttujien riippumattomuus olisi voimassa, niin satunnaiskokeessa ℰ = ”Näiden 500 henkilön
joukosta arvotaan 1 henkilö” ja tämä henkilö olisi nainen, joka käyttää nuuskaa:
12
Naisille, jotka eivät käytä voidaan riippumaton odotettu frekvenssi laskea:
200 – 60 = 140.
Vastaavalla tavalla lasketaan miesten frekvenssit, kuitenkin helpoin tapa on tässä kahden muuttujan
tapauksessa laskea ensin yhden tapauksen frekvenssi niin kuin tuo (nainen ja käyttää nuuskaa).
Sitten vain lasketaan sen avulla vähennyslaskuilla loput frekvenssit. Miesten frekvenssit saadaan →
150 – 60 = 90 käyttää ja 300 – 90 = 210 ei käytä. Tätä samaa vähennyslaskukeinoa voi käyttää
vaikka muuttujia olisi enemmän. Silloin on vain laskettava useampi frekvenssi alkuun tuolla
ensimmäisellä tyylillä.
Tästä saatiinkin alla oleva taulukko, josta voi nähdä, että naiset käyttävät oikeasti vähemmän
nuuskaa kuin riippumattomuuden vallitessa. Miehet taas käyttävät enemmän. Eli näillä muuttujilla
on ainakin jonkinlainen riippuvuus sukupuolesta.
Helppo tapa tarkistaa laskitko frekvenssit perssiilleen, on tarkastaa, että eroavuudet muuttujien
välillä ns. matchaavat. 48 – 60 = -12 ja 152 -140 = 12 → -12 + 12 = 0 eli otoskoko pysyi samana ja
laskit frekvenssit oikein. Ihmisten määränhän tässä ei pitäisi muuttua. Sama pätee miesten kohdalla.
13
Frekventistinen todennäköisyyskäsite
Koko perusjoukkoa koskeva todennäköisyyden suuruuden arvio on frekventistinen.
Frekventistisen todennäköisyyden ajatuksen järkevyys perustuu empiirisessä todellisuudessa

havaittavaan tilastolliseen säännönmukaisuuteen. Esim. Kolikon heitto on äärimmäisen pelkistetty
tilanne, jossa tämä ilmiö kerta toisensa jälkeen voidaan havaita.
Kun tällaisia kokeita todella on tehty, pitkässä heittosarjassa tapahtuman A = ”Heiton tuloksena on
kruunu” suhteellinen frekvenssi voi vaihdella aluksi paljon, mutta heittojen määrän kasvaessa se
tasaantuu lähelle arvoa 0.5.
Oletetaan, että satunnaiskoe ℰ toistetaan samoissa olosuhteissa n kertaa ja seurataan ℰ:hen liittyvän
tapahtuman A suhteellisen frekvenssin Pn(A) suuruuden kehittymistä toistojen lukumäärän n
kasvaessa. Jos Pn(A):n vaihtelu vähenee ja Pn(A) ”näyttää lähenevän” jotain kiinteää lukua
satunnaiskokeen ℰ pitkässä toistosarjassa, tätä lukua sanotaan tapahtuman A todennäköisyydeksi
P(A).
Tässäkään ei pyritä määrittelemään puhtaan matematiikan käsitettä, vaan ajatus lähtee empiirisen
todellisuuden havainnoimisesta:
1. Edellä määritelty käsite ei ole matematiikan käsittelemä lukujonon raja-arvo.
Satunnaiskoe ℰ voidaan toistaa vain äärellisen monta kertaa. Mikään ei periaatteessa takaa,
ettei vaikkapa kolikkoa heitettäessä kruunujen suhteellinen osuus ”villiintyisi” esim. 1000
000 000 heiton jälkeen. Empiirinen kokemus ja terve järki kuitenkin sanovat, että näin ei
ilmeisesti kuitenkaan kävisi. Tämä riittää hyvin toimivan empiirisen
todennäköisyyskäsitteen määrittelemiseen. Raja-arvon laskeminen edellyttää ääretöntä
toistoa, siksi siis näin!
2) Klassinen todennäköisyyden laskeminen on ”asetelman rakenteen” perusteella tehtävää järkeilyä
Pohjimmiltaan ajatus on hyvin samanlainen kuin empiiriseen kokemukseen perustuvassa

frekventistisessä todennäköisyydessä. Taustalla on tulevaisuuteen suuntautuva oletus
tilastollisesta säännönmukaisuudesta.
Kun rahaa heitettäessä päätellään klassisena todennäköisyytenä P(kruunu) = 1/2 , odotetaan,

että kolikkoa monta kertaa heitettäessä keskimäärin 50 % tuloksista tulee olemaan kruunuja.
14
3) Käytännössä tapahtuman A todennäköisyyden arvio P(A) on käytettävissä olevien toistojen

toteutumisesta laskettu suhteellinen frekvenssi Pn(A).
Esim. jos lasketaan todennäköisyys, että syntyy poika käytetään tähän käytettävissä olevia
toteutuneita tapahtumia, eli synnytysrekisteriä, josta voi lukea että esim 51% viimeisen 10
vuoden aikana syntyneistä lapsista on ollut poikia. Tällöin käytämme siis todennäköisyyden
arvioimiselle käytettävissä olevaa dataa.
Usein, kuten kolikon heitossa tai syntyvien poikien suhteellisen frekvenssin seuraamisessa
ei tiedetä ainakaan tarkkaan, mistä suhteellisen frekvenssin lähestyminen kohti kiinteää
arvoa johtuu.
4) Otanta- ja koesuunnittelutilanteet asetetaan niin, että tämä ilmiö auttaa, kun tehdään arvioita
perusjoukosta otoksen informaation perusteella
Jos esim. markkinatutkimuksessa on taustatietona, että tutkittavassa perusjoukossa on 45%

naisia, niin klassisen todennäköisyyden mukaan P(Valituksi tulee nainen) = 0.45, mutta
myös otosta poimittaessa usein kokemuksen mukaan näkyy, että naisten suhteellinen osuus
Pn(N) todella asettuu lähemmäksi tätä arvoa, mitä suurempi otoskoko n on.
Eli siis tiivistettynä:
Vaikka emme tiedä esimerkiksi nuuskan O käyttäjien todellista suhteellista osuutta perusjoukossa
(esim. kaikki mursut) voimme suurella varmuudella saada lähellä oikeaa olevan arvion käyttäjien
todellisesta osuudesta perusjoukossa (kaikki käyttäjät) perusjoukon otoksesta havaitun suhteellisen
frekvenssin Pn(H) avulla. Eli siis esim. valitsemalla testiin 100 mursua hatusta vetämällä
(symmetria) ja laskemalla suhteellisen frekvenssin tästä otoksesta.
Kokonaistodennäköisyyden kaava ja Bayesin kaava
Todennäköisyyslaskennan yhteenlasku- ja kertolaskusääntö ovat yhteneviä kombinatoriikan

vastaavien sääntöjen kanssa:
Kun tapahtumat ovat rinnakkaiset ”jotain tai jotain tapahtuu”, todennäköisyydet

(vaihtoehtojen lukumäärät) summataan.
Kun tapahtumat ovat ketjutettuja ”jotain ja jotain tapahtuu”, todennäköisyydet

(vaihtoehtojen lukumäärät) kerrotaan keskenään.
15
Rinnakkaisuuden ja peräkkäisyyden tutkiminen sujuu hyvin samalla tavalla todennäköisyyksiä

laskettaessa, kuin kombinatoriikassa.
Kokonaistodennäköisyyden kaava
P(A) = P(B1)·P(A│B1) + P(B2)·P(A│B2) + … + P(Bn)·P(A│Bn)
Arvioidaan ajassa eteenpäin, kuinka todennäköistä on, että valituksi tulee jokin x.
Esim:
Tehdas tilaa komponentteja S alihankkijoilta Kaarlo, Leena ja Mikko. Pieni osa tuotteista on
viallisia. Taulukossa ovat tuottajien osuudet tilauksista ja viallisten tuotteiden osuudet heidän
toimittamistaan tarvikkeista:
Kuinka todennäköistä on, että:
V = ”umpimähkään valittava tuote on viallinen”
Kokonaistodennäköisyydellä lasketaan siis eteenpäin katsoen!
Älä tässä turhaan rupea panikoimaan sillä, että kaavalla on jokin erityinen nimi. Kaava tarkoittaa
vaan sitä, että lasketaan erilaisten tapahtumien toteutumisen todennäköisyyttä ehdolla, että jokin
muu tapahtuma toteutuu ensin ja sitten summataan yhteen kaikki toisistaan riippumattomat
vaihtoehdot, kuten yllä.
16
Bayesin kaava
Bayesin kaavaa hyödynnetään arvioidessa taakse päin ”kuinka todennäköistä, että tähän tilanteeseen
päädyttiin juuri tätä reittiä?”.
Edellinen esimerkki jatkuu:
Oletetaan, että edellisessä tilanteessa komponentti valittiin ja se on viallinen V. Voidaan kysyä

kuinka todennäköistä, että Kaarlo tuotti tämän rikkinäisen komponentin, eli P(K|V)?
Lasku menee seuraavissa ajatusvaiheissa:
1. Kuinka suuri osa komponenteista oli virheellisiä? → 0,0037
2. Kuinka suuri osa tilatuista komponenteista oli Kaarlon tuottamia ja virheellisiä →
0,4 x 0,005 = 0,002
3. Kuinka suuri määrä virheellisistä komponenteista oli Kaarlon tuottamia →
0,002 / 0,0037 = 0,541
Sovella tämä laskutapa muihinkin laskuihin seuraten vaiheita, niin onnistuu.
Bayesin kaavalla lasketaan siis katsoen taaksepäin!

17
Todennäköisyysjakaumat
Satunnaismuuttuja ja sen jakauma
Muuttujaa, jonka arvon sattuma määrää satunnaiskokeessa, sanotaan satunnaismuuttujaksi.
Muistutuksena:
• Frekvenssijakauma kuvaa kappalemäärinä havaintojen määrät. Esim. 100 koirasta 40 on

uroksia ja 60 naaraita.
• Suhteellinen frekvenssijakauma kuvaa tämän suhteena eli 40% ja 60%.
• Frekvensseistä puhuttaessa otos on aina mitattu empiirisesti eli siis oikeasti eikä vain päässä
kelailtu esim. kuinka todennäköistä on, että korttipakasta vetää ässän.
Kun tarkastellaan todennäköisyysjakaumaa, näkökulma on spekulatiivinen, eli pohditaan,

minkälaisen arvon ominaisuus X voi saada ja kuinka suurella todennäköisyydellä eri arvot ovat
odotettavissa, jos satunnaiskoe ℰ joskus tehdään. Tämä on siis tätä päässä kelailua.
Alla empiirisen muuttujan ja satunnaismuuttujan laskutapojen nimityksiä, huomaa siis, että

kyseessä melko samanlaiset laskut poiketen vain näkökulmasta → päässä kelailu vs. empiirinen
koe:
Empiirinen muuttuja, x Satunnaismuuttuja, x

Tarkasteltavina: Tarkasteltavana:
Perusjoukkoon E kuuluvat tilastoyksiköt Perusjoukko Ω, johon kuuluvat
satunnaiskokeen ε alkeistapaukset
x kuvaa tilastoyksiköiden jotain ominaisuutta X kuvaa alkeistapausten jotain ominaisuutta
Suhteellinen frekvenssijakauma: X:n todennäköisyysjakauma:
x:n arvot xi ja niiden suhteelliset frekvenssit pi X:n mahdolliset arvot xi ja niiden
todennäköisyydet pi = P(X=xi)
Mitä muuta analogista konkreettisella frekvenssijakaumalla ja todennäköisyysjakaumalla on?
Summafrekvensijakauma → Kertymäfunktio
Keskiluvut (moodi, mediaani, aritmeettinen keskiarvo…)
Hajontaluvut: (keskihajonta, varianssi …)
18
Satunnaismuuttuja X voi olla diskreetti tai jatkuva samoin kuin empiirinen muuttuja.
Diskreetti = tarkka luku esim. ihmisten määrä 10 tai 11 ihmistä. Ei voi olla esim 10,6 ihmistä.
Jatkuva = esimerkiksi pituuden mittaaminen 12 tai 12,1 tai 12,2 tai 12,233456789 jne..
Diskreetti todennäköisyysjakauma
Diskreetin satunnaismuuttujan X todennäköisyysjakauman määrittelevät:
1. Satunnaismuuttujan X arvot, xi
2. Todennäköisyydet pi = P(X=xi),
3. Todennäköisyyksien (pi ≥0) summa Σpi = 1
Frekvenssifunktio
Luodaan frekvenssifunktio, jonka avulla voidaan määritellä todennäköisyysjakauma ja siis laskea

todennäköisyydet eri tapahtumille.
Esim:
9 Ihmistä harrastaa Judoa ja 6 Karatea.
Kun heistä poimitaan 4 tyyppiä, mikä on todennäköisyys, että k-määrä niistä harrastaa Judoa?
Huomio tässä kohdassa virhe noissa laatikoissa ei 6 vaan 9 ja ei 4 vaan 6!!!
9 6:
Tällaista lauseketta sanotaan frekvenssifunktioksi.
Diskreetillä satunnaismuuttujalla X voi olla äärellinen määrä arvoja tai numeroituvasti ääretön
määrä.
19
Kertymäfunktio:
Summaa yhteen todennäköisyydet eri tapahtumille esim. edeltävässä 0, 1, 2, 3 ja 4 harrastaa judoa.

Kertymäfunktion max arvo on 1. Kertymä funktio vastaa kysymykseen: ” Kuinka todennäköistä on,
että satunnaismuuttuja X saa korkeintaan x:n suuruisen arvon?”.
Summafrekvenssijakauma kuvaa täysin samaa asiaa, mutta empiirisessä kokeessa ja tällöin

todennäköisyyksinä ovat suhteelliset frekvenssit.
Summafrekvenssijakauma = Kertymäfunktio
Esim:
Tässä jatkuu edellinen judo-karate -esimerkki.
Vain arvojen 0, 1, 2, 3, 4 kohdalla todennäköisyyksien kertymä kasvaa ja niiden välillä se ei muutu.

Silloin riittää, kun kertymäfunktion arvot esitetään aikaisemman taulukon tavoin sen jatkeena:
Esim. P(X≤ 2) = F(2) = 735/1365 ≈ 0.538

20
Aritmeettinen keskiarvo
Aritmeettinen keskiarvo tarkoittaa sitä tavallisinta keskiarvoa mikä lasketaan tapahtumille. Alla sen
kaava. Eli voidaan laskea frekvensseistä, kuten yläasteella tehtiin: Jannella on 2€, Siirillä 2€ ja
Pekalla 4€. Mikä on keskimääräinen rahamäärä → (1/3) x ((2 x 2€) + (1 x 4€) ) = 2,66€
Toisin esittäen → (2+2+4)/3 = 2,66€. Älä anna monimutkaiselta näyttävän kaavan kusta turhaan
linssiin.
Odotusarvo
Odotusarvo on periaattessa täysin sama asia, mutta se lasketaan vain todennäköisyyksien avulla
painottaen lukumäärien, eli frekvenssin sijasta noita esimerkin euromääriä todennäköisyyksillä
(2/3) x 2€ + (1/3) x 4€ = 2,66€
Odotusarvon merkintänä käytetään EX tai 𝝁. Huomaa tuosta EX, että tapahtuma X odotus arvo on
EX, mutta tapahtuman Y on EY ja tapahtuman Z on EZ..jne
Eli vastaavalla tavalla kuin konkreettisessa empiirisessä jakaumassa aritmeettinen keskiarvo kuvaa
konkreettisesti havaittujen arvojen xi keskimääräistä suuruutta, niin todennäköisyysjakaumassa
satunnaismuuttujan X odotusarvo EX kuvaa X:n keskimäärin odotettavissa olevan arvon suuruutta,
jos satunnaiskoe ℰ joskus tullaan tekemään.
Varianssi ja keskihajonta
Frekvenssien ja keskiarvon avulla laskettu varianssi alla (empiirinen).
Todennäköisyyden ja odotusarvon avulla laskettu varianssi alla (päässä kelailtu).
Satunnaismuuttujan X varianssista käytetään myös merkintää Var(X) tai D2X

21
Keskihajonta
Keskihajonta on yksinkertaisesti varianssi neliöjuuri. Keskihajontaa merkitään DX tai 𝜎. Huomaa

tässä sama kuin odotusarvossa DX, DY, DZ.
Konkreettisessa empiirisessä jakaumassa keskihajonta 𝜎 kuvaa, kuinka suuri on kaikkien

tarkasteltavien muuttujan arvojen xi ”keskimääräinen poikkeama” keskiarvosta.
Todennäköisyysjakaumassa satunnaismuuttujan X hajonta 𝜎 kuvaa (”arvioi ajassa eteenpäin”)

X:n arvojen keskimäärin odotettavissa olevan vaihtelun suuruutta, jos satunnaiskoe ℰ joskus tullaan
tekemään.
Empiirisen jakauman ja todennäköisyysjakauman käsitteet voivat olla joskus hyvin lähellä toisiaan.
Niissä tutkitaan samoja olioita ja erona ovat ainoastaan näkökulmat:
• Empiirisen jakauman konkreettinen ”toteava” näkökulma

• Todennäköisyysjakauman spekulatiivinen ”ennustava” näkökulma (päässä kelailu)
Binomijakauma ja hypergeometrinen jakauma

Monissa empiirisissä tilanteissa on tutkittavalla satunnaisilmiöllä samanlainen rakenne. Näiden
mallintamiseen on käytettävissä valmiita jakaumia, joiden ominaisuuksia voidaan suoraan soveltaa
tarkasteltavaan tilanteeseen, ELI HELPOTTAA JA NOPEUTTAA LASKEMISTA!!
Binomijakauma
Kriteerit binomijakaumalle
• Tilanteen on oltava toistokoe, jossa joka toistolla seurataan, onko tuloksena jokin
tapahtuma A vai ei
• Toistojen on oltava toisistaan riippumattomia → toistojen riippumattomuus
• Joka toistolla A:n esiintymisen todennäköisyys on oltava sama → symmetrisyys
• Satunnaismuuttuja X = A:n esiintymisten lukumäärä toistosarjassa.
MUISTA: 1) Toistokoe 2) Riippumattomuus 3) Symmetrisyys
Binomijakaumaa käytetään, kun tehdään OTOS PALAUTTAMALLA!!

22
Kun satunnaismuuttuja X on binomijakautunut parametrein n ja p, käytetään merkintää
X∼Bin(n, p).
n = kuinka montaa koe toistetaan
p = todennäköisyys tapahtumalle A
Esim:
Arvotaan värilappuja hatusta palauttaen. Värejä on 4 ja jokaisella värillä lappuja on 2. Yksi väreistä
on sininen. Hatusta vetäminen → symmetrisyys
• Värilapun arpominen hatusta toistetaan n = 2 kertaa → toistokoe

• Otannassa palauttaen toistojen tulokset eivät vaikuta toisiinsa → riippumattomuus
• p = P(Väri) = 0.25 jokaista lappua valittaessa
• X = ”Sinisten määrä otoksessa”.
joten sinisten määrä tässä palauttaen poimittavassa ”otoksessa” = X∼Bin(2, 0.25).
Kun binomijakauman kriteerit täyttyvät voidaan todennäköisyys laskea seuraavasti:
eli tässä p = 0,25 ja n = 2 sekä k = valittujen sinisten määrä
Binomijakauman odotusarvo, varianssi
Edellisessä tapauksessa:
EX = np = 2 x 0,25 = 0,5
Var(X) = np(1-p) = 2 x 0,25 (1-0,25) = 0,375
Muita jakaumia
• Bernoulli-jakauma, joka on binomijakauman erikoistapaus, jossa n=1. Tämä jakauma on

tärkeä apuväline teoriatarkasteluissa.
• Poisson-jakauma, jossa A on jokin hyvin harvinainen tapahtuma.
Näitä ei käsitellä tässä, mutta paina mieleen mitä nuo yleisellä tasolla ovat.
23
Hypergeometrinen jakauma
Hypergeometristä jakaumaa käytetään, kun tehdään OTOS PALAUTTAMATTA.
Parametrit
X ∼Hyperg(N, K, n), eli X on hypergeometrisesti jakautunut. Oleellisia kohtia tässä ovat:
• Perusjoukon koko N
• Havaittavien alkioiden määrä K
• Otoskoko n
Kriteerit
X∼Hyperg(N, K, n), kun tilanne voidaan hahmottaa niin, että:
1. Meillä on N kokoinen perusjoukko, esim. 100 opiskelijaa (N=100)

2. Perusjoukossa on K määrä tilastoyksiköitä, joilla on ominaisuus A.
o Esim. A=mies ja K=60, eli 100 opiskelijasta 60 on miehiä.
3. Perusjoukosta poimitaan palauttamatta n suuruinen otos, esim. 20 opiskelijaa, n=20
4. Satunnaismuuttuja X = niiden tilastoyksiköiden lukumäärä, joilla on ominaisuus A
Kaava:
Odotusarvo ja varianssi
24
Huomioitavaa:
Edellä esimerkissä perusjoukon koko oli äärimmäisen pieni, jolloin se alkaa tyhjentyä
merkittävästi pientäkin otosta palauttamatta poimittaessa ja vaihtelu pienenee. Otannassa
palauttaen samat henkilöt ovat aina valittavissa. Siksi todennäköisyysjakaumat poikkeavat niin, että
hypergeometrinen jakauma keskittyy tiiviimmin odotusarvonsa ympärille!!!
Kuitenkin jos perusjoukko on ”suuri” (tai jopa ääretön), edellisen tilastoyksikön poimiminen ei
muuta sitä paljon otannassa palauttamatta. Silloin tilastoyksiköitä arvottaessa peräkkäisissä
toistoissa ”onnistumistodennäköisyys” p = P(A) pysyy lähes samana ja toistot ovat ”lähes
riippumattomia” toisistaan. Tällaisessa tilanteessa binomi- ja hypergeometrisen jakauman ero on
pieni.
Jakaumien vinous
Älä välitä nyt niinkään noista merkinnöistä, vaan katso palkkien pientä kallistumista vasemmalle.
Kuviosta näkyy, että kumpikin jakauma on lievästi vasemmalle vino (vasemmalle päin on pidempi
”häntä”.) JAKAUMA ON SIIHEN SUUNTAAN VINO MISSÄ BABYREXIN HÄNTÄ ON!
• Jakauma on vasemmalle vino, jos p > 0,5

• Jakauma on symmetrinen, jos p = 0.5
• Jakauma on oikealle vino, jos p < 0,5
25
Jatkuva todennäköisyysjakauma
Suhteellinen havaintotiheys, eli luokkavälin todennäköisyys
Suhteellisen havaintotiheyden voi laskea, kun tuntee suhteellisen frekvenssin 𝐩i ja luokkavälin

pituuden 𝐜i.
Suhteellinen havaintotiheys = 𝐩i/ 𝐜i.
Suhteellisen havaintotiheyden avulla voidaan

laskea todennäköisyys, että osutaan tiettyyn
luokkaväliin, kuten seuraavissa kaavioissa.
Pylväiden pinta-alat kuvaavat suhteellista havaintotiheyttä. Kaikkien pylväiden pinta-alat yhteensä

ovat 1.
Tiheysfunktio
Tiheysfunktio on kuin juuri läpikäyty suhteellisista havaintotiheyksistä muodostettu kuvaaja.

Kuitenkin havaintoluokkien määrä on kasvatettu todella suureksi samalla havaintoluokkien
kutistuessa äärettömän kapeiksi. Tästä tulee seuraavanlainen kuvio, älä välitä teksteistä:
Edelleen todennäköisyys, että X:n arvo osuu

satunnaiskokeessa välille [a, b] P(a≤X≤ b) =
”pinta-ala”, mutta nyt se ei enää ole otoksesta
saatava pinta-ala- arvio kuten edellä, vaan X:n
jakaumasta ”laskettu” todennäköisyys.
26
Jatkuvan satunnaismuuttujan X todennäköisyysjakauma siis määritellään tiheysfunktionsa f avulla,

jolla on ominaisuudet:
• f on ei-negatiivinen (f(x)≥0) kaikilla x∈ R

• pinta-ala f:n kuvaajan ja x-akselin välissä on 1
Tiheysfunktion arvot lasketaan tällä kurssilla hyödyntäen normaalijakaumaa.
Kuitenkin jos todennäköisyyksien tiheys voidaan olettaa vakioksi (ks. seuraava esimerkki), voidaan
laskea ilman normaalijakaumaa:
Esim:
Linja-auton vuoroväli on 10 minuuttia. Satunnaiskoe 𝜀 = ”Menet aikataulusta tietämättä pysäkille.”

ja satunnaismuuttuja X = odotusaika. Odotusaika ”voi olla yhtä hyvin” mikä tahansa arvo välillä [0,
10] min eli todennäköisyystiheys on vakio, ja tiheysfunktio saa vakioarvon. ”Kokonaispinta-ala” =
1, joten on oltava:
f(x) = 1/10, kun x∈ [0, 10] ja 0 muualla.
Koko pinta-ala on 10 · 0.1 = 1 ja näin esim. P(2.5≤ X ≤ 4) = (4 – 2.5) · 0.1 = 0.15.
Normaalijakauma
Normaalijakauma on todennäköisyysjakaumista ehdottomasti tärkein. Normaalijakauma on jatkuva

jakauma. Satunnaismuuttujaa X sanotaan normaalisti jakautuneeksi parametrein 𝝁 ja 𝝈2 , mistä
käytetään merkintää X ~ N(𝝁, 𝝈2 )
Alla olevassa kuvaajassa on esimerkki normaalijakaumasta kahdilla eri parametreillä.
X1~N(5, 0.82 ) ja X2~N(5, 1.62 ) normaalijakaumat/ tiheysfunktiot:

27
Jakauman huippu on odotusarvon 𝜇 = 5 kohdalla ja jakauma on symmetrinen sen ympärillä.

Toinen parametri varianssi 𝜎2 säätelee, kuinka ”laakea” kuvaaja on. Mitä suurempi varianssi,
sitä laakeampi kuvio ja toisinpäin.
Normaalijakauman tiheysfunktion kuvaajaa sanotaan myös Gaussin käyräksi.
HUOMAA TÄSSÄ, ETTÄ YLLÄ OLEVA EI OLE KURSSIN KÄYTTÄMÄ Z-JAKAUMA

VAAN IHAN YLEINEN NORMAALISTI JAKAUTUNEEN MUUTTUJAN KUVAAJA!!!
Normaalijakaumia on useampia, mutta tällä kurssilla käytetään Z-jakaumaa, jonka odotusarvo 𝜇

= 0 ja varianssi 𝜎2 = 1.
Tätä normaalijakaumaa hyödynnetään kurssin laskuihin standardoimalla eli muuntamalla

todennäköisyydet tähä Z-jakaumaan ikään kuin sopiviksi.
Normaalijakauman kertymäfunktio, eli se jolla voit laskea todennäköisyyden merkitään 𝛟. Tällä

kurssilla tämän kertymäfunktion arvot saadaan taulukosta, joka on seuraavalla sivulla.
Alla on normaalijakauman tiheysfunktion (punainen) sekä kertymäfunktion (vihreä) kuvat.

28
Normaalijakauman taulukko
Taulukossa ovat kertymäfunktion ϕ arvoja taulukoituina. ϕ:n arvot kasvavat rivien suunnassa x:n
kasvaessa aina 0,01:n verran. Esim. ϕ(1,96) = 0.9750 on 1,9 alkavalla rivillä 0,06:n alla.
29
Esimerkkejä normaalijakauman käytöstä
P(Z> x) = 1 – P(Z≤ x) = 1 - 𝛟(x). Katso x arvo taulukosta.
Rajoitettu väli
P(a < Z ≤ b) = 𝛟(b) - 𝛟(a)
Jakauman molemmat ”hännät”
Ne jakautuvat kahdeksi tapaukseksi yhteenlaskusäännön avulla:
P(Z ≤ a tai Z > b) = P(Z ≤ a) + P( Z > b)

30
P(Z ≤ a + 1- P(Z < b), koska P( Z > b) = 1- P(Z<b)
𝝓(-x) = 1- 𝝓(x)
Tilannetta voidaan myös tarkastella toisinpäin käänteisfunktiona, eli mikäli tiedämme:
𝛟 (x) = 0,90
Voidaan katsoa taulukkoa toisinpäin ja näin määrittää x arvo.
Kuinka normaalit jakaumat normitetaan kurssin Z-jakaumaan
Normaalisti jakautunut satunnaismuuttuja X ~N(𝝁,𝝈2 ) standardoidaan seuraavasti:
Ja tästä eteenpäin
Esim.
Suklaatehtaassa on todettu erittäin useiden mittausten avulla saadun aineiston perusteella, että
tuotettavien suklaalevyjen paino X on likimain normaalisti jakautunut ja aineistosta laskettu
keskipaino x̄≈ 100 g ja painon keskihajonta s ≈ 4 g.
Tämän perusteella estimoidaan, että X:n keskimäärin odotettavissa oleva paino μ ≈ x̄≈ 100 g ja
keskimäärin odotettavissa oleva painon hajonta σ ≈ s ≈ 4 g. Siis havaintoaineiston perusteella
mallina on, että tuotannosta umpimähkään poimittavan levyn paino X ~N( 100, 42 ).
Kuinka todennäköistä on, että levy on vähintään 5g alipainoinen?

31
Epäyhtälön käsittelyä, joka johtaa standardoituun muuttujaan:
= 𝛟(-1,25) = 1- 𝛟(1,25) = 1 - 0.8944 = 0.1056.
Siis on odotettavissa, että noin 10 % levyistä on yli 5 g alipainoisia.
Normaalijakauman hyödyntämisperiaate vielä tarkemmin
Jos X ~N( 𝜇,𝜎2 ), niin jakaumaan liittyvät todennäköisyydet saadaan edellä käytetyillä säännöillä:
1) Standardointi
Tätä tulosta käytetään ensimmäiseksi ja standardoidaan kaikki käsiteltävät epäyhtälöt. Tämän

jälkeen kaikki laskut liittyvät muuttujaan Z ~ N(0,1).
2) Hajotetaan lausekkeet, joissa on enemmän kuin yksi epäyhtälö.
Rajoitettu väli: P(a < Z ≤ b) = 𝝓(b) - 𝝓(a)
Jakauman hännät: P(Z ≤ a tai Z> b) = P(Z ≤ a) + P(Z> b)
3) Komplementtisäännön avulla käännetään ”väärin päin” olevat epäyhtälöt
P(Z> a) = 1 – P(Z≤ a)
4) Kertymäfunktion määritelmän mukaan
P(Z≤ a) = 𝝓(a)
5) Jos kertymäfunktion ϕ argumentti on negatiivinen
Tällöin käytetään sääntöä 𝝓(-x) = 1 - 𝝓(x)
6) ϕ:n arvot saadaan taulukosta.

32
Esim.
On havaittu, että tuotteen kestoikä on X ~ N(𝜇,𝜎2 ). Tehdas pystyy säätelemään kestoikään

vaikuttavan kemikaalin K määrän avulla keskimääräisen kestoiän 𝜇 suuruutta niin, että kuitenkin
hajonta 𝜎 ≈ 200h pysyy samana. Kuinka suureksi 𝜇 on asetettava, jotta 99 % tuotteista kestää
korkeintaan 3000 h?
Vaatimus tarkoittaa, että yksittäisen tuotteen kestoiän osalta on
Silloin (3000−𝜇)/100 ≈ 2.33,
josta saadaan 𝜇 ≈ 3000 – 2.33·100 = 2767 h.
Esim.
Elintarvikeannoksen lisäaineen E määrä on X~N(200 mg, (15 mg)2 ).
Määrää a niin, että umpimähkään valittavassa annoksessa 95 % todennäköisyydellä E:n määrä

poikkeaa keskimääräisestä arvosta 200 mg alle a:n verran.
Siis on oltava 0.95 = P(200-a ≤ X ≤ 200+a)
josta ratkaistaan samalla tavalla kuin aikaisemmin

33
Huom. väli [200-a, 200+a] ei ole luottamusväli, kuten lukiossa on saatettu sitä virheellisesti
nimittää.
Todennäköisyyksien laskeminen on helppoa, kun tiedetään, mistä normaalijakaumasta ne lasketaan.

Paljon suurempi ongelma on, miten empiirisessä sovelluksessa tunnistetaan jakauman
normaalisuus. Matemaattisen todistamisen ylivalta ei ulotu reaalimaailman ylle niin vahvasti, että
vaikkapa edellisen esimerkin tilanteessa voitaisiin matemaattisen pitävästi todistaa suklaalevyn
painon jakauman olevan normaalinen (tai jotain muuta).
Tunnistaminen perustuu empiiriseen havainnointiin, jossa matemaattisesta tilastotieteestä on kyllä

paljon apua. Käytännössä oikeille jäljille päästään, kun tutkitaan frekvenssijakaumaa, joka on tehty
otoksesta mitatuista muuttujan arvoista. Histogramman muodosta näkyy jo heti alustavasti,
muistuttaako jakauma normaalijakaumaa. Kuvioon voidaan myös sovittaa normaalijakauman
tiheysfunktiota vastaava käyrä (odotusarvona 𝜇 ≈ x̄ ja hajontana 𝜎 ≈ s), jolloin vertaaminen on
helpompaa.
Normaalijakauma on tilastotieteessä tärkeä ainakin seuraavista syistä
1) Empiirinen tosiasia
Useat empiirisiä ilmiöitä kuvaavat satunnaismuuttujat ovat jostain syystä normaalisti jakautuneita.
2) ”Pyrkimys normaalisuuteen” informaatiota tiivistettäessä
Kun tunnetaan riittävän hyvin sattuman käyttäytymisen lainalaisuudet, voidaan (otantatilanteessa ja

kokeellisessa tutkimuksessa) ”tuottaa” satunnaismuuttujan jakauman normaalisuus.
Monien otoksesta laskettavien tunnuslukujen arvojen määräytymisen mallina käy ainakin likimain
normaalijakauma.
Oikealla todennäköisyysotannan sääntöjen mukaan tehdyllä otannalla tai kokeellisessa

tutkimuksessa koejärjestelyllä saadaan sattuman käyttäytymistä säätelevät lainalaisuudet
toimimaan.
3) Muita tärkeitä todennäköisyysjakaumia voidaan johtaa normaalijakaumasta.

34
Binomi- ja hypergeometrisen jakauman
normaaliapproksimaatio
Binomijakauman approksimaatio
Esim.
Valtavan menestyksen saaneelle ohjelmasarjalle, jossa jokaisessa esiintyi kansanedustaja, aiotaan

tehdä 20 jatko-osaa. Yleisön pyynnöstä seuraava esiintyvä kansanedustaja arvotaan edellisen viikon
ohjelmassa kaikista 200 kansanedustajasta. Otos poimitaan palauttaen.
Etukäteen pohditaan, montako opposition edustajaa (ohjelmaa suunnitellessa 88:sta opposition

kannattajasta) tulee valituksi otokseen. Siis minkälainen on satunnaismuuttujan X = opposition
kannattajien lukumäärä otoksessa jakauma. Arpajaiset ovat 20-kertainen toistokoe, jossa toistot
ovat riippumattomia → huomaa tässäkin symmetria eli tuo hatustaveto-/ arpaefekti.
P(Valituksi tulee opposition edustaja)
= 88/200 = 0.44
X kuvaa lukumäärää, joten X∼ Bin(20, 0.44)
Vaikka tässä n = 20, kaikki todennäköisyydet voidaan laskea kohtuullisella vaivalla yllä olevalla
frekvenssifunktiolla eli lasketaan yksitellen P(X=0), P(X=1)… P(X=20).
Toinenkin vaihtoehto kuitenkin on:
Kun X∼ Bin(n, p) ja np > 5 ja n(1-p) > 5, voidaan sama laskea hyödyntäen normaalijakaumaa.
Odotusarvo 𝜇 = 20 · 0.44 = 8.8
Varianssi 𝜎2 = 20 · 0.44 · (1-0.44) = 4.928
Hajonta 𝜎 ≈ 2.22. → Nämä saadaan normaalijakauman muotoon seuraavasti:

35
Huom:
Kun p = 0.5 binomijakauma on täysin symmetrinen ja approksimaatio symmetrisellä

normaalijakaumalla toimii parhaiten. Jos p:n arvo ei ole 0.5, suuri toistojen määrä korvaa tätä
puutetta.
Käyttösääntö
np > 5 ja n(1-p) > 5
Tämä binomijakauma voidaan normaaliapproksimoida, jos yllä oleva sääntö toteutuu.
Jatkuvuuskorjaus
Jatkuvassa approksimaatiossa ajatellaan, että täsmällisiä eli diskreettejä X:n arvoja 0, 1, 2,…, n
vastaavat välit, joissa luvut pyöristyvät näihin arvoihin ovat esimerkiksi P(X=8) ≈ P(7.5 < Y ≤ 8.5).
Tätä X:n arvoista vähennettävää ja lisättävää arvoa ½ sanotaan jatkuvuuskorjaukseksi.
Esim.
Kuinka todennäköistä on, että esiintymään pääsee yli 5, mutta korkeintaan 12 opposition edustajaa?
X∼ Bin(20, 0.44) ja P(5 < X ≤12)
= 0.0839 + … + 0.0642 = 0.886
Tässä np = 20 · 0.44 = 8.8 > 5
Ja
n(1-p) = 20 · 0.56 = 11.2 > 5
→ eli jakauma on riittävän symmetrinen 
Joten binomijakauma voidaan normaaliapproksimoida ja työläs yksittäisten todennäköisyyksien

laskeminen ja summaaminen välttää.
36
P(5 < X ≤12) = P(6 ≤ X ≤12) ← 6, 7, 8 ,9 ,10, 11 ja 12 “mukana” ≈ P(6-0.5 ≤ Y ≤12+0.5)
Huomaa vaihto 5 → 6, josta otetaan sitten peruskorjaus. Alemmasta -0,5 ja ylemmästä +0,5.
= P(5.5 ≤ Y ≤12.5)
= P(-1.49 ≤ Z ≤ 1.67) = ϕ(1.67) - ϕ(-1.49) = ϕ(1.67) – (1 - ϕ(1.49))
= 0.9525 – 1 + 0.9319
= 0.8844
Edellä binomijakaumasta saatiin melkein sama tulos 0.886.
HUOMAA, että peruskorjaus tehdään vain diskreeteille muuttujille, kuten ihmisten määrä.
Tällainen on muuttuja, joka ei voi olla esim 10,6 ihmistä, vaan on joko 10 tai 11. JATKUVIIN
MUUTTUJIIN PERUSKORJAUSTA EI SOVELLETA.
Hypergeometrisen jakauman approksimointi
Jos X∼ Hyperg(N, K, n) ja np > 5 ja n(1-p) > 5 niin:
Tässä käytetään samaa sääntöä kuin edellä riittävän symmetrian takaamiseen:
np > 5 ja n(1-p) > 5.
Esim.
Seuraavalla 20 ohjelman tuotantokaudella esiintyjät arvotaan palauttamatta. Nyt otokseen

osuvien opposition edustajien määrä X∼Hyperg(200, 88, 20) ja todennäköisyydet voidaan laskea
frekvenssifunktiosta
37
Voidaan kuitenkin tehdä taas normaaliapproksimaatio, koska
np = 20 · (88/200) = 20 · 0.44 = 8.8 > 5
n(1-p) = 20 · 0.56 = 11.2 > 5
P(5< X ≤12) = P(6 ≤ X ≤12) ← 6, 7, 8 ,9 ,10, 11 ja 12 “mukana” ≈ P(6-0.5 ≤ Y ≤12+0.5)
= P(5.5 ≤ Y ≤12.5)
= P(-1.56 ≤ Z ≤ 1.75) = ϕ(1.75) - ϕ(-1.56) = ϕ(1.75) – (1 - ϕ(1.56))
= 0.9599 – 1 + 0.9406 = 0.9005
Yleinen huomio otannasta palauttamatta ja palauttaen:
• Otannassa palauttamatta realisaatiot ovat suuremmalla varmuudella lähellä odotusarvoa EX.
Normaaliapproksimaation suuri merkitys on siinä, että sen avulla saadaan normaalijakauman hyvät
ominaisuudet avuksi tällaisen otantatilanteen tutkimiseen.
Normaalijakauman ominaisuuksia
Vakion lisääminen jakauman parametreihin
Jos satunnaismuuttuja X ~ N(𝝁, 𝝈2 ) ja a = vakio
Y = (X + a)
Y ~ N(𝝁 + a, 𝝈2 ).
Tilanteen voi kuvitella ikään kuin, että jakauman keskikohta eli odotusarvo siirtyy vain vakion
verran, jolloin jakauman muodolle ei käy mitään. Katso alempi luonnostelma:
38
Tästä näkee että jakauman muodolle eli laakeudelle ei käy mitään, joten varianssi pysyy samana!
Jakauman skaalaaminen, eli kertominen vakiolla
Kyseessä siis esimerkiksi minuuttien muuttaminen sekunteiksi. Käydään tämä läpi esimerkillä:
• Tuotteen valmistamisaika minuutteina: X ~ N(17 min, (2 min)2 ).

• Tuotteen valmistamisaika sekunteina: Y = 60 · X
EY = 60 · 17 min = 1020 sekuntia = odotusarvo sekunteina
DY = 60 · DX = 60 · 2 min = 120 s
Var(Y) = (DY)2 = (60 · 2 min)2 = 602 · 22 = 1202
Arvojen ”esiintymistiheydet” minuutteina ja sekunteina ovat aivan samat ja jakauman normaalisuus

säilyy muunnoksessa.
Sääntö:
Jos satunnaismuuttuja X ~ N(𝝁, 𝝈2) ja a ≠ 0, on vakio niin:
Y = aX ~ N(a𝝁, a2𝝈2) = N(a𝝁, (a𝝈)2 )
Sääntö on yleistettävissä:
Myös muille kuin normaalisille satunnaismuuttujille pätee
E(a * X) = b * EX
Var(a * X) = a2 * Var(X)
39
Toisistaan riippumattomien normaalisten muuttujien yhteenlasku
Palautetaan muistiin:
X⊥Y, kun:
P(X∈A ja Y∈B) = P(X∈A) · P(Y∈B), kaikille oleellisille tapahtumille A ja B.
Eli X kuuluu joukkoon A tapahtumia, jotka ovat täysin riippumattomia joukon B tapahtumista
johon Y kuuluu.
Esim:
Tuotettavien suklaalevyjen paino X ~ N(100g, (4g)2 )
Levyt pakataan koteloihin, joiden paino Y ~ N(5g, (1g)2 )
Suklaa tulee pakkauskoneeseen toista liukuhihnaa pitkin ja pakkaukset toista, joten voitaneen
olettaa X⊥Y. Minkälainen on kokonaispainon T = X + Y jakauma?
Odotusarvo = suklaan keskipaino + pakkauksen keskipaino
ET = E(X + Y) = EX + EY
Varianssi:
Pakatun suklaalevyn painon T vaihtelun suuruus on sitä suurempi, mitä suurempia ovat suklaan
painon ja pakkauksen painon vaihtelun suuruus.
Tässä on oleellista, että X ja Y ovat riippumattomia. Toisistaan riippumattomien muuttujien

kohdalla (X + Y):n vaihtelu = X:n vaihtelu + Y:n vaihtelu eli
Var(X+Y) = Var(X) + Var(Y), ehdolla X ⊥ Y.
1. Odotusarvolla on tämä ominaisuus kaikilla satunnaismuuttujilla

2. Varianssilla ominaisuus on kaikilla riippumattomilla muuttujilla
3. Jakauman tyypin säilyminen (tässä normaalisena) on erityisominaisuus
40
Huomaa tässä varianssien yhteen laskeminen (𝝈2 + 𝝈2) antaa tuloksen, joka on vielä muunnettava
takaisin muotoon → (𝝈2 + 𝝈2) = 𝝈2
Esimerkkinä:
• Toistetaan sama koe 10 kertaa → toistokoe

• Jokaisen toiston jälkeen palautetaan koejärjestelyt täysin ennalleen → Riippumattomuus
• Suoritetaan koe ”hatusta poimimalla” → Symmetrisyys
Nyt varianssien yhteenlaskenta näyttää seuraavalta:
(10 * 𝝈2) → esim. jos 𝝈 = 2, niin (10 * 22) = (40) → muunnetaan tämä varianssin muotoon:
40 = 3,1622, eli lopulta (10 * 22) = (3,1622).

Tilastotieteen Perusteet 2019 - Tiivistelmä 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tilastotieteen Perusteet 2019 - Tiivistelmä 1

Uploaded by

Copyright:

Available Formats

TITI-TIIVISTELMÄ 2019

Osa 1. sivut 1-207

Aivan perusteita ................................................................................................................................. 4

Empiirinen todennäköisyyskäsite ............................................................................................................................... 5

Permutaatioiden laskeminen ....................................................................................................................................... 7

Yleisiä huomioita kombinaatioista ja permutaatioista ............................................................................................. 8

Klassinen ja frekventistinen todennäköisyyskäsite ......................................................................... 8

Joukko-opin ja todennäköisyyslaskennan merkintöjen eroavaisuudet ...................................................................... 9

Klassisen todennäköisyyden ominaisuuksia............................................................................................................ 10

Ehdollinen todennäköisyys ..................................................................................................................................... 10

Tilastollinen, eli stokastinen riippumattomuus........................................................................................................ 11

Frekventistinen todennäköisyyskäsite ...................................................................................................................... 13

Kokonaistodennäköisyyden kaava ja Bayesin kaava .............................................................................................. 14

Kokonaistodennäköisyyden kaava .......................................................................................................................... 15

Bayesin kaava ......................................................................................................................................................... 16

Aritmeettinen keskiarvo .......................................................................................................................................... 20

Varianssi ja keskihajonta ......................................................................................................................................... 20

Binomijakauma ja hypergeometrinen jakauma ........................................................................... 21

Kriteerit binomijakaumalle ..................................................................................................................................... 21

Hypergeometrinen jakauma ..................................................................................................................................... 23

Suhteellinen havaintotiheys, eli luokkavälin todennäköisyys ................................................................................. 25

Normaalijakauman taulukko ................................................................................................................................... 28

Esimerkkejä normaalijakauman käytöstä ............................................................................................................... 29

Rajoitettu väli .......................................................................................................................................................... 29

Jakauman molemmat ”hännät” ................................................................................................................................ 29

Kuinka normaalit jakaumat normitetaan kurssin Z-jakaumaan .......................................................................... 30

Normaalijakauman hyödyntämisperiaate vielä tarkemmin ..................................................................................... 31

Normaalijakauma on tilastotieteessä tärkeä ainakin seuraavista syistä ................................................................... 33

Binomi- ja hypergeometrisen jakauman normaaliapproksimaatio ............................................ 34

Hypergeometrisen jakauman approksimointi ......................................................................................................... 36

Vakion lisääminen jakauman parametreihin ........................................................................................................... 37

Jakauman skaalaaminen, eli kertominen vakiolla ................................................................................................... 38

Toisistaan riippumattomien normaalisten muuttujien yhteenlasku ......................................................................... 39

B ⊂ A = Jokainen joukon B alkio kuuluu joukkoon A, B on siis An osajoukko

A = {x ∊ E | ”ehto”} = Ehto, joka perusjoukon E alkioiden on toteutettava, jotta kuuluvat joukkoon

A ⋂ B = Leikkaus, eli VAIN ne alkiot, jotka kuuluvat molempiin joukkoihin.

A x B = Tulojoukko. Esim A= {Z,X} B={1,2,3}

A x B = {Z,1} {Z,2} {Z,3} sekä {X,1} {X,2} {X,3}

B x A = {1,Z} {1,X} sekä {2,Z} {2,X} sekä {3,Z} {3,X}

HUOM!! Siis yleensä A x B ei ole sama kuin B x A

Deterministinen: Vain systemaattiset tekijät vaikuttavat siihen

Satunnaisilmiö: Myös sattuma vaikuttaa siihen

Tilastotiedettä tarvitaan erityisesti satunnaisilmiöiden tutkimisessa. Yksittäisen satunnaisilmiön

Empiirinen ilmiö voi koostua seuraavista tekijöistä:

Vain systemaattiset tekijät, jolloin ilmiön käyttäytyminen pystytään täsmällisesti

Vain satunnaisia tekijät. Esimerkiksi ensi vuonna ensimmäisenä Suomessa syntyvän

Tilastotieteen ”materia” on tilastoyksiköistä mitattujen muuttujien arvojen sisältämä informaatio, ja

Tilastollisessa päättelyssä puolestaan menetelmän on oltava matemaattisesti niin hyvin toimiva,

Deskriptiivisessä tilastotieteessä käsitellään menetelmiä, joiden avulla voidaan tiivistää

Todennäköisyyslaskennan tehtävänä on sattuman käyttäytymiseen liittyvien lainalaisuuksien

Yksittäisen satunnaiskokeen lopputulosta ei pystytä ennustamaan. Tuloksissa on kuitenkin selvää

Todennäköisyyden käsitteen avulla kuvataan ”kuinka suuri mahdollisuus” jollain tapahtumalla on

Toimintaa, joissa todennäköisyyksien suuruudet päätellään ilman empiiristä kokemusta pelkästään

Tilastoista saatavan empiirisen tiedon perusteella laskettavaa todennäköisyys kutsutaan

Joukko A voi olla {1, 2, 3, 4, 5} tai joukko B = {3, 5, 7, 8} jne.

Alkioista muodostettuja järjestämättömiä jonoja kutsutaan kombinaatioksi. Tällä tarkoitetaan,

Jonoja, joissa järjestyksellä on merkitystä kutsutaan permutaatioiksi. Näissä {1,2,3} ja {2,3,1}

Ymmärrä esimerkistä periaate:

Valitaan housut ja paita peräkkäin:

1. Housut voidaan valita 3 tavalla ja paita 2 tavalla

Valitaan 5 kanan joukosta 3 kanaa

• 1. kanan voi valita 5 tavalla

Ymmärrä esimerkistä periaate: