Statistiek 1 Sem 1

Statistiek 1: semester 1
Begrippen
 Populatie N
 de groep waarover het onderzoek een uitspraak wil doen
 Steekproef n
 een selectie uit de totale populatie, waarop je het onderzoek uitvoert
 Selectiebias = bias in wie er benaderd wordt (binnen de populatie)
 Non-responsbias = bias in wie er deelnam en wie niet
 Responsbias = bias in de antwoorden van deelnemers door suggestieve vragen, sociale
wenselijkheid,…
 Enkelvoudige aselecte steekproef (EAS) = elk lid van populatie heeft evenveel kans om in de
steekproef terecht te komen
o Clustersteekproef = verschillende steekproeven (clusters) samenpakken en daaruit
weer een steekproef halen
o Gestratificeerde steekproef = steekproef gebaseerd op voorkennis
 Convenience steekproef (probleem: selectiebias) = steekproef waarbij enkel beschikbare
mensen worden onderzocht. Hierdoor wordt er niet ongericht onderzocht (selectiebias)
 Quotasteekproef = steekproef waarbij de onderzochten gekozen zijn door de onderzoekers.
Selectie hierdoor is onvermijdelijk.
Datamatrix
Aggregatieniveau:
 Micro: burgers, studenten …

 Meso: organisaties, scholen …
 Macro: landen, gemeenten …
Ecologische meetfout = op basis van gegevens op macro (of meso)-niveau uitspraken doen over het
micro-niveau
Conceptualisering: wat wil je meten?
Indicering: hoe het theoretische concept empirisch weten?
Operationalisering: hoe ga je het registreren?
Kwantitatieve meetniveaus:
 Ratio: afstand, leeftijd …

 Interval: jaartellingen, IQ …
Kwalitatieve meetniveaus:
 Ordinaal: likert-schalen, onderwijsniveau …

 Nominaal: geslacht, partijvoorkeur …
Kwantitatieve variabelen kunnen discreet of continu gemeten worden:
 Discreet: variabele kan een beperkt aantal waarden aannemen

 Continu: variabele kan een oneindig aantal waarden aannemen
Univariate analyse: 1 variabele
Bivariate/multivariate analyse: relatie/vergelijking tussen 2 of meerdere variabele
o Symmetrische analyse
o Asymmetrische analyse
Afhankelijke variabele (Y): Wat verklaard wordt, het gevolg
Onafhankelijke variabelen (, , ..): Wat verklaart, de oorzaak
Sommatieteken
Regel 1: sommatie van een som/verschil = som/verschil van 2 enkelvoudige sommaties
MAAR Sommatie van een product/deling ≠ Product/deling van de sommaties
Regel 2: Bij vermenigvuldiging met een constante mag je de constante vóór het sommatieteken
zetten
Regel 3: Werkloze sommatietekens vervang je door het bereik
Dubbel sommatieteken
Regel 4: dubbele sommatie van een som/verschil  dubbel sommatieteken voor elke term zetten
Regel 5: dubbele sommatie van een product  enkel sommatieteken bij de passende factor zetten
Data presenteren
Frequentietabel
(Absolute) frequentie fi: het aantal keer dat een uitslag of score voorkomt
Relatieve frequentie: het aantal keer dat een uitslag of score voorkomt gedeeld door het totaal
aantal waarnemingen (n)
Cumulatieve frequentie Fi: aantal keer dat deze score of lager voorkomt
Cumulatieve relatieve frequentie: aantal keer dat deze score of lager voorkomt, gedeeld door het
totaal aantal waarnemingen (n)
Grafieken
 Staafdiagram
 Cirkeldiagram/Taartdiagram
 Histogram
 Lijndiagram
 Stam-blad diagram
 Doosdiagram (boxplot)
Bij een even aantal waarden is de mediaan het gemiddelde van de middelste twee waarden.
Kwartielen
 25% van de waarnemingen ligt onder het eerste kwartiel (Q1)
 50% van de waarnemingen ligt onder het tweede kwartiel = de mediaan!
 75% van de waarnemingen ligt onder het derde kwartiel (Q3)
Gemiddelde (van 3e en 4e meetwaarde) is niet helemaal adequaat
 Q1 ligt immers dichter bij 3e dan bij 4e meetwaarde

 Q1 = 3e meetwaarde + 0,25 . (4e meetwaarde - 3e meetwaarde)
Modus
De modus (Mo) is de meest voorkomende waarneming (te gebruiken vanaf het nominale
meetniveau)
Maximale diepte
Maximale diepte = rangnummer van de mediaan zonder kommagetallen
(N+1)/2
Even N: kommagetallen weglaten
Spreiding
Een spreidingsmaat is een getal dat een kernachtige beschrijving van de spreiding van de gegevens
biedt.
Variatiebreedte
De variatiebreedte (VB) is het verschil tussen de grootste meetwaarde en de kleinste meetwaarde.
Interkwartielafstand
IKA = Q3 – Q1
Middenspreiding
Middenspreiding = S2 – S1
Kwartielen versus scharnierwaarden

Doosdiagrammen maken geen gebruik van kwartielen (Q1 en Q3)maar van scharnierwaarden (S1 en
S2).
S1 = de mediaan van de eerste helft van de verdeling
S2 = de mediaan van de tweede helft van de verdeling
Bij een oneven N behoort de middelste waarde zowel tot de eerste als tot de tweede helft van de
verdeling.
Vorm
Uitschieters
Uitschieters of hiaten zijn scores die atypisch zijn voor een bepaalde dataset omdat ze extreem hoog
of extreem laag zijn.
 Echt of te wijten aan foute registratie

 Is een uitschieter naar beneden toe indien < Q1 – 1,5 IKA
 Is een uitschieter naar boven toe indien > Q3 + 1,5 IKA
Het gemiddelde is minder resistent dan de mediaan voor uitschieters.

Mediaan te resistent?
 Middenkwartiel en middenscharnier
[Q1+ Q3]/2
[S1+ S2]/2
 Trigemiddelde van Tukey
[S1 + 2.Me + S2] / 4
Alternatief voor Interkwartielafstand: interdecielafstand

Decielen verdelen de dataset in 10 gelijke delen.
 D1 = [(N+1)/10]e meetwaarde
 D9 = [9.(N+1)/10]e meetwaarde
 D4 = [4.(N+1)/10]e meetwaarde
De interdecielafstand (IDA) is het verschil tussen het negende deciel (D9) en het eerste deciel (D1).
Rekenkundig gemiddelde
Kwantitatieve variabelen
Ongewogen rekenkundig gemiddelde = som van alle waarnemingen gedeeld door het aantal
waarnemingen
n
∑ xi
i=1
n
Gewogen rekenkundig gemiddelde:
k
∑ f i . xi
i=1
N
k
∑ (wi . x i )
i=1
k
∑ wi
i=1
Bij een gewogen gemiddelde krijgen de getallen waarover het gemiddelde berekend wordt, een
gewicht dat hun relatieve belang aangeeft.
 Dit kan de frequentie zijn

 Het kan ook een ander soort relatief belang zijn
Eigenschappen rekenkundig gemiddelde

1. Het is niet resistent
 Het is zeer gevoelig voor uitschieters
 Alle waarden worden in de berekening betrokken
2. Het voldoet aan de fulcrumeigenschap
 Fulcrum = zwaartepunt
 Het gemiddelde is als het ware het balanspunt van een verdeling van getallen
 Wat bepaalt het evenwicht? De afstand van elk getal tot het gemiddelde
 Som van alle positieve afwijkingen = som van alle negatieve afwijkingen
 Fulcrumeigenschap: De som van alle afwijkingsscores is 0
n
 ∑ ( xi −x ) =0
i=1
3. Het voldoet aan de kleinste kwadrateneigenschap

 De som van de gekwadrateerde afwijkingsscores is minimaal
 Daarmee hangt samen dat het een efficiënte schatter is
 Intersteekproevenvariabiliteit is minimaal
4. Het is een zuivere (of onvertekende) schatter
 Als je iedere mogelijke steekproef zou nemen en telkens het gemiddelde zou
nemen...
 ... en je zou het gemiddelde van al die gemiddeldes nemen...
 ... dan krijg je precies het populatiegemiddelde
5. Het is een abstracte centrummaat
 Kan waarden opleveren die in de praktijk niet kunnen voorkomen
 vs. Modus
 vs. mediaan van een steekproef met oneven N
Gemiddelde van lineair getransformeerde meetwaarden

y=a+bx
Intercept a & richtingscoëfficiënt b
9
Omzetting graden Celcius (x) – Fahrenheit (y): y=32+ x
5
Harmonisch gemiddelde
 Als de meeteenheid van de variabele een samengestelde grootheid is(km/u, euro/l,...)
 Bovendien moet er sprake zijn van een vaste objectiefwaarde in termen van de eerste
meeteenheid (die staat in de teller)
Specifieke gemiddelden
Het kwadratisch gemiddelde

 Bij de berekening van een gemiddelde afwijkingsscore. Doordat de meetwaarden zowel
positief als negatief kunnen zijn, dreigen ze elkaar immers te compenseren.
 Het kwadratisch gemiddelde geeft een groter gewicht aan grotere afwijkingen.
Rekenregels logaritmen
Logaritmen met een speciaal grondtal

 Briggse/tiendelige/gewone logaritmen: Grondtal a = 10 ; Notatie log x
 Natuurlijke/Neperiaanse logaritmen: Grondtal a = e = 2,71828 ; Notatie ln x
Logaritmen berekenen: overstappen op een ander grondtal
Het meetkundig gemiddelde

 Bij de berekening van gemiddelde groeipercentages
 De groeipercentages moeten eerst omgezet worden in groeifactoren
Overzicht gemiddelden
Standaardafwijking & variantie

Variantie:
Standaardafwijking:
De standaardafwijking is minder resistent dan het gemiddelde want kwadraat (groter voor
afwijkingen).
Maximale standaardafwijking: VB/2
Stelling van Chebychev

Beperkingen:
 We kennen de proporties slechts bij benadering (“Ten minste…”)

 De proporties zijn klein voor lage k-waarden
Reden: stelling van Chebychev is geldig voor alle types verdelingen
 Werkt beter (preciezere formule) wanneer we de vorm van de verdeling kennen
De rekenkundige variant van de variantie

Populatie versus steekproef
Let bij elke opgave goed op of het om de populatie of steekproef gaat!
 σ ≠s
Variantie/standaardafwijking van lineair getransformeerde

waarnemingen
Afleiding voor het gemiddelde van lineair getransformeerde waarnemingen:
t ( x i ) =a+b . x i
k k k
∑ f i . ( a+b . x i ) a∑ f i b .∑ f i . xi
a.N
μa +b . x = i=1
= i=1 + i =1 = +b . μ=a+b . μ
N N N N
k k k
∑ f i .(a+b . x i) a ∑ f i b . ∑ f i . xi
a.n
i=1
t (x i)= = i=1 + i=1 = +b . x=a+b . x
n n n n
Afleiding voor de variantie van lineair getransformeerde waarnemingen:
[ ]
k k 2
2
∑ f i .(a+b . x i) ² ∑ f i . (a+b . x i)
Var ( a+bX )=( σ a+ b .x ) = i=1 − i=1
i
N N
k k k
2
∑ f i .a +∑ f i .2 ab xi +∑ f i . b ² x2i
2
2
i =1
Var ( a+bX )=( σ a+b . X ) = i=1 i=1
−( a+bμ ) =¿
N
k k k
∑ fi ∑ f i . xi ∑ f i . x 2i
a 2 . i =1 + 2 ab . i=1 +b 2 . i=1
−( a2+ 2 abμ+b2 μ2 )=¿
N N N
( )
k k
∑ f i . xi2
∑ f i . x 2i
2 2 i=1 2 2 2 2 i=1 2 2 2 2
a +2 abμ +b . −a −2 abμ−b μ =b . −μ =b . σ =b . Var ( X)
N N
σ a+bX =√ b2 . Var ( X )=b . σ X
Spreiding vergelijken tussen variabelen

1. Makkelijk indien ze dezelfde meeteenheid hebben
2. Doenbaar indien je de ene variabele op basis van een lineaire transformatie kan omzetten in
de meeteenheid van de andere variabele
3. Lastig indien variabelen een onvergelijkbare meeteenheid hebben
 Oplossing: Een maatstaf voor spreiding gebruiken die relatief is (in plaats van absoluut): de
σ s
variatiecoëfficient (VC) = of
μ x
 De variatiecoëfficiënt is dimensieloos
 De meeteenheid wordt uitgezuiverd door het kengetal te delen door een kengetal van het
voorgaande analyseniveau (hier: het gemiddelde)
 Voorbeeld: lengte - gewicht
Interkwartiele spreidingscoëfficiënt
 Ook de IKA is afhankelijk van de meeteenheid (‘absolute maatstaf’)
 Relatief/ dimensieloos maken om variabelen met verschillende meeteenheid te vergelijken 
V.B IKA (gewicht) versus IKA (lengte)
 Interkwartiele spreidingscoëfficiënt (IKS):
Q 3−Q1
Q 3−Q1 2 Halve IKA(HIKA )
IKS= = =
Q3+Q 1 Q3+ Q1 Middenkwartiel
2
Spreiding bij ordinale gegevens

 Ordinaal meetniveau: Verschillende categorieën volgen een orde, maar er zijn geen gelijke
afstanden tussen de categorieën
 Doordat afstanden niet zinvol zijn kunnen we spreiding niet bekijken via
variantie/standaardafwijking
 Ook IKA (of IKS) zijn eigenlijk niet geschikt, want veronderstellen ook afstand (Q3 – Q1) 
Enkel toe te passen indien ordinale data latent kwantitatief zijn
 Bij ordinale data geldt: spreiding = polariteit!
 We maken gebruik van twee kenmerken van ordinale meetniveau:
1. Zitten de observaties verspreid over de categorieën of allemaal in dezelfde categorie?
2. Zitten de waarden bij elkaar in het centrum of in de uiteinden?
 Minimale spreiding/dispersie: Iedereen kiest zelfde categorie  Minimale polariteit
 Maximale spreiding/dispersie: 50% kiest meest extreme positieve categorie, 50% meest
extreme negatieve categorie  zeer hoge polariteit
Ordinale-dispersie index (oDi)

Stap 1 :
¿
 Voor de berekening maken we gebruik van de relatieve cumulatieve frequenties ( F i )
 (in plaats van xi bij kwantitatieve data)
 Houdt rekening met volgorde
 De N is niet van belang
Stap 2:
 We vergelijken de relatieve cumulatieve frequentieverdeling met de hypothetische situatie
van maximale spreiding
k −1
 ∑ ( F ¿i − 12 ) ²
i=1
 Dit doen we voor elke categorie, behalve de laatste categorie, want die is altijd 1. Vandaar k-1
 Deze formule levert 0 op bij maximale spreiding
 Via de formule hebben we een maat die 0 is bij maximale spreiding/polariteit en bij hogere
waarden aangeeft dat er minder spreiding/polariteit is.
 Twee problemen:
1. Moeilijk te interpreteren: Wat is veel polariteit, wat niet?
2. De maat meet concentratie, terwijl we juist geïnteresseerd zijn in spreiding/polariteit
 We gaan beiden problemen oplossen door te normeren aan de situatie van minimale
polariteit (stap 3) en vervolgens het complement te nemen (stap 4)
Stap 3: normeren aan minimale polariteit (=maximale concentratie)

 We vergelijken de daadwerkelijke relatieve cumulatieve frequentieverdeling met de
hypothetische situatie van maximale spreiding
∑ ( F ¿i − 12 )²
k−1
i=1
 We maken onze maat van concentratie relatief:
(k −1)
4
 Hierbij is 0 minimale concentratie/maximale spreiding en 1 maximale concentratie/minimale
spreiding.
Stap 4
∑ ( F¿i − 12 )
k−1 2
 Formule oDi: 1− i=1 feitelijke concentratie

=1−
k −1 maximale concentratie
4
 Minimum van 0 (minimale spreiding/polariteit), maximum van 1 (maximale
spreiding/polariteit)
Spreiding bij nominale gegevens

 Nominaal meetniveau: Verschillende categorieën vormen geen orde en er zijn geen
betekenisvolle afstanden tussen de categorieën
 Doordat afstanden niet zinvol zijn kunnen we spreiding niet bekijken via
variantie/standaardafwijking
 Doordat er geen orde is in de categorieën, is polariteit (ODI) ook geen goede maatstaf.
 Bij nominale data geldt: spreiding = heterogeniteit!
 We maken gebruik van het enige kenmerk van het nominale niveau: Zitten de waarnemingen
verspreid over de categorieën of allemaal in dezelfde categorie?
 Minimale spreiding/dispersie: Alle waarnemingen zitten in dezelfde categorie  lage
heterogeniteit (= hoge homogeniteit)
 Maximale spreiding/dispersie: De waarnemingen zijn gelijk verdeeld over de categorieën 
hoge heterogeniteit (= lage homogeniteit)
Nominale-dispersie index (nDi)

Stap 1:
¿
 Voor de berekening maken we gebruik van de relatieve frequenties f i
¿
 (in plaats van xi bij kwantitatieve data; en F i bij ordinale data)
 Houdt rekening met aantallen
 De N is niet van belang
Stap 2:
¿ 1
 In geval maximale spreiding is f i voor elke categorie
k
 We vergelijken de relatieve cumulatieve frequentieverdeling met de hypothetische situatie
∑ ( f ¿i − 1k )
k 2

i=1
 Dit doen we voor elke categorie
 Deze formule levert 0 op bij maximale spreiding
 Via de formule hebben we een maat die 0 is bij maximale spreiding/heterogeniteit en bij
hogere waarden aangeeft dat er minder spreiding/heterogeniteit is.
 Opnieuw twee problemen:
1. Moeilijk te interpreteren: Wat is veel heterogeniteit, wat niet?
2. De maat meet homogeniteit, terwijl we juist geïnteresseerd zijn in
spreiding/heterogeniteit
 We gaan beiden problemen oplossen door te normeren aan de situatie van minimale
heterogeniteit (stap 3) en vervolgens het complement te nemen (stap 4)
Stap 3: normeren aan minimale heterogeniteit (=maximale homogeniteit)
 We vergelijken de daadwerkelijke relatieve frequentieverdeling met de hypothetische situatie

∑ ( f ¿i − 1k ) ²
k
i=1
 We maken onze maat van homogeniteit relatief:
( k −1 )
k
 Hierbij is 0 maximale spreiding (minimale homogeniteit) en 1 minimale spreiding (maximale
homogeniteit).
Stap 4:
( )
k k k
1 2 1
∑ k
f ¿i − ∑ ( f ¿i ) − 1−∑ ( f ¿i )²
2
k
 Formule nDi = 1− i=1 =1− i=1 = i=1
( k−1 ) ( k −1 ) (k−1)
k k k
 Minimum van 0 (minimale spreiding/heterogeniteit), maximum van 1 (maximale
spreiding/heterogeniteit)
 De nDi staat ook bekend als de Herfindahl index.
Informatietheorie
1 bit info = de informatie nodig om uit 2 even plausibele alternatieven het juiste te kiezen
 Om uit 4 alternatieven het juiste te kiezen (2²), heb je 2 bits info nodig
 Om uit 8 alternatieven het juiste te kiezen (2³), heb je 3 bits info nodig
 Om de pion op het schaakbord te lokaliseren (64 alternatieven = 26), heb je 6 bits info nodig
Stel X = variabele met k even waarschijnlijke categorieën.

De onzekerheid O[X] verbonden met de keuze van een element uit de verdeling van X is gelijk aan
O[X]=log2 k
Entropie H
 Een alternatief voor de nominale dispersie-index (nDi)
 Maakt gebruik van informatietheorie (de mate van onzekerheid) om inzicht te bieden in de
spreiding van een nominale variabele
 De onzekerheid die overeenkomt met de selectie van bijvoorbeeld de derde categorie kan
¿
geschreven worden als: – log2 f 3
 De entropie H is het gewogen gemiddelde van de onzekerheden die horen bij de
k
verschillende categorieën: −∑ f i log 2 f i
¿ ¿
i=1
 De formule klopt ook bij maximale spreiding:
De onzekerheid die overeenkomt met de selectie van bijvoorbeeld de derde categorie kan
¿
geschreven worden als: – log2 f 3
De entropie H is het gewogen gemiddelde van de onzekerheden die horen bij de
verschillende categorieën:
 Bij even plausibele alternatieven geldt:
¿ 1
f i=
k
¿ 1
−log 2 f 1=−log 2
k
−1
¿−log 2 k
¿ (−1 ) .(−log 2 k )
¿ log 2 k
 Via de formule hebben we een maat voor entropie die 0 aanneemt bij minimale
spreiding/minimale entropie en die bij een hogere score aangeeft dat er meer entropie is
 We kunnen opnieuw de interpretatie vergemakkelijken door de maat relatief te maken (want
wat is veel spreiding/entropie?)
 Oplossing: We normeren de maat aan maximale spreiding/entropie  log 2 k
Entropie-index
Relatieve frequentie fi* = 1/k als elke categorie even plausibel is of m.a.w. maximale spreiding
(heterogeniteit) bij nominale variabele
¿ 1
Bij even plausibele alternatieven geldt: f i =
k
1 −1
−log 2 =−log 2 k =(−1 ) . ( −log 2 k )=log 2 k
k
De entropie H is het gewogen gemiddelde van de onzekerheden die horen bij de verschillende
categorieën.
( 1k ∗log 1k )= k∗1k ∗(−log 1k )=log k

k k
−∑ f ¿i log 2 f ¿i =−∑ 2 2 2
i=1 i=1
De onzekerheid die overeenkomt met de selectie van bijvoorbeeld de derde categorie kan geschreven
¿
worden als: −log 2 f 3
Via de formule hebben we een maat voor entropie die 0 aanneemt bij minimale spreiding/minimale
entropie en die bij een hogere score aangeeft dat er meer entropie is .
We kunnen opnieuw de interpretatie vergemakkelijken door de maat relatief te maken (want wat is
veel spreiding/entropie?)
Oplossing: We normeren de maat aan maximale spreiding/entropie  log 2 k
Genormeerde entropie: 0 = minimale spreiding/homogeniteit, 1 = maximale spreiding/heterogeniteit
Scheefheid
Spreiding (2e niveau) steunt op centrale tendentie (1e niveau)
Scheefheid (3e niveau) steunt op spreiding (2e niveau) én centrale tendentie (1e niveau)
Scheefheidscoëfficiënt van Pearson

Gebaseerd op het verschil tussen het rekenkundig gemiddelde en de modus
 Rechtsscheve verdelingen: 𝜇𝜇 > 𝑀𝑀𝑀𝑀

Dus (𝜇𝜇 − 𝑀𝑀𝑀𝑀) > 0
 Normale verdelingen: 𝜇𝜇 = 𝑀𝑀𝑀𝑀
Dus 𝜇𝜇 − 𝑀𝑀𝑀𝑀 = 0
 Linksscheve verdelingen: 𝜇𝜇 < 𝑀𝑀𝑀𝑀
Dus 𝜇𝜇 − 𝑀𝑀𝑀𝑀 < 0
Twee nadelen:
1. Absolute maatstaf (uitgedrukt in de meeteenheid van de variabele)

2. De modus is rudimentair en niet altijd eenduidig
Oplossing eerste probleem: relatief maken
}
μ−Mo
¿0
σ
 Variant 1: ¿0
X−Mo
¿0
s
In theorie geen minimum- of maximumwaarde, in praktijk meestal tussen -1 en 1
Oplossing tweede probleem: mediaan gebruiken in plaats van modus
Empirische relatie Pearson: 3 ( x−Me ) ≈ ( x −Mo ) bij matige asymmetrie
}
3 ( μ−Me )
¿0
σ ¿0
 Variant 2:
3 (x−Me ¿ 0
s )
In praktijk meestal tussen -3 en 3
Scheefheidscoëfficient van Yule

Gebaseerd op de kengetallen van het doosdiagram
 Rechtsscheve verdelingen: Q3 - Me > Me - Q1

Dus Q3 − Me − Me − Q1 > 0
 Normale verdelingen: Q3 - Me = Me - Q1
Dus Q3 − Me − Me − Q1 = 0
 Linksscheve verdelingen: Q3 - Me < Me - Q1
Dus Q3 − Me − Me − Q1 < 0
Relatief maken. Formule:
( Q3−Me )−( Me−Q1 ) ( Q 3−Me )−(Me−Q1 ) ( Q3−Me ) −(Me −Q1)

= =
IKA Q3 −Q1 ( Q3 −Me ) +(Me−Q 1)
Absolute minimum- en maximumwaarde: uitkomst tussen -1 en 1
Merkwaardige producten en het binomium van Newton

Formaliseren uitwerken merkwaardig product
Stap 1: De exponenten
De exponent van a begint bij n en loopt vervolgens af tot 0
De exponent van b begint bij 0 en loopt vervolgens op tot n

n
(a+ b)n=∑ coefficient . an−i . bi
i=0
Stap 2: De coëfficiënten
Op hoeveel manieren kan je (n-i) a’s en i b’s ordenen?
Omweg: op hoeveel manieren kan je n verschillende elementen ordenen (bv. de letters a, b en c)?
3.2 .1=6=3 !
Binomiaalcoëfficiënten
Een binomiaalcoëfficiënt n over k geeft weer hoeveel combinaties men kan realiseren met n
elementen die uiteenvallen in twee deelgroepen: een eerste deelgroep van k identieke elementen en
een tweede deelgroep van (n-k) identieke elementen
( nk)= k ! ( n−k ) !
n!
De driehoek van Pascal

Binomium van Newton:
[( ) ]
n
(a+ b) =∑ n . an−i .b i
n
i=0 i
Wat bij (a−b)n?
 Bij (a−b)n krijgt een term een negatief teken wanneer de exponent van b oneven is
 Dat is het geval bij de even termen
Scheefheidsmaat γ 1
Spreiding: afwijkingsscores²
N
1
σ 2= ∑ (x −μ)²
N i=1 i
Scheefheid: afwijkingsscores³
N
1
μ3 = ∑ (x −μ)³
N i =1 i
We maken de maat relatief door ze te delen door een overeenkomstige maat van het vorige
analyseniveau (de standaardafwijking)
Noemer tot de derde macht, dus teller ook

k
1
μ3
∑ f .(x −μ)³
N i=1 i i
γ 1= =
σ3
[√ ]
k
1
∑ f .(x −μ) ² ³
N i=1 i i
γ 1 < 0  Linksscheve verdeling / Links asymmetrische verdeling
γ 1 = 0  Symmetrische verdeling
γ 1 > 0  Rechtsscheve verdeling / Rechts asymmetrische verdeling

0 < |γ 1| < 0,5 Quasi symmetrisch
0,5 ≤ |γ 1| < 1 Matig asymmetrisch
|γ 1| ≥ 1 Sterk asymmetrisch
Statische momenten
Er zijn een aantal patronen die vaker terugkomen bij de kengetallen van kwantitatieve variabelen:
1. Momenten rond het rekenkundig gemiddelde (= gecentreerde momenten)

o Gebaseerd op de som van de verschillen tussen de meetwaarden en het rekenkundig
gemiddelde
o “r-de moment rond het rekenkundig gemiddelde”: verschillen tot de r-de macht
o Notatie: μr
2. Momenten rond 0
o Gebaseerd op de som van de verschillen tussen de meetwaarden en 0 (dus eigenlijk
gewoon de som van de meetwaarden)
o “r-de moment rond het rekenkundig gemiddelde”: verschillen tot de r-de macht
o Notatie: μ'r
Variant 1: Momenten rond het rekenkundig gemiddelde
Variant 2: momenten rond 0
Scheefheidsmaat γ 1: het rekenwerk

 We vormen de formule om tot een variant met minder rekenwerk
 We zetten de “momenten rond het rekenkundig gemiddelde” om in “momenten rond 0”
 Daarvoor moeten we weten hoe we (a + b)³ moeten uitwerken
De teller van γ 1 uitschrijven in momenten rond 0
De noemer van γ 1 uitschrijven in momenten rond 0
γ 1 in momenten rond 0
Populatie vs. steekproef

De formule voor asymmetrie voor steekproefgegevens g1 ziet er een beetje anders uit als die voor
populatiegegevens γ 1
De formule voor g1 hoef je niet te kennen voor het examen
Gepiektheid of kurtosis
Twee verdelingen kunnen hetzelfde centrum hebben, dezelfde spreiding, en dezelfde scheefheid, en
er toch anders uitzien
Het vierde analyseniveau beschouwt de gepiektheid of kurtosis van de verdeling

Hoge kurtosis: groot hoofd en lange staarten
Lage kurtosis: klein hoofd en korte staarten
Scheefheidsmaat γ 2
Gebaseerd op scheefheidscoefficiënt Kappa:
Om scheefheidsmaat γ 2 (coëfficiënt van Fisher) te bekomen, normeren we Kappa aan de gepiektheid

van de normale verdeling (die 3 bedraagt):
γ 2 < 0 Platykurtisch
γ 2 = 0  Mesokurtisch 𝛾
γ 2 > 0  Leptokurtisch
0 < |γ 2| < 0,5  Quasi metokurtisch
0,5 ≤ |γ 2| < 1  Matig platykurtisch/leptokurtisch
|γ 2| ≥ 1  Sterk platykurtisch/leptokurtisch
Gepiektheidsmaat γ 2: het rekenwerk

We vormen de formule om tot een variant met minder rekenwerk
We zetten het “vierde moment rond het rekenkundig gemiddelde” om in “momenten rond 0”
Daarvoor moeten we weten hoe we (a + b)4 moeten uitwerken (zie merkwaardige producten vorige
week)
γ 2 in momenten rond 0
Populatie vs. steekproef

De formule voor kurtosis voor steekproefgegevens g2 ziet er een beetje anders uit als die voor
populatiegegevens γ 2
De formule voor g2 hoef je niet te kennen voor het examen
Geclassificeerde frequentietabel
Waarnemingen onderbrengen in beperkt aantal disjuncte en exhaustieve klassen
Voordeel: Beter overzicht
Nadeel: Verlies van informatie  hoe minder klassen, hoe groter het informatieverlies
Berekeningen op basis van RUWE ongeclassificeerde data zijn altijd nauwkeuriger, maar soms heb je
de data in geclassificeerde vorm
Classificeren van ruwe data

Stap 1: het aantal klassen
Regel van Sturges: k (het aantal klassen) = 1+log 2 N
log N 1
¿ 1+ =1+ . log N ≈ 1+3 , 32. log N
log 2 log 2
Stap 2: de klassebreedte v
De klassebreedte v krijg je door de variatiebreedte te delen door het aantal klassen.
VB (xi )
v=
k
v rond je altijd af naar boven
Stap 3: Klassegrenzen bepalen

2 typen klassegrenzen:
1. Afgeronde klassegrenzen zijn even nauwkeurig als ruwe data (zelfde meeteenheid)
2. Exacte klassegrenzen zijn nauwkeuriger dan ruwe data; de bovengrens van een klasse is gelijk
aan de ondergrens van de volgende klasse
1
Ondergrens = 1 ste waarde − . ( variatiebreedte geklassificeerde tabel−reële variatiebreedte )
2
Kengetallen voor een geclassificeerde frequentietabel
Modus
De modale klasse is de klasse met de hoogste absolute frequentie
De modus van een geclassificeerde frequentietabel is het klassecentrum van de modale klasse
Mediaan
Ruwe aanpak mediaan: klassecentrum van klasse die [(N+1)/2]e waarneming bevat
Lineair geïnterpoleerde mediaan

Een belangrijke assumptie die we maken: de meetwaarden zijn gelijkmatig verdeeld binnen het
interval
Deze assumptie is waarschijnlijk niet helemaal accuraat, maar accurater dan dat alle waarden
overeenkomen met het klassencentrum
Rekenkundig gemiddelde
c
Vervang x i door klassecentra x i
Standaardafwijking
c
Vervang x i door klassecentra x i

Statistiek 1 Sem 1

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statistiek 1 Sem 1

Uploaded by

Copyright:

Available Formats

Statistiek 1: semester 1

 Micro: burgers, studenten …

Conceptualisering: wat wil je meten?

Indicering: hoe het theoretische concept empirisch weten?

Operationalisering: hoe ga je het registreren?

 Ratio: afstand, leeftijd …

 Ordinaal: likert-schalen, onderwijsniveau …

Kwantitatieve variabelen kunnen discreet of continu gemeten worden:

 Discreet: variabele kan een beperkt aantal waarden aannemen

Univariate analyse: 1 variabele

Bivariate/multivariate analyse: relatie/vergelijking tussen 2 of meerdere variabele

Afhankelijke variabele (Y): Wat verklaard wordt, het gevolg

Onafhankelijke variabelen (, , ..): Wat verklaart, de oorzaak

MAAR Sommatie van een product/deling ≠ Product/deling van de sommaties

Regel 3: Werkloze sommatietekens vervang je door het bereik

Gemiddelde (van 3e en 4e meetwaarde) is niet helemaal adequaat

 Q1 ligt immers dichter bij 3e dan bij 4e meetwaarde

Even N: kommagetallen weglaten

Kwartielen versus scharnierwaarden

S1 = de mediaan van de eerste helft van de verdeling

S2 = de mediaan van de tweede helft van de verdeling

 Echt of te wijten aan foute registratie

Het gemiddelde is minder resistent dan de mediaan voor uitschieters.

Alternatief voor Interkwartielafstand: interdecielafstand

 Dit kan de frequentie zijn

Eigenschappen rekenkundig gemiddelde

3. Het voldoet aan de kleinste kwadrateneigenschap

Gemiddelde van lineair getransformeerde meetwaarden

Het kwadratisch gemiddelde

Logaritmen met een speciaal grondtal

Logaritmen berekenen: overstappen op een ander grondtal

Het meetkundig gemiddelde

Standaardafwijking & variantie

Maximale standaardafwijking: VB/2

Stelling van Chebychev

 We kennen de proporties slechts bij benadering (“Ten minste…”)

Reden: stelling van Chebychev is geldig voor alle types verdelingen

 Werkt beter (preciezere formule) wanneer we de vorm van de verdeling kennen

De rekenkundige variant van de variantie

Let bij elke opgave goed op of het om de populatie of steekproef gaat!

Variantie/standaardafwijking van lineair getransformeerde

Afleiding voor het gemiddelde van lineair getransformeerde waarnemingen:

σ a+bX =√ b2 . Var ( X )=b . σ X

Spreiding vergelijken tussen variabelen

Spreiding bij ordinale gegevens

Ordinale-dispersie index (oDi)

Stap 3: normeren aan minimale polariteit (=maximale concentratie)

 Formule oDi: 1− i=1 feitelijke concentratie

Spreiding bij nominale gegevens

Nominale-dispersie index (nDi)

 We vergelijken de daadwerkelijke relatieve frequentieverdeling met de hypothetische situatie

Stel X = variabele met k even waarschijnlijke categorieën.

( 1k ∗log 1k )= k∗1k ∗(−log 1k )=log k

Oplossing: We normeren de maat aan maximale spreiding/entropie  log 2 k

Genormeerde entropie: 0 = minimale spreiding/homogeniteit, 1 = maximale spreiding/heterogeniteit

Spreiding (2e niveau) steunt op centrale tendentie (1e niveau)

Scheefheidscoëfficiënt van Pearson

 Rechtsscheve verdelingen: 𝜇𝜇 > 𝑀𝑀𝑀𝑀

1. Absolute maatstaf (uitgedrukt in de meeteenheid van de variabele)

Oplossing eerste probleem: relatief maken

In theorie geen minimum- of maximumwaarde, in praktijk meestal tussen -1 en 1

Oplossing tweede probleem: mediaan gebruiken in plaats van modus

Empirische relatie Pearson: 3 ( x−Me ) ≈ ( x −Mo ) bij matige asymmetrie

Scheefheidscoëfficient van Yule