Professional Documents
Culture Documents
Begrippen
Populatie N
de groep waarover het onderzoek een uitspraak wil doen
Steekproef n
een selectie uit de totale populatie, waarop je het onderzoek uitvoert
Selectiebias = bias in wie er benaderd wordt (binnen de populatie)
Non-responsbias = bias in wie er deelnam en wie niet
Responsbias = bias in de antwoorden van deelnemers door suggestieve vragen, sociale
wenselijkheid,…
Enkelvoudige aselecte steekproef (EAS) = elk lid van populatie heeft evenveel kans om in de
steekproef terecht te komen
o Clustersteekproef = verschillende steekproeven (clusters) samenpakken en daaruit
weer een steekproef halen
o Gestratificeerde steekproef = steekproef gebaseerd op voorkennis
Convenience steekproef (probleem: selectiebias) = steekproef waarbij enkel beschikbare
mensen worden onderzocht. Hierdoor wordt er niet ongericht onderzocht (selectiebias)
Quotasteekproef = steekproef waarbij de onderzochten gekozen zijn door de onderzoekers.
Selectie hierdoor is onvermijdelijk.
Datamatrix
Aggregatieniveau:
Kwantitatieve meetniveaus:
Kwalitatieve meetniveaus:
o Symmetrische analyse
o Asymmetrische analyse
Sommatieteken
Regel 1: sommatie van een som/verschil = som/verschil van 2 enkelvoudige sommaties
Regel 2: Bij vermenigvuldiging met een constante mag je de constante vóór het sommatieteken
zetten
Dubbel sommatieteken
Regel 4: dubbele sommatie van een som/verschil dubbel sommatieteken voor elke term zetten
Regel 5: dubbele sommatie van een product enkel sommatieteken bij de passende factor zetten
Data presenteren
Frequentietabel
(Absolute) frequentie fi: het aantal keer dat een uitslag of score voorkomt
Relatieve frequentie: het aantal keer dat een uitslag of score voorkomt gedeeld door het totaal
aantal waarnemingen (n)
Cumulatieve frequentie Fi: aantal keer dat deze score of lager voorkomt
Cumulatieve relatieve frequentie: aantal keer dat deze score of lager voorkomt, gedeeld door het
totaal aantal waarnemingen (n)
Grafieken
Staafdiagram
Cirkeldiagram/Taartdiagram
Histogram
Lijndiagram
Stam-blad diagram
Doosdiagram (boxplot)
Bij een even aantal waarden is de mediaan het gemiddelde van de middelste twee waarden.
Kwartielen
25% van de waarnemingen ligt onder het eerste kwartiel (Q1)
50% van de waarnemingen ligt onder het tweede kwartiel = de mediaan!
75% van de waarnemingen ligt onder het derde kwartiel (Q3)
Modus
De modus (Mo) is de meest voorkomende waarneming (te gebruiken vanaf het nominale
meetniveau)
Maximale diepte
Maximale diepte = rangnummer van de mediaan zonder kommagetallen
(N+1)/2
Spreiding
Een spreidingsmaat is een getal dat een kernachtige beschrijving van de spreiding van de gegevens
biedt.
Variatiebreedte
De variatiebreedte (VB) is het verschil tussen de grootste meetwaarde en de kleinste meetwaarde.
Interkwartielafstand
IKA = Q3 – Q1
Middenspreiding
Middenspreiding = S2 – S1
Bij een oneven N behoort de middelste waarde zowel tot de eerste als tot de tweede helft van de
verdeling.
Vorm
Uitschieters
Uitschieters of hiaten zijn scores die atypisch zijn voor een bepaalde dataset omdat ze extreem hoog
of extreem laag zijn.
Middenkwartiel en middenscharnier
[Q1+ Q3]/2
[S1+ S2]/2
Trigemiddelde van Tukey
[S1 + 2.Me + S2] / 4
D1 = [(N+1)/10]e meetwaarde
D9 = [9.(N+1)/10]e meetwaarde
D4 = [4.(N+1)/10]e meetwaarde
De interdecielafstand (IDA) is het verschil tussen het negende deciel (D9) en het eerste deciel (D1).
Rekenkundig gemiddelde
Kwantitatieve variabelen
Ongewogen rekenkundig gemiddelde = som van alle waarnemingen gedeeld door het aantal
waarnemingen
n
∑ xi
i=1
n
Gewogen rekenkundig gemiddelde:
k
∑ f i . xi
i=1
N
k
∑ (wi . x i )
i=1
k
∑ wi
i=1
Bij een gewogen gemiddelde krijgen de getallen waarover het gemiddelde berekend wordt, een
gewicht dat hun relatieve belang aangeeft.
9
Omzetting graden Celcius (x) – Fahrenheit (y): y=32+ x
5
Harmonisch gemiddelde
Als de meeteenheid van de variabele een samengestelde grootheid is(km/u, euro/l,...)
Bovendien moet er sprake zijn van een vaste objectiefwaarde in termen van de eerste
meeteenheid (die staat in de teller)
Specifieke gemiddelden
Rekenregels logaritmen
Standaardafwijking:
De standaardafwijking is minder resistent dan het gemiddelde want kwadraat (groter voor
afwijkingen).
σ ≠s
t ( x i ) =a+b . x i
k k k
∑ f i . ( a+b . x i ) a∑ f i b .∑ f i . xi
a.N
μa +b . x = i=1
= i=1 + i =1 = +b . μ=a+b . μ
N N N N
k k k
∑ f i .(a+b . x i) a ∑ f i b . ∑ f i . xi
a.n
i=1
t (x i)= = i=1 + i=1 = +b . x=a+b . x
n n n n
Afleiding voor de variantie van lineair getransformeerde waarnemingen:
[ ]
k k 2
2
∑ f i .(a+b . x i) ² ∑ f i . (a+b . x i)
Var ( a+bX )=( σ a+ b .x ) = i=1 − i=1
i
N N
k k k
2
∑ f i .a +∑ f i .2 ab xi +∑ f i . b ² x2i
2
2
i =1
Var ( a+bX )=( σ a+b . X ) = i=1 i=1
−( a+bμ ) =¿
N
k k k
∑ fi ∑ f i . xi ∑ f i . x 2i
a 2 . i =1 + 2 ab . i=1 +b 2 . i=1
−( a2+ 2 abμ+b2 μ2 )=¿
N N N
( )
k k
∑ f i . xi2
∑ f i . x 2i
2 2 i=1 2 2 2 2 i=1 2 2 2 2
a +2 abμ +b . −a −2 abμ−b μ =b . −μ =b . σ =b . Var ( X)
N N
Interkwartiele spreidingscoëfficiënt
Ook de IKA is afhankelijk van de meeteenheid (‘absolute maatstaf’)
Relatief/ dimensieloos maken om variabelen met verschillende meeteenheid te vergelijken
V.B IKA (gewicht) versus IKA (lengte)
Interkwartiele spreidingscoëfficiënt (IKS):
Q 3−Q1
Q 3−Q1 2 Halve IKA(HIKA )
IKS= = =
Q3+Q 1 Q3+ Q1 Middenkwartiel
2
Stap 2:
We vergelijken de relatieve cumulatieve frequentieverdeling met de hypothetische situatie
van maximale spreiding
k −1
∑ ( F ¿i − 12 ) ²
i=1
Dit doen we voor elke categorie, behalve de laatste categorie, want die is altijd 1. Vandaar k-1
Deze formule levert 0 op bij maximale spreiding
Via de formule hebben we een maat die 0 is bij maximale spreiding/polariteit en bij hogere
waarden aangeeft dat er minder spreiding/polariteit is.
Twee problemen:
1. Moeilijk te interpreteren: Wat is veel polariteit, wat niet?
2. De maat meet concentratie, terwijl we juist geïnteresseerd zijn in spreiding/polariteit
We gaan beiden problemen oplossen door te normeren aan de situatie van minimale
polariteit (stap 3) en vervolgens het complement te nemen (stap 4)
∑ ( F ¿i − 12 )²
k−1
i=1
We maken onze maat van concentratie relatief:
(k −1)
4
Hierbij is 0 minimale concentratie/maximale spreiding en 1 maximale concentratie/minimale
spreiding.
Stap 4
∑ ( F¿i − 12 )
k−1 2
Stap 2:
¿ 1
In geval maximale spreiding is f i voor elke categorie
k
We vergelijken de relatieve cumulatieve frequentieverdeling met de hypothetische situatie
van maximale spreiding
∑ ( f ¿i − 1k )
k 2
i=1
Dit doen we voor elke categorie
Deze formule levert 0 op bij maximale spreiding
Via de formule hebben we een maat die 0 is bij maximale spreiding/heterogeniteit en bij
hogere waarden aangeeft dat er minder spreiding/heterogeniteit is.
Opnieuw twee problemen:
1. Moeilijk te interpreteren: Wat is veel heterogeniteit, wat niet?
2. De maat meet homogeniteit, terwijl we juist geïnteresseerd zijn in
spreiding/heterogeniteit
We gaan beiden problemen oplossen door te normeren aan de situatie van minimale
heterogeniteit (stap 3) en vervolgens het complement te nemen (stap 4)
Stap 3: normeren aan minimale heterogeniteit (=maximale homogeniteit)
∑ ( f ¿i − 1k ) ²
k
i=1
We maken onze maat van homogeniteit relatief:
( k −1 )
k
Hierbij is 0 maximale spreiding (minimale homogeniteit) en 1 minimale spreiding (maximale
homogeniteit).
Stap 4:
( )
k k k
1 2 1
∑ k
f ¿i − ∑ ( f ¿i ) − 1−∑ ( f ¿i )²
2
k
Formule nDi = 1− i=1 =1− i=1 = i=1
( k−1 ) ( k −1 ) (k−1)
k k k
Minimum van 0 (minimale spreiding/heterogeniteit), maximum van 1 (maximale
spreiding/heterogeniteit)
De nDi staat ook bekend als de Herfindahl index.
Informatietheorie
1 bit info = de informatie nodig om uit 2 even plausibele alternatieven het juiste te kiezen
Om uit 4 alternatieven het juiste te kiezen (2²), heb je 2 bits info nodig
Om uit 8 alternatieven het juiste te kiezen (2³), heb je 3 bits info nodig
Om de pion op het schaakbord te lokaliseren (64 alternatieven = 26), heb je 6 bits info nodig
i=1
De formule klopt ook bij maximale spreiding:
De onzekerheid die overeenkomt met de selectie van bijvoorbeeld de derde categorie kan
¿
geschreven worden als: – log2 f 3
De entropie H is het gewogen gemiddelde van de onzekerheden die horen bij de
verschillende categorieën:
Bij even plausibele alternatieven geldt:
¿ 1
f i=
k
¿ 1
−log 2 f 1=−log 2
k
−1
¿−log 2 k
¿ (−1 ) .(−log 2 k )
¿ log 2 k
Via de formule hebben we een maat voor entropie die 0 aanneemt bij minimale
spreiding/minimale entropie en die bij een hogere score aangeeft dat er meer entropie is
We kunnen opnieuw de interpretatie vergemakkelijken door de maat relatief te maken (want
wat is veel spreiding/entropie?)
Oplossing: We normeren de maat aan maximale spreiding/entropie log 2 k
Entropie-index
Relatieve frequentie fi* = 1/k als elke categorie even plausibel is of m.a.w. maximale spreiding
(heterogeniteit) bij nominale variabele
¿ 1
Bij even plausibele alternatieven geldt: f i =
k
1 −1
−log 2 =−log 2 k =(−1 ) . ( −log 2 k )=log 2 k
k
De entropie H is het gewogen gemiddelde van de onzekerheden die horen bij de verschillende
categorieën.
De onzekerheid die overeenkomt met de selectie van bijvoorbeeld de derde categorie kan geschreven
¿
worden als: −log 2 f 3
Via de formule hebben we een maat voor entropie die 0 aanneemt bij minimale spreiding/minimale
entropie en die bij een hogere score aangeeft dat er meer entropie is .
We kunnen opnieuw de interpretatie vergemakkelijken door de maat relatief te maken (want wat is
veel spreiding/entropie?)
Scheefheid
Scheefheid (3e niveau) steunt op spreiding (2e niveau) én centrale tendentie (1e niveau)
Twee nadelen:
}
μ−Mo
¿0
σ
Variant 1: ¿0
X−Mo
¿0
s
}
3 ( μ−Me )
¿0
σ ¿0
Variant 2:
3 (x−Me ¿ 0
s )
In praktijk meestal tussen -3 en 3
Stap 2: De coëfficiënten
Omweg: op hoeveel manieren kan je n verschillende elementen ordenen (bv. de letters a, b en c)?
3.2 .1=6=3 !
Binomiaalcoëfficiënten
Een binomiaalcoëfficiënt n over k geeft weer hoeveel combinaties men kan realiseren met n
elementen die uiteenvallen in twee deelgroepen: een eerste deelgroep van k identieke elementen en
een tweede deelgroep van (n-k) identieke elementen
( nk)= k ! ( n−k ) !
n!
[( ) ]
n
(a+ b) =∑ n . an−i .b i
n
i=0 i
Bij (a−b)n krijgt een term een negatief teken wanneer de exponent van b oneven is
Dat is het geval bij de even termen
Scheefheidsmaat γ 1
Spreiding: afwijkingsscores²
N
1
σ 2= ∑ (x −μ)²
N i=1 i
Scheefheid: afwijkingsscores³
N
1
μ3 = ∑ (x −μ)³
N i =1 i
We maken de maat relatief door ze te delen door een overeenkomstige maat van het vorige
analyseniveau (de standaardafwijking)
γ 1 = 0 Symmetrische verdeling
|γ 1| ≥ 1 Sterk asymmetrisch
Statische momenten
Er zijn een aantal patronen die vaker terugkomen bij de kengetallen van kwantitatieve variabelen:
γ 1 in momenten rond 0
Gepiektheid of kurtosis
Twee verdelingen kunnen hetzelfde centrum hebben, dezelfde spreiding, en dezelfde scheefheid, en
er toch anders uitzien
Scheefheidsmaat γ 2
γ 2 < 0 Platykurtisch
γ 2 = 0 Mesokurtisch 𝛾
γ 2 > 0 Leptokurtisch
|γ 2| ≥ 1 Sterk platykurtisch/leptokurtisch
We zetten het “vierde moment rond het rekenkundig gemiddelde” om in “momenten rond 0”
Daarvoor moeten we weten hoe we (a + b)4 moeten uitwerken (zie merkwaardige producten vorige
week)
γ 2 in momenten rond 0
Geclassificeerde frequentietabel
Waarnemingen onderbrengen in beperkt aantal disjuncte en exhaustieve klassen
Nadeel: Verlies van informatie hoe minder klassen, hoe groter het informatieverlies
Berekeningen op basis van RUWE ongeclassificeerde data zijn altijd nauwkeuriger, maar soms heb je
de data in geclassificeerde vorm
log N 1
¿ 1+ =1+ . log N ≈ 1+3 , 32. log N
log 2 log 2
Stap 2: de klassebreedte v
De klassebreedte v krijg je door de variatiebreedte te delen door het aantal klassen.
VB (xi )
v=
k
v rond je altijd af naar boven
1. Afgeronde klassegrenzen zijn even nauwkeurig als ruwe data (zelfde meeteenheid)
2. Exacte klassegrenzen zijn nauwkeuriger dan ruwe data; de bovengrens van een klasse is gelijk
aan de ondergrens van de volgende klasse
1
Ondergrens = 1 ste waarde − . ( variatiebreedte geklassificeerde tabel−reële variatiebreedte )
2
Kengetallen voor een geclassificeerde frequentietabel
Modus
De modale klasse is de klasse met de hoogste absolute frequentie
De modus van een geclassificeerde frequentietabel is het klassecentrum van de modale klasse
Mediaan
Ruwe aanpak mediaan: klassecentrum van klasse die [(N+1)/2]e waarneming bevat
Deze assumptie is waarschijnlijk niet helemaal accuraat, maar accurater dan dat alle waarden
overeenkomen met het klassencentrum
Rekenkundig gemiddelde
c
Vervang x i door klassecentra x i
Standaardafwijking
c
Vervang x i door klassecentra x i