You are on page 1of 29

Basisstatistiek voor geo- en bouwdata-analyse

Hiddo Velsink
Basisstatistiek voor geo- en bouwdata-analyse

voor gebruik in de opleiding Bachelor Built Environment,

Hiddo VELSINK

versie 4 september 2022


Velsink, Hiddo
Basisstatistiek voor geo- en bouwdata-analyse
Kernbegrippen: meetuitkomsten, stochastische variatie, fouten, afwijkingen, histogram, kans, kromme
van Gauss, normale verdeling, model, midwaarde, gemiddelde, modus, mediaan, precisie, betrouw-
baarheid, nauwkeurigheid, spreiding, standaardafwijking, standaarddeviatie.

Copyright © 2022 by Hiddo Velsink.


All rights reserved. No part of the material protected by this copyright notice may be reproduced or
utilized in any form or by any means, electronic or mechanical, including photocopying, recording or
by any information storage and retrieval system, without the prior permission of the author.
Typeset by the author with the LATEX Documentation System.
Voorwoord

Dit dictaatje is bedoeld voor eerstejaarsstudenten van de opleiding Built Environment. Het geeft
een klein deel van de basis van de statistiek. Het betreft slechts dat deel dat nodig is om veel-
voorkomende statistische uitspraken in de wereld van data, geografische informatiesystemen (GIS) en
bouwinformatiemodellen (BIM) te begrijpen.

De Bilt, september 2022


Inhoudsopgave

Voorwoord i

Inhoudsopgave iii

1 Fouten en afwijkingen in meetuitkomsten 1


1.1 Fouten en afwijkingen in meetuitkomsten 1
1.2 Histogram en stochasticiteit 3
1.3 De kromme van Gauss (normale verdeling) 5

2 De rol van het model 9


2.1 Wat is een model? 9
2.2 Waarom hebben we modellen nodig? 10
2.3 Is er een model voor elke vraagstelling bij data-analyse? 10
2.4 Keuze/inschakeling/uitschakeling van een model 11
2.5 Hoe zet men een model op? 11
2.6 Geven modellen verschillende uitkomsten? 12

3 Centrum en spreiding van meetuitkomsten 13


3.1 Centrummaten 13
3.1.1 Gemiddelde 14
3.1.2 Mediaan 14
3.1.3 Modus 14
3.2 Spreidingsmaten 15
3.2.1 Bereik 15
3.2.2 Standaardafwijking 15
3.2.3 Variantie 16
3.2.4 95%-betrouwbaarheidsinterval 16
3.3 Precisie, betrouwbaarheid en nauwkeurigheid 16
3.4 Meer meetgrootheden en correlatie 17

Bibliografie 19

Index 21
1
Fouten en afwijkingen in meetuitkomsten

1.1 Fouten en afwijkingen in meetuitkomsten

Het meten van grootheden om daarmee posities en vormen van objecten op het aardoppervlak, of de
vorm van het aardoppervlak zelf, te bepalen, staat centraal in de geodesie. De geodesie is daarom een
belangrijk vak voor de analyse van geodata en bouwdata en voor Geo-informatiesystemen (GIS) en
Bouwinformatiemodellen (BIM; ook wel bouwinformatiemanagement genoemd). Alberda en Ebbinge
(1990) definiëren meten als volgt:

Meten is het volgens bepaalde regels toevoegen van een getal aan een object of een
theoretisch begrip.

Als een rode draad loopt door alle werkzaamheden van de geodeet het besef dat elke meting waar-
nemingen oplevert die afwijken van de gezochte waarde. Deze fouten en afwijkingen kunnen in
drie categorieën worden onderverdeeld: grove fouten, systematische fouten en toevallige afwijkingen
(Mikhail en Gracie, 1981).

Grove fouten zijn fouten die ontstaan door nalatigheid, onzorgvuldigheid of tijdelijk
gebrek aan concentratie van de waarnemer of van degene die de metingen verwerkt.

Een waarnemer kan bijvoorbeeld bij een richtingsmeting op het verkeerde punt richten, hij kan een
meetband verkeerd aflezen, hij kan bij het noteren van de waarneming twee cijfers verwisselen (bijv.
18,23 m in plaats van 18,32 m) enzovoorts.

Vroeger was een overheersende bron van fouten het maken van schrijf- en overschrijffouten. Dit
is aanzienlijk teruggedrongen sinds steeds meer metingen op digitale wijze worden ingewonnen en
verwerkt met slechts minimale of zelfs geen inmenging van een menselijke waarnemer.

Dit betekent echter niet, dat er geen grove fouten meer worden gemaakt. De waarnemer moet
in het algemeen nog wel een automatisch geregistreerde waarneming voorzien van coderingen. De
instrumenten, prisma’s, baken enzovoorts moeten nog steeds op het juiste punt worden gezet en
gehorizonteerd worden en blijven. Bij het verwerken van de waarnemingen moeten digitale bestanden
worden geconverteerd, samengevoegd en weer gesplitst. Bij het rekenen moeten de meetgegevens en
2 1. Fouten en afwijkingen in meetuitkomsten

andere benodigde gegevens van de juiste datum en tijd worden gebruikt. En zo zijn er vele stappen
door menselijk ingrijpen uit te voeren: voldoende gelegenheden voor het maken van grove fouten.
Grove fouten worden ook wel aangeduid als blunders, uitschieters of uitbijters.
Systematische fouten zijn fouten die veroorzaakt worden door een systematiek, waar-
voor gecorrigeerd kan worden als de vorm en grootte van de systematiek bekend is.
Neem bijvoorbeeld het geval dat een meetband
een keer gebroken is geweest en gerepareerd, Term en factor
waarbij de meetband bij vergissing een stukje kor- Als een getal ontstaat door een aantal getallen
ter is geworden. Alle met deze meetband geme- bij elkaar op te tellen, noemt men elk van deze
ten afstanden zullen systematisch te lang zijn. getallen een term.
Als de fout bekend is, kunnen de gemeten af- De som s = a + b + c is derhalve samengesteld
standen ervoor worden gecorrigeerd door bij elke uit drie termen: a, b en c.
afstand een term af te trekken. Als een getal ontstaat door een aantal getallen
met elkaar te vermenigvuldigen, noemt men elk
Evenzo kan men zich voorstellen, dat een meet- van deze getallen een factor.
band evenredig met de temperatuur van de om- Het produkt p = a.b.c is derhalve samengesteld
geving in geringe mate langer wordt. Op een uit drie factoren: a, b en c.
warme dag zullen dus afstanden systematisch te In de formule r = a.b - c + d/f is het resultaat r
kort worden gemeten. Als de mate waarin de samengesteld uit drie termen: a.b en -c en d/f.
meetband langer wordt, bekend is, kan men elke De eerste term a.b is samengesteld uit twee fac-
gemeten afstand corrigeren door deze met een toren: a en b.
factor te vermenigvuldigen. De tweede term is -c.
Er zijn ook systematische fouten die minder een- De derde term d/f is samengesteld uit twee fac-
voudig zijn te corrigeren. toren: d en 1/f.
Men moet zich bijvoorbeeld goed realiseren, dat
elke waarnemer in principe zijn eigen systematische fouten introduceert als hij waarnemingen afleest.
Evenzo heeft elk instrument zijn eigenaardigheden die systematische fouten kunnen veroorzaken.
Toevallige afwijkingen zijn de afwijkingen die resteren als de grove en systematische
fouten zijn verwijderd. Deze resterende afwijkingen hebben geen systematisch karakter, zij
zijn willekeurig, toevallig. Met een ander woord noemt men dit stochastische 1 afwijkingen.
Verder is ook de term residu (meervoud: residuen) in gebruik voor een toevallige afwijking.
De toevallige afwijkingen samen worden aangeduid als de aanwezige meetruis of ruis.
Het is belangrijk in te zien dat aan deze toevallige afwijkingen niet is te ontkomen. Om dit te
begrijpen is het goed terug te gaan naar de definitie van Alberda en Ebbinge (1990) van ’meten’:
een getal wordt toegevoegd aan een object of theoretisch begrip. Dit betekent dat een object in de
werkelijkheid - een hoek van een huis, een piket, een torenspits - wordt vertaald naar een theoretisch
begrip zoals een punt. De werkelijkheid wordt derhalve weergegeven door een model . Dit proces
wordt aangeduid als idealiseren. Bij elke nieuwe meting zal de waarnemer opnieuw idealiseren, maar
het is onmogelijk dat elke keer op exact dezelfde wijze te doen. Of om het anders te zeggen: de hoek
van een huis wordt in het model weergegeven door een punt, maar de hoek is niet een punt. Het is
daarom onmogelijk te zeggen dat het punt exact, afwijkingsloos wordt aangemeten: de hoek van het
huis wordt aangemeten.
Daarnaast speelt natuurlijk mee, dat elke meting beïnvloed wordt door de omstandigheden, waaronder
1
afkomstig van het Griekse werkwoord stochazomai = raden, gissen.
1.2. Histogram en stochasticiteit 3

wordt gemeten: temperatuur, luchtdruk, vochtigheid, humeur van de waarnemer enzovoorts. Nooit
zullen alle omstandigheden bij een nieuwe meting exact dezelfde kunnen zijn en daarom zal geen
meting hetzelfde zijn, maar bepaald worden door toevallige invloeden van dat moment.
Tenslotte speelt mee, dat elke meting, die in cijfers wordt uitgedrukt, op een zeker aantal cijfers wordt
afgerond. Als men de lengte van de voorgevel van een huis in tienden van millimeters afleest, zal bij
een volgende meting vrijwel altijd een andere waarde voor de millimeters en de tienden van millimeters
worden afgelezen.
Maar als men de lengte in meters afleest, zal bij een volgende meting waarschijnlijk hetzelfde getal
worden afgelezen, maar blijft men in het ongewisse over de decimeters, centimeters enzovoorts.
Grove fouten en systematische fouten worden gezamenlijk wel modelfouten genoemd in tegenstelling
tot de toevallige afwijkingen. Dat komt, doordat het model ervan uitgaat, dat er geen grove en syste-
matische fouten zijn gemaakt. Bijvoorbeeld neemt het model aan, dat er zorgvuldig is waargenomen
en dat met de meter als afstandseenheid is gemeten. Als nu de waarnemer een waarneming verkeerd
registreert en bovendien de meting van zijn meetband niet voor de temperatuursinvloeden corrigeert,
wordt niet aan de eisen van het model voldaan: er worden modelfouten gemaakt.

1.2 Histogram en stochasticiteit

Het feit dat elke meting behept is met toevallige afwijkingen kan aanschouwelijk worden gemaakt
door het tekenen van een histogram.

Voorbeeld
Veronderstel dat een zelfde afstand 150 maal gemeten wordt met een meetband. De waarden zijn in
meters en de resolutie is 1 mm. De resolutie is de kleinste eenheid die wordt afgelezen, in dit geval
dus de millimeter. Resolutie is niet hetzelfde als precisie. De precisie van de meting kan heel goed
een centimeter zijn: het aflezen in millimeter is dan zinloos. Maar in dit geval heeft het zin; zie de
resultaten:

waarnemingsinterval aantal rel. freq.


615,225 - 615,235 1 0,007
615,235 - 615,245 2 0,013
615,245 - 615,255 5 0,033
615,255 - 615,265 14 0,093
615,265 - 615,275 15 0,100
615,275 - 615,285 27 0,180
615,285 - 615,295 29 0,193
615,295 - 615,305 22 0,147
615,305 - 615,315 18 0,120
615,315 - 615,325 8 0,053
615,325 - 615,335 7 0,047
615,335 - 615,345 0 0
615,345 - 615,355 2 0,013

Tabel 1.1: Meetbandmetingen van een afstand: waarnemingsintervallen,


aantallen per interval en relatieve frequenties per interval.
4 1. Fouten en afwijkingen in meetuitkomsten

Figuur 1.1: Histogram.

Van de waarnemingen wordt een histogram gemaakt door eerst het bereik van de waarnemingen (de
waarden die voorkomen) te verdelen in 13 intervallen. Per interval wordt bepaald hoeveel waarnemin-
gen in dat interval vallen. De hoeveelheden per interval (de frequentie) staan in de tweede kolom van
tabel 1.1. Hiervan kan een histogram worden gemaakt, zie figuur 1.1.

Met de aantallen uit de tweede kolom kunnen de relatieve frequenties worden berekend door de
aantallen te delen door het totale aantal: 150. De relatieve frequenties staan in de derde kolom van
de tabel vermeld. De relatieve frequenties bij elkaar opgeteld moeten 1 opleveren. Op de invloed van
afronding na is dit inderdaad het geval.

Het voorbeeld laat zien, dat een histogram een mogelijkheid is om de ruis in de waarnemingen - de
toevallige afwijkingen - te visualiseren.
Allereerst valt op, dat het histogram redelijk symmetrisch is met de meeste waarnemingen in het
midden geconcentreerd. Het doet vermoeden dat de meest waarschijnlijke waarde voor de afstand
ergens in het midden moet zijn. Deze waarde wordt daarom de midwaarde of centrumwaarde genoemd.
Een schatting voor de midwaarde is het gemiddelde x̄ :
n
X
xi
i=1
x̄ = (1.1)
n

Het teken is het sommatieteken. Als je niet weet hoe het sommatieteken werkt, is een heldere
P
uitleg te vinden op Youtube: https://www.youtube.com/watch?v=nM4OBDsCFxY.
1.3. De kromme van Gauss (normale verdeling) 5

De breedte van het histogram geeft aan hoeveel de waarnemingen van elkaar afwijken. Men noemt
dit de spreiding . Een maat voor de spreiding is de standaardafwijking s die wordt berekend als:
v
u n
uX ( xi − x̄ )2
s = t (1.2)
n − 1
i=1

Deze standaardafwijking wordt de standaardafwijking van de steekproef genoemd. In plaats van


standaardafwijking wordt ook vaak het begrip standaarddeviatie gebruikt. Verderop in het dictaat zal
blijken, dat er ook andere maten zijn om de spreiding van waarnemingen weer te geven.
In het voorbeeld zijn 150 waarnemingen uitgevoerd en daarvan is een histogram getekend. Stel nu
dat een andere waarnemer, onder gelijke omstandigheden, met dezelfde meetband dezelfde afstand
nogmaals 150 maal meet. Zal een daarvan getekend histogram identiek zijn met het histogram
van het voorbeeld? De ervaring leert, dat een tweede histogram niet precies identiek, maar wel sterk
gelijkend op het eerste zal zijn. De redenering wordt nu voortgezet door te veronderstellen, dat niet 150
waarnemingen, maar 300 waarnemingen worden uitgevoerd; en vervolgens 450; en dan 600 enzovoorts,
totdat een oneindig aantal waarnemingen wordt uitgevoerd door verscheidene waarnemers onder gelijke
omstandigheden. Dit praktisch gesproken onmogelijke experiment heet het experimentele limietproces,
zie (Baarda, 1976). De veronderstelling die ten grondslag ligt aan de waarnemingsrekening is:
Als verscheidene waarnemers onder gelijke omstandigheden n waarnemingen uitvoeren
van een zelfde grootheid, zonder systematische of grove fouten te maken, dan zullen, als
n naar oneindig nadert, de histogrammen, die voor de onderscheiden waarnemers worden
getekend, identiek worden.
Deze veronderstelling heet de empirische wet van de grote aantallen, zie (Lopuhaä, 1992).
Laten we voor het gemak dit histogram dat in de limietsituatie (als n oneindig is) ontstaat, het
limiethistogram noemen. Het gemiddelde dat voor het limiethistogram wordt berekend, heet de ver-
wachtingswaarde van de gemeten afstand. De verwachtingswaarde van de gemeten afstand wordt wel
de midwaarde genoemd en aangeduid met de letter µ (de Griekse letter mu). De standaardafwijking
die wordt berekend voor het limiethistogram wordt aangeduid als σ (de Griekse letter sigma). Het is de
verwachtingswaarde van de standaardafwijking. Voor de berekening van de standaardafwijking wordt
gebruik gemaakt van het gemiddelde x̄ (zie de eerdere formule). Maar deze is in het limiethistogram
gelijk aan aan de verwachtingswaarde µ. Bovendien wordt in de formule voor de standaardafwijking
gedeeld door (n − 1) en niet door n, omdat als het ware één waarneming nodig is om een schatting x̄
voor de verwachtingswaarde µ te krijgen. In de limietsituatie is dat niet meer nodig. Daarom wordt
σ berekend als: v
u n
uX (xi − µ)2
σ = lim t (1.3)
n→∞ n
i=1

In de formule geeft lim de limietwaarde aan als n naar oneindig gaat.


n→∞

Deze standaardafwijking σ heet de standaardafwijking van de populatie.

1.3 De kromme van Gauss (normale verdeling)

Beschouw opnieuw het histogram in figuur 1.1. De hoogte van de kolommen zegt iets over het aantal
waarnemingen dat in het betreffende interval valt. Daarmee zegt het ook iets over de kans dat een
6 1. Fouten en afwijkingen in meetuitkomsten

Figuur 1.2: Histogram en kromme van Gauss.

nieuwe waarneming (zeg de 151-e) in dát interval terecht komt. Daarom wordt de relatieve frequentie
van een interval gelijk gesteld aan de kans dat een waarneming in dat interval komt. De som van
de relatieve frequenties van alle kolommen komt overeen met een kans van 1 (of van 100 %). Een
waarneming heeft in het voorbeeld een kans 0,193 (of 19,3 %) om in het interval 615,285 – 615,295
terecht te komen. Omdat het histogram uit het voorbeeld ’slechts’ gebaseerd is op 150 waarnemingen,
wordt het kansbegrip gebaseerd op het (fictieve, want niet praktisch tekenbare) limiethistogram. Het
begrip kans kan nu worden gedefinieerd.

De kans, dat een waarneming in een zeker interval terecht komt is gelijk aan de relatieve frequentie
van dat interval, zoals dat volgt uit het limiethistogram.

De waarnemingsintervallen in het voorbeeld hebben een breedte van 1 cm. Als we de kolommen
niet een breedte van 1 cm, maar van 1 mm geven, zouden er veel meer kolommen zijn. Als de
waarnemingen in tienden van millimeters worden uitgedrukt en de kolommen een tiende millimeter
breed worden, wordt het aantal kolommen nog weer groter. Zo kan men doorgaan totdat er een
oneindig aantal decimalen wordt meegenomen. Het histogram gaat dan over in een vloeiende kromme.
Dit is schetsmatig aangegeven in figuur 1.2.

Hoewel praktisch gesproken natuurlijk nooit oneindig veel decimalen kunnen worden meegenomen,
heeft de vloeiende kromme van figuur 1.2 een grote praktische betekenis. De vloeiende kromme kan
door een redelijk eenvoudige wiskundige functie worden beschreven Deze functie is ontdekt (in 1733)
door de Fransman De Moivre en later ’herontdekt’ door de Fransman Laplace en de Duitser Gauss.
De kromme wordt de kromme van Gauss of de normale verdeling genoemd. Als men de kans wil
uitrekenen dat een waarneming in een interval tussen a en b valt, dient men het grijze oppervlak
in figuur 1.3 te berekenen. Dit is zo, omdat de kans dat een waarneming in een interval van een
histogram valt gelijk is aan de relatieve frequentie van dat interval. Deze relatieve frequentie is op
1.3. De kromme van Gauss (normale verdeling) 7

Figuur 1.3: Grijze oppervlak: kans van waarneming tussen a en b.

een vaste factor na de oppervlakte van de betreffende kolom.


De vorm van het histogram zoals dat uit figuur 1.3 blijkt is een zeer gebruikelijke vorm. In het
algemeen wordt van metingen aangenomen, dat als zij een voldoend aantal keren herhaald worden,
zij dit beeld zullen geven. Daarom is de kromme van Gauss een veelgebruikte functie om de meetruis
van waarnemingen te beschrijven.
2
De rol van het model

Dit hoofdstuk is gebaseerd op een tekst in een eerstejaarsdictaat van de TU Delft van lang geleden
(B.H.W. van Gelder e.a., 1991). Het betoog is nog steeds actueel, al zijn de geodetische technieken
ingrijpend veranderd. Over hetzelfde onderwerp is ook hoofdstuk 6 van (Alberda en Ebbinge, 1990)
de moeite van het lezen waard.

2.1 Wat is een model?

Als men Van Dale gelooft, zijn geodeten en data-analytici voornamelijk kunstenaars. Geodeten en
data-analytici maken veelvuldig gebruik van modellen. Als men opzoekt wat een model precies inhoudt,
worden de eerste verklaringen door Van Dale in de kunst gezocht (G. Geerts, H. Heestermans en
C. Kruyskamp, 1989):

1. voorbeeld dat een kunstenaar maakt uit leem of was en waarnaar een werk wordt uitgevoerd;
2. houten, gipsen of ander ontwerp van een te vervaardigen gietstuk, waarnaar de gietvorm gemaakt
wordt;
3. voorbeeld waarnaar een kunstenaar werkt;
- m.n. iem. die voor een kunstenaar poseert als zodanig, of die zijn of haar beroep daarvan
maakt: ...

Pas als vierde verklaring lezen wij:

4. (in moderne wetenschappelijke opvatting) empirische interpretatie van een mathematisch-logisch


systeem: ...

en verderop:

7. nabootsing op kleine schaal: ...

Misschien pas aan het einde van de studie realiseert men zich hoe centraal de vierde verklaring voor
geodesie en data-analyse geldt, vooral als men de toevoeging aan de vierde definitie leest:

4. · · · het model fungeert als eerste aanzet tot theorievorming; een model is een schematisering
van de werkelijkheid met een operationeel karakter;
10 2. De rol van het model

Met “schematisering” wordt bedoeld, dat het model een vereenvoudiging is van de werkelijkheid. Met
“een operationeel karakter” wordt bedoeld, dat het in de praktijk gebruikt moet kunnen worden; je
kunt er iets nuttigs mee doen.

2.2 Waarom hebben we modellen nodig?

De werkelijkheid om ons heen, waarvan geodeten en data-analytici een stukje proberen te beschrijven,
is zo ingewikkeld dat abstraheren - vergelijk het maar met een uittreksel maken - bijna onoverkomelijk
is. Net als een kunstenaar zal de geodeet door grote, ruwe lijnen vorm geven aan zijn per definitie
eenvoudiger representatie (model) van die werkelijkheid. Als een landmeter ten behoeve van een
kadastrale opname de gebouwen en andere opstallen in kaart moet brengen, zal hij niet alle stenen
van de buitenmuren opmeten. Hij zal bekijken of een buitenmuur al dan niet een vlak vormt, dat al
dan niet binnen bepaalde marges verticaal staat. Dan zal hij twee representatieve hoekstenen uitkiezen
en deze aanmeten. Op zijn veldschets en later op de kadastrale kaart zullen deze twee aanmeetpunten
worden verbonden door een rechte lijn.
Een drie-dimensionale muur teruggebracht tot een één-dimensionaal lijnstuk op een kaart. Als dit niet
abstraheren is. Als dit niet vereenvoudigen is. Als dit niet praktisch is.
De geodeet abstraheert zijn interpretatie - hier sluipt een stuk subjectiviteit in! - van de werkelijkheid
tot een model dat zo eenvoudig is, dat de praktijk, waarvoor hij dat werk doet, nog profijt heeft van
het model.
Een architect zal aan een model van een muur een tweede (verticale) dimensie toevoegen. De
bouwtechnicus die de draagkracht van die buitenmuur doorrekent, zal - naast andere intrinsieke
eigenschappen van die muur: beton, gemetseld, ... - voor zijn model al gauw een derde dimensie (de
dikte) nodig hebben.
Voornoemde modellen hebben een sterke meetkundige achtergrond: een buitenmuur als lijnstuk, vlak
of rechthoekig blok.

2.3 Is er een model voor elke vraagstelling bij data-analyse?

Bovenstaande voorbeelden uit de praktijk geven aan dat geodeten en data-analysten - en veelal ook
andere ingenieurs - denken en werken in termen van "modelbouw".
Als van een bepaald model het operationele karakter is vastgesteld (d.w.z. het beschrijft de werke-
lijkheid op een werkbare wijze), kan men dat thuis (op kantoor, in het laboratorium enz.) gebruiken
om varianten van oplossingen voor probleemstellingen door te rekenen, om besluiten voor te bereiden
of om een bepaald beleid te gaan ontwikkelen.
In een artikel over de Deltawerken zegt een gepensioneerd ingenieur van de Deltawerken het duidelijk:
Het had te maken met het opkomen van het model. Nadat wij op het gebied van modelonderzoek
aanvankelijk achterliepen, is dat in de jaren dertig sterk ontwikkeld.
En het is niet alleen ten behoeve van de waterbouwkundige problematiek dat gezegd kan worden:
sinds het begin van de twintigste eeuw heeft in de wetenschap en de ingenieurspraktijk het “denken
in modellen” een enorme vlucht genomen.
2.4. Keuze/inschakeling/uitschakeling van een model 11

2.4 Keuze/inschakeling/uitschakeling van een model

Zelfs voordat een landmeter één meting heeft gedaan, heeft hij de werkelijkheid geïdealiseerd tot
een model. Het feit dat de landmeter zijn metingen reduceert naar een plat vlak is al een belang-
rijke modelkeuze. Modelkeuzen zijn sterk verbonden met het type werkzaamheden dat moet worden
verricht.

Nog een abstractie hoger ligt de keuze - nadat alle metingen naar het platte vlak zijn gereduceerd - of
de regels van de Euclidische meetkunde (= de middelbare-school-meetkunde) in dat vlak wel geldig
zijn.

De modelkeuzen zijn om praktische redenen - vergeet nooit het operationele karakter van de model-
definitie (het moet werkbaar zijn!) - voor alle landmeters in Nederland gelijk. Maar(!!!) de landmeter
te velde maakt ook modelkeuzen. Indien de bewuste buitenmuur een o zo lichte knik vertoont, zal de
ene landmeter wel een tussenpunt bij de vermeende knik aanmeten, de andere landmeter zal dat om
wat voor reden dan ook nalaten. Subjectiviteit bepaalt op zo’n moment het model.

Het kan nog sterker: de ene landmeter meet de vier hoekpunten op van een huis, de andere landmeter
zal alleen de breedte van de voorgevel en de lengte van de zijgevel opmeten en verder aannemen dat
deze twee gevels loodrecht op elkaar staan. De tekenaar, gebruik makend van een tekenprogramma
(app) zal op de kaart de twee gemeten gevels tekenen en op grond van de aantekening op de veldschets,
dat deze twee muren loodrecht zijn, het huis tot een perfecte rechthoek aanvullen.

Als de coördinaten van de hoekpunten van het huis zijn berekend of de rechthoek op de kaart aange-
duid, hebben we ook een voorbeeld hoe een model weer wordt uitgeschakeld:

Het geïdealiseerde punt B, dat nooit bemeten is, krijgt na berekening coördinaten, nadat er een
rechthoekig model is ingeschakeld. Deze coördinaten worden toegevoegd aan een baksteen van
hoekpunt B. Het model (het rechthoekig veronderstelde huis) is op dit moment uitgeschakeld. De
coördinaten van hoekpunt B leiden van nu af aan een eigen bestaan.

2.5 Hoe zet men een model op?

Voorgaand voorbeeld illustreert dat men aan de ene kant modellen moet kiezen zodanig dat er weinig
ruimte is voor subjectiviteit. Dit vindt zijn beslag in stringente richtlijnen voor de inkleding van data-
inwinning. Aan de andere kant moet een model en de meetopzet die daarop wordt losgelaten, zodanig
zijn dat model- en meetfouten in redelijke mate snel ontdekt worden. Ook mag de "simpelheid"van
het model de operationele toepasbaarheid niet in gevaar brengen.

Het model moet zodanig worden opgezet dat het antwoord geeft op de dingen die men als geodeet
of data-analist wil weten met een vooraf aangegeven nauwkeurigheid. Het model moet zo opgezet
zijn dat meetfouten aan het licht kunnen komen, maar ook zodanig dat het model en de daarin
verwerkte hypothesen verifieerbaar zijn. Ook hier geldt vooral bij het laatste punt dat de operationele
definitie/praktische toepasbaarheid nimmer uit het oog mag worden verloren: de kapitein hoeft zich
niet aan het begin van elke reis af te vragen of de straal van de bol, die als model fungeert voor de
aarde waarover hij navigeert, wel juist is ingevoerd in de navigatie-apparatuur.
12 2. De rol van het model

2.6 Geven modellen verschillende uitkomsten?

De redenering die een geodeet of data-analist tijdens de modelvormingsfase volgt, leidt er bijna onver-
mijdelijk toe dat verschillende geodeten verschillende modellen voor één en dezelfde probleemstelling
zullen ontwikkelen. De gekozen uitgangspunten kunnen verschillend zijn (bijvoorbeeld de aarde in dit
gebiedje mag als vlak óf moet juist als bolvormig verondersteld worden), verschillende redeneringen
gevolgd tijdens het probleem-oplossingsproces leiden tot verschillende modellen. Het zal niemand dan
verbazen dat de hieruit voortvloeiende oplossingen ook verschillend zijn.
Om nogmaals een voorbeeld uit de landmeetkundige praktijk te nemen: de keuze van het landmeet-
kundig instrumentarium en de gevolgde meetopzet vormen belangrijke beslismomenten. De keuze van
een model en de inschakeling daarvan èn het moment van uitschakeling zijn de meest belangrijke,
meest principiële activiteiten van een geodeet tijdens welk probleemoplossingsproces dan ook.
3
Centrum en spreiding van meetuitkomsten

We hebben in paragraaf 1.2 gezien, dat met behulp van de meetuitkomsten van een gemeten afstand
het gemiddelde en de standaardafwijking berekend kunnen worden, zie formules (1.1) en (1.2). Van
de meetuitkomsten kunnen we ook een histogram maken.
In paragraaf 1.3 is getoond, dat de kromme van Gauss (zie figuur 1.2) een goede benadering is van
een histogram van meetuitkomsten.
In het voorgaande hoofdstuk 2 is uitgelegd, wat een model binnen de geodesie en data-analyse is.
We kunnen nu zeggen, dat de kromme van Gauss een model is voor het histogram. We noemen
de midwaarde en de standaardafwijking van de populatie (zie formule (1.3)) twee modelparameters.
De modelparameters worden met Griekse letters aangegeven. Voor de midwaarde is dat de Griekse
letter µ (uitspraak: mu) en voor de standaardafwijking van de populatie de Griekse letter σ (uitspraak:
sigma).
Als we het gemiddelde berekenen, kunnen we dat zien als een schatting van de midwaarde. Evenzo
is de standaardafwijking van de steekproef een schatting van de standaardafwijking van de populatie.
Enerzijds hebben we de modelparameters µ en σ, anderzijds de schattingen x̄ (gemiddelde) en s
(standaardafwijking van de steekproef).
In dit hoofdstuk gaan we zien, dat naast het gemiddelde en de standaardafwijking van de steekproef er
ook andere grootheden zijn, waarmee we een indruk kunnen krijgen van het centrum van de kromme
van Gauss en de spreiding van de waarnemingen. In de volgende paragrafen komen eerst drie groot-
heden aan de orde, waarmee we een indruk krijgen van het centrum, de zogenaamde centrummaten.
Daarna komen grootheden aan de orde die een indruk gevan van de spreiding van de waarnemingen,
de spreidingsmaten.
3.1 Centrummaten

In de volgende drie deelparagrafen komen drie centrummaten aan de orde: het gemiddelde, de mediaan
en de modus. Als voorbeeld wordt de volgende meetreeks genomen:
6, 8, 8, 8, 9, 9, 10, 12, 13, 13, 14.
De meetreeks kan bijvoorbeeld het resultaat zijn elf gemeten waarden van dezelfde afstand, waarvan
alleen de millimeters in de bovenstaande meetreeks zijn opgenomen. Van deze meetreeks worden het
14 3. Centrum en spreiding van meetuitkomsten

gemiddelde, de mediaan en de modus berekend. We zullen zien, dat er drie verschillende waarden
uitkomen. Belangrijk is te constateren, dat het niet zo is, dat één van de drie waarden goed is en de
andere fout zijn. Het zijn alle drie schattingen en we weten op grond van deze meetreeks niet, welke
van drie het dichtst in de buurt van de midwaarde zit.

3.1.1 Gemiddelde

Om het gemiddelde te berekenen van de meetuitkomsten van een gemeten afstand, tel je alle gemeten
waarden bij elkaar op en deel je het resultaat door het aantal. In formulevorm is dat formule (1.1):

n
X
xi
i=1
x̄ =
n

Voor de kleine meetreeks, die hierboven staat, is het gemiddelde 10.

Het gemiddelde is een veelgebruikte maat om de midwaarde te schatten. Let erop, dat de schatting
van de midwaarde met behulp van het gemiddelde heel slecht kan zijn, als het aantal meetwaarden
klein is.

3.1.2 Mediaan

De mediaan is een andere maat, waarmee je een schatting van de midwaarde kunt krijgen. De mediaan
bereken je door alle waargenomen waarden op een rij te zetten van klein naar groot en vervolgens de
middelste waarde te nemen.

Voor de kleine meetreeks, die hierboven staat, is de mediaan 9.

Het voordeel van het gebruik van de mediaan ten opzichte van het gemiddelde is, dat uitschieters
in de gemeten waarden geen invloed hebben op de schatting. Neem als voorbeeld de bovenstaande
meetreeks, maar vervang de laatste 14 door 24. In de geodesie en data-analyse is het voorstelbaar,
dat 24 is geregistreerd door een menselijke fout of een fout van de sensor (het meetinstrument). Het
gemiddelde van de meetreeks is nu 10,90909 (afgerond op vijf deciamalen), maar de mediaan is nog
steeds 9!

3.1.3 Modus

De modus van een meetreeks is de waarde, die het meest voorkomt. Voor de kleine meetreeks, die
hierboven staat, is de modus 8.

Merk op, dat de modus voor veel meetreeksen in de geodesie en data-analyse niet bruikbaar is, omdat
de meeste gemeten waarden slechts eenmaal voorkomen. Als er toevallig een waarde is, die twee keer
voorkomt, wordt die waarde als schatting voor de midwaarde genomen, terwijl deze waarde ver van
de midwaarde kan afliggen.
3.2. Spreidingsmaten 15

3.2 Spreidingsmaten

Meetuitkomsten hebben altijd toevallige afwijkingen. In hoofdstuk 1 is daar uitgebreid op ingegaan.


Daar is getoond, dat een histogram duidelijk laat zien, hoe meetuitkomsten rond een midwaarde
uitgespreid zijn. Als maat voor de spreiding is daar de standaardafwijking behandeld. In de komende
paragrafen komen de standaardafwijking, maar ook enkele andere maten, aan de orde, waarmee men
een indruk kan krijgen van de spreiding van meetuitkomsten. Als voorbeeld wordt opnieuw de volgende
meetreeks genomen:
6, 8, 8, 8, 9, 9, 10, 12, 13, 13, 14.

3.2.1 Bereik

Het bereik van een reeks meetuitkomsten is het verschil tussen de kleinste en de grootste waarde,
die in de reeks voorkomt. Voor de hierboven staande kleine meetreeks is de kleinste waarde 6 en de
grootste waarde 14. Het bereik is het verschil tussen beide waarden: 8.
Vaak denkt men, dat de standaardafwijking aangeeft, hoe groot het bereik is. Men denkt, dat (vrijwel)
alle gemeten waarden binnen het interval (gemiddelde minus de standaardafwijking) en (gemiddelde
plus de standaardafwijking) valt. Dat is niet het geval! Omdat in de beroepspraktijk deze foute
opvatting echt heel vaak voorkomt, is het belangrijk zich dit te realiseren. In de volgende paragraaf
komen we erop terug.

3.2.2 Standaardafwijking

De standaardafwijking , ook standaarddeviatie genoemd, zijn we al uitgebreid tegengekomen. De


standaardafwijking van de populatie, aangeduid met de Griekse letter σ, is een modelparameter van
de kromme van Gauss. De midwaarde µ is ook een modelparameter van de kromme van Gauss. De
modelparameters µ en σ zijn in figuur 3.1 weergegeven.

68,2%
Relatieve frequenties

95%

99,7%

2,1% 13,6% 34,1% 34,1% 13,6% 2,1%

µ-3σ µ-2σ µ-σ µ µ+σ µ+2σ µ+3σ


Meetwaarden

Figuur 3.1: Normale verdeling (kromme van Gauss). Bron: Tikz-code van John Canning (licht gewijzigd)

Te zien is, dat de midwaarde µ precies in het midden van de kromme van Gauss ligt. De waarde
µ + σ ligt rechts ervan en µ − σ links ervan. Uit de figuur blijkt, dat 68,2% van de meetwaarden in
16 3. Centrum en spreiding van meetuitkomsten

het interval van µ − σ tot µ + σ ligt. Dat betekent, dat 31,8% niet in dat interval ligt! Het betekent
ook, dat dit interval veel kleiner is dan het bereik, zoals dat in de vorige deelparagraaf is gedefinieerd.
Om een interval te krijgen, dat enigszins in de buurt van het bereik komt, moet je het interval van
µ − 2σ tot µ + 2σ kiezen (95% van de meetwaarden valt hierbinnen). Dit interval wordt in de praktijk
het meest gebruikt. Als je voor zeker wilt gaan, kies je het interval van µ − 3σ tot µ + 3σ, waarbinnen
99,7% van de meetwaarden valt, zie figuur 3.1.
Uit de figuur valt op te maken, dat de standaardafwijking een soort gemiddelde afwijking van de
midwaarde is. Het is dus niet de maximale afwijking, die je nodig hebt om het bereik te bepalen.

3.2.3 Variantie

De variantie is het kwadraat van de standaardafwijking. Let op de ’n’ in het woord: er staat variantie
en niet variatie!
Het begrip variantie is van belang, omdat standaardafwijkingen zich “kwadratisch voortplanten”. Als
meetwaarden van verschillende grootheden bij elkaar worden opgeteld, dan krijg je de standaardafwij-
king van de resulterende grootheid niet door de standaardafwijkingen van de afzonderlijke grootheden
bij elkaar op te tellen. Je moet de kwadraten van de standaardafwijkingen (ofwel: de varianties) bij
elkaar optellen. Er valt veel meer hierover te zeggen, maar dat valt buiten het kader van dit dictaatje.

3.2.4 95%-betrouwbaarheidsinterval

Omdat het begrip standaardafwijking het gevaar in zich heeft, dat gebruikers in de praktijk het
verkeerd interpreteren, wordt vaak het 95%-betrouwbaarheidsinterval gebruikt om de spreiding van
meetuitkomsten te beschrijven. Het is het interval dat in de vorige deelparagraaf is gedefinieerd als
het interval van µ − 2σ tot µ + 2σ, zoals dat in figuur 3.1 is te zien.

3.3 Precisie, betrouwbaarheid en nauwkeurigheid

In hoofdstuk 1 zijn drie typen fouten of afwijkingen onderscheiden: grove fouten, systematische fouten
en toevallige afwijkingen. De toevallige afwijkingen (ook wel stochastische afwijkingen genoemd)
worden aangeduid als ruis of meetruis. Maar de grove en systematische fouten zijn geen ruis. Voor
meetruis kun je het gemiddelde en de standaardafwijking berekenen, voor grove en systematische
fouten kan dat niet. Toch worden de gemeten waarden van meetuitkomsten bepaald door zowel
meetruis als grove en systematische fouten. Om het verschil uit elkaar te houden, worden de begrippen
precisie en betrouwbaarheid gebruikt. Daarnaast wordt het begrip nauwkeurigheid gebruikt.
In het dagelijkse gebruik en ook in de beroepspraktijk worden de begrippen precisie, nauwkeurigheid
en betrouwbaarheid door elkaar gebruikt. In de geodesie is ervoor gekozen aan de begrippen een
duidelijke betekenis te geven. De begrippen worden onderstaand gedefinieerd. De hier gebruikte
definities zijn overgenomen uit de Handleiding voor de Technische Werkzaamheden van het Kadaster
(Polman en Salzmann, 1996).
Precisie: de spreiding van een stochastische grootheid ten opzichte van haar gemiddelde. Een maat
voor de precisie van een enkele grootheid is de standaardafwijking.
3.4. Meer meetgrootheden en correlatie 17

Merk op, dat een meting heel precies kan zijn, maar wel fout. Als je de afstand van een hoek van
een huis naar de hoek van een ander huis meet en dat vijf keer herhaalt, kunnen de meetwaarden heel
precies zijn: ze liggen dicht bij elkaar in de buurt. Maar als je naar de verkeerde hoek van het huis
hebt gemeten, zijn al die metingen wel foutief. Daarmee komen we op het begrip betrouwbaarheid,
waarvoor ook de definitie volgens Polman en Salzmann (1996) wordt gegeven.
Betrouwbaarheid : de gevoeligheid van het meetontwerp voor modelfouten. De betrouwbaarheid
wordt beschreven door de mate waarin modelfouten kunnen worden opgespoord en hun invloed op de
resultaten.
Om deze definitie te begrijpen is het handig een eenvoudig voorbeeld te nemen. Drie meetspijkers1
zijn op drie verschillende plekken in de grond geplaatst op precies dezelfde hoogte. Stel je de driehoek
voor, die de verbindingslijnen tussen de drie meetspijkers vormen. Stel je vervolgens voor, dat je een
instrument neemt om de drie horizontale hoeken van de driehoek te meten. Je herhaalt de metingen
twee keer, zodat je drie meetwaarden krijgt voor de eerste hoek, drie voor de tweede hoek en drie
voor de derde hoek.
Door de meetruis zullen de drie meetwaarden van elke hoek steeds verschillend zijn. Je bepaalt voor
elke hoek het gemiddelde. De gemiddelden van de drie hoeken bij elkaar opgeteld zullen niet precies
180◦ zijn.
Wat hierboven is opgeschreven is het meetontwerp. Dit meetontwerp is gevoelig voor modelfouten
en dat is goed en belangrijk. Daardoor kan bepaald worden of er grove of systematische fouten in het
meetontwerp zitten. Dan kan, doordat we voor elke hoek kunnen zien of één van de meetwaarden erg
afwijkt van de andere waarden. Dat kan betekenen, dat er een grove of systematische fout aanwezig
is. Bovendien moeten de drie gemiddelden bij elkaar opgeteld 180◦ zijn. Als de berekende waarde
daarvan erg afwijkt, kan ook dat wijzen op een grove of systematische fout.
Een grove of systematische fout wordt in de bovenstaande definitie gezien als een modelfout. Dat
komt, doordat de grove of systematische fout ervoor zorgt, dat het model niet klopt; het model is
fout.
Als het meetontwerp gevoelig is voor grove en systematische fouten, zeggen we, dat het meetontwerp
betrouwbaar is.
Nauwkeurigheid : Het totaal van precisie en betrouwbaarheid.
Nauwkeurigheid van een meting omvat dus zowel de meetruis (de precisie) als de grove en systema-
tische fouten (die worden gevonden, als de betrouwbaarheid van het meetontwerp goed is).

3.4 Meer meetgrootheden en correlatie

We hebben tot nu toe de situatie behandeld, dat van één grootheid (bijvoorbeeld de breedte van
een huis) één of meer meetwaarden worden bepaald. In de praktijk zijn er vrijwel altijd meer dan
één grootheden (bijvoorbeeld de lengte, breedte en hoogte van het huis), waarvoor je meetwaarden
wilt hebben. Het is zelfs zo, dat een geodeet of data-analist vaak honderden, duizenden of miljoenen
grootheden van meetwaarden wil voorzien. Als een voorbeeld kan de laserscan van een huis dienen.
Miljoenen puntjes worden aangemeten door met de laserscanner de x-, y- en z-coördinaten van al die
puntjes te bepalen.
1
Zoek op internet op, wat een meetspijker is. In Vlaanderen wordt het een meetnagel genoemd.
18 3. Centrum en spreiding van meetuitkomsten

Om de precisie van dergelijke puntenwolken te bepalen is meer statistiek nodig: de kromme van Gauss
voldoet niet meer en er meten meerdimensionale wiskundige functies worden gebruikt. Bovendien
kunnen al die coördinaten met elkaar gecorreleerd zijn, wat het ingewikkelder maakt om uitspraken
over precisie en betrouwbaarheid te doen.
Deze materie wordt niet in dit dictaatje behandeld. Verwezen wordt naar de desbetreffende literatuur,
bijvoorbeeld mijn dictaat daarover (Velsink, 2021).
Bibliografie

[1] J. E. Alberda en J. B. Ebbinge. Inleiding Landmeetkunde. Vierde uitgave. Delftse Uitgevers


Maatschappij b.v., 1990. isbn: 90 6562 009 5.
[2] W. Baarda. Eenheden, dimensies, meten en meetnauwkeurigheden. Herdruk van uitgave van
1965/1966. Laboratorium voor geodetische rekentechniek, Technische Hogeschool Delft (nu:
Technische Universiteit Delft), 1976.
[3] dr.ir. B.H.W. van Gelder e.a. Introductie Geodesie. Collegedictaat ge06. TU Delft, Faculteit der
Geodesie, 1991.
[4] prof.dr. G. Geerts, dr. H. Heestermans en dr. C. Kruyskamp. Van Dale, Groot Woordenboek der
Nederlandse Taal. Van Dale Lexicografie B.V .Utrecht/ Antwerpen, 1989.
[5] J. Polman en M. A. Salzmann. Handleiding voor de Technische Werkzaamheden van het Kadas-
ter. Kadaster, Apeldoorn, 1996. isbn: 90-803078-1-5.
[6] R. Lopuhaä. Statistiek I voor Geodesie, collegedictaat bij het college a99A. 1992.
[7] E. M. Mikhail en G. Gracie. Analysis and adjustment of survey measurements. Van Nostrand
Reinhold New York, 1981.
[8] H. Velsink. Kleinste kwadraten en statistische toetsing. Dictaat Hogeschool Utrecht. 2021.
20 Bibliografie
Index

95%-betrouwbaarheidsinterval, 16 mediaan, 14
meetontwerp, 17
afronden, 3 meten, 1
afwijkingen midwaarde, 4, 5
stochastische, 2 model, 2, 9, 13
toevallige, 2 inschakeling, 11
uitschakeling, 11
bereik, 4, 15 modelfouten, 3
betrouwbaarheid, 17 modelparameters, 13
blunder, 2 modus, 14
centrummaten, 13 nauwkeurigheid, 17
centrumwaarde, 4 normale verdeling, 6
correlatie, 17
precisie, 16
empirische wet van de grote aantallen, 5
experimentele limietproces, 5 relatieve frequenties, 4
resolutie, 3
factor, 2 ruis, 4, 16
fouten
grove, 1, 16 schatting, 13
model-, 3, 17 van de midwaarde, 13
systematische, 2, 16 van de standaardafwijking, 13
frequentie, 4 spreiding, 5
relatieve, 4 maat voor de, 5
spreidingsmaten, 13
Gauss standaardafwijking, 5, 15
kromme van, 6 van de populatie, 5
gemiddelde, 14 van de steekproef, 5
grove fouten, 1 standaarddeviatie, 5, 15
stochasticiteit, 3
histogram, 3, 4 systematische fouten, 2

idealisatie, 11 term, 2
idealiseren, 2 toevallige afwijkingen, 2

kans, 6 uitbijter, 2
kromme van Gauss, 6 uitschieter, 2, 14

limiethistogram, 5 variantie, 16
limietproces verwachtingswaarde, 5
experimenteel, 5

You might also like