Professional Documents
Culture Documents
Leerboek BI
Hoofdstuk 1
1.1. Wat is Business Intelligence?
1.1.1. Definitie
De officiële definitie voor Business Intelligence is: “An umbrella term that includes the
applications, infrastructure and tools, and best practises that enable access to and analysis of
information to improve and optimise decisions and performance” - Gartner
Business Intelligence is dus in feite een parapluterm waar heel erg veel onder kan vallen.
De belangrijkste delen van deze omschrijvingen zijn de woorden Informatie en beslissingen.
Business Intelligence draait namelijk om het beter in staat zijn beslissingen te nemen op basis
van informatie. Voordat iets informatie is, zijn het alleen nog maar gegevens. Deze gegevens
worden informatie wanneer deze gebruikt kunnen worden in de besluitvorming. Een andere
omschrijving van BI is Making Better Decisions Faster. BI draait er namelijk om de mensen in
een organisatie beter in staat te stellen hun werk te doen. Wanneer zij goed geïnformeerd
worden zullen ze beter besluiten nemen, daarnaast moet die informatie tot hun beschikking
staan op het moment dat ze het besluit moeten nemen.
Door gebruik te maken van semantische modellen kunnen deze problemen verholpen
worden. Een semantisch model is een abstractielaag die betekenis en verbanden toevoegt
aan de gegevens in een database. Een kubus is een meerdimensionale draaitabel.
1.2.5. Datamining
Datamining is het gericht zoeken naar (statistische) verbanden in gegevensverzamelingen
met als doel profielen op te stellen voor wetenschappelijk of commercieel gebruik.
Hoofdstuk 2
2.1. Business Intelligence in de organisatie
2.1.1. Volwassenheid
Business Intelligence wordt als een waardevolle kerncompetentie beschouwd. Lang niet
in alle organisaties wordt BI als een kerncompetentie gezien. Bedrijven gebruiken een
volwassenheidsmodel om te bepalen hoever ze zijn in het BI proces. Zo is er een model met
de volgende 5 fases:
1. Prenatale Fase: geen sprake van BI
2. Peuterfase: een of andere vorm gebruik makend van wat wel spreadmarts worden
genoemd. Een spreadmart is een decentrale gegevensverzameling, voor eigen gebruik
gemaakt door een individu, vaak opgebouwd met een spreadsheetprogramma.
3. Kindfase: er komt regie in de BI. Er komt een centrale datamart.
4. Volwassen fase: Datamarts worden gevoed vanuit het centrale datawarehouse.
Het datawarehouse wordt de ‘single version of the truth’.
5. Ontwikkelde fase: Er worden gevorderde analyses gedaan. BI is uitgegroeid tot een
competentie.
Groei: Wanneer een bedrijf in de ontwikkelde fase komt, is het verstandig om gebruik
te gaan maken van een Business Intelligence Competence Center. Een BICC is een speciaal
multidisciplinair team dat zich volledig richt op het doen van BI binnen de organisatie. Van
kritiek belang voor elke BI-implementatie is de acceptatie door de eindgebruikers.
2.1.3. Ambitie
Om de ambitie van een organisatie te kunnen inschatten wordt gebruik gemaakt van de
Business Intelligence Maturity Matrix. Deze dient 2 doelen, het bepalen waar men nu staat
en
bepalen wat de ambities ten aanzien van BI
zijn. Wanneer beide punten duidelijk zijn,
kan er een roadmap gemaakt worden dat
ertoe moet leiden dat de ambitie gerealiseerd
gaat worden. Het hoogste ambitieniveau is
het behalen van een intelligente
organisatie. Informatie en vooral het
gebruik van informatie is een integraal
onderdeel geworden van de organisatie. BI
is niet langer een project, maar een
belangrijk en
lOMoARcPS D|1580045
continu proces binnen de organisatie. De organisatie leert en past zichzelf aan. Innovatie is
een belangrijke drijfveer/ambitie. In de intelligente organisatie is BI het gewone werk
geworden en is BI van duur project verworden tot kerncompetentie.
2.1.4. Implementatie
De eerste stap bij het implementeren is het bepalen van het doel. Deze moet bepaald
worden voor 3 verschillende niveaus:
1. Strategisch niveau: hoogste niveau en behoort tot hoger management. De strategie
van een organisatie is de manier waarop een organisatie als geheel denkt haar doelen te
gaan behalen. In het kader van dit hoofdstuk betekent strategisch het maken van de keuze
welke rol BI speelt binnen de organisatie. Op strategisch niveau spreken we van het
richten van BI.
2. Tactisch niveau: Gemaakte strategische keuzes ten uitvoer te brengen. De roadmap
is het stappenplan om de gestelde ambitie te bereiken. Op tactisch niveau spreken we
van het inrichten van BI.
3. Operationeel niveau: het uitvoeren van zaken. Mensen moeten daadwerkelijk gegevens
verzamelen en analyseren. Op basis van de opgedane kennis moeten beslissingen genomen
worden. Op operationeel niveau spreken we van het verrichten van BI.
Wanneer iets besloten wordt op het gebied van BI moet er aan een aantal aspecten
gedacht worden. Deze zijn:
➡ Scope: Scope is het afbakenen wat wel en ook vooral wat niet een onderdeel is van
een project. Een deel van de problemen in de informatievoorziening die we proberen op
te lossen, komt door onafhankelijke operationele systemen. De BI oplossing moet dus een
geïntegreerde oplossing zijn. Om de scope te bepalen moet er een globaal procesmodel
gemaakt worden. Waarbij je kijkt naar welke processen, wie en producten.
➡ Doelen: Bepaling van doelen en scope is een iteratief proces. Ze moeten voor alle 3
de lagen beschreven worden, en moeten SMART geformuleerd zijn.
➡ Informatiebehoefte: Een informatiebehoefte is de informatie die een werknemer in een
bepaalde functie nodig heeft om zijn of haar functie naar behoren uit te voeren. Er zijn een
paar zaken waar je naar moet kijken bij het vinden van de informatiebehoefte, dit zijn:
➡ Doelgroep: acceptatie en gebruik zijn weer belangrijk. er zijn 4 soorten
gebruikers:
➡ Farmers: vaste, terugkerende informatiebehoefte
➡ Tourists: behoefte aan ad-hoc informatie. Zelf rapporten kunnen
aanpassen
➡ Explorers: gaan analyseren. Rapporten zijn vrij statisch.
➡ Miners: proberen patronen in de gegevens te herkennen.
➡ Meetwaarden: KPI (kritieke prestatie indicatoren). Een indicator laat in 1
opslag zien of het goed gaat met een bepaald proces. Bestaat uit 4
componenten:
➡ meetwaarde
➡ doelstelling
➡ status
➡ trend
Balanced scorecard: het succes van een bedrijf wordt bepaald door meerdere
factoren die onder te verdelen zijn in vier deelgebieden of perspectieven:
lOMoARcPS D|1580045
• niet genoeg in staat mee te groeien: BI is een continu proces en niet een eindig
project. BI is dus geen project maar een van de processen binnen een organisatie.
• te duur en te lang: Zonder een goede scope, bepaald door de organisatie, wordt
een BI-project onbeheersbaar groot.
• richt zich te veel op het verzamelen van gegevens
2.2.2. Informatieanalyse
De informatieanalyse is het proces waarin je achterhaalt wat de doelen zijn en wat de
benodigde behoeften zijn om die doelen te realiseren.
Hoofdstuk 3
3.1. Het datawarehouse
Een datawarehouse is een centrale database gevuld met gegevens uit een of meerdere
aparte bronnen met als doel het maken van rapportages en het doen van data-analyse.
Het is een relationele database. Dat wil zeggen dat de informatie opgeslagen is in de
vorm van tabellen. Een datawarehouse is de ‘single version of the truth’. Om ervoor te
zorgen dat het datawarehouse gebruikt wordt voor rapportages en analyses, moet
ervoor gezorgd worden dat alles wat van belang is erin zit en dat iedereen altijd alleen
het datawarehouse gebruikt voor het verkrijgen van informatie. De gegevens die je
beschikbaar hebt om te gebruiken, bij het vullen van de datawarehouse, zijn vaak
onvolledig en van slechte kwaliteit. De volledige waarheid is daarmee misschien buiten
je bereik, zolang de organisatie de informatie maar vertrouwd en stuurt als de versie
van de waarheid.
3.2. Performance van rapporten Operationele databases zijn geoptimaliseerd voor een
OLTP workload. OLTP staat voor Online Transaction Processing, waarbij het gebruik van
de database zicht kenmerk door veel kleine acties waarbij een relatief groot aantal van
die acties wijzigingen betreft.
3.2.1. Normaliseren
Databases die een OLTP workload ondersteunen, worden in meer of mindere mate
genormaliseerd. Normaliseren van een database voorkomt redundantie en vergroot
de consistentie van de gegevens. Voordelen zijn dat de kans op fouten kleiner wordt
en dat de database in z’n geheel kleiner blijft. Het schrijven in een database gaat sneller
als er minder redundantie in zit. een alleen-lezen workload wordt ook wel een OLAP
workload genoemd, OLAP staat voor Online Analytical Processing, waarbij het gebruik
van de database zich kenmerkt door voornamelijk lezen. Normaliseren geeft geen
voordeel bij een OLAP workload. Een nadeel van normaliseren voor OLAP is dat de
benodigde query’s moeilijk en traag worden. Wanneer grote hoeveelheden gegevens
nodig zijn, zijn genormaliseerde databases slecht voor performance. Met het bouwen
van een DWH heb je de mogelijkheid de gegevens op te slaan in een structuur die
geschikt is om snel en adequaat informatie uit een database te lezen.
Normaliseren heeft een aantal effecten:
• veel verschillende tabellen: om redundantie te voorkomen worden dubbele
gegevens in aparte tabellen gezet
• tabellen worden smal: tabellen bestaan uit relatief weinig kolommen
3.2.2. Indexen
Belangrijk voor de performance is de gekozen indexstrategie. Er zijn 2
hoofdvormen:
• Clustered index: database-engine maakt gebruik van de kennis van
de sorteervolgorde om de gevraagde records snel op te halen. Lezen in de
database is snel, maar schrijven is traag.
• Nonclustered index: verwijzingen naar records zijn gemaakt.
Een datamart of een rapportagedatabase kan indexen bevatten die speciaal
voor rapporten en analyses zijn gemaakt. Dit levert verbeterde performance
op ten opzichte van de bronsystemen en daarmee betere acceptatie.
• Inhoudelijke problemen
• 3.5. gegevens kwaliteit is slecht: De informatie die in de database gezet
wordt kan verschillende kwaliteitsproblemen hebben.
• 3.5.1. Dubbele gegevens: dubbele records in operationele systemen
leiden tot foutieve resultaten tijdens analyses. Doordat een
datawarehouse
lOMoARcPS D|1580045
Hoofdstuk 4
4.1. Dimensioneel modelleren
4.1.1. Inleiding
Dimensioneel modelleren is een manier van database ontwerp, die poogt deze
tekortkomingen weg te poetsen. Uitgangspunt is dat de database een voornamelijk alleen-
lezen workload krijgt (OLAP). Dimensioneel modelleren leidt tot een database met een
zogenaamd stermodel. Een datamart is een database waarvan de fabelstructuur een ster
vormt en die 1 proces uit de organisatie beschrijft. In de theorie van Kimball bestaat het
datawarehouse uit de verzameling van alle stermodellen die tezamen de hele organisatie
beschrijven. Een stermodel is voor een vakinhoudelijk deskundige een gemakkelijke te
begrijpen, en daarmee te gebruiken model. Een stermodel bestaat uit 2 soorten tabellen:
๏ feitentabel: is de tabel waar grootheden die een proces meetbaar maken in
worden opgeslagen. KPI’s worden gebaseerd op deze grootheden.
๏ Dimensietabellen: zijn de tabellen dei de context bevatten die betekenis geeft aan
de feiten.
4.1.2. Modelleren
Vier hoofdstappen om tot een stermodel te komen.
1. kies het te modelleren proces.
Bij normaliseren modelleer je de gegevens en hun verbanden. Bij dimensioneel
modelleren modelleer je de bedrijfsprocessen. dimensioneel modelleren staat dichter bij
eindgebruikers. Start het bouwen van het datawarehouse met het modelleren van een
proces dat gemakkelijk is en veel meerwaarde heeft.
2. bepaal het te gebruiken detailniveau.
De grain is het detailniveau van de datamart. Het detailniveau bepaald hoe groot de
database gaat worden. En heeft daarmee ook invloed op de performance. Een laag
detailniveau resulteert in een grote database met bijbehorende performance-
uitdagingen, maar levert wel de meeste mogelijkheden in termen van welke vragen
beantwoord kunnen worden. Alle beschikbare details opslaan heeft tegenwoordig de
voorkeur. Het grain statement is de uitspraak die vastlegt op welk detailniveau je
gegevens in het datawarehouse gaat opslaan.
3. bepaal de van toepassing zijnde dimensie.
Dimensies geven context, betekenis, aan de cijfers die een proces inzichtelijk maken. De
belangrijkste dimensies volgen uit het grain statement. Het bepalen van het grain
statement en het bepalen van de relevante dimensies is een iteratief proces. Een dimensie
kenmerkt zich door de vele beschrijvende elementen die ervoor te vinden zijn.
4. bepaal de relevante feiten.
Feiten worden ook wel meetwaarden genoemd. De processen, en veranderingen in die
processen, moeten meetbaar zijn.
Laat altijd de wensen en eisen van de gebruikers leidend zijn in je opzet.
4.1.3. Dimensies
To slice and dice staat voor het maken van willekeurige doorsnedes door de feiten. Een
attribuut is een kenmerk van een dimensie, ofwel een kolom in de dimensietabel. Alles
waarop gefilterd of geaggregeerd moet worden, moet een attribuut zijn van een dimensie.
Nadat je de relevante dimensies hebt onderkend, is het zaak zo veel mogelijk relevante
beschrijvende elementen van deze dimensies te benoemen.
Bijna alle datawarehouses hebben een datumdimensie, omdat de tijd een belangrijke rol
speelt in ons leven. Er is een aantal redenen waarom datumdimensies veel meerwaarde
hebben in datamarts.
๏ Gemak van filteren: met een datumdimensie kun je ervoor zorgen dat er voor elke
relevante periode een gedefinieerde kolom bestaat.
๏ Gebroken boekjaren: De datumdimensie bevat de bedrijfsregel die definieert van
wanneer tot wanneer een boekjaar loopt.
๏ Weeknummers: de datumdimensie bevat de bedrijfsregel die definieert in welk
weeknummer een dag valt.
๏ ontbrekende data: Een datumdimensie bevat gegevens over alle periodes, ook
periodes waarin zich geen feiten hebben voorgedaan.
๏ Extra metadata: Een datumdimensie bevat extra informatie over periodes
๏ Performance: In plaats van voor elke query opnieuw met functies een periode te
berekenen, is die berekening vooraf gedaan. Query’s worden sneller.
Bij het bouwen van een datumdimensie moet je op het volgende letten:
๏ gewenste detailniveau: in veel datawarehouses bevat de datumdimensie een
record voor elke dag op de kalender
๏ bepaal de sleutels: een goede datumdimensie bevat voor elke relevante periode
een unieke sleutel in de vorm van een getal en een kolom met een leesbare beschrijving.
๏ Bepaal de overige kolommen: Naast de sleutels bevat de datumdimensie
beschrijvende informatie.
Er zijn een aantal zaken die belangrijk zijn bij het maken van dimensies:
๏ het aantal te maken dimensies: is volledig afhankelijk van de wensen en eisen.
Probeer het aantal dimensies te beperken tot max 6.
๏ Denormaliseren van dimensies: Dimensietabellen zijn platgeslagen, niet
genormaliseerde tabellen die veel redundantie bevatten.
๏ Te kiezen sleutels: Een surrogaten key of datawarehousekey is een automatisch
gegenereerd, uniek betekenisloos nummer dat elke record krijgt toegewezen op het
moment dat het in het datawarehouse wordt weggeschreven.
๏ Soort informatie: Een dimensie bevat bij voorkeur zoveel mogelijk tekstuele
informatie met betrekking tot de dimensie.
4.1.4. Slowly Changing Dimensions
In operationele databases is er een gebrek aan historische gegevens. Dit wordt door
Kimball beschreven als Slowly Changing Dimensions (SCD), hier zijn een aantal oplossingen
voor. De term SCD refereert aan het feit dat attributen van dimensies in de loop van de tijd
kunnen veranderen en draagt standaardoplossingen aan voor hoe hier in het datawarehouse
mee om te gaan.
1. SCD type 1: de oude waarde waarde van een attribuut wordt overschreven door de
nieuwe, actuele waarde. De waarde van het attribuut wordt niet historisch bijgehouden.
2. SCD type 2: bij elke verandering van een attribuut wordt een volledig nieuw record
aangemaakt. Er bestaan ‘actuele’ records en ‘afgesloten’ records.
3. SCD type 3: je houd van een attribuut in 2 verschillende kolommen zowel de huidige
als de vorige waarde bij. Op die manier kunnen huidige en vorige waarde gemakkelijk
vergeleken worden.
Een snowflake is een stermodel waar van een of meer dimensies niet zijn platgeslagen maar
zijn genormaliseerd. Soms is het wel nuttig om te normaliseren:
๏ het maken van zogenaamde conforme dimension: Veel dimensies zullen voor meer
dan een proces interessant zijn. Je wilt deze dimensies zo veel mogelijk hergebruiken bij
alle relevante processen. Een dimensiematrix laat overzichtelijk zien welke dimensies
relevant zijn voor welke processen. Een conformed dimension is een dimensie die
dusdanig generiek is opgezet dat hij door elk relevant stermodel, zonder aanpassingen,
gebruikt kan worden.
๏ beheersbaarheid: Het normaliseren van een dimensie en daarmee maken van een
snowflake kan helpen dimensietabellen klein te houden.
4.1.7. Feiten
Uit de informatieanalyse zijn indicatoren of zelfs KPI’s, naar voren gekomen. Daar wordt
een organisatie op gestuurd. Dat zijn feiten, en die zijn over het algemeen numeriek en
meestal aggregeerbaar. De feitentabel in het sterschema is de centrale tabel in het midden.
Er zijn verschillende soorten feiten.
๏ Additieve feiten: deze kan je bij elkaar optellen
๏ niet-additieve feiten: zijn niet op te tellen, zoals percentages
๏ semi-additieve feiten: in sommige dimensies wel op te tellen en in andere niet
Daarnaast zijn er nog verschillende soorten feitentabellen. De meeste feitentabellen
zijn als het ware registraties van wat er is gebeurd.
๏ accumulating snapshot: is een feitentabel die de huidige status van de feiten
weergeeft maar waarbij feiten nog aan verandering onderhevig kunnen zijn.
๏ periodiek snapshot: is een feitentabel die stand van de feiten weergeeft op een
specifiek moment. Voor een ander moment wordt een ander snapshot gemaakt.
RcPSD|1580045
Hoofdstuk 5
5.1. Inleiding
5.2. Technisch Ontwerp
Nadat je een functioneel ontwerp gemaakt hebt, het functioneel ontwerp van een
database is de gewenste fabelstructuur alleen rekening houdend met de functionele eisen
zoals die naar voren komen uit de informatieanalyse, moet het technisch ontwerp gemaakt
worden. Het doel van een technisch ontwerp is om het functioneel ontwerp aan te passen
aan de werkelijkheid. Dit kwam 2 problemen opleveren zoals dat de performance niet
toereikend zijn, en dat de structuur niet werkbaar is gezien de beperkingen van het DBMS.
Om deze problemen te voorkomen, moet je weten hoe groot de verschillende tabellen gaan
worden.
cPSD|1580045
5.3.1. CPU-capaciteit
De maximum Consumpion Rate is de maximale hoeveelheid data die het DBMS per
seconde per processor core kan verwerken. Je kan deze meten door een query uit te voeren
en te kijken hoeveel data de query ophaalt en wat de query-responstijd was.
5.3.3. Appliances
Een datawarehouse appliance is een geïntegreerde set van servers, opslagmedia,
operating system, DBMS en andere software speciaal geïnstalleerd en geoptimaliseerd voor
datawarehousing. Referenced architecturen zijn vooraf gedefinieerde specificaties van
hardware opgesteld met ervaring van vergelijkbare datawarehouseprojecten uit het
verleden.
5.4. Performance features
• 5.4.1. Indexen Er zit een nadeel aan het gebruiken van indexen:
• database wordt groter: meeste situaties zijn echter ondergeschikt aan de query.
• schrijfperformance wordt slechter: voornamelijk wordt er van deze database
gelezen, en is het schrijven ook niet zo belangrijk.
• 5.4.2. columnstore Een gemiddelde datawarehouse query gebruikt 10 tot 15% van de
beschikbare kolommen uit een tabel. Een columnstore index slaat gegevens kolom voor
kolom op in plaats van rij voor rij.
• 5.4.3. Compressie
Bij compressie wordt de hoeveelheid benodigde opslag kleiner zonder dat er informatie
verloren gaat. Maar de gegevens moeten wel gedecomprimeerd worden als ze worden
ingelezen en gecomprimeerd als ze worden weggeschreven. De processorbelasting van
het serveersysteem gaat dus omhoog.
oARcPSD|15 80045
• 5.4.4. Aggregatietabellen Group By query’s vergen veel rekentijd van de server. Een
view is een virtuele tabel. Omdat de performance van Group By query’s verbeterd kan
worden met aggregatietabellen, moet bij de bepaling van de grain van een feitentabel
gekozen worden voor een laag aggregatieniveau.
• 5.4.5.
Partitionering
Partitionering gaat uit van het idee dat kleine tabellen beter zijn voor de performance dan
grote tabellen. Een grote tabel is op te slaan als een verzameling kleine tabellen. dat kan
op twee manieren:
• Verticale partitionering: Bij verticale partitionering worden kolommen
verdeeld over twee tabellen.
• Horizontale partitionering: Bij horizontale partitionering worden de records
verdeeld over twee of meer tabellen.
Hoofdstuk 6
6.1. Inleiding
ETL staat voor Extract, Transform en Load. De extract staat voor het lezen van gegevens uit
operationele systemen en andere mogelijke bronnen. De load staat voor het vullen van het
datawarehouse met gegevens. De transfer in het midden moet de ingelezen gegevens zo
manipuleren dat de organisatie uiteindelijk bereid is de informatie die uit het datawarehouse
komt, te accepteren als de waarheid. ETL is een groep technologieen die veelal gebruikt worden
bij de koppeling tussen systemen, waarbij er gestreefd wordt naar een minimale technische en
semantische koppeling. Het is een batchproces dat regelmatig gebruikt wordt.
6.2.2. Definities
Master data omvat de categorieën reference data, enterprise structure data en
transaction structure data. Een bedrijf wilt van een bepaald proces 1 centrale datawarehouse
hebben. Dit kan 2 nadelige gevolgen hebben:
• Gegevens komen niet overeen
• Definities zijn niet eenduidig
Master Data komt sterk overeen met dimensies in een datawarehouse.
Master Data Management is een verzameling disciplines en processen die zorgen voor
accurate, complete, tijdige en consistente gegevens voor de belangrijke entiteiten binnen een
organisatie over verschillende databases, afdelingen en landen heen. Het is een continu
proces om een centrale en correcte kopie te krijgen en te houden van de Master Data.
Bovendien blijkt uit de definitie dat MDM niet los gezien kan worden van datakwaliteit.
6.2.3. Implementatie
Bij het vullen van het datawarehouse moet gekozen worden welk systeem leidend is.
De centrale master data is altijd lijdend als er tijden synchronisatie verschillen optreden. Data
Governance staat voor het beleid dat een organisatie voert ten aanzien van gegevens en
informatie. Compliancy is het voldoen aan regels en eisen opgelegd door externe partijen
zoals overheden en toezichthouders. Voor een goede introductie van MDM moet het
volgende aanwezig zijn:
• projectleider die politieke gevoeligheden ziet en begrijpt
• sponsorship van het management
• geode Business Case met een heldere doelstelling
MDM kan op drie punten voordeel opleveren:
• operationeeel niveau minder fouten
• BI niveau eenduidiger analyses maken
• complianceregels zijn makkelijker te voldoen
• duidelijke scope van het project Zoek projecten die gemakkelijk zijn en veel
toegevoegde waarde hebben. Soms kan ook een gedeeltelijke MDM implementatie
voorkomen.
• inzicht in het business model Data stewards zijn mensen met inhoudelijke kennis van
zaken die verantwoordelijk zijn voor de gegevens.
6.3. Implementeren van het ETL-proces
Ook voor het ETL-proces geld, net als voor alle andere onderdelen van BI, dat de
informatieanalyse leidend moet zijn bij het nemen van ontwerpbeslissingen. Welke gegevens,
architectuur en frequentie van het ETL proces, met daarnaast ook beslissingen over de
technische implementatie.
6.3.2. Architectuur
Er zijn een aantal zaken die een rol spelen bij de architectuur:
• hoeveelheid gegevens
• aantal en soort bronnen
• beschikbare tijd van de bronnen
Uit deze zaken valt een architectuur te vormen. De 3 verschillende types zijn:
• zonder staging laag: gebruikt bij kleine hoeveelheden gegevens
• met staging: meer flexibiliteit, herstarten van ETL is gemakkelijk, omgang met
verschillende databases wordt gemakkelijker, in staging kunnen bewerkingen worden
uitgevoerd.
• met twee staging lagen: transformaties kunnen gedaan worden voordat deze in de
dwh komen.
6.3.3. Documenteren
voor documenteren van ETL processen worden high level mapping diagrammen
gebruikt, om de brontabellen helder te krijgen en de ETL te documenteren.
6.4. Datakwaliteit
6.4.1. slechte gegevens
meer redenen dat de kwaliteit van de gegevens niet is wat het zou moeten zijn, zo kan
er sprake zijn van meer verschillende bronnen, de situaties veranderen en gegevens worden
foutief ingevoerd.
6.4.2. Data Cleansing
Data cleansing is he opsporen en verbeteren of verwijderen van inconsistente en
foutieve records uit een verzameling, tabel of database. Als je gegevens overhaalt naar een
MDM implementatie of naar datamarts met de kwaliteit goed zijn.
lOMoARcPS D|1580045
Hoofdstuk 7
7.1. Inleiding
Er zijn 3 eisen die worden gesteld aan gespecialiseerde OLAP databases:
• 7.1.1. Conceptueel en intuitief gegevensmodel
Een stermodel heeft een aantal tekortkomingen om het als OLAP bron te gebruiken:
• technisch gegevensmodel met technische kolommen
• irrelevante technische kolommen: Allemaal voor de analysedoeleinde
overbodige technische kolommen zijn aanwezig.
• auditing gerelateerde kolommen:
• kolomnamen sluiten niet aan: Headers op rapporten moeten duidelijk zijn,
moeten in de taal van het bedrijf geschreven zijn en moeten eenduidig zijn over
alle rapporten heen.
• tabelstructuur levert problemen op voor query generators: semantisch
model wordt vastgelegd hoe verschillende entiteiten uit de organisatie verband
met elkaar hebben.
• nuttige berekende kolommen ontbreken: Een semantisch model vertaalt
een technische database-implementatie in een voor eindgebruikers leesbaar en
begrijpelijk model dat bruikbaar is zonder over technische kennis te beschikken.
• 7.1.2. goede performance hebben Bij het gebruik van datamarts komt de
performance op twee vlakken in het geding.
• tijd om query te schrijven
• query performance: Een OLAP database moeten een betere performance
bieden door de gegevens zelf in een ander formaat op te slaan. Met een OLAP
database of een in-memory database kunnen performance problemen die bij
datamarts een rol spelen voorkomen worden.
• 7.1.3. gemakkelijk voor analysedoeleinden nuttige berekeningen kunnen uitvoeren
Goede OLAP databases hebben krachtige scripttalen om berekeningen te doen.
7.4. Datamining
Gestelde vragen zijn zelf niet duidelijk. De data-analist moet met de gegevens kunnen
spelen. Dat is wat kubussen en in-memory modellen brengen. Vaak analyses van top-down.
8.3.4. Rapporten
Een rapport is een verzameling gegevens die zodanig zijn opgemaakt en weergegeven
dat ze voor de gebruikers bruikbare informatie opleveren.
8.3.5. Security
Hierbij gaat het er om dat je je rapporten moet beveiligen. Je vraagt je dan af wie welk
rapport mag lezen, en wie welke inhoud mag lezen.