You are on page 1of 128

Het Lokaliseren van experts binnen de

onderneming aan de hand van een analyse
van tags.

Masterproef ingediend tot het behalen van het diploma van
Master in de Bedrijfskunde

Student: Berghmans Sarah
Promotor: Professor Van Dyck E.

Academiejaar: 2008-2009

Faculteit van de Economische, Sociale en Politieke
Wetenschappen en de Solvay Business School

i
INHOUDSTAFEL

1. Algemene inleiding p1

2. Collaborative tagging p3

2.1 Introductie p3

2.2 Begripsomschrijving. p3

2.2.1 Enkele definities p4

2.3 Ontologieën p7

2.3.1 Het nut en de mogelijkheden van ontologieën. p7
2.3.2 Zijn er ook beperkingen? P10

2.4 Folksonomieën p11

2.4.1 Populariteit van folksonomieën p12
2.4.2 Een cognitieve analyse van tagging p13
2.4.3 De voordelen van folksonomieën p15
2.4.4 De beperkingen van folksonomieën p17

2.5 FolksOntologieën p19

2.5.1 Waarom FolksOntologieën creëren? p19
2.5.2 Wat zijn FolksOntologieën? p20

2.6 Conclusie p22

3. Het lokaliseren van experts binnen de onderneming p23

3.1 Introductie p23

3.2 Motivatie voor ‘expert finding’. p24

3.2.1 Nood aan informatie. p24
3.2.2 Nood aan expertise. p25

3.3 Evolutie binnen het studiedomein van ‘expert finding systems’. p25

3.3.1 Expert databases en personal webpages p26

ii
3.3.2 Automatische expert finders p27

3.4 Domeinmodel van de expert finding systemen p28

3.4.1 Domein analyse p28
3.4.2 Domeinfactoren p29
3.4.3 Hiaten p31

3.5 Enkele expert finders onder de loep p33

3.5.1 DEMOIR p33
3.5.2 MITRE’s expertfinder. p37
3.5.3 KEAN, a collaborative knowledge filtering system. p41
3.5.4 HERMES p44

3.6 Samenvattende tabel p48

3.7 Conclusie p51

4. Sociale netwerk analyse p52

4.1 Introductie p52

4.2. Sociale netwerken p52

4.2.1 wat zijn sociale netwerken p52
4.2.2 patronen in sociale netwerken p54

4.3. Sociale netwerk analyse p55

4.3.1 Wat is sociale netwerk analyse p55
4.3.2 Sociale netwerk theorieën. p56

4.4 Sociale navigatie p59

4.4.1 Directe en indirecte sociale navigatie p59
4.4.2 Social awareness p61
4.4.3 Sociale netwerken detecteren door een analyse van metadatap62

4.5 Conclusie p64

5. Methodologie p66

5.1 Introductie en research design p66

5.1.1 Introductie p66
5.1.2 Research design p67

iii
5.2 Voorbereidend onderzoek p68

5.2.1 Gerelateerd werk p68
5.2.2 Gekozen technieken voor verder onderzoek p75

5.3 Opbouw van de methodologie p77

5.3.1 Benodigde programma’s p77
5.3.2 Opgeruimd staat netjes p79
5.3.3 Toegepaste technieken en algoritmen p80

5.4 Implementatie van de methodologie p83

5.4.1 High frequency p83
5.4.2 Cumulatieve frequentie p84
5.4.3 TF-IPF, Tag Frequency Inverse Person Frequency p85
5.4.4 Netdraw p88

5.5 Resultaatanalyse p94

5.5.1 Voorbereiding resultaatanalyse p94
5.5.2 De resultaten p95

5.6 Samenvattende tabel p102

5.7 Conclusie p104

6. Finale conclusie p105

8. Bibliografie p108

Bijlagen p114

iv
1. Algemene inleiding

Het lokaliseren van experts binnen een onderneming, is een uitdaging. Dit zowel voor het
management als de werknemers van die onderneming. Het kan een bijzonder tijdrovende job zijn.
Elke onderneming wordt dagelijks geconfronteerd met zeer uiteenlopende problemen. Frequent
voorkomende problemen kunnen door de werknemers zelf worden opgelost of “we kennen wel
iemand” die weet hoe dit probleem moet worden aangepakt. Er kan worden terugvallen op
sociale netwerken die we hebben uitgebouwd. Sommige andere problemen zijn complexer en
niemand uit ons sociaal netwerk kwalificeert als mogelijke expert of hulpverlener. Wanneer geen
enkel aanknopingpunt aanwezig is, wordt opsporen van geschikte personen moeilijk. Kennis
en/of ervaring is het belangrijkste selectiecriterium voor het bepalen van expertise. Maar hoe
kunnen personen worden opgespoord die kennis laat staan ervaring hebben die interessant en
nuttig kan zijn? [SEID et al. 2003] schetsen duidelijk de problematiek binnen het domein van
‘Expert Finding‘. Volgend citaat omschrijft mooi de essentie van het probleem: “If technology is
to foster the effective utilization of the whole range of knowledge in organizations, it has to be
able to support not only access to explicitly documented knowledge but, most importantly, tacit
knowledge held by individuals” 1 . [JOHN,A. et al. 2006] beschrijven in hun paper de
mogelijkheid om experts te lokaliseren door hun tagging behaviour te analyseren. “I tag, therefor
I know”. Een analyse van tags kan iemands interesse en expertise aantonen. [MIKA, P. 2004]
beschrijft zelfs de mogelijkheid om op een dergelijke manier sociale netwerken bloot te leggen.
Vaak beperken papers zich tot het beschrijven van de problematiek en het geven van enkele
aanzetten. Een voorbeeld is het ’ExpertRank’ algoritme, beschreven in [JOHN, A. et al. 2006] dat
concreet wordt uitgewerkt en beschreven maar niet wordt geïmplementeerd. Bovenstaande
schetst de motivatie voor het schrijven van deze Masterproef. Kennismanagement is een grote
uitdagingen voor de maatschappij, ondernemingen, individuen,…om de groeiende massa aan
beschikbare informatie te managen. Het managen van de individuele kennis van personen kan
zeer belangrijk zijn voor ondernemingen. De juiste mensen binnen een korte tijdsspanne
lokaliseren, kan een tijd- en kostenbesparend effect hebben. In deze thesis wordt een
methodologie voorgesteld en uitgewerkt om beschikbare tags te analyseren en zo experts te
deduceren. Deze methodologie zal worden getest op een dataset van een Europese onderneming.

1
[SEID et al. 2003] p2

1
Aan de hand van een persoonlijk gesprek met de respondenten wordt nagegaan of de
methodologie kan bijdragen tot het efficiënt lokaliseren van experts binnen een onderneming.

Vooreerst worden in hoofdstuk 2 enkele belangrijke termen verklaard zoals: tagging, ontologieën,
thesauri, taxonomieën, folksonomieën. Deze begrippen worden niet enkel gedefinieerd, ook de
sterke en minder sterke punten van elk van deze concepten worden vermeld. Aan de hand van de
verschillende voor- en nadelen wordt geconcludeerd dat het combineren van verschillende
concepten behoorlijk wat potentieel inhoudt (vb. FolksOntologies naar [VAN DAMME et al.
2007]).

Een volgend hoofdstuk heeft als doel: de evolutie binnen het domein van ‘Expert Finding’ te
schetsen aan de hand van geraadpleegde literatuur. Ook worden de problemen binnen dit
onderzoeksdomein besproken: waar schieten ‘Expert Finding Systems’ te kort? Welke hiaten
kunnen worden overbrugd? Welke aspecten van expert finders zijn geschikt om erop verder te
bouwen voor verder onderzoek. Er wordt aangetoond dat de problematiek rond het lokaliseren
van experten zeer actueel is. Onderzoek binnen dit domein zal de komende jaren ongetwijfeld
blijven evolueren om relevante informatie en expertise steeds efficiënter te managen.

[MIKA, P. 2005] motiveert met zijn paper dat een analyse van impliciete data sociale netwerken,
interessante sociale relaties en netwerken kan onthullen. In hoofdstuk vier wordt besproken wat
wordt verstaan onder “sociaal netwerk” en “sociale netwerk analyse”. Hoe netwerken tot stand
komen en welke patronen kunnen worden herkend. Het begrip ‘sociale navigatie’
[BIELENBERG et al. 2005] alsook enkele theorieën omtrent sociale netwerk analyse maken ook
deel uit van dit hoofdstuk.

Het centrale aspect van deze Masterproef, wordt uitgewerkt in hoofdstuk vijf. Hierin wordt niet
alleen de opbouw en de uitwerking beschreven van de methodologie. Er worden ook enkele
interessante algoritmen zoals FolkRank en TF-IDF toegelicht. We hebben ons voor het uitwerken
van het algoritme gebaseerd op het MCL cluster algoritme van Stijn van Dongen.
Om na te gaan of het algoritme / de methodologie een meerwaarde kan zijn, wordt een enquête
opgesteld en uitgevoerd. Door een resultaatsanalyse kunnen we besluiten of ons algoritme een
geslaagde manier is om experten te lokaliseren aan de hand van een analyse van tags. Dit zal ook
de basis vormen voor onze finale conclusie.

2
2. Collaborative Tagging

2.1 Introductie

Het schrijven van deze thesis ging gepaard met de opbouw van een uitgebreide terminologie. De
literatuur, gerelateerd aan dit onderwerp, maakt gebruik van een zeer specifieke woordenschat.
Een logische start, is het toelichten van deze termen. Vooreerst wordt een poging gedaan deze
begrippen te verduidelijken aan de hand van enkele definities. Er bestaan verschillende manieren
om kennis te ordenen, elk daarvan heeft zo zijn voor- en nadelen. Om sommige beperkingen van
huidige categorisatie van kennis te overkomen worden enkele vernieuwende technieken
toegelicht zoals collaborative tagging, FolksOntologieën,…

2.2 Begripsomschrijving.

Binnen het domein van knowledge management, kenniswetenschap worden woorden als
ontologie, taxonomie, trefwoordenlijst, thesauri vaak in een adem genoemd. Deze tools worden
aangewend om informatie te ontsluiten, om documenten in een collectie sneller terug te vinden
met behulp van trefwoorden. Het categoriseren van deze documenten en het toekennen van
typerende woorden die een document omschrijven, wordt uitgevoerd door een autoriteit,
bijvoorbeeld een bibliothecaris. Soms worden dergelijke woorden ook afgeleid uit materiaal
aangeleverd door de auteur van het document zelf 2 . Naast geschreven documenten in
bibliotheken of databases, is er op het web een heleboel elektronische informatie beschikbaar.
Om orde in de wanorde van het web te scheppen, werden bookmarking sites ontworpen. Deze
geven personen de kans om interessante bronnen, beschikbaar op het internet, zelf te
categoriseren. De gebruiker kan met behulp van zo’n bookmark systeem een bron zelf benoemen
met typerende woorden die voor hem deze bron omschrijven. Zo kan deze bron later op een
eenvoudige worden teruggevonden. Dit proces wordt in [GOLDER, A. et al. 2006] omschreven
als ‘collaborative tagging’. Met behulp van volgend overzicht van een aantal voorname definities
uit de literatuur, kan de lezer zich een beeld vormen van de inhoud van de woorden die in het
verdere verloop van deze thesis nog vaak aan bod zullen komen.

2
Rowley, J. 2005 in [GOLDER, A. et al. 2006] P 198

3
2.2.1. Enkele definities

Alvorens de verschillende begrippen te definiëren, is het wenselijk de lezer te informeren dat de
besproken classificaties gebaseerd zijn op het gebruik van metadata. Metadata wordt vaak
beschreven als ‘data about data’ 3 . Het is zeer gestructureerde informatie over boeken,
documenten, artikels, foto’s,… ontwikkeld om de onderliggende informatie te structureren en zo
toegankelijker te maken. [MATHES, A. 2004] beschrijft drie categorieën van metadata:
beschrijvende, structurele en administratieve metadata. Beschrijvende metadata identificeert
informatie en wordt gebruikt om deze informatie te organiseren gebaseerd op zijn inhoud.

 Ontologie:
De meest geciteerde definitie is deze van Gruber (1992) 4 :
“An ontologie is an explicit specification of the conceptualization of a shared domain.”
Bert De Winter 5 vertaalde deze definitie als volgt: “Een formele, expliciete specificatie van een
gezamenlijke conceptualisatie.” Volgens De Winter heeft elk woord van deze definitie zijn
belang. ‘Conceptualisatie’ wordt opgevat als het introduceren van symbolen om een domein te
beschrijven. ‘Formeel’ geeft aan dat de ontologie interpreteerbaar moet zijn door een machine.
Het woord ‘gezamenlijk’ duidt erop dat de ontologie niet enkel betekenis heeft voor een bepaald
individu maar geaccepteerd wordt door een hele groep. ‘Expliciet’ betekent dat alle begrippen en
de beperkingen op die begrippen uitdrukkelijk moeten worden vermeld 6 .
Toch wordt deze definitie bekritiseerd in Guarino et al7 . (1995). Daar wordt gesteld dat een
ontologie geen ‘expliciete specificatie van een concerptualisatie’ is, maar een (mogelijk
onvolledige) overeenkomst over een conceptualisatie. Dit aangezien een conceptualisatie een
abstractie is die ontstaat in de hoofden van personen, en die niet expliciet kan worden
gespecificeerd. Een overeenkomst over die abstractie is daarentegen wel mogelijk.

 Taxonomie:
Een taxonomie is een controlled vocabulary, die bestaat uit een verzameling woorden waartussen

3
[MATHES, A. 2004] P 2
4
[GRUBER, T., 1995] P 1
5
DE WINTER, B. 2003. “Ontologie?” Webarticle.
<www.paxamas.be/index?option=com_content&task=view&id=23&Itemid=34 >
6
[DEWULF, M. 2005] P 6
7
[Guarino, N. et al. 1995] P 27

4
hiërarchische relaties zijn gedefinieerd. In [BENJAMINS, R. et al. 1999] wordt een ontologie, die
een onderwerp via begrippen, instanties, relaties, functies en axioma’s beschrijft, gerelateerd aan
een taxonomie. Ontologieën kunnen worden georganiseerd in taxonomieën waardoor overervings-
mechanismen kunnen worden toegepast. Taxonomie en overerving zijn begrippen die hun
oorsprong vinden in de biologie. Een van de oudste taxonomieën is die van Linnaeus, die planten
onderverdeelde in stammen, klassen, ordes, families, geslachten,… Hierbij erft bijvoorbeeld het
geslacht alle kenmerken van de bovenliggende onderverdelingen 8 . Een taxonomie is een
classificatieschema. Classificeren is het hiërarchisch indelen in onambigue categorieën op basis
van overeenkomstige of aanverwante eigenschappen. Deze taak wordt uitgevoerd door personen
die hiervoor een specifieke opleiding volgden, het classificeren van objecten is exclusief 9 . Dit
omdat elke term in een taxonomie onderhevig is aan één of meerdere ouder – kind relaties. De
termen gebruikt in een taxonomie vormen een gecontroleerde woordenschat, waarin alle woorden
een ondubbelzinnige, eenduidige definitie hebben. Een dergelijke woordenlijst wordt
gecontroleerd en onderhouden door een bepaalde persoon of instantie.

 Thesaurus 10 :
Is een collectie van gecontroleerde woordenschattermen, die worden voorgesteld in een bepaalde
netwerkstructuur. Het verschil tussen een taxonomie en een thesaurus is dat een thesaurus gebruik
maakt van associatieve relaties bovenop ouder – kind relaties. De inhoud en/of betekenis van
dergelijke associatieve relaties kan verschillen. Voorbeelden van deze associaties zijn
‘broader/narrower’ relaties om te generaliseren/specificeren. Een voorbeeld verduidelijkt:
Broader term (BT), om meer generieke termen aan te geven (vb ‘wijn’ is een BT van
‘Bordeaux’).
Narrower term (NT), om meer specifieke termen aan te duiden (‘Bordeaux’ is een NT van
‘wijn’).
Related term (RT), om associaties aan te duiden (‘St Estephe’ is een RT van ‘Bordeaux’)
Use for (UF), om aan te duiden dat in een verzameling synoniemen een bepaalde term bij
voorkeur dient gebruikt te worden (‘sommelier’ UF ‘kelner’).

8
[DEWULF, M. 2005] P 14
9
[GOLDER, A. et al. 2005] P 199
10
DE WINTER, B. 2003. Webarticle.
<www.paxamas.be/index?option=com_content&task=view&id=23&Itemid=34 >

5
Het belangrijkste verschil tussen thesauri en ontologieën is dat de mogelijke relaties in een
thesaurus beperkt zijn en meestal ook voor verschillende interpretaties vatbaar zijn. Bij een goed
opgezette ontologie is het wel mogelijk om verschillende relaties ondubbelzinnig weer te geven.

 Folksonomie:
Thomas Vander Wal 11 introduceerde het neologisme folksonomie door de woorden ‘folk’ en
‘taxonomie’ samen te voegen. Een taxonomie is een controlled vocabulary, die bestaat uit een
verzameling waartussen hiërarchische relaties zijn gedefinieerd. De woorden gebruikt om
verzamelingen te benoemen, zijn gekozen door een groep van experts. Gebruikers die informatie
classificeren of opzoeken zijn genoodzaakt zich te baseren op de voorgedefinieerde terminologie.
‘Folk’ verwijst naar de mogelijkheid van de gebruiker om zelf woorden te kiezen voor een
bepaalde verzameling. [MATHES, A. 2004] 12 merkt op dat een folksonomie bestaat uit termen
waarmee geen hiërarchie noch gespecificeerde ouder – kind of broer - zus relaties worden
geïmpliceerd. Folksonomieën zijn woordensets aangewend door een persoon of een groep
gebruikers om inhoud, informatie te labellen of taggen. Deze woordensets zijn geen vooropgezette
classificatietermen. Toch is niet iedereen gewonnen voor de term folksonomie. [MERHOLZ, P.
2004] 13 vindt de term folksonomie incorrect, aangezien het woord werd afgeleid van ‘taxonomie’
dat volgens hem neigt naar hiërarchie en controle. Merholz verkiest de term ‘ethnoclassificatie’.
Hier haalt Mathes(2004) dan weer aan dat dit ook als incorrect kan worden aanschouwd aangezien
het proces waarbij gebruikers metadata toevoegen aan bronnen niet zozeer ‘classificeren’ is, maar
wel ‘categoriseren’ 14 . In Golder et al. (2005) wordt gesproken van collaborative tagging:
“Collaborative tagging discribes the proces by which many users add metadata in the form of
keywords to shared content…Marking content with descriptive terms, also called keywords or
tags, is a common way of organizing content for future navigator, filtering or search… 15 “.
Bielenberg et al. (2005) omschrijven het proces van ‘taggen’ als volgt: “…Tagging of resources
with freely chosen keywords, often called tags. If this categorization proces is done
collaboratively by different users, it is often reffered to as ‘folksonomy’, as coined by Thomas
Vander Wal 16 .”

11
http://vanderwal.net/folksonomy.html (2004)
12
[MATHES, A. 2004] P 5-6
13
http://www.peterme.com/archives/000387.html (2004)
14
[MATHES, A. 2004] P 7 en 11
15
[GOLDER et al. 2005] P 198
16
STERLING, B. 2005. “Order out of Chaos“. Weird (13). In [BIELENBERG et al. 2005] p 12

6
Aan de hand van bovenstaande definities en omschrijvingen wordt volgende omschrijving
gedistilleerd: tags zijn sleutelwoorden die gebruikers aanwenden om metadata toe te voegen aan
gedeelde bronnen. Een folksonomie is het resultaat van het taggen van informatie en objecten
voor eigen informatie retrieval. Taggen vindt plaats in een sociale omgeving waarbij de gelabelde
inhoud wordt gedeeld met andere gebruikers. Een folksonomie wordt gevormd wanneer een
persoon die de informatie verwerkt, deze gaat labelen met één of meerdere tags 17 .

2.3. Ontologieën

Dat er binnen het domein van competence en knowledge management, sinds de explosie van het
internet, nog veel onderzoek kan worden verricht om de huidige aanpak te verbeteren, is
duidelijk. De grote hoeveelheid data en de snelheid waarmee deze data zich uitbreidt, is enorm.
De nood aan systemen om orde te scheppen in deze jungle van informatie, is groot. In volgend
onderdeel wordt dieper ingegaan op het begrip ontologie. Waarom worden ontologieën gebruikt?
Wat zijn de voordelen van dergelijke metadata en is er ook een keerzijde aan de medaille? Voor
volgend onderdeel wordt vermeld dat het begrip ontologie niet in zijn filosofische betekenis
wordt besproken, maar wel als begrip in de informatica.

2.3.1. Het nut en de mogelijkheden van ontologieën

Zoals reeds werd aangehaald is een ontologie een vorm van metadata. Binnen de informatica is
een ontologie de formele voorstelling van een set concepten en hun onderlinge relaties binnen
een domein. Het is de studie van het categoriseren van zaken die bestaan of kunnen bestaan in
een bepaald domein en het product van zo’n studie resulteert in een ontologie. Het is een
catalogus van verschillende types van zaken, hun eigenschappen en onderlinge verbanden die
worden verondersteld te bestaan in een domein D bekeken vanuit het perspectief van een bepaald
persoon die gebruik maakt van een taal T om het domein D te beschrijven 18 . Binnen het
onderzoeksveld rond AI, artificial intelligence, merkten onderzoekers op dat vastleggen van
kennis de sleutel was om grote en krachtige AI systemen te bouwen alsook het creëren van

17
http://vanderwal.net/folksonomy.html
18
[SOWA, J. ] P 1

7
nieuwe ontologieën als ‘computational models’ die een bepaalde vorm van geautomatiseerd
redeneren 19 . In de jaren ’80 werd het woord ontologie gebruikt, binnen de AI gemeenschap, om
te verwijzen naar zowel een theorie over een gemodelleerde wereld als naar een component van
kennissystemen. In 1992 stelt Gruber 20 volgende definitie op voor het begrip ontologie als een
technisch begrip in de computer wetenschap: “an ontology is a formal specification of a
conceptualization”, waarmee hij wil uitdrukken dat een ontologie een beschrijving is zoals een
formele specificatie van een programma, van de concepten en relaties die kunnen bestaan tussen
een tussenpersoon of een gemeenschap van tussenpersonen (agents). Deze definitie komt overeen
met het gebruik van de term ontologie als een set van definities van concepten, alleen is deze
ruimer. Om een conceptualisatie verder te verduidelijken, wordt gebruik gemaakt van axioma’s
die de mogelijke interpretaties van de gedefinieerde termen beperken21 . Het heeft niet lang
geduurd voor het gebruik van ontologieën een weg heeft gevonden naar het World Wide Web.
Gruber (2005) stelt: “Ontologies are enabling technology for the Semantic Web. They are means
for people to state what they mean by the terms used in data that they might generate, share or
consume” 22 . Het uitdrukken van informatie op het internet op zo'n manier dat niet alleen mensen
er mee kunnen omgaan maar dat ook software dergelijke informatie kan interpreteren, lijkt de
toekomst te zijn. Mensen zijn in staat om bepaalde taken uit te voeren op het bestaande World
Wide Web, zoals het zoeken van een vertaling, de laagste prijs van een DVD of het reserveren
van een boek. Een machine (waaronder computers) is niet of zeer slecht in staat om bruikbare
informatie uit webpagina’s te halen, ze kunnen de context die het programma nodig heeft om
informatie te kunnen begrijpen niet zelf genereren. Personen kunnen dit wel. Het toevoegen van
betekenis (semantiek) aan data wordt gedaan met behulp van ontologieën. Hedendaagse
ontologieën delen vele structurele gelijkheden ongeacht de taal waarin ze werden gedefinieerd.
De onderdelen van een ontologie zijn de volgende:

Individuen: de instanties of objecten van de ontologie
Attributen: aspecten, eigenschappen, karakteristieken, parameters die een object kan
hebben.
Klassen: sets, collecties, concepten, verschillende types van objecten.

19
http://tomgruber.org/writing/ontology-definition-2007.htm
20
[GRUBER, T. 1995] P 1
21
[GRUBER, T. 1993] P 3
22
[GRUBER, T. 2005] P 1

8
Relaties: de link die individu en klasse met elkaar verbinden.
Functionele termen: complexe structuren opgesteld op basis van bepaalde relaties die
kunnen worden gebruikt in plaats van een individuele term in een statement.
Beperkingen: formele omschrijvingen waaraan voldaan moet zijn voor bepaalde
beweringen kunnen worden geaccepteerd als input.
Regels: statement in de vorm van een ‘als – dan’ formulering die omschrijft wat het
gevolg is van een bepaalde bewering.
Axioma’s: beweringen, in een logische vorm, die samen de algemene theorie, die de
ontologie beschrijft binnen het domein van een applicatie, samenvat.
Events: het veranderen van attributen of relaties

Ontologieën zijn bedoeld om concepten weer te geven en de relaties tussen deze concepten te
beschrijven om zo de technologie in staat stellen om informatie te delen en te manipuleren. Delen
met andere computerprogramma’s 23 . Ontologieën maken gebruik van natuurlijke taal (controled
natural languages) zoals RDF, DAML, OWL,… Deze zijn allemaal gebaseerd op semantische
netwerken, een verzameling concepten die onderling verbonden zijn via rollen, eigenschappen,
attributen en relaties. De syntax van dergelijke talen werd nauwkeurig vastgelegd. We geven een
voorbeeld van een persoonsontologie, gedefinieerd aan de hand van OWL:

Ontologie: toelichting
Class-def persoon een persoon is een klasse (een verzameling objecten)
Subclass-of zoogdier de klasse persoon is een subklasse van de klasse
zoogdier
Slot-def heeft-dochter de klasse persoon kan gebruik maken van de binaire
relatie (slot) ‘heeft-dochter’
Subslot-of heeft-kind ‘heeft-dochter’ is een subslot van ‘heeft-kind’
Slot-constraint heeft-dochter de binaire relatie ‘heeft-dochter’ wordt een beperking
opgelegd.
Value-type vrouwelijk dochters zijn vrouwelijk.

Metadata beschrijft concepten en hun onderlinge relaties. Zo kunnen er automatisch relaties

23
[GRUBER, T. 2005] P 1

9
tussen concepten gelegd worden. Het World Wide Web Consortium heeft hiervoor onder andere
de RDF- standaard ontwikkeld.

Het doel van ontologieën wordt in [GRUBER, T. 1993] omschreven als een manier om
inhoudspecifieke afspraken te verduidelijken om delen en hergebruiken van kennis mogelijk te
maken tussen software entiteiten.
[GRUBER, T. 2005] merkt op dat ontologie als een gespecificeerde conceptualisatie vaak wordt
verward met een zeer nauwe vorm van specificatie, vb taxonomie of thesaurus. Ontologieën
worden gebruikt in de informatica als een centraal gecontroleerde categorisatie eerder dan een
classificatie.

2.3.2. Zijn er ook beperkingen?

 Hoge kost:
Het creëren en onderhouden van ontologieën brengen hoge kosten met zich mee. De geïnvesteerde
tijd en inspanning zijn enorm 24 . Personen die deze ontologieën opzetten dienen opgeleid te zijn
om concepten en relaties op te sporen en te definiëren met behulp van natural language.
Ontologieën dienen te voldoen aan volgende voorwaarden 25 :
Duidelijkheid: een ontologie moet de bedoelde betekenis van gedefinieerde termen
doeltreffend communiceren. Definities moeten objectief en zo compleet mogelijk zijn, en
waar mogelijk worden uitgedrukt aan de hand van logische axioma’s in ‘natural
language’.
Samenhangend: gedefinieerde axioma’s moeten logisch consistent zijn.
Uitbreidingsmogelijkheden: de mogelijkheid moet bestaan om nieuwe termen te
definiëren voor speciale gevallen, gebaseerd op de bestaande woordenschat, zodat het
onnodig is om alle bestaande definities te herzien.
Gruber (1993) haalt ook aan dat ‘encoding bias’ en ‘ontological commitment’ moet worden
geminimaliseerd. ‘Encoding bias’ ontstaat wanneer een keuze die betrekking hebben tot de
voorstelling uitsluitend worden gemaakt voor het comfort van de notatie of implementatie. Met
‘minimal ontological commitment’ wordt bedoeld dat een ontologie de bedoelde knowledge

24
[MATHES,A. 2004] P 3
25
[GRUBER, T. 1993] P 4 e.v.

10
sharing activiteiten moet ondersteunen door enkel de termen te definiëren die essentieel zijn voor
de communicatie. Een zo algemeen mogelijke ontologie creëren zodat de meeste modellen erop
kunnen worden toegepast. Het creëren van een goede ontologie is steeds een tradeoff tussen de
verschillende voorwaarden.

 Verschillen in ontologie talen:
Wanneer gebruik wordt gemaakt van verschillende ‘natural languages’, kunnen verschillen in de
syntax, verschillen in het definiëren van relaties en verschillen in de expressiviteit van een taal (in
[KLEIN, M. 2004] omschreven als de verschillen in mogelijkheden van verschillende talen) voor
mismatches zorgen.

 Dubbelzinnigheid:
Wanneer een welbepaalde logica wordt gebruikt om een domein te definiëren, is het ondenkbaar
dat alle barrières kunnen worden overkomen. Synoniemen, homoniemen vormen ook bij het
uitwerken van ontologieën een probleem. Het probleem van synoniemen kan eenvoudig worden
opgelost door het inschakelen van een thesaurus, homoniemen stellen een groter probleem. Om te
onderscheiden welke betekenis wordt bedoeld met een bepaald woord menselijke tussenkomst
meestal nodig is 26 .

Ontologieën ontwikkelen kost veel tijd en ze zullen nooit volledig zijn. De mogelijkheid bestaat
zelfs dat ze elkaar zullen tegenspreken. Zijn er dan andere alternatieven?

2.4. Folksonomieën

Zoals reeds werd aangehaald kan het creëren van metadata worden opgesplitst in twee
onderdelen: professionele creatie en ‘user-created’ metadata. In volgend hoofdstuk wordt
besproken hoe deze folksonomieën, zoals deze metadata vaak wordt genoemd, zo populair zijn
geworden en waarvoor ze worden gebruikt. Hoe verloopt het proces van taggen? Wat zijn de
voordelen die folksonomieën bieden en welke beperkingen hebben ze?

26
[KLEIN, M. 2004] P37

11
2.4.1. Populariteit van folksonomieën.

Een vorm van ‘user-created’ metadata werd eind jaren ’90 zeer populair door de opkomst van
weblogs, kortweg blogs 27 . Op dergelijke websites werden links geplaatst voorzien van
commentaar. Die commentaar kan worden beschouwd als ongestructureerde maar expliciete user-
created metadata 28 . Het ontstaan van websites als Del.icio.us 29 , Flickr 30 heeft de groei van user-
created metadata bevorderd. Del.icio.us is geen pionier als bookmark manager, maar wel in het
aanbieden van de mogelijkheid om informatie te beschrijven en te organiseren door toevoegen
van eigen trefwoorden. Dergelijke trefwoorden worden ‘tags’ genoemd. Het succes van
dergelijke systemen zit hem in de eenvoud ervan. Joshua Schachter, de oprichter van Del.icio.us,
beschrijft de site als volgt: “A social bookmarks manager. It allows you to easily add sites you
like to your personal collection of links, to categorize those sites with keywords, and to share
your collection not only between your own browser and machines, but also with others.” 31 Op
de website vinden we volgende omschrijving: “Delicious is a social bookmarking service that
allows users to tag, save, manage and share web pages from a centralized source. With emphasis
on the power of the community, Delicious greatly improves how people discover, remember and
share on the Internet” 32 . Iedereen die zich aanmeldt op de Del.icio.us website met volledige
naam, e-mailadres, username en ook een paswoord kan aan de slag. Tijdens het surfen op het web
kan elke bron, voorzien van een URL, worden opgeslagen. Maar waarom zou iemand een online
bookmark manager gebruiken wanneer bookmarks ook gewoon in je eigen browser kunnen
worden opgeslagen? Bookmarks in je eigen browser zijn enkel vanuit jouw computer
toegankelijk. Wanneer bookmarks online werden geregistreerd, zijn deze vanuit elke computer
beschikbaar, wat zeer handig is bij het gebruik van meerdere pc’s 33 . De gebruikte tags zijn niet
alleen typerende woorden voor de inhoud ervan, ze kunnen later als filter worden gebruikt om
juist die documenten terug te vinden rond één bepaald onderwerp 34 . User-created metadata wint
aan populariteit. Maar hoe gaan personen tewerk bij het labellen van bronnen?

27
http://www.rebeccablood.net/essays/weblog_history.html
28
[MATHES, A. 2004] P 3
29
www.del.icio.us.com
30
www.flickr.com
31
In [MATHES, A. 2004] P 4
32
http://delicious.com/about
33
[GOLDER, S. et al. 2005] P 201
34
Ibidem

12
2.4.2. Een cognitieve analyse van tagging 35 .

Hoe gaan personen te werk bij het selecteren van tags, welke trefwoorden worden gebruikt om
een bron te omschrijven. Het cognitieve proces dat schuil gaat in een gebruiker zijn hoofd wordt
besproken. Rashmi onderkent twee fasen bij het taggen van een bepaalde inhoud:
Related category activation (de activatie van de gerelateerde categorieën).
The decision (de beslissing).

 Stap 1: de activatie van de gerelateerde categorieën.
Deze eerste stap bestaat uit de verwerking van de gelijkenissen tussen het item en de mogelijke
concepten. Bij het zien van een voorwerp worden meteen verschillende semantisch gerelateerde
concepten geactiveerd. Bijvoorbeeld: bij het zien van een fles wijn, komen verschillende
begrippen bij ons op die worden geassocieerd met deze fles wijn: rode wijn, bordeaux, volle
smaak,… Deze begrippen komen voort uit zowel onze impliciete als expliciete kennis en waarvan,
bewust of onbewust, wordt gedacht dat er een gelijkenis bestaat met het voorwerp. In deze fase
wordt er nog niet gefilterd. Er kunnen zoveel associaties worden bedacht als je zelf wenst. Dan
pas begint het categoriseren.

 Stap 2 : de beslissing
Nu mogelijke categorieën werden bedacht, moet enkel nog een beslissing worden gemaakt. De
beste categorie kiezen is iets wat vaak wordt gedaan, bijvoorbeeld bij het zien van een dier: is het

35
RASHMI, S. 2005. “A congnitive analysis of tagging: or how thee lower cognitive cost of tagging makes it
popular.” Webarticle. < http://www.rashmisinha.com/archives/05_09/tagging-cognitive.html >

13
een wolf of een hond? Dit is een cognitief basisproces. Toch is het vaak moeilijk wanneer zaken
moeten worden gecategoriseerd. Rashmi spreekt van een “post-activation analysis paralysis”, Een
beangstigende fase waarbij wordt gevreesd de verkeerde beslissing te maken. Volgende punten
kunnen ons aan het twijfelen brengen:
Digitale objecten bevatten minder culturele kennis of consensus.
In de digitale wereld gaat het niet enkel om het categoriseren, maar vooral om het
lokaliseren van objecten te optimaliseren.
Het gehele gecategoriseerde systeem dient in acht te wordt genomen wanneer een object in een
bepaalde categorie wordt geplaatst want het object achteraf van categorie veranderen is nogal
omslachtig en wordt dus beter vermeden door in eerste instantie je keuze voor een bepaalde
categorie, grondig te overwegen. Zo wordt het object meteen in de correcte categorie gesitueerd.
Wanneer bovenstaand denkproces wordt geactiveerd, beland je volgens Rashmi in de “post-
activation analysis paralysis”. Er wordt wel besloten dat taggen eenvoudiger is dan categoriseren.
Taggen neemt het maken van dergelijke beslissing weg, net omdat een object kan worden
benoemd met verschillende trefwoorden en het zo in verschillende categorieën kan worden
geplaatst. Wanneer verschillende tags kunnen worden gebruikt om informatie te categoriseren,
hebben alle tags dan ook dezelfde functie? In [GOLDER, S. et al. 2005] wordt opgemerkt dat aan
de hand van een analyse van beschikbare data op Del.icio.us, zeven verschillende functies
kunnen worden onderscheiden 36 die tags spelen in een bookmark:
Identificeren waarover het gaat of wie het is. Tags beschrijven merendeels het onderwerp
van de onderliggende bron die wordt opgeslagen. De gebruikte woorden gaan van zeer
algemeen tot zeer specifiek.
Identificeren wat het is. Met behulp van tags kan worden beschreven over welk soort
bookmark het gaat, een artikel, een blog, een boek,…
De auteur identificeren. Sommige bookmarks worden gelabeld met de naam van de auteur
van de onderliggende bron.
Verfijnen van categorieën. Sommige tags blijken gerelateerd te zijn aan andere tags
gebruikt voor een bepaalde bron te omschrijven. Dergelijke tags worden gebruikt om
categorieën te verfijnen.
Kenmerken of karakteristieken identificeren. Adjectieven geven de mening weer van de

36
[GOLDER, S. et al. 2005] P 203

14
gebruiker over de inhoud van de bookmark.
Self reference. Tags die beginnen met ‘my’ of ‘mijn’ geven aan dat er een relatie is tussen
de inhoud van de bookmark en de gebruiker.
Task organizing. Wanneer iemand informatie verzameld rond een bepaald onderwerp om
er bijvoorbeeld een taak over te maken, kan de gevonden informatie worden gelabeld met
hetzelfde trefwoord. Ook kunnen woorden als ‘toread’ verduidelijken dat deze informatie
nog moet worden gelezen, ze beschrijven een taak.
Deze functies kunnen we onderverdelen in twee karakteristieken. De eerste vier functies worden
gekenmerkt door het feit dat de informatie handelt over de bron en niet zozeer de persoon zelf.
Terwijl de laatste drie functies betrekking hebben tot of enkel relevant zijn voor de gebruiker.

2.4.3. De voordelen van folksonomieën

Ondanks het gebrek aan maatstaven om na te gaan of folksonomieën een succes of een
mislukking zijn, worden enkele voordelen, aangehaald in de literatuur, besproken:

 Lage barrières:
Het verschuiven van professioneel ontworpen, duidelijk gedefinieerde categorisatie- en
classificatieschema naar een ad hoc gekozen woordenset om bronnen te organiseren, maakt het
voor gebruikers, en niet alleen voor professionelen, mogelijk om informatie te organiseren zonder
enige training of voorkennis. Taggen laat ons toe zelf begrippen te kiezen om een bron en/of de
inhoud ervan te omschrijven op een manier die voor de persoon zelf verstaanbaar en logisch is.
Biebelberg et al. (2005) merken op dat het taggen van informatie ervoor zorgt dat personen geen
lange begrippenlijsten hoeven te doorzoeken om overeenkomstige en/of correcte categorieën of
subcategorieën te vinden om een item te categoriseren. Bijkomend kan worden gesteld dat de
kosten, zoals tijd, inspanning en de cognitieve kost, voor het categoriseren aan de hand van tags
veel lager liggen dan het classificeren van informatie in thesauri of taxonomieën 37 . Stewart
Butterfield 38 , een van de ontwerpers van Flickr, argumenteert dat het verschil in complexiteit
tussen folksonomieën en proffesionele classificatieschema’s belangrijk is: “I think the lack of
hierarchy, synonym control and semantic precision are precisely why it works. Free typing loose
associations is just a lot easier than making a decision about the degree of match to a pre-defined

37
[MATHES, A. 2004] P 12
38
In [MATHES, A. 2004] P 13

15
category, especially hierarchical ones”. Het is waar dat niet-triviale en belangrijke metadata kan
worden vastgelegd in een folksonomie. Taggen biedt ook de mogelijkheid meerdere begrippen te
koppelen aan een item en overkomt zo één van de beperkingen van vooraf gedefinieerde
categorieën 39 . Intuïtief wordt vastgesteld dat tagging onmiddellijk enkele persoonlijke voordelen
inhoudt. Een persoonlijke collectie bookmarks kan dankzij social bookmarking systems, zoals
Del.icio.us, overal worden gebruikt. En niet alleen eigen tags en bookmarks kunnen worden
geraadpleegd, ook die van anderen, waardoor je kennis sneller uitbreidt 40 .

 Feedback:
Een ander interessant aspect van tagging, besproken in [RASHMI, S. 2005], is dat het feedback
mogelijk maakt. Door items te benoemen met verschillende tags, kan een beeld worden gevormd
van je eigen interesses. Van zodra een bron met een tag wordt benoemd, wordt een cluster van
gerelateerde items zichtbaar die dezelfde tag dragen. Zo wordt duidelijk hoe anderen naar dit item
kijken, hoe ze dit item interpreteren. Dit kan worden afgetoetst aan jouw kennis en standpunt.
Wanneer dit afwijkt van die verwachtingen, kan dit een motief zijn om je gebruikte tag te
veranderen of andere toe te voegen. Dit proces kan een cyclus van positieve bevestiging op gang
brengen die personen kan motiveren om nog meer actief te taggen 41 . Feedback kan ook helpen om
je kennis te verdiepen, bij te schaven. Gebruikte tags zullen samen met het interesseveld en kennis
van een persoon evolueren 42 . Aangezien het begrijpen van informatie een retrospectief proces is,
moet informatie eerst worden verwerkt voor het kan worden begrepen. Sommige nuances of een
bepaald onderscheid kunnen pas later worden ontdekt en toegepast. Uit voorgaande kunnen we
besluiten dat gebruikte tags in zekere zin representatief zijn voor de kennis en interesse van de
gebruiker. Deze aanwijzing wordt gebruikt als bouwsteen voor het experiment dat in hoofdstuk
vijf wordt besproken.
Het aanwezig zijn van feedback leidt tot een vorm van asymmetrische communicatie tussen
gebruikers door het gebruik van metadata 43 . De gebruikers van zo’n systeem onderhandelen
onbewust over de termen in een folksonomie door de individuele keuzes die ze maken, door de
tags die ze gebruiken om de documenten te omschrijven. Volgens [MATHES, A. 2004] komen

39
[BIELENBERG et al. 2005] p 14
40
[MILLEN et al. 2006] P 2
41
http://www.rashmisinha.com/archives/05_09/tagging-cognitive.html
42
[GOLDER, S. et al. 2005] P 203
43
[MATHES, A. 2004]

16
die keuzes grotendeels voort uit persoonlijke motivatie om materialen te organiseren en later
makkelijk terug te vinden. Maar ook wordt de gebruiker beïnvloed door andere gebruikers die
dezelfde tag gebruiken. Een folksonomie verlaagt ook de barrière voor samenwerking. Groepen
van gebruikers dienen niet akkoord te gaan met een hiërarchie van tags zoals in een taxonomie. Ze
hoeven enkel in zekere mate akkoord te gaan met de betekenis van een bepaalde tag zodat
gelijkaardig materiaal, similaire bronnen met dezelfde termen worden gelabeld.

 Vindbaarheid:
[MATHES,A. 2004] merkt op dat browsing inter-gerelateerde tagsets zeer interessant is om
toevallig interessant materiaal te lokaliseren. Een zoekactie uitvoeren op basis van tags, levert
vaak heel wat recent materiaal van zeer gevarieerde auteurs op, die men aan de hand van andere
zoekacties niet had gevonden.

2.4.4. Beperkingen van Folksonomiën.

De keerzijde van de medaille… Naast de voordelen die folksonomieën bieden, hebben ze toch
verschillende beperkingen. We halen enkele noemenswaardige valkuilen aan zoals polysemie,
synoniemen, acroniemen, wat Golder et al. (2006) ‘basic level variation’ noemen en nog enkele
kleinere details zoals dubbelzinnigheid, het gebruik van spaties en meerdere woorden.

 Polysemie en homoniemen:
In Van Dale wordt polysemie als volgt verklaard:“Het hebben van meerdere betekenissen”.
Wanneer een woord meerdere betekenissen heeft of op verschillende manieren kan worden
geïnterpreteerd, kan dit een vertekend beeld geven wanneer een zoekactie wordt uitvoeren aan de
hand van tags 44 , zo kan een zoekactie vele gerelateerde maar mogelijk onbruikbare items
opleveren. Homoniemen worden in [GOLDER, S. et al 2005] omschreven als woorden met
meerdere ongerelateerde betekenissen. Deze woorden vormen een minder groot probleem
aangezien ze grotendeels kunnen worden uitgesloten door het toevoegen van een extra term aan
de oorspronkelijke zoekopdracht.

44
[GOLDER et al. 2006] P 200

17
 Synoniemen en acroniemen:
Synoniemen krijgen in Van Dale volgende betekenis: “woord dat dezelfde of ongeveer gelijke
betekenis heeft als een of meer andere woorden: aandacht is een synoniem van opmerkzaamheid;
echte synoniemen zijn zeldzaam; bijna altijd is er een verschil in gevoelswaarde of gebruikssfeer;
men spreekt dan wel van partiële synoniemen”.
Een acroniem of letterwoord wordt in Van Daele omschreven: “een woord gevormd uit de
beginletters van andere woorden.” Acroniemen zijn dan weer een probleem omdat ze soms twee
verschillende domeinen en ideeën mixen in een tag. [MATHES, A. 2004] geeft het voorbeeld van
het woord ‘ant’ en ‘ANT’ (actor network theory), twee dezelfde woorden met een volledig
verschillende betekenis. Onregelmatigheden bij de gekozen termen, bijvoorbeeld het gebruik van
synoniemen, maken het de gebruiker moeilijk om met zekerheid te zeggen dat alle relevante,
aanverwante items werden gevonden. Het is moeilijk om als tagger consequent te zijn in de
gekozen tags. Niet alleen synoniemen zorgen voor dit probleem. Ook spelfouten, meervouden,
werkwoorden,… zijn redenen die maken dat niet alle relevante informatie wordt gevonden door
de gebruiker 45 .

 Basic level variation:
Bovenstaand niet onbelangrijk probleem door Golder et al. (2006) beschreven, bevestigt dat het
associatieproces niet bij iedereen simultaan verloopt. Zoals Rashmi beschreef, zal iedere persoon
verschillende associaties maken tussen het item en mogelijk beschrijvende termen. Met Basic
level variation wordt door Golder et al (2006) bedoeld dat de beschrijvende termen voor een item
variëren in specificiteit.
Vb: specifiek algemeen
Bordeaux Wijn

Mensen ervaren de basislevel van een categorie op zeer verschillende wijzen. De graad van
expertise van een persoon speelt hierin een belangrijke rol. Voor een sommelier zal Bordeaux een
basislevel zijn, terwijl voor een wijnanalfabeet dit al een specificatie is van de categorie wijn.
Naast expertise, zijn cultuur en sociale omgang ook belangrijke en bepalende factoren voor wat
een persoon als basislevel ervaart.

45
[GOLDER et al. 2006] P 200

18
Dit probleem maakt, net zoals bij synoniemen, dat bij een zoekactie aan de hand van een set tags,
enkele interessante items niet worden gelokaliseerd.
Tagging houdt vele mogelijkheden in. Maar tags zijn vaak dubbelzinnig en houden veel
inconsistenties in. Zoals we reeds aanhaalden zorgen het gebruik van synoniemen, homoniemen,
acroniemen, basic level variation ervoor dat tags zeer dubbelzinnig zijn. Een folksonomie
vertegenwoordigt gelijktijdig enkele van de beste en slechtste aspecten in het organiseren van
informatie. De ongecontroleerde natuur van folksonomieën is chaotisch en zorgt voor problemen
zoals onnauwkeurigheid en dubbelzinnigheid. Deze problemen stellen zich niet bij een
gecontroleerde woordenschat. Systemen die het gebruik van tags aanmoedigen om informatie te
ordenen op een persoonlijke manier, beantwoorden in grote mate aan de noden van de gebruikers
door hen te betrekken in het organisatieproces en dit in tegenstelling tot systemen die gebruik
maken van een gecontroleerde woordenschat.
Ook kunnen folksonomieën niet de expressiviteit bieden van ontologieën. De betekenis van een
tag ontbreekt een context onafhankelijke en subjectieve definitie. Er wordt gezocht naar meer
gestructureerde manieren om kennis te representeren en te categoriseren. Ontologieën,
taxonomieën en thesauri passeerden ook al de revue. Deze systemen vragen de input van
professioneel opgeleide personen die informatie eenduidig kunnen definiëren en categoriseren.
Ook zijn de kosten voor het opzetten en onderhouden van dergelijke systemen hoog. In volgende
paragraaf wordt het concept FolksOntologie besproken.

2.5 FolksOntologieën

2.5.1. Waarom FolksOntologieën creëren?

Om te motiveren waarom concepten als FolksOntologieën en aanverwanten worden bedacht,
bestudeerd en uitgewerkt, is het interessant na te gaan wat de auteurs in [GRUBER, T. 2007],
[VAN DAMME, C. et al. 2007] en [SCHMIDT, A. et al. 2008] drijft om dergelijke nieuwe
concepten uit te werken. Hun grootste doel is het overkomen van de beperkingen van zowel
ontologieën als folksonomieën en het combineren van de goede eigenschappen van deze
concepten. Bij ontologieën is een groot minpunt dat de gebruiker onvoldoende kan worden

19
betrokken bij de opbouw en ontwikkeling ervan 46 . Dit is een significante oorzaak voor de huidige
tekorten van en ontevredenheid over ontologieën. Nieuwe concepten, instanties of eigenschappen
kunnen enkel door een geprivilegieerde groep worden aangebracht en toegevoegd. Doordat de
specificaties van een ontologie worden uitgedrukt in formele taal, is het begrijpen van deze
formele specificaties moeilijk voor gebruikers zonder domein expertise. In [VAN DAMME, C. et
al. 2007] wordt geconcludeerd dat het loskoppelen van het gebruik van ontologie en de
constructie en het onderhoud ervan, ervoor zorgt dat waardevolle feedback verloren gaat. Het
maakt ook dat het sociale akkoord omtrent elementen van een ontologie vaag en broos blijven.
Tagging daarentegen, geeft gebruikers de mogelijkheid om objecten te beschrijven aan de hand
van vrij gekozen woorden om zo inhoud makelijker terug te vinden. Het overkomt zo ook de
beperkingen die ontologieën bieden want iedereen kan taggen en het onderhoud van tags hangt
nauw samen met het gebruik ervan. Het toekennen van een tagset aan objecten reflecteert een
subjectieve conceptualisatie. Toch kunnen vele van die subjectieve voorstellingen gebruikt
worden om een intersubjectieve representatie af te leiden. Een dergelijke verzameling van ruwe
data leidt tot een vlakke ‘bottom-up’ categorisatie, met andere woorden folksonomie. Tagging
neemt een belangrijke plaats in bij de overvloedige creatie van data, die het volgende
weerspiegelt: subjectieve toewijzing van woorden aan objecten, intersubjectieve patronen bij
deze toewijzingen alsook impliciete informatie over sociale netwerken. Tags hebben te kampen
met problemen als dubbelzinnigheid, verschil in specialisatie,… omdat er geen conceptuele
betekenis en relaties formeel gedefinieerd zijn47 . [GRUBER, T. 2007] zegt: “ I would like to join
forces with my collegues in the tagging community to help build the infrastructure that will
enable systems to interoperate in an ecosystem of data sources, services, agents, and tools that
combine and add value to the tagging done by all these users. How do we do this? You guessed:
create an ontology for folksonomy” 48 .

2.5.2. Wat zijn Folksontologieën?

In [GRUBER, T. 2007] wordt gesproken van ‘TagOntology, a common ontology for tagging’.
Een gestandaardiseerde manier om tagdata te verzamelen, interpreteren en gebruiken lijkt nog

46
[VAN DAMME, C., et al. 2007] p57
47
Ibidem
48
[GRUBER, T. 2007] p 3

20
niet meteen haalbaar, maar Gruber (2007) 49 gelooft dat het mogelijk is om fundamenten te
bouwen voor een tagging-ecosysteem die innovatie toelaat om te werken aan de visie van een
open ‘tagosphere’. Ontologieën vormen de kern om dit te realiseren. Een gemeenschappelijke
conceptualisatie wordt geïdentificeerd en een specificatie op semantisch niveau wordt uitgewerkt.
Specifieker, een conceptualisatie van tagging. Gruber (2007) stelt volgende werkwijze voor: “We
hash out those concepts that are clear, and try to make unambiguous definitions for terms. We
identify those concepts that are vague , and set out to clarify them. We lay out a conceptual
framework for identifying those areas where systems will differ. Ontologies are as much about
reasoning about incompatibilities as about finding commonalities” 50 . Een TagOntology zal geen
termen bevatten om documenten te labellen met bijvoorbeeld wetenschappelijke onderwerpen.
Het zal ook niet worden aangewend om bepaalde domeinen uit te werken. De TagOntology dient
om een conceptualisatie, ontstaan door tagging activiteit, te identificeren en formaliseren.
In [VAN DAMME, C. et al. 2007] worden verschillende technieken besproken om ontologieën af
te leiden uit folksonomieën. Eerst wordt gekeken welke bronnen hiervoor kunnen worden
aangewend. Er worden drie belangrijke bronnen besproken die kunnen worden gecombineerd om
een ontologie op te bouwen: folksonomieën en geassocieerde data, online lexicale bronnen,
bestaande ontologieën en andere semantische bronnen op het web. In het tagging proces kunnen
vier entiteiten worden onderscheiden: tags, objecten, actoren en de web sites of systemen die
taggen mogelijk maken. De interactie tussen deze folksonomieën en hun geassocieerde data zorgt
voor mogelijk zeer bruikbare data om ontologieën uit af te leiden. Het ontwerpen van bruikbare
instrumenten om structurele patronen in folksonomieën te ontdekken en gebruiken is een
uitdaging. Naast het gebruik van folksonomieën en aanverwante data vinden de auteurs in [VAN
DAMME, C. et al. 2007] dat online bronnen zoals Wordnet, wikipedia,…, gebaseerd op het
principe van de collectieve kennis, kunnen worden gebruikt om geschikt taalgebruik te verifiëren.
Deze bronnen leveren niet enkel definities aan die we in woordenboeken terug vinden. Ze zorgen
ook voor omschrijvingen voor nieuwe en/of specifieke termen zoals bijvoorbeeld ‘folksonomie’.
In [SCHMIDT, A. et al 2008] baseren de auteurs zich op een ‘ontology maturing process’ om tot
een ‘community-driven’ ontologie te komen 51 . In het proces kunnen vier fasen worden
onderscheiden:

49
[GRUBER, T. 2007] p4-5
50
Ibidem
51
[SCHMIDT, A. et al. 2008] p4

21
 Ontstaan van nieuwe ideeën. Leden van een gemeenschap creëren nieuwe ideeën en
gerelateerde terminologie door te taggen.
 Bevestiging in de gemeenschap. Nieuwe ideeën, concepten en hun definities worden
bediscussieerd in de gemeenschap. ‘Topic tags’ worden gedefinieerd en verfijnd of
verstoten indien ze incorrect of zinloos zijn.
 Formele definities. In deze stap worden de definities bekomen in de voorgaande stap
geformaliseerd. Eventuele hiërarchische relaties worden toegevoegd.
 Axioma’s worden toegevoegd.

Maar naast het exploiteren van alle online beschikbare data is het belangrijkste aspect van een
FolksOntologie het betrekken van de gebruikers als mechanisme om de geselecteerde informatie
uit die verschillende bronnen te valideren en waar nodig aan te vullen. Het besef groeit dat men
de gebruikersgemeenschap dient te betrekken bij het ontwikkelingsproces van ontologieën om de
bestaande beperkingen ervan te overkomen. Aangezien folksonomieën sommige beperkingen van
ontologieën weten te omzeilen is het combineren van deze twee zaken een mogelijke oplossing.
Verder onderzoek zal moeten uitwijzen of deze piste inderdaad de verwachtingen kan inlossen.

2.6 Conclusie

Om orde te scheppen in de grote hoeveelheid aan informatie bestaan dus meerdere
mogelijkheden. Elk daarvan heeft zo zijn voor en nadelen. En waar beperkingen zijn wordt vaak
naar een manier gezocht om deze te overkomen. De populariteit van taggen en folksonomieën
lijken door hun eenvoud in gebruik een mogelijke oplossing. Toch mag een ding mag duidelijk
zijn: kennismanagement zonder enige vorm van afgesproken woordenschat of ontologie lijkt
moeilijk realiseerbaar. Niet enkel kennis en informatie op het web dienen op een efficiënte
manier te worden georganiseerd. Ook binnen organisaties en ondernemingen is het nuttig kennis
en informatie zo efficiënt mogelijk te organiseren. In volgend hoofdstuk: het lokaliseren van
experts, gaan we hier verder op in.

22
3. Het lokaliseren van experts binnen de onderneming
3.1 Introductie

Zoals al aangehaald in de inleiding is het lokaliseren van experten binnen de eigen onderneming
of erbuiten niet vanzelfsprekend. In [Seid et al. 2003] wordt het volgende opgemerkt: “If
technology is to foster the effective utilization of the whole range of knowledge in organizations,
it has to be able to support not only access to explicitly documented knowledge but, most
importantly, tacit knowledge held by individuals” 52 . Hieruit kunnen we afleiden dat geschreven
documentatie een belangrijke bron van informatie is, maar dat de ‘tacit knowledge’ of impliciete
kennis (vaardigheden, ervaring, attitudes) die iemand bezit zeker even belangrijk is. Bijkomend
wordt verondersteld dat een persoon met een grote impliciete kennis over een gegeven
onderwerp, meestal ook een zekere graad van expertise heeft opgebouwd rond dit onderwerp 53 .
[Seid et al, 2003] menen dat bij het verbeteren van de zichtbaarheid en traceerbaarheid van
impliciete kennis, de technologie een katalysator kan zijn om de samenwerking en
kennisuitwisseling binnen de onderneming of tussen organisaties te verbeteren.
[Balog et al. 2006] zijn zelfs van mening dat de mogelijkheid om snel en doeltreffend de
expertise van mensen te bepalen en te lokaliseren, een belangrijke factor is voor het al dan niet
slagen van een project 54 . Het lokaliseren en uitwisselen van expertise en kennis heeft de laatste
decennia veel aan belangstelling gewonnen. Binnen het domein van kennismanagement en
Computer Supported Collaborative Work (CSCW) wordt dan ook heel wat research verricht om
de zoektocht naar expertise steeds verder uit te bouwen, te evalueren en te optimaliseren 55 .
Concepten als expertise kapitalisatie, skill mining, expertise netwerken,.. worden wereldwijd
onderzocht en bediscussieerd. Toch blijven discussies over zulke concepten meestal beperkt. Ze
monden weinig tot zelden uit in een concreet ontwerp en implementatie.
In dit hoofdstuk wordt nagegaan waarom mensen op zoek gaan naar experts. Verder wordt
overlopen welke ontwikkelingen zich de laatste jaren hebben afgespeeld binnen het domein van
expert finding. Aan de hand van het domein model beschreven in [SEID et al. 2003] worden
enkele ‘expert finding’ methodes die al werden uitgewerkt onder de loep genomen.

52
[SEID et al. 2003] p2
53
[JOHN, A. et al. 2006] p1
54
[BALOG et al. 2006] p1
55
[SEID et al 2003], [MATTOX et al 1999], [BALOG et al. 2006], [JOHN, A. et al 2006]

23
3.2 Motivatie voor ‘expert finding’.

Wat zet mensen aan een expert (op) te zoeken? In verschillende papers56 wordt de motivatie voor
het lokaliseren van een expert zeer bondig of helemaal niet besproken. [BALOG et al. 2006]
geeft aan dat het managen van expertise, het identificeren van experts in een bepaald domein,
vaak cruciaal is voor het slagen van projecten. In [Seid et al. 2003] worden duidelijk twee grote
motivatieredenen onderscheiden. De zoektocht naar een expert komt voort uit een nood aan
informatie of een nood aan expertise, hetzij operationeel, hetzij voor sociale redenen. Om het met
de woorden van [SEID et al. 2003] te zeggen:

Een “information need” of een nood aan informatie

Een “expertise need” of nood aan een bepaalde vorm van expertise.

3.2.1 Nood aan informatie.

[MATTOX, D. et al 1999] merken op: “We have all experienced having a burning question that
could be answered if we could just find the right person to ask” 57 . Ieder van ons heeft al eens in
een situatie verkeerd waar de hulp van een expert ter zake een mogelijke oplossing zou bieden.
De zoektocht naar een expert begint vaak bij een vraag of een probleem waarvoor de persoon zelf
geen antwoord of oplossing vindt. Wanneer iemand op zoek is naar informatie over een bepaald
onderwerp wordt vaak volgende vraag gesteld: “Wie weet iets over onderwerp x?”. Experts
raadplegen als informatiebron of om deze aan te vullen of te vervangen kan om zeer
uiteenlopende redenen gebeuren. Onderstaande cases zijn enkele mogelijke scenario’s waarin een
expert wordt opgezocht als bron van informatie 58 :

 De expert als bron van niet-gedocumenteerde informatie.
 Nood aan verduidelijking, dialoog is nodig om een probleem te specificeren
 De expert als filter, om uit de massa aan informatie de interessantste en meest
bruikbare informatie te halen.
 Nood aan interpretatie. Wanneer informatie nogal technisch is kan een expert helpen

56
[Balog et al. 2006], [Fang et al. 2007], [JOHN et al. 2006]
57
[MATTOX, D. et al 1999] p1
58
[SEID et al. 2003] p3

24
om de lectuur begrijpbaar te maken door zijn interpretatie te geven.
 Het sociale aspect. Sommige mensen verkiezen de dialoog met een expert of andere
medewerker boven het opzoeken van informatie in documenten.

3.2.1 Nood aan expertise.

Experts worden niet enkel aanschouwd als bron van informatie, ze worden ook vaak
aangesproken om een specifieke taak of functie in te vullen en niet enkel als informatiebron.
Volgende situaties verduidelijken 59 :

 De expert als consultant, werknemer.
 De expert als medewerker in een team, gemeenschap of comité.
 De expert als spreker presentator, researcher,…

Voor specifieke taken binnen een onderneming heb je niet enkel een persoon nodig die de nodige
informatie bezit maar is ook ervaring, dat wil zeggen: een bepaalde graad van expertise is zeer
welkom of soms zelfs vereist. Hier wordt niet gesproken over de nood aan informatie, maar de
nood aan expertise om een bepaalde taak uit te voeren. Dan wordt niet enkel de vraag gesteld
“Wie weet wat over onderwerp x?”. Ook vragen zoals “Hoeveel weet persoon y over een
onderwerp x?” en “Wat weet persoon y nog meer?” of “ Hoe is persoon y te vergelijken met
anderen gezien zijn kennis over onderwerp x?” komen aan bod.
Uit het voorgaande kan worden besloten dat het zoeken en contacteren van experts wellicht wordt
gedreven door een van bovengenoemde motivaties of een combinatie van beiden. Maar om
experts te kunnen lokaliseren, moet worden gedefinieerd wie als expert kan worden aanschouwd.
Bovendien moeten we in acht nemen op welke basis de titel ‘expert ter zake’ aan deze persoon
wordt toegeschreven. Nu bekend is wat mensen er zoal toe aanzet een expert (op) te zoeken,
wordt in volgend onderdeel gekeken wat iemand tot expert maakt en hoe experts kunnen worden
gelokaliseerd.

3.3 Evolutie binnen het studiedomein van ‘expert finding systems’.

Aangezien het lokaliseren van experts een vrij recent onderwerp is, loopt er heel wat onderzoek
naar interessante en efficiënte expert finding systems. In deze paragraaf wordt een kort overzicht

59
[SEID et al. 2003] p 4

25
gegeven van de ontwikkelingen binnen het expert finding domein: de evolutie van expert
databases tot geautomatiseerde expert finding systems.

3.3.1 Expert databases en personal webpages

Expert databases zijn een van de mogelijkheden om geautomatiseerde hulp te bieden bij het
lokaliseren van experts. Voorbeelden zijn Microsoft SPUD 60 , SAGE People Finder 61 ,… Data
omtrent de expertise van personen worden ingevoerd in een database. De ingevoerde data kunnen
zeer algemeen zijn, bijvoorbeeld een bondige omschrijving van de kennis van personen aan de
hand van typerende trefwoorden, of net zeer gedetailleerd: uitgebreide beschrijving van de
vaardigheden en kennis van een bepaald persoon. Experts of expertise kunnen worden
gelokaliseerd aan de hand van zoekacties. Dergelijke zoekacties kunnen worden uitgevoerd aan
de hand van trefwoord-matching. De gebruiker voert een trefwoord in, enwanneer dat trefwoord
werd gebruikt om experts te omschrijven, krijgt de gebruiker de naam van deze experts te zien als
output. Een dergelijke werkwijze impliceert het gebruik van gecontroleerde woordenschat. Zowel
voor het omschrijven van de kennis en expertise als voor de zoekopdrachten. Indien geen gebruik
wordt gemaakt van een gecontroleerde woordenschat steken problemen zoals synoniemen,
homoniemen, basic level variation,… opnieuw de kop op. Expert databases zijn al een grote stap
vooruit maar ze vertonen toch verschillende tekortkomingen 62 :

 De manuele ontwikkeling van zo’n database is een zeer arbeidsintensieve en
vooral dure taak.
 Deze databases zijn afhankelijk van de bereidwilligheid van experts om hun tijd te
stoppen in het aanleveren van een gedetailleerde omschrijving van hun expertise.
 Aangezien de expertise en vaardigheden van personen voortdurend veranderen, zijn
de meeste expert databases vaak snel gedateerd. Het manueel updaten van dergelijke
databases is een tijdrovende taak voor experts en verspilling van bronnen voor de
onderneming zelf omdat de experts niet renderen wanneer ze tijd stoppen in het updaten
van hun profiel.
 De expertisebeschrijvingen zijn meestal algemeen en onvolledig. Terwijl de
60
Davenport, T., Prusak, L. “Working Knowledge: How Organizations Manage What They Know” 1998 in [SEID et al.
2003] p 5
61
http://sage.fiu.edu/Mega-Source.htm in [SEID et al. 2003] p5
62
[SEID et al. 2003] p5

26
Ook personal webpages hebben te kampen met dergelijke problemen. Het opstellen en
onderhouden van zulke webpages is tijdsrovend. Ook zijn ze snel verouderd. Het mag duidelijk
zijn dat dergelijke expert databases alsook personal webpages niet meteen de beste oplossing
zijn. Het gebruik van search engines om experts te lokaliseren blijkt geen efficiënte aanpak te
zijn. Het zoekproces is vaak algemeen en gebaseerd op het matchen van trefwoorden. Dat levert
niet altijd de gewenste output op: relevante experts. Meer nog, het is bij dergelijke expert finders
volledig de taak van de gebruiker om de nodige data te selecteren en samen te stellen om een
dergelijke analyse uit te voeren. Ook dient de gebruiker de beste expert te identificeren, de
toegankelijkheid van de expert te bepalen alsook zijn of haar relatie met of verhouding tot andere
experts 63 . Deze traditionele aanpak van geautomatiseerde ondersteuning bij het lokaliseren van
experts is nog voor veel verbetering vatbaar. Er moet een manier worden gevonden om de
tekortkomingen te overbruggen.

3.3.2 Automatische expert finders

Het grootste probleem bij de expert databases is de nood aan expliciete informatie, dat is
informatie aangeleverd door de expert zelf. Dat brengt met zich mee dat dergelijke databases
meestal niet up to date zijn. Een manier om deze tekortkoming te omzeilen is het gebruik van
impliciete informatie, informatie afgeleid uit secundaire bronnen. Wanneer gebruik wordt
gemaakt van impliciete informatie moet een manier worden bedacht om automatisch bijgewerkte
expertise-informatie te ontdekken in secundaire bronnen. Experts kunnen, indien het systeem dit
toelaat, dergelijke automatisch gegenereerde expertise-informatie wel aanvullen of verfijnen. Uit
het overzicht van automatische expert finders in [SEID et al. 2003] kan worden besloten dat
impliciete informatie wordt afgeleid uit volgende secundaire bronnen 64 :
 Documenten opgesteld door de expert
 Een ‘intelligent agents systeem’ die de expertise van een gebruiker profileert en de
handelingen van de gebruiker analyseert en eruit afleidt welke informatie of expertise de

63
[SEID et al. 2003] p5,6
64
[SEID et al.2003] p6-8

27
gebruiker nodig heeft. Binnen het domein van artificiële intelligentie is een ‘intelligent
agent’ of IA een autonome entiteit die de omgeving observeert en erop reageert. De
activiteit van een IA is gericht op het bereiken van doelen. Ze kunnen zeer eenvoudig tot
heel complex zijn, bijvoorbeeld een reflex machine zoals een thermostaat is een IA.
Binnen het domein van computer wetenschappen wordt de term IA gebruikt om naar een
software agent te verwijzen die enige vorm van intelligentie bezit. Ongeacht het een
rationele agent is of niet. Een voorbeeld zijn autonome programma’s die worden gebruikt
voor data mining, operator assistance.
 ‘referral chain’: de expert lokaliseren dankzij doorverwijzing(en) van collega’s
 Patronen in het browsing gedrag van personen

Wanneer expertise-informatie wordt afgeleid uit secundaire bronnen, moeten expert finders in
verbinding staan met de andere systemen die aanwezig zijn in een organisatie. Het potentieel van
expert finders kan pas ten volle worden geëxploiteerd als ze op een geïntegreerde wijze worden
gebruikt met andere informatiesystemen (bijvoorbeeld knowledge management systems,
recommender systems,…). Merk op dat het lokaliseren van experts aan de hand van informatie in
alle vormen dient te gebeuren, niet enkel geschreven kennis, ook de impliciete kennis van de
mensen.
Sinds enkele decennia zijn rond deze denkwijze verschillende expert finders gecreëerd. Om die
met elkaar te kunnen vergelijken, wordt gebruik gemaakt van een intuïtief domeinmodel van de
expert finding systemen 65 . Dit model wordt besproken in de volgende paragraaf.

3.4 Domeinmodel van de expert finding systemen

In paragraaf 3.5 worden enkele expert finder systemen besproken. Om de verschillende systemen
met elkaar te kunnen vergelijken, wordt gebruik gemaakt van het domeinmodel van de expert
finding systemen. Dit domeinmodel bestaat uit zeven domeinfactoren afgeleid uit de
domeinanalyse beschreven in [SEID et al. 2003]. Om deze criteria te bekomen, dient het domein
van de expert finder systemen te worden geanalyseerd.

3.4.1 Domein analyse 66

65
[SEID et al. 2003] p10-11
66
[SEID et al. 2003] p 9

28
Lung (1999) 67 verklaart de term domeinanalyse als volgt: domeinanalyse is een methode om een
applicatiedomein te analyseren door bestaande systemen, vernieuwende technologie en de
historiek binnen dat domein te bestuderen en karakteristieken toe te schrijven. In een
domeinanalyse worden gemeenschappelijke karakteristieken van verschillende systemen
veralgemeend. In [SEID et al. 2003] wordt een dergelijke analyse uitgevoerd om een
gestructureerde en systematische manier te bepalen om expert finders te kenmerken en om uit te
zoeken of systemen, die kunnen worden gebruikt in verscheidene contexten, kunnen worden
ontworpen.
Een intuïtief domeinmodel is volgens Birk (1997) 68 een classificatieschema met verschillende
facetten die de bevindingen van de domeinanalyse samenvat en het domein beschrijft. Elk aspect
of facet wordt voorgesteld door een domeinfactor, die bestaat uit attributen die bepaalde
systemen gemeenschappelijk hebben. Zo’n domeinfactor wordt gedefinieerd aan de hand van een
set van discrete waarden, ‘possible values’ genoemd. Een aspect wordt gekenmerkt door één of
meerdere ‘actual values’. Een domeinfactor samen met de ‘actual values’ wordt een
domeinkarakteristiek genoemd. Voor het domein van de expert finder systemen worden zeven
domeinfactoren bepaald. Elk factor bestaat uit verschillende ‘possible values’. Wanneer een
systeem een bepaalde attribuut bezit dan wordt de ‘possible value’ een ‘actual value’.

3.4.2 Domeinfactoren

Aan de hand van een analyse van het domein van de expert finder systemen komen [SEID et al.
2003] tot zeven domeinfactoren 69 . Deze factoren zijn een hulp om de verschillende expert finders
te classificeren.

 Basis voor expertiseherkenning. Expert finders maken gebruik van verschillende
soorten aanwijzingen om de expertise van een persoon te bepalen. De aanwijzingen
kunnen worden opgedeeld in expliciet en impliciet. Onder expliciete aanwijzingen wordt
verstaan: een eigen beschrijving van de kennis/expertise door de expert zelf of zijn

67
Lung, C., Urban, J. “Integration of Domain Analysis and Analogical Approach for Software Reuse” (1999) in [SEID
et al. 2003]
68
Birk, A. “Modeling the Application Domains of Software Engineering Technologies” (1997) in [SEID et al. 2003]
p10
69
[SEID et al. 2003] p10-11

29
professionele positie. Impliciete aanwijzingen zijn bijvoorbeeld auteur zijn van een
bepaald document, het samen voorkomen van de naam van de expert en een bepaald
onderwerp in documenten,… Expert databases toonden aan dat expliciete aanwijzingen
zeer tijdrovend en moeilijk up to date te houden zijn. Een goede expert finder geeft de
voorkeur aan de impliciete aanwijzingen en bezit een ‘source recognition logic’, een
methode om mogelijke aanwijzingen te herkennen en te verzamelen.
 Indicatoren van expertise selecteren. Een indicator van expertise of anders
geformuleerd, de verzamelde data die dient als aanwijzing van expertise, is de input voor
een analyseproces om de expertise van personen af te leiden. Hier wordt een onderscheid
gemaakt tussen indicatoren die samenhangen met de domeinkennis van een persoon en
indicatoren die onafhankelijk zijn van de domeinkennis. Het is ook belangrijk de
herkomst van de bron in acht te nemen: werd het document door de expert zelf
geschreven? Wordt de expert vernoemd in het document?…. Het verband tussen de expert
en het document moet duidelijk zijn zodat kan worden uitgemaakt of de bron in
aanmerking komt om er expertise-aanwijzingen uit te halen.
 Het vormen van een beeld van de expertise van een persoon. Aan de hand van de
verzamelde aanwijzingen die worden geanalyseerd, dient een omschrijving van de
expertise van een bepaald persoon te worden samengesteld. De analyse van de
aanwijzingen om een omschrijving te vormen, kan op verschillende wijzen gebeuren: aan
de hand van queries, gebaseerd op een ‘personal agent’ of associatie van experts met een
centrale voorstelling van expertise. Een dergelijke centrale voorstelling van expertise kan
een ontologie zijn, een organisatiestructuur, een profielbeschrijving,…
 Mechanismen voor de zoekopdracht. Een persoon op zoek naar informatie kan een
expliciete zoekopdracht naar een expert uitvoeren. Maar dit is niet de enige taak die
expert finders vervullen. Sommige systemen spelen proactief in op de nood aan expertise.
Uit observatie van personal agents of door analyse van bepaalde berichten kan de nood
aan informatie worden afgeleid.
 Matching van resultaten. Bij een exacte overeenkomst tussen de zoekopdracht en
expertise-indicatoren is er sprake van matching. Dit hoeft niet zo exact te zijn. Matching
op basis van gelijkheden is mogelijk alsook matching als gevolg van bijvoorbeeld een
onderlinge relatie tussen verschillende concepten (ontologie-gebaseerd), tussen experten,
of graad van expertise.

30
 Presentatie van de output. Het is belangrijk om tijdens de ontwikkeling van een
expert finder te definiëren hoe de output er zal gaan uitzien. Afwegen welke informatie
zal worden weergegeven en de hoeveelheid aan informatie. Worden de resultaten
gerangschikt? Indien het antwoord positief is, op welke basis wordt een rangschikking
bekomen?
 Aanpassen en leren. Eens de expert finder in gebruik wordt genomen, is het
belangrijk te zorgen dat gebruikers weten hoe ze met het systeem kunnen werken. Als ze
het systeem gebruiken, kan dit leiden tot relevante feedback. Aan de hand van die
feedback kan de huidige expert finder worden bijgeschaafd en eventueel worden
verbeterd.
Volgende tabel geeft een overzicht van de zeven domeinfactoren en hun ‘possible values’.

Een dergelijke domeinanalyse bezorgt ons verscheidene criteria die kunnen bijdragen tot een
nuttige classificatie van expert finders, maar het zorgt er ook voor dat enkele problemen naar
voor komen waar expert finders mee te kampen hebben. Deze worden kort besproken in volgend
onderdeel.

3.4.3 Hiaten

[SEID et al. 2003] detecteren vier hiaten bij het maken van de domeinanalyse: heterogeniteit van
bronnen, de methodologie om expertise te herkennen, de ondersteuning bij analyse van expertise

31
en herbruikbaarheid, interoperabiliteit en de uitbreidbaarheid70 .

 Heterogeniteit van bronnen. Expert finders moeten kunnen omgaan met de verspreidheid
van en verscheidenheid aan informatie waaraan expertiseaanwijzingen kunnen worden
onttrokken. Onder de term informatie valt niet enkel de geschreven, gedocumenteerde
informatie, maar ook de niet-gedocumenteerde documentatie die een persoon bezit.
Informatie bevindt zich niet op één gecentraliseerde locatie, maar zit meestal verspreid
over verschillende systemen, verschillende data formats, verschillende personen,… Dat
probleem van verspreidheid en heterogeniteit bemoeilijkt het proces van datamining. De
gebruikte informatie voor het bepalen van expertise-indicatoren dient zoveel mogelijk te
worden gecentraliseerd.
 Methodologie om expertise te herkennen. Het identificeren en voorstellen van expertise
bieden een enorme uitdaging bij het ontwerpen van expert finders. De grote hoeveelheid
indicatoren van expertise maken het onmogelijk manueel de typerende eigenschappen van
een persoon te selecteren. Ontwerpers dienen een manier te bedenken om de expertise van
personen automatisch te onttrekken aan secundaire informatiebronnen. Momenteel wordt
vooral gebruik gemaakt van analyse- en dataminingtechnieken. Maar kwaliteiten van
experts zijn multidimensioneel en [SEID et al. 2003] merken op dat unieke eigenschappen
en vereisten moeten worden gebruikt om expertise te identificeren, te vormen en deze te
kunnen gebruiken voor zoekacties naar experts.
 Ondersteuning bij analyse van expertise. Het lokaliseren van experts kan men opdelen in
twee fasen: ten eerste identificatie van expertise en ten tweede de selectie van expertise.
Het identificeren van expertise is de basis van een expert finding systeem, maar de output
van een zoekopdracht is al even belangrijk. Het is nodig duidelijk te definiëren waarop de
selectie van een expert gebaseerd is. Zo dient een expert finder systeem de gebruikers de
nodige ondersteuning te bieden bij het selecteren van de expert door hen een gepaste
analysemogelijkheid te bieden. De uiteindelijke selectie van een expert gebeurt door de
gebruiker zelf. [SEID et al. 2003] stellen vier opties voor die de gebruikers kunnen
ondersteunen bij hun analyse: mogelijkheid om de personen te rangschikken aan de hand
van een vooraf gedefinieerd criterium, de zoekactie van een andere expert gebruiken als
referentiekader, verschillende verbanden en links (zoals samenwerkingsverbanden,
70
[SEID et al. 2003] p14

32
project groepen,…) tussen experts visualiseren of gebruik maken van een voorstelling of
rangschikking gebaseerd op ontologieën 71 . Ook de transparantie van systemen verbeteren,
is een ondersteuning voor gebruikers bij het selecteren van experts.
 Herbruikbaarheid, interoperabiliteit en de uitbreidbaarheid. [SEID et al 2003] besluiten
dat de expert finder systemen die ze analyseerden meestal focussen op het oplossen van
een specifiek probleem waardoor oplossingen vaak niet meer opnieuw kunnen worden
gebruikt. Goed functionerende expert finders dienen een hoge graad van interoperabiliteit
te bezitten. Uitbreiding moet steeds mogelijk zijn. Bij het ontwerpen van dergelijke
systemen moet ook rekening worden gehouden met de mogelijkheid om oplossingen voor
bepaalde problemen opnieuw te gebruiken.

3.5 Enkele expert finders onder de loep.

Nu de criteria bepaald zijn om verschillende systemen met elkaar te kunnen vergelijken, worden
enkele expert finders overlopen. Er wordt nagegaan of ze heterogene bronnen kunnen exploiteren
om indicatoren van expertise te lokaliseren. Zijn deze systemen flexibel genoeg om ze te
integreren met andere systemen die de analyse kunnen ondersteunen? Er wordt ook nagegaan of
deze systemen enkele van de hiaten vernoemd door [SEID et al. 2003] kunnen omzeilen.

3.5.1 DEMOIR 72

DEMOIR staat voor Dynamic Expertise Modeling from Organizational Information Resources.
De DEMOIR architectuur is een modulaire architectuur die gebaseerd is op gecentraliseerde
expertise modellen gecombineerd met het verzamelen van gedecentraliseerde bronnen om
aanwijzingen van expertise aan te onttrekken, het onttrekken van expertise-indicatoren en
distributed clients.

71
Zie definitie p 4
72
[SEID et al. 2003] p 17 - 19

33
Eerst worden de verschillende componenten besproken waaruit het DEMOIR systeem is
opgebouwd, vervolgens overlopen we de kenmerken van deze architectuur. We besluiten door
DEMOIR te omschrijven aan de hand van de zeven domeinfactoren.

 DEMOIR: componenten en hun werking

Expertise Indicator Source Gatherers (EISG): dit zijn agenten die de gecentraliseerde expertise
modellerende server informeren door regelmatig bronnen te verzamelen die aanwijzingen van
expertise kunnen inhouden. Deze verzamelde
bronnen komen uit verschillende
informatiesystemen binnen de organisatie zoals
websites, databases, repositories,… Deze agenten
werken zelfstandig zonder controle van andere
systemen en kunnen zich aanpassen aan bepaalde
beperkingen van bronnen die ze exploiteren. Deze
agenten bevatten een bepaalde heuristiek om potentiële bronnen, die mogelijk expert data
bevatten alsook namen van experts, te herkennen.
Source Type Identifier (STI): is een module die de structuur van de bronnen en de aanwijzingen
in de inhoud analyseert om te bepalen hoe ze zich verhouden tot de expert. De output van de STI

34
wordt doorverwezen naar de geschikte source wrapper. De STI samen met de source wrappers,
zorgen voor een gedifferentieerde selectie van expert indicatoren gebaseerd op verschillende
soorten relaties tussen bron en expert.
Source Wrappers and Fusers: de wrappers zijn modules ontworpen om expertise-indicatoren te
onttrekken aan heterogene bronnen. Zulke modules maken gebruik van statistische technieken.
Wrappers zijn ontworpen om elk een bepaald type van bron te exploiteren. Fusers voegen de
onttrokken expertise-indicatoren samen in een geaggregeerd expertise model. De bekomen
expertise modellen vormen samen met de profielen van de experts en andere gerelateerde
informatie een Expertise Information Space System dat onderhouden en beheerd wordt door een
expertise information space manager.

Expertise Information Space Manager (EISM): deze component beheert het opslaan in en het
informatie ophalen uit de Expertise Information Space (EIS). EISM voert de vragen van de API’s
(Application Programming Interface) uit. De afbeelding (the DEMOIR architecture) maakt
duidelijk dat de EISM in verband staat met het geaggregeerde expertise model, de lokale expert
modellen en de ‘remote expert details’. Dit zijn de onderdelen van de EIS. Een geaggregeerd
expertise model stelt de ‘expertise space’ voor van een bepaald domein. De lokale expert
modellen zijn representatief voor de individuele experts. Deze hebben een link met het
geaggregeerde expertise model alsook met andere bijzondere informatie zoals verbanden tussen
experts,…
Application Programming Interface (API): deze component maakt zoekopdrachten, browsing en
analyses mogelijk voor verschillende gebruikers of cliënten.

35
 DEMOIR: bevindingen op basis van de zeven domeinfactoren 73

De actual values van de verschillende domeinfactoren worden besproken, vervolgens wordt kort
overlopen welke eerder vernoemde hiaten het DEMOIR expert finder systeem vermijdt.
De gebruikte aanwijzingen om een basis voor expertiseherkenning te vormen zijn impliciet, wat
maakt dat experts zelf niet voortdurend hun expertise dienen te beschrijven, die wordt immers
afgeleid uit secundaire bronnen. De bronnen die worden gebruikt zijn zeer heterogeen. Door
gebruik te maken van de ‘expertise indicator source gatherer’ component omzeilt [SEID et al
2003] een eerste hiaat: heterogeniteit. Om indicatoren van kennis en expertise te selecteren, wordt
gebruik gemaakt van domeinkennis onafhankelijke informatie, voornamelijk het samen
voorkomen van naam en onderwerp in een document. Het bepalen en vormen van de expertise
van een persoon gebeurt bij DEMOIR aan de hand van vier componenten: ‘source type identifier’
of de component die het type bron identificeert, de wrappers (=gespecialiseerd in het selecteren
van expert indicatoren uit bronnen), de fusers (=zorgen voor het samenvoegen van de indicatoren
aangeleverd door de wrappers om ze op te slaan als expertise model) en de EISM die zorgt voor
het opslaan en het terughalen van informatie over experts of expertise. Het mag duidelijk zijn dat
[SEID et al 2003] een duidelijke mening/visie hebben over welke methodologie dient te worden
gebruikt om indicatoren van expertise te selecteren en zo een model te genereren dat een beeld
geeft van iemands expertise. Over de mechanismen voor de zoekactie wordt geen informatie
gegeven. Gebruikers of cliënts van het DEMOIR systeem kunnen zeker een expliciete zoekactie
uitvoeren om een expert te lokaliseren. Of de nood aan informatie of expertise ook wordt afgeleid
uit de activiteiten van de gebruiker zelf wordt niet vermeld. [SEID et al 2000] vermelden geen
specifieke matching technieken. Toch kunnen we uit de opbouw van DEMOIR afleiden dat
EISM de expertisemodellen zal doorlopen op zoek naar een persoon die over relevante informatie

73
[SEID et al. 2003] p10-11
[SEID et al. 2000] p4

36
beschikt. De expertise van een persoon wordt bepaald door zijn expertmodel te vergelijken met
het geaggregeerde expertisemodel in EIS. Hoe de output wordt gepresenteerd, wordt niet
vermeld. Gebruikers krijgen wel de nodige ondersteuning aan de hand van de API’s.

DEMOIR lijkt verschillende hiaten vermeld door [SEID et al 2003] te omzeilen. Toch blijft ook
deze expert finder voor verbetering vatbaar. Hoe feedback, verkregen door gebruikers wordt
geïntegreerd in het systeem wordt niet vermeld. Maar DEMOIR is niet de enige expert finder die
wordt besproken. In volgend onderdeel wordt een blik geworpen op MITRE’s expertfinder.

3.5.2 MITRE’s expertfinder 74 .

MITRE is een non-profit organisatie die werkt in het belang van de gemeenschap. Hun expertise
in het ontwerpen van systemen, informatietechnologie, operationele concepten en modernisatie
van bedrijven wordt gebruikt om de noden van hun opdrachtgevers te voldoen 75 . MITRE heeft
verschillende onderzoeken lopen binnen het kader van knowledge management. Hun visie om
‘expertise-on-demand’ te realiseren, heeft tot verschillende concrete projecten geleid.
ExpertFinder en KEAN 76 zijn twee systemen die erop gericht zijn om expertise en kennis binnen
de onderneming bereikbaar te maken. Beide systemen zijn een reactie op de ‘skills’ databases die
MITRE aanvankelijk gebruikte. Maar zoals werd opgemerkt in punt 3.3.1 zijn dergelijke
databases moeilijk te onderhouden en is de informatie snel verouderd. MITRE bedacht
ExpertFinder om deze tekortkomingen te vermijden. Beide systemen exploiteren de bijproducten
van expertactiviteit om gebruikers in contact te brengen met experts en de kennis die ze
creëren 77 . In het volgende onderdeel wordt de werking van ExpertFinder besproken, vervolgens
wordt het systeem besproken aan de hand van de zeven domeinfactoren 78 . KEAN wordt
besproken in 3.5.3.

 ExpertFinder: componenten en hun werking 79 .

ExpertFinder maakt gebruik van MII, wat staat voor MITRE Information Infrastructure: het

74
[MATTOX et al. 1999]
75
http://www.mitre.org/about/index.html Geraadpleegd 30/04/2009
76
[MATTOX et al. 1999]
77
[MATTOX et al, 1999] p1
78
[SEID et al. 2003] p10-11
79
[MATTOX et al. 1999] p4-5

37
bedrijfsintranet van de organisatie alsook de beschikbare databases. ExpertFinder wordt in
[MATTOX et al. 1999] omschreven als een systeem dat de bedrijfsdatabases doorzoekt om zo
modellen van experts op te bouwen. Dergelijke expertmodellen worden gebruikt voor ‘search-on-
demand’ zoekopdrachten van de gebruikers. Volgende afbeelding geeft schematisch de werking
van ExpertFinder weer:

Zoekopdracht invoeren. Zoekopdrachten in ExpertFinder worden uitgevoerd door het invoeren
van een of meerdere trefwoorden. Dat is de trigger om een online zoekactie naar gepaste experts
op te starten. Het systeem doorzoekt MII op zoek naar relevante informatie om experts te
lokaliseren. Het is nodig te verduidelijken op welke basis deze experts worden geselecteerd.
ExpertFinder beschouwt iemand als expert inzake een bepaald onderwerp wanneer deze persoon
in verband wordt gebracht met een grote verscheidenheid aan bronnen en/of documenten in
verband met dat onderwerp. Hieronder worden documenten gerekend die de persoon zelf heeft
opgesteld alsook de documenten waarin de naam van de persoon samen met het onderwerp
voorkomen. Het systeem analyseert alle documenten waar de woorden van de zoekactie in
voorkomen. Het aantal documenten dat is opgesteld door een bepaald persoon bepaalt de graad
van expertise van die persoon.
Relevante informatie selecteren in MII. Zoals in voorgaande stap werd opgemerkt, dienen twee
soorten documenten te worden doorzocht: documenten opgesteld door de expert zelf en
documenten waarin verwezen wordt naar de expert. Voor de eerste soort documenten kan op een
eenvoudige manier een score worden toegekend aan de expert aangezien dit type document een
directe, expliciete link vertoont tussen onderwerp en persoon. Het bepalen van de relevantie van
de tweede soort documenten is moeilijker. Een link tussen de vernoemde persoon en het
onderwerp moet worden afgeleid uit de onderliggende tekst. Meestal wordt gebruik gemaakt van

38
‘proximity metric’ 80 om de link tussen expert en onderwerp te bepalen. Er wordt ook gebruik
gemaakt van andere heuristiek om de link tussen onderwerp en expert te bepalen. Eens de
documenten werden gelokaliseerd waarin de woorden voorkomen die gebruikt werden voor de
zoekactie, dient een score te worden bepaald voor elke mogelijke expert.
Score bepalen aan de hand van de geselecteerde documenten. De documenten waarvan de expert
de auteur is, kunnen documenten zijn die hij zelf schreef of
samenvatte. Het aantal documenten waarvan de expert auteur is,
zijn bepalend voor de expertscore. Documenten waarvan de expert
geen auteur is, maar die hij wel samenvatte, zorgen voor een
bijkomend gewicht. Ook documenten die de expert vernoemen met
betrekking tot een bepaald onderwerp zorgen voor een extra
gewicht bij het bepalen van de finale expertscore. Deze drie
aspecten samen bepalen de finale expertscore van een expert.
Toekennen van een expertscore. Eens de expertscore voor een bepaald persoon werd berekend
door ExpertFinder, wordt de naam van de expert gematched in de personeelsdatabase. Dat om na
te gaan of de persoon nog in dienst is.
Rangschikken van de experts op basis van hun expertscore. De experts worden in dalende
volgorde weergegeven. De rangschikking is gebaseerd op de berekende expertscore.
Output van ExpertFinder. De gebruiker krijgt een rangschikking te zien van de meest geschikte
experts. Wanneer de gebruiker een expert aanklikt, wordt de persoonlijke informatie uit de
personeelsdatabase weergegeven alsook de relevante publicaties en vermeldingen in de
bedrijfscommunicatie. De output van ExpertFinder ziet er als volgt uit: 81
Rangschikking van de meest
geschikte experts.
Informatie uit de personeels-
database.
Vermeldingen van deze expert in
de bedrijfsberichtgeving.
Relevante publicaties van de expert.

80
‘Proximity metric’ of het bepalen van nabijheid van woorden. De naam van de expert mag bijvoorbeeld
maximum vier woorden verwijderd zijn van het onderwerp van de zoekactie.
81
http://www.mitre.org/news/the_edge/june_98/third.html Geraadpleegd 30/04/2009

39
[MATTOX et al. 1999] geven een korte evaluatie betreffende de performantie van ExpertFinder.
Het doel van dit systeem was de gebruiker in staat te stellen met slechts één telefoontje een expert
te kunnen bereiken. Uit hun onderzoek blijkt dat ExpertFinder opmerkelijk goede resultaten
behaalt 82 . Wanneer de personen aangebracht door ExpertFinder geen experts ter zake waren,
konden die meestal een contact bezorgen die dat wel was. Wat zeker voor verbetering vatbaar is,
is de reactiesnelheid van de ExpertFinder. De gemiddelde tijd voor een query was 30 seconden.
Een ander minpunt is dat ExpertFinder zich voornamelijk baseert op auteurschap van
documenten, daardoor zullen sommige personeelsleden die minder of niets publiceren niet
worden opgemerkt als expert. Het omgekeerde is ook waar, personen die veel publiceren in
opdracht van anderen bijvoorbeeld secretaressen, zullen onterecht als expert worden geselecteerd.
Dit zijn zaken die MITRE in de toekomst wenst op punt te zetten.

 ExpertFinder: bevindingen op basis van de zeven domeinfactoren 83

De basis voor expertiseherkenning is net zoals bij DEMOIR gebaseerd op impliciete
aanwijzingen. De bronnen waarvan gebruik wordt gemaakt, zijn de documenten aanwezig in MII,
die (onbewust) up-to-date gehouden worden door de medewerkers zelf door middel van
zelfpublicatie 84 . De indicatoren van expertise zijn onafhankelijk van domeinkennis wanneer
ExpertFinder gebruik maakt van het samen voorkomen van naam en concept (name-concept co-
occurrece). Maar ook domeinkennis gedreven informatie wordt aangewend wanneer gebruik
wordt gemaakt van de gepubliceerde documenten van de persoon. ExpertFinder doorzoekt
bedrijfsdatabases om modellen van experts op te bouwen die gebruikers later kunnen doorzoeken.
De verzamelde informatie wordt opgeslagen als expertmodel voor die bepaalde persoon. Bij
DEMOIR worden dergelijke modellen getoetst aan een gecentraliseerd expertisemodel om de
graad van expertise te bepalen. Bij ExpertFinder is dat niet zo. Er worden ook expertmodellen
opgebouwd om een beeld te vormen van de kennis van een bepaalde persoon, maar de score die
toegekend wordt aan experts is gebaseerd op een bepaalde zoekactie. Het beeld dat de gebruiker
te zien krijgt, is gegenereerd aan de hand van een query. Het mechanisme gebruikt voor de
zoekopdracht is een query waarbij de gebruiker trefwoorden invoert om een expert te lokaliseren.

82
Voor exacte resultaten zie [MATTOX et al. 1999] p4-5
83
[SEID et al. 2003] p10-11
84
[MATTOX et al. 1999] p5

40
Matching gebeurt door documenten te selecteren waar de trefwoorden uit de zoekopdracht in
voorkomen, op basis daarvan wordt een expertscore berekend. Dit kan worden beschouwd als
exacte matching. De output van ExpertFinder kan worden omschreven als een gerangschikte lijst
met extra informatie. De extra informatie die wordt aangeboden, relevante publicaties en
vermeldingen in bedrijfscommunicatie, zijn ook gerelateerd aan het onderwerp meegegeven in de
zoekopdracht. Over aanpassen en leren, vermelden [MATTOX et al. 1999] weinig. Er wordt wel
onderzocht, met behulp van feedback van personeelsleden, HR manager,… hoe accuraat de
resultaten zijn, bekomen in ExpertFinder. Op basis van deze bevindingen kan dit systeem verder
worden uitgewerkt en aangepast.

3.5.3 KEAN, a collaborative knowledge filtering system 85 .

Bij MITRE zijn ze van mening dat experts lokaliseren en ze in verbinding stellen met andere
medewerkers belangrijk is. Maar het is zeker even belangrijk om te leren van de kennis van
experts ook wanneer ze niet ter beschikking staan om collega’s te assisteren of verder te helpen.
Zeker nu er zoveel informatie beschikbaar is. Een persoon kan niet alle beschikbare informatie
lezen. Iemand die je de interessante informatie kan aanduiden, dat zou al een hele stap vooruit
zijn. MITRE’s KEAN, kort voor Knowledge Exchange and Annotation, is ontworpen zodat
experts en medewerkers van elkaars kennis en aanwijzingen gebruik kunnen maken en er
voordeel uit kunnen halen. KEAN is gebaseerd op een flexibele metadata architectuur die toelaat
verschillende types algemene metadata voor een URL (Unified Resource Locator) op te slaan.
Met andere woorden maakt KEAN het mogelijk een gelezen document of geraadpleegde
informatie die een URL bezit, te beoordelen. Deze beoordeling wordt opgeslaan als metadata.
Aan de hand van die metadata kunnen zoekopdrachten worden uitgevoerd om interessante
informatie te lokaliseren. Maar hoe werkt KEAN precies? Dat wordt beschreven in volgende
paragraaf.

 KEAN: componenten en hun werking 86

Metadata verzamelen in een relationele database gaat als volgt:

85
[MATTOX et al. 1999]
86
Ibidem, <http://www.mitre.org/news/the_edge/june_98/fifth.html>

41
Informatiebronnen. Alle documenten voorzien van een URL zijn een bron van informatie. De
URL is de aanwijzing naar de informatie. Bij MITRE zijn ze ervan overtuigd dat het enkel een
kwestie van tijd is voor alle documenten via het web beschikbaar zullen zijn en dus allemaal een
URL zullen bezitten. Nu kunnen enkel webdocumenten worden voorzien van metadata, wat
maakt dat KEAN enkel kan verwijzen naar webdocumenten. De metadata die worden opgeslaan,
vertellen de gebruiker iets over de inhoud van het document.
Verzamelen van de metadata. Elke medewerker van MITRE kan na het lezen van een
webdocument metadata toevoegen. Wanneer een document wordt gelezen verschijnt een pop-up
venster waar volgende types metadata kunnen worden opgeslagen:
classificatie (het aanduiden van een categorie waartoe het document behoort)
trefwoorden (om de inhoud van het document te omschrijven)
datum (een ouder document kan vaak minder relevant zijn dan recentere documenten)
‘utility rating’ (hoe bruikbaar of relevant is dit document voor een bepaald onderwerp)
registrator (wie registreerde deze metadata)
‘textual annotation’ (persoonlijke opmerkingen i.v.m. het gelezen document)
Niet alle types metadata dienen te worden ingevuld. Hoe meer wordt aangevuld, des te
doeltreffender de zoekacties op KEAN zullen zijn. Om de collectie metadata zo snel mogelijk uit
te breiden en de inhoud van een document zo correct mogelijk weer te geven, wordt gebruik
gemaakt van kennisstewards. Dit zijn experts binnen een bepaald domein. Zij worden betaald om
nieuwe informatie alsook nieuwe metadata aan te brengen. Indien ze onvoldoende bijdragen,
wordt een nieuwe kennissteward aangesteld 87 .
Opslaan van metadata. Wanneer de expert of de medewerker de metadata heeft aangevuld in het
pop-up scherm, worden ze opgeslaan in een relationele database. De verzamelde metadata

87
[MATTOX et al. 1999] p6

42
vormen de basis voor de zoekacties in KEAN. Aan de hand
van zoekacties worden de metadata geanalyseerd en kunnen
de relevante URL’s worden getoond aan de gebruiker. Deze
URL’s worden gerangschikt op basis van de rating die de
gebruiker eraan toekende. Wanneer meer dan één gebruiker
een bepaalde URL heeft beoordeeld wordt een gemiddelde
rate berekend.
Voorbeelden van zoekacties zijn:
Welke informatie vindt Peter interessant?
Geef alle relevante informatie weer over ‘collaborative computing’.
Wat vindt iedereen de moeite om te lezen uit de verzamelde informatie van de voorbije
twee weken?
Dergelijke zoekacties zijn mogelijk in KEAN. In de toekomst wensen ze de huidige architectuur
te vervangen door een objectgeoriënteerde architectuur 88 . Dat zorgt voor een grotere flexibiliteit
in hoe informatie kan worden gefilterd, … Het zal de gebruikers ook toelaten een
gepersonaliseerde ‘view’ op te stellen. Er wordt ook gewerkt aan het inbouwen van plugs in
Word, Excell,… om de opgestelde informatie toegankelijk te maken via KEAN.

 KEAN: bevindingen op basis van de zeven domeinfactoren 89

Aangezien het doel van KEAN het lokaliseren van relevante informatie is en niet het lokaliseren
van experts, zullen de zeven domeinfactoren worden besproken in functie van het lokaliseren van
relevante informatie in plaats van experts.
De basis voor het lokaliseren van relevante informatie berust op expliciete informatie. De
metadata worden toegevoegd door medewerkers en experts en worden dus niet afgeleid uit
onderliggende documenten. Het is een persoonlijke interpretatie van de onderliggende informatie
die een document bevat. Wanneer domeinexperts documenten beoordelen kan worden
verondersteld dat de omschrijvende metadata correct zijn. Wanneer de metadata worden
opgesteld door medewerkers kan de interpretatie van sommige informatie incorrect zijn door
bijvoorbeeld beperkte kennis over het onderwerp. Ook de indicatoren die aantonen hoe relevant

88
Objectgeoriënteerd: Bij deze benadering wordt een systeem opgebouwd uit objecten, waarbij ieder object
gemaakt is vanuit de definitie van een klasse.
89
[SEID et al. 2003] p10-11

43
een document is, worden bepaald door een persoon. De beoordelingen van zowel de experts, de
kennisstewards, als van de andere medewerkers kunnen worden beschouwd als domeinkennis
gedreven. De lezer geeft een document een score om aan te geven hoe relevant dat document is.
Een controlemechanisme zou eventueel kunnen worden ingebouwd om foutieve of ambigue
metadata en over- of ondergewaardeerde rating te voorkomen. De beoordelingen van experts
zwaarder laten doorwegen bij de gemiddelde score dan de beoordelingen van de andere
medewerkers, zou een mogelijke oplossing kunnen zijn. In [Mattox et al. 1999] wordt beschreven
dat KEAN een systeem is dat geaggregeerde modellen opbouwt van de beoordelingen van
webpagina’s door gebruikers. Aan een bepaalde URL zijn metadata verbonden die de gebruiker
een beeld geven van de relevantie en de inhoud van een bepaald document. Mechanismen die
gebruikt worden om zoekacties uit te voeren zijn queries. Één of meerdere trefwoorden kunnen
worden ingevoerd om documenten te lokaliseren. Om te bepalen welke URL’s relevant zijn voor
de zoekactie ingevoerd door de gebruiker, worden de metadata doorzocht. Wanneer de metadata
en de zoekactie matchen, wordt de URL weergegeven. Op basis van de gemiddelde rating
(wanneer er meer dan één ‘utility rating’ is) of de utility rating worden de URL’s aan de
gebruiker voorgesteld. Niet enkel de URL wordt weergegeven, ook enkele annotaties worden
vermeld. Zo kan de gebruiker zich een beeld vormen van de inhoud van bepaalde documenten.
De annotaties, ratings,… toegevoegd door de registrator kunnen worden beschouwd als een soort
feedback. MITRE beschouwt het uitbouwen van knowledge management systemen als een
belangrijke investering. Volgens hen bevordert een goed georganiseerd kennismanagement het
ontwikkelingsproces van de organisatie alsook dat van de medewerkers.

3.5.4 HERMES 90

Het gebruik van metadata heeft heel wat voordelen. Bij KEAN 91 maakt het de zoektocht naar
relevante informatie mogelijk zonder verschillende types data te hoeven doorzoeken naar
indicatoren van expertise. Enkel de toegevoegde metadata worden doorzocht om de relevantie
van een document te bepalen. Bij HERME 92 S wordt gebruik gemaakt van tags, metadata
toegevoegd door medewerkers. In de voorgaande systemen, om experts te lokaliseren, was
auteurschap vaak een belangrijke indicator voor de expertise van een persoon binnen een bepaald
90
[JOHN, A. et al. 2006]
91
[MATTOX et al. 1999]
92
[JOHN, A. et al. 2006]

44
domein of met betrekking tot een bepaald onderwerp. In [JOHN, A. et al. 2006] wordt vermeld
dat personen via het internet toegang hebben tot grote hoeveelheden online informatie. Wanneer
een persoon veel informatie kan lokaliseren en verwerken over verschillende onderwerpen, is het
mogelijk dat zijn of haar expertise over bepaalde onderwerpen groeit. Om deze informatie op een
later tijdstip efficiënter terug te vinden, wordt gebruik gemaakt van bookmarks. De gebruiker
voegt tags toe die de inhoud van die informatiebron omschrijven. Anders geformuleerd: de tags
die een persoon gebruikt, geven ons een beeld van zijn kennis en interesse. Het bepalen van de
expertise van een persoon kan zo worden losgekoppeld van het auteurschap van documenten.
Wie tags toekent aan een informatiebron dient die niet te bezitten. Op het internet heeft tagging
zijn efficiëntie al bewezen 93 . Kan dit dan ook een meerwaarde bieden op bedrijfsniveau? In
volgend onderdeel bespreken we de werking van HERMES een ‘communication flow design
environment’ aan de hand van een concreet voorbeeld. Vervolgens bespreken we de zeven
domeinfactoren uit [SEID et al. 2003].

 HERMES: een praktisch voorbeeld 94

Alvorens een praktisch voorbeeld te beschrijven om de werkwijze van HERMES te
verduidelijken, wordt de beginsituatie geschetst. Om een zoekactie uit te voeren met behulp van
HERMES, dient een basis van metadata, gegenereerd door medewerkers, beschikbaar te zijn. Op
basis van die metadata wordt de expertise van medewerkers met betrekking tot een bepaald
onderwerp bepaald. Elk elektronisch document kan worden getagd door de medewerkers.
Metadata omzeilt zo het probleem van het vormen van expertisemodellen gebaseerd op expertise
indicatoren. De gebruikte tags zijn representatief voor de kennis van een persoon en kunnen dus
worden aangewend om experts binnen de onderneming te lokaliseren. Aan de hand van volgend
voorbeeld wordt de werkwijze van HERMES besproken. Een klant meldde een probleem met
betrekking tot een applicatie. De deadline afgesproken in het contract om het probleem op te
lossen, nadert.

93
Zie hoofdstuk 2 p 11 e.v.
94
[JOHN, A. et al. 2006] p2

45
Wanneer alle geïnviteerde medewerkers op de vergadering zijn gearriveerd, komt een van hen tot
de vaststelling dat de hulp van een expert nodig zal zijn om het probleem op te lossen. Een lijst
met mogelijke experts zou zeer handig zijn maar tijd om zo’n lijst samen te stellen is er niet. Dus
wordt een tweede communicatieproces geactiveerd om een gepaste expert te lokaliseren. Hier
wordt door [JOHN, A. et al. 2006] ExpertRank voorgesteld om de meest geschikte expert te
selecteren. ExpertRank bepaalt de expertise van een persoon u met betrekking tot tag t op basis
van het aantal bookmarks van persoon u gelabeld met tag t en de leeftijd van de gebruikte tag. Er
wordt ook een onderscheid gemaakt voor de berekening van ExpertRank tussen een
ongestructureerde tagspace waarin geen verbanden bestaan tussen de tags. Hier is de berekening
eenvoudig: het aantal bookmarks van persoon u gelabeld met tag t wordt gedeeld door het aantal
bookmarks van alle gebruikers gelabeld met tag t.

ExpertRank (u, t) = B u,t / B u,t Waar B u,t het aantal bookmarks is dat persoon u
heeft toegevoegd aan tag t.
In een geclusterde tagspace wordt voorgesteld een aangepaste versie van het PageRank 95
algoritme te gebruiken. Voor een gedetailleerde beschrijving wordt verwezen naar [JOHN, A. et

al. 2006]. Ook in deze formule wordt gebruik gemaakt van ‘B u,t / B u,t’. Hoe de experts
momenteel worden gelokaliseerd in HERMES wordt niet uitgelegd. [JOHN, A. et al 2006]

95
[BRIN, S., PAGE, L. 1998]

46
pleiten voor het toepassen van hun ExpertRank in HERMES om zo experts te lokaliseren. Eens
de experts werden gelokaliseerd, dient er één te worden geselecteerd om het probleem helpen op
te lossen.

Een dergelijk systeem staat in sterk contrast met het traditionele communicatieproces. Indien een
dergelijk systeem kan worden uitgewerkt binnen een bedrijf kunnen kosten worden gedrukt,
worden menselijke fouten beperkt bij het selecteren van experts,…het beschermt ook de
persoonlijke informatie van een persoon die gevolgen kan hebben voor zijn of haar reputatie.
Door enkel het systeem toegang te verlenen tot de verzamelde informatie van een persoon,
kunnen medewerkers onderling geen misbruik maken van elkaars informatie.

 ExpertFinder: bevindingen op basis van de zeven domeinfactoren 96

Ook HERMES wordt besproken aan de hand van de zeven domeinfactoren. Een eerste factor: de
basis voor expertiseherkenning. HERMES maakt gebruik van expliciete aanwijzingen. De
metadata worden door de medewerkers zelf toegevoegd. Het zijn die metadata die als basis voor
expertiseherkenning worden gebruikt. Aangezien de tags die gebruikt worden door de
medewerkers de indicatoren zijn van expertise dienen geen technieken te worden gebruikt om
deze te onttrekken aan onderliggende documenten. Het modelleren van de expertise gebeurt in
[JOHN,A. et al. 2006] met behulp van ExpertRank, deze berekening wordt uigevoerd wanneer
een expert wordt gezocht. Expertise is dus ‘query-time’ gegenereerd aangezien ExpertRank
wordt berekend voor een bepaalde tag uit de zoekactie. De gebruikte mechanismen voor een
zoekactie zijn expliciete queries maar uit de context van een bepaald probleem kan de nood aan
expertise worden afgeleid. Wat matching betreft, is er afhankelijk van de berekening van de

96
[SEID et al. 2003] p10-11

47
ExpertRank (gestructureerde of ongestructureerde tagspace) sprake van ‘inference matching’ en
exacte matching. Wanneer er geen verbanden bestaan tussen bepaalde tags, kunnen experts enkel
worden gelokaliseerd door exacte matching. In een geclusterde of gestructureerde tagspace, is er
wel sprake van relaties tussen tags onderling. Hier is sprake van ‘inference matching’. Hoe de
output van HERMES wordt weergegeven, wordt niet vermeld in [JOHN, A. et al. 2006]. Ook
over aanpassen en leren, wordt in voornoemde paper niets vermeld.

3.4 Samenvattende tabel

Om de verschillende expert finders te kunnen vergelijken, worden de zeven domeinfactoren voor
elk systeem in een tabel verzameld.
MITRE’s
Domeinfactoren DEMOIR KEAN HERMES
ExpertFinfer
Basis voor Impliciete De beschikbare KEAN maakt De gebruikte tags
expertise- aanwijzingen, documenten in MII gebruik van de zijn de basis voor
herkenning afgeleid uit worden gebruikt metadata voor een expertise-
secundaire bronnen als aanwijzingen bepaalde URL. herkenning. Deze
zoals opgestelde voor expertise. Deze metadata zijn aangevuld
documenten,… Basis zijn worden beschouwd door de
vormen de basis. impliciete als expliciete medewerkers en
aanwijzingen informatie. zijn dus expliciete
informatie.
Expertise- Het samen Ook hier wordt Bij KEAN kunnen Ook hier zijn de
indicatoren voorkomen van gebruik gemaakt de metadata tags toegevoegd
selecteren concept en naam van domeinkennis toegevoegd door door de
van de persoon onafhankelijke de kennisstewards medewerkers
wijst op indicatoren. Naam en medewerkers domeinkennis
domeinkennis – concept co- worden gezien als gedreven.
onafhankelijke occurrence is de domeinkennis
indicatoren. voornaamste gedreven
indicator. informatie.

48
Beeld vormen van Source Type De kennis van een Bij KEAN wordt De gebruikte tags
de expertise Identifiers bepalen expert wordt een beeld gevormd geven de kennis en
welke wrapper verzameld in een van de relevantie interesse weer van
welk type bron expertmodel. De van een bepaald een persoon. Zo
doorzoekt. De expertise van een document. Aan de vormen alle tags
wrappers persoon wordt hand van de ‘utility van die persoon
selecteren de bepaald door de rating’ of een expertmodel
indicatoren van zoekactie. Op basis gemiddelde rating op zich. Om de
expertise. De van de zoekactie (wanneer meer dan graad van expertise
fusers verzamelen wordt een een persoon te bepalen wordt
alle expertise- expertscore metadata gebruik gemaakt
indicatoren voor toegekend aan de aangevuld voor van ExpertRank.
een persoon. Deze personen. eenzelfde URL) Deze rank wordt
worden via de wordt de relevantie bepaald naargelang
EISM opgeslagen bepaald. de nood aan
als expertmodel in expertise. Wanneer
EIS. Om de een communicatie
expertise van een proces aangeeft dat
persoon te bepalen een bepaald
wordt het probleem een
expertmodel expert vereist om
vergeleken met een het op te lossen,
geaggregeerd berekent het
expertisemodel. systeem de
ExpertRank met
betrekking tot een
bepaalde tag.
Mechanismen voor Expliciete Expliciete Expliciete De nood aan
de zoekopdracht zoekopdrachten zoekopdrachten zoekopdrachten expertise wordt
afgeleid uit een
probleem die zich

49
stelt.
Matching van de EISM doorzoekt Exacte matching Exacte matching Afhankelijk of
resultaten expertmodellen om van het onderwerp van de metadata en gewerkt wordt met
geschikte personen van de zoekactie de trefwoorden uit een (1)
te lokaliseren. met informatie uit de zoekactie ongestructureerde
de expertmodellen of (2) geclusterde
tagspace. Bij (1) is
exacte matching
van toepassing, bij
(2) is ‘inference
matching’
mogelijk aangezien
er een verband
bestaat tussen de
tags onderling.
Presentatie van de Wordt niet Gerangschikte lijst Lijst van relevante Er is geen
output besproken van geschikte URL’s presentatie van de
experts + relevante gerangschikt op geschikte experts.
informatie basis van de het systeem
gemiddelde rating. lokaliseert een
expert, wanneer
die op de
uitnodiging ingaat,
wordt de naam van
de expert aan de
andere
medewerkers
doorgegeven.
Aanpassen en leren API’s zorgen voor / Annotaties /
gebruikers- toegevoegd aan
ondersteuning URL’s

50
3.5 Conclusie.

Elk expert finder systeem heeft zo zijn voor- en nadelen. Het omzeilen van beperkingen van
bepaalde systemen is de drijvende kracht binnen dit onderzoeksdomein. Er is nog veel
verbetering mogelijk binnen het domein van expert finder systemen om zowel de meest geschikte
personen als de meest relevante informatie te kunnen lokaliseren. Het belang van dergelijke
systemen valt niet te onderschatten. De grote hoeveelheden beschikbare informatie maken het
moeilijk om uit te maken welke bronnen het best worden geraadpleegd om zo snel mogelijk de
benodigde kennis te vergaren om een probleem aan te pakken en op te lossen. Ook in verspreide
organisaties zijn systemen nodig die de geschikte personen weten te lokaliseren om bepaalde
problemen op te lossen of opdrachten uit te voeren. Dit kan veel tijd en ook kosten besparen.
Gevoerde en lopende onderzoeken 97 binnen dit domein van kennismanagement zijn veelbelovend
om orde te kunnen scheppen in de beschikbare informatie binnen een bedrijf als er buiten. De
methodologie uitgewerkt in hoofdstuk vijf onderzoekt of het analyseren van gebruikte
trefwoorden of tags kan bijdragen tot het lokaliseren van experts binnen de onderneming. Maar
zoals reeds werd aangehaald in hoofdstuk 2 zijn tags niet voorzien van een context
onafhankelijke en subjectieve definitie zoals ontologieën. Sociale netwerken kunnen zorgen dat
een context kan worden gecreëerd waardoor de betekenis van tags duidelijk wordt voor de
gebruikers ervan. In volgend hoofdstuk wordt dieper ingegaan op het sociale aspect van taggen.

97
[HOTHO, A. et al 2006], [JOHN, A. et al, 2006], [VAN DAMME, C. et al 2007],…

51
4. Sociale netwerk analyse

4.1 Introductie

Hedendaagse webservices en weblogs bevorderen de creatie van metadata. Dergelijke metadata
weerspiegelen enkel de subjectieve mening van de gebruiker. Om de waarde van metadata te
kunnen bepalen, dient de context waarin de data worden gecreëerd, te worden overwogen. Als dit
niet gebeurt, kan metadata dubbelzinnig zijn, het kan andere verklaringen tegenspreken of het kan
zelfs verkeerd zijn. De vraag die [BIELENBERG et al. 2005] zich stellen is hoe individuele
metadata waardevol kunnen zijn voor een breder publiek terwijl problemen zoals ambiguïteit,
foutieve informatie,…kunnen worden vermeden 98 ? Sociale netwerken kunnen een mogelijke
oplossing zijn. Als mensen met een gezamenlijke interpretatie over een bepaald onderwerp
kunnen worden samengebracht, is de kans groot dat de subjectieve informatie van een persoon
wordt begrepen door andere personen van die groep. Een dergelijke gezamenlijke interpretatie
kan gebaseerd zijn op een gemeenschappelijke woordenschat, een gelijkaardig kennisniveau of
interesse in dezelfde onderwerpen. Weblogs en sociale websites zijn belangrijke bronnen om
sociale netwerken te bestuderen. Bijdragen tot dergelijke websites geeft aanwijzingen over de
interesse van de gebruiker. In volgend hoofdstuk worden begrippen zoals ‘sociaal netwerk’ en
‘sociale netwerk analyse’ toegelicht alsook hun betekenis voor het verdere verloop van de thesis.
Ook worden mogelijke denkwijzen en methodes vermeld, beschreven in de literatuur.

4.2 Sociale netwerken

4.2.1. Wat zijn sociale netwerken

Een netwerk wordt in Van Daele omschreven als ‘verzameling van onderling verbonden zaken:
men kan de maatschappij zien als een netwerk van persoonlijke en groepsrelaties’. Sociale
netwerken ontstaan wanneer personen met elkaar communiceren. De sociale relaties binnen een
dergelijk netwerk kunnen gebaseerd zijn op vriendschap, verwantschap, gedeelde activiteiten,….
Individuen kunnen voordeel halen uit hun sociale netwerken. Voorbeelden zoals financiële hulp,
emotionele steun, kameraadschap zijn slechts enkele voordelen die netwerken bieden 99 . Vroeger

98
[BIELEBERG et al. 2005] p 7
99
WELLMANN, B. et al. 1990 “Different Strokes from Different Folks: Community Ties and Social Support” The
American Journal of Sociology, Vol 96, No 3, 1990 p558-588 in [BIELENBERG et al. 2005] p20

52
waren scholen, buurten en bedrijven de focus van studies betreffende sociale netwerken en de
analyse ervan. De laatste jaren wordt die focus ook uitgebreid naar online gemeenschappen 100 .
Bovenstaande omschrijving geeft weer wat personen verstaan onder de term sociaal netwerk. Het
voorstellen van een netwerk gebeurt vaak aan de hand van een graaf. Een graaf bestaat uit een
eindige verzameling punten (Eng: nodes of vertices) waarvan sommige verbonden zijn door
lijnen (Eng: edges) 101 . Elke persoon of actor uit het netwerk wordt voorgesteld door een punt of
‘node’. De onderlinge relaties tussen de personen worden weergegeven door lijnen of ‘edges’.
Opbouw van een graaf 102
De meest courante notatie van een graaf G is:

G = (V, E)

G bestaat uit 2 verzamelingen V en E.
Waarbij de elementen van V de punten (Eng:
vertices of nodes) van graaf G zijn en de
elementen van E de lijnen (Eng: edges of arcs) die
de punten verbinden.
In dit voorbeeld:
V = {A, B, C, D, E, F}
E = {(A,D); (A,B); (B,D); (C,B); (D,E);
(E,F); (F,B); (F,C)}

Wanneer een persoon enkel de bookmarks bekijkt van andere personen maar geen aanwijzingen
achterlaten die zijn aanwezigheid aantonen, ontstaat een verband tussen beide personen.
Dergelijke relatie tussen twee personen is een asymmetrische relatie. Het verband tussen beide
personen is niet wederzijds. Wanneer iemand reageert op een weblog, is er sprake van een
symmetrische communicatie wat een wederzijdse vorm van communicatie 103 is. Wanneer een
onderscheid wordt gemaakt tussen symmetrische en asymmetrische relaties is de beschreven
graaf een gerichte graaf 104 . Bovenstaande afbeelding is een gerichte graaf. Alle relaties zijn
asymmetrisch. Een studie van de verbanden tussen de onderlinge punten leidt tot de vaststelling
dat verschillende patronen in sociale netwerken mogelijk zijn.

100
[WELLMANN, B. et al. 1996] p1
101
[MERRIS, R. 2000] P 2
102
[MERRIS, R. 2000] P 3
103
[BIELENBERG et al. 2005] p21
104
Ibidem

53
4.2.2. Patronen in sociale netwerken

In [BIELENBERG et al. 2005] wordt een bondig overzicht gegeven van de verschillende
karakteristieken of patronen die kunnen worden teruggevonden in sociale netwerken.
 Dichtheid van een netwerk. De formule (K-1) * K geeft het maximum aantal verbanden in
een netwerk weer, waarbij K het aantal personen in het netwerk voorstelt. De dichtheid
van een netwerk is de verhouding van de aanwezige verbanden ten opzichte van het aantal
mogelijke verbanden in een netwerk. Een hoge dichtheid toont aan dat vele personen
verbonden zijn met elkaar. Een lage dichtheid wijst op weinig verbanden.
 Centrale ligging binnen een netwerk. De centrale ligging van een persoon is afhankelijk
van de bijdrage die een persoon levert, de invloed die hij uitoefent. De centrale ligging
van een node drukt uit in welke mate een netwerk om een bepaalde persoon draait, hoe
belangrijk die persoon voor het netwerk is. ‘Degree -’, ‘closeness -’ en ‘betweenness
centrality’ zijn voorbeelden van hoe de centrale ligging van een node wordt bepaald.
‘Degree centrality’ geeft het aantal verbanden aan die een bepaalde node heeft met andere
personen uit het netwerk. Er kan een onderscheid worden gemaakt tussen in-degree en
out-degree. Een verklaring voor deze termen ligt voor de hand: in-degree staat voor het
aantal inkomende links, out-degree staat voor het aantal uitgaande links. Personen met
veel inkomende links worden vaak als een vooraanstaand persoon beschouwd binnen het
netwerk. Veel uitgaande links tonen aan dat die persoon bij verschillende personen terecht
kan, het beperkt zijn afhankelijkheid. Bij ‘closeness centrality’ wordt de afstand tot de
andere personen berekend. ‘Betweenness centrality’ is het aantal keren dat nodes uit het
netwerk, langs deze persoon moeten komen om via de kortste weg naar een andere nodes
te geraken. In bovenstaande voorbeeldgraaf moet node C via node B passeren om naar
node D te gaan. Hoe meer paden via node B verlopen hoe hoger zijn betweenness
centrality zal zijn 105 . De verschillende vormen van centrality kunnen worden gebruikt om
de verdeling van macht binnen een netwerk te analyseren 106 . Hoe centraler een persoon is
gelegen binnen een netwerk, hoe invloedrijker die persoon is of hoe meer personen
afhankelijk zijn van deze persoon.
 Groepen binnen een netwerk. Groepen, ook wel clusters genoemd, kan men herkennen

105
http://www.analytictech.com/networks/centrali.htm Geraadpleegd 25/04/2009
106
[BIELENBERG et al. 2005] p21

54
 Network transitivity. Wanneer twee personen A en B elk verbonden zijn met eenzelfde
node C binnen een netwerk, dan is het waarschijnlijk dat A en B ook gerelateerd zijn aan
elkaar 107 . Een voorbeeld van network transitivity is de rubriek op Facebook 108 : “Mensen
die je misschien kent”. Hier worden personen voorgesteld die een band hebben met
vrienden van jou. Facebook leidt hieruit af dat dit ook een mogelijke vriend van jou kan
zijn.
Dergelijke patronen worden gebruikt om sociale netwerken te analyseren. In een volgend
onderdeel wordt de term ‘sociale netwerk analyse’ verklaard. Enkele theorieën over sociale
netwerken worden toegelicht. In [MIKA, P 2004] wordt nagegaan hoe metadata, gecreëerd door
gebruikers, kunnen worden geanalyseerd om sociale netwerken te lokaliseren. De motivatie voor
het lokaliseren van dergelijke netwerken is dat ze een context kunnen bieden om tot een
gezamenlijke interpretatie te komen van een bepaald onderwerp.

4.3 Sociale netwerk analyse

4.3.1. Wat is sociale netwerk analyse?

Sociale netwerk analyse is een belangrijke techniek uit de moderne sociologie en wordt
aangewend om complexe relaties tussen personen binnen sociale systemen te ontdekken, deze te
bestuderen en voor te stellen. Dit onderzoeksveld is geëvolueerd van een suggestieve metafoor
naar een analytische benadering van een paradigma met eigen theoretische verklaringen,
methodes, sociale analyse software en wetenschappers 109 . Onderzoekers bestuderen zowel
volledige netwerken als delen ervan zoals ‘clusters’. Ook persoonlijke netwerken, het netwerk
rond één bepaalde persoon, en de gemeenschappen waarvan het deel uitmaakt, kunnen het
onderwerp zijn van een wetenschappelijke studie. De structuur van een netwerk, de relatie tussen
een individu en andere leden van het netwerk, het gedrag van personen binnen een netwerk
alsook hun houding zijn stuk voor stuk onderwerpen binnen het onderzoeksdomein van ‘sociale

107
Girvan, M. et al. (2002) in [BIELENBERG et al. 2005] p 22
108
www.facebook.com
109
[WELLMAN, B. et al. 1988]

55
netwerk analyse’ 110 . Sociale netwerk analyse verschilt van traditioneel sociaal wetenschappelijk
onderzoek in die zin dat de eigenschappen van de individuele actoren, zoals vriendelijk of slim
zijn, minder belangrijk zijn dan hun relaties en verbanden met andere actoren binnen het
netwerk 111 . Het bestuderen van personen en hun onderlinge verbanden zorgt voor de data die
nodig zijn om sociale netwerken te visualiseren. Dergelijke data kunnen ook de basis vormen van
verschillende theorieën. In volgende paragraaf worden enkele sociale netwerk theorieën
toegelicht.

4.3.2. Sociale Netwerk Theorieën 112

Analyse van sociale netwerken maakt dat verschillende relaties tussen actoren binnen een
netwerk worden geïdentificeerd. Door het bestuderen van dergelijke analyses kunnen
wetenschappelijke theorieën worden opgebouwd. In volgend onderdeel worden de “Strength of
weak ties” theorie, uitgewerkt door Granovetter 113 , en de “Focus” theorie van Feld 114 toegelicht.
 Strength of weak ties 115
In [ELCHARDUS, M. 2007] wordt gesteld dat volgens Granovetter persoonlijke relaties en
netwerken belangrijker zijn voor het functioneren van gemeenschappen dan doorgaans wordt
aangenomen. Deze persoonlijke relaties zijn primaire relaties maar verschillen in intensiteit. Er
wordt een onderscheid gemaakt tussen twee soorten primaire relaties 116 : ‘strong ties’ of sterke
band en ‘weak ties’ of zwakke band. Zowel strong als weak ties vervullen verschillende functies:
Strong ties: zijn belangrijk voor onder meer emotionele steun en groepsbinding. Het zijn
meestal dichte vrienden of familieleden. Een sterke band tussen verschillende personen
kan resulteren in een hechte groep. De informatie die via een sterke band binnen het
netwerk bereikbaar is, is vaak gelijkaardig aan de informatie die je al bezit. Om
vernieuwende informatie te lokaliseren, bieden ‘weak ties’ meer mogelijkheden volgens
Grannovetter. [KRACKHARDT, D. 1992] merkt op dat onderzoek Granovetters’ theorie
betreffende ‘strong ties’ bevestigt. Toch stipt Krackhardt aan dat het onderscheid tussen

110
Ibidem
111
[WASSERMAN, S. et al. 1994]
112
[WELLMAN, B. et al. 1996]
113
Granovetter 1982 in [BIELENBERG et al. 2005] p22 en [WELLMAN et al. 1996] p 222
114
Feld 1981 in [BIELENBERG et al. 2005] p23
115
[BIELENBERG et al. 2005], [ELCHARDUS, M. 2007] en [WELLMAN et al. 1996]
116
[ELCHARDUS, M. 2007] p290

56
weak en strong ties niet altijd even duidelijk is 117 . De onderverdeling in zwakke en sterke
verbanden tussen personen kan verschillen naargelang de criteria in acht genomen om de
sterkte van de band te bepalen. [BIELENBERG et al. 2005] merken op dat het concept
‘transitivity’ enkel mogelijk is bij strong ties. Wanneer twee personen A en B enkel een
zwakke band hebben met een derde persoon C kan niet zomaar worden afgeleid dat ook A
en B een zwakke band hebben 118 .
Weak ties: omschrijven relaties met kennissen en andere losse contacten. Granovetter
meent dat weak ties dienst doen als een lokale brug tussen delen van het sociale netwerk
die er anders geen deel van uitmaken. Weak ties worden aanzien als schakel naar nieuwe
informatie uit andere delen van het sociale systeem. Ze maken de doorstroom van
informatie naar grote delen van het sociale netwerk mogelijk. Zonder weak ties kan men
enkel teruggevallen op de kennis van vrienden of personen in je nabije omgeving.
Personen binnen een netwerk met verschillende weak ties, hebben een stap voor op
personen die enkel strong ties bezitten. De reden hiervoor is dat ze niet enkel afhankelijk
zijn van hun nabije vriendenkring. Een meer open netwerk resulteert vaak in het
aanbrengen van nieuwe ideeën en mogelijkheden dan een gesloten netwerk. Dit is een van
de redenen waarom ‘networking’ in onze huidige maatschappij zo belangrijk is.
[BIELENBERG et al; 2005] merken op: “A local bridge will retain its bridging character
as long as the time and effort invested in this tie remains small. This is the case as long as
the tie is weak” 119 . Wanneer teveel tijd en inspanning wordt geïnvesteerd in zwakke
verbanden verandert de weak tie in een strong tie. Zo verliest deze persoon zijn functie als
brug. De naam van de theorie ‘Strength of weak ties’ wordt afgeleid uit het standpunt van
Granovetter: zwakke verbanden binnen een sociaal netwerk zijn minstens even belangrijk
als de strong ties.

 Focus theorie 120
Feld’s focus theorie is gerelateerd aan de dichtheid van een netwerk, dat eerder 4.2.2 werd
vernoemd. Het doel van deze theorie is het verklaren van sociale cirkels binnen sociale
netwerken. Om een dergelijke sociale cirkel aan te duiden, gebruikt Feld de term ‘focus’. Deze
117
[KNACKHARDT, D. 1992] p216-217
118
[BIELENBERG et al. 2005] p22
119
[BIELENBERG et al. 2005] p24
120
Feld 1981 in [BIELENBERG et al 2005] p23

57
term wordt gedefinieerd als “A social, psychological, legal or physical entity around which joint
activities are organized (e.g. workplaces, voluntary organizations, hangouts, families,etc.)” 121 .
Een focus ontstaat waar mensen actief samen komen. Een focus kan ook een passieve beperking
zijn (vb buurt, omgeving). Wanneer een dergelijke focus veel tijd in beslag neemt door intensieve
en frequente interactie tussen personen, ontstaan steeds meer verbanden tussen de personen die
deel uitmaken van die focus. Dergelijke foci hebben een hoge dichtheidsgraad. Een persoon deel
kan uitmaken van verschillende foci maar zijn sociale interactie beperkt zich vaak tot die foci,
zeker wanneer een focus een hoge dichtheidsgraad heeft. Wat maakt dat foci kunnen worden
beschouwd als een passieve beperking. Foci bevorderen de vorming van groepen omdat de
waarschijnlijkheid dat twee personen zullen communiceren met elkaar rond een gedeelde
activiteit groter is dan tussen twee personen zonder een gedeelde focus 122 . Volgens Feld bestaat
een sociale context uit een aantal verschillende foci en personen, waarbij elke persoon wordt
gerelateerd aan één of meerdere foci en niet aan andere personen. De context van één persoon
kan niet worden voorgesteld in een enkele netwerkgraaf zonder informatie te verliezen over de
individuele sterkte van een verband tussen personen binnen eenzelfde focus. Wanneer twee
personen meer dan één focus gemeen hebben, zal de sterkte van hun relatie het gemiddelde van
alle gedeelde verbanden zijn en dus niet de werkelijke sterkte van hun band losstaand van de
verschillende foci.
Ook merken [BIELENBERG et al 2005] op dat binnen eenzelfde focus het aspect ‘transitivity’
vaak van toepassing is. De reden hiervan is dat een focus zich realiseert rond een gedeelde
activiteit. Wanneer persoon A en B een band met persoon C gemeenschappelijk hebben binnen
dezelfde focus dan is de kans groot dat ze ook een onderlinge band hebben.

“Strength of weak ties” theorie en de Focus theorie trachten allebei de vorming van groepen en
voornamelijk de interactie tussen personen in één of meerdere groepen te beschrijven en/of toe te
lichten. Onderzoeken naar relaties binnen sociale netwerken of de opbouw van een dergelijk
netwerk worden uitgevoerd om meer inzicht te krijgen in sociale structuren, personen en hun
sociale context. Waarvoor dergelijke netwerken en analyses worden aangewend, wordt besproken
in volgend onderdeel.

121
Ibidem
122
Feld 1981 in [BIELENBERG et al 2005] p23

58
4.4 Sociale Navigatie

In [BIELENBERG et al 2005] wordt aangestipt dat een mens een sociaal wezen is en dus gebruik
maakt van sociale informatie die hij verzamelt via interactie en observatie tijdens de zoektocht
naar informatie 123 . Bij het uitstappen aan een treinhalte wordt meestal de massa gevolgd om de
uitgang van het station te vinden of bij het bouwen van een huis worden vrienden aangesproken
die ervaring hebben met bouwen of verbouwen. Dit zijn slechts enkele van vele voorbeelden uit
het dagelijkse leven die aantonen dat personen afgaan op hints uit de sociale context wanneer ze
op zoek zijn naar informatie of deze dienen te verwerken. Al deze hints vormen een context of
referentiekader voor bepaalde informatie. Maar wanneer informatie wordt opgevraagd via
computersystemen of –netwerken gaat dergelijke waardevolle informatie vaak verloren omdat
vele applicaties er geen gebruik van maken. Dat applicaties geen gebruik maken van een
referentiekader is omdat sociale informatie niet altijd wordt doorgegeven. Ook merken
[BIELENBERG et al. 2005] op dat applicaties niet voldoende uitgerust zijn om hints gecreëerd
door andere personen te observeren en zo af te leiden of de informatie relevant is of niet. Het
ontwikkelen van concepten en technieken om dit probleem aan te pakken, is het onderwerp van
sociale navigatie. De expert finder systemen besproken in hoofdstuk 3 maken ook deel uit van het
domein van sociale navigatie. Maar het onderzoeksveld van sociale navigatie beperkt zich niet tot
het aanbevelen van relevante informatie en/of personen. In volgende paragraaf wordt kort het
onderscheid besproken tussen directe en indirecte sociale navigatie. Een ander luik van sociale
navigatie is personen bewust maken van de aanwezigheid van anderen, ook wel ‘social
awareness’ genoemd. De aanpak voor deze bewustmaking wordt besproken in 4.4.2. Voor de
methodologie uitgewerkt in hoofdstuk 5 wordt gebruik gemaakt van metadata om sociale
navigatie binnen een onderneming mogelijk te maken. De ideeën voor dergelijke sociale
navigatie zijn voornamelijk geïnspireerd door [MIKA, P. 2005]. In 4.4.3 wordt uitgelegd hoe
sociale netwerken kunnen worden gevisualiseerd en geanalyseerd op basis van metadata.

4.4.1. Directe en indirecte sociale navigatie

Sinds verschillende jaren wordt gewerkt aan een manier om sociale informatie te gebruiken om
het ontdekken en exploreren van informatie te verbeteren. [MILLEN et al. 2006] omschrijven

123
Dieberger (2000), Dourish (1993), Höök (2003) in [BIELENBERG et al. 2005] p25

59
sociale navigatie als volgt: “Social navigation is a concept that is generally used to describe
navigation that is ‘driven by the actions of one or more advice providers’.” 124 . Een ‘advice
provider’ kan zowel een persoon als een artificiële agent
zijn. Er worden twee types van sociale navigatie
onderscheiden: directe en indirecte sociale navigatie. In een
communicatieproces kunnen volgende zaken worden
onderscheiden:
Zender
Ontvanger
Boodschap
De vorm waarin een boodschap wordt overgedragen.
Directe Sociale Navigatie: is de directe communicatie tussen personen. Een kenmerkende
eigenschap van directe sociale navigatie is de directe intentie van de zender om andere
personen te begeleiden aan de hand van een boodschap 125 . Voorbeelden van dergelijke
sociale navigatie is chatten, versturen van e-mails,…[BIELENBERG et al. 2005] spreken
van synchrone communicatie. De zender en ontvanger worden verondersteld elkaars
identiteit te kennen.
Indirecte Sociale Navigatie: is het afleiden van advies uit bijproducten van onze
activiteiten 126 . Hiervoor dient het gedrag van personen of groepen te worden geregistreerd
en geanalyseerd. Een voorbeeld van indirecte sociale navigatie bijvoorbeeld de rubriek
‘most popular’ op de startpagina van ‘You Tube’. Hierin worden de filmpjes vermeld die
het meest worden bekeken 127 . Door informatie af te leiden weet de ontvanger van de
informatie niet wie de zender was. De zender blijft anoniem.
Directe en indirecte sociale navigatie beschrijven onder synchroon

andere de graad van anonimiteit. [BIELENBERG et al. Directe
Sociale
2005] besluiten dat hoe meer de communicatie Navigatie
anoniem
synchroon verloopt hoe beter de gebruikers elkaar
gekend
kennen en hoe directer de sociale navigatie is. Sociale Indirecte
Sociale
Navigatie

124 Asynchroon
Dourish (1994) in [MILLEN et al. 2006] p 1
125
[MILLEN et al. 2006] p1
126 Karakteristieken van directe en indirecte
Ibidem Sociale navigatie
127
http://www.youtube.com/

60
navigatie is steeds observeerbaar geweest op het internet.
In [BIELENBERG et al. 2005] wordt voorgesteld om personen bewust te maken voor elkaars
aanwezigheid op het web.

4.4.2. Social awareness 128

Het internet wordt dagelijks gebruikt door miljoenen gebruikers. Toch is niet iedereen zich
bewust van de aanwezigheid van anderen. Het bewust worden van die aanwezigheid kan
nochtans positieve effecten creëren: het kan de gebruiker een gevoel van steun geven, of de
gebruiker stimuleren nieuwe functies uit te proberen omdat anderen dat ook doen. Ook kan het
een gepaste vorm van gedrag bevorderen. In directe communicatie, offline, zijn personen zich
bewust van waarden en normen die bestaan voor het voeren van een gesprek. Online zijn
dergelijke waarden en normen in mindere mate aanwezig. Erickson (2003) 129 merkt op dat
systemen doorzichtiger maken een stap in de goede richting is. Volgende aspecten dienen
volgens Erickson (2003) aanwezig te zijn in een systeem om te voorkomen dat personen ‘sociaal
blind’ worden:
Zichtbaarheid: het voorstellen van zoveel mogelijk informatie over deelnemers en hun
ondernomen acties.
Bewustzijn: personen die zich bewust zijn van de aanwezigheid van anderen en hun eigen
zichtbaarheid, zullen zich ook bewuster zijn van de mogelijke gevolgen.
Verantwoordelijkheid: dit is een gevolg van een gedeeld bewustzijn van mogelijke
beperkingen. Wanneer een beperking wordt overtreden, kan dit ongepaste gedrag worden
gesanctioneerd.
Beperkingen kunnen zeer subtiel zijn wat maakt dat het voorstellen ervan nog moeilijker
wordt 130 . Wanneer iemand nieuw is in een groep en een standpunt negatief bekritiseerd dat
binnen die groep hoog in het vaandel wordt gedragen, dan zal de groep deze persoon veroordelen
en mogelijk zelfs verstoten. Dergelijke informatie over groepen visualiseren, maakt dat nieuwe
toetreders to die groep op de hoogte zijn van de gangbare waarden en normen. Ze kunnen hun
gedrag aanpassen indien ze bij de groep willen aansluiten. Toch is het moeilijk om sociale
informatie voor een bepaalde groep vast te leggen. Dergelijke informatie is gegroeid uit de

128
[BIELENBERG et al; 2005] p28
129
In [BIELENBERG et al. 2005] p29
130
Shirky (2003) in [BIELENBERG et al. 2005] p29

61
identiteit van de personen uit die groep en de onderlinge interactie tussen groepsleden. Om te
vermijden dat de functie van een groep wordt geherstructureerd door onruststokers en
nieuwelingen stelt Shirky (2003) voor om een reputatiemechanisme in te bouwen om te kunnen
toetreden tot een groep. Dergelijke mechanismen zouden personen die wensen toe te treden tot
een groep meteen op de hoogte stellen van de sociale normen die in de groep leven.
Sociale software, die sociale navigatie mogelijk maakt, ondersteunt het sociale bewustzijn. Het
maakt de visualisatie van interactieprocessen tussen personen binnen eenzelfde netwerk mogelijk.
Dit aspect wordt aangewend, in de methodologie uitgewerkt in hoofdstuk 5, om netwerken rond
personen te visualiseren. Maar hoe kan een netwerk worden gelokaliseerd en voorgesteld?
[MIKA, P. 2004] stelt voor om netwerken af te leiden uit gebruikergegenereerde metadata.

4.4.3 Sociale netwerken detecteren door een analyse van metadata 131

Om de beschikbare informatie op het web te structureren worden verschillende vormen van
sociale navigatie toegepast. Van sociale bookmarkingsites als Del.icio.us tot persoonlijke
webpagina’s voorzien van links naar interessante informatie. Allen stellen ze gebruikers in staat
om informatie op het web te organiseren en om die later op een eenvoudige manier terug te
vinden. Zoals besproken in hoofdstuk 3 wordt er voor het lokaliseren van experts en relevante
informatie steeds vaker gebruik gemaakt van impliciete informatie in plaats van expliciete
informatie 132 . Dit wijst op een verschuiving van directe naar indirecte sociale navigatie.
[BIELENBERG et al. 2005] vermelden dat de objectieve kwaliteit van informatie niet door
zomaar iedereen kan worden bepaald. Hiervoor wordt meestal beroep gedaan op experts. Toch is
het ook mogelijk informatie aan te bevelen door de relevantie ervan te bepalen aan de hand van
impliciete bronnen. Door het gebruik van tags wordt meer metadata gecreëerd dan de tag alleen.
Ook de auteur van de tag en bron die men beschrijft zijn gegevens die kunnen worden
geanalyseerd. Hoe kunnen sociale netwerken worden gedetecteerd aan de hand van een analyse
van metadata? [MIKA, P. 2004] stelt voor om sociale netwerken aan te wenden om ‘lightweight
ontologies’ af te leiden uit gebruikergegenereerde metadata. De werkwijze die Mika (2004)
gebruikt geeft niet enkel een aanzet om dergelijke ontologieën af te leiden uit de metadata maar
ook sociale netwerken kunnen worden gedetecteerd.
De metadata nodig voor de analyse in [MIKA, P. 2004] bestaat uit drie verzamelingen gegevens:
131
[MIKA, P. 2004]
132
Zie hoofdstuk 3 p 23 e.v.

62
actoren, concepten en instanties. De actoren zijn de personen die bronnen, hier instanties
genaamd, labellen met kenmerkende trefwoorden, die Mika concepten noemt.
Een drievoudige relatie tussen actor, concept en instantie, ook folksonomie genoemd, kan worden
voorgesteld als graaf. Actor, concept en instantie zijn de nodes of punten van de graaf en de
onderlinge relaties tussen de nodes vormen de verbanden of edges. Wanneer alle actoren,
concepten en instanties samen worden voorgesteld, is het resultaat een netwerk van
folksonomieën. Dit netwerk kan worden voorgesteld als graaf. De set van nodes bestaat uit de
verzameling van alle actoren A die bronnen hebben getagged, alle concepten C die werden
gebruikt om bronnen te omschrijven en alle instanties I die werden benoemd met tags. De
onderlinge verbanden tussen A, C en I vormen de edges.
Opbouw van een folksonomie 133
Een folksonomie is een eindige sequentie van objecten
Concept 1
waarbij de volgorde van belang is:

Concept 2 F := (U, T, R, Y)
Instance 1 U, T en R zijn eindige sets, verzamelingen waarvan de
elementen users (of gebruikers), tags en resources (of
Instance 2 bronnen) worden genoemd.
‘Tag assignment’ Y is de relatie tussen U, T en R. Het
Actor 1
toewijzen van tags houdt een verband in tussen de
gebruiker van een tag, deze tag zelf en de bron die hij
Actor 2 hiermee beschrijft.
YUxTxR

Mika 134 (2004) vindt dat dergelijke hypergrafen moeilijk te begrijpen zijn dus besluit hij deze
hypergraaf te reduceren tot drie grafen die de relatie tussen twee elementen weergeven: actor –
concept (AC graaf), actor – instantie (AI graaf) en concept – instantie (CI graaf). Voor een
uitgebreide beschrijving van de analyse verwijzen we naar [MIKA,P. 2004].
Mika (2004) start vanuit de AC graaf, die het verband weergeeft tussen de personen en de
gebruikte tags. Deze graaf wordt ‘affiliation network’ of netwerk van verbanden genoemd in de
literatuur. De onderliggende matrix wordt de ‘affiliation matrix’ genoemd. Wanneer er een
verband bestaat tussen de actor en het concept is de waarde in de matrix 1, wanneer er geen band
is, de actor heeft het concept niet gebruikt, is de waarde 0. Uit deze matrix worden twee nieuwe
matrices gedefinieerd: de ‘co-affiliation matrix’ en de ‘dual matrix’. De co-affiliation matrix

133
[HOTHO, A. et al. 2006] P 4
134
[MIKA, P. 2004] p3-4

63
definieert een sociaal netwerk waarbij de personen met elkaar verbonden zijn wanneer ze één of
meerdere concepten gemeenschappelijk hebben. Het aantal trefwoorden dat ze gemeen hebben,
geeft het gewicht weer van de onderlinge relatie. Deze denkwijze wordt gebruikt in de
methodologie, uitgewerkt in hoofdstuk 5. Om een sociaal netwerk op te bouwen moeten we de
relaties tussen personen definiëren. Voor de methodologie wordt volgend criterium gebruikt: het
aantal trefwoorden, dat personen gemeenschappelijk hebben, zullen de sterkte van hun de relatie
uitdrukken.
Dit biedt perspectieven voor het uitbreiden van expert finders zodat die in staat zijn het sociale
netwerk rond een bepaalde expert te visualiseren. Aan de hand van de tags die experts gebruiken
om informatie te bookmarken, kan een analyse worden uitgevoerd om na te gaan hoeveel
woorden personen gemeenschappelijk hebben.

4.5 Conclusie

Het bestuderen van sociale netwerken is geen nieuw fenomeen. Door het ontstaan van weelderige
netwerken online heeft het onderzoeksveld van sociale netwerk analyse zich uitgebreid van
scholen en bedrijven tot online gemeenschappen. Verschillende patronen kunnen worden
onderkend en wetenschappelijke theorieën kunnen worden toegepast om de dynamiek van
netwerken verder te bestuderen. Door middel van hints, links en bookmarks proberen gebruikers
interessante informatie op een efficiënte manier te managen. Wanneer andere gebruikers ook
gebruik maken van deze aanwijzingen, bevordert dit de sociale navigatie. De metadata die
worden gegenereerd, zijn vaak het onderwerp van verschillende analyses. Metadata op zich
dragen onvoldoende context met zich mee. Sociale netwerken kunnen worden gebruikt als
referentiekader 135 om een gezamenlijke context voor metadata af te leiden. Ook kunnen metadata
worden aangewend om sociale netwerken te visualiseren. De personen die metadata creëren zijn
actoren en de onderlinge relaties tussen personen kunnen op verschillende wijzen worden
bepaald. Zo kunnen twee personen een band hebben wanneer ze één of meer trefwoorden
gemeenschappelijke hebben. Dit maakt het mogelijk om na te gaan of personen die dezelfde
woorden gebruiken ook eenzelfde kennis- en interesseveld bezitten. Wanneer de expert die werd
gelokaliseerd met behulp van een expert finder, niet aanwezig is, kan zijn sociale netwerk worden
geraadpleegd. In hoofdstuk 5 wordt de stelling getoetst of een netwerk van één persoon bestaat

135
[MIKA,P. 2004]

64
uit personen met gelijkaardige kennis. Dit wanneer de relatie gedefinieerd tussen deze personen,
gebaseerd is op het aantal gemeenschappelijke trefwoorden.

65
5. Methodologie

5.1 Introductie en research design

5.1.1 Introductie

Het doel van deze thesis is onderzoeken of een analyse van metadata, gecreëerd door werknemers
van een Europese onderneming, een meerwaarde kan creëren voor die onderneming.
Folksonomieën zijn een schat aan informatie, bleek uit hoofdstuk 2. Die informatie kan worden
geanalyseerd voor het bepalen van het interesseveld van een persoon of voor het bestuderen van
sociale netwerken. Uit hoofdstuk 3 is gebleken dat impliciete bronnen meer aangewezen zijn dan
expliciete bronnen wanneer aanwijzingen van expertise dienen te worden geselecteerd. Dit omdat
impliciete bronnen minder onderhoud vergen dan expliciete bronnen. Mogelijke valkuilen en
hiaten in bestaande expert finder systemen werden bepaald. Dit laat toe deze beperkingen te
omzeilen in de mate van het mogelijke. In hoofdstuk 4 werd het sociale aspect van tagging kort
aangehaald. De sociale dimensie kan nog verder worden onderzocht om expert finder systemen
uit te breiden. Zo kan het zeer interessant zijn om bij afwezigheid van een expert zijn sociaal
netwerk te raadplegen op zoek naar personen waarbij men terecht kan. Volgende vragen vormen
die de motivatie voor dit onderzoek:
Kunnen experts worden gelokaliseerd aan de hand van een analyse van tags?
Zijn tags die personen gebruiken om bronnen te beschrijven, kenmerkend voor de kennis
van die persoon?
Bestaan er algoritmen die woorden kunnen selecteren die een persoon typeren?
Bezitten personen die gebruik maken van dezelfde woorden een gelijkaardig kennis- en/of
interesseveld?
Uit deze vragen en veronderstellingen uit de literatuurstudie wordt vertrokken om een
methodologie op te bouwen. Aan de hand van studies, waarvan sommigen al getest aan de hand
van data op het web, wordt nagegaan of folksonomieën ook een meerwaarde kunnen hebben op
bedrijfsniveau.

66
5.1.2 Research design

Het onderzoek verricht in deze thesis, kadert binnen de doctoraatsstudie van Céline Van Damme.
Voor het experiment, beschreven in dit hoofdstuk, wordt gebruik gemaakt van een deel van de
dataset die Céline ter beschikking heeft van een Europese distributie onderneming. Hun
medewerkers labelen documenten al twintig jaar met meerdere kernwoorden. Omdat deze
onderneming aanvankelijk geen full text search engine ter beschikking had om informatie snel en
efficiënt te lokaliseren in hun documenten, was hun oplossing: benoem document met
kenmerkende woorden die bondig de inhoud van het document weergeven. Het zijn met andere
woorden tags hoewel ze binnen de onderneming spreken van trefwoorden. Zowel de trefwoorden
gebruikt door de medewerkers als de tags gebruikt door surfers zijn criteria om een document
sneller en vooral efficiënter terug te vinden. De gebruikte trefwoorden bij de distributie
onderneming zijn, in tegenstelling tot tags, wel onderworpen aan bepaalde regels. Zo worden
medewerkers verondersteld om geen meervouden te gebruiken, slechts een beperkt aantal
kernwoorden per document toe te kennen,…
De oorspronkelijke dataset bestaat uit drie type berichten: manuele berichten, half automatische
berichten gebaseerd op een template en automatische berichten, gegenereerd door het systeem
zelf.
Toen Céline Van Damme in juni 2007 de dataset ter beschikking kreeg, was er geen opdeling
gemaakt per type bericht. De dataset bestond uit ongeveer acht miljoen niet- en half-
vertrouwelijke documenten. Céline zorgde voor een onderverdeling conform de drie types. De
manuele berichten worden verder opgesplitst in berichten uitgetypt door de auteur zelf en
berichten uitgetypt door een andere medewerker dan de auteur. Voor de zoektocht naar experts
wordt gebruik gemaakt van de berichten opgesteld door de auteur zelf. De reden hiervan is dat er
wordt verondersteld dat een persoon die een trefwoord gebruikt om de inhoud van een tekst te
omschrijven, de inhoud van dat trefwoord kent. Anders gezegd, de gebruikte trefwoorden kunnen
ons een beeld geven van de kennis van die persoon. De opzet van dit onderzoek is nagaan of een
analyse van dergelijke trefwoorden inzicht kan verschaffen in de persoonlijke/individuele kennis
van een persoon. Wanneer typerende woorden, met behulp van een techniek, automatisch kunnen
worden geselecteerd, kunnen experts of personen met een bepaalde kennis dan sneller en
efficiënter worden gelokaliseerd? De beschikbare data leken ons geschikt om onze experimenten
op uit te voeren. We besloten ons voornamelijk te concentreren op één bepaalde functionele

67
groep 136 binnen de onderneming namelijk de informatica afdeling.

In dit hoofdstuk wordt uit de doeken gedaan welke wegen werden verkend om tot een bepaalde
methodologie te komen. In 5.2 wordt het voorbereidend onderzoek aangehaald. Dat wordt
opgedeeld in twee luiken: ten eerste gerelateerd werk, interessante literatuur die jammer genoeg
niet in onze methodologie werd geïmplementeerd. Een tweede luik handelt over technieken en
algoritmen uit de literatuur die we later in dit hoofdstuk aanpassen en/of toepassen voor de
methodologie. De gebruikte programma’s, het opruimen van de dataset, aangepaste en toegepaste
methodes komen aan bod in 5.3. Vervolgens worden de algemene stappen tijdens de
implementatie toegelicht in 5.4. Een specifiek stappenplan met de gebruikte code en queries, is
terug te vinden in de annex. Aan de hand van de resultaten dient te worden nagegaan of die ook
blijken te kloppen. Tien medewerkers worden geconfronteerd met de resultaten. De bedoeling
daarvan is om onze bevindingen te toetsen aan de realiteit want enkel de medewerker zelf kan
beamen of de woorden die werden geselecteerd ook typerend zijn voor zijn of haar kennis. De
resultaatanalyse is terug te vinden in 5.5. Dit hoofdstuk wordt afgesloten met een conclusie
waarin ook enkele aanzetten worden gegeven voor verder onderzoek.

5.2 Voorbereidend onderzoek.

De vraag waarrond deze thesis werd opgebouwd: “is het mogelijk om aan de hand van een
analyse van gebruikte trefwoorden experts sneller en efficiënter te lokaliseren?” is het
vertrekpunt voor de zoektocht naar relevante literatuur. Is het mogelijk om met verschillende
technieken en algoritmen trefwoorden te selecteren die typerend zijn voor de kennis van een
persoon? Welke zijn die technieken en algoritmen waarmee juist die woorden worden
geselecteerd die een persoon en zijn kennis omschrijven? Dit voorbereidend onderzoek wordt
opgesplitst in een deel gerelateerd werk en een deel gekozen technieken voor verder onderzoek.
Voor beide delen worden de technieken kritisch beschreven om de lezer een duidelijk beeld te
geven van zowel het gerelateerd werk als de technieken die zullen worden geïmplementeerd.

5.2.1 Gerelateerd werk.

Binnen het onderzoeksdomein van knowledge management worden verschillende aanzetten

136
Functionele groep: afdeling binnen een onderneming die werd samengesteld rond een bepaalde functie.

68
gegeven en wordt veel onderzoek uitgevoerd naar hoe kennis beter kan worden georganiseerd
zodat die herbruikbaar is wanneer je ze nodig hebt. Toch moest gekozen worden welke
geraadpleegde literatuur wordt geïmplementeerd in onze methodologie en welke niet. Volgend
onderdeel beschrijft FolkRank, een veelbelovend algoritme dat wegens tijdgebrek niet werd
geïmplementeerd, maar het is zeker de moeite waard om kort uit de doeken te doen welke
mogelijkheden dit algoritme biedt. Ook TF_IDF, dat staat voor ‘Term Frequency Inverse
Document Frequency’, wordt besproken. Deze berekening heeft binnen het domein van
automatische indexering als doel de meest typerende woorden in een tekst te identificeren en
vormt de basis voor onze afgeleide berekening TF-IPF (Tag Frequency, Inverse Person
Frequency). Ook dit algoritme wordt in volgend onderdeel besproken.

 FolkRank 137

Social resource sharing systems zijn web-gebaseerde applicaties die gebruikers toelaten bronnen
op te laden en deze te labellen met willekeurige tags. Voor zoekopdrachten, waarbij gezocht
wordt op basis van tags, bestond nog geen geschikt rankingalgoritme. Meestal worden het aantal
hits gerangschikt in omgekeerde chronologische volgorde. FolkRank is een recent ontwikkeld
algoritme dat rekening houdt met de structuur van een folksonomie om zoekresultaten te
rangschikken in een folksonomie-gebaseerd systeem. [HOTHO, A. et al. 2006] stellen twee
algoritmen voor: adapted PageRank om een algemene rangschikking te bepalen en FolkRank om
een specifieke onderwerp-gerelateerde rangschikking te verkrijgen.
Zowel adapted PageRank als het FolkRank algoritme zijn gebaseerd op het PageRank138
algoritme. Dit algoritme steunt op de grafentheorie uit de wiskunde. Volgens [TRUDEAU, R.
1993] zorgt de naam grafentheorie (Eng graph theory) voor verwarring. Een graaf heeft namelijk
niets te maken met een grafiek zoals soms intuïtief wordt verondersteld. In het boek “Introduction
to graph theory” 139 wordt gesuggereerd dat ‘netwerk theorie’ een betere naam zou zijn geweest
voor deze tak in de wiskunde. Een graaf bestaat uit een eindige verzameling punten (Eng: nodes
of vertices) waarvan sommige verbonden zijn door lijnen (Eng: edges) 140 . Deze lijnen kunnen
georiënteerd zijn, dan worden ze ook wel pijlen genoemd. Men spreekt van een gerichte graaf of

137
[HOTHO et al. 2006]
138
[BRIN, S., PAGE, L. 1998]
139
[TRUDEAU, R. 1993] P 9
140
[MERRIS, R. 2000] P 2

69
digraaf 141 . Er kunnen gewichten aan de lijnen worden toegekend door middel van getallen. Die
stellen de afstand tussen twee punten voor. Een graaf met gewichten noemt men een gewogen
graaf. Aangezien de structuur van een folksonomie afwijkt van de structuur van een graaf is een
conversie nodig.

Opbouw van een graaf 142 Opbouw van een folksonomie 143
Tag 1

Tag 2
Resource 1

Resource 2
User 1

User 2

De meest courante notatie van een graaf G is: Een folksonomie is een eindige sequentie van objecten
waarbij de volgorde van belang is:
G = (V, E)
F := (U, T, R, Y)
G bestaat uit 2 verzamelingen V en E.
Waarbij de elementen van V de punten (Eng: U, T en R zijn eindige sets, verzamelingen waarvan de
vertices of nodes) van graaf G zijn en de elementen users (of gebruikers), tags en resources (of
elementen van E de lijnen (Eng: edges of arcs) die bronnen) worden genoemd.
de punten verbinden. ‘Tag assignment’ Y is de relatie tussen U, T en R. Het
In dit voorbeeld: toewijzen van tags houdt een verband in tussen de
V = {A, B, C, D, E, F} gebruiker van een tag, deze tag zelf en de bron die hij
E = {(A,D); (A,B); (B,D); (C,B); (D,E); hiermee beschrijft.
(E,F); (F,B); (F,C)} YUxTxR

Om een rankingalgoritme toe te passen op folksonomieën dient de niet gerichte drievoudige
hyperedge (indirecte triadic hyperedge) te worden omzet naar de structuur van een graaf: G=(V,
E). Hierbij wordt elke hyperedge opgesplitst in zes gerichte edges waarbij V={UTR} de
verzameling van punten of vertices vormen en E={{u,t,r} | (u,t,r)  Y} de lijnen of edges
voorstellen.

141
[CHARTRAND, G. 1985] P 16
142
[MERRIS, R. 2000] P 3
143
[HOTHO, A. et al. 2006] P 4

70
Om een algemene rangschikking te bekomen, wordt gebruik gemaakt van een aangepaste versie
van het PageRank algoritme. De PageRank van een pagina A wordt als volgt berekend 144 :

PR(A) = (1 − d) + d(PR(T1) / C(T1) + ... + PR(Tn) / C(Tn))

d is de dampingfactor: de waarschijnlijkheid dat een gebruiker een pagina verlaat
voor een andere pagina (standaard d=0.85)

T1,T2,...Tn: citaties; dit zijn de pagina's die naar pagina A verwijzen

C(x): dit zijn het aantal uitgaande links van pagina x

PR(x) is de pagerank van pagina x

Het achterliggende idee van PageRank 145 is dat een pagina belangrijk is wanneer er veel links
naar die pagina verwijzen. Wanneer de pagina’s waarop die link staat ook belangrijk zijn, krijgt
die link een nog hoger gewicht. Intuïtief wordt verondersteld dat een pagina met een hoge
PageRank de moeite waard is om te raadplegen. Aan de hand van een dergelijk gewicht
verdelend schema wordt een rangorde berekend. Bij een zoekactie op Google zal het gewicht van
een link bepalend zijn voor de rangorde waarin de relevante links verschijnen. Om een dergelijk
algoritme te vertalen naar folksonomieën gebruikten [HOTHO et al. 2006] volgende redenering:
“The basic notion is that a resource which is tagged with important tags by important users
becomes important itself”. Om een algemene rangorde van folksonomieën te verkrijgen, stellen
de auteurs in [HOTHO et al. 2006] voor om deze “adapted PageRank” te implementeren. Zoals
eerder vermeld wordt de structuur van de folksonomie geconverteerd naar de structuur van een
graaf waarbij de unie van users, tags en resources de elementen van V vormen. De verzameling E
(edges) bestaat uit alle co-occurrences (= het samen voorkomen van verschillende zaken) van

144
[BRIN, S., PAGE, L. 1998] P 4
145
Ibidem

71
tags & resources, tags & users en users & resources. Zo wordt een graaf gecreëerd waarbij de
punten elkaar onderling beïnvloeden. Wat maakt dat een rangorde kan worden berekend voor
gebruikers (users), tags en bronnen (resources). Voor een onderwerp specifieke rangschikking
werd het FolkRank algoritme ontworpen. Het verschil tussen FolkRank en adapted PageRank is
de “preference vector p” 146 in de berekening voor de gewichtsspreiding. Volgens [HOTHO, A. et
al. 2006] kan aan de hand van deze vector het onderwerp worden bepaald en dat door een hoger
gewicht toe te kennen aan specifieke tags (t), gebruikers (u) of bronnen ( r). Zelfs een combinatie
van de drie (t,u & r) kan resulteren in een gemengde preference vector p 147 . Voor een meer
gedetailleerde beschrijving van FolkRank wordt verwezen naar [HOTHO, A. et al. 2006].
Het interessantste aspect van dit algoritme is dat het niet enkel een rangschikking biedt van
interessante bronnen, ook gebruikers en gerelateerde, relevante tags kunnen worden geordend.
De data beschikbaar voor het experiment zijn ook opgedeeld in tags, users en resources. De tags
zijn de kenmerkende trefwoorden voor het opgestelde document. Elk personeelslid heeft een
eigen personeelsnummer (p_id) dus elk opgesteld document heeft een link met de user van de
auteur. Documenten hebben een eigen identificatienummer, dat zijn onze resources. Het
algoritme is gebaseerd op de relatie tussen gebruiker, document en gebruikt trefwoord en biedt
een onderwerp specifieke rangschikking waarbij men het onderwerp zelf kan sturen aan de hand
van de preference vector. Dit algoritme biedt interessante perspectieven en zou ook op
bedrijfsniveau een meerwaarde kunnen bieden in het kader van kennis management. Jammer
genoeg was er onvoldoende tijd om het FolkRank algoritme te implementeren.

 TF - IDF

TF-IDF staat voor Term Frequency Inverse Document Frequency 148 . Het TF-IDF gewicht wordt
vaak gebruikt binnen het domein van automatische indexering en is nuttig om informatie efficiënt
terug te vinden. TF-IDF is een statistische maatstaf die gebruikt wordt om na te gaan hoe
belangrijk een woord is voor een bepaald document binnen een collectie of corpus. De relevantie
van een woord stijgt evenredig met het aantal keer dat het woord voorkomt in het document.
Deze relevantie wordt gecompenseerd door het aantal documenten in het corpus waarin het
woord ook voorkomt. Er wordt dus rekening gehouden met zowel de intra- als de inter-document

146
[HOTHO, A. et al. 2006] P 9
147
Ibidem
148
[SALTON, G. et al. 1974]

72
frequentie van een trefwoord 149 .

TF-IDF i,j = TF i, j * IDF i (voor term i in document j)

Waarbij TF i, j = n i, j / k n k, j (n i, j : frequentie van term i, k n k, j :
totaal # termen in document j)
IDF i = log (|D| / |Ri|) ( |D| : totaal # documenten in de corpus,
| Ri | : # docs met term i)

Volgend voorbeeld verduidelijkt: een document bestaant uit honderd woorden. Het woord ‘tag’
komt driemaal voor in die tekst. De Term Frequency (TF) voor het woord ‘tag’ in dat document ,
wordt berekend door de frequentie van het woord ‘tag’ te delen door het totaal aantal woorden in
dat document. TF is dan 0,03 (= 3/100). De volledige collectie bestaat uit tien miljoen
documenten, D = 10 miljoen. Het woord ‘tag’ komt voor in duizend documenten, Ri = 1000 . De
Inverse Document Frequeny (IDF) wordt als volgt berekend:
IDF i = log (|D| / |Ri|) = ln(10 000 000 / 1 000) = 9,21.
Door gebruik te maken van een logaritme wordt gekeken of het woord typerend is voor het
document dat we aanschouwen. Wanneer (|D| / |Ri|) ≤ 1 dan zorgt het logaritme ervoor dat
de waarde van IDF i daalt. Een grafisch verloop van een logaritmische functie verduidelijkt:

Wanneer (|D| / |Ri|) > 1 dan zorgt het logaritme dat de waarde van IDF i stijgt, wat de totale TF-

149
[VAN DAMME, C., HEPP, M. et al. 2008] P 4

73
IDF score verhoogt. De TF-IDF score voor het woord ‘tag’ is het product van TF en IDF:
0,03 * 9,21 = 0,28.
Woorden met een hoge TF-IDF score vertonen een sterke relatie met het document waarin ze
voorkomen, anders gezegd: deze woorden zijn kenmerkend voor die tekst.
In [VAN DAMME, C., HEPP, M. et al., 2008] wordt een variant, TF-IRF beschreven. TF-IRF
staat voor Tag Frequency Inverse Resource Frequency. In deze paper wordt gezocht naar
kwaliteitsmaatstaven voor folksonomieën, waarbij de auteurs nagaan of een aangepaste versie
van TF-IDF kan resulteren in een set folksonomieën die de inhoud van een bepaalde resource het
best omschrijven. Voor dit experiment moet tekstuele informatie worden uitgesloten aangezien
getagde bronnen niet altijd tekstueel zijn (vb mp3 audio bestanden). Dat impliceert een
aanpassing van de oorspronkelijke formule. TF-IRF berekent een gewicht voor een bepaalde tag,
die gebruikt wordt om een bron te beschrijven. Hoe hoger de TF-IRF score, hoe te beter die tag
de bron omschrijft 150 .

TF-IRF (tag x, y ) = TF x, y * IDF x (voor een tag x voor bron y)
Waarbij TF x, y = t x, y / T y (t x, y : frequentie van tag x in bron y,
T y : totaal # tags voor bron y)
IDF x = log (|corpus| / Rx) ( |corpus| : som van alle bronnen,
Rx : som van de bronnen met tag x)

Deze techniek werd uitgetest op een Del.icio.us dataset. Een corpus van bookmarks werd bepaald
en de gebruikte tags om deze te beschrijven werden schoongemaakt (aan de hand van
stemmingsalgoritmen, verwijderen van mogelijke duplicaten,…). Zo werd voor elke tag een TF-
IRF score berekend. Op basis van deze score werden de tags met de hoogste TF-IRF score
geselecteerd als beschrijvende tags voor de bookmark in kwestie. De resultaten werden
geëvalueerd aan de hand van een online enquête. Alle personen kregen een bookmark, die ze
online konden raadplegen. Uit drie woordenreeksen moesten ze de meest geschikte set toekennen
aan die bookmark. In 41% van de gevallen kozen de proefpersonen de tagset samengesteld op
basis van TF-IRF.
Deze resultaten zijn de motivatie om deze techniek te implementeren in onze methodologie. Een
techniek die zijn efficiëntie al heeft bewezen op het gebied van automatische indexering van

150
[VAN DAMME, C., HEPP, M. et al. 2008]

74
documenten alsook in het onderzoek beschreven in [VAN DAMME, C., HEPP, M. et al. 2008]
zorgt ervoor dat de verwachtingen hoog gespannen zijn. Kan deze techniek uit een reeks
woorden, gebruikt door medewerkers van een onderneming om documenten te omschrijven,
exact die woorden selecteren die typerend zijn voor de kennis van die persoon? Er wordt besloten
deze techniek uit te testen op de data die we ter beschikking hadden. De geselecteerde woorden
dienen de persoon en/of zijn kennis typeren, dus moeten enkele onderdelen van de TF-IRF
berekening aanpassen. Het corpus zal voor het experiment worden opgebouwd uit personen met
een gelijkaardige kennis. Om personen te selecteren voor het corpus werd gebruik gemaakt van
het MCL clustering algoritme 151 . Het volledige stappenplan om de TF-IRF aan te passen voor
ons experiment, wordt toegelicht in volgend punt: Gekozen technieken voor verder onderzoek.

5.2.2. Gekozen technieken voor verder onderzoek.

Hier worden de technieken beschreven uit de literatuur die later in onze methodologie worden
opgenomen. Er wordt beschreven welke functie ze hadden binnen andere onderzoeken en er
wordt kort toegelicht hoe ze nuttig kunnen zijn voor ons experiment.
 High frequency 152

In [VAN DAMME, C., HEPP, M. et al 2008] worden verschillende technieken uitgetest die de
kwaliteit van het terugvinden van tag-gebaseerde informatie en tag suggesties zouden kunnen
verbeteren. Wanneer de kwaliteit van een tag kan worden verbeterd, stijgt het intersubjectieve
begrip van die tag, dat is de graad die aangeeft dat een tag wordt begrepen door veel leden van
een groep. Deze technieken worden toegepast op een Del.icio.us dataset. Een eerste techniek die
gebruikt wordt, is ‘high frequency’. De naam van deze techniek verraadt de werkwijze. Voor elke
bron die werd getagged, wordt de frequentie van de gebruikte tags bepaald. De tags worden
gerangschikt in dalende frequentie. De woorden met de hoogste frequentie worden geselecteerd.
Bij de evaluatie bleek deze techniek zeer efficiënt te zijn 153 . Dat was de aanzet om deze techniek
uit te testen op bedrijfsniveau. De opzet is te tellen hoe vaak een persoon een bepaald woord
gebruikt. Zo krijgt elk gebruikt trefwoord een bepaalde frequentie. De woorden met de hoogste
frequentie zouden de kennis van een medewerker kunnen typeren.

151
[VAN DONGEN, 2000]
152
[VAN DAMME, C., HEPP, M. et al. 2008] P 3
153
[VAN DAMME,C., HEPP, M. et al. 2008] P 7

75
Wanneer iemand een woord vaak gebruikt, wordt verondersteld dat dit woord representatief is
voor de gebruiker en zijn kennis. Als voorbeeld wordt een projectmedewerker onder de loep
genomen. In de fictieve onderneming geldt de afspraak dat alle communicatie rond een project
wordt getagged met de projectnaam. Ook andere woorden die kenmerkend zijn voor het
opgestelde document, worden gebruikt om de inhoud ervan te omschrijven. Wanneer elk
document, dat de medewerker rond dit project opstelt, deze projectnaam bevat, zal dat woord een
hoge frequentie hebben. Woorden met de hoogste frequentie kunnen woorden zijn die ons een
beeld geven over wat een persoon bezig houdt, wat hem interesseert.

 TF-IPF, Tag Frequency Inverse Person Frequency:
De formule voor TF-IRF wordt aangepast om woorden te kunnen lokaliseren die de persoon
typeren. De auteurs in [VAN DAMME, C., HEPP, M. et al. 2008] haalden het tekstuele aspect
reeds uit de TF_IDF berekening. Voor onze methodologie worden volgende aanpassingen
gemaakt om een dergelijke berekening toe te passen op personen in plaats van bookmarks:

TF-IPF (tag x, y ) = TF x, y * IPF x (voor een tag x gebruikt door persoon y)

Waarbij TF x, y = t x, y / T y (t x, y : frequentie tag x voor persoon y,
T y : totaal # tags voor persoon y)
IPF x = log (|corpus| / Rx ) ( |corpus| : som van alle personen in
corpus z, Rx : som van personen die tag x
gebruiken)

Een Markov proces wordt gebruikt om afhankelijke, willekeurige toestanden te analyseren waarbij de
overgangswaarschijnlijkheid enkel afhankelijk is van de huidige toestand.
Een voorbeeld verduidelijkt:
Na een analyse, gebaseerd op een lange reeks waarnemingen van regenachtige (R) en zonnige (Z) dagen, wordt
geconcludeerd dat de overgangswaarschijnlijkheid voor R naar Z 25% is, voor R naar R 75% is, voor Z naar Z
50% is en voor Z naar R ook 50% kans is.
Als het weer aan de hand van deze analyse wordt voorspeld en vandaag is het een zonnige dag dan kunnen we
volgende Markov keten opstellen:
Zon, zon, regen, regen, regen, regen, zon, regen,…
Bij een Markov keten is een toekomstige toestand op elk moment in de tijd enkel afhankelijk van de huidige
toestand. Een Markov keten is dus een stochastische matrix.
(http://wiskunde.dbz.be/wis_rolanddebeule/DocumWisk/Markov.pdf)
Verder wordt hier niet op ingegaan, aangezien dit buiten de scope van deze thesis ligt.

76
Om zulke berekening uit te voeren, dient eerst een corpus te worden bepaald. Voor het
samenstellen van het corpus wordt gebruik gemaakt van het MCL algoritme 154 . Dit algoritme
maakt gebruik van een algebraïsch proces gedefinieerd voor Markov grafen, dat zij grafen
waarvoor de geassocieerde matrix stochastisch is. In zo’n matrix wordt aangegeven wat de kans
is dat twee objecten samen voorkomen. Om zo’n matrix te bekomen, wordt de co-occurrence van
de woordparen bepaald, dat wil zeggen: hoe vaak komen woorden samen voor om een bepaald
document te omschrijven. Aan de hand van de perl package ‘Data Mining Association Rules’
wordt de co-occurrence per woordpaar berekend. De output van de co-occurrence vormt dus een
stochastische matrix die ons toelaat, aan de hand van het MCL algoritme, woordclusters te
bepalen. Eén bepaalde cluster wordt gekozen. De medewerkers die de woorden uit de gekozen
cluster gebruiken, vormen het corpus. Deze corpus wordt gebruikt bij het berekenen van IPFi ,
die de totale TF-IPF score doet dalen of stijgen door het gebruik van een logaritme. Wanneer het
aantal personen, die ook gebruik maken van een trefwoord x, groter is dan het aantal personen in
het corpus is de uitkomst van (|corpus| / Rx ) kleiner dan 1. Door gebruik te maken van een
logaritme zal de totale TF-IPF score dalen. Met andere woorden: wanneer het woord x ook door
vele andere personen wordt gebruikt, zal dat woord minder typerend zijn voor persoon y. De
andere componenten uit de berekening, zoals t x, y , T y en Rx kunnen worden berekend op basis
van de beschikbare dataset.

5.3 Opbouw van de methodologie

Nadat de technieken werden bepaald die kunnen worden toegepast op de data, wordt aan de slag
gegaan om een concrete methodologie uit te werken. De belangrijkste programma’s die worden
gebruikt, hoe de data werd bijgeschaafd alsook de implementatie van de gekozen algoritmen en
werkwijzen worden in dit onderdeel toegelicht.

5.3.1 Benodigde programma’s

 MySQL:
De data, die voor dit onderzoek ter beschikking waren, werden opgeladen in MySQL. Dat is een
open source relationeel databasemanagementsysteem dat gebruik maakt van SQL (Structured

154
http://www.micans.org/mcl/scripts/minimcl
[VAN DONGEN, S. 2000]

77
Query Language). MySQL werd in deze thesis gebruikt voor het gestructureerd opslaan van
gegevens en het uitvoeren van taken zoals het bevragen en aanpassen van informatie in de
relationele database 155 . De nodige vaardigheden werden geleerd met behulp van enkele tutorials.

 Perl:
Staat voor Practical Extraction and Report Language en is een programmeertaal ontworpen door
Larry Wall. Deze scripttaal heeft uitgebreide regular expression mogelijkheden en er kan object-
geöriënteerd, procedureel of functioneel mee geprogrammeerd worden 156 .
Voor deze thesis maakten we gebruik van Perl om het MCL clusteringalgoritme 157 [VAN
DONGEN, S. 2000] te runnen. De co-occurrence van woorden in de dataset werd berekend aan
de hand van een Perl package namelijk ‘Data Mining Association Rules’. Dat is een data mining
tool waarmee ondermeer de co-occurrence kan worden berekend.

 Netdraw:
Is een programma ontworpen door Steve Borgatti om sociale netwerken te visualiseren. Een deel
van ons experiment is geïnspireerd door [JOHN et al. 2006]. In hun paper beschrijven ze dat
auteurschap van documenten indicatoren van expertise kunnen zijn. Wanneer personen dezelfde
tags gebruiken, kan dit een aanwijzing zijn van overlappende kennis en/of interesse. Op die
manier geven ze de aanzet om na te gaan of de sociale netwerken die zich vormen rond bepaalde
tags een beeld kunnen geven van gelijkaardige expertise en interesse van de personen die
dezelfde tag(s) gebruiken. Aangezien in het eerste luik van het experiment woorden worden
gelokaliseerd die een persoon en zijn kennis typeren, kan hierop verder worden gebouwd om een
netwerk op te stellen van personen met een gelijkaardige kennis. Om zo’n netwerk op te stellen,
dienen de actoren en hun onderlinge relaties worden gedefinieerd. Aan de hand van die input kan
Netdraw een netwerk visualiseren. Om na te gaan of de personen die dezelfde woorden
gebruiken, ook een gelijkaardig kennisveld hebben, wordt een netwerk gevisualiseerd met behulp
van Netdraw waarbij de link tussen de personen wordt berekend op basis van het aantal
trefwoorden die ze gemeenschappelijk hebben.

155
http://nl.wikipedia.org/wiki/MySQL Geraadpleegd 01 maart 2009
156
http://nl.wikipedia.org/wiki/Perl_(programmeertaal) Geraadpleegd 01 maart 2009
157
http://www.micans.org/mcl/scripts/minimcl

78
5.3.2 Opgeruimd staat netjes

Niet alle beschikbare data zijn even bruikbaar. De opgestelde berichten worden bijvoorbeeld af
en toe via mail verstuurd. Woorden zoals ‘RE’, ‘FW’ en ‘READ’ vertellen niets over de kennis
van een bepaald persoon. Dus voor deze data echt bruikbaar zijn voor het experiment moeten ze
worden opgeruimd.
 Aangezien de meeste trefwoorden in de dataset Nederlandse woorden zijn, werden alle
Nederlandse stopwoorden, lidwoorden, bijwoorden, voegwoorden, persoonlijke
naamwoorden,… uit de trefwoordenlijst gefilterd. De lijst met stopwoorden is terug te vinden
op volgende website:
https://projects.commandprompt.com/public/pgsql/browser/trunk/pgsql/src/backend/snowball
/stopwords/dutch.stop?rev=26645 . Sommige woorden werden ook manueel uit de
trefwoordenlijst gefilterd.
 Volledig numerieke trefwoorden werden verwijderd omdat een louter numeriek trefwoord
opnieuw niets zegt over de kennis van een bepaald persoon. Alfanumerieke trefwoorden
werden wel behouden aangezien wordt verondersteld dat deze trefwoorden makkelijker te
plaatsen zijn voor de medewerkers van het bedrijf en dat ze hierover wel feedback kunnen
geven.
 Aangezien dit experiment wordt uitgevoerd binnen het kader van het doctoraatsonderzoek
van Céline Van Damme, dient de dataset aan de eisen van haar onderzoek te voldoen. Om de
data verder op te ruimen, hielp zij om woorden terug te brengen tot hun stam of hun
oorspronkelijke vorm met behulp van stemmingsalgoritmen. Wanneer medewerkers
documenten labelen met kenmerkende woorden gebeurt het wel eens dat regels omtrent de
woordkeuze niet steeds worden toegepast. Binnen de onderneming werd onder andere
afgesproken dat medewerkers geen meervouden of vervoegde woorden gebruiken. Wanneer
dit toch gebeurt kan een stemmingalgoritme ons helpen om dergelijk woorden terug te
brengen naar hun stam bijvoorbeeld: werk - gewerkt. Ook werden similaire woorden
(misspellingen enz.) opgespoord en aangepakt, eveneens als c/k woorden. Met dank aan
Céline voor haar hulp.
 Duplicaten werden verwijderd. Door het gebruik van het stemmingalgoritme zijn duplicaten
ontstaan in de dataset. Die kunnen de resultaten beïnvloeden en worden daarom verwijderd.

79
5.3.3. Toegepaste technieken en algoritmen

Tijdens het verdere verloop van het experiment werd ervoor geopteerd ons te focussen op een
specifieke groep binnen de onderneming: de informatica afdeling. Deze groep bevat 452
medewerkers die samen 1.837.370 trefwoorden gebruikten waarvan 112.761 unieke trefwoorden.

 High Frequency:
Met behulp van deze techniek worden de woorden met de hoogste frequentie geselecteerd per
persoon. Zijn trefwoorden die medewerkers vaak gebruiken, ook representatief voor hun kennis?
Deze techniek levert ons de nodige data om deze stelling te toetsen bij de medewerkers zelf. In
MySQL wordt een tabel “high_frequency” aangemaakt waar volgende gegevens worden
opgeslaan: het personeelsnummer van de medewerker, het gebruikte trefwoord en de frequentie
van dat trefwoord. Op basis van een export, waarbij de gegevens worden gegroepeerd per
medewerker en vervolgens aan de hand van de frequenties in dalende volgorde gesorteerd, wordt
gezocht naar de trefwoorden met de hoogste frequentie. Er werd een perl file 158 aangemaakt die
per medewerker tien woorden met de hoogste frequentie selecteert en vervolgens wegschrijft naar
een textfile.

 Cumulatieve frequentie:
De frequentie F geeft het aantal keren aan dat een variabele wordt waargenomen. De cumulatieve
frequentie (K (xi)) sommeert alle voorgaande frequenties. Deze berekening wordt in de statistiek
gebruikt om na te gaan hoeveel waarnemingen kleiner dan of gelijk zijn aan een bepaalde
waarde 159 .
K (xi) =  Fj
xi≤xj
Een van de parameters van ligging, die toelaten de waargenomen verdeling op de abscis te
situeren, zijn de percentielen. Die verdelen de geordende gegevens in honderd gelijke delen.
Aan de hand van de cumulatieve frequentie proberen we trefwoorden te achterhalen verschillend
van de trefwoorden met de hoogste frequentie, die de kennis van de medewerker typeren.
Wanneer wordt vertrokken vanuit volgend standpunt: trefwoorden met hoge frequenties zijn
kenmerkend voor de kennis van de medewerkers, rijst de vraag of er mogelijk waardevolle

158
Sarah.pl zie annex
159
[DESPONTIN, M. 2007] P 19

80
informatie verloren gaat door enkel te focussen op die woorden met hoge frequenties. Wat als een
medewerker een zeldzaam probleem wist op te lossen en hierover een document uitschreef. De
frequentie van trefwoorden om dit document te omschrijven zal merkelijk lager zijn dan zaken
waar hij vaker aan werkt. Wanneer de cumulatieve frequentie wordt berekend per persoon en
voor alle gebruikte trefwoorden, kan er dan een percentiel worden aangeduid waarin zich andere
kenmerkende woorden bevinden? Met behulp van een Excel werkblad en aan de hand van een
exportfile met de gegevens uit de “high_frequency” tabel in MySQL wordt de cumulatieve
frequentie berekend. Het meest passende percentiel bepalen gebeurt aan de hand van trial and
error.

 TF-IPF, Tag Frequency Inverse Person Frequency:

TF-IPF (tag x, y ) = TF x, y * IPF x (voor een tag x gebruikt door persoon y)

Waarbij TF x, y = t x, y / T y (t x, y : frequentie tag x voor persoon y,
T y : totaal # tags voor persoon y)
IPF x = log (|corpus| / Rx ) ( |corpus| : som van alle personen in
corpus z, Rx : som van personen die tag x
gebruiken)
Om de TF-IPF te berekenen dienen de verschillende onderdelen van de formule te worden
bepaald. Het corpus van deze berekening bepalen, vraagt het meeste werk. Zoals al werd
beschreven in 5.2.2. dient eerst te worden berekend hoe vaak woordenparen samen worden
gebruikt om een document te labellen. Als input worden de documentnummers (d_id’s) en de
trefwoorden per document geselecteerd. Om overtollige spaties in de d_id’s te verwijderen,
maken we gebruik van perl file die Céline Van Damme schreef, knummer.pl 160 . Zo werd de
benodigde inputfile bekomen om de co-occurrence te berekenen. Dat doen we aan de hand van de
Perl package ‘Data Mining Association Rules’ waarmee ondermeer de co-occurrence kan worden
berekend. Zo wordt de input gegenereerd, die nodig is om het Markov Clustering algoritme 161 te
runnen. De inputfile voor dit algoritme heeft als vorm “label_1 label_2 frequentie”. De frequentie
geeft aan hoe vaak beide labels samen aan een document werden toegekend. Het doel van dit

160
Zie annex
161
[VAN DONGEN, S. 2000]
http://www.micans.org/mcl/scripts/minimcl

81
algoritme is een onderverdeling in groepen te vinden die ‘natuurlijk’ is. De MCL output geeft ons
woordclusters. Uit die verschillende clusters wordt een willekeurige woordgroep gekozen. De
personen die de woorden uit deze cluster gebruiken, vormen ons corpus. Vervolgens moeten we
voor elke combinatie: personeelsidentificatienummer (p_id) en trefwoord (kw), volgende
gegevens berekenen: t x, y (frequentie van tag x voor persoon y), T y (totaal # tags voor persoon
y), Rx (som van personen die tag x gebruiken). Deze gegevens kunnen we berekenen uit de
beschikbare data. Daarna worden ze in afzonderlijke tabellen ingelezen. Achteraf worden ze
samengebracht in één tabel om de TF-IPF voor de trefwoorden per persoon te berekenen.

 Sociale netwerk analyse: Netdraw
Wanneer personen dezelfde trefwoorden gebruiken, bezitten ze dan ook een gelijkaardig
kennisveld 162 ? Dit is het uitgangspunt om een netwerk samen te stellen. Er wordt vertrokken van
de medewerkers uit de cluster die al werd gebruikt voor de TF-IPF score. Om een netwerk op te
stellen, moeten de actoren uit dit netwerk en hun onderlinge verbanden worden gedefinieerd. De
actoren zijn de medewerkers die deel uitmaken van het corpus, zie ‘TF-IPF’. Om de edges te
bepalen, dient een relatie tussen de actoren te worden gedefinieerd. Het aantal woorden die deze
personen gemeenschappelijk hebben, lijkt een interessant vertrekpunt. In vergelijking tot de
berekening van de vorige co-occurrence, waarbij het samen voorkomen van documentnummer en
trefwoorden werd berekend, bestaat de input deze keer uit de personeelsnummers (p_id’s) en
gebruikte trefwoorden. Zo kan worden bepaald hoeveel trefwoorden twee personen gemeen
hebben. Dit verband kan opnieuw worden berekend met behulp van de Perl module ‘Data Mining
Association Rules’. Er wordt een export gemaakt van p_id’s en gebruikte trefwoorden. Op basis
van die textfile, met structuur “ p_id kw”, kan de Perl file om de co-occurrence te bepalen,
runnen. In de outputfile, met structuur “p_id1 p_id2 frequentie”, geeft de frequentie weer hoe
vaak beide personen dezelfde tags hebben gebruikt.
Door een VNA file op te stellen die zowel de ‘node data’ als ‘tie data’ definieert, kan een netwerk
worden gecreëerd van de personen die zich in het corpus bevinden (zie TF-IPF). De node data
beschrijft de medewerkers, de personen die zich in het netwerk bevinden. Tie data beschrijft de
sterkte van de lijn, verbinding tussen twee nodes. Het netwerk laat ons toe per persoon na te gaan
met wie deze persoon in verbinding staat. Aangezien wordt vertrokken vanuit de stelling dat
personen die dezelfde trefwoorden gebruiken een overlappende kennis- of interesseveld hebben,

162
[JOHN, A. et al. 2006]

82
biedt Netdraw de mogelijkheid deze stelling uit te testen op de beschikbare data van een
onderneming. De feedback van de personen binnen zo’n netwerk kunnen bepalen of deze stelling
al dan niet waarheid bevat.

5.4 Implementatie van de methodologie

Aan de hand van de leidraad, opgebouwd met behulp van technieken uit de literatuur, kan onze
methodologie worden geïmplementeerd. In volgend onderdeel wordt een algemeen stappenplan
aangeboden voor het uitwerken van de methodologie. In de annex is een uitgebreid stappenplan
terug te vinden waarin de gebruikte code en queries werden uitgeschreven.

5.4.1 High frequency 163

De data waarvan gebruik kon worden gemaakt voor dit experiment, werden in een MySQL-tabel
ingelezen. In deze tabel zijn de personeelsnummers van de medewerkers gekoppeld aan de
documenten die ze opstelden en de trefwoorden die aan die document toegekend werden.
Deze data werd opgeruimd zoals beschreven in 5.3.2. Zoals al vermeld werd, ligt de focus op de
leden van de informatica afdeling.
 Een nieuwe tabel wordt opgesteld, fg011 genaamd, en dat met behulp van een tabel met
de p_id’s van deze medewerkers (pid_fg011). Deze tabel bevat volgende gegevens:
personeelsnummer, documentnummer en gebruikte trefwoorden.
 Wanneer het personeelsnummer deel uitmaakt van de informatica afdeling worden de data
uit de eerste tabel overgenomen. Deze tabel, fg011, bevat twee variabelen:
personeelsnummer en trefwoord. Om de trefwoorden per persoon te berekenen die de
hoogste frequentie hebben, dient ook de frequentie per trefwoord te worden opgeslagen.
 Een nieuwe tabel wordt aangemaakt, highfreq genaamd. Deze tabel werd als volgt
gedefinieerd: in een eerste kolom het personeelsnummer, een tweede voor het gebruikte
trefwoord en een laatste kolom voor de frequentie, hoe vaak gebruikte het personeelslid
dat bepaalde trefwoord. De benodigde data worden geselecteerd uit de tabel: fg011.
 Vervolgens wordt uit de tabel highfreq een export gemaakt naar een textfile, waarbij de
gegevens worden gegroepeerd per personeelsnummer en vervolgens aflopend gesorteerd

163
[VAN DAMME, C., HEPP, M. et al 2008]

83
aan de hand van de frequentie van de trefwoorden.
 Deze file is de input voor het Perl script dat Céline Van Damme opstelde 164 . Voor elk
personeelsnummer worden de tien trefwoorden met de hoogste frequentie weggeschreven
naar de textfile: ‘trefwoorden.txt’. In deze outputfile vinden we de tien trefwoorden terug
met de hoogste frequentie per personeelsnummer. Dit zijn de resultaten van de ‘high
frequency’ techniek.

5.4.2 Cumulatieve frequentie

Omdat het berekenen van de cumulatieve frequentie sneller gaat met behulp van Excel, wordt
geopteerd om per persoon een export te maken uit de tabel highfreq.
 Het personeelsnummer, trefwoord en de frequentie voor elke combinatie
personeelsnummer – trefwoord worden weggeschreven naar een textfile.
 Deze file worden ingelezen in een Excel spreadsheet en de data worden oplopend
gerangschikt volgens frequentie.

p_id KW freq relfreq proc relfreq cumfreq
X8340 A 1 0,0005731 0,0573066 0,0573066
X8340 A49B 1 0,0005731 0,0573066 0,1146132
X8340 AANDUIDEN 1 0,0005731 0,0573066 0,1719198

X8340 IDOC 33 0,0189112 1,8911175 95,530086
X8340 VERSLAG 33 0,0189112 1,8911175 97,421203
X8340 STIJLGIDS 45 0,025788 2,5787966 100
1745 1 100
Figuur : berekening van de cumulatieve frequentie per persoon
Freq : de frequentie van het bijhorende trefwoord
Relfreq : de relatieve frequentie (= frequentie van het trefwoord / 1745)
Proc relfreq : de procentuele uitdrukking van de relatieve frequentie (= relfreq * 100)
Cumfreq : de cumulatieve frequentie

 Om de relatieve frequentie (f) te berekenen delen we de frequentie van elk trefwoord (F)
door de som van het totaal aantal waargenomen trefwoorden van die persoon (N). Dit
resultaat wordt vermenigvuldigt met honderd om een procentuele uitdrukking te krijgen. f
=F/N
 Aan de hand van trial and error werd besloten ons te focussen op percentiel 43 tot en met

164
Sarah.pl zie annex

84
46. Deze werkwijze levert ons de nodige resultaten op om te evalueren of woorden met
lagere frequenties ook relevante informatie over de kennis van een bepaald persoon
kunnen bevatten.

5.4.3. TF-IPF, Tag Frequency Inverse Person Frequency

Voor alle duidelijkheid is dit de voorgestelde berekeningsmethode voor TF-IPF:

TF-IPF (tag x, y ) = TF x, y * IPF x (voor een tag x gebruikt door persoon y)

Waarbij TF x, y = t x, y / T y (t x, y : frequentie tag x voor persoon y,
T y : totaal # tags voor persoon y)
IDF x = log (|corpus| / Rx ) ( |corpus| : som van alle personen in
corpus z, Rx : som van personen die tag x
gebruiken)

Er wordt vertrokken van de data uit de tabel fg011, hierin bevinden zich de personeelsnummers,
documentnummers en trefwoorden die een personeelslid aan een document heeft toegekend.
 Zoals in 5.3.3 werd beschreven, moet voor deze techniek eerst een corpus worden
samengesteld. Aangezien gebruik wordt gemaakt van het MCL algoritme 165 om
woordclusters te bepalen, moet een inputfile worden aangemaakt die volgende structuur
heeft: “trefwoord1 trefwoord2 frequentie” (zie punt 5.3.3 > TF-IPF). Het co-occurrence
algoritme 166 kan voor een dergelijke output zorgen.
 Ook voor de Perl package ‘Data Mining Association Rules’ is een bepaalde input vereist.
Deze input vinden we terug in de tabel fg011. We exporteren de documentnummers en
bijhorende trefwoorden in een textfile.
 In de documentnummers kunnen zich overbodige spaties bevinden. Deze worden
verwijderd met behulp van het Perl script: knummer.pl 167 .
 De data in de outputfile gegenereerd door knummer.pl, kunnen worden gebruikt om het
co-occurrence algoritme te runnen. Dit algoritme registreert hoe vaak woorden samen

165
[VAN DONGEN,S. 2000]
166
‘Mining Association Rules’ Perl package
167
Knummer.pl zie annex

85
worden gebruikt om eenzelfde document te beschrijven. Wanneer dit script (arm.pl 168 )
zijn werk heeft gedaan, is het MCL algoritme aan de beurt.
 De co-occurrence output staat niet in de correcte volgorde en wordt in een MySQL tabel
opgeladen. We bekomen de correcte output door een export te maken waarbij de volgorde
wordt aangepast zodat de textfile de structuur “trefwoord1 trefwoord2 frequentie” heeft.
 Aan de hand van deze output wordt het MCL algoritme 169 losgelaten op de data. De
output van het MCL algoritme zijn verschillende woordclusters. Voor het experiment
wordt volgende cluster gekozen:

AANKONDIGING ADJUSTMENT AGF ARTIKELPALLET BERG CREDITERING DAGVERKOOP DPV
EUROFROST FACTURATIEVERSLAGEN HEIST INVRPT KLACHTENSOORT KOLLO
KT9V KT9W KY9Z NEEVERKOPEN OPTIMALISATIE PALLETPALTRF RECADV REGEL
SALESORDERS SALVESEN SCHADUWFAKTUREN SEKTIE SOM ‘BEDRIJFSGERELATEERD’
STAMBESTAND STOCK TERNAT TERUGMELDING TOTAAL VERSCHIL VERZENDEN VOORRAAD

Op basis van deze cluster worden onze berekeningen voor TF-IPF aangevangen. De voorgaande
stappen werden uitgevoerd om een corpus te vormen. Nadat de woordcluster werd bepaald, kon
worden gezocht welke personen, binnen de informatica afdeling, gebruik hebben gemaakt van
een of meerdere woorden uit die woordcluster.
 Eerst wordt een tabel aangemaakt waarin we de woorden uit de cluster opladen.
 Vervolgens worden de personen, die een of meerdere woorden uit de gekozen cluster
hebben gebruikt, geselecteerd uit de highfreq tabel. Wanneer een trefwoord uit de
highfreq tabel overeenkomt met een trefwoord uit de geselecteerde cluster, wordt het
personeelsnummer gekopieerd naar de tabel unique_pid55. Deze tabel bevat alle
personeelsnummers van personen die trefwoorden hebben gebruikt uit de gekozen cluster.
 Wanneer personen meerdere woorden uit de cluster hebben gebruikt, zal hun
personeelsnummer meerdere keren voorkomen in deze tabel. Om mogelijke duplicaten te
verwijderen worden de personeelsnummers naar een textfile geëxporteerd en worden de
gegevens in de tabel unique_pid55 verwijderd. We laden enkel de unieke
personeelsnummers op in de tabel unique_pid55.
Voor de gekozen woordcluster worden 58 unieke personeelsnummers geteld. Dit maakt dat ons
corpus voor de TF-IPF score is opgebouwd uit 58 personen. Nu de waarde van het corpus werd

168
Arm.pl zie annex
169
http://www.micans.org/mcl/scripts/minimcl
[VAN DONGEN, S. 2000]

86
bepaald, moeten ook volgende onderdelen uit de formule worden berekend: t x, y , T y , Rx..
 De frequentie van tag x voor persoon y t x, y kan uit de tabel highfreq worden gehaald. De
frequentie geregistreerd in die tabel, staat voor de frequentie van elk gebruikt woord voor
een bepaalde persoon.
 Voor het totaal aantal gebruikte tags per persoon T y sommeren we alle frequenties voor
een bepaald persoon. Eerst wordt een tabel aangemaakt waar we de personeelsnummers
kunnen registreren en een frequentie. Deze frequentie, in de tabel aanttags_pp, slaat op de
hoeveelheid trefwoorden die elke persoon heeft gebruikt.
 Nu is het enige dat ontbreekt de som van alle personen uit de informatica afdeling die tag
x gebruikten: Rx. Ook voor deze gegevens wordt een nieuwe tabel aangemaakt. In deze
tabel moeten de trefwoorden worden opgeslaan alsook het aantal personen dat dat
trefwoord hebben gebruikt.
 Vervolgens moeten alle benodigde gegevens in één tabel worden verzameld. Dan kan TF-
IPF worden berekend.
 Vooreerst worden de ontbrekende tabellen gecreëerd om de gegevens te centraliseren.
Daarna worden de benodigde gegevens geselecteerd uit de bestaande tabellen.
 Wanneer alle data werden gecentraliseerd in één tabel, wordt de berekening aan de hand
van een MySQL query uitgevoerd.
In de tabel tf_idf_bereken55 werd voor elk trefwoord gebruikt door een persoon uit de corpus,
een TF-IPF score berekend. De woorden met de hoogste TF-IPF score zouden kenmerkend
moeten zijn voor de kennis van die personen.

Nu de drie technieken werden toegepast op de beschikbare dataset, wordt per persoon een tabel
opgesteld waarin drie woordreeksen worden geplaatst. Elke woordreeks werd samengesteld aan
de hand van één van de drie vermelde technieken. Welke techniek het meest accuraat is, wordt
beslist aan de hand van de feedback van de medewerkers zelf. Voor verdere analyse van de
testresultaten, zie 5.5 resultaatanalyse verderop in dit hoofdstuk.

Binnen de onderneming hebben medewerkers een systeem ter
beschikking waar elk personeelslid kenmerkende trefwoorden
invoert over zichzelf, de ‘wie doet wat‘ zoekmachine. Het up-to-
date houden van zulke data is tijdrovend. Medewerkers die op

87
zoek zijn naar een persoon die hun met een bepaalde vraag of probleem kan helpen, kunnen een
zoekactie uitvoeren. Ze geven een trefwoord in en de zoekmachine selecteert personen die deze
term gebruikten om hun kennis te omschrijven. Vaak zijn de gegevens in dit systeem verouderd
en kan de persoon in kwestie ons niet meer helpen. Dat is de reden dat medewerkers zich richten
tot collega’s die hen, op hun beurt, doorverwijzen naar andere collega’s om zo geschikte hulp te
vinden. Indien één of meerdere technieken die werden toegepast in deze thesis een gewenste
omschrijving geeft voor de kennis van een persoon, kan die gebruikt worden als automatisch
gegenereerde input voor een dergelijke zoekmachine. Aangezien de geselecteerde trefwoorden
aan een bepaalde frequentie gekoppeld zijn, moet de mogelijkheid bestaan deze in te lezen in een
tagcloud. In zo’n cloud worden woorden met een hogere frequentie groter afgebeeld dan woorden
met een lagere frequentie. Dit geeft perspectieven om de kennis van een persoon automatisch up-
to-date te houden, aangezien de frequentie van woorden die je minder gebruikt zal stagneren,
waar de woorden die je vaker gebruikt, bijvoorbeeld door een nieuw project waaraan je
meewerkt, een stijgende frequentie hebben. Tijd is ook een aspect dat we in acht moeten nemen.
Wanneer je een project hebt afgewerkt zal je de projectnaam ervan vaak hebben toegekend aan
documenten die je opstelde. Dat woord zal zijn hoge frequentie behouden, ook na het afwerken
van dat project en zal een dominerend woord zijn binnen je tagcloud. Rekening houdend met het
tijdsaspect, kunnen woorden waarvan de frequentie stagneert, toch kleiner worden afgebeeld in
de cloud, als dat woord recent niet meer werd gebruikt. Dit is een aanzet die door tijdsgebrek niet
meer kon worden geïmplementeerd. Dit voorstel wordt wel voorgesteld aan de medewerkers van
de onderneming. Er is maar één manier om weten te komen of onze aanpak interessant is,
langsgaan bij de medewerkers en aan de hand van hun feedback onze resultaten analyseren.

5.4.4. Netdraw

Om het corpus te vormen voor de TF-IPF namen we een woordcluster en selecteerden we de
personen die deze woorden gebruikten. Dit corpus biedt ons een groep mensen die dezelfde
trefwoorden gebruiken. De vraag die ons intrigeert: bezitten personen die dezelfde trefwoorden
gebruiken gelijkaardige of overlappende kennis 170 ? Omdat een beeld meer zegt dan duizend
woorden leek het ons dan ook interessant om de personen uit het corpus voor te stellen met
behulp van sociale netwerk analyse software. Netdraw bevat een visualisatie package om zelf

170
[JOHN, A. et al 2006]

88
netwerken op te bouwen. Om een netwerk op te stellen hebben we “nodes” of knooppunten
nodig, in ons experiment zijn dit de medewerkers uit het corpus. We dienen ook de “ties” of
lijnen, de verbanden tussen de personen te definiëren. Om het best aan te sluiten bij het standpunt
van [JOHN, A. et al. 2006] wordt nagegaan hoe vaak twee personen hetzelfde trefwoord
gebruiken. Als dit verband wordt aangewend als ‘tie data’, is het dan mogelijk een netwerk te
vormen waarbij de personen een overlappende of gelijkaardige kennis hebben? Er is maar een
manier om dat uit te zoeken.

 Om een netwerk te beschrijven, wordt een VNA 171 file opgesteld. Dat is een text file
opgedeeld in verschillende secties, ‘star sections’ genaamd. Zo’n file kan uit volgende
onderdelen bestaan: node data, node properties en tie data. Een voorbeeld:

*node data
id gender role betweenness
HOLLY female participant 78.33333588
BRAZEY female participant 0
CAROL female participant 1.333333373
*Node properties
ID x y color shape size
"HOLLY" 1094 415 255 1 10
"BRAZEY" 84 742 255 1 10
"CAROL" 1224 996 255 1 10
*Tie data
from to talk strength
HOLLY BRAZEY 1 1
HOLLY CAROL 1 3
BRAZEY CAROL 1 1
BRAZEY HOLLY 1 2
CAROL BRAZEY 1 1
CAROL HOLLY 1 2

 De node data bevatten de variabelen die de actoren uit het netwerk beschrijven. De eerste
variabele wordt verondersteld een unieke identificatiecode te zijn. Voor onze data biedt
het personeelsnummer van de personen een unieke identificatiecode. Wij kiezen om naast
de unieke identificatiecode, ook de naam van de medewerker mee te geven:

*node data
ID NAME
19850 "Willy Vandriessche"
21671 "Johan Jacobs"

 Node properties beschrijven de karakteristieken van de actoren zoals kleur, grootte,…

171
http://www.analytictech.com/downloadnd.htm doorklikken naar ‘brief documentation’ Geraadpleegd 26 februari
2009

89
 Als laatste moeten de tie data worden gedefinieerd. Om na te gaan welke personen
dezelfde trefwoorden gebruiken, wordt opnieuw een beroep gedaan op het co-
occurrence 172 algoritme. Bij het berekenen van TF-IPF bepaalden we met behulp van de
co-occurrence hoe vaak woordkoppels samen werden gebruikt om een document te
labelen. Voor het netwerk in ons experiment wordt gezocht naar personen die dezelfde
trefwoorden gebruiken.
 Om het co-occurrence script te runnen, hebben we een inputfile nodig met volgende
structuur: “trefwoord p_id” . Hiervoor wordt een export gemaakt van trefwoorden en
bijhorend personeelsnummer uit de tabel highfreq. We laten het co-occurrence script zijn
werk doen en bekomen volgende output:
X7200 Y0920 236
H7520 X7200 185
H7520 M3490 193
H7520 X9280 114
H7520 Q0610 244
Deze output gebruiken we als tie data in de VNA file. De sectie tie data bevatten
tweewaardige data die de sterkte van de link tussen twee personen omschrijven. De eerste
twee variabelen ‘from’ en ‘to’ identificeren de actoren die in verbinding staan met elkaar.
 Vervolgens worden de mogelijke relaties weergegeven: sterkte van de relatie, of er al dan
niet een relatie is,…het onderdeel tie data in onze VNA file ziet er als volgt uit:
*tie data
from to strength
X7200 X9280 154
X7200 Y0920 236
H7520 X7200 185

De relatie ’strength’ geeft de sterkte van de relatie aan tussen twee personen uit het
corpus.

172
“Data Mining Association Rules” Perl package

90
Op deze manier werd alle benodigde data verzameld om een volledige VNA file 173 op te stellen.
In het programma Netdraw wordt deze VNA file opgeladen:
De text file met de data voor het netwerk wordt geselecteerd. Ook dient te worden aangegeven
dat het file format een VNA file is, waarin informatie staat over het netwerk en de attributen
ervan.

Netdraw geeft ons op basis van de input een netwerk.
Om de actoren binnen het netwerk herkenbaar te maken, wordt het personeelsnummer nu
weergegeven op het label, vervangend door de naam van het personeelslid. (Om

vertrouwelijkheidredenen wordt de grafiek met de namen van de personeelsleden niet
weergegeven.)

173
Volledige VNA file :zie bijlage

91
Om deze structuur duidelijker te maken, wordt een limiet ingesteld. Een lijn mag pas zichtbaar
zijn wanneer de ‘strength’ gedefinieerd in de tie data, hoger is dan 340. Door op de bliksem te
klikken (layout using options set in menu) reorganiseert Netdraw de personen van het netwerk
om een duidelijker beeld te verkrijgen.
Door deze limiet worden verschillende personen inactief. Deze actoren worden onzichtbaar
gemaakt en vervolgens wordt aangegeven dat de grootte van de actoren moet worden aangepast
aan het aantal inkomende en uitgaande lijnen.

Hoe meer links er naar een persoon leiden of er van vertrekken, hoe belangrijker deze persoon
kan zijn, hoe meer kennis hij bezit. Met behulp van de centrality measures die Netdraw kan
berekenen, wordt een netwerk bekomen waarin deze mogelijk toonaangevende personen als
grotere nodes worden afgebeeld.

92
Deze aanpassing geeft ons volgend overzichtelijk netwerk:

Algemeen netwerk cluster 55

De centrality measures worden het best gebruikt wanneer de limiet voor de zichtbare nodes en
ties al werd ingesteld. Wanneer de limiet wordt aangepast, verandert het aantal inkomende en
uitgaande lijnen. Na het aanpassen van de limiet, worden de centrality measures het best opnieuw
berekend. Zo wordt een correct beeld gevormd van het netwerk.
Het doel van dit onderzoek is uitzoeken of er een overlapping is van kennis en/of interesse tussen
één bepaald persoon en de collega’s waarmee deze persoon in directe verbinding staat. Hiervoor
beschikt netdraw over de optie ‘ego networks (simple)’ 174 , terug te vinden onder de optie
‘layout’. Er verschijnt een extra venster met de namen van alle actieve nodes. Onderaan bevinden
zich vier opties: ‘Clr’ om alle nodes uit te vinken, ‘All’ om alle nodes aan te vinken en met
behulp van ‘U’ en ‘D’ kan worden overgegaan naar het ego netwerk van de vorige of volgende

Ego netwerk van H3400

93
persoon. Wanneer alle nodes werden uitgevinkt en vervolgens slechts 1 node wordt geselecteerd,
wordt het ego netwerk van één bepaald persoon zichtbaar.

De analyse in Netdraw bezorgde ons een algemeen netwerk om de personen in te situeren alsook
de mogelijkheid om in te zoomen op de persoonlijke links van de personen, de ego netwerken. Of
dit netwerk opgebouwd is uit personen met een gelijkaardige kennis, kunnen we enkel te weten
komen door de personen binnen dit netwerk te interviewen. Enkel hun feedback kan zorgen voor
een correcte interpretatie van een dergelijk netwerk.

5.5 Resultaatanalyse

Trefwoorden die kenmerkend zijn voor de kennis van een persoon werden bepaald aan de hand
van de drie technieken: hoogste frequentie, cumulatieve frequentie en TF-IPF. Met de netwerken
gecreëerd via Netdraw wordt getracht mensen met een overlappend kennisveld te lokaliseren.
Deze output levert ons dus veel vragen op.
Tien medewerkers uit de functionele groep kunnen worden geïnterviewd. Zo kan feedback
worden verzameld om na te gaan of onze bevindingen enige relevantie hebben. Verder wordt
gekeken naar hoe de data werd voorgesteld aan de respondenten en welke begeleidende vragen
werden gesteld. De feedback verkregen van de respondenten wordt besproken en op basis
daarvan wordt een conclusie gevormd.

5.5.1. Voorbereiding resultaatanalyse

Alvorens de interviews af te nemen van de proefpersonen, wordt met de
personeelsverantwoordelijke een voorbereidend gesprek gehouden, een soort mini pilot. Hier
worden de vragen overlopen die zullen worden gesteld tijdens de interviews met de
medewerkers. De opmerkingen bekomen tijdens dit gesprek, worden in acht genomen bij het
opstellen van de interviews. De personeelsverantwoordelijke zorgt voor het inplannen van de
feedbackgesprekken. Elk gesprek zal ongeveer dertig minuten duren. Voor elk interview wordt
een tabel opgesteld waarin drie woordreeksen staan. Elke woordreeks bevat tien woorden die de
kennis van die persoon mogelijk omschrijven. Techniek 1 zijn de woorden met de hoogste
frequentie. Techniek 2 zijn de woorden geselecteerd uit percentiel 43 tot en met 46 op basis van

174
http://faculty.ucr.edu/~hanneman/nettext/C4_netdraw.html Geraadpleegd 04 maart 2009

94
de cumulatieve frequentie. Bij techniek 3 worden de woorden met de hoogste TF-IPF score
geselecteerd. Bij de medewerkers wordt gepeild naar de woordenset die hun kennis het best
weerspiegelt, woorden die niet van toepassing zijn, of de volgorde correct is,…

Voorbeeldtabel:
Techniek 1 Techniek 2 Techniek 3
‘BEDRIJFSGERELATEERD’ APPLICATIE FE
FIELD DR9I C
SERVICE ENE80 KPLT
FE KPL ITMATERIAAL
BEVESTIGING PROBLEMMANAGEMENT DDP34
C WERKVOORBEREIDER PCP
AANVRAAG TELF WILG
CENTRAAL TIM MFPROFIEL
MELDING VMIRT LAP
ITMATERIAAL WVB FIELD

Ook wordt aan elke medewerker een tagcloud getoond. Het doel van een dergelijke visualisatie
wordt aan iedereen uitgelegd. Er wordt gepeild of deze voorstelling alsook de achterliggende idee
interessant lijkt. De sociale netwerken worden besproken aan de hand van een globaal en ego
netwerk. De opzet is de personen eerst te situeren binnen het globale netwerk en daarna over te
gaan naar het ego netwerk.
Om het gesprek in goede banen te leiden, wordt gebruik gemaakt van een vragenlijst 175 .
Die dient als leidraad en hoeft niet strikt gevolgd te worden.

5.5.2. De resultaten

De gesprekken met de medewerkers waren verhelderend. Ze hebben de data vanuit hun
persoonlijk standpunt geanalyseerd. De verkregen feedback werd gestructureerd met behulp van
de leidraad die werd gebruikt tijdens de gesprekken. Eerst worden de bevindingen rond de
trefwoorden besproken daarna de opmerkingen bij de sociale netwerken.

 Evaluatie trefwoorden:
Er werd aan deze tien medewerkers gevraagd welke woordenset hun kennis het best omschreef.
Op deze vraag kon geen van alle deelnemers een eenduidig antwoord geven.

175
Vragenlijst : zie annex ‘vragenlijst’

95
100 100
Techniek 1:
80 High 80
Combinatie 1
frequency
60 60 en 2
Techniek 2:
Combinatie 2
cumulatieve
40 40 en 3
frequentie
Combinatie 1
20 Techniek 3: 20 en 3
TF-IPF
0 0
70% 20% 10% 30% 20% 50%

Verkozen techniek met de meest typerende woorden Verkozen combinatie met de meest typerende
woorden

70% van hen vond dat techniek 1, woorden met de hoogste frequentie, een duidelijke, algemene
omschrijving gaf van zijn of haar kennis. Toch vonden ze voornamelijk in techniek 3, TF-IPF,
verscheidene specifieke woorden terug die voor hen ook typerend waren. In techniek 2,
cumulatieve frequentie, vonden 20% van de deelnemers aanvankelijk de meest typerende
woorden voor hun kennis terug. Dit maakt dat slechts één persoon vond dat TF-IPF volledig
aansloot bij zijn kennis. Uit de gesprekken met de deelnemers kon worden opgemaakt dat hun
voorkeur uitging naar een combinatie van technieken in plaats van één enkele techniek te
selecteren. Zo bleek dat 50% van hen vond dat hun kennis kon worden beschreven aan de hand
van een combinatie van de high frequency techniek en TF-IPF (combinatie 1 en 3). Maar ook
personen die aanvankelijk voor de cumulatieve frequentie of TF-IPF opteerden, bleken een
combinatie met een andere techniek te verkiezen. Een samensmelting van de high frequency
techniek en de cumulatieve frequentie (combinatie 1 en 2) leek voor 30 % van hen de beste
omschrijving te bieden. Terwijl kon 20% zich vinden in een combinatie van de cumulatieve
frequentie en TF-IPF (techniek 2 en 3).
Vreemd dat alle medewerkers een combinatie van technieken verkiezen boven het gebruik van
één specifieke techniek. De vraag werd gesteld waarom ze een combinatie verkozen boven één
specifieke techniek. Bij alle medewerkers kwam hetzelfde antwoord naar boven. In de lijst
trefwoorden die hun voorkeur wegdroeg, stonden enkele of soms vele automatisch gegenereerde
woorden. Voorbeelden van dergelijke automatisch gegenereerde woorden zijn:
VOORZIEN AANPASSING AANVRAAG SERVICE FIELD
Dit maakte dat niet alle woorden even relevant bleken te zijn. Het voorstel om een interne
“blacklist” aan te leggen om dergelijke woorden automatisch uit de output te filteren, lijkt een
interessante denkpiste. Wanneer deze woorden kunnen worden uitgesloten, is het mogelijk betere
resultaten te verkrijgen. Wat het eventueel mogelijk maakt om één techniek te vinden die

96
unaniem de voorkeur van de deelnemers wegdraagt. Verder onderzoek kan deze stelling
eventueel uittesten.
Aangezien de meeste personen de typerende woorden voor hun kennis uit een van onze drie
technieken haalden, voegden slechts vijf personen nog één woord toe aan hun gekozen techniek
en drie personen voegden nog 2 woorden toe aan de techniek van hun keuze. Ook zouden vijf
personen de volgorde van trefwoorden aanpassen. De andere helft kond zich vinden in de
volgorde van de trefwoorden.

De Europese onderneming die haar data ter beschikking stelt van dit onderzoek is van mening dat
werknemers die intern veranderen van job wel aanspreekbaar dienen te blijven over kennis die ze
meedragen uit vorige functies. Dit standpunt was het aanknopingspunt voor de vraag of er
trefwoorden in de woordenreeksen stonden die ze graag hadden verwijderd. De ondervraagde
personen gingen akkoord dat ze tijdens een bepaalde periode aanspreekbaar blijven over kennis
omtrent een voorgaande functie. Een van de werknemers vermeldde dat hij al twintig jaar
tewerkgesteld is binnen deze onderneming, wat maakt dat hij al verschillende functies uitoefende.
Hij vindt het niet relevant dat collega’s hem aanspreken met vragen die betrekking hebben tot de
eerste functie die hij binnen de onderneming uitvoerde . De reden daarvoor is dat hij vaak het
antwoord schuldig moet blijven aangezien diensten, hun kennis en toepassingen ook evolueren.
Door het vermelden van de ‘wie doet wat’ zoekmachine halen verschillende medewerkers
spontaan het probleem aan van de verouderde data in die zoekmachine. Het actualiseren van hun
eigen trefwoorden vinden vele medewerkers tijdrovend. De oplossing die wordt aangereikt is de
tagcloud. Wanneer de medewerkers akkoord gaan met de woorden die bekomen worden aan de
hand van een van de beschreven technieken, kunnen deze automatisch worden opgeladen in een
soortgelijke zoekmachine. Om duidelijk aan te geven wat de meest typerende interesse van een
bepaalde persoon is, kan rekening worden gehouden met de frequentie van de geselecteerde
woorden. Wanneer ook rekening wordt gehouden met het tijdsaspect dat mee de grootte bepaalt
van een woord in de cloud, kan ook het probleem van verouderde kennis zichzelf oplossen.
Wanneer trefwoorden minder frequent of niet meer worden gebruikt, worden ze minder relevant
en kunnen ze binnen de tagcloud kleiner worden afgebeeld. Of ze verdwijnen gewoon uit de
cloud. Alle medewerkers waren gewonnen voor het idee van een tagcloud. Toch merkte één van
de ondervraagden het volgende op: wanneer iemand een probleem of vraag heeft, begint de
zoektocht naar een expert bij het omschrijven van je probleem of mogelijke oplossing met

97
trefwoorden. Want aan de hand van dergelijke trefwoorden kunnen personen worden geselecteerd
die een bepaalde kennis of expertise bezitten. Zal een dergelijke zoekactie een gelijkaardige
output hebben als wanneer dit nu wordt uitgevoerd in onze “wie doet wat” zoekmachine?
Het antwoord is ja. Zelfs nog meer, wanneer ook frequenties en het aspect tijd in acht worden
genomen, kan de rangorde worden verbeterd waarin geschikte personen worden aangevoerd.
Personen die een trefwoord recent vaak gebruiken zullen ons mogelijk beter kunnen assisteren
dan personen die voor dat trefwoord een hoge frequentie hebben, maar rond dit onderwerp niet
meer werken.

 Sociale netwerkanalyse:
De stelling die in dit onderdeel wordt getoetst, is de volgende: “bezitten personen die gebruik
maken van dezelfde trefwoorden gelijkaardige kennis?”. De werkwijze om tot een netwerk te
komen, werd in voorgaand onderdeel al toegelicht. Nu is het aan de medewerkers om deze
stelling te beamen of te weerleggen.

Algemeen netwerk : personen uit cluster 55

98
Er wordt gestart met een algemeen netwerk waarbij de personen de tijd krijgen dit na te kijken en
zichzelf te situeren. De ondervraagde personen kenden de meeste personen die zich in het
algemeen netwerk bevinden. Een zeer opvallende opmerking was er één in verband met de
opbouw van het netwerk. De personen die zich centraal bevonden, blijken leidinggevende
personen of werknemers van de helpdesk te zijn. Hun centrale positie kan worden toegeschreven
aan het aantal links dat bij hen vertrekt en aankomt. Deze personen beschikken vaak over een
overkoepelende kennis. Zij kunnen de schakels zijn die de personen met de nodige kennis of
expertise aanduiden. Centrale groep : schakelfiguren, bezitten
overkoepelende kennis.
Groene cirkel : personen met de specifieke kennis en
expertise binnen een bepaald domein

Ook werd opgemerkt dat personen die zich in de groene cirkel bevonden de meer specifieke
kennis bezaten. Alle ondervraagden vonden dat dit netwerk een zeer realistisch beeld ophing van
de situatie in 2006.
Wanneer werd ingezoomd op het persoonlijk netwerk van de medewerkers, waren de meningen
niet meer zo eenduidig. Merk op dat door het instellen van de limiet om een overzichtelijk
netwerk te bekomen, twee van de tien ondervraagde personen inactieve actoren werden. Dit
maakt dat zij niet konden worden ondervraagd over
de samenstelling van hun egonetwerk. Wel werd 8
met hen de idee van een dergelijk netwerk
6
besproken aan de hand van gelijkaardig
4 kennisveld
het algemene netwerk. Aan de acht ondervraagden gerelateerde
2 kennis
die wel een egonetwerk hadden, werd gevraagd hoe
0
men de personen binnen het egonetwerk kende. 37% 63%

99
Er worden drie antwoorden onderscheiden. De personen in het egonetwerk zijn directe collega’s,
dit was het geval voor drie van de acht ondervraagde personen. In dit geval was het egonetwerk
opgebouwd uit personen die inderdaad over een gelijkaardige kennis beschikken. Hier ging de
veronderstelling op dat personen die gebruik maken van gelijke trefwoorden een gelijkaardig
kennisveld hebben. Toch dient te worden opgemerkt dat bij één van hen ook leidinggevenden in
het egonetwerk stonden. Ook hier kan worden gesteld, naar analogie met het algemene netwerk,
dat deze personen overkoepelende kennis bezitten, zodat ze medewerkers kunnen aanwijzen die
specifieke kennis bezitten over een bepaald onderwerp. Bij vier van de ondervraagde personen
was hun egonetwerk opgebouwd uit personen met wie ze in contact staan om hun job uit te
voeren. Leidinggevenden staan vaak in contact met medewerkers van de support, personen die
opleidingen organiseren staan vaak in contact met leidinggevenden die het volgen van
opleidingen dienen goed te keuren,…Deze personen vonden dat de collega’s in hun egonetwerk
geen hulp hadden kunnen bieden aan medewerkers die een vraag hadden die betrekking had op
hun persoonlijke kennis. Nog een andere ondervraagde persoon beschreef de personen in zijn
egonetwerk als contactpersonen waarop hij beroep deed bij het uitwerken van een project. Deze
personen kunnen kennis bezitten rond eenzelfde onderwerp, bijvoorbeeld een bepaald project,
maar zijn niet in staat problemen op te lossen waarvoor de persoon in kwestie zou worden
aangesproken. Hieruit kunnen we besluiten dat slechts drie personen bevestigen dat de personen
uit hun egonetwerk een gelijkaardig kennisveld hebben. Vijf personen besluiten dat de kennis van
de personen uit hun egonetwerk kan worden beschreven als gerelateerde kennis. Hiermee wordt
bedoeld dat personen die bijvoorbeeld samen aan een project werken wel weten waarover dat
project gaat, maar daarom niet allemaal dezelfde specifieke kennis hebben. Dezelfde conclusie
kunnen we trekken voor leidinggevenden en personen van support. Zij hebben relaties met vele
personen, toch kunnen we niet stellen dat zij gelijkaardige specifieke kennis bezitten als alle
personen waarmee zij zijn verbonden in dit netwerk. Deze resultaten zetten me aan het denken.
Voor de opbouw van dit netwerk werd vertrokken uit de personen die zich in het corpus
bevonden voor de TF-IPF berekening. Er werd gekeken hoeveel gemeenschappelijke trefwoorden
deze personen gebruikten. Een beter beeld had eventueel kunnen worden gecreëerd, als we deze
redenering gestart waren vanuit de gehele informatica afdeling. Dan moest de co-occurrence,
personen die dezelfde trefwoorden gebruiken, worden berekend voor alle 452 personen. Op basis
van die input konden mogelijke subgroepen worden onderscheiden en waren de resultaten
mogelijk correcter geweest.

100
Om snel na te gaan of egonetwerken gebaseerd op de data gebruikt in het experiment grote
verschillen vertonen met egonetwerken gebaseerd op de data van de volledige informatica
afdeling, worden twee egonetwerken vergeleken. Als voorbeeld beschouwen we de
egonetwerken van persoon ‘H3400’:

Egonetwerk op basis van TF-IPF data Egonetwerk op basis van alle data van de
informatica afdeling

Wanneer de actoren in beide netwerken worden nageteld, blijkt dat het netwerk op basis van de
TF-IPF data veertien actoren bevat, terwijl het netwerk op basis van alle data van de informatica
afdeling er achttien telt. Deze egonetwerken tonen aan dat er een verschil is tussen beide
egonetwerken. Om een conclusie te trekken of het egonetwerk op basis van alle data van de
informatica afdeling ook beter en vollediger is dan dat op basis van TF-IPF, zou met beide
netwerken naar de geïnterviewde personen moeten worden gestapt. Enkel zij kunnen bevestigen
welk van beide netwerken het beste beeld weergeeft.

De ondervraagde personen waren het er wel over eens dat een dergelijke visualisatie geen
meerwaarde bood bij het uitvoeren van hun functie. Volgens zes personen kan een dergelijke
visualisatie voor nieuwe collega’s interessant zijn. Ze denken dat dit een hulp kan zijn om zo
sneller te weten bij wie ze met welk probleem terecht kunnen. De overige twee ondervraagde
medewerkers zijn niet overtuigd van het nut van een dergelijke visualisatie. Zij verkiezen het
huidige peter-systeem waarbij elke nieuwe medewerker een peter krijgt toegewezen die hem of
haar wegwijs maakt binnen de groep.

101
5.6. Samenvattende tabel

Techniek Doel Input Output Feedback medewerkers
High Deze techniek Gebruikte Trefwoorden met De woorden met de hoogste frequentie geeft
frequency gaat na of trefwoorden van de hoogste voor 70% van de ondervraagden een duidelijke
woorden die de medewerker frequentie per en algemene omschrijving van hun kennis. Dit
personen vaak medewerker beeld zou mogelijks nog preciezer kunnen zijn
gebruiken, wanneer de automatisch gegenereerde woorden
typerend zijn uit de lijst worden gefilterd. Dat deze techniek
voor hun kennis. geschikt is om automatisch woorden te
selecteren die de kennis van de medewerker
typeren, kan worden gestaafd met de
bevindingen dat 80% van de medewerkers deze
techniek zouden gebruiken in combinatie met
TF-IPF of cumulatieve frequentie.
Cumulatieve Het doel is na te Gebruikte Woorden waarvan Slechts twee van de tien ondervraagde personen
frequentie gaan of trefwoorden van de cumulatieve vonden dat de set woorden, gelokaliseerd op
woorden met de medewerker frequentie tussen basis van de cumulatieve frequentie, het best
een lagere percentiel 43 en hun persoonlijke kennis omschreef. Ook hier
frequentie ook 46 ligt. worden de resultaten beïnvloedt door de
typerende automatisch gegenereerde woorden. Toch
woorden vonden acht personen typerende woorden terug
bevatten die de in deze set, maar slechts 50% van de
kennis van een ondervraagden verkoos een combinatie waarbij
persoon high frequency of TF-IPF werd gecombineerd
omschrijven. met de woordenset bekomen met behulp van
cumulatieve frequentie. Dit bevestigt enigszins
ons vermoeden dat enkel woorden met hoge
frequenties viseren ervoor zorgt dat interessante
informatie over de kennis van een persoon
mogelijk verloren gaat.
TF-IPF, Tag De woorden Medewerkers Trefwoorden per Aanvankelijk vond slechts één persoon dit de
Frequency berekenen die uit de persoon met set waarvan de woorden zijn kennis het best
Inverse Person typerend zijn informatica bijhorende TF- omschreven. Opmerkelijk was wel dat 70% van
Frequency voor de kennis afdeling en hun IPF score. Hoe de ondervraagden voor een combinatie gebruik
van een persoon gebruikte hoger de score, zou maken van TF-IPF. Waar ze de set
adhv TF-IPF trefwoorden hoe relevanter het bekomen aan de hand van het high frequency

102
woord. eerder een algemene omschrijving vonden van
hun persoonlijke kennis, werd vaak opgemerkt
dat er zeer specifieke trefwoorden zaten in de
TF-IPF set. Vaak kwamen de projecten naar
voor waaraan de personen werkten. De
aanwezigheid van automatisch gegenereerde
woorden bij deze techniek, geeft ook hier
mogelijks nog een vertekend beeld. De TF-IPF
score brengt duidelijk trefwoorden naar voor die
kenmerkend zijn voor zijn interesses en
bezigheden op die moment (projecten e.d.).
Sociale Nagaan of Personen uit de Netwerk waarbij  Algemeen netwerk: een belangrijke
netwerk personen die corpus (zie TF- de personen uit opmerking was dat actoren die zich centraal in
analyse dezelfde IPF berekening) corpus de actoren het netwerk bevonden eerder een
trefwoorden en hun zijn en het aantal overkoepelende kennis bezaten, terwijl actoren
gebruiken, over gebruikte tags die ze die er zich in een cirkel rond bevonden de meer
een trefwoorden. gemeen hebben specifieke kennis bezitten. Volgens de
gelijkaardige de sterkte van hun medewerkers creëert een dergelijke voorstelling
kennis onderling verband geen meerwaarde voor zichzelf . Voor nieuwe
beschikken vormen. medewerkers kan het de dynamiek van een
groep verduidelijken (leidinggevenden –
medewerkers).
 Egonetwerk of persoonlijk netwerk.
Bij drie van de acht ondervraagden bleek het
egonetwerk te bestaan uit collega’s die over
gelijkaardige kennis beschikken. Deze personen
vonden een dergelijke voorstelling interessant
om te implementeren zodat je bij afwezigheid
van de ene persoon kan nagaan welke personen
je nog kunnen verder helpen. Vijf van de acht
ondervraagde gaven aan dat een dergelijk
netwerk weergaf met wie ze in contact staan.
Leidinggevenden staan in contact met hun
medewerkers, personen die opleidingen
organiseren, staan in contact met
leidinggevenden, nog een ander egonetwerk
bestond uit personen die amen aan een project

103
werkten. Hieruit konden we besluiten dat deze
personen niet steeds over een gelijkaardige
kennis beschikken. Hetgeen het bindt kan
worden omschreven als gerelateerde kennis.
Algemeen kan worden besloten dat het
gebruiken van dezelfde woorden wel degelijk
een band creëert. Hetzij door het bezitten van
gelijkaardige kennis, hetzij bezitten van
gerelateerde kennis.

5.7. Conclusie

Op basis van de verkregen feedback kan worden geconcludeerd dat een systeem voor
kennismanagement binnen deze onderneming volgende mogelijkheden zou moeten bieden. Een
techniek die automatisch woorden selecteert die de kennis van een persoon typeren, mits de
nodige verfijning van de gebruikte technieken binnen deze thesis en eventuele combinaties ervan,
ligt dit binnen handbereik. Wanneer er ook rekening wordt gehouden met de frequentie van
geselecteerde woorden alsook het tijdsaspect, kan de voorstelling van die woorden gebeuren aan
de hand van een tagcloud. Als de frequentie van deze woorden in acht wordt genomen, kan op
basis van de frequentie een rangschikking worden gemaakt van personen die over een bepaald
trefwoord informatie, kennis heeft. Wanneer deze persoon niet aanwezig is, zou de mogelijkheid
moeten bestaan om door te klikken op de afwezige persoon om een visualisatie te bekomen van
zijn persoonlijk netwerk. Daarin kunnen personen met gelijkaardige kennis hun collega’s
eventueel verder helpen met hun vraag.

104
6. Finale conclusie

Om te besluiten wordt nagegaan of de doelen gesteld voor deze thesis werden bereikt. In de titel :
“Het lokaliseren van experts binnen de onderneming aan de hand van een analyse van tags” zitten
vier vragen verscholen:

Zijn tags die personen gebruiken om bronnen te omschrijven kenmerkend voor de kennis
van deze personen?
Bestaan er algoritmen die woorden kunnen selecteren die een persoon typeren?
Kunnen experts worden gelokaliseerd door een analyse van hun gebruikte tags?
Bezitten personen die gebruik maken van dezelfde trefwoorden een gelijkaardig kennis-
en/of interesseveld?

Om deze vragen te beantwoorden en om een theoretische achtergrond op te bouwen rond het
onderwerp werd relevante wetenschappelijke literatuur geraadpleegd.
Er werd gestart met het definiëren van de verschillende begrippen gerelateerd aan het onderwerp
zodat deze begrippen correct gebruikt worden tijdens het verdere verloop van deze thesis. Het
aanbieden van deze verklaringen zorgt er ook voor dat de lezer zich een beeld kan vormen van de
inhoud van de termen. Vervolgens werd de evolutie binnen het domein van expert finders
geschetst. Aan de hand van zeven domeinfactoren werden vier systemen met elkaar vergeleken.
Ook werden de voor- en nadelen van de verschillende systemen besproken. De voordelen waren
nuttige tips voor het uitwerken van de methodologie terwijl de nadelen dienden te worden
vermeden. Om gebruikergecreëerde metadata te analyseren wordt ook rekening gehouden met het
sociale aspect. Patronen in sociale netwerken en theorieën binnen het domein van sociale netwerk
analyse werden ook vermeld en gebruikt bij het uitwerken van de methodologie.
In een tweede deel werden verschillende interessante algoritmen toegelicht die werden
geraadpleegd voor het bepalen van een eigen methodologie. Eens bepaald werd welke technieken
worden gebruikt voor het onderzoek, werden ze aangepast om op de beschikbare data van de
Europese onderneming te kunnen worden toegepast. De gebruikte technieken werden
geëvalueerd door tien respondenten. Die leverden ons de nodige feedback om af te toetsen of het
doel van de thesis werd bereikt.
Werd het doel bereikt door antwoorden te formuleren op de vier bovenstaande vragen? Elke

105
vraag wordt afzonderlijk overlopen.
Zijn tags die personen gebruiken om bronnen te omschrijven kenmerkend voor de kennis
van deze personen?
Uit het onderzoek verricht om de werking van expert finders te analyseren, kan worden besloten
dat elk onderzocht systeem van deze stelling uitgaat. In ons onderzoek was dit de meest
essentiële vraag. Zijn de woorden die werden geselecteerd kenmerkend voor de kennis van de
persoon? Er werden drie technieken toegepast: high frequency, cumulatieve frequentie en TF-
IPF. Uit de feedback van de respondenten kan worden besloten dat de woorden geselecteerd met
de high frequency techniek het beste de kennis van de personen omschreven. In de andere
technieken bevonden zich ook typerende woorden die de high frequency-reeks kunnen aanvullen.
Bestaan er algoritmen die woorden kunnen selecteren die een persoon typeren?
Zoals al werd vermeld, werden drie technieken uitgetest: high frequency, cumulatieve frequentie
en TF-IPF. De feedback van de respondenten bevestigt dat de toegepaste algoritmen in staat zijn
typerende woorden te selecteren. De respondenten meldden wel dat het uitfilteren van
automatisch gegenereerde woorden een must zou zijn voor het op punt stellen van de
geselecteerde trefwoorden.
Kunnen experts worden gelokaliseerd door een analyse van hun gebruikte tags?
Nadat werd bevestigd dat de geselecteerde woorden de kennis van de personen beschrijven, werd
aan de respondenten voorgesteld die woorden op te laden in een tagcloud. Zoeken naar een expert
kan door het invoeren van een trefwoord. De output van de query zijn de personen die dit
trefwoord gebruiken, gerangschikt op basis van dalende frequentie. Feedback van de
respondenten toonde aan dat woorden met de hoogste frequentie vaak het beste de algemene
kennis van die persoon weergeven. Of de geselecteerde personen dan ook echt experts ter zake
zijn, kon niet worden getest.
Bezitten personen die gebruik maken van dezelfde trefwoorden een gelijkaardig kennis-
en/of interesseveld?
Op basis van een woordcluster werden personen geselecteerd die dezelfde woorden gebruiken om
documenten te labelen. De relaties tussen de personen zijn gedefinieerd op basis van het aantal
gemeenschappelijke trefwoorden. De vraag aan de respondenten was of personen binnen het
egonetwerk van de persoon ook een gelijkaardig kennisveld bezitten. Slechts drie van de acht
respondenten vonden dat de personen binnen hun egonetwerk eenzelfde kennisveld bezaten.
Bijna allemaal vonden ze dat het een correct beeld gaf van de personen waarmee ze in contact

106
staan. Maar een echte meerwaarde voor het lokaliseren van alternatieve experts, wanneer de
gelokaliseerde persoon afwezig is, was dit niet.

Voor alle vier vragen werd dus een antwoord gevonden aan de hand van het onderzoek verricht
in deze thesis. Het gebruiken van metadata biedt werkelijk veel mogelijkheden. Door het
toepassen van algoritmen en analyses kan uit impliciete informatie veel betekenisvolle data
worden gefilterd. Ik ben ervan overtuigd dat binnen het domein van kennismanagement nog veel
onderzoek nodig zal zijn om een optimale manier te deduceren om kennis te managen. Maar
gezien verschillende huidige onderzoeken, ziet de toekomst er veelbelovend uit.

107
WETENSCHAPPELIJKE BRONNEN

[BALOG et al. 2006]

BALOG, K., AZZOPARDI, L. & DE RIJKE, M. 2006. “Formal Models for Expert Finding in Enterprise Corpora”.
In proceedings of the 29th Annual International ACM (Association for Computing Machinery) SIGIR (Special
Information Group on Information Retrieval) Conference on Research and Development in Information Retrieval.
Seattle, Washington, USA. P 43- 50.

[BIELENBERG et al. 2005]

BIELENBERG, K. & ZACHER, M. 2005. „Groups in social software: utilizing tagging to integrate individual
context for social navigator”. Master thesis. Bremen: Universiteit van Bremen.

[BRIN, S., PAGE, L. 1998]

BRIN, S., PAGE, L. 1998. “The Anatomy of a Large-Scale Hypertextual Web Search Engine”. Computer Science
Department, Stanford University, Stanford
<http://infolab.stanford.edu/~backrub/google.html>

[CHARTRAND, D. 1985]

CHARTRAND, D. 1985. “Introductory Graph Theory” Gepubliceerd door Courier Dover Publications, 1985 P10-20

[DESPONTIN, M. 2007]

DESPONTIN, M. 2007. “Statistiek 1” Vrije Universiteit Brussel.

[DEWULF. 2005]

DEWULF, M. 2005. “Formele Ontologieën: een Literatuurstudie en een Toepassing op Citatie-analyse”. Master
thesis. Antwerpen. Universiteit Antwerpen.

[ELCHARDUS,M. 2007]

ELCHARDUS, M. 2007. “Sociologie, een inleiding”. Gepubliceerd door Pearson Education, 2007 P 290

[FANG et al. 2007]

108
FANG, H. & ZHAI, C.X. 2007. “Probabilistic Models for Expert Finding”. In: Advances of information retrieval.
Illinois. Springer Berlin / Heidelberg. P 418 - 430.

[GOLDER et al . 2006]

GOLDER, S.A. & HUBERMAN, B.A. 2006. “Usage patterns of collaborative tagging systems”. Journal of
information science 32 (2), P 198 - 208.

[GUARINO, N. et al. 1995]

Guarino, N. 1995. “Formal Ontology, Conceptual Analysis and Knowledge Representation”. International Journal of
Human-Computer Studies, 43(5-6). P 625–640.

[GRUBER, T. 1995]

GRUBER, T. 1995. “Towards Principles for the Design of Ontologies Used for Knowledge Sharing”. In
International Journal of Human-Computer Studies, 43 (5-6). P907 - 928

[GRUBER, T. 2005]

GRUBER, T. 2005. “Ontology of a Folksonomy: A Mash-up of Apples and Oranges“. In Journal on Semantic Web
and Information Systems. 3(2) 2007.
<http://tomgruber.org/writing/ontology-of-folksonomy.htm>

[HOTHO et al. 2006]

HOTHO, A., JÄSCHKE, R., SCHMITZ, C. & STUMME, G. 2006. “Information Retrieval in Folksonomies: Search
and Ranking”. In The Semantic Web: Research and applications. LNAI volume 4011, Heidelberg. P 411-426

[JOHN et al. 2006]

JOHN, A. & SELIGMANN, D. 2006. “Collaborative tagging and expertise in the enterprise”. Paper. In: Proceedings
of collaborative web tagging workshop at www2006. Edinburgh, UK.

[KIPP et al. 2006]

KIPP, M.I.J. & CAMPBELL, D.G. 2006. “Patterns and inconsistenties in collaborative tagging systems: an

109
examinator of tagging practices”. Paper. In: proceedings annual general meeting of the american society for
information science and technology. Austin, Texas.

[KLEIN, M 2004]

KLEIN, M. 2004. “Change Management for Distributed Ontologies”. Doctoraatstudie Vrije Universiteit Amsterdam.
<http://www.cs.vu.nl/~mcaklein/thesis/thesis.pdf>

[KNACKHARDT, D. 1992]

KNACKHARDT, D. 1992. “The Strength of Strong Ties: The Importance of Philos in Organizations”
<http://www.andrew.cmu.edu/user/krack/documents/pubs/1992/1992%20The%20Strength%20of%20Strong%20Tie
s.pdf >

[MATHES,A. 2004]

MATHES, A. 2004. “Folksonomies – Cooperative Classification and Communication Through Shared Metadata”.
Graduate School of Lirary and Information Science. University of Illinois Urbana-Campaign
www.adammathes.com/academic/computer-mediated-communication/folksonomies.html

[MATTOX et al. 1999]

MATTOX, D., MAYBURY, M. & MOREY, D. 1999. “Enterprise Expert and Knowledge Discovery”. In
proceedings of the 5th International Conference on Human Computer Interaction: Communication, Cooperation and
Application. Design (volume 2). Lawrence Erlbaum Associates, Inc. Mahwah. USA. P 303 - 307.

[MERRIS, R. 2000]

MERRIS, R. 2000. “Graph Theory” Gepubliceerd door Wiley-IEEE, 2000 P 1- 30

[MIKA, 2005]

MIKA, P. 2005. “Ontologies are us: a unified model of social networks and semantics.” In: SCHMITZ, C.,
STUMME,G., HOSER, B. & ALANI, H. Editors. “Proceedings of the ISWC 2005 workshop on semantic netwerk
analyses.” Galway, Ireland. ISCW, 2005.

[MILLEN et al. 2006]

110
MILLEN, D.R. & FEINBERG, J. 2006 “Using Social Tagging to Improve Social Navigation”. In: Workshop on the
Social Navigation and Community-Based Adaptation Technologies. Conjunction with Adaptive Hypermedia and
Adaptive Web-Based Systems. Dublin, Ireland.

[MILLEN et al. 2007]

MILLEN, D.R., WHITTAKER, S. & YANG, M. 2007. “Social bookmarking support for exploratory search”.
Workingpaper . In: WHITE, R.W., DRUCKER, S.M., MARCHIONINI, G., HEARST, M., SCHRAEFEL, M.C.
“Exploratory search and HCI: designing and evaluating interfaces to support exploratory search interaction.” ACM’s
special intrest group on computer-human interaction (SIGCHI) 2007 workshop, San Jose, California.
< http://research.microsoft.com/~ryenw/esi > (Geraadpleegd op 4 april 2008). P 5 - 8.

[MORRISON. 2007]

MORRISON, P.J. 2007. Tagging and searching: search retrieval effectiveness of folksonomies on the web. Master
thesis. Ohio Wesleyan University.

[MULLER, M.J. et al. 2007]

MULLER, M.J. 2007. “Patterns of tag usage in enterprise tagging services: a constraint on exploratory search”.
Workingpaper . In: WHITE, R.W., DRUCKER, S.M., MARCHIONINI, G., HEARST, M., SCHRAEFEL, M.C.
“Exploratory search and HCI: designing and evaluating interfaces to support exploratory search interaction.” ACM’s
special intrest group on computer-human interaction (SIGCHI) 2007 workshop, San Jose, California.
< http://research.microsoft.com/~ryenw/esi > (Geraadpleegd op 4 april 2008). P 13 - 15.

[MULLER, M. et al. 2007]

MULLER, M., GEYER, W., DUGAN, C., BROWNHOLTZ, B., WILCOX, E., MILLEN, D.R. 2007. “Exploratory
tag-based search in multiple enterprise domains with the malibu productivity assistant.” Workingpaper . In: WHITE,
R.W., DRUCKER, S.M., MARCHIONINI, G., HEARST, M., SCHRAEFEL, M.C. “Exploratory search and HCI:
designing and evaluating interfaces to support exploratory search interaction.” ACM’s special intrest group on
computer-human interaction (SIGCHI) 2007 workshop, San Jose, California.
< http://research.microsoft.com/~ryenw/esi > (Geraadpleegd op 4 april 2008). P 44 - 47.

[SALTON, G. et al 1974]

SALTON, G. et al 1974. “Introduction to modern information retrieval ” Gepubliceerd door McGraw-Hill, 1983
Oorspronkelijk van de University of Michigan

111
[SEID et al. 2003]

SEID, D.Y. & KOBSA, A. 2003. “Expert finding systems for organisations: problem and domain analysis and the
DEMOIR approach” Journal of organizational computing and electronic commerce 13(1), P 1 - 29.

[TRUDEAU, R. 1993]

TRUDEAU, R. 1993. “Introduction to Graph Theory”. Gepubliceerd door Courier Dover Publications, 1993

[VAN DAMME. 2007]

VAN DAMME, C. 2007. “Informatie zoeken op het web: directories, zoekmachines, folksonomieën … en
onthologieën”. In: Cahiers de la documentation Nr 4, P 1 - 11.

[VAN DAMME, C. et al. 2007]

VAN DAMME, C., HEPP, M., SIORPAES, K. 2007. “FolksOntology: an integrated approach for turning
folksonomies into ontologies”. In: proceedings of the ESWC 2007 workshop “Bridging the gap between semantic
web and web 2.0”. Innsbruck, Austria. P 71 - 84.

[VAN DAMME, C., HEPP, M. et al. 2008]

VAN DAMME, C., HEPP, M., COENEN, T. 2008. “Quality Metrics for Tags of Broad Folksonomies” . In Boek:
Proceedings of the International Conference on Semantic Systems (I-Semantics 2008)
<www.heppnetz.de/files/VanDammeHeppCoenen.pdf>

[VAN DONGEN,S. 2000]

VAN DONGEN, S. 2000. “Graph Clustering by Flow Simulation” Phd Thesis, University of Utrecht, May 2000.
http://www.library.uu.nl/digiarchief/dip/diss/1895620/inhoud.html

[WELLMAN, B. et al. 1996]

Wellman, B. et al. 1996 “COMPUTER NETWORKS AS SOCIAL NETWORKS: Collaborative Work, Telework,
and Virtual Community”. Centre for Urban and Community Studies, University of Toronto, Toronto
<www.chass.utoronto.ca/~wellman/publications/computernetworks/computernetworks2.pdf >

112
NIET - WETENSCHAPPELIJKE BRONNEN

BRALY, M.D. & FROH, G.B. 2006. “Social bookmarking in the enterprise”. Conference poster. Digital library of
information science and technology.

INTERNETBRONNEN

DE WINTER, B. 2003. “Onthologie?” Webarticle.
<www.paxamas.be/index?option=com_content&task=view&id=23&Itemid=34 > (Geraadpleegd 11 mei 2008)

RASHMI, S. 2005. “A congnitive analysis of tagging: or how thee lower cognitive cost of tagging makes it popular.”
Webarticle. < http://www.rashmisinha.com/archives/05_09/tagging-cognitive.html >
(Geraadpleegd 24 april 2008)

[SOWA, J. ]

SOWA, J. (last modified 18/01/2009) “Building, Sharing and Merging Ontologies”.
<http://www.jfsowa.com/ontology/ontoshar.htm#s1 >
(Geraadpleegd 14 April 2009)

Wikipedia http://nl.wikipedia.org/wiki/Grafentheorie (geraadpleegd 10 december 2008)

113
Annex: Stappenplan
mysql> describe d_id_per_p_id_disa;
+-------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| p_id | varchar(5) | YES | | NULL | | (p_id : personeelsnummer)
| d_id | varchar(8) | YES | | NULL | | (d_id: documentnummer)
| kw | varchar(50) | YES | | NULL | | (kw: trefwoord)
+-------+-------------+------+-----+---------+-------+

mysql> insert fg011 (p_id, d_id, kw) select d_id_per_p_id_disa.p_id,
d_id_per_p_id_disa.d_id, d_id_per_p_id_disa.kw from d_id_per_p_id_disa
inner join pid_fg011 on d_id_per_p_id_disa.p_id = pid_fg011.p_id;

mysql> create table highfreq (p_id varchar(15), kw varchar(50), freq
int(11));

mysql> describe highfreq;
+-------+-------------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+-------+
| p_id | varchar(15) | YES | | NULL | |
| kw | varchar(50) | YES | | NULL | |
| freq | int(11) | YES | | NULL | |
+-------+-------------+------+-----+---------+-------+

mysql> insert highfreq (p_id, kw, freq) select p_id, kw, count(kw) from
fg011 group by p_id, kw;

mysql> select*from highfreq order by p_id, freq desc into outfile

"/var/lib/mysql/testsarah.txt";
open (inputfile,"/home/cvdamme/testsarah.txt");
open (outfile,">>/home/cvdamme/hightrefwoorden.txt");
$teller=1;
while(<inputfile>){
@lijn=split(/\t/, $_);
if (($lijn[0] eq $gezocht) && ($teller<10)){
print outfile $lijn[0] ."\t" .$lijn[1] . "\t" .$lijn[2];
$teller++;
}
if ($lijn[0] ne $gezocht){
$gezocht=$lijn[0];
$teller=1;
print outfile $lijn[0] ."\t" .$lijn[1] . "\t" .$lijn[2];
}
}
close inputfile;
close outfile;

mysql> select d_id, kw from fg011 into outfile "/var/lib/mysql/input.txt";

#input file laten splitsen op tab, dus de standaard delimiter

114
open (inputfile, "/home/cvdamme/input.txt");
open (outfile,">>/home/cvdamme/output.txt");
while(<inputfile>){
@lijn=split(/\t/,$_);
$lijn[0]=~s/\s//g;
print outfile $lijn[0] ." " .$lijn[1];
}
close inputfile;
close outfile;
_END_

mysql> create table cluster55 (kw varchar(50));

mysql> load data local infile
'/home/cvdamme/Desktop/sarah/cluster55.txt' into table cluster55;
mysql> create table unique_pid55 (p_id varchar(15));

mysql> insert unique_pid55 (p_id) select highfreq.p_id,
from highfreq inner join cluster55 on highfreq.kw = cluster55.kw;

mysql> create table aanttags_pp (p_id varchar(5), freq int(12));

mysql> insert aanttags_pp (p_id, freq) select p_id, sum(freq) from
highfreq group by p_id;

mysql> create table somtags (kw varchar(50), freq int(12));

mysql> insert somtags (kw, freq) select kw, count(distinct(p_id))
from highfreq group by kw;

mysql> create table highfreq55 (p_id varchar(5),kw varchar(50), fkw_pid
int(12));

mysql> create table tf_pid (p_id varchar(5),kw varchar(50), fkw_pid
int(12), somkw_pid int(12));

mysql> create table tf_idf (p_id varchar(5),kw varchar(50), fkw_pid
int(12), somkw_pid int(12), fpid_kw int(12));
mysql> create table tf_idf_bereken55 (p_id varchar(5),kw varchar(50),
tf_idf decimal(12,12));

Om de gegevens te centraliseren dienen we volgende queries uit te voeren:
We kopiëren de gegevens van tabel highfreq naar tabel highfreq55:
mysql> insert highfreq55 (p_id, kw, fkw_pid) select * from highfreq;

We voegen het totaal aantal gebruikte tags per persoon T y toe:
mysql> insert tf_pid (p_id, kw, fkw_pid, somkw_pid) select
highfreq55.p_id, highfreq55.kw, highfreq55.fkw_pid, aanttags_pp.freq
from highfreq55 inner join aanttags_pp on highfreq55.p_id =

115
aanttags_pp.p_id;

Ook het aantal personen uit de functionele groep die tag x gebruikten Rx hebben we nodig voor
onze berekening:

mysql> insert tf_idf (p_id, kw, fkw_pid, somkw_pid, fpid_kw) select
tf_pid.p_id, tf_pid.kw, tf_pid.fkw_pid, tf_pid.somkw_pid, somtags.freq
from tf_pid inner join somtags on tf_pid.kw = somtags.kw;

Nu we alle gegeven in één tabel hebben verzameld, voeren we de TF-IPF berekening uit:
mysql> insert tf_idf_bereken55 (p_id, kw, tf_idf) select p_id, kw,
((fkw_pid/somkw_pid)*log(36/fpid_kw)) from tf_idf;

mysql> select kw, p_id from highfreq55 into outfile
"/var/lib/mysql/input.txt";

116
Annex: Vragenlijst
Deel I. Evaluatie trefwoorden:

Medewerker krijgt drie sets van tien trefwoorden te zien (rekening houdend dat deze data
mogelijk -wat- verouderd is):

Trefwoorden met de hoogste frequentie voor die medewerker (techniek 1)
Trefwoorden met relatief lage frequentie (techniek 2)
Trefwoorden op basis van TF-IPF (techniek 3)

Begeleidende vragen:

1. Welke set weerspiegelt best uw kennis (rekening houdend dat deze data mogelijk
-wat- verouderd is)? (Techniek 1, 2, 3 of geen van deze technieken)

2. Zijn er trefwoorden die volgens u ontbreken? Welke trefwoorden zou u toevoegen?

3. Zou u in de door u gekozen set de volgorde van bepaalde trefwoorden veranderen?
(eerste woord - hoogste frequentie - wordt verondersteld meest typerend te zijn.) Waarom
wel/niet?

4. Zijn er trefwoorden die u wenst te verwijderen? (Incorrect - verouderd/niet meer van
toepassing - …). Of vindt u dat verouderde trefwoorden mogen blijven staan aangezien
deze ook uw kennis beschrijven?

5. Zou het helpen moesten je huidige interesses in een groter lettertype worden afgebeeld
zodat collega’s hierover een duidelijker beeld hebben? (cfr tagcloud)
Duur: +/- 15 min per persoon
Deel II. Sociale netwerken

Visualisatie van personen die gerelateerd zijn aan elkaar door gebruik van
gemeenschappelijke trefwoorden aan de hand van Netdraw.

Begeleidende vragen:

1. Wat vindt u van de personen in deze cluster? Stemt dit overeen met de realiteit
volgens u?

2. Kent u deze personen die in uw cluster zitten? Van waar kent u hen?

3. Zou deze visualisatie een toegevoegde waarde kunnen zijn bij het uitvoeren van uw
functie? Waarom wel, niet?

4. Zou deze visualisatie een toegevoegde waarde kunnen zijn voor nieuwe collega's of
collega's die van functie zijn veranderd? Waarom wel, niet?
Duur +/- 10 min per pers

117
Annex: Sarah.pl

open (inputfile,"/home/cvdamme/testsarah.txt");
open (outfile,">>/home/cvdamme/hightrefwoorden.txt");
$teller=1;
while(<inputfile>){
@lijn=split(/\t/, $_);
if (($lijn[0] eq $gezocht) && ($teller<5)){
print outfile $lijn[0] ."\t" .$lijn[1] . "\t" .$lijn[2];
$teller++;
}
if ($lijn[0] ne $gezocht){
$gezocht=$lijn[0];
$teller=1;
print outfile $lijn[0] ."\t" .$lijn[1] . "\t" .$lijn[2];
}
}
close inputfile;
close outfile;

118
Annex: Minimcl.pl

#!/usr/local/bin/perl -w

# (C) Copyright 2006, 2007 Stijn van Dongen
#
# This file is part of MCL. You can redistribute and/or modify MCL under the
# terms of the GNU General Public License; either version 3 of the License or
# (at your option) any later version. You should have received a copy of the
# GPL along with MCL, in the file COPYING.

sub explain {
print <<EOH;
purpose:
A small mcl implementation for educational purposes. It is written
in moderately terse perl.

implementation:
It is hash based, which implies that we get sparse matrices easily but at
the cost of using hashes. The hash-based matrices only store non-zero
entries.

The code is pretty straightforward. The interpretation routine implements
the mapping as described in the publications referenced in the (maxi) mcl
manual.

bonus:
Since the implementation is hash based you can use any type of labels, not
necessarily numbers.

Usage:
minimcl [--I=<num>] [--verbose] LABEL-INPUT

This means --I=<num> is optional (with 2.0 the default) and so is --
verbose.
LABEL-INPUT should be a file name or stream (STDIN) where each line is of
the form
LABEL1 LABEL2 NUMBER
or
LABEL1 LABEL2
EOH
}

use strict;
use Getopt::Long;

$::verbose = 0;
my $I = 2.0;
my $help = 0;

if (!@ARGV) {
print STDERR "issue 'minimcl --help' for help\n";
print STDERR "expecting STDIN now\n";
}

if

119
(! GetOptions
( "verbose" => \$::verbose
, "I=f" => \$I
, "help" => \$help
)
)
{ print STDERR "option processing failed\n";
exit(1);
}

&explain && exit(0) if $help;

my $mx = {};

## This reads the labels into a graph structure.
##
while (<>) {
next if /^\s*#/;
if (/(\S+)\s+(\S+)\s+(\S+)/) {
my ($x, $y, $val) = ($1, $2, $3);
$val = 1.0 if $val !~ /^[0-9]/;
$mx->{$x}{$y} = $val+0;
$mx->{$y}{$x} = $val+0;
}
elsif (/(\S+)\s+(\S+)/) {
$mx->{$1}{$2} = 1.0;
$mx->{$2}{$1} = 1.0;
}
}

matrix_add_loops($mx);
matrix_make_stochastic($mx);
matrix_dump($mx, 3, "start") if $::verbose;

my ($cl, $limit) = mcl($mx, $I);

matrix_dump($limit, 1, "limit") if $::verbose;
matrix_dump($cl, 0, "clustering");

sub mcl {
my ($mx, $I) = @_;
my $chaos = 1;
my $ite = 1;
while ($chaos > 0.001) {
my $sq = matrix_square($mx);
my $progress = sprintf "chaos %.5f ite %d", $chaos, $ite;
matrix_dump($sq, 3, "X $progress") if $::verbose;
$chaos = matrix_inflate($sq, $I);
matrix_dump($sq, 3, sprintf "I $progress") if $::verbose;
print STDERR "$progress\n" if !$::verbose;
$mx = $sq;
$ite++;
}
my $cl = matrix_interpret($mx);
return ($cl, $mx);
}

120
# dangersign:
# can this yield a < b < c < a ?

sub cmpany { local $^W = 0; $a <=> $b || $a cmp $b }

sub matrix_dump {
my ($mx, $modes, $msg) = @_;
print "($msg\n";
for my $n (sort cmpany keys %$mx) {
my @nb = $modes & 2
? map { sprintf "%s:%.3f", $_, $mx->{$n}{$_}; } sort cmpany
keys %{$mx->{$n}}
: map { sprintf "%s", $_; } sort cmpany keys %{$mx->{$n}};
local $" = "\t";
if ($modes & 1) {
printf "%-20s%s\n", $n, "@nb";
}
else {
print "@nb\n";
}
}
print ")\n";
}

sub matrix_square {
my ($mx) = @_;
my $sq = {};
my @nodes = keys %$mx;
for my $n (@nodes) {
$sq->{$n} = matrix_multiply_vector($mx, $mx->{$n});
}
return $sq;
}

sub matrix_multiply_vector {
my ($mx, $v) = @_;
my $w = {};
for my $e (keys %$v) {
my $val = $v->{$e};
for my $f (keys %{$mx->{$e}}) {
$w->{$f} += $val * $mx->{$e}{$f};
}
}
return $w;
}

sub matrix_make_stochastic {
my ($mx) = @_;
matrix_inflate($mx, 1); # return value chaos is meaningless for
# non stochastic input.
}

sub matrix_add_loops {
my ($mx) = @_;
for my $n (keys %$mx) {

121
my $max = vector_max($mx->{$n});
$mx->{$n}{$n} = $max ? $max : 1;
}
}

sub vector_max {
my ($v) = (@_);
my $max = 0;
for my $n (keys %$v) {
$max = $v->{$n} if $v->{$n} > $max;
}
return $max;
}

sub vector_sum {
my ($v, $p) = (@_);
my $sum = 0;
for my $n (keys %$v) {
$sum += $v->{$n} ** $p;
}
return $sum;
}

sub matrix_inflate { # prunes small elements as well.
my ($mx, $I) = @_;
my @nodes = keys %$mx;
my $chaos = 0;
for my $n (@nodes) {
my $sum = 0;
my $sumsq = 0;
my $max = 0;
for my $nb (keys %{$mx->{$n}}) {
if ($mx->{$n}{$nb} < 0.00001) {
delete($mx->{$n}{$nb});
next;
}
$mx->{$n}{$nb} **= $I;
$sum += $mx->{$n}{$nb};
}
if ($sum) {
for my $nb (keys %{$mx->{$n}}) {
$mx->{$n}{$nb} /= $sum;
$sumsq += $mx->{$n}{$nb} ** 2; # sum x_i^2 over stochastic vector
x
$max = $mx->{$n}{$nb} if $max < $mx->{$n}{$nb};
}
}
$chaos = $max - $sumsq if $max - $sumsq > $chaos;
}
return $chaos; # only meaningful if input is stochastic
}

# assumes but does not check doubly idempotent matrix.
# can handle attractor systems of size < 10.
sub matrix_interpret { # recognizes/preserves overlap.

122
my ($limit) = @_;
my $clusters= {}; # hash of arrayrefs.
my $attrid = {};
my $clid = 0;

for my $n (keys %$limit) { # crude removal of small elements.
for my $nb (keys %{$limit->{$n}}) {
delete $limit->{$n}{$nb} if $limit->{$n}{$nb} < 0.1;
}
}
my $attr = { map { ($_, 1) } grep { $limit->{$_}{$_} } keys %$limit };
# _ contract 'connected attractors', assign cluster
id.
for my $a (keys %$attr) {
next if defined($attrid->{$a});
my @aa = ($a);
while (@aa) {
my @bb = ();
for my $aa (@aa) {
$attrid->{$aa} = $clid;
push @bb, grep { defined($attr->{$_}) } keys %{$limit->{$aa}};
}
@aa = grep { !defined($attrid->{$_}) } @bb;
}
$clid++;
}
for my $n (keys %$limit) {
if (!defined($attr->{$n})) { # look at attractors
for my $a (grep { defined($attr->{$_}) } keys %{$limit->{$n}}) {
$clusters->{$attrid->{$a}}{$n}++;
}
}
else {
$clusters->{$attrid->{$n}}{$n}++;
}
}
return $clusters;
}

123
Annex: Knummer.pl

#input file laten splitsen op tab, dus de standaard delimiter
open (inputfile, "/home/cvdamme/input.txt");
open (outfile,">>/home/cvdamme/output.txt");
while(<inputfile>){
@lijn=split(/\t/,$_);
$lijn[0]=~s/\s//g;
print outfile $lijn[0] ." " .$lijn[1];
}
close inputfile;
close outfile;
_END_

124