You are on page 1of 3

c 

Hans Olav Melberg (hans.melberg@gmail.com)

Alvorlig forsker, Institutt for helse og samfunn, Universitetet i Oslo

Spørsmålet om hvem som er den anonyme forfatteren bak bøkene Kongepudler,Kindereggeffekten,


Klassefesten og den nye boken Mordet på Anonym, er ikke det viktigste problemet i verden. Kanskje
ikke det nest viktigste heller. Nå viser det seg imidlertid at metoden for å finne svaret på hvem som
skrev bøkene, kan ha en viss nytte i andre sammenhenger. Det gjelder alt fra å avgjøre man ligger i
faresonen for å få kreft, om en lånekunde har høy eller lav risiko for å gå konkurs, til å klassifisere en
epost som reklamesøppel eller ikke.

For noen kan det kanskje også ha en viss febernedsettende effekt å få identifisere den anonyme
forfatteren. Til sist kan det være grunn til å gjenopprette universitetets ære etter at man ble anklaget
for udugelighet og kastet ut fra NRKs store quizkonkurranse. Til sammen blir dette en god
unnskyldning for å vise vitenskapelige muskler og bruke statistisk analyse for å finne forfatteren av
bøkene.

Det generelle problemet er å kategorisere et objekt på bakgrunn av en del egenskaper. Et objekt kan
tilhøre mange kategorier, men ofte bruker man bare to: høy eller lav risiko, syk eller ikke syk,
søppelmail eller ikke. Egenskapene ved objektet er de variablene man i den aktuelle situasjonen
mener er relevant for klassifiseringen: farge, inntekt, høyde, alder. Ofte har man kjennskap til en
rekke egenskaper, men er usikker på hvilken kategori objektet tilhører. Er en 52 år gammel fisker fra
Molde en god eller dårlig lånekunde?

For å svare på slike spørsmål, kan man bruke ulike metoder der man sammenligner objektet med
andre kjente objekter som har mange av de samme egenskapene. Snakker objektet som en and, ser
det ut som en and og vagger det som en and, ja så er det trolig en and. Dette er vel kjent, så det
interessante ligger ikke i det generelle poenget, men hvordan dette gjøres.

En av de enkleste og mest brukte metodene kalles naiv bayesiansk klassifiseringsprosedyre. Den er


overraskende effektiv og eksempelet med hvem som har skrevet Kongepudler passer godt for å
illustrere detaljene i metoden. Intuisjonen er enkel. For hvert ord i dokumentet med ukjent forfatter
regner vi ut sannsynligheten for at de mistenkte forfatterne bruker ordet. Disse sannsynlighetene
finner vi ved å se på hvor ofte de har brukt ordet i andre tekster. Den forfatteren som ofte bruker de
samme ordene som man finner i dokumentet med ukjent forfatter, er den mest sannsynlige
forfatteren.

Hvor god er denne metoden for å identifisere forfattere av ukjente dokumenter? For å undersøke
dette, ble metoden testet mot tretti avisartikler skrevet av Kjetil B. Alstadheim, Vidar Kvalshaug og
John Egeland. Et dataprogram ble først foret med mange artikler skrevet av disse tre. Basert på
ordbruken til forfatterne i disse artiklene, regnet programmet ut hvem som var den mest sannsynlige
forfatteren i de tretti artiklene. Programmet ga da riktig svar i alle tilfellene bortsett fra en (97 %
riktig svar).

Gitt at metoden virker, kan man teste noen mulige forfattere. Blant de foreslåtte kandidatene er
John Egeland, Kjetil B. Alstadheim, Anne Holt, Vidar Kvalshaug, Herman Willis, Knut Nærum, Runar
Døving, og Hans Geelmuyden. Det er også mulig at bøkene har flere forfattere.

Dersom man starter med John Egeland, viser det seg at det er lite sannsynlig at det er ham. I til
sammen ti forsøk, med ulike utdrag fra Kongepudler, Klassefesten og Mordet på anonym, ble Egeland
aldri foretrukket foran Kjetil B. Alstadheim eller Anne Holt. Det synes dermed trygt å forkaste Egeland
som den mulige forfatteren. Det samme gjelder flere av de andre. Nærum, Geelmuyden og Døving
ble forkastet som forfatteren alle ti gangene når man sammenlignet på samme måte som for
Egeland. Anne Holt har en stil som noen ganger kan ligne på den man finner hos Anonym, men med
fem av femten mulige treff, er det ikke stabilt eller entydig nok til å utrope henne til forfatter.

Herman Willis, derimot, var en mer lovende kandidat. Han ble foretrukket foran Alstadheim og Holt i
alle tilfellene. Grunnlaget bak Willis er imidlertid noe svakere enn de andre fordi hans skrivestil ble
kartlagt ved hjelp av et dokument som var relativt kort.

De tre som peker seg ut er dermed Alstadheim, Kvalshaug og Willis. Dersom man legger sammen
utdragene fra de ulike bøkene i et stort dokument, viser det seg at Willis ikke lenger er den mest
sannsynlige forfatteren. I stedet er det Alstadheim som vinner alle sine parvise sammenligninger mot
Holt, Willis og Kvalshaug, mens Kvalshaug vinner mot de andre. Det kan tyde på at Alstadheim eller
Kvalshaug er forfatteren, eventuelt at begge er involvert. Kvalshaug er ansatt i Kagge forlag som utgir
boken og kan ha hatt en rolle sammen med forfatteren.

Konklusjonen er altså at John Egeland, Runar Døving, Hans Geelmuyden og Knut Nærum er lite
sannsynlige kandidater. Knut Alstadheim, Vidar Kvalshaug, Herman Willis og delvis Anne Holt har en
skrivestil som ligner den man finner hos Anonym.

Noen vil kanskje si at dette er en litt pinglete konklusjon. Spesielt med tanke på den lettere
overdimensjonerte kanonen som er brukt til å skyte på en relativt uskyldig, men godt skjult, spurv.
Og det er jo sant. Vitenskapelige muskler er kanskje ikke så mye å skryte av?

Poenget er ikke å være helt sikker, men å være så sikker som man kan være gitt den informasjonen
man har. Bare idioter er sikre. Det er jeg nesten sikker på.

Temaets uviktighet og konklusjonenes usikkerhet tilsier kanskje at det ikke er behov for ytterligere
innsats for å finne anonyms identitet. Men metodene er det behov for både mer forskning på og bruk
av. Disse metodene passer perfekt i en tid og et land der man begynner å få tilgang til data i et
omfang som gjør at man kan finne sammenhenger det tidligere har vært vanskelig å finne. For
eksempel tok det lang tid før man oppdaget at Dispril kunne være forebyggende i forhold til
hjerteinfarkt, mens man med dagens helseregister mye raskere kan finne slike sammenhenger. Med
nye metoder og data vil man også kunne videreutvikle verktøy som kan hjelpe til med å stille korrekt
diagnose og til å klassifisere om en person er i risikosonen for å få en sykdom gitt visse egenskaper.
Jakten på Anonym viser hvordan nye redskaper for å finne mønster i store datamengder kan brukes.
Dette er redskaper som kan brukes på mange viktige områder og som det derfor er nyttig å kjenne
til. Takk for det, Anonym!

You might also like