You are on page 1of 4

Mer ved til bålet!

Hans Olav Melberg


(hans.melberg@gmail.com)

Kanonen kunne kanskje virke overdimensjonert tatt i betraktning spurvens uskyldighet. Mitt
valg av våpen - naiv bayesiansk klassifiseringsmetode - passer ikke i denne jungelen (her). Og
kanskje er det ikke spesielt imponerende heller med tanke på den pinglete konklusjonen: At
man mest kunne utelukke, men ikke utpeke. Vitenskapelige muskler er kanskje ikke så mye å
skryte av?

Vel, poenget er ikke å være helt sikker, men å være så sikker som man kan være gitt den
informasjonen man har. Bare idioter er sikre. Det er jeg nesten sikker på.

På den annen side, matten skjuler antagelser som ofte er vanskelige å avsløre. For eksempel er
det et problem for den tidligere anlysen at man noen ganger har for få ord i dokumentet til å si
noe fornuftig om hvor ofte en forfatter vanligvis bruker ordet.

Det kan derfor være nyttig med en enklere fremgangsmåte: Hva om man bare ser på de mest
brukte ordene? Og hva om man bruker en mye enklere metode: Først finner man hvor ofte et
ord brukes målt i prosent av alle ord som er i dokumentet. Deretter regner man ut forskjellen
i ordbruken mellom de tekstene som er skrevet av Anonym og de tekstene som er skrevet av
den vi mistenker for å være forfatteren. Hvis ordet “og” utgjør 2,8% av alle ord i den mistenktes
dokument og 3,2% hos Anonym, er det en forskjell på 0,4. Vi regner ut slike forskjeller for en del
vanlige ord, legge de sammen, og så sier vi at den som har minst samlet forskjell er den som
ligger nærmest Anonym når det gjelder hvor ofte man bruker disse ordene.

Start med de mest brukte ordene på norsk: og, i, det, på, som, er, en, til, å, han, av, for, med,
at, var, de, ikke, den, har, jeg, om, et, men, så, seg, hun, hadde, fra, vi, du, kan, da, ble. Selv
relativt korte tekster vil ofte inneholde mange av disse ordene. Det reduserer problemene som
oppstår med korte dokumenter og vanskelighetene det skaper for å kunne være sikker på at
ordbruken er representativ. Problemet forsvinner ikke helt med denne tilnærmingen: Desto
mindre tekst man har, desto mindre sikker er man på å ha fanget forfatterens sanne ordavtrykk,
men problemet er mindre når man fokuserer på de mest brukte ordene.

Tabellen nedenfor viser resultatet av opptellingen:

Tekst/Forfatter/Kilde Samlet avvik fra Anonym Antall ord

Klassekamarater Del 5 0.05081 6130

Klassekamerater 39-45 0.05257 6725


Klassekamarater Del 7 0.05260 5610

Mordet på Anonym 0.08255 2034

Vidar Kvalshaug artikler 0.10005 4709

Vidar Kvalshaug blogg 0.10075 6777

Vidar Kvalshaug samlet 0.10150 10585

Knut Nærum bok 0.10364 6856

Anne Holt blogg 0.11210 2287

Kongepudler 123 0.11488 1481

Kjetil B. Alstadheim 0.11959 4436

Hans Geelmuyden 0.12313 2250

Anne Holt bok 0.12810 4434

John O. Egeland 0.13166 7417

Herman Willis 0.13218 5080

Torgrim Eggen 0.14260 5563

Hans Olav Melberg 0.15372 3646

Runar Døving 0.19716 1857

Visualisert (klikk her for en større versjon):


Konklusjoner
For det første ser det ut til at de ulike delene av Klassekamerater som er med i analysen, er
skrevet av samme forfatter. Det er også slik at ulike utdrag fra Anonyms fortatterskap henger
sammen når det gjelder ordbruk, med et mulig unntak av Kongepudler. Det utdraget har
imidlertid relativt få ord, så man bør ikke legge så stor vekt på det.

Videre ser vi at Willis kanskje kan slappe mer av, men hans favoritt, Eggen, ser ikke ut til
å være noen stor vinner heller. Det kan delvis skyldes den type tekst som er lagt inn. Ulike
sjangre har ulik stil og dersom den analyserte teksten tilhører en helt genere enn Anonyms
bøker, kan man ikke forvente likhet. Mistenkte representert med akademiske artikler skårer, ikke
uventet, dårlig (Døving og undertegnede)..

Kvalshaug er den som er nærmest Anonym i sin bruk av vanlige norske ord.. Det gjelder både
ting han har skrevet i bokform og på sin blog. Spørsmålet er om det er nærme nok - og om han
skiller seg så mye fra de andre at det er mistenkelig nok.

Foreløpig kan man ikke konkludere. Det kan være forfattere der ute som ligger nærmere, enten
de er Anonym eller ikke, som ikke er testet her. Forskjellen mellom Kvalshaug og noen av de
andre (Knut Nærum), er også mindre enn den man finner mellom Kvalshaug og Anonyms ulike
tekster. Mistenkt, men ikke dømt.

Er det mulig å bli sikrere? Ja, ved å sammenligne med den andre analysen - som tok hensyn
til alle ordene og ikke bare de mest brukte, kan man bli sikrere. Man kan også utføre analyser
av andre egenskaper ved tekstene og sammenligne konklusjoner. Sist, og kanskje viktigst, kan
man samle flere tekster og sette tall på i hvor stor grad det virkelig finnes en stabil ordfrekvens
for ulike forfattere, hvilke ord som eventuelt er viktigst, og hvor stor forskjell man må ha før man
kan være rimelig sikker.

Men dette får være nok ved for en helg. Jeg avventer.

You might also like