Professional Documents
Culture Documents
Anonymsordbruk
Anonymsordbruk
Kanonen kunne kanskje virke overdimensjonert tatt i betraktning spurvens uskyldighet. Mitt
valg av våpen - naiv bayesiansk klassifiseringsmetode - passer ikke i denne jungelen (her). Og
kanskje er det ikke spesielt imponerende heller med tanke på den pinglete konklusjonen: At
man mest kunne utelukke, men ikke utpeke. Vitenskapelige muskler er kanskje ikke så mye å
skryte av?
Vel, poenget er ikke å være helt sikker, men å være så sikker som man kan være gitt den
informasjonen man har. Bare idioter er sikre. Det er jeg nesten sikker på.
På den annen side, matten skjuler antagelser som ofte er vanskelige å avsløre. For eksempel er
det et problem for den tidligere anlysen at man noen ganger har for få ord i dokumentet til å si
noe fornuftig om hvor ofte en forfatter vanligvis bruker ordet.
Det kan derfor være nyttig med en enklere fremgangsmåte: Hva om man bare ser på de mest
brukte ordene? Og hva om man bruker en mye enklere metode: Først finner man hvor ofte et
ord brukes målt i prosent av alle ord som er i dokumentet. Deretter regner man ut forskjellen
i ordbruken mellom de tekstene som er skrevet av Anonym og de tekstene som er skrevet av
den vi mistenker for å være forfatteren. Hvis ordet “og” utgjør 2,8% av alle ord i den mistenktes
dokument og 3,2% hos Anonym, er det en forskjell på 0,4. Vi regner ut slike forskjeller for en del
vanlige ord, legge de sammen, og så sier vi at den som har minst samlet forskjell er den som
ligger nærmest Anonym når det gjelder hvor ofte man bruker disse ordene.
Start med de mest brukte ordene på norsk: og, i, det, på, som, er, en, til, å, han, av, for, med,
at, var, de, ikke, den, har, jeg, om, et, men, så, seg, hun, hadde, fra, vi, du, kan, da, ble. Selv
relativt korte tekster vil ofte inneholde mange av disse ordene. Det reduserer problemene som
oppstår med korte dokumenter og vanskelighetene det skaper for å kunne være sikker på at
ordbruken er representativ. Problemet forsvinner ikke helt med denne tilnærmingen: Desto
mindre tekst man har, desto mindre sikker er man på å ha fanget forfatterens sanne ordavtrykk,
men problemet er mindre når man fokuserer på de mest brukte ordene.
Videre ser vi at Willis kanskje kan slappe mer av, men hans favoritt, Eggen, ser ikke ut til
å være noen stor vinner heller. Det kan delvis skyldes den type tekst som er lagt inn. Ulike
sjangre har ulik stil og dersom den analyserte teksten tilhører en helt genere enn Anonyms
bøker, kan man ikke forvente likhet. Mistenkte representert med akademiske artikler skårer, ikke
uventet, dårlig (Døving og undertegnede)..
Kvalshaug er den som er nærmest Anonym i sin bruk av vanlige norske ord.. Det gjelder både
ting han har skrevet i bokform og på sin blog. Spørsmålet er om det er nærme nok - og om han
skiller seg så mye fra de andre at det er mistenkelig nok.
Foreløpig kan man ikke konkludere. Det kan være forfattere der ute som ligger nærmere, enten
de er Anonym eller ikke, som ikke er testet her. Forskjellen mellom Kvalshaug og noen av de
andre (Knut Nærum), er også mindre enn den man finner mellom Kvalshaug og Anonyms ulike
tekster. Mistenkt, men ikke dømt.
Er det mulig å bli sikrere? Ja, ved å sammenligne med den andre analysen - som tok hensyn
til alle ordene og ikke bare de mest brukte, kan man bli sikrere. Man kan også utføre analyser
av andre egenskaper ved tekstene og sammenligne konklusjoner. Sist, og kanskje viktigst, kan
man samle flere tekster og sette tall på i hvor stor grad det virkelig finnes en stabil ordfrekvens
for ulike forfattere, hvilke ord som eventuelt er viktigst, og hvor stor forskjell man må ha før man
kan være rimelig sikker.
Men dette får være nok ved for en helg. Jeg avventer.