You are on page 1of 43

Norsk andrespråkskorpus (ASK)

Samarbeid

• Norsk Språktest
• Aksis
• Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsråd, Meltzerfondet


Norsk Språktest

• Samarbeid Folkeuniversitetet (adm./øk.) og UiB (faglig)


• Arrangerer:

– Språkprøven i norsk for voksne innvandrere

• Avsluttende prøve for den offentlige grunnopplæring


• Arrangeres 3 ganger i året minst ett sted i hvert fylke
• Lese- og lytteforståelse, skriftlig og muntlig prøve

– Test i norsk - høyere nivå (Bergenstesten)

• Skriftlig: For studenter til universiteter og høyskoler og arbeidstakere


som trenger dokumentasjon på norskferdigheter
• Muntlig: for helsepersonell
Språkprøven

• 2001: 2309 kandidater (63% kvinner), 62% bestått


• 2002: 2593 kandidater (65% kvinner), 60% bestått
• 2003: 3174 kandidater (63% kvinner), 58% bestått

• 2003: 106 forskjellige land, 103 ulike morsmål

• Skriftlig prøve: forklarende eller fortellende


• Ca. 240 ord
Høyere nivå (Bergenstesten)
• 2001: 998 kandidater
• 2002: 1129 kandidater
• 2003: 1286 kandidater

• Skriftlig prøve: forklarende, fortellende eller argumenterende


• Ca. 450 ord
Eksempel på oppgaver (Språktesten)
Skriv en tekst om:

• adopsjon
• alkoholvaner
• barneoppdragelse
• en bok du har lest
• det du mener er viktige verdier i livet
• din første jobb
• ditt møte med norsk kultur
• en eller flere nyheter som har gjort inntrykk på deg
• en forfatter og en bok han/hun har skrevet
• en hyggelig opplevelse du har hatt
• en interesse du har
• en kjent person
• en person som har betydd mye for deg
Eksempel på oppgaver (Bergenstesten)

Skriv ett av følgende leserbrev til en lokalavis:

1. Du støtter lærerne i deres lønnskamp, og presenterer ulike


argumenter for dette synspunktet;

eller

2. Du går imot at lærerne får større lønnsøkning enn andre


yrkesgrupper, og kommer med ulike argumenter for dette
synspunktet.
Persondata
• Norsk Språktest har lagret persondata i SPSS
• Opplysninger kodes, verdi  tallkode
• Kodebok

v14timer Timer i grunnopplæring

Value Label
1 under 200
2 200-400
3 401-500
4 501-850
5 851-1500
6 1501-2000
7 2001-3000
Persondata

Kandidatnummer Tid i Norge (antall år)


Testdato Timer i grunnopplæring
Nivå på testen Antall mnd. siden start på norskkurs
Hjemland Hvor har du gått på kurs
Morsmål Hva skal du bruke prøveresultatet til: skole
Alder Bruke: arbeid
Kjønn Bruke: dokumentere
Engelsknivå Bruke: annet
Skolegang utenfor Norge Hvor ofte snakker du norsk utenfor klasserommet
Antall skoleår utenfor Norge Har du sosial omgang med nordmenn?
Hva gjør du i Norge Omgang med norske på fritiden
Yrke i Norge Omgang med norske på jobben/skolen
Yrke i Norge

Value Label

1 helsearbeid
2 kontorarbeid
3 manuelt arbeid
4 servicenæring
5 opplæring/undervisning
6 transport
7 politi, toll, brann
8 kultur
9 hjemmeværende
10 annet
11 akademisk yrke
Korpus og utvalg
• Utvalg av språk
– Spredning etter type språk
– Må ha nok besvarelser, alle må ha bestått
• Utvalg innen språk
– Samme type oppgave
• 10 språk
– 100 besvarelser innen hvert språk
– Både Språkprøven og Høyere nivå
• Kontrollgruppe
– Nordmenn, fra kor og idrettslag etc.
Problemer vedrørende utvalg

• Ønsket flere/andre morsmål, men ikke nok antall


• Ulik fordeling av morsmål i de to testene
• Skjev kjønnsfordeling
– Russisk, polsk : 90-95% kvinner
• Ønsket flere besvarelser, men ikke økonomi
• Ønsket muntlig prøve, men ikke økonomi
Valgte morsmål

• Albansk
• Engelsk
• Nederlandsk
• Polsk
• Russisk
• Serbokroatisk
• Somali
• Spansk
• Tysk
• Vietnamesisk
Feilbegrepet

• Problematisk med begrepene ”feil” og ”korrekt form”


• Ordet ”feil” er negativ ladet, ofte kan en feil være ”kreativ”
• Andre termer: avvik, løsning
• (kilde) L1  interlanguage  L2 (mål)
• Feil viser hvorledes språket blir lært
• Det å gjøre feil er en måte å teste ut målspråket
• Grader av feil, ikke lett å avgjøre hva som er rett
Bakgrunn for feilkoder ASK

Studerte feilkoder i tre større prosjekter

ICLE (International Corpus of Learner English)


(tag) feil $rett$ (feil eller rett kan være 0)
He took the books (QL) and $,$ the records and the computers.
FRIDA (French Interlanguage Database) corpus.
<type><subtype><ordklasse>#rett$feil</..></..></type>
très <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>
Cambridge Learner Corpus
<#CODE>wrong word|corrected word</#CODE>
He died <#MP>we|.We</#MP> buried him the next day.
ASK feilkoder

• Enkelt system slik at kodingsfeil unngås


• Grammatisk informasjon annoteres automatisk (senere)
• Velger retting som krever minst forandringer
• Har kodemanual med eksempler
• Systematisk sjekk av koding (ved konkordans)

• Bruker TEI sic tag med ekstra attributter

• <sic type=type desc=undertype corr=rett>feil</sic>

• Det kan være flere feilmarkeringer til et ord (men ikke overlapp)
ASK feilkoder

5 hovedgrupper

– Leksemfeil
– Morfologifeil
– Syntaksfeil
– Tegnsettingsfeil
– Uidentifiserbar feil
ASK feilkoder: Leksemfeil

• W galt ord
• ORT ortografisk feil
• PART samskrivningsfeil, avledningsfeil
• SPL særskrivningsfeil
• DER gal avledning
• CAP galt valg av stor/liten bokstav
• FL ord fra andre språk enn norsk
ASK feilkoder: Leksemfeil

• W Fra min mening ... (Etter)


• ORT Kun i ordets grunnform (ikke bøying)
• PART etterhvert (etter hvert)
• SPL sove rom (soverom)
• DER stillighet (stillhet)
• CAP europa (Europa)
• FL lettere å resolvere problemer (løse)
ASK feilkoder: Morfologifeil

• F (galt valg av morfosyntaktisk bøyningsform)


– Hvilken miljø skal man bo. (Hvilket)
– ..og ikke så lang fra sentrum (langt)
– Det var jo ham som har betydd absolutt mest (er)

• INFL (feil form der intensjonen er riktig morfosyntaktisk


kategori)
– har mye trafikker og bråker (trafikk og bråk)
– Vi hald kontakten (holdt)
ASK feilkoder: Syntaksfeil

• M (et ord eller en frase mangler)


– Vi hilser ___ hverandre når vi .... (mangler på)

• R (et ord eller en frase er redundant og fører til grammatisk feil


eller uidiomatiske uttrykk)
– Etter ti dager senere giftet... (senere redundant)

• O (ord eller fraser står i gal rekkefølge)


– ..nok stor for oss... (stor nok)
ASK feilkoder: Undertyper til feiltype O

• INV (inversjonsfeil)
– I begynnelsen det var veldig vanskelig... (var det)

• OINV (overgeneralisering av inversjonsregel)


– .. selv om er det press .. (det er)

• MCA (gal plassering av setningsadverbialet i helsetning)


– fordi jeg har ikke vært i Norge før.. (ikke har)

• SCA (gal plassering av setningsadverbialet i leddsetning)


– Man kan ringe alltid hvor man er. (alltid ringe)
ASK feilkoder: Tegnsettingsfeil

• PUNC (galt valg av tegn)


– Hvem trekker først. (?)

• PUNCM (tegnsetting mangler)


– Når vi ser ca 50 år tilbake (ca.)

• PUNCR (tegnsetting må fjernes)


– .. med huset, og barna (ikke komma foran og)
ASK feilkoder: Uidentifiserbar feil

• X

– Vennskapet mitt var utrolig.


– de liker virkelig å hjelpe i menneskighet.
Innskriving/redigering: Oxygen
Stilark
Til hjelp ved kontroll kan en kjøre flere stilark på server.
Stilark
Stilark
Konkordans som hjelpemiddel

• De som koder har adgang til konkordans (via web)


• Kjøres på de tekstfilene som enhver tid er i katalogen
• Kan sjekke hvordan andre har kodet
• Kan sjekke konsistens i koding
• Kan enkelt gå til fil for retting
Konkordans
Konkordans
Persondata

• Skjema har forandret seg gjennom årene


• Data ligger i SPSS-filer (kodet med kodebok)
• Ulike formater
• Eksporteres som tab-separert fil
• Kobles med tekst gjennom kandidatnummer-år/mnd
• Diskusjon med Datatilsynet/NSD om hva vi kunne ta
med (tekster ble også anonymisert mht. navn, steder
etc.)
Tagging

• Bruker Oslo-Bergen tagger


• Kan være problematisk å bruke standard tagger på tekst
med mange feil
• Tagger er robust
• Tagger bruker corr-feltet ved ortografiske feil
Tilrettelegging for søking

• Bruker Corpus Workbench via TCP/IP socket


• Web-basert grensesnitt (Common Lisp)
• Web-sider lages som XML og oversettes på server til
HTML via stilark (XSLT)
• Det lages en korrektversjon av hver setning, får på
denne måten et parallellkorpus
• Kan rette taggefeil ved søking
• Kan laste ned resultat til PC (Excel og lignende.)
Konkordans
Parallell konkordans
Tekst
Tagget tekst
Kollokasjon

You might also like