You are on page 1of 43

Norsk andresprkskorpus (ASK)

Samarbeid

Norsk Sprktest
Aksis
Nordisk institutt, UiB (Kari Tenfjord, prosjektleder)

Finansiering: Norges Forskningsrd, Meltzerfondet
Samarbeid Folkeuniversitetet (adm./k.) og UiB (faglig)
Arrangerer:

Sprkprven i norsk for voksne innvandrere

Avsluttende prve for den offentlige grunnopplring
Arrangeres 3 ganger i ret minst ett sted i hvert fylke
Lese- og lytteforstelse, skriftlig og muntlig prve

Test i norsk - hyere niv (Bergenstesten)

Skriftlig: For studenter til universiteter og hyskoler og
arbeidstakere som trenger dokumentasjon p norskferdigheter
Muntlig: for helsepersonell


Norsk Sprktest
2001: 2309 kandidater (63% kvinner), 62% besttt
2002: 2593 kandidater (65% kvinner), 60% besttt
2003: 3174 kandidater (63% kvinner), 58% besttt

2003: 106 forskjellige land, 103 ulike morsml

Skriftlig prve: forklarende eller fortellende
Ca. 240 ord
Sprkprven
Hyere niv (Bergenstesten)
2001: 998 kandidater
2002: 1129 kandidater
2003: 1286 kandidater


Skriftlig prve: forklarende, fortellende eller argumenterende
Ca. 450 ord
Eksempel p oppgaver (Sprktesten)
Skriv en tekst om:

adopsjon
alkoholvaner
barneoppdragelse
en bok du har lest
det du mener er viktige verdier i livet
din frste jobb
ditt mte med norsk kultur
en eller flere nyheter som har gjort inntrykk p deg
en forfatter og en bok han/hun har skrevet
en hyggelig opplevelse du har hatt
en interesse du har
en kjent person
en person som har betydd mye for deg
Eksempel p oppgaver (Bergenstesten)
Skriv ett av flgende leserbrev til en lokalavis:

1. Du sttter lrerne i deres lnnskamp, og presenterer ulike
argumenter for dette synspunktet;

eller

2. Du gr imot at lrerne fr strre lnnskning enn andre yrkesgrupper,
og kommer med ulike argumenter for dette synspunktet.


Persondata
Norsk Sprktest har lagret persondata i SPSS
Opplysninger kodes, verdi tallkode
Kodebok

v14timer Timer i grunnopplring

Value Label
1 under 200
2 200-400
3 401-500
4 501-850
5 851-1500
6 1501-2000
7 2001-3000
Kandidatnummer
Testdato
Niv p testen
Hjemland
Morsml
Alder
Kjnn
Engelskniv
Skolegang utenfor Norge
Antall skoler utenfor Norge
Hva gjr du i Norge
Yrke i Norge
Tid i Norge (antall r)
Timer i grunnopplring
Antall mnd. siden start p norskkurs
Hvor har du gtt p kurs
Hva skal du bruke prveresultatet til: skole
Bruke: arbeid
Bruke: dokumentere
Bruke: annet
Hvor ofte snakker du norsk utenfor klasserommet
Har du sosial omgang med nordmenn?
Omgang med norske p fritiden
Omgang med norske p jobben/skolen

Persondata
Yrke i Norge

Value Label

1 helsearbeid
2 kontorarbeid
3 manuelt arbeid
4 servicenring
5 opplring/undervisning
6 transport
7 politi, toll, brann
8 kultur
9 hjemmevrende
10 annet
11 akademisk yrke

Korpus og utvalg
Utvalg av sprk
Spredning etter type sprk
M ha nok besvarelser, alle m ha besttt
Utvalg innen sprk
Samme type oppgave
10 sprk
100 besvarelser innen hvert sprk
Bde Sprkprven og Hyere niv
Kontrollgruppe
Nordmenn, fra kor og idrettslag etc.
Problemer vedrrende utvalg
nsket flere/andre morsml, men ikke nok antall
Ulik fordeling av morsml i de to testene
Skjev kjnnsfordeling
Russisk, polsk : 90-95% kvinner
nsket flere besvarelser, men ikke konomi
nsket muntlig prve, men ikke konomi
Valgte morsml
Albansk
Engelsk
Nederlandsk
Polsk
Russisk
Serbokroatisk
Somali
Spansk
Tysk
Vietnamesisk
Feilbegrepet

Problematisk med begrepene feil og korrekt form
Ordet feil er negativ ladet, ofte kan en feil vre kreativ
Andre termer: avvik, lsning
(kilde) L1 interlanguage L2 (ml)
Feil viser hvorledes sprket blir lrt
Det gjre feil er en mte teste ut mlsprket
Grader av feil, ikke lett avgjre hva som er rett

Bakgrunn for feilkoder ASK

Studerte feilkoder i tre strre prosjekter

ICLE (International Corpus of Learner English)
(tag) feil $rett$ (feil eller rett kan vre 0)
He took the books (QL) and $,$ the records and the computers.
FRIDA (French Interlanguage Database) corpus.
<type><subtype><ordklasse>#rett$feil</..></..></type>
trs <G><GEN><ADJ> #fort$ forte </ADJ></GEN></G>
Cambridge Learner Corpus
<#CODE>wrong word|corrected word</#CODE>
He died <#MP>we|.We</#MP> buried him the next day.


ASK feilkoder

Enkelt system slik at kodingsfeil unngs
Grammatisk informasjon annoteres automatisk (senere)
Velger retting som krever minst forandringer
Har kodemanual med eksempler
Systematisk sjekk av koding (ved konkordans)

Bruker TEI sic tag med ekstra attributter

<sic type=type desc=undertype corr=rett>feil</sic>

Det kan vre flere feilmarkeringer til et ord (men ikke overlapp)
ASK feilkoder

5 hovedgrupper

Leksemfeil
Morfologifeil
Syntaksfeil
Tegnsettingsfeil
Uidentifiserbar feil


ASK feilkoder: Leksemfeil

W galt ord
ORT ortografisk feil
PART samskrivningsfeil, avledningsfeil
SPL srskrivningsfeil
DER gal avledning
CAP galt valg av stor/liten bokstav
FL ord fra andre sprk enn norsk




ASK feilkoder: Leksemfeil

W Fra min mening ... (Etter)
ORT Kun i ordets grunnform (ikke bying)
PART etterhvert (etter hvert)
SPL sove rom (soverom)
DER stillighet (stillhet)
CAP europa (Europa)
FL lettere resolvere problemer (lse)

ASK feilkoder: Morfologifeil

F (galt valg av morfosyntaktisk byningsform)
Hvilken milj skal man bo. (Hvilket)
..og ikke s lang fra sentrum (langt)
Det var jo ham som har betydd absolutt mest (er)

INFL (feil form der intensjonen er riktig morfosyntaktisk
kategori)
har mye trafikker og brker (trafikk og brk)
Vi hald kontakten (holdt)
ASK feilkoder: Syntaksfeil

M (et ord eller en frase mangler)
Vi hilser ___ hverandre nr vi .... (mangler p)

R (et ord eller en frase er redundant og frer til grammatisk
feil eller uidiomatiske uttrykk)
Etter ti dager senere giftet... (senere redundant)

O (ord eller fraser str i gal rekkeflge)
..nok stor for oss... (stor nok)
ASK feilkoder: Undertyper til feiltype O
INV (inversjonsfeil)
I begynnelsen det var veldig vanskelig... (var det)

OINV (overgeneralisering av inversjonsregel)
.. selv om er det press .. (det er)

MCA (gal plassering av setningsadverbialet i helsetning)
fordi jeg har ikke vrt i Norge fr.. (ikke har)

SCA (gal plassering av setningsadverbialet i leddsetning)
Man kan ringe alltid hvor man er. (alltid ringe)

ASK feilkoder: Tegnsettingsfeil

PUNC (galt valg av tegn)
Hvem trekker frst. (?)

PUNCM (tegnsetting mangler)
Nr vi ser ca 50 r tilbake (ca.)

PUNCR (tegnsetting m fjernes)
.. med huset, og barna (ikke komma foran og)

ASK feilkoder: Uidentifiserbar feil

X

Vennskapet mitt var utrolig.
de liker virkelig hjelpe i menneskighet.



Innskriving/redigering: Oxygen
Stilark
Til hjelp ved kontroll kan en kjre flere stilark p server.
Stilark


Stilark
Konkordans som hjelpemiddel
De som koder har adgang til konkordans (via web)
Kjres p de tekstfilene som enhver tid er i katalogen
Kan sjekke hvordan andre har kodet
Kan sjekke konsistens i koding
Kan enkelt g til fil for retting
Konkordans
Konkordans


Persondata
Skjema har forandret seg gjennom rene
Data ligger i SPSS-filer (kodet med kodebok)
Ulike formater
Eksporteres som tab-separert fil
Kobles med tekst gjennom kandidatnummer-r/mnd
Diskusjon med Datatilsynet/NSD om hva vi kunne ta
med (tekster ble ogs anonymisert mht. navn, steder
etc.)
Tagging
Bruker Oslo-Bergen tagger
Kan vre problematisk bruke standard tagger p tekst
med mange feil
Tagger er robust
Tagger bruker corr-feltet ved ortografiske feil
Tilrettelegging for sking
Bruker Corpus Workbench via TCP/IP socket
Web-basert grensesnitt (Common Lisp)
Web-sider lages som XML og oversettes p server til
HTML via stilark (XSLT)
Det lages en korrektversjon av hver setning, fr p
denne mten et parallellkorpus
Kan rette taggefeil ved sking
Kan laste ned resultat til PC (Excel og lignende.)
Konkordans
Parallell konkordans
Tekst
Tagget tekst
Kollokasjon

You might also like