You are on page 1of 40

Problemanalyse Alfabet og datamaskin Språkteknologi

Alfabet og språkteknologi

Ciprian-Virgil Gerstenberger

Universitetet i Tromsø
Norge

Skriftspråk och språkteknologi


15.05.2011 Arjeplog, Sverige
Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi

Innhold

Problemanalyse

Alfabet og datamaskin

Språkteknologi
Problemanalyse Alfabet og datamaskin Språkteknologi

En betydning → flere betegnelser

Ciprian-Virgil Gerstenberger eller


Ciprian Virgil Gerstenberger ?
demokrati eller folkestyre?
triangel eller trekant?
bestemme eller avgjøre?
sentrum eller centrum?

⇒ synonymi eller redundans?


⇒ navnlikhet eller overflødighet?
Problemanalyse Alfabet og datamaskin Språkteknologi

Flere betydninger ← en betegnelse

Ciprian:
1. Ciprian Gerstenberger
2. Ciprian Porumbescu

triangel:
1. trekant (geometri)
2. musikkinstrument

⇒ polysemi/homonymi eller ambiguitet?


⇒ flertydighet eller tvetydighet?
Problemanalyse Alfabet og datamaskin Språkteknologi

To sider, en relasjon

Avbildning fra A til B

A ⇒ B1, B2, B3
Avbildning fra B til A

A1, A2, A3 ⇐ B
Problemanalyse Alfabet og datamaskin Språkteknologi

Ideelt

A ⇒ B og A ⇐ B

A⇔B
Problemanalyse Alfabet og datamaskin Språkteknologi

Lyd ↔ tegn

Rumensk

⇒ â (România), î (înainte)

Engelsk
y

⇒ /j/ (you), /i/ (heavy)


Problemanalyse Alfabet og datamaskin Språkteknologi

Bruce’s eksempel fra Lulesamisk

Extra-lange konsonanter som er ofte ikke markert

1. maná ⇒ du drar
2. manná ⇒ hun/han drar
3. manná ⇒ hun/han begynner å drar
Problemanalyse Alfabet og datamaskin Språkteknologi

Michaels eksempel om kildinsamiske alfabetvarianter


Problemanalyse Alfabet og datamaskin Språkteknologi

Menneske vs. datamaskin

• mennesker klarer seg i begge situasjoner


• for datamaskiner må alt være klart og tydeligt
• det som er vanskelig for mennesker er enda vanskeligere å
tydeliggjøre for datamaskiner
(Bruce: ‘Skriverregler skal være lærbare!’)

⇒ kunnskap, regler for å tydeliggjøre


Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling

• ASCII (American Standard Code for Information


Interchange)
Problemanalyse Alfabet og datamaskin Språkteknologi

Utvikling
• UTF-8: hvert tegn kodet som tall (utvetydig)
Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Kan man få tegn i tillegg for pitesamisk?


• Ja, men vil man det virklig?

identitet ⇔ brukbarheit
Problemanalyse Alfabet og datamaskin Språkteknologi

Problemer

• Operativsystem (Windows, Mac, Linux, Symbian, Android,


iPhone)
• Aplikasjoner = programmer: Nettleser (Internet Explorer,
Firefox, Safari), Skriveprogram (Word, Emacs, OpenOffice)
• Grafiske programmer har forsjellige elementer: tekstfelt,
labels, etc.
• Skriftkoding og -egenskaper (fonttype, fontstørrelse,
fontfarge, etc.)
Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn i kildinsamisk
Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Safari på Mac


Problemanalyse Alfabet og datamaskin Språkteknologi

Kildinsamisk i nettleseren Google Chrome på Mac


Problemanalyse Alfabet og datamaskin Språkteknologi

Spesialtegn (diacritics)

• Unngå spesialtegn!
• Tenk også på mobiltelefoner: tekstmelding, epost,
ordbøker

⇒ Alternativet: tegnkjede, tegnsekvens!


Problemanalyse Alfabet og datamaskin Språkteknologi

Tegnkjede

Lulesamisk: xxxngxxx, yyyngyyy

⇒ Prisen: tvetydighet!

Tysk: Hoehe, Oede, Poet

⇒ Höhe, Öde, Pöt


Problemanalyse Alfabet og datamaskin Språkteknologi

Tastatur

• utvikling av tastatur med spesialtegn er mulig


• ikke uten problemer på ulike operativsystemer med ulike
programmer

⇒ Alternativet: bruk av tastatur fra majoritetsspråkskrift!


Problemanalyse Alfabet og datamaskin Språkteknologi

Sørsamisk alfabet

• bokstaver vs. tegn vs. tegnkjeder


• blanding av norsk og svensk
• bytte tastaturen hele tida (selv med snarvei er det tungt)
• brukere gjør det ofte ikke
Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!


Problemanalyse Alfabet og datamaskin Språkteknologi

Løsning på datamaskin

⇒ Godta alle varianter, vis det riktige!


Problemanalyse Alfabet og datamaskin Språkteknologi

Spørsmål

• Er representasjoner av tegn virklig utvetydig på


datamaskinen?
• For datamaskin ja, men ikke for mennesker!
Problemanalyse Alfabet og datamaskin Språkteknologi

Bruk av feil tegn to ganger på den samme NRK-sida


Problemanalyse Alfabet og datamaskin Språkteknologi

Vårt arbeid med den kildin-russiske ordboka


Problemanalyse Alfabet og datamaskin Språkteknologi

Data for språkteknologi

• å lage gode programmer krever gode data


• feil på lavt nivå fortsetter på høyere nivåer
• feilsøking og retting krever mye tid og energi
Problemanalyse Alfabet og datamaskin Språkteknologi

Samisk språkteknologi: Giellatekno

• Nordsamisk, Sørsamisk, lulesamisk, kildinsamisk,


skoltesamisk, kvensk, meankeli, etc.
• utvikle ressurser og applikasjoner for alle samiske språk

⇒ språkdata i elektronisk format


Problemanalyse Alfabet og datamaskin Språkteknologi

Språkteknologi

alt som man gjør med og for språk på datamaskin

• språkdokumentasjon
• rettskrivningsverktøy
• elektroniske ordbøker
• språkanalyse
• læreprogrammer
• maskinoversetting

⇒ datamaskin som svært nyttig hjelpemiddel


Problemanalyse Alfabet og datamaskin Språkteknologi

Språkdokumentasjon

• Kildinsamisk

• Pitesamisk
Problemanalyse Alfabet og datamaskin Språkteknologi

Rettskrivningsverktøy: Divvun
Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi

Ordbøker
Problemanalyse Alfabet og datamaskin Språkteknologi

Språkanalyse

• Ordformanalyse (morfologi)

• Ordrekkefølgeanalyse (setningsanalyse, syntaks)


Problemanalyse Alfabet og datamaskin Språkteknologi

Læreprogrammer: Oahpa!
Problemanalyse Alfabet og datamaskin Språkteknologi

Maskinoversetting
Problemanalyse Alfabet og datamaskin Språkteknologi

Konklusjoner

• ingen bra avbildning fra lyd til tegn (perfekt ortografi)


• probleme må analyseres og avgjøres (navnlikhet vs.
overflødighet og flertydighet vs. tvetydighet)
• kompromisser
• datamaskiner er nyttig hjepler men krever mye nye
kunnskaper
• for å lage gode språkapplikasjoner trengs rene data

You might also like