You are on page 1of 13

Lessico, analisi morfologica e robustezza agli errori

Indice

L
Lessico
i ed d analisi
li i morfologica
f l i
Li
Linguistica
i i Computazionale
C i l Lessico generativo
Morfologia a due livelli
Analisi morfologica con FSA e FST
Lezione 3 Alcune applicazioni: lo stemming
strumenti di interrogazione basi dati (esp. regolari, SQL)
Lessico, analisi morfologica
e robustezza agli errori N
Normalizzazione
li i dellinput
d lli
Introduzione alla correzione ortografica
Mercoled 29 Aprile2009 Classificazione errori
Metodologie di correzione automatica
Cristiano Chesi, chesi@media.unisi.it
Cellulari e T9

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 2

Letture, approfondimenti Lessico generativo


(inizio ...) Lessico ed analisi morfologica
perch ogni entrata lessicale non pu essere registrata singolarmente?
Bibliografia essenziale sarebbe inefficiente:
mangi - sogn - corr - puff -
Jurafsky
J f k & Martin
M ti (2000) Speech
S h & Language
L P i (Cap.
Processing. (C 2)
-are/ere mangi-are sogn-are corr-ere puff-are

-o mangi-o sogn-o corr-o puff-o


Approfondimenti
-ato mangi-ato sogn-ato *corr-ato puff-ato
(corso)
Koskenniemi, K. (1983) Two-level morphology: A general computational model
for word-form recognition and production. Helsinki in Turco (lingua agglutinante) ci sarebbero circa 600x106 entrate lessicali da
Miller & al.
al (1993) Introduction to WordNet: An On-line Database ms.
On line Lexical Database. ms considerare. In Finlandese 10
07

Pustejovsky J. (1995) The Generative Lexicon. MIT Press sarebbe non informativo:
nessuna relazione significativa tra entrate lessicali (lunica relazione possibile
sarebbe lordine alfabetico, ma casa e case hanno intuitivamente una relazione
pi intima rispetto a quella tra case e caso)
non esisterebbe nessun indizio per processare in modo particolare ad
esempio un verbo rispetto ad un nome
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 3 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 4

1
Lessico generativo Lessico generativo
(... continua ...) Lessico ed analisi morfologica (... continua ...) Lessico ed analisi morfologica

classicamente un lessico computazionale era concepito in funzione del contesto in cui regole di efficienza computazionale (...continua):
doveva essere usato
lessico mentale - modelli psicologicamente plausibili di relazioni tra unit minime di i lessici computazionali devono essere valutabili almeno su tre scale:
significato
copertura (sia
( i in
i estensione,
i che
h in
i profondit,
f di a livello
li ll di ricchezza
i h
modelli computazionali - usati per creare i database lessicali efficienti.
dellinformazione)
estensibilit (deve poter essere formalmente possibile arricchire il
regole di efficienza computazionale:
vocabolario con termini nuovi)
la rappresentazione lessicale deve essere esplicita ed indipendente dalle applicazioni
che la utilizzeranno utilit (stavolta valutata a livello delle singole
la struttura globale delle entrate lessicali importante almeno quanto la struttura
applicazioni/elaborazioni)
interna delle singole parole: la sua organicit e significativit serve a rappresentare
una complessa base di conoscenza (ontologia) da ricordare:
il lessico deve essere in grado di coprire adeguatamente il suo dominio
la completezza non assicura la correttezza (psicolinguistica e
(approssimativamente 400.000 entrate lessicali di cui 5.000 entrate verbali, 30.000
nominali, 5.000 aggettivali, un migliaio di avverbiali, altrettanti termini logici, 2.000
computazionale)
composti e 300.000 nomi propri + vari termini dominio-specifici)
la plausibilit psicolinguistica non garantisce l efficienza computazionale
e viceversa

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 5 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 6

Lessico generativo Lessico generativo


(... continua ...) Lessici computazionali (... continua ...) Lessici computazionali
Struttura di una singola entrata lessicale: La codifica in XML:

informazioni ortografiche/fonetiche (devono insomma codificare linput nel modo <node cat="S" id="2008-03-01.1">
pi adeguato possibile) <node cat="NP" role="arg.subj">
morfologiche (tratti inerenti,
inerenti quali plurale/singolare,
plurale/singolare massa/contabile
massa/contabile, <word d cat="D.art.def"
"D d f" agree="m.s"
" " lemma="il">il</word>
l "il" il / d
animato/inanimato...) <word cat="N.comm.count" agree="m.s" role="head"
sintattiche (categoria grammaticale ed eventualmente la sottocategoria) lemma="presidente">presidente</word>
semantiche (sia a livello di selezione semantica, che di significato ai fini della <node cat="NP" role=adj.apposition">
traduzione ad esempio) <word cat="NE.per" agree="m.s" role="head"
lemma="Napolitano">Napolitano</word>
CASA: </node>
<C,A,S,A> </node>
{N, singolare, femminile ...} <word cat="ADV.neg">non</word>
{N comune ...}} <node cat="VP" role="head">
[house] <word cat="V.aux.ind.pres" agree="3+s" role="head"
lemma="avere">ha</word>
Es. di codifica in XML dellentrata lessicale casa: <word cat="V.part.past" agree="s.m" role="head"
<word cat=nome" subcat="comune" num="sg" gen="f" sem="c12"> lemma="commentare">commentato</word>
casa </node>
</word> </node>

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 7 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 8

2
Lessico generativo Lessico generativo
(... continua ...) Lessici computazionali (... continua ...) Lessici computazionali
DTD (Document Type Definition): Il lessico estratto dal corpus in formato simple text (Tab-Separated Values, TSV):

<?xml version="1.0" encoding="ISO-8859-1"?> token type/lemma cat agree


<!ELEMENT node (node|word)*>
<!ELEMENT word (#PCDATA)> il il D
D.art.def
d f m.s
<!ATTLIST expression id CDATA #REQUIRED> presidente presidente N.comm.count m.s
<!ATTLIST node id CDATA #IMPLIED>
non non ADV.neg
<!ATTLIST node cat CDATA #REQUIRED> ha avere V.aux.ind.pres 3.s
<!ATTLIST node subcat CDATA #IMPLIED> commentato commentare V.part.past s.m
<!ATTLIST node ref CDATA #IMPLIED>
<!ATTLIST node role CDATA #IMPLIED>
<!ATTLIST node agree CDATA #IMPLIED>
<!ATTLIST node lp CDATA #IMPLIED>

<!ATTLIST word id CDATA #IMPLIED>


<!ATTLIST word cat CDATA #REQUIRED>
<!ATTLIST word subcat CDATA #IMPLIED>
<!ATTLIST word ref CDATA #IMPLIED>
<!ATTLIST word agree CDATA #IMPLIED>
<!ATTLIST word role CDATA #IMPLIED>
<!ATTLIST word lemma CDATA #IMPLIED>
<!ATTLIST word lp CDATA #IMPLIED>
<!ATTLIST word sem CDATA #IMPLIED>

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 9 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 10

Lessico generativo - esempio di struttura globale di un


Lessico generativo lessico: le reti concettuali o semantiche
(... fine) Lessici computazionali (inizio ...) Lessico e analisi morfologica
Wordnet (Miller 90)
Struttura globale del lessico interessante esempio di rete semantica (scopo: organizzare il lessico sulla base del
significato delle parole piuttosto che sulla base della loro ortografia) basata sui
correlare la sottocategorizzazione con la classe semantica (Levin 93 propone una seguenti principi:
vasta serie di classi di alternanza cercando di dimostrare che certi comportamenti
sintattici verbali, quali lassegnazione di ruoli tematici, sono prevedibili sulla base di certe relazioni semantiche tra nomi (gerarchie ad eredit), verbi (implicazioni),
certi tratti semantici minimalmente distintivi, quali la modificazione di stato, la aggettivi e avverbi (opposizioni) ma non tra parole funzionali, sono
causativit, la relazione tra gli elementi in azione ecc.) psicolinguisticamente significative
ogni concetto lessicale (synset) pu essere rappresentato dai suoi sinonimi (altri
trarre immediate inferenze in base allorganizzazione gerarchica degli items (part_of, synset)
member_of) es. di relazioni:
iponimia (relazione tra un concetto generale ed uno pi specifico; ad
p pettirosso
esempio p un iponimo
p di uccello))
iperonimia (relazione inversa alliponimia)
meronimia (parte_di)...
attraverso luso di synset distinti si affronta il problema della polisemia (cane =
animale domestico e cane = parte metallica di una pistola saranno due nodi
distinti di wordnet anche se si scrivono allo stesso modo)

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 11 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 12

3
Lessico generativo - esempio di struttura globale di un
lessico: le reti concettuali o semantiche Analisi morfologica modello teorico
(... fine) Lessico e analisi morfologica Lessico e analisi morfologica

Esempio di relazioni semantiche (Miller 1993)


obiettivo: riconoscere una stringa ben formata di caratteri e metterla in
relazione con la struttura dei morfemi che la compongono; questo compito ci
permette di introdurre tutti i problemi che si presenteranno nel parsing delle
strutture frasali

modello teorico:

forma superficiale # c a s e #

Elaborazione Lessico
forma sottintesa # c a s a + e #

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 13 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 14

Analisi morfologica FSA Analisi morfologica FSA


(inizio ...) Lessico e analisi morfologica (... fine) Lessico e analisi morfologica
un insieme di FSA non solo un insieme di macchine che permettono di
riconoscere o rifiutare un elemento lessicale, ma anche di
Finite-State Automata (FSA) rappresentare lintero lessico.
definiti come quintuple <Q,
<Q , F > dove:
q0, F,
FSA che riconosce la parola casa ed il suo plurale:
Q = insieme finito e non nullo di stati c a s a
q0 q1 q2 q3 q4
= alfabeto finito e non nullo di caratteri accettabili in input e

q0 = stato iniziale, con q0 Q Q = {q0, q1, q2, q3, q4},


q0 q1 q2 q3 q4
= {c,a,s,e,#},
{c a s e #}
F = insieme di stati finali, con F Q Q0={q0}, c q1
F ={q4}, a q2 q4
= insieme delle regole di transizione definite in Qx su Q = s q3
e q4

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 15 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 16 su 49

4
Analisi morfologica FSA e two-level morphology Analisi morfologica FST
Lessico e analisi morfologica (inizio ...) Lessico e analisi morfologica
Limiti degli FSA Finite-State Transducers (FST, o Trasduttori)
per associare una descrizione strutturale ad un elemento riconosciuto come definiti come quintuple <Q, , q0, F, >, dove per sussistono alcune sostanziali
appartenente al lessico, i semplici FSA non sono pi sufficienti (non esiste differenze rispetto agli FSA:
una memoria esterna, se non la memoria implicita data dallo stato in cui si
trova lautoma, in cui conservare il percorso e la struttura esaminata). = alfabeto finito e non nullo di caratteri complessi accettabili in input della
forma i:o dove i sono i simboli dellalfabeto I di input e o simboli dellalfabeto
O di output. IxO. (lelemento nullo) pu essere incluso sia in I che in O
Koskenniemi (83) propone un modello di morfologia a due livelli (two-level
morphology): un livello lessicale ed uno superficiale che devono essere messi in
= definita come (q , i : o) e rappresenta la matrice di transizione che mette in
una qualche relazione significativa dal punto di vista morfologico.
relazione uno stato q di partenza e uno stato q di arrivo se la relazione i : o
definita. quindi una relazione da Q x su Q
Tale modello implementabile utilizzando i Finite-State Transducers (FST, o
T d
Trasduttori)
i) generali degli SFA: questi ultimi descrivono un
i trasduttori hanno funzioni pi
linguaggio formale definendo un insieme di stringhe ben formate, gli FST definiscono
invece relazioni tra insiemi diversi di stringhe.
Koskenniemi, K. (1983) Two-level morphology: A general computational model for
word-form recognition and production. Publication 11, University of Helsinki,
Department of General Linguistics, Helsinki.

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 17 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 18 su 49

Analisi morfologica FST Analisi morfologica esempi di FST


(... fine) Lessico e analisi morfologica (inizio ...) Lessico e analisi morfologica

problema di morfologia flessiva: definire un FST che descriva il fenomeno dei


plurali in italiano.
In particolare gli FST possono essere usati come riconoscitori, generatori, traduttori,
correlatori tra insiemi.
insiemi rappresentazione
i del
d l problema
bl
esempi: casa > case; donna > donne; gatto> gatti; ago > aghi; sacco >
alcune propriet di cui gli FST godono sono: sacchi ...

linversione, definita come T-1, scambia le etichette di input con quelle di intuizioni e generalizzazioni
output i nomi femminili prendono il plurale in e, i maschili in i. c e g
diventano rispettivamente ch e gh al plurale.
la composizione, se T1 mappa I1 su O1 e T2 un trasduttore da I2 ad O2, T1
T2 mappa
appa I1 in O2. formalizzazione
caso regolare: nome maschile > @:@ c|g|@:ch|gh|@ o:i
nome femminile > @:@ c|g|@:ch|gh|@ a:e
caso irregolare: uomo > @:@ o:i #:n #:i

implementazione
nome femminile > @:@ c|g|@:ch|gh|@ e:a #: #:+N #:+PL
es. case > casa +N +PL (c:c a:a s:s e:a #: #:+N #:+PL)
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 19 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 20 su 49

5
Analisi morfologica esempi di FST Analisi morfologica (in)adeguatezza di FSA e FST
(... fine) Lessico e analisi morfologica (inizio ...) Lessico e analisi morfologica

FST (approssimativo) per descrivere i plurali regolari in italiano: certe lingue mostrano fenomeni pi problematici di quelli appena descritti.
Tali fenomeni sono detti di morfologia non-concatenativa
@:@
Tagalog (un dialetto parlato nelle Filippine), infissi nel mezzo della
parola:
ch:c e:a #: :+N um (marca lagente dellazione) + hingi (prestare) =
q0 q1 q2 q3 q4 q5 h-um-ingi
:+PL
gh:g i:o Lingue semitiche, morfologia a modelli (templatic morphology):
radici verbali composte da consonanti (CCC) lmd (apprendere) +
fl i i iin schemi
flessioni h i vocalici
li i (CVCVC) =
@:@ amad (studi)
la
umad (fu insegnato)
lu

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 21 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 22 su 49

Analisi morfologica (in)adeguatezza di FSA e FST Analisi morfologica Alcune applicazioni


(... fine) Lessico e analisi morfologica (inizio ...) Lessico e analisi morfologica

Ricerca di informazioni
(web, archivio digitale strutturato e non)
Problemi incontrati:
Keywords combinate con operatori booleani
non-determinismo (due o pi percorsi possono essere innescati dallo stesso (alberghi & Firenze)
carattere allo stato q; transizioni )
Stemming
inadeguatezza del modello per trattare fenomeni morfologici complessi si cerca di ricavare la radice (stem) delle parole da cercare in modo da
effettuare ricerche pi complete e tolleranti
ordine di applicazione degli FSA (o delle regole a seconda dei punti di (es. da alberghi & Firenze si pu generare una query (alberghi AND
vista) Firenze) OR (albergo AND Firenze) ).

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 23 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 24 su 49

6
Analisi morfologica Alcune applicazioni Analisi morfologica Plausibilit psicolinguistica
(... fine) Lessico e analisi morfologica (inizio ...) Lessico e analisi morfologica

Lalgoritmo di Porter Stemming


(Porter dal nome del suo ideatore) Come strutturato il lessico mentale?

semplice serie di FST a cascata per linglese del tipo:


full listing hypothesis - correre, corre e ha corso, sono entrate distinte nel lessico
ATIONAL -> ATE (es. relational -> relate) mentale (nessuna struttura morfologica interna)
ING -> (talking -> talk)
minimum redundancy - solo i morfemi costituenti sono compresi nel lessico
pro e contro: umano; quando si ha accesso ad una parola come corre in realt si ha accesso a due
ipergeneralizzazione (Krovetz 93) morfemi (corr- radice ed -e terza persona sing. presente) che poi vengono combinati
es. organization > organ, generalization > generic, tra di loro
non cattura generalizzazioni corrette:
matrices
i > matrix
i o European > Europe.
vantaggio nelluso dello stemming solo quando la ricerca espansiva

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 25 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 26 su 49

Analisi morfologica Plausibilit psicolinguistica La correzione ortografica


(... fine) Lessico e analisi morfologica Normalizzazione dellinput

Evidenze sulla struttura del lessico mentale

Effetti di priming (Stanners ad al. 79)


flessioni irregolari: happiness, happily no priming con la radice happy Vs.
flessioni regolari pouring > pour

Affinit semantica (Marslen-Wilson 94)


government > govern

Errori di pronuncia (Fromkin e Ratner 98)


*easy enoughly invece di easily enough

Questo sembra suggerire che il lessico mentale debba contenere alcune informazioni
sulla struttura morfologica delle parole rappresentate.

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 27 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 28

7
La correzione ortografica Classificazione errori
Normalizzazione dellinput (inizio ...) Normalizzazione dellinput

correzione ortografica diversa dal controllo ortografico: mentre il controllo pu


limitarsi semplicemente ad accettare/rifiutare una stringa di testo, la correzione deve allidentificazione degli errori tipici segue solitamente una categorizzazione su
proporre una forma corretta in alternativa. quattro livelli:
Esempio di approccio ingegneristico:
lessicale
1. definizione precisa del problema
sintattico
1. raccolta dati rilevanti
semantico
1. classificazione degli errori
pragmatico
2 ricerca
2. i di soluzioni
l i i adeguate
d t ed
d efficienti
ffi i ti
(relativamente alle classi di errori)
Va ricordato che ogni errore pu essere riconosciuto come tale sia perch un
vero errore (malformatezza assoluta), sia perch il sistema non in grado di
trattare, per la limitatezza delle risorse linguistiche utilizzate, la forma che in
realt sarebbe corretta (malformatezza relativa)

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 29 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 30

Classificazione errori Classificazione errori


(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

malformatezze sintattiche
malformatezze lessicali
Relative
Relative inadeguatezza della teoria sintattica implementata (poche regole >
ipergeneralizzazione; troppe regole > inconsistenza, esclusione di
parole non presenti nel lessico del sistema strutture in realt corrette)
forme colloquiali o dialettali (espressioni idiomatiche, indicativo al posto
del congiuntivo)
Assolute pronomi di ripresa (pro-sintagmi ripetuti impropriamente)

tipografiche (omissioni, sostituzioni, inserzioni involontarie di Assolute


lettere) p
pronome sbagliato
g ((es. me sono andato))
mancanza di accordo tra:
cognitive (errata credenza sull'ortografia della parola) soggetto - verbo (es. Loro andati...)
modi - tempi (es. Voglio vado; vorrei andato)
determinanti - nomi (es. Lo casa)
fonetiche (errata credenza sull'ortografia della parola in base alla aggettivi - nomi (es. Il mare verdi)
sua pronuncia) omissioni di argomenti obbligatori (es. ho messo sul tavolo _ )

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 31 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 32

8
Classificazione errori Classificazione errori
(... continua ...) Normalizzazione dellinput (... fine) Normalizzazione dellinput

malformatezze semantiche usi figurativi

Relative
relazione non presente (relazioni tra gli oggetti non disponibili nella base metafora (es. con un filo di voce per con voce flebile)
di conoscenze del sistema) metonimia (es. quel ferro vecchio va rottamato per quella macchina)
violazione delle restrizioni di selezione (uso di espressioni che violano le sineddoche (es. il mondo ci nemico per si percepisce una certa ostilit)
restrizioni della base di conoscenze del sistema) antonomasia (es. il divino poeta per Dante)
sinonimia (mancanza del collegamento semantico tra due sinonimi) perifrasi (es. quel coso per asciugare i capelli per asciugacapelli)
polisemia (significati alternativi non presi in considerazione dal lessico di eufemismo (es. passare a miglior vita per morire)
macchina)
litote (es. non certo un'aquila per non molto intelligente)
iperbole (es.
(es l'ho
l ho detto mille volte
volte per l'ho
l ho gi detto molte volte)
volte )
Assolute
idioma (es. il dado tratto per ormai la decisione stata presa)
violazione delle restrizioni di selezione (es. il telescopio nuot)
logica spaziale (es. vieni l)
logica temporale (es. domani sono andato a ballare)

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 33 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 34

Metodologie di correzione automatica Metodologie di correzione automatica


(inizio ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

Distanza minima
Le varie tecniche che permettono di gestire le malformatezze si basano
principalmente su un sistema di pattern matching con le forme archiviate nel Il sistema inventato da Damerau (Damerau 64) e perfezionato da Wagner (Wagner
lessico di cui dispone il sistema e su una serie di euristiche per decidere le 74)) tratta l'errore come una forma che si differenzia da q
quella corretta p
per un
correzioni possibili alle forme errate numero minimo di operazioni di inserimento, cancellazione, sostituzione e
scambio di caratteri.
metodi simbolici
(buona rappresentazione del problema) Il metodo consiste nel calcolare attraverso una funzione diversa da sistema a
sistema, la minima distanza di correzione tra le stringhe ortograficamente scorrette e
metodi subsimbolici le parole presenti nel vocabolario. Se questa distanza considerata accettabile il
(rappresentazione del problema insufficiente) vocabolo considerato come possibile correzione della forma non standard.

Il grave difetto di questo approccio llinefficienza:


inefficienza: lelaborazione
l elaborazione richiede un
numero n di confronti, con n uguale al numero delle parole del vocabolario.

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 35 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 36

9
Metodologie di correzione automatica Metodologie di correzione automatica
(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

Chiave di somiglianza migliorata


Chiave di somiglianza (algoritmo SOUNDEX, Odell e Russel 1918, correzione di (Pollock e Zamorra, SPEEDCOP, 84)
errori fonetici, migliorato ed esteso da Davidson 1962)
migliorano il metodo della chiave di somiglianza attribuendo due tipi di chiavi ad
ogni parola del vocabolario,
vocabolario basandosi sulle seguenti osservazioni riguardo alla
Questa tecnica associa ad ogni stringa una chiave costruita in modo che tutte le distribuzione degli errori:
parole scritte o pronunciate in un modo simile abbiano una chiave uguale o molto
somigliante. 1. l'ordine delle vocali spesso mantenuto invariato
2. raramente viene sbagliata la prima lettera, statisticamente gli errori si situano
Confrontando, non le parole, ma solo le chiavi si ottengono le candidate alla verso la fine della parola
correzione della parola scorretta.
skeleton key = prima lettera della parola + consonanti nell'ordine in cui si
chiave = prima lettera della parola + sequenza di numeri associati secondo certe presentano nella parola senza ripetizioni + vocali (sempre nell'ordine e sempre
p ) ((es. ggambero = ggmbraeo);
senza ripetizioni) );
regole e statistiche di frequenza
Gli zero e i numeri ripetuti vengono eliminati
omission key = consonanti, senza ripetizione in un ordine di frequenza
Esempio: (determinato staticamente) e poi dalle vocali, senza ripetizioni, nell'ordine in
vocali b, f, p, v altre consonanti
cui si presentano nella parola.
0 1 2
casa = c020 > c2; csa = c20 > c2 Gestiti il 94% degli errori singoli e tra il 74% e l'88% degli errori complessivi
presenti nel testo
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 37 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 38

Metodologie di correzione automatica Metodologie di correzione automatica


(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput
N-grammi (Kohonen 80; DeHer 82; Angell et al. 83; DeSmedt e VanBerkel 88)
Regole
parola = insieme di sottostringhe (n-grammi) che si sovrappongono
g
La tecnica basata su regole utilizza algoritmi
g ed euristiche p
per rappresentare
pp la
conoscenza necessaria per determinare quali sono le regole che il termine sbagliato esempio:
ha violato e le correzioni necessarie per correggerlo (es. restrizioni fonotattiche +
casa = #c + ca + as + sa + a# (bi-grammi)
informazioni sullordine delle lettere sulla tastiera).
strumento = #st str tru rum ume men ent nto to# (tri-grammi)

Una volta applicate tutte le regole a disposizione, i risultati vengono presentati


all'utente secondo una stima di probabilit. vocabolario = tabella di n-grammi indicizzati; ogni indice rinvia ad un
determinato termine nel vocabolario di macchina.
L'insieme dei rinvii determina il campo d'attivazione delle parole e seleziona le
Il sistema realizzato da Yannakoudakis e Fawthrop (83) permette una precisione
possibili correzioni.
intorno al 76% di errori rilevati
rilevati. Means (Means 88) affina la tecnica inserendo nel ti
trigrammi i
suo correttore oltre alle regole della morfologia inglese altre regole di abbreviazione casa #ca
e flessione non standard migliorando in parte i risultati del primo prototipo.
cas
asa
castello sa#
...
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 39 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 40 su 49

10
Metodologie di correzione automatica Metodologie di correzione automatica
(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

N-grammi - la procedura di correzione degli errori Analisi probabilistica

1. ogni parola non corretta viene scomposta nei suoi n-grammi utilizzato per migliorare le prestazioni del precedente metodo con n-grammi.
2. tali n-grammi vengono utilizzati come indici nella tabella per individuare le
possibili parole candidate alla correzione due indici che vengono solitamente assegnati alle possibili parole di
3. i vocaboli candidati alla correzione saranno tutti quelli che presentano un correzione:
livello soglia di n-grammi in comune con il termine sbagliato. probabilit di transizione (la probabilit che ha una determinata
lettera di seguire una sequenza di caratteri)
Un esempio d'implementazione di questo metodo il programma ACUTE probabilit di confusione (stima della probabilit di sostituzione tra
realizzato da Angell e al. (83). Il sistema utilizza una tabella a tri-grammi una lettera e l'altra)

D
DeSmedt
S d e VanBerkel
V B k l (88) propongono una di diversa analisi
li i chiamata
hi I primi
i i studi
di fatti
f i hanno
h evidenziato
id i come questa solal tecnica
i non sia
i
triphone analysis che permette di correggere errori nel riconoscimento del sufficiente per ottenere risultati soddisfacenti. Kashyap e Oommen (84)
parlato. hanno utilizzato questo metodo probabilistico per correggere parole con
meno di sei caratteri (svantaggiate dal precedente approccio per n-grammi).
Le prestazioni di questo sistema variano a seconda dei vocabolari utilizzati e Church e Gale (91) propongono con il loro sistema, CORRECT, un
nessun test standardizzato ha paragonato questo approccio agli altri approccio ancora pi complesso utilizzando quattro matrici di confusione
presentati. contenenti 44 milioni di parole errate tratte da vari testi.

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 41 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 42

Metodologie di correzione automatica Metodologie di correzione automatica


(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

Reti neurali
Espressioni dipendenti dal contesto
L'applicazione delle reti neurali a questo campo cerca di sfruttare la
versatilit che caratterizza questi sistemi per approssimare funzioni euristiche Vari autori (Thompson 80, Eastman e McLean 81; Young 91) hanno messo
implicite: vista lintrinseca difficolt nel definire regole di violazione, si in evidenza che gli errori prodotti, dipendenti dal contesto, sono tra il 25% e
cerca di far apprendere alla rete ad associare forme errate con forme presenti il 50% degli errori totali, e di questi circa il 75% di ordine sintattico.
nel lessico attraverso cicli di addestramento in cui si mostrano associazioni
cognitivamente plausibili.
Esistono due principali tipi di approccio:
Rumelhart, Burr, Matan (Rumelhart 86; Burr 87; Matan 92) hanno adottato
questo approccio in sistemi di correzione che, secondo una stima di Kukich simbolico necessita di un robusto parser e degli analizzatori
(Kukich 92), possono raggiungere una capacit di correzione che si aggira morfologici e sintattici (richiede una solida teoria linguistica e una
intorno al 75% dei termini errati.
errati efficiente implementazione software)

lefficacia dellapproccio strettamente dipendente dal tipo di input che si probabilistico utilizza delle tabelle di probabilit per determinare le
sceglie di dare in pasto alla rete (stringhe di caratteri semplici, n-grammi, sequenze di termini consentite (richiede una mole consistente di dati)
sequenze fonetiche); il problema di una correzione efficiente viene perci
semplicemente spostato, ma non risolto e una riflessione simbolica sulla
natura del problema sembra sempre comunque fondamentale per il
trattamento del problema.
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 43 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 44

11
Metodologie di correzione automatica Metodologie di correzione automatica
(... continua ...) Normalizzazione dellinput (... continua ...) Normalizzazione dellinput

Espressioni dipendenti dal contesto (Microsoft Word XP) Espressioni dipendenti dal contesto (Microsoft Word XP)

Regole grammaticali: Regole grammaticali:


Punteggiatura
P t i t (d
(dopo aver mangiato,
i t d decise
i di lasciare
l i la
l tavola)
t l ) ...
Maiuscole (le scarpe di paola sono molto costose) Articoli (Il yogurt un alimento molto indicato per i bambini)
Genere-Numero (Franco ha comprato dei pantaloni nuove) Elementi della frase (segnala un insieme di errori commessi con una
Concordanza Soggetto-Verbo (Il cane e il gatto ha mangiato i resti del certa frequenza e che coinvolgono diversi elementi della frase. Esempi
pranzo; Io speriamo di vincere un premio. Gli scolari sono uscito alcuni di errori rilevati:
minuti prima del solito) La torre di Pisa tanto alta come bella.
Frasi (segnala i pi comuni errori relativi alla frase e alla sua ma anche: ho mangiato tanto cioccolato come quando ero bambino >
costruzione. Esempi di errori rilevati: La donna disse sarebbe andata in sostituire come con quanto)
citt)) Preposizioni (segnala lesattezza nelluso delle preposizioni insieme
Verbi (segnala gli errori relativi all'uso di un verbo con l'ausiliare con sostantivi, aggettivi, pronomi, verbi ed avverbi, e segnala alcune tra
sbagliato; Laereo ha arrivato con parecchi minuti di ritardo sullorario le pi comuni forme del parlato che sono errate nei testi scritti. Esempi
previsto. Io ho potuto partire per la Francia grazie allaiuto di mio di errori rilevati: Il nonno si addormentato come al solito. La nuova
padre) macchina stampa 100 copie allora. Con domani inizieremo la
costruzione della seconda ala delledificio
Aggettivi (segnala gli usi impropri degli aggettivi. Esempi di errori
rilevati: lavoro molto poco in primavera; corregge in pochissimo)
...
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 45 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 46

Metodologie di correzione automatica Vincoli sull'input: cellulari e T9


(... fine) Normalizzazione dellinput (inizio ...) Normalizzazione dellinput

Input nei dispositivi mobili: la scrittura degli SMS


Espressioni dipendenti dal contesto (Microsoft Word XP)
1. definizione precisa del problema
Regole di stile: composizione il pi veloce possibile dei messaggi di testo tenendo conto dei
Espressioni da evitare / parole ridondanti (Ed per questo che vincoli della tastiera
abbiamo deciso di modificare i piani di produzione, Per potere avere
una promozione, bisogna meritarsela. Quella maionese lievemente 1. raccolta dati
acidula. Le domande devono essere presentate entro e non oltre le ore esempi di messaggi, parole utilizzate, struttura delle parole
17 del 12 ottobre)
Leggibilit (larciere non sapeva scegliere fra frecce rosse e frecce verdi.
1. classificazione
Il treno arriv a Ascoli con due ore di ritardo. Il di lui cane molto
problemi probabilistici, semplicemente combinatori, morfologici
affettuoso)
Termini ripetuti (La casa vicina al ponte pi bella della casa di tuo
padre. Per eliminare un problema, abbiamo eliminato anche molte cose 2. ricerca di soluzioni adeguate ed efficienti
utili) modelli di selezione per numero minimo di pressioni, modelli probabilistici
Uso errato (Questi ragazzi hanno un gran spirito diniziativa. Abbiamo
deciso di comprarlo sia lui che io. Malgrado tutto, siete riusciti ad
arrivare in tempo a scuola)

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 47 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 48

12
Vincoli sull'input: cellulari e T9 Vincoli sull'input: cellulari e T9
(... continua ...) Normalizzazione dellinput (... fine) Normalizzazione dellinput

abc abc pqrs abc


T9 2 2 7 2
Vincoli della tastiera e metodi
di composizione
i i di SMS Risorse linguistiche necessarie per il T9
(Silfverberg e al. 1999)
Vocabolario
Indici di frequenza (es. premendo 6-6 in inglese ON viene selezionata prima
di NO sulla base di osservazioni statistiche basate su corpora, in questo caso
Alcune soluzioni possibili: il British National Corpus, si calcola che il lavoro di disambiguazione non
superi il 5% delle produzioni)

C A S A tot Risorse non linguistiche per valutare i modelli


Legge di Fitts (modello quantitativo di valutazione dei movimenti rapidi diretti
Multi-press 2-2-2 2 7-7-7-7 2 8 ad un fine)

two-key 2-3 2-1 7-4 2-1 8 Risultati (in Words Per Minutes, wpm)
Multi-press: 25-27 wpm
T9 2 2 7 2 4 Two-key: 22-25 wpm
T9: 41-46 wpm
Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 49 su 49 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi Slide 50 su 49

Concetti fondamentali della lezione di oggi Prossima lezione


(Mercoled, 5 Dicembre, ore 16-19, Aula Informatica 329, III piano S. Niccol)
Riassunto

Cos un Lessico Computazionale e da cosa composto Laboratorio!


struttura globale (wordnet)
struttura delle singole entrate lessicali (codifica tratti morfo-sintattici) Childes
hild
esplorazione struttura del corpus
Come si fa analisi morfologica uso di espressioni regolari per estrarre informazioni linguistiche
Morfologia a due livelli e FST
Alcune applicazioni (stemming, espressioni regolari per interrogare Costruzione Corpus
corpora) trascrizione
taggatura
La normalizzazione dellinput
cosa sono gli errori, come si classificano e si gestiscono
la tecnica del reverse engineering per capire come funziona un sistema
non noto (black-box) variando in modo selettivo linput e osservando
loutput

Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 51 Lezione 3 - Lessico, analisi morfologica e robustezza agli errori Ling. Comp. A.A.2008/09 - C. Chesi 52

13