Professional Documents
Culture Documents
Institut Universitari de
Lingüística Aplicada
Jorge Vivaldi
jorge.vivaldi@upf.edu
Outline
Corpus: definition
• A corpus is a collection of naturally-occurring
language text, chosen to characterize a state of
variety of a language. John Sinclair (1991: 171)
• Additional characteristics :
– Organised set of texts,
– Saved in electronic support,
– accessibility.
I. Corpus
Corpus types
•Generals versus specialised
•Monolingual versus multilingual
•Linguistic information
•Written language versus oral language
•Monitor versus reference
•Mark-up language
•Metadata
II. IULA’s LSP Corpus
Design decisions
• Domain: LSP
• Multilingual
• Linguistically processed
• Corpus Type: contemporaneous written language
• Annotation: according standard CES
• Flexible: apt for multiple uses
• Representativity
• Other:
– Limited mark-up
– Keep text and data in a single file
II. IULA’s LSP Corpus
Documents processing
Input text
text handling
segmentation/tokenization abbreviations
numbers dates
NE recognition unanalyzable
morphological analyzer
Textual DB CWB
disambiguation
II. IULA’s LSP Corpus
Text sample
Original text
DRET DE LA NAVEGACIÓ
ESTATUT JURÍDIC DEL VAIXELL I DE L'AERONAU
Concepte i naturalesa jurídica
En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció destinada a la
navegació marítima o fluvial. A aquesta idea atenen també, en general, els ordenaments
positius moderns en determinar, amb major o menor amplitud, la noció jurídica del vaixell.
En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956,
transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre
Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també en
aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest
Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó
també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o
que pugui destinar-se a serveis de la indústria o comerç marítim o fluvial".
II. IULA’s LSP Corpus
Text sample
Text with structure data
<div1 n=6 complete=n>
<head type=main>DRET DE LA NAVEGACIÓ;</head>
<div2 n=72>
<head type=main>ESTATUT JURÍ;DIC DEL VAIXELL I DE L'AERONAU</head>
<div3 n=1>
<head type=main rend=il>Concepte i naturalesa jurídica</head>
<p><s>En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció; destinada a
la navegació marítima o fluvial.</s><s>A aquesta idea atenen també;, en general, els
ordenaments positius moderns en determinar, amb major o menor amplitud, la noció
jurídica del vaixell.</s></p>
<p><s>En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de
1956, transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre
Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també; en
aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest
Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó
també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o
que pugui destinar se a serveis de la indústria o comerç marítim o fluvial".</s></p>
II. IULA’s LSP Corpus
Text sample
Text including text handling
Text sample
Text with morphological analysis
## TAG <s>
20 TOK En BOS en\P|en\AMS|pr\REE7---
21 TOK sentit sentir\HMS|sentit\N5-MS
22 TOK tècnic tècnic\JQ--MS|tècnic\N5-MS
23 TOK parlem parlar\V7R1P-
24 TOK de de\P
25 TOK vaixell vaixell\N5-MS
26 TOK per per\P
27 TOK referir referir\VI----
##- DLI - =\DELIM
28 PGR nos pr\REE616P
29 TOK a a\P
30 TOK qualsevol qualsevol\EN--6S|qualsevol\N5-6S
31 TOK construcció construcció\N5-FS
32 TOK destinada destinar\VC--SF
33 TOK a a\P
34 TOK la el\AFS|pr\REEC3FS
II. IULA’s LSP Corpus
Text sample
Desambiguated text
## TAG <s>
20 TOK En BOS en\P
21 TOK sentit sentit\N5-MS
22 TOK tècnic tècnic\JQ--MS
23 TOK parlem parlar\V7R1P-
24 TOK de de\P
25 TOK vaixell vaixell\N5-MS
26 TOK per per\P
27 TOK referir referir\VI----
##- DLI - =\DELIM
28 PGR nos pr\REE616P
29 TOK a a\P
30 TOK qualsevol qualsevol\EN--6S
31 TOK construcció construcció\N5-FS
32 TOK destinada destinar\VC--SF
33 TOK a a\P
34 TOK la el\AFS
II. IULA’s LSP Corpus
Text sample
CES format
<div1 n=6 complete=n>
<head type=main><w pos="N5_MS" lema="dret">DRET</w>
<w pos="P" lema="de">de</w><w pos="AFS" lema="el">la</w>
<w pos="N5_FS" lema="navegació">NAVEGACIÓ</w></head>
<div2 n=72>
<head type=main><w pos="N5_MS" lema="estatut">ESTATUT</w>
<w pos="JQ__MS" lema="jurídic">JURÍDIC</w>
<w pos="P" lema="de">de</w><w pos="AMS" lema="el" ta='@'>l</w>
<w pos="N5_MS" lema="vaixell">VAIXELL</w>
<w pos="C" lema="i">i</w><w pos="P" lema="de">de</w>
<w pos="A6S" lema="el">L</w><w pos="N5_FS" lema="aeronau“ ta="'">AERONAU</w>
</head>
<div3 n=1>
<head type=main><w pos="AMS" lema="el">el</w>
<w pos="N5_MS" lema="vaixell">VAIXELL</w></head>
<div4 n=1.107>
<head type=main><w pos="N5_MS" lema="concepte">Concepte</w>
<w pos="C" lema="i">i</w><w pos="N5_FS" lema="naturalesa">naturalesa</w>…
II. IULA’s LSP Corpus
Disambiguation results
• Tool: TreeTagger
• Error rate: 1,20 %
• Training data
– Training: 500K tokens
– Test: 100K tokens
• Demo page:
– http://brangaene.upf.es/plncorpus/index3_en.htm
– IULA main page Corpus&Tools
II. IULA’s LSP Corpus
Current status
• LSP Module:
Domain Tokens
• Law 1.685.000
• Economics 1.777.000
• Environment 1.506.000
• Computer science 655.000
• Medicine 2.625.000
(Genomics 950.000)
TOTAL 8.248.000
Corpus browsing
• Tool for browsing IULA’s LSP corpus
through via Internet: bwanaNet
– http://kurwenal.upf.edu/bwananet/
– IULA main page
III. Corpus browser
bwanaNet
IV. Term extraction
General Architecture
Input text
Lexical resources
Linguistic processing Dictionaries
EuroWordNet
Candidates selection
Corpus
Sorted list of
terms candidates
IV. Term extraction
Results
Future
• Corpus development • Corpus browser
– Corpus acquisition tool – Better subcorpus selection
– Processing tools – Speed up consultation
improvement – Statistical data
– Stand-off markup
– Syntactical analysis
• Term extraction
– Combine EWN with other resources
– To reach some domain independence
– To allow the user to evaluate the term extraction
– To integrate other analysis/combination methods