You are on page 1of 20

Universitat Pompeu Fabra

Institut Universitari de
Lingüística Aplicada

Resources and tools for Catalan

Jorge Vivaldi
jorge.vivaldi@upf.edu
Outline

I. Corpus: definition and types


II. IULA’s LSP Corpus
III. Corpus browser: bwanaNet
IV.Corpus based development: term extraction
V. Future
I. Corpus

Corpus: definition
• A corpus is a collection of naturally-occurring
language text, chosen to characterize a state of
variety of a language. John Sinclair (1991: 171)
• Additional characteristics :
– Organised set of texts,
– Saved in electronic support,
– accessibility.
I. Corpus

Corpus types
•Generals versus specialised
•Monolingual versus multilingual
•Linguistic information
•Written language versus oral language
•Monitor versus reference
•Mark-up language
•Metadata
II. IULA’s LSP Corpus

Design decisions
• Domain: LSP
• Multilingual
• Linguistically processed
• Corpus Type: contemporaneous written language
• Annotation: according standard CES
• Flexible: apt for multiple uses
• Representativity
• Other:
– Limited mark-up
– Keep text and data in a single file
II. IULA’s LSP Corpus

Documents processing
Input text
text handling

segmentation/tokenization abbreviations

numbers dates

NE recognition unanalyzable

morphological analyzer
Textual DB CWB
disambiguation
II. IULA’s LSP Corpus

Text sample
Original text
DRET DE LA NAVEGACIÓ
ESTATUT JURÍDIC DEL VAIXELL I DE L'AERONAU
Concepte i naturalesa jurídica
En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció destinada a la
navegació marítima o fluvial. A aquesta idea atenen també, en general, els ordenaments
positius moderns en determinar, amb major o menor amplitud, la noció jurídica del vaixell.
En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de 1956,
transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre
Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també en
aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest
Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó
també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o
que pugui destinar-se a serveis de la indústria o comerç marítim o fluvial".
II. IULA’s LSP Corpus

Text sample
Text with structure data
<div1 n=6 complete=n>
<head type=main>DRET DE LA NAVEGACIÓ;</head>
<div2 n=72>
<head type=main>ESTATUT JURÍ;DIC DEL VAIXELL I DE L'AERONAU</head>
<div3 n=1>
<head type=main rend=il>Concepte i naturalesa jurídica</head>
<p><s>En sentit tècnic parlem de vaixell per referir nos a qualsevol construcció; destinada a
la navegació marítima o fluvial.</s><s>A aquesta idea atenen també;, en general, els
ordenaments positius moderns en determinar, amb major o menor amplitud, la noció
jurídica del vaixell.</s></p>
<p><s>En el nostre ordenament legal, l'article 146 del Reglament del Registre Mercantil de
1956, transitòriament vigent (veg. disposició transitòria sisena del Reglament del Registre
Mercantil de 29 de desembre de 1989), suplint la llacuna del Codi, estableix, també; en
aquest sentit, que "es reputaran vaixells, per als efectes del Codi de comerç i d'aquest
Reglament, no només les embarcacions destinades a la navegació de cabotatge i altura, sinó
també els dics flotants, pontons, dragues, gànguils i qualsevol altre aparell flotant destinat o
que pugui destinar se a serveis de la indústria o comerç marítim o fluvial".</s></p>
II. IULA’s LSP Corpus

Text sample
Text including text handling

<div1 n=6 complete=n>


<head type=main>DRET DE LA NAVEGACI&Oacute;</head>
<div2 n=72>
<head type=main>ESTATUT JUR&Iacute;DIC DEL VAIXELL I DE L'AERONAU </head>
<div3 n=1>
<head type=main>EL VAIXELL</head>
<div4 n=1.107>
<head type=main>Concepte i naturalesa jur&iacute;dica</head>
<p><s>En sentit t&egrave;cnic parlem de vaixell per referir-nos a qualsevol
construcci&oacute; destinada a la navegaci&oacute; mar&iacute;tima o fluvial.</s><s>A
aquesta idea atenen tamb&eacute;, <loc pos='D'>en general</loc>, els ordenaments positius
moderns en determinar, amb major o menor amplitud, la noci&oacute; jur&iacute;dica del
vaixell.</s></p>
<p><s>En el nostre ordenament legal, l'article <num pos='X'>146</num> del <name>
Reglament del Registre Mercantil</name> de <num pos='X'>1956</num>,
transit&ograve;riament vigent (<abbr>veg.</abbr> disposici&oacute; transit&ograve;ria
sisena del <name>Reglament del Registre Mercantil</name> de …
II. IULA’s LSP Corpus

Text sample
Text with morphological analysis
## TAG <s>
20 TOK En BOS en\P|en\AMS|pr\REE7---
21 TOK sentit sentir\HMS|sentit\N5-MS
22 TOK t&egrave;cnic t&egrave;cnic\JQ--MS|t&egrave;cnic\N5-MS
23 TOK parlem parlar\V7R1P-
24 TOK de de\P
25 TOK vaixell vaixell\N5-MS
26 TOK per per\P
27 TOK referir referir\VI----
##- DLI - =\DELIM
28 PGR nos pr\REE616P
29 TOK a a\P
30 TOK qualsevol qualsevol\EN--6S|qualsevol\N5-6S
31 TOK construcci&oacute; construcci&oacute;\N5-FS
32 TOK destinada destinar\VC--SF
33 TOK a a\P
34 TOK la el\AFS|pr\REEC3FS
II. IULA’s LSP Corpus

Text sample
Desambiguated text
## TAG <s>
20 TOK En BOS en\P
21 TOK sentit sentit\N5-MS
22 TOK t&egrave;cnic t&egrave;cnic\JQ--MS
23 TOK parlem parlar\V7R1P-
24 TOK de de\P
25 TOK vaixell vaixell\N5-MS
26 TOK per per\P
27 TOK referir referir\VI----
##- DLI - =\DELIM
28 PGR nos pr\REE616P
29 TOK a a\P
30 TOK qualsevol qualsevol\EN--6S
31 TOK construcci&oacute; construcci&oacute;\N5-FS
32 TOK destinada destinar\VC--SF
33 TOK a a\P
34 TOK la el\AFS
II. IULA’s LSP Corpus

Text sample
CES format
<div1 n=6 complete=n>
<head type=main><w pos="N5_MS" lema="dret">DRET</w>
<w pos="P" lema="de">de</w><w pos="AFS" lema="el">la</w>
<w pos="N5_FS" lema="navegació">NAVEGACIÓ</w></head>
<div2 n=72>
<head type=main><w pos="N5_MS" lema="estatut">ESTATUT</w>
<w pos="JQ__MS" lema="jurídic">JURÍDIC</w>
<w pos="P" lema="de">de</w><w pos="AMS" lema="el" ta='@'>l</w>
<w pos="N5_MS" lema="vaixell">VAIXELL</w>
<w pos="C" lema="i">i</w><w pos="P" lema="de">de</w>
<w pos="A6S" lema="el">L</w><w pos="N5_FS" lema="aeronau“ ta="'">AERONAU</w>
</head>
<div3 n=1>
<head type=main><w pos="AMS" lema="el">el</w>
<w pos="N5_MS" lema="vaixell">VAIXELL</w></head>
<div4 n=1.107>
<head type=main><w pos="N5_MS" lema="concepte">Concepte</w>
<w pos="C" lema="i">i</w><w pos="N5_FS" lema="naturalesa">naturalesa</w>…
II. IULA’s LSP Corpus

Disambiguation results
• Tool: TreeTagger
• Error rate: 1,20 %
• Training data
– Training: 500K tokens
– Test: 100K tokens
• Demo page:
– http://brangaene.upf.es/plncorpus/index3_en.htm
– IULA main page  Corpus&Tools
II. IULA’s LSP Corpus

Current status
• LSP Module:
Domain Tokens

• Law 1.685.000
• Economics 1.777.000
• Environment 1.506.000
• Computer science 655.000
• Medicine 2.625.000
(Genomics 950.000)

TOTAL 8.248.000

• General language module (newspapers):


TOTAL 30.417.000
III. Corpus browser

Corpus browsing
• Tool for browsing IULA’s LSP corpus
through via Internet: bwanaNet
– http://kurwenal.upf.edu/bwananet/
– IULA main page
III. Corpus browser

bwanaNet
IV. Term extraction

YATE: a tool for term extraction


• Main characteristics:
– Use of semantic information
– Strategies combination
• Internet access:
– http://igraine.upf.es/cgi-bin/Yate-on-the-Web/yotwMain.pl
– IULA main page Terminology
IV. Term extraction

General Architecture
Input text

Lexical resources
Linguistic processing Dictionaries

EuroWordNet
Candidates selection
Corpus

Analysis of candidates Analysis of candidates


(external) Context (internal)
analysis Greek/Latin
forms Semantic
Associative information
methods
...
combination

Sorted list of
terms candidates
IV. Term extraction

Results
Future
• Corpus development • Corpus browser
– Corpus acquisition tool – Better subcorpus selection
– Processing tools – Speed up consultation
improvement – Statistical data
– Stand-off markup
– Syntactical analysis

• Term extraction
– Combine EWN with other resources
– To reach some domain independence
– To allow the user to evaluate the term extraction
– To integrate other analysis/combination methods

You might also like