You are on page 1of 26

Cabr, M. T. (2004) Los bancos de conocimiento: nuevas herramientas para el traductor.

En: II Congreso
Internacional El espaol, lengua de traduccin. Toledo, 20-22 de mayo de 2004. [consulta en lnea:
http://www.toledo2004.net/html/contribuciones/cabre.htm]

Los bancos de conocimiento especializado multilinge: un nuevo recurso para la


traduccin

M. Teresa Cabr Castellv


Institut Universitari de Lingstica Aplicada
Universitat Pompeu Fabra (Barcelona)
teresa.cabre@upf.edu

1. Introduccin

No hay duda de que las tecnologas lingsticas y los recursos digitalizados prestan un
gran servicio a la traduccin, tanto para la bsqueda de informacin como utilizadas
como herramientas.

Los traductores utilizan las tecnologas para efectuar consultas lingsticas y temticas y
para localizar nuevos recursos que puedan ayudarles en la traduccin. Y asimismo se
sirven de las tecnologas aplicadas a la traduccin para acelerar su productividad
traductora y asegurar un mayor grado de sistematicidad en los textos traducidos. Tal
sera el caso de la utilizacin de programas de memorias de traduccin asociadas a
gestores de terminologa, que, a la vez que facilitan la traduccin automtica de
fragmentos traducidos con anterioridad y aseguran el uso de las mismas unidades
terminolgicas para una unidad del original, permiten acumular una gran cantidad de
trminos en formato de base de datos.

2. Evolucin de los recursos lingsticos

Sin embargo, la concepcin de los recursos de bsqueda, almacenamiento y seleccin


de informacin adecuados a las necesidades de los lingistas aplicados (trmino
genrico que utilizaremos para referirnos a todo profesional de la lengua o las lenguas

para fines aplicados) as como tambin la concepcin de las vas de bsqueda de datos
ha variado con el tiempo.

En un inicio los recursos ms representativos fueron los bancos de datos terminolgicos


y lxicos, que se constituan para extraer de ellos la nomenclatura de glosarios temticos
y diccionarios, o tambin para que fueran fuente de resolucin de dudas lingsticas
sobre unidades terminolgicas o lxicas en general tanto en contextos de traduccin
como en contextos de normalizacin lingstica. Los datos contenidos en estos recursos
tenan el formato de registros de base de datos en los que a cada entrada lxica o
terminolgica se le asociaban tipos de informacin estructurada en campos. Los campos
ms representativos en los bancos terminolgicos, por ejemplo, eran la categora
gramatical, el mbito temtico, la definicin, y en el caso de bancos plurilinges, los
equivalentes en otras lenguas. Era perceptivo que para todos los datos figurara la fuente
de la que procedan. Cada registro corresponda a una unidad. Esta unidad se presentaba
en forma descontextualizada, y solo a veces se acompaaba de muestras, y solo
muestras, de contextos, en los que se haban encontrado. La funcionalidad ms
prominente de estos recursos era la de ser repositorios de datos lxicos o terminolgicos
y su valor aumentaba en consonancia con la cantidad de entradas que la base contena.

Una segunda etapa en la evolucin de los recursos al servicio de los traductores la


representan los bancos de textos. Los bancos textuales aportaron la novedad de
presentar los datos en contexto real no fragmentado y proporcionar tantos contextos
como ocurrencias de una misma unidad en los textos. Mediante motores de bsqueda
los traductores acceden a ocurrencias de una unidad en los textos, con lo que disponen
de usos documentados de dicha unidad. Los bancos textuales se convierten adems en
laboratorios adecuados para la descripcin de las unidades en discurso. Es relevante en
este perodo la constitucin de grandes corpus textuales monolinges denominados
corpus de referencia, cuya informacin se selecciona a partir de criterios de
representatividad y equilibrio. El ejemplo histricamente ms representativo es el
corpus COBUILD desarrollado en la Universidad de Birmingham para la construccin
de diccionarios de la empresa Collins. Un ejemplo de corpus de referencia del espaol
es el CREA (Corpus de Referencia del Espaol Actual) de la Real Academia Espaola,
que contiene unos ciento cuarenta millones de registros en textos en espaol desde 1975
hasta la actualidad.
2

Muestra de corpus de referencia son tambin todos los corpus constituidos en el


Proyecto LE-PAROLE (LE2-4017) (http://www.ub.es/gilcub/SIMPLE/simple.html),
financiado por la Unin Europea en el marco del IV Programa Marco de I+D de la UE.
Desarrollo de recursos lingsticos, corpus y lxicos electrnicos para todas las lenguas
de la UE para que sean directamente utilizadas en aplicaciones de ingeniera lingstica,
y destinado a dotar a todas las lenguas oficiales (y a dos lenguas no oficiales: el cataln
y el dans) de un corpus de referencia con los que poder construir recursos informticos
comparables destinados al tratamiento automtico de estas lenguas. La continuacin del
Proyecto PAROLE fue la constitucin de un diccionario de 10.000 entradas sobre la
base de la extraccin de informacin de los corpus PAROLE. Los corpus textuales, por
lo tanto, aunque representan un avance en la creacin de recursos lingsticos en soporte
digital son recursos utilizados fundamentalmente hasta hace poco tiempo para la
creacin de diccionarios. As lo muestran las palabras del acadmico Manuel Snchez
Ron referidas al CREA de la Real Academia, pronunciadas en el Seminario sobre El
espaol como lengua cientfica organizado por la FECYT en diciembre de 2003:
gracias al CREA es posible extraer informacin para estudiar las palabras, sus
significados y contextos.

Pero la evolucin de los recursos lingsticos no ha cesado desde sus inicios en los aos
sesenta hasta hoy, y de la fase de construccin de grandes corpus de textos cuyo valor
radicaba en la cantidad de millones de ocurrencias hemos pasado a corpus ms
pequeos, pero de contenido ms afinadamente seleccionado. Este paso nos hace entrar
en la tercera etapa de la evolucin de los recursos lingsticos.

3. Vas de innovacin en los recursos lingsticos

A nuestro entender tres han sido las vas de refinamiento de los bancos de textos como
recursos al servicio de las necesidades de consulta y extraccin de informacin por parte
de los lingistas aplicados:

a) por una parte, la constitucin de bancos textuales especficos temticamente, que


ofrecen informacin ms selectiva y permiten una recuperacin ms afinada de
informacin
b) en segundo lugar, la creacin de bancos de textos clasificados por criterios
pragmtico-comunicativos
c) en tercer lugar, la constitucin de bancos etiquetados gramaticalmente, que
permiten recuperar informacin seleccionada por criterios lingsticos estrictos.

3.1 Constitucin de bancos textuales de tema especfico

Los bancos textuales temticamente especficos se han convertido hoy en da en uno de


los recursos ms valorados para cubrir necesidades expresivas y comunicativas en
contexto profesional. Las razones que explican este inters son conocidas. La
informacin de tema especfico tiene actualmente un gran valor por la importancia que
el conocimiento especializado ha adquirido en las sociedades avanzadas. Gracias a las
tecnologas de la informacin es posible almacenarla, actualizarla y acceder a ella de
forma selectiva, amigable y eficiente. El crecimiento exponencial de la ciencia y de la
tcnica, as como el desarrollo y la transferencia de tecnologa y servicios requieren
gran cantidad de terminologa disponible y estandarizada para dar respuesta
denominativa a estas necesidades expresivas y comunicativas tanto en el mbito
nacional como internacional. Es relevante tambin la importancia que ha adquirido la
terminologa aplicada en sectores de intensa actividad y necesidad, fundamentalmente
aplicada a la resolucin de situaciones plurilinges a travs de la traduccin y la
enseanza de lenguas para propsitos especficos, y aplicada al tratamiento automtico
de las lenguas a travs del desarrollo de tecnologas lingsticas. Una muestra de banco
textual especializado plurilinge es el que hemos constituido en el Institut Universitari
de Lingstica Aplicada de la Universitat Pompeu Fabra de Barcelona que comprende
textos en castellano, cataln, ingls, francs y alemn (en diferente proporcin cada una)
y en cinco materias: informtica, medicina (incluyendo genmica humana),
medioambiente, derecho y economa (http://www.iula.upf.edu). El estado actual del
corpus (Informe de 24 de marzo de 2004) expresado en nmero de ocurrencias por tema
y lengua se muestra en el cuadro siguiente:

rea

Cataln

Castellano Ingls

Francs

Alemn

Derecho

1463

2085

431

44

16

Economa

1776

1091

274

78

27

Medioambiente

1506

1062

599

230

429

Informtica

655

1227

338

194

83

Medicina

2619

4001

1555

27

198

Total . . .

8019

9466

3197

573

753

Una parte de este corpus est integrado por textos paralelos. Las parejas de lenguas ms
representadas en el corpus paralelo son cataln-castellano, cataln-ingls y castellanoingls. La situacin actual en relacin con el nmero de documentos del corpus paralelo
es la siguiente:

rea

Cataln-Castellano Cataln-Ingls Castellano-Ingls

Derecho

460

12

57

Economa

600

250

283

Medioambiente 214

213

144

Medicina

118

40

640

Informtica

28

300

Total . . .

1.420

515

1424

Los bancos textuales especializados se han convertido hoy en la base para el desarrollo
de sistemas de identificacin y extraccin automtica de candidatos a trminos, as
como en el banco de base para el diseo y desarrollo de sistemas generadores de
resmenes, y de sistemas de extraccin de informacin para la construccin de bancos
de datos terminolgicos y de ontologas.

3.2 Creacin de bancos de textos clasificados por criterios pragmticocomunicativos

La segunda va de refinamiento de los bancos textuales la constituye el haber creado


bancos textuales seleccionados por gneros, o bien el hecho de disponer para cada texto
de informacin explcita sobre el gnero y el tipo textual al que pertenece, lo que facilita
el anlisis lingstico descriptivo de los textos especializados y el contraste entre ellos
sobre la base de la seleccin y la frecuencia de uso de recursos gramaticales distintos.
Buena muestra de ello es el banco de gneros textuales constituido en la Facultad de
Traduccin e Interpretacin de la Universitat Jaume I de Castell dentro de un proyecto
dirigido por la profesora Isabel Garca Izquierdo (Isabel Garca Izquierdo, Esther
Monz Nebot. La traduccin cientfico-tcnica y la terminologa en la sociedad de la
informacin. Castell de la Plana: Universitat Jaume I. 2002 ISBN: 84-8021-409-0.
Enciclopdia electrnica de gneres d'especialitat per a la traducci).

3.3 Constitucin de bancos etiquetados

La tercera va de innovacin de los bancos textuales la constituyen los bancos


etiquetados o dicho de otro modo, los bancos enriquecidos con etiquetas gramaticales
atribuidas a las unidades que constituyen los textos. As se habla de bancos marcados o
etiquetados con informacin morfolgica, sintctica, semntica y pragmtica. Los
bancos etiquetados ms habituales son los que contienen informacin morfolgica
flexiva sobre las terminaciones de cada unidad en tanto que perteneciente a una clase
gramatical que permite agrupar bajo un mismo lema todas sus formas gramaticales, o
bien desplegar todas las formas gramaticales del mismo lema. El marcaje morfolgico,
como todos los tipos de marcaje, los realizan herramientas que se conocen en general
como etiquetadores. El marcaje morfolgico flexivo es de obligada presencia en un
tratamiento automtico de la informacin basado en criterios lingsticos y no
simplemente a travs del reconocimiento de cadenas de caracteres como realizan, por
ejemplo, herramientas tan habituales como WordSmith o TACT. Podemos ver su
utilidad en las bsquedas de patrones gramaticales previos a la deteccin de unidades
que pueden ser candidatos a trminos, descartando paralelamente todas aquellas
combinaciones que nunca podran constituir una unidad terminolgica sintagmtica. Es
tambin este marcaje el que permite obtener fraseologa sobre la base de la combinacin
de verbos y nombres deverbales con sus complementos. Como muestra podemos
aportar la herramienta de exploracin BwanaNet (http://www.iula.upf.edu) desarrollada
6

en nuestro Instituto. BwanaNet permite buscar combinaciones de unidades definidas

como cadenas de caracteres o bien como categoras, como muestra el siguiente ejemplo:

Menos frecuente es la marcacin morfolgica lxica que descompone cada unidad


construida en los formantes que constituyen su estructura interna. Este etiquetaje
permite recuperar grupos de unidades que poseen la misma configuracin morfolgica o
que poseen el mismo nmero de formantes. Permite asimismo generar unidades
morfolgicamente construidas si dispone de una gramtica de formacin de palabras
que contenga las reglas lxicas y sus restricciones.

En cambio es cada vez ms usual disponer de un analizador sintctico, de los


denominados de primer nivel, que atribuyan funciones sintcticas bsicas a los grupos
de palabras estructurados en forma de sintagmas que aparecen a la derecha y a la
izquierda de determinadas categoras simples (verbo, adjetivo, nombre) o complejas
(sintagma nominal, sintagma verbal, sintagma adjetivo, sintagma preposicional). La
base de este marcaje est en la explicitacin de las condiciones argumentales de las
unidades lxicas predicativas, ya sean verbos, ya sean nombres o adjetivos con valor
predicativo. As, por ejemplo la presencia en el corpus de un verbo como poner activar
7

en el analizador la bsqueda, normalmente a su derecha, de un nombre o un sintagma


nominal que acte de complemento directo o complemento interno, y a su izquierda de
otro SN o nombre que seguramente actuar como complemento externo o sujeto. Y si
aparece un sintagma preposicional se espera que la preposicin que encabece este
sintagma sea en castellano en.

De hecho, estos sistemas que atribuyen funciones sintcticas bsicas a los


complementos de unidades predicativas no son analizadores sintcticos o parsers en el
sentido literal del trmino, tan necesarios para la traduccin automtica, sino solo
chunkers o segmentadores que reconocen cuando una determinada combinacin
constituye una estructura y por lo tanto puede cumplir una funcin. Si se da el caso de
que el diccionario de tratamiento automtico de la informacin contiene una unidad de
carcter predicativo con la descripcin de cuntos complementos suele llevar,
complementos obligatorios y opcionales bsicos, y a qu tipo de estructura pertenece
cada complemento, el sistema reconoce la pieza lxica predicativa y busca en su entorno
los complementos descritos, atribuyndoles una etiqueta sintctica. Si adems de la
informacin sintctica cada complemento est asociado a un papel argumental del tipo
Tema, Objeto, Agente o Locativo, y cada argumento, adems est especificado
semnticamente como perteneciente a una clase semntica, el sistema intentar marcar
cada unidad o estructura lxica con una etiqueta semntica, la etiqueta exigida en la
descripcin de cada unidad del diccionario. Este marcaje es muy importante para un
tratamiento automtico refinado de la informacin y para la extraccin selectiva de
datos. Sin embargo son muy escasos los corpus etiquetados semnticamente. Como
paliativo, existen herramientas desarrolladas para el espaol y el cataln con
financiacin pblica que facilitaran este marcaje, como es por ejemplo el sistema
WordNet (http://www.cogsci.princeton.edu/~wn/index.shtml) o el uso del diccionario
del Proyecto SIMPLE (http://www.ub.es/gilcub/SIMPLE/simple.html), continuacin del
Proyecto PAROLE.

Ms escasos son todava los corpus generales o especializados etiquetados


pragmticamente. Existen, esto s, corpus muy pequeos con marcas pragmticas,
elaborados para estudios muy especficos. Una muestra puede ser el Corpus Oral de
Conversa Colloquial del Corpus de Catal Contemporani de la Universitat de

Barcelona, de lenguaje oral espontneo en cataln desarrollado por el profesor Llus


Payrat de la Universitat de Barcelona.

Por las dificultades y el coste que comporta la creacin de corpus etiquetados es


absolutamente necesario que la comunidad cientfica acte coordinadamente en el
desarrollo de recursos digitales para las lenguas, cuanto ms ilustrados gramaticalmente,
ms provechosos para la investigacin descriptiva y aplicada.

4. Un recurso digital integrador: los bancos de conocimiento especializado

Los bancos de conocimiento (knowledge databases) son una propuesta que intenta
aunar en un mismo recurso informacin gramatical, textual, terminolgica, documental
y semntica. A pesar de que su desarrollo es costoso en tiempo y recursos, la
informacin que permite obtener es de gran valor para la enseanza de lenguas y la
traduccin.

4.1 Concepto de banco de conocimiento

Se han definido los bancos de conocimiento como repositorios de conocimiento


representados en un lenguaje formal a los que se accede mediante un sistema experto
basado en unidades terminolgicas relacionadas conceptualmente entre s por diferentes
tipos de conexin. As definen los diccionarios

Knowledge database: A collection of knowledge expressed using some formal


knowledge representation language. A knowledge base forms part of a
knowledge-based system (KBS).
knowledge-based system <artificial intelligence> (KBS) A program for
extending and/or querying a knowledge base. The related term expert system is
normally used to refer to a highly domain-specific type of KBS used for a
specialised purpose such as medical diagnosis. [http://dict.die.net/]

Los bancos de conocimiento representan una clara superacin de los bancos


terminolgicos, por varias razones: en primer lugar porque ofrecen la posibilidad de
9

recuperar todos los contextos en los que aparece una unidad, pero por encima de todo
incorporan conocimiento semntico a la terminologa, tanto a travs de los textos
(permiten recuperar los contextos definitorios de cada unidad) como a travs de las
ontologas, por cuanto cada trmino est asociado a un concepto ubicado en una
estructura de conocimiento que lo vincula a otros conceptos del mismo campo a travs
de relaciones diversas (hiperonimia, hiponimia, meronimia, holonimia, causalidad,
localizacin, etc.). De esta forma el contenido de un trmino representa el conjunto de
las relaciones que el concepto asociado a este trmino establece con el resto de
conceptos del mbito especializado. Vase a continuacin una muestra de la ontologa
sobre genoma humano:

10

A diferencia de las clasificaciones lxicas tipo WordNet, las ontologas parten de la


ficcin de que lo que se representa es el conocimiento y no las unidades lxicas. Por
ello, la representacin de un concepto comprende el conjunto de relaciones que
establece este concepto en la ontologa, y se representa mediante una cadena de
caracteres que, aunque puedan coincidir formalmente con una unidad lxica, se
presupone que no es la unidad lxica sino solo una etiqueta funcional. Las
clasificaciones lxicas, en contraste, son estructuras de unidades lxicas por su
contenido, como muestra la figura siguiente:

11

Los bancos de conocimiento estn al servicio de mltiples y variadas profesiones


implicadas en la expresin y transferencia de conocimiento especializado:

Sirve a los traductores e intrpretes para resolver consultas lingsticas y cognitivas.


Sirve a los terminlogos y lexicgrafos para facilitar la elaboracin de diccionarios
generales y especializados. Sirve a los documentalistas para elaborar tesauros y
clasificaciones, para indexar documentos y facilitar la recuperacin de informacin.
Sirve tambin a los redactores tcnicos como recurso de bsqueda de informacin. Y a
los especialistas y profesores para ensear una materia. Y a los profesores de lenguas
para propsitos especficos como fuente de seleccin de materiales y recurso didctico
en s mismo. Sirve tambin a los periodistas cientficos en su preparacin para divulgar
el conocimiento especializado de manare ortodoxa, sin saltar los lmites de la
especialidad.
4.2 El Proyecto GENOMA1

En el desarrollo del proyecto GENOMA han colaborado adems C. Bach, J. Feliu, G. Martnez
y J. Vivaldi. Han cooperado como becarios del mdulo terminolgico J. J. Giraldo y V. Vidal.

12

En nuestro grupo de investigacin IULATERM, en el marco del Proyecto TEXTERM


(Textos especializados y terminologa: seleccin y recuperacin automtica de la
informacin) BFF2000-0841, hemos desarrollado un banco de conocimiento sobre
genmica humana.

En este proyecto hemos definido un banco de conocimiento especializado sobre un


mbito como una integracin en una misma plataforma de cuatro recursos distintos:

a) un banco textual que comprende textos sobre el tema del mbito


b) un banco documental sobre los textos y factogrfico con relacin al mbito
c) un banco terminolgico que comprende las unidades pertinentes sobre el tema
d) una ontologa que representa la estructura de contenido del mbito.

La estructura del banco de conocimiento, que hemos desarrollado sobre el tema del

Corpus procesing

Enlargement

Genoma Humano, puede representarse con la figura siguiente:

Bibliographical
data

Information
extraction

Term
extraction

Content example

Knowledge base

Edition

TDB

<div1>
<div1>
<head type=main>
<div1>
<head type=main>
El asma</head>
<head
type=main>
El asma</head>
<p><s>.....
El genoma</head>
<p><s>.....
</div1>
<p><s>.....
</div1>
</div1>

Documents

Lexicographical
resources

Information
extraction

Edition

Title:
Author:
Editor:
Publication date:
ISBN:
Area:
Esp. level:
Word Num.:
Density:
Abstract:
Descriptors:

Terminological
units

Form
frequency
contexts
concept(s)
definition
...
Variants
(idem)

Specialist
data

Edition

Concepts

IR systen

Ontology

En esta figura podemos ver la conjuncin de tres mdulos, cada uno correspondiente a
una base de informacin: la textual, la documental y factogrfica, y la terminolgica. Y
podemos observar adems cmo la base terminolgica aparece ligada a una ontologa en
la que el contenido de cada trmino se asocia a un concepto representado por una
etiqueta funcional que rene el conjunto de relaciones de este concepto con el resto de

13

conceptos de la estructura global del mbito. Las relaciones pertenecen a una lista
cerrada, previamente declarada (Feliu, 2004):

El mdulo documental, que en nuestro proyecto corresponde a la base de datos


GENDOFAC, se ha desarrollado en una plataforma Access 2000 y contiene todas las

14

referencias bibliogrficas de los textos del mdulo corpus textual y de las fuentes de las
que proceden los contextos de las unidades de la base de terminolgica. Comprende
monografas, revistas, artculos de revista, tesis y entidades, clasificadas siguiendo la
estructura elaborada por un experto para el corpus textual, que presenta los siguientes
apartados o submbitos:

Estructura interna
Ingeniera gentica
Enfermedades
Investigacin gentica
Diferenciacin
Inmunologa
Biotecnologa
Filogenia
Neurociencia
Farmacogenmica
Eugenesia

El mdulo textual incluye el conjunto de textos sobre genoma humano ordenados


temticamente a partir de la estructuracin anterior. Los textos, en cataln, castellano e
ingls, poseen distintos niveles de especializacin, aunque todos ellos han sido
producidos por especialistas.

Mediante la aplicacin de la cadena de procesamiento automtico disponible en nuestro


Instituto, este corpus est etiquetado morfolgicamente, con lo que es factible la
bsqueda en lnea de informacin por cadenas de caracteres, por formas, por lemas, por
categoras, o por la combinacin de cualquiera de estas posibilidades, a travs de la
herramienta BwanaNet, de la que ya hemos hablado anteriormente, que, aunque se
encuentra disponible en la Web del IULA, se ha incorporado en este caso directamente
a la plataforma GENOMA, como veremos a continuacin.

15

El desarrollo del mdulo terminolgico ha sido paralelo al del mdulo ontolgico. Ello
obedece a uno de los principios que, sobre la terminologa, asume nuestro marco terico
denominado Teora comunicativa de la Terminologa o TCT (Cabr 1999, 2000, 2002 y
2003): desde una aproximacin lingstica a la terminologa no es posible acceder
directamente a los conceptos, sino solo cabe hacerlo a travs de las unidades
terminolgicas que los representan. El respeto a este principio requiere que para cada
trmino existir en la ontologa un concepto asociado, al cual solo se acceder partiendo
del trmino que le corresponde.

La creacin de un registro del mdulo terminolgico ha supuesto declarar previamente


un concepto en la ontologa, y solo posteriormente se ha llevado a cabo la creacin del
registro terminolgico asociado.

Para el desarrollo del mdulo ontolgico hemos utilizado el gestor OntoTerm


desarrollado por el profesor Antonio Moreno de la Universidad de Mlaga a partir de la
ontologa de Mikrokosmos. OntoTerm est compuesto por un editor de ontologas, un
editor de terminologa, un navegador y un generador de informacin en formato HTML.
Vase a continuacin la informacin conceptual que para el concepto CELL contiene la
ontologa:

16

all
object
event
physical-process
replication

physical-object
place
cell-nucleus

natural-object
organic-structure

vacuole
is-whole-object-of
is-whole-area-of

locates

substance
material
animal-material
genetic-material

cell
assoc.-with

Y vase adems la informacin conceptual que, procedente de la ontologa, contiene un


registro terminolgico, en este caso del trmino ingls cytosine:

22

4.3 Situacin actual

El corpus geonmica humana incluido en el de medicina comprende el siguiente


nmero de ocurrencias:

17

Nmero de ocurrencias
Nmero de documentos

Cataln

Castellano

Ingls

Total

945.164
133

1.371.104
218

1.119.347
223

3.435.615
574

El nmero de ocurrencias por pares de lenguas son en este momento las siguientes:
Castellano-Ingls

Cataln-Castellano

515.613

10.310

El nmero de ocurrencias por submbitos es el siguiente:


Estructuracin
del
BIOM
BT (biotecnologa)
DI (diferenciacin)
EG (ingeniera gentica)
EI (estructura interna)
EU (eugenesia)
FA (farmacogenmica)
FI (filogenia)
IM (inmunologia)
MA (enfermedades)
NE (neurociencia)
RG (investigacin)
Total . . .

mbito

Cataln

Castellano

Ingls

Total

11.425
86.180
121.598
440.189
----37.302
5.394
98.838
5.454
138.814
945.164

53.128
74.211
228.585
541.687
2.473
11.877
15.056
63.952
239.161
8.435
132.539
1.371.104

5.5557
61.746
188.022
487.900
8.959
18.940
9.634
29.402
117.015
48.440
93.732
1.119.347

120.110
222.137
538.205
1.469.776
11.432
30.817
61.992
98.748
455.014
62.299
365.085
3.435.615

18

Relacin entre lengua y estructura del mbito


50,0
45,0
40,0
35,0

30,0
25,0
20,0
15,0
10,0
5,0

s)
al

(m
al

EI
(

IM

es
tru

M
A

ct

(im

ur

m
un

in
t

ol

er

og

na

ia
lo
g
no
ec
io
t
(b
BT

tie

ia
)

0,0

Catal

Castell

Angls

Estructuracin del mbito vs . lengua (valor absoluto)

600.000

500.000

400.000

300.000

200.000

100.000

es
tru

tie

s)

ia
)

(m
al

al

og
ol

EI
(

IM

ct

(im

ur

m
un

in
t

no
ec
io
t
(b
BT

M
A

er

lo
g

na

ia

Catal

Castell

Angls

4.4 Acceso a la informacin del banco GENOMA

19

La consulta de GENOMA puede hacerse a travs de tres tipos de bsqueda:

a) la bsqueda simple
b) la bsqueda compleja
c) la bsqueda combinada (todava no desarrollada).

Mediante una bsqueda simple puede consultarse informacin sobre una unidad (forma
o lema) o una cadena de caracteres en el corpus textual o en el banco terminolgico,
como muestran las figuras siguientes:

20

Banc de Coneixement sobre el Genoma Hum


[Glossari] [Mapa]
[Inici]

[PMF]

[Suggeriments]

[Tornar]

CERCA SIMPLE SOBRE EL CORPUS TEXTUAL


Precondici de cerca:

Mot/s a cercar:
eosinfil
catal

Lema
castell

angls

Forma

Condici de cerca:
Lema exacte
Que comenci per

L'usuari es compromet a usar amb finalitats acadmiques i no


comercials els resultats obtinguts en la consulta d'aquest Banc de
Coneixement del Genoma Hum. Tamb es compromet a citar la
procedncia de les dades i de comunicar-ho a l'IULA (iula@grup.upf.es)
Una citaci adequada seria la segent:

Cercar
Cercar

Que acabi en

Que contingui

Si es seleccions Forma enlloc


de Lema, les opcions serien:

"dades procedents del Banc de Coneixement del Genoma Hum de


l'IULA de la UPF (BCG-IULA) obtingudes en el perode (mes/any)".

Us agrairem que feu arribar a l'IULA els vostres comentaris sobre els
resultats obtinguts i/o l'eficincia de leina de consulta.

Forma exacta
Que acabi en

Anar a la cerca avanada >>

Que contingui

43

Banc de Coneixement sobre el Genoma Hum


[Glossari] [Mapa]

[PMF]

[Inici]

[Suggeriments]
[Tornar]

CERCA SIMPLE SOBRE EL BANC DE DADES TERMINOLGIC


Condici de cerca:

Terme/s a cercar:
gen

Lema exacte

catal

castell

angls

Que comenci per


Que acabi en
Que contingui

L'usuari es compromet a usar amb finalitats acadmiques i no


comercials els resultats obtinguts en la consulta d'aquest Banc de
Coneixement del Genoma Hum. Tamb es compromet a citar la
procedncia de les dades i de comunicar-ho a l'IULA (iula@grup.upf.es)
Una citaci adequada seria la segent:

Cercar
Cercar

"dades procedents del Banc de Coneixement del Genoma Hum de


l'IULA de la UPF (BCG-IULA) obtingudes en el perode (mes/any)".
Us agrairem que feu arribar a l'IULA els vostres comentaris sobre els
resultats obtinguts i/o l'eficincia de leina de consulta.

Anar a la cerca avanada >>

34
Una vez definida la bsqueda y reconocida la unidad, podemos obtener de ella
informacin asociada, ya sea procedente del corpus textual, del banco documental, del
banco terminolgico o de la ontologa:

su frecuencia en un corpus de textos o subcorpus previamente


seleccionado

21

sus ocurrencias en el corpus o subcorpus presentadas en forma de


concordancias

sus ocurrencias en un entorno gramatical o lxico predefinido

las fuentes documentales en que tal unidad aparece

su registro en la base de datos terminolgica, si esta es su condicin


lxica

su valor conceptual en la ontologa.

Banc de Coneixement sobre el Genoma Hum


La informaci trobada sextreu
de la bbdd terminolgica
[Inici]

[Tornar]

terme de la cerca:

[suggeriments]
<<Nova
<<Nova cerca
cerca

Condicions de cerca:
Que comenci amb

gen (catal)

Resultat de la cerca
- gen (GENE)
C

---

- gentic (GENETIC)
C

Polsant sobre les icones de cada terme


trobat, pot accedir a la segent
informaci:
Informaci Terminolgica

---

Ontologia

- genoma (GENOMA)
C

---

- terme 4 (CONCEPTE)
C

---

Variants i Equivalents
C

Corpus: Concordana estndard

---

Corpus: Frequncia

35

A travs de la bsqueda de una unidad en la base terminolgica podemos obtener para


cada unidad incluida en ella informacin sobre su categora y subcategoras, su
definicin, sus variantes, si las posee, en la misma lengua, sus equivalentes en otras
lenguas:

22

Banc de Coneixement sobre el Genoma Hum


La informaci trobada sextreu
de la bbdd terminolgica
[Inici]

[suggeriments]

[Tornar]

terme de la cerca:

<<Nova
<<Nova cerca
cerca

Condicions de cerca:
Que comenci amb

gen (catal)

Resultat de la cerca
INFORMACI TERMINOLGICA
- gen (GENE)
C

---

- gentic (GENETIC)
C

---

- genoma (GENOMA)
C

---

- terme 4 (CONCEPTE)
C

---

Terme:gentic
Concepte: GENETIC
Categoria gramatical:adjectiu

La informaci
trobada
sextreu de la
Gnere: mascul
bdd
Definici: Relatiu al gen ... Ref 1. bibliogrfica (o
factogrfica)
Contextos: el carcter gentic de len
... Ref 2. i
la bdd
....... Ref 3.
terminolgica
Nombre: singular

Gens i genoma: el programa de la vida (EG).


Autor: Francesc Calafell. Revista: Investigacin y
Ciencia N:10 pag:41

36

Y adems todas las relaciones conceptuales que la unidad establece con otros conceptos
del mismo mbito, esta informacin, como hemos visto en la figura incluida en 4.2,
procedente de la ontologa.

Banc de Coneixement sobre el Genoma Hum


La informaci trobada sextreu
de lOntologia
[Inici]

[suggeriments]

[Tornar]

terme de la cerca:

<<Nova
<<Nova cerca
cerca

Condicions de cerca:
Que comenci amb

gen (catal)

Resultat de la cerca
ONTOLOGIA

- GENETIC-

- gen (GENE)
C

---

ALL

- gentic (GENETIC)
C

---

- genoma (GENOMA)
C

---

Concepte x
GENE
GENETIC

- terme 4 (CONCEPTE)
C

---

GENOMA
GENETIC

38

23

Una bsqueda compleja permite obtener listas de unidades que cumplen determinadas
condiciones en uno o ms campos, combinadas mediante los operadores booleanos.

Banc de Coneixement sobre el Genoma Hum


Estat del terme en la base
de dades

[suggeriments]

CERCA AVANADA SOBRE EL BANC DE DADES terminolgiques


Terme:

Condici:

Llengua:

Variant:

Condici:

N Variants:

Equivalent:

Condici:

Llengua e.:

Categoria:
Que aparegui en definici:
N Contextos:
Que el context contingui:
Font context:
Data dintroducci:
Operador:

del

Abans

Revisat:

Si
No

../../..
Cercar
Cercar

Anar a la cerca simple >>

Finalmente, la bsqueda combinada, actualmente solo diseada, pero no desarrollada,


permitir, a partir de cualquiera de los mdulos, definir una bsqueda de todas las
unidades que cumplan determinadas condiciones en el primer mdulo, y restringir los
resultados de esta primera bsqueda con bsquedas progresivas con condiciones en el
resto de los mdulos.

24

Comenant des de la BDT


- gentica
- gen
- gen portador
- gen ali
- genetista
Cerca tots els termes
que compleixin amb
gen.*

BDT
c. complexa
Cerca

Escull els termes que tinguin en el


cam de hiperonimia el concepte
relacionat amb el terme seqncia
de dna

- gen
- gen portador
Quedat amb els termes resultants
que lautor J. Smith hagi utilitzat
desprs del gener del 2000

Cerca els termes resultants en el


subcorpus estructura interna

Condicions de cerca

Condicions de cerca

Condicions de cerca

Res. cerca prvia


Terme 1
Terme 2
Terme n

Res. cerca prvia


Terme 1, Rel., CONCEPTEa (t1, t2, ...)
Terme 2 Rel., CONCEPTEb (t1, t2, ...)
Terme 3 Rel., CONCEPTEc (t1, t2, ...)

Res. cerca prvia


Terme 1 (da, db, ...)
Terme 2 (da, db, ...)
Terme n (da, db, ...)

Ontologia

Corpus

Comb.
Back

Lusuari defineix
un criteri de selecci
de termes

- gen
- gen portador
- gen ali

Cont.
End

Lusuari pot definir


restriccions addicionals a
partir de lontologia.

Back

BDD
Cont.
End

Lusuari controla la lematitzaci (i


si cal la pos) de cadascun dels
termes sobre els quals es vol fer la
cerca al CT. ?

Condicions de cerca

Resultat

neg. cond.

Back

End

Tc t o d

...
Back

End

Escull alguns termes (o b tots) en


base a la informaci dels documents
on shan trobat.
Opci de negaci (booleana).

58
5. Como conclusin

No hay duda a nuestro entender que las tecnologas de acceso a la informacin han
modificado muy significativamente el proceso de trabajo de un traductor. Las consultas
habituales a los diccionarios impresos se ven hoy acompaadas, por no decir superadas,
por las consultas en lnea a diccionarios electrnicos en red y por la bsqueda de
informacin sobre las unidades de traduccin o directamente la obtencin de unidades
equivalentes en la lengua hacia la que se traduce.

Pero paralelamente al desarrollo de motores de bsqueda ms potentes y de filtros ms


refinados, la ingeniera lingstica ha ido explorando en el diseo de aplicaciones ms
adecuadas a la resolucin de las necesidades de los colectivos profesionales dedicados a
las lenguas. Uno de estos recursos son los bancos de conocimiento especializado, que,
sobre la base de la terminologa estructurada conceptualmente, es decir, sobre la base de
un banco de trminos asociado a una ontologa se han aplicado a la gestin del
conocimiento de las organizaciones complejas.

En nuestro caso, hemos concebido los bancos de conocimiento especializado como un


recurso lingstico que integra en una misma plataforma las unidades terminolgicas, su

25

estructuracin conceptual, los textos reales de los que proceden y las referencias de
dichas fuentes. Y toda esta informacin estructurada en bases de datos relacionados
entre s y accesibles transversalmente. Esperamos que los traductores puedan reconocer
en este tipo de recurso una va de resolucin de algunas de sus necesidades.

26

You might also like