Professional Documents
Culture Documents
014
Lingstica computacional
Lingstica aplicada
2013/2014
1. Introduccin
2. Qu es la lingstica computacional?
4. Campos y aplicaciones
5. Bibliografa
10
1. Introduccin
Es innegable que el lenguaje forma parte de nuestras vidas, ya que es el medio
que utilizamos para transmitir y recibir informacin. Es la herramienta ms potente
dotada para expresar y presentar pensamientos complejos en forma de compendio. El
objetivo de la lingstica computacional ser mostrar, precisamente, esa capacidad.
2. Qu es la lingstica computacional?
Milagros Fernndez Prez, en su libro Avances en lingstica aplicada (1996:
147-228), define la lingstica computacional como aquella que agrupa un conjunto
heterogneo de teoras, mtodos, herramientas, aplicaciones y productos que tienen en
comn el considerar la lengua como un objeto que puede ser tratado a travs de
procedimientos informticos. Dicho de otra manera, la lingstica computacional es
aquella que engloba una serie de campos muy diversos que comparten la integracin de
conceptos y procedimientos informticos en el tratamiento del lenguaje y del habla.
Asimismo, entraran en este mbito tanto las ayudas proporcionadas por los ordenadores
a la investigacin lingstica en disciplinas como la filologa, la estilstica, la estadstica
lingstica o la lexicografa, como los sistemas capaces de llevar a cabo
automticamente la traduccin de un texto, pasando, por un lado, por los correctores que
normalmente se integran en los programas de tratamiento de texto y, por otro, por los
sistemas de recuperacin automtica de la informacin que hacen uso de informacin
lingstica.
Por otro lado, esta misma autora aade que hay un campo cuyo objetivo es realizar
automticamente
transformaciones
entre
distintas
representaciones
objetos
lingsticos, como pueden ser pasar de un texto a una representacin con informacin
sobre la categora gramatical de cada palabra, traducir de una lengua a otra, resumir el
contenido de un texto o extraer los conceptos bsicos que forma la estructura de un
texto. De ah que se habla de Procesamiento Natural del Lenguaje (PNL), empleando
"natural" para distinguir el lenguaje humano de los lenguajes de programacin comunes
en informtica.
1
3.2
El momento que marca la diferencia entre los primeros sistemas de PLN y los
desarrollos actuales se produjo con la aparicin del programa SHRDLU de Winograd,
en 1971. SHRDLU poda interpretar preguntas y rdenes sencillas, as como realizar
inferencias, explicar sus acciones y aprender nuevas palabras, todo ello integrado en un
programa de ordenador, lo que hasta la fecha no se haba conseguido.
En los sistemas de los aos setenta, la gramtica (el conocimiento lingstico) y el
parser (el procedimiento lingstico que compara las oraciones de entrada con las reglas
gramaticales) estaban entremezclados dentro del programa. Las tcnicas ms extendidas
2
3.3
Los aos ochenta supusieron un cambio radical en las tcnicas utilizadas en los
sistemas de PLN. En el plano informtico, el estilo declarativo se fue imponiendo y los
sistemas se van haciendo ms flexibles, ya que no estn concebidos para un
determinado conjunto de problemas o aplicaciones. Son sistemas portables que se
pueden aplicar a nuevos campos. La declaratividad consiste en proporcionar la
descripcin de las reglas de una lengua, independientemente de la forma en que el
parser vaya a utilizarlas. Los sistemas de estilo procedural exigan diferentes gramticas
para generacin y anlisis. Con el estilo declarativo, lo que se persigue es tener un nico
componente de reglas y utilizarlo de manera diferente segn la tarea. Todo ello se
consigui gracias a tres grandes innovaciones:
a. Los formalismos de unificacin, que permiten definir gramticas independientes
del contexto aumentadas con rasgos y cuya funcin es representar la informacin
gramatical que hay en las estructuras sintcticas. La idea bsica es que la
gramtica contenga reglas sencillas y que sean la informacin lxica y la
unificacin quienes lleven el peso del procesamiento.
b. Los lenguajes declarativos de programacin lgica, como Prolog, que es un
lenguaje inherentemente declarativo y que permite realizar directamente la
unificacin, con lo que libera al lingista de pensar en problemas de
procesamiento.
c. Los chart pasers, que son una tcnica de desarrollo de analizadores sintcticos
que se caracterizan por su capacidad para almacenar resultados intermedios
3.4
Los aos noventa tambin han supuesto un cambio de tendencia. Los sistemas de
los ochenta estaban basados, fundamentalmente, en el conocimiento gramatical, pero, a
medida que los sistemas se fueron haciendo ms complejos, se vio ms evidentemente
que nuestro conocimiento lingstico actual tiene unos lmites. Estos lmites estn
basados en la competencia del lingista, que establece un modelo terico sobre una
lengua, pero los sistemas de PLN son ante todo sistemas prcticos que tienen que
resolver casos reales de uso. Despus de una dcada de fuerte inversin en la
investigacin de PLN, los sistemas resultantes no eran capaces de responder de forma
eficaz a problemas concretos. Esto ha provocado una doble reaccin:
a. Bsqueda de aplicaciones realistas, por ejemplo, herramientas de ayuda al
escritor como los correctores gramaticales, traduccin asistida por el ordenador
en lugar de ambiciosos sistemas de traduccin automtica.
b. Ampliacin de la cobertura del sistema a cualquier tipo de texto. Aqu, no se
busca tanto la calidad como la cantidad de informacin procesada: es mejor, por
ejemplo, tener varias traducciones parciales e imperfectas que ninguna, o
recuperar mucha informacin no relevante, si tambin se incluye la informacin
que estamos buscando.
Este claro giro hacia la parte ms aplicada y comercial ha favorecido, en gran medida, el
resurgir de las tcnicas probabilsticas basadas en grandes corpus de datos lingsticos.
En la actualidad, muchos sistemas incorporan una mezcla de conocimiento declarativo y
estadstico para mejorar las limitaciones inherentes a cada modelo, sobre todo para
resolver el problema de la ambigedad.
4. Campos y aplicaciones
Vamos a basarnos en la clasificacin que hace Javier Gmez Guinovart para
explicar las distintas aplicaciones de la lingstica computacional.
En primer lugar, y desde el punto de vista de su vinculacin a la informtica, la
lingstica computacional suele ser considerada como una subdisciplina de la
inteligencia artificial, la cual se ocupa de la compresin de la inteligencia y del diseo
de mquinas inteligentes que presenten caractersticas asociadas con el entendimiento
humano, como lo es la comprensin del lenguaje hablado y escrito.
Por otra parte, la lingstica computacional posee una vinculacin a la lingstica, y es
que pude ser considerada como una subdisciplina de la lingstica terica, debido a que
mediante ella se realiza la elaboracin de modelos formales del lenguaje humano
teorizados informticamente.
Por ltimo, la lingstica computacional forma parte de las denominadas industrias de
la lengua, que proporciona datos y programas informticos aplicados al tratamiento del
lenguaje: diccionarios electrnicos e impresos, bancos de datos terminolgicos y
programas como los sistemas de traduccin automtica, interfaces de consulta a bases
de datos en lenguaje natural, o correctores ortogrficos y estilsticos. Esta misma
actividad vincula la lingstica computacional con la lingstica aplicada, una rama de
la lingstica dedicada a aplicar los resultados y mtodos de la investigacin lingstica
a campos tales como la enseanza de idiomas, la traduccin e interpretacin, la
psicolingstica o la logopedia.
Vemos, por tanto, que la lingstica computacional, a pesar de ser una disciplina
reciente, abarca objetivos muy variados. Por ello, para delimitar su campo de estudio
hay que delimitar sus tres grandes lneas de trabajo que ordenadas de la ms vinculada
a la lingstica, a la ms vinculada a la informtica son:
a. La informtica aplicada a la investigacin lingstica.
b. La aplicacin de teoras lingsticas.
c. Las aplicaciones lingsticas de la informtica.
Puesto que el primer punto se acerca ms a lo que se conoce como lingstica de
corpus, vamos a centrarnos en los dos siguientes (a y b)
5
inters para el pblico no especialista. Sin embargo, muchas de las personas interesadas
en este campo establecen una distincin terminolgica para referirse a las distintas
modalidades de traduccin que dependen de los diferentes grados de colaboracin entre
las personas y los ordenadores. As, es preciso distinguir entre:
aplicaciones
lingsticas
de
la
informtica
como
el
GMEZ
GUINOVART,
J.
(1996)
Fundamentos
de
Lingstica
10