You are on page 1of 12

2013/2

014
Lingstica computacional

MDolores Gonzlez Fernndez


Beatriz Bernal Calvo
MJos Garca Lozano
Barbara Gietl

Lingstica aplicada
2013/2014

1. Introduccin

2. Qu es la lingstica computacional?

3. Historia de la lingstica computacional

4. Campos y aplicaciones

5. Bibliografa

10

1. Introduccin
Es innegable que el lenguaje forma parte de nuestras vidas, ya que es el medio
que utilizamos para transmitir y recibir informacin. Es la herramienta ms potente
dotada para expresar y presentar pensamientos complejos en forma de compendio. El
objetivo de la lingstica computacional ser mostrar, precisamente, esa capacidad.

2. Qu es la lingstica computacional?
Milagros Fernndez Prez, en su libro Avances en lingstica aplicada (1996:
147-228), define la lingstica computacional como aquella que agrupa un conjunto
heterogneo de teoras, mtodos, herramientas, aplicaciones y productos que tienen en
comn el considerar la lengua como un objeto que puede ser tratado a travs de
procedimientos informticos. Dicho de otra manera, la lingstica computacional es
aquella que engloba una serie de campos muy diversos que comparten la integracin de
conceptos y procedimientos informticos en el tratamiento del lenguaje y del habla.
Asimismo, entraran en este mbito tanto las ayudas proporcionadas por los ordenadores
a la investigacin lingstica en disciplinas como la filologa, la estilstica, la estadstica
lingstica o la lexicografa, como los sistemas capaces de llevar a cabo
automticamente la traduccin de un texto, pasando, por un lado, por los correctores que
normalmente se integran en los programas de tratamiento de texto y, por otro, por los
sistemas de recuperacin automtica de la informacin que hacen uso de informacin
lingstica.
Por otro lado, esta misma autora aade que hay un campo cuyo objetivo es realizar
automticamente

transformaciones

entre

distintas

representaciones

objetos

lingsticos, como pueden ser pasar de un texto a una representacin con informacin
sobre la categora gramatical de cada palabra, traducir de una lengua a otra, resumir el
contenido de un texto o extraer los conceptos bsicos que forma la estructura de un
texto. De ah que se habla de Procesamiento Natural del Lenguaje (PNL), empleando
"natural" para distinguir el lenguaje humano de los lenguajes de programacin comunes
en informtica.
1

3. Historia de la lingstica computacional


3.1 Problemas iniciales
Los trabajos pioneros en el campo del PLN se dieron en los aos cincuenta y
principios de los sesenta y, concretamente, en traduccin automtica (TA). Sin embargo,
estos sistemas fueron un fracaso por el bajo nivel de desarrollo de la Lingstica
matemtica y de los conocimientos sobre el lenguaje y porque los primeros ordenadores
no estaban diseados para trabajar en PLN. Es decir, los lingistas computacionales se
encontraron con el obstculo de que no existan lenguajes de programacin capaces de
trabajar con palabras y smbolos.
Gazdar y Mellish (1989) sealaron que la mayora de los avances en PLN en los setenta
y ochenta se debi a un cambio en el enfoque terico y prctico en Informtica. Al
principio, los ordendadores se usaban fundamentalmente para clculo aritmtico, pero
los avances en los lenguajes de progamacin supusieron la aparicin de lenguajes de
alto nivel, como Prolog, que permiten al programador especificar las intrucciones en
trminos de conceptos orientados al problema, en este caso, la manipulacion de
smbolos complejos como palabras u oraciones.
De esta manera, la existencia de compiladores que traducen los programas escritos en
lenguajes de alto nivel a un cdigo mquina ha liberado a los programadores de la tarea
tan costosa de volver a replantearse el tratamiento de un problema particular en otro
lenguaje de programacin ms eficiente.

3.2

Los aos setenta: primeros sistemas funcionales

El momento que marca la diferencia entre los primeros sistemas de PLN y los
desarrollos actuales se produjo con la aparicin del programa SHRDLU de Winograd,
en 1971. SHRDLU poda interpretar preguntas y rdenes sencillas, as como realizar
inferencias, explicar sus acciones y aprender nuevas palabras, todo ello integrado en un
programa de ordenador, lo que hasta la fecha no se haba conseguido.
En los sistemas de los aos setenta, la gramtica (el conocimiento lingstico) y el
parser (el procedimiento lingstico que compara las oraciones de entrada con las reglas
gramaticales) estaban entremezclados dentro del programa. Las tcnicas ms extendidas
2

para escribir gramticas computacionales fueron las Redes de Transicin Recursiva


(RTN) y sus derivadas, las Redes de Transicin Aumentadas (ATN). Una red de
transicin recursiva permite que las estructuras que se repitan puedan ser expresadas
como subredes, de tal forma que es posible construir grandes redes de forma modular.
Por otro lado, las redes de transicin aumentadas son un lenguaje de programacin para
construir analizadores sintcticos y se caracterizan por su estilo procedural.

3.3

Los aos ochenta: lenguajes declarativos y gramticas no


transformacionales.

Los aos ochenta supusieron un cambio radical en las tcnicas utilizadas en los
sistemas de PLN. En el plano informtico, el estilo declarativo se fue imponiendo y los
sistemas se van haciendo ms flexibles, ya que no estn concebidos para un
determinado conjunto de problemas o aplicaciones. Son sistemas portables que se
pueden aplicar a nuevos campos. La declaratividad consiste en proporcionar la
descripcin de las reglas de una lengua, independientemente de la forma en que el
parser vaya a utilizarlas. Los sistemas de estilo procedural exigan diferentes gramticas
para generacin y anlisis. Con el estilo declarativo, lo que se persigue es tener un nico
componente de reglas y utilizarlo de manera diferente segn la tarea. Todo ello se
consigui gracias a tres grandes innovaciones:
a. Los formalismos de unificacin, que permiten definir gramticas independientes
del contexto aumentadas con rasgos y cuya funcin es representar la informacin
gramatical que hay en las estructuras sintcticas. La idea bsica es que la
gramtica contenga reglas sencillas y que sean la informacin lxica y la
unificacin quienes lleven el peso del procesamiento.
b. Los lenguajes declarativos de programacin lgica, como Prolog, que es un
lenguaje inherentemente declarativo y que permite realizar directamente la
unificacin, con lo que libera al lingista de pensar en problemas de
procesamiento.
c. Los chart pasers, que son una tcnica de desarrollo de analizadores sintcticos
que se caracterizan por su capacidad para almacenar resultados intermedios

durante el procesamiento estructural. Esta tcnica se emplea para mejorar la


eficiencia de los sistemas declarativos y de unificacin.

3.4

Los aos noventa: ascenso de los modelos probabilsticos

Los aos noventa tambin han supuesto un cambio de tendencia. Los sistemas de
los ochenta estaban basados, fundamentalmente, en el conocimiento gramatical, pero, a
medida que los sistemas se fueron haciendo ms complejos, se vio ms evidentemente
que nuestro conocimiento lingstico actual tiene unos lmites. Estos lmites estn
basados en la competencia del lingista, que establece un modelo terico sobre una
lengua, pero los sistemas de PLN son ante todo sistemas prcticos que tienen que
resolver casos reales de uso. Despus de una dcada de fuerte inversin en la
investigacin de PLN, los sistemas resultantes no eran capaces de responder de forma
eficaz a problemas concretos. Esto ha provocado una doble reaccin:
a. Bsqueda de aplicaciones realistas, por ejemplo, herramientas de ayuda al
escritor como los correctores gramaticales, traduccin asistida por el ordenador
en lugar de ambiciosos sistemas de traduccin automtica.
b. Ampliacin de la cobertura del sistema a cualquier tipo de texto. Aqu, no se
busca tanto la calidad como la cantidad de informacin procesada: es mejor, por
ejemplo, tener varias traducciones parciales e imperfectas que ninguna, o
recuperar mucha informacin no relevante, si tambin se incluye la informacin
que estamos buscando.

Este claro giro hacia la parte ms aplicada y comercial ha favorecido, en gran medida, el
resurgir de las tcnicas probabilsticas basadas en grandes corpus de datos lingsticos.
En la actualidad, muchos sistemas incorporan una mezcla de conocimiento declarativo y
estadstico para mejorar las limitaciones inherentes a cada modelo, sobre todo para
resolver el problema de la ambigedad.

4. Campos y aplicaciones
Vamos a basarnos en la clasificacin que hace Javier Gmez Guinovart para
explicar las distintas aplicaciones de la lingstica computacional.
En primer lugar, y desde el punto de vista de su vinculacin a la informtica, la
lingstica computacional suele ser considerada como una subdisciplina de la
inteligencia artificial, la cual se ocupa de la compresin de la inteligencia y del diseo
de mquinas inteligentes que presenten caractersticas asociadas con el entendimiento
humano, como lo es la comprensin del lenguaje hablado y escrito.
Por otra parte, la lingstica computacional posee una vinculacin a la lingstica, y es
que pude ser considerada como una subdisciplina de la lingstica terica, debido a que
mediante ella se realiza la elaboracin de modelos formales del lenguaje humano
teorizados informticamente.
Por ltimo, la lingstica computacional forma parte de las denominadas industrias de
la lengua, que proporciona datos y programas informticos aplicados al tratamiento del
lenguaje: diccionarios electrnicos e impresos, bancos de datos terminolgicos y
programas como los sistemas de traduccin automtica, interfaces de consulta a bases
de datos en lenguaje natural, o correctores ortogrficos y estilsticos. Esta misma
actividad vincula la lingstica computacional con la lingstica aplicada, una rama de
la lingstica dedicada a aplicar los resultados y mtodos de la investigacin lingstica
a campos tales como la enseanza de idiomas, la traduccin e interpretacin, la
psicolingstica o la logopedia.
Vemos, por tanto, que la lingstica computacional, a pesar de ser una disciplina
reciente, abarca objetivos muy variados. Por ello, para delimitar su campo de estudio
hay que delimitar sus tres grandes lneas de trabajo que ordenadas de la ms vinculada
a la lingstica, a la ms vinculada a la informtica son:
a. La informtica aplicada a la investigacin lingstica.
b. La aplicacin de teoras lingsticas.
c. Las aplicaciones lingsticas de la informtica.
Puesto que el primer punto se acerca ms a lo que se conoce como lingstica de
corpus, vamos a centrarnos en los dos siguientes (a y b)
5

4.1 La aplicacin de teoras lingsticas


Esta lnea de trabajo, orientada a la aplicacin de teoras lingsticas, es la que
se denomina lingstica computacional en sentido estricto, y posee un triple objetivo:
La elaboracin de modelos lingsticos en trminos formales. Dentro de esta
lnea de investigacin, se han desarrollado modelos lingsticos computacionales
como la gramtica lxica funcional, la gramtica sintagmtica generalizada y la
gramtica sintagmtica dirigida por el ncleo. Se trata de modelos agrupados
genricamente en la categora de las gramticas de unificacin.
La descripcin de fenmenos lingsticos concretos en el marco de alguno de
estos modelos, y en cualquiera de los niveles de descripcin lingstica:
semntica, morfologa, sintaxis, etc.
La comprobacin automatizada de la consistencia de una teora lingstica o de
sus predicciones. Por ejemplo, a partir de una gramtica formada por reglas que
describan la estructura interna de los constituyentes oracionales (reglas
sintcticas del tipo: SN (DetN), parafraseable como un sintagma nominal est
formado por un determinante seguido de un nombre), y por reglas de
insercin lxica como: N (perro) y Det (el), resulta relativamente sencillo
crear un programa informtico capaz de decidir si una determinada frase (por
ejemplo, el perro) es descrita o no por la gramtica.
Por otro lado, los formalismos lingsticos o sistemas de programacin
lingstica son lenguajes artificiales diseados especficamente para representar
conocimientos lingsticos. Algunos formalismos lingsticos tambin son interpretados
directamente por los ordenadores, por lo que son especialmente adecuados para la
aplicacin informtica y la comprobacin automtica de las teoras lingsticas. Para
llevar a cabo estas tareas se emplean lenguajes de programacin declarativos y, en
particular, el lenguaje de programacin Prolog.

4.2 Las aplicaciones lingsticas de la informtica


La tercera lnea de trabajo de la lingstica computacional (entendida ahora
nuevamente en sentido amplio) consiste en el diseo y elaboracin de sistemas
informticos encaminados a la comprensin y generacin de lenguas naturales.
Algunas de las aplicaciones lingsticas de la informtica ms populares son las
tecnologas del habla (en particular, los sistemas de dictado) y la traduccin
automtica. Junto a estas dos, otra aplicacin lingstica de la informtica de particular
importancia es la de los sistemas de extraccin de informacin.

4.2.1 Las tecnologas del habla.


El objetivo de las tecnologas del habla es permitir la comunicacin oral entre las
personas y los ordenadores. Un enunciado oral de habla humana es una seal sonora
continua que vara a lo largo del tiempo. Por el contrario, los ordenadores trabajan con
seales digitales, es decir, con cadenas de smbolos distintos no conectados entre s de
manera continua. En funcin de la direccin del mensaje en la situacin comunicativa,
el procesamiento del habla se enfrenta con dos tareas bien diferenciadas:
a. El reconocimiento del habla. El reconocimiento del habla consiste en convertir
un enunciado oral (una seal sonora continua) en su representacin simblica
discreta.

b. La sntesis del habla. La sntesis del habla consiste en convertir un conjunto de


smbolos discretos (por ejemplo, en el caso de los sistemas de sntesis para
usuarios invidentes de ordenadores personales, una cadena de letras agrupadas
en palabras y posiblemente acompaadas por signos de puntuacin) en una seal
sonora continua de habla.

4.2.2 La traduccin automtica.


La traduccin automtica por ordenador es una de las lneas de investigacin de
la lingstica computacional de mayor complejidad y uno de los desarrollos de mayor
7

inters para el pblico no especialista. Sin embargo, muchas de las personas interesadas
en este campo establecen una distincin terminolgica para referirse a las distintas
modalidades de traduccin que dependen de los diferentes grados de colaboracin entre
las personas y los ordenadores. As, es preciso distinguir entre:

a. La traduccin totalmente automtica (de gran calidad). Con este trmino se


suele hacer referencia a un programa informtico, an inexistente, capaz de
traducir cualquier texto de cualquier gnero textual entre dos lenguas, sin que
importe ni la dificultad del texto original, ni la distancia cultural entre las
lenguas implicadas. En este sentido particular, la traduccin totalmente
automtica no existe, ni es probable que vaya a existir en un futuro ms o menos
prximo.

b. La traduccin asistida por ordenador: Dentro de esta categora de programas,


suele distinguirse entre:
La traduccin semiautomtica (con intervencin humana). Los
programas informticos de traduccin semiautomtica son programas
capaces de ofrecer una traduccin del texto original que debe ser
controlada por la persona que supervisa su funcionamiento para
conseguir una calidad de traduccin similar a la profesional humana.
La traduccin (humana) con ayuda del ordenador. Existe una amplia
gama de aplicaciones informticas que ocupan un lugar privilegiado entre
las herramientas utilizadas por las personas que se dedican a esta
actividad. Estas aplicaciones, que se suelen englobar en el trmino
traduccin con ayuda del ordenador, pueden provenir de tecnologas
como la ofimtica, la telemtica o la gestin documental, e incluyen
diversas

aplicaciones

lingsticas

de

la

informtica

como

el

reconocimiento y sntesis del habla, la verificacin lingstica


automtica, los diccionarios electrnicos o los sistemas de gestin de
terminologa.

4.2.3 Extraccin de informacin


Los sistemas de extraccin de la informacin tienen como objetivo descubrir la
informacin importante de un texto. Adems en conveniente distinguir entre:
a. Sistemas de catalogacin documental automatizada, el ordenador tpicamente
trata de determinar de manera general el contenido de los textos, con vistas a su
clasificacin dentro de una determinada tipologa semntica preestablecida. Las
categoras as obtenidas pueden emplearse para la posterior recuperacin de los
textos, a partir de las consultas formuladas a la base de datos documental.

b. Sistemas de recuperacin de la informacin textual son programas


informticos que permiten automatizar la creacin, el mantenimiento y la
consulta de bases de datos documentales. Estos sistemas comparan los
documentos de la base de datos con las necesidades de informacin expresadas
en las consultas, con el objetivo de seleccionar los documentos relevantes para el
usuario del sistema.

Para concluir, podemos decir que otras aplicaciones lingsticas de la


informtica relevantes son: la verificacin lingstica automtica (por ejemplo, los
correctores ortogrficos, sintcticos y estilsticos incorporados en los procesadores de
textos; los diccionarios electrnicos de consulta; y los sistemas de dilogo personamquina en lenguaje natural (por ejemplo, para formular consultas en castellano a una
base de datos, para hacer reservas de vuelo por telfono hablando en castellano con un
ordenador, o para que el ordenador le plantee problemas de matemticas a un estudiante
y lo asesore en su solucin).

FERNNDEZ PREZ, M. (1996): Avances en lingstica aplicada. Universidad


de Santiago de Compostela. Servicio de Publicaciones e Intercambio Cientfico
(Avances, 4), 1996. pp. 147-228.

GMEZ

GUINOVART,

J.

(1996)

Fundamentos

de

Lingstica

Computacional:bases tericas, lneas de investigacin y aplicaciones.


Universidad de Vigo.

GRISHAM, J.(1986). Introduccin a la lingstica computacional. Visor Libros.

MORENO SANDOVAL, A.(1998). Lingstica computacional. Introduccin a


los modelos bsicos, estadsticos y biolgicos. Madrid. Editorial Sntesis.

10

You might also like