Avances Ling Computacional - Marqueta

AVANCES DE: me areca. Per atre Carlet vate) "Barbara Marq deta, Natalia Lopéz*Cortés y_Andrea Arino-Bizarro (eds.)230 fonolégica, morfoldgica, sintéctica, seméntica, pragmatica) que caracterizan al lenguaje humano. De esto es de lo que se ocupa la Lingtifsti- ca computacional. Precisamente porque todas estas aplicaciones son ubicuas y tenemos interacciones con ellas a diario, puede ser interesante llevar la disciplina de la Lingiiistica computacional al aula de Lengua. Al fin y al cabo, estos dispositivos forman parte de la vida diaria de los estudiantes de Secundaria y Bachillerato, Son elementos que forman parte de nuestro entorno, y entender cémo funcionan (0 preguntarse al menos cémo lo hacen) es una forma de conocer y entender mejor el medio que nos rodea. Pero es que, ademds, asomarse a la Lingiifstica computacional nos brinda la oportunidad de que los alumnos vean una aplicacién prictica, real y muy cercana de lo que estudian en el aula. La sintaxis no es solo eso que pasa en clase de Lengua, sino que existe toda una disciplina que busca ensefiar a un ordenador cémo detectar un complemento di ecto, y que, en iltimo término, puede estar detras del asistente de voz con el gue interactiian a través de un mévil. Por tiltimo, acercar a los alumnos de ensefianzas medias a la Lingiifs- tica computacional puede ayudar a seducir a aquellos estudiantes que quizé disfrutan con las Matemiticas 0 a los que les interesa la Tecnolo- {gfa, pero que, cn cambio, sienten una indiferencia total por la lengua por considerarla excesivamente “de letras”. Hasta el alumno de ciencias més recalcitrante tendré que reconocer la inmensa aplicacién prictica que los estudios sobre Ia lengua tienen en la Lingiifstica computacional (y, con un poco de suerte, quedard deslumbrado por su belleza). Por otro lado, la Lingiiistica computacional puede servir también para recordar a los estudiantes de Humanidades mas “numerofébicos” que las Matematicas son fundamentales en muchos campos y que uno se las puede encontrar en el lugar més insospechado, como, por ejemplo, en tun modelo seméntico. En un mundo que tradicionalmente enfrenta a los alumnos a la disyuntiva despiadada de elegir ciencias vs. letras, la Lingiifstica computacional ofrece una mirada hibrida e interdisciplinar a eso tan fasci- nante que es la lengua. 13.2, Avances en Lingiiistica computacional El origen de 1a Lingiifstica computacional como disciplina se suele fijar en los afios posteriores al fin de la Segunda Guerra Mundial. Es decir, su desarrollo va de la mano de los avances en computacién (para un repaso hist6rico de los avances en este campo véase la seccién 1.6 de Juratsky y Martin, 2014). Desde entonces, el crecimiento de la disciplina ha sido abrumador. Al tratarse de un campo relativamente reciente, los avances de la Lingiifstica computacional beben de muchos émbitos diversos: Linguistica, sf, pero también Matemdticas, Ciencias de la com-231 putacién, Ciencias cognitivas, etc. Las técnicas del campo, por tanto, son igualmente hibridas, como los son en muchos casos los equipos que trabajan en estos proyectos. En gran medida, la labor de la Lingiifstica computacional consiste en hacer explicito el conocimiento lingistico que los hablantes tienen de serie para que un ordenador lo pueda “aprender”: cosas como que da- selo es una forma del verbo dar o que en El gobierno aprobé la ley y La ley fue aprobada por el gobierno el agente es siempre el mismo, aunque la forma superficial sea diferente. ‘Una de las tareas constantes a las que se enfrenta la Lingiifstica computacional es la de capear la ambigiedad natural que inunda casi todo lo que decimos. La palabra meses es un sustantivo, pero también puede ser un verbo, como en Que te meses las barbas me incomoda. En ga- letas para nifos con forma de dinosaurio, las que tienen forma de dinosaurio son las galletas, no los nifios. La preposicidn de suele denotar Ja materia de la que esti hecho algo (aceite de oliva, aceite de girasol), pero también puede indicar finalidad en construcciones précticamente idénticas (aceite de bebé). ¥ en una frase como El trofeo no cupo en el arcén porque era demasiado grande, cualquiera entenderé que lo que era demasiado grande era el trofeo, pero si la oracién fuera El trofeo no cupo en el arcén porque era demasiado pequefo, todos asumiremos que lo que era pequefio era el arcén (Levesque et al. 2012). Ninguna de estas oraciones supone un problema real de ambigiiedad para un ha blante competente, porque el contexto (lingilistico 0 extralingtifstico) y nuestro conocimiento del mundo nos permiten interpretarlas correctamente, pero todas ellas pueden resultar ambiguas para un sistema auto- mitico. En términos muy generales, en las técnicas de La Lingiifstica computacional se pueden distinguir dos aproximaciones (no necesariamente excluyentes): por un lado, el enfoque simb6lico o basado en reglas; por otro, el estadistico 0 probabilista. El enfoque simbélico consiste en proporcionar a nuestro sistema informético las reglas o patrones lin- gilfsticos que permiten modelizar un determinado fenémeno lingiisti- co. Por ejemplo, si quisigramos que un programa informatico fuese ;paz de generar formas plurales, podriamos proporcionarle la regla morfol6gica que permite generar plurales en castellano; o conjugar un verbo con pronombres cliticos; o identificar el sujeto de una oracién. Este enfoque es el que tradicionalmente ha resultado més cereano a los lingitistas (y su origen est4, de hecho, intimamente ligado a la gramatica generativa de Chomsky), ya que basicamente consiste en traducir los formalismos habituales de la Lingiifstica (morfoldgicos, sintécticos, etc.) al lenguaje que hablan las maquinas. El enfoque probabilista, por otro lado, no se sustenta en el conocimiento lingifstico formal, sino que tiene una aproximacién mas indue- tiva: con base en una coleccién suficientemente grande de textos y de palabras (lo que en Lingtifstica se conoce como un corpus), el sistema puede extraer caracterfsticas a partir de correlaciones probabilistas. Si le ensefiamos a nuestro sistema una cantidad lo suficientemente grande232 de ejemplos de palabras en plural, puede llegar a inferir cémo son los plurales en espafiol en general a partir de los rasgos que caracterizan los ejemplos que le mostremos, sin que en ningén momento le demos la regla de formacién de plurales de forma explicita. En la aproximacién probabilista, lo que nuestro sistema pueda aprender depende fundamentalmente de la naturaleza de los ejemplos con los que lo alimentemos, y, por tanto, la cantidad, calidad y representatividad de los datos de los que partamos (es decir, los textos) son determinantes. En ese sentido, si la aproximaci6n simbslica la podiamos vincular a la Lingilfstica formal, a aproximacién probabilista est4 mas relacionada con las aproximaciones de la Lingiifstica de corpus. ‘Ambas aproximaciones (simbélica y probabilista) conviven y es posible encontrar modelos de ambos tipos (0 hibridos) tanto en desarrollos industriales como en investigacién. Sin embargo, merece la pena sefialar que en los tiltimos afios 1a aproximacién probabilista ha sido la domi- nante, en buena parte debido al auge de las técnicas de aprendizaje au- tomitico (machine learning) y de aprendizaje profundo (deep learning). En cualquier caso, es posible encontrar lingiiistas en ambas aproximaciones: bien como creadores de reglas (en la aproximacién simbélica), bien como revisores de corpus y otros datos lingitfsticos (en la probabilista). ‘Aunque el avance del campo en las tiltimas décadas ha sido espec- tacular, el lenguaje no es ni de lejos un problema resuelto para la in- formética, Para empezar, porque los desarrollos de la Lingiifstica computacional han sido muy desiguales entre lenguas: los desarrollos tecnolégicos se han centrado fundamentalmente en idiomas como el inglés, mientras que las lenguas minoritarias estan a afios luz en lo que a recursos tecnoldgicos se refiere. Pero es que, ademas, aunque tengamos sistemas capaces de hacer cosas lingiifsticamente muy es- pectaculares, Io que estos sistemas hacen a dia de hoy es procesar el Ienguaje (textos, enunciados, etc.) de forma eficaz, sin que en ningin caso alcancen una competencia lingiifstica comparable a la de los humanos (aunque a veces lo parezca), al menos por ahora (Bender y Koller 2020). 13.3. Propuesta didactica En esta seccién vamos a enfrentarnos a la lengua como lo harfa un ordenador. Presentaremos cuatro técnicas de la Lingtifstica computacional que atafien a distintos aspectos de la lengua (combinaciones de palabras, morfologia, sintaxis y seméntica) y propondremos actividades que permitan Mevarlas al aula. Dos de las técnicas presentadas (cpigrafes 13.3.1 y 13.3.3) ticncn una aproximacién més simbélica (autmatas de estados finitos y graméticas de contexto libre), ya que buscan representar de una manera formal el conocimiento lingiifstico. Las otras dos actividades (epigrafes 13.3.2 y 13.3.4) tienen una aproxi-233 macién probabilista (bigramas y seméntica vectorial) y conllevan un cierto manejo matemitico (cdleulo de probabilidades en un caso; operaciones con vectores en el otro), por lo que pueden ser recomendables para niveles educativos mas avanzados. De hecho, se deja a considera- cin de los docentes si desean plantear algunas de estas actividades en colaboracién con los profesores de Matemiticas. 13.3.1, La maquina de reconocer palabras: autématas de estados finitos Un autémata de estados finitos es un modelo computacional (una espe- cie de representaciGn de una maquina) que podemos dibujar con lipiz y papel. Los autématas de estados finitos tienen estados (representados mediante circulos) y transiciones (flechas que nos permiten pasar de un estado 2 otro). Podemos crear autématas de estados finitos que repre- senten o acepten unas determinadas cadenas de caracteres (y que recha- cen otras). Por ejemplo, en la Figura | aparece un aut6mata capaz de reconocer la palabra hola: OOOO) Figura 1. Aut6mata de estados finitos que acepta la palabra hola. En esta actividad vamos a disefiar aut6matas que acepten determinadas palabras. ;Cémo creamos un autémata? Necesitamos partir de una palabra (la palabra que queremos que nuestro autémata valide) ‘Vamos a ver cémo funciona un autémata tomando como ejemplo el aut6mata de la Figura 1. Comprobaremos si la palabra hola es efect vamente aceptable para él. El punto de partida de nuestro autémata es el estado 0. BI punto de llegada (el estado final) seré aquel cuya cir- cunferencia tenga doble linea (en este caso, el 4), Empezamos a reco- rer nuestra palabra (hola): el primer cardcter que nos encontramos es la A, En nuestro autémata hay una transicién (una flecha) permitida desde el estado actual (el estado 0) al estado 1 con Ia letra h, asf que Ia letra fi nos permite avanzar al estado 1. Hemos avanzado un estado (y en nuestra palabra habremos avanzado también un cardcter). Esta- mos en el estado 1. En nuestra palabra, el siguiente cardcter serd la 0 Casualmente, hay una transicin permitida desde el estado en el que nos encontramos (e] 1) al estado 2 pasando por la 0, asi que podemos avanzar al siguiente estado. Ya estamos en el estado 2. Volvemos a nuestra palabra: nos toca el cardcter /. Podemos pasar del estado 2 al 3 con la /. Asf que pasamos al estado 3. Desde el estado 3 podemos avanzar al estado 4 con la letra a, que es precisamente la letra que nos queda en nuestra palabra. Hemos Hegado al final de nuestra palabra (hemos recorrido uno a uno todos los caracteres de nuestra palabra hola hasta234 quedarnos sin caracteres) y hemos ido avanzando por los estados de nuestro aut6mata hasta llegar a un estado final (el estado 4 es un estado final porque tiene doble linea). ;Nuestro autémata ha aceptado nuestra palabra! Fijémonos ahora en la Figura 2. El autémata aqui es muy parecido al de la Figura 1, La diferencia entre ambos radica en que el de la Fi- gura 2 tiene un estado extra que permite ir del estado 2 al estado 2 (es decir, un bucle), en este caso, con la letra o, Esto significa que el auté- mata de la Figura 2 reconocerd igualmente la palabra hola, pero tam- bign otras secuencias que el autémata de la Figura 1 no podia aceptar, como hoola, hooola, hoooooola, porque el estado 2 tiene una transicién sobre sf mismo que permite que nuestra palabra tenga un niimero inde- finido de oes. En cambio, cualquier otra secuencia de caracteres (hhho- la, holaaa, hhhhhooolaaa, troglodita o pan) serfa rechazada tanto por nuestro autémata de la Figura 1 como por el de la Figura 2, porque no es posible ir recorriéndolas cardcter a cardcter y que, al acabar la palabra, estemos en un estado final vélido. Figura 2. Autémata de estados finitos que acepta hola, hola, hoooola, etestera, A continuacién, dejamos planteados algunos ejemplos més de auts- matas de estados finitos junto con las secuencias que aceptan'. Figura 3. Automata de estados finitos de whisky. El autémata de la Figura 3 acepta las palabras whisky, gitisqui, pero también whisqui o gilisky (en cambio, no aceptaria la forma whiskey, whiski). ' Mantendremos la convencién de que el estado 0 es siempre el inicial y los estados finales Hevarén doble linea. Ojo: dejando al margen el estado 0 (que, por convenciGn, seré siempre el ‘estado iniia), la numeracién de los estadas no indica el orden en el que van: es simplemente una forma de identificarestados. Lo que indica los posibles caminos y el orden entre estados son las fechas (es decir as transiciones)..235 igura 4, Aut6mata que reconoce nifo, nifia, niflas y nifios. El autémata de la Figura 4 acepta las palabras nifo, nifa, niftas y nifios. Merece la pena mencionar que el que un estado pueda ser un estado final no significa que necesariamente tenga que serlo siempre. Los estados 4 y 5 pueden ser estados finales, pero también tienen transiciones hacia el estado 6, lo que permite representar tanto las formas en singular (nifio, nifia) como sus correspondientes plurales (niftas, niftos). Podemos utilizar cualquiera de estos aut6matas (u otros distintos) como material para hacer distintas actividades: dados un autémata y una palabra, comprobar si el autémata la acepta 0 no (como hemos hecho en el ejemplo anterior). También podemos dar una lista de palabras (o un fendmeno morfolégico, como los pronombres encliticos) y disefiar colectivamente un aut6mata que sea capaz de aceptarlas todas. O también podemos dar un autémata incompleto o incorrecto, reflexionar sobre las limitaciones que tiene, y pensar qué cambios seria nece- sario hacer para corregirlo. 13.3.2. Bigramas: calcula la siguiente palabra mas frecuente Ante una frase como Perdona, me he retrasado y llegaré un poco... un hablante nativo de castellano probablemente esperaré encontrar una continuacién como tarde o algo similar, En ningtin caso encontraria naturales continuaciones como relaj, glandular © ayer. Para quienes venimos de estudios lingiifsticos, determinar cual es la siguiente pala bra més probable dado un contexto previo puede parecernos, de prime- ras, una actividad un tanto marciana, Sin embargo, calcular cual es la probabilidad de que una palabra ocurra en un cierto contexto es una tarea fundamental y ubjcua en muchas aplicaciones de la tecnologia lingii . Al fin y al cabo, los teclados predictivos de los dispositivos mOviles (por poner el ejemplo mas evidente) no hacen otra cosa que sugerir palabras probables con las que continuar la secuencia que el usuario ha introducido previamente. Aunque menos evidentes, otras aplicaciones del campo de la tecnologfa lingilistica pueden utilizar la probs bilidad de que una palabra vaya seguida de otra como parte de un pro- cesamiento intermedio: la probabilidad de que una palabra ocurra en un contexto dado puede ayudar a un sistema de correcci6n ortogrifica au- tomitica a detectar un error en el texto (por ejemplo, que el usuario queria escribir cenar en una terracita y no en una terracota) 0 a un sistema de reconocimiento de voz a identificar correctamente una soli- citud del usuario.236 En Lingiifstica computacional, una pareja de palabras que aparecen una detrés de otra se conoce como bigrama. Al conjunto de tres palabras se lo conoce como trigrama. En la actividad proponemos calcular cual es la probabilidad de un bigrama (es decir, la probabilidad de que una palabra vaya seguida de otra) dado un cierto corpus (en este caso, la primera parte de El Quijote)’. La lista que se recoge en el Listado 1 contiene todas las palabras que aparecen inmediatamente después de hombre en la primera parte de El Quijote. El nimero que las acompaiia es el ntimero de veces que aparece cada una de estas combinaciones: es decir, la secuencia hombre de aparece 19 veces; la secuencia hombre honrado, 4 veces; hombre barbado, 1, etc. Por comodidad, hemos agrupado todos los signos de puntuacién (comas, puntos, guiones...) bajo un mismo paraguas (en 22 ocasiones la palabra hombre va seguida de un signo de puntuacién). En total, suman 118 apariciones. Es decir, la palabra hombre aparece un total de 118 veces en el texto. hombre [signo de puntuacién] 22 hombre de 19 hombre que 9 hombre honrado 4 hombre a 3 hombre cuando 3 hombre muy 3 hombre tan 3 hombre sin 3 hombre como 3 hombre Ie 3 hombre no 2 hombre del 2 hombre més 2 hombre fuerte 2 hombre caballero 2 hombre pensativo 2 hombre docto 1 hombre allf 1 hombre armado | hombre molido 1 hombre pacffico 1 hombre falto 1 hombre queria 1 hombre sobre 1 + Nos limitaremos a secuencias de dos palabras (y no a secuencias mds largas) por tratarse del caso mas sencillo, Los sistemas ariba mencionados (eclados predctives, ete) uilizan una ‘técnica mucho més sofsticada que la que vamos a ver en esta actividad, pero puede servirnos ‘como modelo de juguete para reflexionar sobre lo que la frecuencia de co-aparicién nos puede Aecir (y to que no) sobre un texto y sobre las palabras237 hombre con 1 hombre es 1 hombre anciano | hombre saltando 1 hombre ticne 1 hombre bien 1 hombre en 2 hombre humano 1 hombre me 1 hombre entre 1 hombre saltaba 1 hombre advertido 1 hombre casado 1 hombre Hlamaba 1 hombre dice 1 hombre albarda 1 hombre puedo 1 hombre barbado 1 hombre simple 1 hombre vuestra 1 hombre loco 1 hombre querria 1 Dados estos mimeros, ;cudl es la palabra més probable para seguir a hombre en El Quijote? Para responder esta pregunta, no necesitamos hacer ningtin célculo, basta con mirar cudl es el bigrama més frecuente: el bigrama encabezado por la palabra hombre que mas veces aparece en El Quijote es hombre seguido de un signo de puntuacién; el segundo més frecuente es hombre de, y, en tercer lugar, hombre que. Los bigramas de palabras con mas enjundia son notablemente menos frecuentes (honrado, ;pensativo, docto), lo que nos da una idea de hasta qué punto las palabras funcionales (pertenecientes a categorfas cerradas: preposiciones, conjun- ciones, articulos, etc.) copan buena parte de los textos. Pero supongamos que no queremos saber simplemente cual es el bigrama mds frecuente, sino que queremos calcular la probabilidad de que la palabra hombre vaya seguida de la palabra pacifico. ,Cémo podemos obtenerla? Podemos pensar en estas frecuencias en forma de ratio: gcuintas de las veces que aparece la palabra hombre en El Quijote va seguida de la palabra pacifico? 1 de cada 118 veces. Basta, pues, con dividir el ntimero de veces que ha aparecido hombre seguido de pacifico (1) entre el niimero total de veces que ha aparecido hombre seguido de cualquier palabra (118). Es decir, la probabilidad de que, dada la palabra hombre, la siguiente palabra sea pacifico en la primera parte de El Qui- Jjote es de 1/118 (0,008). Podemos obtener la probabilidad de cualquier otro bigrama de hombre de manera similar: la probabilidad de que hombre vaya seguido de de es de 0,16 (19/118); la probabilidad de hombre seguido de un signo de puntuacign es de 0,18 (22/118); la probabilidad de hombre seguido de honrado es de 0,03 (4/118).238 Activia 1. Qué hubiera pasado con las probabilidades que hemos obtenido si, en vez de haber usado El Quijote, nuestro corpus hubiera sido otro? Imagina este mismo ejercicio, pero utilizando como corpus los textos de Wikipedia, los textos de mensajes de WhatsApp o las noticias de un Periddico. ,Esperarias que la distribucién de probabilidades de palabras que siguen a hombre fuese la misma? Soxuciin Las combinaciones de palabras obtenidas y sus probabilidades depen- deran de los textos de los que partamos. Si bien las combinaciones hombre + signo de puntuacién u hombre + preposicién las encontrare- ‘mos en cualquier texto que miremos, otras seran més © menos frecuentes segtin el género textual: si nuestro corpus estuviera constituido por articulos de periédicos, probablemente no encontrarfamos hombre caba- Hero y, en cambio, si hombre mayor, hombre joven, etc. Si nuestro corpus fuera de novelas de terror, podrfamos esperar una probabilidad alta de hombre lobo. Y si el corpus de partida estuviera formado por mensajes de WhatsApp, seguramente encontrarfamos usos de hombre como in- terjeccién (un uso que, salvando las entrevistas, serfa raro avistar en un corpus de prensa). Actrvipap 2. Imagina que partiésemos de un corpus mucho mayor, con miles y miles de casos (por ejemplo, de textos de un periddico). Supén que tomésemos una palabra como punto de partida y la encadendsemos con la siguiente palabra mds frecuente dada la palabra inicial segtin nuestro cor- us; y a continuacién encadenssemos ta siguiente palabra més frecuente, dada la palabra inmediatamente anterior que acabamos de introducir. ;Crees {que esta aproximacién (concatenando bigramas probables) podria producir frases que tuvieran sentido? Sowcron Si tuviéramos mucha suerte, podrfamos obtener una frase con sentido solo encadenando bigramas probables (supongamos: La > casa, casa > es, €s > grande). Pero no es muy probable. La mayor parte de las veces nos saldria un espagueti muy largo agramatical y sin sentido (*la casa que la cosa es de Ia...). Lo que dota de gramaticalidad y sentido a una frase es, en buena parte, la interdependencia sintéctica entre elementos de la oracién. La concatenacién de bigramas probables, sin embargo, no icluye esta informacién. De lo tinico de lo que nos informa la probabilidad de un bigrama es de cudnto de habitual es que dos palabras aparez~ can juntas, y eso no nos da pistas sobre su combinatoria sintéctica ni sobre las relaciones de dependencia que puede establecer con otros elementos de la oracién.239 13.3.3, Sintaxis para ordenadores: gramaticas de contexto libre En el campo de la Lingilfstica computacional, se entiende como gramé tica de contexto libre a un conjunto de reglas que representan fenéme- nos sintécticos. Las reglas de una gramdtica de contexto libre representan la manera en que se combinan elementos sinticticos para formar otros elementos sintécticos. Asi, por ejemplo, una regla podria tener la siguiente forma: (1) Oracién + Sintagma Nominal Sintagma Verbal Esta regla gramatical indica que una oraci6n es un elemento que esté formado por un sintagma nominal seguido de un sintagma verbal. Las reglas de una gramatica se formulan siguiendo esta estructura, en la que el elemento a la izquierda de la flecha se construye combinando los dos elementos de la derecha. Una gramética seria, pues, un conjunto de estas reglas de reescritura; su objetivo es ser capaz de reconocer las oraciones sintécticamente vélidas de una lengua y formalizar las relaciones sintécticas entre los elementos de una oracién, ‘Vamos a ver un ejemplo con una gramitica de juguete®. 2) O>SNSV SN Det N svV+V Det + El N~ nino V > escribe V> lee Esta gramética del ejemplo (2) nos dice que una oracién (O) se cons: truye con un sintagma nominal (SN) seguido de un sintagma verbal (SV). Asimismo, nos dice que el sintagma nominal esté formado por un determinante seguido de un nombre y que un sintagma verbal esté formado bésicamente por un verbo. Por titimo, nuestra mini gramética incluye unas reglas finales que son un poco distintas a las anteriores, ya que contienen el léxico que contempla nuestra gramética: ef como determinante, nifio como sustantivo, escribe y lee como verbos. Esta gramética podria producir 0 aceptar como validas las oraciones El nifio escribe, El nifio lee. Bs decir, nuestra gramética contiene las reglas tanto sintacticas como léxicas para poder analizar esas oraciones. Sin embargo, otras oraciones (como El chico escribe 0 El nifto lee un libro) no serian contempladas por nuestra gramitica. Si quisiéramos incluir otras oraciones, necesitariamos ampliar nuestra gramética, bien incluyendo nuevas reglas de reescritura (para que contemple objetos di rectos), bien incluyendo mas elementos a nuestro Iéxico (chico). Por comodidad, usaremos las siguientes abreviatura: O (oracién), SN (sintagma nominal), ‘SV (sintagma verbal), Det (determinante),. (nombre comin), V (verbo)240 Incorporar nuevas palabras al vocabulario de nuestra gramitica es sencillo, basta con incorporar las reglas comrespondientes al Iéxico: 3) O+SNSV SN > Det N sV>V Det > El N> nino N- chico V > escribe VA lee Con esta adicién, ya habriamos incluido El chico escribe y El chico lee al repertorio de frases contempladas por nuestra gramética. Vamos a afladir ahora un complemento directo: @) OSNSV SN + Det N SV+VSN Det + El Det Un N- nino N- chico N- libro N> cuento V > escribe V> lee Una simple regla ha bastado para que nuestra gramética incluya complementos directos: hemos afiadido a nuestra regia de! sintagma verbal (que hasta ahora solo decfa que un sintagma verbal est formado or un verbo) la condicién de que el verbo vaya necesariamente seguido de un sintagma nominal. Hemos afiadido también algunas reglas més a nuestro Iéxico que nos permitan sacarle partido a nuestra gramtica. Con estas adiciones, nuestra gramética ya reconoce oraciones como El nifo lee un libro, El chico escribe un cuento, pero también Un chico escribe el libro, El nifio lee el libro. Afiadamos ahora algtin verbo intransitivo, como dormir 0 retr: (5) O> SNSV SN ~> Det N SV->VSN Det > El Det > Un N nino N> chico241 N> libro N- cuento V > escribe Vv lee V—* duerme Vo rie {Horror! Tal como esti formulada en este punto, nuestra gramética no reconocerfa una oracién como EI niflo duerme o El chico rie: solo contempla la posibilidad de que un sintagma verbal esté formado por un verbo seguido de un sintagma nominal (SV -* V SN). Técnicamen- te, nuestra gramética permitirfa una oracién como El nifio rie un cuen- 10, pero rechazaria El nifto rie. Necesitamos manipular las reglas de nuestra gramética para que contemple la posibilidad de incluir construcciones intransitivas. (6) O>SNSV SN~+ Det N SV-+VSN svoV Det + El Det Un N> nifio N~ chico N-* libro N> cuento V > escribe V+ lee V > duerme V> rie Con esta nueva regla, damos dos posibilidades de sintagma verbal: bien como sintagma verbal transitivo (con el V seguido necesariamente de un SN), bien como sintagma verbal intransitivo (V solo, como tenfamos al principio). Con esta solucién, nuestra gramética ya acepta- rfa la frase El nifio duerme o El nifio rfe. Sin embargo, seguirfa dando por buenas oraciones un tanto anémalas sintécticamente como El nifio rie un cuento. Podemos refinar nuestra gramética y nuestro Iéxico para que solo se permitan construcciones intransitivas con verbos intransitivos y construcciones transitivas con verbos transitivos. (1) O>SNSV SN~ Det N SV VTSN SV VI Det > EL Det > Un N- nifio242 N- chico N- libro N~ cuento VT escribe VT Lee VI~> duerme VI rie En esta ocasiGn, no hemos afladido reglas nuevas, sino que hemos ‘modificado ligeramente las que ya tenfamos: hemos afiadido la restric- cién de que Ja regla para las construcciones transitivas solo permita verbos transitivos (VT). Del mismo modo, la construccién intransitiva solo puede darse con verbos intransitivos (V1). Por tiltimo, nuestro léxi- co ya no contempla verbos a secas (V), sino que distingue entre verbos transitivos (VT: escribe, lee) ¢ intransitivos (VI: rie, duerme).. Este ejercicio se puede plantear como una vuelta de tuerea sobre los ejercicios tradicionales de sintaxis escolar: no se trata de coger una frase sobre la que aplicar todo el aparataje te6rico para analizarla, sino de ir experimentando con un conjunto reducido de reglas abstractas y ver las posibilidades y limitaciones que esa gramatica minima nos ofrece (las oraciones que contempla y las que no)'. 13.3.4. Palabras como vectores: semantica vectorial Supongamos que nos encontramos con la siguiente descripcién: El angul comiin es peludo, tiene pezuias y puede pesar hasta unos cien ki- los, Los angules son herbtvoros y viven en manadas. Supongamos que ahora nos encontramos con esta otra descripcién: La jalida es conside- rado un manjar y se sirve habitualmente en comidas de celebracién. Suele prepararse salteada con verduras y condimentada con salsas y especias.. ‘Aunque no tengamos ni idea de qué significan las palabras angul y Jalida, los contextos en los que aparecen nos dan muchas pistas de lo que pueden significar: angul aparece con palabras como herbfvoro, manada, peludo, pezufas..., palabras que suelen aparecer cuando ha- blamos de animales. Por su parte, jalida aparece rodeada de manjar, comida, salteada, verduras, condimentada, salsas, especias; todas estas son palabras que esperarfamos encontrar al hablar de un tipo de plato. En realidad, tanto angul como jalida son palabras inventadas. Pero este sencillo ejemplo ilustra bien lo que en seméntica se conoce como la hip6tesis distribucional: las palabras que son seménticamente ‘Se pueden hacer infinidad de ejercicios en tomo a las graméticas: podemos partir de esta gramética y ampliaria para que contemple otrs fenémenos linglisticos como sintaginas preposi nales (como cuento de fantasmas), sintagmas adjetivales (rubio), sujetos implicitos (Lee un libro) 0 complemenios indiectos (EI nifo lee un libro a su hermana). El meollo de la actividad reside en el ejercicio de formular reglas gramaticales abstracas, localizar sus limitaciones ¥ re- Nexionar sobre que diferencia « las oraciones gramaticalmente vilida de las que no.243 parecidas tienden a aparecer en contextos similares. Es decir, si dos palabras (pongamos angul y bisonte) tienden a ir acompafiadas de las mismas palabras (manada, herbivoros, peludo, pezuiias) es probable que ambas sean semanticamente parecidas. Aunque no sepamos qué es un angul, podemos asumir que es un tipo de animal quiz4 no muy diferente a un bisonte, En Lingiiistica computacional, la hipétesis distribucional es la que sustenta buena parte de la representacién semédntica de las palabras. Y es que representar de manera formal y computacionalmente tratable qué significan las palabras no es facil. Las graméticas como las del ejemplo anterior nos permiten formalizar las posibilidades sintécticas de una lengua de una manera que un ordenador puede procesar. ;Pero cémo le explicamos a un ordenador lo que significa azul, tremendo 0 circunstancialmente? Para nosotros, como hablantes, nos resulta senc Ilo saber que espagueti y albdndigas estén seménticamente mds proxi- ‘mas entre si de lo que puedan estar con una palabra como puerta, ;Pero cémo hacérselo entender a un ordenador? Convirtiendo las palabras en vectores. Y eso es precisamente lo que propone la semantica vectorial, que es lo que vamos a explorar en esta actividad’ Idealmente, para este ejercicio necesitariamos partir de un corpus, es decir, de una coleccién grande y representativa de textos (noticias de periédicos, novelas, guiones de peliculas, libros de cocina). Para nuestro ejemplo, las siguientes oraciones seriin nuestro corpus de juguete: He preparado albéndigas en salsa. Mi padre prepara las albéndigas con carne de cerdo y con carne de ternera Me puedes pasar la receta de la salsa de carne para los espaguetis en salsa’? Hay quien comprueba si los espaguetis estén cocidos tirando uno contra la pared El olor a albéndigas en salsa impregnaba toda la habitaci6n, ‘Se qued6 esperando en la puerta, apoyado en la pared. Pillé a mi hermano escuchando mis conversaciones a través de la puerta de la habitacién. En esta actividad, vamos a explorar si es posible concluir que efee- tivamente la palabra espagueti esti mas cerca de Ia palabra albdndiga que de la palabra puerta utilizando un modelo de seméntica vectorial que beba de nuestro corpus. En primer lugar, vamos a pintar una cuadricula, Las filas serdn las palabras de interés que queremos modelizar (albdndigas, espaguetis, puerta). En las columnas pondremos otras palabras de nuestro corpus que aparezcan acompafiando a nuestras palabras de interés (es decir, palabras que puedan aparecer en el contexto de nuestras palabras de * Esta actividad estdinspirada en el ejemplo del capitulo 6 que aparece en el borrador dela 3. edicida de Juraksy y Martin (2014) |hitps://web stanford odu/~jurafsky/sIp3/6 pa.interés). En este ejemplo hemos cogido solamente cuatro palabras como contextos (salsa, carne, pared, habitacién), pero cn una situacién real con un corpus de verdad (por ejemplo, todas las palabras de la hemero- teca de un periédico) podriamos tener miles de columnas. SALSA CARNE PARED ——_HABITACION ALHONDIGAS EsPAGUETS PERT Tabla 1. Cuadricula modelo. A continuacién, rellenamos la cuadricula de la Tabla | de la siguiente manera. Iremos fila por fila; si la palabra de la fila aparece en nuestro corpus en la misma frase que la palabra de la columna, sumaremos 1. Es decir, en nuestro corpus albdndigas y salsa aparecen 2 veces en la misma frase, asf que pondremos 2. Las palabras albdndigas y pared nunca aparecen en la misma frase, asf que pondremos 0. Rellenaremos toda la cuadricula de la misma manera, como se observa en la Tabla 2: SALSA | CARNE PARED. HABTACION ALBONDIGAS 2 2 o 1 smouens 2 1 1 0 Puerta ° o 1 1 Tabla 2. Cuadricula completada. Lo que obtenemos como resultado es que cada palabra ha pasado a estar representada por un vector de cuatro dimensiones, en el que cada una de las dimensiones representa un contexto posible. Es decir, albén- digas es ahora el vector (2,2, 0, 1), espaguetis es el vector (2, 1, 1,0) y puerta es el vector (0,0, 1, 1). g¥ ahora qué? Lo que tenemos ya no son palabras sino vectores (segmentos de recta que tienen direccién, modulo y sentido, es decir, representaciones espaciales), asf que podemos aplicar las propiedades y operaciones propias de los vectores a nuestros vectores de palabras. En conereto, vamos a aplicar la similitud coseno, Es decir, vamos a comprobar cuanto de préximos estiin en el espacio nuestros vectores y a comprobar si el vector que representa a espaguetis esta efectivamente més cerca del de albéndigas (como es- peramos) que de! de puerta La férmula de la distancia o similitud coseno es esta AB Wh AB MANSY fon sa? for. 8? Figura 5. Formula de la distancia coseno. similitud coseno =245 Puesto que los vectores representan los contextos en los que aparece cada una de nuestras palabras (espaguetis, albdndigas, puerta) y pues- to que, segtin la hipstesis distribucional, las palabras que aparecen en contextos parecidos tienden a estar semanticamente relacionadas, el par de vectores cuya similitud coseno sea més alta sera el par de palabras cuyos significados sean més parecidos. Para aplicar la formula, en el numerador tenemos que obtener el producto escalar entre vectores (mul- tiplicando componente a componente y sumando), mientras que en el denominador multiplicamos los méduios de los vectores (que obtenemos sumando el cuadrado de cada componente y obteniendo la raiz cuadrada del total). Es decir, dados dos vectores A y B: AB (asp/0,)(04 Dabs) iaisi NB dybet ap bet ay by similitud coseno lad + ads ad fod + n24 02 (edt adead Jot oge ot Este ¢s el resultado obtenido para cada caso: Similitud coseno entre puerta y espaguetis, @xOs 1x OF 1 x14 OK DNET EFT + ONO FOF ESE = 028 Similitud coseno entre albdndiga y espaguetis QxDHLXZHLKO +OKDNE FEST + OWE FETE FT = 081 La similitud entre albéndiga y espaguetis es més alta que 1a similitud obtenida entre puerta y espaguetis. Es decir, segin nuestros caleu- los, la palabra espagueris esté mas cerca de albindigas que de puerta. Aunque con un ejemplo de juguete, la hipétesis distribucional confirma apoydndose en un modelo vectorial, lo que sabfamos como hablante: que cl significado de la palabra espaguetis esta més relacionado con cl de albéndigas que con el de puerta. Merece la pena pararse a pensar que la conclusién obtenida (que como hablantes puede resultarnos evidente) es plenamente empfrica 13.4. Conclusiones En este capitulo hemos presentado la disciplina de la Lingtiistica computacional, hemos descrito algunas de sus aplicaciones précticas en cl dia a dia y hemos expuesto por qué puede ser interesante Hlevarla al aula de Lengua. A continuacién, hemos presentado algunas técnicas del campo de la Lingufstica computacional adaptadas para el aula y hemos propuesto actividades que se puedan llevar a clase. EI objetivo tanto de las aproximaciones presentadas como de las actividades propuestas no es en ningtin caso formar a los alumnos en las246 técnicas del gremio. La Lingiifstica computacional es una rama tremen- damente especializada, que avanza a un ritmo vertiginoso y cuyos mé- todos cambian con rapidez (dejando obsoletas de la noche a la mafiana tecnologias que hasta entonces eran el no va més). El valor de presentar esta rama y estas actividades al alumnado reside en enfrentar a los estudiantes a una manera diferente de mirar la lengua para que relacionen lo gue aprenden de sus clases con la tecnologia que usan en su dia a dia. 13.5. Bibliografia Referencias biliograficas basicas Dickinson, M., Brew, C. y Mrurers, D. (2012), Language and Com- puters, John Wiley & Sons. Jurarsky, D. y Martin, J. (2014), Speech and Language Processing, Londres, Pearson (el borrador de la 3.* edicién [hitps://web stanford. edu/~jurafsky/sIp3/1). Manin, C. y Scuotze, H. (1999), Foundations of Statistical Natural Language Processing, Cambridge, Mass., MIT press Mmaticex, V. y Witson, C. (2011), Language Files: Materials for an Introduction to Language and Linguistics, Columbus, Oh., The Ohio State University Press. Referencias bibliogréficas citadas Benper, E. M. y Kotter, A. (2020), «Climbing towards NLU: On mea- ning, form, and understanding in the age of data», Proceedings of the 58th Annual Meeting of the Association for Computational Linguis- tics, Association for Computational Linguistics, pp. 5.185-5.198 Jurarsky, D. y Marmiy, J. (2014), Speech and Language Processing, Londres, Pearson (el borrador de la 3." edici6n [https://web.stanford. edu/~jurafsky/slp3/)). Levesque, H., Davis, E. y MorGENsteRN, L. (2012), «The Winograd schema challenge», Thirteenth International Conference on the Prin- ciples of Knowledge Representation and Reasoning, AAAI Press, pp. 552-561. Informacién complementaria La Olimpiada de Lingtifstica de Norteamérica es una competicién para estudiantes de Secundaria en la que se proponen problemas lingiifsticos (disponibles en la web [https://nacloweb.org/]), algunos con un enfoque muy computacional’. © Por ejemplo, este sobre Ia distancia Levenshtcin: [https:/inacloweb orgiresources/pro- blems/2014/N2014-C pa.247 Si el centro y el grupo disponen de recursos informéticos, se reco- mienda explorar Ia herramienta gratuita de gestién de corpus AntCone [hup:/wwwlaurenceanthony.net/software/antcone/|. Esta herramienta permite cargar los ficheros de texto que se deseen (que pueden ir desde el Lazarillo de Tormes hasta subtitulos de series 0 peliculas) y explorar frecuencias de palabras, coapariciones, diferencias entre textos, etc. (en Ia misma web hay tutoriales disponibles).

Avances Ling Computacional - Marqueta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Avances Ling Computacional - Marqueta

Uploaded by

Copyright:

Available Formats

You might also like