You are on page 1of 114
arararer “-Antonlo Moreno Sandoval 2] > i 3 < CY s Ye oO Pa bal Ee = LINGUISTICA COMPUTACIONAL Introduccién a los modelos simbélicos, estadisticos y biolégicos Reservados todos los derechos. Eté prohibido, bale nes penales ye! resarcitienio cw prev leyes, epreducrr, rectstrar o tarsmaity oa publicacién, integra o parcialmente por cusiquier sistema do recuperscioa y por cualquier medio, 4ea mecénico, alecwénico, magnetic, slecttoeplco, pot ‘eioeapia 0 par cuniquier ovo, ais la autorizacion provia por escrito de Ediorial Sitesi, SA. © Antonio Moreno Sandoval *TORIAL SINTESIS, $A. Vallenermoso, 34. 26015 Madrid ‘Teidfono $1 $35 2098 ip: steg.com epdsio legal M.36.709-196@ Impreso ens ZO nguajes declaratives 7 Grama jos novenia ascenso de los miodeles probanile Ideas principales de! capitu Indice Prélogo ° 1 Delimitacién del campo de la Linguistica Computacional 13 Lil. E modelo computacional det leagueje, 18 Liki, Necesidad de cescripciones previas ala modalzacién 1 E12 La imposibilided de agotar el estudio del lenguaje ‘con medics matematicos 7 computacionales, 20 1.1.3. La mente humana y los orcenaciores 21 LL. Informaciéa analégica e informacién distal 2 1.2, Relacién entre Lingiisica Teérica y Linguistica Compuiacional. 24 12.1 Enfoqu 24 12.2 Metodos 8 1.3. Aplicaciones de la Lingilistica Comeutacional a 16 les del capitulo 29 30 2, Panorama general de la Linguistica Computacional a 2.1. La Linguistica Computacionel come cisncia apliceda, El 22 Analisis y ce: 36 2.3, Reconocimiento y sintesis dei habia 31 2.4. Breve historia de la Lingtisica Computacional 41 2.4.1. Froblemas iniciales, a imeros sistemas funcionales 2 = @ Li aS 00000e0seess 0000088 OCOS 8. Modelos sirsbélicos I fandamentes: al 32. 33. 34 38. 4, Modelos simbolicos Il: el conocimiente lingiis 4 42. Insroducci6n 3.1.1 Perspectva histénica 3.1.2. Caracteristicas de los mocelos simbélicos Fundamentos tegricos; las cramaticas formales. 3.2.1. Tipos de gramaticas formales. 3.22 Lajerarqula de Chomsky y el poder formal de ias ora maticas Graméticas ragulares o de estados fnitos Grambsicss independientes del contexco Gramiticas de unufcacion y rasgos irucura de un sistenia PLN simbolic. 33.1 Métodos tie parsing 33.2. Algontmos descendentes en serie con backtracking. 335. Algontmos ascendentes en paralelo 3.34. Algontmos con chart Ideas principales del capitulo Ejercicice FSSs Graméticas computacionales. 4.1L. Precisiéa frente a coberwa. 4.1.2. Tres tpos de graméticas computecionales, Procesamiento morfalogico 42.1 Elmodelo de dos niveles de & Koskemniems 42.2. Moriologia basada en ls unificacion y rasgos 42.3, Comparacien entre la morfologia en dos niveles rorfologia basada en la unificacién Procesamiento sintéctico 43.1, Dependencias no acciadas © 2 lacga distancia. 432 ba coordinacion 433 Elorden de constiuyentes 43.4, Elementas nulos o vactos 435 Aigunos fendmenos tipicss del espadicl, 44.1. Consideraciones previes 442, Seméntica cracional 443. Discurso 444. Conocimiento del mince, Lexicones computacionales 45.1. Esiucnura de la informacie 45.2. Acceso a le informacion lexica 453. Tipos de lexicones computscionel 4.8. Cuestiones practicas 46.1, Consejos para escribir una graménca. 452, Broblemas generales’la ambiguedad la coberura y las excepciones. 4.1. Limitaciones de los modelos simbslices. 43. Idees principales del capitulo. 49. Bjercicics §. Modelos probabilisticos 5.1, tniroduccién histérica. : 52, Slatraciwvo de los mcxislos estedisticos. 5.2.1. Crisis de los mocielos racionalistes y simbélicos. 5.2.2. Expectatives del paradigma erpirsta y estacistico, 53. Modelacion esiacistics de las lenguas naturales, 53.1. Conceptos ssenciales de Probebilidad y Estadistica 3.32. Relevancia de ia exadisiica en of estudio det tenguale 3.3. La Teotis de la [nforraacién aplicada al lenguaje natu Méicdos estadisc 4.1, Probabildad & 22. Tecnicas basices: estimacién y evaluacion de propa bilidedes 5.443. Medelo de N-crames 35. Aplicaciones. 55.1, Reconocimiento de habie Desambiguacién lgxica y smtéctica Fngiadores eteCaES 54 Gramatces aintsomaticas probabilisicas ‘Traduocien automatca probablisuca basaca en gines- Limitaciones de los mocel Ideas principales del capinulo Ejercicios = siadisticos 6, Modelos inspizades en la Bioiogia xiorssm0) 1a asice 3.1, Redes neuronales ( 811.1, Elmedelo conexaeri 612, Aplicaciones La Compuracién Evolutva: los algorit consideracion marcinel ideas principales dei cepitule 108 ganéticcs: mw ial a3 ua? tae 150 153 154 188 187 1st 183 188 it Isl ee ig) 194 ies 203 208 208 208 22 218 219 220 228 22 207 1.1. Elpresente: la combinacién de métodos. 228 1.2. Eluruo. aplicaciones précticas sistemas dinksnicas y adapta- bles at 8. Bibliografa.. 8.1, Bibliggrafia selecta comentada 8.1.1, Obras generales 8112, Modelos estadisticos 8.1.3. Metodos “piclogicos 8.2, Bibliogratia mencionada. 83. Puntos de informacion en WWW. Prélogo Digimode caer, no 28 cl haar cons dena 1 aveces os msc ular un abel seeonbiiceysestvo. ato para hombse coma saa alaonader abl lenguae ferent e ctarscuar stracts ce ur Usermedario, Marin kay : (actvncidad esa cual nds univer ensign Exie bro ext dirigido especialmente a estudiantes de Linglistica y de Compulacién que buscas una introduccién al estado ce la cuesiién en los hos noventa, Los excelentes manuales clas.cos en la clsciplina, como Wine- ‘Grae (1985), Grishman (1985), Allen (1987;1995) y Gazdar y Mellish (1988). fellelan et conocimiento de ies afos ochemta. tratan casi exclusivemente de la aplicacion de madelos simbblices al tratamientc computacional del !en- ‘guaje Gumano. Sin embargo, ios roventa se han caracierizado por el signif ‘tivo impulso de los modelos probablliscos. basados en enormes corpus de dates. El presents libro de texro recoge las nuevas aporiacicnes y su com binacion en sistemas hibrides. que buscan el procesamniento mis efcaz de las emisiones ingtisticas. Paralelamente, a mediados de los ochenia ye habia un mumeroso grupo 6 investigadores en inteligencia Arilficial que tabajaban en una aproximia- ‘ion dierente a los modelos matematicos, en este caso inspirada en made- lana ura predicen sobre el Wzocercano ce os stemes de seostans anor eee peegeemerereas az de inode alos nests an un mova campo de conociiento. Le tulos centrales estan organizados segin el mi - chacion See ee aie rte er asta ert que al nuestro sir de acer p a roamiento a ls posibildades y imitsciones ce cada s2etodo, para lego pasar al estoco y apicacin de las teonias eepeccd ‘expuesas, por ejemplo, en los manuales de Gaadar y Melish > el ée Alon Qué conccimientes pravios se necesitan para empezar este sro? Dado que es un manual imrodtictoni, se asume que es un primer contacto o Ungitistica Computacional, Sin neck 0 en ouliuera ce os nros deere ca oe faculaces y escuelas espaiolas. a ta pare presente eo rodeos prizerce ets escrio an expel ye ona como teens since seme eae Sseafol Aurel bio de a Linguistica Computaciona, en senco., ede barca caso mucha de aienguas rules Inoue es oe ‘nguaereciiids league ecnneramere acres ewes (onto)gralica y aquellos puntos de mayor riqueza y ambiqniedad es al perecet una aencién especial Los masuclas nds conocicee reload _ idiosincrasias del procesam: restandi 2 Seta calibre dele eomjens2 womacndasoee ee © luscando la sintonia con los tiempos, esta intrc con ea inodvceon x0 ineloye una ‘cerca bibiograja Al coatane. solo une brave loa de toe aera os y comentados Ellaciorno se encontrara desprowso, sin emivargo, de iainlormasioa neccsara para seguir nvewigando por su cuetta: preporco~ Tis conju de aireccionce de interne cayo contenido es actuliza {e permanentamente, donde el lec puede encontrar toda la bblegrags commpiementania que neces. © a meyora do vabaios que fe publican en este campo ‘aia la nformact ima a toda la comunidad Sienifca Pazece que esta cada ver mas corca el finde as interrainables Siblogratns ecrpladas de cistae fuentes. generaimente de dil acce- b> aliompo que sada vou vemos més cerca el accesc al documento otig- fa) mostavo Geode muolos pumteros, Aloruradamerte e] acceso ala Li- {flstes Compstecional atuamente es macho ms fc amplio que Hace Guunce o vente aos, cuanco estaaliritado por la sponta iidad de recur Sees informacion, Los futgos lingisas computaconales, sn embargo, tie- den por delame ol musmo Gesafo que los poneros: conseguir que les orde- adores nos entendan hablendo nssra propa ‘engva Gin respec ala eaboracion cel loro el autor quiere exprossr ss agta- ecinianto «una sen de insnucones y personas, En cuanto & las prteras, debo moncienara os grupos de invesigacién y proyectos en les ue he pae- Sepedo: Unverscaa Aaidnota Ge Madre (arto enol proyecto Sufora como nal iaaoratrie de Linguistea informatics), el Cen de Investigacion de TBM on Mach. la Universtac de Nueva York (grupo PROTEUS) y la Us- vetsided Poltecnica de Madr (grupo ARIES de la ETSI ce Telecemsni Glones), Todes else me han proporcionado un Ambit murano y eientiico SSuejtabla. io que ha converte ia vestizacion an inguistice Compute Sion gn un pheee(e peser de os agooios dea bisqueda de fnanciacion) Bor ons pare esi into ae ha escrito sobre la base ce dos cursos impaz~ tides enia Universidad de Granda, we 1684 (@estacartes postgraduadios) tren 1007 fa ofoloaorea dela Unversicad Taras Shevehenko de Kies), Agra Usico suncecamente a Depastamento dedinghstica General de Cr conan y la oportunicac de preparardichos cursos, 942s ha si ‘renal pata encontrar el tone" ineoductoro de este manual Te lei para a Snal los agradecimiens personales a Marcos Marin, quien me dio la oportunidad de empezar airabejar =n Langulsice Computaricnal a meciados Ge los cenerta, 2aca més acaba mis fstucins de lcesciatura. Théephie Arinaciang, ost Miguel Got, joe Car les Gonealez Salph Grishman fore Maria Guirao, Catherine Macizod. Cn dna Olmeclsy Bean Whute han leice y comentedo racrrenios de! manuscr- 0, aus observacronesjuiciosas han servido para depurer a tea oigial Gomo se ie (y so cede) dect en estos casos sole el autor es responss- Slee ls eroces de contenido y forma, que permanezcan Delimitacién del campo de la Lingiiistica Computacional ES Esta disciplina trata bésicamente de dos cosas: lenguas naturales y orde- adores. Muchas lineas de investigacién comparten ambos objetves, aun que desde perspectivas diferentes, Hay una tradicion de mas de cusren'a alos ~los prmeros proyectos daran de los cincuenta y la Asscciauon for Com- ‘putational Linguisics, ACL, se unde en 1962 que ha ido modelando las t€c~ ices, los metodes y las aplicaciones de tai manera que finales de los noven- ta contamos con une buena perspectiva para establecer sus iimites con otras ‘punto de paride sera una serie de cuest (gusts Computacional (XC)? .Es ecuivaleate a pean (AD wr ra Lingtiistica? MA 1 NN fy 98 Vocal oral Vy es Vocal nasal, }“sevealiza como! i “en el context” (J, “eiferemtes opciones en disyuncién’” separadas por el simbolo () una opcien. N ‘posicidn inical abe es Nasal 25 la posicign que ocupa en el contexte la unidad mencionada, jempio 2: regles sintéctices ce la concordancia intema en espartol Dice el Esbozo: "La concordancia es en nuestra lengua la igualdad de genero y niimero entre adjetivo o articulo y sustantivo”. Este enunciado se puede exprasar formalmente con una regia sintagmatica independiente del Gontexto aumentada con una esiructura de rasgos SN > Den) ap Num =d] fum=<] fum=e] [Num = Gen=8] |cen=p| [Sen Gen La regla debe intorpretarse de la siguient no un determinante (epcicna), un adjervo (epcional) un nombre (ol Getora) y un adjetvo (epciona)). Log pardctesis indican opeionalidec, Las tor- ulas entre grandes corchetes representa informac atdcicas an formato de reego. Un rasco es un par estas regies solo aparecen dos rasges “Cen(ero)" y "Nim(ero) valores, se utiizan vaciasies (a 8) todos ios ae 1a repla Levan necesariamente el mismo valor para el rasgo en cuestion,inde- pendientemente de cul sea éste (por ejemplo, los velores para Num pus- denser e "singular “plural’) Este tpo de cediicacién formal les cramaticas de unifcacion, cue trate pico de ; _Enestos ejempios se ha visio ctx descripeiones expreeadas median te una lengua natural (aprovechandé 2! cardcter metalinguistico del propio Lenguaje natural) se han taducico a por eategrisiuacicns pr expres sone, te. reqio ese coca dato angnad aun ipo ce paren te an rlacion parcigrodtics con logos datos oo one atone dees cue pda cicrla misma atanucon Sete ce esc Giza de un ncn electors necesta de algin procecimiento «ue escoja al azar los dsosy os dsrnaya ones pocones cores Bondiones en os penance Nauralmente algunos ce los poms prodcidosienen cer aractvo pettico, pero ne pedemos considera que evios programm reproducen a Creatviied potica Cons un ste ampra us rates on peace we cates fodavis no consegua, po = 2 cnseziaa, porque para ello nabria que acl sone- eimiento del poeta pare escribit asemas. Coma ede les que aan escio aigune ver poesia saben, exe coroermiento io es fal Ge expcesat cons etertemente,y mucho mgnos de formalize Lo miso se pects ct Ge uh 20 programa que escribiera novelas pot +o Merati. la clave de ello esté en que cualquier obra literaria es més que la suma ce sus partes, paralraseando a ArisiSieles. No basta con tener una estructu- 12 y cambiat aus elementos constiuyentes por otros equivalentes. Una obra de creacién lteraria es un sistema complejo: cuando uno lo descompone en partes y las estudia por separado (digamos, los personajes, a wamta, el est= lo, elambiente, ec) su resultado, slo sumo, es una interpretacion percisl del contenido que transmite ia obra, Es probable cue aunque desmenuzéramos la obra en muchisimos componentes su reconstruccién nunca agotaria las interpretaciones posibles, como demuestran los milares de comentarios ct eos sobre Shakespeare o£! Quijote. Esta sttuacién supone un gran atract~ vo pata los estuchosos Iierarios, pero hace sospechosa (afortunadamexte) Jensin de creer un crftice bterario automético o un novelista com mn iteraria no parece un fenémeno formalizable loaica DS estacisticamente, a menos en sus aspectos mas interesantes. -28, 0 cualquier oto tipo de géne- 4.1.3, La mente humana y os ordenadores En cuanto a la comparaci6a entre la mente humana y un ordenador des- tacan dos factores: 2) Ambos son procesadores de informacién que pueden manipular sim- Dolos y realizar procesos complejos, incluyendo inferencia, aprenci- zaje de conociniterte nueva 7 toma de decisiones. a pamir de cono- Ccimiento anterior almacenado. ‘by La experimentacion con ei ordenador nos permite meninular. probar ax auesizos modelos sobre la ménte/cerebhro, Podemos lle- -xpucer les regularidades Ge los fendmenos linguisticos como encia Ce nuesira investigaeon con simalaciones cor ordena- leg oxdeaaioves.comaei cere: iidades oon un senifeante yuh ionados por convencién), A dilersncia de otros sistemas sim: Bis ol aebsa ola notacion musiea) que pueden ser ut cr hombee y es computacore,allengusje noe perme compuncar vated! do iermactan (eas parcepcignes, SenkeAt. eroias ripeiesia, oto) Uno ae los abativos Ae ia LC (plicite €] conccimiente inguistico a tavés.de ld Sitnulat Lauizacin de orderadotes como mecanisies queimkan a.or0s mecs- isms esta ls eles centveles de a ntegensts Arita Sus origenes Se pusden rasvenrncliso anes ce a pacién eal Glos orderadores un Shiela slates de Tune de 1957 dono sala consracogn de un ome purador pus pda miata oualguier ovo soecansm9 que com Dale sempre que cuewte con tina memoria dimada (a conocida méquine ao ati) Porat, desc es ongenes ce ns anadetes a sale ete iene conputedora se esablece enla exrucure legis. no ena bese fa. caobicegies Tr magerahabtual de implementa la smalacin 2 daiendo lpr: ceso simulado on componertes. Por ejemplo, cialquie: sera SIN etd ‘oryaninsdo on diferentes madulas: recSndcimiento léxaco y morfolégico, ana- Sip amaches,mterprotacion semdnica y sraqraatea La mayors Se estos ‘Seemas, ga embargo uiizen una esrategia ined que no se corcesponde Covel procsaatntie simulanea yen paralelo qu reaina nuestro cerebro Serena en nciscus a exons alae cichos componentes,par= ce.que-hay.muchas evidencias (sobre todo a parti de los experimentos de Ktasisis isomer octets) ce que consulaence smuénoamert a Sy compenen es ng Sileces 2a Ha eg aa ie Spanier de una aproniecion np SThinclonamiento neuzoral, que probablecpenterepresene la manera ws cana als siulacién del cerebro por parte de na computa at nueva cortent, vost por onorioiame o procesamuento dis- sinisio on parses supone una vss alernsttarescacnents strane 2 [a preseaiade por el paradigros mayortan us ulin a meteors men Bhatcopllo Sse ireducran sus patteamients ese 41.1.4, Informaci6n analégica e informacién digital Si emtendemos el lenguaje basicamente como un mecanismno de trans- mision y cocllcacién de informacion, podemos encontrar otrs anclocis con los ardenadoces, que son otto tipo de mecanismo para manejar informacion, Pensemos en ei proceso da sdqusicién de ifornacién del entomo por parte de un agente cognitive, sea éste un cerebro o una mage ‘ser und seh contin ela, foticamente a cualquier tipo de ‘que if nformacién digita’es una ene RHR BE Beden te no haya leldo £! Quote, que tata de “las aveaturas de un loco que ae cree Caballero ancante” eames haciendo una digitalizacién exema del conte- nido dela novela de Cervantes: obviamente £! Quijote trata de muchas més ‘cosas. Dela lectura “eortinus" de la novela, nosotros hemos extreido wi inormacion que hacemos expiicita de manera discreta. Con est informa- Chon questa interlceutor puede hacer poco (solo que pueds infers de com pies camo "loco" y ‘eaballero andénto") Sign lugar de eso le proporcic~ amos la novela, tent is oportunidad de extraer mucha més informacien {fief que nosotes e hemos dada, y con ida probablided cferente en par- te ala que nosortee hemes exraide de is lectia del libro, Nuestro ejemplo demasiado radical, por que conviene acarar algunos puns. Gus s2 aplica al proceso por fe Cualquies. ubo.A.un 25digg Pin ombpasionss de OY a ditaizac.On puede tener muchos gradce, y su definiion depends del nimero de bis de que conste cada elemento de! codigo. Si observamoe ‘figuras doncle se muestra la conversién de una onéa analogioa en digital y la representaci6n de una A impresa de manera coavencional frente ala propoteionada por una impresora digtal, podemos entencer que sila def- ‘baja el contorno es muy fragmentado, En cambio, s@ han conse- guido resoluciones digiales tan elevacas (en discos compactos y en unpre. nes laser) que apenas se cistnguen de sus modelos analégicos originales, Silo aplicamos a nuestro (exagerade) ejamplo de B! Quijote, as como si en relonarames a nuestro oyente un lo, Una edicign critica, de alguna forma, 6 "cigitlizar” loess anacerlacscre- tay explicta), En este sence tendriamos que hablar de aumemo ds info macién, no de perdics. En cualquier cas6, utlizamos la dicotomia analoc+ solcigital an ua sentido muy amplic. Figura 1, Repressctacionee analogies yeu ce una onda y de un caries ipograi. ion de informacida implica una conversion de in “al Baie proceso se dice ~Siguiendo a Devlin (1981), podernos deci que [a extraceién 9 adquisi- ‘on anelSgicn en digi: dos tapas: (1. Becconsise. durante le cual el agente : al el agente cogmitivo (cerebro 0 mécrina) |) sede irezanenie aia react enernpormacio dein ) 2. Cogaicién, durante la cual el agente selecciona elementos especifi- ‘Ga itbemacton de! coninaum Es cuando se produce la conve sién analogico-~} Feccnozea las preguntas de los usuarios y otro que genere respuestas. UR , S sistema de traduccién automética, por otra parte, se compone de un anali-* Cader de la lengua fuente y de un generador dela lengua meta. También nos’ ppodemos encontrar con sistemas que sélo tengan el componente de reco- oskiente por ejemplo, la mayoria de los sistema ce recuperscion o exrac-( ‘aién de informacion del texto. 2 _Hlacen faa dos dpos de conocimiento diferentes, uno para aniiss y otro para Generacion.o pomismp fuente de informacion nati ‘ea para ambas tareas? Descio ol punto ce vista tstrico €3 HusTos Cofmponentes INGUIN. ET arGUMents Ciidamertal es ia 6cO-_ ETE. Ya ue toner rogiascferertes para cada ‘area os mas com Toss (ano computacional como palcolégicamente) que utizar el mismo conc- cimiento pero distin lonma de procesarlo la practica, sin embargo, muchos investigadores en LC no estén de acuerdo con's ettiencia Teed Tee nFSBleias cu Jaen en Genet eniid son cistirtos dé los cé! andliss, incluso para ~ plinismg tips de dominio. aaa El argurcen's de [6s paridarics de distintostipos de conocimento se bbasa errststierde que somos capaces de reconocer més oraciones de las ‘que poderos elaborar. Esta afsmacién es bastante intatva, aunque ag esta abanico (Gd) N+ hipopétamos Go) Ns lberades ois habia y price e separa ents rls ea rama y ag paras en un componente apare, et cisconai leccéa Conia egas de lac podemce generar sintagias nomiales muy sea ios, como "el abana" "oshipopéamos" ots oeradas” (por spss te, combiagcones agramatcales coma "us ahanico' "el papstenes” Wtulberades" se ratard esta cueesén one aparada 92.4) En general una gramdcaG genera una engin {G) Sate varios soos de graatas generaavas, dopendendo dela forma de las cadonae 2 9 ea la resin, Cacatpo ce gramaea iene reas con una forma ca Lee gramtens de certo tipo generanlenguss del cortespondente. Dicks de oa manor, eltipo de determina ol tipo de L(G), Chemsky estaba ne clasicalon de tpos de gremaacts quo se ha ech anoas on nes bre de su creacer la jearque de Chonsty a jearqia esd ergenzada de acue/do cone poder generative db i coneepiode poder generavo o formal se utiea para elecrse aa cae. dad de precction de una ramiscn in concreta ol poder guneraio Seal conciee a qué ipo de orocones puede resnvcer a ramalcn smo gt maticales. = a Hay cutotpos de gramdtias generates (lenominados eo tipo | te doo 3, cada uno dato por ia cae de ean que contove Seat 12 de une jocarqus tmplieatva, de srod ques inngeas Gefnican gor gra ipaias dal pow ncluyen a toda la lengeas Ge ipo-t+ 1) donde pues desert, 10 Dicho deca manera, Tipo 3. Tipo 2< Tipe 1 < Tipo 0 #5 decir ipo 8 es un subconjunto de (o esta ineluido en) tipo 2, ec tanto, las gramétteas de tipo 0 son las mas poderosas y las de tipo 3 ‘as mis restingidas, Antes de pasar a analzar las c2racierisicas de cada tipo 6 pertinente saber las razanes por las cuales se utliza esta jerarquia. La ‘Suestién puede formularse ce una manera simple: tenemos cuatro apes de Gtamaticas, ccudl es la més apropiada para escribir formalmente las len- (Guas naturales? Todo el mundo esta de acuerdo en que la respuesta debs Conjugar des propiedades: 56 |. Expresividact la gramatica tiene que ser lo suficientemente poderosa ‘como para abarcer todas las construcciones pasibles en las lenguas naturales 2. Nosobregeneracion: la gramélica tiene que ser sulicientemente res- tringida para no permtir como valides construcciones agramancales Estos dos requisites se deducen de la definicion de gramatica generat- ‘vai mecanismo para determinar todas y sélo aquellas otaciones gramatica- les de una lengua. Estas condiciones son ideales ya que combinan-expresi- Vidad y restricesén al mismo tiempo, ago no conseguido en la préctca. Ahora bien, si todo el mundo esté de acuerdo en los requisits formales, hay gran iscrepancia en cuanto alas argumentos a'faver de una uotra clase ce gra- mélicas debico precisamente a la dificlted de consequiries en una sola teo- tla, Hay gramaticas que son mas expresivas y otras que son més restring!- dag ya mayoris busca el equilibrio mas eficaz. Hagamos un breve repaso Gel esado de la cuestién: — Chomsiy defend en sus primeras obras, especiaimente en Estuce ‘ures saaccas (1850), fa madecuacion dels Gramaticas de extados fntos y de as indepencientes del corteto por fata de expressed se fue su principal angumento para defender las gramaicas wans- tsmaciondes yo gue ete soon copece aaa odo os on renos de las lenguas naturales, Ese argumento fue muy cuyente Gurante dcedas en Linguistica, cesterrando del panorama 2oico & ins menatonadas Gramatcas Sin emoargo, en Computacon as Gra- rraticas de estado Sritos incepencientes del context sigueron stendo estutiadas por su apbcacion alas lenguas arifciales — £1973, on un artouloupluyene, Ptors y Rrchie demostsron que eee a eee eee mins Caran equivalertes en poder formal alas maquines de Tung que significaba que con aquelas graméticas se paca fomaliza odo lo que se quisiera ormalizar. Ss docs, I argumentacion anora iba con- tral sgbregeneracién de las gramétcas transiormacionales, Sil poder expresivo es excesivo.entonces hay qu apicaraigin too de resticciOn. La nocién de resiniccida se utiliza en teoria cramatcal para eur cone! principal objetivo de una tees nguistica que es Pro- porcione tra expicaién edecuaca eiigienco de as potencies =~ mhaticas que dan cuenta de ics fonémenoe inguitices la e menor poder o mée restincida. = concopto de resmccign ext Uy ado con le idea general eplicable « toda ciencia de cons teorla lo mds simpie y elegante posible La consecuencia de exa ‘domostracin fe ia miposicion de imataciones cada vez mas Nores La razon més importante, 2 nuestro juicio, es que no existen tipos puros de gramaticas (Ge igual forma que hasta ia fecha no se han encontrado paré= sos Generales para distinguir distintas clases de lenguas cos sistentemente y a todes los niveles) En ia practes, las gramaticas formales se van modificando sequin las necesidadees particulares: se introducen res- mricciones para reducir su poder ose incluyen extensiones para aumentar su expresividac. Como consecuencia, no se puede decidir facimente siuna grs- mética pertenece a un tipo o a ctr, y sus propiedades marematicas son més difciles de conocer. Por tanto, la distancia entre las Gemostraciones tedricas ¥ las realizsciones practicas es ten crande que normalmente no se tiene muy en ‘cuenta als hora de desarrollar un sistema de PLN. Unhhecho que hay que tener en cueata, por otra parte, es que tampoco todos los linguistss estan motivados de la misma forms por las propiedades lormales de las gramaticas que escrizen, Noa Chomsky, por ejemplo, que fempezé desarrollando la eoria de las lenguas formales, ha ido dajanco p: latinamente de interesarse por esta cuesion para concentrarse en oto ipo de adecuacién gramancal la explicacin de cérmo un nifo aprende su len- gua. El propic G, Gazdar. que en los afos ochenia estaba muy interesado por la propiedades matemaicas de las graméticas, twabaja en la actualidad sobre aspectes diferentes Euidentemente, la adecuacin formal ya complejidad computacional hart dejaco ce ser un tema importante, como lo fueron en ls década pasada. Est relleja tambiés Ia evolucion desde una evapa de fuerte teorizacién a ctra mas onentada a la cbtencion de resultados practices. 2cr otra parte, lateoria de las lenguas formales esté incompleta, asi que probablemente en él futro vol- vers a ser tr tensa invesiigacion. El cuadro 3.1. recoge los cuatro tipos de. lacién con Tenguas y autématasilin aulémaia es un mecanismo abstracto que cealiza operaciones ozre’Gna cadena de énirada. Log autématas se f pertenece a und lengua Los autématas se clasifican en clases segun el ipo de lengua que reconoe cen. ~ : ‘Teoria deios Ausématas y la Teorla de las Greméticas formales ienen un estructura sumular aunque traten de cosas diferentes ~procecimientos y gramaticas respeciivamente-. nivade la investigacién de las rels- ciones @ orfas: las graméticas generan un tipo ce lenguas y los utématas reconocen un tipo de lenguas. El punto de conexién entre gre maticas y autématas esté en las lenguas. ‘Se adoptara una perspectiva aplicada en los dos anartados siguientes Se trateran tnicamente los dos tipcs mencs poderosos porque son los mas uilizados y més conocides en compuracién Reccién y Ligemienso, en los afios ochenta, las transformaciones se redujeron a una unica: Muévase-c. El programa Minimista de los noventa insiste alin mas ena reduccisn del aparato formal. — Poralelamente a ls evolucién de las gramaticas transformacionales hhecia modelos mens poderosos expresivarrert ‘fio ochenia surge una serie de Investigaciones, encabezadas por la figura de C. Gazdar. que pretence revisar las crticas inicialos de ‘Chomsky als iadecuacién de las gramstices independiestes del con texto, Por una parte, cuestionan la necesidad de ‘ener dos estructr- ras sintecticas Clferenciadas, proponiendo la elminacion de la estruc- lura prolunda y consecuentemente de las transtormaciones que relaionsben amboas estructuras, Por ot pare, defiencen que las gra- maiicss ind=pendientes del contexte pueden dar cuenta de la inmen- ssa mayoria de las estructuras inglisticas conocidas. De hecho, hasta la fecta sélo se conocen dos lenguaa que contengan ciertos fendme- nos intratables por les gramaticaa independientes del context. E.dia- lecto suizo del aleman es una de ellas, come demostro Shis 1985. — For su pane, desde cistintas posicion dido dlimamerte ‘fequlares (0 auid- ‘Bara tratar de manera of ‘spec tos de las lencuss naturales. Por ejemplo, Koskenniemi Sropus6 en 1983 ei modelo mis ullizado hasta a fecha pard er procesamien: morfolégics. Su Medele de Dos-Niveles se basa en la utlizacioa de automatas Enos para reconocer y generar formas cramaticsles. Tam bién el modelo probabilisa mas empleado, los n-gramas. no es ota cosa que un autémata con informacién probabilista (as cadenas de Markov) La arumentacién en estes casos no es de naturaleza for- mal, sino de eficiencia computacional: la gramética més adequada serd le que permuta dar cuenta del procesamiento linguistico en te po real, es decir, a gramética més eficien'e. Hay una relacion lsenca, aunque no demostrads, entre gramatica mis eficiente y gramatica menos poderosa, En ese sentido, una cramndtica incesendiente sera preferile a una transformacional.y una gramanca regular lo seré an Ellector se preguntara como os posible que haya tanta discrepancia en ie tema, aparertemente tan esencial desde una perspective teSrica y com puizcional: obviamente, al inguista tebrico necesita controlar ei alcance de sus predicciones, y el lingtista compuracional quiere conseguir al metodo mas eficiente para iratarinformatcamente una lengua natural (Cuno 3. Jerarqula de Chomsy. eles [Resuaciones aa ora pr Lenguas | Autématas © [vests | Nngune: Enumerabies | Micainas Bh BeBe rcursivamente| de Turns 1 [Bepasaientes | ia pare derecha contone coma) Oapondiemes | Auoenates delconterts | minimolos simboiosdelapare| delcortexto | | Enealmente Sos ‘ndependlesies) La pare queria sca puece | dapendier elconteco | tanerun simbalo Lcontexte | POS Pash a8 Down Sto 3° | Regulares oe | Lavegla obo puede tener esas | Ragulares estedos mutes cos tomas L 9.2.3. Gramaticas regulares 0 de estades finitos Una aclaracion terminolégica antes de nada, dado que hay varios nom- bres diferentes para ol mismo tipo ce gramatica = Graméiicas requlares on Teoria dé/ias Grematicas Formales — Automatas de estacias faites en Teoria de Automatas — Redes de transicién en linglistica Compulactonal simbélica, — Cadenas de Markov en Linguistica Computacional estadistica (@un- que on este caso es ligeramente difereme a los anteriores por cuan- toque hay probaBllidades asociadas a cada esiacic). Los dos términos més empleados son el de autémate de estados finitas ele red ce wansicida. Una red de wansicion esta formaca por ncdlos o est osy arcos euquetades. Cada arcs representa una wansicion entre dos est dos. Hay dos clases espaciales de esiados: les estadios niciales cue Son les Unicos que no veciben arcos procedentes de ottos nodes. y los estaciosfine- es, que son los nicos de los que no parten transiciones a otros estas. EA los diagremas, los esads se represerian mediante cirauos. los arcos mesen- 80 te Gechas indicando el sentido de le transicin. Los estados iniciales se mar- en con una pequeia fecha y los estedos terminales con un dobio circu las graméicas ce estados intos solo tienen dos tipos de reglas (Grish- man 1988) ASB Amt 7 wn elemento terininal. Los donde Ay B son elementos no terminales yt es un element clementos no terminales se representan graficamente mediante un nodo, ¥ los elementos terminals son ls etquetas dees accos Fcommaacion2¢ consruye una pequelia cramatica regular del espafiol (cuatro 2.2), cu ‘rama se mueava en Ia Sgura 3.1 unos 22. Pequetagramiica de enados trios Elementcs Elorentos esis lrmiales terminals O—elaRT ° a ART 08 ax sito ARE pero N pene Nevev ¥ He pr | aaa Figura’ 1. Diagrara paral gramitica de estadss tos, Eldagrama debe eerse de s siguiente merece ena iil O ret be un pruversinbolode envada el Come say un arco ebmuetao precisa 61 mente con ese simbolo, e automata se mueve al segunda estado, ART: (Si ‘enlugar de ser ella cadena ce entrada es otro simbolo, digamos la, este aute- ‘mata po tenckia forma de seguir y se pararia la cadena no seria reeonocida ‘como ofacién aramatical, Esto es valido para cuatfuer estado del cual no pparta un arco que esté atiquetado con la cadena de entrada ) En el segundo ‘estado puede recibir sélo dos cacenas de entrada, nvloo pero, Cualmuiera Ge las dos le leva hasta el tercer estado, N, igualmente, iene des excos posi bles, reo ladra, que acaban en el cuarto estado, V. Desde all slo queda el ‘estado final y se acaba el reconocimienso, (tre manera de representa auibmatas dns es mediante tablas de esta ds, Verticalmente se muestran los estados, cinco en nuestro eiemplo, Hon zortalmente se representan los arcos, Bl orden de las cclumas en la tabla fo alecta ala operactén, pero se suele escrinir de manera que telleje el orden del autSmata. En las casllas se colooa el numero del estado al que se mue ve la transicion siel simbolo de entrada concuerds con el del arco, El cero indica que no hay una transicion valida desde ese estado para eee simbolo. Enel diagrama, es equivalente a la no existencia de arco etiquetado con 31 simbolo salienco de un determinado estado. Cuando acurre esto, como 5e ha dicho, el autbmata rechazala cadena. La siguiente abla de esiacos repre- senta la gramatica de la Sgure 3.1 Las redes de transicién pueden funcionar como reconaceder (generacores. En el primer caso, comprueba il suencia de palabras ce ‘estado final. En el caso de la generacién, la red va construyende Ia oracion siguiendo los arcos. £ltérmino “astados fruios” indiea que hay un nimet {nite de nocos. Con este automata de cinco esraccs se generan 0 reconocen las siguientes oraciones: entrada se correszonde con aigin camino permit ena red y acab- (1) Einiio re (@) Binifo laces. @) El perro rte, (6) Hi perre ladra. Ese ojemple trivial nos muestra una limacién importance de las qramns- teas regulares: un autémata da estado fnilos no puede generar una lengua natural en su otalidad, que es infiita, Para conseguir lenguss regulates inf- nies hay que permit ragias del tipo Asaak donde el origen y destino del arco es el mismo nade (represented grafica- mente enla figura 32), Por etemplo, ragias del estilo ¢e ADJ — pequetio ALY, AD] simpatico AD], etc. pormitrian reconocer oraciones con infnites adje- tives, uno detras de otro. Con este tipo de regias camos cuenta de la sere cide repetcién de elementcs Figwa a2. Elenplo de teracon Pero la sinfile repeticién de un nodo no es suficiente para tratar algunas construcciones de las lenguss naturales. Esta chservacién fue reaizada por Chomsky a fnales de los cincuenta, Demostré que las lenguas narurales tie- nan fenémenos recursives que implican marcaciores correlativos, como por ‘ejemplo oraciones del tpo “a. entonces .","o bien .. o bien.” que pus don estar formadas por un numero indeinido de anicacione: Si mafana luava, entances 9 bien vamos a dames en casa, enionces bien, sinos quae No es posible tatar este tipo da recursivided con una cramatica regular dado que ia unica informacion que mangja 2s el estado en el que se encuen- Deesa manerano sabria ebmo analizar las ocaciones inerustacas, ya que ‘no dene manera de recorder las craciones que ha generade ni en qué orden. En ese punto merece la pena recordar os argumentas de Cnomsky. Siesios proceses fas oraciones anideds}no tienen un limit fie, ‘sodemos provar le iaplicabilidad lveral de esi teorla element. Silos so ienet un limite, entonces la cansiuccion de una gramatica de ‘estados fnitos no ser iteralmente impensabie, ya que seré posible anu ‘mera iss oraciones. yuna sta es exenclaimente sia graméticn do estedoe fins wiv. Pero esta gramatica sora tan compe cue resllara de soca tad o interés...) Suna gramtica no tiene articios recursos [seed rofibitvemene comple Si cuenta con arucnsracursivos Ge lgasa ospe- Ge, producia ur nimaro infrte de oraciones (Chom. 1857 38) De este fragmento posemos exaer varias conchusiones perinentes: des die un punte de visa teérico las grematicas requlares son insuifcientes ya que ecesitan de mecanismos recutsivos especiales (las gramaticas indepencien. tes del contexco son el tipo gramatical més sencillo capaz de dar cuenta de la ecursividad en jas lenguas naturales) Pero desde el punto de vista practice, Chomsicy reconoce implictamente que si se descuniera alctin limite » estos {fenémenos entonces se podeian tratar con una red de esiaddos fits, aunque ‘era muy compieja, Precisamente en este purto se apoyan quienes Gofenden eluso de aurémiatas frtes en PLN, ZExisten acaso fagmentos de lenguias nahi- rales que contengan fenémencs recursivas limiiados, de manera que se pue~ an formalizar con un numero fnito de estacoa? Dado que ias redies ce transi clén son la aproximacion més sumple y fic de implamestar da cusnias hay en UG, 88 un buen axgumento para utizarlas. Muchos inguistas computacionsles en que es posible y preieribie po: ecacia aplicar estas técnicas ala morta. ‘gla yal reconoamiento fxdco. Las regias de texcon forman un canine (cas) cerzaco y mucho mas pequeflo que is reglas de a sin’axs en cualquier len- ‘gva. La dexcon morfclégies no presenta en general fenémenos de anidarento (eunqus st pueda darse en la dervacion = la composicisn). el, DET + la, ete. Tene la ventaja de proporcionar una desenpeion mas compacta Esta Tamitica es capaz de reconccer y generar oraciones como las que se mues an en la figura 3.3. Estas graméticas también proporcionan la estructura lerarcuica interna de las oraciones, Para visualizarls graicamente se utlizan dos tipes de representaciones: los lamadce arooles de estructura sintag- -miética (phrase structure trees) ¥ los corchetes etiquetads. Los primeros son un tipe de grafo (las redes Ge transici6n que se Vieron en el aparado ante- sor eran oto tipo de grafo), Ea general se suelen prefer los arboles a los corchetes etiquetaces, sues las relaciones de dominio y prececencia se observan mojer, onaNsy ‘DET fe (la | os) a ura [ioe fares | on5v PRON: (yo | th |e {ela | nosozos | vosoucs | alo svav 1 (Cyrano | Calisto Metibes | corazé | nar | Casto ame PREP SN svavst furor | mentee | peema | P8560 | a4c8) el Sv avSP {ADI gran | oi} aN svavense — | PREP fal ce) ' ‘SN PRON | ama | habla | eseibis [regal® | fuimos) Moitea Swan (OISNEN(CalsttSVIvemalISPIPREPTALISNNNMetbed SN DET t ySUvemaliSPPPREP(IISMNMeteaI] peepee : SP PREPS ° ' sv Las tres oraciones son ejemplos de estructuras basicas del espanol. A pesar de ello, nuestro anélisis de (2) puede ser controvertido. Es habitual ‘encontrar en descripciones teéricas del espatiel que su estructura cracionat a es necesanamente bimeribce (O ~» SN SV) Esto implice que para oracio- : Fes sin un sujeto exprese, hay que postular una categoria vecia (alco asi como EN e, conde @ esun elemento sin signillcante) Esto supone una compl v $e. | I a fumes PEP SN 1 we oN cacién extra en el programa, ya que s ' elemento que no aparece en la cadena de entrada Por paseo eseribirla regia O —» SV, que permite reconccer oraciones gramatcales del Sspafcl sit necesidad de postular un elemento sin realizacion fonetica ( Superficial). Desde e1 punto de insta teérico n0 es tan descabellado como Jado que el sujeto esta impifcitamente representado en los ‘morfemas de concordancia (persona y mumero) Gel verbo, no mediante wn elemento vacio. El sjempio (2) dustra varios puntos esenciales que se deben tener en sna ala hora de escribic gramaticas, ya sean teéricas © computacionales: (ofsvtiFuimesh SPIPRERIelISNINpaseo[I 1. Toda gramética es una tearla acerca de una lengua: no hay descrip ciones neuirales, Una oracion sencilisima y trecuente como ‘Fuimos de paseo" se puede analizar al menos de do: s .cerea de la pertinencia de las y argumenies para defender cualeuiera de las Sos posturas, pero son incompaibies y tenemos que adopter una deci- sign al principio, para que las nuevas reclas que se vayan afaclenso ala crardtica sean colarentes con la postura adoptada, Mantener la consrencia de la gramatica es una de las cuestiones més compleias (OISNINCyranlifsviveserbish SNDETIunlIADUIaranlINipoemaliSPIP Nom ISPPREP ali SMIDETTsullNlemadal Ge conseguir y rataremos de ello al hablar de consejos précticos sobre como desarrollar cramaticas 2, La grambtice reconocers como gramaticales aquellas combinaciones que estén recogidas en las regias de su gramética, y les asignara la ssinictura especiicada. Esto signiica qu ge suelen product” ‘civ ios" entre las regias equivelenies de una gramatca teorica ylasde una ‘omputacional. Hay tatanientos que son permisdos sin probiema on una gramética teria y en cambio se ponen muchas reserves en una vacio en un érbol de analisis no cupone ninguns complicacion para ur linguist ebrico, pere st pare un computacicnal. Eh cambio, desde pos. ‘ras te6ricas se buses la veguiaridad y la simatta en os andliss.y por ‘arto jar una ramifcacin con un tnico elemento inj es algo "excep ional” en las representaciones estrucurales, En este punto, os ingle tas teéricos han desarrollo analisis muy generalizadores y abstractos (or sjemp\o la Teoria de 1a X), con ramifcacién exclusnvamente hiram. bre (es door. de cada nodo macre depend tnica y necesariamene os nodos tijes). Sin embargo, os linguicts computacionales prelier=n, andlisis menos alsstactos yo mis pazeeidos 2a representacion super {cal dele cadena de entrada Nuestra cracién @) es un ejemplo de esta rategiz SN "un gran poema de amor presenta una esmuictura bas. (ante plana, con cuatra ramnas saiienco del nodo SN. siones muy sencilas del espaol, Por ejemplo, no es capaz de reconoce! vatios adietives seguides, lo que se consique con el autémata fifo de las ciénantenor, gracias ala teracién De hecho, la ser con un auiémata ce estades fnitos, Fara dar cuonia de ia repeticion de una categoria se puede utlizz a con: vencion ce Kleene, Asi X* signiica que ol elemento X puede"aparecer cero o mds veces: X"signiica que el elemento X puede parecer mia o mas veces, De esta manera, podemos velver a escribir le resla del SN como SN DEP ADJ N sp Pare describir las constucciones recursivas que no pueden ser atadlas con graméticas regulares iendremos que emplear una reala recursiva, #3 eer, una regia donc el elemento de ia lecuierda también aparezea on la Gerechs, Por ejemplo supongames que creamos un nueve consi tuyente SADJ ~ AD] SAD} 68 fa también so expanciria infatamente, ya que donde aparece SAD} ena pare derecha siempre se puede sustituir por AD] SAD). Natwralwente ‘para tata les casos do un iio adjetivo habré que posular 0 bien ere el SAD} puede esar vacic en algunos casos, bien tza la opcionaldiad que se expl caré en sequida. o afadirla siguiente roola para ‘terminer’ a recursion SADJ— avy Ambas teenicas, a convencién de Kleene o la recursividad en a parte Gerecha de Is regla, permiten formalmente gene‘ar o reconocer infitos censttuyentes del mismo tipo. Obviamente, las oraciones de las lenguas nat rales no ¢on de longttud infnita por Iimitaciones de la actuacién, 20 dela comm etencia (For eemplo, nuestra memoria no permute recordar mas ali de un ‘numero limitado de elementos incrusados). Ala hora de escribir qramsticas computacionales a veces es recomendahie no hacer uso del padet de ls. recursividad y utlizar otros mérodes més controlades, Ademas de la recursividad de constituyentes, también podemes intro- Get una serie dle convencionas que mejoraran la capacisa! oxpresiva oe usstra cramitica a lempo que su fonmulacién es mas compacta Por sem plo, poclemos extender a las reulas la convancion ae la alternancia Ge ele mentes que Remos aplicado a las entradse lexices. Anélogamerte, pars Inde car qué constituyentes estén en alternencia ullizaremos las Uaves, 7109 Seperaremos mediante la barra, Per ejemplo: {ADI | SP | OREL} COREL es a variable para “oracién de relative”. Esta regla dice que esos tres consttuyentes estén en ailermancia (0 cistribucion complerentaria) 08 Gecir, que cada vez que se aplique la regia hay que escoger entre uno de eis, y en ningtn caso se pueden dar mas de uno ala ves, Silo que queremos es permitir los tres constiuyentes, pero a su vez que no sean obligatorios, entonces introduciremes una nueva convencion pats '2 opcicnalidad: los constiuyentes opcionales irén encre parentesis, (AD) (SP) (OREL) De este manesa, indicames que cada une puede aparecer o no, inde- Pendieniements de los otras Podemios combiner la altermancia y la epcionalidad, Por ejemplo (CAD) | SP | OREL)) Seseribe que hay un componente opcional es decir, puede aparecer 0 ne) ‘gue puede ser uno ds eos ies consituyentes Peuevey a3 e% =; ieees Como se adelanté mas arriba, la opcionalidad se puede utilizar para expresar la recursivided en a pare cerecha de la regia, Permitiende cero 0 més apariciones det mismo elemento: SN -> DET (SAD N GADP SAD) —> AD] (GAD) Con estas doe reglas desoribimes el hecho de que un N pusde estar modicado a la derecha y ala iquierda por cero o mas adjetvos ‘a gramética 2 mostrada en el cuadro 3.4 incluye ejemplos de recursi- vvidad, opcionalidad y alternancia. Con sélo una regia més, le gramética 2 genera muchas mis ctaciones que la cramética |. (Téngase en cuenta que Sungue se han afadido constituyentes nuevos como SADJ o OREL, varias reglas se har reunico en una sola) La figura 3.4 muestra algunas oraciones que reconoce y genera esta gramstica Cunns0 34. Gramstics 2 Desionan om ane ‘DET (eles |S una [ures [ash sev PRON: (yo |S] | ala | nosozos | vosoras | svevst aes} sv over Ne(Cyrane | Cali | Motte j coast | rariz SDV NSP, ‘aor | mena | poems jefe | ome SV 5VSPSP arcs | eser7i) 5 Sv>VSAD) AD} eran | ro | spo} St FON PRED (a0 | ox | on SSW-> (DED SAD) N(SAD}| SP|OAEL)| V: ene | ama [Rata | raqu> | es | est | 6) SAD} > (ADV) AD (0) SP) ADV uy} SPo> PSN PRONFEL: jue | quien) ‘OREL > PRONREL SY La cractn (8) es un ejemplo de sobregeneractén (0 sobreandiss, en su.cas0) 1a gramatca 2 8s capay de generar (y veconocer) muchas oraciones que son gramaticeles en espafol Nanwralmante esi as indaseable desde cualquier pur todevisa, e6nico y précico Se podria arqumeniar que es alamerie improba- bie que aga sistema se encontara alguns-vee con ura cracién sercejarte, ero cel hecho 6s que nuestra gramitica la reconoceria como gr ppor‘anto, mponer algin tpo de resurccién a muestra gramatica sine (ue dé cuenta exeluswvamente de las oraciones gramatcales del esrarol ee SP. ‘aoico PREP EN 1 a ON ' een eee | ieee my me ie web Loe Figura 34, Algunas oreclone generacas por Gramatca 2 Las dos restricciones mas comunes que aparecen en la mayoria de las ‘gramaticas son ias que tratan los fenémenos de concordancia y subcatego- Rzacién, £1 primero consiste en que varios constiuyentes de la oracién com. arten necesariamente una sene de rasgos morfosintécticos (numero, pe Sona. género, etc), Entonces se dice que estén “en concordancia’ Las lenguas Varian en cuanto a los rasgos que intervienen en la concordancia: se puede (DETFP) (ADJFP) NFP (ADIFP) Ademis da la perdida de legibilidad. se pierce la generalizacion que expresa la ragla unica par elSN. Tengase en cuenta que habré que volver inciuir la informacion de persona, necesaria para ia concerdancia con el verbe: ’ SNMPI > PRONWPL (pronombre mas, plural de I." pers. “nosots) SNFP2 + PRONFP2 (pronombre fem plural de 2* pers. “wosowres") SNVS3 + DETMS) (ADIMS) NMSS (FDIMS) (SN mas-sing de 3* persona) ete. x modificar las reglas correspondientes del SV y de la eracién O-SNMPL SVPL_ (concerdancia: purely |" persona) | (© {SNMS3 | SNFS3) SVS3_(concardancia: singular y 3.* persone) et. O00000: Esa solucién multiplica innecesariamente el nimero de reglas y de cate goriss. En una lengua como el ingiés, donde la comorcbacion de la concer. ancia es muy imtada, esta técnica es factinie, Por ejemplo, en los verbos tl plenos en presente la nica distincién es entre “cercera persons del singue | lar’ y “no ercera persona del singular"; en otros tempos m siquiera se da ‘A medica que la complejidad morfologica aumenta, este procediimiento es | completamente inefciente, Para la subeategorizaciéa podemos utilizar una téonics semejante amos 2 cada combinacion de complementas verbles un apo de vero cife- ‘enie, Sitomamos las cinco regias del SV en Gramatica 2, podemos adap- latlas de i eiguiente manera OOOO000G: Diccionario Vis (mons | corer) %verbesinmanstives Va (ver | tenet} Severbos con O Dit | sv-svasp | ve: tuatiar) Ye verbes.con O. Prep SVSYESNSP) V4 (regaies} Ye verbee con O Dire Incr SV -4¥8SP5P | VE: (ooger) verbos con 0. Incr. y rep VAVESAD} | V6 (oer | estar Ceo se isa la suscategonteacién de esta manera? Cada verko esté cleslcado fol cocionario sequin an céaigo (VI. V2, tc) y para que se aplique la correspondiente regia, es necesaric que se denis eres conde tones esctuaies sun verbo fare, que es tno V2, n9 posta comb. arse con un SP cemo ocurre en ia oracin (8, De eta manora, se concla ig asignacioa de complementos para cada verbo, Esta estrategia.a clleren. ‘ia de la que vimos er la concorcancia, tiene vertaias robot ce ak ee |. No supone ningun aumento innecesario de las ceglas gramaticales, 2, Ssmuchura ei diccionario en clases, capurando geferalizaciones estruc ‘uxales significativas, Sin embarco, hay sarios inconvenientes scbre este ‘mente sintactico de la subcategorizacién: 9) la subcategorizacién es un fenémeno basicamente lexico-semantico |g esmuctura cracional se predice en gran ‘icieo verbal, El tratamiento cue hemos presentado solo comprue~ ba siel aimero ce complemenios o su categerla son corvectos, pero ‘no controla las restricciones seleccionales que determinan la grama- tcalidad seméntica de una oraeiéa (por ejemplo, Calisto ama a un (elescopio seria aceptada por la gramatica) ; 15) No supone ningtin anorro de regles cramaticales. En cambid: una ‘aproximaciéa lencista (primacia del componente léxice sabre el gra- ‘iatical) puede reducir substancialmerre el aimero de tegias. Se vera enel siguiente apartado, gramiticas de unificacion y rasgos, Pero si para la concordancia y la subcategorizaciér hay soluciones par- ciales, para otros fenémenos caracterisicos de las lenguas naturales no hay manera de tatarles con una gramitica ei.acmatica, Nos referimos a los cons tuyentes disconunuos: aquelos constzuyentes que se muestran en mas de ‘una posicién estructural, es decir, que estén separadas por otros constitu. ‘yentes. Por ejemplo, oqué libro regalé Guis a su madre? Cualquier interroga- ci6a sobre algin constiuyente supone un “movimiento” o reordenamierto de los conatruyentes de la corzespondien'e cvacién afrmativa: Luis regalé un bro a su madre, Za arabos casos, el O. Disscto (el bra) forma parte de SV: tenia interrogativa, el Sujeta (Luis) se intercala entre dos elementos const ruyentes del SV, el Vy el SP Objeto Indivecco, Por supuesto, hay una manera prolja de registrar este ordenamiento de constiuyentes: escribir una regia para cada combinacién posible. Per ejemplo O>sOVSNSP ($Q seria un nuevo constiuyente intermedio, Sintagma Q, para is sintagmas donde aparetica algun elemento interrogalivo ¢ relativo. Estos sintagm: ‘estén encabezacios en espatial por pronomibres que empiezan por Q: qué, ‘quien, (ual, etc), En las lenguas sin un orden esrico de construyentes esta estraiegia se hace impracticable. El espafo! es una lengua moderadamente ibre en cuanto al orden de sus elementos; pueden ascribirse reclas para ta- ‘ar muchas combinaciones, aunque el amatie de la gramética alecta negati- vamente 2 ls rapidez de procesamiento y difculia el control de las restric La principal limitacién de esta estrategia es que se pierde la generallza- ign de la dependencia estructural entre os consstuyentes oracronales, que sla misma en una oracién afirmative, on una interrogative, o en una relati- va, Ese fue uno de los arcumentes de Chomsky nara defender la pertiner cia de las transformaciones: son capaces de describir eleganterente los ‘movamientcs’ de los conslinuyentes discontinuos superficiaies, En resumen, las gramaticas independientes dal contexco no son lo sufi- clentemente expresivas para formalizar fenémenos importantes de las len- ‘guas naturales. En la préctica, ningun sistema PLN de cierta cobertura util 18 a de este tipo de graméticas. Sin eanarmiles. como el uso de resgos, pocemos dar eeemany rndten Pane iMeMrsigiicatvamente el pocer compas ae gra BESS Pot eso. reconoce casi undnimemente sue ne gramaticas de unis. Mae {ed05 S00 elmodelo compuracional mal common Yrestnngido al ‘mimo dempo conocido hasta la fecha, Severs ene! siguiente gees embargo, sise aksden cier- $2.5. Graméticas de unificacién y rasgos Dentro de este térino se agrupa una clase bastante ampli de forma. cripscce ans Famalcaies cue se caracrer-zan por hevee compiejas des- genera gore males mediante a uso de rasqos por ake eperacion Senocdds oes 4Combinacién y comprobacisn dea ticrrae ‘gramatical, Sonosida por unucacisn, Flotigen de estos ormalismos '8Y aprnepios cs los ochenta en ‘aplcads por les alos sesenta). Por otra pare, algunos in. Senses MeCN con el modo ransiormaciona, cone acién, como PATR Jeoesormeliomos gramatcales do unicaciinde Soe (1986) res de paras Premera epoca, escrito precisamense por potas ope retsores do PATR El concepto ce unfeacen ee extenci@nds cts toes de craméncas irmales, come las gramiteas categoriales 6 las ors Ponae de aduncicn de tcbotes, De todasias aes dos modelos mas seats oi aetualdad son LPG y HPSC (Cramton Sitagmética Nuclear Ico gastado en los Gramaticales "basades Sosibles combinaciones de nies por medio de diferentes princinins $e Presentard en primer lugar ios dos malsmes Ferucras le rasges: son el mecentmo bisico da represeniin ela @y informacién, Le idea es que las unidaces linguisicas con elemenioe de ° informacion. Ea ese senso, podemos representa cualquier unidag in. lisa, desde ofonema a dscursarediante una esructura de ras e 190s. Una estructura de rasgos generalmente est formada por mas a> lun rasgo. Un raago es un par compuesto por un ambuto yun valor atrbut Leva el nombre que kteniica lage, Ambas pares se isin ‘guen por algtn signo de pentuacion. por ejemplo, “="0":"" Portanto e numero = plural: e e e 190, donde indicaros que dicha estructura tiene “plural” como valor asiguado al atriputo cee Hay dos upos de rasges, en funcién de eémo sea el ve See ee e e e estructura de rasgos, e e La dgura 2.5 muestra varios ejemplos de estructuras de rages. Figura 2S. Algunss esructutes de rasg 2. La operacién de uniicacén: a informacion contenida on cistintas eetuc- turas de rasgos se combina on una estructura nueve mediante la un ‘icacton, Para que ia operacién pueda producirse es necesario que las estucturas de rasges tengan informacién compatiole, puss en caso ccontrario no se unificarn (9s decir, no formarén ina estructura supe rior). La compatbllided entre estructuras viene dace por la naturale za de los rasgos que contengen, asi como pot la asignacién de los valores ales rasgos. La idea clave es que dos estructuras de rasges rho pueden tener valores distintos cada una para el mismo rasgo. Por ejemplo, para que Ay 3 unifiquen la estructura A no puede tener el rasgo “nlimero = plural” yla estructura 8 “aimero = singular", Esto les una contradiccién Si interpretamos los rasqos como funciones par- ales, entonces cada rasco en un contexte dado puede tener un Unl- co valor 0 estar inespecificado, pero no tener mas de un valor. Pr ‘samente una ce las caracteristcas de las esrucuras de rasgos #s que, salvo en la estructura unificada final, siempre hay algin valor no def ido, de ahi que se diga que las estructuras de rasgos son funciones pparciales. Esto permite que diferentes estructuras informativas pe dan cer combinadas coherentemente. Supongames que todos les r2s- {gos de cualquier estructura tuvieran asignado un valor concrete: eso es vercaderemente artiicial ya que, por ejemplo, zque valet asigna- rimos al rasgo "némero" de la palabra cnss?csingular?, :phiral? Lo ‘mas apropiade es dejarlo inespeciicado, de manera que sea la infor- maciéa del nivel sintagmatico ia que asigne el valor. Conczetamente, cuxando se combinen las estructuras del articulo y del nombre, por ejemplo, a crisis, la informacion proporcionada por el articule cendré‘nimero = singular”. que pedré unificar con la del nombre 7 “imero =?" (utlizamos el simbolo de imerrogacién para inciear que elvalor es desconcaice o inespecificado). 1a nueva estructura resul- tanta, el SN, tendra “mimero = singular Aquellos rasgos que solo aparezcan en una de las estructuras que se uniican, la nueva estructura los incorporar4 tal cual, Por tanto, !2 ssructura uniicada contendré mas informacién (sera mas especifica) ‘gue las estructuras hijas, ya cue combina la inormacién comin entre lias y también ia informacion diferente Se ejempliicard con el tratamiento de la concordanciay la subeategon- zaciéa. Como vimes en el anterior apartado, una gramética indepenciente del contexte maneja mal estos dos fencmens, Para expres las regias de ‘mifcacién utizaremes el formalismo PATR-I, porque su uso esta muy exter- dido en LC, es relaivamente sencilo y ademés existen programas granitos ‘que permiten practicar con pequeias gramaticas (consiltense las referen= 18 a eS ee Scars eect ses oS yas sno cpa oop nin te es fone one dem op oper SN— (DET (ADP NU (AD) | GP) ‘ = DET cone> = = ? de ranges Es Las resciceiones se exprosan mediane paths camnes de raago8 sa conten otal pra erie agro os esis de weasel Ur gece un cocuenca un oes aibuos (es dete nem EroGe os range) ancerrados ene angles (<..>). Por ejemplo, «DET Bre San que onic al aego concordanea (Cone) ena ctego- a DET Hay, cor tanto, una equivalencia entre ambas representaciones _ es equivalente a lg tee | Los paths se utlizan tanto para establecer restricciones sobre las regias, como para reer macros de tasgos, de las que se habler’ en el capitulo eae ano aa regl del ls dos ities expresore inccan cue a ‘alos do tasgo concotdaneis del DEY ye del AD] aebe ser igual al vals cal ere ae, adel En eat rag concoraancia es un 2890 cae onc riba cosgnanumorey gener Las aiguntes ents qr ttaa nee srncin de ele: Palabra la | Patabra hermosa = DET ‘cat> = AD) ne num> =siag.| _ SLaplicamos la regia a estas tres entradas, le unificacién de gus rasgos tendra éxito y so construiré el SN. Sion lugar del ceterminante [a hubiers- fos tenido el, entonces la comprobacion del path habriafala- o y no se hubiera construido el SN. Fi SN que resulta de la aplicacion de ‘esta regia toma el vaior de concordancia del N, Esto se expresa mediante = . La copia de rasgos del nicieo a su proyecciSn maxi- ‘ia es una caracteristica de muchas teorias linguisticas. La unuicacién pro- Dbablemente es el mecenismo més sencillo y eficiente de implementar com- ‘Putacionalmente el Principio de Proyeccién, Andlogameme, podemos emplear la misma técnica para expresar las Testricciones de concordancia entre oi sujeto ye! verivo principal 05 snsv: = <$Vcone> a primera restriccién establece que los valores de concordancia del SN tienen que ser iguales a los de concordancia del SV. Aqul hay que hacer ua precision: la concordancia extema compruebs los rasgos de niimero y per sona. En la construccién del SN que acabamos de ver no se asigna el rasGo de persona, En cambio, en el verbo necesariamente iene que aparecer. La uiicactén funcione porque cuando un rasgo no existe en algun consutuyerte ‘Ho es incompatbie con la informacién, Recordemos que le estructura uri ‘cada combina la informacién de todos les constituyentes, incorporande los fasgos que s6lo estén especificados en alguno de allos. Sin embarco, haria ta especificar “persona = tezcera”, en tedos los SSN, ya que su omision Permitria que unificaran un verbo en primera 6 segunda persona con un SN Sujeto en tercera: * Mi hijo nact en ese hospital Como nos interesa contro ar la sobregensracién, lo apropiado es buscar algin mecanismo que inccr- ore por defecto el rasgo “persona = tercera” automiéticamente en cual. uier SN que no tenga asignacio dicho rasgo, Selo en l caso ce que el ncles = SN = sujeto =SN = SP Esta regia contione una notacién egpecial el simbolo X es una verable aque se uiiza para rferzce a euler element terminal noterminal. los aumeros indican veriabiescferentes or sjompio.enlaragia se axpresa {ue cualeuiersiemento que aparezceinmecatamente dettés del V debore ser de ia misma categoria ytancion que os valores Gel rasgo complojo agi del V.Anélogamente el segunda consttuyente, Xe, endra a misma eatege- say ined que las especiicecas en el aago argd del V “as Vervajaddel uso dela variabie X son evicenites, ya que pecite cap turer generalidades. Es el caso de la subeategorizecien, por ejemplo. se Aeceste una nica recla para ids los pos, Fene al ratamionto expucsto onl seccién arcerior Sin embargo, is variables tienen que uitiatse con _Sidado. ya que pueden ser sustiuidas por cualquier elemento. ba regia de subcategorizacién expuesta es incompleta sila aplicamos a .guas Conde los consttuyentes oracionales no siguen un orden estict, fol. Se trataré este probleme en el siguiente capi {Uo al hablar del orden de consttuyentes, [gualmente hablaremos de otros fendmenos muy relevantes en cualquier lengua. como la coordina’ dependencies no acotadas, en la sece! 'ico. Ahora es el momento de recapiilar lo expussto sobre conocimiento guistice y dedicar algo de etencién a la parte puramente informatics. FOC OOCOSOSOHSEOHHOHHHHOOHHHHOSOOHOSS se:

You might also like