You are on page 1of 114
arararer “-Antonlo Moreno Sandoval 2] > i 3 < CY s Ye oO Pa bal Ee = LINGUISTICA COMPUTACIONAL Introduccién a los modelos simbélicos, estadisticos y biolégicos Reservados todos los derechos. Eté prohibido, bale nes penales ye! resarcitienio cw prev leyes, epreducrr, rectstrar o tarsmaity oa publicacién, integra o parcialmente por cusiquier sistema do recuperscioa y por cualquier medio, 4ea mecénico, alecwénico, magnetic, slecttoeplco, pot ‘eioeapia 0 par cuniquier ovo, ais la autorizacion provia por escrito de Ediorial Sitesi, SA. © Antonio Moreno Sandoval *TORIAL SINTESIS, $A. Vallenermoso, 34. 26015 Madrid ‘Teidfono $1 $35 2098 ip: steg.com epdsio legal M.36.709-196@ Impreso ens ZO nguajes declaratives 7 Grama jos novenia ascenso de los miodeles probanile Ideas principales de! capitu Indice Prélogo ° 1 Delimitacién del campo de la Linguistica Computacional 13 Lil. E modelo computacional det leagueje, 18 Liki, Necesidad de cescripciones previas ala modalzacién 1 E12 La imposibilided de agotar el estudio del lenguaje ‘con medics matematicos 7 computacionales, 20 1.1.3. La mente humana y los orcenaciores 21 LL. Informaciéa analégica e informacién distal 2 1.2, Relacién entre Lingiisica Teérica y Linguistica Compuiacional. 24 12.1 Enfoqu 24 12.2 Metodos 8 1.3. Aplicaciones de la Lingilistica Comeutacional a 16 les del capitulo 29 30 2, Panorama general de la Linguistica Computacional a 2.1. La Linguistica Computacionel come cisncia apliceda, El 22 Analisis y ce: 36 2.3, Reconocimiento y sintesis dei habia 31 2.4. Breve historia de la Lingtisica Computacional 41 2.4.1. Froblemas iniciales, a imeros sistemas funcionales 2 = @ Li aS 00000e0seess 0000088 OCOS 8. Modelos sirsbélicos I fandamentes: al 32. 33. 34 38. 4, Modelos simbolicos Il: el conocimiente lingiis 4 42. Insroducci6n 3.1.1 Perspectva histénica 3.1.2. Caracteristicas de los mocelos simbélicos Fundamentos tegricos; las cramaticas formales. 3.2.1. Tipos de gramaticas formales. 3.22 Lajerarqula de Chomsky y el poder formal de ias ora maticas Graméticas ragulares o de estados fnitos Grambsicss independientes del contexco Gramiticas de unufcacion y rasgos irucura de un sistenia PLN simbolic. 33.1 Métodos tie parsing 33.2. Algontmos descendentes en serie con backtracking. 335. Algontmos ascendentes en paralelo 3.34. Algontmos con chart Ideas principales del capitulo Ejercicice FSSs Graméticas computacionales. 4.1L. Precisiéa frente a coberwa. 4.1.2. Tres tpos de graméticas computecionales, Procesamiento morfalogico 42.1 Elmodelo de dos niveles de & Koskemniems 42.2. Moriologia basada en ls unificacion y rasgos 42.3, Comparacien entre la morfologia en dos niveles rorfologia basada en la unificacién Procesamiento sintéctico 43.1, Dependencias no acciadas © 2 lacga distancia. 432 ba coordinacion 433 Elorden de constiuyentes 43.4, Elementas nulos o vactos 435 Aigunos fendmenos tipicss del espadicl, 44.1. Consideraciones previes 442, Seméntica cracional 443. Discurso 444. Conocimiento del mince, Lexicones computacionales 45.1. Esiucnura de la informacie 45.2. Acceso a le informacion lexica 453. Tipos de lexicones computscionel 4.8. Cuestiones practicas 46.1, Consejos para escribir una graménca. 452, Broblemas generales’la ambiguedad la coberura y las excepciones. 4.1. Limitaciones de los modelos simbslices. 43. Idees principales del capitulo. 49. Bjercicics §. Modelos probabilisticos 5.1, tniroduccién histérica. : 52, Slatraciwvo de los mcxislos estedisticos. 5.2.1. Crisis de los mocielos racionalistes y simbélicos. 5.2.2. Expectatives del paradigma erpirsta y estacistico, 53. Modelacion esiacistics de las lenguas naturales, 53.1. Conceptos ssenciales de Probebilidad y Estadistica 3.32. Relevancia de ia exadisiica en of estudio det tenguale 3.3. La Teotis de la [nforraacién aplicada al lenguaje natu Méicdos estadisc 4.1, Probabildad & 22. Tecnicas basices: estimacién y evaluacion de propa bilidedes 5.443. Medelo de N-crames 35. Aplicaciones. 55.1, Reconocimiento de habie Desambiguacién lgxica y smtéctica Fngiadores eteCaES 54 Gramatces aintsomaticas probabilisicas ‘Traduocien automatca probablisuca basaca en gines- Limitaciones de los mocel Ideas principales del capinulo Ejercicios = siadisticos 6, Modelos inspizades en la Bioiogia xiorssm0) 1a asice 3.1, Redes neuronales ( 811.1, Elmedelo conexaeri 612, Aplicaciones La Compuracién Evolutva: los algorit consideracion marcinel ideas principales dei cepitule 108 ganéticcs: mw ial a3 ua? tae 150 153 154 188 187 1st 183 188 it Isl ee ig) 194 ies 203 208 208 208 22 218 219 220 228 22 207 1.1. Elpresente: la combinacién de métodos. 228 1.2. Eluruo. aplicaciones précticas sistemas dinksnicas y adapta- bles at 8. Bibliografa.. 8.1, Bibliggrafia selecta comentada 8.1.1, Obras generales 8112, Modelos estadisticos 8.1.3. Metodos “piclogicos 8.2, Bibliogratia mencionada. 83. Puntos de informacion en WWW. Prélogo Digimode caer, no 28 cl haar cons dena 1 aveces os msc ular un abel seeonbiiceysestvo. ato para hombse coma saa alaonader abl lenguae ferent e ctarscuar stracts ce ur Usermedario, Marin kay : (actvncidad esa cual nds univer ensign Exie bro ext dirigido especialmente a estudiantes de Linglistica y de Compulacién que buscas una introduccién al estado ce la cuesiién en los hos noventa, Los excelentes manuales clas.cos en la clsciplina, como Wine- ‘Grae (1985), Grishman (1985), Allen (1987;1995) y Gazdar y Mellish (1988). fellelan et conocimiento de ies afos ochemta. tratan casi exclusivemente de la aplicacion de madelos simbblices al tratamientc computacional del !en- ‘guaje Gumano. Sin embargo, ios roventa se han caracierizado por el signif ‘tivo impulso de los modelos probablliscos. basados en enormes corpus de dates. El presents libro de texro recoge las nuevas aporiacicnes y su com binacion en sistemas hibrides. que buscan el procesamniento mis efcaz de las emisiones ingtisticas. Paralelamente, a mediados de los ochenia ye habia un mumeroso grupo 6 investigadores en inteligencia Arilficial que tabajaban en una aproximia- ‘ion dierente a los modelos matematicos, en este caso inspirada en made- lana ura predicen sobre el Wzocercano ce os stemes de seostans anor eee peegeemerereas az de inode alos nests an un mova campo de conociiento. Le tulos centrales estan organizados segin el mi - chacion See ee aie rte er asta ert que al nuestro sir de acer p a roamiento a ls posibildades y imitsciones ce cada s2etodo, para lego pasar al estoco y apicacin de las teonias eepeccd ‘expuesas, por ejemplo, en los manuales de Gaadar y Melish > el ée Alon Qué conccimientes pravios se necesitan para empezar este sro? Dado que es un manual imrodtictoni, se asume que es un primer contacto o Ungitistica Computacional, Sin neck 0 en ouliuera ce os nros deere ca oe faculaces y escuelas espaiolas. a ta pare presente eo rodeos prizerce ets escrio an expel ye ona como teens since seme eae Sseafol Aurel bio de a Linguistica Computaciona, en senco., ede barca caso mucha de aienguas rules Inoue es oe ‘nguaereciiids league ecnneramere acres ewes (onto)gralica y aquellos puntos de mayor riqueza y ambiqniedad es al perecet una aencién especial Los masuclas nds conocicee reload _ idiosincrasias del procesam: restandi 2 Seta calibre dele eomjens2 womacndasoee ee © luscando la sintonia con los tiempos, esta intrc con ea inodvceon x0 ineloye una ‘cerca bibiograja Al coatane. solo une brave loa de toe aera os y comentados Ellaciorno se encontrara desprowso, sin emivargo, de iainlormasioa neccsara para seguir nvewigando por su cuetta: preporco~ Tis conju de aireccionce de interne cayo contenido es actuliza {e permanentamente, donde el lec puede encontrar toda la bblegrags commpiementania que neces. © a meyora do vabaios que fe publican en este campo ‘aia la nformact ima a toda la comunidad Sienifca Pazece que esta cada ver mas corca el finde as interrainables Siblogratns ecrpladas de cistae fuentes. generaimente de dil acce- b> aliompo que sada vou vemos més cerca el accesc al documento otig- fa) mostavo Geode muolos pumteros, Aloruradamerte e] acceso ala Li- {flstes Compstecional atuamente es macho ms fc amplio que Hace Guunce o vente aos, cuanco estaaliritado por la sponta iidad de recur Sees informacion, Los futgos lingisas computaconales, sn embargo, tie- den por delame ol musmo Gesafo que los poneros: conseguir que les orde- adores nos entendan hablendo nssra propa ‘engva Gin respec ala eaboracion cel loro el autor quiere exprossr ss agta- ecinianto «una sen de insnucones y personas, En cuanto & las prteras, debo moncienara os grupos de invesigacién y proyectos en les ue he pae- Sepedo: Unverscaa Aaidnota Ge Madre (arto enol proyecto Sufora como nal iaaoratrie de Linguistea informatics), el Cen de Investigacion de TBM on Mach. la Universtac de Nueva York (grupo PROTEUS) y la Us- vetsided Poltecnica de Madr (grupo ARIES de la ETSI ce Telecemsni Glones), Todes else me han proporcionado un Ambit murano y eientiico SSuejtabla. io que ha converte ia vestizacion an inguistice Compute Sion gn un pheee(e peser de os agooios dea bisqueda de fnanciacion) Bor ons pare esi into ae ha escrito sobre la base ce dos cursos impaz~ tides enia Universidad de Granda, we 1684 (@estacartes postgraduadios) tren 1007 fa ofoloaorea dela Unversicad Taras Shevehenko de Kies), Agra Usico suncecamente a Depastamento dedinghstica General de Cr conan y la oportunicac de preparardichos cursos, 942s ha si ‘renal pata encontrar el tone" ineoductoro de este manual Te lei para a Snal los agradecimiens personales a Marcos Marin, quien me dio la oportunidad de empezar airabejar =n Langulsice Computaricnal a meciados Ge los cenerta, 2aca més acaba mis fstucins de lcesciatura. Théephie Arinaciang, ost Miguel Got, joe Car les Gonealez Salph Grishman fore Maria Guirao, Catherine Macizod. Cn dna Olmeclsy Bean Whute han leice y comentedo racrrenios de! manuscr- 0, aus observacronesjuiciosas han servido para depurer a tea oigial Gomo se ie (y so cede) dect en estos casos sole el autor es responss- Slee ls eroces de contenido y forma, que permanezcan Delimitacién del campo de la Lingiiistica Computacional ES Esta disciplina trata bésicamente de dos cosas: lenguas naturales y orde- adores. Muchas lineas de investigacién comparten ambos objetves, aun que desde perspectivas diferentes, Hay una tradicion de mas de cusren'a alos ~los prmeros proyectos daran de los cincuenta y la Asscciauon for Com- ‘putational Linguisics, ACL, se unde en 1962 que ha ido modelando las t€c~ ices, los metodes y las aplicaciones de tai manera que finales de los noven- ta contamos con une buena perspectiva para establecer sus iimites con otras ‘punto de paride sera una serie de cuest (gusts Computacional (XC)? .Es ecuivaleate a pean (AD wr ra Lingtiistica? MA 1 NN fy 98 Vocal oral Vy es Vocal nasal, }“sevealiza como! i “en el context” (J, “eiferemtes opciones en disyuncién’” separadas por el simbolo () una opcien. N ‘posicidn inical abe es Nasal 25 la posicign que ocupa en el contexte la unidad mencionada, jempio 2: regles sintéctices ce la concordancia intema en espartol Dice el Esbozo: "La concordancia es en nuestra lengua la igualdad de genero y niimero entre adjetivo o articulo y sustantivo”. Este enunciado se puede exprasar formalmente con una regia sintagmatica independiente del Gontexto aumentada con una esiructura de rasgos SN > Den) ap Num =d] fum=<] fum=e] [Num = Gen=8] |cen=p| [Sen Gen La regla debe intorpretarse de la siguient no un determinante (epcicna), un adjervo (epcional) un nombre (ol Getora) y un adjetvo (epciona)). Log pardctesis indican opeionalidec, Las tor- ulas entre grandes corchetes representa informac atdcicas an formato de reego. Un rasco es un par estas regies solo aparecen dos rasges “Cen(ero)" y "Nim(ero) valores, se utiizan vaciasies (a 8) todos ios ae 1a repla Levan necesariamente el mismo valor para el rasgo en cuestion,inde- pendientemente de cul sea éste (por ejemplo, los velores para Num pus- denser e "singular “plural’) Este tpo de cediicacién formal les cramaticas de unifcacion, cue trate pico de ; _Enestos ejempios se ha visio ctx descripeiones expreeadas median te una lengua natural (aprovechandé 2! cardcter metalinguistico del propio Lenguaje natural) se han taducico a por eategrisiuacicns pr expres sone, te. reqio ese coca dato angnad aun ipo ce paren te an rlacion parcigrodtics con logos datos oo one atone dees cue pda cicrla misma atanucon Sete ce esc Giza de un ncn electors necesta de algin procecimiento «ue escoja al azar los dsosy os dsrnaya ones pocones cores Bondiones en os penance Nauralmente algunos ce los poms prodcidosienen cer aractvo pettico, pero ne pedemos considera que evios programm reproducen a Creatviied potica Cons un ste ampra us rates on peace we cates fodavis no consegua, po = 2 cnseziaa, porque para ello nabria que acl sone- eimiento del poeta pare escribit asemas. Coma ede les que aan escio aigune ver poesia saben, exe coroermiento io es fal Ge expcesat cons etertemente,y mucho mgnos de formalize Lo miso se pects ct Ge uh 20 programa que escribiera novelas pot +o Merati. la clave de ello esté en que cualquier obra literaria es més que la suma ce sus partes, paralraseando a ArisiSieles. No basta con tener una estructu- 12 y cambiat aus elementos constiuyentes por otros equivalentes. Una obra de creacién lteraria es un sistema complejo: cuando uno lo descompone en partes y las estudia por separado (digamos, los personajes, a wamta, el est= lo, elambiente, ec) su resultado, slo sumo, es una interpretacion percisl del contenido que transmite ia obra, Es probable cue aunque desmenuzéramos la obra en muchisimos componentes su reconstruccién nunca agotaria las interpretaciones posibles, como demuestran los milares de comentarios ct eos sobre Shakespeare o£! Quijote. Esta sttuacién supone un gran atract~ vo pata los estuchosos Iierarios, pero hace sospechosa (afortunadamexte) Jensin de creer un crftice bterario automético o un novelista com mn iteraria no parece un fenémeno formalizable loaica DS estacisticamente, a menos en sus aspectos mas interesantes. -28, 0 cualquier oto tipo de géne- 4.1.3, La mente humana y os ordenadores En cuanto a la comparaci6a entre la mente humana y un ordenador des- tacan dos factores: 2) Ambos son procesadores de informacién que pueden manipular sim- Dolos y realizar procesos complejos, incluyendo inferencia, aprenci- zaje de conociniterte nueva 7 toma de decisiones. a pamir de cono- Ccimiento anterior almacenado. ‘by La experimentacion con ei ordenador nos permite meninular. probar ax auesizos modelos sobre la ménte/cerebhro, Podemos lle- -xpucer les regularidades Ge los fendmenos linguisticos como encia Ce nuesira investigaeon con simalaciones cor ordena- leg oxdeaaioves.comaei cere: iidades oon un senifeante yuh ionados por convencién), A dilersncia de otros sistemas sim: Bis ol aebsa ola notacion musiea) que pueden ser ut cr hombee y es computacore,allengusje noe perme compuncar vated! do iermactan (eas parcepcignes, SenkeAt. eroias ripeiesia, oto) Uno ae los abativos Ae ia LC (plicite €] conccimiente inguistico a tavés.de ld Sitnulat Lauizacin de orderadotes como mecanisies queimkan a.or0s mecs- isms esta ls eles centveles de a ntegensts Arita Sus origenes Se pusden rasvenrncliso anes ce a pacién eal Glos orderadores un Shiela slates de Tune de 1957 dono sala consracogn de un ome purador pus pda miata oualguier ovo soecansm9 que com Dale sempre que cuewte con tina memoria dimada (a conocida méquine ao ati) Porat, desc es ongenes ce ns anadetes a sale ete iene conputedora se esablece enla exrucure legis. no ena bese fa. caobicegies Tr magerahabtual de implementa la smalacin 2 daiendo lpr: ceso simulado on componertes. Por ejemplo, cialquie: sera SIN etd ‘oryaninsdo on diferentes madulas: recSndcimiento léxaco y morfolégico, ana- Sip amaches,mterprotacion semdnica y sraqraatea La mayors Se estos ‘Seemas, ga embargo uiizen una esrategia ined que no se corcesponde Covel procsaatntie simulanea yen paralelo qu reaina nuestro cerebro Serena en nciscus a exons alae cichos componentes,par= ce.que-hay.muchas evidencias (sobre todo a parti de los experimentos de Ktasisis isomer octets) ce que consulaence smuénoamert a Sy compenen es ng Sileces 2a Ha eg aa ie Spanier de una aproniecion np SThinclonamiento neuzoral, que probablecpenterepresene la manera ws cana als siulacién del cerebro por parte de na computa at nueva cortent, vost por onorioiame o procesamuento dis- sinisio on parses supone una vss alernsttarescacnents strane 2 [a preseaiade por el paradigros mayortan us ulin a meteors men Bhatcopllo Sse ireducran sus patteamients ese 41.1.4, Informaci6n analégica e informacién digital Si emtendemos el lenguaje basicamente como un mecanismno de trans- mision y cocllcacién de informacion, podemos encontrar otrs anclocis con los ardenadoces, que son otto tipo de mecanismo para manejar informacion, Pensemos en ei proceso da sdqusicién de ifornacién del entomo por parte de un agente cognitive, sea éste un cerebro o una mage ‘ser und seh contin ela, foticamente a cualquier tipo de ‘que if nformacién digita’es una ene RHR BE Beden te no haya leldo £! Quote, que tata de “las aveaturas de un loco que ae cree Caballero ancante” eames haciendo una digitalizacién exema del conte- nido dela novela de Cervantes: obviamente £! Quijote trata de muchas més ‘cosas. Dela lectura “eortinus" de la novela, nosotros hemos extreido wi inormacion que hacemos expiicita de manera discreta. Con est informa- Chon questa interlceutor puede hacer poco (solo que pueds infers de com pies camo "loco" y ‘eaballero andénto") Sign lugar de eso le proporcic~ amos la novela, tent is oportunidad de extraer mucha més informacien {fief que nosotes e hemos dada, y con ida probablided cferente en par- te ala que nosortee hemes exraide de is lectia del libro, Nuestro ejemplo demasiado radical, por que conviene acarar algunos puns. Gus s2 aplica al proceso por fe Cualquies. ubo.A.un 25digg Pin ombpasionss de OY a ditaizac.On puede tener muchos gradce, y su definiion depends del nimero de bis de que conste cada elemento de! codigo. Si observamoe ‘figuras doncle se muestra la conversién de una onéa analogioa en digital y la representaci6n de una A impresa de manera coavencional frente ala propoteionada por una impresora digtal, podemos entencer que sila def- ‘baja el contorno es muy fragmentado, En cambio, s@ han conse- guido resoluciones digiales tan elevacas (en discos compactos y en unpre. nes laser) que apenas se cistnguen de sus modelos analégicos originales, Silo aplicamos a nuestro (exagerade) ejamplo de B! Quijote, as como si en relonarames a nuestro oyente un lo, Una edicign critica, de alguna forma, 6 "cigitlizar” loess anacerlacscre- tay explicta), En este sence tendriamos que hablar de aumemo ds info macién, no de perdics. En cualquier cas6, utlizamos la dicotomia analoc+ solcigital an ua sentido muy amplic. Figura 1, Repressctacionee analogies yeu ce una onda y de un caries ipograi. ion de informacida implica una conversion de in “al Baie proceso se dice ~Siguiendo a Devlin (1981), podernos deci que [a extraceién 9 adquisi- ‘on anelSgicn en digi: dos tapas: (1. Becconsise. durante le cual el agente : al el agente cogmitivo (cerebro 0 mécrina) |) sede irezanenie aia react enernpormacio dein ) 2. Cogaicién, durante la cual el agente selecciona elementos especifi- ‘Ga itbemacton de! coninaum Es cuando se produce la conve sién analogico-~} Feccnozea las preguntas de los usuarios y otro que genere respuestas. UR , S sistema de traduccién automética, por otra parte, se compone de un anali-* Cader de la lengua fuente y de un generador dela lengua meta. También nos’ ppodemos encontrar con sistemas que sélo tengan el componente de reco- oskiente por ejemplo, la mayoria de los sistema ce recuperscion o exrac-( ‘aién de informacion del texto. 2 _Hlacen faa dos dpos de conocimiento diferentes, uno para aniiss y otro para Generacion.o pomismp fuente de informacion nati ‘ea para ambas tareas? Descio ol punto ce vista tstrico €3 HusTos Cofmponentes INGUIN. ET arGUMents Ciidamertal es ia 6cO-_ ETE. Ya ue toner rogiascferertes para cada ‘area os mas com Toss (ano computacional como palcolégicamente) que utizar el mismo conc- cimiento pero distin lonma de procesarlo la practica, sin embargo, muchos investigadores en LC no estén de acuerdo con's ettiencia Teed Tee nFSBleias cu Jaen en Genet eniid son cistirtos dé los cé! andliss, incluso para ~ plinismg tips de dominio. aaa El argurcen's de [6s paridarics de distintostipos de conocimento se bbasa errststierde que somos capaces de reconocer més oraciones de las ‘que poderos elaborar. Esta afsmacién es bastante intatva, aunque ag esta abanico (Gd) N+ hipopétamos Go) Ns lberades ois habia y price e separa ents rls ea rama y ag paras en un componente apare, et cisconai leccéa Conia egas de lac podemce generar sintagias nomiales muy sea ios, como "el abana" "oshipopéamos" ots oeradas” (por spss te, combiagcones agramatcales coma "us ahanico' "el papstenes” Wtulberades" se ratard esta cueesén one aparada 92.4) En general una gramdcaG genera una engin {G) Sate varios soos de graatas generaavas, dopendendo dela forma de las cadonae 2 9 ea la resin, Cacatpo ce gramaea iene reas con una forma ca Lee gramtens de certo tipo generanlenguss del cortespondente. Dicks de oa manor, eltipo de determina ol tipo de L(G), Chemsky estaba ne clasicalon de tpos de gremaacts quo se ha ech anoas on nes bre de su creacer la jearque de Chonsty a jearqia esd ergenzada de acue/do cone poder generative db i coneepiode poder generavo o formal se utiea para elecrse aa cae. dad de precction de una ramiscn in concreta ol poder guneraio Seal conciee a qué ipo de orocones puede resnvcer a ramalcn smo gt maticales. = a Hay cutotpos de gramdtias generates (lenominados eo tipo | te doo 3, cada uno dato por ia cae de ean que contove Seat 12 de une jocarqus tmplieatva, de srod ques inngeas Gefnican gor gra ipaias dal pow ncluyen a toda la lengeas Ge ipo-t+ 1) donde pues desert, 10 Dicho deca manera, Tipo 3. Tipo 2< Tipe 1 < Tipo 0 #5 decir ipo 8 es un subconjunto de (o esta ineluido en) tipo 2, ec tanto, las gramétteas de tipo 0 son las mas poderosas y las de tipo 3 ‘as mis restingidas, Antes de pasar a analzar las c2racierisicas de cada tipo 6 pertinente saber las razanes por las cuales se utliza esta jerarquia. La ‘Suestién puede formularse ce una manera simple: tenemos cuatro apes de Gtamaticas, ccudl es la més apropiada para escribir formalmente las len- (Guas naturales? Todo el mundo esta de acuerdo en que la respuesta debs Conjugar des propiedades: 56 |. Expresividact la gramatica tiene que ser lo suficientemente poderosa ‘como para abarcer todas las construcciones pasibles en las lenguas naturales 2. Nosobregeneracion: la gramélica tiene que ser sulicientemente res- tringida para no permtir como valides construcciones agramancales Estos dos requisites se deducen de la definicion de gramatica generat- ‘vai mecanismo para determinar todas y sélo aquellas otaciones gramatica- les de una lengua. Estas condiciones son ideales ya que combinan-expresi- Vidad y restricesén al mismo tiempo, ago no conseguido en la préctca. Ahora bien, si todo el mundo esté de acuerdo en los requisits formales, hay gran iscrepancia en cuanto alas argumentos a'faver de una uotra clase ce gra- mélicas debico precisamente a la dificlted de consequiries en una sola teo- tla, Hay gramaticas que son mas expresivas y otras que son més restring!- dag ya mayoris busca el equilibrio mas eficaz. Hagamos un breve repaso Gel esado de la cuestién: — Chomsiy defend en sus primeras obras, especiaimente en Estuce ‘ures saaccas (1850), fa madecuacion dels Gramaticas de extados fntos y de as indepencientes del corteto por fata de expressed se fue su principal angumento para defender las gramaicas wans- tsmaciondes yo gue ete soon copece aaa odo os on renos de las lenguas naturales, Ese argumento fue muy cuyente Gurante dcedas en Linguistica, cesterrando del panorama 2oico & ins menatonadas Gramatcas Sin emoargo, en Computacon as Gra- rraticas de estado Sritos incepencientes del context sigueron stendo estutiadas por su apbcacion alas lenguas arifciales — £1973, on un artouloupluyene, Ptors y Rrchie demostsron que eee a eee eee mins Caran equivalertes en poder formal alas maquines de Tung que significaba que con aquelas graméticas se paca fomaliza odo lo que se quisiera ormalizar. Ss docs, I argumentacion anora iba con- tral sgbregeneracién de las gramétcas transiormacionales, Sil poder expresivo es excesivo.entonces hay qu apicaraigin too de resticciOn. La nocién de resiniccida se utiliza en teoria cramatcal para eur cone! principal objetivo de una tees nguistica que es Pro- porcione tra expicaién edecuaca eiigienco de as potencies =~ mhaticas que dan cuenta de ics fonémenoe inguitices la e menor poder o mée restincida. = concopto de resmccign ext Uy ado con le idea general eplicable « toda ciencia de cons teorla lo mds simpie y elegante posible La consecuencia de exa ‘domostracin fe ia miposicion de imataciones cada vez mas Nores La razon més importante, 2 nuestro juicio, es que no existen tipos puros de gramaticas (Ge igual forma que hasta ia fecha no se han encontrado paré= sos Generales para distinguir distintas clases de lenguas cos sistentemente y a todes los niveles) En ia practes, las gramaticas formales se van modificando sequin las necesidadees particulares: se introducen res- mricciones para reducir su poder ose incluyen extensiones para aumentar su expresividac. Como consecuencia, no se puede decidir facimente siuna grs- mética pertenece a un tipo o a ctr, y sus propiedades marematicas son més difciles de conocer. Por tanto, la distancia entre las Gemostraciones tedricas ¥ las realizsciones practicas es ten crande que normalmente no se tiene muy en ‘cuenta als hora de desarrollar un sistema de PLN. Unhhecho que hay que tener en cueata, por otra parte, es que tampoco todos los linguistss estan motivados de la misma forms por las propiedades lormales de las gramaticas que escrizen, Noa Chomsky, por ejemplo, que fempezé desarrollando la eoria de las lenguas formales, ha ido dajanco p: latinamente de interesarse por esta cuesion para concentrarse en oto ipo de adecuacién gramancal la explicacin de cérmo un nifo aprende su len- gua. El propic G, Gazdar. que en los afos ochenia estaba muy interesado por la propiedades matemaicas de las graméticas, twabaja en la actualidad sobre aspectes diferentes Euidentemente, la adecuacin formal ya complejidad computacional hart dejaco ce ser un tema importante, como lo fueron en ls década pasada. Est relleja tambiés Ia evolucion desde una evapa de fuerte teorizacién a ctra mas onentada a la cbtencion de resultados practices. 2cr otra parte, lateoria de las lenguas formales esté incompleta, asi que probablemente en él futro vol- vers a ser tr tensa invesiigacion. El cuadro 3.1. recoge los cuatro tipos de. lacién con Tenguas y autématasilin aulémaia es un mecanismo abstracto que cealiza operaciones ozre’Gna cadena de énirada. Log autématas se f pertenece a und lengua Los autématas se clasifican en clases segun el ipo de lengua que reconoe cen. ~ : ‘Teoria deios Ausématas y la Teorla de las Greméticas formales ienen un estructura sumular aunque traten de cosas diferentes ~procecimientos y gramaticas respeciivamente-. nivade la investigacién de las rels- ciones @ orfas: las graméticas generan un tipo ce lenguas y los utématas reconocen un tipo de lenguas. El punto de conexién entre gre maticas y autématas esté en las lenguas. ‘Se adoptara una perspectiva aplicada en los dos anartados siguientes Se trateran tnicamente los dos tipcs mencs poderosos porque son los mas uilizados y més conocides en compuracién Reccién y Ligemienso, en los afios ochenta, las transformaciones se redujeron a una unica: Muévase-c. El programa Minimista de los noventa insiste alin mas ena reduccisn del aparato formal. — Poralelamente a ls evolucién de las gramaticas transformacionales hhecia modelos mens poderosos expresivarrert ‘fio ochenia surge una serie de Investigaciones, encabezadas por la figura de C. Gazdar. que pretence revisar las crticas inicialos de ‘Chomsky als iadecuacién de las gramstices independiestes del con texto, Por una parte, cuestionan la necesidad de ‘ener dos estructr- ras sintecticas Clferenciadas, proponiendo la elminacion de la estruc- lura prolunda y consecuentemente de las transtormaciones que relaionsben amboas estructuras, Por ot pare, defiencen que las gra- maiicss ind=pendientes del contexte pueden dar cuenta de la inmen- ssa mayoria de las estructuras inglisticas conocidas. De hecho, hasta la fecta sélo se conocen dos lenguaa que contengan ciertos fendme- nos intratables por les gramaticaa independientes del context. E.dia- lecto suizo del aleman es una de ellas, come demostro Shis 1985. — For su pane, desde cistintas posicion dido dlimamerte ‘fequlares (0 auid- ‘Bara tratar de manera of ‘spec tos de las lencuss naturales. Por ejemplo, Koskenniemi Sropus6 en 1983 ei modelo mis ullizado hasta a fecha pard er procesamien: morfolégics. Su Medele de Dos-Niveles se basa en la utlizacioa de automatas Enos para reconocer y generar formas cramaticsles. Tam bién el modelo probabilisa mas empleado, los n-gramas. no es ota cosa que un autémata con informacién probabilista (as cadenas de Markov) La arumentacién en estes casos no es de naturaleza for- mal, sino de eficiencia computacional: la gramética més adequada serd le que permuta dar cuenta del procesamiento linguistico en te po real, es decir, a gramética més eficien'e. Hay una relacion lsenca, aunque no demostrads, entre gramatica mis eficiente y gramatica menos poderosa, En ese sentido, una cramndtica incesendiente sera preferile a una transformacional.y una gramanca regular lo seré an Ellector se preguntara como os posible que haya tanta discrepancia en ie tema, aparertemente tan esencial desde una perspective teSrica y com puizcional: obviamente, al inguista tebrico necesita controlar ei alcance de sus predicciones, y el lingtista compuracional quiere conseguir al metodo mas eficiente para iratarinformatcamente una lengua natural

You might also like