You are on page 1of 0

12.

A NYELV S A SZMTGP
1. A szmtgpes nyelvszet vagy jabb nevn: a nyelvtechnolgia olyan
mszaki tudomny, amely a termszetes nyelv szvegek szmtgpes fel-
dolgozsval foglalkozik. Nehz ennl szabatosabb meghatrozst adni,
mert valban minden olyan elmleti s gyakorlati (leginkbb programfej-
lesztsi) tevkenysg ide tartozik, amely kapcsolatban van a termszetes
nyelvekkel. Ez pedig rendkvl szertegaz szolgltatsokat takar.
A fenti meghatrozst szkteni kell kiss, hiszen a termszetes nyelven
rott szvegek mr vagy harminc ve jelen vannak a szmtgpen, teljesen
magtl rtetd mdon. Elviekben teht a nyelvtechnolgia vilgba illen-
nek azok a kdolsi, megjelentsi eljrsok is, amelyek lehetv teszik, hogy
a szmtgpen egyltaln szveget brzoljunk. Megllapodhatunk azon-
ban, hogy ezeket az alacsony szint eljrsokat nem tekintjk a nyelvtechno-
lgia krbe tartoznak.
Azrt ilyen nehzkes a nyelvtechnolgia mint tudomny vagy mestersg
meghatrozsa, mert interdiszciplna, vagyis olyan szakma, amely tbb ter-
let eredmnyeire s tudsra pl. A nyelvtechnolgia az informatikt, a
nyelvszetet s a matematika egyes gait (formlis nyelvek, automataelm-
let, statisztika, halmazelmlet) kti ssze, s nha nem tudni, egy adott prob-
lma tisztn informatikai vagy nyelvtechnolgiai-e. Tovbb bonyoltja a
helyzetet, hogy a formlis nyelvek s az automatk elmlete (a matematika e
kt ga ll a legkzelebb a nyelvszethez) rsze az informatika legfontosabb
elmleti alapjainak is.
Tiszta helyzetet teht gy teremthetnk, hogy nem tudomnyelmleti, ha-
nem kizrlag gyakorlati cllal alkotunk defincit: eszerint pedig a nyelv-
technolgit azok az elmleti s mszaki tevkenysgek alkotjk, amelyek r-
vn a szmtgp kpes termszetes nyelv szvegek ilyen vagy olyan
feldolgozsra. Ha a mindenki szmra lthat szolgltatsokat nzzk, ide
tartozik termszetesen a gpi fordts, a gp s az ember kztti termszetes
nyelv kommunikci, de ennl egyszerbb dolgok is, pldul a helyesrs-
ellenrz programok s rokonaik, illetve a szmtgpes sztrak s rokonaik
s az internetes keresrendszerek egyes szolgltatsai is. A nyelvtechnol-
gia persze mindemellett tudomny is, tbb knyvtrnyi szakirodalommal, se-
regnyi elmlettel s kutatsi mdszerrel, amelyek mind a nyelv szerkezetnek
gpi modellezsre irnyulnak.
171
A kvetkezkben alapveten kt krdsre prblunk vlaszolni: elszr
arra, mirt olyan nagy problma a szmtgp szmra az emberi nyelvek
megtanulsa; msodszor arra, hogy mindennek ellenre milyen nyelvi szol-
gltatsokat vrhatunk mr most, illetve a kzeli s a tvoli jvben a szm-
tgptl, illetve azoktl a berendezsektl, amelyek szmtgpi feladatokat
kpesek vgezni, vagyis van bennk szmtgp.
2. Emltettk, hogy a nyelv terletn a szmtgp s az ember kztt ha-
talmas a szakadk: az embernek veleszletett kpessge a nyelvvel val bn-
ni tuds, vagyis kezdettl rendelkezik azzal az appartussal, amely lehetv
teszi pldul, hogy megtanuljon beszlni. A szmtgpnek ezzel szemben
semmifle veleszletett kpessge nincs; ha teht meg akarjuk tantani be-
szlni, ltre kell hoznunk rajta az ehhez szksges htteret. Ennek szmos
akadlya van: arrl akr ne is szljunk, hogy a pszicholingvisztika s a neu-
rolingvisztika ma mg nem rendelkezik olyan rszletes ismeretekkel az em-
ber nyelvi mveleteirl, amelyek tfordthatk lennnek a szmtgp nyel-
vre. Legyen elg arrl beszlni, hogy a nyelv szoros kapcsolatban ll az
ember vilgismeretvel; arrl, hogy a szavak s a bellk felpl kifejez-
sek, mondatok, szvegek semmit sem rnek azon kapcsolat nlkl, amely a
nyelv elemeit sszekti a vilg dolgairl alkotott kpnkkel. A szmtgp
ettl kezdve dupln htrnyos helyzetben van: sem veleszletett nyelvi k-
pessge, sem vilgismerete nincs. A szmtgp s brhogy rnyaljuk is a
kpet ksbb, a lnyeg ugyanaz marad a benne trolt szveget szmkdok
sorozatnak ltja, semmi egybnek. Ha teht el akarjuk rni, hogy a mienk-
hez hasonl nyelvi kpessggel rendelkezzen, egyszerre kell nyelvi appar-
tust s vilgismeretet adnunk neki, mr amennyiben ragaszkodunk ahhoz,
hogy ez a kett sztvlaszthat s egymstl fggetlenl kezelhet. A nyelvi
appartus dolga mg akr rendben is lenne: a kvetkezkben azt ltjuk
majd, hogy a legtbb szolgltats a nyelvi appartus felsznes modellezsre
pl, s nemigen hasznl fel semmilyen vilgismereti elemet. A vilgismeret
gpi brzolsnak kutatsa s ennek a gpi kommunikciban val alkalma-
zsa nem nyelvszeti krds, de a kutatk tudatban vannak ennek a terlet-
nek a fontossgval, s jelents haladst rtek el az utbbi vekben.
Ha ilyen nehz a gpet megtantani a nyelvnkre, mirt kveteljk tle
kezdettl fogva, hogy segtsen a nyelvvel kapcsolatos feladatainkban? Ke-
vs az a vlasz, hogy az ember ambicizus lny, s szereti a nehz probl-
mkat. Inkbb az a helyzet, hogy a mi nyelvvel kapcsolatos munknkban
akadnak idegl, unalmas s munkaignyes feladatok is ilyen sokszor a
fordts, a szvegkeress vagy a szvegek javtsa , s a szmtgptl
megszoktuk, hogy a nehz, de egysk szellemi munkban nagyon sokat
tud segteni. Most mondtuk ki a kulcsszt: segteni s nem helyettnk elv-
gezni s ami ezt a segtsget illeti, mr ma is nagyon sokat kapunk a gptl
a nyelv terletn is.
3. Az informatika kezdetben a kivltsgosok szakmja volt: a legegysze-
rbb szmtgpes mvelet elvgzshez is jelents szaktudsra volt szk-
sg. Amikor a nyolcvanas vekben tmegesen elterjedtek a szmtgpek,
172
IV. A NYELV S HASZNLJA
get problmv vlt, hogy a szaktudssal nem br felhasznlnak gyakran
arnytalanul sokat kell tanulnia, amg igazbl hasznt tudja venni a gpnek.
Ennek oka egyrtelmen az ember s a gp kztti kommunikci mdja:
napjaink szmtgpnek mg mindig rengeteg tbb szz kezelszerve
van, s ezek rendszere csak rszben hasonlt az rgp kezelszerveihez (s
azokrl a felhasznlkrl sem szabad megfeledkezni, akik rgpet sem
hasznltak azeltt). Br a programok az utbbi idben egyre intuitvabb ke-
zelfellettel jelennek meg, amelynek viselkedst httrtuds, azaz msza-
ki ismeretek vagy specilis nyelvtuds nlkl is meg lehet rteni, ezek mg
mindig jelentsen klnbznek az ember termszetes kommunikcis esz-
kzeitl. Egyfell teht alapvet clnak kellene lennie, hogy a szmtgpek
kommunikcijt igaztsuk az emberhez, s ne fordtva. Msfell viszont az
is igaz, hogy az emberisg, intellektulis fejldse sorn, kpes volt j kom-
munikcis formk megtanulsra: erre nyilvnval plda maga az rs.
Egy sz mint szz, a nyelvtechnolgia szempontjbl klnsen rzkeny
terlet a termszetes nyelv ember-gp kapcsolat kutatsa. Itt ugyanis a gp-
nek nem elg felismernie a nyelv elemeit, valamilyen mrtkig meg is kell rte-
nie a felhasznl kzlst. Termszetes kommunikci esetn amikor a fel-
hasznl szabadon beszl ugyanaz a kzls sok klnbz formban
megjelenhet: a szmtgpnek tulajdonkppen valamennyi vltozatot elemez-
nie kell, s kpesnek kell lennie arra, hogy felismerje bennk ugyanazt a tartal-
mat. Ennek megvalstsa mr jelents nehzsgeket okoz, s ezt csak fokozza,
ha a felhasznl nem rja, hanem szban kzli a gppel mondanivaljt.
A szmtgp jelenleg kptelen arra, hogy mlysgeiben megrtse a felhasz-
nl kzlseit. Azonban a felhasznlt is, a gpet is be lehet csapni. Sok
olyan, a felhasznlval termszetes nyelven kommunikl program ltezik,
amelyek nem trekszenek a felhasznli kzls rszletes elemzsre; ehelyett a
felsznen utnozzk a folyamatot, rendkvl egyszer kzelt eljrsokkal,
amelyek rvn a felhasznl az esetek tbbsgben mgis gy rezheti, a gp
megrtette t. Mindez felveti az emberi nyelv gpi brzolsnak legalapve-
tbb problmit: a kvetkezkben ezeket prbljuk meg sszefoglalni.
4. A gp a nyelvet szvegknt, st betk sorozataknt rzkeli. Kezdjk
azzal, hogy a szmtgp szmra elssorban az rott szveg rhet el. A be-
szlt nyelv gpi brzolsa egyelre munkaignyesebb s kevsb pontos;
nehezebben rhat t egyrtelm, jl feldolgozhat formba. A gp szmra
az rott szveg szmkdok sorozata, ahol az egyes szmkdok betket s
rsjeleket kpviselnek. Ha a szveget nemcsak trolni s megjelenteni kell,
hanem fel kell ismerni a benne lev nyelvi szerkezeteket is, belpnek a nyelv-
technolgia eszkzei. Amikor az a krds, milyen mdon ismerjk fel a sz-
veg nyelvi szerkezett, a nyelvtechnolgia alapdilemmjhoz rkeztnk. Ez
voltakppen kt irnyzatot jelent: a szably alapt s a statisztikait. Ezeknek
az irnyzatoknak az elemei a mai kutatsokban egyre jobban keverednek, s a
hibrid megoldsok jobb eredmnyeket is szolgltatnak.
Az alapkrds az, hogy adunk-e elzetes nyelvi tudst a szmtgpnek a
szveg elemzshez, s ha igen, milyen mlysgben. Az elzetes nyelvi tu-
173
12. A nyelv s a szmtgp
ds tadsa azt jelenti, hogy a szmtgp programjba olyan szablyokat r-
nak, amelyek az ember nyelvi vagy nyelvszeti tudst tkrzik, lekpezve a
szmtgp programozsi nyelvnek lehetsgeire. Ekkor a szmtgpes
nyelvsz a sajt nyelvrzke vagy nyelvszeti tudsa megfelel forrsmun-
kk alapjn fogalmazza meg a szablyokat. A szablyok gpi megfogalma-
zsa ltalban tbb-kevsb megfelel valamelyik matematikai nyelvmodell-
nek. Nem szoktuk ide szmtani, de voltakppen emberi httrismeret az is,
hogy az rott szveg szavakbl, mondatokbl (bekezdsekbl stb.) pl fel.
A szavak megklnbztetse az els krben igen egyszer: ha ismerjk a
szkz szmkdjt, elg egy programot vgigfuttatnunk a szvegen, amely
kiemeli a kt szkz kztti elemeket. Ez a szegmentlsi lps olyan egysze-
r, hogy tulajdonkppen nem is tekintik nyelvtechnolgiai mveletnek pe-
dig egyltaln nem magtl rtetd, magasabb szinten, pldul a monda-
tok sztvlasztsa esetn klnsen nem. Amikor a szmtgpes nyelvsz
nem ad elzetes nyelvi tudst a szmtgpnek (legfljebb segt szavakra
bontani a szveget), akkor a gpen olyan eljrsoknak kell futniuk, amelyek
fel tudjk ismerni a szvegben nmagukban megjelen szablyossgokat, is-
mtld mintkat. Ezt ltalban statisztikai szmtsokkal rik el, de az ered-
mnyt gyakran formalizlt nyelvszeti informciv alaktjk.
A kt megkzelts abban klnbzik, hogy az els esetben az ember
nyelvrzke s nyelvszeti tudsa alapjn elzetes hipotzist llt fel arrl,
hogy a szvegekben milyen nyelvi szerkezetek lehetnek: ez tulajdonkppen a
nyelvi kompetencia felhasznlsa. A szveg elemzsekor a szmtgp e sza-
blyok jelenltt vizsglja a szvegben, s a nyelvsz ennek eredmnyvel
igazolja vagy veti el a hipotzist. A msodik esetben azt vizsgljuk, milyen
jelensgek vannak a szvegben, s a felismert mintkbl, szablyszersgek-
bl fogalmazzuk meg nyelvszeti szabatossggal az egyes nyelvi jelensgek
lerst. Ez pedig tulajdonkppen a performancia, vagyis a ltez nem pedig
a lehetsges szvegek felhasznlsa. Az utbbi esetben ahhoz, hogy megfe-
lel kvetkeztetsekhez juthassunk, elbb rendkvl sok szveg elemzst
kell elvgeznnk. A nyelvszeti kutats cljbl sszegyjttt nagy tmeg
szveget korpusznak nevezzk, azon jrszt statisztikai mdszerek egyt-
tese pedig, amelyekkel szablyszersgeket keresnk, a korpusznyelvszet.
Ebbl a tisztn statisztikai eljrsok pedig a nyelvstatisztika terlett alkotjk.
A kt megkzelts egytt alkalmazhat a legjobban. Az elzetesen
a nyelvi kompetencia alapjn tadott nyelvi tuds htrnya, hogy spekula-
tv jellege miatt nem teljes, s hinyossgai nem jsolhatk meg. Ez a nyelvi
tuds mindazonltal rendkvl rtkes, gy ha valaki kizrlag a msodik,
korpuszos, statisztikai megkzeltst alkalmazza, eldobja a nyelvi kompeten-
cit, s tulajdonkppen szndkosan mond le olyan tudsrl, amelynek rvn
sokkal jelentsebb eredmnyekhez jutna.
5. Mindenkppen igaz, hogy a termszetes nyelvekben szablyszersgek
vannak, s a szmtgp a szvegekbl gy tud a betk s rsjelek kdjn
tl informcit kivonni, ha ezeket a szablyszersgeket megtallja benne.
Amikor a szvegben felismer egy-egy olyan rszt, amely megfelel egy vagy
174
IV. A NYELV S HASZNLJA
tbb korbbrl ismert szablynak vagy mintnak, megjelli valamifle abszt-
rakt jellssel (ennek a nyelvtechnolgiban szabvnyai vannak). Ezt persze
csak akkor tudja megtenni, ha a szmtgpes nyelvsz vagy nyelvtechnol-
gus lerja e szablyok gpi modelljt, vagyis a programot arra, hogyan lehet
azonostani a krdses szvegrszeket. Az eredmny olyan eljrsok egyt-
tese, amellyel a gp fel tud ismerni meghatrozott nyelvi szerkezeteket.
A nyelv a gp szmra is lehet rteges szerkezet: kln rjk le a szavak,
s kln a mondatok viselkedst. A sz s a mondat kztt tovbbi szintek
is lehetnek, amelyek a mondatok meghatrozott szerkezeti elemeinek felel-
nek meg. A nyelvtechnolgia kt legalapvetbb lersi szintje a szmtgpes
morfolgia s a szmtgpes szintaxis. A gpi morfolgia clja, hogy az rott
szveg szavait elemi alkotrszeikre (morfmikra) bontsa, s megjelentse az
egyes alkotelemek bizonyos nyelvtani tulajdonsgait. A gpi morfolgia
mindig egy meghatrozott nyelv szalakjaival foglalkozik. A legegyszerbb
gpi morfolgia olyan sztr, amelyben az adott nyelv szalakjai vannak fel-
sorolva, mellettk a lehetsges felbontsok s a nyelvtani informcik. Van-
nak azonban olyan nyelvek, ahol a toldalkols s a szsszettelek rvn
olyan sok szalak jhet ltre, hogy a mai szmtgpeken egyszeren nem
frne el a lista. Ilyen nyelv Eurpban a nmet is a bonyolult szsszette-
lek miatt , de a problmk nagy rsze az olyan agglutinl nyelvekbl szr-
mazik, mint a finn, az szt, a magyar s a trk. E nyelvekben elvileg tbb
millird klnbz szalak ltezik, de ms, toldalkolst alkalmaz nyelvek-
ben (pldul a lengyelben) is tzmillikra rghat. Egyszval, a gpi morfol-
gia bonyolultsga mindig nyelvfgg.
A morfolgiai felbontsbl elviekben megtudhatjuk, hogy egy adott sz-
alaknak mi a szfaja, milyen toldalkokat tartalmazhat. Nagy problma vi-
szont, hogy ez a rszegysg (szakszval: modul) minden szt kln, a kr-
nyezetbl kiszaktva vizsgl. Emiatt a gpi morfolgia nem tudja
megmondani, hogy a szalak ott ppen milyen szerepet tlt be, csak azt,
hogy a krnyezettl fggen milyen szerepeket tlthet be. Plda:
termet:
termet [FNV] = termet + [ALANYESET] =
terem [FNV] = term + [TRGYESET] = et
Itt teht nem tudjuk, hogy a termet sz alanyesetrl vagy a teremtrgyeset-
rl van-e sz mindaddig, amg meg nem vizsgljuk a sz krnyezett,
hogy az adott helyen alanyi vagy trgyi szerepben van-e szksg erre a f-
nvre (amelyrl teht mg azt sem tudjuk, a kett kzl melyik). Ezt az em-
ber sem tudja, amg nem ltta, mondjuk, a Kirttetem a termet! mondatot. Ez
a tbbrtelmsg: a rendelkezsre ll informci alapjn a sznak tbb elem-
zse is lehet.
Amikor a szmtgp eldnti, az adott krnyezetben melyik szerepben
van szksg a szalakra, az egyrtelmsts mvelett vgzi el. Azt az ssze-
tett tevkenysget pedig, amelynek sorn egy nagyobb szvegben elszr el-
175
12. A nyelv s a szmtgp
vgzi a szavak morfolgiai elemzst, majd egyrtelmen meghatrozza a
sz szfajt (kivlasztja a megfelel felbontst), szfaji cmkzsnek nevezzk.
A szelemzsben egybknt szerencse, hogy az elemzend egysg az rott
sz viszonylag kicsi s jl krlhatrolhat; mondhatni, termszetes
nyelvi egysg a szmtgp szmra.
A kvetkez szint a mondatelemzs vagy inkbb szintaxis. A mondattal
mint nyelvi egysggel azrt kell vigyzni, mert nagyon bonyolult szerkezete
lehet. Olyan sokfle mondat ltezik, hogy gpi szintaxissal jrszt lehetetlen
egy adott nyelven lert sszes mondatot teljes egszben elemezni. A gpi
szintaxis teht leggyakrabban a mondatnl kisebb szerkezeteket ismer fel;
gyakorlat, hogy elksztik nhny jl meghatrozhat, jl elemezhet mon-
datelem modelljt nyelvtant , majd ezeket az elemeket megjellik a sz-
vegben, ezzel mintegy kiemelve belle a mondatok kulcselemeit. Ha abban a
mondatban, hogy A francia kirly fogadta a trk kvetet, ismerjk a szavak sz-
fajt: A[NVEL] francia[MELLKNV] kirly[FNV] fogadta[IGE] a[NVEL] trk
[MELLKNV] kvetet [FNV]. Levonhatjuk pldul azt a kvetkeztetst, hogy
az alanyi, illetve trgyi szerepben lev szcsoport egyformn a NVEL +
MELLKNV + FNV szerkezetet mutatja. Az ilyen szcsoport a fnvi csoport;
ha egy szvegbl kiemeljk a fnvi csoportokat, tulajdonkppen sszegyj-
tttk a szvegben szerepl dolgokat (trgyakat, szemlyeket, fogalmakat,
esemnyeket stb.). A fnvi csoport gy a nyelvtechnolgiban az egyik leg-
fontosabb nyelvi alakulat.
A szmtgpes nyelvsz a fenti minta lttn teht gy dnt, hogy a ksb-
biekben minden szcsoportot, amely szfaji szerkezetben a NVEL +
MELLKNV + FNV mintt mutatja, fnvi csoportknt kezel. Mskppen:
ler egy szablyt, amely szerint a NVEL + MELLKNV + FNV sorozat egy f-
nvi csoportot alkot. Ugyanez a gyakorlat termszetesen ms tpus mon-
datelemekre is alkalmazhat.
A nyelvtan teht a fenti mdon lert szablyok, azaz azon mintk egytte-
se, amelyek gy vagy gy meghatrozott nyelvi alakulatot (pldul fnvi
csoportot) alkotnak. A szablyok lehetnek rendkvl bonyolult szerkezetek,
s sok informcit tartalmazhatnak a nyelvi alakulatokrl s alkotelemeikrl
is; a statisztikai megkzeltsben viszont csak azt vizsgljuk, hogy adott sza-
vak vagy adott szfaj szavak milyen gyakorisggal fordulnak el egytt, s a
gp ekkor a szmok alapjn prblja megmutatni a krdses mondateleme-
ket. Az utbbi esetben nem beszlnk szablyokrl. A nyelv szably alap
modellezsnek egyik szabatos matematikai modellje a Mondatok cm feje-
zetben bemutatotthoz hasonl nyelvtani rendszer. Termszetesen szmos to-
vbbi, ezt kiegszt vagy ezzel versenyz matematikai lers ltezik. Ami-
kor egy adott nyelvi jelensget modelleznk (pldul nyelvtant runk a
fnvi csoportok felismersre), beszlnnk kell a modell minsgrl is.
A gpi modell mindig csak felsznes kzeltse a nyelvben tnylegesen el-
fordul szerkezetek halmaznak. A modellt egyfell az jellemzi, hogy a sz-
vegekben elfordul szerkezetek mekkora hnyadt ismeri fel: ez a modell
fedse. A msik fontos jellemz a pontossg: ez azt mri, hogy a felismerni vlt
176
IV. A NYELV S HASZNLJA
szerkezetek kzl hny szzalk helyes. Egyetlen nyelvmodell sem kpes
valamennyi krdses szerkezetet azonostani, s minden nyelvmodell felis-
merni vl olyan szerkezeteket is, amelyek nem tartoznak a megclzott tpus-
hoz. Ha nyelvtanunk kizrlag a NVEL + MELLKNV + FNV szerkezetet te-
kinti fnvi csoportnak, akkor az reg francia kirly fnvi csoportot mr
kihagyja, hiszen annak szfaji szerkezete NVEL + MELLKNV + MELLKNV +
FNV; ugyanakkor A vrs Pter kedvenc szne mondat elejn NVEL +
MELLKNV + FNV ll, de nem forml egyetlen fnvi szerkezetet.
sszegzsl: a nyelv szerkezett a szmtgpen gy tudjuk brzolni,
hogy megprbljuk valahogyan lerni, ltrehozni a lehetsges szalakok,
mondatok vagy ms nyelvi szerkezetek halmazt. Ha egy halmazt nem
tudunk felsorolni vagy azrt, mert tl sok eleme van, vagy azrt, mert
munkaignyes , matematikai szablyrendszert s erre pl szmtgpes
eljrst alkotunk, amely kpes ellltani s felismerni a krdses nyelvi ele-
meket. Ez az eljrs a legtbbszr nem pontosan a kvnt halmazt lltja el,
annak csak kzeltse lesz. A fentebb emltett feds s pontossg e kzelts mi-
nsgt hatrozza meg.
6. A szmtgpnek azt a legnehezebb megtantani, hogy sszekapcsolja a
nyelv elemeit szavait, mondatait s a vilg dolgait. A szavak s mondatok
valdi tartalmnak felismershez s megfelel kezelshez vilgismeretre
van szksg. Ez idig tl bonyolultnak bizonyult ahhoz, hogy egyszer, jl
kezelhet szmtgpes/matematikai modellt ksztsenek hozz. Lteznek
azonban olyan modellek, amelyekkel a szmtgp egy keveset megrthet
a termszetes nyelv szvegekbl. A problmt nemcsak az okozza, hogy a
betsorozatok vagy a beszlt nyelvet alkot hangsorozatok nmagukban
gyakran tbbrtelmek. Ha csak annyira van szksg, hogy felismerjk a ke-
res sz klnbz jelentseit A kormny szakembereket keres s a Pter pnzt ke-
res mondatokban, ezt a szmtgp egyszeren megteheti: elg csak megnz-
ni, hogy a keres ige mellett a pnzt trgy ll-e. Klnben ezt a mveletet
nevezi a nyelvtechnolgia jelents-egyrtelmstsnek. Az elz rszben volt
sz a szfaji egyrtelmstsrl: a jelents-egyrtelmsts nmikpp tlmutat
ezen, de nem kveteli meg, hogy a szmtgp valban mlysgeiben kezelje
a szavak jelentst.
A feladat akkor vlik bonyolultt, amikor a gpnek az informcikeress-
ben vagy a fordtsban kell segtenie. Szndkosan rtunk informcikeresst
szvegkeress helyett: ekkor ugyanis a szmtgpnek nem a szvegezs,
hanem az informcitartalom alapjn kell megtallnia dokumentumokat
vagy rgztett szerkezet adatokat. A szvegezs felhasznlsval semmire
sem jut, mert ugyanazt az informcit teljesen ms szvegezssel pldul
egy msik nyelven is le lehet rni. Itt teht a klnbz szvegezssel meg-
fogalmazott dolgok kztti egyezst vagy hasonlsgot kell felismerni.
A fordts esetn pedig azzal kell szembenznnk, hogy a klnbz nyel-
vek szavai jelentsket tekintve nem feleltethetk meg pontosan egyms-
nak. Pusztn sztrral jl fordtani teht szinte lehetetlen: a fordtssal gy-
nevezett kommunikcis ekvivalenst, vagyis olyan szveget kell ltrehozni,
177
12. A nyelv s a szmtgp
amely ugyanazt vagy kzeltleg ugyanazt mondja a clnyelven rt olvas-
nak, mint a forrsnyelv beszljnek. Nyilvnval, hogy ez tlmutat a sza-
vak vagy nyelvtani szerkezetek egymsnak val megfeleltetsn a gpi for-
dts kezdeti szakaszai ezrt is nem jrtak sikerrel.
Amikor a nyelvtechnolgia nehzsgeirl beszlnk, ltalban azt mond-
juk, hogy a szmtgp nem tud mit kezdeni a szavak, mondatok jelents-
vel. Ez ebben a formban nem is igaz: a szmtgpnek valjban csak vi-
lgismerete nincs. A szavak, mondatok jelentsnek kzelt brzolst a
kutatk ltalban azzal knnytik meg, hogy korltozzk a feldolgozhat
szvegek tmjt. Ha minden szveg, amellyel foglalkoznunk kell, jl meg-
hatrozhat tmba (informatika, jog, pnzgy stb.) tartozik, sokkal keve-
sebb tbbrtelmsget tallunk benne; st mg a szvegek szerkezete is saj-
tos (lehet), s nem annyira szertegaz, mint az ltalnos esetben (amikor
tulajdonkppen minden elkpzelhet szvegre fel kell kszlnnk). A tma
szktsvel elrjk, hogy a szmtgp ltszlag mr akkor is rti a szve-
get, amikor csak az adott terlet terminolgijt s a kifejezsek kztti kap-
csolatot adjuk meg neki. Azonban gy sem mondhatjuk azt, hogy a feladat
nagyon knnyv vlik. Meghatrozott tmra is nehz olyan informcike-
res vagy fordtrendszert ltrehozni, amely a szavak jelentst is felhasz-
nlja valahogy. Amikor teht a kutatk sszetett nyelvtechnolgiai eszkzt
ksztenek, a feldolgozott szvegek krt legtbbszr valamelyik szakma
nyelvre vagy jsgcikkekre korltozzk. Szpirodalmi szvegek szm-
tgpes feldolgozsa nem jn szba: nemcsak azrt, mert nehz feldolgozni
ezeket a szvegeket, hanem azrt is, mert eszttikai megfontolsok is ellene
szlnak. Ha a szmtgpnek mg trgyilagos vilgismerete sincs, hogy tud-
na brmit hozztenni a szpirodalmi szveghez, amelynek fleg az a clja,
hogy az olvasban szubjektv lmnyt keltsen?
A szavak jelentsnek felszni brzolsban divatt vlt s teljes joggal
az a mdszer, amely a szavak egymssal val kapcsolatt rja le nagyon egy-
szer eszkzkkel, nem mindig a szavak mgtti dolgokat prblja megha-
trozni bonyolult, elvont modellek segtsgvel. Olyan egyszer kapcsola-
tokra gondoljunk, mint a hasonlsg vagy azonossg, vagy ppen az adott
kategrihoz tartozs, akr gy, hogy adott sz magt a kategrit, akr gy,
hogy egy, a kategrihoz tartoz kisebb dolgot r le. Az asztal s a btor k-
ztti kapcsolat pldul egyrszt azt mondja, hogy az asztal a btor kategri-
ba tartoz szkebb dolog, mg a btor olyan tgabb fogalom, amelybe az asz-
tal is beletartozik. Egymshoz kpest teht mindkt sz meghatrozhat.
Ezek a kapcsolatok lncba is fzhetk: ha az asztalbtor proshoz harmadik-
nak hozzvesszk a berendezsi trgy kifejezst, akkor olyan kategrit ka-
punk, amelynek tagja a btor, s btorsga rvn az asztal is. A szavak kztt e
kapcsolatokkal bonyolult hl is ltrehozhat; az ilyen hlt szhlnak ne-
vezhetjk. Ezek a hlk pedig egyszeren lerhatk szmtgpes adatbzi-
sokban. A szhlk alkalmazsval a szmtgp tudomst szerez pldul
az asztal btorsgrl, anlkl hogy brmelyikrl olyan mentlis kpe lenne,
mint az embernek. A btorsgon keresztl pedig meg tudja hatrozni, mi a
178
IV. A NYELV S HASZNLJA
kzs az asztal-ban s a szekrny-ben, s ha ezt termszetes nyelv szvegek
elemzsekor felhasznljuk, az mr nmikpp arra emlkeztet, mintha a gp
elvont mdon is megrten a szveget.
7. Emltettk, hogy a szveg a szmtgp szmra rott szveget jelent.
Ugyanakkor nem lehet kzlegyintssel elintzni azt az ignyt, hogy a szm-
tgp a beszddel is kezdjen valamit: egyrszt beszljen az emberhez (aki
ezrt vagy azrt nem tudja elolvasni az rott szveget), illetve rtse meg az
ember beszdt (amikor annak nincs lehetsge a szveg lersra). A szm-
tgp a beszdet illeten mg gyerekkort li. A beszd gpi feldolgoz-
snak valamennyi ksrlete az rott szvegre prblja visszavezetni a probl-
mt: szveget beszdd alakt ez a beszdszintzis , illetve beszdet
szvegg ez a beszdfelismers. A kt feladat nem egyformn nehz: a be-
szdszintzissel eleddig tbb eredmnyt rtek el, mint a beszdfelismerssel.
Az egyes hangok fizikai tulajdonsgai is lerhatk szmokkal, s e szmok
alapjn a szmtgp nagyjbl ltre tudja hozni a megfelel hangot. Csak az
a baj, hogy a hangokat nem oly egyszer szmokk kdolni, mint a betket;
ha nagyon egyszeren fogalmazunk, azt kell mondanunk, hogy szemben a
betkkel a hangok vgtelen sokan vannak. Szerencsre a betk fonmkat
kdolnak, amikhez gyesen hozzrendelhetjk a krnyezettl fgg han-
got. A gphang persze sokszor idegenl szl, st nha meg sem rtjk. Sokat
szmt a beszdben az rsban nem jellt hangslyozs is: mondat elejn,
vgn jrunk-e, krdeznk, kiablunk vagy eladunk, azaz a hanglejts. Nem
vletlen, hogy a szmtgpes beszd hangtanval s a tnyleges beszdhan-
gok szabatos betszer lersval kln tudomnyg foglalkozik: az
elbbi a szmtgpes fonolgia, az utbbi a szmtgpes fonetika.
Ha az a clunk, hogy a szmtgp rtheten olvasson fel szvegeket ar-
rl teht mg ne beszljnk, hogy kellemes ni hangja lesz-e , a gpet meg
kell tantanunk a hanglejts utnzsra is. A hanglejts helyes kezelshez
pldul tudni kell, hol jrunk a szn, a mondaton bell. Ennek meghatroz-
sa nemigen lehetsges mskpp, mint a szveg nyelvtani elemzsvel. Ms a
helyzet, ha a gpnek nem tetszleges szveget, hanem egyszerbb dallam-
szerkezet dolgokat pldul telefonszmokat kell elmondania: br a
felolvasott telefonszm lehet kiss idegenszer, de tkletesen rthet lesz.
Egy rdekessg: az egyik hazai mobiltelefon-szolgltat zemeltet egy
olyan szolgltatst, amely beolvassa a telefonba az ember elektronikus leve-
leit. Szoksos felolvasrendszerrl lenne sz, ha nem kellett volna felkszl-
ni arra, hogy a magyar nyelven rt elektronikus levelek j rszben nincsenek
kezetes betk. Ahhoz, hogy a felolvasott szveg rthet legyen, elbb ke-
zetesteni kell: kszlt teht egy olyan program is, amely az ekezetes betuk sza-
vakat trja kezetes betk-k.
A gpi beszd-elllts legfontosabb problmjt megoldottk: ma mr
nem okoz igazi gondot olyan alkalmazs ksztse, amely rtheten felolvas
tetszleges szvegeket. A gphang termszetessgn, hanglejtsn van
mg mit javtani, de a problmk korntsem akkork, mint a gpi beszdr-
ts esetn.
179
12. A nyelv s a szmtgp
8. A gp szmra egyelre nagyon nehz a beszdet rott szvegg alakta-
ni. A beszd felismerst a hangok sokflesge s hatatlanul pontatlan br-
zolsa mellett szmos zavar tnyez is gtolja. Minden ember hangjnak
ms tnusa van: ha teht kt ember prblja mondani ugyanazt, a gp sz-
mra ez sohasem lesz egyforma. Ezt az akadlyt mg le lehet gyzni, mert a
beszdhangoknak vannak bizonyos egyrtelmen azonosthat elemeik a
teljesen pontos brzolsra teht nincs felttlenl szksg ahhoz, hogy a gp
azonostani tudja ket. Kvetkeznek ott a httrzaj: ettl el kell vlasztani a
beszdhangot. Digitlis jelfeldolgozsi eljrsokkal mg ezen is segthetnk
gy-ahogy. De az ember nem ott tart kzben szneteket, ahol az rott szveg-
ben a szkzk vannak: ha fel is ismertk a beszdhangokat, nem tudhatjuk,
hol van vge a sznak, a frzisnak vagy a mondatnak. Ez a szegmentls prob-
lmja. Ha az ember, akit a gpnek meg kellene rtenie, mg beszdhibval
is kszkdik, vgkpp nehz lesz a hangok azonostsa, mert egyes beszd-
hangok alapvet fizikai tulajdonsgai lesznek msok.
A gpi beszdfelismer rendszerek kszti hrom ponton prbljk egy-
szersteni a problmt. Itt is azt teszik, mint a szveg jelentsnek brzol-
sban: ha nehz az ltalnos problmt megoldani, szktik a szba jhet
beszdmintk krt. Hrom dolog okozhat problmt: a beszd folytonoss-
ga, a beszlk sokflesge s a nagy szkincs. Korltozhat teht a folytonos
beszd: vannak olyan beszdrt rendszerek, amelyek egyszerre egy szval
tudnak kezdeni valamit: ezeket nevezzk izollt szavas rendszereknek. Ha
tudjuk, hogy a beszl legfeljebb egy szt mondhatott, sokkal kevesebb lehe-
tsg kzl kell kivlasztani a megfelelt. Ha az a feladat, hogy egy gpet
egyszer parancsszavakkal irnythassunk, ez a megolds tkletesen meg-
felel. Ugyancsak cskken a lehetsgek szma, ha nem beszlhet akrki a
rendszerhez. A beszlfgg rendszer egy beszl szavait rti csak meg:
megtanulja e beszl tnust s hanglejtst; ettl kezdve egy betnek lnye-
gesen kevesebbfle hang felel meg, illetve az egyes hangok egyszerbben is
brzolhatk szmokkal. Az olyan beszdrt rendszer, amelyhez brki be-
szlhet, a beszlfggetlen rendszer. A szkincs korltozsa pedig nemigen
szorul magyarzatra.
A mai beszdrt rendszerekben a fenti hrom problma kzl a szba
jhet beszdmintkat legalbb az egyik szempontbl korltozzk. Ennek el-
lenre a folytonos beszd felismerse tern viszonylag szernyek az eddigi
eredmnyek: a problma radsul nyelvfgg. A meglehetsen drga fej-
leszts kisebb beszlszm nyelvek esetben, sajnos, gazdasgilag nehezen
indokolhat.
Folynak olyan ksrletek is, amelyek sorn a nyelvi elemzs eszkzeit
nemcsak a felismert beszd utlagos feldolgozsra hasznljk, hanem a be-
szdfelismers pontossgnak javtsra. Ha a gp ezt hallja: dobdideavazsgo-
jt, egy specilis szelemz program segtsgvel fel tudja bontani, s trni
gy: dobd ide a vasgolyt. A kutatk vrakozsa szerint ez a fajta visszacsatols
gy nveli meg a beszdfelismers pontossgt, hogy kzben enyhti a
klasszikus beszdfelismer egysggel szembeni elvrsokat: annak nem
180
IV. A NYELV S HASZNLJA
kell tbb teljesen egyrtelm vlaszt adnia, hiszen a nyelvi rendszer segt
kivlasztani a megfelelt.
9. A nyelvtechnolginak haznkban is jelents eredmnyei vannak, an-
nak ellenre, hogy a hazai kutathelyek szma s nagysga is kisebb, mint
sok ms orszgban. A szmtgpes feldolgozs szempontjbl a magyar
nyelv egyes szempontok pldul a szavak felptse tekintetben bonyo-
lultabb, mint az indoeurpai nyelvek nagy rsze. Eurpban a nyelvtechno-
lgiai kutatsok tlnyom rsze valamelyik indoeurpai nyelv terletn fo-
lyik: nem is lehet ez mskpp, hiszen itt kevs nyelv tartozik ms
nyelvcsaldokba. Ugyanakkor a nem indoeurpai nyelvek kzl a jelent-
sebb eurpai agglutinl nyelvek (finn, magyar, trk) terletein jelents
eredmnyek szlettek, klnskppen a szavak szerkezetnek a gpi mor-
folginak a kutatsban. Az a szelemz program teht, amelyet haznk-
ban elssorban a magyar nyelv cljaira fejlesztettek ki, szksgkppen fejlet-
tebb, mint mondjuk egy angol nyelvi elemzprogram, s ekkpp legalbbis
a magyar nyelvhez kpest szinte gyerekjtk benne lerni az angol, a nmet
vagy pp a cseh s a lengyel szavak szerkezett.
A magyar mondattan gpi lersa azonban mr nem ll ilyen jl. A magyar
ler nyelvszet hagyomnyai kevss alkalmazkodnak a szmtgp ig-
nyeihez. Ez a helyzet vltozban van, ugyanis intenzv kutatsok folynak,
amelyek segtsgvel a szmtgp nha mg mlysgeiben is fel tudja der-
teni a magyar mondatok szerkezett.
10. Az elzekben mindvgig arrl rtunk, milyen nehz feladat a szmt-
gp szmra az emberi nyelvvel bnni. Holott vannak olyan nyelvi szolgl-
tatsok, amelyeket a nagykznsg is hasznl, hovatovbb vtizedek ta.
Ideje teht, hogy arrl is szljunk, mit ad a felhasznlknak a nyelvtechnol-
gia a gpek korltozott kpessgei ellenre.
Ma mr szzezrek, taln millik hasznlnak szvegszerkeszt programo-
kat Magyarorszgon. E programok mindegyike tartalmaz olyan nyelvi mo-
dulokat (rszegysgeket), amelyek a jl formlt j helyesrssal rt, a so-
rok vgn helyesen elvlasztott stb. szveg rsban segtik a felhasznlt.
Az rst segt szolgltatsok kzl a helyesrs-ellenrz programok llnak az
els helyen. Kt fajtjuk van: a szellenrz s a mondjuk gy szhatron t-
li nyelvhelyessget ellenrz. Szellenrzt szinte mindenki hasznl, a nyelvhe-
lyessg-ellenrz program azonban nem ll mindenhol rendelkezsre.
A szellenrz program ltszlag azt vizsglja, helyesen rtunk-e egy-egy
szt a szvegben; idnknt jelzi, hogy nem, s javtst is ajnl s idnknt
tved is. Mirt? Mert valjban nem a szavak helyesrst ismeri, csak vala-
mi mdon tud azokrl a szavakrl, szalakokrl, amelyek lteznek, ltezhet-
nek a nyelvben. Ez a legtbbszr ltalban egy olyan sztrt jelent, amely-
ben a program kszti ltal helyesnek tartott szalakok fel vannak sorolva.
Vannak azonban nyelvek ilyen pldul a magyar is , amelyekben olyan
sok szalak van, hogy a gpen el sem frne az a sztr, amelyben felsorol-
nnk ket. Ilyen esetben a szellenrz program morfolgiai elemz modult
hv segtsgl, amely a szalakokat klnbz rszek (a morfmk) kombi-
181
12. A nyelv s a szmtgp
ncijaknt ismeri fel. Ennek a modulnak az adatbzisa ha mondjuk tmil-
lirdfle lehetsges toldalkolt magyar szalakot ismer mr nem nagyobb,
mint pldul az angol nyelv sszes (kb. flmilli) szalakjnak sztra.
Amikor a szellenrz program gymond hibsnak tall egy szt, iga-
zbl csak azt jelzi, hogy az nincs benne a sztrban (illetve a beptett mor-
folgiai elemz modul nem ismeri fel). Nem a helyesrst ellenrzi teht, arrl
pedig vgkpp nincs sz, hogy helyettnk tudn a (magyar) nyelv helyesr-
si szablyait. A szveget sem javtja automatikusan: a javtsi javaslatokat a
felhasznlnak jv kell hagynia. Nagyon helyesen, hiszen a javaslatok k-
ztt sok oda nem ill dolog lehet. A szellenrz program teht nem javtja
meg a felhasznlk helyesrst, viszont kivlan alkalmas a gpelsi hibk
jelzsre s javtsra. ltalban azt mondjuk, hogy a szellenrz program
a hibsan rt szavak 95%-t jelzi, azt viszont mr a felhasznlnak kell tud-
nia, hogyan kell ezeket kijavtani. Teht minl tudatosabb, jobb valakinek a
helyesrsa, annl tbb hasznt veszi a helyesrs-ellenrz programoknak.
A szellenrz program egyszerre egy szt lt. A sz ebben az esetben az a
szvegrsz, amely szkztl szkzig vagy kzpontozsi jelig (rsjelig) ter-
jed. Ez azt jelenti, hogy nem tudja vizsglni a sz krnyezett avgett, hogy
kiszrje az oda nem ill javtsi javaslatokat, vagy szrevegye a hibsan k-
lnrt szavakat. Erre a szhatron tli nyelvhelyessg-ellenrzs alkalmas.
A szhatron tli nyelvhelyessg-ellenrzst a legtbb alkalmazs nyelvtani el-
lenrzsnek mondja, s tbbnyire teljes mondatokat prbl feldolgozni. Na-
gyon eltr jelleg s minsg a klnbz nyelvekhez ksztett nyelvhe-
lyessg-ellenrz programok mkdse: pldul az egyetlen magyar
nyelvhelyessg-ellenrz program nem a mondatok teljes nyelvtani elemz-
svel dolgozik. A program inkbb meghatrozott helyesrsi, nyelvhelyess-
gi, stlusbeli hibkat, hinyossgokat keres, a mondatok felszni tvizsgls-
val. Ilyen hiba, hinyossg a szavak hibs klnrsa, a vessz hibs
alkalmazsa vagy kihagysa, vagy ppen a nyomdafestket nem tr szavak
hasznlata. A magyar nyelvhelyessg-ellenrz program fejleszti az Akad-
miai helyesrsi szablyzatbl kivlogattk azokat, amelyekre gpi szablyt is
lehetett rni, gy a program ltal jelzett hibk s javaslatok sszevethetk a
szablyzattal. A nyelvhelyessg-ellenrz programrl tudni kell, hogy m-
kdse sokkal bizonytalanabb, mint a szellenrz programok. Ez nem mi-
nsgi problma, egyszeren a hibk jellege nem teszi lehetv a teljesen biz-
tos gpi tletet. Emiatt a program mg jobban a felhasznl tudsra bzza a
javtst, csak azt jelzi, hogy az adott helyen taln hinyzik egy vessz,
vagy hibsan klnrtunk kt szt, s gy tovbb. Mg inkbb igaz teht,
hogy a gp nem tudja helyettnk a helyesrst.
Nem annyira az rst, inkbb a szvegek nyomdai elksztst tmogat-
jk az elvlaszt programok. Az elvlaszts nem ktelez, m jelentsen javt-
ja a nyilvnossgnak sznt dokumentumok kls megjelenst. Az elvlasz-
ts hinya nem helyesrsi hiba, ha viszont gy dnt valaki, hogy a sorok
vgn elvlaszt szavakat, azt nem teheti meg a szavakon bell akrhol: a hi-
bs elvlaszts mr hibs helyesrs! A magyar nyelvben elssorban a szta-
182
IV. A NYELV S HASZNLJA
gols szablyai hatrozzk meg az elvlasztst, de ez all vannak kivtelek,
pldul hogy az sszetett szavakat az sszetteli hatron kell elvlasztani.
Mivel a sorok elejre cssz szavakat nagyon munkaignyes dolog egyen-
knt, kzzel elvlasztani, s figyelni, mennyi fr be bellk az elz sor vg-
re, szksgnk van automatikus elvlaszt programra. A programnak vi-
szont ismernie s alkalmaznia kell az elvlasztsi szablyokat, hogy hasznt
lehessen venni. gy pldul, ha szksges, ellenriznie kell, hogy sszetett
szval tallkozott-e, s ha igen, hol vannak benne az sszetteli hatrok. E
feladathoz is morfolgiai elemz programot clszer hasznlni (s a magyar
elvlaszt programok hasznlnak is ilyen modult), amely a szalakokat al-
kotelemeikre (morfmikra) tudja bontani.
A vlasztkos fogalmazst segti a szmtgpes szinonimasztr, amely a
szveg egyes szavaihoz rokon rtelm megfelelket ajnl. Az ilyen progra-
mok inkbb tezauruszok, amelyek a szmukra ismert szavakat fogalomkrk-
be rendezik. Minden sz egy vagy tbb fogalomkrhz tartozik: a program a
rokon rtelm megfelelk keressekor elbb meghatrozza a lehetsges fo-
galomkrket, majd megkeresi az adatbzisban a hozzjuk tartoz sszes
szt. A szinonimasztrak ezzel szemben szcikkekbe vannak rendezve,
ahol minden sz mellett megtalljuk a rokon rtelm megfelelket. Ha vala-
melyik ismert szvegszerkesztben elindtjuk a magyar szinonimasztrt,
lthatjuk, hogy a program a fogalomkrket is meghatrozza, teht inkbb
tezauruszknt mkdik.
A szinonimasztr-tezaurusz adatbzisban a szavak sztri alakjukban
szerepelnek, mg a szvegben tbbnyire nem. Amikor egy adott szalakhoz
szinonimkat krnk, a szvegbeli alak gyakran nincs benne azonos form-
ban a tezaurusz adatbzisban. A programnak a szalakokbl elbb el kell
lltania a sztri alakot. A legegyszerbb most is rszekre morfmkra
bontani a szalakot, vagyis morfolgiai elemzst vgezni rajta. A sztri ala-
kot pedig akkor kaphatja meg a rendszer, ha arrl is informcit kap, hogy a
szavak egyes alkotelemei kzl melyek tartoznak a sztri alakhoz, s me-
lyek nem. Azt is mondhatjuk, hogy a szinonimasztr-tezaurusz ekkor a sz-
alakok tvt hatrozza meg. Ez a mvelet a sztvests vagy lemmatizls,
azaz a jrulkos elemek, pldul a toldalkok eltvoltsa, a sztri alak
visszalltsa.
Emltettk, hogy a szinonimasztr-tezaurusz adatbzisban a szavak
sztri alakjukban szerepelnek. Arra a krdsre mr talltunk vlaszt, ho-
gyan talljuk meg a sztri alakot, ha a szvegben nem gy szerepel a sz.
Amikor viszont kivlasztottuk a megfelel szinonimt, azt vissza is kell rni
a szvegbe. A szvegszerkesztk ilyenkor ltalban csak a sztri alak
visszarst teszik lehetv; ha az eredeti sz toldalkokkal egytt volt a sz-
vegben, a szinonima bersval ezek elvesznek. Ltezik olyan szinonimasz-
tr-program is, amely kpes a kivlasztott szinonimt toldalkolt formban
visszarni a szvegbe, a megfelel morfolgiai generl modul segtsgvel.
11. Az informcikeress alapproblmjaknt mostanban mindig az inter-
neten felgylt, elkpzelhetetlenl nagy mennyisg szveget emlegetjk. Val
183
12. A nyelv s a szmtgp
igaz, szinte nincs olyan tma, amelyhez az internet, amelyen tbb milli ember
tbb millird dokumentumot helyezett el, ne tudna hozzszlni. A megfelel
tartalm dokumentumokat azonban nagyon nehz megtallni, mert aki keres,
tudnia kell, milyen szavak, kifejezsek fordulhattak el a krdses dokumen-
tum(ok)ban, milyen nyelven lehetett stb. A korszer internetes keresszolgl-
tatsok sok felsznes mvelettel segtik a keress szktst (nha ugyanis az is
problma, hogy a begpelt kulcsszavakra vlaszul tbb milli dokumentumot
kapunk). Az igazi megolds azonban az volna, ha a megfelel tartalm doku-
mentumokat tallhatnnk meg az ltalunk begpelt szavakat sz szerint tartalma-
z dokumentumok helyett. Mindez persze nemcsak az internetes keress sorn
problma, br ott jelenik meg a nagykznsg szmra. Szakmai krkben,
ahol tematikus informcikeressre van/volna szksg, ugyangy fejlesztsre
szorul az informci tartalom szerinti megkeresse.
Nzzk, hogyan segthet a nyelvtechnolgia az informcikeressen! Sz-
mos fejleszts folyik: elkpzelhet, hogy egy-kt ven bell e szolgltatsok a
keresk szerves rszeiv vlnak. Elszr is, ha szavakat keresnk, talljuk
meg a toldalkolt alakokat! Amikor begpeljk a keresend szavakat, a leg-
ritkbban rjuk be az sszes lehetsges alakot; s a rendszer nem felttlenl ta-
llja meg az eltr szalakokat. Ha pldul az almatermesztssel foglalkoz
szvegeket keressk, s az alma szt tartalmaz sszes dokumentumot sze-
retnnk megtallni, nem talljuk meg az almval szalakot, ha csak az alma
szt adtuk meg a keresablakban. Ha viszont az alma s az alm tvet is
megadjuk, a rendszer az almrium szt is megtallja, pedig arra nem is va-
gyunk kvncsiak. A megolds: olyan keresrendszer, amely a szalakokat
intelligens mdon egymshoz rendeli. Ez azt jelenti, hogy mind a dokumen-
tum szvegben lev, mind pedig a felhasznl ltal begpelt szavakhoz
megkeresi a sztri alakot, s ezeket hasonltja ssze. Ebben segt a sztves-
t program. Ha azonban pldul a kutyatartsrl keresnk szvegeket, s a
kutya sz klnbz alakjait keressk, nem kapjuk meg azokat a helyeket,
ahol az ebad-rl van sz. Ez akkor lenne csak lehetsges, ha a keresprogram
nemcsak a begpelt szavakat, hanem azok szinonimit is keresn.
Bonyoltsuk tovbb a problmt! Kedvencnket Nmetorszgba szeret-
nnk vinni kutyakilltsra. Ha keresrendszernk meg is tallja a kutykrl
s az ebekrl szl oldalakat, mg mindig nem kapjuk meg a kutyakillt-
sok nmetorszgi szablyait, amihez legalbb a Hund sz volna keresend.
J lenne teht, ha a klnbzkppen toldalkolt szalakok s a szinonimk
mellett a keres megtalln a szavak idegen nyelv megfelelit! A megolds:
kt-, illetve tbbnyelv sztrak alkalmazsa, amelyek megmondjk a kutya
sz klnbz idegen nyelv megfelelit. Ha azonban megkaptuk az idegen
nyelv oldalakat mondjuk a nmetorszgi kutyakilltsokrl szlkat ,
bajban vagyunk, ha nem tudunk nmetl: nem tudjuk elolvasni ket. Ekkor
segtene egy automatikus fordtrendszer, amely rthet magyar fordtst
adna az eredeti nmet szvegrl.
Nyilvnval, hogy a keresrendszerek nem fogjk egyszerre s egyik nap-
rl a msikra megvalstani az sszes fenti szolgltatst. Klnsen igaz ez a
184
IV. A NYELV S HASZNLJA
gpi fordtsra, amelynek fejlesztse mg nem tart ott, hogy brmely kt
nyelv kztt jl olvashat, rthet fordtst tudna adni. Fokozatosan azon-
ban minden bizonnyal megjelennek majd. E szolgltatsokat azrt nem so-
roltuk a nyelvtechnolgia jvjhez, mert az alkalmazott nyelvtechnolgiai
eszkzk nagy rsze a fordtgp kivtelvel bevlt, hagyomnyos eljr-
soknak mondhatk.
Amikor a tartalom szerinti szvegkeress problmjrl beszlnk, ismt
csak a fedsrl s a pontossgrl van sz. Szeretnnk, ha a keres minden
olyan dokumentumot visszaadna, amely az ltalunk kvnt tmrl szl, s
egyet sem, amely nem tartozik a trgyhoz. Ennek megtlse azonban na-
gyon nehezen mrhet. Mg a nyelvtani modellek esetn meglev szvegek-
ben mrhetjk a gpi nyelvtan okossgt, az internetes keress sorn a fel-
hasznl dnti el, egy adott dokumentum megfelel-e az ignyeinek.
Semmilyen objektv adatunk nincs arrl, hogy egy adott dokumentum
mennyire vg a kvnt tmba ltni azonban ltjuk a hinyossgokat, ami-
kor magunk keresglnk a hln.
A tartalom szerinti keress idelis megoldsa az lenne, ha a felhasznl
teljesen szoksos krdst tehetne fel a rendszernek, s a gp a krds jelentse,
nem pedig a benne lev szavak alapjn keresn a dokumentumokat. Ilyen ku-
tatsok is folynak; a kzeljv alkalmazsai kztt ejtnk rluk nhny szt.
12. A gp mg nem tud az ember helyett fordtani. Azonban az elmlt
vekben tbbek kztt az Eurpai Uni bvtse s az Unin belli szoro-
sabb egyttmkds miatt olyan sok fordtanival keletkezett, hogy az em-
bernek a fordt embernek minden elkpzelhet gpi segtsgre szksge
van, hogy munkjt hatridre s megfelel minsgben el tudja vgezni. Az
automatikus gpi fordts alkalmazsa itt nem jn szba, mert a jelenlegi
rendszerek kzel sem kpesek kiadhat fordtsokat kszteni; st, az ltaluk
lefordtott szvegek nyersfordtsnak sem jk, kijavtsuk tbb munkt ig-
nyel, mint az eredeti szveg jrafordtsa. Nem szmthatunk arra, hogy ez a
helyzet lnyegesen megvltozik a kvetkez egy-kt vben.
A kilencvenes vek elejn viszont megjelentek s napjainkra elterjedtek a
szmtgpes fordtstmogat eszkzk. Ezek kzl a legegyszerbbek a
szmtgpes sztrak. Ezek legtbbszr korbban nyomtatsban megjelent
sztrak gpi adatbzisba rt megfeleli. A hozzjuk mellkelt sztrprog-
ram sem alkalmas tbbre, mint egy-egy sz megkeressre, amely a nyomta-
tott sztr fellapozsnak felel meg. A gp kicsit gyorsabban megtallja a ke-
resett szt mint az ember a paprsztrban , de a hagyomnyos gpi
sztrtl nem kap tbb segtsget. Vannak azonban olyan sztrprogramok
is, amelyek br tovbbra is nyomtatott sztrak elektronikus vltozatait
tartalmazzk szmos nyelvi tbbletszolgltatst nyjtanak. A legegysze-
rbb ezek kzl a sztvests alkalmazsa: a sztrakban a cmszavak sz-
tri alakban szerepelnek, de a szvegekben nem; a sztrprogram a szt-
visszallts rvn kpes lehet arra, hogy a toldalkolt szalakokat is
megtallja a sztrban, visszavezetve ket a sztri alakra. Nagy segtsg az
is, ha a sztrprogram egyszerre tbb sztrt kezel: ha egy szt egyszer kell
185
12. A nyelv s a szmtgp
begpelni, de a program sok sztrban keresi meg egyszerre, akkor mr gy
dolgozik, ahogyan az ember sohasem tudna: mintha egyszerre tz-hsz sz-
trat lapoznnk s olvasnnk.
Ha a sztrt nem fordtsra, hanem idegen nyelv szveg megrtsre kell
hasznlni, akkor nem a hagyomnyos sztrprogramra, hanem az gyne-
vezett gyorsfordtra van szksg. Ez a program rejtzkdik a szmtg-
pen: munka kzben igazbl nem ltjuk mkdni. Amikor azonban rmuta-
tunk egy szra az idegen nyelv szvegben a konkrt programtl fgg,
hogy kell-e kattintani , mkdsbe lp a sztri keress, s a kpernyn kis
buborkban megjelenik a sz fordtsa. St: az ilyen programok ltalban azt
is lthatjk, milyen szavak vannak a kivlasztott sz mellett, gy nemcsak a
szra, hanem az t tartalmaz kifejezsre is tudnak fordtst adni.
A fordt munkjt legjobban az sszetett fordtstmogat programok se-
gthetik. Ezek a programok sztr helyett gynevezett terminolgiakezel rend-
szert hasznlnak. A terminolgiakezel rendszer adott szakmk, szakterletek
szkincst tartalmazza, lehetleg gy, hogy egy idegen nyelv sznak, kifeje-
zsnek, csak egy fordtsa legyen. A fordtstmogat rendszerek a terminol-
giai adatbzis segtsgvel ki tudjk sztrazni a lefordtand szveget.
Az sszetett fordtstmogat rendszerek legnagyobb elnye azonban az,
hogy gynevezett fordtmemrit is tartalmaznak. A fordtmemria olyan
program, amely adatbzisban trolja az eddigi fordtsokat (az eredeti szveg-
gel egytt), s ha a fordts sorn olyan mondathoz rnk, amely mr benne
van a fordtmemriban vagyis korbban mr lefordtottuk a program
automatikusan felajnlja a korbban megjegyzett fordtst. Fontos, hogy nem-
csak azokat a mondatokat lehet gy megtallni, amelyek pontosan megegyez-
nek az pp lefordtandval ilyen gyakorlatilag nincs , hanem a nagyon ha-
sonlkat is. A hasonlsg megkeressben viszont a legtbb gyrt olyan
matematikai mdszereket alkalmaz, amelyekhez nincs szksg nyelvi elem-
zsre, s amelyek kizrlag a szveg betkdjait veszik alapul. Ez sok pontat-
lansgot eredmnyez, a nyelvinyelvtani hasonlsg megllaptshoz vi-
szont megfelel elemzprogramot kell a rendszerbe pteni. Az utbbi minden
rintett nyelvhez jelents nyelvtechnolgiai eszkzket ignyel, mg az elbbi
ugyanazt a matematikai eljrst alkalmazhatja minden lehetsges nyelvre.
A fordtmemrik resen rkeznek a felhasznlhoz. Ha kizrlag ford-
ts kzben tltjk fel ket, egy-kt vnek is el kell telnie ahhoz, hogy a rend-
szer elg gyakran adjon fordtst az adatbzisbl, s valban lervidtse a
fordts idejt. Azonban a legtbb rendszerhez tartozik olyan program,
amely lehetv teszi a meglev fordtsok bevitelt a fordtmemriba ha
az eredeti szveg s a fordts is megvan szmtgpen. A program prba l-
ltja egymshoz rendeli az eredeti szveg s a fordts mondatait, gy
nemcsak az egsz dokumentumrl tudjuk, hogy mi a fordtsa, de az egyes
mondatokrl is. A mondatokat prost program a szvegek szinkronizlst
vgzi el. A szvegszinkronizl programok segtsgvel a fordtk rvid id
alatt a fordtmemriba vihetik, s ily mdon jra felhasznlhatjk korbbi
nyelvtechnolgia eltti fordtsaikat.
186
IV. A NYELV S HASZNLJA
A fordtstmogat eszkzkrl is fontos persze tudni, hogy igazbl csak
szakfordtshoz, szakmai szvegek feldolgozsra jk. Irodalmi vagy a szp-
irodalomrl szl szvegek fordtsban a gp segteni sem tud az embernek
s tulajdonkppen ez gy is van jl.
13. Az elzekben a szmtgpek nyelvi szolgltatsainak sok olyan hi-
nyossgt emltettk, amelyek legalbbis mai tudsunk szerint knnyen
kikszblhetk. Albb megprbljuk megjsolni, hogy rvid idn egy-kt
ven bell milyen nyelvtechnolgiai kutatsok-fejlesztsek eredmnyeit
vrhatjuk a htkznapi gyakorlatban.
Szmos kutats van folyamatban, amely a valdi informcikeresst
tzte ki clul. Ez azt jelenti, hogy a gp a termszetes nyelven feltett krdsre
olyan dokumentumokat, adatelemeket keres, amelyek tartalma megfelel a
krds jelentsnek. Ez persze az idelis eset, de szmthatunk arra, hogy a
szmtgpes szolgltatsok egyre jobban megkzeltik. Ehhez a nyelvtech-
nolgia elmleti alapjainak kt ltfontossg ponton kell fejldnik.
Ha a nyelv szerkezett a mainl fejlettebb modellekkel tudjuk lerni, a sz-
mtgp a mondatokrl, a szvegekrl rszletesebb s mlyebb nyelvtani in-
formcikhoz juthat. Ez az utbbi idben kutatsi divatt vlt, s taln ezl-
tal gyorsabban fejldik a szavak, kifejezsek jelentsnek gpi brzolsa.
Egyre nagyobbak lesznek, s egyre tbb terleten megjelennek azok az adatb-
zisok, amelyek fogalmakat s azok egymssal val kapcsolatt rjk le: ezek
az n. ontolgik. Filozfiai rtelemben vett ontolgia csak egy van; azonban
itt a szt j jelentsben hasznljuk, ahol az ontolgia technikai eszkz, amely
egy adott terlet fogalmait rendezi logikai rendszerbe. (me, az Olvas most
lthatta, hogyan fejldik a nyelv, hogyan kapnak rgi szavak j jelentst.)
A kzeljvben a jelents brzolsa s a tartalomra pl informcikere-
ss nem vlik ltalnoss, tovbbra is egy-egy szakmhoz, szakterlethez
ktdik. Azonban ezek a szakmai keresrendszerek egyre pontosabbakk
vlnak. A legnagyobb kihvs a nyelvtani elemzs s a jelents brzolsa
kztti kapcsolat meghatrozsa; arra kell vlaszt tallni, hogyan rja le a gp
az elemzett dokumentum vagy szvegrsz sszetett jelentst a nyelvtani
elemzs eredmnye alapjn. Egyelre nincs sz hossz dokumentumokrl;
feladat lehet pldul, hogy a gazdasgi elemzk egyes rvidhrek tartalma
alapjn lssk egyes cgek mkdst (pldul a tulajdonosvltsokat).
Br nem lankad az automatikus gpi fordts kutatsa s fejlesztse, az
emberi beavatkozs nlkli gpi fordts kisebb hangslyt kap. Ez a terlet
az utbbi idben kt, jl elklnthet irnyt mutat. Az egyik cl az idegen
nyelv szvegek megrtsnek segtse. A felhasznlnak ekkor nem kell le-
fordtania a szveget, tartalmnak azonban hasznt veszi. A megrtstmo-
gats alapvet segdeszkzei a gyorsfordt programok, amelyek mai for-
mjukban specilis sztrprogramknt mkdnek. Tovbbfejlesztsk clja
az lehet, hogy ne csak egyes szavakat s a sztrban lev, konyhaksz kife-
jezseket mutassk meg, hanem tnylegesen lefordtsanak mondatokat vagy
kifejezseket. Ehhez alapos nyelvtani elemzsre, j nyelvi modellre s tulaj-
donkppen a gpi fordts szinte teljes fegyvertrra szksg van. Az ilyen
187
12. A nyelv s a szmtgp
eszkz kifejlesztse rendkvl munkaignyes, mivel minden nyelvhez, min-
den nyelvprhoz kln nyelvtant s fordtsi szablyokat kell ltrehozni.
(A nyelvpr a fordtsban az eredeti szveg nyelve s a fordts nyelve
egytt.) A kzeljvben arra szmthatunk, hogy nhny nyelvprhoz meg-
jelennek j minsg mondatszint gyorsfordtk, amelyek mindig akkora
egysg fordtst jelentik meg, amekkort a nyelvtani elemzjk mg felis-
mert. Azonban nem vrhat, hogy ilyen programok tetszleges nyelvprhoz
rendelkezsre lljanak.
A fordtk tmogatst olyan sszetett fordtstmogat rendszerek javt-
hatjk, amelyekben a fordtmemria nem egyszer matematikai eljrssal ke-
resi meg az ppen fordtand mondathoz hasonl rszeket. A keress ehe-
lyett a nyelvi hasonlsgra pl: a mskppen szvegezett, de nyelvtani
szerkezetket tekintve hasonl mondatok felismerse egy lps abba az
irnyba, hogy a gp itt is a szveg tartalma alapjn vgezze a keresst. Sajnos,
a nyelvi szempontbl intelligens fordtmemria ltrehozsa is sok munk-
val jr, mivel az eredeti szvegek nyelvhez viszonylag nagy mlysg mon-
datelemz programra van szksg. gy a kzeljvben a gyorsfordthoz
hasonlan e programok is csak nhny nyelvprral lesznek hasznlhatk,
ksbb azonban ahogy a megfelel nyelvi modellek egyre tbb nyelvhez
megjelennek univerzlisan hozzfrhetv vlhatnak.
Egy msik problma, hogy a szmtgp szmra mindig komoly nehz-
sget okozott a beszd, a paprra nyomtatott szveg s a kzrs felismerse.
A gpen rendelkezsre ll felismersi eljrsok rengeteg hibalehetsget
rejtenek. Mindhrom kommunikcis forma esetn hasonl hibkra szmt-
hatunk: nem lesz pontos a szavak s mondatok elejnek s vgnek meghat-
rozsa, s nem lesz pontos a jelek felismerse sem. A gp sok esetben nem
kpes egyrtelmen meghatrozni, melyik jellel tallkozott: nyomtatott sz-
veg olvassakor keveredhet pldul a h s a k, ekkor a gp csak annyi infor-
mcit ad, hogy a h s a k bet kzl az egyik rkezett. Keveredhet ugyanak-
kor zaj s informci: halvny bet vagy halk beszd, illetve foltos papr s
httrzaj zavarhatja a felismerst. A nyelvtechnolgia ekkor azzal tud segte-
ni, hogy sz- s mondatelemz programok rvn meghatrozza, hogy a be-
szdet, a nyomtatott szveget vagy a kzrst felismer program ltal jelzett
alternatvk kzl melyik lehet valdi sz, kifejezs vagy mondat. Mind a
nyelvtechnolgiai eszkzk, mind a felismersi eljrsok fejldnek. Ennek
eredmnyekpp mra olyan pontos sztralap kzrs-felismer rendsze-
rek jttek ltre, amelyek lehetv tettk az elektronikus palatbla megjelenst.
Ez olyan szmtgp, amelynek csak kpernyje van, billentyzete nincs;
amikor szveget s adatokat rgztnk rajta, a kpernyre runk. A szmt-
gp leginkbb palatblhoz hasonlt, mikzben kpessgei megegyeznek
brmelyik asztali szmtgpvel. Ezeken a gpeken a kzrs felismerst a
nyelvtechnolgia tmogatja. Ez egyben azt is jelenti, hogy ilyen kzrs-felis-
mers mg nem ll rendelkezsre minden nyelvhez, gy a magyarhoz sem.
A kzeljvben azonban szmthatunk ennek megjelensre is.
188
IV. A NYELV S HASZNLJA
14. A szmtgp rengeteg, nyelvvel kapcsolatos dologban segti az embert:
a j minsg szvegek ltrehozsban, az informci keressben, az idegen
nyelv szvegek megrtsben s a fordtsban, hogy csak a legfontosabba-
kat emltsk. Emgtt azonban nincs valdi nyelvtuds: a szmtgp nem
rti s beszli a nyelvnket gy, ahogy mi; de sok esetben jl utnozza az
embert. A nyelv alapvet kapcsolatban van az ember vilgismeretvel: ez a
vilgismeret azonban nem ll a szmtgp rendelkezsre. A nyelv szerkezete
azonban modellezhet matematikai eszkzkkel, s ez tltethet a szmt-
gpre; gy a szmtgp kpes lehet szavak s mondatok elemzsre.
Az emberi nyelv szmtgpi kezelse mg fejldse kezdetn jr. A jv-
ben sokkal tbb szolgltatst vrhatunk tle, mint amennyit ma nyjt. Ma vi-
szont azt kell mondanunk, hogy a szmtgp gyakorlatilag semmit sem tesz
emberi beavatkozs nlkl, ami a nyelvvel kapcsolatos. Minden nyelvi szol-
gltats egy vagy tbb ponton az ember megerstst ignyli. Azzal teht,
hogy az ember nyelvt nhny ponton megtanulta utnozni, a gp mg nem
vlt intelligenss. A nyelvtechnolgia leginkbb arra kszti fel a szmtg-
pet, hogy a nyelvvel kapcsolatos unalmas, monoton rutinmunkban segtse
az embert. Azonban a nyelvtechnolgiai szolgltatsok igen nagy hnyada
mg nem hagyta el a kutatlaboratriumokat; ezek felhasznlsval pedig
mind tbbet s tbbet tudhatunk meg nem a szmtgprl, nem a nyelv
gpi utnzsrl magrl a nyelvrl.
189
12. A nyelv s a szmtgp

You might also like