Дипломска Работа - Стефан Савевски 161-2016

УНИВЕРЗИТЕТ “Св.
КИРИЛ И МЕТОДИЈ” - СКОПЈЕ
ФАКУЛТЕТ ЗА ЕЛЕКТРОТЕХНИКА И ИНФОРМАЦИСКИ

ТЕХНОЛОГИИ
- ДИПЛОМСКА РАБОТА –
по предметот
РОБОТИКА 2
Тема
Користење на природно процесирање на јазици (NLP) за

создавање на најдолгата книга во светот
Ментор: Изработил:
Проф. Д-р. Горјан Наџински Стефан Савевски, индекс бр. 161/2016
e-mail: stefan_savevski08@hotmail.com
Скопје, 2021
Содржина
Апстракт ................................................................................................................................................. 4
1. Вовед .............................................................................................................................................. 5
1.1 Историја на истражување за обработката на јазикот ............................................................ 5
1.2 Именки и глаголи ......................................................................................................................... 9
1.3 Мозочни бранови до уметност .................................................................................................... 9
2. Лингвистика .................................................................................................................................. 10
2.2 Семантика и прагматика............................................................................................................. 12
2.3 Фонетика и фонологија............................................................................................................... 12
3. Компјутациона лингвистика ......................................................................................................... 14
3.1 Почетоци на компјутациона лингвистика................................................................................... 15
3.2 Развојни пристапи ...................................................................................................................... 17
3.3 Структурни пристапи .................................................................................................................. 18
3.4 Пристапи за создавање на компјутерски јазик .......................................................................... 19
4.Историја на NLP ................................................................................................................................. 21
5.Како функционира NLP ...................................................................................................................... 23
5.1 Користење на NLP ....................................................................................................................... 24
5.2 Торба со зборови........................................................................................................................ 26
5.3 Токенизација .............................................................................................................................. 27
5.4 Отстранување на стоп зборови .................................................................................................. 27
5.5 Сечење ........................................................................................................................................ 28
5.6 Лематизација .............................................................................................................................. 29
5.7 Моделирање на теми ................................................................................................................. 30
5.8 Како изгледа иднината? ............................................................................................................. 31
6. Опис на проблемот .......................................................................................................................... 34
6.1 Објаснување ............................................................................................................................... 34
7. Заклучок ........................................................................................................................................... 38
8. Референци ........................................................................................................................................ 39
Листа на слики
Слика 1 Област на Брока и област на Верник ....................................................................................... 6

Слика 2 Област на Брока........................................................................................................................ 8
Слика 3 Едноставен пристап за броење зборови ............................................................................... 26
Слика 4 Пример за токенизација......................................................................................................... 27
Слика 5 Пример за сечење на зборови ............................................................................................... 29
Слика 6 Пример за лематизација ........................................................................................................ 30
Слика 7 Пример за модулирање на теми ........................................................................................... 31
Слика 8 Твитови на Теј: Рики Жерваис научил тоталитаризам од Адолф Хитлер, пронаоѓачот на
атеизмот. ЌЕ НАПРАВИМЕ ЅИД И МЕКСИКО ЌЕ ПЛАТИ ЗА ТОА .......................................................... 32
Слика 9 Број на зборови на проектот .................................................................................................. 36
Апстракт
Во овој дипломски труд ќе бидат истражени концептите на компјутационата

лингвистика како решение за создавање на најдолгата книга во светот. Природното
процесирање на јазици (NLP) освен што има можност да учи од човечкиот јазик, исто
така може и да создава реченици со помош на различни алгоритми. Токму ова
овозможува примена на оваа гранка од вештачката интелигенција за да се собори
рекордот за најдолга книга некогаш напишана. Дополнително, демонстрираме дека
секоја од речениците создадени од алгоритмот е граматички точна.
Клучни зборови: NLP, компјутациона лингвистика

1. Вовед
Повеќето луѓе забораваат дека нашиот мозок е поврзан со зборовите што ги

пишуваме, , страста и креативноста. Уредувањето на зборовите на синтаксички начин не е
само еден аспект на јазичната обработка. Начинот на кој човечките суштества го
обработуваат говорот или пишувањето и го разбираат како јазик, е направено целосно од
и внатре во мозокот.
Па, како ние луѓето го обработуваме јазикот? И, како таа нервна активност се претвора
во уметност на пишување? И дали можеме да направиме програма или компјутер кој ќе
може да ја има таа способност?
1.1 Историја на истражување за обработката на јазикот
Научниците го проучувале односот на јазикот и говорот скоро 150 години. Во 1861

година, додека Абрахам Линколн го пишувал своето познато обраќање на инаугурацијата,
францускиот невролог Пјер Пол Брока бил зафатен со откривање на деловите од мозокот
зад говорот на Линколн - деловите што управуваат со обработка на јазик, разбирање и
производство на говор (заедно со контролата на невроните на лицето)
Она што сега го знаеме како „област на Брока“ се наоѓа во задниот инфериорен
фронтален гирус. Тоа е местото каде што се обликува експресивниот јазик. Брока бил
првата личност што ја поврзал левата хемисфера со јазикот, што останува вистинито за
повеќето од луѓето денес. (Ова не може да се каже за секој мозок - можно е да се има
јазичен центар на десната страна, каде што јазичната јамка лежи во мозокот на околу 30
проценти од леваците и приближно 10 проценти од деснаците.) [10]
Заглавен во задниот дел на областа на Брока е „Pars triangularis“, што е вмешан во

семантиката на јазикот. Кога ќе се размислува за нешто што некому е кажано - стих во
песна, жаргонска реченица - ова е делот од мозокот што ја извршува тешката работа.
Бидејќи Брока проучувал пациенти кои имале разни недостатоци во говорот, тој исто така
го дал своето име на „Брокасовата афазија“ или експресивна афазија, каде што
пациентите често имаат десна страна која е слаба, или парализа на раката и ногата поради
лезии на медијалниот изоларен кортекс. (Друг пациент на Брока бил научник на кого, по
операцијата му недостасувала областа на Брока. Иако научникот претрпел помали јазични
пречки, како што е неможноста да се формираат сложени реченици, неговиот говор на
крајот се опоравил - што подразбира невропластичност во однос на тоа каде се
обработува јазикот.) [11]
Десет години по откритијата на Брока, германскиот невролог Карл Верник открил дека
оштетувањето на областа на Брока не е единственото место во мозокот што може да
предизвика јазичен дефицит. Во горниот заден темпорален лобус, областа на Верник
дејствува како пандан на областа Брока, ракувајќи се со приемчивиот јазик или јазик што
го слушаме и обработуваме.
Лачниот фасцикулус ја поврзува областа на Брока со областа Верник. Ако се оштети

овој пакет нерви, пациентот ќе се соочи со некои проблеми да го повторува она што
другите го велат.
Слика 1 Област на Брока и област на Верник
Верник бил исто така првата личност што создал невролошки модел на јазик,
мапирајќи различни јазични процеси во мозокот - говор до разбирање, познавање од
говор и пишување до читање - модел што бил ажуриран во 1965 година од Норман
Гешвинд. Голем дел од модерната неврологија, како што се однесува на јазикот, е
моделиран според моделот Верник-Гешвинд, иако моделот денес е застарен - дава
широк преглед, но содржи некои неточности, вклучувајќи ја и идејата дека јазичната
обработка се одвива по секвенцијален редослед, отколку во различни делови на мозокот
истовремено, што е она што денес се знае.
Во 60-тите години на минатиот век, Гешвинд открил дека инфериорниот париетален
лобул има нешто важно со јазичната обработка. Сега, благодарение на многу
подобрената технологија за сликање, се знае дека постои уште една рута преку која
патува јазикот помеѓу областа на Брока и областа Верник во долниот париетален лобус.
Овој регион на мозокот се однесува на стекнување јазик и апстрактно користење на
јазикот. Ова е местото каде што се собираат и разгледуваат изговорени и напишани
зборови - не само да се разберат нивните значења, туку и како тие звучат и работат
граматички. Овој дел од мозокот помага да се класифицираат работите користејќи
слушни, визуелни и сензорни стимули; неговото доцно созревање може да биде зошто
децата обично не учат да читаат и пишуваат додека не се некаде на околу 5-годишна
возраст.
Фузиформниот гирус е исто така во фронталниот лобус, а исто така игра интересна
улога во обработката на јазикот во мозокот. Оваа област помага за препознавање зборови
и да се класифицираат работите во други категории. Оштетувањето на овој дел од
мозокот може да предизвика потешкотии во препознавањето на зборовите на
страницата.
Слика 2 Област на Брока
Денес, постојано се учат нови работи за тоа како работи јазикот. На пример, се верува
дека мозокот го извршува својот удел во јазичните функции, вклучувајќи ја и можноста за
разбирање на метафорите, како и моделите на интонација и поетските мерила.
Додека порано се верувало дека луѓето кои зборуваат со знаци користат различен,
визуелно зависен модел на обработка на јазик во мозокот, сега се верува дека јазикот се
обработува слично на вербални и невербални начини. Како што се испоставило, мозокот
на глувите лица функционира на ист начин како и нивните колеги со слух: истите делови
на мозокот се активираат додека зборуваат, без разлика дали тоа е со употреба на знаци
или не. Ова истражување било презентирано во издание на Science Direct [12], а д-р
Мишел Хан, професор по говорен јазик на Државниот универзитет во Сан Диего,
претставила ново истражување на Американската асоцијација за унапредување на
науката во Сан Диего илустрирајќи дека мозокот реагира на знаците тоа се пантомими -
пиење, на пример - точно на ист начин како зборот „пијалок“ да е изговорен на глас.
„Тоа сугерира дека мозокот е организиран за јазик, а не за говор“, вели таа. [12]
1.2 Именки и глаголи
Како реагира мозокот кога користиме глагол како „пијам“ наспроти именка како
„млеко“?
Ново истражување покажува дека мозокот всушност се однесува со именките и

глаголите сосема поинаку. Децата обично учат именки пред глаголите, а возрасните
обично реагираат побрзо на именките за време на когнитивните тестови, според студијата
во NeuroImage на д-р Антони Родригез-Форнелс, истражувач на ICREA на единицата за
познавање и пластичност на мозокот на Универзитетот во Барселона, заедно со психолог
Д-р Ана Местрес-Мисе од Институтот Макс Планк за човечки когнитивни и мозочни науки
во Лајпциг и неврологот д-р Томас Ф. Мунте од Универзитетот Ото фон Гурикек во
Магдебург, Германија, илустрирајќи како функционира мозокот кога мозоците се
среќаваат со нови именки и глаголи.
Сликите што овие научници ги собрале од 21 лице, кои научиле 80 нови именки и
80 нови глаголи, покажале дека активноста при учење на нова именка главно се случила
во левиот фузиформен гирус, додека новите глаголи активирале лево заден медијален
темпорален гирус, што ни помага за процесирање на граматика. Оваа студија започнува
да разгледува како нашиот мозок ги учи деловите на говорот, иако не укажува многу на
тоа како учиме јазици. [13]
Овие резултати сугерираат дека истите региони претходно поврзани со

претставување на значењето на именките и глаголите се исто така поврзани со
воспоставување кореспонденции помеѓу овие значења и нови зборови, процес што е
неопходен за учење на втор јазик.
1.3 Мозочни бранови до уметност

Како нашиот мозок ги зема овие именки и глаголи и ги преведува во јасни тврдења
и мелодиски фрази е предмет на многу научни истражувања и дебати.
„Може ли нешто добро да се добие од такво медицинско свртување кон светот на

пишувањето?“ Алис Флеерти пишува во својата книга, „Болеста на полноќ: Нагон за
пишување, блокадата на писателот и креативен мозок“ [16]. „Медицината има тенденција
да доведе до патографии на уметници: издолжените фигури на Ел Греко се објаснети како
обичен астигматизам, а пишувањето на Достоевски како ништо друго освен епилепсија“.
Секако, проучувањето на мозокот на писателите и другите видови уметници -

аномалии или не - е паметен начин да се воспостават врски за начините на кои мозокот го
обработува јазикот. На пример, Владимир Набоков бил познат синестет, состојба под
влијание на тоа колку бела материја има во фузиформниот гирус, дел од мозокот за кој
знаеме дека исто така игра улога во обработката на јазикот.
Тогаш не е изненадувачки што Набоков може да ја земе својата варијанта на

хромостезија - тој ги поврзувал боите со броевите, луѓето и емоциите - и ги преведувал во
живописни реченици и возбудливи карактерни црти, како што сторил во два свои романи
во кои се претставени синестетите како главни ликови.
Или плодноста на таквите писатели како Џорџ Орвел може да се објасни со

хиперграфија - состојба во која некој е принуден да пишува.
Но, тенка е границата помеѓу тоа што прават луѓето и како овие невролошки
специфичности се манифестираат во уметноста: Може да се објасни генијалец со
испитување на неговиот или нејзиниот ум, но има уште многу да се научи за мозокот и
зошто луѓето го прават она што го прават.
2. Лингвистика
Лингвистиката е научно проучување на јазикот. Тоа вклучува анализа на јазичната

форма, значењето на јазикот, и јазикот во контекст, како и анализа на социјалните,
културните, историските и политичките фактори кои влијаат на јазикот.
Лингвистите традиционално го анализираат човечкиот јазик со набудување на

односот помеѓу звукот и значењето. Значењето може да се изучува во неговата директно
изговорена или писмена форма преку полето на семантиката, како и во нејзините
индиректни форми преку дисциплината прагматика (на пример, од говорот на телото и
гестовите, на пример). Секоја честичка на звучниот говор се нарекува фонема. Како овие
фонеми се организирани за да пренесат значење, зависи од различните јазични обрасци и
структури што теоретските лингвисти ги опишуваат и анализираат.
Некои од овие модели на звук и значење се наоѓаат во студијата за морфологија

(во врска со тоа како зборовите се формулираат преку „морфеми“), синтаксата (како се
структурирани фразите и речениците) и фонологијата (проучувањето на звучните
обрасци). Појавата на историска и еволутивна лингвистика, исто така, довела до поголем
фокус на проучување како се менуваат и растат јазиците, особено во подолг временски
период. Социолингвистите исто така учат како се развива јазикот меѓу различните
заедници преку дијалекти и како секој јазик се менува, расте и варира од личност до
личност и од група до група.
Макролингвистичките концепти вклучуваат проучување на наративната теорија,

стилистика, анализа на дискурс и семиотика. Микролингвистичките концепти, од друга
страна, вклучуваат анализа на граматика, говорни звуци, палеографски симболи,
конотација и логички препораки, сите може да се применат на лексикографија,
уредување, јазична документација, превод, како и патологија на говор, редоследот и
структурата на значајните јазични единици како што се зборовите и морфемите.
Синтактичарите ги проучуваат правилата и ограничувањата што регулираат како
говорителите на еден јазик можат да организираат зборови во реченици. Морфолозите
проучуваат слични правила за редоследот на морфемите - подзборови единици како што
се префикси и наставки - и како тие можат да се комбинираат за да формираат зборови.
Додека зборовите се општо прифатени како најмали единици на синтаксата, во

повеќето јазици, ако не и во сите, многу зборови можат да бидат поврзани со други
зборови со правила што колективно ја опишуваат граматиката за тој јазик. На пример,
англиските говорители препознаваат дека зборовите куче и кучиња се тесно поврзани,
диференцирани само со морфемата на плуралноста „-с“, само што се поврзани со
именски фрази. Говорители на англиски јазик, фузионален јазик, ги препознаваат овие
односи од нивното вродено познавање на правилата за формирање на зборови на
англиски јазик. Тие интуитивно заклучуваат дека кучето е важно за кучињата, како што е
мачката за мачките.
Спротивно на тоа, класичниот кинески има многу малку морфологија, користејќи

скоро исклучиво неврзани морфеми („слободни“ морфеми) и во зависност од редоследот
на зборовите за да се пренесе значењето. (Повеќето зборови во модерниот стандарден
кинески [„мандарински“], сепак, се соединенија и повеќето корења се врзани.) Овие се
сфаќаат како граматики што ја претставуваат морфологијата на јазикот. Правилата
разбрани од говорникот одразуваат специфични обрасци или правилности во начинот на
формирање на зборовите од помалите единици на јазикот што го користат и како тие
помали единици комуницираат во говорот. На овој начин, морфологијата е гранка на
лингвистиката што ги проучува обрасците на формирање на зборови во и преку јазиците и
се обидува да формулира правила што го моделираат знаењето на говорителите на тие
јазици.
Фонолошките и правописните модификации помеѓу основниот збор и неговото

потекло може да бидат делумни во однос на вештините за писменост. Студиите покажале
дека присуството на модификација во фонологијата и правописот ги прави морфолошки
сложените зборови потешки за разбирање и дека отсуството на модификација помеѓу
основниот збор и неговото потекло ги прави морфолошки сложените зборови полесно
разбирливи. Морфолошки сложените зборови е полесно да се разберат кога вклучуваат
основен збор.
Дисциплината што се занимава особено со звучните промени што се случуваат во

рамките на морфемите е морфофонологија. [15]
2.2 Семантика и прагматика
Семантиката и прагматиката се гранки на лингвистиката кои се занимаваат со

секакво значење. Овие потполиња традиционално се поделени според улогата на
јазичниот и социјалниот контекст при одредувањето на значењето. Семантиката во оваа
концепција се занимава со основни значења како прагматиката што се занимава со
значење во контекст. Прагматиката опфаќа теорија на говорен чин, импликација на
разговор, разговор во интеракција и други пристапи кон јазичното однесување во
филозофијата, социологијата, лингвистиката и антропологијата.
За разлика од семантиката, која го испитува значењето што е конвенционално или

„кодирано“ на даден јазик, прагматиката проучува како пренесувањето на значењето
зависи не само од структурното и јазичното знаење (граматика, лексика, итн.) На
говорникот и слушателот, туку и од контекст на исказот, какво било претходно постоење
на знаење за инволвираните, заклучена намера на говорникот и други фактори. Во тој
поглед, прагматиката објаснува како јазичните корисници се во состојба да ја надминат
очигледна двосмисленост бидејќи значењето се потпира на начинот, местото, времето и
слично.
2.3 Фонетика и фонологија

Фонетиката и фонологијата се гранки на лингвистиката кои се занимаваат со звуци
(или еквивалентни аспекти на знаковните јазици). Фонетиката во голема мера се
занимава со физичките аспекти на звуците како што се нивната акустика, производство и
перцепција. Фонологијата се занимава со јазичните апстракции и категоризации на
звуците.
3. Компјутациона лингвистика
Компјутерска лингвистика е интердисциплинарна област што се однесува на

компјутерското моделирање на природниот јазик, како и проучување на соодветни
пресметковни пристапи кон јазичните прашања. Општо, компјутерската лингвистика, меѓу
другите, се базира на лингвистика, компјутерски науки, вештачка интелигенција,
математика, логика, филозофија, когнитивна наука, когнитивна психологија,
психолингвистика, антропологија и невронаука.
Традиционално, компјутерската лингвистика се појавила како област на вештачка

интелигенција изведена од компјутерски научници кои специјализирале примена на
компјутери за обработка на природен јазик. Со формирањето на Здружението за
компјутерска лингвистика (ACL) и воспоставувањето на независни серии на конференции,
полето се консолидирало во текот на 1970-тите и 1980-тите.
Здружението за компјутерска лингвистика ја дефинира компјутерската лингвистика

како научната студија на јазикот од компјутерска перспектива. Компјутерски лингвисти се
заинтересирани да обезбедат пресметковни модели на разни видови јазични појави.
Терминот „компјутерска лингвистика“ во денешно време се смета за скоро-

синоним за технологија за обработка на природен јазик (NLP – Natural Language Processing
- синоним за технологија за обработка на природен јазик) и човечки јазик. Овие термини
ставаат посилен акцент на аспектите на практичните апликации отколку на теоретското
истражување од 2000-тите. Во пракса, тие во голема мерка го замениле терминот
„компјутерска лингвистика“ во заедницата на NLP / ACL , иако тие конкретно се
однесуваат само на под-полето на применета компјутерска лингвистика.
Компјутерската лингвистика има и теоретски и применети компоненти.

Теоретската компјутерска лингвистика се фокусира на прашања во теоретската
лингвистика и когнитивната наука. Применетата компјутерска лингвистика се фокусира на
практичниот исход на моделирање на употребата на човечки јазик.
Теоретската компјутерска лингвистика вклучува развој на формални теории на

граматика (парсирање) и семантика, честопати втемелени во формална логика и
симболички (базирани на знаење) пристапи. Области на истражување што ги проучува
теоретската компјутерска лингвистика вклучуваат:
 Компјутерска комплексност на природниот јазик, главно моделирана според

теоријата на автомати, со примена на граматика чувствителна на контекст и
линеарно ограничени Турингови машини.
 Компјутерска семантика која опфаќа дефинирање соодветни логики за
претставување на јазичното значење, нивно автоматско конструирање и
расудување со нив.
Во применетата компјутерска лингвистика доминира машинското учење,

традиционално користејќи статистички методи, уште од средината на 2010-тите, од
невронските мрежи. До 2015 година, длабокото учење еволуираше во главната рамка на
NLP. Ова вклучува класични проблеми како што се дизајнот на означувачи на ПОС
(означувачи на дел од говорот), анализатори за природни јазици или задачи како
машински превод (МТ), под-поделбата на компјутерската лингвистика што се занимава со
тоа што компјутерите преведуваат помеѓу јазиците . Како една од најраните и најтешките
апликации на компјутерската лингвистика, МТ се потпира на многу под полиња и на
теоретски и применети аспекти. Традиционално, автоматскиот превод на јазик се смета за
озлогласено тешка гранка на компјутерската лингвистика. [3]
Освен дихотомијата помеѓу теоретската и применетата компјутерска лингвистика,

постојат и други поделби на компјутерската лингвистика во главните области според
различни критериуми, вклучително:
 медиум на јазикот што се обработува, без разлика дали е говорен или текстуален:
препознавањето на говорот и синтезата на говорот се занимаваат со тоа како
говорен јазик може да се разбере или креира со употреба на компјутери.
 задача што се изведува, на пр., дали анализа на јазик (препознавање) или
синтетизирање на јазик (генерација): Парсирањето и генерацијата се под-поделби
на компјутерската лингвистика, кои се занимаваат, соодветно, со одвојување и
составување на јазик.
Традиционално, апликациите на компјутерите за решавање на истражувачки

проблеми во други гранки на лингвистиката се опишани како задачи во рамките на
компјутерската лингвистика. Меѓу другите аспекти, ова вклучува:
 Лингвистика на корпус помогната од компјутер, што се користи од 1970-тите, како

начин за детален напредок во областа на анализата на дискурсот
 Симулација и проучување на еволуцијата на јазикот во историската лингвистика.
3.1 Почетоци на компјутациона лингвистика
Компјутерската лингвистика честопати е групирана во полето на вештачката

интелигенција, но била присутна пред развојот на вештачката интелигенција.
Компјутерската лингвистика потекнува од напорите во Соединетите Американски Држави
во 1950-тите да се користат компјутери за автоматски да се преведуваат текстови од
странски јазици, особено руски научни списанија, на англиски јазик. Бидејќи компјутерите
можат да направат аритметички (систематски) пресметки многу побрзо и поточно отколку
луѓето, се сметало дека е кратко време пред тие исто така да започнат да го обработуваат
јазикот.
Компјутерските и квантитативните методи исто така се користат во обидот за

реконструкција на претходните форми на современи јазици и подгрупирањето на
современите јазици во јазични семејства. Поранешните методи, како што се
лексикостатистиката и глотохронологијата, се докажале како прерани и неточни. Сепак,
неодамнешните интердисциплинарни студии кои позајмуваат концепти од биолошки
студии, особено генетско мапирање, покажале резултат на пософистицирани аналитички
алатки и посигурни резултати.
Кога машинскиот превод (познат и како механички превод) не успеал да даде

точни преводи веднаш, автоматската обработка на човечките јазици била препознаена
како многу покомплексна отколку што првично се претпоставувало. Компјутерската
лингвистика е родена како име на новото поле на студии посветено на развој на
алгоритми и софтвер за интелигентно обработка на јазичните податоци. Самиот термин
„компјутерска лингвистика“ за прв пат го смисли Дејвид Хејс, основачки член и на
Здружението за компјутерска лингвистика (ACL) и на Меѓународниот комитет за
компјутерска лингвистика (ICCL).
За да се преведе еден јазик на друг, било забележано дека треба да се разбере

граматиката на двата јазика, вклучително и морфологијата (граматиката на зборовните
форми) и синтаксата (граматиката на структурата на реченицата). За да се разбере
синтаксата, требало да се разбере и семантиката и лексиката (или „вокабуларот“), па дури
и нешто од прагматиката на употребата на јазик. Така, она што започнало како обид да се
преведе меѓу јазиците еволуирало во цела дисциплина посветена на разбирање како да
се претстават и обработат природните јазици со употреба на компјутери.
Во денешно време, истражувањата во рамките на компјутерската лингвистика се

вршат на оддели за компјутерска лингвистика, лаборатории за компјутерска лингвистика,
оддели за компјутерски науки, и оддели за лингвистика. Некои истражувања во областа
на компјутерската лингвистика имаат за цел да создадат работен систем за обработка на
говор или текст, додека други имаат за цел да создадат систем што овозможува
интеракција меѓу човекот и машината. Програмите наменети за комуникација човек-
машина се нарекуваат агенти за разговор. [6]
3.2 Развојни пристапи
Јазикот е когнитивна вештина што се развива во текот на животот на една личност.

Овој развојен процес е испитан со употреба на неколку техники, а пресметковниот
пристап е еден од нив. Развојот на човечкиот јазик дава некои ограничувања што го
отежнуваат примената на пресметковен метод за разбирање. На пример, за време на
стекнување јазик, човечките деца во голема мера се изложени само на позитивни докази.
Ова значи дека за време на јазичниот развој на една личност, се обезбедуваат
единствените докази за тоа што е правилна форма, и нема докази за она што не е точно.
Ова е недоволна информација за едноставна процедура за тестирање на хипотеза за
информации сложени како и јазикот, и така обезбедува одредени граници за
компјутерски пристап кон моделирање на развој и стекнување јазик кај една личност.
Направени се обиди за моделирање на развојниот процес на стекнување јазик кај

децата од компјутерски агол, што доведува и до статистички граматики и до
софистицирани модели. Работата во оваа област е исто така предложена како метод за
објаснување на еволуцијата на јазикот низ историјата. Користејќи модели, се покажа дека
јазиците можат да се учат со комбинација на едноставен внес што се претставува
постепено, бидејќи детето развива подобра меморија и подолг опсег на внимание. Ова
било истовремено поставено како причина за долгиот развој период на човечки деца.
Двата заклучоци биле донесени заради јачината на вештачката нервна мрежа што ја
создал проектот.
Способноста на доенчињата да развиваат јазик е исто така моделирана со употреба

на роботи со цел да се тестираат јазичните теории. Овозможено да учат како што можат
децата, бил создаден модел заснован на модел на додаток во кој биле креирани
пресликувања помеѓу дејства, перцепции и ефекти и биле поврзани со изговорени
зборови. Клучно, овие роботи биле во можност да се здобијат со функционални
пресликувања од збор до значење, без да имаат потреба од граматичка структура,
огромно поедноставување на процесот на учење и расветлување на информациите што го
унапредуваат сегашното разбирање за јазичниот развој. Важно е да се напомене дека
оваа информација можела да биде само емпириски тестирана со користење на
компјутерски пристап.
Бидејќи нашето разбирање за јазичниот развој на една личност во текот на

животот постојано се подобрува со користење на нервни мрежи и учење роботски
системи, исто така е важно да се има предвид дека и самите јазици се менуваат и
развиваат со текот на времето. Компјутерските пристапи за разбирање на овој феномен
откриле многу интересни информации. Користејќи ја равенката на цените истражувачите
создале систем кој не само што ја предвидува идната јазична еволуција, туку исто така
дава увид во еволутивната историја на денешните јазици. Овој напор за моделирање
постигнал, преку компјутерска лингвистика, она што инаку би било невозможно.
Јасно е дека разбирањето на јазичниот развој кај луѓето, како и во текот на

еволутивното време, бил фантастично подобрен заради напредокот во компјутерската
лингвистика. Способноста да се моделираат и модифицираат системите по своја волја и
овозможува на науката етички метод за тестирање на хипотези, кој инаку би бил
нерешлив.
3.3 Структурни пристапи
Да се создадат подобри компјутерски модели на јазик, разбирањето на структурата

на јазикот е клучно. За таа цел, англискиот јазик е прецизно изучуван со употреба на
компјутерски пристапи за подобро разбирање на тоа како работи јазикот на структурно
ниво. Едно од најважните делови за да може да се проучи јазичната структура е
достапноста на големи јазични тела или примероци. Ова им дава на компјутерските
лингвисти сурови податоци потребни за да ги извршат своите модели и да добијат
подобро разбирање за основните структури присутни во огромната количина на податоци
што се содржани на кој било единствен јазик. Една од најцитираните англиски јазични
тела е Пен Трибанк. Добиен од широко-различни извори, како што се компјутерски
прирачници IBM и транскрибирани телефонски разговори, овој корпус содржи над 4,5
милиони зборови на американски англиски јазик. Овој корпус е примарно коментиран со
употреба на обележување на дел од говорот и синтаксички загради и дал значителни
емпириски набудувања поврзани со јазичната структура.
Развиени се и теоретски пристапи кон структурата на јазиците. Овие дела

овозможуваат компјутерската лингвистика да има рамка во која може да се изработуваат
хипотези кои ќе го унапредат разбирањето на јазикот на огромен број начини. Една од
оригиналните теоретски тези за интернализација на граматиката и структурата на јазикот
предложи два вида модели. Во овие модели, научените правила или модели ја
зголемуваат силата со фреквенцијата на нивното соочување. Работата, исто така, создала
прашање за да одговорат пресметковните лингвисти: како новороденчето учи
специфична и нерегуларна граматика (нормална форма на Чомски) без да научи
прегенерализирана верзија и да заглави? Теоретски напори како овие го поставуваат
правецот за истражување да се оди рано во текот на животот на одредена област на
студии, и се клучни за растот на оваа област.
Структурните информации за јазиците овозможуваат откривање и спроведување
на препознавање на сличноста помеѓу парови на искази на текст. На пример, неодамна е
докажано дека врз основа на структурните информации присутни во образците на
човечкиот дискурс, рекурзивни шеми за повторување можат да се користат за
моделирање и визуелизирање на трендовите во податоците и за создавање сигурни
мерки на сличност помеѓу природните текстуални искази. Оваа техника е силна алатка за
понатамошно испитување на структурата на човечкиот дискурс. Без пресметковниот
пристап кон ова прашање, огромната комплексна информација присутна во податоците за
дискурсот ќе останела недостапна за научниците.
Без пресметковен пристап кон структурата на јазичните податоци, голем дел од

информациите што се достапни сега сè уште би биле скриени под огромната ширина на
податоците на кој било единствен јазик. Компјутерската лингвистика им овозможува на
научниците да анализираат огромни количини на податоци веродостојно и ефикасно,
создавајќи можност за откритија, за разлика од оние што се гледаат во повеќето други
пристапи.
3.4 Пристапи за создавање на компјутерски јазик
Создавањето на јазик е подеднакво сложено во информациите што ги дава и

потребните вештини што течен производител мора да ги има. Тоа е да се каже,
разбирањето е само половина од проблемот со комуникацијата. Другата половина е како
системот произведува јазик, а компјутерската лингвистика направи интересни откритија
во оваа област.
Во сега познатиот труд објавен во 1950 година, Алан Туринг предлага можност
машините еден ден да имаат способност да „размислуваат“. Како мисловен експеримент
за тоа што може да го дефинира концептот на мисла во машините, тој предложил „тест за
имитација“ во кој човечки субјект има два разговори само со текст, еден со човек и друг
со машина што се обидува да одговори како човек . Туринг предлага дека ако субјектот не
може да направи разлика помеѓу човекот и машината, може да се заклучи дека машината
е способна за размислување. Денес овој тест е познат како Турингов тест и тој останува
влијателна идеја во областа на вештачката интелигенција.
Еден од најраните и најпознати примери на компјутерска програма дизајнирана да

разговара природно со луѓето е програмата ЕЛИЗА развиена од Џозеф Вајзенбаум на МИТ
во 1966 година. Програмата имитирала рожевски психотерапевт кога одговарала на
пишани изјави и прашања поставени од корисник. Се чинело способно да разбере што е
речено и да реагира интелигентно, но програмата едноставно следела рутина што
одговара на моделот, која се потпирала само на разбирање на неколку клучни зборови во
секоја реченица. Одговорите биле генерирани со рекомбинирање на непознатите делови
на реченицата околу правилно преведени верзии на познатите зборови. На пример, во
фразата „Се чини дека ме мразиш“ ЕЛИЗА ги разбира „ти“ и „мене“ што одговара на
општата шема „ти [некои зборови] мене“, дозволувајќи EL на ЕЛИЗА да ги ажурира
зборовите „ти“ и „мене“ на „Јас“ и „ти“ и одговарајќи „Што те тера да мислиш дека те
мразам?“. Во овој пример ЕЛИЗА нема разбирање за зборот „омраза“, но тој не е
потребен за логичен одговор во контекст на овој вид психотерапија.
Некои проекти сè уште се обидуваат да го решат проблемот што прво започнал со

компјутерска лингвистика како нејзина област. Сепак, методите станале порафинирани, и
следствено, резултатите генерирани од компјутерски лингвисти станаа попросветлувачки.
За да се подобри компјутерскиот превод, споредувани се неколку модели, вклучувајќи
скриени модели на Марков, техники за измазнување и специфични рафинирања на оние
што ги применуваат на преводот на глаголот. Моделот за кој било откриено дека
произведува најприродни преводи на германски и француски зборови бил рафиниран
модел на усогласување со зависност од прв ред и модел на плодност. Тие исто така
обезбедуваат ефикасни алгоритми за обука за презентираните модели, што може да им
даде на другите научници можност за понатамошно подобрување на нивните резултати.
Овој вид на работа е специфичен за компјутерската лингвистика и има апликации кои
можат значително да го подобрат разбирањето за тоа како се произведува и сфаќа јазикот
преку компјутерите.
Направено е истражување и во тоа компјутерите да создаваат јазик на

понатуралистички начин. Користејќи јазичен придонес од луѓе, конструирани се
алгоритми кои можат да го модифицираат стилот на производство на системот заснован
врз фактор како што е јазичен влез од човек или повеќе апстрактни фактори како учтивост
или која било од петте главни димензии на личноста. Оваа работа зазема компјутерски
пристап преку модели за проценка на параметрите за да се категоризира огромната низа
јазични стилови што ги гледаме кај поединци и да ја поедноставиме за да работи
компјутерот на ист начин, правејќи ја интеракцијата меѓу човек и компјутер многу
поприродна. [8]
4.Историја на NLP
Историјата на машинскиот превод датира од XVII век, кога филозофи, како Лајбниц
и Декарт, изложувале предлози за кодови што би ги поврзале зборовите меѓу јазиците.
Сите овие предлози останале теоретски и ниту еден не резултирал во развој на вистинска
машина.
Првите патенти за „машини за преведување“ биле применети во средината на

триесеттите години од минатиот век. Еден предлог, од Џорџ Артсруни, бил едноставно
автоматски двојазичен речник со употреба на хартиена лента. Другиот предлог, од Питер
Тројански, бил подетален. Вклучувал и двојазичен речник и метод за справување со
граматички улоги меѓу јазиците, базиран на есперанто.
Во 1957 година, Синтаксичките структури на Ноам Чомски направиле револуција во

лингвистиката со „универзална граматика“, систем на синтаксички структури заснован на
правила.
Експериментот во Џорџтаун во 1954 година вклучувал целосно автоматски превод

на повеќе од шеесет руски реченици на англиски јазик. Авторите тврдат дека во рок од
три или пет години, машинскиот превод ќе бил решен проблем. Сепак, реалниот
напредок бил многу побавен и по извештајот на АЛПАК во 1966 година, кој открил дека
десетгодишното истражување не ги исполнило очекувањата, финансирањето за
машински превод било драматично намалено. Малку понатамошни истражувања во
машинскиот превод биле спроведени сè до доцните 1980-ти, кога биле развиени првите
системи за статистички машински превод.
До 80-тите години на минатиот век, повеќето системи за NLP се засновале врз

сложени групи на рачно напишани правила. Сепак, почнувајќи од доцните 1980-ти, се
случила револуција во NLP со воведување алгоритми за машинско учење за обработка на
јазик. Ова се должело и на постојаното зголемување на пресметковната моќ како резултат
на Муровиот закон и на постепеното намалување на доминацијата на теориите за
лингвистика на Чомски (на пр., Трансформациска граматика), чии теоретски основи го
обесхрабруваа видот на корпус-лингвистиката што е основа на пристапот на машинско
учење кон обработка на јазик. Некои од најраните користени алгоритми за машинско
учење, како што се дрвјата за одлуки, произвеле системи на тврди правила ако тогаш
биле слични на постојните правилно напишани правила.
Меѓутоа, сè повеќе, истражувањата се фокусираат на статистички модели, кои
донесуваат меки, веројатни одлуки засновани на прицврстување на вредности со реална
вредност на карактеристиките што ги сочинуваат влезните податоци. Моделите на
јазиците на кеш меморија на кои сега се потпираат многу системи за препознавање говор
се примери за такви статистички модели. Таквите модели се генерално поцврсти кога им
се дава непознат влез, особено влез што содржи грешки (како што е многу чест за
податоците од реалниот свет), и даваат посигурни резултати кога се интегрирани во
поголем систем кој содржи повеќе подзадачи.
Многу од забележителните рани успеси се случиле во областа на машинскиот

превод, особено поради работата во IBM Research, каде што биле развиени сукцесивно
покомплицирани статистички модели. Овие системи биле во можност да ги искористат
постојните повеќејазични текстуални тела што биле произведени од Парламентот на
Канада и Европската унија како резултат на законите што повикуваат на превод на сите
владини постапки на сите официјални јазици на соодветните системи на управување.
Сепак, повеќето други системи зависеле од корпорациите специјално развиени за
задачите што ги спроведуваа овие системи, што биле (и често продолжува да биде)
големо ограничување во успехот на овие системи. Како резултат, голем дел од
истражувањата се насочени кон методи за поефикасно учење од ограничени количини на
податоци.
Најновите истражувања се повеќе се фокусираат на алгоритми за учење без надзор

и полунадзор. Таквите алгоритми можат да учат од податоците што не биле рачно
коментирани со посакуваните одговори, или користејќи комбинација на коментари и
некоментирани податоци. Општо, оваа задача е многу потешка од надгледуваното учење
и обично произведува помалку точни резултати за дадена количина на влезни податоци.
Сепак, има огромна количина на некоментирани податоци на располагање (вклучувајќи
ја, меѓу другото, и целата содржина на Светската мрежа), што честопати може да ги
надомести инфериорните резултати.
5.Како функционира NLP
Сè што изразуваат луѓето (или вербално или во писмена форма) носи огромна
количина на информации. Темата што се избира, тонот, изборот на зборови, сè додава
некаков вид на информација што може да се толкува и да се извлече вредност од истата.
Во теорија, може да се разбере, па дури и да се предвиди човечкото однесување
користејќи ги тие информации.
Но, постои проблем: едно лице може да генерира стотици или илјадници зборови,
секоја реченица со соодветната сложеност. Ако некој сака да размери и анализира
неколку стотици, илјадници или милиони луѓе или декларации во дадена географска
област, тогаш ситуацијата е невозможна.
Податоците генерирани од разговори, декларации или дури твитови се примери на

неструктурирани податоци. Неструктурираните податоци не се вклопуваат во
традиционалната структура на редови и колони на релациони бази на податоци и
претставуваат огромно мнозинство на достапни податоци во реалниот свет. Неуредно е и
тешко е да се манипулира. Како и да е, благодарение на напредокот во дисциплините,
како машинско учење, се случува голема револуција во врска со оваа тема. Во денешно
време веќе не станува збор за обид за толкување на текст или говор врз основа на
неговите клучни зборови (старомоден механички начин), туку за разбирање на значењето
што стои зад овие зборови (когнитивен начин). На овој начин е можно да се детектираат
фигури на говор како иронија, па дури и да се изврши анализа на чувства.
Обработка на природен јазик или NLP е област на вештачка интелигенција која им

дава на машините можност за читање, разбирање и извлекување на значење од човечки
јазици.
Тоа е дисциплина која се фокусира на интеракција помеѓу науката за податоци и

човечкиот јазик и е обемна за многу индустрии. Денес NLP цвета благодарение на
огромните подобрувања во пристапот до податоците и зголемувањето на пресметковната
моќ, што им овозможува на практичарите да постигнат значајни резултати во области
како што се здравствената заштита, медиумите, финансиите и човечките ресурси, меѓу
другите.
5.1 Користење на NLP
Во едноставни термини, NLP претставува автоматско ракување со природен

човечки јазик како говор или текст, и иако самиот концепт е фасцинантен, вистинската
вредност зад оваа технологија доаѓа од типот на употреба.
NLP може да ни помогне при многу задачи, а полињата на примена се зголемуваат на

дневна основа. Еве неколку примери:
 NLP овозможува препознавање и предвидување на болести засновани врз

електронска здравствена евиденција и сопствен говор на пациентот. Оваа
способност се истражува во здравствени услови кои одат од кардиоваскуларни
заболувања до депресија, па дури и шизофренија. На пример, Amazon Comprehend
Medical е услуга што користи NLP за извлекување на состојби на болести, лекови и
резултати од третман од белешки на пациенти, извештаи за клинички испитувања
и други електронски здравствени досиеја.
 Организациите можат да утврдат што зборуваат клиентите за услуга или производ
со идентификување и извлекување информации во извори како што се социјалните
медиуми. Оваа анализа на чувства може да обезбеди многу информации за
изборот на клиенти и нивните двигатели на одлуки.
 Пронаоѓач на IBM развил когнитивен асистент кој работи како персонализиран
пребарувач со тоа што ќе научи сè за некого и потоа ќе потсети на име, песна или
што и да не се сеќава во моментот кога треба.
 Компаниите како Yahoo и Google ги филтрираат и класифицираат е-пошта со NLP со
анализа на текст во е-пошта што тече низ нивните сервери и запирање на несакана
пошта, дури и пред да влезат во сандачето.
 За да помогне во идентификување на лажни вести, групацијата NLP при МИТ разви
нов систем за да утврди дали изворот е точен или политички пристрасен,
откривајќи дали може да се верува на извор на вест или не.
 Alexa и Siri на Амазон се примери на интелигентни гласовни управувани интерфејси
кои користат NLP за да одговорат на гласовните инструкции и прават сè како да
најдат одредена продавница, да кажат временска прогноза, да ја предложат
најдобрата рута до канцеларијата или да ги вклучат светлата дома.
 Да се има увид во тоа што се случува и за што зборуваат луѓето може да биде
многу вредно за финансиските трговци. NLP се користи за следење на новости,
извештаи, коментари за можни спојувања помеѓу компании, сè може потоа да се
вметне во алгоритам за тргување за да се генерираат огромни профити.
 NLP исто така се користи и во фазите на пребарување и селекција на регрутирање
таленти, идентификување на вештините на потенцијални вработувања и, исто така,
откривање изгледи пред тие да станат активни на пазарот на трудот.
 Напојувано од технологијата IBM Watson NLP, LegalMation разви платформа за
автоматизирање на рутински парнични задачи и им помага на правните тимови да
заштедат време, да ги намалат трошоците и да го сменат стратешкиот фокус.
NLP особено цвета во здравствената индустрија. Оваа технологија ги подобрува

испораките за нега, дијагностицирање на болести и ги намалува трошоците додека
здравствените организации поминуваат низ сè поголемо усвојување на електронски
здравствени досиеја. Фактот дека клиничката документација може да се подобри значи
дека пациентите можат подобро да се разберат и да имаат корист преку подобро
здравство. Целта треба да биде оптимизирање на нивното искуство, а неколку
организации веќе работат на ова.
Компаниите како лабораториите Винтерлајт прават огромни подобрувања во

третманот на Алцхајмеровата болест со следење на когнитивното оштетување преку
говорот и тие исто така можат да поддржат клинички испитувања и студии за широк
спектар на нарушувања во централниот нервен систем. Следејќи го сличниот пристап,
универзитетот Стенфорд го разви Воебот, терапевт за чат-бот, со цел да им помогне на
луѓето со анксиозност и други нарушувања.
Пред неколку години, Мајкрософт покажа дека со анализа на големи примероци од

пребарувачи, тие можат да идентификуваат корисници на Интернет кои страдале од рак
на панкреас, уште пред да добијат дијагноза на болеста. Како корисниците би реагирале
на ваквата дијагноза? И што би се случило ако ве тестираат како лажно позитивно? (што
значи дека може да се дијагностицира болеста иако некој ја нема). Ова потсетува на
случајот со трендот за грип, за кој било најавено дека во 2009 година може да се
предвиди грип, но подоцна исчезнал заради ниската точност и неможноста да се
исполнат предвидените стапки.
NLP може да биде клучот за ефективна клиничка поддршка во иднина, но сепак има
многу предизвици со кои се соочуваме на краток рок.
Главните недостатоци со кои се соочуват овие денови со NLP се однесуваат на фактот

дека јазикот е многу комплексен. Процесот на разбирање и манипулирање со јазикот е
исклучително сложен и поради оваа причина вообичаено е да се користат различни
техники за да се справат со различни предизвици пред да се врзат сè заедно.
Програмските јазици како Python или R се многу користени за изведување на овие
техники.
5.2 Торба со зборови
Ова е најчесто користен модел кој овозможува да се бројат сите зборови во парче
текст. Во суштина, ова создава матрица на појава за реченицата или документот, не
водејќи сметка за граматиката и редот на зборовите. Овие фреквенции или појави на
зборови потоа се користат како одлики за обука на класификатор.
Еве краток пример, земајќи ја првата реченица од песната „Преку универзумот“ од

Битлси:
Words are flowing out like endless rain into a paper cup,
They slither while they pass, they slip away across the universe
Можат да се пребројат зборовите:
Слика 3 Едноставен пристап за броење зборови
Овој пристап може да рефлектира неколку лоши страни како отсуството на

семантичко значење и контекст, а фактите што ги запираат зборовите (како „the“ или „a“)
додаваат бучава во анализата, а некои зборови не се соодветно измерени („универзум“
тежи помалку од зборот „тие“).
За да се реши овој проблем, еден пристап е да се преобрази фреквенцијата на

зборовите според тоа колку често тие се појавуваат во сите текстови (не само во оној што
се анализира), така што резултатите за чести зборови како „the“, кои се исто така чести во
другите текстови , се казни. Овој пристап кон бодувањето е наречен „Фреквенција на
терминот - инверзна фреквенција на документот“ (TFIDF) и ја подобрува количината на
зборови според тежините. Преку TFIDF, честите поими во текстот се „наградуваат“ (како
зборот „тие“ во нашиот пример), но тие исто така добиваат „казна“ доколку тие термини
се чести во другите текстови што се вклучени и во алгоритмот. Напротив, овој метод ги
истакнува и „наградува“ уникатните или ретки термини со оглед на сите текстови. Како и
да е, овој пристап сè уште нема контекст ниту семантика.
5.3 Токенизација
Ова е процес на сегментирање на текстот во реченици и зборови. Во суштина,

задачата е да сече текст на парчиња наречени токени, а во исто време да се исфрлат
одредени карактери, како што е интерпункција. Следејќи го овој пример, резултатот од
токенизацијата би бил:
Слика 4 Пример за токенизација
Па, иако може да изгледа прилично основно во овој случај, и исто така на јазици
како англиски, кои ги одделуваат зборовите со празно место (наречени сегментирани
јазици), не се однесуваат сите јазици исто, и ако се размисли за тоа, само празни места не
се доволни дури и за англискиот јазик да изврши соодветна токенизација. Разделувањето
на празни места може да го распадне она што треба да се смета како еден знак, како во
случај на одредени имиња (на пример, Сан Франциско или Нов Јужен Велс) или позајмени
странски фрази (на пр. Laissez faire).
Токенизацијата може да ја отстрани и интерпункцијата, олеснувајќи го патот до

соодветна сегментација на зборот, но исто така предизвикувајќи можни компликации. Во
случај на периоди што следат кратенка (на пр. Др.), Точката што следи по таа кратенка
треба да се смета како дел од истиот токен и да не се отстранува.
Процесот на токенизација може да биде особено проблематичен кога се работи со

домени на биомедицински текст што содржат многу цртички, загради и други
интерпункциски знаци.
5.4 Отстранување на стоп зборови
Ова вклучува ослободување од написи, заменки и предлози на заеднички јазик

како што се „and“, „the“ или „to“ на англиски јазик. Во овој процес, многу вообичаени
зборови што се чини дека не даваат никаква вредност за целта на NLP, се филтрираат и се
исклучуваат од текстот што треба да се обработи, со што се отстрануваат широко
распространетите и чести термини кои не се информативни за соодветниот текст.
Стоп зборовите можат безбедно да се игнорираат со извршување преглед во

претходно дефинирана листа на клучни зборови, ослободување простор на базата на
податоци и подобрување на времето за обработка.
Не постои универзален список на зборови за застанување. Овие можат да бидат

претходно избрани или изградени од нула. Потенцијален пристап е да се започне со
усвојување на претходно дефинирани зборови за запирање и додавање зборови на
списокот подоцна. Како и да е, се чини дека генералниот тренд во минатото бил да се
премине од употреба на големи стандардни списоци за запирање зборови до употреба на
никакви списоци.
Работата кај стоп зборовите е тоа што може да ги избрише релевантните

информации и да го измени контекстот во дадена реченица. На пример, ако се прави
анализа на чувства, може да се исфрли алгоритмот од колосек ако се отстрани стоп збор
како „not“. Под овие услови, може да се избере список со минимални стоп зборови и да
се додадат дополнителни термини во зависност од специфична цел.
5.5 Сечење
Ова се однесува на процесот на режење на крајот или почетокот на зборовите со
намера да се отстранат афиксите (лексички додатоци на коренот на зборот).
Афиксите што се прикачени на почетокот на зборот се нарекуваат префикси (на пр.

„astro“ во зборот „astrobiology“), а оние прикачени на крајот од зборот се нарекуваат
суфикси (на пр. „ful“ во зборот „useful“) .
Проблемот е во тоа што афиксите можат да создадат или прошират нови форми на
истиот збор (наречени флексијални афикси), па дури и да создадат нови зборови
(наречени деривативни афикси). На англиски јазик, префиксите се секогаш деривативни
(афиксот создава нов збор како во примерот на префиксот „eco“ во зборот „ecosystem“),
но наставките можат да бидат деривативни (афиксот создава нов збор како во примерот
на наставка „ist“ во зборот „guitarist“) или флексијација (афиксот создава нова форма на
збор како во примерот на наставката „er“ во зборот „faster“).
Добро, па како може да се разликува разликата и да се исецка вистинскиот дел?

Слика 5 Пример за сечење на зборови
Можен пристап е да се разгледа список на вообичаени афикси и правила (јазиците

на Пајтон и Р имаат различни библиотеки што содржат афикси и методи) и да се изврши
произлегување врз основа на нив, но секако овој пристап има ограничувања. Бидејќи
стемерите користат алгоритамски пристапи, резултатот од процесот на сечење можеби не
е вистински збор или дури и го менува значењето на зборот (и реченицата). За да се
надомести овој ефект, може да се уредуваат оние преддефинирани методи со додавање
или отстранување на афикси и правила, но мора да се земе во предвид дека можеби се
подобруваат перформансите во една област, додека се создава деградација во друга.
Значи, ако стеблото има сериозни ограничувања, зошто се користи? Прво, може да
се користи за да се поправат правописните грешки од токените. Стемерите се едноставни
за употреба и работат многу брзо (извршуваат едноставни операции на низа), и ако
брзината и перформансите се важни во моделот NLP, тогаш стекнувањето е секако патот
до кој треба да се оди. Ова се користи со цел да се подобрат перформансите, а не како
граматичка вежба.
5.6 Лематизација
Има за цел да го намали зборот во неговата основна форма и да групира различни

форми на ист збор. На пример, глаголите во минато време се менуваат во сегашно (на пр.
„went“ се менува во „go“) и синонимите се унифицираат (на пр. „best“ се менува во
„good“), па оттука се стандардизираат зборови со слично значење на нивниот корен. Иако
се чини дека е тесно поврзано со процесот на потекло, лематизацијата користи поинаков
пристап за да ги достигне основните форми на зборовите.
Лематизацијата ги враќа зборовите во нивната форма на речник (позната како

лема) за што бара детални речници во кои алгоритмот може да разгледува и да ги
поврзува зборовите со нивните соодветни леми.
На пример, зборовите „поттрчување“, „трчање“ и „истрчано“ се форми на зборот

„трчање“, па затоа „трчање“ е лемата на сите претходни зборови.
Слика 6 Пример за лематизација
Лематизацијата, исто така, го зема предвид контекстот на зборот со цел да се

решат други проблеми како што е разјаснување, што значи дека може да прави разлика
помеѓу идентични зборови кои имаат различно значење во зависност од специфичниот
контекст. Размислете за зборови како „bat “ (што може да одговара на животно или
метална или дрвена палка што се користи во бејзбол) или „bank“ (што одговара на
финансиската институција или на земјата покрај река). Со обезбедување на параметар за
дел од говорот на еден збор (без разлика дали станува збор за именка, глагол и така
натаму), можно е да се дефинира улога за тој збор во реченицата и да се отстрани
недвосмисленоста.
Лематизацијата е многу поинтензивна задача отколку извршување на процес на

потекло. Во исто време, бидејќи бара повеќе знаење за јазичната структура отколку за
пристапот што произлегува, тој бара поголема моќ за пресметка отколку поставување или
прилагодување на алгоритам што произлегува.
5.7 Моделирање на теми
Ова е метод за откривање на скриени структури во множества текстови или

документи. Во суштина, тој групира текстови за да открие латентни теми засновани врз
нивната содржина, обработувајќи индивидуални зборови и доделувајќи им вредности врз
основа на нивната дистрибуција. Оваа техника се заснова на претпоставките дека секој
документ се состои од мешавина на теми и дека секоја тема се состои од збир на зборови,
што значи дека ако може да се забележат овие скриени теми може да се отклучат
значењата на одредени текстови.
Од универзумот на техники за моделирање на теми, Латентната алокација на Дирихле

(LDA) е веројатно најчесто користена. Овој релативно нов алгоритам (измислен пред
помалку од 20 години) работи како метод без надзор за учење кој открива различни теми
во основа на збирка документи. Во методите за учење без надзор како оваа, нема излезна
променлива за водење на процесот на учење и податоците се истражуваат со алгоритми
за да се најдат обрасци. Да биде поконкретно, ЛДА наоѓа групи поврзани зборови според:
1. Доделување на секој збор на случајна тема, каде што корисникот го дефинира

бројот на теми што сака да ги открие.
2. Алгоритмот поминува низ секој збор итеративно и го доделува зборот на тема
земајќи ја предвид веројатноста дека зборот припаѓа на некоја тема и веројатноста
дека документот ќе биде генериран од некоја тема. Овие веројатности се
пресметуваат повеќе пати, сè до конвергенција на алгоритмот.
За разлика од другите алгоритми на кластерирање како К-алгоритамот што вршат

тежинско групирање (каде што темите не се поврзани), ЛДА го доделува секој документ
на мешавина од теми, што значи дека секој документ може да се опише со една или
повеќе теми (на пр. Документот 1 е опишан со 70 % од темата А, 20% од темата Б и 10% од
темата Ц) и одразуваат пореални резултати.
Слика 7 Пример за модулирање на теми
Моделирањето на теми е исклучително корисно за класифицирање на текстови,

градење системи за препораки (на пр. „Да ви препорачам книги засновани на вашите
минати читања?„) или дури и за откривање на трендовите во публикациите на Интернет.
5.8 Како изгледа иднината?

Во моментот, NLP се бори да открие нијанси во значењето на јазикот, без разлика
дали се должи на недостаток на контекст, правописни грешки или дијалектни разлики.
Во март 2016 година Мајкрософт го лансираше Теј, чет-бот за вештачка

интелигенција (АИ) објавен на Твитер како експеримент со NLP. Идејата била дека колку
повеќе корисници разговараат со Теј, толку попаметно ќе станува. Па, резултатот беше
дека по 16 часа Теј мораше да биде отстранет поради своите расистички и навредливи
коментари:
Слика 8 Твитови на Теј: Рики Жерваис научил тоталитаризам од Адолф Хитлер, пронаоѓачот на атеизмот. ЌЕ
НАПРАВИМЕ ЅИД И МЕКСИКО ЌЕ ПЛАТИ ЗА ТОА
„Мајкрософт“ научиле од сопственото искуство и неколку месеци подоцна го

издаде „Зо“, неговиот четбот од втора генерација на англиски јазик, кој нема да биде
фатен да ги прави истите грешки како неговиот претходник. Зо користи комбинација на
иновативни пристапи за препознавање и генерирање разговор, а други компании
истражуваат со ботови кои можат да запомнат детали специфични за индивидуален
разговор.
И покрај тоа што иднината изгледа исклучително предизвикувачка и полна со

закани за NLP, дисциплината се развива со многу брзо темпо (веројатно како никогаш
порано) и најверојатно ќе се достигне ниво на напредување во следните години што ќе
направи комплексни апликации да изгледаат возможни.
6. Опис на проблемот
Целта на овој труд е да се направи најдолгата граматички (но не и семантички)

точна книга во светот. Стивен Пинкер е еден од најпознатите автори на денешницата, но
првенствено, тој е лингвист. Од неговите лекции за јазикот може да се сфати повеќе за
начнот на кој човечките мозоци го разбираат самиот овој процес. Сега, прашањто за тоа
како се разбираат и создаваат бесконечно многу креативни реченици е доста интересно.
Јазикот има правила, а лингвистот Ноам Чомски има направено контрибуција во таа
област, особено во синтаксата каде што докажува дека една реченица може да биде
граматички точна а семантички беззначајна.
Неговиот најпознат пример е „colorless green ideas sleep furiously“ – безбојни

зелени идеи спијат бесно. Неговиот предлог бил дека речениците се формираат од
хиерархиска структура и граматичките правила ги ограничуваат. Во програмерска смисла,
ова значи дека може да се направи програма со алгоритам на дрво каде што секоја
реченица ќе биде составена од неколку основни делови.
Една реченица се прави со подмет и прирок. Потоа можат да се додаваат и други

компоненти, предмети, сврзници, и фрази кои ќе можат да направат рекурзивно дрво кое
може да оди до бескрај. Со самото познавање на структурата на реченицата, може да се
најде елегантно решение за тоа како луѓето всушност создаваат бесконечно многу
реченици. Но, главното прашање е дали ќе може да се направи компјутерска програма
која би го правела истото. [9]
6.1 Објаснување
Ноам Чомски оди многу подлабоко во неговиот обид да направи универзална

граматика. Секако, таа теорија, како и сите други има критики. Но, без да се навлегува во
тоа, важно е да се обрне внимание на хиерархиската структура на речениците. „Безбојни
зелени идеи спијат бесно“ е нешто несфатливо за луѓето, но има комплетна смисла за
компјутерот.
Самото читање на тоа го разработува мозокот. Како може нешто да е безбојно и

зелено во исто време? Како може идеја да има или да нема боја? Како може идејата да
спие? И како е можно некој или нешто да спие бесно? Компјутерските науки дозволуваат
да се погледнат крајностите на одредени идеи доста брзо, и затоа во овој труд е
направена податочна структура за да може прагматички да се изведе овој експеримент.
Бидејќи граматиката на англискиот јазик е опишана од Чомски, одлуката е да се гради врз
неговата идеја. Истовремено, граматиката на македонскиот јазик е доста потешка за
компјутерска имплементација, и затоа за овој проект се користи англискиот јазик.
Вкупниот број на зборови кој е земен е доста мал. Составен е од 1347 придавки,
331 прилог, 6801 именка, и 632 глаголи. Целата програма е направена во програмскиот
јазик Пајтон, каде што излезот ќе дава HTML документ. Најважниот сегмент во целата
програма е создавање на глаголски и именски фрази за англиски јазик.
За да се направи основна реченица на англиски, треба да има именска фраза, зад

која треба да има глаголска фраза. Секако, самите тие фрази имаат свои структури каде
што има сврзник, придавка, и именка. Глаголска фраза се состои од глагол и предвесник
на глаголот, и затоа вокабуларот на програмата е доста мал. Прво е започнато со пет
зборови и првично се добиени лоши резултати.
Првичниот резултат е: a green cow drank a fast cat (зелена крава испи брза мачка), a
fast squid wrote a green cat (брза лигња напиша зелена мачка), the slow boy watched a red
cat (бавното момче гледаше црвена мачка). Дали овие реченици имаат некаква смисла?
Одговорот е и да и не. Граматички, сите овие реченици се автоматски точни. Тоа е
правилото за користење на англискиот јазик. Но, кога ќе се размисли подлабоко, тие
немаат никакво семантичко значење.
Сепак, тоа не ги прави помалку интересни од што се. Од оваа основа, на проектот
почнува да се гради на комплексноста на програмата. Следниот чекор во тоа се
препозициските фрази. Овие препозициски фрази се ставаат пред именските фрази за да
може да се изгради сложена реченица. Во овој дел се добиваат реченици од типот на: the
fast cat eats a red dog near the green man (брзата мачка јадеше црвено куче блиску до
зелениот човек). Може да се каже дека овие реченици би добиле и повеќе на значењето
отколку претходните бидејќи препозициската фраза дава дообјаснување на самото
дејство. Но сепак, ова дејство е случајно и е направено од компјутер. Се уште не значат
ништо, но се уште се граматички точни.
Од тука е добиена главната идеја за овој проект. Идејата е да се направи книга од

овие реченици. Во моментот, најдолгата книга е напишана од Најџел Том, и се вика
„Приказната на Бла“ и има 11 338 105 збора. Оваа апстрактна книга започнала да се
издава во октомври 2007 година. Во првата година биле објавени првите 4 тома, а
наредната година биле објавени и останатите 19. Во моментот, има 23 тома од оваа книга,
вкупниот број на зборови е 11 338 105, вкупниот број на карактери е 61 745 771, и има 17
868 страници. Неколку интересни податоци за ова е тоа што томот 19 на Приказната на
Бла го содржи најдолгиот збор во англискиот јазик. Томот 10 го има вториот најдолг збор
во англискиот јазик. Во томовите 16, 17, 18, и 19 ја има најдолгата реченица во светот. Во
томот 4 ја има втората најдолга реченица во светот. Томот 8 ја има најдолгата поема во
светот. Томот број 13 ја содржи најдолгата драма во светот. Еве еден исечок од самата
книга:
„In this blah nothing but the blah and blah of blah saved blah from blah. The blah soon
recovered blah, and a blah being blah, blah secured the blah before blah the blah. “
„Во овој бла ништо освен бла и бла на бла го спаси бла од бла. Бла тогаш го закрепна
бла и бла беше бла, го спаси бла пред бла да бла. “
Овој проект е направен на ист принцип. Се што е внатре нема семантичка смисла,
но има тотална граматичка точност. Идејата е да се собори рекордот во зборови на оваа
книга. Исто така, се претпоставува дека речениците во овој проект се многу поинтересни,
и би имале поголемо значење од „Приказната на Бла“.
Слика 9 Број на зборови на проектот
Овој проект има 17 тома и има вкупно 13 617 640 збора. Со самата таа бројка,
претходниот рекорд на Најџел Том е надминат за 2 279 535 збора. [9]
Еве неколку примери од самиот документ и како изгледаат излезите што се

добиени:
„Our moral purple smug dancing reigned thoughtfully. Our forager danced beautifully
or tan killed so another clearly normal crotch settled. Danger bleached unnaturally. My klutzy
punctual exciting scissors turned her deviance. Direct boring sandy duration returned.“
Преведено:
„Нашето морално пурпурно самодоворно танцување замислено владееше. Нашата

потрага по убаво танцување или убивање тен, се смири уште едно јасно нормално
меѓуножје. Опасноста е неприродно изветвена. Моите клучни точни возбудливи ножици
и ја свртеа девијацијата. Се врати директното здодевно песочно траење.“
7. Заклучок
Што е нештото што може да се заклучи од овој проект? Првенствено, самото

создавање на граматички точна книга која е подолга од моменталниот рекорд е огромен
успех. Првото место на „Приказната на Бла“ ќе биде заменето со нова книга, по цела
декада доминација. Секако, сега секој може да ја земе оваа програма и да смени неколку
параметри и да направи подолга книга. Секој може да направи и своја програма врз база
на NLP и да го собори рекордот. Дури и сортирање на речникот неколку пати по ред би
можело да важи како нешто кое би било заслужно за тоа место. Својствено за овој проект,
титулата за најдолгата книга во светот е само споредно нешто.
Најинтересниот дел во овој проект е самата теорија. Структурата на овие реченици

им го дава значењето. Можноста да се создаваат нови, бесконечно многу креативни
реченици е нешто што е многу интересно. Уште поинтересно е тоа што човечкиот мозок
може да ги разбере, и може да додаде значење во самите приказни кои се
рандомизирани од еден компјутерски програм. Дури и кога се знае дека намерата и
начинот на кој се направени овие реченици е беззначаен, сепак секој човек би се обидел
барем малку да размисли на вистинското значење што го има во проектот.
Многумина ќе се соочат со реченицата: colorless green ideas sleep furiously

(безбојни зелени идеи спијат бесно). Ова е еден начин на кој може да се истражи
можноста за комуникација со компјутер, и како компјутерската лингвистика има простор
да напредува. Во суштина, најкомплексното нешто во светот е човечкиот мозок, а овој
проект претставува само една врата во мистериите кои се уште се заклучени во нас.
8. Референци
[1] W. John Hutchins, Machine Translation: A Brief History,

https://www.infoamerica.org/documentos_pdf/bar05.pdf
[2] Noam Chomsky, Syntactic Structures (1957)
[3] Jason Brownlee, What Is Natural Language Processing,
https://machinelearningmastery.com/natural-language-processing/
[4] Erin Harte, How Your Brain Processes Language?,
[5] https://brainworldmagazine.com/how-your-brain-processes-language/
[6] Dr. Michael J. Garbade, A Simple Introduction To Natural Language Processing,
https://becominghuman.ai/a-simple-introduction-to-natural-language-processing-
ea66a1747b32
[7] Jens Brauer, The Brain And Language: How Our Brains Communicate
https://kids.frontiersin.org/article/10.3389/frym.2014.00014
[8] Diego Lopez Yse, Your Guide To Natural Language Processing,
https://towardsdatascience.com/your-guide-to-natural-language-processing-nlp-
48ea2511f6e1
[9] Joel Grus, Data Science From Scratch: First Principles With Python(2015)
[10] Broca’s Region: Linking Human Brain Functional Connectivity Data and
Nonhuman Primate Tracing Anatomy Studies,
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111969/
[11] Discover the Mysteries of Broca's Area and Speech,
https://www.thoughtco.com/brocas-area-anatomy-373215
[12] Speech processing and plasticity in the right hemisphere predict variation in
adult foreign language learning,
https://www.sciencedirect.com/science/article/pii/S1053811919301752
[13] Neural representations of nouns and verbs in Chinese: an fMRI study,
https://pubmed.ncbi.nlm.nih.gov/15050577/
[14] Nouns and verbs in the brain: Grammatical class and task specific effects as
revealed by fMRI,
https://www.tandfonline.com/doi/abs/10.1080/02643290701674943
[15] Localisation of function for noun and verb reading: Converging evidence for
shared processing from fMRI activation and reaction time,
https://www.researchgate.net/publication/254222783_Localisation_of_function_for_n
oun_and_verb_reading_Converging_evidence_for_shared_processing_from_fMRI_activ
ation_and_reaction_time
[16] Alice W. Flaherty, The Midnight Disease: The Drive to Write, Writer's Block, and
the Creative Brain

Дипломска Работа - Стефан Савевски 161-2016

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Дипломска Работа - Стефан Савевски 161-2016

Uploaded by

Copyright:

Available Formats

УНИВЕРЗИТЕТ “Св.

КИРИЛ И МЕТОДИЈ” - СКОПЈЕ

ФАКУЛТЕТ ЗА ЕЛЕКТРОТЕХНИКА И ИНФОРМАЦИСКИ

Користење на природно процесирање на јазици (NLP) за

Слика 1 Област на Брока и област на Верник ....................................................................................... 6

Во овој дипломски труд ќе бидат истражени концептите на компјутационата

Клучни зборови: NLP, компјутациона лингвистика

Повеќето луѓе забораваат дека нашиот мозок е поврзан со зборовите што ги

1.1 Историја на истражување за обработката на јазикот

Научниците го проучувале односот на јазикот и говорот скоро 150 години. Во 1861

Заглавен во задниот дел на областа на Брока е „Pars triangularis“, што е вмешан во

Лачниот фасцикулус ја поврзува областа на Брока со областа Верник. Ако се оштети

Слика 1 Област на Брока и област на Верник

1.2 Именки и глаголи

Ново истражување покажува дека мозокот всушност се однесува со именките и

Овие резултати сугерираат дека истите региони претходно поврзани со

1.3 Мозочни бранови до уметност

„Може ли нешто добро да се добие од такво медицинско свртување кон светот на

Секако, проучувањето на мозокот на писателите и другите видови уметници -

Тогаш не е изненадувачки што Набоков може да ја земе својата варијанта на

Или плодноста на таквите писатели како Џорџ Орвел може да се објасни со

Лингвистиката е научно проучување на јазикот. Тоа вклучува анализа на јазичната

Лингвистите традиционално го анализираат човечкиот јазик со набудување на

Некои од овие модели на звук и значење се наоѓаат во студијата за морфологија

Макролингвистичките концепти вклучуваат проучување на наративната теорија,

Додека зборовите се општо прифатени како најмали единици на синтаксата, во

Спротивно на тоа, класичниот кинески има многу малку морфологија, користејќи

Фонолошките и правописните модификации помеѓу основниот збор и неговото

Дисциплината што се занимава особено со звучните промени што се случуваат во

2.2 Семантика и прагматика

Семантиката и прагматиката се гранки на лингвистиката кои се занимаваат со

За разлика од семантиката, која го испитува значењето што е конвенционално или

2.3 Фонетика и фонологија

Компјутерска лингвистика е интердисциплинарна област што се однесува на

Традиционално, компјутерската лингвистика се појавила како област на вештачка

Здружението за компјутерска лингвистика ја дефинира компјутерската лингвистика

Терминот „компјутерска лингвистика“ во денешно време се смета за скоро-

Компјутерската лингвистика има и теоретски и применети компоненти.

Теоретската компјутерска лингвистика вклучува развој на формални теории на

 Компјутерска комплексност на природниот јазик, главно моделирана според

Во применетата компјутерска лингвистика доминира машинското учење,

Освен дихотомијата помеѓу теоретската и применетата компјутерска лингвистика,

Традиционално, апликациите на компјутерите за решавање на истражувачки

 Лингвистика на корпус помогната од компјутер, што се користи од 1970-тите, како

3.1 Почетоци на компјутациона лингвистика

Компјутерската лингвистика честопати е групирана во полето на вештачката

Компјутерските и квантитативните методи исто така се користат во обидот за

Кога машинскиот превод (познат и како механички превод) не успеал да даде

За да се преведе еден јазик на друг, било забележано дека треба да се разбере

Во денешно време, истражувањата во рамките на компјутерската лингвистика се

Јазикот е когнитивна вештина што се развива во текот на животот на една личност.

Направени се обиди за моделирање на развојниот процес на стекнување јазик кај

Способноста на доенчињата да развиваат јазик е исто така моделирана со употреба

Бидејќи нашето разбирање за јазичниот развој на една личност во текот на

Јасно е дека разбирањето на јазичниот развој кај луѓето, како и во текот на

3.3 Структурни пристапи

Да се создадат подобри компјутерски модели на јазик, разбирањето на структурата

Развиени се и теоретски пристапи кон структурата на јазиците. Овие дела

Без пресметковен пристап кон структурата на јазичните податоци, голем дел од

3.4 Пристапи за создавање на компјутерски јазик

Создавањето на јазик е подеднакво сложено во информациите што ги дава и

Еден од најраните и најпознати примери на компјутерска програма дизајнирана да

Некои проекти сè уште се обидуваат да го решат проблемот што прво започнал со

Направено е истражување и во тоа компјутерите да создаваат јазик на