Professional Documents
Culture Documents
- ДИПЛОМСКА РАБОТА –
по предметот
РОБОТИКА 2
Тема
Ментор: Изработил:
Проф. Д-р. Горјан Наџински Стефан Савевски, индекс бр. 161/2016
e-mail: stefan_savevski08@hotmail.com
Скопје, 2021
Содржина
Апстракт ................................................................................................................................................. 4
1. Вовед .............................................................................................................................................. 5
1.1 Историја на истражување за обработката на јазикот ............................................................ 5
1.2 Именки и глаголи ......................................................................................................................... 9
1.3 Мозочни бранови до уметност .................................................................................................... 9
2. Лингвистика .................................................................................................................................. 10
2.2 Семантика и прагматика............................................................................................................. 12
2.3 Фонетика и фонологија............................................................................................................... 12
3. Компјутациона лингвистика ......................................................................................................... 14
3.1 Почетоци на компјутациона лингвистика................................................................................... 15
3.2 Развојни пристапи ...................................................................................................................... 17
3.3 Структурни пристапи .................................................................................................................. 18
3.4 Пристапи за создавање на компјутерски јазик .......................................................................... 19
4.Историја на NLP ................................................................................................................................. 21
5.Како функционира NLP ...................................................................................................................... 23
5.1 Користење на NLP ....................................................................................................................... 24
5.2 Торба со зборови........................................................................................................................ 26
5.3 Токенизација .............................................................................................................................. 27
5.4 Отстранување на стоп зборови .................................................................................................. 27
5.5 Сечење ........................................................................................................................................ 28
5.6 Лематизација .............................................................................................................................. 29
5.7 Моделирање на теми ................................................................................................................. 30
5.8 Како изгледа иднината? ............................................................................................................. 31
6. Опис на проблемот .......................................................................................................................... 34
6.1 Објаснување ............................................................................................................................... 34
7. Заклучок ........................................................................................................................................... 38
8. Референци ........................................................................................................................................ 39
Листа на слики
Па, како ние луѓето го обработуваме јазикот? И, како таа нервна активност се претвора
во уметност на пишување? И дали можеме да направиме програма или компјутер кој ќе
може да ја има таа способност?
Она што сега го знаеме како „област на Брока“ се наоѓа во задниот инфериорен
фронтален гирус. Тоа е местото каде што се обликува експресивниот јазик. Брока бил
првата личност што ја поврзал левата хемисфера со јазикот, што останува вистинито за
повеќето од луѓето денес. (Ова не може да се каже за секој мозок - можно е да се има
јазичен центар на десната страна, каде што јазичната јамка лежи во мозокот на околу 30
проценти од леваците и приближно 10 проценти од деснаците.) [10]
Верник бил исто така првата личност што создал невролошки модел на јазик,
мапирајќи различни јазични процеси во мозокот - говор до разбирање, познавање од
говор и пишување до читање - модел што бил ажуриран во 1965 година од Норман
Гешвинд. Голем дел од модерната неврологија, како што се однесува на јазикот, е
моделиран според моделот Верник-Гешвинд, иако моделот денес е застарен - дава
широк преглед, но содржи некои неточности, вклучувајќи ја и идејата дека јазичната
обработка се одвива по секвенцијален редослед, отколку во различни делови на мозокот
истовремено, што е она што денес се знае.
Во 60-тите години на минатиот век, Гешвинд открил дека инфериорниот париетален
лобул има нешто важно со јазичната обработка. Сега, благодарение на многу
подобрената технологија за сликање, се знае дека постои уште една рута преку која
патува јазикот помеѓу областа на Брока и областа Верник во долниот париетален лобус.
Овој регион на мозокот се однесува на стекнување јазик и апстрактно користење на
јазикот. Ова е местото каде што се собираат и разгледуваат изговорени и напишани
зборови - не само да се разберат нивните значења, туку и како тие звучат и работат
граматички. Овој дел од мозокот помага да се класифицираат работите користејќи
слушни, визуелни и сензорни стимули; неговото доцно созревање може да биде зошто
децата обично не учат да читаат и пишуваат додека не се некаде на околу 5-годишна
возраст.
Фузиформниот гирус е исто така во фронталниот лобус, а исто така игра интересна
улога во обработката на јазикот во мозокот. Оваа област помага за препознавање зборови
и да се класифицираат работите во други категории. Оштетувањето на овој дел од
мозокот може да предизвика потешкотии во препознавањето на зборовите на
страницата.
Слика 2 Област на Брока
Денес, постојано се учат нови работи за тоа како работи јазикот. На пример, се верува
дека мозокот го извршува својот удел во јазичните функции, вклучувајќи ја и можноста за
разбирање на метафорите, како и моделите на интонација и поетските мерила.
Додека порано се верувало дека луѓето кои зборуваат со знаци користат различен,
визуелно зависен модел на обработка на јазик во мозокот, сега се верува дека јазикот се
обработува слично на вербални и невербални начини. Како што се испоставило, мозокот
на глувите лица функционира на ист начин како и нивните колеги со слух: истите делови
на мозокот се активираат додека зборуваат, без разлика дали тоа е со употреба на знаци
или не. Ова истражување било презентирано во издание на Science Direct [12], а д-р
Мишел Хан, професор по говорен јазик на Државниот универзитет во Сан Диего,
претставила ново истражување на Американската асоцијација за унапредување на
науката во Сан Диего илустрирајќи дека мозокот реагира на знаците тоа се пантомими -
пиење, на пример - точно на ист начин како зборот „пијалок“ да е изговорен на глас.
„Тоа сугерира дека мозокот е организиран за јазик, а не за говор“, вели таа. [12]
Како реагира мозокот кога користиме глагол како „пијам“ наспроти именка како
„млеко“?
Сликите што овие научници ги собрале од 21 лице, кои научиле 80 нови именки и
80 нови глаголи, покажале дека активноста при учење на нова именка главно се случила
во левиот фузиформен гирус, додека новите глаголи активирале лево заден медијален
темпорален гирус, што ни помага за процесирање на граматика. Оваа студија започнува
да разгледува како нашиот мозок ги учи деловите на говорот, иако не укажува многу на
тоа како учиме јазици. [13]
Но, тенка е границата помеѓу тоа што прават луѓето и како овие невролошки
специфичности се манифестираат во уметноста: Може да се објасни генијалец со
испитување на неговиот или нејзиниот ум, но има уште многу да се научи за мозокот и
зошто луѓето го прават она што го прават.
2. Лингвистика
медиум на јазикот што се обработува, без разлика дали е говорен или текстуален:
препознавањето на говорот и синтезата на говорот се занимаваат со тоа како
говорен јазик може да се разбере или креира со употреба на компјутери.
задача што се изведува, на пр., дали анализа на јазик (препознавање) или
синтетизирање на јазик (генерација): Парсирањето и генерацијата се под-поделби
на компјутерската лингвистика, кои се занимаваат, соодветно, со одвојување и
составување на јазик.
Во сега познатиот труд објавен во 1950 година, Алан Туринг предлага можност
машините еден ден да имаат способност да „размислуваат“. Како мисловен експеримент
за тоа што може да го дефинира концептот на мисла во машините, тој предложил „тест за
имитација“ во кој човечки субјект има два разговори само со текст, еден со човек и друг
со машина што се обидува да одговори како човек . Туринг предлага дека ако субјектот не
може да направи разлика помеѓу човекот и машината, може да се заклучи дека машината
е способна за размислување. Денес овој тест е познат како Турингов тест и тој останува
влијателна идеја во областа на вештачката интелигенција.
Историјата на машинскиот превод датира од XVII век, кога филозофи, како Лајбниц
и Декарт, изложувале предлози за кодови што би ги поврзале зборовите меѓу јазиците.
Сите овие предлози останале теоретски и ниту еден не резултирал во развој на вистинска
машина.
Сè што изразуваат луѓето (или вербално или во писмена форма) носи огромна
количина на информации. Темата што се избира, тонот, изборот на зборови, сè додава
некаков вид на информација што може да се толкува и да се извлече вредност од истата.
Во теорија, може да се разбере, па дури и да се предвиди човечкото однесување
користејќи ги тие информации.
Но, постои проблем: едно лице може да генерира стотици или илјадници зборови,
секоја реченица со соодветната сложеност. Ако некој сака да размери и анализира
неколку стотици, илјадници или милиони луѓе или декларации во дадена географска
област, тогаш ситуацијата е невозможна.
NLP може да биде клучот за ефективна клиничка поддршка во иднина, но сепак има
многу предизвици со кои се соочуваме на краток рок.
Ова е најчесто користен модел кој овозможува да се бројат сите зборови во парче
текст. Во суштина, ова создава матрица на појава за реченицата или документот, не
водејќи сметка за граматиката и редот на зборовите. Овие фреквенции или појави на
зборови потоа се користат како одлики за обука на класификатор.
Words are flowing out like endless rain into a paper cup,
They slither while they pass, they slip away across the universe
5.3 Токенизација
Па, иако може да изгледа прилично основно во овој случај, и исто така на јазици
како англиски, кои ги одделуваат зборовите со празно место (наречени сегментирани
јазици), не се однесуваат сите јазици исто, и ако се размисли за тоа, само празни места не
се доволни дури и за англискиот јазик да изврши соодветна токенизација. Разделувањето
на празни места може да го распадне она што треба да се смета како еден знак, како во
случај на одредени имиња (на пример, Сан Франциско или Нов Јужен Велс) или позајмени
странски фрази (на пр. Laissez faire).
5.5 Сечење
Ова се однесува на процесот на режење на крајот или почетокот на зборовите со
намера да се отстранат афиксите (лексички додатоци на коренот на зборот).
Проблемот е во тоа што афиксите можат да создадат или прошират нови форми на
истиот збор (наречени флексијални афикси), па дури и да создадат нови зборови
(наречени деривативни афикси). На англиски јазик, префиксите се секогаш деривативни
(афиксот создава нов збор како во примерот на префиксот „eco“ во зборот „ecosystem“),
но наставките можат да бидат деривативни (афиксот создава нов збор како во примерот
на наставка „ist“ во зборот „guitarist“) или флексијација (афиксот создава нова форма на
збор како во примерот на наставката „er“ во зборот „faster“).
Значи, ако стеблото има сериозни ограничувања, зошто се користи? Прво, може да
се користи за да се поправат правописните грешки од токените. Стемерите се едноставни
за употреба и работат многу брзо (извршуваат едноставни операции на низа), и ако
брзината и перформансите се важни во моделот NLP, тогаш стекнувањето е секако патот
до кој треба да се оди. Ова се користи со цел да се подобрат перформансите, а не како
граматичка вежба.
5.6 Лематизација
Слика 8 Твитови на Теј: Рики Жерваис научил тоталитаризам од Адолф Хитлер, пронаоѓачот на атеизмот. ЌЕ
НАПРАВИМЕ ЅИД И МЕКСИКО ЌЕ ПЛАТИ ЗА ТОА
6.1 Објаснување
Вкупниот број на зборови кој е земен е доста мал. Составен е од 1347 придавки,
331 прилог, 6801 именка, и 632 глаголи. Целата програма е направена во програмскиот
јазик Пајтон, каде што излезот ќе дава HTML документ. Најважниот сегмент во целата
програма е создавање на глаголски и именски фрази за англиски јазик.
Првичниот резултат е: a green cow drank a fast cat (зелена крава испи брза мачка), a
fast squid wrote a green cat (брза лигња напиша зелена мачка), the slow boy watched a red
cat (бавното момче гледаше црвена мачка). Дали овие реченици имаат некаква смисла?
Одговорот е и да и не. Граматички, сите овие реченици се автоматски точни. Тоа е
правилото за користење на англискиот јазик. Но, кога ќе се размисли подлабоко, тие
немаат никакво семантичко значење.
Сепак, тоа не ги прави помалку интересни од што се. Од оваа основа, на проектот
почнува да се гради на комплексноста на програмата. Следниот чекор во тоа се
препозициските фрази. Овие препозициски фрази се ставаат пред именските фрази за да
може да се изгради сложена реченица. Во овој дел се добиваат реченици од типот на: the
fast cat eats a red dog near the green man (брзата мачка јадеше црвено куче блиску до
зелениот човек). Може да се каже дека овие реченици би добиле и повеќе на значењето
отколку претходните бидејќи препозициската фраза дава дообјаснување на самото
дејство. Но сепак, ова дејство е случајно и е направено од компјутер. Се уште не значат
ништо, но се уште се граматички точни.
„In this blah nothing but the blah and blah of blah saved blah from blah. The blah soon
recovered blah, and a blah being blah, blah secured the blah before blah the blah. “
„Во овој бла ништо освен бла и бла на бла го спаси бла од бла. Бла тогаш го закрепна
бла и бла беше бла, го спаси бла пред бла да бла. “
Овој проект е направен на ист принцип. Се што е внатре нема семантичка смисла,
но има тотална граматичка точност. Идејата е да се собори рекордот во зборови на оваа
книга. Исто така, се претпоставува дека речениците во овој проект се многу поинтересни,
и би имале поголемо значење од „Приказната на Бла“.
Овој проект има 17 тома и има вкупно 13 617 640 збора. Со самата таа бројка,
претходниот рекорд на Најџел Том е надминат за 2 279 535 збора. [9]
„Our moral purple smug dancing reigned thoughtfully. Our forager danced beautifully
or tan killed so another clearly normal crotch settled. Danger bleached unnaturally. My klutzy
punctual exciting scissors turned her deviance. Direct boring sandy duration returned.“
Преведено: