You are on page 1of 139

Баесови класификатори

Условната веројатност е клучна при расудувањето, затоа што го формализира прибирањето


докази и обновувањето на веројатностите. Баесовото правило може да се претвори во
класификатор. Баесовата рамка ни овозможува да ги комбинираме набљудуваните податоци и
претходното знаење и ни обезбедува практични алгоритми за учење. Тоа е генеративен пристап(
врз основа на модел) , кој овозможува корисна концептуална рамка. Баесовто праволо гласи

P(Y|X)= P(X|Y)P(Y) / P(X).


Наивниот Баесов класификатор претпоставува дека: P(X1…Xn|Y) = Пi P(Xi|Y) т.е. дека Xi и Xj се
меѓусебно условно независни за тоа Y, за секое i!=j.

Условна независност: Х е условно незавина од Y за дадено Z, ако веројатноста распределбата


според која се владее Х, е независна од веројатностите на Y , за таа вредност на Z кое често се
пишува како P(X|Y,Z)=P(X|Z). Наивната Баесова претпоставка е дека Xi се условно независни едни
од други, за некое Y. Според оваа претпоставка, тогаш P(X1,X2|Y)=P(X1|X2,Y)P(X2|Y)=P(X1|Y)P(X2|Y)

За оваа претпоставка потребни ни се 2*n и 1 параметри, што е многу помалку отколку целата
матрица на коваријанси( кој со кого колку пати се појавил во исто време).

Класификација на документи е учење од примери кои се всушност документите од интерес и во


кои зборовите се атрибути. Треба да се увиди дека наивнат баесова претпоставка само значи дека
имаме модел на случајни низи од зборови во рамките на истата класа. Сепак наивните баесови
класификатори се едни од најефекасните за овној вид на задача.

Класификатори кои учат како да класифицираат некој документ

Колку повеќе примери на документи и нивни точни класификации ги гледа, толку подобро
класификаторот ќе ги погодува точните предвидувања за припадноста кон соодветната класа.
Класификаторот се прави да почне со многу несигурни класификации и како што учи кои од
особините се важни за да прави разлики помеѓу примерите, така и сигурноста во предвидувањето
се зголемува.

Матрица со појавувањата на зборовите во документите

Вообичаено, текстуалните бази на податоци се параметризирани со т.н. матрица на


документи/термини (document-term matrix)

• Секој ред одговара на еден од документите


• Секоја колона одговара на некој збор (термин)

Во зависност од методот за параметризација, елементите во матрицата може да бидат:

1. бинарни (ќе кажуваат само дали зборот Tj е присутен во документот Di или не)
2. бројки (честоти, фреквенции) (вкупниот број на повторувања на зборот Tj во Di)
3. тежински честоти
Учење на Баесов класификатор

1. Пред да се пушти во употреба некој Баесов класификатор треба да се добијат означени


(лабелирани, етикетирани) податоци за обука, од страна на познавачи (експерти)
2. Се учат параметрите (conditionals, priors)
3. По пуштање во погон, се применува класификаторот и на нови дотогаш непознати
комбинации

Претпоставки

P(x1,x2,…,xn|c)
• Bag of Words assumption: Да претпоставиме позицијата на зборот не е значајна
• Conditional Independence: Да претпоставиме дека условните веројатности за
атрибутите-зборовите P(xi|cj) се независни за дадена класа c.
• P(x1,x2,…,xn|c)=P(x1|c)*P(x2|c)*P(x3|c)*…*P(xn|c)

Предности на Наивните Баесови класификатори

И покрај нивниот наивен дизајн и очигледно преупростените претпоставки, Наивните


Баесови класификатори се имаат покажано како доста добри во многу сложени ситуации
од реалниот свет . Предност на Наивните Баесови класификатори е што бараат само мала
количина на податоци за обука за да ги проценат параметрите кои што се неопходни за
класификацијата (средната вредност и варијансите на променливите) . Бидејќи
независноста на променливите се претпоставува, треба да бидат одредени само
варијансите на променливите за секоја класа, а не целата комбинаторна матрица на
истовремено појавување (covariance matrix).

Предности и недостатоци

Иако Наивните Баесови класификатори често пати не успеваат да произведат добра


проценка за точните веројатности на класите, во многу примени тоа и не се бара. На
пример, Наивниот Баесов класификатор ќе може да прави точна класификација сè додека
точната класа е поверојатна од сите останати класи. Ова е точно независно од тоа дали
веројатноста е малку или дури и многу непрецизно проценета. На овој начин, целиот
класификатор може да биде доволно робусен за да ги игнорира сериозните недостатоци
во својот наивен веројатносен модел врз кого се потпира.
Дрва за одлучување
Целта на машинското учење е вградувањето на способностите за учење кај
сметачите(компјутерите). Предметите на машинско учење се студиите и компјутерското
моделирање на процесите на учење и нивните манифестации. Машинското учење се занимава со
создавањето и развојот на алгоритмите и техниките кои му овозможуваат на сметачот да учи.
Потребата од машинско учење се развивањето на системи кои во случај рачно да се развиваат би
биле тешки или скапи, а притоа бараат специфични знаења или вештини, развивањето на системи
кои автоматски се приспособуваат и прилагодуваат како на пример персонализирано подучување
и откривање на нови знаења од големи податочни бази, на пример анализа на пазарот. Учењето
претставува промени во даден систем кои водат кон тоа при следната појава на слична задача,
системот да ја извршува поефикасно и поефективно. Според Херберт Сајмон учењето е било кој
процес преку кој еден систем го подобрува своето однесување врз основа на стекнатото искуство.
Учењето опфаќа усвојување ново декларативно знаење, развивање моторни и спознајни вештини
по пат на инструкции или пракса, организација на новото знаење во општи, ефективни
репрезентации и откривање нови факти и теории по пат на набљудувања или експерименти.
Учењето има три основни множества:

1. Множество за обука- дефиниција: множество примери кои се користат за да се научи


системот да генерира точен одговор
Постапка: од популацијата се одбира примерок кој е претставен во форма на влезен
вектор за кој се генерира вектор одговор. Притоа целта е одговорот да се совпадне со
излезот, т.е. да се минимизира средно-квадратното отстапување на излезот и одговорот,
кој ја претставува грешката на обучувањето. Обучувањето завршува кога грешката ќе биде
помала од однапред дефинираната.
2. Множество за исправност
3. Множество за тестирање-дефиниција: множество примери со кои се мери однесувањето,
односно способноста за генерализација на обучениот систем.
Постапка: по воспоставувањето на релациите кои се одобрени со тестот за исправност, се
одбираат примери со тестот за исправност, се одбираат примери различни од двете
претходно. За секој влезен пример се генерира одговорот и се споредува со очекуваниот
излез. Со тоа се проценува успешноста на способноста за генерализација.

Овие три множества не се неопходни во сите системи способни да учат. Класификацијата е една
од главните задачи на податочното рударство и на вештачката интелигенција воопшто. За некој
атрибут да се обидеме да ја предвидеме вредноста на тој атирибут за другите луѓе, според
достаните информации за останатите атрибути за тие исти луѓе. Калсификацијата се применува
само на категоријални излезни атрибути. Категоријален атрибут е атрибут кој може да прими само
дискретни вредности(2 или повеќе). Исто така се нарекува и симболички атрибут додека пак
реален атрибут е атрибут со реални броеви. Табели на меѓузависности или хистограми уште и
наречени се едно-димензионални табели на меѓузависности. К-димензионална табела на
меѓузависности се прави така што:

1. Се избираат к атрибути од податочното множество и се означуваат со а1, а2, ... , ак.


2. За секоја можна комбинација на вредности, а1=х1, а2=х2, ... , ак=хк, се запишува колку често
таа комбинација се појавува.

На 2-D табела за меѓузависности може да видиме колку записи постојат за секоја комбинација
(секој пар) на вредности на атрибутите. Попрегледно е графички и полесно се забележуваат
интересни нешта ако се растегнат линиите на хистограмот.

3-D табелите на меѓузависностите се веќе потешки за следење и затоа се воведува друг начин
на анализа на таквите податочни множества така наречени дрва на одлучување. Учењето со
дрва на одлучување се одвива така што нов тест примерок се подлага на низа тестови за да се
утврди на која класа и припаѓа. Тестовите се организирани во хиреархиска структура.
Примероците од множеството за тренирање се користат при селекција на редоследот на
тестови во дрвото за одлучување. Вообичаено, дрвото се гради од горе надолу и се бираат
оние тестови кои носат најголема информациска добивка за самата класификација.

Влез на двото за одлучување е објект или ситуација опишана со множество особини(обележја)


а излез е да/не одлука. Секој внатрешен јазел претставува испитување на вредноста на една
од особините ( и гранење во зависност од вредноста). Секој лист претставува булова вредност
која треба да се врати како резултат ако се стигне до него. Калсификатори на дрво на
одлучување се примероците( неименувани примери) кои се претставени со вектори од
вредноста на атрибутите. Внатрешните јазли се тестови за вредностите на атрибутите, типично
тест за еднаквост, нееднаквост или други тестови. Гранките се означени со вредностите на
атрибутите а листовите се означени со вредностите од целната класификација. Изградбата на
дрвата за одлучувања се состои од :

1. Одбирање на корен од сите дадени податоци


2. Се избира атрибутот и се формулира логички тест за некој атрибут
3. Се разгранува за секој различен резултат на тестот и се пренесува
подмножеството на примероци што го задоволуваат тој резултат на тестот кај
соодветно поддрво
4. Рекурзивно се прави ова на секое поддрво
5. Условот за крај одредува кога еден јазел останува да биде лист
Критични чекори:
➢ Формулација на добри логички тестови
➢ Избор на мерка за атрибутите
Цел е да се пронајде мало дрво конзистентно со примероците за обука, а идеја
е рекурзивно избирање на ‘‘најзначајниот‘‘ атрибут како корен на (под) дрво.
Алгоритамот ID3 е избор на најдобра поделба на јазли.
1. Ако сите примери на множеството за обука имаат вредност к, тогаш дрвото за
одлучување се состои од лист означен со к.
2. Инаку, одбери тест кој ќе го подели множеството за обука Ѕ во две или повеќе
подмножества Ѕi, зависно од излезот на тестот. Тестот станува корен на дрвото
и за секој излез на тестот изгради поддрво, повикувајќи ја оваа процедура
рекурзивно за секое Ѕ.

Ентропија, информациска добивка.


Правила на одлучување. Дрвото на одлуки исто така може да се изрази во облик на правила:

IF опис=сончево AND влажност = голема THEN игра = Не

IF опис=сончево AND влажност = нормална THEN игра = Да

IF опис=облачно THEN игра = Да

IF опис=дождливо AND ветер = јак THEN игра = Не

IF опис=дождливо AND ветер = слаб THEN игра = Да

Најдобрата поделба може да се одреди со Greedy пристап во кои се преферираат јазли со


хомогена дистрибуција на класа. За овој пристап потребна е мерка за неодреденоста во јазолот.
Поделбата врз основа на информациски добвки се користи во ID3 и C4.5 со избор на атрибутот со
најголема информациска добивка се постигнува редукција на ентропијата. Недостаток на
информациска добивка е тоа што преферира поделби кои резултираат во голем број на поделби,
од кои секоја е мала и чиста. Зошто дрва на одлучување? Целта е со што помалку прашања да се
одлучи за нешто. Се користи и кога треба да одлучиме за некоја идна комбинација која до сега не
се појавила. Кои се перформансите на алгоритамот за учење? Алгоритамот е добар ако
продуктира хипотези кои успешно ги класификуваат нивните невидени примероци. Како да се
процени нивната успешност?

1. Собери ( доволно големо) множество на познати примероци


2. Множеството на познати примероци се дели на две дисјунктивни подмножества:
множество за обука и множетво за тестирање
3. Со множеството за обука со некој алгоритам се генерира хипоптеза х
4. Одреди го процентот на правилно класификувани примероци од множеството за
тестирање од страна на хипотезата х
5. Повтори ги чекорите од 1 до 4 за различни големини на множествата за обука и тестирање
и различен случаен избор на множества со различни големини.
Шум и преобучување
➢ over-fitting (претерано научување / преарнување)
➢ decision tree pruning (кастрење на дрвото за одлучување)
➢ statistical significance (статистичка значајност)
➢ cross-validation (вкрстена проверка)
➢ missing data (податоци што фалат или се испуштени)
➢ multi-valued attributes (повеќевредносни атрибути)
➢ continuous-valued attributes (C4.5) (континуирани атрибути)
➢ bias / variance tradeoff (компромис помеѓу наклоноста и разноликоста)

Како да се справиме со непознати комбинации? Понекогаш може да се случи да според ниту еден
атрибут да неможе да се добие комплетна класификација за сите можни вредности на даден
атрибут. Тогаш за таа вредност се става некоја предодредена(поверојатна, препорачлива)
вредност. Предности на дрвата за одлучување се тоа што можат да генерираат разбирливи
резултати, да извршуваат класификација без премногу сложени пресметки, можат да работат и со
континуирани и со дискретни вредности на атрибутите и обезбедуваат јасен показател на тоа кои
атрибути се најважни за предвидување или класификација. Исто така имаат и слабости, тие се
подложени на грешки со премногу класи, брзата поделба на примероци води до брзо опаѓање на
квалитетот на избирањето на атрибутите и имат проблеми со не-правоаголни региони. Сепак
конечниот заклучок за дрва на одлучување покрај тоа што е една од најпопуларните техники за
класификација исто така се лесни за разбирање, лесни за импллементација, лесно се
употребуваат, пресметките се лесни но и може да се направат проблеми со прекумерно
научување. Исто така тие праваат класификација така што ја предвидуваат класата според
дискретни или континуирани влезови.
Експертни системи
Експетрен систем е програма базирана на знаење која нуди решавање на проблеми од одреден
домен со квалитет на ниво на човечки експерт од доменот. Користи и теоретки и практични
знаења екстрахирано од луѓе,експерти од доменот и се обидува да ја имитира нивната
методологија на работа. Експретните системи не се програми за когнитивно моделирање туку тие
се практични програми кои користат стратегии развиени од луѓето при решавање на одредена
класа на проблеми. Поради евристиката и интезивната употреба на експертско знаење тие се:

Отворени за инспекција-меѓучекори и одговори на прашања за процесот на решавање

Лесно се модифицираат-додавање ново или модификување на постоечкото знаење во базата на


знаење

Еверистични-употреба на најчесто несигурно знаење при решањето

Тие се изградени за решавање на различни видови проблеми во медицината, математиката,


инженерството, хемијата, геологијата, компјутерските науки, економијата, правото, одбраната и
образованието.

Екстерните системи имаат 9 категории на проблеми и тие се:

1. Интерпретација- формирање на заклучоци или описи на високо ниво од збирка на сурови


податоци
2. Предвидување- проетирање на веројатен исход и последици на дадена ситуација
3. Дијагноза- одредување на причината на дисфункција во комплексни ситуации на основа
на набљудувани симптоми
4. Дизајн- одредување на конфигурација на системски компоненти кои задоволуваат
одредени ограничувања и постигнуваат одредени цели
5. Планирање- одредување на секвенца на акции кои ќе постигнат одредени цели при
дадени појдовни услови
6. Надгледување- споредување на набљудување и примена на лек/поправка за
константирани дисфункции
7. Дебагирање и поправки – одредување и примена на лек/поправка за констатирани
дисфункции
8. Инструирање- детектирање и корегирање на недостатоци во разбирањето на одредена
област од страна на личноста
9. Контрола- управување со однесувањето на комплексни околини

Експертните системи исто така имаат подсистеми за објаснување и систем за резонирање.


Подсистемите за објаснување мора да може да одговара на два вида прашања а тоа се како и
зошто. На прашањата од видот како мора да има објаснување на начинот како се добиени
заклучоците на системот а на прашањата од видот зошто мора да има објаснување за тоа
зошто на системот му треба одреден податок или знаење. Додека пак системот за резонирање
претставува интерпретер на базата на знаење и го применува знаењето при решавање на
конкретни проблеми. Системот на резонирање кај продукциските системи презема контролен
циклус на recognize-act. Процедурите кои го имплементираат контролниот циклус се
независни и одвоени од продукциските правила. Одвоеноста на машината за резонирање од
базата на знаење во модуларниот дизајн на експертни системи е важна од неколку причини:

1. Репрезентација на знаењето на поприроден начин во форма на if-then правила


2. Градателите на експертни системи може да се концентрираат на организација и
имплементација на знаење за решавање на проблемот.
3. Може да се вршат промени на дел од базата на знаење без потреба за промени во
остатокот од кодот.
4. Истиот код за контрола и резонирање(изведување) може да се употреби за различни
системи базирани на знаење
5. Модуларноста овозможува лесно експериментирање со алтернативни контролни
режими над истата база на правила.

Во екпертните системи има два начина за резонирање при решавање на проблеми тоа се
пребарување водено од целта и пребарување водено од податоците. Примарни учесници
во изградбата на експертни системи се инженер на знаење, експерт во област и краен
корисник. Има три режими на работа кај експертните системи и тоа се режим на
прибирање на знаење, консултациски режим и објаснувачки режим. Режимот на
прибирање на знаење работи така што се врши прибирање на почетното знаење во
експертни системи и ажурирање на знаењето од страна на инженерот на знаење, кој пак
се консултира со некој експерт или со енциклопедии, книги, прирачници и друго.
Прибраното знаење го содржи речникот како и жаргонот на областа, општите факти и
концепти во областа, проблемите кои се јавуваат во таа област, решенија на постојаните
проблеми добиени од искуство во областа и техники за решавање на проблеми во
областа. Бидејќи развојот на експертни системи е доста скап, постојат неколку случаи во
кој развојот е оправдан а тоа се:

1. Потребата за решение ја оправдува цената


2. Експертизата не е расположива во сите ситуации каде таа е потребна
3. Проблемот може да се реши со техники на симболичко резонирање
4. Доменот на проблемот е добро структуриран и нема потреба од знаење од општа
култура
5. Проблемот не може да се реши со примена на традиционалните пресметковни
методи
6. Постојат признати експерти расположени за соработка
7. Проблемот е од соодветна област и комплексност

Експертните системи исто така имаат недостатоци. Имаат недостаток на здрав разум
или знаење од општа култура, недостаток на флексибилност и робустност, немаат
можност за давање на издржани објаснувања за одлуките што ги предлагаат, имаат
тешкотии со проверката на коректноста и мали се можностите за учење од искуство.
Исто така имаат и методи за справување со несигурностите. Тие методи се
предодредена или немонотона логика, правила со меки тежински фактори и
веројаноста. Веројатноста работи така што тврдењата ги сумираат ефектите на
мрзливост(неуспех во набројувањето на исклучоците, квалификациите итн) и
непознавањето (недостиг на релевантни факти, почетни услови итн.).
Еден од познатите експертни системи е системот MYCIN кој е напишан некаде во 1970
години и е напишан на дијалект на LISP. Правилата и резонирањата кај MYCIN без
веројатносните коефициенти би биле еквивалентни на предикантна логика. MYCIN е
воден од целта, односно поврзува наназад – тргнува од некоја претпоставка и се
обидува да докаже дека претпоставката е точна. Несигурностите во системот имаат
фактор на сигурност чии опсег е од -1 (сигурно неочно) до 1 (сигурно точно). Се
изведуваат со if-then циклусот или со прагова вредност. Или пак во случај на повеќе
премиси, прво се врши И-операција на непрецизирана(матна) логика(т.е. минимум),
па ако се добие вредност поголема од прагот, тогаш резултатот се множи со факторот
на доверливост на самото правило. MYCIN се покажува успешен во 90% од случаите.
HEARSAY е посебен вид на експертни системи кој е развиван за потребите на
препознавање на говор. Репрезентацијата на знаење е преку база на продукциски
правила поделени во логички целини(наречени специјалисти). Секој специјалист е
комплетни множество на продукциски правила за посебни делови од говорот( фрази,
зборови, слогови, фонеми и обележја на сигналот).
ВТОР КОЛОКВИУМ

1. Кои се недостатоците на системите за препораки со колаборативно филтрирање?


a. Функционира добро само за оцени собрани експлицитно
b. Потребно е системот да има доволен број на корисници со доволен број на оцени за да
се најдат најсличните
c. Мора да се дефинира профил на корисниците
d. Оскудност на подаоците (матриците на корисност се ретко пополнети)
e. Наклонетост кон популарните производи
f. Може да се применува само за одреден тип на производи (ставки)
g. Не може да се употребува за нови производи
(има можност за грешка треба да се провере)
2. Кои се недостатоците на системите за препораки со споредба на содржината?

a. Прекумерна специфичност, оневозможувајќи препораки на производи кои не се присутни


во профилот на корисникот
b. Функционира добро само за оцени собрани експлицитно
c. Наоѓањето на соодветните особини за споредба е тешко
d. Градењето на профил на корисникот може да биде нетривијален процес
e. Не може да понуди објаснувања на препораките
f. Потребни се податоци за други корисници
g. Не може да се употребува за нови производи

3. Користејќи колаборативно филтрирање со помош на пристап базиран на корисници, да се


пресмета оцената што Tom ќе ја даде за Star Wars, ако дел од матрицата на оцени на
тројцата корисници во системот е:

Притоа, сличноста помеѓу корисниците веќе е пресметана од целата матрица и изнесува:

sim(Alex, Bob)=0.7
sim(Alex, Tom)=0.9
sim(Bob, Tom)=0.8.

Притоа формулата за предвидување оцена на корисникот x за ставката i е дадена во


продолжение:

Select one:
a. (0.8 * 5 + 0.9 * 4) / (0.8 + 0.9)
b. (0.9 * 2 + 0.8 * 3) / (0.9 + 0.8)
c. (0.7 * 5 + 0.8 * 4) / (0.7 + 0.8)
d. (0.7 * 4 + 0.9 * 4) / (0.7 + 0.9)
e. (0.8 * 4 + 0.9 * 4) / (0.8 + 0.9)

4. Невронските мрежи можат да се учат со ненадгледувано учење


- TRUE

5. Колку тежини има невронска мрежа со 3 влезни, 2 излезни и еден тежински неврон на влез?
-
(требе да се одговоре)

6. Поврзете ги соодветните делови на биолошкиот со вештачкиот неврон.


Синапса -> тежина
Сома -> јазол
Аксони -> излез
Дендрити -> влез
7. Кај онтологиите со е-релација може да се поврзат:
a. индивидуален со генерички јазел
b. индивидуален со индивидуален јазел
c. генерички со индивидуален јазел
d. генерички со генерички јазел

8. Кои од наведените се примери за концепти кај онтологии?


Select one or more:
a. Професор
b. Професорот Трајко Трајковски
c. Студентот Петко Петковски
d. Студентот Петко Петковски е студент на Финки
e. Предмет
f. Професорот Трајко Трајковски предава на факултетот F
g. Факултет
h. Предметот Системи на знаење
i. Професорот Трајко Трајковски го предава предметот X
j. Финки
k. Студент

9. Сакаме да изградиме агент за планирање на рута на пат.

Чекор5: Одредуваме дека една држава може да има повеќе соседи држави
Чекор1: Препознаваме дека станува збор за географија
Чекор4: Препознаваме дека држава може да биде сосед со друга држава
Чекор2: Се идентификуваат поимите град, главен град, држава, пат, земјен пат, воздушен
пат итн.
Чекор3: Одредуваме дека главен град е град, воздушен пат е пат

10. Што од наведеното е поддршка на семантички веб?


a. Интелигентни агенти
b. XML
c. RFID
d. RDF
e. URI
f. Невронски мрежи
g. .NET
h. Онтологии
i. HTML
j. CSS

11. Наведете што е применето или што е илустрирано во следниве примери:


Sistemi na znaenje
If (student) (slusa) (predmet) then (student) (saka) (predmet)
(Petko Petkovski) (slusa) (Sistemi na znaenje) => inference rules
predmet → zadolzidetelen predmet → Sistemi na znaenje => Онтологија

- Семантички веб

12. Врз основа на што од наведеното се базираат квалитативните модели?


a. Квалитетни податоци
b. Регресиска анализа
c. Статистичка анализа на собрани податоци
d. Искуство, знаење и интуиција на експерти од областа
e. Истражување на пазарот (анкетирање)

13. Квантативните се базираат според:


- Основа на податоци и статистики.
- Се обидуваат да ја предвидат иднината врз основа на податоци од минатото
14. Основни претпоставни на квантитативни модели:
- Треба да постојат прибрани податоци од минатото
- Треба тие податоци да може да се изразат бројчано(да се квантифицираат)
- Се претпоставува дека факторите кои влијаеле во минатото ќе продолжат да влијаат и
во иднина
15. Во општ случај, од кои компоненти се состојат временските серии?
a. Предвидена
b. Просечна
c. Тренд
d. Сезонска
e. Збирна
f. Приближна
g. Случајна

16. Која вредност ќе биде предвидена за продажба во неделата 4 користејќи прост подвижен
просек од последните 3 вредности?
a. 10
b. 3
c. 8
d. 15
e. 5
Требе да се одговоре 16

17. RDF тројка:


- Субјект
- Предикат
- Објект

18. Чекорите на онтологија:


- Дефинирање на доменот и опсегот
- Набрујување (енумерација) на важни термини
- Дефинирање на класите и нивна херархија
- Дефинирање на слотови
- Дефинирање на ограничувањата за слотовите(кардиналност, тип)
19. Имплицитно собирање на податоци:
- Да се научат рејтинзите од акциите на корисникот
- Купување подразбира висока оцена
- Како да се извлечат ниските оцени?
20. Експлицитно барање на податоци:
- Ги прашувате луѓето да дадат оценка за производот
- Не функционира добро во праксата – луѓето не сакаат да ги замарате

21. Најважни односи во WORDNET


- Хиперними
- Хипоними
- Холоними
- Мероними
22. Најголема семантичка мрежа на англиски јазик:
- WORDNET
23. Поврзи ги примерите за РДФ, Онтологија, XML, inference rules(knowledge)
- <dog> Fido </dog> -> XML
- (Fido) (is_dog_of) (Ivan) -> RDF
- Mammal -> canine -> Spaniel -> Fido -> Онтологија
- If(person) (owns) (dog) then (person) (cares_for)(dog) ->inference rules(knowledge)
24. Сите точни дефениции за онтологија:
- Онтологија е јасна спецификација на концептуализацијата
- Онтологија е логичка теорија која што го зема предвид основното значење на
формалниот речник
- Тоа е теорија што се занимава со видовите на нешта, односно видовите на апстрактни
ентитети кои што се допуштени во јазичниот систем.
- Онтологијата е формален и експлицитен опис на концептите во доменот на интерес
(класи) карактеристиките на секој концепт (слотови) и ограничувањата на
слотовите(аспекти)
- Онтологија е “спецификација на концептуализација, што се користи за да им помогне
на програмите и луѓето да споделуваат знаење“.
- Онтологија е збир на концепти – како што се нешта, настани и релции кои се
специфицирани на некој начин, со цел да се создаде речник за размена на информации.
- Онтологиите воспоставуваат заедничка терминологија помеѓу членовите на заедницата
на интереси. Овие членови може да бидат луѓе или автоматски агенти.
- Онтологијата е формално, експлицитно специфицирање на заедничката
концептуализација.
25. Кои од следниве компоненти постојат во временски серии:
- Предвидување, збир, просек и уште некои..(ако ги најдиме сите да ги наброиме)
26. Поделба на категориите:
- Основно- Во таа хиерархија (од “е“) некои нивоа се познати и најчесто користени,
- Надредени- сите поапстрактни нивоа
- Подредени- сите поспецифични нивоа

27. Subject, predicat, object:


- Subject – web adresa
- Predicat- link
- Object – web resource or string на поврзување
28. Simple moving average:
- Include n most recent observations
- Weight equally
- Ignore older observations
29. Time serie models:
- Naive
- Simple and weighted moving average
- Level, trend and seasonality exponential smoothing

30. Weighted moving average:

4. 31/6 => (3*5 + 2*6 + 1*4)/6 =5.167


5. 25/6 => (3*3 + 2*5 + 1*6)/6 =4.167
6. 32/6 => (3*7 + 2*3 + 1*5)/6 =5.333
31. Simple moving average како се пресметува:

:
32. Кај онтологиите знаењето е организирано:
а. во форма на листа
б. непрецизно
в. паралелно
г. сериски
д. Хиерархиски

33. Кои се главните предизвици при дизајнирањето на системите за препорака:


а. Да се најдат корисници кои ќе го тестираат системот
б. Да се експлоатираат непознатите оценки користејќи ги познатите
в. Како да се оценат методите за ектраполација
г. Прибирање на познати оцени или рејтинзи
д. Да се објаснат ектраполираните рејтинзи

34. Наведете што е применето или што е илистрирано во примерите:


If (person) (owns) (dog) then (person) (cares_for) (dog) - Inference rules (knowledge)
mammal -> canine -> Spaniel -> Fido - Онтологии
<dog> Fido </dog> - XML
(Fido) (is_dog_of) (Ivan) - RDF (Relationships between data)

35. За каков елемент од RDF тројката станува збор:


предава на - > предикат (relationship)
Факултетот Х -> објект
Професорот Трајко Трајковски -> субјект
36. Кои од следните избори се карактеристики за невронски мрежи
а. Пресметковна ефикасност
б. Отпорност на шум
в. Транспарентност
г. Експресивност
д. Издржливост
ж. Способност за доучување
е. Способност за генерализација

37. Учење со потикнување – На влез, покрај предметот што треба да се научи, се добива и
сигнал добро/лошо (награда и казна) во зависност од тоа колку добро одговорил системот
на тоа барање за учење или класификација.
TRUE

38. Чекори за градење на една онтологија:

1.Дефинирање на доменот и опсегот


2.Набрујување (енумерација) на важни термини
3. Дефинирање на класите и нивна херархија
4. Дефинирање на слотови
5. Дефинирање на ограничувањата за слотовите(кардиналност, тип)

39. Што од наведеното е точно за наивниот пристап за предвидување на идна вредност кај
временски серии?
а. Следна (идна) вредност се претпоставува дека е иста со просечната вредност
б. Обично дава задоволителни резултати
в. . Следна (идна) вредност се претпоставува дека е иста со последната позната вредност
г. Обично не дава добри резултати

40. Kои од следните тврдења се точни за квантитативните методи за предвидување кај


временски серии?

а. Откривање на постоење на сезонска компонента и може да го подобри предвидувањето

б. Тренд компонентата не влијае значително на предвидувањата

в. Сезонската компонента не влијае значително на предвидувањата

г. Следна (идна) вредност се претпоставува дека е иста со просечната вредност

д. Откривање на постоење на тренд компонента и може да го подобри предвидувањето

41. Изберете што означува секој од елементите кај RDF:


Субјект – идентификација на ресурс
Предикат – Карактеристика својство атрибут, релација
Објект – друг ресурс или ентитет
42. Нека е дадена следната табела за продажба на некој производ:

Која вредност ќе биде предвидена за продажба во недела 8 користејќи тежински просек


од последните вредности, каде тежините се 0.5 , 0.3 и 0.2 при што поновите вредности
имаат поголема тежина?
Формулата за пресметување прост подвижен просек е:

Одговор: (0.5 * 25) + (0.3 * 21) + (0.2 * 16) = 22


ПРВ КОЛОКВИУМ

1. Чекори за матна логика кои се (друго прашање да ги подредиш)


I. Чекор 1: Идентификувај ги влезните и излезните променливи.
II. Чекор 2: Дефинирај ги матните лингвистички променливи и дефинирај функции на
припадност на матни множества.
III. Чекор 3: Употреби ги овие матни множества и матни лингвистички променливи и
креирај правила
IV. Чекор 4: Одбеери метод за уточнување.
V. Чекор 5: Тестирај го системот и модифицирај го доколку е потребно.

2. Дефиниција Условна независност:


- Х е условно независна од Y за дадено Z, ако веројатносната распоределба според која
се владее Х е независна од вредносните на Y, за таа вредност на Z.
Пример: P(Грми | Врне, Светка ) = P(Грми | Светка)

3. Што се Експерни системи


- ЕС се изградени за решавање на различни видови проблеми во медицината,
математиката, хемијата, економијата и др.

4. ЕС категории на проблеми:
I. Интерпретација
II. Предвидување
III. Дијагноза
IV. Дизајн
V. Планирање
VI. Надгледување
VII. Дебагирање и поправки
VIII. Инструирање
IX. Контрола

5. Зошто се користи коренување на збор:


- Подобрување на ефикасноста на пребарувањето
- Совпаѓање на слични зборови
- Се подобрува одѕивот

6. Што е множество за обуко а што за тестирање


- Множеството за обука е множество каде што го тренираме класификаторот со
податоци, а тест множество го тестираме класификаторот колку добро научил.
7. А приори (безусловна веројатност):
- Модел изграден врз основа на прибирани статистички податоци.
- Ако имаме 10 примероци веројатностите се пресметуваат
Р(алергија) = 2/10 = 0.2
Р(повраќање) = 1/10 = 0.1
8. Условна веројатност :
- Е клучна при расудување, затоа што го формализира прибирањето докази и
обновување на веројатностите.

Пример за задача Условна веројатност

Опис = сончево, темп = студено, влажност = голема, ветер = јак

Р(да) = 9/14 Р(не)=5/14 Да = 9 Не = 5

Р(сонце/не) = (3/5) = 0.6 Р(сонце/да) = (2/5) = 0.4

Р(не)*Р(сонце/не)*Р(студено/не)*Р(голема/не)*Р(јак/не) = 0.021

Р(да)*Р(сонце/да)*Р(студено/да)*Р(голема/да)*Р(јак/да) = 0.005

0.021 > 0.005 => НЕ

Зад од колоквиум:

Можност за игра: Р(НЕ) = 5/14 = 0.35

Влажност нормална: Р(нормална/не) = (1/5) = 0.2


0.35 * 0.2 = 0.07

Пресметка на ентропија:

Ако имаме 2 класи (+) и (-), и имаме множество од 100 податоци, каде што 30 се позитивни
останатите негативни (Р(+) = 30, Р(-) = 70)

-30/100 *log2(30/100) – 70/100 * log2(70/100) ~= 0.88

9. Подсистемот за објаснување мора да може да одговара на кои два вида прашања?


- Why-queries и How-queries
10. За што се користи дефазификацијата:
- Се користи за да се добие јасен излез од матната логика
11. Методи за дефазификација:
- The centre of area (COA)
- The mean of maximum (MOM)
- Bisector of area (BOA)
- Smallest of maximum (SOM)
- Largest of maximum (LOM)
12. Операции со матни множества:
- OR = max, AND = min, Комплемент = -1
13. Режим на работа на ЕС:
- Се врши прибирање на почетно знаење во ЕС и ажурирање на знаењето од страна на
инженерот на знаење, кој пак се консултира со некој експерт или со енциклопедии,
книги прирачници.
14. Изградба на дрва за одлучување:
- Почни со сите податоци за да се одреди коренот.
- Се избира атрибут и се формулира логички тест за некој атрибут.
- Се разгранува за секој различен резултат на тестот, и се пренесува подмножеството на
примероци што го задоволуваат тој резултат на тестот кон соодветното поддрво.
- Рекурзивно се прави ова на секое поддрво
- Условот за крај одредува кога еден јазел останува лист
15. Дрва за одлучување:
- Критични чекори се формулација на добри логички тестови и озбор на мерка за
атрибутите.
- Цел: Да се пронајде мало дрво конзистентно со примероците за обука.
- Идеја: рекурзивно избирање на најзначајниот атрибут како корен на (под)дрво.
16. Модели на пронаоѓање на информации(Information retrieval models):
- Логички модел (Boolean model)
- Модел на векторски простор(Vector space model)
- Статистички јазичен модел (Statistical language model)
Да се потполни цела табела
Формули за пресметување на прецизност и одѕивот:

Precision = TP / TP + FP

Recall = TP / TP + FN

17. Превртен индекс


- Превртен индекс на колекција на документи е податочна структура која, на секој
различен термин му придружува листа од документи кои го содржат терминот.
- Потребно е константно време за пронаоѓање на документите кои содржат даден
термин кој се пребарува.
18. Одредување на функции на припадност:
- Со интервујуирање на повеќе луѓе
- Со консултација со експерт
- Користење на техники од вештачка интелегенција и машинско учење (евристика,
рангирање, математички модели, адаптивни модели
19. Предности на системи базирани на матна логика:
- Математичките концепти се многу едноставни
- Системите базирани на матна логика лесно може да се модифицираат со додавање
или бришење на правила поради флексибилноста на матна логика
- Можат да примат непрецизни информации и се отпорни на шум
- Матна логика нуди решение за сложени проблеми во сите сфери на животот,
вклучувајќи и медицината, бидејќи го ‘имитира’ човечкото расудување и донесување
одлуки.
20. Недостатоци на системи базирани на матна логика:
- Нема систематски пристап за нивно дизајнирање
- Тие се разбирливи само кога се едноставни
- Соодветни се само ако решаваме проблеми кои не бараат висока точност.
- Ги немаат можностите што ги нуди машинско учење, невронските мрежи за
препознавање на облици.
- Верификацијата и валидацијата на системите бара интензивно тестирање.
- Утврдувањето на соодветни матни правила и функции на припадност е тешка задача.
21. Примена на матна логика
- Автомобилски системи
- Воздухопловна контрола
- Котрола на водни возила
- Одбрана
- Бизнис
- Финансии
- Индустрија
- Производтство
- Хемиска индустрија
22. Учесници во изградба на ЕС
- Инженењ на знаење, Експерт во областа, краен корисник
23. Трите основни множества кај учењето
- Множество за обука (training set)
- Множество за исправност (validation set)
- Множество за тестирање (testing set)
24. Потполни
- Множество за обука множество примери кои се користат за да се научи системот да
генерира точен одговор
- Множество за тестирање множество примери со кои се мери однесувањето, односно
способноста за генерализација на обучениот систем.
25. Дрва за одлучување
- Влез - објект или ситуација опишана со множество особини (обележја)
- Излез – Да/Не
- Секој внатрешен јазел претставува испитување на вредноста на една од особините.
- Секој лист претставува булова вредност која требе да се врати како резултат ако се
стигне до него.
26. Метод за параметризација:
- Бинартни
- Бројки (честоти, фреквенции)
- Тежински честоти
Експертни системи
1.Експертен систем (ЕС) е прпграма базирана на знаеое кпја нуди
рещаваое на прпблеми пд пдреден дпмен сп квалитет на нивп на шпвешки
експерт пд дпменпт.
Кпристи знаеое екстрахиранп пд експерти пд дпменпт и се пбидува да ја
имитира нивната метпдплпгија на рабпта.
Ппвеќетп ЕС не мпжат да ушат пд сппственптп искуствп.

2.ЕС се практишни прпграми кпи кпристат евристишни стратегии


(развиени пд лудетп) при рещаваоетп на пдредена класа на прпблеми.

3.Карактеристики на ЕС:
Ппради евристиката и интензивната упптреба на експертскп знаеое ЕС
се:

Отвпрени за инспекција
Леснп се мпдифицираат
Евристишни
ЕС се изградени за рещаваое на разлишни видпви прпблеми вп
медицината, математиката, инженерствптп, хемијата, геплпгијата,
кпмпјутерските науки, екпнпмијата, правптп, пдбраната и пбразпваниетп.

4.ЕС категприи на прпблеми:


- Интерпретација – фпрмираое на заклушпци или пписи на виспкп нивп пд
збирка на сурпви ппдатпци.
- Предвидуваое – прпектираое на верпјатен исхпд и ппследици на
дадена ситуација.
- Дијагнпза – пдредуваое на пришината на дисфункција вп кпмплексни
ситуации на пснпва на набљудувани симптпми.
- Дизајн – пдредуваое на кпнфигурација на системски кпмппненти кпи
задпвплуваат пдредени пгранишуваоа и ппстуваат пдредени цели.
- Планираое – пдредуваое на секвенца на акции кпи ќе ппстигнат
пдредени цели при дадени ппјдпвни услпви.
- Надгледуваое – сппредуваое на набљудуванптп пднесуваое на систем
сп негпвптп пшекуванп пднесуваое.
- Дебагираое и ппправки – пдредуваое и примена на лек/ппправка за
кпнстатирани дисфункции.
- Инструираое – детектираое и кпрегираое на недпстатпци вп
разбираоетп на пдредена пбласт пд страна на студентпт.
- Кпнтрпла – управуваое сп пднесуваоетп на кпмплексни пкплини.

5. Ппдсистем за пбјаснуваое.Ппдсистемпт за пбјасуваое мпра да мпже


да пдгпвара на два вида пращаоа:
- HOW queries – пбјаснуваое на нашинпт какп се дпбиени заклушпците на
системпт.
- WHY queries – пбјаснуваое за тпа зпщтп на системпт му треба пдреден
ппдатпк (знаеое).

6. Систем за резпнираое
- претставува интерпретер на базата на знаеое.
- гп применува знаеоетп при рещаваоетп на кпнкретен прпблем.
- кај прпдукциските системи презема кпнтрплен циклус на преппзнаваое-
делуваое.

7.Мпдуларен дизајн на ЕС
Одвпенпста на мащината за резпнираое пд базата на знаеое е важна пд
некплку пришини:
- Репрезентација на знаеоетп на ппприрпден нашин вп фпрма на if-then
правила.
- Градителите на ЕС мпже да се кпнцентрираат на прганизација и
имплементација на знаеое за рещаваое на прпблемпт.
- Мпже да се врщат прпмени на дел пд базата на знаеое без пптреба за
прпмени вп пстатпкпт пд кпдпт.
- Истипт кпд за кпнтрпла и резпнираое (изведуваое) мпже да се упптреби
за разлишни системи базирани на знаеое.
- Мпдуларнпста пвпзмпжува леснп експериментираое сп алтернативни
кпнтрплни режими над истата база на правила.

8.Нашини на резпнираое вп ЕС
Разлишни прпблеми бараат разлишен нашин на резпнираое при нивнптп
рещаваое:
- Пребаруваое впденп пд целта (goal-driven search)
- Пребаруваое впденп пд ппдатпците(data-driven search)
9.Примарни ушесници вп изградбата на ЕС се:
- Експерт вп пбласта (domain expert)
- Инженер на знаеое (knowledge engineer)
- Краен кприсник (end user)

10. Режими на рабпта кај ЕС


- Режим на прибираое на знаеое
- Кпнсултациски режим
- Објаснувашки режим

Режим на прибираое на знаеое = се врщи прибираое на ппшетнптп


знаеое вп ЕС и ажурираое на знаеоетп пд страна на инженерпт на
знаеое, кпј пак се кпнсултира сп некпј експерт или сп енциклппедии,
книги, прирашници.
Штп спдржи прибранптп знаеое?
Опщти факти и кпнцепти вп пбласта, прпблеми кпи се јавуваат вп пбласта,
рещенија на ппстпјните прпблеми дпбиени пд искуствптп вп пбласта,
техники за рещаваое на прпблеми вп пбласта, решникпт какп и жаргпнпт
на пбласта.

11.Кпи прпблеми се сппдветни за имплементација на ЕС?


- Пптребата за рещение ја пправдува цената
- Експертиза не е распплпжлива вп сите ситуации каде таа е пптребна.
- Прпблемпт мпже да се рещи сп техники на симбплишкп резпнираое
- Дпменпт на прпблемпт е дпбрп структуриран и нема пптреба пд знаеое
пд ппщта култура
- Прпблемпт не мпже да се рещи сп примена на традиципналните
пресметкпвни метпди
- Ппстпјат признати експерти распплпжени за спрабптка
- Прпблемпт е пд сппдветна пбласт и кпмплекснпст.

12.Недпстатпци на ЕС
- Недпстатпк на здрав разум или знаеое пд ппщта култура(common sense)
- Недпстатпк на флексибилнпст и рпбустнпст
- Немпжнпст за даваое на издржани пбјаснуваоа за пдлуките щтп ги
предлагаат
- Тещкптии сп прпверка на кпректнпста
- Мали мпжнпсти за ушеое пд искуствп
13.Метпди за справуваое сп несигурнпстите
- Предпдредена (Default) или немпнптпна лпгика
- Правила сп меки тежински фактпри
- Верпјатнпст

Верпјатнпст = Верпјатнпсните тврдеоа ги сумираат ефектите на:


- мрзливпст: неуспех вп набрпјуваоетп на исклушпците, квалификациите
итн.
- неппзнаваое: недпстиг на релевантни факти, ппшетни услпви итн.
Верпјатнпстите на исказите се менуваат сп нпви спзнанија(дпкази).

Теприја на пплезнпст (Utility theory) се кпристи за да се претстават


преференците и да се заклушува за нив.

Теприја на пдлушуваое = теприја на верпјатнпст + теприја на пплезнпст.

Maтна лпгика
-Терминпт "матна лпгика" е за првпат впведен пд пплскипт наушник
Lukasiewich вп 1920 г.
- Zadeh се смета за таткп на матната лпгика, кпј вп 1965 г. и дал
математишки пблик.

- Дефиниција = гранка на лпгиката кпја кпристи степен на припаднпст на


елементите кпн некпе мнпжествп. Матната лпгика тежнее да ги
квантифицира "матните", недпвплнп јасните, термини кпи се присутни вп
прирпдните јазици.

- Термини за неппределенпст пд прирпдните јазици вп матната лпгика се


викаат лингвистишки прпменливи или матни вреднпсти.

-Област на прпменливи на прирпднипт јазик се мпжните вреднпсти на


лингвистишката прпменлива.
-матнп мнпжествп-мнпжествп пд прпменливи.

- Карактеристики на Функции на припаднпст: субјективни мерки,


неверпјатнпсни функции

- Функциите на припаднпст(MF):
Целпснп гп дефинира матнптп мнпжествп
Овпзмпжува да се мери слишнпста ппмеду елементите пд еднп матнп
мнпжествп
Мпже да има билп каква фпрма нп ппстпјат некплку најшестп
кпристени функции кпи се кпристата вп ппвеќе реални апликации.
Најексплпатирани се триагплна, трапезпидна, Гауспва, bell-shaped
и.т.н.

- Фпрмираое на матни мнпжества


сп интервјуираое на ппвеќе пспби
сп кпнсултација сп експерт
сп кпристеое на техники пд вещташка интелигенција и мащинскп
ушеое какп: heuristic selection, clustering approach, c-means clustering
approach, adaptive vector quantization, self-organising map COM, неврпнски
мрежи Кosko (1992)

- Какп се креираат матни правила?


Нема ппдатпци,самп струшнп мислеое на распплагаое: упптребува
илустрација, директен рејтинг, анкетираое и други слишни техники.
Ппстпјат ппдатпци нп не струшни мислеоа, кпристи метпди пд
мащинскп ушеое (на пр. групираое)
Кпга и ппдатпците и струшнптп мислеое се дпстапни: кпристи метпди
пд мащинскп ушеое и пд експерти нп бидете внимателни вп врска сп
правилптп експлпзија.

- Fuzzy system (Матен систем)= Матен систем спдржи: матни мнпжества,


if-then правила, правилп спстав и прпцес на прпизвпдствп на мерливи
резултати.
- Дефазификацијата се кпристи за да се дпбие јасен излез пд матната
лпгика.
Онтплпгии
- Koга лудетп гп сппзнаваат некпј пбјект и резпнираат пкплу негп, пва
сппзнание се фпрмира вп кпнцепт (ппим). Кпнцептпт е дел пд нащетп
севкупнп знаеое и е ппврзан сп сппдветни релации сп други кпнцепти.
- Организација на знаеоетп вп хиерархија на класи. Механизам за
репрезентација на релацијата ппмеду пбјектпт и негпвата класа или ппмеду
класа и нејзината наткласа. Престава вп фпрма на дрвп, рещетка, граф.
Придпбивки пд хиерархиската репрезентација на знаеое:
Се избегнува непптребнп дуплираое на факти заеднишки за ппгплема
група
Леснп пдржуваое на кпнзистентна база на знаеое
Леснп дпдаваое нпви класи и индивидуи
- Е-релација:
Moже да ппврзе: два генеришки јазли("e-ппдмнпжествп-пд-
мнпжествп"), индивидуален сп генеришки јазел ("е-елемент-пд-
мнпжествп")
Фпрмира прирпдна хиерархија
Слишнпст сп релацијата "има"
Наследуваое на свпјствата и исклушпците

- Сите ппапстрактни нивпа се викаат надредени (super-ordinate)


- Сите ппспецифишни нивпа се викаат ппдредени (sub-ordinate)
- Вп центарпт се типишните примери (радијални) а пстанатите примери на
категпријата се расппредени напкплу.
- WORDNET преставува најгплема семантишка мрежа за англиски јазик.
Пптекнува пд универзитетпт Принстпн. Хиерархијата на наследства е
најшестп 6-7 нивпа, нп и преку 10 за некпи специфишни категприи.
НАЈВАЖНИ ОДНОСИ ВО WORDNET:
- Хиперними пди ппгпре вп знашеоетп
- Хиппним пдеое ппдпле пп знашеоетп
- Хплпним
- Мерпними
- Синпним = збпр щтп е ист или мнпгу близпк на некпј збпр пп знашеоетп.
- Антпним = збпр сп спрптивнп знашеое

- Онтплпгија = лпгишна теприја кпја щтп гп зима предвид пснпвнптп


знашеое на фпрмалнипт решник.
- Онтплпгија = ригпрпзни и сеппфатна прганизација на некпи знаеоа на
дпмен, таа е пбишнп хиерархиска и ги спдржи сите релевантни субјекти и
нивните пднпси.
- Онтплпгија = тпа е теприја щтп се занимава сп видпвите на нещта,
пднпснп видпвите на апстрактни ентитети кпи щтп се дппущтени вп
јазишнипт систем.
- CIDOC CRM: дпмејн пнтплпгија, базирана на пбјектнп приентиран мпдел,
спставена пд ентитети прганизирани вп хиерархијаппврзани едни сп други
преку сппствени линкпви.

- CRM = oснпва за взаемнп разбираое ппмеду прпфесипналци за културнп


наследствп и IT специјалисти. Пптребна за јасна и недвпсмислена
кпмуникација.

- CRM истп така е технишка референца за сппредуваое и пценуваое на


инфпрмациски системи, ппдатпшни щеми. CRM е пснпва за трансфер на
ппдатпци ппмеду некпмпатибилни системи. CRM e oснпва и за
архивираое на ппдатпци.CRM мпже да се кпристи и за дизајн на
заеднишка XML щема.

Прпнапдаое на дпкументи
- Дплгпрпшен предизвик на Вещташката интелигенција е автпматскп
разбираое на текстуалните ппдатпци и извлекуваое на некаквп знаеое
пд самипт текст.
- Прпнапдаое на инфпрмации(Information Retrieval -IR)
Koнцепциски, IR e прпушуваое за напдаое на пптребната инфпрмација,
т.е. IR им ппмага на кприсниците да ја најдат инфпрмацијата кпја ги
задпвплува нивните инфпрмациски пптреби.
Истприски, IR се пднесува на прпнапдаое на дпкументи, истакнувајќи
гп дпкументпт какп пснпвна единица. Прпнапдаое на дпкументи щтп се
релевантни на кприснишкптп пращаое.
Технишки, IR гп пбрабптува прибираоетп, прганизацијата, шуваоетп,
прпнапдаоетп и распределбата на инфпрмациите.

- IR пращаоа (queries) (пращаоа за прпнапдаое на инфпрмации)


Пращаоа сппред клушни збпрпви (Кеyword queries)
Лпгишки пращаоа (кпристејќи AND, OR, NOT) (Boolean queries)
Пращаоа сппред фрази (Phrase queries)
Приближни пращаоа (Proximity queries)
Пращаоа сппред цел дпкумент (Full document queries)
Пращаоа на прирпден јазик (Natural language questions)

- Мпдели на прпнапдаое на инфпрмации (Information retrieval models)


IR мпделпт пдредува какп дпкументпт и пращаоетп се претставени и
какп се дефинира релевантнпста на дпкументпт сппред кприснишкптп
пращаое.
Главни мпдели: лпгишки мпдел(Boolean model), мпдел на вектпрски
прпстпр (Vector space model), статистишки јазишен мпдел (Statistical
language model).

- Лпгишки мпдел(Boolean model) = секпј дпкумент или пращаое се


пбрабптува какп "враќа" пд збпрпви или термини.Редпследпт на
збпрпвите не се разгледува.Вреќата е решник (vocabulary).
Tермините пд пращаоата се кпмбинираат лпгишки сп упптреба на
лпгишките пператпри И, ИЛИ и НЕГАЦИЈА (АND, OR, NOT).
За даденп пращаое сп лпгишки пператпри, системпт ги прпнапда сите
дпкументи кпи гп задпвплуваат лпгишкипт услпв пд пращаоетп.Се вика
тпшнп ппклппуваое (exact match).
Резултатите пд пребаруваоетп се пбишнп дпста лпщи бидејќи
фреквенцијата на термините не е земена предвид.

- Мпдел на вектпрски прпстпр (Vector space model) = дпкументите истп


така се пбрабптуваат какп да се вреќа пд збпрпви (bag of words) пднпснп
термини. Секпј дпкумент е претставен какп вектпр.
Сепак тежините на термините веќе не се самп 0 или 1.Секпја тежина на
терминпт е пресметана врз пснпва на некпја варијанта на TF или TF-IDF
щемите.
Шемата сппред фреквенцијата на термините (Тerm Frequency (TF)
scheme): Тежината на терминпт ti вп дпкументпт dj e брпјпт на ппјавуваоа
на ti вп dj, oзнашенп сп fij.Мпже да се применува и нпрмализација.

- Frequency counts + TF-IDF = брпи кплку пати еден збпр се ппјавува вп


дпкумент.Кпристи фреквенција на ппјавуваое за да се ппкаже пднпс на
знашеое на збпрпт вп еден дпкумент. Брпи кплку дпкументи вп кплекција
гп спдржат секпј збпр.

- Предпбрабптка на текст
Извлекуваое на збпрпви(термини): леснп
Острануваое на службени збпрпви (stopwords)
Напдаое на кпрените на збпрпвите (stemming)
Пресметуваое на фреквенцијата (шестптата) на термините и на нивните
TF-IDF тежини.

-Острануваое на службени збпрпви (stopwords) = Некплку пд најшестп


кпристените збпрпви вп англискипт се бескприсни вп IR и ппдатпшнптп
рудареое - пвие збпрпви се нарекуваат stopwords.

пр. the, of , and, to


Oбишнп пкплку 400 дп 500 такви збпрпви

- Stemming = техника щтп се кпристи за да се најде кпренпт на збпрпт.

пр. Од user -> user, users, used, using


Придпбивки = ппдпбруваое на ефикаснпста на IR: ппјавуваое на
слишни збпрпви. Кпмбинираое на збпрпви сп слишни кпрени мпже да гп
намали индексираоетп за 40-50 %

- Рангираое на прецизнпста
Ја пресметува прецизнпста вп некпј избран ранг.
Главнп се кпристи за евалуација вп веб пребаруваое.
За веб мптпр за пребаруваое, мпжеме да пресметаме прецизнпст за
5,10,15,20,25,30 вратени страни. Какп кприсник, реткп гледаме ппвеќе пд
30 страни.
Сеќаваоетп не е мнпгу знашајнп вп веб пребаруваоетп, бидејќи брпјпт
на релевантни дпкументи е пгрпмен и не мпже сите да се прпнајдат и
вратат какп резултат.

- Инвертиран индекс на кплекција пд дпкументи вп пснпва е ппдатпшна


структура щтп:
гп дава секпј карактеристишен збпр сп листа пд сите дпкументи щтп гп
спдржат тпј збпр. Така вп прпнапдаоетп, пптребнп е кпнстантнп време да
најдете дпкумент щтп гп спдржи баранипт збпр.

-Пребаруваое преку превртен индекс (inverted index) = за даденп


пращаое q, пребаруваоетп се пдвива сппред следниве шекпри:
Чекпр 1 (пребаруваое пп решник): најди гп секпј термин/збпр пд q вп
превртенипт индекс.
Чекпр 2(сппјуваое на резултати): сппј ги резултатите щтп ги спдржат
сите или самп некпи пд збпрпвите/термините пд q.
Чекпр 3(Пресметка на рангпт): да се ппдредат вп ппадашки редпслед
прпнајдените дпкументи сппред рангпт, сп ппмпщ на: рангираое пп
спдржина (content-based ranking), рангираое сппред врските (link-based
ranking).

- Разлишните мптпри за пребуруваое (search engines)= вистинските


разлики меду разните мптпри за пребаруваое се сппред:
нивните щеми за тежините на индексите
вклушуваат местппплпжба на термини, пример вп наслпвпт, вп текстпт,
вп истакнатите збпрпви и сл.
Нивните алгпритми за рангираое на прпнајдените дпкументи
Самп малку пд пвие се пбјавени пд кпмпаниите, тие им се стрпгп
шувана делпвна тајна.

- Сепак ние знаеме за некпи рабпти пд тие алгпритми


Фреквенција на збпрпви(Word frequency) = брпјпт на кплку пати
збпрпвите се ппјавуваат вп пребаруваоетп мпже да ппмпгне да се утврди
релевантнпста на дпкументпт.
Лпкација на дпкументпт(Document location) = наслпвпт на дпкументпт
најверпјатнп се ппјавуваое на ппшетпкпт пд дпкументпт.
Растпјание на збпрпт(Word distance)= aкп има ппвеќе збпрпви вп
пребаруваоетп, би требалп да се ппјават заеднп вп дпкументпт.

- Сппред врските ппмеду дпкументите (Link-based ranking)


Така рабпти Google, алгпритмпт се вика PageRank
PageRank рабпти сп брпеое на брпјпт и квалитетпт на линкпви дп
некпја страна пп тпа ќе се утврди груба прпценка за тпа кплку е важна веб
страната.Оснпвата претппставка е дека ппвеќе важни веб страници
верпјатнп ќе дпбијат ппвеќе линкпви щтп впдат кпн нив пд разни
страници.

Системи на преппрака
- Типпви на преппрака
Перспналнп уредени (ние сме ја направиле листата)
o Листа на пмилени
o Листа на пптребни нещта
Еднпставнп пдберени/класифицирани
o Тпп 10, Најпппуларни, Скпрещни прикашуваоа
Прилагпдени на индивидуални кприсници
o Аmazon, Netflix…

-Фпрмален мпдел
X = брпј на купуваши
S = брпј на прпизвпди
R = сет на рејтинзи
Утилитарна функција u: X x S -> R

- Главни прпблеми
Прибираое на “ппзнати” рејтинзи за матрицата
o Какп да земащ ппдатпци вп утиларната матрица
Да се екстрапплираат (заклушат/дефинираат ) неппзнатите рејтинзи
пд ппзнатите
o Главнп заинтересирани за виспки неппзнати рејтинзи
o Не ги интересира щтп не не интересира, туку щтп не интересира
Прпценуваое/пценуваое на метпдите на екстрапплација
o Какп да се мери успехпт/перфпрмансите на метпдите за преппрака

-Спбираое/прибираое на рејтинзи
Експлицитнп
o Ќе пращуваме луде за да гп пценатат прпизвпдпт
o Не е тплку дпбрп вп пракса – на лудетп не мпже да ми им се преши
Имплицитнп
o Да ги дпзнаеме рејтинзите пд пднесуваоетп на кприсниците
o Пр. Купуваое на прпизвпд ппдразбира виспк рејтинг

- Екстрапплираое (дефинираое/заклушуваое) на услужливпстите


Главен прпблем е тпа щтп u матрицата е ретка/слаба
o Ппвеќетп луде не ги имаат пценетп ппвеќетп прпизвпди
o Истп така нпвите прпизвпди немаат рејтинзи а пак за нпвите купуваши
немаме инфпрмации за рејтинзи и сл.

Имаме 3 пристапа дп системите за преппрака:
o Базирани врз пснпва на спдржината
o Кплабпрација/спрабптка
o Хибриден (базиран на фактпр на латентнпст(прикриенпст, тајнпст)

Системи на преппрака базирани врз пснпва на спдржината


Главната идеја е да се предлпжи прпизвпд на купувашпт х кпјщтп е
слишен на претхпдните прпизвпди кпищтп се пценети виспкп пд х
Примери:
o Преппраки за филмпви
Преппрашај филмпви сп истпит актер/и , режисер, жанр и
слишнп
o Вебсајтпви, блпгпви, вести
Преппрашај пстанати сајтпви сп слишна спдржина
- Прпфили на прпизвпди
За секпј прпизвпд да се креира прпфил
Прпфил претставува сет (вектпр) пд карактеристки
o Кај филмпвите тпа се актерпт, режисерпт, автпрпт на филмпт
o Кај текстпвите тпа мпже да претставува сет на важни збпршиоа
вп дпкументпт
Какп да ги земеме/пдбереме најважните карактеристики (збпрпви)
o TF-IDF (Term Frenquency * Inverse Doc Frequency)

-Пристапи базарни врз пснпва на мпделпт/типпт


За секпј кприсник да се науши класификатпр кпјщтп ќе ги
класифицира прпизвпдите вп една класа на рејтинзи.
o Ппсакуван пд кприсникпт и не ппсакуван пд кприсникпт
Класификатпрпт ќе се применува на секпј прпизвпд за да се најдат
пптенцијални кандидати за негпвп купуваое
Прпблемпт е скалабилнпста, нема да пребарува ппнатаму вп класата

- Преднпсти на пристаппт базиран врз пснпва на спдржината:


Не се пптребни инфпрмации за други кприсници
Сппспбен е да преппраша на пние кприсници кпјщтп имаат ппсебни
вкуспви
Сппспбен е да преппрашува нпви и непппуларни прпизвпди
Сппспбен е да дава пбјаснуваоа сп тпа щтп ќе листа карактеристи на
спдржината щтп предизвикале истипт тпј прпизвпд да биде преппрашан.

- Огранишуваоа на пристаппт базиран врз пснпва на спдржината


(недпстатпци):
Тещкп е да се најде сппдветната карактеристика (пр. Слики,
филмпви, музика)
Прекумерна специјализација
o Никпгащ не преппрашува прпизвпди надвпр пд спдржината на
прпфилпт на кприсникпт
o Некпи луде мпже да имаат ппвеќе интереси
Преппраки за нпви кприсници (какп да креира прпфил на
кприсникпт)
-Кплабпративнп филтрираое
Нека кприсникпт е х
Најди сет пд N кприсници шии рејтинзи се слишни сп пние на
кприсникпт х
Направи пресметка на рејтинзите на х базирана на рејтинзите на
кприсниците вп N
Кпмплекснпст
o Скапп ќе шини акп сакаме да најдеме k најмнпгу слишни
кприсници
o Прескапп ќе биде тпа да гп направиме вп текпт на прпцеспт

Прпизвпд-прпизвпд кплабпративнп филтрираое


o Дпсега видпвме самп кприсник-кприсник кплабпративнп филтрираое
o Сега имаме ущте еден вид а тпа е прпизвпд-прпизвпд
 За прпизвпд i, најди пстанати слишни прпизвпди
 Направи пресметка за рејтингпт на прпизвпдпт i базирана врз
рејтинзите на слишните прпизвпди
 Мпже да се кпристат истите функции за метрика и за
предвидуваое какп вп кприсник-кприсник мпделпт

Преднпсти и слабпсти на кплабпративнптп филтрираое:
o Преднпста е тпа щтп функципнира за секпј вид на прпизвпд (не е
пптребна селекција на карактеристики)
o Негативнпсти се:
 Нема дпвплнп кприсници вп системпт за да се најде
сппдветнптп
 Тещкп е да се најдат кприсници кпищтп ги пцениле истите
прпизвпди
 Матрицата за кприсникпт/рејтинзите е ретка/ращтракана
 Не мпже да се преппраша прпизвпд кпјщтп претхпднп не бил
пценет
 Нпви, нејасни прпизвпди
 Не мпжеме да преппрашаме прпизвпд на некпј сп ппсебен вкус
 Има тенденција да се преппрашуваат пппуларни прпизвпди

-Хибридни метпди
Имплементирај 2 или ппвеќе преппрашуваши и кпмбинирај
предвидуваоа
Дпдадете ги метпдите за преппрака базирани врз спдржината на
кплабпративнптп филтрираое

Дрва за пдлучуваое

- Влез – пбјект или ситуација ппищана сп мнпжествп пспбини


(пбележја).Влезните атрибути мпжат да бидат дискретни или ппстпјани.
- Излез – ДА/НЕ пдлука
- Секпј внатрещен јазел претставува испитуваое на вреднпста на една пд
пспбините (и гранеое вп зависнпст пд вреднпста)
-Секпј лист претставува булпва вреднпст кпја треба да се врати какп
резултат акп се стигне дп негп
- Класификатпри: Примерпците се претставени сп вектпри пд вреднпсти
на атрибутите

Kласификација = тпа е една пд главните задаши на ппдатпшнптп рударствп


и на вещташката интелигенција впппщтп.

Категпријален атрибут = атрибут кпј мпже да прими самп дискретни


вреднпсти(2 или ппвеќе). Истп така се нарекува и симбплишки атрибут.

Реален атрибут = атрибут сп реални брпеви.

Табели на медузависнпсти = ппппщтп име за хистпграм, еднп-


димензипнална табела на медузависнпсти. Рецепт за правеое на к-
димензипнална табела на медузависнпсти:
- Избери k атрибути пд ппдатпшнптп мнпжествп.Ознаши ги сп
а1,a2,...ak.
- За секпја мпжна кпмбинација на вреднпсти, а1=х1, а2=х2,...ак=хк,
запищи кплку шестп таа кпмбинација се ппјавува.

2-D табела на медузависнпсти = мпже да видиме кплку записи ппстпјат за


секпја кпмбинација (секпј пар) на вреднпсти на атрибутите.
Пппрегледнп е графишки.
Пплеснп се забележуваат интересни нещта акп се растегнат линиите на
хистпгрампт:

3-D табела на медузависнпст


Ваквите табели се пптещки за следеое.

- On-Line Analytical Processing = тпа се спфтверски пакети и дпдатпци за


базите на ппдатпци за да прават вакви анализи и ппзнати се какп ОLAP
aлатки. Обишнп вклушуваат и навигација за да се гледаат разни пресеци и
збирни вреднпсти на пвие табели на медузависнпсти. Обишнп имаат и
убави визуализации на хистпграми.

Изградба на дрва за пдлушуваое:


- Ппшни сп сите ппдатпци за да се пдреди кпренпт
- Се избира атрибут и се фпрмулира лпгишки тест за некпј атрибут
- Се разгранува за секпј разлишен резултат на тестпт, и се пренесува
ппдмнпжествптп на примерпци щтп гп задпвплуваат тпј резултат на тестпт
кпн сппдветнптп ппддрвп.
- Рекурзивнп се прави пва на секпе ппддрвп
- Услпвпт за крај пдредува кпга еден јазел пстанува да биде лист.

Критишни шекпри
Фпрмулација на дпбри лпгишки тестпви
Избпр на мерка за атрибутите

Decision-Tree-Learning кпристи дрвп за пдлушуваое какп предвидлив


мпдел кпј ппкажува забелещки за ставка да заклуши за целната вреднпст
на ставката. Тпа е еднп пд предвидливп мпделираое пристапи кпи се
кпристат вп пбласта на статистиката, ппдатпци за рударствп и мащинскп
ушеое

Decision-Tree-Learning (DTL):
- Цел: да се прпнајде малп дрвп кпнзистентнп сп примерпците за пбука
- Идеја: рекурзивнп избираое на најзнашајнипт атрибут какп кпрен на
(ппд)дрвп

Оснпвната идеја на DTL алгпритмпт е да се истестираат најзнашајните


атрибути најпрвп и дрвптп вп целина ќе биде малп.
Алгпритам за Decision-Tree-Learning(DTL):
- Изградба на дрвптп *BuildTree(DataSet,Output)+
- Акп сите излезни вреднпсти се исти вп DataSet, врати јазпл-лист кпј вели
"предвиди гп единственипт излез"
- Акп сите влезни вреднпсти се исти, врати лист јазпл кпј вели "да се
предвиди мнпзинствп излез"
- Инаку најди атрибут Х сп највиспка инфпрмациска дпбивка (Info Gain)
- Нека Х има nx разлишни вреднпсти (т.е. Х има кратнпст nx)
 Направи и врати внатрещен јазел сп nx деца
 i-тптп дете треба да се изгради сп рекурзивен ппвик дп
BuildTree(DSi, Output) каде щтп DSi е изграден и ги спдржи сите
записи вп DataSet за кпи Х=i-тата ппсебна вреднпст на Х.

Aлгпритам
- Акп сите примери на мнпжествптп за пбука S се сп иста вреднпст K, тпгащ
дрвптп на рещаваое за K се спстпи пд лист пзнашен сп K.
- Инаку, пдбери тест кпј ќе гп ппдели мнпжествптп за пбука S вп две или
ппвеќе ппдмнпжества Si, зависнп пд излезпт на тестпт (на пр. вреднпстите
на атрибутите). Тестпт станува кпрен на дрвптп и за секпј излез на тестпт
изгради ппддрвп, ппвикувајќи ја пваа прпцедура рекурзивнп за секпе Si.

Избираое на тестпви за атрибути = щемата кпја се кпристи вп ушеоетп на


пдлушувашкптп дрвп за избираое атрибут и е дизајнирана за да ја
минимизира длабпшината на финалнптп дрвп.Идејата е да се избере
атрибутпт кпј најмнпгу тежнее да пвпзмпжи тпшна класификација на
примерите. Спврщенипт атрибут ги ппделува примерите вп мнпжествптп
кпищтп се сите ппзитивни или сите негативни.Мерката треба да ја има
свпјата максимална вреднпст кпга атрибутпт е спврщен и свпјата
минимална вреднпст кпга атрибутпт е бескприсен.Една сппдветна мерка е
пшекуваната кплишина на инфпрмации кпи се пвпзмпжени пд атрибутпт.
Тепријата на инфпрмации ја мери спдржината на инфпрмациите вп
битпви. Еден бит инфпрмација е дпвплна за да се пдгпвпри да/не
пращаое за кпещтп немаме претппставка, какп щтп е вртеоетп на мпнета.
-Ентрппија = мерка за неизвеснпст

Зпщтп дрва за пдлушуваое?


- Целта е сп щтп ппмалку пращаоа да се пдлуши за нещтп
- Кпга треба да пдлушиме за некпја идна кпмбинација кпја дп сега не се
ппјавила
Алгпритампт е дпбар акп прпдуцира хипптези кпи успещнп ги
класификуваат нпвите невидени примерпци.

Какп да се прпцени нивната успещнпст?


1.Спбере (дпвплнп гплемп) мнпжествп на ппзнати примерпци.
2.Мнпжествптп на ппзнати примерпци се дели на две дисјунктни
ппдмнпжества: мнпжествп за пбука и мнпжествп за тестираое.
3.Сп мнпжествп за пбука сп некпј алгпритам се генерира хипптеза Н.
4.Одреди гп прпцентпт на правилнп класификувани примерпци пд
мнпжествп за тестираое пд страна на хипптезата Н.
5.Ппвтпри ги 1-4 за разлишни гплемини на мнпжествата за пбука и
тестираое и разлишен слушаен избпр на мнпжества сп разлишни гплемини.
Какп щтп се згплемува тренирашкптп мнпжествп, се згплемува квалитетпт
на предвидуваоетп.

Шум и препбушуваое
- пver-fitting (претеранп наушуваое/преушуваое)
- decision tree pruning (кастреое на дрвптп за пдлушуваое)
- statistical significance (статистишка знашајнпст)
- cross-validation (вкрстена прпверка)
- missing data (ппдатпци щтп фалат или испущтени)
- multi-valued attributes (ппвеќевреднпсни)
- continuous-valued attributes (кпнтинуиранп ценети атрибути)
- bias / variance tradeoff (кпмпрпмис ппмеду наклпнпста и разнпликпста)

Дрвптп на пдлука истп така мпже да се изрази вп пблик на правила:


- IF => AND => THEN

Какп да се справиме сп неппзнати кпмбинации


-Ппнекпгащ мпже да се слуши да сппред ниту еден атрибут не мпже да се
дпбие кпмплетна класификација за сите мпжни вреднпсти на даден
атрибут.Тпгащ за таа вреднпст се става некпја предпдредена (ппверпјатна,
преппрашлива) вреднпст.

Преднпсти на дрвата на пдлушуваое:


- Дрвата на пдлушуваое мпжат да генерираат разбирливи резултати
- Изврщуваат класификација без премнпгу слпжени пресметки
- Мпжат да рабптат и сп кпнтинуирани и сп дискретни вреднпсти на
атрибутите
- Обезбедуваат јасен ппказател на тпа кпи атрибути се најважни за
предвидуваое или класификација

Слабпсти на дрвата на пдлушуваое:


- Ппдлпжни се на грещки (error-prone) сп премнпгу класи
- Брзата ппделба на примерпците впди дп брзп ппадаое на квалитетпт на
избираоетп на атрибутите
- Прпблеми сп не-правпагплни регипни

Заклушпци:
Дрвата на пдлушуваое се една пд најпппуларните техники за
класификација:
- Лесни се за разбираое
- Лесни за имплементација
- Леснп се упптребуваат
- Пресметкпвнп се лесни (computationally cheap)

Неврпнски мрежи
Два ппгледи на неврпнските мрежи:
- Од кпмпјутерски аспект - вещташки неврпнски мрежи - метпд за
претстава на функции сп ппмпщ на еднпставни аритметишки пресметкпвни
елементи и нивна пбука пд примерпци
- Од биплпщки аспект - математишки мпдел на рабптата на мпзпкпт

Неврпн е ќелија вп мпзпкпт шија пснпвна функција е спбираое,


прпцесираое и прппагираое на електришни сигнали.
Неврпнска мрежа = мрежа пд медуппврзани неврпни.

Штп се тпа Вещташки неврпнски мрежи (Artificial Neural Networks) ?


Табели за пбрабптка на инфпрмации инспирирана пд нашинпт на кпј
прирпдните мпзпци ја пбрабптуваат инфпрмацијата, спставена пд густп
медуппврзани паралелни структури.
Ппстпјат ппвеке видпви на ппвекепрпцеспрски системи сп:
- Eднпставни прпцеспрски елементи
- Виспк степен на медусебна ппврзанпст
- Еднпставни ппраки сп брпеви
- Прилагпдлива итеракција ппмеду елементите

Главен ппим кај неврпнските мрежи е спстпјбата на активација.


Спстпјбата на активација вп пптесна смисла гп претставува излезпт пд
даден јазпл, а вп ппщирпка пзнашува дали на влезпт вп јазплпт неврпнпт
се активирал.

Вп структурна смисла, неврпнската мрежа се спстпи пд:


- Мнпжествп на прпцесирашки единици ("неврпни", "јазли")
- Спстпјба на активација за секпја единка, кпја е еквивалентна на излезпт
пд единката
- Врска ппмеду единките.Вппбишаенп секпја врска е дефинирана сп тежина
кпја гп пдредува ефектпт (влијаниетп) кпе гп има единката.
- Правилп на прппагација, кпе гп пдбира ефективнипт излез на единка пд
негпвите надвпрещни влезпви.
- Надвпрещен влез (bias или пфсет) за секпја единка

За да се направи неврпнска мрежа кпја ќе рещава пдредена задаша


пптребнп е:
- да се пдреди брпјпт на неврпните
- нивнипт тип
- какп ќе бидат ппврзани
- да се иницијализираат тежините и сп некпј алгпритам да се пбуши
мрежата претставувајќи и ппзнати примерпци
- да се пдлуши какп ќе биде претставен прпблемпт (влез/излез)

Активациска функција = правилп за изведуваое на нпвата спстпјба на


активација, врз пснпва на актуелната спстпјба на активација и актуелнипт
влез. Функцијата на активација е неппадашка функција.Иакп тпа е
најшестата фпрма, функцијата на активација мпже да биде и стрпгп
лимитирашка функција (sgn функција), пплу-линеарна функција или
нестрпгп лимитирана функција.
Структури на неврпнски мрежи:
- Feed-Forward (нанапред наспшени)
- Layered Feed-Forward (слпевитп нанапред наспшени)
- Рекурентни неврпнски мрежи
- Хппфилдпви неврпнски мрежи = двпнаспшни врски сп симетришни
тежини
- Бплцманпви мащини

Нанапред наспшени (feed-forward) мрежи = каде пбрабптката на


ппдатпците пд влезните дп излезните јазли е стрпгп
наспшена.Обрабптката на ппдатпците мпже да се прпщири преку ппвеќе
слпеви на јазли, медутпа нема ппвратни врски, пднпснп нема врски пд
излезни дп влезни јазли вп исти или вп разлишни слпеви.

Рекурентни мрежи = мрежи кпи спдржат ппвратни врски. За разлика пд


нанапред наспшените мрежи тука динамишките свпјства на мрежата се
важни. Вп некпи слушаи, активаципните вреднпсти на јазлите ппдлежат на
прпцес на релаксација така да мрежата евплуира вп стабилна спстпјба вп
кпја пвие активаципни вреднпсти ппвеќе нема да се менуваат. Кај
рекурентните мрежи, среќаваме двпдимезнипнален ппдатпшен тек, јамки.

Класификација (Ушеое)
Пoстпјат два нашина на мпдификација на врските вп неврпнската мрежа:
1. Сп кпристеое на претхпднп знаеое пд прпблемскипт дпмен се
ппставуваат тежините на врските
2. Сп тренираое на мрежата дп щаблпни, таа да си ги менува врските
сппред правилп на ушеое кпи сппредува примерпк дадени рещенија сп
влезпви/излези пд мрежата. Однпснп, вп една ппинаква синтагма
збпруваме за:
1.Supervised/self-supervised learning – Ппшетнптп знаеое дпада пд
надвпр/пд самата мрежа

2.Unsupervised learning/ Self-Organization – се уши да реагира на


кластери пд влезпви, статистишки да пдреди щаблпни и ппделба вп
класи. Има сппствена репрезентација, и нема претхпднп зададенп
знаеое – заппшнува сп слушајни вреднпсти за тежините на врските.
Ушеое сп ппттикнуваое (Reinforsement learning)= на влез, ппкрај
предметпт щтп треба да се науши, се дпбива и сигнал дпбрп/лпщп вп
зависнпст пд тпа кплку дпбрп пдгпвприл системпт на тпа бараое за ушеое
или класификација.

Oптимална структура на неврпнска мрежа


- Прекумернп пбушуваое (пverfitting)
- Oбука на ппгплема целпснп ппврзана мрежа пд кпја пптпа се брищат
врски (и неврпни) = optimal brain damage
- Растеое на мрежата (дпдаваое) неврпни вп текпт на пбуката
АRT - Adaptive Resonance Theory
GWR - Grow When Required

Перцептпни = еднпслпјни нанапред наспшени неврпнски мрежи. Мрежа


сп сите влезпви ппврзани директнп на излезите.Бидејќи секпја излезна
единица е независна пд другите, секпја тежина влијае на самп еден пд
влезпвите.
Штп мпже да репрезентираат перцептрпните? Маjority мпже, XOR не
мпже.
Перцептрпнпт мпже да репрезентира самп линеарнп пдвпиви функции.
Вп наједнпставен слушај на мрежата има самп два влезпви и еден
излез.Излезпт на неврпн. Перцептпните имаат еднпставен алгпритам на
ушеое кпј ќе се вклппи кпн кпе билп линеарнп пдвпивп мнпжествп за
тренираое. Идеата ппзади пвпј алгпритам, а и ппзади ппвеќетп алгпритми
вп ушеоетп на неврпнските мрежи, е да се наместат тежините на мрежата
за да се минимизира некпја мерка на грещка на мнпжествптп за
тренираое.
Алгпритам
1. Се даваат слушајни вреднпсти на тежини и праг, се разгледува щтп се
дпбива и се сппредува сп пна щтп сакаме да гп дпбиеме
2. Акп дпбиеме излез ппгплем пд саканипт, се намалуваат тежините а
прагпт се згплемува
3. Акп дпбиеме излез ппмал пд саканипт, се згплемувааат тежините а
прагпт се намалува
4. Алгпритмпт заврщува кпга за сите влезни вектпри ќе се дпбие
сппдветнипт влез.
Сп перцептрпн на еднп нивп мпже да се имплементира лпгишкп "и",
лпгишкп "или" и лпгишкп "не". Оттука, следува дека сп перцептрпн на еднп
нивп мпже да се рещи билп кпј прпблем.

Обука на перцептрпн
Ппстпи алгпритам кпј мпже да науши билп кпја линеарнп сепарабилна
функција акп му се дадат дпвплнп примерпци за пбука
1. Иницијализација на тежините на слушајни вреднпсти
2. Прпмена на пвие вреднпсти сп цел да се направат кпнзистентни сп
примерите – итеративен прпцес на мали прпмени на тежините сп кпи би
се намалила разликата ппмеду дпбиенипт и баранипт излез за даден
примерпк - кпнвергенција.

Правилп за прпмена на тежините


- Еппха - прпмена на сите тежини за сите примерпци
- Правилп за прпмена на тежините: Err = T - O
- Секпј влез придпнесува WjIj на вкупнипт излез: Wj <- Wj +α · Ij · Err
- α - стапка на пбука (learning rate)

Зависнпст на стапката на грещки пд брпјпт на примерпци


Ппвеќеслпјни неврпнски мрежи
- Multilayer feed-forward neural networks (Rosenblatt 1950s)
- Прпблем – пбуката
- Back-propagation алгпритам (1969, 1980)

Ппвеќеслпјна неврпнска мрежа е мрежа сп скриени единици.Најшестипт


слушај инвплвира еден скриен слпј.

Back-propagation = Tехниката за ушеое щтп рабпти на тпј нашин щтп


излезите пд мрежата се сппредуваат сп пшекуваните, тпшни вреднпсти и се
прпценува error функција. Се мпдифицираат тежините на врските, за да се
намали вреднпста на error функцијата. Рабпти пп принциппт на алшни
алгпритми, гп задава рещениетп кпе е најдпбрп вп даденипт мпмент, кпе
мпжеби нема да биде најпптималнптп рещение на глпбален план.
Ппсле дпвплен брпј на итерации, системпт дпада вп спстпјба каде ратата
на грещки е занемарливп мала – вп тпј мпмент кажуваме дека системпт
наушил пдредена целна функција.
Пресметуваоетп на нпвите вреднпсти на тежините на врските се прави сп
напдаое извпд пд error функцијата, напдаое минимум. Затпа – најппгпдни
функции за активација се кпнтинуалнп диференцијабилни функции, какп
сигмпидната функција.
Прпблемпт е кпмплексен, заради напдаое сппдветен брпј на примерпк
ппдатпци за тренираое. Гплема е верпјатнпста дека системпт, при грещна
инструкција, ќе дпведе дп ппгрещни заклушпци и ппгрещна
генерализација, затпа щтп нема ппщтп знаеое и правилата за резпнираое
се ппинакви пд пние на инженерпт на знаеое.
Прпблемпт сп back propagation е тпа щтп мпже да се слуши алгпритмпт да
се кпнцентрира на лпкален минимум на error функцијата.

Грещка кај ппвеќеслпјни неврпнски мрежи:


- Да се ппдели пдгпвпрнпста на грещката на сппдветните тежини
- Скриенипт јазпл е "пдгпвпрен" за дел пд грещката вп секпј пд излезните
јазли сп кпи е ппврзан. Грещката се дели сппред јашината на врската
ппмеду скриенипт и излезнипт јазел и се прппагираат наназад какп грещки
за неврпните пд скриенптп нивп.

Прппагација на грещка
Алгпритам:
- Пресметај ја Δ вреднпста за излезните неврпни сппред забележата
грещка
- Ппшнувајќи пд излезнптп нивп ппвтпрувај за секпе нивп на мрежата се дп
влезнптп нивп:
Прппагирај ги Δ вреднпстите назад низ претхпднптп нивп
Измени ги тежините ппмеду двете нивпа

Хппфилдпва мрежа
- Хппфилдпва мрежа се спстпи пд N медусебнп ппврзани неврпни кпи си ги
прпменуваат нивните нивпа на активација асинхрпнп и независнп пд
другите неврпни.
- Сите неврпни се вп истп време и влезни и излезни неврпни.
- Активациската вреднпст се базира на (+1,-1)
- Системпт се стреми да стигне вп т.н. стабилна спстпјба каде ажурираоата
на врските се сппдветни за прпблематиката кпја ја рещава системпт.
- Спстпјбата на системпт се дадена на активациските вреднпсти y=(yk)
- Мрежните вреднпсти sk(t+1) на неврпнпт k вп циклуспт (t+1) e даден сп
тежинска сума:
- Прагпва функција се упптребува за да се дпбие излезпт:

- Неврпнпт k вп мрежата е стабилен вп време t акп:

- Eдна спстпјба на мрежата се смета за вистински стабилна акп сите


неврпни се стабилни.

Примени на Хппфилдпви мрежи


- Оснпвна примена на Хппфилдпвите мрежи е кај аспцијативни мемприи,
кај кпи и самп еднп делше пд мемпријата да е прикажанп, аспцијативната
мемприја ќе се пптсети на целптп.
- Спстпјбите на системпт пдгпвараат на мустрите кпи се запамтени вп
стабилните спстпјби на мрежата.
- Овие спстпјби мпже да се замислат какп делшиоа пд енергетскипт
прпстпр.

Бплцманпва мащина
Бплцманпвата мащина делува сппред принциппт на врамнптеженпст.
Била нарекувана и „Хппфилдпва мрежа сп скриени слпеви“. Таа се спстпи
пд непразнп мнпжествп на видливи и мпжнп мнпжествп на скриени
единки. Бплцманпвата мащина е знашајна, заради тпа щтп е првата
неврпнска мрежа кпја реализира ушеое на скриени прпменливи.

Карактеристики на неврпнските мрежи


- Експресивнпст
- Пресметкпвна ефикаснпст
- Сппспбнпст за генерализација
- Отппрнпст на щум
- Не се транспаретни

За щтп се дпбри неврпнските мрежи?


- Дпбри преппзнаваши на урнеци и рпбустни класификатпри
- Дпбри при рещаваое на прпблеми кпи се премнпгу слпжени за
кпнвенципналните технплпгии
- Идеални рещенија за мнпщтвп прпблеми какп и за предвидуваоа

Баеспви квасификатпри
Баеспвптп правилп мпже да се претвпри вп класификатпр
пр. Какп да се пдлуши дали пациентпт е бплен или здрав, врз пснпва на:
- Верпјатнпсен мпдел на набљудуваните ппдатпци
- Претхпднп знаеое

Bayesian framework (Баеспвата рамка)


- Ни пвпзмпжува да ги кпмбинираме набљудуваните ппдатпци и
претхпднптп знаеое.
- Обезбедува практишни алгпритми за ушеое
- И генерира пристап кпј пвпзмпжува кприсна кпнцептуална рамка
 Oва знаши дека билп щтп мпже да биде класифициран, врз
пснпва на верпјатнпсен мпдел

Баеспвптп правилп (Bayes Rule)

- P(A) и P(B), претхпдна верпјатнпст, е прв степен на веруваое вп А.


- P(B|A) e услпвната верпјатнпст или верпјатнпста е степен на веруваое вп
B, сп пглед дека А е тпшнп
- P(A|B) е задната верпјатнпст, верпјатнпст за ппсле земајќи ги вп предвид
В за и прптив А
Наивен Баеспв класификатпр (Naïve Bayes)
Честппати се кпристи (какп претппставка за ппеднпставуваое) вп слушаи
каде "ефектните" прпменливи не се услпвнп независни акп ни е зададена
пришинската прпменлива.
Мпделпт е наивен бидејќи претппставува дека атрибутите се услпвнп
независни едни пд други.
Наивнипт Баеспв класификатпр претппставува дека: Хi и Xj се медусебнп
услпвнп независни за Y, за секпе i ≠j

Услпвна независнпст:
- Дефиниција: Х е услпвна независна пд Y за даденп Z, акп верпјатнпсната
распределба сппред кпја се владее Х е независна пд вреднпстите на Y, за
таа вреднпст на Z.

Примери за примена
- За инспекција на рестпрани
- За класификација на бплести
- За класификација на текстпви (за бплести, за е-ппщта, за групи сп вести)

Пример некпј сп рестпрани


Вие сте санитарен инспектпр и пдлушувате дали да се направи инспекција
на некпј рестпран
- Губите еден дплар акп немалп пптреба за тпа
- Дпбивате еден дплар акп ималп пптреба
Ппла пд рестпраните се сп лпща хигиена.Вп лпщите рестпрани 3/4 пд
менијата се замастени.Вп дпбрите рестпрани 1/3 пд менијата се
замастени. Дпзвпленп ви е да видите слушајнп избранп мени.

Ушеое на класификација на дпкументи


- Ушеое пд примери кпи се всущнпст дпкументите пд интерес
- Атрибути се збпрпвите
- Да се увиди дека наивната баеспва претппставка самп знаши дека имаме
мпдел на слушајни низи пд збпрпви вп рамките на истата класа

Класификатпри кпи ушат какп да класифицираат некпј дпкумент


- Кплку ппвеќе примери на дпкументи и нивни тпшни класификации ги
гледа, тплку ппдпбрп класификатпрпт ќе ги ппгпдува тпшните
предвидуваоа за припаднпста кпн сппдветната класа.
- Класификатпрпт се прави да ппшне сп мнпгу несигурни класификации и
какп щтп уши кпи пд пспбините се важни за да прави разлики ппмеду
примери, така и сигурнпста вп предвидуваоетп се згплемува.

Матрица сп ппјавуваоетп на збпрпвите вп дпкументите


- Вппбишаенп, текстуалните бази на ппдатпци се параметризирани сп т.н.
матрица на дпкументи/термини (document-term matrix)
- Секпј ред пдгпвара на еден пд дпкументите
- Секпја кплпна пдгпвара на некпј збпр (термин)

Параметрите
- Вп зависнпст пд метпдпт за параметризација, елементите вп матрицата
мпже да бидат:
 Бинарни
 Брпјки , т.е. вкупнипт брпј на ппвтпруваоа на збпрпт Tj вп Di
 Тежински шестпти

Ушеое на Баеспв класификатпр


1. Пред да се пущти вп упптреба некпј Баеспв класификатпр, треба да се
дпбијат пзнашени ппдатпци за пбука пд страна на ппзнаваши
2. Се ушат параметрите (conditionals, priors)
3. Пп пущтаое вп ппгпн, се применува класификатпрпт и на нпви дптпгащ
неппзнати кпмбинации

Наивен Баеспв класификатпр на дпкументи


- Да се класифицира, кпи електрпнски писма се неппсакани (spam)
- Да се класифицира, кпи е-писма имаат прилпг (attachment)
- Y e сп дискретна вреднпст, пр. Spam или Not Spam
- X = <X1, X2,... Xn> - дпкумент
- Хi e слушајна прпменлива кпја ппищува.

Пример на наивна Баеспва класификација на дпкументи


Да гп разгледаме прпблемпт на класификација на дпкументи сппред
спдржината, на пример, вп сакана и несакана (spam) е-ппщта. Да
замислиме дека дпкументите се извлешени пд некпи класи на дпкументи
кпи щтп мпже да бидат мпделирани какп мнпжества на збпрпви вп кпи
(независната) верпјатнпст дека i-типт збпр на даден дпкумент се ппјавува
вп дпкумент пд класа С, мпже да се запище какп: p (wi|C)
За пваа пптреба, ние ги упрпстуваме нещтата ущте ппвеќе
претппставувајќи дека збпрпвите се слушајнп расфрлани вп дпкументпт -
т.е. дека збпрпвите не зависат пд дплжината на дпкументпт, пд нивната
ппзиција вп пднпс на другите збпрпви вп дпкументпт, или пд други некпи
кпнтексти на дпкументпт.
Вп тпј слушај верпјатнпста дека даден дпкумент D ги спдржи сите збпрпви
wi за дадена класа С е:
Пращаоетп на кпе сакаме да дадаме пдгпвпр е: "кпја е верпјатнпста
даден дпкумент D да припада на таа класа С ?" т.е. кпја е p(C|D) ?
Сппред Баеспва фпрмула имаме:
Да претппставиме, за сега, дека ппстпјат самп 2 взаемнп исклушиви класи:
S и ¬S т.е. несакана (spam) и пбишна (not spam) така щтп секпј елемент
(email) припада вп едната или вп другата класа.
Сппред Баеспвптп правилп:
На крај, дпкументпт мпже да се класифицира сппред правилптп: spam е
акп p(S|D) > p(¬S|D) инаку не е spam.

Баеспв преппзнаваш за ппвеќе класи


Еј е некпј дпкумент, Нi е некпја класа
Наивен Баеспв класификатпр: 89% прецизнпст на класификацијата
Прецизнпста наспрпти гплемината на мнпжествптп за пбука

Пример на Баеспв систем за пребаруваое на Интернет


А - некпј бара "физика" на интернет
B - некпј ја избира тпкму пваа страница
P(A) и P(B) статистишки се знаат сп тек на време
P(B/A) - верпјатнпст некпј да ја избере тпкму пваа страница, а претхпднп
барал "физика" (се знае истп така статистишки)
P(A/B) - кпја е верпјатнпста некпј да бара физика, акп ја избрал пваа
страница (бидејќи мпжеби кликнал таму заради нещтп други)
- Овие се фактприте щтп мпра да се адаптираат сп тек на времетп,
заради ппуспещнп пребаруваое.
- Статистишки се пдредува знашеоетп (семантиката) на веб-страната,
врз пснпва на прпцената за релевантнпст пд страна на лудетп -
кприсници.

И ппкрај нивнипт наивен дизајн и пшигледнп преупрпстените


претппставки, Наивните Баеспви класификатпри се имаат ппкажанп какп
дпста дпбри вп мнпгу слпжени ситуации пд реалнипт свет.
Преднпст на Наивните Баеспви класификатпри е щтп бараат самп мала
кплишина на ппдатпци за пбука за да ги прпценат параметрите кпи щтп се
неппхпдни за класификацијата.
Бидејќи независнпста на прпменливите се претппставува, треба да бидат
пдредени самп варијансите на прпменливите за секпја класа, а не целата
кпмбинатпрна матрица на истпвременп ппјавуваое
Дпдека Наивните Баеспви класификатпри шестп пати не успеваат да
прпизведат дпбра прпценка за тпшните верпјатнпсти на класите, вп мнпгу
примени тпа и не се бара.
- На пример, Наивнипт Баеспв класификатпр ќе мпже да прави тпшна
класификација се дпдека тпшната класа е ппверпјатна пд сите
пстанати класи.
- Ова е тпшнп независнп пд тпа дали верпјатнпста е малку или дури и
мнпгу непрецизнп прпценета.
- На пвпј нашин, целипт класификатпр мпже да биде дпвплнп
прппусен за да ги игнприра серипзните недпстатпци вп свпјпт
наивен верпјатнпсен мпдел врз кпгп се пптпира

Системи за ппддршка при


пдлучуваоетп
Koмбинацијата на брзината на интернетпт и спзреваоетп вещташката
интелигенција дпведе дп спфистицирани ппмагала за ппддрщка на
дпнесуваое пдлуки вп рамките на пвие ризишни и неизвесни услпви. Овие
ппмагала имаат пптенцијал да се ппдпбри прпцеспт на дпнесуваое на
пдлуки щтп укажува на рещенија кпи се ппдпбри пд пние кпи се направи
пд страна на самипт шпвек. Тие се дпстапни вп разлишни пбласти пд
медицинската дијагнпза дп кпнтрпла вп сппбраќајпт.

Одлука = избпрпт направен пд дпстапните алтернативи

Одлушуваое(дпнесуваое пдлуки) = прпцес на идентификуваое на


прпблемите и мпжнпстите за разрещуваое на нив
Систем за ппддрщка при пдлушуваое (Decision Support System)
Системпт за ппддрщка при пдлушуваое (DSS) е интерактивен,
кпмпјутерски-базиран систем, наменет да им ппмпгне на нпсителите на
пдлуки.Кпристи кпмуникациски технплпгии, ппдатпци, дпкументи, знаеое
и мпдели за да се идентификуваат и да се рещат прпблеми и да се дпнесат
пдлуки.
Системпт за ппддрщка при пдлушуваое (DSS) е ппщт термин за секпја
кпмпјутерска апликација кпја ја ппдпбрува сппспбнпста за дпнесуваое на
пдлуки на една група или на некпја единка.

Карактеристики на DSS
- Се справува сп гплеми кплишини на ппдатпци пд разлишни извпри
- Обезбедува извещтај и флексибилнпст на презентацијата
- Нуди текстуалнп и графишкп наспшенпст
- Ппддржува длабинска анализа
- Врщи слпжени, спфистицирани анализи и сппредби сп кпристеое на
напредни спфтверски пакети
- Ппддржува пптимизација, испплнуваое на минималните бараоа и
евристишни пристапи
- Врщи разлишни видпви на анализи
 "What if" анализи = прави хипптетишки прпмени на прпблемпт и
забележува влијание врз резултатите
 Симулација = двпјни карактеристики на реалнипт систем
 Goal-seeking анализи = ги пдредува прпблематишните ппдатпци
за даден резултат

Табела-базирани системи за ппддрщка на пдлуката


DSS е спставен пд еден мпдел (или мпдели), извпр на ппдатпци, какп и
кприснишки интерфејс.
Кпга еден мпдел се спрпведува вп Excel, мпжнп е да кпристи Visual Basic
for Applications (VBA) да се направи системпт ппефикасен сп
автпматизираое на интерактивни задаши инаку би требалп да ги
ппвтпруваат рутински
VBA истп така, мпже да гп направи системпт ппмпќен сп прпщируваое на
функципналнпста на табела мпделпт и сп измената на негпвата упптреба.
Куса истприја
Академските истражуваши пд мнпгу дисциплини гп прпушуваа DSS
приближнп 50 гпдини.
Се смета дека кпнцептпт на DSS стана пбласт на истражуваое вп
средината на 1970-тите, дпбива интезитет вп текпт на 1980-тите.

Оснпвни шекпри вп прпцеспт на дпнесуваое на пдлука


Чекпр 1
Кпнцептуалната пптреба за прпект се јавува главнп какп резултат пд
идните бараоа
Тпа мпже да се направи пд страна на тим на експерти
Вппбишаенп кпнцептуална студија ќе ги идентификува пптребнптп
технишкп рещение, екпнпмските заслуги и прифатливпст на прпектпт вп
ппщтественп пплитишки услпви
Мпже да ппбара дискусија сп финансиски институции, дали тие ќе
пбезбедат пптребни средства
Чекпр 2
Ппд претппставка дека е дпнесена пдлука да се развие прпектпт ппнатаму
пптребна е да се направи детална пценка на сите технишки, екпнпмски и
ппщтественп-пплитишки фактпри
Деталите мпжат да бидат квантитативни и врз пснпва на субјективни
знаеоа
Главнптп дпнесуваое на пдлука е за нпвитетпт на прпектпт
прпектпт технишки мпже да биде нпв (правеое на нпв авипн)
Прпектпт мпже да кпристи веке пснпвани технплпгија вп нпва
средината (Пр. кпристеое на електришни впз вп third world countries).

Вп пвпј шекпр, степенпт на несигурнпст ппврзан сп секпј фактпр ќе ппшнат


да се ппјавуваат.
Разбираое на несигурнпста, ппврзана сп билп кпј предлпг е пд сущтинскп
знашеое за дпнесуваое на пдлуки.

Чекпр 3
Акп резултатпт пд шекпр 2 е да се прпдплжи прпектпт, следнп се
ппдгптвува тендерската спецификација.
Треба да се дефинира тпкму пнаа рабпта щтп се бара на тендерпт да се
направи. Идеалнп, тпа треба да се дефинира за секпја рабпта кпја треба
да се направи.
Магнитудата на несигурнпст ппврзана сп пваа фаза е пришина за мпжните
варијации вп цената и времетраеоетп на прпектите.
Пред да се издаде на тендерската спецификација разумнп е да се пптврди
дека прпектпт е прифатлив за регулатпрните пргани и дека има адекватни
финансии на распплагаое.
Финансискипт директпр треба да биде убеден дека прпектпт е пстварлив,
дека предлагашпт има искуствп и сппспбнпст за изведуваое на прпект за
успещен финищ.
Чекпр 4
Првата акција е да се пдлуши дали една пд ппнудите треба да се
прифатенa.
Ппнудувашпт треба да има сппдветнп искуствп сппспбнпст и сппдветни
финансиски ресурси.
Чекпр 5
Ппд претппставка дека сите шекпри се заврщени на задпвплителнп нивп,
се превзема пдлука за ппшнуваое на прпектпт.
Дури и кпга прпектпт ќе ппшне, мпже да биде запрен акп пкплината вп кпја
рабпти се прпмени.

Карактеристики на прпцеспт на дпнесуваое на пдлуку


Одлуката е дпнесена врз пснпва на инфпрмациите на распплагаое
Вп секпј дел пд прпценката, мпже да биде итеративен развпј кпе се смета
за ппдпбруваое вп преземаое на ппдатпците какп щтп прпдплжува
прпектпт
Прпектпт нема да пди напред, псвен акп не ппстпјат сппдветни
финансиски средства.

Изврщен систем за ппддрщка ESS


Специјализиран DSS кпј гп вклушува хардверпт, спфтверпт, ппдатпците,
ппстапките и лудетп кпи се кпристат за да им ппмпгнат на виспкп нивп на
директпри вп прганизацијата

Карактеристики на ESS:
- Прилагпдена на индивидуалните директпри
- Лесен за кпристеое
- длабпки сппспбнпсти
- Ппддрщка на пптребата за надвпрещните ппдатпци
- Ппмпщ сп ситуации сп виспк степен на неизвеснпст
- Прпгнпзи и предвидуваоа
- Ппврзанп сп дпдадена вреднпст на бизнис прпцеси
Сппспбнпсти на ЕСС
Ппддрщка за:
- Дефинираое на целпкупната визија
- Cтратещкп планираое
- Стратещкo прганизираое и екипираое
- Стратещка кпнтрпла
- Меначираое на кризата

Меначмент
Меначментпт е дпнесуваое на пдлуки
Меначерпт е дпнесувашпт на пдлуки
Организациите се пплни сп меначери на разлишнп нивп.
Меначментпт се смета за уметнпст: талент стекнат сп гпдини преку пбиди
и грещки.
Сепак дпнесуваоетп пдлуки денес станува се ппвеќе кпмплициранп:
- Технплпгија /инфпрмации /Кпмпјутери се ппраст на ппвеќе избпри
- Структурната Кпмплекснпста / Кпнкуренција ппраст на цена на грещките
- Медунарпдните пазари / Кпнзумација е ппраст на несигурнпст за
иднината
- Прпмените, двпумеоа се ппраст на пптребата за брза пдлука

Прпблеми на меначментпт
Ппвеќетп прпблеми на меначментпт за кпи се бараат пдлуки мпже да
бидат претставени сп три стандардни елементи - цели, пдлука на
прпменливи и пгранишуваоа.
Цел
- Максимизираое на прпфитпт
- Обезбеди најбрз влез на пазарпт
- Минимизирај ја непријатнпста на врабптените

Одлука на прпменливи
- утврди кпја цена да се кпристи
- утврди ја дплжината на времетп на тестпви кпи се рабпти на нпв
прпизвпд / услуга
- Одредуваое на пдгпвпрнпсти да се дпделат на секпј рабптник
Огранишуваоа
- не мпже да се наплаќа ппд цената
- Се прават тестпви дпвплнп да се задпвплат минималните безбеднпсни
прпписи
- Обезбеди пдгпвпрнпстите да се делат најмнпгу на двајца рабптници

Типпви на прпблеми
Структурирани: ситуации каде кпга е пптребна пдлука, прпцедурите кпи
следат мпже да бидат пднапред специфицирани
- Ппвтпрувашки
- Стандардни метпди на рещенија
- Целпсна автпматизација мпже да биде пвпзмпженп

Неструктурирани: ситуации за пдлука каде щтп не е мпжнп да се


ппределат пднапред ппвеќетп пд прпцедурите кпи треба да следат
- Еднпкратни
- Нема стандардни рещенија
- Се пптпираат на пресудата
- Автпматизацијата пбишнп е неизвпдлива

Пплу-структурирани: Прпцедурите за пдлука мпже да се предефинираат,


нп не дпвплнп за да дпведе дп систем за преппрака на пдлуки
- Некпи елементи или фази пд прпцеспт на дпнесуваое на пдлуки имаат
ппвтпрувашки елементи

DSS e најкприсен за ппвтпрувашки аспекти на пплу-структурирани


прпблеми

Одлуки и пдлушуваое
Гплем дел пд пдлуките сп кпи меначерите се справуваат секпј ден имаат
пдреден степен на несигурнпст и бараат не- прпграмиранп дпнесуваое на
пдлуки
- Мпже да биде тещкп да се направи
- Направени услпви за менуваое на фактпри
- инфпрмациите мпже да бидат нејасни
- мпжеби ќе треба да се справи сп кпнфликтни тпшки на гледаое
Сигурнпст, ризик, неизвеснпст, двпсмисленпст
Сигурнпст = сите инфпрмации на пдлушувашпт треба да му се целпснп на
распплагаое

Ризик
- пдлуката има јасни цели
- дпбри инфпрмации се дпстапни
- идните исхпди ппврзани сп секпја алтернатива се предмет на щанса

Несигурнпст
- Меначерите знаат кпи цели сакаат да ги ппстигнат
- Инфпрмации за алтернативите и идните настани се некпмплетни
- меначерите мпжеби ќе треба да дпјдат дп креативни пристапи кпн
алтернативи

Двпсмисленпст
- далеку најтещката пдлушувашка ситуација
- целите да се ппстигнат или прпблемпт да се рещи е нејаснп
- алтернативите тещкп се дефинираат
- инфпрмации за исхпдите се недпстапни

Базиран мпдел
Обезбедува нпсителите на пдлуки сп пристап дп разлишни мпдели и им
ппмага вп дпнесуваое на пдлуки
Мпдели:
- Финансиски мпдели
- Мпдел на статистишка анализа
- Графишки мпдели
- Прпект за управуваое сп мпдели

Преднпсти и недпстатпци на мпделираое

Преднпсти
- ппмалку скапи пд сппствени припди или реален систем.

- ппбрзп се гради пд реални системи

- ппмалку ризишнп пткплку реални системи


- Обезбедува ушеое или искуствп (мака и грещки)

- идните прпекции се мпжни

- мпже да тестира претппставки

Недпстатпци
- Претппставки за реалнпста мпже да се нетпшни
- Тпшнпст на предвидуваоата се шестп несигурни
- Бара апстрактнп мислеое

Математишки мпдел
-Идентификуваое прпменливи
-Впсппставуваое на равенки кпи ги ппищува нивните врски
-Ппеднпставуваоа преку претппставки
-Мпдел на балансираое, ппеднпставуваое и тпшна застапенпст на
реалнпста
-Мпделираое: уметнпст и наука

Квантитативни мпдели
Одлука на прпменливи:
- Опис на алтернативни мпжнпсти за акција
- Дпнесувашпт на пдлука ги кпнтрплира

Резултат на прпменливи
- Cе пдразуваат на нивп на ефикаснпст на системпт
- Зависни прпменливи

Резултати пд пдлуките се утврдени пд страна на:


- пдлука
- некпнтрплирани фактпри
- Однпсите ппмеду прпменливите
Семантички веб
Web 3.0 ќе се пптпира врз "интелигентни" веб апликации кпристејќи:
-пбрабптка на прирпдни јазици
-Мащинскп ушеое и резпнираое
-Други напредни техники пд Вещташка интелигенција, какп пбрабптка на
слика и преппзнаваое
Целта е да се скрпи пребаруваоетп на Интернет да биде пп мерка на
кприсниците, сппред нивните специфишни бараоа, вкуспви и пптреби.

Семантишки веб = веб страните да ги спдржат не самп ппдатпците, туку


истп така и знашеоетп на ппимите вп таа веб страна.Фактишки, треба да им
се дпдаде знашеое на веб страните, да не бидат самп текст сп хипер-врски
какп щтп е сега.
Спфтверските апликации не мпжат да гп разберат знашеоетп на даден
ппим, нп мпже да "ги пбрабптат инфпрмациите и да ги презентираат на
кприсен и разбирлив нашин".

Семантишки Web е прпщируваое на ппстпјните Web дпкументи сп


анптација, сп кпја им се пвпзмпжува пристап и разбираое на
спфтверските агенти и алатки дп семантишката спдржина на дпкументпт.
Фактишки, наместп да изградиме интелигентен агент, сп интелигенција на
нивп на шпвек, свесни дека тпа скпрп нема да се слуши, ние ја менуваме
реалнпста (веб прпстпрпт), и дпдаваме специјални пзнаки на страните
(пписи), за да ги направиме ппразбирливи за кпмпјутерите.

Истпријат
- Семантишки Web е за прв пат предлпжен вп 1998 гпд. пд пснпвашпт на
интернет Тим Бернерс-Лее (директпр на истражуваое на W3C)
- Eвплуцијата ппшнува сп HTML кпј спдржи минимален брпј тагпви за ппис
какп да се прикажат ппдатпците
- Ппјавата на ХМL е шекпр нанапред кпн кпнзистентна синтакса за размена
- Ппсебнп знашајна е RDF спецификацијата за кпдираое и размена на
метаппдатпци сп кпја се ппищува спдржината, квалитетпт и други
карактеристики на ппдатпците

Прпблем #1 за кпмпјутерите = прирпднипт јазик е ппвеќесмислен и


кпмпјутерите не мпжат да разликуваат на щтп се мисли.
Пр. Не ппстпи нашин вп HTML да се специфицира дека £37.99 е всущнпст
цена.

Прпблем #2 = кпмпјутерите не мпжат да интегрираат инфпрмации пд


ппвеќе извпри на веб
пример - сп веб пребаруваое
Најди ми хптел сп разумни цени на некпј гршки пстрпв за да летам таму вп
мај.
Кпмпјутерпт треба да ги интегрира инфпрмациите за хптелите на гршките
пстрпви сп авипнските летпви дп таму.
Ппстпјат веб страни кпи веќе нудат такви спбрани и средени ппдатпци ама
тпа е засега рашен и скап прпцес.

Кпмппненти на семантишки Web


- Репрезентација на знаеое какп медусебнп ппврзани пнтплпгии
(структуриранп знаеое)
- Онтплпгиите гп даваат јазикпт за разбираое и правилата на нивна
упптреба
- Интелигентни агенти какп спфтверски прпграми кпи ќе мпжат да ги
прибираат, спртираат и пбрабптуваат инфпрмациите најдени на Web

Teхнплпгии за ппддрщка на семантишки Web


- XML (Extensible Markup Language)
- URI (Uniform Resource Identifiers)
- RDF (Resource Definition Framework)
- Онтплпгии
- Интелигентни агенти

XML
- Дефиниција на нпви тагпви за ппис на ппдатпци <author>Berners-
Lee</author>
- ХМL е збпгатен сп анптација кпја пвпзмпжува размена на структуриран
текст и инфпрмации преку интернет
- Структурата, спдржината и семантиката на ХМL се дефинирани вп
сппдветни Document Type Definition (DTD) дпкументи или вп XML Schema

RDF (Resource Description Framework - рамка за ппис на ресурсите)


- Toa e рамка за вклушуваое на дпбрп дефинирани ппими вп фпрма на
метаппдатпци (атрибути)
- Спецификација на спдржина на Web страница, нп и релациите ппмеду
нив
- Метадата: автпр на дпкумент, датум на креираое, имиоа на сппнзпри,
наслпви, теми, тим на кприсници за кпи се наменети спдржините
- RDF е нптација за запищуваое на пписите на тпа какп веб ресурситe се
ппврзани еден сп друг
- Базишен елемент на RDF е трпјка кпја спдржи субјект (идентификација на
ресурс), предикат (карактеристика, свпјствп, атрибут, релација), пбјект
(друг ресурс или ентитет)
- RDF e напищан вп XML

Сп кпристеое на URI се гарантира дека дпкументите не спдржат билп


какпв збпр туку дека збпрпвите се дпбрп дефинирани ппими кпи мпже
секпј да ги најде на Web
Идеата на семантишки веб e наместп ние да дефинираме RDF и пнтплпгија,
мпже да кпристиме нешија пнтплпгија, туд труд, да се врземе на неa и да ја
вметнеме на страната

URI - Uniform Resouce Identifiers (Унифпрмиран лпкатпр за ресурси)


- Слишнп сп URL, нп не мпра да кпресппндира сп вистинска web aдреса
- URI мпже да претставува кпнцепт (aвтпр), индивидуи, и .. се пстанатп
- Сп ппмпщ на RDF, URI мпже да ппкажува и кпн физишки уреди
- URI има мпжнпст да дефинира не самп кпнцепти туку и релации ппмеду
нив
- Најппзната фпрма на URI е URL

Друга прешка за семантишкипт веб е тпа щтп кпмпјутерите немаат такпв


впкабулар какп лудетп. Ние гп кпристиме јазикпт целипт нащ живпт, така
щтп за нас пплеснп е да ја спгледаме ппврзанпста ппмеду разлишни
збпрпви и кпнцепти и да се даде знашеое базиранп на кпнтекстпт. На
кпмпјутерпт не мпже да му дадеме решник и енциклппедија и да гп
пставиме самипт да гп науши тпа. Сп цел да се разбере знашеоетп на
збпрпвите и кпја е ппврзанпста ппмеду збпрпвите, кпмпјутерпт мпра да
има дпкументи кпи ги ппищуваат сите збпрпви и целата лпгика за да ги
направи пптребните ппврзуваоа.Вп семантишкипт веб, пва дпада пд
schemata и ontologies. Онтплпгијата е еднпставнп решник кпј ги ппищува
пбјектите и какп се ппврзани тие едни сп други. Schema е метпд за
прганизираое на инфпрмации.

Онтплпгии
- Сппред дефиницијата тпа е мнпжествп на ппими, сппдветен лексикпн,
категпризација, семантишка ппврзанпст и мал брпј на еднпставни правила
за заклушуваое
- Пптребни се технлпгии за се' и сещтп пд прпизвпдствп дп филпзпфија
- Онтплпгиите пвпзмпжуваат ппщтпприфатени и заеднишки тплкуваоа на
предени пбласти сп щтп се пвпзмпжува кпмуникација ппмеду апликации и
системи

Преднпсти на пнтплпгии
- Обезбедуваат збпгатуваое на Web спдржините сп семантишкп знашеое
- Интеграција на инфпрмации пд разлишни извпри, нејзинп структурнп
прганизираое, сп щтп се пбезбедува размена на ппдатпци, знаеое и
мпдели
- Обезбедува кпнзистентнпст и кпректнпст
- Мпжнпст за креираое универзални библиптеки сп ппвеќекратна
упптреба

Дигиталните пптписи ја ппдржуваат замислата за дпверба. Ова мпже да се


кпристи за прпверка на извпрпт на пнтплпгијата или за да се псигурате
дека пригиналната спдржина на пнтплпгијата е сигурна

Google Knowledge Graph = граф сп пгрпмнп знаеое на медусебнп ппврзани


субјекти и нивните атрибути.Базиран на знаеое се кпристи пд страна на
Google да ги ппдпбри резултатите пд свпјпт пребаруваш сп семантишкп
пребаруваое инфпрмации спбрани пд мнпгу разлишни извпри.
Изграден е врз пснпва на инфпрмација извлешена пд мнпгу извпри,
вклушителнп и на:
- freebase
- CIA World Factbook
- Wikipedia
Ущте на ппшетпкпт спдржи 570 милипни предмети (пбјекти) и преку 18
милијарди факти за предметите и за врските меду пвие разлишни
предмети

GKG гп ппдпбрува google search на три главни нашини:


- Најди ја вистинската рабпта = се занимава сп двпсмисленпста на јазикпт,
ни ппмага да гп најдеме бащ тпа щтп гп бараме
- Резимирај = прпнајди релевантна спдржина пкплу таа тема, вклушувајќи
ги и клушните факти за некпе лице
- Ппдлабпки и ппщирпки инфпрмации = пткриваат нпви факти,
пбезбедуваое инфпрмации пднапред
GKG интегрира инфпрмации за гепграфија, влади, екпнпмија, и другп пд
CIA World Factbook

Web of Data (мрежа пд ппдатпци)

Карактеристики:
- Врски ппмеду прпизвплни нещта (на пример лица, лпкации, настани..)
- Структурата е експлицитна(јасна)

Google Knowledge Graph е пснпвата за транспфмрација на google пд


пребаруваш на инфпрмации вп пребаруваш на знаеое

Linked Open Data


Прпектпт какп DBPedia е заеднишки наппр да се структурираат
инфпрмации пд Википедиа и да ги пбезбеди какп Linked Open Data.На
пример дај ми ги сите наушници щтп се рпдени вп Цирих, Швајцарија
Linked Data
Eден технплпщки кпнцепт кпј е дел пд семантишки веб кпј ппищува метпд
на пбјавуваое на структурирани ппдатпци така щтп мпже да бидат
медусебнп ппврзани и да станат ппвеќе кприсни.
Предвидуваое на временски серии
Предвидуваое
Прпцес на предвидуваое на иднината врз пснпва на истприски ппдатпци

Оснпва на сите делпвни пдлуки:


- Прпизвпдствп
- Складищте
- Перспнал
- Набавки

Каде се кпристи анализа на серија на ппдатпци ?


Анализа на серија на пoдатпци е важна вп делпвните кругпви, вп
мултимилипнските кпмпании и пбишните дпмаќинства, сè сп цел да се
дпнесе ппдпбра пдлука за некпј настан кпј се ппвтпрува, да знаеме щтп
птприлика да се пшекува, или акп некпј настан се слуши да знаеме какп да
гп сппредиме сп некпј предхпден настан за да знаеме ппдпбрп да гп
пцениме, дали тпа нещтп е дпбрп или лпщп.
Анализата на серија на ппдатпци иакп изгледа какп слпжен математишки
мпдел сите луде гп кпристат тпа секпјдневнп, иакп реткп се свесни за тпа.

Каде ни треба предвидуваое?


Опщтп земенп, предвидуваоата се решиси секпгащ ппгрещи.Се прават за
временска прпгнпза, за сппбраќајпт, за берзите и за спстпјбите на
фирмите пд разлишни аспекти.Решиси секпј делпвен пптфат се пптпира на
предвидуваое.Не се сите изведени пд спфистицирани метпди.Сепак
"најдпбрите" пбразувани ппгпдуваоа се ппценети за пптребите на
планираоетп пткплку да нема никаквп предвидуваое и заради тпа да
нема ни никаквп планираое.

Знашајнпста на предвидуваоетп
Разните пддели вп прганизацијата зависат пд предвидуваоетп за да ги
фпрмулираат и изврщуваат свпите планпви. Одделпт за финансии треба
да гп предвиди приливпт и пдливпт на пари и капиталните ппбаруваоа.
Кадрпвптп пдделение треба да ги предвиди пптребите за да се примат
нпви луде. Прпизвпдствптп треба да ги предвиди нивпата на
прпизвпдствп, рабптната сила, пптребите пд сурпвини, кплишините вп
магацинпт итн. Нарашките не се единствената прпменлива кпја треба да се
земе предвид при предвидуваоата. Прпизвпдителите предвидуваат
мпжни птсуства на рабптниците, рабптна спстпјба на мащините, трпщпци
на сурпвините, време и трпщпк за трансппрт итн.
Видпви предвидуваоа сппред временскипт хпризпнт:

Краткпрпшни = пбишнп ппмалце пд 3 месеци, пример = расппред на


задаши пп врабптени

Среднпрпшни = пд 3 дп 2 гпдини, пример = планираое на


прпдажба/прпизвпдствп

Дплгпрпшни = ппвеќе пд 2 гпдини, пример = планираое на нпв прпизвпд

Временски хпризпнти на предвидуваоетп:


- Кратпк рпк
Од 1 ден дп 1 гпдина, ппмалку пд 1 сезпна
Предвидуваое на пптрпщувашката, нивпата на екипиранпст, набавките,
залихите вп магацин
Квантитативни метпди

- Среден рпк
Од 1 сезпна дп 2 гпдини
Збирнп планираое, планираое на капацитетите, предвидуваоеа за
прпдажбите
Мещавина на квантитативни и квалитативни метпди

- Дплг рпк
2 или преку 5 гпдини вп иднината
Истражуваое и развпј, местппплпжба на фабриката, планираое на
прпизвпди, на нпви сегменти на пазарпт
Впглавнп, сппред квалитативни метпди

Краткпрпшни предвидуваоа: Пптреби и примени


Расппред на ппстпешки ресурси
Кплку рабптници ни требаат и кпга?
Кплку прпизвпди да направиме пднапред за предвидената
ппбарувашка?

Стекнуваое сп дппплнителни ресури


Кпга ќе гп исцрпиме капацитетпт?
Ущте кплку луде ќе ни требаат?
Кплкави ќе бидат ппрашките щтп се прават пднапред?

Одредуваое на пптребните ресурси


Кпи мащини ќе ни требаат или какви нпви мащини?
Кпи услуги се бараат се' ппвеќе? Кпи се' ппмалку?
Kaкпв прпфил на луде треба да врабптиме?

Видпви мпдели за предвидуваое

Квалитативни метпди:
- Изврщна пдлука(Еxecutive Judgment) = мислеое на група пд експерти пд
виспкп нивп.
- Sales Force Composite (агенти щтп дистрибуираат) = секпј регипнален
прпдаваш пбезбедува прпценки за прпдажбата.Пптпа тие прпценки се
ревидираат за да се биде сигурен дека се реални.
- Истражуваое на пазарпт = бараое инфпрмации пд кприсниците кпи се
пднесуваат на нивните идни планпви за купуваое.Тпа вклушува и упптреба
на пращалници, пптрпщувашки панели и тестпви на нпви прпизвпди и
услуги.
- Делфи метпда = За разлика пд редпвните панели каде ппединците се
вклушени вп директна кпмуникација, вп пваа метпда се елиминира тпј
ефект на пптенцијалнп дпминираое на најгласните шленпви вп
групата.Оваа група вклушува ппединци пд внатре какп и пд надвпр пд
прганизацијата. Обишнп, прпцедурата се спстпи пд следните шекпри:

Секпј експерт вп групата ги прави негпвите сппствени прпгнпзи вп фпрма


на изјави Кппрдинатпрпт ги спбира сите групни извещтаи и ги сумира,
пптпа дава ущте еднп мнпжествп на пращаоа за секпј шлен на
групата.Секакп вклушени се тука и фидбекпт пд експертите.Ова се
ппвтпрува дпдека не се дпјде дп некакпв кпнсензус.

Квантитативни метпди за пдлушуваое


Квантитативните мпдели се пбидуваат да ја предвидат иднината врз
пснпва на ппдатпци пд минатптп.Оснпвни претппставки на пвие мпдели:
- Tреба да ппстпјат прибрани ппдатпци пд минатптп
- Треба тие ппдатпци да мпже да се изразат брпјшанп
- Се претппставува дека фактприте кпи влијаеле вп минатптп ќе прпдплжат
да влијаат и вп иднина
Мпдели на временски серии:
Слушајна, тренд, сезпнска, збирна
Ппбарувашката вп следнипт перипд е иста какп ппбарувашката вп
ппследнипт перипд
Вппбишаенп не е дпбар

Simple Moving Average (Еднпставен движешки прпсек)


Претппставува дека прпсекпт е дпбар прпценител за иднптп пднесуваое.
Се упптребува при мал тренд или вп слушаеви кпга нема тренд
Се кпристи за израмнуваое

Weighted Moving Average (тежински движешки прпсек)


Дава ппвеќе акцент на најнпвите ппдатпци
Тежини: намалуваое за ппстари ппдатпци
Сумираое дп 1.0

Exponential Smoothing (Експпненцијална рамнпмернпст)


Претппставува дека најнпвите забелещки ја имаат најгплемата
предвидувашка вреднпст.
Дава ппгплема тежина на на ппследните временски перипди

За да кпристите мпдел за предвидуваое:


-Спберете истприски ппдатпци
-Одберете мпдел
-Движешки прпсешни метпди
-Изберете n (брпј на перипди)
-За тежински движешки прпсек: пдберете тежина
-Експпненцијална рамнпмернпст
-Одберете а(алфа)
-Селекциите треба да креираат дпбрп предвидуваое
-Дпбрптп предвидуваое има мала грещка(error) каде щтп таа е еднаква на
ппбарувашката – предвидуваоетп (Error = Demand – Forecast)

Мерки за грещки на предвидуваоетп


- MAD – Mean Absolute Deviation
- MSE – Mean Squared Error
- RMSE – Root Mean Squared Error
Mean Forecast Error (MFE or BIAS) – ја мери прпсешната девијација на
предвидуваоетп пд вистинските
- Се нарекува и BIAS
- Minimum Bias- MFE кпга е кплку щтп е мпжнп ппблиску дп 0
- Гплем ппзитивен (негативен) MFE знаши дека предвидуваоетп не ги
дпстигнува (ги надминува) актуелните/вистинските надгледуваоа
- Кпга MFE е 0 не знаши дека предвидуваоетп е перфектнп, без грещка..
знаши дека е на прав пат

Mean Absolute Deviation (MAD) – ја мери прпсешната, апсплутна


девијација на предвидуваоетп пд вистинските
- Ја мери апсплутната грещка
- Ппзитивните и негативните грещки не се пткажуваат (какп и сп MFE)
- Сакаме MAD да биде кплку щтп е мпжнп мал
- Нема нашин да се знае дали MAD грещката е мала или гплема вп пднпс
на вистинските ппдатпци

Mean Absolute Percentage Error (MAPE) – ја мери апсплутната грещка какп


прпцент пд предвидуваоетп
- Слишнп сп MAD сампщтп ја мери девијацијата какп прпцент пд
вистинските ппдатпци

Standard Squared Error (MSE) – ја мери варијансата на грещката на


предвидуваоетп
- Ја мери квадратната грещка на предвидуваое
- Преппзнава дека гплемите грещки се несразмернп ппвеќе “скапи” за
разлика пд малите грещки
- Не се интерпретира леснп какп MAD, MAPE

Еднп предвидуваое мпжеме да кажеме дали има ппзитивен или негатив


BIAS сп ппмпщ на Tracking Signal.
Дпбар Tracking Signal има ниски вреднпсти

Предвидуваое вп пракса
- Технишките аналитишари се фпкусираат на цеата и пбемпт на ппдатпците
за да се утврдат трендпви пд минатптп кпищтп се пшекуваат да се прават
вп иднината
- Единственипт најважен елемент на технишката анализа е дека иднината
на девизните курсеви се базирани на сегащнипт девизен курс
- Движеоата на девизнипт курс мпжат да се ппделат на 3 перипди:

-Ден за ден
-Краткпрпшни (некплку дена дп некплку месеца)
-Дплгпрпшни
- Кплку е ппгплем временскипт перипд на предвидуваоетп, тплку е
ппверпјатнп дека предвидуваоетп ќе биде нетпшнп.

Swing Trading (Swing тргуваое)


- Бидејќи девизнипт пазар шестп се сппшува сп кратки дневни трендпви,
мпжеби најефикаснипт нашин да се прпдадат е преку swing тргуваоетп.
- Swing тргпвците не се пбидуваат да гп предвидат времетраеоетп на еден
тренд. Претппставката на пвпј вид тргуваое e тпа дека еден мпже да ја
прпба щансата да се здпбие сп преднпст пд двете фази на пазарпт
(растеое и ппадаое)
- За успещнп да се изврщи еднп swing тргуваое вп девизнипт пазар,
пптребнп е да се има релативнп брз ппкажуваш за тпа кпга треба да се
влезе а кпга треба да се излезе.
- Moving average crossovers се шестп пптималнипт метпд за да се пдлушиме
за влез и излез. Ова е вака затпа щтп crossover е сппспбен на пзнашуваое
на крајпт на еден тренд и ппшетпкпт на друг.
- Акп мислите дека дека пвпј стил на тргуваое е скпрп премнпгу дпбар за
да биде вистинит, тпгащ сте вп правп. Еден тргпвец скпрп никпгащ нема да
изгуби акп гп упптребува гпресппменатипт метпд за влез и излез.
Прпблемпт е вп тпа щтп ппвеќетп тргпвци не се дпвплнп капитализирани
да држат ппзиции кпищтп на крајпт ќе станат прпфитабилни.
ДРВА ЗА ОДЛУЧУВАЊЕ

Влез – објект/ситуација опишана со множество особини


Излез – ДА/НЕ одлука
Внатрешен јазел - испитување на вредноста на една од особините (и гранење во зависност од
вредноста)
Лист - булова вредност која треба да се врати како резултат ако се стигне до него
Листовите се означени со вредностите од целната класификација (пр. Да/Не; Висок/Низок 1 / 0;
Може/Не може и сл.)

Класификатори - Примероците (неименувани примери) се претставени со вектори од вредности


на атрибутите (својства, обележја) (attribute, „feature” vectors)
Класификација - една од главните задачи на податочното рударство и на вештачката
интелигенција.

Внатрешните јазли се тестови за вредностите на атрибутите


*Типично: тест за еднаквост (на пр. Ветер = ?; можни одговори Слаб / Јак)
Нееднаквост или други тестови се исто така можни
Гранките се означени со вредностите на атрибутите ¨ (пр., „Ветер = Јак”, „Ветер = Слаб”)
За некој атрибут (на пример wealth –богатство, благосостојба), да се обидеме да ја предвидиме
вредноста на тој атрибут за другите луѓе, според достапните информации за останатите атрибути
за тие исти луѓе.

Се применува само на категоријални излезни атрибути


• Категоријален атрибут: (колона) атрибут кој може да прими само дискретни вредности (2 или
повеќе). Исто така се нарекува и симболички атрибут
• Реален атрибут: (колона) атрибут со реални броеви

Табели на меѓузависности
Поопшто име за хистограм: едно-димензионална табела на меѓузависности

Рецепт за правење на k-димензионална табела на меѓузависности:


1. Избери k атрибути од податочното множество. Означи ги со a1,a2, ... ak.
2. За секоја можна комбинација на вредности, a1=x1, a2=x2, ... ak=xk , запиши колку често таа
комбинација се појавува

2-D табела на меѓузависности (хистограми), 3-D табели на меѓузависност

On-Line Analytical Processing (OLAP)


Софтверски пакети и додатоци за базите на податоци за да прават вакви анализи и познати се како
OLAP алатки
Вклучуваат и навигација за да се гледаат разни пресеци и збирни вредности на овие табели на
меѓузависности
Имаат и убави визуализации на хистограми

Изградба на дрва за одлучување (Decision Tree Learning)


Почни со сите податоци за да се одреди коренот
Се избира атрибут и се формулира логички тест за некој атрибут
Се разгранува за секој различен резултат на тестот, и се пренесува подмножеството на примероци
што го задоволуваат тој резултат на тестот кон соодветното поддрво
Рекурзивно се прави ова на секое поддрво
Условот за крај одредува кога еден јазел останува да биде лист
Критични чекори
¨ Формулација на добри логички тестови
¨ Избор на мерка за атрибутите
Цел: да се пронајде мало дрво конзистентно со примероците за обука
Идеја: рекурзивно избирање на „најзначајниот“ атрибут како корен на (под)дрво

Прераскажан алгоритам - BuildTree (DataSet,Output)


Aко сите излезни вредности се исти во DataSet, врати јазел-лист кој што вика “предвиди го овој
единствен излез”
Ако не, најди атрибут X со најголема информациска добивка (Info Gain)
Нека X има nX различни вредности (т.е. X има кратност nX).
Направи и врати внатрешен јазел со nX деца.
i-тото дете треба да си изгради со рекурзивен повик до BuildTree(DSi, Output) каде што DSi е
изграден и ги содржи сите записи во DataSet за кои X = i-тата посебна вредност на X.

Алгоритам ID3
1. Ако сите примери на множеството за обука S се со иста вредност K, тогаш дрвото за
одлучување за K се состои од лист означен со K.
2. Инаку, одбери тест кој ќе го подели множеството за обука S во две или повеќе подмножества Si,
зависно од излезот на тестот (на пр. вредностите на атрибутите). Тестот станува корен на дрвото и
за секој излез на тестот изгради поддрво, повикувајќи ја оваа процедура рекурзивно за секое Si.

Зошто дрва на одлучување?


Целта е со што помалку прашања да се одлучи за нешто, кога треба да одлучиме за некоја идна
комбинација која до сега не се појавила

Перформанси на алгоритам за учење


Алгоритамот е добар ако продуцира хипотези кои успешно ги класификуваат новите невидени
примероци. Како да се процени нивната успешност?
1. Собери (доволно големо) множество на познати примероци.
2. Множеството на познати примероци се дели на две дисјунктни подмножества: множество за
обука и множество за тестирање.
3. Со множество за обука со некој алгоритам се генерира хипотеза H.
4. Одреди го процентот на правилно класификувани примероци од множество за тестирање од
страна на хипотезата H.
5. Повтори ги чекорите од 1 до 4 за различни големини на множествата за обука и тестирање и
различен случаен избор на множества со различни големини

Шум и преобучување
over-fitting (претерано научување / преарнување)
decision tree pruning (кастрење на дрвото за одлучување)
statistical significance (статистичка значајност)
cross-validation (вкрстена проверка)
missing data (податоци што фалат или се испуштени)
multi-valued attributes (повеќевредносни)
continuous-valued attributes (C4.5) (континуирани)
bias / variance tradeoff (компромис помеѓу наклоноста и разноликоста)

Понекогаш може да се случи да според ниту еден атрибут не може да се добие комплетна
класификација за сите можни вредности на даден атрибут. Тогаш за таа вредност се става некоја
предодредена (поверојатна, препорачлива) вредност
Предности на дрвата на одлучување: генерираат разбирливи резултати, извршуваат
класификација без премногу сложени пресметки, работат и со континуирани и со дискретни
вредности на атрибутите, обезбедуваат јасен показател на тоа кои атрибути се најважни за
предвидување или класификација

Слабости на дрвата на одлучување: подложни се на грешки (error-prone) со премногу класи,


брзата поделба на примероците води до брзо опаѓање на квалитетот на избирањето на атрибутите,
проблеми со не-правоаголни региони

Заклучоци
Дрвата на одлучување се една од најпопуларните техники за класификација
Лесни се за разбирање, лесни за имплементација, лесно се употребуваат, пресметковно се лесни
Но може да се направат проблеми со прекумерно научување (overfitting)
Прават класификација: ја предвидуваат класата според дискретни или континуирани влезови

НЕВРОНСКИ МРЕЖИ

Два погледа на невронските мрежи:


1. пресметковен (компјутерски) аспект – вештачки невронски мрежи – метод за претстава на
функции со помош на едноставни аритметички пресметковни елементи (и нивна обука од
примероци)
2. биолошки аспект - математички модел на работата на мозокот

Неврони –клетки кои ја изведуваат обработката на информациите во мозокот


Мрежа од меѓуповрзани неврони – невронска мрежа

Вештачки невронски мрежи (Artificial Neural Networks)


Парадигма за обработка на информации инспирирана од начинот на кој природните мозоци ја
обработуваат информацијата, составени од густо меѓуповрзани паралелни структури
Вид на повеќепроцесорски системи со:
¨ Едноставни процесорски елементи
¨ Висок степен на меѓусебна поврзаност
¨ Едноставни пораки со броеви
¨ Прилагодлива интеракција помеѓу елементите

Работа на неврон
Сложен електрохемиски процес Акциски потенцијал – ниво на активација
Синапси - екситациски / инхибиторниПластичност

Невронски мрежи - Неврони (јазли), врски, тежини, активациско ниво (праг)


За да се направи невронска мрежа која ќе решава одредена задача потребно е:
да се одреди бројот на невроните, нивниот тип, како ќе бидат поврзани, да се иницијализираат
тежините и со некој алгоритам да се обучи мрежата претставувајќи и познати примероци, да се
одлучи како ќе биде претставен проблемот (влез / излез)

Структури на невронски мрежи


Feed-Forward (Directed Acyclic Graph - DAG), Layered Feed-Forward NN, Рекурентни невронски
мрежи, Хопфилдови невронски мрежи (0,138N), двонасочни врски со симетрични тежини,
Болцманови машини

Топологии на невронски мрежи


нанапред насочени (feed-forward) мрежи– каде обработката на податоците од влезните до
излезните јазли е строго насочена. Обработката на податоците може да се прошири преку повеќе
слоеви на јазли, меѓутоа нема повратни врски, односно нема врски од излезни до влезни јазли во
исти или во различни слоеви
рeкурентни мрежи – мрежи кои содржат повратни врски. За разлика од нанапред насочените
мрежи, тука динамичките својства на мрежата се важни. Во некои случаи, активационите
вредности на јазлите подлежат на процес на релаксација така да мрежата еволуира во стабилна
состојба во која овие активациони вредности повеќе нема да се менуваат.

Класификација (Учење)
1. Надгледувано учење – каде што се поврзуваат парови влез-излез од страна на надворешен
учител.
2. Ненадгледувано учење – тука системот треба да ги открие своите парови, односно излезите да
ги откријат своите влезови кои што им одговараат. Доколку ги нема, треба да ги развие.

Учење со поттикнување (Reinforcement learning)


На влез, покрај предметот што треба да се научи, се добива и сигнал добро/лошо во зависност од
тоа колку добро одговорил системот на тоа барање за учење или класификација

Перцептрон = feed-forward невронска мрежа со едно ниво


Што може да репрезентираат перцептроните? majority може, XOR не може
Перцептронот може да репрезентира само линеарно сепарабилни функции!
Обука на перцептрон - Постои алгоритам кој може да научи било која линеарно сепарабилна
функција ако му се дадат доволно примероци за обука
1. Иницијализација на тежините на случајни вредности
2. Промена на овие вредности со цел да се направат конзистентни со примерите – итеративен
процес на мали промени на тежините со кои би се намалила разликата помеѓу добиениот и
бараниот излез за даден примерок - конвергенција

Епоха – промена на сите тежини за сите примероци

Повеќеслојни невронски мрежи - Multilayer feed-forward neural networks (Rosenblatt 1950s)


Back-propagation алгоритам (1969, 1980)

Грешка кај повеќеслојни NN


Да се подели одговорноста за грешката на соодветните тежини
скриениот јазол j е „одговорен“ за дел од грешката во секој од излезните јазли со кои е поврзан.
Грешката се дели според јачината на врската помеѓу скриениот и излезниот јазел и се пропагираат
наназад како грешки за невроните од скриеното ниво.

Пропагација на грешка - Алгоритам:


Пресметај ја Δ вредноста за излезните неврони според забележаната грешка
Почнувајќи од излезното ниво повторувај за секое ниво на мрежата се до влезното ниво:
¨Пропагирај ги Δ вредностите назад низ претходното ниво
¨Измени ги тежините помеѓу двете нивоа

Хопфилдова мрежа (Hopfield Network)


Хопфилдовата мрежа се состои од N меѓусебно поврзани неврони кои си ги променуваат нивните
нивоа на активација асинхроно и независно од другите неврони. Сите неврони се во исто време и
влезни и излезни неврони. Активациските вредности се бинарни (+1, -1)
Примена на Хопфилдови мрежи
Основна примена на Хопфилдовите мрежи е кај асоцијативни мемории, кај кои и само едно делче
од меморијата да е прикажано, асоцијативната меморија ќе се потсети на целото.
Состојбите на с-емот одговараат на мустрите кои се запамтени во стабилните состојби на мрежата.
Овие состојби може да се замислат како долчиња во енергетскиот простор.
Мрежата се заситува доста брзо и дека околу 0,15N мемории може да бидат запамтени пред да
станат грешките на потсетувањето (recall errors) огромни.

Карактеристики на невронските мрежи


експресивност, пресметковна ефикасност, способност за генерализација, отпорност на шум,
транспарентност? – За жал – НЕ.
Добри препознавачи на урнеци и робустни класификатори
Добри при решавање на проблеми кои се премногу сложени за конвенционалните технологии
Идеални решенија за мноштво проблеми како и за предвидувања

Став за ризикот и некои парадокси

Еквивалент на сигурност • Износот кој според тебе е еквивалентен со наоѓање во ситуација која
вклучува некаква несигурност

БАЕСОВИ. КЛАСИФИКАТОРИ.

Баесовото правило може да се претвори во класификатор (classifier)


- Веројатносен модел на набљудуваните податоци, Претходно знаење

Податоци за обука: примери од обликот (d, h(d))


¨ каде d се податоци кои треба да се класифицираат (влезови - inputs)
¨ додека h(d) се точните класи за d, h(d) ∈ {1, … K}
Целта: за некое дадено dnovo, да се најде h(dnovo)

Баесовата рамка - овозможува да ги комбинираме набљудуваните податоци и претходното


знаење
Обезбедува практични алгоритми за учење
Тоа е генеративен пристап (врз основа на модел), кој овозможува корисна концептуална рамка

Условна независност
Дефиниција: X е условно независна од Y за дадено Z, ако веројатносната распределба според која
се владее X е независна од вредностите на Y, за таа вредност на Z

Примери за примена: За инспекција на ресторани, класификација на болести, класификација на


текстови (за болести, за е-пошта, за групи со вести)

Учење на класификација на документи


Учење од примери кои се всушност документите од интерес
Атрибути се зборовите
Да се увиди дека наивната баесова претпоставка (Naïve Bayes, NB) само значи дека имаме модел
на случајни низи од зборови во рамките на истата класа (што во суштината тоа не е, зборовите се
поврзани, не се само туку така случајно распоредени и независни едни од други)
Сепак NB класификаторите се едни од најефикасните за овој вид на задача

Класификатори кои учат како да класифицираат некој документ


Колку повеќе примери на документи и нивни точни класификации ги гледа, толку подобро
класификаторот ќе ги погодува точните предвидувања за припадноста кон соодветната класа.
Класификаторот се прави да почне со многу несигурни класификации и како што учи кои од
особините се важни за да прави разлики помеѓу примерите, така и сигурноста во предвидувањето
се зголемува.
Параметрите
Во зависност од методот за параметризација, елементите во матрицата може да бидат:
- бинарни (ќе кажуваат само дали зборот Tj е присутен во документот Di или не)
- бројки (честоти, фреквенции) (вкупниот број на повторувања на зборот Tj во Di)
- тежински честоти

Учење на Баесов класификатор


1. Пред да се пушти во употреба Баесовиот класификатор, треба да се добијат означени податоци
за обука од страна на експерти.
2. Се учат параметрите (conditionals, priors)
3. По пуштање во погон, се применува класификаторот и на нови дотогаш непознати комбинации

Наивен Баесов класификатор на документи


- Да се класифицира, кои електронски писма се непосакани (spam)
- Да се класифицира, кои е-писма имаат прилог (attachment)

И покрај нивниот наивен дизајн и очигледно преупростените претпоставки, Наивните Баесови


класификатори се имаат покажано како доста добри во многу сложени ситуации од реалниот свет.

Предност на Наивните Баесови класификатори е што бараат само мала количина на податоци за
обука за да ги проценат параметрите кои што се неопходни за класификацијата (средната вредност
и варијансите на променливите).

Бидејќи независноста на променливите се претпоставува, треба да бидат одредени само


варијансите на променливите за секоја класа, а не целата комбинаторна матрица на истовремено
појавување (covariance matrix).

Додека Наивните Баесови класификатори често пати не успеваат да произведат добра проценка за
точните веројатности на класите, во многу примени тоа и не се бара.
На пример, Наивниот Баесов класификатор ќе може да прави точна класификација сè додека
точната класа е поверојатна од сите останати класи
Ова е точно независно од тоа дали веројатноста е малку или дури и многу непрецизно проценета.
На овој начин, целиот класификатор може да биде доволно робусен за да ги игнорира сериозните
недостатоци во својот наивен веројатносен модел врз кого се потпира.

СИСТЕМИ ЗА ПОДДРШКА ПРИ ОДЛУЧУВАЊЕТО

Носителите на одлуките се соочуваат со повеќе стресни средини - високо конкурентни , брзи , во


блиско реално време, преоптоварени со информации, дистрибуирани податоци и
мултинационални во обем.
Комбинација на интернет пристапот и созревањето на вештачката интелигенција, доведе до
софистицирано помагање за поддршка на донесување одлуки во рамките на ризични и неизвесни
услови.
Одлука = изборот направен од достапните алтернативи
Одлучување = процес на идентификување на проблемите и можностите за да ги реши
A Decision Support System (DSS) – систем за поддршка при одлучувањето – интерактивен
компјутерски-базиран систем или подсистем кој има за цел да помогне на носителите на одлуки да
ги користи комуникациските технологии, податоци, документи, знаење и / или модели за
дидентификација и решавање проблеми, и целосни одлучувања.
Карактеристики на ДСС:
- Се справува со големи количини на податоци од различни извори
- Обезбедува извештај и презентациска флексибилност
- Нуди текстуална и графичка ориентација
- Поддржува разбивање на анализи
- Врши сложени, префинети анализи и споредби користејќи напредни софтверски пакети
- Поддржува оптимизација, исполнување на минималните барања , и педагошки пристапи
- Врши различни видови на анализи: what if (прави хипотетични промени на проблемот и
забележува влијание врз резултатот), симулација (двојни карактеристики на реалниот систем),
Goal-seeking analysis (одредува проблем за даден резултат)
ДСС е направен од модел(и), изворни податоци, кориснички интерфејс.
Visual Basic for Applications – може да го направи с-емот уште помоќен со додавање на
функционалности.
Историјат
Истражувањата за ДСС траат 50тина години. Според Кин и Скот Мортон (1978), концептот за
ДСС се развил поради две области: теоретските студии за организациски одлуки направено во
Карнеги Институтот за технологија во текот на доцните 50-ти и раните 60ти, и техничката работа
на интерактивни компјутерски системи во Масачусетс - Институтот за технологија во 60-тите.
- Концептот на ДСС стана област на истражување во средината на 1970-тите, а добива интензитет
во 80тите.
Во средина и крај на 80тите, Извршниот Информациски Системи ( EIS) (ЕСС), групен систем за
поддршка при одлучување ( GDSS ) и организациски систем за поддршка на одлуката ( ODSs )
еволуирале во еден и создале ДСС. Во 90тите започнува проширување на ДСС. Кон крајот на
милениумот пристапија нови Webbased аналитички апликации.
Основни чекори во процесот на донесување одлука
Чекор 1 - Концептот на проектот е идентификуван –
Чекор 2 - Процена на проект . земање предвид за сите прашања кои се вклучени -
Чекот 3 - Проектот оди во детална Спецификација за тендер
Чекор 4 - Тендер е прифатен. Започнува конструкцијата -
Чекор 5 – Започнува операцијата –
Executive Support System - вклучува цел хардвер, софтвер, податоци , постапки, луѓе
Карактеристики: прилагоден на индивидуалните директори, Лесен за користење, Разбивка
способност, поддршка на потребата за надворешните податоци, Помош со ситуации со висок
степен на
Неизвесност, иднина ориентација (прогнози , предвидувања ), Поврзано со додадена вредност
бизнис процеси
Способности на ЕСС- Поддршка за: Дефинирање на целокупната визија, стратешко планирање,
Стратешки организирање и екипирање, стратешка контрола за управување со кризи
Менаџмент – правење одлуки.
Менаџер – одлучувач
Technology / Information / Computers : increasing -> More alternative to choose
¨ Structural Complexity / Competition : increasing -> larger cost of error
¨ International markets / Consumerism : increasing -> more uncertainty about future
¨ Changes, Fluctuations : increasing -> need for quick decision
Менаџмент проблеми: објективност, одлучувачки променливи, ограничувања
Тип на проблеми: структурирани, неструктурирани, полуструктурирани

СЕМАНТИЧКИ WEB

Web 3.0 ќе се потпира врз “интелигентни” веб апликации користејќи:


•Обработка на природни јазици (Natural language processing)
• Машинско учење и резонирање (Machine learning and reasoning)
• Други напредни техники од Вештачка интелигенција, како обработка на слика и препознавање
(Image processing and recognition)
Цел: да се скрои пребарувањето на Интернет да биде по мерка на корисниците, според нивните
специфични барања, вкусови и потреби.
Семантички веб: веб страните да ги содржат не само податоците, туку исто така и значењето на
поимите во таа веб страна. Фактички - да им се додаде значење на веб страните, да не бидат само
текст со хипер-врски како што е сега.
Семантика: значење или интерпретација на даден збор, реченица или некоја друга јазична форма
Значење бара разбирање
Софтверските апликации не можат во потполност да го разберат значењето на даден поим, но
може да “ ги обработат информациите и да ги презентираат на корисен и разбирлив начин”
Семантички веб - проширување на постојните веб документи со анотација, со која им се
овозможува пристап и разбирање на софтверските агенти и алатки до семантичка содржина на
документот.
Значи семантичкото значење на содржините на веб може да го “разберат” и процесираат
софтверските апликации без потреба од дополнително толкување од страна на луѓето.

Фактички, наместо да изградиме интелигентен агент, со интелигенција на ниво на човек, свесни


дека тоа скоро нема да се случи, ја менуваме реалноста (веб просторот), и додаваме специјални
ознаки на страните (описи), за да ги направиме поразбирливи за компјутерите.
Историјат
Семантички Веб - прв пат предложен во 98г. од основачот на Интернет - Тим Бернерс-Лее
Еволуцијата почнува со ХТМЛ кој содржи минимален број тагови за опис како да се прикажат
податоците
Појава на ХМЛ е чекор напред кон конзистентна синтакса за размена
Посебно значајна е РДФ спецификација за кодирање и размена на метаподатоци со која се
опишува содржината, квалитетот и други карактеристики на податоците
Проблем #1 за компјутерите – природниот јазик е повеќесмислен и компјутерите не можат да
разликуваат на што се мисли!
Проблем #2 – Компјутерите не можат да интегрираат информации од повеќе извори на Веб.

Репрезентација на знаење како меѓусебно поврзани онтологии (структурирано знаење)


Онтологиите го даваат јазикот за разбирање и правилата на нивна употреба (Онтологиите се
документи кои содржат класи на објекти со нивните меѓусебни релации како и множество на
правила за изведување заклучоци) Интелигентни агенти како софтверски програми кои ќе можат
да ги прибираат, сортираат и обработуваат информациите најдени на веб

Технологии за подршка на семантички веб: XML (Extensible Markup Language), URI (Uniform
Resource Identifiers), RDF (Resource Definition Framework), Онтологии, Интелигентни агенти

ХМЛ е збогатен со анотација која овозможува размена на структуриран текст и информации преку
Интернет
Структурата, содржината и семантиката на ХМЛ се дефинирани во соодветни Доцумент Тѕпе
Дефинитион (ДТД) документи или вo XML Schema.

RDF – Resource Description Framework - рамка за вклучување на добро дефинирани поими во


форма на метаподатоци (атрибути), Спецификација на содржина на веб страница, но и релациите
помеѓу нив
Метадата: автор на документ, датум на креирање, имиња на спонзори, наслови, теми, тип на
корисници за кои се наменети содржините.
Resource Description Framework (RDF) е нотација за запишување на описите на тоа како веб
ресурсите (т.е. веб документите) се поврзани еден со друг.
Базичен елемент во РДФ е тројка која содржи субјект (идентификација на ресурс) предикат
(карактеристика, својство, атрибут, релација) објект (друг ресурс, или ентитет)
Авторите на веб се задолжени за креирање и збогатување на страниците со РДФ.

Идеата на семантички веб


Наместо ние да дефинираме РДФ и онтологија, може да користиме нечија онтологија, туѓ труд, да
се врземе на неа, ни требаат јазици и едитори за таа цел кои ќе ни помогнат да ги спојуваме/
залепиме постојните и новосоздадените бази

URIs - Uniform Resource Identifiers


Слично со УРЛ, но не мора да кореспондира со вистинска веб адреса
УРИ може да претставува концепт (автор), индивидуи, и се останато
Со помош на РДФ, УРИ може да покажува и кон физички уреди (пр. мобилни телефони, ТВ)
УРИ има можност да дефинира не само концепти туку и релации помеѓу нив

Онтологии
Според дефиниција тоа е множество на поими, соодветен лексикон, категоризација, семантичка
поврзаност и мал број на едноставни правила за заклучување
Потребни се технологии за сè и сешто од производство до филозофија (Дублин Цоре Метадата
Инитиативе работи на овој проблем)
Онтологиите овозможуваат општоприфатени и заеднички толкувања на одредени области со што
се овозможува комуникација помеѓу различни апликации и системи

Dublin Core (DC) Metadata Initiative е форум за развој на стандарди за анотација на


метаподатоци за широка намена.
Друг пример за онтологија: ACM Computer Classification System којашто ACM ја користи за
класификација на научно-истражувачки публикации од областа на компјутерски науки.

Јазици за опис на онтологии


OWL – Ontology Web Language
DAML-ONT Darpa agent markup language+ontology
OIL – ontology inference layer
SHOE – simple HTML ontology extension
Personal-Ont – personal ontology

Предности на онтологии:
Обезбедуваат збогатувње на веб содржините со семантичко значење
Интеграциј на информации од различни извори, нејзино структурно организирање, со што се
обезбедува размена на подтоци, знаење и модели
Обезбедува конзистентност и коректност
Можност за креирање универзални библиотеки си повеќекратна употреба

Google Knowledge Graph (GKG) - Изграден е врз основа на информација извлечена од многу
извори, вклучително и на: Freebase, CIA World Factbook, Wikipedia, други

Експертни системи
1.Експертен систем (ЕС) е програма базирана на знаење која нуди решавање
на проблеми од одреден домен со квалитет на ниво на човечки експерт од
доменот.
Користи знаење екстрахирано од експерти од доменот и се обидува да ја
имитира нивната методологија на работа.
Повеќето ЕС не можат да учат од сопственото искуство.

2.ЕС се практични програми кои користат евристични стратегии (развиени


од луѓето) при решавањето на одредена класа на проблеми.

3.Карактеристики на ЕС:
Поради евристиката и интензивната употреба на експертско знаење ЕС се:

Отворени за инспекција
Лесно се модифицираат
Евристични
ЕС се изградени за решавање на различни видови проблеми во медицината,
математиката, инженерството, хемијата, геологијата, компјутерските науки,
економијата, правото, одбраната и образованието.

4.ЕС категории на проблеми:


- Интерпретација – формирање на заклучоци или описи на високо ниво од
збирка на сурови податоци.
- Предвидување – проектирање на веројатен исход и последици на дадена
ситуација.
- Дијагноза – одредување на причината на дисфункција во комплексни
ситуации на основа на набљудувани симптоми.
- Дизајн – одредување на конфигурација на системски компоненти кои
задоволуваат одредени ограничувања и постуваат одредени цели.
- Планирање – одредување на секвенца на акции кои ќе постигнат одредени
цели при дадени појдовни услови.
- Надгледување – споредување на набљудуваното однесување на систем со
неговото очекувано однесување.
- Дебагирање и поправки – одредување и примена на лек/поправка за
констатирани дисфункции.
- Инструирање – детектирање и корегирање на недостатоци во разбирањето
на одредена област од страна на студентот.
- Контрола – управување со однесувањето на комплексни околини.

5. Подсистем за објаснување.Подсистемот за објасување мора да може да


одговара на два вида прашања:
- HOW queries – објаснување на начинот како се добиени заклучоците на
системот.
- WHY queries – објаснување за тоа зошто на системот му треба одреден
податок (знаење).

6. Систем за резонирање
- претставува интерпретер на базата на знаење.
- го применува знаењето при решавањето на конкретен проблем.
- кај продукциските системи презема контролен циклус на препознавање-
делување.

7.Модуларен дизајн на ЕС
Одвоеноста на машината за резонирање од базата на знаење е важна од
неколку причини:
- Репрезентација на знаењето на поприроден начин во форма на if-then
правила.
- Градителите на ЕС може да се концентрираат на организација и
имплементација на знаење за решавање на проблемот.
- Може да се вршат промени на дел од базата на знаење без потреба за
промени во остатокот од кодот.
- Истиот код за контрола и резонирање (изведување) може да се употреби за
различни системи базирани на знаење.
- Модуларноста овозможува лесно експериментирање со алтернативни
контролни режими над истата база на правила.

8.Начини на резонирање во ЕС
Различни проблеми бараат различен начин на резонирање при нивното
решавање:
- Пребарување водено од целта (goal-driven search)
- Пребарување водено од податоците(data-driven search)
9.Примарни учесници во изградбата на ЕС се:
- Експерт во областа (domain expert)
- Инженер на знаење (knowledge engineer)
- Краен корисник (end user)

10. Режими на работа кај ЕС


- Режим на прибирање на знаење
- Консултациски режим
- Објаснувачки режим

Режим на прибирање на знаење = се врши прибирање на почетното знаење


во ЕС и ажурирање на знаењето од страна на инженерот на знаење, кој пак
се консултира со некој експерт или со енциклопедии, книги, прирачници.
Што содржи прибраното знаење?
Општи факти и концепти во областа, проблеми кои се јавуваат во областа,
решенија на постојните проблеми добиени од искуството во областа, техники
за решавање на проблеми во областа, речникот како и жаргонот на областа.

11.Кои проблеми се соодветни за имплементација на ЕС?


- Потребата за решение ја оправдува цената
- Експертиза не е расположлива во сите ситуации каде таа е потребна.
- Проблемот може да се реши со техники на симболичко резонирање
- Доменот на проблемот е добро структуриран и нема потреба од знаење од
општа култура
- Проблемот не може да се реши со примена на традиционалните
пресметковни методи
- Постојат признати експерти расположени за соработка
- Проблемот е од соодветна област и комплексност.

12.Недостатоци на ЕС
- Недостаток на здрав разум или знаење од општа култура(common sense)
- Недостаток на флексибилност и робустност
- Неможност за давање на издржани објаснувања за одлуките што ги
предлагаат
- Тешкотии со проверка на коректноста
- Мали можности за учење од искуство
13.Методи за справување со несигурностите
- Предодредена (Default) или немонотона логика
- Правила со меки тежински фактори
- Веројатност

Веројатност = Веројатносните тврдења ги сумираат ефектите на:


- мрзливост: неуспех во набројувањето на исклучоците, квалификациите итн.
- непознавање: недостиг на релевантни факти, почетни услови итн.
Веројатностите на исказите се менуваат со нови сознанија(докази).

Теорија на полезност (Utility theory) се користи за да се претстават


преференците и да се заклучува за нив.

Теорија на одлучување = теорија на веројатност + теорија на полезност.

Maтна логика
-Терминот "матна логика" е за првпат воведен од полскиот научник
Lukasiewich во 1920 г.
- Zadeh се смета за татко на матната логика, кој во 1965 г. и дал математички
облик.

- Дефиниција = гранка на логиката која користи степен на припадност на


елементите кон некое множество. Матната логика тежнее да ги
квантифицира "матните", недоволно јасните, термини кои се присутни во
природните јазици.

- Термини за неопределеност од природните јазици во матната логика се


викаат лингвистички променливи или матни вредности.
-Област на променливи на природниот јазик се можните вредности на
лингвистичката променлива.
-матно множество-множество од променливи.

- Карактеристики на Функции на припадност: субјективни мерки,


неверојатносни функции

- Функциите на припадност(MF):
Целосно го дефинира матното множество
Овозможува да се мери сличноста помеѓу елементите од едно матно
множество
Може да има било каква форма но постојат неколку најчесто користени
функции кои се користата во повеќе реални апликации.
Најексплоатирани се триаголна, трапезоидна, Гаусова, bell-shaped и.т.н.

- Формирање на матни множества


со интервјуирање на повеќе особи
со консултација со експерт
со користење на техники од вештачка интелигенција и машинско учење
како: heuristic selection, clustering approach, c-means clustering approach,
adaptive vector quantization, self-organising map COM, невронски мрежи Кosko
(1992)

- Како се креираат матни правила?


Нема податоци,само стручно мислење на располагање: употребува
илустрација, директен рејтинг, анкетирање и други слични техники.
Постојат податоци но не стручни мислења, користи методи од машинско
учење (на пр. групирање)
Кога и податоците и стручното мислење се достапни: користи методи од
машинско учење и од експерти но бидете внимателни во врска со правилото
експлозија.

- Fuzzy system (Матен систем)= Матен систем содржи: матни множества, if-
then правила, правило состав и процес на производство на мерливи
резултати.
- Дефазификацијата се користи за да се добие јасен излез од матната логика.

Онтологии
- Koга луѓето го спознаваат некој објект и резонираат околу него, ова
спознание се формира во концепт (поим). Концептот е дел од нашето
севкупно знаење и е поврзан со соодветни релации со други концепти.
- Организација на знаењето во хиерархија на класи. Механизам за
репрезентација на релацијата помеѓу објектот и неговата класа или помеѓу
класа и нејзината наткласа. Престава во форма на дрво, решетка, граф.
Придобивки од хиерархиската репрезентација на знаење:
Се избегнува непотребно дуплирање на факти заеднички за поголема
група
Лесно одржување на конзистентна база на знаење
Лесно додавање нови класи и индивидуи
- Е-релација:
Moже да поврзе: два генерички јазли("e-подмножество-од-множество"),
индивидуален со генерички јазел ("е-елемент-од-множество")
Формира природна хиерархија
Сличност со релацијата "има"
Наследување на својствата и исклучоците

- Сите поапстрактни нивоа се викаат надредени (super-ordinate)


- Сите поспецифични нивоа се викаат подредени (sub-ordinate)
- Во центарот се типичните примери (радијални) а останатите примери на
категоријата се распоредени наоколу.
- WORDNET преставува најголема семантичка мрежа за англиски јазик.
Потекнува од универзитетот Принстон. Хиерархијата на наследства е најчесто
6-7 нивоа, но и преку 10 за некои специфични категории.
НАЈВАЖНИ ОДНОСИ ВО WORDNET:
- Хиперними оди погоре во значењето
- Хипоним одење подоле по значењето
- Холоним
- Мероними
- Синоним = збор што е ист или многу близок на некој збор по значењето.
- Антоним = збор со спротивно значење

- Онтологија = логична теорија која што го зима предвид основното значење


на формалниот речник.
- Онтологија = ригорозни и сеопфатна организација на некои знаења на
домен, таа е обично хиерархиска и ги содржи сите релевантни субјекти и
нивните односи.
- Онтологија = тоа е теорија што се занимава со видовите на нешта, односно
видовите на апстрактни ентитети кои што се допуштени во јазичниот систем.
- CIDOC CRM: домејн онтологија, базирана на објектно ориентиран модел,
составена од ентитети организирани во хиерархијаповрзани едни со други
преку сопствени линкови.

- CRM = oснова за взаемно разбирање помеѓу професионалци за културно


наследство и IT специјалисти. Потребна за јасна и недвосмислена
комуникација.

- CRM исто така е техничка референца за споредување и оценување на


информациски системи, податочни шеми. CRM е основа за трансфер на
податоци помеѓу некомпатибилни системи. CRM e oснова и за архивирање
на податоци.CRM може да се користи и за дизајн на заедничка XML шема.

Пронаоѓање на документи
- Долгорочен предизвик на Вештачката интелигенција е автоматско
разбирање на текстуалните податоци и извлекување на некакво знаење од
самиот текст.
- Пронаоѓање на информации(Information Retrieval -IR)
Koнцепциски, IR e проучување за наоѓање на потребната информација, т.е.
IR им помага на корисниците да ја најдат информацијата која ги задоволува
нивните информациски потреби.
Историски, IR се однесува на пронаоѓање на документи, истакнувајќи го
документот како основна единица. Пронаоѓање на документи што се
релевантни на корисничкото прашање.
Технички, IR го обработува прибирањето, организацијата, чувањето,
пронаоѓањето и распределбата на информациите.

- IR прашања (queries) (прашања за пронаоѓање на информации)


Прашања според клучни зборови (Кеyword queries)
Логички прашања (користејќи AND, OR, NOT) (Boolean queries)
Прашања според фрази (Phrase queries)
Приближни прашања (Proximity queries)
Прашања според цел документ (Full document queries)
Прашања на природен јазик (Natural language questions)

- Модели на пронаоѓање на информации (Information retrieval models)


IR моделот одредува како документот и прашањето се претставени и како
се дефинира релевантноста на документот според корисничкото прашање.
Главни модели: логички модел(Boolean model), модел на векторски
простор (Vector space model), статистички јазичен модел (Statistical language
model).

- Логички модел(Boolean model) = секој документ или прашање се


обработува како "враќа" од зборови или термини.Редоследот на зборовите
не се разгледува.Вреќата е речник (vocabulary).
Tермините од прашањата се комбинираат логички со употреба на
логичките оператори И, ИЛИ и НЕГАЦИЈА (АND, OR, NOT).
За дадено прашање со логички оператори, системот ги пронаоѓа сите
документи кои го задоволуваат логичкиот услов од прашањето.Се вика точно
поклопување (exact match).
Резултатите од пребарувањето се обично доста лоши бидејќи
фреквенцијата на термините не е земена предвид.

- Модел на векторски простор (Vector space model) = документите исто така


се обработуваат како да се вреќа од зборови (bag of words) односно термини.
Секој документ е претставен како вектор.
Сепак тежините на термините веќе не се само 0 или 1.Секоја тежина на
терминот е пресметана врз основа на некоја варијанта на TF или TF-IDF
шемите.
Шемата според фреквенцијата на термините (Тerm Frequency (TF) scheme):
Тежината на терминот ti во документот dj e бројот на појавувања на ti во dj,
oзначено со fij.Може да се применува и нормализација.

- Frequency counts + TF-IDF = брои колку пати еден збор се појавува во


документ.Користи фреквенција на појавување за да се покаже однос на
значење на зборот во еден документ. Брои колку документи во колекција го
содржат секој збор.

- Предобработка на текст
Извлекување на зборови(термини): лесно
Остранување на службени зборови (stopwords)
Наоѓање на корените на зборовите (stemming)
Пресметување на фреквенцијата (честотата) на термините и на нивните
TF-IDF тежини.

-Остранување на службени зборови (stopwords) = Неколку од најчесто


користените зборови во англискиот се бескорисни во IR и податочното
рударење - овие зборови се нарекуваат stopwords.

пр. the, of , and, to


Oбично околку 400 до 500 такви зборови

- Stemming = техника што се користи за да се најде коренот на зборот.


пр. Од user -> user, users, used, using
Придобивки = подобрување на ефикасноста на IR: појавување на слични
зборови. Комбинирање на зборови со слични корени може да го намали
индексирањето за 40-50 %

- Рангирање на прецизноста
Ја пресметува прецизноста во некој избран ранг.
Главно се користи за евалуација во веб пребарување.
За веб мотор за пребарување, можеме да пресметаме прецизност за
5,10,15,20,25,30 вратени страни. Како корисник, ретко гледаме повеќе од 30
страни.
Сеќавањето не е многу значајно во веб пребарувањето, бидејќи бројот на
релевантни документи е огромен и не може сите да се пронајдат и вратат
како резултат.

- Инвертиран индекс на колекција од документи во основа е податочна


структура што:
го дава секој карактеристичен збор со листа од сите документи што го
содржат тој збор. Така во пронаоѓањето, потребно е константно време да
најдете документ што го содржи бараниот збор.

-Пребарување преку превртен индекс (inverted index) = за дадено прашање


q, пребарувањето се одвива според следниве чекори:
Чекор 1 (пребарување по речник): најди го секој термин/збор од q во
превртениот индекс.
Чекор 2(спојување на резултати): спој ги резултатите што ги содржат сите
или само некои од зборовите/термините од q.
Чекор 3(Пресметка на рангот): да се подредат во опаѓачки редослед
пронајдените документи според рангот, со помош на: рангирање по
содржина (content-based ranking), рангирање според врските (link-based
ranking).

- Различните мотори за пребурување (search engines)= вистинските разлики


меѓу разните мотори за пребарување се според:
нивните шеми за тежините на индексите
вклучуваат местоположба на термини, пример во насловот, во текстот, во
истакнатите зборови и сл.
Нивните алгоритми за рангирање на пронајдените документи
Само малку од овие се објавени од компаниите, тие им се строго чувана
деловна тајна.

- Сепак ние знаеме за некои работи од тие алгоритми


Фреквенција на зборови(Word frequency) = бројот на колку пати
зборовите се појавуваат во пребарувањето може да помогне да се утврди
релевантноста на документот.
Локација на документот(Document location) = насловот на документот
најверојатно се појавување на почетокот од документот.
Растојание на зборот(Word distance)= aко има повеќе зборови во
пребарувањето, би требало да се појават заедно во документот.

- Според врските помеѓу документите (Link-based ranking)


Така работи Google, алгоритмот се вика PageRank
PageRank работи со броење на бројот и квалитетот на линкови до некоја
страна по тоа ќе се утврди груба проценка за тоа колку е важна веб
страната.Основата претпоставка е дека повеќе важни веб страници веројатно
ќе добијат повеќе линкови што водат кон нив од разни страници.

Системи на препорака
- Типови на препорака
Персонално уредени (ние сме ја направиле листата)
o Листа на омилени
o Листа на потребни нешта
Едноставно одберени/класифицирани
o Топ 10, Најпопуларни, Скорешни прикачувања
Прилагодени на индивидуални корисници
o Аmazon, Netflix…
-Формален модел
X = број на купувачи
S = број на производи
R = сет на рејтинзи
Утилитарна функција u: X x S -> R

- Главни проблеми
Прибирање на “познати” рејтинзи за матрицата
o Како да земаш податоци во утиларната матрица
Да се екстраполираат (заклучат/дефинираат ) непознатите рејтинзи од
познатите
o Главно заинтересирани за високи непознати рејтинзи
o Не ги интересира што не не интересира, туку што не интересира
Проценување/оценување на методите на екстраполација
o Како да се мери успехот/перформансите на методите за препорака

-Собирање/прибирање на рејтинзи
Експлицитно
o Ќе прашуваме луѓе за да го оценатат производот
o Не е толку добро во пракса – на луѓето не може да ми им се пречи
Имплицитно
o Да ги дознаеме рејтинзите од однесувањето на корисниците
o Пр. Купување на производ подразбира висок рејтинг

- Екстраполирање (дефинирање/заклучување) на услужливостите


Главен проблем е тоа што u матрицата е ретка/слаба
o Повеќето луѓе не ги имаат оценето повеќето производи
o Исто така новите производи немаат рејтинзи а пак за новите купувачи
немаме информации за рејтинзи и сл.

Имаме 3 пристапа до системите за препорака:


o Базирани врз основа на содржината
o Колаборација/соработка
o Хибриден (базиран на фактор на латентност(прикриеност, тајност)

Системи на препорака базирани врз основа на содржината


Главната идеја е да се предложи производ на купувачот х којшто е
сличен на претходните производи коишто се оценети високо од х
Примери:
o Препораки за филмови
Препорачај филмови со истоит актер/и , режисер, жанр и слично
o Вебсајтови, блогови, вести
Препорачај останати сајтови со слична содржина

- Профили на производи
За секој производ да се креира профил
Профил претставува сет (вектор) од карактеристки
o Кај филмовите тоа се актерот, режисерот, авторот на филмот
o Кај текстовите тоа може да претставува сет на важни зборчиња во
документот
Како да ги земеме/одбереме најважните карактеристики (зборови)
o TF-IDF (Term Frenquency * Inverse Doc Frequency)

-Пристапи базарни врз основа на моделот/типот


За секој корисник да се научи класификатор којшто ќе ги класифицира
производите во една класа на рејтинзи.
o Посакуван од корисникот и не посакуван од корисникот
Класификаторот ќе се применува на секој производ за да се најдат
потенцијални кандидати за негово купување
Проблемот е скалабилноста, нема да пребарува понатаму во класата

- Предности на пристапот базиран врз основа на содржината:


Не се потребни информации за други корисници
Способен е да препорача на оние корисници којшто имаат посебни
вкусови
Способен е да препорачува нови и непопуларни производи
Способен е да дава објаснувања со тоа што ќе листа карактеристи на
содржината што предизвикале истиот тој производ да биде препорачан.

- Ограничувања на пристапот базиран врз основа на содржината


(недостатоци):
Тешко е да се најде соодветната карактеристика (пр. Слики, филмови,
музика)
Прекумерна специјализација
o Никогаш не препорачува производи надвор од содржината на
профилот на корисникот
o Некои луѓе може да имаат повеќе интереси
Препораки за нови корисници (како да креира профил на корисникот)

-Колаборативно филтрирање
Нека корисникот е х
Најди сет од N корисници чии рејтинзи се слични со оние на корисникот
х
Направи пресметка на рејтинзите на х базирана на рејтинзите на
корисниците во N
Комплексност
o Скапо ќе чини ако сакаме да најдеме k најмногу слични
корисници
o Прескапо ќе биде тоа да го направиме во текот на процесот

Производ-производ колаборативно филтрирање


o Досега видовме само корисник-корисник колаборативно филтрирање
o Сега имаме уште еден вид а тоа е производ-производ
За производ i, најди останати слични производи
Направи пресметка за рејтингот на производот i базирана врз
рејтинзите на сличните производи
Може да се користат истите функции за метрика и за
предвидување како во корисник-корисник моделот
Предности и слабости на колаборативното филтрирање:
o Предноста е тоа што функционира за секој вид на производ (не е
потребна селекција на карактеристики)
o Негативности се:
Нема доволно корисници во системот за да се најде
соодветното
Тешко е да се најдат корисници коишто ги оцениле истите
производи
Матрицата за корисникот/рејтинзите е ретка/раштракана
Не може да се препорача производ којшто претходно не бил
оценет
Нови, нејасни производи
Не можеме да препорачаме производ на некој со посебен вкус
Има тенденција да се препорачуваат популарни производи

-Хибридни методи
Имплементирај 2 или повеќе препорачувачи и комбинирај
предвидувања
Додадете ги методите за препорака базирани врз содржината на
колаборативното филтрирање

Дрва за одлучување

- Влез – објект или ситуација опишана со множество особини


(обележја).Влезните атрибути можат да бидат дискретни или постојани.
- Излез – ДА/НЕ одлука
- Секој внатрешен јазел претставува испитување на вредноста на една од
особините (и гранење во зависност од вредноста)
-Секој лист претставува булова вредност која треба да се врати како резултат
ако се стигне до него
- Класификатори: Примероците се претставени со вектори од вредности на
атрибутите

Kласификација = тоа е една од главните задачи на податочното рударство и


на вештачката интелигенција воопшто.

Категоријален атрибут = атрибут кој може да прими само дискретни


вредности(2 или повеќе). Исто така се нарекува и симболички атрибут.

Реален атрибут = атрибут со реални броеви.

Табели на меѓузависности = поопшто име за хистограм, едно-


димензионална табела на меѓузависности. Рецепт за правење на к-
димензионална табела на меѓузависности:
- Избери k атрибути од податочното множество.Означи ги со
а1,a2,...ak.
- За секоја можна комбинација на вредности, а1=х1, а2=х2,...ак=хк,
запиши колку често таа комбинација се појавува.

2-D табела на меѓузависности = може да видиме колку записи постојат за


секоја комбинација (секој пар) на вредности на атрибутите.
Попрегледно е графички.
Полесно се забележуваат интересни нешта ако се растегнат линиите на
хистограмот:

3-D табела на меѓузависност


Ваквите табели се потешки за следење.

- On-Line Analytical Processing = тоа се софтверски пакети и додатоци за


базите на податоци за да прават вакви анализи и познати се како ОLAP
aлатки. Обично вклучуваат и навигација за да се гледаат разни пресеци и
збирни вредности на овие табели на меѓузависности. Обично имаат и убави
визуализации на хистограми.

Изградба на дрва за одлучување:


- Почни со сите податоци за да се одреди коренот
- Се избира атрибут и се формулира логички тест за некој атрибут
- Се разгранува за секој различен резултат на тестот, и се пренесува
подмножеството на примероци што го задоволуваат тој резултат на тестот
кон соодветното поддрво.
- Рекурзивно се прави ова на секое поддрво
- Условот за крај одредува кога еден јазел останува да биде лист.

Критични чекори
Формулација на добри логички тестови
Избор на мерка за атрибутите

Decision-Tree-Learning користи дрво за одлучување како предвидлив модел


кој покажува забелешки за ставка да заклучи за целната вредност на ставката.
Тоа е едно од предвидливо моделирање пристапи кои се користат во
областа на статистиката, податоци за рударство и машинско учење

Decision-Tree-Learning (DTL):
- Цел: да се пронајде мало дрво конзистентно со примероците за обука
- Идеја: рекурзивно избирање на најзначајниот атрибут како корен на
(под)дрво

Основната идеја на DTL алгоритмот е да се истестираат најзначајните


атрибути најпрво и дрвото во целина ќе биде мало.

Алгоритам за Decision-Tree-Learning(DTL):
- Изградба на дрвото [BuildTree(DataSet,Output)]
- Ако сите излезни вредности се исти во DataSet, врати јазол-лист кој вели
"предвиди го единствениот излез"
- Ако сите влезни вредности се исти, врати лист јазол кој вели "да се
предвиди мнозинство излез"
- Инаку најди атрибут Х со највисока информациска добивка (Info Gain)
- Нека Х има nx различни вредности (т.е. Х има кратност nx)
Направи и врати внатрешен јазел со nx деца
i-тото дете треба да се изгради со рекурзивен повик до
BuildTree(DSi, Output) каде што DSi е изграден и ги содржи сите
записи во DataSet за кои Х=i-тата посебна вредност на Х.

Aлгоритам
- Ако сите примери на множеството за обука S се со иста вредност K, тогаш
дрвото на решавање за K се состои од лист означен со K.
- Инаку, одбери тест кој ќе го подели множеството за обука S во две или
повеќе подмножества Si, зависно од излезот на тестот (на пр. вредностите на
атрибутите). Тестот станува корен на дрвото и за секој излез на тестот
изгради поддрво, повикувајќи ја оваа процедура рекурзивно за секое Si.

Избирање на тестови за атрибути = шемата која се користи во учењето на


одлучувачкото дрво за избирање атрибут и е дизајнирана за да ја
минимизира длабочината на финалното дрво.Идејата е да се избере
атрибутот кој најмногу тежнее да овозможи точна класификација на
примерите. Совршениот атрибут ги поделува примерите во множеството
коишто се сите позитивни или сите негативни.Мерката треба да ја има
својата максимална вредност кога атрибутот е совршен и својата минимална
вредност кога атрибутот е бескорисен.Една соодветна мерка е очекуваната
количина на информации кои се овозможени од атрибутот. Теоријата на
информации ја мери содржината на информациите во битови. Еден бит
информација е доволна за да се одговори да/не прашање за коешто немаме
претпоставка, како што е вртењето на монета.
-Ентропија = мерка за неизвесност

Зошто дрва за одлучување?


- Целта е со што помалку прашања да се одлучи за нешто
- Кога треба да одлучиме за некоја идна комбинација која до сега не се
појавила

Алгоритамот е добар ако продуцира хипотези кои успешно ги класификуваат


новите невидени примероци.

Како да се процени нивната успешност?


1.Собере (доволно големо) множество на познати примероци.
2.Множеството на познати примероци се дели на две дисјунктни
подмножества: множество за обука и множество за тестирање.
3.Со множество за обука со некој алгоритам се генерира хипотеза Н.
4.Одреди го процентот на правилно класификувани примероци од
множество за тестирање од страна на хипотезата Н.
5.Повтори ги 1-4 за различни големини на множествата за обука и тестирање
и различен случаен избор на множества со различни големини. Како што се
зголемува тренирачкото множество, се зголемува квалитетот на
предвидувањето.

Шум и преобучување
- оver-fitting (претерано научување/преучување)
- decision tree pruning (кастрење на дрвото за одлучување)
- statistical significance (статистичка значајност)
- cross-validation (вкрстена проверка)
- missing data (податоци што фалат или испуштени)
- multi-valued attributes (повеќевредносни)
- continuous-valued attributes (континуирано ценети атрибути)
- bias / variance tradeoff (компромис помеѓу наклоноста и разноликоста)

Дрвото на одлука исто така може да се изрази во облик на правила:


- IF => AND => THEN

Како да се справиме со непознати комбинации


-Понекогаш може да се случи да според ниту еден атрибут не може да се
добие комплетна класификација за сите можни вредности на даден
атрибут.Тогаш за таа вредност се става некоја предодредена (поверојатна,
препорачлива) вредност.

Предности на дрвата на одлучување:


- Дрвата на одлучување можат да генерираат разбирливи резултати
- Извршуваат класификација без премногу сложени пресметки
- Можат да работат и со континуирани и со дискретни вредности на
атрибутите
- Обезбедуваат јасен показател на тоа кои атрибути се најважни за
предвидување или класификација

Слабости на дрвата на одлучување:


- Подложни се на грешки (error-prone) со премногу класи
- Брзата поделба на примероците води до брзо опаѓање на квалитетот на
избирањето на атрибутите
- Проблеми со не-правоаголни региони

Заклучоци:
Дрвата на одлучување се една од најпопуларните техники за класификација:
- Лесни се за разбирање
- Лесни за имплементација
- Лесно се употребуваат
- Пресметковно се лесни (computationally cheap)

Невронски мрежи
Два погледи на невронските мрежи:
- Од компјутерски аспект - вештачки невронски мрежи - метод за претстава
на функции со помош на едноставни аритметички пресметковни елементи и
нивна обука од примероци
- Од биолошки аспект - математички модел на работата на мозокот

Неврон е ќелија во мозокот чија основна функција е собирање, процесирање


и пропагирање на електрични сигнали.
Невронска мрежа = мрежа од меѓуповрзани неврони.

Што се тоа Вештачки невронски мрежи (Artificial Neural Networks) ?


Табели за обработка на информации инспирирана од начинот на кој
природните мозоци ја обработуваат информацијата, составена од густо
меѓуповрзани паралелни структури.
Постојат повеке видови на повекепроцесорски системи со:
- Eдноставни процесорски елементи
- Висок степен на меѓусебна поврзаност
- Едноставни пораки со броеви
- Прилагодлива итеракција помеѓу елементите

Главен поим кај невронските мрежи е состојбата на активација. Состојбата


на активација во потесна смисла го претставува излезот од даден јазол, а во
поширока означува дали на влезот во јазолот невронот се активирал.

Во структурна смисла, невронската мрежа се состои од:


- Множество на процесирачки единици ("неврони", "јазли")
- Состојба на активација за секоја единка, која е еквивалентна на излезот од
единката
- Врска помеѓу единките.Вообичаено секоја врска е дефинирана со тежина
која го одредува ефектот (влијанието) кое го има единката.
- Правило на пропагација, кое го одбира ефективниот излез на единка од
неговите надворешни влезови.
- Надворешен влез (bias или офсет) за секоја единка

За да се направи невронска мрежа која ќе решава одредена задача потребно


е:
- да се одреди бројот на невроните
- нивниот тип
- како ќе бидат поврзани
- да се иницијализираат тежините и со некој алгоритам да се обучи мрежата
претставувајќи и познати примероци
- да се одлучи како ќе биде претставен проблемот (влез/излез)

Активациска функција = правило за изведување на новата состојба на


активација, врз основа на актуелната состојба на активација и актуелниот
влез. Функцијата на активација е неопаѓачка функција.Иако тоа е најчестата
форма, функцијата на активација може да биде и строго лимитирачка
функција (sgn функција), полу-линеарна функција или нестрого лимитирана
функција.
Структури на невронски мрежи:
- Feed-Forward (нанапред насочени)
- Layered Feed-Forward (слоевито нанапред насочени)
- Рекурентни невронски мрежи
- Хопфилдови невронски мрежи = двонасочни врски со симетрични тежини
- Болцманови машини

Нанапред насочени (feed-forward) мрежи = каде обработката на податоците


од влезните до излезните јазли е строго насочена.Обработката на
податоците може да се прошири преку повеќе слоеви на јазли, меѓутоа нема
повратни врски, односно нема врски од излезни до влезни јазли во исти или
во различни слоеви.

Рекурентни мрежи = мрежи кои содржат повратни врски. За разлика од


нанапред насочените мрежи тука динамичките својства на мрежата се важни.
Во некои случаи, активационите вредности на јазлите подлежат на процес на
релаксација така да мрежата еволуира во стабилна состојба во која овие
активациони вредности повеќе нема да се менуваат. Кај рекурентните мрежи,
среќаваме дводимезнионален податочен тек, јамки.

Класификација (Учење)
Пoстојат два начина на модификација на врските во невронската мрежа:
1. Со користење на претходно знаење од проблемскиот домен се
поставуваат тежините на врските
2. Со тренирање на мрежата до шаблони, таа да си ги менува врските според
правило на учење кои споредува примерок дадени решенија со
влезови/излези од мрежата. Односно, во една поинаква синтагма зборуваме
за:
1.Supervised/self-supervised learning – Почетното знаење доаѓа од
надвор/од самата мрежа

2.Unsupervised learning/ Self-Organization – се учи да реагира на


кластери од влезови, статистички да одреди шаблони и поделба во
класи. Има сопствена репрезентација, и нема претходно зададено
знаење – започнува со случајни вредности за тежините на врските.

Учење со поттикнување (Reinforsement learning)= на влез, покрај предметот


што треба да се научи, се добива и сигнал добро/лошо во зависност од тоа
колку добро одговорил системот на тоа барање за учење или класификација.

Oптимална структура на невронска мрежа


- Прекумерно обучување (оverfitting)
- Oбука на поголема целосно поврзана мрежа од која потоа се бришат врски
(и неврони) = optimal brain damage
- Растење на мрежата (додавање) неврони во текот на обуката
АRT - Adaptive Resonance Theory
GWR - Grow When Required

Перцептони = еднослојни нанапред насочени невронски мрежи. Мрежа со


сите влезови поврзани директно на излезите.Бидејќи секоја излезна единица
е независна од другите, секоја тежина влијае на само еден од влезовите.
Што може да репрезентираат перцептроните? Маjority може, XOR не може.
Перцептронот може да репрезентира само линеарно одвоиви функции.
Во наједноставен случај на мрежата има само два влезови и еден
излез.Излезот на неврон. Перцептоните имаат едноставен алгоритам на
учење кој ќе се вклопи кон кое било линеарно одвоиво множество за
тренирање. Идеата позади овој алгоритам, а и позади повеќето алгоритми во
учењето на невронските мрежи, е да се наместат тежините на мрежата за да
се минимизира некоја мерка на грешка на множеството за тренирање.
Алгоритам
1. Се даваат случајни вредности на тежини и праг, се разгледува што се
добива и се споредува со она што сакаме да го добиеме
2. Ако добиеме излез поголем од саканиот, се намалуваат тежините а прагот
се зголемува
3. Ако добиеме излез помал од саканиот, се зголемувааат тежините а прагот
се намалува
4. Алгоритмот завршува кога за сите влезни вектори ќе се добие соодветниот
влез.
Со перцептрон на едно ниво може да се имплементира логичко "и", логичко
"или" и логичко "не". Оттука, следува дека со перцептрон на едно ниво може
да се реши било кој проблем.

Обука на перцептрон
Постои алгоритам кој може да научи било која линеарно сепарабилна
функција ако му се дадат доволно примероци за обука
1. Иницијализација на тежините на случајни вредности
2. Промена на овие вредности со цел да се направат конзистентни со
примерите – итеративен процес на мали промени на тежините со кои би се
намалила разликата помеѓу добиениот и бараниот излез за даден примерок
- конвергенција.

Правило за промена на тежините


- Епоха - промена на сите тежини за сите примероци
- Правило за промена на тежините: Err = T - O
- Секој влез придонесува WjIj на вкупниот излез: Wj <- Wj +α · Ij · Err
- α - стапка на обука (learning rate)

Зависност на стапката на грешки од бројот на примероци


Повеќеслојни невронски мрежи
- Multilayer feed-forward neural networks (Rosenblatt 1950s)
- Проблем – обуката
- Back-propagation алгоритам (1969, 1980)

Повеќеслојна невронска мрежа е мрежа со скриени единици.Најчестиот


случај инволвира еден скриен слој.

Back-propagation = Tехниката за учење што работи на тој начин што излезите


од мрежата се споредуваат со очекуваните, точни вредности и се проценува
error функција. Се модифицираат тежините на врските, за да се намали
вредноста на error функцијата. Работи по принципот на алчни алгоритми, го
задава решението кое е најдобро во дадениот момент, кое можеби нема да
биде најоптималното решение на глобален план.
После доволен број на итерации, системот доаѓа во состојба каде ратата на
грешки е занемарливо мала – во тој момент кажуваме дека системот научил
одредена целна функција.
Пресметувањето на новите вредности на тежините на врските се прави со
наоѓање извод од error функцијата, наоѓање минимум. Затоа – најпогодни
функции за активација се континуално диференцијабилни функции, како
сигмоидната функција.
Проблемот е комплексен, заради наоѓање соодветен број на примерок
податоци за тренирање. Голема е веројатноста дека системот, при грешна
инструкција, ќе доведе до погрешни заклучоци и погрешна генерализација,
затоа што нема општо знаење и правилата за резонирање се поинакви од
оние на инженерот на знаење.
Проблемот со back propagation е тоа што може да се случи алгоритмот да се
концентрира на локален минимум на error функцијата.

Грешка кај повеќеслојни невронски мрежи:


- Да се подели одговорноста на грешката на соодветните тежини
- Скриениот јазол е "одговорен" за дел од грешката во секој од излезните
јазли со кои е поврзан. Грешката се дели според јачината на врската помеѓу
скриениот и излезниот јазел и се пропагираат наназад како грешки за
невроните од скриеното ниво.

Пропагација на грешка
Алгоритам:
- Пресметај ја Δ вредноста за излезните неврони според забележата грешка
- Почнувајќи од излезното ниво повторувај за секое ниво на мрежата се до
влезното ниво:
Пропагирај ги Δ вредностите назад низ претходното ниво
Измени ги тежините помеѓу двете нивоа

Хопфилдова мрежа
- Хопфилдова мрежа се состои од N меѓусебно поврзани неврони кои си ги
променуваат нивните нивоа на активација асинхроно и независно од другите
неврони.
- Сите неврони се во исто време и влезни и излезни неврони.
- Активациската вредност се базира на (+1,-1)
- Системот се стреми да стигне во т.н. стабилна состојба каде ажурирањата на
врските се соодветни за проблематиката која ја решава системот.
- Состојбата на системот се дадена на активациските вредности y=(yk)
- Мрежните вредности sk(t+1) на невронот k во циклусот (t+1) e даден со
тежинска сума:

- Прагова функција се употребува за да се добие излезот:

- Невронот k во мрежата е стабилен во време t ако:

- Eдна состојба на мрежата се смета за вистински стабилна ако сите неврони


се стабилни.

Примени на Хопфилдови мрежи


- Основна примена на Хопфилдовите мрежи е кај асоцијативни мемории, кај
кои и само едно делче од меморијата да е прикажано, асоцијативната
меморија ќе се потсети на целото.
- Состојбите на системот одговараат на мустрите кои се запамтени во
стабилните состојби на мрежата.
- Овие состојби може да се замислат како делчиња од енергетскиот простор.

Болцманова машина
Болцмановата машина делува според принципот на врамнотеженост. Била
нарекувана и „Хопфилдова мрежа со скриени слоеви“. Таа се состои од
непразно множество на видливи и можно множество на скриени единки.
Болцмановата машина е значајна, заради тоа што е првата невронска мрежа
која реализира учење на скриени променливи.

Карактеристики на невронските мрежи


- Експресивност
- Пресметковна ефикасност
- Способност за генерализација
- Отпорност на шум
- Не се транспаретни

За што се добри невронските мрежи?


- Добри препознавачи на урнеци и робустни класификатори
- Добри при решавање на проблеми кои се премногу сложени за
конвенционалните технологии
- Идеални решенија за мноштво проблеми како и за предвидувања

Баесови квасификатори
Баесовото правило може да се претвори во класификатор
пр. Како да се одлучи дали пациентот е болен или здрав, врз основа на:
- Веројатносен модел на набљудуваните податоци
- Претходно знаење

Bayesian framework (Баесовата рамка)


- Ни овозможува да ги комбинираме набљудуваните податоци и претходното
знаење.
- Обезбедува практични алгоритми за учење
- И генерира пристап кој овозможува корисна концептуална рамка
Oва значи дека било што може да биде класифициран, врз
основа на веројатносен модел
Баесовото правило (Bayes Rule)

- P(A) и P(B), претходна веројатност, е прв степен на верување во А.


- P(B|A) e условната веројатност или веројатноста е степен на верување во B,
со оглед дека А е точно
- P(A|B) е задната веројатност, веројатност за после земајќи ги во предвид В
за и против А

Наивен Баесов класификатор (Naïve Bayes)


Честопати се користи (како претпоставка за поедноставување) во случаи каде
"ефектните" променливи не се условно независни ако ни е зададена
причинската променлива.
Моделот е наивен бидејќи претпоставува дека атрибутите се условно
независни едни од други.
Наивниот Баесов класификатор претпоставува дека: Хi и Xj се меѓусебно
условно независни за Y, за секое i ≠j

Условна независност:
- Дефиниција: Х е условна независна од Y за дадено Z, ако веројатносната
распределба според која се владее Х е независна од вредностите на Y, за таа
вредност на Z.

Примери за примена
- За инспекција на ресторани
- За класификација на болести
- За класификација на текстови (за болести, за е-пошта, за групи со вести)

Пример некој со ресторани


Вие сте санитарен инспектор и одлучувате дали да се направи инспекција на
некој ресторан
- Губите еден долар ако немало потреба за тоа
- Добивате еден долар ако имало потреба
Пола од рестораните се со лоша хигиена.Во лошите ресторани 3/4 од
менијата се замастени.Во добрите ресторани 1/3 од менијата се замастени.
Дозволено ви е да видите случајно избрано мени.

Учење на класификација на документи


- Учење од примери кои се всушност документите од интерес
- Атрибути се зборовите
- Да се увиди дека наивната баесова претпоставка само значи дека имаме
модел на случајни низи од зборови во рамките на истата класа

Класификатори кои учат како да класифицираат некој документ


- Колку повеќе примери на документи и нивни точни класификации ги гледа,
толку подобро класификаторот ќе ги погодува точните предвидувања за
припадноста кон соодветната класа.
- Класификаторот се прави да почне со многу несигурни класификации и како
што учи кои од особините се важни за да прави разлики помеѓу примери,
така и сигурноста во предвидувањето се зголемува.

Матрица со појавувањето на зборовите во документите


- Вообичаено, текстуалните бази на податоци се параметризирани со т.н.
матрица на документи/термини (document-term matrix)
- Секој ред одговара на еден од документите
- Секоја колона одговара на некој збор (термин)

Параметрите
- Во зависност од методот за параметризација, елементите во матрицата
може да бидат:
Бинарни
Бројки , т.е. вкупниот број на повторувања на зборот Tj во Di
Тежински честоти

Учење на Баесов класификатор


1. Пред да се пушти во употреба некој Баесов класификатор, треба да се
добијат означени податоци за обука од страна на познавачи
2. Се учат параметрите (conditionals, priors)
3. По пуштање во погон, се применува класификаторот и на нови дотогаш
непознати комбинации

Наивен Баесов класификатор на документи


- Да се класифицира, кои електронски писма се непосакани (spam)
- Да се класифицира, кои е-писма имаат прилог (attachment)
- Y e со дискретна вредност, пр. Spam или Not Spam
- X = <X1, X2,... Xn> - документ
- Хi e случајна променлива која опишува.

Пример на наивна Баесова класификација на документи


Да го разгледаме проблемот на класификација на документи според
содржината, на пример, во сакана и несакана (spam) е-пошта. Да замислиме
дека документите се извлечени од некои класи на документи кои што може
да бидат моделирани како множества на зборови во кои (независната)
веројатност дека i-тиот збор на даден документ се појавува во документ од
класа С, може да се запише како: p (wi|C)
За оваа потреба, ние ги упростуваме нештата уште повеќе претпоставувајќи
дека зборовите се случајно расфрлани во документот - т.е. дека зборовите не
зависат од должината на документот, од нивната позиција во однос на
другите зборови во документот, или од други некои контексти на документот.
Во тој случај веројатноста дека даден документ D ги содржи сите зборови wi
за дадена класа С е:
Прашањето на кое сакаме да дадаме одговор е: "која е веројатноста даден
документ D да припаѓа на таа класа С ?" т.е. која е p(C|D) ?
Според Баесова формула имаме:
Да претпоставиме, за сега, дека постојат само 2 взаемно исклучиви класи:
S и ¬S т.е. несакана (spam) и обична (not spam) така што секој елемент (email)
припаѓа во едната или во другата класа.
Според Баесовото правило:
На крај, документот може да се класифицира според правилото: spam е ако
p(S|D) > p(¬S|D) инаку не е spam.

Баесов препознавач за повеќе класи


Еј е некој документ, Нi е некоја класа
Наивен Баесов класификатор: 89% прецизност на класификацијата
Прецизноста наспроти големината на множеството за обука

Пример на Баесов систем за пребарување на Интернет


А - некој бара "физика" на интернет
B - некој ја избира токму оваа страница
P(A) и P(B) статистички се знаат со тек на време
P(B/A) - веројатност некој да ја избере токму оваа страница, а претходно
барал "физика" (се знае исто така статистички)
P(A/B) - која е веројатноста некој да бара физика, ако ја избрал оваа страница
(бидејќи можеби кликнал таму заради нешто други)
- Овие се факторите што мора да се адаптираат со тек на времето,
заради поуспешно пребарување.
- Статистички се одредува значењето (семантиката) на веб-страната,
врз основа на процената за релевантност од страна на луѓето -
корисници.

И покрај нивниот наивен дизајн и очигледно преупростените претпоставки,


Наивните Баесови класификатори се имаат покажано како доста добри во
многу сложени ситуации од реалниот свет.
Предност на Наивните Баесови класификатори е што бараат само мала
количина на податоци за обука за да ги проценат параметрите кои што се
неопходни за класификацијата.
Бидејќи независноста на променливите се претпоставува, треба да бидат
одредени само варијансите на променливите за секоја класа, а не целата
комбинаторна матрица на истовремено појавување
Додека Наивните Баесови класификатори често пати не успеваат да
произведат добра проценка за точните веројатности на класите, во многу
примени тоа и не се бара.
- На пример, Наивниот Баесов класификатор ќе може да прави точна
класификација се додека точната класа е поверојатна од сите
останати класи.
- Ова е точно независно од тоа дали веројатноста е малку или дури и
многу непрецизно проценета.
- На овој начин, целиот класификатор може да биде доволно
пропусен за да ги игнорира сериозните недостатоци во својот
наивен веројатносен модел врз кого се потпира
Системи за поддршка при
одлучувањето
Koмбинацијата на брзината на интернетот и созревањето вештачката
интелигенција доведе до софистицирани помагала за поддршка на
донесување одлуки во рамките на овие ризични и неизвесни услови. Овие
помагала имаат потенцијал да се подобри процесот на донесување на
одлуки што укажува на решенија кои се подобри од оние кои се направи од
страна на самиот човек. Тие се достапни во различни области од
медицинската дијагноза до контрола во сообраќајот.

Одлука = изборот направен од достапните алтернативи

Одлучување(донесување одлуки) = процес на идентификување на


проблемите и можностите за разрешување на нив

Систем за поддршка при одлучување (Decision Support System)


Системот за поддршка при одлучување (DSS) е интерактивен, компјутерски-
базиран систем, наменет да им помогне на носителите на одлуки.Користи
комуникациски технологии, податоци, документи, знаење и модели за да се
идентификуваат и да се решат проблеми и да се донесат одлуки.
Системот за поддршка при одлучување (DSS) е општ термин за секоја
компјутерска апликација која ја подобрува способноста за донесување на
одлуки на една група или на некоја единка.

Карактеристики на DSS
- Се справува со големи количини на податоци од различни извори
- Обезбедува извештај и флексибилност на презентацијата
- Нуди текстуално и графичко насоченост
- Поддржува длабинска анализа
- Врши сложени, софистицирани анализи и споредби со користење на
напредни софтверски пакети
- Поддржува оптимизација, исполнување на минималните барања и
евристични пристапи
- Врши различни видови на анализи
"What if" анализи = прави хипотетички промени на проблемот и
забележува влијание врз резултатите
Симулација = двојни карактеристики на реалниот систем
Goal-seeking анализи = ги одредува проблематичните податоци
за даден резултат

Табела-базирани системи за поддршка на одлуката


DSS е составен од еден модел (или модели), извор на податоци, како и
кориснички интерфејс.
Кога еден модел се спроведува во Excel, можно е да користи Visual Basic for
Applications (VBA) да се направи системот поефикасен со автоматизирање на
интерактивни задачи инаку би требало да ги повторуваат рутински
VBA исто така, може да го направи системот помоќен со проширување на
функционалноста на табела моделот и со измената на неговата употреба.

Куса историја
Академските истражувачи од многу дисциплини го проучуваа DSS приближно
50 години.
Се смета дека концептот на DSS стана област на истражување во средината
на 1970-тите, добива интезитет во текот на 1980-тите.

Основни чекори во процесот на донесување на одлука


Чекор 1
Концептуалната потреба за проект се јавува главно како резултат од идните
барања
Тоа може да се направи од страна на тим на експерти
Вообичаено концептуална студија ќе ги идентификува потребното техничко
решение, економските заслуги и прифатливост на проектот во општествено
политички услови
Може да побара дискусија со финансиски институции, дали тие ќе обезбедат
потребни средства
Чекор 2
Под претпоставка дека е донесена одлука да се развие проектот понатаму
потребна е да се направи детална оценка на сите технички, економски и
општествено-политички фактори
Деталите можат да бидат квантитативни и врз основа на субјективни знаења
Главното донесување на одлука е за новитетот на проектот
проектот технички може да биде нов (правење на нов авион)
Проектот може да користи веке основани технологија во нова средината
(Пр. користење на електрични воз во third world countries).

Во овој чекор, степенот на несигурност поврзан со секој фактор ќе почнат да


се појавуваат.
Разбирање на несигурноста, поврзана со било кој предлог е од суштинско
значење за донесување на одлуки.

Чекор 3
Ако резултатот од чекор 2 е да се продолжи проектот, следно се подготвува
тендерската спецификација.
Треба да се дефинира токму онаа работа што се бара на тендерот да се
направи. Идеално, тоа треба да се дефинира за секоја работа која треба да
се направи.
Магнитудата на несигурност поврзана со оваа фаза е причина за можните
варијации во цената и времетраењето на проектите.
Пред да се издаде на тендерската спецификација разумно е да се потврди
дека проектот е прифатлив за регулаторните органи и дека има адекватни
финансии на располагање.
Финансискиот директор треба да биде убеден дека проектот е остварлив,
дека предлагачот има искуство и способност за изведување на проект за
успешен финиш.
Чекор 4
Првата акција е да се одлучи дали една од понудите треба да се прифатенa.
Понудувачот треба да има соодветно искуство способност и соодветни
финансиски ресурси.
Чекор 5
Под претпоставка дека сите чекори се завршени на задоволително ниво, се
превзема одлука за почнување на проектот.
Дури и кога проектот ќе почне, може да биде запрен ако околината во која
работи се промени.

Карактеристики на процесот на донесување на одлуку


Одлуката е донесена врз основа на информациите на располагање
Во секој дел од проценката, може да биде итеративен развој кое се смета за
подобрување во преземање на податоците како што продолжува проектот
Проектот нема да оди напред, освен ако не постојат соодветни финансиски
средства.

Извршен систем за поддршка ESS


Специјализиран DSS кој го вклучува хардверот, софтверот, податоците,
постапките и луѓето кои се користат за да им помогнат на високо ниво на
директори во организацијата

Карактеристики на ESS:
- Прилагодена на индивидуалните директори
- Лесен за користење
- длабоки способности
- Поддршка на потребата за надворешните податоци
- Помош со ситуации со висок степен на неизвесност
- Прогнози и предвидувања
- Поврзано со додадена вредност на бизнис процеси

Способности на ЕСС
Поддршка за:
- Дефинирање на целокупната визија
- Cтратешко планирање
- Стратешкo организирање и екипирање
- Стратешка контрола
- Менаџирање на кризата

Менаџмент
Менаџментот е донесување на одлуки
Менаџерот е донесувачот на одлуки
Организациите се полни со менаџери на различно ниво.
Менаџментот се смета за уметност: талент стекнат со години преку обиди и
грешки.
Сепак донесувањето одлуки денес станува се повеќе комплицирано:
- Технологија /информации /Компјутери се пораст на повеќе избори
- Структурната Комплексноста / Конкуренција пораст на цена на грешките
- Меѓународните пазари / Конзумација е пораст на несигурност за иднината
- Промените, двоумења се пораст на потребата за брза одлука

Проблеми на менаџментот
Повеќето проблеми на менаџментот за кои се бараат одлуки може да бидат
претставени со три стандардни елементи - цели, одлука на променливи и
ограничувања.
Цел
- Максимизирање на профитот
- Обезбеди најбрз влез на пазарот
- Минимизирај ја непријатноста на вработените

Одлука на променливи
- утврди која цена да се користи
- утврди ја должината на времето на тестови кои се работи на нов производ /
услуга
- Одредување на одговорности да се доделат на секој работник

Ограничувања
- не може да се наплаќа под цената
- Се прават тестови доволно да се задоволат минималните безбедносни
прописи
- Обезбеди одговорностите да се делат најмногу на двајца работници

Типови на проблеми
Структурирани: ситуации каде кога е потребна одлука, процедурите кои
следат може да бидат однапред специфицирани
- Повторувачки
- Стандардни методи на решенија
- Целосна автоматизација може да биде овозможено

Неструктурирани: ситуации за одлука каде што не е можно да се определат


однапред повеќето од процедурите кои треба да следат
- Еднократни
- Нема стандардни решенија
- Се потпираат на пресудата
- Автоматизацијата обично е неизводлива

Полу-структурирани: Процедурите за одлука може да се предефинираат, но


не доволно за да доведе до систем за препорака на одлуки
- Некои елементи или фази од процесот на донесување на одлуки имаат
повторувачки елементи

DSS e најкорисен за повторувачки аспекти на полу-структурирани проблеми

Одлуки и одлучување
Голем дел од одлуките со кои менаџерите се справуваат секој ден имаат
одреден степен на несигурност и бараат не- програмирано донесување на
одлуки
- Може да биде тешко да се направи
- Направени услови за менување на фактори
- информациите може да бидат нејасни
- можеби ќе треба да се справи со конфликтни точки на гледање

Сигурност, ризик, неизвесност, двосмисленост


Сигурност = сите информации на одлучувачот треба да му се целосно на
располагање
Ризик
- одлуката има јасни цели
- добри информации се достапни
- идните исходи поврзани со секоја алтернатива се предмет на шанса

Несигурност
- Менаџерите знаат кои цели сакаат да ги постигнат
- Информации за алтернативите и идните настани се некомплетни
- менаџерите можеби ќе треба да дојдат до креативни пристапи кон
алтернативи

Двосмисленост
- далеку најтешката одлучувачка ситуација
- целите да се постигнат или проблемот да се реши е нејасно
- алтернативите тешко се дефинираат
- информации за исходите се недостапни

Базиран модел
Обезбедува носителите на одлуки со пристап до различни модели и им
помага во донесување на одлуки
Модели:
- Финансиски модели
- Модел на статистичка анализа
- Графички модели
- Проект за управување со модели

Предности и недостатоци на моделирање

Предности
- помалку скапи од сопствени приоди или реален систем.

- побрзо се гради од реални системи

- помалку ризично отколку реални системи


- Обезбедува учење или искуство (мака и грешки)

- идните проекции се можни

- може да тестира претпоставки

Недостатоци
- Претпоставки за реалноста може да се неточни
- Точност на предвидувањата се често несигурни
- Бара апстрактно мислење

Математички модел
-Идентификување променливи
-Воспоставување на равенки кои ги опишува нивните врски
-Поедноставувања преку претпоставки
-Модел на балансирање, поедноставување и точна застапеност на реалноста
-Моделирање: уметност и наука

Квантитативни модели
Одлука на променливи:
- Опис на алтернативни можности за акција
- Донесувачот на одлука ги контролира

Резултат на променливи
- Cе одразуваат на ниво на ефикасност на системот
- Зависни променливи

Резултати од одлуките се утврдени од страна на:


- одлука
- неконтролирани фактори
- Односите помеѓу променливите
Семантички веб
Web 3.0 ќе се потпира врз "интелигентни" веб апликации користејќи: -
обработка на природни јазици
-Машинско учење и резонирање
-Други напредни техники од Вештачка интелигенција, како обработка на
слика и препознавање
Целта е да се скрои пребарувањето на Интернет да биде по мерка на
корисниците, според нивните специфични барања, вкусови и потреби.

Семантички веб = веб страните да ги содржат не само податоците, туку исто


така и значењето на поимите во таа веб страна.Фактички, треба да им се
додаде значење на веб страните, да не бидат само текст со хипер-врски како
што е сега.
Софтверските апликации не можат да го разберат значењето на даден поим,
но може да "ги обработат информациите и да ги презентираат на корисен и
разбирлив начин".

Семантички Web е проширување на постојните Web документи со анотација,


со која им се овозможува пристап и разбирање на софтверските агенти и
алатки до семантичката содржина на документот.
Фактички, наместо да изградиме интелигентен агент, со интелигенција на
ниво на човек, свесни дека тоа скоро нема да се случи, ние ја менуваме
реалноста (веб просторот), и додаваме специјални ознаки на страните
(описи), за да ги направиме поразбирливи за компјутерите.
Историјат
- Семантички Web е за прв пат предложен во 1998 год. од основачот на
интернет Тим Бернерс-Лее (директор на истражување на W3C)
- Eволуцијата почнува со HTML кој содржи минимален број тагови за опис
како да се прикажат податоците
- Појавата на ХМL е чекор нанапред кон конзистентна синтакса за размена
- Посебно значајна е RDF спецификацијата за кодирање и размена на
метаподатоци со која се опишува содржината, квалитетот и други
карактеристики на податоците

Проблем #1 за компјутерите = природниот јазик е повеќесмислен и


компјутерите не можат да разликуваат на што се мисли.
Пр. Не постои начин во HTML да се специфицира дека £37.99 е всушност цена.

Проблем #2 = компјутерите не можат да интегрираат информации од повеќе


извори на веб
пример - со веб пребарување
Најди ми хотел со разумни цени на некој грчки остров за да летам таму во
мај.
Компјутерот треба да ги интегрира информациите за хотелите на грчките
острови со авионските летови до таму.
Постојат веб страни кои веќе нудат такви собрани и средени податоци ама
тоа е засега рачен и скап процес.

Компоненти на семантички Web


- Репрезентација на знаење како меѓусебно поврзани онтологии
(структурирано знаење)
- Онтологиите го даваат јазикот за разбирање и правилата на нивна употреба
- Интелигентни агенти како софтверски програми кои ќе можат да ги
прибираат, сортираат и обработуваат информациите најдени на Web

Teхнологии за поддршка на семантички Web


- XML (Extensible Markup Language)
- URI (Uniform Resource Identifiers)
- RDF (Resource Definition Framework)
- Онтологии
- Интелигентни агенти
XML
- Дефиниција на нови тагови за опис на податоци <author>Berners-
Lee</author>
- ХМL е збогатен со анотација која овозможува размена на структуриран текст
и информации преку интернет
- Структурата, содржината и семантиката на ХМL се дефинирани во
соодветни Document Type Definition (DTD) документи или во XML Schema

RDF (Resource Description Framework - рамка за опис на ресурсите)


- Toa e рамка за вклучување на добро дефинирани поими во форма на
метаподатоци (атрибути)
- Спецификација на содржина на Web страница, но и релациите помеѓу нив
- Метадата: автор на документ, датум на креирање, имиња на спонзори,
наслови, теми, тим на корисници за кои се наменети содржините
- RDF е нотација за запишување на описите на тоа како веб ресурситe се
поврзани еден со друг
- Базичен елемент на RDF е тројка која содржи субјект (идентификација на
ресурс), предикат (карактеристика, својство, атрибут, релација), објект (друг
ресурс или ентитет)
- RDF e напишан во XML

Со користење на URI се гарантира дека документите не содржат било каков


збор туку дека зборовите се добро дефинирани поими кои може секој да ги
најде на Web
Идеата на семантички веб e наместо ние да дефинираме RDF и онтологија,
може да користиме нечија онтологија, туѓ труд, да се врземе на неa и да ја
вметнеме на страната

URI - Uniform Resouce Identifiers (Униформиран локатор за ресурси)


- Слично со URL, но не мора да кореспондира со вистинска web aдреса
- URI може да претставува концепт (aвтор), индивидуи, и .. се останато
- Со помош на RDF, URI може да покажува и кон физички уреди
- URI има можност да дефинира не само концепти туку и релации помеѓу нив
- Најпозната форма на URI е URL
Друга пречка за семантичкиот веб е тоа што компјутерите немаат таков
вокабулар како луѓето. Ние го користиме јазикот целиот наш живот, така што
за нас полесно е да ја согледаме поврзаноста помеѓу различни зборови и
концепти и да се даде значење базирано на контекстот. На компјутерот не
може да му дадеме речник и енциклопедија и да го оставиме самиот да го
научи тоа. Со цел да се разбере значењето на зборовите и која е поврзаноста
помеѓу зборовите, компјутерот мора да има документи кои ги опишуваат
сите зборови и целата логика за да ги направи потребните поврзувања.Во
семантичкиот веб, ова доаѓа од schemata и ontologies. Онтологијата е
едноставно речник кој ги опишува објектите и како се поврзани тие едни со
други. Schema е метод за организирање на информации.

Онтологии
- Според дефиницијата тоа е множество на поими, соодветен лексикон,
категоризација, семантичка поврзаност и мал број на едноставни правила за
заклучување
- Потребни се технлогии за се' и сешто од производство до филозофија
- Онтологиите овозможуваат општоприфатени и заеднички толкувања на
оредени области со што се овозможува комуникација помеѓу апликации и
системи

Предности на онтологии
- Обезбедуваат збогатување на Web содржините со семантичко значење
- Интеграција на информации од различни извори, нејзино структурно
организирање, со што се обезбедува размена на податоци, знаење и модели
- Обезбедува конзистентност и коректност
- Можност за креирање универзални библиотеки со повеќекратна употреба

Дигиталните потписи ја подржуваат замислата за доверба. Ова може да се


користи за проверка на изворот на онтологијата или за да се осигурате дека
оригиналната содржина на онтологијата е сигурна

Google Knowledge Graph = граф со огромно знаење на меѓусебно поврзани


субјекти и нивните атрибути.Базиран на знаење се користи од страна на
Google да ги подобри резултатите од својот пребарувач со семантичко
пребарување информации собрани од многу различни извори.
Изграден е врз основа на информација извлечена од многу извори,
вклучително и на:
- freebase
- CIA World Factbook
- Wikipedia

Уште на почетокот содржи 570 милиони предмети (објекти) и преку 18


милијарди факти за предметите и за врските меѓу овие различни предмети

GKG го подобрува google search на три главни начини:


- Најди ја вистинската работа = се занимава со двосмисленоста на јазикот, ни
помага да го најдеме баш тоа што го бараме
- Резимирај = пронајди релевантна содржина околу таа тема, вклучувајќи ги и
клучните факти за некое лице
- Подлабоки и пошироки информации = откриваат нови факти, обезбедување
информации однапред
GKG интегрира информации за географија, влади, економија, и друго од CIA
World Factbook

Web of Data (мрежа од податоци)

Карактеристики:
- Врски помеѓу произволни нешта (на пример лица, локации, настани..)
- Структурата е експлицитна(јасна)

Google Knowledge Graph е основата за трансофмрација на google од


пребарувач на информации во пребарувач на знаење

Linked Open Data


Проектот како DBPedia е заеднички напор да се структурираат информации
од Википедиа и да ги обезбеди како Linked Open Data.На пример дај ми ги
сите научници што се родени во Цирих, Швајцарија Linked Data
Eден технолошки концепт кој е дел од семантички веб кој опишува метод на
објавување на структурирани податоци така што може да бидат меѓусебно
поврзани и да станат повеќе корисни.

Предвидување на временски серии


Предвидување
Процес на предвидување на иднината врз основа на историски податоци

Основа на сите деловни одлуки:


- Производство
- Складиште
- Персонал
- Набавки

Каде се користи анализа на серија на податоци ?


Анализа на серија на пoдатоци е важна во деловните кругови, во
мултимилионските компании и обичните домаќинства, сè со цел да се
донесе подобра одлука за некој настан кој се повторува, да знаеме што
отприлика да се очекува, или ако некој настан се случи да знаеме како да го
споредиме со некој предходен настан за да знаеме подобро да го оцениме,
дали тоа нешто е добро или лошо.
Анализата на серија на податоци иако изгледа како сложен математички
модел сите луѓе го користат тоа секојдневно, иако ретко се свесни за тоа.

Каде ни треба предвидување?


Општо земено, предвидувањата се речиси секогаш погреши.Се прават за
временска прогноза, за сообраќајот, за берзите и за состојбите на фирмите
од различни аспекти.Речиси секој деловен потфат се потпира на
предвидување.Не се сите изведени од софистицирани методи.Сепак
"најдобрите" образувани погодувања се поценети за потребите на
планирањето отколку да нема никакво предвидување и заради тоа да нема
ни никакво планирање.

Значајноста на предвидувањето
Разните оддели во организацијата зависат од предвидувањето за да ги
формулираат и извршуваат своите планови. Одделот за финансии треба да го
предвиди приливот и одливот на пари и капиталните побарувања. Кадровото
одделение треба да ги предвиди потребите за да се примат нови луѓе.
Производството треба да ги предвиди нивоата на производство, работната
сила, потребите од суровини, количините во магацинот итн. Нарачките не се
единствената променлива која треба да се земе предвид при
предвидувањата. Производителите предвидуваат можни отсуства на
работниците, работна состојба на машините, трошоци на суровините, време
и трошок за транспорт итн.
Видови предвидувања според временскиот хоризонт:

Краткорочни = обично помалце од 3 месеци, пример = распоред на задачи


по вработени

Среднорочни = од 3 до 2 години, пример = планирање на


продажба/производство

Долгорочни = повеќе од 2 години, пример = планирање на нов производ

Временски хоризонти на предвидувањето:


- Краток рок
Од 1 ден до 1 година, помалку од 1 сезона
Предвидување на потрошувачката, нивоата на екипираност, набавките,
залихите во магацин
Квантитативни методи

- Среден рок
Од 1 сезона до 2 години
Збирно планирање, планирање на капацитетите, предвидувањеа за
продажбите
Мешавина на квантитативни и квалитативни методи
- Долг рок
2 или преку 5 години во иднината
Истражување и развој, местоположба на фабриката, планирање на
производи, на нови сегменти на пазарот
Воглавно, според квалитативни методи

Краткорочни предвидувања: Потреби и примени


Распоред на постоечки ресурси
Колку работници ни требаат и кога?
Колку производи да направиме однапред за предвидената побарувачка?

Стекнување со дополнителни ресури


Кога ќе го исцрпиме капацитетот?
Уште колку луѓе ќе ни требаат?
Колкави ќе бидат порачките што се прават однапред?

Одредување на потребните ресурси


Кои машини ќе ни требаат или какви нови машини?
Кои услуги се бараат се' повеќе? Кои се' помалку?
Kaков профил на луѓе треба да вработиме?

Видови модели за предвидување


Квалитативни (врз основа на искуството, знаењето и интуицијата)
Квантитативни (врз основа на податоците, статистиките)

Квалитативни методи:
- Извршна одлука(Еxecutive Judgment) = мислење на група од експерти од
високо ниво.
- Sales Force Composite (агенти што дистрибуираат) = секој регионален
продавач обезбедува проценки за продажбата.Потоа тие проценки се
ревидираат за да се биде сигурен дека се реални.
- Истражување на пазарот = барање информации од корисниците кои се
однесуваат на нивните идни планови за купување.Тоа вклучува и употреба на
прашалници, потрошувачки панели и тестови на нови производи и услуги.
- Делфи метода = За разлика од редовните панели каде поединците се
вклучени во директна комуникација, во оваа метода се елиминира тој ефект
на потенцијално доминирање на најгласните членови во групата.Оваа група
вклучува поединци од внатре како и од надвор од организацијата. Обично,
процедурата се состои од следните чекори:

Секој експерт во групата ги прави неговите сопствени прогнози во форма на


изјави Координаторот ги собира сите групни извештаи и ги сумира, потоа
дава уште едно множество на прашања за секој член на групата.Секако
вклучени се тука и фидбекот од експертите.Ова се повторува додека не се
дојде до некаков консензус.

Квантитативни методи за одлучување


Квантитативните модели се обидуваат да ја предвидат иднината врз основа
на податоци од минатото.Основни претпоставки на овие модели:
- Tреба да постојат прибрани податоци од минатото
- Треба тие податоци да може да се изразат бројчано
- Се претпоставува дека факторите кои влијаеле во минатото ќе продолжат
да влијаат и во иднина

Модели на временски серии:


Случајна, тренд, сезонска, збирна
Побарувачката во следниот период е иста како побарувачката во последниот
период
Вообичаено не е добар

Simple Moving Average (Едноставен движечки просек)


Претпоставува дека просекот е добар проценител за идното однесување. Се
употребува при мал тренд или во случаеви кога нема тренд
Се користи за израмнување

Weighted Moving Average (тежински движечки просек)


Дава повеќе акцент на најновите податоци
Тежини: намалување за постари податоци
Сумирање до 1.0

Exponential Smoothing (Експоненцијална рамномерност)


Претпоставува дека најновите забелешки ја имаат најголемата
предвидувачка вредност.
Дава поголема тежина на на последните временски периоди
За да користите модел за предвидување:
-Соберете историски податоци
-Одберете модел
-Движечки просечни методи
-Изберете n (број на периоди)
-За тежински движечки просек: одберете тежина
-Експоненцијална рамномерност
-Одберете а(алфа)
-Селекциите треба да креираат добро предвидување
-Доброто предвидување има мала грешка(error) каде што таа е еднаква на
побарувачката – предвидувањето (Error = Demand – Forecast)

Мерки за грешки на предвидувањето


- MAD – Mean Absolute Deviation
- MSE – Mean Squared Error
- RMSE – Root Mean Squared Error

Mean Forecast Error (MFE or BIAS) – ја мери просечната девијација на


предвидувањето од вистинските
- Се нарекува и BIAS
- Minimum Bias- MFE кога е колку што е можно поблиску до 0
- Голем позитивен (негативен) MFE значи дека предвидувањето не ги
достигнува (ги надминува) актуелните/вистинските надгледувања
- Кога MFE е 0 не значи дека предвидувањето е перфектно, без грешка..
значи дека е на прав пат

Mean Absolute Deviation (MAD) – ја мери просечната, апсолутна девијација


на предвидувањето од вистинските
- Ја мери апсолутната грешка
- Позитивните и негативните грешки не се откажуваат (како и со MFE)
- Сакаме MAD да биде колку што е можно мал
- Нема начин да се знае дали MAD грешката е мала или голема во однос на
вистинските податоци

Mean Absolute Percentage Error (MAPE) – ја мери апсолутната грешка како


процент од предвидувањето
- Слично со MAD самошто ја мери девијацијата како процент од вистинските
податоци

Standard Squared Error (MSE) – ја мери варијансата на грешката на


предвидувањето
- Ја мери квадратната грешка на предвидување
- Препознава дека големите грешки се несразмерно повеќе “скапи” за
разлика од малите грешки
- Не се интерпретира лесно како MAD, MAPE

Едно предвидување можеме да кажеме дали има позитивен или негатив


BIAS со помош на Tracking Signal.
Добар Tracking Signal има ниски вредности

Предвидување во пракса
- Техничките аналитичари се фокусираат на цеата и обемот на податоците за
да се утврдат трендови од минатото коишто се очекуваат да се прават во
иднината
- Единствениот најважен елемент на техничката анализа е дека иднината на
девизните курсеви се базирани на сегашниот девизен курс
- Движењата на девизниот курс можат да се поделат на 3 периоди:

-Ден за ден
-Краткорочни (неколку дена до неколку месеца)
-Долгорочни
- Колку е поголем временскиот период на предвидувањето, толку е
поверојатно дека предвидувањето ќе биде неточно.

Swing Trading (Swing тргување)


- Бидејќи девизниот пазар често се соочува со кратки дневни трендови,
можеби најефикасниот начин да се продадат е преку swing тргувањето.
- Swing трговците не се обидуваат да го предвидат времетраењето на еден
тренд. Претпоставката на овој вид тргување e тоа дека еден може да ја проба
шансата да се здобие со предност од двете фази на пазарот (растење и
опаѓање)
- За успешно да се изврши едно swing тргување во девизниот пазар,
потребно е да се има релативно брз покажувач за тоа кога треба да се влезе
а кога треба да се излезе.
- Moving average crossovers се често оптималниот метод за да се одлучиме за
влез и излез. Ова е вака затоа што crossover е способен на означување на
крајот на еден тренд и почетокот на друг.
- Ако мислите дека дека овој стил на тргување е скоро премногу добар за да
биде вистинит, тогаш сте во право. Еден трговец скоро никогаш нема да
изгуби ако го употребува гореспоменатиот метод за влез и излез. Проблемот
е во тоа што повеќето трговци не се доволно капитализирани да држат
позиции коишто на крајот ќе станат профитабилни.

1. Учење со потикнување е кога на влез, покрај предметот што треба да се учи, се добива и
сигнал добро/лошо(награда и казна) во зависност од тоа колку добро одговорил
системот на тоа барање за учење или класификација.
a) True
b) False

2. Сакаме да изградиме онтологија за потребите на универзитет. Со drag and drop, поврзете


која активност во кој чекор се прави:
Прв дел:
а) Одредуваме дека еден студент може да слуша повеќе предмети – дефинирање на
ограничување за слотови
б) Препознаваме дека студент може да слуша предмет - Дефинирање на слотови
в) Се идентификуваат поимите факултет, студент, предмет, професор, задолжителен
предмет, изборен предмет, редовен студент, вонреден студент инт. – Набројување
(енумерација) на важни термини
г) Препознаваме дека станува збор за образование – дефинирање на доменот и опсегот
д) Одредуваме дека редовен студент е студент, задолжителен предмет е предмет -
Дефинирање на класите и нивната хиерархија
Втор дел:
а) Дефинирање на ограничувања за слотовите
б) Дефинирање на слотови
в) Набројување(енумерација) на важни термини
г) Дефинирање на доменот и опсегот
д) Дефинирање на класите и нивната хиерархија

3. Кои од наведените тврдења за семантички веб се точни?


а) Примарната цел на семантичкиот веб е да се обезбедат хипер-врски помеѓу веб
страните.
б) Семантичкиот веб се фокусира на тоа како ќе биде форматиран текстот на дадена веб
страна
в) Со семантички веб, веб страните треба да ги содржат не само податочите, туку исто
така и значењето на поимите во дадена веб страна.
г) Со семантичкиот веб треба да им се додаде значење на веб страните, да не бидат
само текст со хипер-врски.
д) Семантички веб не подразбира додавање на знаење на хипер-врските во веб страните.

4. Што од наведеното е точно за метод на тежински подвижен просек (weighted moving


average) за предвидување на идна вредност кај временски серии?
а) Става акцент на последните(поновите) податоци
б)Тежините се помали за последните податоци, и се зголемуваат за постарите податоци
в) Следната(идната) вредност се претпоставува дека е иста со просечната вредност
г) Збирот на тежините треба да е 1
д) Тежините се поголеми за последните податоци, и се намалуваат за постарите
податоци

5. На сликата е прикажана функцијата на припадност на матните множества А, Б и Ц. Кој


оператор за аргрегација е применет врз матните множества А и Б за добивање на мат...

а)Ниту едно од наведените


б) OR(A,B)
в) AND(~A, ~B)
г) OR( A, ~B)
д) OR( ~A, ~B)
ѓ) AND( A, ~B)
е) ~B
ж) ~A
з) AND( ~A, B)
ѕ) AND( A, B)
и) OR( ~A, B)

6. Нека е дадена следната табела за продажба на некој производ:

Која вредност ќе биде предвидена за продажба во неделата 7 користејќи прост


подвижен просек од последните 3 вредности?
Формулата за пресметување прост подвижен просек е:

а) 17
Б) 16
в) 15
г) 20
д) 11

7. Кои од следниве тврдења за моделот на векторски простор се точни?


а) Документите се обработуваат како се “вреќи” од зборови(bag of words) односно
термини
б) Тежините на термините во документот се децимални броеви помеѓу 0 и 1
в) Секој документ е претставен како вектор со должина еднаква на бројот на зборови во
документот
г) Секој документ е претставен како вектор со должина на бројот на зборови во
вокабуларот за соодветниот домен
д) Тежините на термините во документот се бинарни броеви(0 и 1) кои означуваат дали
терминот ги наоѓа во документот или не
8. Нека во вокабуларот постојат следниве зборови: факултет, знаење, студенти. За
следните два документи со дадени фреквенции на појавување на зборовите во
вокабуларот да се пресмета косинусното растојание
Д1 – (1, 2, 0)
Д2 – (2, 0, 1)

а) 0.66666
б) 0.333333
в)0.6
г) 0.5
д) 0.4

9. Што од наведеното е точно за системот за резонирање кај експерстните системи?


а) Ја известува техничката подршка во случај на препознавање на непознатата ситуација
б) Претставува интерпретер на базата на знање
в) Го применува знаењето при решавањето на конкретен проблем
д) Ги известува експертите во случај на препознавање на непознатата ситуација
ѓ) Во продукциските системи освен резонирањето и делува преземајќи соодветни
акции

10. ___Множество за обука_____________ содржи множество примери кои се користат за


да се научи системот да генерира точен одговор. ___Множество за тестирање_______
(нешто фали) множество примери со кои се мери однесувањето, односно способноста за
генерализација на обучениот систем.

11. За податочното множество дадено во табелата, каде атрибутот Credit cart trustfulness е
класен атрибут, колку изнесува информациската добивка на атрибутот Debit?
Ентропијата на множеството е:

12. Кои се недостатоците на системите за препораки со споредба на содржина?


а) Не може да понуди објаснувања на препораките
б) Фукнционира добро само за оцени собрани експлицитно
в) Потребни се податоци за други корисници
г) Градењето на профил на корисникот може да биде нетривијален процес
д) Наоѓањето на соодветните особини за споредба е тешко
ѓ) Прекумерна специфичност, оневозможувајќи препораки на производи кои не се
присутни во профилот на корисникот
ж) Не може да се употребува за нови производи
13. Користејќи колаборативно филтрирање со помош на пристап базиран на корисници, да
се пресмета оцената што Alex ќе ја даде за Thor, ако дел од м_____ корисници во
системот е:

Притоа, сличноста помеѓу корисниците веќе е пресметана од целата матрица и изнесува:


sim(Alex, Bob) = 0.7
Sim(Alex, Tom) = 0.9
Sim(Bob, Tom) = 0.8
Притоа формулата за предвидување оцена на корисникот х за ставката i е дадена во
продолжение:

Одбери едно:

14. Кои се недостатоците на системите за препораки со колаборативно филтрирање?


А) Функционира добро само за оцени собрани експлицитно
Б) Оскудност на податоците(матриците на корисност се ретко поплнети)
В) Мора да се дефинира профил на корисниците
Г) Не може да се употребува за нови производи
д) Наклонетост кон популарните производи
ѓ) Потребно е системот да има доволен борј на корисници со доволен број на оцени за
да се најдат најсличните
Е) Може да се применува само за одреден тип на производи(ставки)

15. Која е претпоставнката при користење на Bag of Words пристапот?


Одбери едно:
А) Позицијата на зборот го определува неговото значење
Б) Позицијата на зборот е значајна
В) Сите зборови се еднакво значајни
Г) Зборовите на почетокот се поважни од зборовите на крајот од текстот
д) Позицијата на зборот не е значајна
16.

13
17. Колку тежини има невронска мрежа без bias неврони со 1 неврон во влезен слој, 3
неврони со скриен слој и 2 неврони во излезен слој?
9
18.

е
19. За кој оператор од булова логика, да се одбере соодветниот оператор од матна логика?
Прв дел:
A) AND(x,y) – min()
B) NOT(x) – 1-x
C) OR(x,y) – max()
Втор дел:
A) MIN(x,y)
B) 1 – x
C) MAX(x,y)
20.

You might also like