snz16 Teorija Baza

Експертни системи
1.Експертен систем (ЕС) е програма базирана на знаење која нуди

решавање на проблеми од одреден домен со квалитет на ниво на човечки
експерт од доменот.
Користи знаење екстрахирано од експерти од доменот и се обидува да ја
имитира нивната методологија на работа.
Повеќето ЕС не можат да учат од сопственото искуство.
2.ЕС се практични програми кои користат евристични стратегии

(развиени од луѓето) при решавањето на одредена класа на проблеми.
3.Карактеристики на ЕС:
Поради евристиката и интензивната употреба на експертско знаење ЕС
се:
Отворени за инспекција
Лесно се модифицираат
Евристични
ЕС се изградени за решавање на различни видови проблеми во
медицината, математиката, инженерството, хемијата, геологијата,
компјутерските науки, економијата, правото, одбраната и образованието.
4.ЕС категории на проблеми:

- Интерпретација – формирање на заклучоци или описи на високо ниво од
збирка на сурови податоци.
- Предвидување – проектирање на веројатен исход и последици на
дадена ситуација.
- Дијагноза – одредување на причината на дисфункција во комплексни
ситуации на основа на набљудувани симптоми.
- Дизајн – одредување на конфигурација на системски компоненти кои
задоволуваат одредени ограничувања и постуваат одредени цели.
- Планирање – одредување на секвенца на акции кои ќе постигнат
одредени цели при дадени појдовни услови.
- Надгледување – споредување на набљудуваното однесување на систем
со неговото очекувано однесување.
- Дебагирање и поправки – одредување и примена на лек/поправка за
констатирани дисфункции.
- Инструирање – детектирање и корегирање на недостатоци во
разбирањето на одредена област од страна на студентот.
- Контрола – управување со однесувањето на комплексни околини.
5. Подсистем за објаснување.Подсистемот за објасување мора да може

да одговара на два вида прашања:
- HOW queries – објаснување на начинот како се добиени заклучоците на
системот.
- WHY queries – објаснување за тоа зошто на системот му треба одреден
податок (знаење).
6. Систем за резонирање
- претставува интерпретер на базата на знаење.
- го применува знаењето при решавањето на конкретен проблем.
- кај продукциските системи презема контролен циклус на препознавање-
делување.
7.Модуларен дизајн на ЕС
Одвоеноста на машината за резонирање од базата на знаење е важна од
неколку причини:
- Репрезентација на знаењето на поприроден начин во форма на if-then
правила.
- Градителите на ЕС може да се концентрираат на организација и
имплементација на знаење за решавање на проблемот.
- Може да се вршат промени на дел од базата на знаење без потреба за
промени во остатокот од кодот.
- Истиот код за контрола и резонирање (изведување) може да се употреби
за различни системи базирани на знаење.
- Модуларноста овозможува лесно експериментирање со алтернативни
контролни режими над истата база на правила.
8.Начини на резонирање во ЕС
Различни проблеми бараат различен начин на резонирање при нивното
решавање:
- Пребарување водено од целта (goal-driven search)
- Пребарување водено од податоците(data-driven search)
9.Примарни учесници во изградбата на ЕС се:
- Експерт во областа (domain expert)
- Инженер на знаење (knowledge engineer)
- Краен корисник (end user)
10. Режими на работа кај ЕС

- Режим на прибирање на знаење
- Консултациски режим
- Објаснувачки режим
Режим на прибирање на знаење = се врши прибирање на почетното

знаење во ЕС и ажурирање на знаењето од страна на инженерот на
знаење, кој пак се консултира со некој експерт или со енциклопедии,
книги, прирачници.
Што содржи прибраното знаење?
Општи факти и концепти во областа, проблеми кои се јавуваат во областа,
решенија на постојните проблеми добиени од искуството во областа,
техники за решавање на проблеми во областа, речникот како и жаргонот
на областа.
11.Кои проблеми се соодветни за имплементација на ЕС?

- Потребата за решение ја оправдува цената
- Експертиза не е расположлива во сите ситуации каде таа е потребна.
- Проблемот може да се реши со техники на симболичко резонирање
- Доменот на проблемот е добро структуриран и нема потреба од знаење
од општа култура
- Проблемот не може да се реши со примена на традиционалните
пресметковни методи
- Постојат признати експерти расположени за соработка
- Проблемот е од соодветна област и комплексност.
12.Недостатоци на ЕС
- Недостаток на здрав разум или знаење од општа култура(common sense)
- Недостаток на флексибилност и робустност
- Неможност за давање на издржани објаснувања за одлуките што ги
предлагаат
- Тешкотии со проверка на коректноста
- Мали можности за учење од искуство
13.Методи за справување со несигурностите
- Предодредена (Default) или немонотона логика
- Правила со меки тежински фактори
- Веројатност
Веројатност = Веројатносните тврдења ги сумираат ефектите на:

- мрзливост: неуспех во набројувањето на исклучоците, квалификациите
итн.
- непознавање: недостиг на релевантни факти, почетни услови итн.
Веројатностите на исказите се менуваат со нови сознанија(докази).
Теорија на полезност (Utility theory) се користи за да се претстават

преференците и да се заклучува за нив.
Теорија на одлучување = теорија на веројатност + теорија на полезност.
Maтна логика
-Терминот "матна логика" е за првпат воведен од полскиот научник
Lukasiewich во 1920 г.
- Zadeh се смета за татко на матната логика, кој во 1965 г. и дал
математички облик.
- Дефиниција = гранка на логиката која користи степен на припадност на

елементите кон некое множество. Матната логика тежнее да ги
квантифицира "матните", недоволно јасните, термини кои се присутни во
природните јазици.
- Термини за неопределеност од природните јазици во матната логика се

викаат лингвистички променливи или матни вредности.
-Област на променливи на природниот јазик се можните вредности на

лингвистичката променлива.
-матно множество-множество од променливи.
- Карактеристики на Функции на припадност: субјективни мерки,

неверојатносни функции
- Функциите на припадност(MF):
Целосно го дефинира матното множество
Овозможува да се мери сличноста помеѓу елементите од едно матно
множество
Може да има било каква форма но постојат неколку најчесто
користени функции кои се користата во повеќе реални апликации.
Најексплоатирани се триаголна, трапезоидна, Гаусова, bell-shaped
и.т.н.
- Формирање на матни множества

со интервјуирање на повеќе особи
со консултација со експерт
со користење на техники од вештачка интелигенција и машинско
учење како: heuristic selection, clustering approach, c-means clustering
approach, adaptive vector quantization, self-organising map COM, невронски
мрежи Кosko (1992)
- Како се креираат матни правила?

Нема податоци,само стручно мислење на располагање: употребува
илустрација, директен рејтинг, анкетирање и други слични техники.
Постојат податоци но не стручни мислења, користи методи од
машинско учење (на пр. групирање)
Кога и податоците и стручното мислење се достапни: користи методи
од машинско учење и од експерти но бидете внимателни во врска со
правилото експлозија.
- Fuzzy system (Матен систем)= Матен систем содржи: матни множества,

if-then правила, правило состав и процес на производство на мерливи
резултати.
- Дефазификацијата се користи за да се добие јасен излез од матната
логика.
Онтологии
- Koга луѓето го спознаваат некој објект и резонираат околу него, ова
спознание се формира во концепт (поим). Концептот е дел од нашето
севкупно знаење и е поврзан со соодветни релации со други концепти.
- Организација на знаењето во хиерархија на класи. Механизам за
репрезентација на релацијата помеѓу објектот и неговата класа или
помеѓу класа и нејзината наткласа. Престава во форма на дрво, решетка,
граф.
Придобивки од хиерархиската репрезентација на знаење:
Се избегнува непотребно дуплирање на факти заеднички за поголема
група
Лесно одржување на конзистентна база на знаење
Лесно додавање нови класи и индивидуи
- Е-релација:
Moже да поврзе: два генерички јазли("e-подмножество-од-
множество"), индивидуален со генерички јазел ("е-елемент-од-
множество")
Формира природна хиерархија
Сличност со релацијата "има"
Наследување на својствата и исклучоците
- Сите поапстрактни нивоа се викаат надредени (super-ordinate)

- Сите поспецифични нивоа се викаат подредени (sub-ordinate)
- Во центарот се типичните примери (радијални) а останатите примери на
категоријата се распоредени наоколу.
- WORDNET преставува најголема семантичка мрежа за англиски јазик.
Потекнува од универзитетот Принстон. Хиерархијата на наследства е
најчесто 6-7 нивоа, но и преку 10 за некои специфични категории.
НАЈВАЖНИ ОДНОСИ ВО WORDNET:
- Хиперними оди погоре во значењето
- Хипоним одење подоле по значењето
- Холоним
- Мероними
- Синоним = збор што е ист или многу близок на некој збор по значењето.
- Антоним = збор со спротивно значење
- Онтологија = логична теорија која што го зима предвид основното

значење на формалниот речник.
- Онтологија = ригорозни и сеопфатна организација на некои знаења на
домен, таа е обично хиерархиска и ги содржи сите релевантни субјекти и
нивните односи.
- Онтологија = тоа е теорија што се занимава со видовите на нешта,
односно видовите на апстрактни ентитети кои што се допуштени во
јазичниот систем.
- CIDOC CRM: домејн онтологија, базирана на објектно ориентиран модел,
составена од ентитети организирани во хиерархијаповрзани едни со други
преку сопствени линкови.
- CRM = oснова за взаемно разбирање помеѓу професионалци за културно

наследство и IT специјалисти. Потребна за јасна и недвосмислена
комуникација.
- CRM исто така е техничка референца за споредување и оценување на

информациски системи, податочни шеми. CRM е основа за трансфер на
податоци помеѓу некомпатибилни системи. CRM e oснова и за
архивирање на податоци.CRM може да се користи и за дизајн на
заедничка XML шема.
Пронаоѓање на документи
- Долгорочен предизвик на Вештачката интелигенција е автоматско
разбирање на текстуалните податоци и извлекување на некакво знаење
од самиот текст.
- Пронаоѓање на информации(Information Retrieval -IR)
Koнцепциски, IR e проучување за наоѓање на потребната информација,
т.е. IR им помага на корисниците да ја најдат информацијата која ги
задоволува нивните информациски потреби.
Историски, IR се однесува на пронаоѓање на документи, истакнувајќи
го документот како основна единица. Пронаоѓање на документи што се
релевантни на корисничкото прашање.
Технички, IR го обработува прибирањето, организацијата, чувањето,
пронаоѓањето и распределбата на информациите.
- IR прашања (queries) (прашања за пронаоѓање на информации)

Прашања според клучни зборови (Кеyword queries)
Логички прашања (користејќи AND, OR, NOT) (Boolean queries)
Прашања според фрази (Phrase queries)
Приближни прашања (Proximity queries)
Прашања според цел документ (Full document queries)
Прашања на природен јазик (Natural language questions)
- Модели на пронаоѓање на информации (Information retrieval models)

IR моделот одредува како документот и прашањето се претставени и
како се дефинира релевантноста на документот според корисничкото
прашање.
Главни модели: логички модел(Boolean model), модел на векторски
простор (Vector space model), статистички јазичен модел (Statistical
language model).
- Логички модел(Boolean model) = секој документ или прашање се

обработува како "враќа" од зборови или термини.Редоследот на
зборовите не се разгледува.Вреќата е речник (vocabulary).
Tермините од прашањата се комбинираат логички со употреба на
логичките оператори И, ИЛИ и НЕГАЦИЈА (АND, OR, NOT).
За дадено прашање со логички оператори, системот ги пронаоѓа сите
документи кои го задоволуваат логичкиот услов од прашањето.Се вика
точно поклопување (exact match).
Резултатите од пребарувањето се обично доста лоши бидејќи
фреквенцијата на термините не е земена предвид.
- Модел на векторски простор (Vector space model) = документите исто

така се обработуваат како да се вреќа од зборови (bag of words) односно
термини. Секој документ е претставен како вектор.
Сепак тежините на термините веќе не се само 0 или 1.Секоја тежина на
терминот е пресметана врз основа на некоја варијанта на TF или TF-IDF
шемите.
Шемата според фреквенцијата на термините (Тerm Frequency (TF)
scheme): Тежината на терминот ti во документот dj e бројот на појавувања
на ti во dj, oзначено со fij.Може да се применува и нормализација.
- Frequency counts + TF-IDF = брои колку пати еден збор се појавува во

документ.Користи фреквенција на појавување за да се покаже однос на
значење на зборот во еден документ. Брои колку документи во колекција
го содржат секој збор.
- Предобработка на текст
Извлекување на зборови(термини): лесно
Остранување на службени зборови (stopwords)
Наоѓање на корените на зборовите (stemming)
Пресметување на фреквенцијата (честотата) на термините и на нивните
TF-IDF тежини.
-Остранување на службени зборови (stopwords) = Неколку од најчесто

користените зборови во англискиот се бескорисни во IR и податочното
рударење - овие зборови се нарекуваат stopwords.
пр. the, of , and, to

Oбично околку 400 до 500 такви зборови
- Stemming = техника што се користи за да се најде коренот на зборот.
пр. Од user -> user, users, used, using

Придобивки = подобрување на ефикасноста на IR: појавување на
слични зборови. Комбинирање на зборови со слични корени може да го
намали индексирањето за 40-50 %
- Рангирање на прецизноста
Ја пресметува прецизноста во некој избран ранг.
Главно се користи за евалуација во веб пребарување.
За веб мотор за пребарување, можеме да пресметаме прецизност за
5,10,15,20,25,30 вратени страни. Како корисник, ретко гледаме повеќе од
30 страни.
Сеќавањето не е многу значајно во веб пребарувањето, бидејќи бројот
на релевантни документи е огромен и не може сите да се пронајдат и
вратат како резултат.
- Инвертиран индекс на колекција од документи во основа е податочна

структура што:
го дава секој карактеристичен збор со листа од сите документи што го
содржат тој збор. Така во пронаоѓањето, потребно е константно време да
најдете документ што го содржи бараниот збор.
-Пребарување преку превртен индекс (inverted index) = за дадено

прашање q, пребарувањето се одвива според следниве чекори:
Чекор 1 (пребарување по речник): најди го секој термин/збор од q во
превртениот индекс.
Чекор 2(спојување на резултати): спој ги резултатите што ги содржат
сите или само некои од зборовите/термините од q.
Чекор 3(Пресметка на рангот): да се подредат во опаѓачки редослед
пронајдените документи според рангот, со помош на: рангирање по
содржина (content-based ranking), рангирање според врските (link-based
ranking).
- Различните мотори за пребурување (search engines)= вистинските

разлики меѓу разните мотори за пребарување се според:
нивните шеми за тежините на индексите
вклучуваат местоположба на термини, пример во насловот, во текстот,
во истакнатите зборови и сл.
Нивните алгоритми за рангирање на пронајдените документи
Само малку од овие се објавени од компаниите, тие им се строго
чувана деловна тајна.
- Сепак ние знаеме за некои работи од тие алгоритми

Фреквенција на зборови(Word frequency) = бројот на колку пати
зборовите се појавуваат во пребарувањето може да помогне да се утврди
релевантноста на документот.
Локација на документот(Document location) = насловот на документот
најверојатно се појавување на почетокот од документот.
Растојание на зборот(Word distance)= aко има повеќе зборови во
пребарувањето, би требало да се појават заедно во документот.
- Според врските помеѓу документите (Link-based ranking)

Така работи Google, алгоритмот се вика PageRank
PageRank работи со броење на бројот и квалитетот на линкови до
некоја страна по тоа ќе се утврди груба проценка за тоа колку е важна веб
страната.Основата претпоставка е дека повеќе важни веб страници
веројатно ќе добијат повеќе линкови што водат кон нив од разни
страници.
Системи на препорака
- Типови на препорака
Персонално уредени (ние сме ја направиле листата)
o Листа на омилени
o Листа на потребни нешта
Едноставно одберени/класифицирани
o Топ 10, Најпопуларни, Скорешни прикачувања
Прилагодени на индивидуални корисници
o Аmazon, Netflix…
-Формален модел
X = број на купувачи
S = број на производи
R = сет на рејтинзи
Утилитарна функција u: X x S -> R
- Главни проблеми
Прибирање на “познати” рејтинзи за матрицата
o Како да земаш податоци во утиларната матрица
Да се екстраполираат (заклучат/дефинираат ) непознатите рејтинзи
од познатите
o Главно заинтересирани за високи непознати рејтинзи
o Не ги интересира што не не интересира, туку што не интересира
Проценување/оценување на методите на екстраполација
o Како да се мери успехот/перформансите на методите за препорака
-Собирање/прибирање на рејтинзи
Експлицитно
o Ќе прашуваме луѓе за да го оценатат производот
o Не е толку добро во пракса – на луѓето не може да ми им се пречи
Имплицитно
o Да ги дознаеме рејтинзите од однесувањето на корисниците
o Пр. Купување на производ подразбира висок рејтинг
- Екстраполирање (дефинирање/заклучување) на услужливостите

Главен проблем е тоа што u матрицата е ретка/слаба
o Повеќето луѓе не ги имаат оценето повеќето производи
o Исто така новите производи немаат рејтинзи а пак за новите купувачи
немаме информации за рејтинзи и сл.
Имаме 3 пристапа до системите за препорака:

o Базирани врз основа на содржината
o Колаборација/соработка
o Хибриден (базиран на фактор на латентност(прикриеност, тајност)
Системи на препорака базирани врз основа на содржината

Главната идеја е да се предложи производ на купувачот х којшто е
сличен на претходните производи коишто се оценети високо од х
Примери:
o Препораки за филмови
Препорачај филмови со истоит актер/и , режисер, жанр и
слично
o Вебсајтови, блогови, вести
Препорачај останати сајтови со слична содржина
- Профили на производи
За секој производ да се креира профил
Профил претставува сет (вектор) од карактеристки
o Кај филмовите тоа се актерот, режисерот, авторот на филмот
o Кај текстовите тоа може да претставува сет на важни зборчиња
во документот
Како да ги земеме/одбереме најважните карактеристики (зборови)
o TF-IDF (Term Frenquency * Inverse Doc Frequency)
-Пристапи базарни врз основа на моделот/типот

За секој корисник да се научи класификатор којшто ќе ги
класифицира производите во една класа на рејтинзи.
o Посакуван од корисникот и не посакуван од корисникот
Класификаторот ќе се применува на секој производ за да се најдат
потенцијални кандидати за негово купување
Проблемот е скалабилноста, нема да пребарува понатаму во класата
- Предности на пристапот базиран врз основа на содржината:

Не се потребни информации за други корисници
Способен е да препорача на оние корисници којшто имаат посебни
вкусови
Способен е да препорачува нови и непопуларни производи
Способен е да дава објаснувања со тоа што ќе листа карактеристи на
содржината што предизвикале истиот тој производ да биде препорачан.
- Ограничувања на пристапот базиран врз основа на содржината

(недостатоци):
Тешко е да се најде соодветната карактеристика (пр. Слики,
филмови, музика)
Прекумерна специјализација
o Никогаш не препорачува производи надвор од содржината на
профилот на корисникот
o Некои луѓе може да имаат повеќе интереси
Препораки за нови корисници (како да креира профил на
корисникот)
-Колаборативно филтрирање
Нека корисникот е х
Најди сет од N корисници чии рејтинзи се слични со оние на
корисникот х
Направи пресметка на рејтинзите на х базирана на рејтинзите на
корисниците во N
Комплексност
o Скапо ќе чини ако сакаме да најдеме k најмногу слични
корисници
o Прескапо ќе биде тоа да го направиме во текот на процесот
Производ-производ колаборативно филтрирање

o Досега видовме само корисник-корисник колаборативно филтрирање
o Сега имаме уште еден вид а тоа е производ-производ
За производ i, најди останати слични производи
Направи пресметка за рејтингот на производот i базирана врз
рејтинзите на сличните производи
Може да се користат истите функции за метрика и за
предвидување како во корисник-корисник моделот
Предности и слабости на колаборативното филтрирање:

o Предноста е тоа што функционира за секој вид на производ (не е
потребна селекција на карактеристики)
o Негативности се:
Нема доволно корисници во системот за да се најде
соодветното
Тешко е да се најдат корисници коишто ги оцениле истите
производи
Матрицата за корисникот/рејтинзите е ретка/раштракана
Не може да се препорача производ којшто претходно не бил
оценет
Нови, нејасни производи
Не можеме да препорачаме производ на некој со посебен вкус
Има тенденција да се препорачуваат популарни производи
-Хибридни методи
Имплементирај 2 или повеќе препорачувачи и комбинирај
предвидувања
Додадете ги методите за препорака базирани врз содржината на
колаборативното филтрирање
Дрва за одлучување
- Влез – објект или ситуација опишана со множество особини

(обележја).Влезните атрибути можат да бидат дискретни или постојани.
- Излез – ДА/НЕ одлука
- Секој внатрешен јазел претставува испитување на вредноста на една од
особините (и гранење во зависност од вредноста)
-Секој лист претставува булова вредност која треба да се врати како
резултат ако се стигне до него
- Класификатори: Примероците се претставени со вектори од вредности
на атрибутите
Kласификација = тоа е една од главните задачи на податочното рударство

и на вештачката интелигенција воопшто.
Категоријален атрибут = атрибут кој може да прими само дискретни

вредности(2 или повеќе). Исто така се нарекува и симболички атрибут.
Реален атрибут = атрибут со реални броеви.
Табели на меѓузависности = поопшто име за хистограм, едно-

димензионална табела на меѓузависности. Рецепт за правење на к-
димензионална табела на меѓузависности:
- Избери k атрибути од податочното множество.Означи ги со
а1,a2,...ak.
- За секоја можна комбинација на вредности, а1=х1, а2=х2,...ак=хк,
запиши колку често таа комбинација се појавува.
2-D табела на меѓузависности = може да видиме колку записи постојат за

секоја комбинација (секој пар) на вредности на атрибутите.
Попрегледно е графички.
Полесно се забележуваат интересни нешта ако се растегнат линиите на
хистограмот:
3-D табела на меѓузависност

Ваквите табели се потешки за следење.
- On-Line Analytical Processing = тоа се софтверски пакети и додатоци за

базите на податоци за да прават вакви анализи и познати се како ОLAP
aлатки. Обично вклучуваат и навигација за да се гледаат разни пресеци и
збирни вредности на овие табели на меѓузависности. Обично имаат и
убави визуализации на хистограми.
Изградба на дрва за одлучување:

- Почни со сите податоци за да се одреди коренот
- Се избира атрибут и се формулира логички тест за некој атрибут
- Се разгранува за секој различен резултат на тестот, и се пренесува
подмножеството на примероци што го задоволуваат тој резултат на тестот
кон соодветното поддрво.
- Рекурзивно се прави ова на секое поддрво
- Условот за крај одредува кога еден јазел останува да биде лист.
Критични чекори
Формулација на добри логички тестови
Избор на мерка за атрибутите
Decision-Tree-Learning користи дрво за одлучување како предвидлив

модел кој покажува забелешки за ставка да заклучи за целната вредност
на ставката. Тоа е едно од предвидливо моделирање пристапи кои се
користат во областа на статистиката, податоци за рударство и машинско
учење
Decision-Tree-Learning (DTL):
- Цел: да се пронајде мало дрво конзистентно со примероците за обука
- Идеја: рекурзивно избирање на најзначајниот атрибут како корен на
(под)дрво
Основната идеја на DTL алгоритмот е да се истестираат најзначајните

атрибути најпрво и дрвото во целина ќе биде мало.
Алгоритам за Decision-Tree-Learning(DTL):
- Изградба на дрвото [BuildTree(DataSet,Output)]
- Ако сите излезни вредности се исти во DataSet, врати јазол-лист кој вели
"предвиди го единствениот излез"
- Ако сите влезни вредности се исти, врати лист јазол кој вели "да се
предвиди мнозинство излез"
- Инаку најди атрибут Х со највисока информациска добивка (Info Gain)
- Нека Х има nx различни вредности (т.е. Х има кратност nx)
Направи и врати внатрешен јазел со nx деца
i-тото дете треба да се изгради со рекурзивен повик до
BuildTree(DSi, Output) каде што DSi е изграден и ги содржи сите
записи во DataSet за кои Х=i-тата посебна вредност на Х.
Aлгоритам
- Ако сите примери на множеството за обука S се со иста вредност K, тогаш
дрвото на решавање за K се состои од лист означен со K.
- Инаку, одбери тест кој ќе го подели множеството за обука S во две или
повеќе подмножества Si, зависно од излезот на тестот (на пр. вредностите
на атрибутите). Тестот станува корен на дрвото и за секој излез на тестот
изгради поддрво, повикувајќи ја оваа процедура рекурзивно за секое Si.
Избирање на тестови за атрибути = шемата која се користи во учењето на

одлучувачкото дрво за избирање атрибут и е дизајнирана за да ја
минимизира длабочината на финалното дрво.Идејата е да се избере
атрибутот кој најмногу тежнее да овозможи точна класификација на
примерите. Совршениот атрибут ги поделува примерите во множеството
коишто се сите позитивни или сите негативни.Мерката треба да ја има
својата максимална вредност кога атрибутот е совршен и својата
минимална вредност кога атрибутот е бескорисен.Една соодветна мерка е
очекуваната количина на информации кои се овозможени од атрибутот.
Теоријата на информации ја мери содржината на информациите во
битови. Еден бит информација е доволна за да се одговори да/не
прашање за коешто немаме претпоставка, како што е вртењето на монета.
-Ентропија = мерка за неизвесност
Зошто дрва за одлучување?

- Целта е со што помалку прашања да се одлучи за нешто
- Кога треба да одлучиме за некоја идна комбинација која до сега не се
појавила
Алгоритамот е добар ако продуцира хипотези кои успешно ги
класификуваат новите невидени примероци.
Како да се процени нивната успешност?

1.Собере (доволно големо) множество на познати примероци.
2.Множеството на познати примероци се дели на две дисјунктни
подмножества: множество за обука и множество за тестирање.
3.Со множество за обука со некој алгоритам се генерира хипотеза Н.
4.Одреди го процентот на правилно класификувани примероци од
множество за тестирање од страна на хипотезата Н.
5.Повтори ги 1-4 за различни големини на множествата за обука и
тестирање и различен случаен избор на множества со различни големини.
Како што се зголемува тренирачкото множество, се зголемува квалитетот
на предвидувањето.
Шум и преобучување
- оver-fitting (претерано научување/преучување)
- decision tree pruning (кастрење на дрвото за одлучување)
- statistical significance (статистичка значајност)
- cross-validation (вкрстена проверка)
- missing data (податоци што фалат или испуштени)
- multi-valued attributes (повеќевредносни)
- continuous-valued attributes (континуирано ценети атрибути)
- bias / variance tradeoff (компромис помеѓу наклоноста и разноликоста)
Дрвото на одлука исто така може да се изрази во облик на правила:

- IF => AND => THEN
Како да се справиме со непознати комбинации

-Понекогаш може да се случи да според ниту еден атрибут не може да се
добие комплетна класификација за сите можни вредности на даден
атрибут.Тогаш за таа вредност се става некоја предодредена (поверојатна,
препорачлива) вредност.
Предности на дрвата на одлучување:

- Дрвата на одлучување можат да генерираат разбирливи резултати
- Извршуваат класификација без премногу сложени пресметки
- Можат да работат и со континуирани и со дискретни вредности на
атрибутите
- Обезбедуваат јасен показател на тоа кои атрибути се најважни за
предвидување или класификација
Слабости на дрвата на одлучување:

- Подложни се на грешки (error-prone) со премногу класи
- Брзата поделба на примероците води до брзо опаѓање на квалитетот на
избирањето на атрибутите
- Проблеми со не-правоаголни региони
Заклучоци:
Дрвата на одлучување се една од најпопуларните техники за
класификација:
- Лесни се за разбирање
- Лесни за имплементација
- Лесно се употребуваат
- Пресметковно се лесни (computationally cheap)
Невронски мрежи
Два погледи на невронските мрежи:
- Од компјутерски аспект - вештачки невронски мрежи - метод за
претстава на функции со помош на едноставни аритметички пресметковни
елементи и нивна обука од примероци
- Од биолошки аспект - математички модел на работата на мозокот
Неврон е ќелија во мозокот чија основна функција е собирање,

процесирање и пропагирање на електрични сигнали.
Невронска мрежа = мрежа од меѓуповрзани неврони.
Што се тоа Вештачки невронски мрежи (Artificial Neural Networks) ?

Табели за обработка на информации инспирирана од начинот на кој
природните мозоци ја обработуваат информацијата, составена од густо
меѓуповрзани паралелни структури.
Постојат повеке видови на повекепроцесорски системи со:
- Eдноставни процесорски елементи
- Висок степен на меѓусебна поврзаност
- Едноставни пораки со броеви
- Прилагодлива итеракција помеѓу елементите
Главен поим кај невронските мрежи е состојбата на активација.

Состојбата на активација во потесна смисла го претставува излезот од
даден јазол, а во поширока означува дали на влезот во јазолот невронот
се активирал.
Во структурна смисла, невронската мрежа се состои од:

- Множество на процесирачки единици ("неврони", "јазли")
- Состојба на активација за секоја единка, која е еквивалентна на излезот
од единката
- Врска помеѓу единките.Вообичаено секоја врска е дефинирана со тежина
која го одредува ефектот (влијанието) кое го има единката.
- Правило на пропагација, кое го одбира ефективниот излез на единка од
неговите надворешни влезови.
- Надворешен влез (bias или офсет) за секоја единка
За да се направи невронска мрежа која ќе решава одредена задача

потребно е:
- да се одреди бројот на невроните
- нивниот тип
- како ќе бидат поврзани
- да се иницијализираат тежините и со некој алгоритам да се обучи
мрежата претставувајќи и познати примероци
- да се одлучи како ќе биде претставен проблемот (влез/излез)
Активациска функција = правило за изведување на новата состојба на

активација, врз основа на актуелната состојба на активација и актуелниот
влез. Функцијата на активација е неопаѓачка функција.Иако тоа е
најчестата форма, функцијата на активација може да биде и строго
лимитирачка функција (sgn функција), полу-линеарна функција или
нестрого лимитирана функција.
Структури на невронски мрежи:
- Feed-Forward (нанапред насочени)
- Layered Feed-Forward (слоевито нанапред насочени)
- Рекурентни невронски мрежи
- Хопфилдови невронски мрежи = двонасочни врски со симетрични
тежини
- Болцманови машини
Нанапред насочени (feed-forward) мрежи = каде обработката на

податоците од влезните до излезните јазли е строго
насочена.Обработката на податоците може да се прошири преку повеќе
слоеви на јазли, меѓутоа нема повратни врски, односно нема врски од
излезни до влезни јазли во исти или во различни слоеви.
Рекурентни мрежи = мрежи кои содржат повратни врски. За разлика од

нанапред насочените мрежи тука динамичките својства на мрежата се
важни. Во некои случаи, активационите вредности на јазлите подлежат на
процес на релаксација така да мрежата еволуира во стабилна состојба во
која овие активациони вредности повеќе нема да се менуваат. Кај
рекурентните мрежи, среќаваме дводимезнионален податочен тек, јамки.
Класификација (Учење)
Пoстојат два начина на модификација на врските во невронската мрежа:
1. Со користење на претходно знаење од проблемскиот домен се
поставуваат тежините на врските
2. Со тренирање на мрежата до шаблони, таа да си ги менува врските
според правило на учење кои споредува примерок дадени решенија со
влезови/излези од мрежата. Односно, во една поинаква синтагма
зборуваме за:
1.Supervised/self-supervised learning – Почетното знаење доаѓа од
надвор/од самата мрежа
2.Unsupervised learning/ Self-Organization – се учи да реагира на

кластери од влезови, статистички да одреди шаблони и поделба во
класи. Има сопствена репрезентација, и нема претходно зададено
знаење – започнува со случајни вредности за тежините на врските.
Учење со поттикнување (Reinforsement learning)= на влез, покрај
предметот што треба да се научи, се добива и сигнал добро/лошо во
зависност од тоа колку добро одговорил системот на тоа барање за учење
или класификација.
Oптимална структура на невронска мрежа

- Прекумерно обучување (оverfitting)
- Oбука на поголема целосно поврзана мрежа од која потоа се бришат
врски (и неврони) = optimal brain damage
- Растење на мрежата (додавање) неврони во текот на обуката
АRT - Adaptive Resonance Theory
GWR - Grow When Required
Перцептони = еднослојни нанапред насочени невронски мрежи. Мрежа

со сите влезови поврзани директно на излезите.Бидејќи секоја излезна
единица е независна од другите, секоја тежина влијае на само еден од
влезовите.
Што може да репрезентираат перцептроните? Маjority може, XOR не
може.
Перцептронот може да репрезентира само линеарно одвоиви функции.
Во наједноставен случај на мрежата има само два влезови и еден
излез.Излезот на неврон. Перцептоните имаат едноставен алгоритам на
учење кој ќе се вклопи кон кое било линеарно одвоиво множество за
тренирање. Идеата позади овој алгоритам, а и позади повеќето алгоритми
во учењето на невронските мрежи, е да се наместат тежините на мрежата
за да се минимизира некоја мерка на грешка на множеството за
тренирање.
Алгоритам
1. Се даваат случајни вредности на тежини и праг, се разгледува што се
добива и се споредува со она што сакаме да го добиеме
2. Ако добиеме излез поголем од саканиот, се намалуваат тежините а
прагот се зголемува
3. Ако добиеме излез помал од саканиот, се зголемувааат тежините а
прагот се намалува
4. Алгоритмот завршува кога за сите влезни вектори ќе се добие
соодветниот влез.
Со перцептрон на едно ниво може да се имплементира логичко "и",
логичко "или" и логичко "не". Оттука, следува дека со перцептрон на едно
ниво може да се реши било кој проблем.
Обука на перцептрон
Постои алгоритам кој може да научи било која линеарно сепарабилна
функција ако му се дадат доволно примероци за обука
1. Иницијализација на тежините на случајни вредности
2. Промена на овие вредности со цел да се направат конзистентни со
примерите – итеративен процес на мали промени на тежините со кои би
се намалила разликата помеѓу добиениот и бараниот излез за даден
примерок - конвергенција.
Правило за промена на тежините

- Епоха - промена на сите тежини за сите примероци
- Правило за промена на тежините: Err = T - O
- Секој влез придонесува WjIj на вкупниот излез: Wj <- Wj +α · Ij · Err
- α - стапка на обука (learning rate)
Зависност на стапката на грешки од бројот на примероци

Повеќеслојни невронски мрежи
- Multilayer feed-forward neural networks (Rosenblatt 1950s)
- Проблем – обуката
- Back-propagation алгоритам (1969, 1980)
Повеќеслојна невронска мрежа е мрежа со скриени единици.Најчестиот

случај инволвира еден скриен слој.
Back-propagation = Tехниката за учење што работи на тој начин што

излезите од мрежата се споредуваат со очекуваните, точни вредности и се
проценува error функција. Се модифицираат тежините на врските, за да се
намали вредноста на error функцијата. Работи по принципот на алчни
алгоритми, го задава решението кое е најдобро во дадениот момент, кое
можеби нема да биде најоптималното решение на глобален план.
После доволен број на итерации, системот доаѓа во состојба каде ратата
на грешки е занемарливо мала – во тој момент кажуваме дека системот
научил одредена целна функција.
Пресметувањето на новите вредности на тежините на врските се прави со
наоѓање извод од error функцијата, наоѓање минимум. Затоа – најпогодни
функции за активација се континуално диференцијабилни функции, како
сигмоидната функција.
Проблемот е комплексен, заради наоѓање соодветен број на примерок
податоци за тренирање. Голема е веројатноста дека системот, при грешна
инструкција, ќе доведе до погрешни заклучоци и погрешна
генерализација, затоа што нема општо знаење и правилата за резонирање
се поинакви од оние на инженерот на знаење.
Проблемот со back propagation е тоа што може да се случи алгоритмот да
се концентрира на локален минимум на error функцијата.
Грешка кај повеќеслојни невронски мрежи:

- Да се подели одговорноста на грешката на соодветните тежини
- Скриениот јазол е "одговорен" за дел од грешката во секој од излезните
јазли со кои е поврзан. Грешката се дели според јачината на врската
помеѓу скриениот и излезниот јазел и се пропагираат наназад како грешки
за невроните од скриеното ниво.
Пропагација на грешка
Алгоритам:
- Пресметај ја Δ вредноста за излезните неврони според забележата
грешка
- Почнувајќи од излезното ниво повторувај за секое ниво на мрежата се до
влезното ниво:
Пропагирај ги Δ вредностите назад низ претходното ниво
Измени ги тежините помеѓу двете нивоа
Хопфилдова мрежа
- Хопфилдова мрежа се состои од N меѓусебно поврзани неврони кои си ги
променуваат нивните нивоа на активација асинхроно и независно од
другите неврони.
- Сите неврони се во исто време и влезни и излезни неврони.
- Активациската вредност се базира на (+1,-1)
- Системот се стреми да стигне во т.н. стабилна состојба каде ажурирањата
на врските се соодветни за проблематиката која ја решава системот.
- Состојбата на системот се дадена на активациските вредности y=(yk)
- Мрежните вредности sk(t+1) на невронот k во циклусот (t+1) e даден со
тежинска сума:
- Прагова функција се употребува за да се добие излезот:
- Невронот k во мрежата е стабилен во време t ако:
- Eдна состојба на мрежата се смета за вистински стабилна ако сите

неврони се стабилни.
Примени на Хопфилдови мрежи

- Основна примена на Хопфилдовите мрежи е кај асоцијативни мемории,
кај кои и само едно делче од меморијата да е прикажано, асоцијативната
меморија ќе се потсети на целото.
- Состојбите на системот одговараат на мустрите кои се запамтени во
стабилните состојби на мрежата.
- Овие состојби може да се замислат како делчиња од енергетскиот
простор.
Болцманова машина
Болцмановата машина делува според принципот на врамнотеженост.
Била нарекувана и „Хопфилдова мрежа со скриени слоеви“. Таа се состои
од непразно множество на видливи и можно множество на скриени
единки. Болцмановата машина е значајна, заради тоа што е првата
невронска мрежа која реализира учење на скриени променливи.
Карактеристики на невронските мрежи

- Експресивност
- Пресметковна ефикасност
- Способност за генерализација
- Отпорност на шум
- Не се транспаретни
За што се добри невронските мрежи?

- Добри препознавачи на урнеци и робустни класификатори
- Добри при решавање на проблеми кои се премногу сложени за
конвенционалните технологии
- Идеални решенија за мноштво проблеми како и за предвидувања
Баесови квасификатори
Баесовото правило може да се претвори во класификатор
пр. Како да се одлучи дали пациентот е болен или здрав, врз основа на:
- Веројатносен модел на набљудуваните податоци
- Претходно знаење
Bayesian framework (Баесовата рамка)

- Ни овозможува да ги комбинираме набљудуваните податоци и
претходното знаење.
- Обезбедува практични алгоритми за учење
- И генерира пристап кој овозможува корисна концептуална рамка
Oва значи дека било што може да биде класифициран, врз
основа на веројатносен модел
Баесовото правило (Bayes Rule)
- P(A) и P(B), претходна веројатност, е прв степен на верување во А.

- P(B|A) e условната веројатност или веројатноста е степен на верување во
B, со оглед дека А е точно
- P(A|B) е задната веројатност, веројатност за после земајќи ги во предвид
В за и против А
Наивен Баесов класификатор (Naïve Bayes)
Честопати се користи (како претпоставка за поедноставување) во случаи
каде "ефектните" променливи не се условно независни ако ни е зададена
причинската променлива.
Моделот е наивен бидејќи претпоставува дека атрибутите се условно
независни едни од други.
Наивниот Баесов класификатор претпоставува дека: Хi и Xj се меѓусебно
условно независни за Y, за секое i ≠j
Условна независност:
- Дефиниција: Х е условна независна од Y за дадено Z, ако веројатносната
распределба според која се владее Х е независна од вредностите на Y, за
таа вредност на Z.
Примери за примена
- За инспекција на ресторани
- За класификација на болести
- За класификација на текстови (за болести, за е-пошта, за групи со вести)
Пример некој со ресторани

Вие сте санитарен инспектор и одлучувате дали да се направи инспекција
на некој ресторан
- Губите еден долар ако немало потреба за тоа
- Добивате еден долар ако имало потреба
Пола од рестораните се со лоша хигиена.Во лошите ресторани 3/4 од
менијата се замастени.Во добрите ресторани 1/3 од менијата се
замастени. Дозволено ви е да видите случајно избрано мени.
Учење на класификација на документи

- Учење од примери кои се всушност документите од интерес
- Атрибути се зборовите
- Да се увиди дека наивната баесова претпоставка само значи дека имаме
модел на случајни низи од зборови во рамките на истата класа
Класификатори кои учат како да класифицираат некој документ

- Колку повеќе примери на документи и нивни точни класификации ги
гледа, толку подобро класификаторот ќе ги погодува точните
предвидувања за припадноста кон соодветната класа.
- Класификаторот се прави да почне со многу несигурни класификации и
како што учи кои од особините се важни за да прави разлики помеѓу
примери, така и сигурноста во предвидувањето се зголемува.
Матрица со појавувањето на зборовите во документите

- Вообичаено, текстуалните бази на податоци се параметризирани со т.н.
матрица на документи/термини (document-term matrix)
- Секој ред одговара на еден од документите
- Секоја колона одговара на некој збор (термин)
Параметрите
- Во зависност од методот за параметризација, елементите во матрицата
може да бидат:
Бинарни
Бројки , т.е. вкупниот број на повторувања на зборот Tj во Di
Тежински честоти
Учење на Баесов класификатор

1. Пред да се пушти во употреба некој Баесов класификатор, треба да се
добијат означени податоци за обука од страна на познавачи
2. Се учат параметрите (conditionals, priors)
3. По пуштање во погон, се применува класификаторот и на нови дотогаш
непознати комбинации
Наивен Баесов класификатор на документи

- Да се класифицира, кои електронски писма се непосакани (spam)
- Да се класифицира, кои е-писма имаат прилог (attachment)
- Y e со дискретна вредност, пр. Spam или Not Spam
- X = <X1, X2,... Xn> - документ
- Хi e случајна променлива која опишува.
Пример на наивна Баесова класификација на документи

Да го разгледаме проблемот на класификација на документи според
содржината, на пример, во сакана и несакана (spam) е-пошта. Да
замислиме дека документите се извлечени од некои класи на документи
кои што може да бидат моделирани како множества на зборови во кои
(независната) веројатност дека i-тиот збор на даден документ се појавува
во документ од класа С, може да се запише како: p (wi|C)
За оваа потреба, ние ги упростуваме нештата уште повеќе
претпоставувајќи дека зборовите се случајно расфрлани во документот -
т.е. дека зборовите не зависат од должината на документот, од нивната
позиција во однос на другите зборови во документот, или од други некои
контексти на документот.
Во тој случај веројатноста дека даден документ D ги содржи сите зборови
wi за дадена класа С е:
Прашањето на кое сакаме да дадаме одговор е: "која е веројатноста
даден документ D да припаѓа на таа класа С ?" т.е. која е p(C|D) ?
Според Баесова формула имаме:
Да претпоставиме, за сега, дека постојат само 2 взаемно исклучиви класи:
S и ¬S т.е. несакана (spam) и обична (not spam) така што секој елемент
(email) припаѓа во едната или во другата класа.
Според Баесовото правило:
На крај, документот може да се класифицира според правилото: spam е
ако p(S|D) > p(¬S|D) инаку не е spam.
Баесов препознавач за повеќе класи

Еј е некој документ, Нi е некоја класа
Наивен Баесов класификатор: 89% прецизност на класификацијата
Прецизноста наспроти големината на множеството за обука
Пример на Баесов систем за пребарување на Интернет

А - некој бара "физика" на интернет
B - некој ја избира токму оваа страница
P(A) и P(B) статистички се знаат со тек на време
P(B/A) - веројатност некој да ја избере токму оваа страница, а претходно
барал "физика" (се знае исто така статистички)
P(A/B) - која е веројатноста некој да бара физика, ако ја избрал оваа
страница (бидејќи можеби кликнал таму заради нешто други)
- Овие се факторите што мора да се адаптираат со тек на времето,
заради поуспешно пребарување.
- Статистички се одредува значењето (семантиката) на веб-страната,
врз основа на процената за релевантност од страна на луѓето -
корисници.
И покрај нивниот наивен дизајн и очигледно преупростените

претпоставки, Наивните Баесови класификатори се имаат покажано како
доста добри во многу сложени ситуации од реалниот свет.
Предност на Наивните Баесови класификатори е што бараат само мала
количина на податоци за обука за да ги проценат параметрите кои што се
неопходни за класификацијата.
Бидејќи независноста на променливите се претпоставува, треба да бидат
одредени само варијансите на променливите за секоја класа, а не целата
комбинаторна матрица на истовремено појавување
Додека Наивните Баесови класификатори често пати не успеваат да
произведат добра проценка за точните веројатности на класите, во многу
примени тоа и не се бара.
- На пример, Наивниот Баесов класификатор ќе може да прави точна
класификација се додека точната класа е поверојатна од сите
останати класи.
- Ова е точно независно од тоа дали веројатноста е малку или дури и
многу непрецизно проценета.
- На овој начин, целиот класификатор може да биде доволно
пропусен за да ги игнорира сериозните недостатоци во својот
наивен веројатносен модел врз кого се потпира
Системи за поддршка при

одлучувањето
Koмбинацијата на брзината на интернетот и созревањето вештачката
интелигенција доведе до софистицирани помагала за поддршка на
донесување одлуки во рамките на овие ризични и неизвесни услови. Овие
помагала имаат потенцијал да се подобри процесот на донесување на
одлуки што укажува на решенија кои се подобри од оние кои се направи
од страна на самиот човек. Тие се достапни во различни области од
медицинската дијагноза до контрола во сообраќајот.
Одлука = изборот направен од достапните алтернативи
Одлучување(донесување одлуки) = процес на идентификување на

проблемите и можностите за разрешување на нив
Систем за поддршка при одлучување (Decision Support System)
Системот за поддршка при одлучување (DSS) е интерактивен,
компјутерски-базиран систем, наменет да им помогне на носителите на
одлуки.Користи комуникациски технологии, податоци, документи, знаење
и модели за да се идентификуваат и да се решат проблеми и да се донесат
одлуки.
Системот за поддршка при одлучување (DSS) е општ термин за секоја
компјутерска апликација која ја подобрува способноста за донесување на
одлуки на една група или на некоја единка.
Карактеристики на DSS
- Се справува со големи количини на податоци од различни извори
- Обезбедува извештај и флексибилност на презентацијата
- Нуди текстуално и графичко насоченост
- Поддржува длабинска анализа
- Врши сложени, софистицирани анализи и споредби со користење на
напредни софтверски пакети
- Поддржува оптимизација, исполнување на минималните барања и
евристични пристапи
- Врши различни видови на анализи
"What if" анализи = прави хипотетички промени на проблемот и
забележува влијание врз резултатите
Симулација = двојни карактеристики на реалниот систем
Goal-seeking анализи = ги одредува проблематичните податоци
за даден резултат
Табела-базирани системи за поддршка на одлуката

DSS е составен од еден модел (или модели), извор на податоци, како и
кориснички интерфејс.
Кога еден модел се спроведува во Excel, можно е да користи Visual Basic
for Applications (VBA) да се направи системот поефикасен со
автоматизирање на интерактивни задачи инаку би требало да ги
повторуваат рутински
VBA исто така, може да го направи системот помоќен со проширување на
функционалноста на табела моделот и со измената на неговата употреба.
Куса историја
Академските истражувачи од многу дисциплини го проучуваа DSS
приближно 50 години.
Се смета дека концептот на DSS стана област на истражување во
средината на 1970-тите, добива интезитет во текот на 1980-тите.
Основни чекори во процесот на донесување на одлука

Чекор 1
Концептуалната потреба за проект се јавува главно како резултат од
идните барања
Тоа може да се направи од страна на тим на експерти
Вообичаено концептуална студија ќе ги идентификува потребното
техничко решение, економските заслуги и прифатливост на проектот во
општествено политички услови
Може да побара дискусија со финансиски институции, дали тие ќе
обезбедат потребни средства
Чекор 2
Под претпоставка дека е донесена одлука да се развие проектот понатаму
потребна е да се направи детална оценка на сите технички, економски и
општествено-политички фактори
Деталите можат да бидат квантитативни и врз основа на субјективни
знаења
Главното донесување на одлука е за новитетот на проектот
проектот технички може да биде нов (правење на нов авион)
Проектот може да користи веке основани технологија во нова
средината (Пр. користење на електрични воз во third world countries).
Во овој чекор, степенот на несигурност поврзан со секој фактор ќе почнат

да се појавуваат.
Разбирање на несигурноста, поврзана со било кој предлог е од суштинско
значење за донесување на одлуки.
Чекор 3
Ако резултатот од чекор 2 е да се продолжи проектот, следно се
подготвува тендерската спецификација.
Треба да се дефинира токму онаа работа што се бара на тендерот да се
направи. Идеално, тоа треба да се дефинира за секоја работа која треба
да се направи.
Магнитудата на несигурност поврзана со оваа фаза е причина за можните
варијации во цената и времетраењето на проектите.
Пред да се издаде на тендерската спецификација разумно е да се потврди
дека проектот е прифатлив за регулаторните органи и дека има адекватни
финансии на располагање.
Финансискиот директор треба да биде убеден дека проектот е остварлив,
дека предлагачот има искуство и способност за изведување на проект за
успешен финиш.
Чекор 4
Првата акција е да се одлучи дали една од понудите треба да се
прифатенa.
Понудувачот треба да има соодветно искуство способност и соодветни
финансиски ресурси.
Чекор 5
Под претпоставка дека сите чекори се завршени на задоволително ниво,
се превзема одлука за почнување на проектот.
Дури и кога проектот ќе почне, може да биде запрен ако околината во која
работи се промени.
Карактеристики на процесот на донесување на одлуку

Одлуката е донесена врз основа на информациите на располагање
Во секој дел од проценката, може да биде итеративен развој кое се смета
за подобрување во преземање на податоците како што продолжува
проектот
Проектот нема да оди напред, освен ако не постојат соодветни
финансиски средства.
Извршен систем за поддршка ESS

Специјализиран DSS кој го вклучува хардверот, софтверот, податоците,
постапките и луѓето кои се користат за да им помогнат на високо ниво на
директори во организацијата
Карактеристики на ESS:
- Прилагодена на индивидуалните директори
- Лесен за користење
- длабоки способности
- Поддршка на потребата за надворешните податоци
- Помош со ситуации со висок степен на неизвесност
- Прогнози и предвидувања
- Поврзано со додадена вредност на бизнис процеси
Способности на ЕСС
Поддршка за:
- Дефинирање на целокупната визија
- Cтратешко планирање
- Стратешкo организирање и екипирање
- Стратешка контрола
- Менаџирање на кризата
Менаџмент
Менаџментот е донесување на одлуки
Менаџерот е донесувачот на одлуки
Организациите се полни со менаџери на различно ниво.
Менаџментот се смета за уметност: талент стекнат со години преку обиди
и грешки.
Сепак донесувањето одлуки денес станува се повеќе комплицирано:
- Технологија /информации /Компјутери се пораст на повеќе избори
- Структурната Комплексноста / Конкуренција пораст на цена на грешките
- Меѓународните пазари / Конзумација е пораст на несигурност за
иднината
- Промените, двоумења се пораст на потребата за брза одлука
Проблеми на менаџментот
Повеќето проблеми на менаџментот за кои се бараат одлуки може да
бидат претставени со три стандардни елементи - цели, одлука на
променливи и ограничувања.
Цел
- Максимизирање на профитот
- Обезбеди најбрз влез на пазарот
- Минимизирај ја непријатноста на вработените
Одлука на променливи
- утврди која цена да се користи
- утврди ја должината на времето на тестови кои се работи на нов
производ / услуга
- Одредување на одговорности да се доделат на секој работник
Ограничувања
- не може да се наплаќа под цената
- Се прават тестови доволно да се задоволат минималните безбедносни
прописи
- Обезбеди одговорностите да се делат најмногу на двајца работници
Типови на проблеми
Структурирани: ситуации каде кога е потребна одлука, процедурите кои
следат може да бидат однапред специфицирани
- Повторувачки
- Стандардни методи на решенија
- Целосна автоматизација може да биде овозможено
Неструктурирани: ситуации за одлука каде што не е можно да се

определат однапред повеќето од процедурите кои треба да следат
- Еднократни
- Нема стандардни решенија
- Се потпираат на пресудата
- Автоматизацијата обично е неизводлива
Полу-структурирани: Процедурите за одлука може да се предефинираат,

но не доволно за да доведе до систем за препорака на одлуки
- Некои елементи или фази од процесот на донесување на одлуки имаат
повторувачки елементи
DSS e најкорисен за повторувачки аспекти на полу-структурирани

проблеми
Одлуки и одлучување
Голем дел од одлуките со кои менаџерите се справуваат секој ден имаат
одреден степен на несигурност и бараат не- програмирано донесување на
одлуки
- Може да биде тешко да се направи
- Направени услови за менување на фактори
- информациите може да бидат нејасни
- можеби ќе треба да се справи со конфликтни точки на гледање
Сигурност, ризик, неизвесност, двосмисленост
Сигурност = сите информации на одлучувачот треба да му се целосно на
располагање
Ризик
- одлуката има јасни цели
- добри информации се достапни
- идните исходи поврзани со секоја алтернатива се предмет на шанса
Несигурност
- Менаџерите знаат кои цели сакаат да ги постигнат
- Информации за алтернативите и идните настани се некомплетни
- менаџерите можеби ќе треба да дојдат до креативни пристапи кон
алтернативи
Двосмисленост
- далеку најтешката одлучувачка ситуација
- целите да се постигнат или проблемот да се реши е нејасно
- алтернативите тешко се дефинираат
- информации за исходите се недостапни
Базиран модел
Обезбедува носителите на одлуки со пристап до различни модели и им
помага во донесување на одлуки
Модели:
- Финансиски модели
- Модел на статистичка анализа
- Графички модели
- Проект за управување со модели
Предности и недостатоци на моделирање
Предности
- помалку скапи од сопствени приоди или реален систем.
- побрзо се гради од реални системи
- помалку ризично отколку реални системи

- Обезбедува учење или искуство (мака и грешки)
- идните проекции се можни
- може да тестира претпоставки
Недостатоци
- Претпоставки за реалноста може да се неточни
- Точност на предвидувањата се често несигурни
- Бара апстрактно мислење
Математички модел
-Идентификување променливи
-Воспоставување на равенки кои ги опишува нивните врски
-Поедноставувања преку претпоставки
-Модел на балансирање, поедноставување и точна застапеност на
реалноста
-Моделирање: уметност и наука
Квантитативни модели
Одлука на променливи:
- Опис на алтернативни можности за акција
- Донесувачот на одлука ги контролира
Резултат на променливи
- Cе одразуваат на ниво на ефикасност на системот
- Зависни променливи
Резултати од одлуките се утврдени од страна на:

- одлука
- неконтролирани фактори
- Односите помеѓу променливите
Семантички веб
Web 3.0 ќе се потпира врз "интелигентни" веб апликации користејќи:
-обработка на природни јазици
-Машинско учење и резонирање
-Други напредни техники од Вештачка интелигенција, како обработка на
слика и препознавање
Целта е да се скрои пребарувањето на Интернет да биде по мерка на
корисниците, според нивните специфични барања, вкусови и потреби.
Семантички веб = веб страните да ги содржат не само податоците, туку

исто така и значењето на поимите во таа веб страна.Фактички, треба да им
се додаде значење на веб страните, да не бидат само текст со хипер-врски
како што е сега.
Софтверските апликации не можат да го разберат значењето на даден
поим, но може да "ги обработат информациите и да ги презентираат на
корисен и разбирлив начин".
Семантички Web е проширување на постојните Web документи со

анотација, со која им се овозможува пристап и разбирање на
софтверските агенти и алатки до семантичката содржина на документот.
Фактички, наместо да изградиме интелигентен агент, со интелигенција на
ниво на човек, свесни дека тоа скоро нема да се случи, ние ја менуваме
реалноста (веб просторот), и додаваме специјални ознаки на страните
(описи), за да ги направиме поразбирливи за компјутерите.
Историјат
- Семантички Web е за прв пат предложен во 1998 год. од основачот на
интернет Тим Бернерс-Лее (директор на истражување на W3C)
- Eволуцијата почнува со HTML кој содржи минимален број тагови за опис
како да се прикажат податоците
- Појавата на ХМL е чекор нанапред кон конзистентна синтакса за размена
- Посебно значајна е RDF спецификацијата за кодирање и размена на
метаподатоци со која се опишува содржината, квалитетот и други
карактеристики на податоците
Проблем #1 за компјутерите = природниот јазик е повеќесмислен и

компјутерите не можат да разликуваат на што се мисли.
Пр. Не постои начин во HTML да се специфицира дека £37.99 е всушност
цена.
Проблем #2 = компјутерите не можат да интегрираат информации од

повеќе извори на веб
пример - со веб пребарување
Најди ми хотел со разумни цени на некој грчки остров за да летам таму во
мај.
Компјутерот треба да ги интегрира информациите за хотелите на грчките
острови со авионските летови до таму.
Постојат веб страни кои веќе нудат такви собрани и средени податоци ама
тоа е засега рачен и скап процес.
Компоненти на семантички Web

- Репрезентација на знаење како меѓусебно поврзани онтологии
(структурирано знаење)
- Онтологиите го даваат јазикот за разбирање и правилата на нивна
употреба
- Интелигентни агенти како софтверски програми кои ќе можат да ги
прибираат, сортираат и обработуваат информациите најдени на Web
Teхнологии за поддршка на семантички Web

- XML (Extensible Markup Language)
- URI (Uniform Resource Identifiers)
- RDF (Resource Definition Framework)
- Онтологии
- Интелигентни агенти
XML
- Дефиниција на нови тагови за опис на податоци <author>Berners-
Lee</author>
- ХМL е збогатен со анотација која овозможува размена на структуриран
текст и информации преку интернет
- Структурата, содржината и семантиката на ХМL се дефинирани во
соодветни Document Type Definition (DTD) документи или во XML Schema
RDF (Resource Description Framework - рамка за опис на ресурсите)

- Toa e рамка за вклучување на добро дефинирани поими во форма на
метаподатоци (атрибути)
- Спецификација на содржина на Web страница, но и релациите помеѓу
нив
- Метадата: автор на документ, датум на креирање, имиња на спонзори,
наслови, теми, тим на корисници за кои се наменети содржините
- RDF е нотација за запишување на описите на тоа како веб ресурситe се
поврзани еден со друг
- Базичен елемент на RDF е тројка која содржи субјект (идентификација на
ресурс), предикат (карактеристика, својство, атрибут, релација), објект
(друг ресурс или ентитет)
- RDF e напишан во XML
Со користење на URI се гарантира дека документите не содржат било

каков збор туку дека зборовите се добро дефинирани поими кои може
секој да ги најде на Web
Идеата на семантички веб e наместо ние да дефинираме RDF и онтологија,
може да користиме нечија онтологија, туѓ труд, да се врземе на неa и да ја
вметнеме на страната
URI - Uniform Resouce Identifiers (Униформиран локатор за ресурси)

- Слично со URL, но не мора да кореспондира со вистинска web aдреса
- URI може да претставува концепт (aвтор), индивидуи, и .. се останато
- Со помош на RDF, URI може да покажува и кон физички уреди
- URI има можност да дефинира не само концепти туку и релации помеѓу
нив
- Најпозната форма на URI е URL
Друга пречка за семантичкиот веб е тоа што компјутерите немаат таков

вокабулар како луѓето. Ние го користиме јазикот целиот наш живот, така
што за нас полесно е да ја согледаме поврзаноста помеѓу различни
зборови и концепти и да се даде значење базирано на контекстот. На
компјутерот не може да му дадеме речник и енциклопедија и да го
оставиме самиот да го научи тоа. Со цел да се разбере значењето на
зборовите и која е поврзаноста помеѓу зборовите, компјутерот мора да
има документи кои ги опишуваат сите зборови и целата логика за да ги
направи потребните поврзувања.Во семантичкиот веб, ова доаѓа од
schemata и ontologies. Онтологијата е едноставно речник кој ги опишува
објектите и како се поврзани тие едни со други. Schema е метод за
организирање на информации.
Онтологии
- Според дефиницијата тоа е множество на поими, соодветен лексикон,
категоризација, семантичка поврзаност и мал број на едноставни правила
за заклучување
- Потребни се технлогии за се' и сешто од производство до филозофија
- Онтологиите овозможуваат општоприфатени и заеднички толкувања на
оредени области со што се овозможува комуникација помеѓу апликации и
системи
Предности на онтологии
- Обезбедуваат збогатување на Web содржините со семантичко значење
- Интеграција на информации од различни извори, нејзино структурно
организирање, со што се обезбедува размена на податоци, знаење и
модели
- Обезбедува конзистентност и коректност
- Можност за креирање универзални библиотеки со повеќекратна
употреба
Дигиталните потписи ја подржуваат замислата за доверба. Ова може да се

користи за проверка на изворот на онтологијата или за да се осигурате
дека оригиналната содржина на онтологијата е сигурна
Google Knowledge Graph = граф со огромно знаење на меѓусебно поврзани

субјекти и нивните атрибути.Базиран на знаење се користи од страна на
Google да ги подобри резултатите од својот пребарувач со семантичко
пребарување информации собрани од многу различни извори.
Изграден е врз основа на информација извлечена од многу извори,
вклучително и на:
- freebase
- CIA World Factbook
- Wikipedia
Уште на почетокот содржи 570 милиони предмети (објекти) и преку 18
милијарди факти за предметите и за врските меѓу овие различни
предмети
GKG го подобрува google search на три главни начини:

- Најди ја вистинската работа = се занимава со двосмисленоста на јазикот,
ни помага да го најдеме баш тоа што го бараме
- Резимирај = пронајди релевантна содржина околу таа тема, вклучувајќи
ги и клучните факти за некое лице
- Подлабоки и пошироки информации = откриваат нови факти,
обезбедување информации однапред
GKG интегрира информации за географија, влади, економија, и друго од
CIA World Factbook
Web of Data (мрежа од податоци)
Карактеристики:
- Врски помеѓу произволни нешта (на пример лица, локации, настани..)
- Структурата е експлицитна(јасна)
Google Knowledge Graph е основата за трансофмрација на google од

пребарувач на информации во пребарувач на знаење
Linked Open Data

Проектот како DBPedia е заеднички напор да се структурираат
информации од Википедиа и да ги обезбеди како Linked Open Data.На
пример дај ми ги сите научници што се родени во Цирих, Швајцарија
Linked Data
Eден технолошки концепт кој е дел од семантички веб кој опишува метод
на објавување на структурирани податоци така што може да бидат
меѓусебно поврзани и да станат повеќе корисни.
Предвидување на временски серии

Предвидување
Процес на предвидување на иднината врз основа на историски податоци
Основа на сите деловни одлуки:

- Производство
- Складиште
- Персонал
- Набавки
Каде се користи анализа на серија на податоци ?

Анализа на серија на пoдатоци е важна во деловните кругови, во
мултимилионските компании и обичните домаќинства, сè со цел да се
донесе подобра одлука за некој настан кој се повторува, да знаеме што
отприлика да се очекува, или ако некој настан се случи да знаеме како да
го споредиме со некој предходен настан за да знаеме подобро да го
оцениме, дали тоа нешто е добро или лошо.
Анализата на серија на податоци иако изгледа како сложен математички
модел сите луѓе го користат тоа секојдневно, иако ретко се свесни за тоа.
Каде ни треба предвидување?

Општо земено, предвидувањата се речиси секогаш погреши.Се прават за
временска прогноза, за сообраќајот, за берзите и за состојбите на
фирмите од различни аспекти.Речиси секој деловен потфат се потпира на
предвидување.Не се сите изведени од софистицирани методи.Сепак
"најдобрите" образувани погодувања се поценети за потребите на
планирањето отколку да нема никакво предвидување и заради тоа да
нема ни никакво планирање.
Значајноста на предвидувањето
Разните оддели во организацијата зависат од предвидувањето за да ги
формулираат и извршуваат своите планови. Одделот за финансии треба
да го предвиди приливот и одливот на пари и капиталните побарувања.
Кадровото одделение треба да ги предвиди потребите за да се примат
нови луѓе. Производството треба да ги предвиди нивоата на
производство, работната сила, потребите од суровини, количините во
магацинот итн. Нарачките не се единствената променлива која треба да се
земе предвид при предвидувањата. Производителите предвидуваат
можни отсуства на работниците, работна состојба на машините, трошоци
на суровините, време и трошок за транспорт итн.
Видови предвидувања според временскиот хоризонт:
Краткорочни = обично помалце од 3 месеци, пример = распоред на

задачи по вработени
Среднорочни = од 3 до 2 години, пример = планирање на

продажба/производство
Долгорочни = повеќе од 2 години, пример = планирање на нов производ
Временски хоризонти на предвидувањето:

- Краток рок
Од 1 ден до 1 година, помалку од 1 сезона
Предвидување на потрошувачката, нивоата на екипираност, набавките,
залихите во магацин
Квантитативни методи
- Среден рок
Од 1 сезона до 2 години
Збирно планирање, планирање на капацитетите, предвидувањеа за
продажбите
Мешавина на квантитативни и квалитативни методи
- Долг рок
2 или преку 5 години во иднината
Истражување и развој, местоположба на фабриката, планирање на
производи, на нови сегменти на пазарот
Воглавно, според квалитативни методи
Краткорочни предвидувања: Потреби и примени

Распоред на постоечки ресурси
Колку работници ни требаат и кога?
Колку производи да направиме однапред за предвидената
побарувачка?
Стекнување со дополнителни ресури

Кога ќе го исцрпиме капацитетот?
Уште колку луѓе ќе ни требаат?
Колкави ќе бидат порачките што се прават однапред?
Одредување на потребните ресурси
Кои машини ќе ни требаат или какви нови машини?
Кои услуги се бараат се' повеќе? Кои се' помалку?
Kaков профил на луѓе треба да вработиме?
Видови модели за предвидување

 Квалитативни (врз основа на искуството, знаењето и интуицијата)
 Квантитативни (врз основа на податоците, статистиките)
Квалитативни методи:
- Извршна одлука(Еxecutive Judgment) = мислење на група од експерти од
високо ниво.
- Sales Force Composite (агенти што дистрибуираат) = секој регионален
продавач обезбедува проценки за продажбата.Потоа тие проценки се
ревидираат за да се биде сигурен дека се реални.
- Истражување на пазарот = барање информации од корисниците кои се
однесуваат на нивните идни планови за купување.Тоа вклучува и употреба
на прашалници, потрошувачки панели и тестови на нови производи и
услуги.
- Делфи метода = За разлика од редовните панели каде поединците се
вклучени во директна комуникација, во оваа метода се елиминира тој
ефект на потенцијално доминирање на најгласните членови во
групата.Оваа група вклучува поединци од внатре како и од надвор од
организацијата. Обично, процедурата се состои од следните чекори:
Секој експерт во групата ги прави неговите сопствени прогнози во форма

на изјави Координаторот ги собира сите групни извештаи и ги сумира,
потоа дава уште едно множество на прашања за секој член на
групата.Секако вклучени се тука и фидбекот од експертите.Ова се
повторува додека не се дојде до некаков консензус.
Квантитативни методи за одлучување

Квантитативните модели се обидуваат да ја предвидат иднината врз
основа на податоци од минатото.Основни претпоставки на овие модели:
- Tреба да постојат прибрани податоци од минатото
- Треба тие податоци да може да се изразат бројчано
- Се претпоставува дека факторите кои влијаеле во минатото ќе продолжат
да влијаат и во иднина
Модели на временски серии:
Случајна, тренд, сезонска, збирна
Побарувачката во следниот период е иста како побарувачката во
последниот период
Вообичаено не е добар
Simple Moving Average (Едноставен движечки просек)

Претпоставува дека просекот е добар проценител за идното однесување.
Се употребува при мал тренд или во случаеви кога нема тренд
Се користи за израмнување
Weighted Moving Average (тежински движечки просек)

Дава повеќе акцент на најновите податоци
Тежини: намалување за постари податоци
Сумирање до 1.0
Exponential Smoothing (Експоненцијална рамномерност)

Претпоставува дека најновите забелешки ја имаат најголемата
предвидувачка вредност.
Дава поголема тежина на на последните временски периоди
За да користите модел за предвидување:

-Соберете историски податоци
-Одберете модел
-Движечки просечни методи
-Изберете n (број на периоди)
-За тежински движечки просек: одберете тежина
-Експоненцијална рамномерност
-Одберете а(алфа)
-Селекциите треба да креираат добро предвидување
-Доброто предвидување има мала грешка(error) каде што таа е еднаква на
побарувачката – предвидувањето (Error = Demand – Forecast)
Мерки за грешки на предвидувањето

- MAD – Mean Absolute Deviation
- MSE – Mean Squared Error
- RMSE – Root Mean Squared Error
Mean Forecast Error (MFE or BIAS) – ја мери просечната девијација на

предвидувањето од вистинските
- Се нарекува и BIAS
- Minimum Bias- MFE кога е колку што е можно поблиску до 0
- Голем позитивен (негативен) MFE значи дека предвидувањето не ги
достигнува (ги надминува) актуелните/вистинските надгледувања
- Кога MFE е 0 не значи дека предвидувањето е перфектно, без грешка..
значи дека е на прав пат
Mean Absolute Deviation (MAD) – ја мери просечната, апсолутна

девијација на предвидувањето од вистинските
- Ја мери апсолутната грешка
- Позитивните и негативните грешки не се откажуваат (како и со MFE)
- Сакаме MAD да биде колку што е можно мал
- Нема начин да се знае дали MAD грешката е мала или голема во однос
на вистинските податоци
Mean Absolute Percentage Error (MAPE) – ја мери апсолутната грешка како

процент од предвидувањето
- Слично со MAD самошто ја мери девијацијата како процент од
вистинските податоци
Standard Squared Error (MSE) – ја мери варијансата на грешката на

предвидувањето
- Ја мери квадратната грешка на предвидување
- Препознава дека големите грешки се несразмерно повеќе “скапи” за
разлика од малите грешки
- Не се интерпретира лесно како MAD, MAPE
Едно предвидување можеме да кажеме дали има позитивен или негатив

BIAS со помош на Tracking Signal.
Добар Tracking Signal има ниски вредности
Предвидување во пракса
- Техничките аналитичари се фокусираат на цеата и обемот на податоците
за да се утврдат трендови од минатото коишто се очекуваат да се прават
во иднината
- Единствениот најважен елемент на техничката анализа е дека иднината
на девизните курсеви се базирани на сегашниот девизен курс
- Движењата на девизниот курс можат да се поделат на 3 периоди:
-Ден за ден
-Краткорочни (неколку дена до неколку месеца)
-Долгорочни
- Колку е поголем временскиот период на предвидувањето, толку е
поверојатно дека предвидувањето ќе биде неточно.
Swing Trading (Swing тргување)

- Бидејќи девизниот пазар често се соочува со кратки дневни трендови,
можеби најефикасниот начин да се продадат е преку swing тргувањето.
- Swing трговците не се обидуваат да го предвидат времетраењето на еден
тренд. Претпоставката на овој вид тргување e тоа дека еден може да ја
проба шансата да се здобие со предност од двете фази на пазарот
(растење и опаѓање)
- За успешно да се изврши едно swing тргување во девизниот пазар,
потребно е да се има релативно брз покажувач за тоа кога треба да се
влезе а кога треба да се излезе.
- Moving average crossovers се често оптималниот метод за да се одлучиме
за влез и излез. Ова е вака затоа што crossover е способен на означување
на крајот на еден тренд и почетокот на друг.
- Ако мислите дека дека овој стил на тргување е скоро премногу добар за
да биде вистинит, тогаш сте во право. Еден трговец скоро никогаш нема да
изгуби ако го употребува гореспоменатиот метод за влез и излез.
Проблемот е во тоа што повеќето трговци не се доволно капитализирани
да држат позиции коишто на крајот ќе станат профитабилни.

snz16 Teorija Baza

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

snz16 Teorija Baza

Uploaded by

Copyright:

Available Formats

Експертни системи

1.Експертен систем (ЕС) е програма базирана на знаење која нуди

2.ЕС се практични програми кои користат евристични стратегии

4.ЕС категории на проблеми:

5. Подсистем за објаснување.Подсистемот за објасување мора да може

10. Режими на работа кај ЕС

Режим на прибирање на знаење = се врши прибирање на почетното

11.Кои проблеми се соодветни за имплементација на ЕС?

Веројатност = Веројатносните тврдења ги сумираат ефектите на:

Теорија на полезност (Utility theory) се користи за да се претстават

Теорија на одлучување = теорија на веројатност + теорија на полезност.

- Дефиниција = гранка на логиката која користи степен на припадност на

- Термини за неопределеност од природните јазици во матната логика се

-Област на променливи на природниот јазик се можните вредности на

- Карактеристики на Функции на припадност: субјективни мерки,

- Формирање на матни множества

- Како се креираат матни правила?

- Fuzzy system (Матен систем)= Матен систем содржи: матни множества,

- Сите поапстрактни нивоа се викаат надредени (super-ordinate)

- Онтологија = логична теорија која што го зима предвид основното

- CRM = oснова за взаемно разбирање помеѓу професионалци за културно

- CRM исто така е техничка референца за споредување и оценување на

- IR прашања (queries) (прашања за пронаоѓање на информации)

- Модели на пронаоѓање на информации (Information retrieval models)

- Логички модел(Boolean model) = секој документ или прашање се

- Модел на векторски простор (Vector space model) = документите исто

- Frequency counts + TF-IDF = брои колку пати еден збор се појавува во

-Остранување на службени зборови (stopwords) = Неколку од најчесто

пр. the, of , and, to

- Stemming = техника што се користи за да се најде коренот на зборот.

пр. Од user -> user, users, used, using

- Инвертиран индекс на колекција од документи во основа е податочна

-Пребарување преку превртен индекс (inverted index) = за дадено

- Различните мотори за пребурување (search engines)= вистинските

- Сепак ние знаеме за некои работи од тие алгоритми

- Според врските помеѓу документите (Link-based ranking)

- Екстраполирање (дефинирање/заклучување) на услужливостите

Имаме 3 пристапа до системите за препорака:

Системи на препорака базирани врз основа на содржината

-Пристапи базарни врз основа на моделот/типот

- Предности на пристапот базиран врз основа на содржината:

- Ограничувања на пристапот базиран врз основа на содржината

Производ-производ колаборативно филтрирање

Предности и слабости на колаборативното филтрирање:

- Влез – објект или ситуација опишана со множество особини

Kласификација = тоа е една од главните задачи на податочното рударство

Категоријален атрибут = атрибут кој може да прими само дискретни

Реален атрибут = атрибут со реални броеви.

Табели на меѓузависности = поопшто име за хистограм, едно-

2-D табела на меѓузависности = може да видиме колку записи постојат за

3-D табела на меѓузависност

- On-Line Analytical Processing = тоа се софтверски пакети и додатоци за

Изградба на дрва за одлучување:

Decision-Tree-Learning користи дрво за одлучување како предвидлив

Основната идеја на DTL алгоритмот е да се истестираат најзначајните

Избирање на тестови за атрибути = шемата која се користи во учењето на

Зошто дрва за одлучување?

Како да се процени нивната успешност?

Дрвото на одлука исто така може да се изрази во облик на правила:

Како да се справиме со непознати комбинации

Предности на дрвата на одлучување:

Слабости на дрвата на одлучување:

Неврон е ќелија во мозокот чија основна функција е собирање,