Professional Documents
Culture Documents
АУДИТОРИСКИ ВЕЖБИ 5
Дрва на одлучување
▪ Дрво на одлучување е градбен блок на Random Forest и е
интуитивен модел.
▪ Можеме да го разгледуваме како серија од прашање да/не, кои
ќе не доведат до предвидената класа (или непрекината вредност
во случај на регресија).
▪ За моделот велиме дека е интуитивен, бидејќи постапува на ист
начин како и луѓето, поставува прашува додека не дојде до
целта.
Дрва на одлучување
▪ Техничките детали на дрвото зависат од начиот на кој прашањата се
оформени.
▪ Во алгоритмот CART, дрвото на одлучување се гради преку
одредување на бројот на прашања, или тоа се број на поделба на
јазли.
▪ Одговорите на прашањата треба да доведат до најмал индекс на
чистота - Gini индекс.
▪ Тоа значи дека дрвото ги формира јазлите кои содржат голем број
податоци од една класа, со наоѓање на вредности на
карактеристиките (features) кои најчисто ќе ги разделат податоците во
класи.
Дрва на одлучување – едноставен
проблем
▪ Нека го имаме следниот бинарен
проблем:
▪ Податоци преставени преку два
атрибути, x1 и x2.
▪ Класи: 0 и 1.
▪ Треба да ги класифицираме 6те точки
во две класи.
▪ Проблемот не е линеарен!
Дрва на одлучување
▪ Ако проблемот не е линеарен, значи не можеме со една линија
да ги разделиме податоците.
▪ Дрвото на одлука тоа го прави со повлекување на повеќе прави
кои ќе ги разделат податоците во различни кутии – процес на
тренирање.
▪ Како се одвива тренирањето?
Визуелизација
▪ Што може да
идентификуваме?
▪Сите јазли освен листовите
имаат по 5 вредности:
▪ Прашање за вредност на
атрибутот,
▪ Gini индекс,
▪ Број на семплови во секој јазел,
▪ Број на семплови во секоја
класа посебно,
▪ Класификација врз основа на
мнозинството во секој јазел.
Поделба
▪ Секоја поделба е една линија
што ги дели точките во јазли врз
основа на вредностите на
атрибутите.
▪ За овој проблем немаме
ограничување за максималната
длабочина.
▪ Поделбата ја става секоја точка
во јазел каде што има само точки
од истата класа.
▪ Перфектна класификација -
overfitting.
Gini индекс
▪ Мерка за чистота!
▪ Gini чистотата на еден јазел е веројатноста дека случајно избран
примерок во тој јазел ќе биде грешно класифициран ако
класификацијата се прави според дистрибуцијата на останатите
примероци во јазелот.
▪ На пример, во коренот од примерот постои 44.4% шанса за
погрешно класифицирање на податок избран на случаен начин
врз основа на лабелите на податоците во тој јазел.
Gini индекс
▪ Општо: