You are on page 1of 34

Міністерство освіти і науки, молоді та спорту України

Національний університет “Львівська політехніка”


Кафедра автоматизованих систем управління

Методичні вказівки
до лабораторної роботи № 2
“Класифікація та регресія. Методи побудови дерева рішень”

з дисципліни
“Інтелектуальний аналіз даних”

для студентів базового напрямку підготовки по спеціальності


“Комп’ютерні науки” (шифр 122)
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Львів-2019

Методичні вказівки до лабораторної роботи № 5 “Класифікація та


регресія. Методи побудови дерева рішень” з дисципліни “Інтелектуальний
аналіз даних” для студентів спеціальності - шифр 122 “Комп’ютерні науки”/
Укл. доц. Ковівчак Я.В., Львів: Національний університет “Львівська
політехніка”, 2019.

Методичні вказівки обговорено та схвалено на засіданні кафедри АСУ


Протокол № ___________ від «___»___________2019 р.
Завідувач кафедрою АСУ ______________ Цмоць І. Г.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Методичні вказівки обговорено та схвалено на засіданні методичної


комісії базового напрямку підготовки
Протокол № ___________ від «___»___________2019 р.

Мета: Розглянути основні алгоритми побудови дерева рішень; визначити


переваги та недоліки методу.
Завдання: Навчитись будувати дерева рішень для розв’язання задач.
1. Теоретична частина
Інтелектуальний аналіз даних - це процес аналізу даних з різних точок
зору і узагальнення їх у корисну інформацію, яка може бути використана для
збільшення доходів, скорочення витрат, або те й інше. Програмне забезпечення
для інтелектуального аналізу даних є одним із аналітичних інструментів для
аналізу даних.
Він дозволяє користувачам аналізувати дані за різними параметрами і з
різних ракурсів, класифікувати їх, і узагальнювати виявлені відносини.
Технічно, інтелектуальний аналіз даних є процесом пошуку кореляції або
зразків серед десятків полів у великих реляційних базах даних.

1.1. Огляд методів класифікації та регресії.


Розглянемо основні види моделей, що використовуються для
знаходження нового знання на основі даних інформаційного сховища. Метою
інтелектуальних технології є знаходження нового знання, що користувач може
надалі застосувати для поліпшення результатів своєї діяльності. Результат
моделювання - це виявлені відношення в даних.
Можна виділити принаймні шість методів виявлення й аналізу знань:
 класифікація,
 регресія,
 прогнозування часових послідовностей (рядів),
 кластеризація,
 асоціація,
 послідовність.
Перші три використовуються головним чином для передбачення, у той
час як останні зручні для опису існуючих закономірностей в даних.
Класифікація є найбільш розповсюдженою операцією інтелектуального
аналізу даних. З її допомогою виявляються ознаки, що характеризують групу,
до якої належить той чи інший об'єкт. Це робиться за допомогою аналізу вже
класифікованих об'єктів і формулювання деякого набору правил. В багатьох
видах бізнесу проблемою є втрата постійних клієнтів. У різних сферах (таких,
як мобільний телефонний зв'язок, фармацевтичний бізнес чи діяльність,
пов'язана із кредитними картками) її позначають різними термінами - "зміною
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
моди", "виснаженням попиту" чи "купівельною зрадою", - але суть при цьому
одна.
Класифікація допоможе вам виявити характеристики "хитливих"
покупців і створити модель, здатну передбачати, хто саме схильний піти до
іншого постачальника. Використовуючи її, можна визначити самі ефективні
види знижок і інших вигідних пропозицій, що будуть найбільш діючими для
тих чи інших типів покупців. Завдяки цьому можна втримати клієнтів,
витративши рівно стільки грошей, скільки необхідно. Один раз визначений
ефективний класифікатор використовується для класифікації нових записів у
базі даних у вже існуючі класи й в цьому випадку він здобуває характер
прогнозу.
Наприклад, класифікатор, що вміє ідентифікувати ризик віддачі позики,
може бути використаний для прийняття рішення, чи великий ризик надання
позики визначеному клієнту. Тобто класифікатор використовується для
прогнозування ймовірності повернення позики.
Регресійний аналіз використовується в тому випадку, якщо відношення
між змінними можуть бути виражені кількісно у виді деякої комбінації цих
змінних. Отримана комбінація використовується для передбачення значення,
що може приймати цільова (залежна) змінна, яка обчислюється на заданому
наборі значень вхідних (незалежних) змінних. У найпростішому випадку для
цього використовуються стандартні статистичні методи, такі як лінійна
регресія. На жаль, більшість реальних моделей не вкладаються в рамки лінійної
регресії. Наприклад, розміри продажів чи фондові ціни дуже складні для
передбачення, оскільки можуть залежати від комплексу взаємин множин
змінних. Таким чином, необхідні комплексні методи для передбачення
майбутніх значень.

1.2. Базові концепції методу побудови дерева рішень


Дерева рішень - один з методів автоматичного аналізу даних, основні ідеї
якого сягають до робіт П. Ховленда (Р. Hoveland) і Е. Ханта (Є. Hunt) кінця 50-х
років XX ст. Їх підсумком з'явилася основоположна монографія [Hunt et al.,
1966], що дала імпульс розвитку цього напрямку.
Побудова дерев класифікації - один з найбільш важливих прийомів,
використовуваних при проведенні "видобутку даних і розвідувального аналізу"
(Data Mining), реалізований як сукупність методів аналітичної обробки великих
масивів інформації з метою виявити в них значущі закономірності і / або
систематичні зв'язки між змінними, які потім можна застосувати до нових
вимірювань.
Дерева рішень являють собою послідовні ієрархічні структури, що
складаються з вузлів, які містять правила, тобто логічні конструкції виду "якщо
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
... то ...". Кінцевими вузлами дерева є "листя", відповідні знайденим рішенням і
об'єднуючі деяку кількість об'єктів класифікованої вибірки. Це схоже на те, як
положення листа на дереві можна задати, вказавши провідну до нього
послідовність гілок, починаючи від кореня і закінчуючи самою останньою
гілочкою, на якій лист зростає.
Є цілий ряд причин, що роблять дерева класифікації більш гнучким
засобом, ніж традиційні методи аналізу:
• схема одновимірного розгалуження, яка дозволяє вивчати ефект впливу
окремих змінних і проводити послідовний аналіз їх вкладу;
• можливість одночасно працювати зі змінними різних типів, виміряних в
безперервних і порядкових шкалах, або здійснювати будь монотонне
перетворення ознак;
• відсутність попередніх припущень про закони розподілу даних.
Дерева рішень (decisiontrees) призначені для вирішення задач
класифікації. Іноді використовують інші назви методу - дерева класифікації,
дерева вирішальних правил. Вони створюють ієрархічну структуру
класифікуючих правил типу «Якщо -То.» (if-then), що має вид дерева. Щоб
ухвалити рішення, до якого класу слід віднести деякий об'єкт або ситуацію,
вимагається відповісти на питання, що стоять у вузлах цього дерева,
починаючи з його кореня. Питання мають вигляд «Значення параметра А
більше В?». Якщо відповідь позитивна, здійснюється перехід до правого вузла
наступного рівня; потім знову слідує питання, пов'язане з відповідним вузлом і
т.д. Наведений приклад ілюструє роботу так званих бінарних дерев рішень, в
кожному вузлі яких, галуження проводиться по двох напрямах (тобто на
питання, задане у вузлі, є тільки два варіанти відповідей, наприклад «Так» чи
«Ні»). Проте, у загальному випадку, відповідей, а отже і віття, що виходить з
вузла, може бути більше.
Для побудови дерева, на вхід алгоритму подається деяка навчальна
множина, що містить об'єкти (приклади), що характеризуються атрибутами,
один з яких вказує на приналежність об'єкту до певного класу. Далі алгоритм
намагається виробити загальні критерії для об'єктів одного класу. У тому
випадку, якщо навчальна множина містить один або більш прикладів, що
відносяться до одного класу, деревом рішень буде лист, визначальний даний
клас. Якщо ж навчальна множина містить приклади, що відносяться до різних
класів, слід розбити його на деякі підмножини. Для цього вибирається один з
атрибутів, що має два і більше відмінних один від одного значень. Після
розбиття кожна підмножина буде містити всі приклади, що мають одне із
значень для вибраного атрибута. Це процедура буде рекурсивно
продовжуватися до тих пір, поки кінцева множина не буде складатися з
прикладів, що відносяться до одного і того ж класу. Серед незаперечних
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
позитивних сторін дерев рішень можливо виділити швидкий процес навчання,
витягання правил в областях, де експерту важко формалізувати свої знання,
інтуїтивно зрозумілу класифікаційну модель, високу точність класифікації,
побудову непараметричних моделей. Через ці і багато які інші причини, дерева
рішень є важливим інструментом в роботі кожного фахівця, що займається
аналізом даних. На жаль, до цього часу не досліджені ще багато які потенційні
області застосування.
Якість побудованого дерева після навчання можна оцінити по декількох
параметрах. По-перше, це число розпізнаних прикладів в навчальному і
тестовому наборах даних. Чим воно вище, тим якісно побудоване дерево. По-
друге, ця кількість вузлів в дереві. При дуже великому їх числі дерево стає
важким для сприйняття. Це також означає дуже слабу залежність вихідного
поля від вхідних полів. Кожне правило характеризується підтримкою і
достовірністю.
Підтримка – це загальна кількість прикладів класифікованих даним
вузлом дерева. Достовірність – це кількість правильно класифікованих даним
вузлом прикладів. Дерево рішень будується за визначеним алгоритмом.
Область застосування дерев рішень в сьогоденні дуже широка. Для
спрощення засвоєння матеріалу є сенс усі задачі, що вирішуються цим методом
поєднати у три класи.
1. Опис даних. Дерева рішень дозволяють зберігати інформацію про дані
в компактній формі. Замість громіздких масивів даних їх можна зберегти у
вигляді дерева рішень, яке містить точний опис об'єктів.
2. Класифікація. Дерева рішень відмінно справляються із задачами
класифікації, тобто віднесення об'єктів до одного з наперед відомих класів.
3. Регресія. Якщо цільова змінна має безперервні значення, дерева рішень
дозволяють встановити залежність цільової змінної від незалежних (вхідних)
змінних. Наприклад, до цього класу відносяться задачі чисельного
прогнозування (прогнози значень цільової змінної).
Для побудови дерева рішень готується навчальна вибірка. При цьому
вихідне поле дерева рішень може бути тільки дискретним. Для полів, що
подаються на входи і вихід дерева рішень, також задається нормалізація.
Можливо задати або лінійну нормалізацію, або нормалізацію унікальними
значеннями.
Для прийняття рішення за допомогою "дерева рішень" необхідно
виконати такі крокі:
1) оцінити стан ринку вектором чинників X = (x1, x2, x3, x4) (цей крок
виконується користувачем системи);
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
2) визначити клас зростання прибули шляхом руху вектора X = (x1, x2,
x3, x4) по дереву рішень з верхніх рівнів до нижніх (цей крок виконується
системою).
У методиці використовується ієрархічна структурна схема. Для її
побудови прийняті відповідні позначення елементів (подій) і логічних операцій.
В основу методу "дерева цілей" покладено підпорядкованість,
розгортаємість і ранжування цілей. Дерево цілей з кількісними показниками,
що використовуються в якості одного із засобів при прийнятті рішень, і носить
назву "дерева рішень".
Головна перевага "дерева рішень" перед іншими методами - можливість
пов'язати ставлення цілі з діями, що підлягають реалізації в сьогоденні. При
побудові багаторівневого "дерева рішень" досягнення мети кожного з рівнів
моделі забезпечується комплексом заходів попереднього рівня. Кожен рівень
"дерева рішень" повинен займати певне місце в ієрархічній послідовності,
складеної на основі дотримання причинно-наслідкових зв'язків.

1.1. Етапи побудови "дерева рішень"


Дерево рішень - це графічне зображення послідовності рішень і станів
середовища з указівкою відповідних ймовірностей і виграшів для будь-яких
комбінацій альтернатив і станів середовища.
Побудова "дерева рішень" виконується "зверху вниз" - від задач більш
складних, більш важливих - до завдань менш складним, менш важливим, що
вимагає менше часу (коштів, сил, ресурсів) для їх здійснення.
На схемі "дерева рішень" саме верхнє положення займає кінцева мета
розв'язання проблеми (кінцевий результат). І чим складніше можна вирішити
завдання, тим більше має бути число рівнів розгляду проблеми і тим більше
число завдань, що вирішуються на кожному рівні.
Для кожного "дерева рішень" будується матриця. Часто вводяться
коефіцієнти взаємної корисності рішень, одержувані опитуванням експертів.
Вони показують вплив ступеня важливості одних рішень на інші.
Застосування методу "дерева рішень" дозволяє:
- визначати шляхи досягнення мети з виконанням кількісної оцінки
складності виникають завдань та оцінкою труднощі здійснення того чи іншого
варіанту;
- поліпшувати якість рішень в умовах невизначеності.
Процес прийняття управлінських рішень за допомогою дерева рішень у
загальному випадку припускає виконання п'яти етапів:
Етап 1. Формулювання завдання.
Насамперед необхідно відкинути всі фактори, що не стосуються
проблеми, а серед безлічі тих, що залишилися, виділити суттєві і несуттєві. Це
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
дозволить привести опис завдання щодо прийняття управлінського рішення у
форму, що піддається аналізу. Повинні бути виконані такі основні процедури:
- визначення можливостей збору інформації для експериментування і
реальних дій;
- складання переліку подій, що з певною імовірністю можуть
відбутися;
- установлення часового порядку розміщення подій, у наслідках яких
міститься корисна і доступна інформація, і тих послідовних дій, які можна
розпочати.
Етап 2. Побудова "дерева рішень".
Етап 3. Оцінка ймовірностей станів середовища, тобто зіставлення
шансів виникнення кожної конкретної події. Слід зазначити, що вказані
ймовірності визначаються або на підставі наявної статистики, або експертним
шляхом.
Етап 4. Установлення виграшів (чи програшів, як виграшів зі знаком
мінус) для кожної можливої комбінації альтернатив (дій) і станів
середовища.
Етап 5. Вирішення завдання.

1.3. Правила побудови «дерева рішень»

При побудові дерев рішень особлива увага приділяється таким питанням:


вибір критерію атрибута, за яким буде розбиття, зупинка навчання та відсікання
гілок.
Правило розбиття – яким чином потрібно вибирати ознаку?
Для побудови дерева на кожному внутрішньому вузлі необхідно знайти
таку умову (перевірку), яка б розбивала множину, асоційовану із цим вузлом,
на підмножини. В якості такої перевірки можна вибрати один із атрибутів – так
званий атрибут розщеплення. Загальне правило для вибору атрибута можна
сформулювати так: обраний атрибут повинен розбити множину так, щоб
одержані підмножини складалися з об'єктів одного класу або були максимально
наближені до цього, тобто кількість об'єктів з інших класів («домішок») у
кожній з одержаних підмножин повинна бути якомога меншою. Серед безлічі
розроблених критеріїв для вибору найкращого атрибута виділимо два:
1. Теоретико-інформаційний критерій – алгоритм C4.5, що є
удосконаленою версією алгоритму ID3 (Iterative Dichotomizer) –
використовує теоретико-інформаційний підхід.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
2. Статистичний критерій – алгоритм CART, що використовує так
званий індекс Gini (в честь італійського економіста Corrado Gini) для
оцінювання «відстані» між розподілами класів.
Правило зупинки. Розбивати вузол далі, чи визначати його як листок?
На додачу до основного методу побудови дерев рішень були
запропоновані такі правила:
1. Використання статистичних методів для оцінювання доцільності
подальшого розбиття – так звана «рання зупинка» (prepruning). «Рання
зупинка» процесу побудови дозволяє зекономити час навчання, проте
реалізує менш точні класифікаційні моделі. Тому використання «ранньої
зупинки» в більшості випадків є небажаним.
2. Можна задати глибину дерева. Тобто, якщо подальше розбиття не
повинне привести до дерева з глибиною, що перевищує задане значення.
3. Можна задати мінімальну кількість об’єктів у вузлі. Тобто розбиття
повинне бути нетривіальним, щоб вузли, одержані в результаті розбиття,
містили не менше заданої кількості об’єктів.
Цей список евристичних правил можна продовжити, але нині не існує
домінуючого правила. До кожного конкретного випадку потрібно підходити
індивідуально.
Правило відсікання. Яким чином потрібно відсікати гілки дерева?
Дуже часто алгоритми побудови дерев рішень видають складні,
«переповнені даними» дерева, що мають багато вузлів і гілок. Такі сильно
розгалужені дерева дуже важкі для розуміння. Крім того, сильно «гіллясте»
дерево з багатьма вузлами розбиває навчальну множину на все велику кількість
маленьких підмножин. Проте цінність правила, що містить лише 2-3 об’єкти, є
вкрай низькою, тому таке правило не можна використати для аналізу даних.
Набагато краще мати дерево, що має невелику кількість вузлів з великою
кількістю об’єктів з навчальної вибірки. Виникає питання: чи можна
побудувати всі можливі варіанти дерев для однієї навчальної множини, а тоді
вибрати дерево з найменшою глибиною? На жаль, це завдання не має
ефективних методів вирішення.
Для розв’язання описаної вище проблеми часто використовується так
зване відсікання гілок (pruning).
Нехай точність (розпізнавання) дерева рішень – це відношення правильно
класифікованих об'єктів при навчанні до загальної кількості об'єктів з
навчальної множини. Тоді помилка – це відношення кількості неправильно
класифікованих об’єктів до загальної кількості об’єктів у навчальній множині.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Якщо відомий спосіб оцінювання помилки дерева, гілок і листків, то
можна використати таке просте правило:
1. побудувати дерево;
2. відсікти або замінити під деревом ті гілки, відсічення яких не
приведе до зростання помилки.
На відміну від процесу побудови дерева, відсікання його гілок
відбувається знизу вверх, рухаючись з листків дерева, позначаючи вузли як
листки, або заміняючи їх піддеревом. Процедура відсікання є більш
популярною, ніж використання правил зупинки. Дерева, одержані в результаті
відсікання називають усіченими деревами.
Хоча відсікання не є панацеєю, проте у більшості практичних завдань дає
гарні результати, що дозволяє говорити про правомірність використання
подібної методики.

1.4. Алгоритми і методика побудови «дерева рішень»


На сьогоднішній день існує значна кількість алгоритмів, що реалізують
побудову дерев рішень.

1.4.1. Методика «розділяй і владарюй»


Методика ґрунтується на рекурсивному розбитті множини об’єктів із
навчаючої вибірки на підмножини, які містять об’єкти, що відносяться до
однакових класів.
Спершу вибирається незалежна змінна, яку поміщують в корінь дерева.
Із вершини будуються вітки, що відповідають всім можливим значенням
вибраної незалежної змінної.
Множина об’єктів із навчальної вибірки розбивається на декілька
підмножин у відповідність до значення вибраної незалежної змінної.
Таким чином, в кожній підмножині будуть знаходитись об’єкти. У яких
значення вибраної незалежної змінної будуть однакові.
Відносно навчальної вибірки Т і множини класів С можливі три ситуації:
- множина Т містить один або декілька об’єктів, що відносяться до
одного класу Сr. Тоді дерево рішень для Т – це лист, який визначає (оприділяє)
клас Сr;
- множина Т не містить ні одного об’єкта (порожня множина). Тоді
це знову ж таки – лист, і клас, який асоціюють з листом, вибирається із іншої
множини, відмінної від Т, наприклад із множини, асоційованої з предком;
- множина Т містить об’єкти, які відносяться до різних класів. В
такому випадку потрібно розбити множину Т на деякі підмножини. Для цього
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
вибирається одна із незалежних змінних х h, яка має два і більше відмінних одне
від одного значень сh2, ch2, …, chn. Множина Т розбивається на підмножини Т 1,
Т2, …, Тn, де кожна підмножина Ті містить всі об’єкти, у яких значення вибраної
залежної змінної дорівнює сhі. Далі процес продовжується рекурсивно для
кожної підмножини до тих пір, поки значення залежної змінної у новоствореній
підмножині не буде однаковим (коли об’єкти належать одному класу). В цьому
випадку процес даної вітки дерева зупиняється.
При використанні даної методики побудова дерева рішень буде
відбуватись зверху вниз. Більшість алгоритмів, які її використовують є
«жадібними алгоритмами». Це означає, що якщо один раз змінна була вибрана і
по ній відбулось розбиття, то алгоритм не може повернутись назад і вибрати
іншу змінну, яка дала би краще розбиття.
Питання полягає в тому, що невідомо яку змінну треба вибрати для
початкового розбиття. Від цього повністю залежить якість отриманого в
майбутньому дерева.
Загальне правило для вибору змінної для розбиття: вибрана змінна
повинна розбити множину так, щоб отримати в результаті підмножину, яка
складатиметься з об’єктів, які належатимуть одному класу і будуть
максимально приближені до цього, тобто щоб кількість об’єктів із інших класів
("домішок") в кожному з цих множин було мінімальним.  
Іншою проблемою при побудові дерева є проблема зупинки його
розбиття. Методи її вирішення:
1. Рання зупинка. Використання статистичних методів для оцінки
доцільності подальшого розбиття. Заощаджує час побудови моделі, але будує
менш точні моделі.
2. Обмеження глибини дерева. Потрібно зупинити подальшу побудову,
якщо розбиття перевищує задане значення глибини дерева.
3. Розбиття не повинно бути тривіальним, тобто  отримані в результаті
розбиття вузли повинні містити не менше заданої кількості об'єктів.
4. Відсікання гілок (знизу вгору). Побудувати дерево, відсікти або
замінити під деревом ті гілки, які призведуть до зростання кількості
неправильно класифікованих об'єктів.
Побудувати всі можливі варіанти розбиття і вибрати найкращий є
проблематично, якщо є багато незалежних змінних чи можливих класів.

1.1.1. Алгоритм ID3


ID3 будує дерево рішень з фіксованим набором прикладів. В результаті
дерево використовується для класифікації майбутніх зразків. Наприклад має
кілька атрибутів і належить до класу (наприклад, так чи ні). Листя дерева
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
рішень містити ім'я класу, в той час як не-лист вузол є рішенням вузла. Рішення
вузол є атрибутом тесту з кожної гілки (в іншій дерево рішень), що є можливим
значенням атрибута. ID3 використовує інформацію посилення, щоб допомогти
йому вирішити, який атрибут входить у вирішенні вузла. Перевага навчання
дерева рішень є те, що програми, а не знання інженера, викликає знань від
експерта.
Дж. Росс Quinlan спочатку розроблений ID3 в Університеті Сіднея. Він
вперше представлений ID3 в 1975 році в книзі, Machine Learning. ID3 базується
Концепція системи навчання (CLS) алгоритм. Основний алгоритм CLS над
безліччю підготовки випадків C:
Крок 1: Якщо всі екземпляри в C позитивні, то створіть YES вузлів і
зупинився.
Якщо всі екземпляри в C негативні, створити NO вузлів і зупинився.
В іншому випадку виберіть функцію, F зі значеннями v1, ..., Vn і створити
рішення вузла.
Крок 2: Розділ підготовки випадках, C на підмножини, C1, C2, ..., Cn
відповідно до значень В.
Крок 3: застосувати алгоритм рекурсивно для кожного з множин Ci.
Відзначимо, що тренер (експерт) вирішує, які маються для вибору.
ID3 покращує CLS, додавши евристичного вибору функції. ID3 пошуку
по атрибутах підготовки випадках і екстракти атрибут, який відділяє кращих
наведені приклади. Якщо атрибут прекрасно класифікує навчання
встановлюється потім ID3 зупинках, в іншому випадку рекурсивно діє на N (де
N = число можливих значень атрибутів) розподіляють підмножини, щоб
отримати свої "кращі" атрибут. Алгоритм використовує жадібний пошук, тобто,
він вибирає кращий атрибут і ніколи не оглядається назад, щоб переглянути
раніше вибори.
ID3 отримує свої класи від фіксованого набору навчальних екземплярів.
Інкрементний алгоритм змінює поточне визначення поняття, при необхідності,
нового зразка. Класи, створені за ID3 є індуктивними, тобто, враховуючи
невеликий набір навчальних випадках, конкретні класи, створені за ID3 будуть
працювати для всіх майбутніх випадків. Розподіл невідомих повинно бути
таким же, як тестів. Індукційна класи не можуть бути доведені, щоб працювати
в будь-якому випадку, так як вони можуть класифікувати нескінченну кількість
екземплярів. Зверніть увагу, що ID3 (або будь-якого індуктивного алгоритму)
можуть неправильної класифікації даних.
Вибірка даних, використовуваних ID3 є певні вимоги, які є:
Атрибут Значення Опис - ті ж атрибути повинні описати кожен приклад і
мають фіксоване число значень.
Визначених класів - атрибути Наприклад, мають бути вже визначені,
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
тобто, вони не впізнали по ID3.
Дискретна класи - класи повинні бути чітко розмежовані. Безперервна
класи розбиті на невизначений такі категорії, як металом "жорсткий, досить
жорстка, гнучка, м'яка, досить м'які» є підозрюваного.
Достатня прикладів - з індуктивного узагальнення використовується
(тобто не доказовою) має бути достатньо тестів, щоб відрізнити дійсний
моделей від випадковостей.
Як ID3 вирішити, який атрибут краще? Статистичні властивості,
називається приріст інформації, використовується. Посилення заходів
наскільки добре даний атрибут відокремлює навчальних прикладів в цільові
класи. З вищою інформації (відомостей, що становлять найбільш корисні для
класифікації) вибраний. Для того щоб визначити коефіцієнт підсилення, ми
спочатку запозичувати ідеї з теорії інформації називають ентропією. Ентропія
вимірює кількість інформації в атрибуті.

1.5.3. Алгоритм CART


Алгоритм CART (Classification and Regression Tree), як видно з назви,
призначений для вирішення завдань класифікації об’єктів і побудови
регресійної моделі. Він розроблений в 1974-1984 роках чотирма професорами
статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone
(Berkeley) і Richard Olshen (Stanford).
Атрибути набору даних можуть мати як дискретне, так і числове
значення. Алгоритм CART призначений для побудови бінарного дерева рішень.
Бінарні дерева також називають двійковими.
Інші особливості алгоритму CART:
• функція оцінки якості розбиття;
• механізм відсікання дерева;
• алгоритм обробки пропущених значень;
• побудова дерев регресії.
Кожен вузол бінарного дерева при розбитті має тільки двох нащадків,
званих дочірніми гілками. Подальший поділ гілки залежить від того, чи багато
вихідних даних описує дана гілка. На кожному кроці побудови дерева правило,
сформоване у вузлі, ділить заданий безліч прикладів на дві частини. Права його
частина (гілка right) - це та частина множини, в якій зазвичай виконується; ліва
(гілка left)- та, для якої правило не виконується.
Функція оцінки якості розбиття, яка використовується для вибору
оптимального правила, - індекс Gini. Відзначимо, що дана оцінна функція
заснована на ідеї зменшення невизначеності в вузлі. Припустимо, є вузол, і він
розбитий на два класи. Максимальна невизначеність у вузлі буде досягнута при
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
розбитті його на дві підмножини по 50 прикладів, а максимальна визначеність -
при розбитті на 100 і 0 прикладів.
Нагадаємо, що алгоритм CART працює з числовими і категоріальними
атрибутами. У кожному вузлі розбиття може йти тільки по одному атрибуту.
Якщо атрибут є числовим, то у внутрішньому вузлі формується правило виду x i
<= c, Значення c в більшості випадків вибирається як середнє арифметичне
двох сусідніх впорядкованих значень змінної xi навчального набору даних.
Якщо ж атрибут відноситься до категоріального типу, то у внутрішньому вузлі
формується правило xi V(xi), де V(xi) - деякий не порожня підмножина множини
значень змінної xi в навчальному наборі даних.
Механізм відсікання. Цим механізмом, що має назву minimal cost-
complexity tree pruning, алгоритм CART принципово відрізняється від інших
алгоритмів конструювання дерев рішень. У розглянутому алгоритмі відсікання
- це певний компроміс між отриманням дерева "підходящого розміру" і
отриманням найбільш точної оцінки класифікації. Метод полягає в отриманні
послідовності зменшуваних дерев, але дерева розглядаються не всі, а тільки
"кращі представники".
Перехресна перевірка (V-fold cross-validation) є найбільш складною і
одночасно оригінальною частиною алгоритму CART. Вона являє собою шлях
вибору остаточного дерева, за умови, що набір даних має невеликий об'єм або
ж запису набору даних настільки специфічні, що розділити набір на навчальну
та тестову вибірку не представляється можливим.
Отже, основні характеристики алгоритму CART: бінарне розщеплення,
критерій розщеплення - індекс Gini, алгоритми minimal cost-complexity tree
pruning і V-fold cross-validation, принцип "виростити дерево, а потім
скоротити", висока швидкість побудови, обробки пропущених значень
Розглянемо задачу з двома класами і вузлом, який містить 50 прикладів
одного класа. Нехай вузол має максимальну «забрудненість». Якщо буде
знайдено розбиття, яке розбиває дані. Наприклад на дві підгрупи (40:5
прикладів в одній і 10:45 в іншій), то інтуїтивно «забрудненість» буде
зменшено. Вона повністю зникне, коли буде знайдено розбиття, яке створить
підгрупи 50:0 та 0:50. В даному алгоритмі ідея «забрудненості» формалізована
в індекcі Gini. Якщо набір даних Т містить дані n класів, тоді даний індекс
обраховується, як

Gini (T )  1  i 1 pi2 ,
n
(1.1)

де параметр рі – ймовірність класа і в Т.


Якщо набір Т розбивається на дві частини Т 1 і Т2 з числом прикладів в
кожному N1 і N2 відповідно, то показник якості розбиття буде
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
N1 N
Ginisplit (T )  Gini(T1 )  2 Gini(T2 ) , (1.2)
N N
Найкращим вважається те розбиття, для якого найменше.
Процес побудови регресійних дерев рішень в основному аналогічний з
класифікаційними, але замість міток класів в листі будуть розташовуватися
числові значення. Фактично при цьому реалізується кусочно-постійна функція
вхідних змінних.

Рис.1. Дерево рішень побудоване алгоритмом CART.

1.5.4. Алгоритм C4.5


C4.5 - алгоритм для побудови дерев рішень, розроблений Джоном
Квінланом (англ. John Ross Quinlan). C4.5 є вдосконаленою версією алгоритму
ID3 того ж автора. Зокрема, в нову версію були додані відсікання гілок (англ.
pruning), можливість роботи з числовими атрибутами, а також можливість
побудови дерева з неповної навчальної вибірки, в якій відсутні значення деяких
атрибутів.
Для того, щоб за допомогою C4.5 побудувати вирішальне дерево і
застосовувати його, дані повинні задовольняти декільком умовам.
Інформація про об'єкти, які необхідно класифікувати, повинна бути
представлена у вигляді кінцевого набору ознак (атрибутів), кожен з яких має
дискретне або числове значення. Такий набір атрибутів назвемо прикладом.
Для всіх прикладів кількість атрибутів і їх склад мають бути постійними.
Безліч класів, на які будуть розбиватися приклади, повинно мати кінцеве
число елементів, а кожен приклад має однозначно ставитися до конкретного
класу. Для випадків з нечіткою логікою, коли приклади належать до класу із
певною ймовірністю, C4.5 непридатний.
У навчальній вибірці кількість прикладів повинна бути значно більше
кількості класів, до того ж кожен приклад має бути заздалегідь асоційований зі
своїм класом. З цієї причини C4.5 є варіантом машинного навчання з учителем.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Нехай є - навчальна вибірка прикладів, а - множина класів, що
складається з елементів. Для кожного прикладу з відома його
приналежність до якогось із класів .
Побудова дерева рішень алгоритмом C4.5 принципово не відрізняється
від його побудови в ID3. На першому кроці є корінь і асоційована з ним
множина , яку необхідно розбити на підмножини. Для цього необхідно
вибрати один з атрибутів в якості перевірки. Обраний атрибут має значень,
що дає розбиття на підмножини. Далі створюються нащадків кореня,
кожному з яких поставлено у відповідність своя підмножина, отримана при
розбитті . Процедура вибору атрибута і розбиття по ньому рекурсивно
застосовується до всіх нащадків і зупиняється в двох випадках:
1) після чергового розгалуження в вершині опиняються приклади з
одного класу (тоді вона стає листом, а клас, якому належать її приклади, буде
рішенням аркуша),
2) вершина виявилася асоційованою з порожньою множиною (тоді вона
стає листом, а в якості рішення вибирається клас, який найбільш часто
зустрічається у безпосереднього предка цієї вершини).
Ідею алгоритму можна представити у графічному вигляді (рис 2). При
наявності в об’єктів тільки двох змінних, то їх можна представити у вигляді
точок двовимірного простору. Об’єкти різних класів відмічені знаками «+» і
«-». З рисунку видно, що при розбитті множини на підмножини будується
дерево, що покриває тільки об’єкти вибраного класу.

Рис. 2. Ідея алгоритму


Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
1.5. Переваги використання «дерев рішень» та області їх
застосування
Розглянувши основні проблеми, що виникають при побудові дерев, варто
також перелічити деякі їх переваги:
 швидкий процес навчання;
 генерація правил в областях, де експертові важко формалізувати
свої знання;
 формулювання правил природною мовою;
 інтуїтивно зрозуміла класифікаційна модель;
 висока точність прогнозування в порівнянні з іншими методами
(статистика, нейронні мережі);
В силу цих та багатьох інших причин, методологія дерев рішень є
важливим інструментом у роботі кожного фахівця, що займається аналізом
даних. Дерева рішень є зручним інструментом у системах підтримки прийняття
рішень, інтелектуального аналізу даних (data mining), особливо в галузях, де
високою є ціна помилки.
Дерева рішень успішно використовуються для вирішення практичних
завдань у таких областях:
 Банківська справа (оцінка кредитоспроможності клієнтів банку при
видачі кредитів).
 Промисловість (контроль за якістю продукції (виявлення дефектів),
випробування без руйнувань, наприклад, перевірка якості
зварювання, тощо).
 Медицина (діагностика різних захворювань).
 Молекулярна біологія (аналіз будови амінокислот).

1.6. Побудова дерев рішень засобами Deductor


Першим етапом побудови дерева рішень є налаштування призначення
полів.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Рис. 3. Вікно програми Deductor на 2 кроці процесу побудови дерева


рішень:
налаштування призначення стовпців.

Тут необхідно вказати, як будуть використовуватися поля початкового


набору даних при навчанні дерева і подальшій практичній роботі з ним. У лівій
частині вікна є список всіх полів вхідного набору даних. Для налаштування
поля потрібно виділити його в списку, при чому в правій частині вікна
відображаються поточні параметри поля:
- Ім'я стовпця – ідентифікатор поля, визначений у вхідному наборі
даних, який тут змінити не можна.
- Тип даних – тип даних, що містяться у відповідному стовпці (дійсний,
стрічковий, дата, тощо). Тип даних також задається у вхідному наборі та не
можу тут змінюватись.
- Призначення – тут необхідно вибрати спосіб використання даного поля
при навчанні та роботі дерева рішень. Вибір здійснюється за допомогою
випадаючого списку:
o Вхідне – значення поля будуть вхідними даними для побудови і
подальшої практичної роботи дерева рішень, на їх основі буде здійснюватись
класифікація.
o Вихідне – це поле буде містити результати класифікації. Вихідне
поле може бути тільки одне та воно має бути дискретним.
o Інформаційне – поле не буде використатися при навчанні дерева,
але буде поміщене в результуючий набір без змін.
o Невикористовуване – поле не буде використовуватися при побудові
та роботі дерева рішень та буде виключене з результуючої вибірки. Навідміну
від непридатного, таке поле може бути використаним, якщо в цьому виникне
необхідність.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
o Непридатне – поле не може бути використаним при побудові та
роботі алгоритму, але буде поміщено в результуючий набір без змін.
- Вид даних – вказує на характер даних, що містяться в полі
(неперервний або дискретний). Цю властивість також не можна тут змінити. В
залежності від виду даних внизу відображаються певні характеристики значень
для даного поля.
Статус непридатного поля встановлюється тільки автоматично та надалі
може бути зміненим лише на невикористовуване або інформаційне. Поле стає
непридатним, якщо:
- поле є дискретним і містить всього одне унікальне значення.
- неперервне поле з нульовою дисперсією (відхиленням).
- поле містить пропущені значення.
За допомогою кнопки «Налаштування нормалізації» можна здійснити нормалізацію
вхідних даних, налаштувавши параметри у відповідному вікні:

Рис. 4. Вікно нормалізації даних.

Метою нормалізації значень полів є перетворення даних до вигляду, який


найкраще підходить для опрацювання засобами пакету Deductor. Для побудови
дерева рішень дані, що надходять на вхід, повинні мати числовий тип. У цьому
випадку нормалізатор може перетворити дискретні дані в набір унікальних
індексів.
Для кожного поля визначається свій вид нормалізації поля: лінійна
нормалізація вихідних значень або перетворення унікальних значень у їх
індекси.
Наступним кроком необхідно задати налаштування навчальної вибірки:
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Рис. 5. Вікно програми Deductor на 3 кроці процесу побудови


дерева шень:
налаштування навчальної та тестової вибірок.

Тут можна розбити навчальну вибірку для на дві підмножини – навчальну


та тестову.
- Навчальна множина – включає записи (приклади або об’єкти), які
будуть використовуватися в якості вхідних даних та відповідних бажаних
вихідних значень.
- Тестова множина – також включає записи із вхідними та бажаними
вихідними значеннями, але використовується не для навчання моделі, а для
перевірки результатів.
Для розбивки вихідної множини навчальну та тестову необхідно
налаштувати ряд параметрів:
- Зі списку «Спосіб поділу вихідної множини» вибирається порядок
відбору записів в усі три множини: вхідну, навчальну та тестову. Якщо обрано
варіант «По порядку», то порядок записів при їх поділі не змінюється.
Множини послідовно формуються відповідно до заданої для них кількості
записів. Якщо ж обрано варіант «Випадково», то відбір записів відбувається
випадковим чином.
- Далі необхідно вказати, які множини будуть використовуватися. Для
того щоб множинабула сформована, потрібно встановити прапорець ліворуч від
його назви. Якщо прапорець не встановлений, то множина використовуватися
не буде. Навчальна множина використовується завжди, тому скинути
прапорець для неї не можна.
- Для кожної з використовуваних множин потрібно задати її розмір, який
може задаватись кількістю записів або у відсотках від обсягу вхідної вибірки.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Для цього у відповідній клітинці треба ввести значення з клавіатури. Можна
використовувати не всі записи, а тільки частину з них – тоді сумарне число
записів розраховується автоматично і є меншим за 100%. Якщо ж сумарне
число записів буде перевищувати максимальне для даної вхідної вибірки, то
автоматично включається баланс множин, тобто при вказанні для однієї з
множин розміру, результаті якого сумарне число буде перевищувати
максимальне, розмір інших множин буде відповідно зменшеним.
У стовпці «Порядок сортування» можна визначити порядок проходження
записів всередині кожної множини. Для цього потрібно двічі клацнути мишкою
на стовпці «Порядок сортування» для відповідної множини та вибрати значення
з випадаючого меню. У правій частині вікна розташовані кнопки, які
дозволяють змінювати порядок застосування множин у процесі навчання.
Важливо: Для того, щоб навчальна множина була репрезентативною,
необхідно, щоб у ній були присутні всі унікальні значення всіх дискретних
стовпців.
Наступним кроком є налаштування параметрів навчання:

Рис. 6. Вікно програми Deductor на 4 кроці процесу побудови дерева


рішень:
налаштування параметрів процесу навчання при побудові дерева рішень.

В цьому вікні потрібно задати параметри, відповідно до яких буде


проводитися навчання дерева:
- Параметри ранньої зупинки:
o «Мінімальна кількість прикладів, за якої буде створений новий вузол»
– якщо у вузол потрапляє менше прикладів, ніж задано, то вузол ввашається
листком і подальше розгалуження припиняється.
o «Будувати дерево з більш достовірними правилами, спричиняючи
складність дерева» – встановлення прапорця включає спеціальний алгоритм,
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
що збільшує вірогідність результатів класифікації, ускладнюючи структуру
дерева. Скидання прапорця, хоча й приводить до спрощення дерева, знижує
вірогідність результатів класифікації.
- Параметри відсікання
o «Будувати дерево з більш достовірними правилами, спричиняючи
складність дерева» – встановлення прапорця включає спеціальний алгоритм,
що збільшує вірогідність результатів класифікації, ускладнюючи структуру
дерева. Скидання прапорця, хоча й приводить до спрощення дерева, знижує
вірогідність результатів класифікації.
- «Рівень довіри, що використовується при відсіканні вузлів дерева».
Значення цього параметра задається у відсотках (вибирається зі списку) і
повинне бути в межах від 0% до 100%. Чим більший рівень довіри, тим більш
гіллястим вийде дерево. Чим менший рівень довіри, тим більше вузлів буде
відсічено при побудові дерева.
Після налаштування параметрів навчання відбувається запуск процесу
навчання, під час якого, власне, будується дерево рішень (Мал. 7). Цей процес
може зайняти певний час, тривалість якого залежить від величини вхідної
вибірки даних та потужності комп’ютера.

Рис. 7. Вікно програми Deductor на 5 кроці процесу побудови дерева


рішень: побудова дерева рішень.

Для керування процесом побудови дерева передбачені відповідні кнопки


керування: «Пуск», «Пауза», «Стоп». У секції «Розподілено, шт.»
відображається кількість об’єктів навчальної безлічі, які були розпізнані або не
розпізнані в процесі побудови дерева. У секції «Розпізнано, %» вказується
відсоток розпізнаних об’єктів окремо для навчальної та тестової вибірок – якщо
цей відсоток буде досить великим (80%–95%), то побудову дерева можна
вважати успішною. Кількість розпізнаних та не розпізнаних у процесі навчання
об’єктів відображається на графіку в нижній частині вікна. Розпізнані об’єкти
показуються синьою штрих-пунктирною лінією, а нерозпізнані – червоною.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Щоб краще роздивитись будь-яку область на графіку, можна збільшити її
масштаб, рухаючи мишкою з натиснутою лівою клавішею у напрямку від
лівого верхнього кута до правого нижнього кута. При зміні напрямку руху
курсора з правого нижнього кута до лівого верхнього кута масштаб буде
зменшуватись.
У правій частині вікна відображається така інформація:
- кількість вузлів в отриманому дереві.
- кількість правил.
- тривалість навчання – час, що пройшов від початку побудови дерева до
його завершення.
- темп відновлення – можна задати період відновлення графіка, що
відображає побудову дерева.
Під графіком розташований прогрес-індикатор, що відображає процес
побудови дерева.
Останнім кроком є вибір способу відображення дерева та присвоєння
його назви.

2. Приклад побудови «дерева рішень»


Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Якщо залежна, тобто цільова змінна приймає дискретні значення, за
допомогою методу дерева рішень вирішується завдання класифікації.
Якщо ж залежна змінна приймає безперервні значення, то дерево
рішень встановлює залежність цієї змінної від незалежних змінних, тобто
вирішує задачу чисельного прогнозування.
У найбільш простому виді дерево рішень - це спосіб представлення
правил в ієрархічній, послідовної структурі. Основа такої структури -
відповіді "Так" або "Ні" на низку запитань.
На рис. 8 наведено приклад дерева рішень, завдання якого - відповісти
на запитання: "Чи грати в гольф?" Щоб вирішити завдання, тобто
прийняти рішення, чи грати в гольф, слід віднести поточну ситуацію до
одного з відомих класів (в даному випадку - "грати" або "не грати"). Для
цього потрібно відповісти на ряд питань, які знаходяться у вузлах цього
дерева, починаючи з його кореня.
Перший вузол нашого дерева "Сонячно?" є вузлом перевірки, тобто
умовою. При позитивній відповіді на питання здійснюється перехід до лівої
частини дерева, званої лівою гілкою, при негативному - до правої частини
дерева. Таким чином, внутрішній вузол дерева є вузлом перевірки певної
умови. Далі йде наступне питання і т.д., поки не буде досягнутий кінцевий
вузол дерева, що є вузлом рішення. Для нашого дерева існує два типи
кінцевого вузла: "грати" і "не грати" в гольф.
У результаті проходження від кореня дерева (іноді званого кореневої
вершини) до його вершини вирішується завдання класифікації, тобто
вибирається один з класів - "грати" і "не грати" в гольф.

Рис. 8. Дерево рішень «Чи грати в гольф???»

Метою побудови дерева рішення в нашому випадку є визначення


значення категоріальної залежної змінної.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Отже, для нашої задачі основними елементами дерева рішень є:
Корінь дерева: "Сонячно?"
Внутрішній вузол дерева або вузол перевірки: "Температура повітря
висока?", "Чи йде дощ?"
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Лист, кінцевий вузол дерева, вузол рішення або вершина: "Грати",
"Не грати"
Гілку дерева (випадки відповіді): "Так", "Ні".
У розглянутому прикладі вирішується завдання бінарної класифікації,
тобто створюється дихотомічна класифікаційна модель. Приклад
демонструє роботу так званих бінарних дерев.
У вузлах бінарних дерев розгалуження може вестися тільки в двох
напрямках, тобто існує можливість тільки двох відповідей на поставлене
запитання ("так" і "ні").
Бінарні дерева є найпростішим, приватним випадком дерев рішень. В
інших випадках, відповідей і, відповідно, гілок дерева, що виходять з його
внутрішнього вузла, може бути більше двох.
Розглянемо більш складний приклад. База даних, на основі якої має
здійснюватися прогнозування, містить такі ретроспективні дані про
клієнтів банку, що є її атрибутами: вік, наявність нерухомості, освіта,
середньомісячний дохід, повернув чи клієнт вчасно кредит. Завдання
полягає в тому, щоб на підставі перерахованих вище даних (окрім
останнього атрибуту) визначити, чи варто видавати кредит новому
клієнтові.
Така задача вирішується в два етапи: побудова класифікаційної
моделі і її використання.
На етапі побудови моделі, власне, і будується дерево класифікації або
створюється набір якихось правил. На етапі використання моделі
побудоване дерево, або шлях від його кореня до однієї з вершин, що є набором
правил для конкретного клієнта, використовується для відповіді на
поставлене питання "Видавати чи кредит?"
Правилом є логічна конструкція, представлена у вигляді "якщо: то:".
На рис. 9 наведено приклад дерева класифікації, за допомогою якого
вирішується завдання "Чи видавати кредит клієнту?". Вона є типовою
задачею класифікації, і за допомогою дерев рішень отримують достатньо
хороші варіанти її вирішення.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Рис. 9. Дерево рішень "Чи видавати кредит?"

Як ми бачимо, внутрішні вузли дерева (вік, наявність нерухомості,


дохід і освіта) є атрибутами описаної вище бази даних. Ці атрибути
називають прогнозуючими, або атрибутами розщеплення (splitting
attribute). Кінцеві вузли дерева, або листи, іменуються мітками класу, які є
значеннями залежної категоріальної змінної "видавати" або "не
видавати" кредит.
Кожна гілка дерева, що йде від внутрішнього вузла, відзначена
предикатом розщеплення. Останній може ставитися лише до одного
атрибуту розщеплення даного вузла. Характерна особливість предикатів
розщеплення: кожний запис використовує унікальний шлях від кореня
дерева тільки до одного вузла-рішення. Об'єднана інформація про атрибути
розщеплення і предикат розщеплення у вузлі називається критерієм
розщеплення (splitting criterion).
На рис. 9 зображено одне з можливих дерев рішень для розглянутої
бази даних. Наприклад, критерій розщеплення "Яку освіту?", Міг би мати
два предиката розщеплення і виглядати інакше: освіта "вищу" і "не вищу".
Тоді дерево рішень мало б інший вигляд.
Таким чином, для даної задачі (як і для будь-якої іншої) може бути
побудовано безліч дерев рішень різної якості, з різною прогнозуючої
точністю.

Завдання 1
Таблиця 1
Небо Температура Вологість Вітряно Гуляти?
Сонячно 30 85 Ні Не гуляти
Сонячно 27 90 Так Не гуляти
Хмарно 28 78 Ні Гуляти
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Дощ 21 96 Ні Гуляти
Дощ 20 80 Ні Гуляти
Дощ 18 70 Так Не гуляти
Хмарно 18 65 Так Гуляти
Сонячно 22 95 Ні Не гуляти
Сонячно 21 70 Ні Гуляти
Дощ 24 80 Ні Гуляти
Сонячно 24 70 Так Гуляти
Хмарно 22 90 Так Гуляти
Хмарно 27 75 Ні Гуляти
Хмарно 27 75 Ні Гуляти
Дощ 22 80 Так Не гуляти

Завдання 2
Таблиця 2
Вік Конкуренція Тип Виручка
Старий Так ПЗ Низька
Старий Ні ПЗ Низька
Старий Ні Залізо Низька
Середній Так ПЗ Низька
Середній Так Залізо Низька
Середній Ні Залізо Висока
Середній Ні ПЗ Висока
Новий Так ПЗ Висока
Новий Ні Залізо Висока
Новий Ні ПЗ Висока

Завдання 3
Таблиця 3
День Прогноз Температура Вологість Вітер Грати в
м’яч
D1 Сонячний Гаряча Висока Слабкі Ні
D2 Сонячний Гаряча Висока Сильні Ні
D3 Похмуро Гаряча Висока Слабкі Так
D4 Дощ М'яка Висока Слабкі Так
D5 Дощ Прохолодний Нормальний Слабкий Так
D6 Дощ Прохолодний Нормальний сильний Ні
D7 Похмуро Прохолодний Нормальний Сильні Так
D8 Сонячний М'яка Висока Слабкі Ні
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
D9 Сонячний Прохолодний Нормальний Слабкий Так
D10 Дощ М'який Нормальний Слабкий Так
D11 Сонячний М'яка Нормальний Сильні Так
D12 Похмуро М'яка Висока Сильні Так
D13 Похмуро Гарячі Нормальний Слабкий Так
D14 Дощ М'яка Висока Сильні Ні

Завдання 4
Таблиця 4
Вік>=21 Нерухомість Освіта Дохід>10000 Чи давати
кредит?
18 Ні Середня 5000 Ні
25 Так Вища 7000 Так
18 Ні Середня 12000 …
24 Так Вища 15000 Так
31 Так Вища 18000 Так
23 Так Нема 1000 Ні

Завдання 5
Таблиця 5
Студент Середній бал>=71 Стан стипендії
С1 71 Так
С2 69 Ні
С3 88 Підвищена
С4 74 Так
С5 70 Ні
С6 93 Підвищена
С7 83 Так

Завдання 6
Таблиця 6
Водій Порушення Штраф
В1 Так Так
В2 Ні Ні
В3 Так Так
В4 Так Так
В5 Ні Ні
В6 Ні Ні
В7 Так Так

Завдання 7
Таблиця 7
Тип послуги Ціна (грн) Сума на Чи надавати
рахунку(грн) послугу ?
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Дзвінок 0,50 0,45 Ні
Дзвінок 0,50 1,70 Так
Смс 0,45 0,35 Ні
Смс 0,45 25 Так
Ммс 0,90 0,89 Ні
Ммс 0,90 15 Так
Інтернет 1,00 0,97 Ні
Інтернет 1,00 34 Так
Замовл.тарифу 15 13 Ні
Замовл.тарифу 15 25 Так

Завдання 8
Таблиця 8
Предмет Кількість Кількість зданих Чи є допуск до
лабораторних лабораторних екзамену ?
П1 3 3 Так
П2 4 3 Ні
П3 2 2 Так
П4 4 4 Так
П5 3 2 Ні
П6 2 2 Так
П7 1 1 Так
П8 2 1 Ні
П9 3 2 Ні
П10 4 4 Так

Завдання 9
Таблиця 9
Фірма Знання Знання Чи візьмуть на
англійської(рівень) технологій роботу?
Ф1 Середній Так Так
Ф2 Низький Так Ні
Ф3 Високий Ні Ні
Ф4 Високий Так Так
Ф5 Середній Ні Ні
Ф6 Низький Ні Ні
Ф7 Середній Так Так
Ф8 Низький Ні Ні
Ф9 Високий Так Так
Ф10 Середній Ні Ні

Завдання 10
Таблиця 10
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
Вид спорту Очки Час(хв) Чи буде медаль?
Стрільба 40 2 Ні
Стрільба 100 2 Так
Плавання 20 1 Ні
Плавання 110 2 Так
Шахи 100 15 Так
Шахи 30 15 Ні

Завдання 11
Таблиця 11
Команда Кількість Погода Місце Чи є велика
серйозних проведення ймовірність
порушень перемоги?
K1 5 Дощ В гостях Ні
К2 7 Сніг В гостях Ні
К3 1 Сонце дома Так
К4 1 Сонце В гостях Так
К5 2 Сонце дома Так

Завдання 12
Таблиця 12
Громадянин Пакет Кількість днів Чи була вже Чи відкриють
документів до відкрита віза візу?
поїздки(10>=)
Г1 весь 5 так ні
Г2 весь 11 ні так
Г3 Не весь 11 ні ні
Г4 весь 10 ні так

2. Порядок виконання роботи


3.1. Ознайомитися з теоретичною частиною.
3.2. Отримати конкретне завдання.
3.3. Виконати реалізацію етапу формування вимог та побудувати
модель у відповідності з завданням.
3.4. Оформити звіт за результатами виконаної роботи.

Вимоги до звіту
Оформити звіт для захисту лабораторної роботи за зразком:
 назва роботи
 мета роботи
 порядок роботи
 короткі теоретичні відомості
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
 аналіз отриманих результатів та висновок.

Оформлення звіту
Звіт повинен відповідати вимогам перерахованим в розділі 3 – Вимоги до
звіту. Звіт оформляється на листах формату А4 (також додається електронний
варіант). Титульна сторінка повинна містити: назву предмету, такий заголовок:

Звіт
до лабораторної роботи № 2

Класифікація та регресія. Методи побудови дерева рішень.


ПІБ, номер групи студента і дату виконання лабораторної роботи. Звіт
подається викладачу для перевірки на занятті, які є наступними за даною
лабораторною роботою.

Рекомендована література
1. Баргасян А. А. Технології аналізу даних. Data Mining, Visual
Mining, Text Mining, OLAP – 2007.
2. http://www.basegroup.ru/library/analysis/tree. Деревья решений.

Контрольні питання
1. Дати визначення дерева рішень.
1. Етапи побудови дерева рішень?
2. Область застосування дерева рішень?
3. Що таке підтримка та достовірність?
4. Що дозволяє застосування дерева рішень?
5. Як виконується побудова дерева рішень?
6. Для чого призначені дерева рішень?
7. В якому випадку використовується регресійний аналіз?
8. Визначення інтелектуального аналізу даних.
9. Запустити Deductor та ознайомитись із його основними
можливостями.
10. Відкрити тестовий приклад сценарію та проаналізувати готову гілку
з побудованим деревом рішень. Проаналізувати отримані результати.
11. Вивчити процес побудови дерева рішень.
12. Використовуючи один із готових файлів даних, пройти всі
необхідні кроки для побудови дерева рішень.
13. Сформувати власні дані, вибравши довільну тему.
14. Пройти всі кроки на власних даних, приділивши більшу увагу
налаштуванню параметрів.
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень
15. Проаналізувати отримані результати і зробити висновок.
16. Підготувати звіт до лабораторної роботи з власними даними
(скріншоти, результати).
Лабораторна робота №2
Класифікація та регресія. Методи побудови дерева рішень

Навчальне видання

“Інтелектуальний аналіз даних”

Методичні вказівки до лабораторної роботи № 2 “Класифікація та регресія.


Методи побудови дерева рішень” з дисципліни
“Інтелектуальний аналіз даних” для студентів спеціальності 0804
“Комп’ютерні науки”

Укладач:
доц. Ковівчак Ярослав Васильович

Комп’ютерний набір, верстку та редагування


здійснили ст. гр. КН-32, каф. АСУ, Кутя П., Харчишин П., Гергель О.

You might also like