Professional Documents
Culture Documents
Завдання №4
Завдання №4
Завантаження даних
Data Visualization
Desicion Tree
Перший розподіл базується на змінній Housing. Якщо Housing 1,3 ( free, rent) дерево
переходить до вузла 2 -Job. Якщо Housing 2 (own), дерево переходить до вузла 5 -
Purpose.
Для Housing 1,3, наступний розподіл базується на змінній Job. Якщо Job 1 (unemployed)
прогнозований результат 0 (не кредитоспроможний). Якщо категорія Job 2,4,3,5,6,
дерево переходить до вузла 4 з прогнозованим результатом 1 (кредитоспроможний).
Для Housing 2 наступний розподіл базується на змінній Purpose. Якщо Purpose 1,3,6,7
(radio/TV, furniture/equipment, domestic appliances, repairs), дерево переходить до вузла
6 - Credit amount. Якщо Purpose 2,4,5,8 (education, car, business, vacation/others), дерево
переходить до вузла 9 з прогнозованим результатом 1 (кредитоспроможний).
Predict
Істинно негативний (TN) (0,0): модель правильно передбачила 0 (не кредитоспроможний), і фактичне
значення також дорівнює 0. У цьому випадку кількість дорівнює 2.
Хибнопозитивний результат (FP) (0,1): модель передбачила 1 (кредитоспроможний), але фактичне
значення 0 (не кредитоспроможний). У цьому випадку рахунок дорівнює 2.
Помилково негативний (FN) (1,0): модель передбачила 0 (не кредитоспроможний), але фактичне
значення дорівнює 1 (кредитоспроможний). У цьому випадку рахунок дорівнює 55.
Істинно позитивний (TP) (1,1): модель правильно передбачила 1 (кредитоспроможний), і фактичне
значення також дорівнює 1. У цьому випадку кількість дорівнює 241.
Model Evaluation
З результатів моделі класифікації дерева рішень можна помітити, що: Навчання: модель має точність
86,14% і точність/позитивне прогнозне значення 85,71%. Тестування: модель має точність 81% і
точність/позитивне прогнозне значення 50%. Ці результати вказують на те, що модель працює не
дуже добре і можливо страждає від надмірного або недостатнього оснащення.
Спосіб 2
Random Forest
Результат є відомостями про модель випадкового лісу, яка була побудована за
допомогою крос-валідації на наборі даних з 700 спостережень та 10
предикторами для класифікації на дві класи '0' та '1'.
Були розглянуті три значення параметру mtry: 2, 14 та 27. Найвища точність
була досягнута при mtry = 2.
Зазначено, що для вибору оптимальної моделі використовувалася точність
(Accuracy), та оптимальне значення параметру mtry було встановлено рівним 2.
Таким чином, модель Random Forest досягла точності приблизно 85,6% і
коефіцієнта каппа приблизно 0,02 під час навчання з mtry = 2.
Далі, виведені значення важливості змінних. Важливість змінних може
допомогти в інтерпретації моделі та виборі найбільш важливих факторів для
класифікації.
З останнього рядка результату можна бачити вихідну інформацію щодо
побудованої моделі випадкового лісу, включаючи кількість дерев (500),
кількість змінних, що спробувані на кожному розбитті (2), а також оцінку
помилки "out-of-bag" (OOB), яка складає 14.29%. Також подано матрицю
помилок, що вказує на кількість правильно та неправильно класифікованих
прикладів для кожного класу.
Також вищенаведені значення представляють відносну важливість кожної
змінної предиктора в моделі. Вищі значення вказують на більшу важливість у
прогнозуванні змінної результату. У цьому випадку Credit_amount (сума
кредиту), вік та період є найважливішими змінними в моделі.
У моделі model_rf значення помилки Out of Bag Error становить 14.29%. Таким
чином, точність моделі за даними тесту (поза даними мішка) становить 100% -
14.29% = 85,71%.
Predict
Model Evaluation
З результатів моделі класифікації Random Forest можна помітити, що:
Навчання: модель досягла точності 85,86% і значення точності/позитивного
прогнозування 100%. Тестування: модель досягла точності 81% ,показник
точності/позитивного прогнозування не було обраховано. Результати
показують, що продуктивність моделі перевищує 80%, з невеликою
ймовірністю переобладнання.