You are on page 1of 25

Виконала: Іващенко Катерина (ІЕ-402)

Завантаження та інсталяція необхідних бібліотек

Завантаження даних

Переглянемо датасет та статистику даних


Бачимо, що у нас 12 змінних, серед яких: 4 числових та 8 текстових, набір даних
містить 1000 спостережень. Також із вищенаведних результатів видно, що є
пропущені значення.

Перевіримо відсутність значень

Єдині стовпці, у яких відсутні значення, це стовпці Saving_accounts і


Checking_account.
Видалимо стовпець Client_ID оскільки він не потрібний в процесі
моделювання

Data Visualization

Загалом, можна сказати, що чоловіки мають вищий рівень


кредитоспроможності порівняно з жінками на цій діаграмі.
Бачимо, що 310 осіб -це жінки, 690 осіб - чоловіки.
З вищенаведеної діаграми бачимо, що найбільш кредитоспроможними є особи,
що працюють. Таких осіб черед позичальників понад 600, серед яких більше
500 осіб кредитоспроможні і близько 100 - не надійні. Державні службовці,
студенти, комерційні співробітники також мають непоганий рівень
кредитоспроможності, найменш кредитоспроможними є безробітні та
пенсіонери.
Серед одружених чоловіків найбільша кількість осіб з позитивною
кредитоспроможністю така ж тенденція прослідковується і серед жінок (тобто,
одружені жінки більш кредитоспроможні). Проте, якщо брати до уваги стать, то
чоловіки є більш кредитоспроможними, ніж жінки за цим графіком.
 Загалом, графік показує, що найбільше кредитів надається на менший
термін та менші суми, оскільки більшість точок зосереджені в нижньому
лівому куті.

 Вищі кредитні суми асоційовані з меншою кількістю випадків.


З даного графіку видно, що більшість кредитоспроможних клієнтів знаходяться
у віковому діапазоні 25-35 років.

Перетворення якісних даних у кількісні


Подивимось який вигляд має датасет після перетворень

Desicion Tree

Розіб’ємо на тренувальну (30%) та навчальну вибірку (70%)


Побудова моделі
Надана інформація представляє модель дерева рішень, яка передбачає прогноз
кредитоспроможності (0 - не кредитоспроможний; 1 - кредитоспроможний) на основі
кількох змінних предиктора (Housing, Job, Purpose, Credit amount). Пояснення
структури дерева:

Кореневий вузол є початковою точкою дерева рішень.

Перший розподіл базується на змінній Housing. Якщо Housing 1,3 ( free, rent) дерево
переходить до вузла 2 -Job. Якщо Housing 2 (own), дерево переходить до вузла 5 -
Purpose.

Для Housing 1,3, наступний розподіл базується на змінній Job. Якщо Job 1 (unemployed)
прогнозований результат 0 (не кредитоспроможний). Якщо категорія Job 2,4,3,5,6,
дерево переходить до вузла 4 з прогнозованим результатом 1 (кредитоспроможний).

Для Housing 2 наступний розподіл базується на змінній Purpose. Якщо Purpose 1,3,6,7
(radio/TV, furniture/equipment, domestic appliances, repairs), дерево переходить до вузла
6 - Credit amount. Якщо Purpose 2,4,5,8 (education, car, business, vacation/others), дерево
переходить до вузла 9 з прогнозованим результатом 1 (кредитоспроможний).

Подібним чином дерево продовжує розділятися на основі різних змінних предикторів,


доки не досягне листових вузлів, які представляють кінцеві прогнозовані результати на
основі комбінації значень змінних предикторів.

Числа в кожному вузлі представляють кількість спостережень, які підпадають під цю


конкретну категорію на основі заданих критеріїв розподілу.
Загалом, дерево рішень забезпечує чітке візуальне представлення процесу прийняття
рішень і того, як різні змінні предикторів впливають на остаточний прогноз
кредитоспроможності.

Predict

Істинно негативний (TN) (0,0): модель правильно передбачила 0 (не кредитоспроможний), і фактичне
значення також дорівнює 0. У цьому випадку кількість дорівнює 2.
Хибнопозитивний результат (FP) (0,1): модель передбачила 1 (кредитоспроможний), але фактичне
значення 0 (не кредитоспроможний). У цьому випадку рахунок дорівнює 2.
Помилково негативний (FN) (1,0): модель передбачила 0 (не кредитоспроможний), але фактичне
значення дорівнює 1 (кредитоспроможний). У цьому випадку рахунок дорівнює 55.
Істинно позитивний (TP) (1,1): модель правильно передбачила 1 (кредитоспроможний), і фактичне
значення також дорівнює 1. У цьому випадку кількість дорівнює 241.

Model Evaluation
З результатів моделі класифікації дерева рішень можна помітити, що: Навчання: модель має точність
86,14% і точність/позитивне прогнозне значення 85,71%. Тестування: модель має точність 81% і
точність/позитивне прогнозне значення 50%. Ці результати вказують на те, що модель працює не
дуже добре і можливо страждає від надмірного або недостатнього оснащення.

Спосіб 2

На першому рівні бачимо, що кредитоспроможними є 85%. На другому рівні клієнти


розбивається за сумою кредиту.
Якщо “Credit_amount” менше 979, то ми переходимо до наступного вузла, який ділить
осіб за.
Якщо “Job” = 1,4, то ми переходимо до наступного вузла, який ділить осіб за
“Credit_amount”.
І так далі, поки ми не дійдемо до кінцевого вузла, який вказує ймовірність бути
кредитоспроможним (1) або ні (0).
Кожен кінцевий вузол містить дві ймовірності: одну для некредитоспроможності (0) та
іншу для кредитоспроможності (1). Ці ймовірності вказують на ризик або безпеку надання
кредиту, залежно від критеріїв, що передують.
Наприклад, якщо “Credit_amount” < 979, “Job” = 1,4, “Credit_amount” >= 667,
“Credit_amount” < 917, то ймовірність бути кредитоспроможним становить 23%, а ймовірність
бути некредитоспроможним - 77%.
Групу, яка мала найкращий рівень кредитоспроможності (94%), складали особи, сума кредиту
яких була більшою за 979 та housing = 2( own);

Спосіб за індексом Джіні


Почнемо опис ДР з кореневого вузла, де перевіряється, чи є Credit_amount <
979.
Якщо ні, то особа вважається кредитоспроможною (1), якщо так - перейдемо до
наступного вузла.
Наступний вузол перевіряє, чи є Job = 1.
Якщо ні, то особа є кредитоспроможною (1), якщо так - перейдемо до
наступного вузла.
Тут ми знову перевіряємо Credit_amount: якщо сума боргу < 667, то особа є
кредитоспроможною (1).
В іншому разі ми знову перевіряємо Credit_amount: якщо сума боргу менше 917,
то особа не є кредитоспроможна (0); якщо борг більший за 917 – особа є
кредитоспроможна (1).

Random Forest
Результат є відомостями про модель випадкового лісу, яка була побудована за
допомогою крос-валідації на наборі даних з 700 спостережень та 10
предикторами для класифікації на дві класи '0' та '1'.
Були розглянуті три значення параметру mtry: 2, 14 та 27. Найвища точність
була досягнута при mtry = 2.
Зазначено, що для вибору оптимальної моделі використовувалася точність
(Accuracy), та оптимальне значення параметру mtry було встановлено рівним 2.
Таким чином, модель Random Forest досягла точності приблизно 85,6% і
коефіцієнта каппа приблизно 0,02 під час навчання з mtry = 2.
Далі, виведені значення важливості змінних. Важливість змінних може
допомогти в інтерпретації моделі та виборі найбільш важливих факторів для
класифікації.
З останнього рядка результату можна бачити вихідну інформацію щодо
побудованої моделі випадкового лісу, включаючи кількість дерев (500),
кількість змінних, що спробувані на кожному розбитті (2), а також оцінку
помилки "out-of-bag" (OOB), яка складає 14.29%. Також подано матрицю
помилок, що вказує на кількість правильно та неправильно класифікованих
прикладів для кожного класу.
Також вищенаведені значення представляють відносну важливість кожної
змінної предиктора в моделі. Вищі значення вказують на більшу важливість у
прогнозуванні змінної результату. У цьому випадку Credit_amount (сума
кредиту), вік та період є найважливішими змінними в моделі.
У моделі model_rf значення помилки Out of Bag Error становить 14.29%. Таким
чином, точність моделі за даними тесту (поза даними мішка) становить 100% -
14.29% = 85,71%.

Predict

Істинно негативний (TN): модель правильно передбачила 0 (не кредитоспроможний) випадків, і


фактичне значення також дорівнює 0. У цьому випадку кількість становить 0.
Хибнопозитивний результат (FP): модель передбачила 1 (кредитоспроможний), але фактичне
значення 0 (не кредитоспроможний). У цьому випадку рахунок дорівнює 0.
Помилково негативний (FN): модель передбачила 0 (не кредитоспроможний), але фактичне значення
дорівнює 1 (кредитоспроможний). У цьому випадку рахунок дорівнює 57.
Спавжній позитивний результат (TP): модель правильно передбачила 1 (кредитоспроможний)
випадки, і фактичне значення також дорівнює 1. У цьому випадку кількість дорівнює 243.

Model Evaluation
З результатів моделі класифікації Random Forest можна помітити, що:
Навчання: модель досягла точності 85,86% і значення точності/позитивного
прогнозування 100%. Тестування: модель досягла точності 81% ,показник
точності/позитивного прогнозування не було обраховано. Результати
показують, що продуктивність моделі перевищує 80%, з невеликою
ймовірністю переобладнання.

Порівняння побудованих моделей


Обидві моделі - Decision Tree (Дерево рішень) та Random Forest (Випадковий ліс) - мають однакову
точність 0.81. Однак, вони відрізняються за іншими метриками.
Модель Decision Tree має кращі значення повернення (Recall) та точності (Precision). Показник Recall
вказує на те, скільки із реальних позитивних випадків модель змогла правильно класифікувати.
Precision, з іншого боку, показує, скільки із випадків, які модель класифікувала як позитивні, дійсно є
позитивними.
У випадку з моделлю Random Forest, показник Recall дорівнює 0, що означає, що модель не змогла
правильно класифікувати жодного позитивного випадку. Крім того, дані про точність відсутні, що
може свідчити про проблеми з моделлю.
Тому, зважаючи на ці результати, модель Decision Tree виглядає більш привабливою для
прогнозування, оскільки вона показала кращі результати за додатковими метриками.

You might also like