You are on page 1of 2

Arbre de decisions per a predir abandonaments de subscriptors

Objectiu
Crear un model d'arbre de decisions sobre el conjunt de dades donat per determinar si un
determinat client abandonarà o no la seva subscripció

Introducció
Un arbre de decisions és una tècnica d'aprenentatge supervisat que es pot utilitzar tant per a
problemes de classificació com de regressió, però sobretot es prefereix per resoldre problemes
de classificació. És un classificador estructurat en arbre, on els nodes interns representen les
característiques d'un conjunt de dades, les branques representen les regles de decisió i cada
node de fulla representa el resultat.

Un arbre de decisió fa una pregunta i, en funció de la resposta (Sí/No), divideix encara més
l'arbre en subarbres.

En el nostre cas pràctic, treballarem en un conjunt de dades d'abandonament de subscriptors a


una empresa d’Streaming. Els client marcats com a ‘Churn’ – True són aquells que han decidit
posar fi a la seva relació amb la seva empresa existent.

XYZ és una empresa de serveis que ofereix als clients un pla de subscripció d'un any per al seu
producte. L'empresa vol saber si els clients renovaran la subscripció per a l'any vinent o no.

Descripció de les dades


El CSV consta d'unes 2000 files i 16 columnes Característiques:

1. Year

2. Customer_id - unique id

3. Phone_no - customer phone no

4. Gender -Male/Female

5. Age – age of the customer

6. No of days subscribed - the number of days since the subscription

7. Multi-screen - does the customer have a single/ multiple screen subscription

8. Mail subscription - customer receive emails or not

9. Weekly mins watched - number of minutes watched weekly

10.Minimum daily mins - minimum minutes watched

11.Maximum daily mins - maximum minutes watched

12.Weekly nights max mins - number of minutes watched at night time

13.Videos watched - total number of videos watched

14.Maximum_days_inactive - days since inactive

15.Customer support calls - number of customer support calls

16.Churn – (1)Yes / (0)No


PROCEDIMENT

1. Importar les biblioteques necessàries i llegir el conjunt de dades.

2. Preparació de dades

Eliminació de columnes no desitjades

3. Construcció del model

Creació de dades d’entrenament i test

Model d'arbre de decisió

4. Validació del model (prediccions)

Confusion Matrix

a. Exactitud (Accuracy)= CorrectPred/TotalPred

b. Precisió (Precision)= TruePositive/TotalPositive (TP+FP)

c. Sensibilitat (Recall) = TruePositive/(TP+FN)

d. Puntuación F1 (F1-Score)=2*(Recall*Precision)/(Recall+Precision)

ROC (Receiver Operating Characteristic) i AUC (el AUC. (Area under the ROC Curve)

(Un clasificador sin poder predictivo (de predicción aleatoria), el AUC es 0.5, y para un
clasificador perfecto, el AUC es 1.0; esto es el área bajo sus correspondientes curvas
ROC.

5. Variables més importants

Crear una funció per trobar les variables més importants

Gràfic de les variables més importants/rellevants

You might also like