Minería de Datos

1.
1 Anlisis Exploratorio de Datos

El primer paso para acercarse a un problema de la minera de datos es
profundizar en los datos, identificar las relaciones interesantes entre los
atributos, y formular algunas hiptesis iniciales, es decir, las posibles
asociaciones entre los atributos y la clase. Herramientas grficas que pueden
ayudar en esta fase.
(1) Busca posibles variables correlacionadas. Por ejemplo, saber si los datos
muestran que el nmero de minutos y cantidad cargadas tienden a
aumentar a medida que el nmero de llamadas aumenta.
R:
Existe una correlacin entre total de minutos en el da y

el cargo en el da
Existe tambin una correlacin entre total de minutos en

la tarde y el cargo en la tarde
Existe tambin una correlacin entre total de minutos en

la noche y el cargo en la noche
Existe tambin una correlacin entre total de minutos

internacionales y el cargo por minuto internacional
(2) Existen variables que pueden ser eliminadas? Justifica tu respuesta y

mencionar los posibles beneficios de hacerlo (si los hay).
R:
State es una variable anmala por lo tanto no se tendr en cuenta

para el modelo.
Are acode es una variable anmala por lo tanto no se tiene en
cuenta para el modelo.
Phone number se debe quitar puesto que si se deja probablemente
al ejecutar el algoritmo, me indique que para usuarios con ese
nmero en especfico se queden o se retiren (cual sea el resultado),
pero no servira porque solo hay un usuario con ese nmero.
Total day charge como tiene una relacin directa con el total de
minutos en el da se puede expresar en dicha variable por lo tanto no
es necesaria para el modelo.
Total evening charge como tiene una relacin directa con el total
de minutos en la tarde se puede expresar en dicha variable por lo
tanto no es necesaria para el modelo.
Total night charge como tiene una relacin directa con el total de
minutos en la noche se puede expresar en dicha variable por lo tanto
no es necesaria para el modelo.
Total international charge como tiene una relacin directa con el
total de minutos internacionales se puede expresar en dicha variable
por lo tanto no es necesaria para el modelo.
(3) Investigar la proporcin de usuarios que abandonan y los usuarios que

no abandonan entre los clientes que han (no) seleccionados un plan
internacional (Plan Inter). Qu se puede concluir?
R:
Con datos sin normalizar
Con datos Normalizados
En valores numricos sera
Podemos concluir que, como existe una pequea relacin entre los
planes internacionales y la permanencia de los clientes en la
compaa, por lo tanto, ofrecer un buen plan internacional sera una
buena estrategia para conservar los clientes. Puesto que los clientes
con planes internacionales se estn retirando en una proporcin
considerable.
(4) Investigar las posibles relaciones entre el nmero de llamadas de
servicio al cliente y el churn. Qu se puede concluir?
R: Histograma con datos normalizados de la relacin entre el nmero
de llamadas de servicio al cliente y el churn.
Podemos observar que de las cero llamadas a las tres son pocas
las personas que se retiran pero a partir de la cuarta llamada en
adelante hay una proporcin grande de clientes que se retira.
Por lo tanto se puede concluir que si las personas realizan 4 o
ms llamadas al servicio al cliente es porque deben estar
molestas o disgustadas con el servicio. Por lo tanto se debern
emplear estrategias para mantener feliz al cliente como por
ejemplo ofrecerle un mes gratis de llamadas al realizar la
tercera llamada.
(5) Investigar las posibles relaciones entre el Da Min Total y churn. Qu se
puede concluir?
R: Histograma de la relacin entre el Da Min Total y churn.
Se puede ver en el histograma que con planes de ms de 200

minutos en el da la gente se est retirando en grandes
proporciones. Se puede concluir que faltan intensivos para las
personas que son grandes consumidores de minutos en el da o
que la competencia est ofreciendo mejores precios por estos
minutos diurnos.
(6) Investigar las posibles relaciones entre el Total Evening Min y churn.
Qu se puede concluir?
R: Histograma de la relacin entre el Total Evening Min y churn.
(7) Investigar las posibles relaciones entre las variables restantes y churn.
R: Histogramas de las dems variables
(8) Resumir en una tabla los resultados obtenidos hasta el momento, sobre
el valor predictivo de cada atributo con respecto al churn.
Variable
State
Account length
rea code
Phone number
International plan
Voice mail plan
Number of voice mail message
Total day minutes
Total day calls
Total day charge
Total evening minutes
Total evening calls
Total evening charge
Total night minutes
Disposicin
Omitido
Utilizado
Omitido
Omitido
Utilizado
Utilizado
Utilizado
Utilizado
Utilizado
Omitido
Utilizado
Utilizado
Omitido
Utilizado
Total night calls

Total night charge
Total international minutes
Total international calls
Total international charge
Customer service call
Utilizado
Omitido
Utilizado
Utilizado
Omitido
Utilizado
(9) Compare sus conclusiones con los resultados obtenidos mediante el uso
de un filtro de seleccin de atributos en Weka. No olvide indicar qu filtro
que ha usado y dar una breve descripcin.
R:
1.1.1 Exploracin multivariantes Relaciones

A continuacin, se le pide que investigue posibles asociaciones multivariantes
de atributos numricos con churn.
(1) Estudiar el grfico de dispersin de n de llamadas de servicio al cliente
frente Minutos totales da. Identificar las posibles zonas de alto churn (si
los hay).
(2) Estudie el grfico de dispersin de total Da Min frente total de noche
Min. Identificar las posibles zonas de alto churn (si los hay) y tratar de
cuantificar la tasa de abandono de clientes en estas reas con respecto
a todo el conjunto de datos.
1.2 La construccin de un clasificador: rboles de decisin
Elaborar un rbol de decisin con el algoritmo J48 disponible en WEKA. Este

algoritmo es una implementacin de una versin ligeramente mejorada del
C4.5. Incluya en su informe una figura con el rbol de decisin que haya
obtenido.
(1) Describa brevemente J48 e indique los parmetros que ha utilizado para
ejecutarlo.
R:
-J48 construye rboles de decisin desde un grupo de datos de

entrenamiento. En cada nodo del rbol, J48 elige un atributo de los datos
que ms eficazmente dividen el conjunto de muestras en subconjuntos
enriquecidos en una clase u otra. Su criterio es el normalizado para
ganancia de informacin que resulta en la eleccin de un atributo para
dividir los datos. El atributo con la mayor ganancia de informacin
normalizada se elige como parmetro de decisin. El algoritmo J48
divide recursivamente en sublistas ms pequeas.
Nos incluye informacin sobre la evaluacin del modelo. En este
problema, el rbol aprendido con validacin cruzada tiene una precisin
mxima (93.6994%) por lo tanto las medidas de error son 6.3006%.
(2) Qu se puede concluir de la modelo que ha obtenido? Compare sus

conclusiones con los que ha obtenido anteriormente (seccin 1.1).
De 3333 datos, 3185(95.6%) estn bien clasificados. En cambio nos

aparecen 148(4.4%) que estn mal clasificados. El rbol de decisin con
tamao 48 y numero de niveles 25.
(3) Seleccione algunas medidas de desempeo y evaluar el modelo con
validacin cross. Justificar la eleccin de las medidas de rendimiento.
Sabemos que en la validacin cruzada los datos de muestra se dividen

en subconjuntos. Uno de los subconjuntos se utiliza como datos de
prueba y el resto como datos de entrenamiento. El proceso de validacin
cruzada es repetido durante k iteraciones, con cada uno de los posibles
subconjuntos de datos de prueba. Al hacer la evaluacin con crossvalidation podemos observar que tiene un menor porcentaje de datos
clasificados 3123(93.7%) y no clasificados 210(6.3%).
(4) Comparar el rendimiento de este clasificador con un clasificador que
siempre predice la clase de la mayora.
1.3 La construccin de un clasificador: Reglas
Construir un conjunto de reglas con algoritmo JRip. Este algoritmo es la versin
WEKA de RIPPER. Usted puede considerar para eliminar unos cuantos atributos.
Si es as, indicar qu atributos se han eliminado y por qu. Incluya en su

informe las reglas que ha obtenido
(1) Describa brevemente JRip e indique los parmetros que ha utilizado para
ejecutarlo
conclusiones con los que ha obtenido anteriormente (seccin 1.1 y
seccin 1.2).
(3) El uso de las medidas de desempeo que ha seleccionado para la
evaluacin del modelo generado por J48, evaluar el modelo actual y
comparar su rendimiento con el anterior (obtenido en la seccin 1.2).
(4) Comparar el rendimiento de este clasificador con un clasificador que
siempre predice la clase de la mayora.
1.4 Aprendizaje de coste razonable
Tengamos en cuenta que el costo para una empresa de perder un cliente es
ms alto que el costo de ofrecer algunos incentivos a un cliente, incluso
cuando no es probable que churn todos modos.
(1) Se plantean sus datos cualquier problema en este punto de vista? Si es
as describir el problema.
(2) Describir cmo el problema puede ser abordado. Utilice entonces las
herramientas disponibles en WEKA para construir otro modelo de
acuerdo con las ideas que habis explicado.
conclusiones con los que ha obtenido anteriormente (secciones 1.1, 1.2
y 1.3).
(4) Comparar el rendimiento del modelo que haya obtenido con las
anteriores. Investigar si las diferencias son estadsticamente
significativas.
1.5 Clustering
Investigar el uso de tcnicas de agrupamiento (por ejemplo, con K-means),
segmentar los clientes con el fin de obtener grupos de clientes con
caractersticas de uso de servicios similares.
(1) Perfil de los grupos, es decir, qu se puede aprender acerca de los tipos
de registros que caen en cada grupo. Justificar el nmero de grupos que
ha elegido.
(2) investigar si se puede utilizar la informacin obtenida por la agrupacin
para ayudarle en el problema de clasificacin churn.

Minería de Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Minería de Datos

Uploaded by

Copyright:

Available Formats

1.

1 Anlisis Exploratorio de Datos

Existe una correlacin entre total de minutos en el da y

Existe tambin una correlacin entre total de minutos en

Existe tambin una correlacin entre total de minutos en

Existe tambin una correlacin entre total de minutos

(2) Existen variables que pueden ser eliminadas? Justifica tu respuesta y

State es una variable anmala por lo tanto no se tendr en cuenta

(3) Investigar la proporcin de usuarios que abandonan y los usuarios que

Con datos sin normalizar

Con datos Normalizados

En valores numricos sera

Se puede ver en el histograma que con planes de ms de 200

Total night calls

1.1.1 Exploracin multivariantes Relaciones

1.2 La construccin de un clasificador: rboles de decisin

Elaborar un rbol de decisin con el algoritmo J48 disponible en WEKA. Este

-J48 construye rboles de decisin desde un grupo de datos de

(2) Qu se puede concluir de la modelo que ha obtenido? Compare sus

De 3333 datos, 3185(95.6%) estn bien clasificados. En cambio nos

Sabemos que en la validacin cruzada los datos de muestra se dividen

Si es as, indicar qu atributos se han eliminado y por qu. Incluya en su

You might also like