You are on page 1of 8

MODELO DE CLASIFICACION

La clasificacin asume que hay un conjunto de objetos caracterizados por algn atributo o rasgo que pertenece a diferentes clases. La etiqueta de clase es un valor (simblico) discreto y es conocido para cada objeto. El objetivo es para construir los modelos de clasificacin (a veces llamados clasificadores). La Clasificacin es el proceso de dividir un conjunto de datos en grupos mutuamente excluyentes Agrupa los datos de acuerdo similitudes o clases El objetivo de las tcnicas de clasificacin es la asignacin de objetos a uno de varios grupos bien definidos Los modelos de clasificacin sobre todo son usados para el modelado predictivo.

Matriz de confusin Una matriz de confusin ordena todos los casos del modelo en categoras, determinando si el valor de prediccin coincide con el valor real, se cuentan todos los casos de cada categora y los totales se muestran en la matriz. La matriz de confusin es una herramienta estndar de evaluacin de modelos estadsticos. Compara los valores reales con los valores de prediccin para cada estado de prediccin especificado. Las filas de la matriz representan los valores de prediccin para el modelo, mientras que las columnas representan los valores reales. Las categoras usadas en el anlisis son falso positivo, verdadero positivo, falso negativo y verdadero negativo. Una matriz de confusin es una herramienta importante para evaluar los resultados de la prediccin, ya que hace que resulte fcil entender y explicar los efectos de las predicciones errneas. Al ver la cantidad y los porcentajes en cada celda de la matriz, podr saber rpidamente en cuntas ocasiones ha sido exacta la prediccin del modelo.

En la tabla siguiente se muestra la matriz de confusin donde 0 significa No y 1 significa S.

La primera celda de resultados, que contiene el valor 362, indica el nmero de verdaderos positivos para el valor 0.Dado que 0 indica que el cliente no compr una bicicleta, esta estadstica indica que el modelo predijo el valor correcto para quienes no compraron bicicleta en 362 casos. La celda situada directamente debajo de esa, que contiene el valor 121, indica el nmero de falsos positivos, o nmero de veces que el modelo predijo que alguien comprara una bicicleta cuando en realidad no lo hizo. La celda que contiene el valor 144 indica el nmero de falsos positivos para el valor 1.Dado que 1 significa que el cliente compr una bicicleta, esta estadstica indica que, en 144 casos, el modelo predijo que alguien no comprara una bicicleta cuando s lo hizo. Finalmente, la celda que contiene el valor 373 indica el nmero de verdaderos positivos para el valor de destino 1.En otras palabras, en 373 casos el modelo predijo correctamente que alguien comprara una bicicleta. Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del modelo. Una diagonal indica el nmero total de predicciones exactas y la otra indica el nmero total de predicciones errneas.

Arboles de Decisin Son estructuras en forma de rbol que representan un conjunto de decisiones. Tales decisiones generan reglas para la clasificacin de un conjunto de datos. Los Arboles de Decisin se utilizan, generalmente, cuando el objetivo es realizar una clasificacin o una prediccin categrica y no tanto para ejecutar predicciones de variables cuantitativas, por lo tanto, requiere que todas las variables independientes sean categricas.

El algoritmo de rboles de decisin genera un modelo de minera de datos mediante la creacin de una serie de divisiones en el rbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlacin significativa con la columna de prediccin. La forma en que el algoritmo determina una divisin vara en funcin de si predice una columna continua o una columna discreta. Los requisitos para un modelo de rboles de decisin son los siguientes:

Una columna key: cada modelo debe contener una columna numrica o de texto que identifique cada registro de manera nica. No estn permitidas las claves compuestas. Una columna de prediccin. Se requiere al menos una columna de prediccin. Puede incluir varios atributos de prediccin en un modelo y pueden ser de tipos diferentes, numrico o discreto. Sin embargo, el incremento del nmero de atributos de prediccin puede aumentar el tiempo de procesamiento. Columnas de entrada. Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el nmero de atributos de entrada afecta al tiempo de procesamiento.

Poda Es el proceso de cortar o suprimir nodos de un rbol. La poda se suele aplicar despus de construir el rbol completo ya que la correcta estimacin a priori del beneficio obtenido al simplificar un rbol durante su construccin es muy difcil. La poda ha de realizarse en funcin de algn estimador honesto del error de clasificacin del rbol de decisin. Pre-poda Aplican un criterio segn va creciendo el rbol. Su objetivo es detener el crecimiento del rbol antes que se produzca. Post-poda Luego de creado el rbol se decide cuales nodos no sern tomados en cuenta de acuerdo an criterio determinado. Para eliminar los subrboles que no contribuyen significativamente a la precisin de la clasificacin. Planteamiento del ejercicio: En el siguiente ejemplo vamos a hacer un anlisis con informacin donde se desea predecir qu clientes van a comprar o no una bicicleta

rbol de Decisin

Red de Dependencia

Matriz de Confusin

Redes Bayesianas Es un modelo probabilstico que relaciona un conjunto de variables aleatorias mediante un grafo dirigido que indica explcitamente influencia causal. Las redes Bayesianas son grficos a cclicos dirigidos cuyos nodos representan variables y los arcos que los unen codifican dependencias condicionales entre las variables. Los nodos pueden representar cualquier tipo de variable, ya sea un parmetro medible (o medido), una variable latente o una hiptesis Las redes bayesianas o probabilsticas se fundamentan en la teora de la probabilidad y combinan la potencia del teorema de Bayes con la expresividad semntica de los grafos dirigidos. Aprendizaje de las redes Bayesianas El aprendizaje en la redes bayesianas consiste en definir la red probabilstica a partir de datos almacenados en bases de datos en lugar de obtener el conocimiento del experto. Este tipo de aprendizaje ofrece la posibilidad de inducir la estructura grfica de la red a partir de los datos observados y de definir las relaciones entre los nodos basndose tambin en dichos casos; a estas dos fases se las puede denominar respectivamente aprendizaje estructural y aprendizaje paramtrico. Aprendizaje estructural: obtiene la estructura de la red bayesiana a partir de bases de datos, es decir, las relaciones de dependencia e independencia entre las variables involucradas. Aprendizaje paramtrico: dada una estructura y las bases de datos, obtiene las probabilidades a priori y condicionales requeridas. Un clasificador bayesiano se puede ver como un caso especial de una red bayesiana en la cual hay una variable especial que es la clase y las dems variables son los atributos. La estructura de esta red depende del tipo de clasificador.

Grafica de la Red Bayesiana

Resumen del Reporte y Matriz de Confusion.

Ventajas y Desventajas

Ventajas de usar arboles de decisin Ventajas de usar Redes Bayesianas Se plantea el problema para que todas Generalmente, son fciles de construir las opciones sean analizadas. y de entender. Permite analizar totalmente las posibles Las inducciones de estos clasificadores consecuencias de tomar una decisin. son extremadamente rpidas, requiriendo solo un paso para hacerlo. Provee un esquema para cuantificar el costo de un resultado y la probabilidad Es muy robusto considerando atributos de que suceda. irrelevantes. Ayuda a realizar las mejores decisiones Toma evidencia de muchos atributos sobre la base de la informacin para realizar la prediccin final. existente y de las mejores suposiciones. Provee una estructura sumamente efectiva dentro de la cual se puede estimar cuales son las opciones e investigar las posibles consecuencias de seleccionar cada una de ellas Nos ayuda a realizar las mejores decisiones sobre la base de la informacin existente y de las mejores suposiciones. Desventajas de Arboles de Decisin Slo es recomendable para cuando el nmero de acciones es pequeo y no son posibles todas las combinaciones. En la eleccin de un modelo, existe una cantidad muy limitada y dificulta para elegir el rbol ptimo. Presenta inconvenientes cuando la cantidad de alternativas es grande y cuanto las decisiones no son racionales. Al no tener claridad de objetivos, es difcil de organizar las ideas

You might also like