You are on page 1of 16

Bernardo León Hoyos Espinosa

DECISIÓN

ESPECÍFICOS
CONTROLES DE ÁRBOLES DE

CÓMO ALTERAR EL ÁRBOL CON FINES

Ingeniero Mecánico UPB / Especialista EAFIT / Magister UPB


Este es el árbol que sale por defecto

Y estos son los controles y los valores por defecto

Cuándo se debe alterar los cotroles y


qué cambios generan en el árbol?
Pueden generarse árboles con Pueden cambiar el nodo raíz, la
cantidad de niveles, etc.
miles de diferentes semillas y El árbol ideal sería con pocas ramas y todas las hojas
cada una da un árbol diferente con entropía cero. Además, unas hoja con el 100%
para Yes y otras con el 100% para el No

Lo ideal sería tener muchas hojas con entropía cero. Pero en este caso solamente se tiene el 3% o el 4% de las transacciones.
Al evaluar el modelo con diferentes semillas, cambia la matriz de validación.

La convalidación se hace con el 15%


de los datos. Pero cada semilla hace
que en ese 15% haya datos distintos.
En el nodo RAÍZ, la base de datos se divide en dos
DIVISIÓN MÍNIMA (Nodo raíz) ramas. Una de 204 datos y otra de 52 datos.

El valor máximo que puede aparecer, para el nodo


raíz, es 52.

Si se sube a 53 o más, aparece el siguiente error:

Recuerde que lo ideal es que la mitad de los datos


estén en la rama izquierda y la otra mitad en la
rama derecha. Pero eso no siempre es posible.
El nodo que menos datos tiene es el nodo 5. Le entran 9 datos.
CUBO MÍNIMO
El valor de cubo mínimo puede subir hasta 9 sin que cambie el
árbol. A partir de 10, genera un árbol nuevo.

Con cubo mínimo = 10: el cubo de menor cantidad de datos sería el


11 con 13 datos. Por defecto es la tercera parte de la división
mínima. Pero nunca debe superarla.
COMPLEJIDAD El valor predeterminado es 0.01. Un valor de 0 construirá
Un árbol de decisión completo a la máxima profundidad.
(Aumento del riesgo)

7 nodos

5 nodos

Aumentar la complejidad equivale


a “Podar” (pruning) el árbol.

Muy simple, es fácil de interpretar,


pero baja la confiabilidad

Muy complejo, se ajusta muy bien a los datos de


entrenamiento, pero puede bajar el desempeño
con los datos de validación y prueba
En general, cuanto más complejo un modelo, es más probable que coincida con los datos en los que se ha
entrenado y es menos probable que coincida con datos nuevos que no se hayan visto anteriormente.
Complejidad es el incremento en el riesgo al podar el árbol.
PREVIOS

Hay que entender el concepto de 80%


muestreo estratificado
20%
Si la población está clasificada por
alguna variable en 80 / 20

20%

Las muestras también deben estar 80%


clasificadas en la misma proporción
300 datos de 366 corresponden
PREVIOS al 82% que NO llovíó.
66 de 366, al 18% que SÍ llovió.
Obliga a que los datos de entrenamiento
sean una muestra estratificada. Pero el árbol muestra:
Si se ejecutan los datos sin partición…

Este control hace un ajuste en el árbol para que la muestra tenga la


misma proporción de la población. Las proporciones deben sumar 1.

Se hace útil cuando las proporciones son significativamente diferentes.


MATRIZ DE PÉRDIDA No siempre los Falsos Positivos (FP)
tienen la misma severidad de los Falsos Negativos (FN)

0 1
0 TN FP 0, FP, FN, 0.
1 FN TP

Si un Falso Positivo es 5 veces


más severo que un Falso 0,5,1,0.
Negativo, debe escribirse así:

La matriz de error inicial es esta:

En este caso el algoritmo crea


un árbol dónde se minimicen
las falsos positivos.
0,5,1,0.

Un Falso Positivo es 5 veces más severo que un Falso Negativo

Rattle pide los 4 valores

El algoritmo
minimiza los
Falsos Positivos
0; 1; 10; 0.

Un Falso Negativo es 10 veces más severo que un Falso Positivo

Rattle pide los 4 valores

El algoritmo
minimiza los
Falsos Negativos
FALSO POSITIVO
En un estudio de investigación, el error de tipo I, también denominado error de tipo alfa (α) o falso

positivo, es el error que se comete cuando el investigador rechaza la hipótesis nula siendo esta verdadera

en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la

conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.

Algunos ejemplos para el error tipo I serían:


• Se considera que el paciente está enfermo, a pesar de que en realidad está sano; hipótesis nula: El paciente está sano.
• Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis nula: El acusado es inocente.
• No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar; hipótesis nula: La persona tiene
derecho a ingresar.
Un falso positivo en informática para un antivirus, se refiere a la detección de un

archivo como virus (o alguna otra clase de malware) por parte de un antivirus, cuando

en realidad no es ningún virus o malware. Estos errores suelen ser pocos, aunque

dependiendo de algunos factores (como la heurística) puede aumentar la

probabilidad de la aparición de estos.

hipótesis nula: El programa tiene virus


En Medicina el Falso positivo es un error por el cual al realizar una exploración física o una prueba

complementaria su resultado indica una enfermedad determinada, cuando en realidad no la hay.

hipótesis nula: El paciente está enfermo


Bibliografía
 Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.

 David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.

 Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.

 Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5 June 2006). 34471.html

 Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May 1960), pp. 160–167.

 Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.

 Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.

 Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV
Errors", American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.

 Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.

 Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.

 Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp. 121–127.

 Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–Wesley, (Reading), 1968.

You might also like