Árboles de Decisión R

Bernardo León Hoyos Espinosa
DECISIÓN
ESPECÍFICOS
CONTROLES DE ÁRBOLES DE
CÓMO ALTERAR EL ÁRBOL CON FINES
Ingeniero Mecánico UPB / Especialista EAFIT / Magister UPB

Este es el árbol que sale por defecto
Y estos son los controles y los valores por defecto
Cuándo se debe alterar los cotroles y

qué cambios generan en el árbol?
Pueden generarse árboles con Pueden cambiar el nodo raíz, la
cantidad de niveles, etc.
miles de diferentes semillas y El árbol ideal sería con pocas ramas y todas las hojas
cada una da un árbol diferente con entropía cero. Además, unas hoja con el 100%
para Yes y otras con el 100% para el No
Lo ideal sería tener muchas hojas con entropía cero. Pero en este caso solamente se tiene el 3% o el 4% de las transacciones.
Al evaluar el modelo con diferentes semillas, cambia la matriz de validación.
La convalidación se hace con el 15%

de los datos. Pero cada semilla hace
que en ese 15% haya datos distintos.
En el nodo RAÍZ, la base de datos se divide en dos
DIVISIÓN MÍNIMA (Nodo raíz) ramas. Una de 204 datos y otra de 52 datos.
El valor máximo que puede aparecer, para el nodo

raíz, es 52.
Si se sube a 53 o más, aparece el siguiente error:
Recuerde que lo ideal es que la mitad de los datos

estén en la rama izquierda y la otra mitad en la
rama derecha. Pero eso no siempre es posible.
El nodo que menos datos tiene es el nodo 5. Le entran 9 datos.
CUBO MÍNIMO
El valor de cubo mínimo puede subir hasta 9 sin que cambie el
árbol. A partir de 10, genera un árbol nuevo.
Con cubo mínimo = 10: el cubo de menor cantidad de datos sería el

11 con 13 datos. Por defecto es la tercera parte de la división
mínima. Pero nunca debe superarla.
COMPLEJIDAD El valor predeterminado es 0.01. Un valor de 0 construirá
Un árbol de decisión completo a la máxima profundidad.
(Aumento del riesgo)
7 nodos
5 nodos
Aumentar la complejidad equivale

a “Podar” (pruning) el árbol.
Muy simple, es fácil de interpretar,

pero baja la confiabilidad
Muy complejo, se ajusta muy bien a los datos de

entrenamiento, pero puede bajar el desempeño
con los datos de validación y prueba
En general, cuanto más complejo un modelo, es más probable que coincida con los datos en los que se ha
entrenado y es menos probable que coincida con datos nuevos que no se hayan visto anteriormente.
Complejidad es el incremento en el riesgo al podar el árbol.
PREVIOS
Hay que entender el concepto de 80%

muestreo estratificado
20%
Si la población está clasificada por
alguna variable en 80 / 20
20%
Las muestras también deben estar 80%

clasificadas en la misma proporción
300 datos de 366 corresponden
PREVIOS al 82% que NO llovíó.
66 de 366, al 18% que SÍ llovió.
Obliga a que los datos de entrenamiento
sean una muestra estratificada. Pero el árbol muestra:
Si se ejecutan los datos sin partición…
Este control hace un ajuste en el árbol para que la muestra tenga la

misma proporción de la población. Las proporciones deben sumar 1.
Se hace útil cuando las proporciones son significativamente diferentes.

MATRIZ DE PÉRDIDA No siempre los Falsos Positivos (FP)
tienen la misma severidad de los Falsos Negativos (FN)
0 1
0 TN FP 0, FP, FN, 0.
1 FN TP
Si un Falso Positivo es 5 veces

más severo que un Falso 0,5,1,0.
Negativo, debe escribirse así:
La matriz de error inicial es esta:
En este caso el algoritmo crea

un árbol dónde se minimicen
las falsos positivos.
0,5,1,0.
Un Falso Positivo es 5 veces más severo que un Falso Negativo
Rattle pide los 4 valores
El algoritmo
minimiza los
Falsos Positivos
0; 1; 10; 0.
Un Falso Negativo es 10 veces más severo que un Falso Positivo
Rattle pide los 4 valores
El algoritmo
minimiza los
Falsos Negativos
FALSO POSITIVO
En un estudio de investigación, el error de tipo I, también denominado error de tipo alfa (α) o falso
positivo, es el error que se comete cuando el investigador rechaza la hipótesis nula siendo esta verdadera
en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la
conclusión de que existe una diferencia entre las hipótesis cuando en realidad no existe.
Algunos ejemplos para el error tipo I serían:

• Se considera que el paciente está enfermo, a pesar de que en realidad está sano; hipótesis nula: El paciente está sano.
• Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis nula: El acusado es inocente.
• No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar; hipótesis nula: La persona tiene
derecho a ingresar.
Un falso positivo en informática para un antivirus, se refiere a la detección de un
archivo como virus (o alguna otra clase de malware) por parte de un antivirus, cuando
en realidad no es ningún virus o malware. Estos errores suelen ser pocos, aunque
dependiendo de algunos factores (como la heurística) puede aumentar la
probabilidad de la aparición de estos.
hipótesis nula: El programa tiene virus

En Medicina el Falso positivo es un error por el cual al realizar una exploración física o una prueba
complementaria su resultado indica una enfermedad determinada, cuando en realidad no la hay.
hipótesis nula: El paciente está enfermo

Bibliografía
 Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
 David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
 Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
 Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5 June 2006). 34471.html
 Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May 1960), pp. 160–167.
 Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
 Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
 Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV
Errors", American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
 Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
 Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
 Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
 Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–Wesley, (Reading), 1968.

Árboles de Decisión R

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Árboles de Decisión R

Uploaded by

Copyright:

Available Formats

Bernardo León Hoyos Espinosa

CÓMO ALTERAR EL ÁRBOL CON FINES

Ingeniero Mecánico UPB / Especialista EAFIT / Magister UPB

Y estos son los controles y los valores por defecto

Cuándo se debe alterar los cotroles y

La convalidación se hace con el 15%

El valor máximo que puede aparecer, para el nodo

Si se sube a 53 o más, aparece el siguiente error:

Recuerde que lo ideal es que la mitad de los datos

Con cubo mínimo = 10: el cubo de menor cantidad de datos sería el

Aumentar la complejidad equivale

Muy simple, es fácil de interpretar,

Muy complejo, se ajusta muy bien a los datos de

Hay que entender el concepto de 80%

Las muestras también deben estar 80%

Este control hace un ajuste en el árbol para que la muestra tenga la

Se hace útil cuando las proporciones son significativamente diferentes.

Si un Falso Positivo es 5 veces

La matriz de error inicial es esta:

En este caso el algoritmo crea

Un Falso Positivo es 5 veces más severo que un Falso Negativo

Rattle pide los 4 valores

Un Falso Negativo es 10 veces más severo que un Falso Positivo

Rattle pide los 4 valores

en la población. Es equivalente a encontrar un resultado falso positivo, porque el investigador llega a la

Algunos ejemplos para el error tipo I serían:

dependiendo de algunos factores (como la heurística) puede aumentar la

probabilidad de la aparición de estos.

hipótesis nula: El programa tiene virus

complementaria su resultado indica una enfermedad determinada, cuando en realidad no la hay.

hipótesis nula: El paciente está enfermo

You might also like