You are on page 1of 9

REGRESIN LOGSTICA

Se necesita analizar los datos a travs de esta herramienta para


encontrar una alternativa a la manera de clasificar nuestras secundaras
entre aquellas que tienen un alto ndice de respuestas similares y
aquellas que no, ver las variables que ms influyen en este
comportamiento y encontrar algunas soluciones para disminuir el
nmero de secundaras que incurren en ese comportamiento
permitiendo disminuir los gatos en la aplicacin de la prueba planea.
Se utilizar la transformacin WOE (Weight Of Evidence) la cul nos
permitir entender mejor el comportamiento de nuestras variables ya
los coeficientes de regresin sern ms claros de interpretar, esto igual
nos facilitar meter aquellas variables con un mayor IV y no utilizar
todas, adems de la herramienta estadstica utilizaremos nuestro
razonamiento para eliminar aquellas variables que no hagan sentido en
nuestra variable objetivo.
Recordemos que la tabla que se utiliza tiene un poco ms del 9% de
escuelas que tuvieron respuestas similares en la prueba y sus resultados
son cancelados, por lo tanto, para encontrar los coeficientes de
regresin haremos un sobre-muestreo que ayudar a tener la misma
cantidad de secundarias con alto ndice de respuestas similares y
aquellas que no, en este caso elegiremos 280 casos para cada una y el
sobre- muestreo se hace con la siguiente instruccin, donde reducida es
nuestra tabla con las variables que quedaron del clster de variables y
las variables categricas.

Posterior a esto se necesita elegir las variables que entrarn a la


regresin, para ello se utilizar individualmente tanto variables
continuas como categricas, finalmente se elegirn aquellas con IV
mayor a 0.02 , para ello se utilizar una macro para cada tipo de
variable, a continuacin se muestra la macro para variables continuas, la
diferencia entre esta y la de categricas es que aqu necesitamos sacar
un rango, posteriormente se calcula de la misma manera.

Las variables que entraron se presentan en la siguiente tabla con su


respectivo IV y KS
Variable
Alumnos nivel alto lectura y
comprensin
Alumnos evaluado en matemticas
Percepcin mala escuelas parecidas
Porcentaje de alumnos nivel alto
matemticas
Porcentaje nivel satisfactorio
matemticas
Porcentaje de alumnos con
percepcin mala
Tipo de escuela

IV

KS
0.17
0.12
0.14

0.16
0.14
0.14

0.14

0.18

0.11

0.07

0.11
0.12

0.16
0.11

La tabla final que se usar para el anlisis de regresin se llama


FINAL_WOE, esta tabla contiene cada variable con su respectiva
transformacin que se hizo gracias a la macro, esta tabla se obtiene
cruzando los resultados obtenidos en la macro, con la tabla de la
muestra.
El siguiente paso es correr la regresin y as obtener las variables
significativas, se usar el mtodo stepwise para obtener estas.

Se puede observar que los valores de los parmetros son negativos, y


recordemos que la variable que tomamos es aquella transformada en su
respectivo WOE. Veamos que el modelo no es malo pues obtenemos un
ROC de 0.71 y al final nos quedamos con 4 variables que se presentan a
continuacin con su respectivo estimador.

Parmetro
Alfa

Tipo de escuela
Alumnos nivel alto lectura y comprensin
Alumnos evaluado en matemticas
Porcentaje de alumnos con percepcin mala

Estimador
0.0259
-0.9445
-0.526
-0.6973
-0.6758

La grfica siguiente representa la distribucin de la probabilidad de que


una escuela secundaria tenga un alto ndice de respuestas similares
presentadas en porcentaje de 0 a 100 , esto se aplico a la tabla
completa con los valores de alfa que obtuvimos anteriormente.

Distribucin

La proporcin de evento nos ayuda a ver que tanto separa los buenos
elementos de los malos, como podemos ver el modelo discrimina de una
manera muy leve por lo tanto podemos concluir que las variables que
tenemos en la tabla no son tan representativas para modelar la
incidencia en respuestas similares, esto igual se puede observar en la
tabla del KS y IV de cada variable pues no era muy alto.

Proporcin de evento
1.89%

5.26%

9.77%

15.31%

18.57%

98.11%

94.74%

90.23%

84.69%

81.43%

no copian

copian

La distribucin acumulada de secundarias que copian y aquellas que no


se presenta en la grfica anterior, es importante destacar que esta
grfica nos ayuda a calcular una aproximacin KS de nuestra regresin,
en este caso, el KS es de 0.22 por lo cual el modelo discrimina muy
poco.

ks

acum buenos
acum malos

Finalmente se presenta la grfica de momios una vez aplicada la funcin


logaritmo natural, que nos indica el logaritmo natural que tantas
secundaras no copian entre aquellas que si copian, como vemos a
mayor probabilidad de que copien, como el logaritmo nunca es negativo

podemos asumir que siempre la cantidad de escuelas que no tienen un


alto ndice de respuestas similares ser mayor a los que si, incluso si la
probabilidad de que copien en la secundaria sea mayor a 0.5

ks

acum buenos
acum malos