You are on page 1of 13

MODELOS DE REGRESION.

Estadística II

María Alejandra Tolosa

Francisco Javier Clavijo

Universidad Nacional De Colombia


Programa Curricular De Administración De Empresas
Manizales

Profesor:

Julio Fernando Suarez Cifuentes

Manizales, 22 de Enero de 2014


Contenido
1. OBJETIVOS.....................................................................................................................................3
2. INTRODUCCION.........................................................................................................................3
METODOLOGIA..................................................................................................................................3
3. VARIABLES Y DATOS..................................................................................................................4
4. ANALISIS INICIAL........................................................................................................................5
4.1. Grafica................................................................................................................................5
4.2. Correlación.........................................................................................................................5
4.3. Modelos.............................................................................................................................6
4.3.1. Modelo 1............................................................................................................................6
4.3.1.1. Anova modelo 1.............................................................................................................6
4.3.2. Modelo 2............................................................................................................................7
4.3.2.1. Anova Modelo 2...................................................................................................................7
4.3.3. Modelo 3..................................................................................................................................8
4.3.3.1. Anova Modelo 3...................................................................................................................8
4.3.4. Modelo 4.................................................................................................................................9
4.3.4.1. Anova Modelo 4...................................................................................................................9
5. RESIDUOS ESTUDENTIZADOS......................................................................................................10
6. PRUEBA DE HIPOTESIS PARA DETERMINAR ATIPICO..................................................................10
7. MODELO SIN ATIPICO..................................................................................................................10
7.1. Anova Modelo 5.......................................................................................................................11
8. INTERVALOS DE CONFIANZA PARA LOS COEFICIENTES..............................................................11
9. SUPUESTOS..................................................................................................................................11
9.1. Normalidad de los residuos..................................................................................................11
9.2 Homocedastisidad.................................................................................................................12
9.3. Colinealidad..........................................................................................................................12
9.4. Auto correlación...................................................................................................................12
10. PREDICCION...............................................................................................................................12
11. MODELOS NO LINEALES.............................................................................................................12
11.1. Modelo Polinomial............................................................................................................12
ANALISIS:.........................................................................................................................................13

2
1. OBJETIVOS

1. Construir el mejor modelo de regresión.

2. INTRODUCCION

Con el presente trabajo se pretende saber cuál es la relación entre las distintas variables por las
cuales se ve afectado el promedio académico.
Las variables independientes que se consideraron para el análisis son las siguientes:
1. # de horas de estudio: esta variable contempla el número de horas que el estudiante se
dedica a estudiar las diferentes temáticas de cada asignatura, excluyendo el número de
horas que está recibiendo clase.
2. Promedio académico ponderado acumulado (P.A.P.A.): con esta variable se identificará
cual es el promedio acumulado que debería tener el estudiante con la pérdida de
asignaturas.
3. # de créditos inscritos en el semestre 2013-3 por cada estudiante.
4. Se consideró como variable cualitativa la posibilidad de si el estudiante ha perdido
materias o no.

Como variable dependiente se considera el Promedio Académico, el cual indica el promedio de


cada estudiante, pero con la diferencia que este no contempla la perdida de asignaturas, cabe
aclarar que se pueden presentar los siguientes casos, en el momento de hacer la comparación con
el promedio académico:

1. Que el promedio académico sea igual al P.A.P.A.: puede ocurrir en dos casos, cuando el
estudiante no ha perdido ninguna materia en lo que lleva de recorrido en la universidad, y
de igual forma, puede ocurrir cuando el estudiante ha perdido pocas materias y no por
debajo de 2,9.

2. Que el PA.P.A. sea menor que el promedio académico, lo cual significa que el estudiante
ha perdido un número mayor de materias comprado con el numero considerado
anteriormente, o ha perdido algunas materias en un promedio mucho menor que 2,9.

Generalmente si tiene el P.A.P.A igual que el promedio por encima de 4,0 significa que en
todo el recorrido en la universidad el estudiante ha mantenido un promedio alto (mayor de
4.0) y no ha perdido ninguna materia, igualmente ocurre el estudiante posee un P.A.P.A. por
debajo de 4,0 pero igual al promedio académico, puede significar que ha perdido algunas
materias pero no muy bajas (por debajo de 2,9) o que no ha perdido ninguna materia pero su
promedio general no es superior a 4,0.

METODOLOGIA

Se utilizará una regresión múltiple para estimar los coeficientes del modelo de predicción para
el promedio académico a partir de los datos recogidos a 25 diferentes estudiantes, de
diferentes carreras y diferente porcentaje de su respectiva carrera profesional. Se desarrollará

3
un modelo que podrá utilizarse para predecir el Promedio Académico dependiente de las
diferentes variables, en particular el interés estará centrado en conocer si se tiene alguna
relación entre el Promedio académico y el P.A.P.A. que será nuestra variable principal.

Se debe tener en cuenta que en la variable dependiente pueden influir muchas variables
dependientes más, pero por motivos de realización del análisis se trabaja con 4 dependientes.

La ecuación lineal estimada que predecirá la variable dependiente Y, en función de K variables


independientes observadas, está dada por:

4
^y i=b 0 + ∑ b j x ji
j=1

y donde el modelo de regresión poblacional múltiple es:

y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i + β 4 χ 4 i +ε i

En donde
Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
X4: si la persona ha perdido o no materias durante su actual trayectoria universitaria.

3. VARIABLES Y DATOS

Las variables utilizadas en este trabajo serán


Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
X4: si la persona ha perdido o no materias durante su actual trayectoria universitaria.
Teniendo en cuenta estas variables encuestamos a 25 personas de diferentes carreras y
progresos académicos.
Los resultados de dicha encuesta se encuentran en el anexo #1 en el script de R – Project.

4
4. ANALISIS INICIAL

4.1. Grafica

analisis promedio academico


3.4 3.6 3.8 4.0 4.2 3.2 3.6 4.0

5
4
3
horas es tudio

2
1
0
4.2
3.8

prom edioacademico
3.4

24
20
creditos inscritos

16
12
4.0

papa
3.6
3.2

0 1 2 3 4 5 12 16 20 24

Podemos observar a primera vista una leve linealidad entre la variable P.A.P.A y Promedio
Académico, también podemos observar puntos que se alejan de dicha linealidad, por ende
podemos considerar, en un primer momento, la existencia de datos atípicos.

4.2. Correlación.

Horas Estudio Promedio Académico Créditos Inscritos Papa

Horas Estudio 1.0000000 0.3173165 0.4556371 0.2968199


Promedio Académico 0.3173165 1.0000000 0.3614615 0.9251885
Créditos Inscritos 0.4556371 0.3614615 1.0000000 0.4144818
Papa 0.2968199 0.9251885 0.4144818 1.0000000

5
En la anterior tabla podemos observar las variables con las diferentes correlaciones con la
variable dependiente (P.A.P.A.), vemos la variable con mayor correlación la cual es promedio
académico con una correlación de 92,5% y la de menor porcentaje de correlación la cual es
horas de estudio con 29,6%.

4.3. Modelos

4.3.1. Modelo 1

Para comenzar a depurar el mejor modelo de regresión, probamos el primer modelo con todas
las variables cuantitativas, es decir tendríamos lo siguiente
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i +ε i
Donde
Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
E: error

Al evaluar el anterior modelo obtenemos:

β 1 : El promedio académico aumenta en 1.3% cuando se suma 1 hora de estudio en las horas
estudiadas por fuera de clases

β 2 ¿: El promedio aumenta en 76.9% cuando el papa sube en una decima


¿

β 3: El promedio académico disminuye en 0.4% cuando los créditos inscritos en el semestre


aumentan en 1

De la misma manera en este primer modelo el R 2 incluye las 3 variables predictorias


cuantitativas es del 86% y el R 2 ajustado nos indica que el 84% de nuestras predicciones están
en línea con el modelo de regresión, para este caso el modelo 1.

La varianza del error para este modelo es del 10%, es decir que las estimaciones en el modelo
1 se desvían en 10% de la media o de la línea del modelo de regresión.

4.3.1.1. Anova modelo 1.

Al desarrollar la anova para el primer modelo podemos observar los siguientes resultados en
la suma de los cuadrados

6
ANOVA MODELO 1
HORAS DE ESTUDIO 0.1712
P.A.P.A. 1.2874
CREDITOS INSCRITOS 0.0034
SUMA DE CUADRADOS 1.462

4.3.2. Modelo 2

Para este segundo modelo hemos agregado la variable cualitativa de si el estudiante


encuestado ha perdido o no materias en su actual trayectoria universitaria, esta variable la
transformamos en cuantitativa con las opciones numéricas “0” no y “1” si, lo cual nos dio el
siguiente resultado
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i + β 4 χ 4 i +ε i
Donde
Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
X4: ha perdido materias o no
E: error

Al evaluar el anterior modelo obtenemos:

β 1 : El promedio académico disminuye en 0.01% cuando se suma 1 hora de estudio en las


horas estudiadas por fuera de clases

β 2 ¿: El promedio aumenta en 83.7% cuando el papa sube en una decima


¿

β 3: El promedio académico aumenta en 0.2% cuando los créditos inscritos en el semestre


aumentan en 1

β 4 : El promedio académico aumenta en 12% si ha perdido materias

4.3.2.1. Anova Modelo 2

Al desarrollar la anova para el segundo modelo podemos observar los siguientes resultados en
la suma de los cuadrados

ANOVA MODELO 2
HORAS DE ESTUDIO 0.1712
P.A.P.A. 1.2874
CREDITOS INSCRITOS 0.0034

7
SI HA PERDIDO MATERIAS 0.0713
SUMA DE CUADRADOS 1.5333
De la misma manera en este segundo modelo el R 2 incluye las 3 variables predictorias
cuantitativas y 1 cualitativa es del 90,1% y el R 2 ajustado nos indica que el 88,2% de nuestras
predicciones están en línea con el modelo de regresión, para este caso el modelo 2.

La varianza del error para este modelo es del 9,1%, es decir que las estimaciones en el modelo
2 se desvían en 9,1% de la media o de la línea del modelo de regresión.

Como observamos cuando agregamos la variable cualitativa la suma de los cuadrados


aumenta considerablemente, por lo cual se puede concluir que esta variable afecta el modelo

4.3.3. Modelo 3

Para este tercer modelo hemos quitado la variable cuantitativa horas de estudio, esta variable
en el anterior modelo tuvo el p valor más alto entre todas las variables el cual fue de 0,91891.
Desde este modelo tendremos en cuenta el p valor, puesto que es importante para depurar
nuestro modelo y llegar al más propicio para nuestro trabajo
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i +ε i
Donde
Y: es el Promedio Académico
X1: P.A.P.A.
X2: créditos inscritos por cada estudiante en el 2013-3
X3: ha perdido materias o no
E: error

Al evaluar el anterior modelo obtenemos:

β 1 : El promedio académico aumenta en 83,6% cuando se suma 1 décima en el P.A.P.A.

β 2 ¿: El promedio aumenta en 1,7% cuando se aumenta 1 crédito en la inscripción del


¿
semestre en curso

β 3: El promedio académico aumenta en 12,3% cuando se ha perdido materias.

4.3.3.1. Anova Modelo 3

Al desarrollar la anova para el tercer modelo podemos observar los siguientes resultados en la
suma de los cuadrados.

ANOVA MODELO 3
P.A.P.A. 1.4552
CREDITOS INSCRITOS 0.0010

8
SI HA PERDIDO MATERIAS 0.0770
SUMA DE CUADRADOS 1.5332

De la misma manera en este tercer modelo el R 2 incluye las 2 variables predictorias


cuantitativas y 1 cualitativa es del 90,2% y el R 2 ajustado nos indica que el 88,7% de nuestras
predicciones están en línea con el modelo de regresión, para este caso el modelo 3.

La varianza del error para este modelo es del 8%, es decir que las estimaciones en el modelo 3
se desvían en 8% de la media o de la línea del modelo de regresión, como podemos ver cada
vez la varianza del error disminuye mientras el R 2 ajustado aumenta, lo cual nos indica que nos
acercamos al mejor modelo de regresión.

De igual forma podemos observar que la suma de los cuadrados no se ve altamente afectada
por la eliminación de la variable

4.3.4. Modelo 4

Para este cuarto modelo hemos quitado la variable cuantitativa créditos inscritos, puesto que
en el anterior modelo esta variable tuvo un p valor más alto que las otras variables y que el
aceptado (0,05) el cual fue de 0,80.

El modelo que emplearemos, por lo tanto será:


y i=βo+ β1 χ 1 i+ β 2 χ 2 i +ε i
Donde
Y: es el Promedio Académico
X1: P.A.P.A.
X2: ha perdido materias o no
E: error

Al evaluar el anterior modelo obtenemos:

β 1 : El promedio aumenta en 84.1% cuando el papa sube en una decima

β 2 ¿: El promedio académico aumenta en 12,1% si ha perdido materias


¿

4.3.4.1. Anova Modelo 4

Al desarrollar la anova para el cuarto modelo podemos observar los siguientes resultados en la
suma de los cuadrados

ANOVA MODELO 4
P.A.P.A. 1.4552

9
SI HA PERDIDO MATERIAS 0.0775
SUMA DE CUADRADOS 1.5327

De la misma manera en este tercer modelo el R 2 incluye 1 variable predatoria cuantitativa y 1


cualitativa es del 90,1% y el R 2 ajustado nos indica que el 89,2% de nuestras predicciones están
en línea con el modelo de regresión, para este caso el modelo 4.

La varianza del error para este modelo es del 8,7%, es decir que las estimaciones en el modelo
4 se desvían en 8,7% de la media o de la línea del modelo de regresión.

Observamos que la eliminación de esta variable no afecta considerablemente la suma de los


cuadrados, por lo cual se puede concluir que esta variable no afecta el modelo

5. RESIDUOS ESTUDENTIZADOS

Para poder analizar los residuos existen dos técnicas, estudentizarlos o estandarizarlos, para el
trabajo estudentizamos los residuos, puesto que no tenemos información sobre la varianza
decidimos estudentizarlos.
Esto se aplica con el fin de conocer cuáles son los datos atípicos en nuestro estudio.
Al realizar el proceso, podemos observar un atípico el cual se encuentra en el Anexo #2, este
atípico es el numero 21 mostrando un resultado de 4,79.

6. PRUEBA DE HIPOTESIS PARA DETERMINAR ATIPICO

Al realizar la prueba de hipótesis el p Bonferroni dio como resultado 0.0024767, este es resultado
es menor que alfa (0,05) lo que implica que el residuo mayor es un atípico.

En el Anexo #2, el cual se encuentra en el script, en donde se observa cómo quedan organizados
nuestros datos, en forma de matriz, sin el dato atípico anteriormente demostrado

De igual forma, en este mismo anexo se encuentra la gráfica de puntos, donde se muestra la
relación que existe entre variables sin el atípico, se muestra de la misma manera la covarianza
entre variables

7. MODELO SIN ATIPICO

Para este modelo hemos quitado el residuo atípico que afectaba la línea de nuestro modelo

El modelo que emplearemos, por lo tanto será:


y i=βo+ β1 χ 1 i+ β 2 χ 2 i +ε i
Donde
Y: es el Promedio Académico
X1: P.A.P.A.
X2: ha perdido materias o no

10
E: error

Al evaluar el anterior modelo obtenemos:

β 1 : El promedio aumenta en 88.1% cuando el papa sube en una decima

β 2 ¿: El promedio académico aumenta en 10,9% si ha perdido materias


¿

7.1. Anova Modelo 5

Al desarrollar la anova para el quinto modelo podemos observar los siguientes resultados en la
suma de los cuadrados

ANOVA MODELO 5
P.A.P.A. 1.5580
SI HA PERDIDO MATERIAS 0.0616
SUMA DE CUADRADOS 1.6196

De la misma manera en este quinto modelo el R 2 incluye 1 variable predatoria cuantitativa y 1


cualitativa es del 95,2% y el R 2 ajustado nos indica que el 94,8% de nuestras predicciones están
en línea con el modelo de regresión, para este caso el modelo 5.

La varianza del error para este modelo es del 6,1%, es decir que las estimaciones en el modelo
5 se desvían en 6,1% de la media o de la línea del modelo de regresión.

Podemos observar o analizar que la eliminación del atípico afecto nuestro modelo de manera
positiva, puesto que la suma de cuadrados aumento igual que nuestro R 2 y la varianza del error
disminuyo.

8. INTERVALOS DE CONFIANZA PARA LOS COEFICIENTES

Con un nivel de confianza del 95% y un alfa del 5% podemos observar los resultados de
manera individual para las variables del modelo (P.A.P.A. y materias perdidas), los resultados
mencionados se encuentran en el Anexo #3 del script

9. SUPUESTOS

9.1. Normalidad de los residuos

De acuerdo a las pruebas gráficas, por medio de histograma, grafico cuantil cuantil, boxplot y la
prueba de Shapiro se puede concluir que el supuesto de normalidad se cumple para el modelo 5,
puesto que la prueba de Shapiro arroja un p valor de 0.2737 por ende se acepta H 0 que nos indica
normalidad.

11
MEDIA DE LOS RESIDUALES.

De igual forma se hayo la media de los residuos en un intervalo de confianza con 95% de confianza
y 5% de alfa, y la media de los residuales es 0.
Las gráficas anteriormente mencionadas se encuentran en el anexo #5 el cual está en el script.

9.2 Homocedastisidad

De acuerdo a la prueba de hipótesis en R – Project llamada ncvTest comprobamos con un valor


0.0003033633 el cual es menor que el alfa (0,05) que nuestros residuos no se comportan de
manera homocedastica, se comprueba también por medio grafico el comportamiento de los
residuos los cuales están en el anexo #5 en el script.

9.3. Colinealidad

Utilizando el cálculo vif en R-Project el cual el resultado es 0.0515 no tenemos evidencia suficiente
para asegurar que nuestros residuos son colineales o relación entre las variables independientes
del modelo.

9.4. Auto correlación

Basándonos en la prueba de Durbin Watson el p valor que da como resultado 0.366 nos indica que
se acepta la hipótesis nula lo cual indica que no hay autocorrelacion.

10. PREDICCION

Teniendo el modelo adecuado de regresión lineal múltiple, hemos realizado algunas pruebas
predictorias las cuales se encuentran en el Anexo #6 en el script.
Se hizo predicciones con valores aleatorios utilizando el modelo número 5, realizamos el grafico de
las estimaciones de Y o grafico de bandas, donde se observa la línea negra la cual es la línea de
nuestro modelo, la verde y la roja representan los datos individuales y las líneas azules, las más
lejanas representan los intervalos de predicción.

11. MODELOS NO LINEALES

Para trabajar con los modelos no lineales, debemos primero saber cuáles modelos son propicios
para nuestro trabajo de regresión, es decir no todos los modelos no lineales sirven para nuestro
trabajo, puesto que modelos no lineales como el exponencial, trabajan con logaritmos y al trabajar
con este tipo de modelo no lineal nuestras variables tienen datos con valor cero “0” siendo
logaritmo de cero un error matemático.

Por ende decidimos trabajar con el modelo no lineal “Polinomial”.

12
11.1. Modelo Polinomial

Fuente: http://es.wikipedia.org/wiki/Regresi%C3%B3n_no_lineal

Como vemos realizamos el análisis de este modelo no lineal de segundo y tercer grado por ende
tenemos:

ANALISIS:

En el segundo grado nuestro modelo no lineal polinomial nos arroja un R 2 ajustado de 91,2% lo
cual nos indica que ese porcentaje de valores están explicados en nuestro modelo de regresión.
Al continuar con el tercer grado de regresión podemos observar que el R 2 ajustado es de 90,5%
por ende es claro que ha disminuido al subir el grado, por ende elegimos el modelo polinomial de
segundo grado.
Al analizar la varianza del error nos damos cuenta que en el modelo polinomial de segundo grado
es de 8,02% mientras que en el modelo polinomial de tercer grado es de 8,3%, esta es otra de las
razones que apoyan nuestra elección del modelo polinomial de segundo grado.

13. Conclusión.

Con lo anterior y comparando el modelo de regresión lineal y el no lineal presentados, se


concluye que el mejor modelo de regresión que responde al objetivo planteado, el modelo de
regresión lineal, ya que posee los mejores valores para su selección, tales como r-ajustado,
varianza del error, y el mejor análisis de Anova. Este modelo se presenta con el modelo 5 que se
puede encontrar en el script.

13

You might also like