Professional Documents
Culture Documents
Estadística II
Profesor:
2
1. OBJETIVOS
2. INTRODUCCION
Con el presente trabajo se pretende saber cuál es la relación entre las distintas variables por las
cuales se ve afectado el promedio académico.
Las variables independientes que se consideraron para el análisis son las siguientes:
1. # de horas de estudio: esta variable contempla el número de horas que el estudiante se
dedica a estudiar las diferentes temáticas de cada asignatura, excluyendo el número de
horas que está recibiendo clase.
2. Promedio académico ponderado acumulado (P.A.P.A.): con esta variable se identificará
cual es el promedio acumulado que debería tener el estudiante con la pérdida de
asignaturas.
3. # de créditos inscritos en el semestre 2013-3 por cada estudiante.
4. Se consideró como variable cualitativa la posibilidad de si el estudiante ha perdido
materias o no.
1. Que el promedio académico sea igual al P.A.P.A.: puede ocurrir en dos casos, cuando el
estudiante no ha perdido ninguna materia en lo que lleva de recorrido en la universidad, y
de igual forma, puede ocurrir cuando el estudiante ha perdido pocas materias y no por
debajo de 2,9.
2. Que el PA.P.A. sea menor que el promedio académico, lo cual significa que el estudiante
ha perdido un número mayor de materias comprado con el numero considerado
anteriormente, o ha perdido algunas materias en un promedio mucho menor que 2,9.
Generalmente si tiene el P.A.P.A igual que el promedio por encima de 4,0 significa que en
todo el recorrido en la universidad el estudiante ha mantenido un promedio alto (mayor de
4.0) y no ha perdido ninguna materia, igualmente ocurre el estudiante posee un P.A.P.A. por
debajo de 4,0 pero igual al promedio académico, puede significar que ha perdido algunas
materias pero no muy bajas (por debajo de 2,9) o que no ha perdido ninguna materia pero su
promedio general no es superior a 4,0.
METODOLOGIA
Se utilizará una regresión múltiple para estimar los coeficientes del modelo de predicción para
el promedio académico a partir de los datos recogidos a 25 diferentes estudiantes, de
diferentes carreras y diferente porcentaje de su respectiva carrera profesional. Se desarrollará
3
un modelo que podrá utilizarse para predecir el Promedio Académico dependiente de las
diferentes variables, en particular el interés estará centrado en conocer si se tiene alguna
relación entre el Promedio académico y el P.A.P.A. que será nuestra variable principal.
Se debe tener en cuenta que en la variable dependiente pueden influir muchas variables
dependientes más, pero por motivos de realización del análisis se trabaja con 4 dependientes.
4
^y i=b 0 + ∑ b j x ji
j=1
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i + β 4 χ 4 i +ε i
En donde
Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
X4: si la persona ha perdido o no materias durante su actual trayectoria universitaria.
3. VARIABLES Y DATOS
4
4. ANALISIS INICIAL
4.1. Grafica
5
4
3
horas es tudio
2
1
0
4.2
3.8
prom edioacademico
3.4
24
20
creditos inscritos
16
12
4.0
papa
3.6
3.2
0 1 2 3 4 5 12 16 20 24
Podemos observar a primera vista una leve linealidad entre la variable P.A.P.A y Promedio
Académico, también podemos observar puntos que se alejan de dicha linealidad, por ende
podemos considerar, en un primer momento, la existencia de datos atípicos.
4.2. Correlación.
5
En la anterior tabla podemos observar las variables con las diferentes correlaciones con la
variable dependiente (P.A.P.A.), vemos la variable con mayor correlación la cual es promedio
académico con una correlación de 92,5% y la de menor porcentaje de correlación la cual es
horas de estudio con 29,6%.
4.3. Modelos
4.3.1. Modelo 1
Para comenzar a depurar el mejor modelo de regresión, probamos el primer modelo con todas
las variables cuantitativas, es decir tendríamos lo siguiente
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i +ε i
Donde
Y: es el Promedio Académico
X1: es el número de horas diarias que los estudiantes dedican a una asignatura sin tener en
cuenta las horas de clase.
X2: P.A.P.A.
X3: créditos inscritos por cada estudiante en el 2013-3
E: error
β 1 : El promedio académico aumenta en 1.3% cuando se suma 1 hora de estudio en las horas
estudiadas por fuera de clases
La varianza del error para este modelo es del 10%, es decir que las estimaciones en el modelo
1 se desvían en 10% de la media o de la línea del modelo de regresión.
Al desarrollar la anova para el primer modelo podemos observar los siguientes resultados en
la suma de los cuadrados
6
ANOVA MODELO 1
HORAS DE ESTUDIO 0.1712
P.A.P.A. 1.2874
CREDITOS INSCRITOS 0.0034
SUMA DE CUADRADOS 1.462
4.3.2. Modelo 2
Al desarrollar la anova para el segundo modelo podemos observar los siguientes resultados en
la suma de los cuadrados
ANOVA MODELO 2
HORAS DE ESTUDIO 0.1712
P.A.P.A. 1.2874
CREDITOS INSCRITOS 0.0034
7
SI HA PERDIDO MATERIAS 0.0713
SUMA DE CUADRADOS 1.5333
De la misma manera en este segundo modelo el R 2 incluye las 3 variables predictorias
cuantitativas y 1 cualitativa es del 90,1% y el R 2 ajustado nos indica que el 88,2% de nuestras
predicciones están en línea con el modelo de regresión, para este caso el modelo 2.
La varianza del error para este modelo es del 9,1%, es decir que las estimaciones en el modelo
2 se desvían en 9,1% de la media o de la línea del modelo de regresión.
4.3.3. Modelo 3
Para este tercer modelo hemos quitado la variable cuantitativa horas de estudio, esta variable
en el anterior modelo tuvo el p valor más alto entre todas las variables el cual fue de 0,91891.
Desde este modelo tendremos en cuenta el p valor, puesto que es importante para depurar
nuestro modelo y llegar al más propicio para nuestro trabajo
y i=βo+ β1 χ 1 i+ β 2 χ 2 i + β 3 χ 3 i +ε i
Donde
Y: es el Promedio Académico
X1: P.A.P.A.
X2: créditos inscritos por cada estudiante en el 2013-3
X3: ha perdido materias o no
E: error
Al desarrollar la anova para el tercer modelo podemos observar los siguientes resultados en la
suma de los cuadrados.
ANOVA MODELO 3
P.A.P.A. 1.4552
CREDITOS INSCRITOS 0.0010
8
SI HA PERDIDO MATERIAS 0.0770
SUMA DE CUADRADOS 1.5332
La varianza del error para este modelo es del 8%, es decir que las estimaciones en el modelo 3
se desvían en 8% de la media o de la línea del modelo de regresión, como podemos ver cada
vez la varianza del error disminuye mientras el R 2 ajustado aumenta, lo cual nos indica que nos
acercamos al mejor modelo de regresión.
De igual forma podemos observar que la suma de los cuadrados no se ve altamente afectada
por la eliminación de la variable
4.3.4. Modelo 4
Para este cuarto modelo hemos quitado la variable cuantitativa créditos inscritos, puesto que
en el anterior modelo esta variable tuvo un p valor más alto que las otras variables y que el
aceptado (0,05) el cual fue de 0,80.
Al desarrollar la anova para el cuarto modelo podemos observar los siguientes resultados en la
suma de los cuadrados
ANOVA MODELO 4
P.A.P.A. 1.4552
9
SI HA PERDIDO MATERIAS 0.0775
SUMA DE CUADRADOS 1.5327
La varianza del error para este modelo es del 8,7%, es decir que las estimaciones en el modelo
4 se desvían en 8,7% de la media o de la línea del modelo de regresión.
5. RESIDUOS ESTUDENTIZADOS
Para poder analizar los residuos existen dos técnicas, estudentizarlos o estandarizarlos, para el
trabajo estudentizamos los residuos, puesto que no tenemos información sobre la varianza
decidimos estudentizarlos.
Esto se aplica con el fin de conocer cuáles son los datos atípicos en nuestro estudio.
Al realizar el proceso, podemos observar un atípico el cual se encuentra en el Anexo #2, este
atípico es el numero 21 mostrando un resultado de 4,79.
Al realizar la prueba de hipótesis el p Bonferroni dio como resultado 0.0024767, este es resultado
es menor que alfa (0,05) lo que implica que el residuo mayor es un atípico.
En el Anexo #2, el cual se encuentra en el script, en donde se observa cómo quedan organizados
nuestros datos, en forma de matriz, sin el dato atípico anteriormente demostrado
De igual forma, en este mismo anexo se encuentra la gráfica de puntos, donde se muestra la
relación que existe entre variables sin el atípico, se muestra de la misma manera la covarianza
entre variables
Para este modelo hemos quitado el residuo atípico que afectaba la línea de nuestro modelo
10
E: error
Al desarrollar la anova para el quinto modelo podemos observar los siguientes resultados en la
suma de los cuadrados
ANOVA MODELO 5
P.A.P.A. 1.5580
SI HA PERDIDO MATERIAS 0.0616
SUMA DE CUADRADOS 1.6196
La varianza del error para este modelo es del 6,1%, es decir que las estimaciones en el modelo
5 se desvían en 6,1% de la media o de la línea del modelo de regresión.
Podemos observar o analizar que la eliminación del atípico afecto nuestro modelo de manera
positiva, puesto que la suma de cuadrados aumento igual que nuestro R 2 y la varianza del error
disminuyo.
Con un nivel de confianza del 95% y un alfa del 5% podemos observar los resultados de
manera individual para las variables del modelo (P.A.P.A. y materias perdidas), los resultados
mencionados se encuentran en el Anexo #3 del script
9. SUPUESTOS
De acuerdo a las pruebas gráficas, por medio de histograma, grafico cuantil cuantil, boxplot y la
prueba de Shapiro se puede concluir que el supuesto de normalidad se cumple para el modelo 5,
puesto que la prueba de Shapiro arroja un p valor de 0.2737 por ende se acepta H 0 que nos indica
normalidad.
11
MEDIA DE LOS RESIDUALES.
De igual forma se hayo la media de los residuos en un intervalo de confianza con 95% de confianza
y 5% de alfa, y la media de los residuales es 0.
Las gráficas anteriormente mencionadas se encuentran en el anexo #5 el cual está en el script.
9.2 Homocedastisidad
9.3. Colinealidad
Utilizando el cálculo vif en R-Project el cual el resultado es 0.0515 no tenemos evidencia suficiente
para asegurar que nuestros residuos son colineales o relación entre las variables independientes
del modelo.
Basándonos en la prueba de Durbin Watson el p valor que da como resultado 0.366 nos indica que
se acepta la hipótesis nula lo cual indica que no hay autocorrelacion.
10. PREDICCION
Teniendo el modelo adecuado de regresión lineal múltiple, hemos realizado algunas pruebas
predictorias las cuales se encuentran en el Anexo #6 en el script.
Se hizo predicciones con valores aleatorios utilizando el modelo número 5, realizamos el grafico de
las estimaciones de Y o grafico de bandas, donde se observa la línea negra la cual es la línea de
nuestro modelo, la verde y la roja representan los datos individuales y las líneas azules, las más
lejanas representan los intervalos de predicción.
Para trabajar con los modelos no lineales, debemos primero saber cuáles modelos son propicios
para nuestro trabajo de regresión, es decir no todos los modelos no lineales sirven para nuestro
trabajo, puesto que modelos no lineales como el exponencial, trabajan con logaritmos y al trabajar
con este tipo de modelo no lineal nuestras variables tienen datos con valor cero “0” siendo
logaritmo de cero un error matemático.
12
11.1. Modelo Polinomial
Fuente: http://es.wikipedia.org/wiki/Regresi%C3%B3n_no_lineal
Como vemos realizamos el análisis de este modelo no lineal de segundo y tercer grado por ende
tenemos:
ANALISIS:
En el segundo grado nuestro modelo no lineal polinomial nos arroja un R 2 ajustado de 91,2% lo
cual nos indica que ese porcentaje de valores están explicados en nuestro modelo de regresión.
Al continuar con el tercer grado de regresión podemos observar que el R 2 ajustado es de 90,5%
por ende es claro que ha disminuido al subir el grado, por ende elegimos el modelo polinomial de
segundo grado.
Al analizar la varianza del error nos damos cuenta que en el modelo polinomial de segundo grado
es de 8,02% mientras que en el modelo polinomial de tercer grado es de 8,3%, esta es otra de las
razones que apoyan nuestra elección del modelo polinomial de segundo grado.
13. Conclusión.
13