You are on page 1of 19

Universidad Nacional Agraria la Molina

Facultad de Economa y Planificacin


Departamento de Estadstica e Informtica
Estadstica Aplicada a la Economa y los Negocios II

Trabajo Encargado
Anlisis de base de datos

Fecha: 28 de septiembre de 2015

Tabla de contenidos
Planteamiento del problema............................................................................... 3
Objetivo general:................................................................................................ 3
Objetivos especficos:......................................................................................... 3
Clasificacin de variables.................................................................................... 4
Anlisis exploratorio............................................................................................ 5
Prueba de supuestos de la tcnica escogida.....................................................11
Aplicacin de la tcnica escogida.....................................................................14
Conclusiones y recomendaciones.....................................................................21
Bibliografa........................................................................................................ 21

Planteamiento del problema


El rendimiento acadmico es la evaluacin de los conocimientos adquiridos por
los alumnos en las escuelas de diferentes niveles educativos. Siempre ha sido
de gran inters conocer cules son los factores y condiciones que influyen
sobre este.
Pudimos procurar una base de datos de las calificaciones del curso de
matemtica de estudiantes de dos escuelas secundarias de Portugal diferentes.
Considera 33 atributos diferentes y la variable respuesta que es la calificacin
del ltimo ao en este curso
Teniendo en cuenta esto, el problema consiste en responder la interrogante
sobre cules son los factores sociales, demogrficos y acadmicos que influyen
de manera significativa en el rendimiento acadmico de los alumnos de
secundaria del curso de matemtica.

Objetivo general:
Usar las tcnicas de estadstica para demostrar que existen diversos
factores que influyen en el rendimiento acadmico de los estudiantes.

Objetivos especficos:
1.- Determinar los diferentes factores tanto: sociales, acadmicos,
demogrfico, que intervienen en el rendimiento acadmico de los
estudiantes.
2.- realizar recomendaciones para enriquecer el rendimiento en base a
los resultados estadsticos.
3.- procesar un modelo estadstico que nos facilite las predicciones
sobre el rendimiento del alumno.

Clasificacin de variables
3

No
1

Variable
School

Sex

Age

Address

Famsize

Pstatus

7
8
9
10
11

Medu
Fedu
Mjob
Fjob
Reason

12
13

Guardian
Traveltime

14
15
16

Studytime
Failures
Schoolsup

17

Famsup

18

Paid

19

Activities

20
21
22
23
24

Nursery
Higher
Internet
Romantic
Famrel

25

Freetime

26
27

Goout
Dalc

Descripcin
Escuela de los estudiantes (GP
Gabriel Pereira o MS Mousinho
da Silveira)
Sexo de los alumnos (F female
o M male)
Edad de los estudiantes (15 a
22)
Tipo de direccin (R Rural o U
Urbano)
Tamao de la Familia (LE3,
menor o igual a 3, GT3 mayor
que 3)
Cohabitacin de los padres
(Viven juntos o separados)
Educacin de la madre
Educacin del padre
Trabajo de la madre
Trabajo del padre
Razn por la que se escogi la
escuela
Apoderado del alumno
Duracin del viaje de la casa a
la escuela
Tiempo de estudio semanal
Nmero de cursos jalados
Recibe apoyo acadmico extra
de la escuela
Recibe apoyo acadmico de la
familia
Recibe clases extras pagadas de
matemtica
Tiene actividades
extracurriculares
Recibi educacin preescolar
Desea educacin superior
Tiene acceso a internet
En una relacin amorosa
Calidad de las relaciones
familiares
Tiempo libre despus de la
escuela
Salidas con los amigos
Consumo de alcohol en das de

Tipo de variable
No mtrica

Escala
Nominal

No mtrica

Nominal

Mtrica

Razn

No mtrica

Nominal

No mtrica

Ordinal

No mtrica

Nominal

No
No
No
No
No

mtrica
mtrica
mtrica
mtrica
mtrica

Ordinal
Ordinal
Nominal
Nominal
Nominal

No mtrica
No mtrica

Nominal
Ordinal

No mtrica
Mtrica discreta
No mtrica

Ordinal
Razn
Nominal

No mtrica

Nominal

No mtrica

Nominal

No mtrica

Nominal

No
No
No
No
No

Nominal
Nominal
Nominal
Nominal
Ordinal

mtrica
mtrica
mtrica
mtrica
mtrica

No mtrica

Ordinal

No mtrica
No mtrica

Ordinal
Ordinal
4

28

Walc

29
30
31
32
33

Health
Absences
G1
G2
G3

semana
Consumo de alcohol en fines de
semana
Estado actual de Salud
Numero de faltas
Grados del primer ao
Grados del segundo ao
Grados del tercer ao

No mtrica

Ordinal

No mtrica
Mtrica discreta
Mtrica discreta
Mtrica discreta
Mtrica discreta

Ordinal
Razn
Intervalo
Intervalo
Intervalo

Anlisis exploratorio
GRAPH
/HISTOGRAM=G3.

Graph

Interpretacin:

La calificacin final promedio en el curso de matemtica es de 10.42

Se puede apreciar que hay un nmero considerable (casi 40) de alumnos


con calificacin 00

Se aprecia que la distribucin es un tanto simtrica, leptocurtica


(apuntada) en la media

Explore
Case Processing Summary
Cases
Valid
N
G3

Missing
Percent

395

100,0%

Total

Percent
0

,0%

Percent
395

100,0%

Interpretacin:

El 50% intercuartil no presenta asimetra acentuada

No hay presencia de datos atpicos

XGraph

Interpretacin:

De 50 a 60 personas son chicas que tienen de 16 a 18 aos de edad.


La cantidad o frecuencia de chicos mayor son los que tienen una edad
cercana a la de 16 aos.

Descriptives
Descriptive Statistics
N

Minimum

Maximum

Mean

Std. Deviation

Statistic

Statistic

Statistic

Statistic

Statistic

G3

395

Valid N (listwise)

395

,00

20,00

10,4152

Skewness
Statistic

4,58144

-,733

Kurtosis

Std. Error

Statistic

,123

,403

Interpretacin:

La distribucin de las notas de los alumnos durante el periodo de la


calificacin final ser leptocurtica o apuntada.
Presenta una asimetra negativa

Frecuencias
Estadsticos
higher
N

Vlido

internet

395

395

Perdidos

Tabla de frecuencia
higher

Frecuencia
Vlido

Porcentaje

Porcentaje

Porcentaje

vlido

acumulado

no

20

5,1

5,1

5,1

yes

375

94,9

94,9

100,0

Total

395

100,0

100,0

Interpretacin:

El 94.9% de los alumnos desea tener una educacin superior.

El 5.1 % restante de los alumnos no desea tener una educacin superior.

Std. Error
,245

internet

Frecuencia
Vlido

Porcentaje

Porcentaje

Porcentaje

vlido

acumulado

no

66

16,7

16,7

16,7

yes

329

83,3

83,3

100,0

Total

395

100,0

100,0

Interpretacin:

El 83,3 % de los alumnos tienen acceso a internet en casa.

El 16,7 % restante de los alumnos no tienen internet en casa.

10

Prueba de supuestos de la tcnica escogida.


La regresin logstica no requiere de los supuestos previos que exigen las
tcnicas de regresin lineal o los modelos generales lineales (ANOVA, MANOVA,
ANCOVA, etc) que estn basados en mtodos de mnimos cuadrados ordinarios.
Es decir linealidad, normalidad, homocedasticidad y escala de medida.
En primer lugar, no es necesario una relacin linear entre la variable
dependiente e independiente porque la regresin logstica aplica una
transformacin logstica no lineal para que se pueda calcular el odds-ratio. En
segundo lugar no requiere del supuesto de normalidad de los errores, aunque
se dan mejores resultados si esto se cumple. En tercer lugar no se requiere que
la varianza sea homognea para cada variable independiente. Finalmente esta
tcnica puede trabajar con variables nominales u ordinales. No es necesario
que la escala de medida sea de razn o intervalo.
No obstante, esta tcnica tiene sus propios supuestos

La regresin logstica requiere de una variable dependiente ordinal o


binaria. Se puede llevar al cabo una transformacin de los datos, lo cual
implica una gran prdida de informacin. Se trabajar con la regresin
logstica binaria
La tcnica asume que P(Y=1) es la probabilidad de que el evento ocurra,
es necesario que la variable sea correctamente codificada. Esto quiere
decir que Y=1 tiene que representar el resultado deseado. Cmo nos
interesa si el alumno aprob o no, lo tomaremos en cuenta.
El modelo tiene que estar bien ajustado, ni sobre-ajustado ni subajustado. Esto significa que todas las variables importantes tienen que
estar en el modelo. Para asegurarnos de esto usaremos el mtodo paso
a paso (stepwise) de introduccin de variables.
Los errores tienen que ser independientes. Esto significa que las
observaciones no deben provenir de ningn diseo de muestra
dependiente como mediciones antes y despus, o datos pareados.
Tambin la multicolinealidad debe ser baja.
Se asume la linealidad de las variables independientes y de los
logaritmos de los odd ratios
Se requiere muestras grandes. La nuestra es de n > 600

Supuesto de linealidad.
Se elaboraron los siguientes cuadros para evaluar la linealidad entre el
logaritmo de los odd ratios y las variables cuantitativas del modelo

11

Fig 1. Log(odd)-notas del primer y segundo ao


Se puede apreciar una relacin lineal entre estas variables, siendo G2 la ms
fuerte.

Fig 2. Log(Odd ratio) vs edad

Posiblemente esta variable no ser significativa

12

Aplicacin de la tcnica escogida.


La regresin logstica mltiple es una tcnica multivariada que nos permite ver
la relacin entre varias variables independientes y una variable dependiente
dicotmica (solo puede tomar dos valores, 0 y 1). Lo que hace a esta tcnica
muy til es el hecho que las variables independientes pueden estar en
cualquier escala de medida. A continuacin explicaremos como se llev al
cabo el trabajo.
Luego de que se procur la base de datos, ajustamos nuestra variable de
respuesta G3 en una variable dicotmica que indicaba si un alumno aprob o
desaprob (Y=1 indica que aprob). Con nuestra variable respuesta bien
definida, comenzamos a usar el paquete estadstico SPSS 20 para nuestros
anlisis.
Para hallar el mejor modelo usamos el mtodo de introduccin para adelante
por medio del estadstico de Wald. Este mtodo contrasta la entrada basndose
en la significacin de la variable. A continuacin mostraremos las salidas del
programa.

Numero de datos totales


13

Case Processing Summary


Unweighted Casesa
Selected Cases

N
Included in Analysis
Missing Cases
Total

Unselected Cases
Total

Percent
390

98,7

1,3

395

100,0

,0

395

100,0

a. If weight is in effect, see classification table for the total number of


cases.

Codifi cacin de la variable dependiente

Dependent Variable Encoding


Original Value

Internal Value

Codifi cacin de variables categoricas

14

Categorical Variables Codings

Parameter coding
Frequency
health

Walc

Dalc

goout
Step 9

freetime

(1)

(2)

(3)

(4)

1,00

46

1,000

,000

,000

,000

2,00

44

,000

1,000

,000

,000

3,00

90

,000

,000

1,000

,000

4,00

66

,000

,000

,000

1,000

5,00

144

,000

,000

,000

,000

1,00

148

1,000

,000

,000

,000

2,00

85

,000

1,000

,000

,000

3,00

79

,000

,000

1,000

,000

4,00

50

,000

,000

,000

1,000

5,00

28

,000

,000

,000

,000

1,00

273

1,000

,000

,000

,000

2,00

73

,000

1,000

,000

,000

3,00

26

,000

,000

1,000

4,00

,000

,000

,000

1,000

,000

,000

,000

,000

,000

,000

1,000

,000

,000

5,00
9
,000
Omnibus Tests of Model Coefficients
1,00
23
1,000
Chi-square
df
Sig.
2,00
100
,000
Step3,00
4,698 128
1 ,000 ,030
Block
4,00

413,602

5,00
Model

413,602

Prueba de
,000 omnibus

,000

1,000

,000

86

21 ,000 ,000 ,000

,000

1,000

53

21 ,000 ,000 ,000

,000

,000

1,00

19

1,000

,000

,000

,000

2,00

64

,000

1,000

,000

,000

3,00

154

,000

,000

1,000

4,00

113

,000

,000

,000

5,00

40

,000

,000

,000

,000

8
1,000
,000
Model Summary
2,00
18
,000
1,000
Step
-2 Log likelihood Cox & Snell R
Nagelkerke R
3,00
65
,000
,000
Square
Square
4,00
193
,000
,000
9
81,481a
,654
,909
5,00
106
,000
,000
a.
Estimation
terminated
at
iteration
number
10
because
Fjob
at_home
19
1,000
,000

,000

,000

,000

,000

1,000

,000

,000

1,000

,000

,000

,000

,000

1,000

,000

,000

famrel

1,00

parameter estimates
than .001. ,000
health changed by less 18

Mjob

traveltime

Resumen
,000 del
1,000 modelo

other

213

,000

,000

1,000

,000

services

111

,000

,000

,000

1,000

teacher

29

,000

,000

,000

,000

at_home

57

1,000

,000

,000

,000

health

34

,000

1,000

,000

,000

other

139

,000

,000

1,000

,000

services

103

,000

,000

,000

1,000

teacher

57

,000

,000

,000

,000

1,00

255

1,000

,000

,000

2,00

104

,000

1,000

,000

3,00

23

,000

,000

1,000

4,00

,000

,000

,000

15

Con el -2log de verosimilitud se puede hacer la prueba estadstica global


1. Hipotesis
H0: k = 0, para k={1,2,3,,32)
H1: Algn k 0, para k={1,2,3,,32)
2. Significacin
= 0.05
3. Valor crtico
2 (0.95,31)= 44.9853
4. Conclusin. Dado que -2log[Verosimilitud]> 2 (0.95,31) existe evidencia
estadistica suficiente para afirmar que al menos una variable en el
modelo es significativa.

Prueba de Hosmer y Lemeshow

Hosmer and Lemeshow Test


Step
9

Chi-square
14.652

df

Sig.
8

,066

Prueba de bondad de ajuste


1. Hipotesis
H0: El modelo se ajusta a los datos
H1: El modelo no se ajusta a los datos
2. Nivel de signifacin
= 0.05
3. P-value >0.05 existe evidencia estadstica suficiente para afirmar que el
modelo si se ajusta a los datos.

16

Tabla de Clasifi cacin

Classification Tablea
Predicted
aprobado
Observed
Step 9

aprobado

Percentage
1

Correct

124

96,1

254

97,3

Overall Percentage

96,9

a. The cut value is .500

El modelo predice correctamente el 96,6% de la veces, por lo tanto tiene un


alto valor predictivo.

17

Variables en la ecuacin

Variables in the Equation


B
Step 9a

school(1)

S.E.

Wald

df

Sig.

Exp(B)

-4,322

1,428

9,156

,002

,013

age

-,965

,323

8,923

,003

,381

Pstatus(1)

2,580

1,244

4,300

,038

13,202

11,863

,018

Mjob
Mjob(1)

3,035

1,354

5,023

,025

20,794

Mjob(2)

,354

1,566

,051

,821

1,425

Mjob(3)

-,729

1,053

,479

,489

,482

Mjob(4)

1,525

1,177

1,678

,195

4,594

20,414

,000

Fjob
Fjob(1)

-5,969

2,585

5,333

,021

,003

Fjob(2)

-3,989

2,520

2,507

,113

,019

Fjob(3)

,576

1,956

,087

,768

1,779

Fjob(4)

-3,683

2,076

3,147

,076

,025

1,915

,778

6,059

,014

6,788

10,518

,033

romantic(1)
goout
goout(1)

3,028

1,495

4,104

,043

20,663

goout(2)

-,816

1,177

,481

,488

,442

goout(3)

-1,275

1,141

1,248

,264

,279

goout(4)

-1,690

1,137

2,209

,137

,185

13,851

,008

Dalc
Dalc(1)

-6,846

2,304

8,830

,003

,001

Dalc(2)

-7,493

2,364

10,045

,002

,001

Dalc(3)

-4,620

2,285

4,087

,043

,010

Dalc(4)

-10,823

3,895

7,722

,005

,000

3,718

,677

30,175

,000

41,174

-6,933

5,780

1,438

,230

,001

G2
Constant

a. Variable(s) entered on step 9: Pstatus.

Interpretacin del cuadro


18

Por cada punto extra en la calificacin final del curso de matemticas


del segundo grado de secundaria se es un 44.174 ms veces
probable que se apruebe el ltimo ao.
El consumo diario de alcohol puede hacer que las probabilidades del
jalar el ltimo ao en el curso de matemticas aumente hasta 100
veces.
Aquellos alumnos que no van a salidas mucho (responden 1 en una
escala del 1 al 5) son 20 ms propensos a aprobar el ltimo ao en el
curso de matemticas.
El trabajo de la madre puede hacer que la probabilidad de que se
apruebe el curso aumente hasta en 20 veces.

Conclusiones y recomendaciones
o
o
o

Hacer un seguimiento a los alumnos desde temprana edad debido a que


las notas de aos anteriores influyen mucho en las notas del ltimo ao
Elaborar un plan estratgico con la finalidad de detener el consumo de
alcohol en los alumnos
Estudiar ms a fondo el efecto de las relaciones familiares con el
rendimiento escolar.

Bibliografa
Guisande Gonzlez, C., & Vaamonde Liste, A. B. (2011). Tratamiento de datos
con R, STATISTICA y SPSS. Barcelona, Espaa: Ediciones Das de Santos.
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression. New York:
John Wiley & Sons.
Salas Velasco, M. (1996). La regresin logstica. Una aplicacin a la demanda
de estudios universitarios. Estadistica Espaola, 193-217.
Statistic Solutions. (2 de enero de 2015). Assumptions of Logistic Regression.
Recuperado el 9 de Noviembre de 2015, de Statistic Solutions:
http://www.statisticssolutions.com/assumptions-of-logistic-regression/

19