You are on page 1of 21

Estudio de Caso-Encuesta a Universitarios

Con la finalidad de conocer y evaluar algunas caractersticas de los estudiantes


universitarios se realizo una encuesta a 37 estudiantes. Las variables consideradas en el
estudio fueron las siguientes:
La edad del estudiante al momento de la encuesta (edad), Genero (sexo): f=femenino,
m= masculino,
Colegio de donde proviene (colegio): publ=publico, priv= privado, Carrera profesional que
estudia (programa): biol=biologa, farm=farmacia, pmed=medicina. Crditos aprobados
(crditos), ndice de Ingreso a la U(iadm),
Nmero de miembros de su familia que viven con el estudiante (familia),
Horas que le dedica a estudio fuera de sus horas de clase por semana(hestud),
Horas de entretenimiento en promedio por semana (htv), y finalmente el rendimiento
acadmico del semestre (promsem). Datos en archivo MINITAB: universitario.MTW
eda sex colegi progra credit famil hestu proms
id iadm htv
d o o ma os ia d em
1 21 f publ biol 119 3,6 3 35 10 16,3
2 18 f Priv farm 15 3,6 3 30 10 17,5
3 19 f Priv biol 73 3,61 5 5 17 9,3
4 18 f Priv farm 20 2,38 6 14 3 10,7
5 21 m publ pmed 78 3,15 2 25 15 15,9
6 20 m publ farm 83 3,17 3 17 6 13,4
7 22 m publ pmed 120 2,15 5 20 10 16,5
8 20 m Priv biol 90 3,86 5 15 5 10,3
9 20 m Priv pmed 94 3,19 4 10 2 9,8
10 22 f publ pmed 130 3,66 6 20 23 13,7
11 21 f Priv farm 97 3,35 1 15 20 9,6
12 20 m Priv pmed 64 3,17 4 30 2 16,3
13 20 f publ pmed 54 3,23 2 12 3 9,2
14 21 m publ farm 98 3,36 4 15 10 10,9
15 22 f Priv pmed 113 2,88 5 15 3 12,2
16 23 m Priv pmed 124 2,8 5 20 10 15,0
17 25 f publ farm 150 2,5 4 10 5 12,4
18 24 m Priv farm 162 3,46 4 18 5 11,3
19 22 f Priv pmed 76 2,94 2 9 18 7,5
20 20 f Priv farm 95 3,07 3 15 12 12,1
21 22 f Priv biol 125 2,2 3 20 10 11,4
22 19 m publ farm 19 2,39 3 10 8 8,0
23 21 m Priv pmed 118 3,05 4 10 10 8,5
24 22 f publ pmed 118 3,55 5 28 10 12,0
25 21 f publ farm 106 3,03 5 16 5 12,6
26 23 f Priv farm 108 3,61 3 20 10 9,5
27 25 f publ farm 130 2,17 5 15 6 8,2
28 21 f Priv pmed 128 3,54 3 18 5 14,2
29 21 f publ biol 109 3,6 4 31 10 15,3
30 22 f Priv biol 25 3,5 3 9 10 11,1
31 20 m Priv biol 64 3,17 4 28 2 14,5
32 24 m Priv biol 62 3,96 4 16 15 11,9
33 18 m publ pmed 18 2,13 2 8 14 8,9
34 21 m Priv pmed 122 3,55 5 22 10 12,5
35 22 f publ farm 88 2,05 5 28 10 12,0
36 20 m priv farm 66 3,07 4 28 12 16,4
1
37 20 f publ pmed 59 2,25 2 13 8 10,2
Con estos datos vamos a analizar varios temas de estadstica descriptiva e inferencial y todo el
procesamiento se har con el MINITAB paso por paso
1. Hacer un anlisis descriptivo de todos los datos
tanto numricos como cualitativos identificando cada uno.
Variables cuantitativas: edad, crditos, iadm, familia, hestud, htv, promsem
Para las variables cuantitativas se debe obtener la media, varianza , desviacin estndar,
cuantiles, minimo, mximo etc.
En el MINITAB se sigue la siguiente ruta:
Stat Basic StatisticsDisplay Descriptive Statistics o Estadisticas
Estadisticas Basicas Mostrar Estadisticas Descriptivas que permite obtener
los estadsticos descriptivos ms usuales de las columnas (variables) de la hoja de
datos.
Elementos del cuadro de dilogo de Mostrar Estadisticas Descriptivas
Variables: Elija las columnas que desea describir, en este caso marque edad, crditos, iadm,
familia, hestud, htv, promsem y clicar en seleccionar.
Por variables (opcional): Ingrese la columna que contiene las Por variables para mostrar
estadsticas descriptivas en forma separada para cada valor de la variable especificada.
El resultado se obtiene en la hoja de sesin y es el siguiente:
Estadsticas descriptivas: edad, creditos, iadm, familia, hestud, htv, promsem

Media del
Error
Variable N N* Media estndar Desv.Est. Mnimo Q1 Mediana Q3
edad 37 0 21.108 0.287 1.745 18.000 20.000 21.000 22.000
creditos 37 0 89.73 6.27 38.15 15.00 64.00 95.00 119.50
iadm 37 0 3.0797 0.0902 0.5489 2.0500 2.6500 3.1700 3.5500
familia 37 0 3.784 0.202 1.228 1.000 3.000 4.000 5.000
hestud 37 0 18.11 1.24 7.56 5.00 12.50 16.00 23.50
htv 37 0 9.297 0.841 5.115 2.000 5.000 10.000 11.000
promsem 37 0 12.084 0.453 2.757 7.500 9.700 12.000 14.350

Variable Mximo
edad 25.000
creditos 162.00
iadm 3.9600
familia 6.000
hestud 35.00
htv 23.000
promsem 17.500

con estos resultados podemos describir todas las variables segn sus estadsticos como
por ejemplo la edad promedio de estos estudiantes es de 21 aos cuyas edades oscilan
entre 18 y 25 aos, el rendimiento acadmico de estos estudiantes tiene un promedio 12
con una desviacin estndar 2.75 lo que indica que la mayora tiene promedios entre 9 y
15 aproximadamente. Y asi sucesivamente se puede ir comentando o interpretando los
resultados.
Acompaando a estos resultados podemos obtener los resmenes grficos de cada
variable, en este caso graficamos para edad, familia y rendimiento acadmico: siguiendo
la ruta:
Stat Basic StatisticsGrafical Summary o
Estadisticas Estadisticas Basicas Resumen grafico
Elementos del cuadro de dilogo
Variables: Ingrese las columnas para las cuales desea crear un resumen grfico. En este caso
marque edad, crditos, iadm, familia, hestud, htv, promsem y clicar en seleccionar

2
Por variables (opcional): Ingrese las columnas que contienen Por variables para crear
resmenes grficos separados para cada nivel de una variable de agrupacin.
Nivel de confianza: Ingrese un valor para el nivel de confianza de los intervalos de
confianza. El nivel predeterminado es 95%.
Los grficos resultantes son los siguientes:
Resumen para edad
Prueba de normalidad de Anderson-Darling
A -cuadrado 0.79
V alor P 0.036

Media 21.108
Desv.Est. 1.745
V arianza 3.044
Sesgo 0.356261
Kurtosis 0.142797
N 37

Mnimo 18.000
1er cuartil 20.000
Mediana 21.000
3er cuartil 22.000
18 20 22 24
Mximo 25.000
I ntervalo de confianza de 95% para la media
20.526 21.690
I ntervalo de confianza de 95% para la mediana
20.000 22.000
I ntervalo de confianza de 95% para la desviacin estndar
I ntervalos de confianza de 95%
1.419 2.266
Media

Mediana

20.0 20.5 21.0 21.5 22.0

Resumen para familia


Prueba de normalidad de Anderson-Darling
A -cuadrado 1.16
V alor P < 0.005

Media 3.7838
Desv.Est. 1.2278
V arianza 1.5075
Sesgo -0.228832
Kurtosis -0.606757
N 37

Mnimo 1.0000
1er cuartil 3.0000
Mediana 4.0000
3er cuartil 5.0000
1 2 3 4 5 6
Mximo 6.0000
I ntervalo de confianza de 95% para la media
3.3744 4.1932
I ntervalo de confianza de 95% para la mediana
3.0000 4.0000
I ntervalo de confianza de 95% para la desviacin estndar
I ntervalos de confianza de 95%
0.9985 1.5949
Media

Mediana

3.0 3.3 3.6 3.9 4.2

3
Resumen para promsem
Prueba de normalidad de A nderson-Darling
A-cuadrado 0.45
Valor P 0.257

Media 12.084
Desv.Est. 2.757
Varianza 7.602
Sesgo 0.293558
Kurtosis -0.905117
N 37

Mnimo 7.500
1er cuartil 9.700
Mediana 12.000
3er cuartil 14.350
8 10 12 14 16
Mximo 17.500
I ntervalo de confianza de 95% para la media
11.164 13.003
I ntervalo de confianza de 95% para la mediana
10.720 12.590
I ntervalo de confianza de 95% para la desviacin estndar
I ntervalos de confianza de 95%
2.242 3.581
Media

Mediana

11.0 11.5 12.0 12.5 13.0

En estos grficos podemos analizar su distribucin y adems nos muestra los intervalos
de confianza para la media y la mediana y podemos compararlo. En el variable del
rendimiento acadmico vemos que la mediana y la media son parecidas.

Variables cualitativas: sexo, colegio, programa


Para este caso se hallan los grficos de barras o circulares y sus tablas de frecuencia
Grafico circular: ruta: Grfica Grfica circular
Elementos del cuadro de dilogo
Representar grficamente los conteos de valores nicos: Elija esta opcin cuando cada fila
en una columna represente una observacin individual. Es la que elegimos para el presente
estudio
Variables categricas: Ingrese una o ms columnas de datos categricos para graficar. En
este caso marcamos sexo, colegio, programa y se clica en seleccionar
Representar grficamente los valores de una tabla: Elija esta opcin cuando los nombres
de categora estn en una columna y los datos de resumen estn en otra columna. Ahora no
elegimos esta opcin
Variable categrica: Ingrese la columna de categoras.
Variables de resumen: Ingrese una o ms columnas de datos de resumen para cada categora.
<Opciones de grfica circular>
<Etiquetas> marcar esta opcin Etiquetas > Etiquetas de divisin:
Elementos del cuadro de dilogo
Etiquetar divisiones de la grfica circular con
Nombre de categora: Marcar esta opcin para etiquetar cada divisin con el nombre de la
categora.
Frecuencia: Marque esta opcin para etiquetar cada divisin con el nmero de observaciones.
Porcentaje: Marcar esta opcin para etiquetar cada divisin con el porcentaje de la grfica
circular.
Dibujar una lnea de la etiqueta a la divisin: Marque esta opcin para trazar una lnea
desde cada etiqueta hasta la divisin.

4
<Grficas mltiples> Grficas mltiples > Variables mltiples aqu marcar En grficas
separadas:
<Opciones de datos>
El resultado es el siguiente:

Grfica circular de sexo


Categora
f
m

m
43.2%

f
56.8%

En la muestra hay ms mujeres que varones.

Grfica circular de colegio


Categora
priv
publ

publ
43.2%

priv
56.8%

Hay ms estudiantes que provienen de colegios particulares que de nacionales.

5
Grfica circular de programa
Categora
biol
farm
biol
8. 21,6% pmed

pmed
15. 40,5%

farm
14. 37,8%

En cada grafico se hace el comentario de su distribucin en trminos de porcentaje por


ejemplo la muestra esta compuesta por un 41% de estudiantes de medicina, 38% de
farmacia y 21% de biologa.

2. Realizar pruebas de hiptesis de medias varianzas y


proporciones
Podemos hacer pruebas de hiptesis para una media.
a) Se desea probar si el nmero medio de integrantes por familia de los estudiantes
encuestados es 3.
La ruta para esta prueba de media es Estadsticas > Estadsticas bsicas > t de 1
muestra
Elementos del cuadro de dilogo
Muestras en columnas: Elija esta opcin si ha ingresado datos sin procesar en columnas.
Aqu marcar familia y seleccionar
Datos resumidos: Elija si tiene valores de resumen para el tamao de la muestra, media y
desviacin estndar. Esto no lo usamos por ahora
Tamao de muestra: Ingrese el valor para el tamao de la muestra .
Media: Ingrese el valor para la media de la muestra.
Desviacin estndar: Ingrese el valor para la desviacin estndar de la muestra.
Realizar prueba de hiptesis: Marar esta opcin para realizar una prueba de hiptesis.
Media hipottica: Ingrese la media de la prueba m 0. En este caso es 3
<Grficas> clicar en esta opcin y marcar Grfica de caja de datos ok
<Opciones>
El resultado de esta prueba de hiptesis es:
T de una muestra: familia

Prueba de mu = 3 vs. no = 3
Media del
Error
Variable N Media Desv.Est. estndar IC de 95% T P
familia 37 3.784 1.228 0.202 (3.374, 4.193) 3.88 0.000
Se rechaza la hiptesis nula porque P es menor a 0.05, es ms el intervalo de confianza no
contiene a la media propuesta 3.
Grfica de caja de familia

6
Grfica de caja de familia
(con Ho e intervalo de confianza t de 95% para la media)

_
X

Ho

1 2 3 4 5 6
familia

b) Probar si la desviacin estndar de las horas que mira televisin es mayor a 4.


La ruta para esta prueba es Estadsticas > Estadsticas bsicas > 1 varianza
Elementos del cuadro de dilogo
Utilice el men desplegable para elegir si los valores de entrada y la prueba de hiptesis se
refieren a la desviacin estndar o a la varianza:
Ingresar desviacin estndar: Si usted elige esta opcin, la prueba de hiptesis ser una
prueba de la desviacin estndar de la poblacin. Elegimos esta opcin
Ingresar varianza: Si usted elige esta opcin, la prueba de hiptesis ser una prueba de la
varianza de la poblacin.
Muestras en columnas: Elegir esta opcin para datos sin procesar en columnas. Aqu marcar
htv y Clicar en seleccionar
Datos resumidos: Elija esta opcin si usted tiene valores resumidos para el tamao de la
muestra y la desviacin estndar o la varianza de la muestra. Ahora no elegimos esta opcin
Tamao de muestra: Ingrese un valor para el tamao de la muestra .
Desviacin estndar/varianza de la muestra: Ingrese un valor para la desviacin estndar
de la muestra o varianza de la muestra, dependiendo de la opcin que eligi en el men
desplegable.
Realizar prueba de hiptesis: Marcar esta opcin para realizar la prueba de hiptesis de que
la desviacin estndar/varianza de la poblacin es igual a un valor especificado.
Desviacin estndar/varianza hipotetizada: Ingresar el valor hipottico de la desviacin
estndar de la poblacin en este caso es 4
<Opciones> Hiptesis alterna: ingresar mayor que (prueba de cola superior).. aceptar
El resultado de esta prueba de hiptesis es:
Prueba e IC para una desviacin estndar: htv
Mtodo

Hiptesis nula Sigma = 4


Hiptesis alterna Sigma > 4

El mtodo estndar se utiliza slo para la distribucin normal.


El mtodo ajustado se utiliza para cualquier distribucin continua.

Estadsticas

Variable N Desv.Est. Varianza


htv 37 5.11 26.2

7
95% Intervalos de confianza unilaterales

Lmite Lmite
inferior inferior
para para
Variable Mtodo Desv.Est. varianza
htv Estndar 4.30 18.5
Ajustado 4.24 18.0

Pruebas
Variable Mtodo Chicuadrada GL Valor P
htv Estndar 58.86 36.00 0.009
Ajustado 50.20 30.70 0.015

Se rechaza la hiptesis nula porque P es menor a 0.05, es ms el limite inferior del intervalo
de confianza no contiene a la desviacin estndar propuesta 4. Cuando evaluamos el resumen
grafico para esta variable all pudimos notar que las horas de tv no tiene distribucin normal
por lo tanto la interpretacin lo hacemos con el mtodo ajustado.

Resumen para htv


Prueba de normalidad de A nderson-Darling
A-cuadrado 0.99
Valor P 0.011

Media 9.2973
Desv.Est. 5.1146
Varianza 26.1592
Sesgo 0.668560
Kurtosis 0.354736
N 37
Mnimo 2.0000
1er cuartil 5.0000
Mediana 10.0000
3er cuartil 11.0000
5 10 15 20 Mximo 23.0000
I ntervalo de confianza de 95% para la media
7.5920 11.0026
I ntervalo de confianza de 95% para la mediana
6.2017 10.0000
I ntervalo de confianza de 95% para la desviacin estndar
I ntervalos de confianza de 95%
4.1592 6.6437
Media

Mediana

6.0 7.2 8.4 9.6 10.8

c) Probar si existe homogeneidad de varianzas de los crditos aprobados entre los


estudiantes varones y mujeres.
La ruta para esta prueba es Estadsticas > Estadsticas bsicas > 2 varianza
Elementos del cuadro de dilogo

8
El resultado de esta prueba de hiptesis es:
Prueba e IC para dos varianzas: creditos vs genero
Mtodo

Hiptesis nula (f) / (m) = 1


Hiptesis alterna (f) / (m) 1
Nivel de significancia = 0,05

Se utiliz el mtodo F. Este mtodo es exacto slo para datos normales.


Estadsticas
IC de 95% para
genero N Desv.Est. Varianza Desv.Est.
f 21 38,746 1501,214 (29,643. 55,951)
m 16 38,339 1469,850 (28,321. 59,336)

Relacin de desviaciones estndar = 1,011


Relacin de varianzas = 1,021

Intervalos de confianza de 95%


IC para IC para
relacin de relacin de
Mtodo Desv.Est. varianza
F (0,609. 1,621) (0,371. 2,628)

Pruebas
Estadstica
Mtodo GL1 GL2 de prueba Valor p
F 20 15 1,02 0,984
Se acepta la hiptesis nula porque P es mayor a 0.05, esto indica que la varianza de los
crditos aprobados tanto en mujeres como en varones es la misma.
Prueba e IC para dos varianzas: creditos vs genero
Prueba e IC para dos varianzas: creditos vs genero
Relacin = 1 vs. Relacin 1

IC de 95% para (f) / (m)


Prueba F
Valor p 0,984

0,50 0,75 1,00 1,25 1,50 1,75

ICs de chi-cuadrado de 95% para Desv.Est.


f
genero

30 35 40 45 50 55 60

Grfica de caja de creditos vs. genero

f
genero

0 25 50 75 100 125 150

d) Probar si los crditos aprobados difieren en promedio entre estudiantes varones


y mujeres.
La ruta para esta prueba es Estadsticas > Estadsticas bsicas > t de 2 muestras
Elementos del cuadro de dilogo
Ambas muestras estn en una columna: Elija esta opcin si los datos de la muestra se
encuentran en una sola columna, diferenciados por los ID de muestra en una segunda
columna. Marcamos esta opcin
Muestras: Ingrese la columna que contiene los datos. Marcar crditos y seleccionar

9
IDs de muestra: Ingrese la columna que contiene los ID de muestra. Marcar genero y
seleccionar
Cada muestra est en su propia columna: Elija esta opcin si los datos de las dos muestras
estn en columnas separadas. Ahora no marcamos esta opcin
Muestra 1: Ingrese la columna que contiene una muestra.
Muestra 2: Ingrese la columna que contiene la otra muestra.
Datos resumidos: Elija esta opcin si tiene valores de resumen para el tamao de la muestra ,
la media y la desviacin estndar para cada muestra. Ahora no marcamos esta opcin
Muestra 1
Tamao de muestra: Ingrese el valor para el tamao de la muestra.
Media de la muestra: Ingrese el valor de la media.
Desviacin estndar: Ingrese el valor de la desviacin estndar.
Muestra 2
Tamao de muestra: Ingrese el valor del tamao de la muestra.
Media de la muestra: Ingrese el valor de la media.
Desviacin estndar: Ingrese el valor de la desviacin estndar.
<Grficas>
<Opciones>
El resultado de esta prueba de hiptesis es:
Prueba T e IC de dos muestras: creditos. genero
T de dos muestras para creditos
Error
estndar
de la
genero N Media Desv.Est. media
f 21 92,3 38,7 8,5
m 16 86,4 38,3 9,6

Diferencia = (f) - (m)


Estimacin de la diferencia: 5,9
IC de 95% para la diferencia: (-20,1. 31,9)
Prueba T de diferencia = 0 (vs. ): Valor T = 0,46 Valor p = 0,647 GL = 35
Ambos utilizan Desv.Est. agrupada = 38,5717
Se acepta la hiptesis nula porque P es mayor a 0.05, esto indica que no hay
diferencia entre los promedios de los crditos aprobados tanto en mujeres como en
varones.
Grfica de caja de creditos

Grfica de caja de creditos


180

160

140

120
creditos

100

80

60

40

20

0
f m
genero

10
e) Se desea saber si en igual proporcin ingresaron alumnos de los colegios
particulares y nacionales.
En este caso desarrollamos una prueba de hiptesis con respecto a la proporcin.
Nos interesa contrastar las hiptesis H0 : p = 0.50 vs. H1 : p 0.50.
a un nivel de significacin del 0.05,
Seguimos la ruta Estadsticas > Estadsticas Basicas > 1 proporcin;
Elementos del cuadro de dilogo
Muestras en columnas: Elija esta opcin si tiene datos en las columnas, Marcar colegio y
seleccionar
Datos resumidos: Elija esta opcin si tiene valores de resumen para los nmeros de ensayos
y eventos. Ahora no elegimos esta opcin
Nmero de eventos: Ingrese el nmero de eventos observados. Si usted ingresa ms de un
valor; el valor entero que ingrese en Nmero de ensayos se aplicar a todos.
Nmero de ensayos: Ingrese un valor individual para el nmero de ensayos.
Realizar prueba de hiptesis: Marcar esta opcin para realizar la prueba de hiptesis de que
la proporcin de poblacin es igual a un valor especificado
Proporcin hipottica: Ingresar el valor de la proporcin 0.50 para la hiptesis nula de la
prueba.
<Opciones>
El resultado de esta prueba de hiptesis es:
Prueba e IC para una proporcin: colegio

Prueba de p = 0.5 vs. p no = 0.5

Evento = publ
Valor P
Variable X N Muestra p IC de 95% exacto
colegio 16 37 0.432432 (0.270979, 0.605116) 0.511

Se acepta la hiptesis nula porque P es mayor a 0.05, esto indica que en igual proporcin
ingresaron alumnos de colegios pblicos y privados.

f) Probar si en las cuatro carreras la distribucin de varones y mujeres es la


misma.
En este caso desarrollamos una prueba chi-cuadrado para tablas de
contingencia, para probar si existe asociacin entre el sexo e las carreras, es decir
si hay alguna preferencia de mujeres o de varones por alguna de las carreras.
Seguimos la ruta Estadsticas > Tablas > Tabulacin cruzada y chi-cuadrada;
Elementos del cuadro de dilogo
Variables categricas
Para filas: Ingrese las columnas que contienen las categoras que definen las filas de la tabla.
Marcar sexo y seleccionar
Para columnas: Ingrese las columnas que contienen las categoras que definen las columnas
de la tabla. Marcar programa y seleccionar
Para capas: Ingrese las columnas que contienen las categoras que definen las capas de las
tablas de dos factores. Aqu nada
Las frecuencias estn en: Si tiene datos de frecuencia, ingrese la columna que contiene las
frecuencias. Ahora no elegimos esta opcin
Mostrar
Conteos: Marcar esta opcin para mostrar el nmero total de valores en cada celda y para los
mrgenes.
Porcentajes de filas: Marcar esta opcin para mostrar el porcentaje que cada celda
representa de las observaciones totales en la fila de la tabla.

11
Porcentajes de columnas: Marcar esta opcin para mostrar el porcentaje que cada celda
representa de las observaciones totales en la columna de la tabla.
Porcentajes totales: Marcar esta opcin para mostrar el porcentaje que cada celda representa
de todas las observaciones en la tabla.
<Chi-cuadrada> Marcar Anlisis de chi-cuadrada
<Otras estadsticas>
<Opciones>
El resultado de esta prueba de hiptesis es:
Estadsticas tabuladas: sexo, programa
Filas: sexo Columnas: programa
biol farm odon pmed Todo

f 5 7 5 4 21
23.81 33.33 23.81 19.05 100.00
62.50 70.00 55.56 40.00 56.76
13.51 18.92 13.51 10.81 56.76

m 3 3 4 6 16
18.75 18.75 25.00 37.50 100.00
37.50 30.00 44.44 60.00 43.24
8.11 8.11 10.81 16.22 43.24

Todo 8 10 9 10 37
21.62 27.03 24.32 27.03 100.00
100.00 100.00 100.00 100.00 100.00
21.62 27.03 24.32 27.03 100.00

Contenido de la celda: Conteo


% de la fila
% de columna
% del total

Chi-cuadrada de Pearson = 1.971, GL = 3, Valor P = 0.578


Chi-cuadrada de la tasa de verosimilitud = 1.987, GL = 3, Valor P = 0.575
Se acepta la hiptesis nula porque Valor P = 0.578 es mayor a 0.05, esto indica el ingreso a
las carreras es independiente de que sea varn o mujer.

3. Realizar un anlisis de regresin


Anlisis de regresin entre la edad y el creditaje aprobado por los estudiantes.
Para realizar este anlisis de regresin en primer lugar debemos hacer el diagrama de
dispersin entre ambas variables.
Seguimos la ruta Grfica > Grfica de dispersin;
En el cuadro de dilogo que se abre se elige simple y aceptar
En el siguiente:
Elementos del cuadro de dilogo
Variable Y : Ingrese una columna de valores Y para cada grfica. Marcar crditos y
seleccionar
Variables X: Ingrese una columna de valores X para cada grfica. Marcar edad y seleccionar
<Escala>
<Etiquetas>
<Mostrar datos>
<Grficas mltiples>
<Opciones de datos>
Marcar aceptar
El resultado de la grafica es:

12
Grfica de dispersin de creditos vs. edad
180

160

140

120
creditos

100

80

60

40

20

0
18 19 20 21 22 23 24 25
edad

Se puede observar que a medida que aumenta la edad tambin aumenta el creditaje aprobado
lo que significa una posible relacin el cual lo probaremos con el anlisis de regresin.

Como solo hay una variable respuesta (crditos = Y) y una sola variable predictiva (edad =
X) entonces realizamos el anlisis de lnea ajustada
Seguimos la ruta Estadsticas > Regresin > Grfica de lnea ajustada;
Elementos del cuadro de dilogo
Respuesta [Y]: Seleccione la columna que contiene la Y, o la variable de respuesta. Marcar
crditos y seleccionar
Predictor [X]: Seleccione la columna que contiene la X, o la variable predictora. Marcar
edad y seleccionar
Tipo de modelo de regresin
Lineal: Elija esta opcin para ajustar un modelo de regresin lineal . Marcar esta opcin
Cuadrtico: Elija esta opcin para ajustar un modelo cuadrtico .
Cbico: Elija esta opcin para ajustar un modelo cbico .
<Grficas>
<Opciones> marcar Mostrar intervalo de confianza y Mostrar intervalo de prediccin
<Almacenamiento>
El resultado de este anlisis de regresin es:
Anlisis de regresin: creditos vs. edad

La ecuacin de regresin es
creditos = - 233.9 + 15.33 edad

S = 27.5823 R-cuad. = 49.2% R-cuad.(ajustado) = 47.7%

Anlisis de varianza

Fuente GL SC MC F P
Regresin 1 25761.9 25761.9 33.86 0.000
Error 35 26627.4 760.8
Total 36 52389.3

La hiptesis que se plantea es con respecto a la pendiente de la recta de regresin


Ho : 0 vs Ha : 0

13
Se rechaza la hiptesis nula porque Valor P = 0.000 es menor a 0.05, esto indica la edad de
los estudiantes influye significativamente en el creditaje aprobado.
Lnea ajustada: creditos vs. edad

Grfica de lnea ajustada


creditos = - 233.9 + 15.33 edad
Regresin
200 I C de 95%
PI de 95%

S 27.5823
R-cuad. 49.2%
150
R-cuad.(ajustado) 47.7%
creditos

100

50

18 19 20 21 22 23 24 25
edad

Finalmente para estudiar las posibles relaciones entre todas las variables cuantitativas de
estudio podemos hallar el grafico matriz de dispersin.

Seguimos la ruta Grfica > Grfica de matriz;


Marcar simple y aceptar
Elementos del cuadro de dilogo
Variables de grficas: Ingrese de 2 a 20 columnas de datos. Marcar edad, crditos, iadm,
familia, hestud, htv, promsem y clicar en seleccionar
<Opciones de matriz>
<Escala>
<Etiquetas>
<Mostrar datos>
<Opciones de datos>
El resultado de la grafica es:

14
Grfica de matriz de edad, creditos, iadm, familia, hestud, htv, ...
50 100 150 2 4 6 0 10 20
25.0
22.5
edad
20.0

150
100
creditos
50
4

3
iadm

2 6

4
familia
2

30
20
hestud
10

20

htv 10

18 0

12 promsem

6
20.0 22.5 25.0 2 3 4 10 20 30 6 12 18

De este grafico podemos concluir que las variables que posiblemente se relacione son la edad
con crditos y las horas de estudio (hestud) y el rendimiento acadmico (promsem)
Podemos hacer el anlisis de regresin de (hestud) y (promsem)

4. Regresin multiple:
Para una regresin multiple podemos tomar las variable ndice de ingreso, horas de
estudio y como variable respuesta rendimiento acadmico.
Seguimos la ruta Estadsticas > Regresin > Regresin;
Elementos del cuadro de dilogo
Respuesta: Seleccione la columna que contiene la Y, o la variable de respuesta . Marcar
promsem y seleccionar

Predictores: Seleccione la columna(s) que contienen la X o las variables predictoras . Marcar


hestud, iadm y seleccionar
<Grficas> Marcar Cuatro en uno
<Opciones>
<Resultados>
<Almacenamiento>
El resultado de este anlisis de regresin es:
Anlisis de regresin: promsem vs. iadm, hestud

La ecuacin de regresin es
promsem = 6.37 + 0.193 iadm + 0.283 hestud

Predictor Coef Coef. de EE T P


Constante 6.372 1.711 3.72 0.001
iadm 0.1931 0.5474 0.35 0.727
hestud 0.28258 0.03975 7.11 0.000
15
S = 1.76150 R-cuad. = 61.5% R-cuad.(ajustado) = 59.2%

Anlisis de varianza

Fuente GL SC MC F P
Regresin 2 168.173 84.086 27.10 0.000
Error residual 34 105.498 3.103
Total 36 273.670

Fuente GL SC sec.
iadm 1 11.326
hestud 1 156.847

Observaciones poco comunes

Residuo
Obs iadm promsem Ajuste Ajuste SE Residuo estndar
7 2.15 16.500 12.439 0.604 4.061 2.45R

R denota una observacin con un residuo estandarizado grande.


La hiptesis que se plantea es con respecto a los coeficientes de regresin de las variables
ndice de ingreso y horas de estudio.
Ho : 1 2 0 vs Ha : 1 2 0

Se rechaza la hiptesis nula porque Valor P = 0.000 es menor a 0.05, esto indica en conjunto
el ndice de ingreso y las horas de estudio influyen significativamente en el rendimiento
acadmico.

Si analizamos por separado estos coeficientes podemos verificar que quien influye en el
rendimiento acadmico es realmente las horas de estudio. Como se ve en el cuadro que sigue.
Predictor Coef Coef. de EE T P
Constante 6.372 1.711 3.72 0.001
iadm 0.1931 0.5474 0.35 0.727
hestud 0.28258 0.03975 7.11 0.000

Grficas de residuos para promsem

16
Grficas de residuos para promsem
Grfica de probabilidad normal vs. ajustes
99
4
90
2
Porcentaje

Residuo
50 0

10 -2

1 -4
-5.0 -2.5 0.0 2.5 5.0 8 10 12 14 16
Residuo Valor ajustado

Histograma vs. orden


8 4

6 2
Frecuencia

Residuo
4 0

2 -2

0 -4
-3 -2 -1 0 1 2 3 4 1 5 10 15 20 25 30 35
Residuo Orden de observacin

Los residuos tienen distribucin normal se puede decir tambin que no estn correlacionados
entre si y tienen la misma varianza

5. Pruebas de tablas de contingencia


Prueba de Independencia, consistente en comprobar si dos caractersticas cualitativas estn
relacionadas entre s.
Se desea probar si hay alguna relacin entre el Colegio de donde proviene y la Carrera
profesional que estudia.
La ruta para esta prueba de independencia es
Estadsticas > Tablas > Prueba chi-cuadrada de asociacin
Elementos del cuadro de dilogo
Datos sin procesar (variables categricas)
Filas: Ingrese la columna que contiene las categoras que definen las filas de la tabla.
Columnas: Ingrese la columna que contiene las categoras que definen las columnas de la
tabla.
Datos resumidos en una tabla de dos factores
Columnas que contienen la tabla: Ingrese las columnas que contienen los datos de la tabla
de contingencia. Elimine o combine las filas o columnas con datos faltantes antes de utilizar
este procedimiento.
Etiquetas para la tabla (opcional): Utilice estas opciones para agregar etiquetas a la
presentacin de su salida.
Filas: (Opcional) Ingrese una columna que contenga etiquetas para los valores de la variable
de fila. El nombre de esta columna se convierte en el nombre de la variable de fila.
Columnas: (Opcional) Ingrese el nombre de la variable de columna.

En el estudio se marca Datos sin procesar (variables categricas) :


En filas, ingrese colegio. En columnas, ingrese programa.
Haga clic en Aceptar en cada cuadro de dilogo.

Salida de la ventana Sesin

17
Prueba chi-cuadrada para asociacin: colegio. programa
Filas: colegio Columnas: programa

biol farm pmed Todo

priv 6 7 8 21
4,541 7,946 8,514

publ 2 7 7 16
3,459 6,054 6,486

Todo 8 14 15 37

Contenido de la celda: Conteo


Conteo esperado

Chi-cuadrada de Pearson = 1,417. GL = 2. Valor p = 0,492


Chi-cuadrada de la tasa de verosimilitud = 1,482. DF = 2. Valor p = 0,477

* NOTA * 2 celdas con conteos esperados menores que 5


Interpretacin de los resultados
Ambos valores p son mayores que 0.05. Por consiguiente, no existe evidencia de una
asociacin entre el colegio de procedencia y el programa de estudio, de estos universitarios.

6. Pruebas no paramtricas
Se pueden realizar pruebas de hiptesis tanto para muestras de una variable y de dos o
ms variables.
a) Se desea probar si la mediana de la edad de los estudiantes universitarios es 22 aos.
Para realizar esta prueba tenemos dos alternativas; Prueba de signos y prueba de los signos de
Wilcoxon de 1 muestra de la mediana.
Prueba de signo

Seguir la secuencia: Estadsticas > No paramtricos > Wilcoxon de 1 muestra

Se usa la prueba de signo como alternativa no paramtrica a las prueba Z de 1 muestra y las
pruebas t de 1 muestra las cuales utilizan la media en lugar de la mediana.
Elementos del cuadro de dilogo
Variables: Seleccione la columna Edad que contienen las variables que desea probar.
Intervalo de confianza: Elija esta opcin para calcular un intervalo de confianza de seales.
Nivel: Ingrese un intervalo de confianza entre 0 y 100 (el valor predeterminado es 95.0).
Nota Minitab calcula el intervalo de confianza para el nivel ms cercano al nivel solicitado.
Mediana de la prueba: Elija esta opcin para realizar una prueba de seales y luego
especificar el valor de la prueba de la hiptesis nula.
Hiptesis alterna: Haga clic en la flecha para elegir el tipo de prueba ejecutada,
seleccionando menos que (de cola inferior), no igual (de dos colas) o ms que (de cola
superior) en el cuadro desplegable.

18
Salida de la ventana Sesin

Prueba de signos para mediana: edad

Prueba del signo de la mediana = 22,00 vs. 22,00

N Debajo Igual Arriba P Mediana


edad 37 23 8 6 0,0023 21,00

Interpretacin de los resultados


El valor p es menor que 0.05. Por consiguiente, existe evidencia de que la mediana de la edad
de estos universitarios no es 22 aos.

Prueba de los signos de Wilcoxon de 1 muestra


La prueba de Wilcoxon de 1 muestra es un equivalente no paramtrico de la prueba t de 1
muestra, porque no requiere que los datos provengan de una poblacin distribuida
normalmente, como lo hace la prueba t.
Seguir la secuencia: Estadsticas > No paramtricos > Wilcoxon de 1 muestra

Elementos del cuadro de dilogo

19
Salida de la ventana Sesin

Prueba de clasificacin con signos de Wilcoxon: edad

Prueba de la mediana = 0,000000 vs. la mediana 0,000000

Nmero
de Estadstica Mediana
N prueba de Wilcoxon P estimada
edad 37 37 703,0 0,000 21,00
Interpretacin de los resultados
El valor p es menor que 0.05. Por consiguiente, existe evidencia de que la mediana de la edad
de estos universitarios no es 22 aos.

b) Probar si la muestra de las horas de entretenimiento (htv) es aleatorio.


Seguir la secuencia: Estadsticas > No paramtricos > Prueba de corridas
Elementos del cuadro de dilogo
Variables: Seleccione las columnas que contienen las variables que desea probar para
determinar su aleatoriedad.
Arriba y debajo de la media: Elija esta opcin para utilizar la media como la lnea base para
determinar el nmero de corridas.
Arriba y debajo de: Elija esta opcin para utilizar un valor diferente a la media como la lnea
base para determinar el nmero de corridas y, a continuacin, ingrese un valor.

Salida de la ventana Sesin


Prueba de corridas: htv

Prueba de corridas para htv

Corridas por encima y por debajo de K = 9,29730

El nmero observado de corridas = 22


El nmero esperado de corridas = 18,8378
22 observaciones por encima de K. 15 por debajo
Valor p = 0,274

Interpretacin de los resultados


Debido a que no se especific otro valor adems de la media como criterio de comparacin
(K), se utiliz la media, 18,8378. El valor p es mayor que 0.05. Por consiguiente, existe
suficiente evidencia para concluir que los datos estn en orden aleatorio.

c) Probar si hay diferencias de ndice de admisin entre colegios pblicos y privados

Se realiza una prueba de Mann-Whitney


Como los datos estn presentados en una sola columna y en otra el tipo de colegio realizamos
el siguiente procedimiento, desapilar la columna de ndice de admisin
iadm_pr iadm_pu
iv bl
3,6 3,6
3,61 3,15
2,38 3,17
3,86 2,15
3,19 3,66
3,35 3,23
20
3,17 3,36
2,88 2,5
2,8 2,39
3,46 3,55
2,94 3,03
3,07 2,17
2,2 3,6
3,05 2,13
3,61 2,05
3,54 2,25
3,5
3,17
3,96
3,55
3,07

Se sigue la secuencia: Estadsticas > No paramtricos > Mann-Whitney

Elementos del cuadro de dilogo


Primera muestra: Seleccione la columna que contenga los datos de muestra de una
poblacin.
Segunda muestra: Seleccione la columna que contenga los datos de muestra de la otra
poblacin.
Nivel de confianza: Especifique el nivel de confianza deseado entre 0 y 100; el nivel
alcanzado ser tan cercano como sea posible.
Nota Minitab calcula el intervalo de confianza para el nivel ms cercano al nivel solicitado.
Hiptesis alterna: Haga clic en la flecha para elegir el tipo de prueba ejecutada,
seleccionando menor que (de cola inferior), no es igual a(de dos colas) o mayor que (de cola
superior) en el cuadro desplegable.

Salida de la ventana Sesin


Prueba de Mann-Whitney e IC: iadm_priv. iadm_publ

N Mediana
iadm_priv 21 3,1900
iadm_publ 16 3,0900

La estimacin del punto para 1 - 2 es 0,3250


95,2 El porcentaje IC para 1 - 2 es (-0,0598.0,8101)
W = 449,5
Prueba de 1 = 2 vs. 1 2 es significativa en 0,1253
La prueba es significativa en 0,1251 (ajustado por empates)
Interpretacin de los resultados
El valor p es mayor que 0.05. Por consiguiente, no existe suficiente evidencia para concluir
que los datos tienen diferente mediana.

d) Como los

21

You might also like