Professional Documents
Culture Documents
INTRODUCCIN
Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las medias
de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a
realizar sera:
que permitir estimar una variable en funcin de la otra. Por ejemplo, en qu medida, un
aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto?,
cmo representamos que la bajada de temperaturas implica un aumento del consumo de la
calefaccin
OBJETIVOS
El anlisis de varianza ser til en situaciones tales como la comparacin del kilometraje
logrado pr cinco clases diferente de gasolina; la prueba de cul de custro mtodo de
capacitacin produce el aprendizaje ms rpido; o en la comparacin de los ingresos del
primer ao de los graduados de una media docena de escuelas de administracin. En cada
caso se pueden comparar las medias de ms de dos muestras.
MSF / MSE tiene una distribucin F con los grados de libertad apropiados.
7. Se construye la siguiente tablas (pero esto se facilita con MINITAB)
Para el caso de datos apilados coloque en response Crates y factor Shift luego OK
One-way ANOVA: Crates versus Shift
Source DF SS MS F P
Shift 2 57.81 28.90 3.66 0.046
Error 18 142.00 7.89
Total 20 199.81
60
50
40
30
20
10
1
42 44 46 48 50 52 54 56 58
Crates
Para el test de normalidad se aprecia que : P-Valor es 0.744 > 0.05, con lo que se concluye que
los datos siguen una distribucin normal.
Bartlett's Test
Test Statistic 2.10
A P-Value 0.350
Lev ene's Test
Test Statistic 0.59
P-Value 0.563
Shift
0 1 2 3 4 5 6 7 8 9
95% Bonferroni Confidence Intervals for StDevs
Para el Test de igualdad de varianzas, de acuerdo al Test de Bartlett el P-valor es 0.350 > 0.05,
con lo que se concluye que hay igualdad de varianzas.
Por lo tanto se cumplen las condiciones para la ANOVA de un factor.
Luego que se hace esto se ve que para el factor en estudio Shift su P-valor es 0.046 < 0.05,
para la variacin entre grupos, existe una diferencia significativa entre las medias de los tres
turnos (Shift).
Al verificar que las medias de los Shift (turnos) indican que el turno C es el ms productivo
(52.571) .
Ejemplo 2: Quince aprendices en un curso tcnico son satisfactoriamente asignados a tres
diferentes tipos de mtodos de instruccin, todos los cuales persiguen el desarrollo de un nivel
especfico de habilidad en diseo asistido por computadora. Las calificaciones de
aprovechamiento al trmino de la unidad de instruccin se muestran en la siguiente tabla. Use
el procedimiento de anlisis de varianza para probar la hiptesis nula de que las medias
mustrales se obtuvieron de la misma poblacin. Con un nivel de significancia del 5%.
Source DF SS MS F P
Factor 2 250.0 125.0 3.35 0.070
Error 12 448.0 37.3
Total 14 698.0
60
50
40
30
20
10
1
60 70 80 90 100
Calificacion
Los datos siguen una distribucin normal P- Valor es 0.525 > 0.05.
Bartlett's Test
Test Statistic 0.01
A1 P-Value 0.995
Levene's Test
Test Statistic 0.03
P-Value 0.969
metodo
A2
A3
5 10 15 20 25
95% Bonferroni Confidence Intervals for StDevs
Para el Test de igualdad de varianzas, de acuerdo al Test de Bartlett el P-valor es 0.995 > 0.05,
con lo que se concluye que hay igualdad de varianzas.
Por lo tanto se cumplen las condiciones para la ANOVA de un factor.
Luego para el factor en estudio Mtodos de Instruccin su P-valor es 0.07 >0.05, para la
variacin entre grupos, no existe una diferencia significativa entre las medias de los tres
mtodos de instruccin.
Al verificar que las medias del l mtodo de instruccin, el A3 tuvo un menor desempeo de
una calificacin de 75.
CORRELACIN
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos
variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las
notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al
problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera
coordenada de cada punto sera su nota en estadstica, mientras que la segunda sera su nota
en matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente
la existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas
notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo
dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si
consideramos un periodo de tiempo de 10 aos, una posible representacin sera situar un
punto por cada ao de forma que la primera coordenada de cada punto sera la cantidad en
,
cuyo valor oscila entre 1 y +1:
1 1
El siguiente diagrama resume los anlisis del coeficiente de correlacin entre dos variables:
Scatterplot of Y vs X
35
30
25
20
Y
15
10
0
0 1 2 3 4 5 6 7 8
X
,
La ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la siguiente:
t = 1 + 2 * GPt + t
podemos considerar para analizar dicha relacin.
A partir de este modelo matemtico lineal, vamos a analizar la relacin entre ambas variables,
la variable ventas (Vt ) que es la variable dependiente del modelo y la variable que vamos a
analizar y los gastos en publicidad (GPt) que es la variable independiente o la variable
explicativa que vamos a utilizar para estudiar las ventas.
En este modelo queremos comprobar qu influencia tienen los gastos de publicidad sobre el
volumen de facturacin o las ventas de la empresa.
Para poder cuantificar dicha relacin, debemos tambin representar la recta de regresin que
subyace en el modelo matemtico que relaciona ambas variables.
Para cuantificar la relacin entre ambas variables y tener una aproximacin de la magnitud de
la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el
modelo por mnimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los
cuadrados de los residuos.
La recta en azul (que aparece a continuacin en el grfico), es la que mejor se ajusta a la nube
de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de estimacin,
definido como la distancia entre el valor observado y el valor estimado de la variable
endgena, sea la mnima para cada una de las observaciones (recta de mnimos cuadrados),
esta recta ser la que utilizaremos para predecir o estimar los valores de Y que obtendremos
para distintos valores de X.
Nuestro problema consiste en minimizar la suma de los cuadrados de los residuos de los
Como ya hemos citado anteriormente, la ecuacin de la recta de mnimos cuadrados (en forma
11
223./ ./ 0 0 17.000
- 28.3
11 600
223./ ./
- 0 -
Por otro lado,
./ 700 28.3 50 716.6
y sta sera la estimacin de la ordenada de la recta de regresin el punto de corte de la
recta con los ejes.
Por tanto, Y = 716,6 + 28,3X
La representacin grfica de los datos anteriores es la que sigue:
1200
1000
800
Ventas
600
400
200
0
30 35 40 45 50 55 60
Gastos en publicidad en MM$
Del diagrama anterior, cabe observar que no todos los puntos estn en la lnea de regresin.
Si todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente grande,
no habra ningn error de estimacin. En ese caso, no habra ninguna diferencia entre el valor
observado y el valor de prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente
imposibles y lo que necesitamos es una medida que describa cmo de precisa es la prediccin
de Y en funcin de X o, inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar de
estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la dispersin
alrededor de la media y el error estndar mide la dispersin alrededor de la lnea de regresin.
La correlacin entre ambas variables es muy alta, ya que el coeficiente de correlacin r = 0.87
est muy prximo a 1.
Una vez que hemos calculado la recta de regresin y el ajuste que hemos conseguido con el
modelo de regresin lineal, el siguiente paso consiste en analizar si la regresin en efecto es
vlida y la podemos utilizar para predecir. Para ello debemos contrastar si la correlacin entre
ambas variables es distinta de cero o si el modelo de regresin es vlido en el sentido de
contrastar si el anlisis de nuestra variable endgena (Y). es vlido a travs de la influencia de
la variable explicativa (X).
Supongamos por un lado que el coeficiente de correlacin lineal r, est prximo a +1 o a 1, y
por tanto parece indicar la existencia de una correlacin lineal entre los valores de la muestra.
Pero este valor del coeficiente de correlacin lineal muestral entre ambas variables no
garantiza que tambin estn correlacionadas en la poblacin.
Para poder contrastar esta suposicin, una vez que hemos estimado la recta de regresin y
cero tambin lo ser la estimacin de la pendiente, -< puesto que: -< >?
>
@
B :D 0 B1 : - 0
1 A 1 F 2 A F
B : D 0 B : - 0
Donde t(n-2,/2) es el valor asociado a una t-Student con n-2 grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deje a su izquierda un rea de 1 - /2).
OJO!: si en vez de realizar el contraste bilateral ( 2 ) deseamos hacer un contraste unilateral
(en el cual la hiptesis alternativa sera H1 : 2> 0 H1 : 2< 0 ), deberemos sustituir en la
frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
Finalmente, tambin podemos obtener el intervalo de confianza para 1 a nivel de confianza
N
(1-) utilizando la expresin:
-< G M) 2, O HIPJ
2
-< - 28.3 0
Siguiendo con el ejemplo anterior, el estadstico de contraste nos queda:
G 3.02
HIKJ 9.38
Si calculamos el p-valor de t = 3,02 con tres grados de libertad, vamos a la tabla t-student y
debemos calcular el rea que hay por encima de t = 3,02 y el rea por debajo de t= -3,02, si
miramos en la tabla , el valor de t ms cercano es t = 3,1824 que le corresponde un rea de
0,025, por lo que a t>=3,02 le corresponder un rea menor, por lo que el p-valor ser algo
menor del 0,05=2*0,025.
Por lo que, si el nivel de significacin es del 5%, como el p-valor es menor que 0,05,
rechazaremos la hiptesis nula a un nivel de significacin del 5%,. Esto indica que existen
evidencias estadsticas de que la variable gastos en publicidad es una variable relevante o que
influye sobre las ventas.
Es interesante notar que todo lo que hemos realizado sobre el coeficiente 2 es tambin
aplicable al coeficiente 1.
Grfico de ajuste lineal los valores observados deben ser cercanos a los valores ajustados,
sin patrones o desviaciones obvias.
Residuos vs orden (tiempo) no tiene patrones obvios.
Residuos vs X no tiene patrones obvios
Residuos vs valores ajustados no tiene patrones obvios
Patrones Residuales
Ejemplos
1. Se registraron las profundidades de las excavaciones y los tiempos de llenado de balde.
Existe alguna relacin entre las dos mediciones? (abrir archivo: profundidad.MTW)
-2750
-3000
profundidad
-3250
-3500
-3750
-4000
-4250
10 12 14 16 18 20
tiempo
Analysis of Variance
Source DF SS MS F P
Regression 1 2138523 2138523 62.36 0.000
Error 18 617278 34293
Total 19 2755801
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el
77.6% de la profundidad a travs del tiempo, por lo que es un ajuste razonable y por tanto,
los residuos son mnimos.
Ecuacin de Regresin:
profundidad = - 1719 - 115.3 tiempo
Existe una fuerte relacin lineal entre Profundidad de Excavacin y Tiempo de Llenado
R-Sq Ajustado = 76.4%
El 76.4% de la variacin del Tiempo de Llenado se debe a la Profundidad de Excavacin a
travs de la recta de regresin.
La Correlacin r = raz cuadrada de 0.776 = 0.88
La ecuacin de regresin parece ser til para predecir Tiempos de Llenado para
Profundidades de Excavacin entre 4.100 y 2.300 cm. Se debe tener cuidado para
profundidades fuera de este rango.
MM$
Publicidad Volumen Ventas
14.2226 95,065
13.9336 97,281
15.504 103,159
16.3105 107,607
17.4936 113,860
19.8906 121,153
21.4803 129,102
20.4046 132,340
21.4776 138,663
22.6821 142,856
20.9722 143,120
23.3538 147,928
26.104 155,955
29.1101 164,946
27.2418 163,921
23.0096 163,426
27.6116 172,485
32.1111 180,519
36.1788 190,509
37.5671 196,497
33.5069 196,024
36.6088 200,832
31.1554 196,769
32.7752 205,341
41.1886 220,230
39.9715 228,703
39.6866 236,500
40.2991 244,560
40.9538 254,771
41.9323 263,683
39.8393 268,304
El valor obtenido para el coeficiente de correlacin es de 0,968, lo cual hace suponer que,
en principio, la correlacin entre ambas variables es muy alta por lo que se puede prever
que en la regresin obtendremos un buen ajuste.
Representar la nube de puntos (grfico x-y) ventas vs publicidad, junto con la recta de
regresin asociada. Piensas que el modelo obtenido sirve para explicar las ventas
obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha gastado
en publicidad?
Analysis of Variance
Source DF SS MS F P
Regression 1 7.23136E+10 7.23136E+10 431.76 0.000
Error 29 4.85708E+09 1.67486E+08
Total 30 7.71707E+10
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-Sq (adj), veremos que este modelo explica casi
el 93.5% del comportamiento de las ventas a travs de la evolucin, por lo que es un buen
ajuste y por tanto, los residuos son mnimos.