Modulo V Anova y Regresion Lineal

Mdulo V
MDULO V: ANLISIS DE VARIANZA Y REGRESIN LINEAL
ORGANIZACIN DE LOS CONTENIDOS
INTRODUCCIN
En estadstica, anlisis de varianza (ANOVA, segn la terminologa inglesa) es una coleccin de

modelos estadsticos y sus procedimientos asociados. El anlisis de varianza sirve para
comparar si los valores de un conjunto de datos numricos son significativamente distintos a
los valores de otro o ms conjunto de datos. El procedimiento para comparar estos valores
est basado en la varianza global observada en los grupos de datos numricos a comparar.
Tpicamente, el anlisis de varianza se utiliza para asociar una probabilidad a la conclusin de
que la media de un grupo de puntuaciones es distinta de la media de otro grupo de
puntuaciones. Permite probar la significancia de las diferencias entre ms de dos medias
mustrales.
Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las medias
de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a
realizar sera:
H0 : 1 = 2 = ... = 5 vs. HA : no todas las medias poblacionales son iguales
Con respecto a la Regresin, est herramienta permite analizar el grado de la relacin

existente entre variables utilizando modelos matemticos y representaciones grficas. As
pues, para representar la relacin entre dos o ms variables desarrollaremos una ecuacin
Herman Cuevas Pgina 1

Mdulo V
que permitir estimar una variable en funcin de la otra. Por ejemplo, en qu medida, un
aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto?,
cmo representamos que la bajada de temperaturas implica un aumento del consumo de la
calefaccin
A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que

llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un modelo
matemtico para estimar el valor de una variable basndonos en el valor de otra, en lo que
llamaremos anlisis de regresin.
OBJETIVOS
Saber distinguir en qu situaciones es til realizar un anlisis de la varianza.

Conocer pautas para elegir el modelo ms adecuado para nuestro problema.
Saber aplicar el ANOVA, con ayuda de Minitab.
Interpretar los distintos valores que aparecen en una tabla ANOVA.
Dar respuesta al problema del contraste de hiptesis planteado.
Aprender a calcular la correlacin entre dos variables
Saber dibujar un diagrama de dispersin
Representar la recta que define la relacin lineal entre dos variables
Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e interpretar
su ajuste.
Realizar inferencia sobre los parmetros de la recta de regresin
Construir e interpretar intervalos de confianza e intervalos de prediccin para la
variable dependiente
Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es
distinto de cero
ANLISIS DE VARIANZA DE UN FACTOR
El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre

alguna variable dependiente Y tienen distintos niveles de algn factor X (variable
independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido el
bien, el da de la semana, etctera.

Mdulo V
Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras

aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del
factor X1, X2,..., Xn . Entonces podremos determinar si los diferentes niveles del factor tienen un
efecto significativo sobre el valor de la variable dependiente.
El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de

comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn),
compararemos una medida de la variacin entre diferentes niveles (MS-factor) con una
medida de la variacin dentro de cada nivel (MS-error). Si el MS-factor es significativamente
mayor que el MS-error, concluiremos que las medias asociadas a diferentes niveles del factor
son distintas. Esto significa que el factor influye significativamente sobre la variable
dependiente Y. Si, por el contrario, el MS-factor no es significativamente mayor que el MS-
error, no rechazaremos la hiptesis nula de que todas las medias, asociadas a diferentes
niveles del factor, coinciden.
Situaciones en la que podemos utilizar ANOVA
El anlisis de varianza ser til en situaciones tales como la comparacin del kilometraje
logrado pr cinco clases diferente de gasolina; la prueba de cul de custro mtodo de
capacitacin produce el aprendizaje ms rpido; o en la comparacin de los ingresos del
primer ao de los graduados de una media docena de escuelas de administracin. En cada
caso se pueden comparar las medias de ms de dos muestras.
Procedimiento General para ANOVA de un factor
1. H0: las medias de las muestras son todas iguales.

2. HA: no todas las medias son iguales.
3. Escoja el nivel de significancia, (0.05).
4. El test ANOVA de una-va somete a prueba las diferencias entre las medias de
3 o ms grupos. (Un factor a 3 o ms niveles).
5. Supuestos:
a. Muestras aleatorias
b. Los Residuales son normales
c. Varianza constante
6. Cuando H0 es verdadero, se obtienen 2 estimaciones de la varianza de la
poblacin, :
a. MSF - Cuadrados medios debido a los grupos (Factor)

Mdulo V
- La varianza entre las medias de los factores.

b. MSE - Cuadrados medios debido al error aleatorio
- Varianza dentro de cada nivel del factor
MSF / MSE tiene una distribucin F con los grados de libertad apropiados.
7. Se construye la siguiente tablas (pero esto se facilita con MINITAB)
8. Rechazar H0 si p-valor < .
Clculo de ANOVA con MINITAB (Ejemplo 1)

Datos No-Apilados : Stat>ANOVA>One-
way(unstacked)
Respuestas en :Shift A Shift B Shift C
Nota: bajo este formato, Minitab no calcula
residuales
Datos Apilados: Stat>ANOVA>One-way

Respuesta: Crates
Factor: Shift
Store residuals: Check
Para los ejemplos anteriores usaremos MINITAB

Mdulo V
Para el caso de datos apilados coloque en response Crates y factor Shift luego OK
One-way ANOVA: Crates versus Shift
Source DF SS MS F P
Shift 2 57.81 28.90 3.66 0.046
Error 18 142.00 7.89
Total 20 199.81
S = 2.809 R-Sq = 28.93% R-Sq(adj) = 21.04%
Individual 95% CIs For Mean Based on

Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
A 7 48.857 3.132 (-------*--------)
B 7 49.286 1.799 (--------*--------)
C 7 52.571 3.259 (--------*--------)
---+---------+---------+---------+------
47.5 50.0 52.5 55.0
Pooled StDev = 2.809
Una vez que se obtienen los resultados se debe adems:

Chequear si los datos tienen una distribucin normal. Stat > Basic Statistics> Normality test
Chequear si los datos tienen homogeneidad de varianzas. ANOVA>Test for Equal Variances

Mdulo V
Probability Plot of Crates

Normal
99
Mean 50.24
StDev 3.161
95 N 21
AD 0.240
90
P-Value 0.744
80
70
Percent
60
50
40
30
20
10
1
42 44 46 48 50 52 54 56 58
Crates
Para el test de normalidad se aprecia que : P-Valor es 0.744 > 0.05, con lo que se concluye que
los datos siguen una distribucin normal.
Test for Equal Variances for Crates
Bartlett's Test
Test Statistic 2.10
A P-Value 0.350
Lev ene's Test
Test Statistic 0.59
P-Value 0.563
Shift
0 1 2 3 4 5 6 7 8 9
95% Bonferroni Confidence Intervals for StDevs
Para el Test de igualdad de varianzas, de acuerdo al Test de Bartlett el P-valor es 0.350 > 0.05,
con lo que se concluye que hay igualdad de varianzas.
Por lo tanto se cumplen las condiciones para la ANOVA de un factor.
Luego que se hace esto se ve que para el factor en estudio Shift su P-valor es 0.046 < 0.05,
para la variacin entre grupos, existe una diferencia significativa entre las medias de los tres
turnos (Shift).

Mdulo V
Al verificar que las medias de los Shift (turnos) indican que el turno C es el ms productivo
(52.571) .
Ejemplo 2: Quince aprendices en un curso tcnico son satisfactoriamente asignados a tres
diferentes tipos de mtodos de instruccin, todos los cuales persiguen el desarrollo de un nivel
especfico de habilidad en diseo asistido por computadora. Las calificaciones de
aprovechamiento al trmino de la unidad de instruccin se muestran en la siguiente tabla. Use
el procedimiento de anlisis de varianza para probar la hiptesis nula de que las medias
mustrales se obtuvieron de la misma poblacin. Con un nivel de significancia del 5%.
Mtodo Calificaciones Calificaciones Calificaciones

de totales Medias
Instruccin
A1 86 79 81 70 84 400 80
A2 90 76 88 82 89 425 85
A3 82 68 73 71 81 375 75
Usar : ANOVA> One-Way (Unstacked) ; luego coloque en Response: C1 a C3..OK
One-way ANOVA: A1; A2; A3
Source DF SS MS F P
Factor 2 250.0 125.0 3.35 0.070
Error 12 448.0 37.3
Total 14 698.0

Mdulo V
S = 6.110 R-Sq = 35.82% R-Sq(adj) = 25.12%
Individual 95% CIs For Mean Based on

Pooled StDev
Level N Mean StDev -----+---------+---------+---------+----
A1 5 80.000 6.205 (---------*---------)
A2 5 85.000 5.916 (---------*---------)
A3 5 75.000 6.205 (---------*---------)
-----+---------+---------+---------+----
72.0 78.0 84.0 90.0
Pooled StDev = 6.110
Una vez que se obtienen los resultados se debe adems:

Chequear si los datos tienen una distribucin normal. Stat > Basic Statistics> Normality test
Chequear si los datos tienen homogeneidad de varianzas. ANOVA>Test for Equal Variances
Probability Plot of Calificacion

Normal
99
Mean 80
StDev 7.061
95 N 15
AD 0.305
90
P-Value 0.525
80
70
Percent
60
50
40
30
20
10
1
60 70 80 90 100
Calificacion
Los datos siguen una distribucin normal P- Valor es 0.525 > 0.05.

Mdulo V
Test for Equal Variances for Calificacion
Bartlett's Test
Test Statistic 0.01
A1 P-Value 0.995
Levene's Test
Test Statistic 0.03
P-Value 0.969
metodo
A2
A3
5 10 15 20 25
95% Bonferroni Confidence Intervals for StDevs
Para el Test de igualdad de varianzas, de acuerdo al Test de Bartlett el P-valor es 0.995 > 0.05,
con lo que se concluye que hay igualdad de varianzas.
Por lo tanto se cumplen las condiciones para la ANOVA de un factor.
Luego para el factor en estudio Mtodos de Instruccin su P-valor es 0.07 >0.05, para la
variacin entre grupos, no existe una diferencia significativa entre las medias de los tres
mtodos de instruccin.
Al verificar que las medias del l mtodo de instruccin, el A3 tuvo un menor desempeo de
una calificacin de 75.
CORRELACIN
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos
variables aleatorias. As, por ejemplo, podemos preguntarnos si hay alguna relacin entre las
notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al
problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera
coordenada de cada punto sera su nota en estadstica, mientras que la segunda sera su nota
en matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente
la existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas
notas.
Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo
dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si
consideramos un periodo de tiempo de 10 aos, una posible representacin sera situar un
punto por cada ao de forma que la primera coordenada de cada punto sera la cantidad en

Mdulo V
dlares invertidos en publicidad, mientras que la segunda sera la cantidad en dlares

obtenidos de su facturacin. De esta manera, obtendramos una nube de puntos que nos
indicara el tipo de relacin existente entre ambas variables.
En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El
parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r,

,
cuyo valor oscila entre 1 y +1:
1 1

El siguiente diagrama resume los anlisis del coeficiente de correlacin entre dos variables:
Definicin y caractersticas del concepto de Regresin Lineal
En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene

sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de
mnimos cuadrados). Uno de los principales usos de dicha recta ser el de predecir o estimar
los valores de Y que obtendramos para distintos valores de X. Estos conceptos quedarn
representados en lo que llamamos diagrama de dispersin:
Scatterplot of Y vs X
35
30
25
20
Y
15
10
0
0 1 2 3 4 5 6 7 8
X

,
La ecuacin de la recta de mnimos cuadrados (en forma punto-pendiente) es la siguiente:


Mdulo V
Veamos con detalle estos conceptos mediante un ejemplo:

Si queremos estudiar la relacin existente entre ambas variables, siguiendo con el ejemplo
anterior referente a la relacin entre las ventas de una empresa (Vt) y sus gastos en publicidad
(GPt) , lo que podemos hacer es representar grficamente el modelo matemtico lineal que
t = 1 + 2 * GPt + t
podemos considerar para analizar dicha relacin.
Supongamos que disponemos de los siguientes datos:
Ao Ventas Gastos en publicidad en MM$

2000 200 30
2001 400 50
2002 800 50
2003 1200 60
2004 900 60
A partir de este modelo matemtico lineal, vamos a analizar la relacin entre ambas variables,
la variable ventas (Vt ) que es la variable dependiente del modelo y la variable que vamos a
analizar y los gastos en publicidad (GPt) que es la variable independiente o la variable
explicativa que vamos a utilizar para estudiar las ventas.
En este modelo queremos comprobar qu influencia tienen los gastos de publicidad sobre el
volumen de facturacin o las ventas de la empresa.
Para poder cuantificar dicha relacin, debemos tambin representar la recta de regresin que
subyace en el modelo matemtico que relaciona ambas variables.
Para cuantificar la relacin entre ambas variables y tener una aproximacin de la magnitud de
la influencia de los gastos en publicidad sobre las ventas de la empresa debemos estimar el
modelo por mnimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los
cuadrados de los residuos.
La recta en azul (que aparece a continuacin en el grfico), es la que mejor se ajusta a la nube
de puntos que tenemos. Dicho de otra forma, es la recta que hace que el error de estimacin,
definido como la distancia entre el valor observado y el valor estimado de la variable
endgena, sea la mnima para cada una de las observaciones (recta de mnimos cuadrados),
esta recta ser la que utilizaremos para predecir o estimar los valores de Y que obtendremos
para distintos valores de X.

Mdulo V
! " "#$

La diferencia entre un valor observado y el valor estimado lo denominaremos residuo.
Nuestro problema consiste en minimizar la suma de los cuadrados de los residuos de los
cuadrados de los residuos, &

% . De este problema de optimizacin se deduce la expresin

de mnimos cuadrados ordinarios del MRLM:
Criterio MCO: ') &

%

Como ya hemos citado anteriormente, la ecuacin de la recta de mnimos cuadrados (en forma
+ + " "

punto-pendiente) es la siguiente:

+, "
" " +
+ + +
+ +

11
223./ ./ 0 0 17.000
- 28.3
11 600
223./ ./

sta sera la estimacin de la pendiente de la recta por mnimos cuadrados.
- 0 -
Por otro lado,
./ 700 28.3 50 716.6
y sta sera la estimacin de la ordenada de la recta de regresin el punto de corte de la
recta con los ejes.
Por tanto, Y = 716,6 + 28,3X
La representacin grfica de los datos anteriores es la que sigue:
Ventas = - 717 + 28.3 Gastos en publicidad en MM$
S = 229.734 R-Sq = 75.3% R-Sq(adj) = 67.0%

Mdulo V
Scatterplot of Ventas vs Gastos en publicidad en MM$
1200
1000
800
Ventas
600
400
200
0
30 35 40 45 50 55 60
Gastos en publicidad en MM$
Del diagrama anterior, cabe observar que no todos los puntos estn en la lnea de regresin.
Si todos lo estuvieran y, adems, si el nmero de observaciones fuera suficientemente grande,
no habra ningn error de estimacin. En ese caso, no habra ninguna diferencia entre el valor
observado y el valor de prediccin.
Como imaginamos, en los casos reales, las predicciones perfectas son prcticamente
imposibles y lo que necesitamos es una medida que describa cmo de precisa es la prediccin
de Y en funcin de X o, inversamente, qu inexacta puede ser la estimacin.
A esta medida se le llama error estndar de estimacin y se denota Syx. El error estndar de
estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la dispersin
alrededor de la media y el error estndar mide la dispersin alrededor de la lnea de regresin.
Interpretacin de los coeficientes estimados

Segn la recta de mnimos cuadrados, al incrementarse en un milln de dlares los gastos en
publicidad, la cantidad de facturacin obtenida se incrementar en 28,3 millones de dlares. Y
cuando no se haga ningn esfuerzo publicitario, las ventas segn la recta sern negativas.
Esto se puede entender como que no se vende nada o que si no se hace ningn esfuerzo
publicitario se obtienen unas ventas negativas, en el sentido de que hay otros gastos a la hora
de vender que provocan que al final haya ventas negativas.

Mdulo V
La correlacin entre ambas variables es muy alta, ya que el coeficiente de correlacin r = 0.87
est muy prximo a 1.
Supuestos del modelo de regresin lineal

En el caso en que nuestras observaciones sean una muestra aleatoria proveniente de una
poblacin, estaremos interesados en realizar inferencias sobre la misma. A fin de que estas
inferencias sean estadsticamente razonables, se han de cumplir las siguientes condiciones:
1. En la poblacin, la relacin entre las variables X e Y debe ser aproximadamente lineal, es
decir: y = 1 + 2x + , siendo la variable aleatoria que representa los residuos (diferencias
entre el valor estimado por el modelo y el verdadero valor de Y ).
2. Los residuos se distribuyen segn una Normal de media 0, es decir, N(0,2 ) .
3. Los residuos son independientes unos de otros.
4. Los residuos tienen varianza 2 constante.
Afortunadamente, el modelo de regresin lineal es bastante robusto, lo que significa que no
es necesario que las condiciones anteriores se cumplan con exactitud (en particular las tres
ltimas).
Definicin del Coeficiente de Determinacin

Denominamos coeficiente de determinacin R2 como el coeficiente que nos indica el
porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la
variacin de Y (ventas) que se explica a travs del modelo lineal que se ha estimado, es decir a
travs del comportamiento de X (publicidad) . A mayor porcentaje mejor es nuestro modelo
para predecir el comportamiento de la variable Y
Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza
explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al
cuadrado del coeficiente de correlacin (r).
R2 = r2
Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.
Tambin se le denomina bondad del ajuste.
1 R2 nos indica qu porcentaje de las variaciones no se explica a travs del modelo de
regresin, es como si fuera la varianza inexplicada que es la varianza de los residuos.
En nuestro ejemplo, el coeficiente de determinacin nos da bajo, el 75,3%, por lo que slo
conseguimos explicar el 75,3 % de las variaciones de las ventas a travs del ajuste por medio
de los gastos en publicidad.
Inferencia en el modelo de regresin

Mdulo V
Una vez que hemos calculado la recta de regresin y el ajuste que hemos conseguido con el
modelo de regresin lineal, el siguiente paso consiste en analizar si la regresin en efecto es
vlida y la podemos utilizar para predecir. Para ello debemos contrastar si la correlacin entre
ambas variables es distinta de cero o si el modelo de regresin es vlido en el sentido de
contrastar si el anlisis de nuestra variable endgena (Y). es vlido a travs de la influencia de
la variable explicativa (X).
Supongamos por un lado que el coeficiente de correlacin lineal r, est prximo a +1 o a 1, y
por tanto parece indicar la existencia de una correlacin lineal entre los valores de la muestra.
Pero este valor del coeficiente de correlacin lineal muestral entre ambas variables no
garantiza que tambin estn correlacionadas en la poblacin.
Para poder contrastar esta suposicin, una vez que hemos estimado la recta de regresin y
0#$ -< -< ./$

hemos obtenido las estimaciones de los parmetros del modelo;
Vt = 1 + 2 * GPt + t como
Ahora lo que debemos es comprobar si esta estimacin de este modelo es vlida en el sentido
de si es significativa de forma que la variable Publicidad (X) es relevante para explicar (Y) que
son las ventas. Entonces debemos contrastar si la pendiente de la recta de regresin
poblacional 2 es significativamente distinta de cero, de ah tendramos que, en efecto, existe
una correlacin lineal entre ambas variables poblacionales.
Los dos contrastes siguientes son equivalentes porque si el coeficiente de correlacin, r, es
cero tambin lo ser la estimacin de la pendiente, -< puesto que: -< >?
>
@
B :D 0 B1 : - 0
1 A 1 F 2 A F
B : D 0 B : - 0
Donde es el coeficiente de correlacin entre ambas variables.

El estadstico (t-Student) que se utiliza para realizar el test (2 ) es el siguiente:
-< - N " -< " -< +"

G G M) 2, O , ) HIPQ R
HIKJ 2 +
) 2 S + ) T
Donde t(n-2,/2) es el valor asociado a una t-Student con n-2 grados de libertad que deja a su
derecha un rea de /2 (o, equivalentemente, deje a su izquierda un rea de 1 - /2).
OJO!: si en vez de realizar el contraste bilateral ( 2 ) deseamos hacer un contraste unilateral
(en el cual la hiptesis alternativa sera H1 : 2> 0 H1 : 2< 0 ), deberemos sustituir en la
frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin).
Finalmente, tambin podemos obtener el intervalo de confianza para 1 a nivel de confianza

Mdulo V
N
(1-) utilizando la expresin:
-< G M) 2, O HIPJ
2
-< - 28.3 0
Siguiendo con el ejemplo anterior, el estadstico de contraste nos queda:
G 3.02
HIKJ 9.38
Si calculamos el p-valor de t = 3,02 con tres grados de libertad, vamos a la tabla t-student y
debemos calcular el rea que hay por encima de t = 3,02 y el rea por debajo de t= -3,02, si
miramos en la tabla , el valor de t ms cercano es t = 3,1824 que le corresponde un rea de
0,025, por lo que a t>=3,02 le corresponder un rea menor, por lo que el p-valor ser algo
menor del 0,05=2*0,025.
Por lo que, si el nivel de significacin es del 5%, como el p-valor es menor que 0,05,
rechazaremos la hiptesis nula a un nivel de significacin del 5%,. Esto indica que existen
evidencias estadsticas de que la variable gastos en publicidad es una variable relevante o que
influye sobre las ventas.
Es interesante notar que todo lo que hemos realizado sobre el coeficiente 2 es tambin
aplicable al coeficiente 1.
Resumen general para la hacer una regresin lineal

Trazar un diagrama de dispersin Parece existir una relacin lineal?
Calcular el coeficiente de correlacin.
Ajustar la lnea de regresin.
Verificar la validez de la regresin.
Usar la lnea de regresin.
Verificar la Validez de la Regresin

r y R2 proporcionan mediciones globales respecto del ajuste.
Antes de utilizar la ecuacin de regresin para hacer pronsticos, verifique los residuos en las
reas con problemas:
Residuo = valor observado valor pronosticado
Los residuos altos son indicativos de falta de ajuste, valores anmalos.
Los patrones de los residuos sugieren transformaciones de Xs.
Grfico de probablidad Normal debe ser una lnea recta

Mdulo V
Grfico de ajuste lineal los valores observados deben ser cercanos a los valores ajustados,
sin patrones o desviaciones obvias.
Residuos vs orden (tiempo) no tiene patrones obvios.
Residuos vs X no tiene patrones obvios
Residuos vs valores ajustados no tiene patrones obvios
Patrones Residuales
Ejemplos
1. Se registraron las profundidades de las excavaciones y los tiempos de llenado de balde.
Existe alguna relacin entre las dos mediciones? (abrir archivo: profundidad.MTW)

Mdulo V
Comandos Minitab: Graph>Scatterplots
Seleccionar las columnas Y; X, Clic OK

Mdulo V
Existe una correlacin entre ambas variales.

Seleccionamos Stat > Basic Statistics > Correlation
Correlations: profundidad; tiempo
Pearson correlation of profundidad and tiempo = -0.881

P-Value = 0.000
El valor obtenido para el coeficiente de correlacin es de -0,881, lo cual hace suponer que,
en principio, la correlacin entre ambas variables es muy alta por lo que se puede prever
que en la regresin obtendremos un buen ajuste.
Seleccionamos Stat > Regression > Fitted Line Plot :

Mdulo V
Fitted Line Plot

profundidad = - 1719 - 115.3 tiempo
S 185.184
R-Sq 77.6%
-2500
R-Sq(adj) 76.4%
-2750
-3000
profundidad
-3250
-3500
-3750
-4000
-4250
10 12 14 16 18 20
tiempo
Regression Analysis: profundidad versus tiempo
The regression equation is

S = 185.184 R-Sq = 77.6% R-Sq(adj) = 76.4%
Analysis of Variance
Source DF SS MS F P
Regression 1 2138523 2138523 62.36 0.000
Error 18 617278 34293
Total 19 2755801
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-sq, veremos que este modelo explica casi el
77.6% de la profundidad a travs del tiempo, por lo que es un ajuste razonable y por tanto,
los residuos son mnimos.
Ecuacin de Regresin:
Existe una fuerte relacin lineal entre Profundidad de Excavacin y Tiempo de Llenado
R-Sq Ajustado = 76.4%
El 76.4% de la variacin del Tiempo de Llenado se debe a la Profundidad de Excavacin a
travs de la recta de regresin.
La Correlacin r = raz cuadrada de 0.776 = 0.88

Mdulo V
La ecuacin de regresin parece ser til para predecir Tiempos de Llenado para
Profundidades de Excavacin entre 4.100 y 2.300 cm. Se debe tener cuidado para
profundidades fuera de este rango.
2. En la siguiente tabla, se muestran los datos registrados de las ventas en millones de

dlares y de los gastos incurridos en publicidad, tambin en millones de dlares, por
una empresa industrial que fabrica barras para la minera: (abrir archivo: vtas
publicidad. MTW)
MM$
Publicidad Volumen Ventas
14.2226 95,065
13.9336 97,281
15.504 103,159
16.3105 107,607
17.4936 113,860
19.8906 121,153
21.4803 129,102
20.4046 132,340
21.4776 138,663
22.6821 142,856
20.9722 143,120
23.3538 147,928
26.104 155,955
29.1101 164,946
27.2418 163,921
23.0096 163,426
27.6116 172,485
32.1111 180,519
36.1788 190,509
37.5671 196,497
33.5069 196,024
36.6088 200,832
31.1554 196,769
32.7752 205,341
41.1886 220,230
39.9715 228,703
39.6866 236,500
40.2991 244,560
40.9538 254,771
41.9323 263,683
39.8393 268,304

Mdulo V
Calcular el coeficiente de correlacin lineal

Seleccionamos Stat > Basic Statistics > Correlation :
Correlations: MM$ Publicidad; Volumen Ventas
Pearson correlation of MM$ Publicidad and Volumen Ventas = 0.968

P-Value = 0.000
El valor obtenido para el coeficiente de correlacin es de 0,968, lo cual hace suponer que,
en principio, la correlacin entre ambas variables es muy alta por lo que se puede prever
que en la regresin obtendremos un buen ajuste.
Representar la nube de puntos (grfico x-y) ventas vs publicidad, junto con la recta de
regresin asociada. Piensas que el modelo obtenido sirve para explicar las ventas
obtenidas por esta empresa en los ltimos treinta aos en funcin de lo que se ha gastado
en publicidad?
Seleccionamos Stat > Regression > Fitted Line Plot :

Mdulo V
Regression Analysis: Volumen Ventas versus MM$ Publicidad
The regression equation is

Volumen Ventas = 21167 + 5336 MM$ Publicidad
S = 12941.6 R-Sq = 93.7% R-Sq(adj) = 93.5%
Analysis of Variance
Source DF SS MS F P
Regression 1 7.23136E+10 7.23136E+10 431.76 0.000
Error 29 4.85708E+09 1.67486E+08
Total 30 7.71707E+10
Como se aprecia en el grfico, el modelo lineal simple ajusta con mnimos errores la
evolucin de las ventas en funcin de los gastos en publicidad. De hecho, si nos fijamos en
el valor del coeficiente de determinacin R-Sq (adj), veremos que este modelo explica casi
el 93.5% del comportamiento de las ventas a travs de la evolucin, por lo que es un buen
ajuste y por tanto, los residuos son mnimos.
Presenta la muestra suficiente evidencia, a un nivel de significacin de 0,05, como para

rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)?
En el output anterior podemos ver que el p-valor asociado al contraste de hiptesis

anterior es casi cero. Como este valor es menor que = 0,05, debemos rechazar la

Mdulo V
hiptesis nula, es decir, concluiremos que la pendiente de la recta es distinta de cero o, lo

ue es lo mismo, que el coeficiente de correlacin poblacional es no nulo (es decir, que
ambas variables estn correlacionadas y que, por tanto, el modelo tiene sentido).

Modulo V Anova y Regresion Lineal

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modulo V Anova y Regresion Lineal

Uploaded by

Copyright:

Available Formats

Mdulo V

MDULO V: ANLISIS DE VARIANZA Y REGRESIN LINEAL

ORGANIZACIN DE LOS CONTENIDOS

En estadstica, anlisis de varianza (ANOVA, segn la terminologa inglesa) es una coleccin de

H0 : 1 = 2 = ... = 5 vs. HA : no todas las medias poblacionales son iguales

Con respecto a la Regresin, est herramienta permite analizar el grado de la relacin

Herman Cuevas Pgina 1

A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que

Saber distinguir en qu situaciones es til realizar un anlisis de la varianza.

ANLISIS DE VARIANZA DE UN FACTOR

El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre

Herman Cuevas Pgina 2

Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras

El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, el siguiente: a fin de

Situaciones en la que podemos utilizar ANOVA

Procedimiento General para ANOVA de un factor

1. H0: las medias de las muestras son todas iguales.

Herman Cuevas Pgina 3

- La varianza entre las medias de los factores.

8. Rechazar H0 si p-valor < .

Clculo de ANOVA con MINITAB (Ejemplo 1)

Datos Apilados: Stat>ANOVA>One-way

Para los ejemplos anteriores usaremos MINITAB

Herman Cuevas Pgina 4

S = 2.809 R-Sq = 28.93% R-Sq(adj) = 21.04%

Individual 95% CIs For Mean Based on

Pooled StDev = 2.809

Una vez que se obtienen los resultados se debe adems:

Herman Cuevas Pgina 5

Probability Plot of Crates

Test for Equal Variances for Crates

Herman Cuevas Pgina 6

Mtodo Calificaciones Calificaciones Calificaciones

Usar : ANOVA> One-Way (Unstacked) ; luego coloque en Response: C1 a C3..OK

One-way ANOVA: A1; A2; A3

Herman Cuevas Pgina 7

S = 6.110 R-Sq = 35.82% R-Sq(adj) = 25.12%

Individual 95% CIs For Mean Based on

Pooled StDev = 6.110

Una vez que se obtienen los resultados se debe adems:

Probability Plot of Calificacion

Herman Cuevas Pgina 8

Test for Equal Variances for Calificacion

Herman Cuevas Pgina 9

dlares invertidos en publicidad, mientras que la segunda sera la cantidad en dlares

Definicin y caractersticas del concepto de Regresin Lineal

En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene

Herman Cuevas Pgina 10

Veamos con detalle estos conceptos mediante un ejemplo:

Supongamos que disponemos de los siguientes datos:

Ao Ventas Gastos en publicidad en MM$

Herman Cuevas Pgina 11

 !  " "#$

cuadrados de los residuos,  &

de mnimos cuadrados ordinarios del MRLM:

Criterio MCO: ')  &

 + + " " 

sta sera la estimacin de la pendiente de la recta por mnimos cuadrados.

Ventas = - 717 + 28.3 Gastos en publicidad en MM$

S = 229.734 R-Sq = 75.3% R-Sq(adj) = 67.0%

Herman Cuevas Pgina 12

Scatterplot of Ventas vs Gastos en publicidad en MM$

Interpretacin de los coeficientes estimados

! " "#$

cuadrados de los residuos, &

Criterio MCO: ') &

+ + " "

0#$ -< -< ./$

-< - N " -< " -< +"