You are on page 1of 28

Universidad Nacional de Misiones

Facultad de Ciencias Exactas Qumicas y Naturales

Trabajo Final
Estudio Estadstico sobre mediciones de
calidad diaria de aire en la ciudad de
New York ,1973.

Ctedra: Estadstica Aplicada


Profesor: Mgter. Piris da Motta, Marcial
Alumnos
Brtez, Celeste
Salvia, Ariana

Ao: 2015

IQ01396
IQ01368

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

ndice
Introduccin
Descripcin
Objetivo
Metodologa
1. Anlisis descriptivo
2. Correlacin entre variables
3. Modelo de Regresin
3.1 Ajuste de diseo
3.2 Introduccin de trminos de interaccin entre las variables
explicativas en el modelo
3.3 Comparacin de Modelos
4. Validacin de Modelo elegido
4.1 Anlisis de los residuos
4.1.1 Linealidad
4.1.2 Independencia
4.1.3 Homocedasticidad
4.1.4 Normalidad
4.1.5 No-Colinealidad
Conclusin
Bibliografa

Pgina 2

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Introduccin
Cuando el ozono se sita en la capa ms baja de la atmsfera y supera ciertos
niveles, deja de ser el gas protector de la vida en el planeta para convertirse en
un peligroso contaminante.
El ozono se produce de forma natural, dando lugar a pequeas
concentraciones inocuas en el aire, a partir de emisiones procedentes de la
vegetacin, procesos de fermentacin o volcanes, y se encuentra tanto en la
tropsfera- la regin de la atmsfera ms prxima a la superficie terrestrecomo en la estratsfera, situada en las capas altas de la atmsfera, en donde
cumple su conocido papel protector contra los letales rayos ultravioleta. Sin
embargo, cuando el ozono troposfrico aumenta en mayores cantidades,
provocado por medios artificiales, se convierte en un contaminante txico. A
diferencia de otros contaminantes que son emitidos directamente por sus
fuentes, el ozono surge a partir de otros productos, principalmente xidos de
nitrgeno (NOx) y contaminantes orgnicos voltiles (COV's).
Adems de la presencia de NOx y COV's, hay otros factores que contribuyen a
la formacin de ozono a nivel del suelo, denominados factores meteorolgicos.
Se requiere altos niveles de radiacin solar para iniciar las reacciones
fotoqumicas que forman ozono. Las radiaciones estimulan los COV's y NOx a
recombinarse para formar el ozono.
Temperaturas superiores a 80 F (26,7C) tambin influyen en la formacin de
ozono. Las temperaturas ms altas aumentan la qumica de la formacin de
ozono y las emisiones de evaporacin de COV's. Cuanto mayor sea la
temperatura, se producirn altos niveles de ozono.
Bajas velocidades del viento (menores a 10 MPH) son necesarias para la
acumulacin de los precursores de la formacin de ozono (COV's y NOx) y la
posterior formacin de ozono. Velocidades del viento ms altas tienden a diluir
o dispersar las emisiones. Sin embargo, todava pueden transportar ozono
desde otros lugares.

Descripcin
El estudio citado muestra las variaciones de:

Pgina 3

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Concentracin de Ozono en partes por billn de 13:00 a 15:00 horas en


Roosevelt Island.

Radiacin solar en Langleys en la banda de frecuencias 4000-7700


Angstroms de 08:00-12:00 horas en Central Park.

Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en
el aeropuerto de La Guardia.

Temperatura diaria mxima en grados Fahrenheit en el aeropuerto La


Guardia.

Meses del ao (05-09).

Estos datos fueron tomados en la ciudad de Nueva York por el Departamento


de Estado de Nueva York de la Naturaleza (datos de la capa de ozono) y del
Servicio Meteorolgico Nacional, a partir del 1 de Mayo al 30 de Septiembre
de1973.

Objetivo
-

Evaluar si existe correlacin entre la concentracin de ozono y los


factores temperatura diaria mxima, radiacin solar, velocidad media del
viento.

Metodologa
Se efectuar un anlisis descriptivo de la concentracin de ozono (Ozone),
temperatura diaria mxima (Temp), radiacin solar (Solar.R) y velocidad media
del viento (Wind) que sern las variables en estudio.
La metodologa a aplicar consiste en realizar una Regresin Lineal Mltiple
para comprobar si existe asociacin entre la concentracin de ozono (variable
dependiente) y las variables explicativas: temperatura mxima diaria, radiacin
solar y velocidad media del viento. Si existiese dicha asociacin o relacin se
proceder a la bsqueda del modelo que mejor se ajuste al estudio y la
validacin del mismo. Para el procesamiento de la informacin y la evaluacin
de la relacin entre las variables se utilizar el Software R.2.12.2.

Resultados
1.Anlisis descriptivo
En la tabla 1 se muestran los datos que fueron extrados del conjunto de datos
de paquetes New York Air Quality Measurements del Programa R.2.12.2. La
misma cuenta con 153 mediciones de concentracin de ozono, velocidad
media del viento, radiacin solar, temperatura, tomadas durante 5 meses en la
ciudad de New York.

Pgina 4

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Para introducir los datos en el programa, se carga en la ventana de R


Console>library (Rcmdr), y en la nueva ventana abierta de Rcmdr mediante la
seleccin de las opciones del men Datos Conjunto de datos en
paquetesLeer datos desde paquete adjunto, en el cuadro de dialogo se
elije el paquete datasets y dentro de ste el juego de datos airquality.
(Imagen1).

Imagen

Pgina 5

Obs Ozone Solar.R


1
41
190
2
36
118
3
12
149
4
18
313
5
NA
NA
6
28
NA
7
23
299
8
19
99
9
8
19
10
NA
194
11
7
NA
12
16
256
13
11
290
14
14
274
15
18
65
16
14
334
17
34
307
18
6
78
19
30
322
20
11
44
21
1
8
22
11
320
23
4
25
24
32
92
25
NA
66
26
NA
266
27
NA
NA
28
23
13
29
45
252
30
115
223
31
37
279
32
NA
286
33
NA
287
34
NA
242
35
NA
186
36
NA
220
37
NA
264
38
29
127
39
NA
273
40
71
291
41
39
323
42
NA
259
43
NA
250
44
23
148
45
NA
332
46
NA
322
47
21
191
48
37
284
49
20
37
50
12
120
51
13
137
52
NA
150
53
NA
59
54
NA
91
55
NA
250

Wind
Temp Month
Day
7.4
67
5
1
8
72 Universidad
5 Nacional de
2 Misiones
12.6 Facultad
74de Ciencias5Exactas Qumicas
3 y Naturales
11.5
62
5
4
14.3
56
5
5
14.9
66
5
6
8.6
65
5
7
13.8
59
5
8
20.1
61
5
9
8.6
69
5
10
6.9
74
5
11
9.7
69
5
12
9.2
66
5
13
10.9
68
5
14
13.2
58
5
15
11.5
64
5
16
12
66
5
17
18.4
57
5
18
11.5
68
5
19
9.7
62
5
20
9.7
59
5
21
16.6
73
5
22
9.7
61
5
23
12
61
5
24
16.6
57
5
25
14.9
58
5
26
8
57
5
27
12
67
5
28
14.9
81
5
29
5.7
79
5
30
7.4
76
5
31
8.6
78
6
1
9.7
74
6
2
16.1
67
6
3
9.2
84
6
4
8.6
85
6
5
14.3
79
6
6
9.7
82
6
7
6.9
87
6
8
13.8
90
6
9
11.5
87
6
10
10.9
93
6
11
9.2
92
6
12
8
82
6
13
13.8
80
6
14
11.5
79
6
15
14.9
77
6
16
20.7
72
6
17
9.2
65
6
18
11.5
73
6
19
10.3
76
6
20
Pgina
6
6.3
77
6
21
1.7
76
6
22
4.6
76
6
23
6.3
76
6
24

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Tabla1.Datos de mediciones de Calidad de Aire en New York.

Por distintos motivos, la tabla 1 presenta celdas con NA (NotAvailable), esto se


debe a que no se ha podido medir un dato o que se ha perdido la medicin.
En la tabla 2 se muestran los resultados obtenidos para los estadsticos
descriptivos bsicos correspondientes a los valores de la concentracin de
ozono, radiacin solar, temperatura, velocidad media del viento.
Variabl
es

Temp

Media
42,129
3
185,93
15
77,882
3

Wind

9,9575

Ozone
Solar. R

SD
32,98
79
90,05
84
9,465
2
3,523
0

CV
(%)
78,30
16
48,43
63
12,15
32
35,38
04

Asimet
ra

Curto
sis

0%

25%

50%

75%

13

100
%
168,0
1,2099 1,1122 1,00 18,00 31,50 63,25
0
115,7 205,0 258,7 334,0
-0,4193 1,0040 7,00
5
0
5
0
56,0
-0,3705 0,4629
0
72,00 79,00 85,00 97,00

4,1

0,3410

0,0289 1,70

7,40

9,70

11,50 20,70

IQR
45,2
5
143

Tabla 2. Anlisis Descriptivo

Las medidas bsicas recomendadas son la media, rango intercuartlico y la


desviacin tpica. Se calculan desde EstadsticosResmenesResmenes
numricos, seleccionando para las variables (Imagen 2).

Imagen 1

Para el clculo de la curtosis y asimetra se cargan los paquetes abind y e1071


respectivamente, en la ventana de instrucciones del paquete Rcmdr se
ingresaron los siguientes comandos.

Curtosis:

kurtosis(airquality$Ozone, na.rm=TRUE)

Pgina 7

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Kurtosis (airquality$Solar.R, na.rm=TRUE)


Kurtosis (airquality$Temp)
kurtosis(airquality$Wind)

Asimetra:

skewness(airquality$Ozone, na.rm=TRUE)
skewness(airquality$Solar.R, na.rm=TRUE)
skewness(airquality$Temp)
skewness(airquality$Wind)

Se puede observar en la tabla 2 que las variables Ozone y Solar.R presentan la


mayor dispersin ya que cuentan con los ms elevados valores de coeficientes
de variacin CV, seguidos por Wind y Temp.
En cuanto a la forma de distribucin, el valor obtenido para el coeficiente de
curtosis las variables Ozone y Wind presentan valores positivos, la distribucin
es Leptocrtica (elevado grado de concentracin alrededor de los valores
centrales de la variable; K>0), en cambio las variables Solar.R y Temp
presentan valores negativos, la distribucin es platicrtica (reducido grado de
concentracin alrededor de los valores centrales de la variable; K<0).
El coeficiente de asimetra se refiere a si la curva es simtrica o no, a izquierda
y derecha de un valor central (media aritmtica). Se puede observar en la tabla
2 que el coeficiente de simetra de la Solar.R y Temp nos indica una distribucin
de valores asimtrica negativa, ambas variables tienen una cola asimtrica que
se alarga hacia la izquierda (Imagen 3), en cambio el Ozone y Wind son
asimtricas positivas; en las grficas observamos que la cola de distribucin de
ambas variables se alargan para valores superiores a la media, esto se hace
ms notorio para la variable Ozone (Imagen 4).

Pgina 8
Imagen . Grficas de Densidades de Solar.R y Temp.

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Imagen . Grficas de Densidades de Ozone y Wind.

Con los cuartiles se puede calcular el rango intercuartlico que representa una
medida de variacin, diferencia entre el tercer cuartil (percentil 75) y el primer
cuartil (percentil 25), siendo la ms dispersa Solar. R seguida del Ozone, Temp
y Wind. Esto se ve reflejado en los grficos de cajas de bigote, que se calculan
desde Graficas Diagrama de cajas seleccionando las variables a graficar.

Pgina 9

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Imagen 5

Imagen 6. Diagrama de Caja y Bigote de las variables Ozone y Wind.

Imagen 7.Diagrama de Caja y Bigote de las variables Temp y Solar.R.

Pgina 10

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Los grficos de cajas y bigotes nos proporcionan una visin general de la


simetra de la distribucin de los datos; si la mediana no est en el centro del
rectngulo, la distribucin es asimtrica (Solar. R, Ozone); adems son tiles
para ver la presencia de los valores atpicos que son los datos que estn
apartados del cuerpo principal, pueden representar los efectos de causas
extraas, como algn error de medicin o registro. Estos valores atpicos se
encuentran presentes en las variables Ozone y Wind (Imagen 6).

2.Correlacin entre las variables


Para determinar el grado de correlacin entre las distintas variables se procede
a realizar una matriz de correlaciones
y as ver cuales estn ms
correlacionadas y determinar la variable dependiente y las independientes.
La matriz de correlaciones se calcula desde EstadsticosResmenesMatriz
de correlacin seleccin de variables (Imagen 8)

Imagen 8

Ozone
Solar. R
Temp
Wind

Ozone
1,0000
0,3483
0,6985
-0,6125

Solar. R
0,3483
1,0000
0,2941
-0,1272

Temp
0,6985
0,2941
1,0000
-0,4972

Wind
-0,6125
-0,1272
-0,4972
1,0000

Tabla 3. Tabla de Relaciones lineales.

En la tabla 3 se observa las relaciones lineales entre las variables, siendo la de


mayor valor la de Ozone-Temp Temp-Ozone (0,6985). Para este caso se
toma como variable dependiente al Ozone. Esta relacin tambin se puede
observar en la Imagen 9, donde existe mayor linealidad entre la variable Ozone
y Temp, indicando que cualquiera podra llegar a ser variable dependiente.
Pgina 11

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Imagen 9. Grfico de la matriz de correlaciones entre las variables.

3.Modelos de regresin
Una vez fijadas las variables independientes (Solar.R, Temp, Wind) y la
dependiente (Ozone), se construye un modelo mediante los siguientes pasos
(Imagen 10).

Imagen 10

Pgina 12

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Min

1Q

Median

3Q

-40,485

-14,219

-3,551

1,097

Max
95
,619

Tabla 4. Anlisis descriptivo de Residuos.

(interce
pt)
Solar.R

Estimat
Std.
e
Error
t value
64,3421 23,0547 -2,791
0,0598

0,0232

Pr(> |t|)
0,0062**

2,58

Temp

1,6521

0,2535

6,516

Wind

-3,3336

0,6544

-5,094

0,012*
2,42E9***
1,52E6***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 5. Prueba de significacin de la constante

R^2
Modelo

0,6058

R^2
ajustada
0,5948

Error tpico
de
estimacin
21,18

p-value
residuals
< 2,2E-16

Tabla 6.Resumen del modelo.

En la tabla 5 se observa que cada variable presenta un p-valor menor a 0,05,


por lo tanto contribuyen de forma significativa a explicar lo que ocurre con la
variable dependiente.
La tabla 6 muestra los resultados del ajuste del modelo de regresin. El valor
de R^2, corresponde al coeficiente de determinacin, mide la bondad del ajuste
de la recta de regresin a la nube de puntos, el rango de valores es de 0 a 1.
Valores pequeos de R^2 indica que el modelo no se ajusta bien a los datos.
R^2 indica que el 60,58% de la variabilidad de Temp, Wind y Solar.R es
explicada por la relacin lineal con el Ozono. El valor R=0,7783 representa el
valor absoluto del coeficiente de correlacin, es decir es un valor entre 0 y 1.
Valores prximos a 1 indica una fuerte relacin entre las variables.

.1

Ajuste de diseo

Se procede al ajuste de diseo del modelo de regresin lineal utilizando el


criterio de stepwise o paso a paso para el estudio en cuestin.

Pgina 13

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Esta tcnica permite, de forma rpida y automtica, refinar un modelo con


distintos procedimientos. La idea es probar a quitar y aadir variables a un
modelo ya existente, evaluar los efectos de dichos cambios y elegir qu
variables mantener y cules omitir.
Para la evaluacin de la bondad del ajuste se utiliza el mtodo BIC (criterio de
informacin bayesiano) y la tcnica para quitar y aadir variables adelante/atrs
el cual arranca con el modelo sin variables explicativas y va aadiendo una a
una las variables hasta que se queda con el mejor ajuste.
Los pasos a seguir son (Imagen 11)

Imagen 11

Direction: forward/backward
Criterion: BIC
Start: AIC=814.81
Ozone ~ 1
Df
1
1
1

Sum of Sq
59434
45694
14780

+ Temp
+ Wind
+ Solar.R
<none>
Step: AIC=741.93
Ozone ~ Temp

RSS
62367
76108
107022
121802

Pgina 14

AIC
738.74
761.83
801.37
811.67

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

+ Wind
+ Solar.R
<none>
- Temp

Df
1
1
1

Sum of Sq
11378
2723

RSS
50989
59644
64110
125143

61033

AIC
720.08
738.27
741.93
814.81

Step: AIC=726.68
Ozone ~ Temp + Wind

+ Solar.R
<none>
- Wind
- Temp

Df
1
1
1

Sum of Sq
2986.2

RSS
48003
53973
64110
79859

10136.9
25886.0

AIC
717.79
726.68
741.93
767.41

Step: AIC=692.55
Ozone ~ Temp + Wind + Solar.R
Df
<none>
- Solar.R
- Wind
- Temp

1
1
1

Sum of Sq
2986.2
11641.6
19049.9

RSS
48003
50989
59644
67053

AIC
692.55
694.54
711.94
724.94

Call:lm(formula = Ozone ~ Temp + Wind + Solar.R, data = airquality)

Intercep

Temp

Coeficient
es
64.34208 1.65209

Wind
-3.33359

Solar.R
0.05982

Tabla7 . Tabla de Coeficientes

El criterio AIC tiene en cuenta los cambios en la bondad de ajuste y las


diferencias en el nmero de parmetros entre dos modelos. El mejor modelo es
aquel que presenta el menor valor de AIC.
El BIC es calculado para diferentes modelos como una funcin de la bondad de
ajuste del log LiK1, el nmero de parmetros ajustados (K) y el nmero total de
1 Log-likelihood (log Lik), que es el logaritmo de mxima verosimilitud, y sustraen un
trminoproporcional al nmero de parmetros (K) en el modelo.

Pgina 15

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

datos (N). El modelo con el ms bajo valor de BIC es considerado el mejor en


explicar los datos con el mnimo nmero de parmetros.
Mediante este procedimiento llegamos a la conclusin que un modelo que
incluye a todas las variables es el que mejor describe al estudio.

La ecuacin que describe el modelo es:

Ozone=64,3421+0,598Solar . R+1,6521Temp3,3336Wind
3.12

3.22
Introduccin
de
trminos
de
interaccin
entre
las
variables
explicativas en el modelo.
Para la introduccin de las interacciones entre las variables explicativas se
siguen los siguientes pasos (Imagen 12)

Imagen 12

Call:lm(formula = Ozone ~ Solar.R + Temp + Wind + (Solar.R:Temp) +


(Solar.R:Wind) + (Temp:Wind), data = airquality)
Min
-38.685

1Q
-11.727

Median
-2.169

3Q

Max

7.360

91.244

Tabla 8. Anlisis descriptivo de Residuos.

Pgina 16

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Estimate
(intercept)

-1,408e+02

Solar.R

-2,260e-01

Temp

2,322e+00

Wind

1,055e+01

Solar.R:Temp

5,061e-03

Solar.R:Wind

-7,231e-03

Temp:Wind

-1,613e-01

Std.
Error
t value
6,419e+
01
-2,193
2,107e01
-1,073
8,330e01
2,788
4,290e+
00
2,460
2,445e03
2,070
6,688e03
-1,081
5,896e02
-2,735

Pr(> |t|)
0,0305
6*
0,28591
0,006
31**
0,0155
5*
0,04089
*
0,28212
0,0073
3**

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 9. Prueba de significacin de la constante

R^2
Modelo

0,6863

R^2
Error tipico
pajustad
de
valueresid
a
estimacion
uals
0,6682
37,93
< 2,2E-16

Tabla 10.Resumen del modelo.

Se procede al ajuste de diseo del modelo de regresin lineal utilizando el


criterio de stepwise o paso a paso para el estudio en cuestin.
Direction: forward/backward
Criterion: BIC

Start: AIC=814.81
Ozone ~ 1
DfSum of Sq
+ Temp
1
59434
+ Wind
1
45694
+ Solar.R
1
14780
<none>

RSS
62367
76108
107022
121802

AIC
738.74
761.83
801.37
811.67

RSS
50989
59644
64110

AIC
720.08
738.27
741.93

Step: AIC=741.93
Ozone ~ Temp

+ Wind
+ Solar.R
<none>

Df
1
1

Sum of Sq
11378
2723

Pgina 17

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

- Temp

61033

125143

814.81

Step: AIC=726.68
Ozone ~ Temp + Wind

+ Temp:Wind
+ Solar.R
<none>
- Wind
- Temp

Df
1
1

Sum of Sq
6594.8
2986.2

1
1

10136.9
25886.0

RSS
44394
48003
53973
64110
79859

AIC
708.72
717.79
726.68
741.93
767.41

RSS
40776
46787
53973

AIC
703.57
714.81
726.68

Step: AIC=714.81
Ozone ~ Temp + Wind + Temp:Wind

+ Solar.R
<none>
- Temp:Wind

Df
1

Sum of Sq
3618.4

7185.6

Step: AIC=679.15
Ozone ~ Temp + Wind + Solar.R + Temp:Wind

+ Solar.R:Temp
<none>
+ Solar.R:Wind
- Solar.R
- Temp:Wind

Df
1

Sum of Sq
2141.1

1
1
1

995.7
3618.4
7227.0

RSS
38635
40776
39780
44394
48003

AIC
677.87
679.15
681.11
683.88
692.55

Step: AIC=677.87
Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R

<none>
- Temp:Solar.R
+ Solar.R:Wind
- Temp:Wind

Df

Sum of Sq

1
1
1

2141.1
429.4
4339.8

RSS
38635
40776
38205
42975

AIC
677.87
679.15
681.34
684.98

Call:lm(formula = Ozone ~ Temp + Wind + Solar.R + Temp:Wind +


Temp:Solar.R, data = airquality)

Pgina 18

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Intercep

Temp

Coeficient
es
1,37e+02

2,451

Wind

Solar.R

Temp:Win Temp:Sol
d
ar

1,115e+0 -3,53e-01 -1,86e-01 5,72e-03


1

Tabla 11. Tabla de Coeficientes

El mejor modelo con interaccin entre las variables explicativas incluye adems
de las variables independientes las interacciones entre Temp-Wind y TempSolar.R.
Min

1Q

-38.398

Median

-10.889 -2.445

3Q
7.132

Max
93.485

Tabla 12. Anlisis descriptivo de Residuos.

Estimate
(intercept)

-1,368e+02

Solar.R

-3,531e-01

Temp

2,451e+00

Wind

1,115e+01

Solar.R:Temp

5,717e-03

Temp:Wind

-1,863e-01

Std.
Error
t value
6,414e+
01
-2,133
1,750e01
-2,018
8,250e01
2,971
4,259e+
00
2,617
2,370e03
2,412
5,425e02
-3,434

Pr(> |t|)
0,035252*
0,046184*
0,00368**
0,01018*
0,01759*
0,00085***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 13. Prueba de significacin de la constante

R^2
Modelo

0,6828

R^2
Error tipico
pajustad
de
valueresid
a
estimacion
uals
0,6677
45,21
< 2,2E-16

Tabla 14.Resumen del modelo.

Pgina 19

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

La ecuacin que describe el modelo es:

Ozone=1360,353Solar . R+2,451Temp +11,15Wind0,186( TempWind ) +0,0057(TempSolar .

3.2.13 Comparacin de Modelos


Al disponer de dos modelos posibles Modelo1 y Modelo2, para explicar la
concentracin de ozono, se plantea cul ajusta mejor los datos mediante un
test (ANOVA) que contrasta si ambos modelos se comportan de forma similar o
bien difieren significativamente.
Realizando un anlisis de varianza (ANOVA) entre los modelo con interaccin y
sin interaccin (Imagen 13).

Imagen 13

Modelos a comparar
0+ 1Solar . R+ 2Temp+ 3Wind
Modelo 1:
Modelo
0+ 1Solar . R+ 2Te mp+ 3Wind + 4Solar . RTemp+ 5TempWind

Pgina 20

2:

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Model 1: Ozone ~ Solar.R + Temp + Wind


Model 2: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp +
Temp:Wind

Modelos
1
2

Res.Df
107
105

RSS
48003
38635

Sum of
Sq

Df
2

9368,1

12,73

Pr(> F)
1,122e-05***

Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 15. Tabla de Anlisis de Varianza

Evaluando la tabla 15 se observa que el modelo 2 que incluye a las


interacciones Solar.R-Temp y Temp-Wind es estadsticamente significativo
4
5
para explicar el fenmeno. Se acepta que
y
son distintos de cero, y
el mejor modelo que explica el fenmeno es el 2.
La ecuacin lineal del modelo elegido es:

Ozone=1360,353Solar . R+2,451Temp +11,15Wind0,186( TempWind ) +0,0057(TempSolar .

4.Validacin de Modelo elegido


Los supuestos de un modelo estadsticos se refieren a una serie de
condiciones que deben darse para garantizar la validez del modelo.
1. Linealidad: La ecuacin de regresin adopta una forma particular. La
variable dependiente es la suma de un conjunto de elementos: el origen
de la recta, una combinacin lineal de variables independientes y los
residuos. El incumplimiento del supuesto suele denominarse error de
especificacin. Algunos ejemplos son: omisin de variables
independientes importantes, inclusin de variables independientes
irrelevantes, no linealidad (la relacin entre las variables independientes
y la dependiente no es lineal), parmetros cambiantes (los parmetros
no permanecen constantes durante el tiempo que dura la recogida de
datos), no aditividad (el efecto de alguna variable independiente es
sensible a los niveles de alguna otra variable independiente), etc.
2. Independencia: Los residuos son independientes entre s, es decir, los
residuos constituyen una variable aleatoria (los residuos son las
diferencias entre los valores observados y los pronosticados).
3. Homocedasticidad: Para cada valor de la variable independiente(o
combinacin de valores de las variables independientes), la varianza de
los residuos es constante.

Pgina 21

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

4. Normalidad: Para cada valor de la variable independiente(o combinacin


de valores de las variables independientes), los residuos se distribuyen
normalmente con media cero.
5. No-Colinealidad: No existe relacin lineal exacta entre ninguna de las
variables independientes. El incumplimiento de este supuesto da origen
a colinealidad o multicolinealidad. La colinealidad es un problema
porque, en el caso de colinealidad perfecta no es posible estimar los
coeficientes de la ecuacin de regresin; y en el caso de colinealidad
parcial, aumenta el tamao de los residuos tipificados y esto produce
coeficientes de regresin muy inestables.
La independencia, homocedasticidad y normalidad, estn estrechamente
asociados al comportamiento de los residuos, por tanto, un anlisis
cuidadoso de los residuos puede informarnos sobre el cumplimiento de
los mismos.
4.1

Anlisis de los residuos

4.1.1 Linealidad
Para comprobar la linealidad se procede a realizar el test de Reset de no
linealidad siguiendo estos pasos: Modelos DiagnsticosnumricosTest
RESET de no linealidad (Imagen 14)

RESET test
data: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
RESET = 5.824, df1 = 3, df2 = 102, p-value = 0.001029
Como el p-valor es menor a 0.05, se concluye que el modelo lineal no ajusta
adecuadamente.
Tambin
puede
obtenerse
informacin sobre la linealidad a
partir de una inspeccin del
diagrama de dispersin (Imagen 9).
4.1.2 Independencia
Uno de los supuestos bsicos de
los modelos de regresin lineal es Imagen
el de 14
independencia entre los residuos. El
estadstico de Durbin-Watson proporciona informacin sobre el grado de
independencia existente entre ellos.
El estadstico oscila entre cero y cuatro y toma el valor 2 cuando los residuos
son independientes. Los valores menores que 2 indican autocorrelacin
Pgina 22

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

positiva, y los mayores que 2 autocorrelacin negativa. Podemos asumir


independencia entre los residuos cuando toma valores entre 1,5 y 2,5.
Para el clculo de Durbin-Watson se procede de la siguiente manera:
ModelosDiagnsticos Numricos
autocorrelacin (Imagen 15).

Test

de

Durbin-Watson

para

Imagen 15

Durbin-Watson test
data: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
DW = 1.9438, p-value = 0.6657
Puesto que el valor DW= 1,9438 se encuentra entre 1,5 y 2,5, podemos asumir
que los residuos son independientes.
4.1.3 Homocedasticidad
Se dispone de una serie de grficos que permite obtener informacin sobre el
grado de cumplimiento de los supuestos de homocedasticidad.
Para obtener los grficos se procede de la siguiente manera Modelos
GrficasGrficas bsicas de diagnstico (Imagen 16).

Pgina 23
Imagen 16

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Imagen 17. Grficas Bsicas de Diagnstico del Modelo 2.

En el grfico de dispersin (Residuos vs valores ajustados) que se muestra en


la Imagen 17, los residuos deberan formar una nube de puntos sin estructura y
con aproximadamente la misma variabilidad para todas las zonas alrededor del
valor cero del residuo; esto no se cumple, podemos ver que la variabilidad
crece a medida que los valores ajustados crecen y se tendra duda acerca de la
homocedastidad del modelo.
El p-valor del test de Breusch-Pagan (Imagen 18) es menor a 0.05, lo que
confirma la Heterocedasticidad:
Breusch-Pagan test
data: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
BP = 23.4355, df = 1, p-value = 1.292e-06

Pgina 24

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Imagen 18

4.1.4 Normalidad
En cuanto a la grfica Normal Q-Q de residuos estandarizados vs cuartiles
tericos (Imagen 19), se observa que existen valores anmalos en los
extremos de la grfica, la mayora de los valores estandarizados se encuentran
entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo
propuesto.

Imagen 19

Pgina 25

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

4.1.5 No colinealidad
Para el estudio de la colinealidad se sigue los siguientes pasos: Modelos
Diagnsticos numricos Factores de inflacin de varianza (Imagen 20).

Imagen 20

En la ventana de resultados se obtiene:


Solar.R
76.06339

Temp
18.48100

Wind
68.63490

Solar.R:Temp
92.31022

Temp:Wind
53.36437

Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este
modelo todos los valores superan dicha cantidad y por lo tanto, hay
colinealidad.

Pgina 26

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Conclusin
El anlisis de regresin lineal mltiple es un mtodo estadstico empleado en
muchas reas del conocimiento. En este estudio, dicho anlisis se aplic a los
datos de concentracin de ozono, velocidad media del viento, temperatura
diaria mxima y radiacin solar, monitoreadas en la ciudad de New York. El
periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo
fue evaluar si existe correlacin entre la variable dependiente (concentracin de
ozono) y las independientes (velocidad media del viento, temperatura diaria
mxima y radiacin solar).
El fenmeno se ajust a un modelo de Regresin lineal mltiple (Modelo 2) que
incluye adems de todas las variables independientes la interaccin entre
Solar.R-Temp y Temp-Wind.
Con el anlisis tambin se observa que la variable con mayor efecto sobre la
concentracin de ozono es la interaccin Temp-Wind con un nivel de
significancia de 0,00085 seguido de la Temp con 0,00368 seguido del Wind,
Solar.R-Temp y Solar.R.
Este modelo no cumple con la mayor parte de los supuestos estadsticos para
un modelo de regresin lineal, por ende no se puede garantizar la validez del
mismo.
Respecto al comportamiento del modelo:

Presenta mayor correlacin entre las variables en comparacin con el


Modelo 1, confirmando que la inclusin de las interacciones al modelo
aumenta el grado de asociacin lineal (R^2).
No presenta linealidad.
Los residuos se distribuyen normalmente pero existen observaciones
atpicas.
Los residuos no son homocedsticos (la varianza de los residuos no es
constante).
Los residuos son independientes.
Existe colinealidad.

Evidentemente se podra cambiar el modelo propuesto y ensayar un modelo no


lineal y as elaborar una ecuacin ms precisa para dicho estudio.

Pgina 27

Universidad Nacional de Misiones


Facultad de Ciencias Exactas Qumicas y Naturales

Bibliografa

Piris da Motta R.; 2011. Apunte de clase Anlisis de Varianza.


http://www.wmcac.org/airquality/factors.html
http://prezi.com/xf9tunzpqn1d/regresion-lineal-simple-v20/
Walpole R., Myers R., Myers S.; 1999. Probabilidad y Estadstica para

Ingenieros. 6ta. Ed. Prentice-Hall.


http://www.scielo.org.mx/scielo.php?

pid=S018629792010000100005&script=sci_arttext
http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/Regre

sion_lineal_con_R_Commander.pdf
http://uce.uniovi.es/CURSOICE/Informese4.html

Pgina 28

You might also like