Professional Documents
Culture Documents
Trabajo Final
Estudio Estadstico sobre mediciones de
calidad diaria de aire en la ciudad de
New York ,1973.
Ao: 2015
IQ01396
IQ01368
ndice
Introduccin
Descripcin
Objetivo
Metodologa
1. Anlisis descriptivo
2. Correlacin entre variables
3. Modelo de Regresin
3.1 Ajuste de diseo
3.2 Introduccin de trminos de interaccin entre las variables
explicativas en el modelo
3.3 Comparacin de Modelos
4. Validacin de Modelo elegido
4.1 Anlisis de los residuos
4.1.1 Linealidad
4.1.2 Independencia
4.1.3 Homocedasticidad
4.1.4 Normalidad
4.1.5 No-Colinealidad
Conclusin
Bibliografa
Pgina 2
Introduccin
Cuando el ozono se sita en la capa ms baja de la atmsfera y supera ciertos
niveles, deja de ser el gas protector de la vida en el planeta para convertirse en
un peligroso contaminante.
El ozono se produce de forma natural, dando lugar a pequeas
concentraciones inocuas en el aire, a partir de emisiones procedentes de la
vegetacin, procesos de fermentacin o volcanes, y se encuentra tanto en la
tropsfera- la regin de la atmsfera ms prxima a la superficie terrestrecomo en la estratsfera, situada en las capas altas de la atmsfera, en donde
cumple su conocido papel protector contra los letales rayos ultravioleta. Sin
embargo, cuando el ozono troposfrico aumenta en mayores cantidades,
provocado por medios artificiales, se convierte en un contaminante txico. A
diferencia de otros contaminantes que son emitidos directamente por sus
fuentes, el ozono surge a partir de otros productos, principalmente xidos de
nitrgeno (NOx) y contaminantes orgnicos voltiles (COV's).
Adems de la presencia de NOx y COV's, hay otros factores que contribuyen a
la formacin de ozono a nivel del suelo, denominados factores meteorolgicos.
Se requiere altos niveles de radiacin solar para iniciar las reacciones
fotoqumicas que forman ozono. Las radiaciones estimulan los COV's y NOx a
recombinarse para formar el ozono.
Temperaturas superiores a 80 F (26,7C) tambin influyen en la formacin de
ozono. Las temperaturas ms altas aumentan la qumica de la formacin de
ozono y las emisiones de evaporacin de COV's. Cuanto mayor sea la
temperatura, se producirn altos niveles de ozono.
Bajas velocidades del viento (menores a 10 MPH) son necesarias para la
acumulacin de los precursores de la formacin de ozono (COV's y NOx) y la
posterior formacin de ozono. Velocidades del viento ms altas tienden a diluir
o dispersar las emisiones. Sin embargo, todava pueden transportar ozono
desde otros lugares.
Descripcin
El estudio citado muestra las variaciones de:
Pgina 3
Velocidad media del viento en millas por hora de 07:00 a 10:00 horas en
el aeropuerto de La Guardia.
Objetivo
-
Metodologa
Se efectuar un anlisis descriptivo de la concentracin de ozono (Ozone),
temperatura diaria mxima (Temp), radiacin solar (Solar.R) y velocidad media
del viento (Wind) que sern las variables en estudio.
La metodologa a aplicar consiste en realizar una Regresin Lineal Mltiple
para comprobar si existe asociacin entre la concentracin de ozono (variable
dependiente) y las variables explicativas: temperatura mxima diaria, radiacin
solar y velocidad media del viento. Si existiese dicha asociacin o relacin se
proceder a la bsqueda del modelo que mejor se ajuste al estudio y la
validacin del mismo. Para el procesamiento de la informacin y la evaluacin
de la relacin entre las variables se utilizar el Software R.2.12.2.
Resultados
1.Anlisis descriptivo
En la tabla 1 se muestran los datos que fueron extrados del conjunto de datos
de paquetes New York Air Quality Measurements del Programa R.2.12.2. La
misma cuenta con 153 mediciones de concentracin de ozono, velocidad
media del viento, radiacin solar, temperatura, tomadas durante 5 meses en la
ciudad de New York.
Pgina 4
Imagen
Pgina 5
Wind
Temp Month
Day
7.4
67
5
1
8
72 Universidad
5 Nacional de
2 Misiones
12.6 Facultad
74de Ciencias5Exactas Qumicas
3 y Naturales
11.5
62
5
4
14.3
56
5
5
14.9
66
5
6
8.6
65
5
7
13.8
59
5
8
20.1
61
5
9
8.6
69
5
10
6.9
74
5
11
9.7
69
5
12
9.2
66
5
13
10.9
68
5
14
13.2
58
5
15
11.5
64
5
16
12
66
5
17
18.4
57
5
18
11.5
68
5
19
9.7
62
5
20
9.7
59
5
21
16.6
73
5
22
9.7
61
5
23
12
61
5
24
16.6
57
5
25
14.9
58
5
26
8
57
5
27
12
67
5
28
14.9
81
5
29
5.7
79
5
30
7.4
76
5
31
8.6
78
6
1
9.7
74
6
2
16.1
67
6
3
9.2
84
6
4
8.6
85
6
5
14.3
79
6
6
9.7
82
6
7
6.9
87
6
8
13.8
90
6
9
11.5
87
6
10
10.9
93
6
11
9.2
92
6
12
8
82
6
13
13.8
80
6
14
11.5
79
6
15
14.9
77
6
16
20.7
72
6
17
9.2
65
6
18
11.5
73
6
19
10.3
76
6
20
Pgina
6
6.3
77
6
21
1.7
76
6
22
4.6
76
6
23
6.3
76
6
24
Temp
Media
42,129
3
185,93
15
77,882
3
Wind
9,9575
Ozone
Solar. R
SD
32,98
79
90,05
84
9,465
2
3,523
0
CV
(%)
78,30
16
48,43
63
12,15
32
35,38
04
Asimet
ra
Curto
sis
0%
25%
50%
75%
13
100
%
168,0
1,2099 1,1122 1,00 18,00 31,50 63,25
0
115,7 205,0 258,7 334,0
-0,4193 1,0040 7,00
5
0
5
0
56,0
-0,3705 0,4629
0
72,00 79,00 85,00 97,00
4,1
0,3410
0,0289 1,70
7,40
9,70
11,50 20,70
IQR
45,2
5
143
Imagen 1
Curtosis:
kurtosis(airquality$Ozone, na.rm=TRUE)
Pgina 7
Asimetra:
skewness(airquality$Ozone, na.rm=TRUE)
skewness(airquality$Solar.R, na.rm=TRUE)
skewness(airquality$Temp)
skewness(airquality$Wind)
Pgina 8
Imagen . Grficas de Densidades de Solar.R y Temp.
Con los cuartiles se puede calcular el rango intercuartlico que representa una
medida de variacin, diferencia entre el tercer cuartil (percentil 75) y el primer
cuartil (percentil 25), siendo la ms dispersa Solar. R seguida del Ozone, Temp
y Wind. Esto se ve reflejado en los grficos de cajas de bigote, que se calculan
desde Graficas Diagrama de cajas seleccionando las variables a graficar.
Pgina 9
Imagen 5
Pgina 10
Imagen 8
Ozone
Solar. R
Temp
Wind
Ozone
1,0000
0,3483
0,6985
-0,6125
Solar. R
0,3483
1,0000
0,2941
-0,1272
Temp
0,6985
0,2941
1,0000
-0,4972
Wind
-0,6125
-0,1272
-0,4972
1,0000
3.Modelos de regresin
Una vez fijadas las variables independientes (Solar.R, Temp, Wind) y la
dependiente (Ozone), se construye un modelo mediante los siguientes pasos
(Imagen 10).
Imagen 10
Pgina 12
Min
1Q
Median
3Q
-40,485
-14,219
-3,551
1,097
Max
95
,619
(interce
pt)
Solar.R
Estimat
Std.
e
Error
t value
64,3421 23,0547 -2,791
0,0598
0,0232
Pr(> |t|)
0,0062**
2,58
Temp
1,6521
0,2535
6,516
Wind
-3,3336
0,6544
-5,094
0,012*
2,42E9***
1,52E6***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 5. Prueba de significacin de la constante
R^2
Modelo
0,6058
R^2
ajustada
0,5948
Error tpico
de
estimacin
21,18
p-value
residuals
< 2,2E-16
.1
Ajuste de diseo
Pgina 13
Imagen 11
Direction: forward/backward
Criterion: BIC
Start: AIC=814.81
Ozone ~ 1
Df
1
1
1
Sum of Sq
59434
45694
14780
+ Temp
+ Wind
+ Solar.R
<none>
Step: AIC=741.93
Ozone ~ Temp
RSS
62367
76108
107022
121802
Pgina 14
AIC
738.74
761.83
801.37
811.67
+ Wind
+ Solar.R
<none>
- Temp
Df
1
1
1
Sum of Sq
11378
2723
RSS
50989
59644
64110
125143
61033
AIC
720.08
738.27
741.93
814.81
Step: AIC=726.68
Ozone ~ Temp + Wind
+ Solar.R
<none>
- Wind
- Temp
Df
1
1
1
Sum of Sq
2986.2
RSS
48003
53973
64110
79859
10136.9
25886.0
AIC
717.79
726.68
741.93
767.41
Step: AIC=692.55
Ozone ~ Temp + Wind + Solar.R
Df
<none>
- Solar.R
- Wind
- Temp
1
1
1
Sum of Sq
2986.2
11641.6
19049.9
RSS
48003
50989
59644
67053
AIC
692.55
694.54
711.94
724.94
Intercep
Temp
Coeficient
es
64.34208 1.65209
Wind
-3.33359
Solar.R
0.05982
Pgina 15
Ozone=64,3421+0,598Solar . R+1,6521Temp3,3336Wind
3.12
3.22
Introduccin
de
trminos
de
interaccin
entre
las
variables
explicativas en el modelo.
Para la introduccin de las interacciones entre las variables explicativas se
siguen los siguientes pasos (Imagen 12)
Imagen 12
1Q
-11.727
Median
-2.169
3Q
Max
7.360
91.244
Pgina 16
Estimate
(intercept)
-1,408e+02
Solar.R
-2,260e-01
Temp
2,322e+00
Wind
1,055e+01
Solar.R:Temp
5,061e-03
Solar.R:Wind
-7,231e-03
Temp:Wind
-1,613e-01
Std.
Error
t value
6,419e+
01
-2,193
2,107e01
-1,073
8,330e01
2,788
4,290e+
00
2,460
2,445e03
2,070
6,688e03
-1,081
5,896e02
-2,735
Pr(> |t|)
0,0305
6*
0,28591
0,006
31**
0,0155
5*
0,04089
*
0,28212
0,0073
3**
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 9. Prueba de significacin de la constante
R^2
Modelo
0,6863
R^2
Error tipico
pajustad
de
valueresid
a
estimacion
uals
0,6682
37,93
< 2,2E-16
Start: AIC=814.81
Ozone ~ 1
DfSum of Sq
+ Temp
1
59434
+ Wind
1
45694
+ Solar.R
1
14780
<none>
RSS
62367
76108
107022
121802
AIC
738.74
761.83
801.37
811.67
RSS
50989
59644
64110
AIC
720.08
738.27
741.93
Step: AIC=741.93
Ozone ~ Temp
+ Wind
+ Solar.R
<none>
Df
1
1
Sum of Sq
11378
2723
Pgina 17
- Temp
61033
125143
814.81
Step: AIC=726.68
Ozone ~ Temp + Wind
+ Temp:Wind
+ Solar.R
<none>
- Wind
- Temp
Df
1
1
Sum of Sq
6594.8
2986.2
1
1
10136.9
25886.0
RSS
44394
48003
53973
64110
79859
AIC
708.72
717.79
726.68
741.93
767.41
RSS
40776
46787
53973
AIC
703.57
714.81
726.68
Step: AIC=714.81
Ozone ~ Temp + Wind + Temp:Wind
+ Solar.R
<none>
- Temp:Wind
Df
1
Sum of Sq
3618.4
7185.6
Step: AIC=679.15
Ozone ~ Temp + Wind + Solar.R + Temp:Wind
+ Solar.R:Temp
<none>
+ Solar.R:Wind
- Solar.R
- Temp:Wind
Df
1
Sum of Sq
2141.1
1
1
1
995.7
3618.4
7227.0
RSS
38635
40776
39780
44394
48003
AIC
677.87
679.15
681.11
683.88
692.55
Step: AIC=677.87
Ozone ~ Temp + Wind + Solar.R + Temp:Wind + Temp:Solar.R
<none>
- Temp:Solar.R
+ Solar.R:Wind
- Temp:Wind
Df
Sum of Sq
1
1
1
2141.1
429.4
4339.8
RSS
38635
40776
38205
42975
AIC
677.87
679.15
681.34
684.98
Pgina 18
Intercep
Temp
Coeficient
es
1,37e+02
2,451
Wind
Solar.R
Temp:Win Temp:Sol
d
ar
El mejor modelo con interaccin entre las variables explicativas incluye adems
de las variables independientes las interacciones entre Temp-Wind y TempSolar.R.
Min
1Q
-38.398
Median
-10.889 -2.445
3Q
7.132
Max
93.485
Estimate
(intercept)
-1,368e+02
Solar.R
-3,531e-01
Temp
2,451e+00
Wind
1,115e+01
Solar.R:Temp
5,717e-03
Temp:Wind
-1,863e-01
Std.
Error
t value
6,414e+
01
-2,133
1,750e01
-2,018
8,250e01
2,971
4,259e+
00
2,617
2,370e03
2,412
5,425e02
-3,434
Pr(> |t|)
0,035252*
0,046184*
0,00368**
0,01018*
0,01759*
0,00085***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 13. Prueba de significacin de la constante
R^2
Modelo
0,6828
R^2
Error tipico
pajustad
de
valueresid
a
estimacion
uals
0,6677
45,21
< 2,2E-16
Pgina 19
Imagen 13
Modelos a comparar
0+ 1Solar . R+ 2Temp+ 3Wind
Modelo 1:
Modelo
0+ 1Solar . R+ 2Te mp+ 3Wind + 4Solar . RTemp+ 5TempWind
Pgina 20
2:
Modelos
1
2
Res.Df
107
105
RSS
48003
38635
Sum of
Sq
Df
2
9368,1
12,73
Pr(> F)
1,122e-05***
Signif.codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tabla 15. Tabla de Anlisis de Varianza
Pgina 21
4.1.1 Linealidad
Para comprobar la linealidad se procede a realizar el test de Reset de no
linealidad siguiendo estos pasos: Modelos DiagnsticosnumricosTest
RESET de no linealidad (Imagen 14)
RESET test
data: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
RESET = 5.824, df1 = 3, df2 = 102, p-value = 0.001029
Como el p-valor es menor a 0.05, se concluye que el modelo lineal no ajusta
adecuadamente.
Tambin
puede
obtenerse
informacin sobre la linealidad a
partir de una inspeccin del
diagrama de dispersin (Imagen 9).
4.1.2 Independencia
Uno de los supuestos bsicos de
los modelos de regresin lineal es Imagen
el de 14
independencia entre los residuos. El
estadstico de Durbin-Watson proporciona informacin sobre el grado de
independencia existente entre ellos.
El estadstico oscila entre cero y cuatro y toma el valor 2 cuando los residuos
son independientes. Los valores menores que 2 indican autocorrelacin
Pgina 22
Test
de
Durbin-Watson
para
Imagen 15
Durbin-Watson test
data: Ozone ~ Solar.R + Temp + Wind + Solar.R:Temp + Temp:Wind
DW = 1.9438, p-value = 0.6657
Puesto que el valor DW= 1,9438 se encuentra entre 1,5 y 2,5, podemos asumir
que los residuos son independientes.
4.1.3 Homocedasticidad
Se dispone de una serie de grficos que permite obtener informacin sobre el
grado de cumplimiento de los supuestos de homocedasticidad.
Para obtener los grficos se procede de la siguiente manera Modelos
GrficasGrficas bsicas de diagnstico (Imagen 16).
Pgina 23
Imagen 16
Pgina 24
Imagen 18
4.1.4 Normalidad
En cuanto a la grfica Normal Q-Q de residuos estandarizados vs cuartiles
tericos (Imagen 19), se observa que existen valores anmalos en los
extremos de la grfica, la mayora de los valores estandarizados se encuentran
entre -2 y +2, por lo que se considera que cumple con la normalidad el modelo
propuesto.
Imagen 19
Pgina 25
4.1.5 No colinealidad
Para el estudio de la colinealidad se sigue los siguientes pasos: Modelos
Diagnsticos numricos Factores de inflacin de varianza (Imagen 20).
Imagen 20
Temp
18.48100
Wind
68.63490
Solar.R:Temp
92.31022
Temp:Wind
53.36437
Si alguno de los valores supera el valor 4 implica que hay colinealidad. En este
modelo todos los valores superan dicha cantidad y por lo tanto, hay
colinealidad.
Pgina 26
Conclusin
El anlisis de regresin lineal mltiple es un mtodo estadstico empleado en
muchas reas del conocimiento. En este estudio, dicho anlisis se aplic a los
datos de concentracin de ozono, velocidad media del viento, temperatura
diaria mxima y radiacin solar, monitoreadas en la ciudad de New York. El
periodo que abarco el estudio fue de mayo a septiembre de 1973. El objetivo
fue evaluar si existe correlacin entre la variable dependiente (concentracin de
ozono) y las independientes (velocidad media del viento, temperatura diaria
mxima y radiacin solar).
El fenmeno se ajust a un modelo de Regresin lineal mltiple (Modelo 2) que
incluye adems de todas las variables independientes la interaccin entre
Solar.R-Temp y Temp-Wind.
Con el anlisis tambin se observa que la variable con mayor efecto sobre la
concentracin de ozono es la interaccin Temp-Wind con un nivel de
significancia de 0,00085 seguido de la Temp con 0,00368 seguido del Wind,
Solar.R-Temp y Solar.R.
Este modelo no cumple con la mayor parte de los supuestos estadsticos para
un modelo de regresin lineal, por ende no se puede garantizar la validez del
mismo.
Respecto al comportamiento del modelo:
Pgina 27
Bibliografa
pid=S018629792010000100005&script=sci_arttext
http://ocw.bib.upct.es/pluginfile.php/5253/mod_resource/content/1/Regre
sion_lineal_con_R_Commander.pdf
http://uce.uniovi.es/CURSOICE/Informese4.html
Pgina 28