Professional Documents
Culture Documents
1. Introduccion
En muchas ciudades se ha visto la necesidad de monitorear las partculas de P M2,5 y
P M10 disueltas en el aire, pues segun estimaciones de 2012, la contaminacion atmosferica en
las ciudades y zonas rurales de todo el mundo provoca cada ano 3 millones de defunciones
prematuras; esta mortalidad se debe a la exposicion a estas pequenas partculas que pueden
causar cardiopatas, neumopatas y cancer. Por otro lado algunos estudios internacionales han
demostrado que las partculas mas finas tienen una mayor asociacion de con los indicadores
de mortalidad y morbilidad de la poblacion, pues son mas faciles de inhalar. La fraccion
P M2,5/P M10 son usadas en estudios de salud publica y en la determinacion de la efectividad
de diversas medidas para mejorar la calidad del aire. Por tal motivo vemos la necesidad
de la construir un modelo que permita estimar esta relacion o fraccion para poder predecir
concentraciones de P M2,5 de la ciudad.
1
Figura 1. Distribucion del PM 2.5 Y el PM 10
120
150
90
100
g/m3
g/m3
60
30
50
0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4
PM2.5 PM10
Vemos entonces que el Material Particulado P M10 presenta 4 puntos alejados del resto,
sin embargo tan solo dos, superan la norma de 100/mg 3 (Segun lo establecido en el Articulo
Segundo de la Resolucion 610 de 2010 del Ministerio de Ambiente que modifico la Resolucion
601 de 2006), al igual que en el caso del P M2,5 tres puntos se encuentran por encima del
tercer cuartil, de los cuales los ultimo dos superan el umbral establecido de 50/mg 3 .
Podemos apreciar entonces, de acuerdo con el cuadro Tabla1, que para este modelo el
0 y el 1 son significativos a un nivel de significancia de 5 %, por otro lado el ANOVA para
este modelo obtuvo de igual manera un valor p menor a 5 %(< 2,2e 16), por lo que el
modelo tambien es significativo para explicar el P M2,5 .Por otro lado el 1 , nos representa
que el g/m3 promedio del P M2,5 se incrementa en 0,43, en promedio, por cada g/m3
adicional de P M10 . Finalmente el R2 nos indica de que el 53 %de la variabilidad del P M2,5
es explicada por el modelo.
2
3.2. Modelo de regresion por el origen
Este caso, debido a que las observaciones parecen estar muy cerca al origen, pareciera
implicar que una recta sin intercesion se ajustara bien a los datos.
^
90 PM2.5 = 4.03 + 0.4267 P M 10, R 2 = 0.53
^
PM2.5 = 0.3419 P M 10, R 2 = 0.81
PM2.5 (g/m3)
60
30
0
50 100 150
PM10 (g/m3)
3
Tabla 3. Resumen medidas de influencia para el modelo con intercepto
i DF BET A(0,i) DF BET A(1,i) DF F IT Si COV RAT IOi D.COOKi hii
1 -5.93 * 6.88 * 6.94 * 0.54 * 14.82 * 0.30 *
2 -0.54 0.68 0.72 * 0.99 0.25 0.06 *
72 0.32 -0.26 0.33 * 0.95 * 0.05 0.02
82 -0.09 0.12 0.13 1.05 * 0.01 0.04 *
140 1.71 * -2.04 * -2.08 * 0.90 * 1.90 * 0.14 *
166 0.07 -0.10 -0.11 1.03 * 0.01 0.03
Con lo obtenido en la Tabla3, podemos ver que la observacion 1 y 140, son valores
bastante grandes que estan alterando todas las medidas del modelo, mientras que los demas
observaciones solo estan afectando precision de las estimaciones del P M2,5 .
Ahora bien para el analisis de puntos influyentes del modelo sin intercepto, a comparacion
con la Tabla4, las seis observaciones mas influyentes, siguen siendo los mismos, sin embargo
con la diferencia de que ahora la observacion 140 ya no es un punto de influencia sobre la
precision de las estimaciones y los coeficientes del modelo. Por otro lado la observacion 1
sigue teniendo la mas alta probabilidad de ser un punto atpico
De acuerdo con lo obtenido en el Cuadro Tabla6 vemos que el modelo con intercepto
tiene un M SRES (Cuadrado Medio de los Residuales) mas pequeno en comparacion con el
modelo sin intercepto, al igual que con el AIC. Por ultimo la prueba de ANOVA arrojo un
valor p de 0.00272, lo cual nos indica que el aporte de 0 si es relevante en la explicacion del
P M2,5 . En conclusion los 3 criterios nos indican que el modelo con el intercepto es mejor en
este caso para explicar la fraccion P M2,5 /P M10 .
4
Ahora, para observar la influencia que tienen dentro del modelo de regresion las obser-
vaciones 1 y 140 (los cuales tienen mayor posibilidad de ser puntos atpicos) se comparo los
resultados obtenidos en en modelo con y sin intercepto eliminado estas dos observaciones.
Inicialmente observamos que ahora el coeficiente de correlacion entre las dos variables de
interes paso de ser 0.728 a 0.606, el coeficiente de determinacion R2 es mas pequeno para
el modelo con intercepto y mas grande para el modelo con regresion por le origen, que como
ya hemos mencionado no son comparables, por tanto basandonos en los demas criterios,
encontramos que como en el M SRES y en el AIC, el modelo sin intercepto es mejor. En
cuanto a los coeficientes dle modelo, el 0 tuvo un cambio grande y dejo de ser significativo
dentro del modelo de regresion, mientras que con respecto a 1 siguen siendo parecido y
significativo en todos los casos.
5
Tabla 7. Validacion de supuestos para el modelo de regresion elegido
Supuesto Ho Prueba Estadstico Valor-P
Correcta especificiacion E() = 0 Petest -1.3051 0.1936
No correlacion en los errores Cov(j , j ) = 0 Breusch-Godfrey 7,4787 0.006243
Normalidad N ormal(0, 2 )) Shapiro-Wilk 0,9691 0,000618
2.5
2.5
Residuales estandarizados
Residuales estandarizados
0.0
0.0
2.5
2.5
10 20 30
0 50 100 150
Observacin y^
4. Conclusiones
Vemos la importancia de realizar un analisis de puntos atpicos, pues generan un cambio
drastico en las estimaciones y predicciones del modelo de regresion. Por otro lado, hay que
resaltar que en estos casos donde se detectan estos puntos, siempre se debe contar con el
acompanamiento de un experto pues este conoce las variables de estudio, su comportamiento
habitual y las maneras en que fueron medidas, esto con el fin de determinar de que manera
tratar a estos puntos. Para la validacion de suspuestos debido a que algunos no se cumplieron
no es correcto realizar estimaciones con el modelo elegido pues estas no seran confiables, al
igual que las predicciones. Tambien es importante destacar que la utilizacion de un modelo
de regresion por el origen suele ser en algunas ocasiones mejor que un modelo con intercepto
como por ejemplo lo ocurrio en este estudio.
6
Referencias
[1] Juan Aparicio, M Martinez, and Javier Morales. Modelos lineales aplicados en r. Dto.
Estadstica, Matematicas e Informatica, 2004.
[3] Douglas C Montgomery, Elizabeth A Peck, and G Geoffrey Vining. Introduction to linear
regression analysis. John Wiley & Sons, 2015.
[4] Nestor Rojas and Boris Galvis. Relacion entre pm2. 5 y pm10 en la ciudad de bogota.
Revista de Ingeniera, (22):5460, 2005.
[5] Cesar Augusto Arciniegas Suarez and Cesar Augusto. Diagnostico y control de mate-
rial particulado: partculas suspendidas totales y fraccion respirable pm10. Luna Azul,
1(34):195213, 2012.
[6] Hadley Wickham. ggplot2: elegant graphics for data analysis. Springer, 2016.