You are on page 1of 14

Análisis geoestadístico con ArcGIS parte 1.

Estadística
descriptiva
Antes de abordar en firme, el modulo de geoestadistica que viene con ArcGIS, es
necesario recordar algunos conceptos de estadística, en particular de estadística
descriptiva, que son necesarios para realizar un análisis geoestadístico con el software.

La estadística descriptiva, se dedica a los métodos de recolección, descripción,
visualización y resumen de datos originados a partir de los fenómenos de estudio. Para
analizar los datos usualmente se construyen las tablas de frecuencias y se utilizan: la
media, mediana, moda, desviación estándar, la varianza, coeficiente de curtosis,
coeficiente de sesgo, coeficiente de variación, cuartiles, deciles y percentiles. Estos
parámetros se agrupan en varias categorías conocidas como medidas de tendencia
central, medidas de dispersión y medidas de forma.

Tablas de Frecuencias
Una forma de presentar ordenadamente un grupo de observaciones, es a través de
tablas de distribución de frecuencias. Para construir una tabla de frecuencia se deben
ordenar los datos de menor a mayor e incluir los siguientes parámetros.

Es el número de datos que están
Frecuencia Absoluta (ni)
en un mismo intervalo.

Es la frecuencia absoluta dividida
Frecuencia Relativa (fi)
por el número total de datos.

Es la suma de las frecuencias
absolutas de todos los valores
Frecuencia Absoluta inferiores o iguales al valor
Acumulada (Ni) considerado. La última frecuencia
absoluta acumulada es igual al
número de casos.

Es el resultado de dividir cada
Frecuencia Relativa
frecuencia absoluta acumulada
Acumulada (Fi)
por el número total de datos.

Indica el número de intervalos en
Numero de clases
que se agruparan los datos.

 La curva normal es asintótica al eje de abscisas. Se obtiene al dividir por dos.  Es simétrica con respecto a su media. cuando la representación gráfica de su función de densidad es una curva positiva continua. . y que tiene 2 puntos de inflexión situados a ambos lados de la media y a distancia igual a la desviación estándar. la amplitud de los mismos y la marca de clase. Es el promedio de la suma del Marca de clase límite superior e inferior de cada intervalo o clase. de máximo en la media. y un 50% de observar un dato menor. la Amplitud de la clase o diferencia del valor máximo y intervalo mínimo de los datos.  Tiene una única moda. para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media. de la siguiente forma: Distribución normal Una distribución de probabilidad sigue una distribución normal. Según esto. que coincide con su media y su mediana. es decir de la forma: Propiedades. simétrica respecto a la media. En el caso de datos agrupados se deberán determinar el número de intervalos.

3 10 1.377.429 1.411 1. Organizar los datos de menor a mayor.364.040.342 1.357.038.040.269 1.963 2.960 2. Organizar los datos de menor a mayor Pozo X Y Nivel Pz Pozo X Y Nivel Pz (msnm) (msnm) 1 1.628 18.376.348.048.336.341.720 1.368. Cuanto mayor sea la desviación estándar.733 1.040.035.044.039.604 1.214 1.931 16.62 17 1.740 1.039.368.454 2.903 9.034.044.370.212 3.368.  El coeficiente de sesgo es igual a cero (0).035 1.135 1.039.360.377.765 1.1 3 1.5 47 1.500 3.224 1. esto lo veremos más adelante en el análisis exploratorio de los datos.371.838 1.14 21 1.636 12.360 1.8 16 1.7 41 1.360. Realizar el histograma de frecuencias.348.2 30 1.3 15 1.908 3.041.8 42 1.042.040.356.777 2. Para ello se seguirán los siguientes pasos.036.039.62 48 1.301 8. Para la aplicación de los métodos geoestadísticos es necesario verificar la función de probabilidad del conjunto de datos se aproximen a un comportamiento normal.360.376.545 1.371.044.042.045 1.2 14 1.041.  La curtosis es igual a cero (0). por tanto.042. ilustraremos todo los conceptos con un ejemplo a partir de datos de monitoreo de niveles piezométricos de agua subterránea que se presentan en la tabla siguiente.119 3. Calcular la tabla de frecuencia.935 1.371.44 32 1.356. más se dispersarán los datos en torno a la media y la curva será más plana. Paso 1.2 36 1.3 37 1.07 5 1.039.29 45 1. 2.694 1.08 6 1.337 11.397 6.030 1.66 49 1.383 1.039.643 4.466 1.97 43 1.620 2. 4.369.390 1.354.279 10.310 4.333.344.21 8 1.047.02 7 .00 2 .49 33 1.405 6.355.373.1 9 1.046.336.5 12 1.377.548 4.893 1.040.5 46 1.526 8.041.044.638 1.048. 1.070 4.744 11.044.043.470 3.8 11 1.040.35 39 1. Un valor pequeño de este parámetro indica.040.752 3.046.953 12.042.776 4.231 3.33 38 1.039.870 10. 3.368.183 10.677 8.335 1.99 35 1.044.584 2.045.369.020 1.731 1.16 20 1.637 1.355.628 1.354.374.841 1.328 24.363.434 1.256 1.371.82 13 1.392 1. Con el fin de que este sea un ejemplo práctico para abordar el análisis geoestadistico con ArcGIS.368.374.941 4.0 44 1.0 4 1.772 9.835 1.046.363.041.042.048.0 28 1.6 19 1.2 .313 1.440 2.217 1.006 12.198 2.941 14.2 31 1.042.9 34 1. una gran probabilidad de obtener datos cercanos al valor medio de la distribución.042.082 1.626 1.263 1.835 1.095 3.466 19.1 29 1.236 1.9 18 1.339.376.060 1.644 14. Calcular los parámetros geoestadístico.1 22 1.254 24.207 1.374.370.43 40 1.

6876 16.523 1.11 0.0 50 1.3476 .4326 6 42 0.6026 4 46 0.675 5.8576 20. 14. se observa que los datos están dispersos.520 1.87 5 18.3476 8.1976 29.361.356.08 0.02 1.7726 1 47 0.042.050.38 53 1.1776 .5176 12. por tanto los datos no obedecen a una distribución normal.5176 .0276 . 10.735 1.55 0. 31.32 27 1.433 5.932 1.470 5.2826 1 53 0.15 25 1. 18.1976 .052. 23 1.08 0.728 35.368. Luego la tabla de frecuencias queda como la siguiente No Intervalo Marca de frecuencia frecuencia frecuencia frecuencia clase absoluta absoluta relativa relativa acumulada acumulada 1 2.033.106 1.0276 24.13 0. Calcular la tabla de frecuencia.716 1.08 26 1. A partir de la tabla anterior se construye el histograma de frecuencias. Realizar el histograma de frecuencias.87 Paso 2.02 0. el cual nos da una idea del comportamiento de los datos.2626 7 36 0.57 24 1.79 4 14.377.55 2 6.1126 1 52 0.530 5.3676 33. Como primer acercamiento.02 0.6876 .00 Paso 3.361.045.9426 4 51 0.454 1.68 3 10.2 52 1.89 6 22.035.368.352.8576 .346. la media y la mediana son diferentes. 22.0926 29 29 0.046. 35.111 30.042.042.255 5.98 8 31.327 25. .570 1.0076 . sesgados y la moda.959 27.1776 4.10 51 1. 6.343. 27.96 7 27.564 1.

773 . 6.3476 8. En particular.1776 .410 5 18.8576 20. Calcular los parámetros geoestadístico a. En su cálculo intervienen todos los datos.4326 6 74. por lo tanto.5176 .0926 29 118. Se denota con µ o X.0076 . pues estos producen grandes modificaciones.6876 16.685 2 6.838 3 10. se ven influenciados por la variación de cualquiera de ellos. es sensible a los valores extremos.5176 12. Se le suele llamar promedio. Media.7726 1 20. Medidas de tendencia central Intentan identificar el dato más representativo de la distribución del conjunto. Son las siguientes.Paso 4. se define como la suma de los valores de todas las observaciones divididas por el número total de datos. 22. Para los datos agrupados del ejemplo.6026 4 66.6876 . No Intervalo Marca de frecuencia producto clase absoluta 1 2. 18. tenemos lo siguiente…. 10.2626 7 57.3476 .1776 4.596 4 14. 14.

9876 35 10.1496 3 2.9651 43 14.2438 52 30. En datos agrupados se calcula de la siguiente forma.4291 40 12.6896 41 12.3826 53 35.1126 1 29.8554 34 9.7990 42 12. Calcular: n/2 2.9980 44 14.0000 2 2.2078 8 2.2100 31 8.0104 Media (suma/53) 9.3317 38 11.4946 33 9.3506 39 11.6227 48 24.0054 4 2. .0632 22 4.0800 26 5.2000 30 8.4900 46 18.3776 Mediana.1630 20 4.8241 13 3.0499 50 25. 27.283 Suma 500.1156 9 3.3676 33.3280 15 3. 1.5698 24 5.3188 27 5.770 7 27.2553 10 3.1313 29 6. divide al conjunto de datos en dos partes iguales y se denota por Me.2268 14 3.113 8 31.8576 .443 Para los datos no agrupados Pozo NP Pozo NP 1 2. Es el valor de la serie de datos que deja la mitad de las observaciones por debajo de ella y la otra mitad por encima.0076 28 6.1009 51 27.2347 36 10.8004 16 3.1534 25 5.0276 .2826 1 33. tiene la ventaja de que no es sensible a los valores extremos.1976 29. es decir. 31.0188 7 2.9301 18 4.8373 11 3.5066 12 3. 6 22.2354 23 5.6244 17 3.6637 49 24.1410 21 4.2930 37 10.4449 32 8.6351 19 4. 35.1976 .0724 5 2.8690 Suma 497.0276 24. La mediana será el valor de la variable cuya frecuencia absoluta acumulada primero iguale o supere a N/2.5286 47 19.0827 6 2.2921 45 16. Este será el intervalo en el que se encuentra la mediana.468 Media (suma/53) 9. Dado que sólo depende del orden de los datos.9426 4 99.

1776].3.5.17 Para datos no agrupados. se busca este valor en la columna de la frecuencia acumulada de la tabla de frecuencia. Puede haber más de una moda en una distribución. Como el número de datos de la muestra es impar e igual a 53. el cual es: Me= 5. Fi=29 Fi-1=8 Li= 2. por lo cual el intervalo donde se encuentra la moda es (2. Para datos agrupados. tenemos lo siguiente…. la mediana es el dato que ocupa el puesto 27(divide la muestra en dos partes iguales). Si no se encuentra. tenemos lo siguiente…. Se calcula n/2 = 53/2 = 26. Aplicar la formula sustituyendo los valores correspondientes. Es el dato que más veces se repite.8690 Moda. Se denota por Mo.0076 – 6. es decir. . tomamos el valor siguiente. el cual es 29. aquel dato o rango que presenta mayor frecuencia absoluta.0076 a= 4.

.Para datos agrupados. y una desviación pequeña indica que los datos están agrupados cerca de la media. por lo tanto el intervalo donde está la moda es (2.17 d2=29-7 = 22 d1=29-0 = 29 b. se observa que la mayor frecuencia absoluta es 29. tenemos lo siguiente…. Desviación estándar. Nos dan una idea sobre la homogeneidad o que tan agrupado están los datos. Medidas de dispersión Las medidas de dispersión indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Li=2. De los datos agrupados en la tabla de frecuencia.0076 – 6.1776]. Indica cuánto tienden a alejarse los valores puntuales de la media. Se suele representar por una S. Una desviación estándar grande indica que los puntos están lejos de la media.0076 a=4.

3745 31 8.4326 6 53.0623 32 8.7049 15 3.750 3 10.3247 39 11.2 51.000 11.0276 24.8576 20.337 Suma 3143.14.1 52.0224 37 10.1208 42 12.7 32.Para datos agrupados.2 37. 10.507 4.072 1.33 36.3476 8.5391 34 9. Pozo NP (Xi-X)² Pozo NP (Xi-X)² 1 2.3169 28 6.18.7156 16 3.5176 .005 1.7726 1 128.2 51.35 36.7035 5 2.1776 4.083 1.227 8.3533 41 12.0276 .3476 .44 48.0288 8 2.1179 14 3.365 6 22.800 11.1776 .255 0.97 29.8576 .116 0.1976 29.837 2.5446 9 3.4082 2 2.43 35.3 37. No Intervalo Marca de frecuencia (Xi-X)²*fi clase (Xi) absoluta 1 2.6026 4 205.208 0.7352 36 10.8321 35 10.99 40.0076 .328 8.2826 1 568.824 5.6876 .3676 33.977 7 27.901 8 31. 6.3852 40 12.774 Para datos no agrupados….0076 54.8 31.22.9 42.930 30.5179 30 8.624 27.634 4 14.0926 29 830.052 5 18.5176 12.49 47.150 10.9401 44 14.111 2 6.6876 16.5089 29 6.4200 3 2.2952 43 14.1307 11 3.9426 4 960.2626 7 9.1126 1 386.6768 6 2.1287 7 2. tenemos lo siguiente….27.12 n-1 52 S 7.9854 13 3.3757 33 9.5326 12 3.019 0.5529 38 11.35.8303 .31.5289 17 4.7704 10 3.0 28.1976 .8829 4 2.

6668 22 4.063 215.6091 48 24.14 n-1 52 S 8.042 Varianza.080 428.V = 7.0 18.7542 23 5.38 15. Valores extremos del mismo nos llevarán a concluir que la media no es representativa. Para datos agrupados. tenemos lo siguiente….74/9.8% c.042/9. es decir. Describe la variabilidad de la distribución.3103 suma 3. C.9791 25 5.6713 19 4. C. existirán valores entre las observaciones que se separan significativamente de las demás.2209 49 24.675 Coeficiente de variación.2902 51 27.7290 50 25.163 77. tenemos lo siguiente….3240 21 4. Medidas de forma Miden el grado de deformación respecto a una curva patrón (distribución normal).29 25.774² = 60.363. Se calcula mediante la ecuación. Es la medida de la desviación o dispersión de la distribución.319 672.1833 20 4.570 262.66 22.44 Para datos no agrupados. S² = 8. 18 4.443*100 = 82% Para datos no agrupados.141 95.2 17.62 22.042² = 64.V = 8.235 220.3776*100 = 85.635 52. tenemos lo siguiente….5894 26 5.5128 47 19.5 23.9600 53 35.10 18.153 315. Para datos agrupados. tenemos lo siguiente…. Mide la representatividad de la media.8628 45 16.5 23.1873 24 5.87 12. S² = 7.8886 46 18.0883 52 30.9459 27 5. .

0166 7 2.063 46.2 2.5 570.000 130.116 0.950.319 452.732.7 1.10 334.5047 18 4.208 0. si los datos están dispersos la gráfica será achatada o aplastada.570 68.7746 15 3.7750 50 25.7389 41 12.336.153 99.800 137.086.5028 42 12.141 9.5301 51 27.62 511.512.6668 46 18.4559 33 9.309.2546 20 4.0101 52 30.824 35.635 2.8246 13 3. Nota: El valor calculado a través de la herramienta Geostatistical Analyst de ArcGIS no le resta 3 como aparece en la ecuación anterior.624 757.7663 49 24.1702 48 24.080 183.837 4.2966 9 3.654.774.5454 4 2.163 5.2604 35 10.1891 22 4.3256 28 6.757.2017 24 5.9 1. Datos concentrados respecto a la media (desviación estándar pequeña) dará una grafica alargada.0 350.1270 .0983 30 8.0076 2.742.66 493.319.5 552.0008 8 2.1808 29 6.49 2.44 2.9010 14 3.507 20.235 48.5761 3 2.1466 2 2.43 1.3382 31 8.9021 5 2.2 292.639.150 108.842.29 668.9875 32 8.5292 44 14.9469 36 10.35 1.2665 19 4.809.7699 25 5.6549 37 10.97 858.1157 40 12.0 837.6611 21 4.Coeficiente de curtosis. lo siguiente: Pozo NP (Xi-X)4 Pozo NP (Xi-X)4 1 2.328 75.8 968.7224 53 35.8115 6 2.005 3.33 1.3 1.5400 11 3.688.1 2.667.255 0.072 2.856.046.2062 43 14.4260 23 5.2 1.5935 10 3.8518 47 19.5448 12 3.019 0.8444 26 5.423.8854 45 16.1150 38 11.8409 17 4.4859 39 11. Para datos no agrupados tenemos.252.370.957.38 254.083 2.227 65. Mide el grado de aplastamiento o apuntamiento de la gráfica de la distribución de la variable estadística.99 1.5744 34 9.2 2.930 950.244.2543 16 3.

87 151.227 23.8037 36 10. en ese caso las desviaciones a la derecha y a la izquierda de la media se compensan.6761 10 3.083 -2.95 K 1. 27 5.8 -173.99 -260. la distribución es simétrica. La mayoría de las observaciones están a la derecha de la proyección de la media.208 -0.6432 13 3.2 -231.6500 12 3.6357 3 2.0462 7 2. la distribución es asimétrica negativa.3 -225.1000 16 3.1712 6 2.7 -184.4019 9 3.49 -326.9171 35 10.2017 32 8.4387 . La mayoría de las observaciones están a la izquierda de la proyección de la media.5838 4 2.4950 29 6.9 -277.4485 34 9.44 -333.25 n-1 52 S4 4182.2235 5 2.255 0.116.0258 41 12. Si CS > 0 la distribución es asimétrica positiva.2318 31 8. Si CS < 0.5428 suma 954.019 -0.3156 28 6.2 -368.800 40.000 -38.1102 11 3.0076 -400.6828 15 3.43 -210. Para datos no agrupados tenemos.1 -380.1296 14 3.0869 33 9.6104 42 12.9952 38 11.2 -369.005 -2.5323 2 2.150 -33.837 3. El coeficiente de simetría de Pearson es: Si CS = 0.38 Coeficiente de sesgo o asimetría. Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad.624 144. lo siguiente: Pozo NP (Xi-X)3 Pozo NP (Xi-X)3 1 2.7752 30 8.507 9.4909 40 12.328 25.35 -218.5600 43 14.072 -2.116 0.0049 8 2.2662 37 10.33 -220.824 14.9291 39 11.97 -158.

3776 9.9221 23 5. también se incluyen los resultados arrojados por la herramienta Geostatistical Analyst (la cual se verá más adelante).0858 20 4.6861 44 14.0136 47 19.1971 22 4.3776 Mediana 4.6396 52 30.74 8.0231 27 5.62 -107.1850 18 4.0421 8.0 -155.319 17.153 5.675 Coeficiente de 82% 85.163 678.635 382.675 64.8285 26 5. Se observa que los resultados obtenidos tanto por las ecuaciones aplicadas a datos no agrupados y los obtenidos por la herramienta Geostatistical Analyst son similares.245.063 3.5039 48 24.4709 calcula ArcGIS se le debe restar 3 Sesgo o 1.3899 24 5.6678 5.5 -116.44 64.378 Desviación 7.616.38 1.872.279.46 A continuación se muestran los resultados obtenidos a través de las ecuaciones de datos agrupados y no agrupados.5 -114.0421 estándar Varianza 60.457.7469 49 24.141 930.080 8.29 -131.869 Moda 4.930 171.38 -63.570 4.1918 suma 39.235 3.87 -43.13 Sesgo 1.869 5.576.4773 asimetría .66 -104.2 -70.10 -78.75% Variación A la curtosis que Curtosis 1.167.443 9.74 n-1 52 S3 520.46 1.0 -81.7807 25 5.7603 53 35.7581 46 18.6861 21 4.2215 51 27. Módulo Datos Datos no Geostatistica Parámetro Observaciones agrupados agrupados l analyst de ArcGIS Media 9. 17 4.5267 45 16.0534 50 25.8% 85.2620 19 4.