You are on page 1of 8

TEMA 1: ANÁLISIS ESTADÍSTICO

1. MEDIDAS DE CENTRALIZACIÓN Y DISPERSIÓN

1.1. MEDIDAS DE CENTRALIZACIÓN

Media aritmética. Es el centro de gravedad de la distribucioó n estadíóstica. La media es el


valor que resulta de compensar unos datos con otros, para conseguir que todos los datos
sean iguales. Tambieó n podríóamos decir que es el valor que resulta de repartir por igual el
total entre todos. Por ello, desde un punto de vista graó fico, la media aritmeó tica coincide
con el "punto de equilibrio" del histograma o, en su caso, del diagrama de barras de la
distribucioó n. Encontraríóamos la media en la proyeccioó n de su centro de gravedad sobre el
eje horizontal.

Mediana. Es valor que ocupa el lugar central de todos los datos cuando estos estaó n
ordenados de menor a mayor. Esta medida nos indica que la mitad de los datos se
encuentran por debajo de este valor y la otra mitad por encima del mismo. Para
determinar la posicioó n de la mediana se utiliza la foó rmula:

n +1
Me = donde n es el nuó mero de valores
2

Ejemplo: Supongamos que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la


posicioó n de la mediana seríóa:

5 +1
Me = =3
2

lo que nos indica que el valor de la mediana corresponde a la tercera posicioó n de la serie,
que equivale al nuó mero 8.

Ejemplo: Si por el contrario contamos con un conjunto de datos que contiene un nuó mero
par de observaciones, es necesario promediar los dos valores medios de la serie. Si
tenemos la serie ordenada (2, 5, 8, 10, 13 y 15) la posicioó n de la mediana seríóa:

6 +1
Me = = 3,5
2

Dado que es imposible destacar la posicioó n tres y medio, es necesario promediar los dos
valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para

el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaríóa que la mitad de los valores se
encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor.

En conclusioó n la mediana nos indica el valor que separa los datos en dos fracciones
iguales con el 50 % de los datos cada una.

1
Moda. La medida modal nos indica el valor que maó s veces se repite dentro de los datos.
Ejemplo: Si tenemos la serie ordenada (2, 2, 5 y 7), el valor que maó s veces se repite es el
nuó mero 2 quien seria la moda de los datos.
Es posible que en algunas ocasiones se presenten dos valores con la mayor frecuencia, lo
cual se denomina bimodal o en otros casos maó s de dos valores, lo que se conoce como
multimodal.

En conclusioó n, las medidas de centralizacioó n nos permiten identificar los valores maó s
representativos de los datos seguó n su tendencia a concentrarse. La Media nos indica el
promedio de los datos; es decir, nos informa el valor que obtendríóa cada uno de los
individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario
nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales
cuenta con el 50 %de los datos. Por uó ltimo la Moda nos indica el valor que maó s se repite
dentro de los datos.

1.2. MEDIDAS DE DISPERSIÓN

Para hacer un estudio de la poblacioó n no es suficiente con un paraó metro de centralizacioó n,


es necesario un paraó metro de dispersioó n que nos indique si los datos estudiados estaó n
maó s concentrados o maó s dispersos.

Coeficiente de variación. Si hemos realizado un estudio estadíóstico en dos poblaciones


diferentes, y queremos comparar resultados, no podemos acudir a la desviacioó n tíópica
para ver la mayor o menor homogeneidad de los datos, sino a otro paraó metro nuevo,
llamado coeficiente de variacioó n y que se define como el cociente entre la desviacioó n tíópica
y la media.

V=/ x

Por ejemplo, en una poblacioó n de tortugas laud estudiamos un conjunto de


animales con una media de 400 kilos y una desviacioó n tíópica de 50 kilos. Y observamos
tambieó n un conjunto de delfines con una media de 250 kilos y una desviacioó n tíópica de 10
kilos. ¿Queó grupo de animales es maó s homogeó neo?

Un razonamiento falso seríóa decir que el conjunto de delfines es maó s homogeó neo porque
su desviacioó n tíópica es maó s pequenñ a, pero si calculamos el coeficiente de variacioó n para
ambos:

Vt = 50/ 500 = 0,1 Vd = 10 / 40 = 0,25

Por tanto, es maó s homogeó neo el conjunto de las tortugas.

Desviación típica. Nos proporciona informacioó n sobre coó mo estaó n distribuidos los datos
alrededor de la media: lo alejados (dispersos) o cercanos que esteó n de la misma. La forma
de la graó fica nos permitiraó , por tanto, hacernos una idea aproximada del valor de la
desviacioó n tíópica de la distribucioó n que se representa.
Loó gicamente si los datos estaó n maó s concentrados la desviacioó n tíópica seraó menor, y si los
datos estaó n maó s dispersos la desviacioó n tíópica seraó mayor.

2
Ejemplo : Un zooó logo obtuvo la siguiente tabla sobre la edad de
reproduccioó n de 50 cocodrilos en el ríó o Nilo:
Calcular la desviacioó n tíó p ica
= N

∑ x 2⋅ f i 2
Edad (años) Cocodrilos i=1
−x
n
9 1

10 4

11 9 7526
= −12 2 =1,68
50
12 16

13 11

14 8
xi fi Ni xi · fi x² i · f i
15 1
9 1 1 9 81

10 4 5 40 400

11 9 14 99 1089

12 16 30 192 2304

13 11 41 143 1859

14 8 49 112 1568

15 1 50 15 225

x = 12 50 610 7526


Varianza. Es el cuadrado de la desviacioó n tíópica: σ2
Es la media de las diferencias con la media elevadas al cuadrado.
1. Se calcula la media (el promedio de los nuó meros)

2. Ahora, por cada nuó mero se resta la media y se eleva el resultado al cuadrado (la
diferencia elevada al cuadrado).

3. Se calcula la media de esas diferencias al cuadrado.

3
Ejemplo:
Se han medido las alturas de distintos lobos (en milíómetros):600mm, 470mm, 170mm,
430mm y 300mm.

Calcula la media, la varianza y la desviacioó n tíópica.

600 + 470 +170 + 430 + 300 1970


x= = = 394
5 5
Para calcular la varianza se toma cada diferencia, se eleva al cuadrado y se hace la media:

σ2 €=(600-394)2 + (470-394)2€+ (170-394)2 + (430-394)2 + (300-394)2 / 5=

2062 + 762 + (-224)2 + 362 + (-94)2 / 5 = 108,52/5 = 21,704

Y la desviacioó n tíópica es la raíóz de la varianza, asíó que:

σ = √21,704 = 147

*Nota: ¿por queó al cuadrado?


Elevar cada diferencia al cuadrado hace que todos los nuó meros sean positivos (para evitar
que los nuó meros negativos reduzcan la varianza)

Y tambieó n hacen que las diferencias grandes se destaquen. Por ejemplo 100 2=10,000 es
mucho maó s grande que 502=2,500. Pero elevarlas al cuadrado hace que la respuesta sea
muy grande, asíó que lo deshacemos (con la raíóz cuadrada) y asíó la desviacioó n tíópica es
mucho maó s uó til.

3. BARRAS DE ERROR

Los graó ficos de barras de error, nos permiten identificar la variabilidad de la medida
empleada como funcioó n de resumen en el graó fico (ya sea la media, desviacioó n estaó ndar,
etc.). La estructura del graó fico se basa en un punto central que identifica el valor de la
media, la cual se ubica en una líónea vertical; la longitud de la líónea (barra de error) indica
un intervalo de confianza (porcentaje de los datos) o un nuó mero especificado de errores
tíópicos o inclusive un nuó mero especíófico de desviaciones tíópicas. Las barras de error
pueden extenderse en una o en ambas direcciones desde la media, asíó como emplearse
con otros elementos graó ficos tales como la barras de frecuencia.

Las barras de error en inferencia estadística


Nos dicen si lo que estudiamos (tratamientos, especies, lo que sea) es realmente diferente
entre síó. Nos permiten detectar y representar diferencias significativas. La significacioó n
nos dice la probabilidad de que las diferencias que hemos observado sean debidas al azar.

4
Si es suficientemente baja, la descartamos y concluimos que síó hay diferencias. Pero la
gran ventaja de las barras de error es que su longitud nos dice, de manera graó fica, la
cantidad de incertidumbre que hay en nuestros datos: unas barras muy grandes indican
mucho error, pero si son pequenñ as indicaraó n bajos valores de error.
Las barras de error pueden ser de dos tipos:

- Error estaó ndard (SE): es la desviacioó n tíópica partido la raíóz de n, y n es el nuó mero de
muestras o tratamientos independientes que tenemos.

- Intervalo de confianza del 95%, son barras que contienen el 95% de nuestros datos, y
si n>10, se calculan como la media maó s (o menos) 2 veces SE.

Podemos usar cualquiera de las dos, y seguó n cuaó l usemos el solapamiento entre las barras
de dos tratamientos nos diraó , de manera aproximada, la significacioó n de la diferencia entre
ellos. Por eso es muy importante, cuando usamos barras de error, que dejemos claro de
cuaó les se trata. Si usamos SE, una separacioó n entre los extremos de las barras igual a SE
indica que la significacioó n es aproximadamente del 5%, mientras que si la separacioó n es
de 2·SE, p = 0.01. En el caso de usar intervalos de confianza, basta con que las barras se
solapen una longitud igual a 0.5 SE para que podamos inferir diferencias significativas
para p < 0.5. Esto, siempre que tengamos una muestra suficientemente grande, de al
menos 10 elementos independientes.

4. TEST t-STUDENT

La prueba t-Student se utiliza para contrastar hipoó tesis sobre medias en poblaciones con
distribucioó n normal cuyo tamanñ o muestral es muy pequenñ o. Tambieó n proporciona

5
resultados aproximados para los contrastes de medias en muestras suficientemente
grandes cuando estas poblaciones no se distribuyen normalmente (aunque en este uó ltimo
caso es preferible realizar una prueba no parameó trica).

5. CORRELACIÓN ENTRE VARIABLES


L a c o r re l a c i oó n t ra t a d e e s t a b l e c e r l a re l a c i oó n o d e p e n d e n c i a q u e ex i s te e n t re
l a s d o s va r i a b l e s q u e i n te r v i e n e n e n u n a d i s t r i b u c i oó n bi d i m e n s i o n a l , e s d e c i r,
d e te r m i n a s i l o s c a m bi o s e n u na d e l a s va r i a b l e s i n f l uye n e n l o s c a m bi o s d e l a
o t ra . E n c a s o de q u e s u c e da , di re m o s q u e l a s va r i a b l e s e s t aó n c or re l a c i o n a d a s o
q u e h ay c o r re l a c i oó n e n t re e l l a s .

Nos interesa cuantificar la intensidad de la relacioó n lineal entre dos variables. El


paraó metro que nos da tal cuantificacioó n es el coeficiente de correlación lineal de
Pearson r, cuyo valor oscila entre –1 y +1 :

∑ xy
r = (∑ x )(∑ y
2 2
)

T ip os d e corre laci ó n

1 . C o r re l a c i oó n d i re c t a

L a c o r re l a c i oó n d i re c t a s e d a c u a n d o a l a u m e n t a r u n a d e l a s va r i a b l e s l a o t ra
aumenta.

6
L a re c t a c o r re s p o n d i e n te a l a n u b e d e p u n to s d e l a d i s t r i b u c i oó n e s u n a re c t a
c re c i e n te .

2 . C o r re l a c i oó n i nve r s a

L a c or re l a c i oó n i nve r s a s e da c u a n d o a l a u m e n t a r u n a d e l a s va r i a b l e s l a o t ra
d i s m i n uye .
L a re c t a c o r re s p o n d i e n te a l a n u b e d e p u n to s d e l a d i s t r i b u c i oó n e s u n a re c t a
d e c re c i e n te .

3 . C o r re l a c i oó n n u l a

L a c or re l a c i oó n n u l a s e d a c u a n d o n o h ay d e p e n d e n c i a d e n i n g uó n t i p o e n t re l a s
va r i a b l e s.
E n e s te c a s o s e di c e q u e l a s va r i a b l e s s o n i n c o r re l a d a s y l a n u b e d e p u n to s
t i e n e u n a fo r m a re d o n d e a d a .

G ra d o d e co r re l a c i ó n
E l g ra d o d e c o r re l a c i oó n i n d i c a l a p rox i m i d a d q u e h ay e n t re l o s p u n to s d e l a
n u b e de pu n to s . S e p u e de n d a r d o s t i p o s :

1 . C o r re l a c i oó n f u e r te
L a c o r re l a c i oó n s e raó f u e r te c u a n to m aó s c e rc a e s teó n l o s p u n to s d e l a re c t a .

7
2 . C o r re l a c i oó n d eó b i l

L a c o r re l a c i oó n s e raó d eó b i l c u a n to m aó s s e p a ra d o s e s teó n l o s p u n to s d e l a re c t a .