You are on page 1of 34

Clculo y EstadsTICa. Primer Semestre.

EstadsTICa Curso Primero


Graduado en Geomtica y Topografa Escuela Tcnica Superior de Ingenieros en Topografa, Geodesia y Cartografa. Universidad Politcnica de Madrid

Captulo I

ESTADSTICA DESCRIPTIVA

Manuel Barrero Ripoll. M Luisa Casado Fuente.

M ngeles Castejn Solanas. Luis Sebastin Lorente.

Departamento de Ingeniera Topogrfica y Cartografa Universidad Politcnica de Madrid

2-I

I. ESTADSTICA DESCRIPTIVA

1.1 Conceptos generales

5 5

1.2 Tipos de variable estadstica 1.3

Distribucin de frecuencia. Sumario estadstico 6 9 10 11

1.4 Agrupacin en intervalos 1.5 Representaciones grficas

1.5.1 Representacin grfica de variables estadsticas discretas 1.5.1.1 1.5.1.2 1.5.1.3 Diagrama de barras Polgono de frecuencia Polgono de frecuencias acumuladas

1.5.2 Representacin grfica de variables estadsticas discretas con valores agrupados en intervalos 1.5.2.1 1.5.2.2 1.5.2.3 12

Histograma de frecuencias Polgono de frecuencias Polgono de frecuencias acumuladas 14

1.5.3 Representacin grfica de variables estadsticas cualitativas 1.5.3.1 Diagrama de barras 1.5.3.2 Diagrama de sectores 1.6 1.7 1.8 Los grficos en EXCEL 15 Parmetros estadsticos. Introduccin 17 Medidas de posicin y centralizacin 18 1.8.1 Moda 1.8.2 Mediana 1.8.3 Cuantiles 1.8.4 Media aritmtica. Propiedades 1.9

Clculo con EXCEL de los parmetros de posicin y tendencia central de un conjunto de datos individualizados 23
3-I

1.10

Medidas de Dispersin

25

1.10.1 Rango de la variable estadstica 1.10.2 Rango intercuartlico 1.10.3 Varianza y desviacin tpica. Propiedades 1.10.4 Cuasivarianza o Varianza muestral. Propiedades 1.10.5 Coeficiente de variacin de Pearson. Propiedades 1.11 Clculo con EXCEL de los parmetros de dispersin de un conjunto de datos individualizados 1.12 Momentos 28 28

1.12.1 Relaciones entre los momentos 1.12.2 Clculo con EXCEL de los parmetros estadsticos cuando los datos estn agrupados 1.13 Medidas de forma 29 1.13.1 Coeficiente de asimetra de Pearson 1.13.2 Coeficiente de asimetra de Fisher 1.13.3 Coeficiente de apuntamiento o curtosis 1.14 Errores en las observaciones 32 1.14.1 Valores atpicos. Outliers 1.14.2 Grficos de caja. Boxplot

4-I

UNIVERSIDAD POLITCNICA DE MADRID

I. ESTADSTICA DESCRIPTIVA

1.1 Conceptos generales.


La Estadstica es la ciencia que trata de la teora y de la aplicacin de mtodos apropiados para representar, resumir y analizar datos, as como realizar inferencias o pronsticos a partir de los mismos. Por su enfoque, se puede clasificar en Estadstica Descriptiva e Inferencia Estadstica. La Estadstica Descriptiva tiene como objetivo el tratamiento numrico y grfico de los datos procedentes de un colectivo, con objeto de describir o resaltar algunas de las propiedades de dicho colectivo. El objetivo de la Inferencia Estadstica es el estudio de las tcnicas que permiten la realizacin de pronsticos sobre la poblacin a partir de una muestra. Para el estudio de la estadstica descriptiva, comenzamos abordando los siguientes conceptos: o Poblacin y Muestra. o Variable estadstica. o Frecuencias y distribuciones estadsticas. o Representaciones grficas. Poblacin y Muestra o Una poblacin estadstica es un conjunto de elementos del cual nos interesa estudiar alguna caracterstica comn. o Una muestra es un subconjunto de la poblacin estadstica. o La caracterstica comn que estudiamos de una poblacin se denomina variable estadstica. La variable estadstica presentara diversas modalidades que sern los posibles valores que puede tomar la variable. De una poblacin de marcas de coche podemos estudiar entre otras las siguientes variables estadsticas: Variable estadstica Carrocera Berlina. Modalidades Todo terreno. Familiar. Potencia en c.v. 65, 83, 92, 115, 130, Variable estadstica Combustible Gasolina 95. Modalidades Gasolina 98. Gasoil Anchura del vehculo (mm) 1670, 1725, 1810,
Tabla 1.1

1.2

Tipos de variable estadstica. Segn sea la naturaleza de los valores, la variable

estadstica puede clasificarse en dos grupos:


manuel.barrero@topografia.upm.es

Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa

5-I

Cualitativas. Cuando los valores que toma la variable no son numricos. o La carrocera de un vehculo (variable estadstica). Berlina, Todo terreno, Familiar (valores o modalidades) Cuantitativas. Cuando los valores que toma la variable son nmeros reales. o Potencia en c.v. (variable estadstica). 65, 83, 92, 115, 130, (valores o modalidades)

Las variables cuantitativas se clasifican en discretas y continuas. Una variable estadstica cuantitativa es discreta si sus posibles valores pertenecen a un conjunto numerable. El caso ms frecuente es aqul en que los posibles valores son nmeros naturales; por ejemplo, el nmero de asientos de un coche es una variable estadstica discreta. Una variable estadstica cuantitativa es continua si sus posibles valores pertenecen a un conjunto no numerable, en general valores de o de un intervalo de ; por ejemplo, la anchura del vehculo es una variable estadstica continua

1.3

Distribucin de Frecuencia. Sumario estadstico. El estudio de las

distribuciones de frecuencia tiene como objeto construir tablas verticales u horizontales que se utilizarn para una mejor presentacin e interpretacin de los datos obtenidos en la muestra. En la primera columna (fila) se escriben los valores de la variable y en la segunda el nmero de veces que se repite el valor de la variable. Se distinguen cuatro tipos de frecuencias: o o o o Frecuencia absoluta ni. Frecuencia relativa fi. Frecuencia absoluta acumulada Ni. Frecuencia relativa acumulada Fi.

Frecuencia absoluta del valor xi . Llamamos frecuencia absoluta (ni) del valor xi de una variable estadstica X, al nmero ni de veces que se repite el valor xi. xi ni La suma de todas las frecuencias absolutas, es el nmero total de elementos x1 n que componen la muestra y que representamos por n.
n1 + n 2 + ... + n k = n i = n
i =1 k

x2
. . xk

n2
. . nk n

La tabla (1.3.1) formada por los valores de la variable junto con sus respectivas frecuencias absolutas se denomina distribucin de frecuencias absolutas.
lu_seb@topografia.upm.es 6-I

Tabla 1.3.1

I. ESTADSTICA DESCRIPTIVA

La distribucin de frecuencias absolutas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es:

xi
ni

1 3

2 2

3 4

4 1

Tabla 1.3.2

La frecuencia absoluta del valor xi =3 es ni =4. Se ha obtenido cuatro veces el valor tres. Frecuencia relativa del valor xi . Llamamos frecuencia relativa (fi) del valor xi de una variable estadstica X, al cociente entre la frecuencia absoluta y el nmero n de elementos que componen la muestra. Xi fi ni fi = x1 f1 n x2 f2 La suma de todas las frecuencias relativas es igual a la unidad. . . . . k k ni xk fk fi = = f1 + ... + f k = 1 1 i =1 i =1 n
Tabla 1.3.3

La tabla (1.3.3), formada por los valores de la variable junto con sus respectivas frecuencias relativas, se denomina distribucin de frecuencias relativas. La distribucin de frecuencias relativas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es: Xi fi 1 2 0.3 0.2 3 0.4 4 0.1

Tabla 1.3.4

La frecuencia relativa del valor xi = 3 es fi = 0.4. El valor 3 aparece en la proporcin de 4/10 y, por consiguiente, el 40% de las veces. Xi x1 Ni N1 Frecuencia absoluta acumulada Ni . Lamamos frecuencia absoluta acumulada (Ni) del valor xi de una variable estadstica X, a la suma de las frecuencias absolutas de los valores inferiores o iguales a xi, por tanto,

x2
. .
xk

N2
. . Nk = n
Tabla 1.3.5

Ni = n j y se verifica Nk = n
j=1

Xi 1 2 3 4

Ni 3 5 9 10

La tabla (1.3.6) es la distribucin de frecuencias absolutas acumuladas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}. La frecuencia absoluta acumulada del valor x=3 es Ni=9. Se han obtenido nueve veces valores menores o iguales que 3.

Tabla 1.3.6

manuel.barrero@topografia.upm.es 7-I

Frecuencia relativa acumulada Fi . Llamamos frecuencia relativa acumulada (Fi) del valor xi al cociente entre la frecuencia absoluta acumulada Ni y el n total de elementos n, as pues Xi Fi N Fi = i F x1 n y se verifica F = 1 . 1
k

x2
La tabla (1.3.8) es la distribucin de frecuencias relativas acumuladas de la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}.

F2

. . xk

. . Fk = 1

Xi Fi

1 0.3

2 0.5
Tabla 1.3.8

3 0.9

4 1

Tabla 1.3.7

La proporcin de valores menores o iguales que 3 es 0.9 y, por tanto, el 90%.

Xi 1 2 3 4

ni 3 2 4 1 10

fi Ni 0.3 3 0.2 5 0.4 9 0.1 10 1


Tabla 1.3.9

Fi 0.3 0.5 0.9 1

Tambin es frecuente usar una tabla llamada sumario estadstico, en la que aparecen los valores de la variable junto con los valores de los distintos tipos de frecuencia. El sumario estadstico para la muestra {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} puede adoptar la forma de la tabla (1.3.9).

Las distribuciones y tablas anteriores se utilizan cuando se realizan pocas observaciones y, por tanto, la variable tiene pocos valores distintos; o, aunque haya un gran nmero de observaciones, existen pocos valores de la variable distintos. Cuando los distintos valores de la variable son muchos, las tablas anteriores no son eficaces ya que su comprensin es ms difcil a medida que aumenta el nmero de valores distintos de la variable. Es por ello que se debe agrupar la variable en intervalos adecuadamente elegidos, y en tal caso, se dice que la variable es continua por intervalos.

Ejemplo 1.- Los siguientes valores, proceden de un examen realizado a 80 estudiantes, y cuyo rango terico de valores es de 0 a 10.
3.6 4.9 4.5 5.5 5.4 4.3 5.0 4.6 4.6 5.3 4.5 5.0 4.8 5.1 5.9 4.6 5.1 4.9 5.3 6.0 4.6 3.9 4.9 5.0 6.1 4.8 4.3 5.0 3.8 6.0 4.9 4.5 5.1 4.9 6.3 4.9 4.6 5.1 5.3 5.8 5.0 4.7 5.5 5.7 5.9 5.1 4.8 5.6 5.7 5.8 5.8 5.3 5.2 5.2 5.2 4.4 4.6 4.3 5.2 4.6 4.5 5.2 4.8 5.0 5.1 5.0 4.9 4.9 5.2 4.2 5.6 5.8 4.3 5.4 5.3 4.6 4.8 5.3 5.1 4.0

Observamos que hay una gran cantidad de valores distintos, por ello, agrupamos los datos en intervalos como se puede observar en la tabla (1.3.10). De esta forma, la presentacin de los datos y de los grficos son ms fciles de asimilar.
lu_seb@topografia.upm.es 8-I

I. ESTADSTICA DESCRIPTIVA

Intervalo [3.5 4) [4 4.5) [4.5 5) [5 5.5)


[5.5 6) [6 6.5] Sumas

xi 3.75 4.25 4.75 5.25


5.75 6.25

ni 3 7 26 28
12 4 80

fi 3/80 7/80 26/80 28/80


12/80 4/80 1

Ni 3 10 36 64
76 80

Fi 3/80 10/80 36/80 64/80


76/80 1

Tabla 1.3.10

1.4 Agrupacin en intervalos. Para elaborar y entender este tipo de agrupaciones


necesitamos primeramente estudiar algunas nuevas definiciones y establecer algunos criterios previos.

Intervalo
[eo - e1) [e1 - e2) ... [ei-1 - ei) ... [ek-1 - ek]

xi
x1 x2 ... xi ... xk

ni
n1 n2 ... ni ... nk

Llamamos e0 < e1 < e2 < ... < e k a los extremos de los intervalos en los que agrupamos la variable estadstica. Definimos amplitud del intervalo ai como la diferencia a i = ei ei 1 . El punto medio xi de cada intervalo se denomina

centro o marca del intervalo x i =

ei + ei 1 . 2

Definimos rango o recorrido de la variable como la diferencia entre el valor mximo y el valor mnimo de la variable. Designamos por (ni) al nmero de observaciones que quedan dentro del intervalo [ ei 1 , ei ) . La agrupacin de los datos en intervalos tiene la ventaja de simplificar los clculos y el inconveniente de la prdida de informacin ya que, una vez que los valores son introducidos en un mismo intervalo, pierden su valor real y asumen como valor el valor central del intervalo. Por ello, debemos elegir los intervalos de forma que se equilibren los aspectos de simplicidad y prdida de informacin. Lo cual nos lleva a introducir algunas cuestiones subjetivas y que a continuacin exponemos.

Tabla 1.4.1

Realizacin de las agrupaciones. Para evitar la prdida de informacin es conveniente (aunque no necesario) que se verifiquen las reglas siguientes:
Los intervalos deben tener la misma amplitud. La anchura de cada intervalo se obtendr redondeando por exceso el cociente que resulte de dividir el rango de la variable entre el nmero de intervalos elegido. Aunque no existe una regla fija, recomendamos construir un nmero de intervalos prximo a

n o al nmero 1 + 3.3log10 (n) , y nunca ms de 22 intervalos.


manuel.barrero@topografia.upm.es 9-I

Para que los grficos y tablas sean ms fciles de comprender, es conveniente tomar intervalos de forma que las amplitudes sean mltiplos o submltiplos de 5 o de 10. Los intervalos deben solaparse sin ambigedad. El criterio que seguiremos ser tomar intervalos de la forma [a, b), o bien, aadimos en los extremos un decimal ms que los utilizados por los valores de la muestra. Los intervalos deben ser homogneos, es decir, no deben existir intervalos con ms del 30% ni menos del 5% del total de datos. Es importante que no existan intervalos con frecuencia cero. En el ejemplo del examen realizado a los 80 estudiantes, los valores mximo y mnimo son 6.3 y 3.6 respectivamente, as pues, el rango de la variable es: r = 6.3 3.6 = 2.7 Deseamos intervalos con amplitudes mltiplos o submltiplos de 5 y extremos de fcil lectura, para ello, si redondeamos el rango a 3 y tomamos e0=3.5 con 6 intervalos, obtenemos intervalos de amplitud 0.5. As pues, tomamos como extremo inferior del primer intervalo 3.5, y el valor 6.5 como extremo superior del ltimo intervalo (rango 3). Observen que de esta forma la amplitud de cada intervalo es 0.5, los intervalos son homogneos, no existen intervalos de frecuencia cero y las notas superiores e inferiores a 5 quedan separadas.

Intervalo [3.5 4) [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas

xi 3.75 4.25 4.75 5.25 5.75 6.25

ni 3 7 26 28 12 4 80

fi 3/80 7/80 26/80 28/80 12/80 4/80 1

Ni 3 10 36 64 76 80

Fi 3/80 10/80 36/80 64/80 76/80 1

Tabla 1.4.2

Procediendo de esta forma hemos obtenido el sumario estadstico de la tabla (1.4.2).

1.5 Representaciones grficas. Una buena representacin grfica, junto con las tablas
de frecuencias anteriormente citadas, permiten captar rpidamente las caractersticas de la muestra as como resumir y analizar los datos. De las muchas formas de representacin grfica que existen, estudiaremos algunas de las ms utilizadas y cmo se realizan con EXCEL. Segn sean los datos, las grficas se pueden clasificar en:

De Caracteres Cuantitativos. Variables estadsticas discretas.


lu_seb@topografia.upm.es 10-I

I. ESTADSTICA DESCRIPTIVA

Diagrama de barras. Polgonos de frecuencias. Polgonos de frecuencias acumuladas. Variables estadsticas discretas con frecuencias agrupadas en intervalos. Histogramas. Polgonos de frecuencias. Polgonos de frecuencias acumuladas. De Caracteres Cualitativos. Diagrama de barras. Diagrama de sectores. Pictogramas. 1.5.1 Representaciones grficas de las variables estadsticas discretas 1.5.1.1 Diagrama de barras. Para la construccin de este grfico se parte de un sistema de ejes coordenados: en el eje horizontal se representan los valores de la variable Xi y en el eje vertical los valores de las frecuencias absolutas ni (o relativas fi). Este grfico se puede realizar mediante barras horizontales o verticales (columnas). La longitud de cada una de las barras representa la frecuencia absoluta o frecuencia relativa de cada valor.
Ejemplo 2. La tabla (1.5.1) representa la puntuacin obtenida en un test de 10 preguntas realizado a 45 alumnos. Puntuacin N de alumnos 0 1 1 2 3 2 3 5 4 9 5 6 6 7 5 5 8 4 9 3 10 2

Tabla 1.5.1

En el grfico (1.5.1) representamos el diagrama de columnas (barras verticales) correspondiente al test realizado por los 45 alumnos del ejemplo 2.
Diagrama de barras de frecuencias absolutas ni

10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
Grfico 1.5.1

En caso de utilizarse para comparar muestras distintas de una misma variable, se debe tener precaucin, ya que, en este caso, debemos usar frecuencias relativas para eliminar la influencia visual que ejerce el tamao de cada una de las muestras. 1.5.1.2 Polgono de frecuencias. Su construccin se realiza representando en un sistema de ejes coordenados los puntos (x i , n i ) o (x i , f i ) , dependiendo de que se quiera representar el
polgono de frecuencias absolutas o el polgono de frecuencias relativas, unindose a continuacin dichos puntos mediante una poligonal.
manuel.barrero@topografia.upm.es 11-I

Polgono de frecuencias absolutas ni

10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10
Grfico 1.5.2

El grfico (1.5.2) representa el polgono de frecuencias absolutas de los resultados del test del ejemplo 2 de la pgina 12.

1.5.1.3 Polgono de frecuencias acumuladas. Se realiza de forma anloga al polgono de frecuencias, pero utilizando los puntos (xi, Ni) o (xi, Fi), segn se quiera representar el polgono de frecuencias absolutas acumuladas o de frecuencias relativas acumuladas. A continuacin se unen de forma escalonada los puntos representados.
La tabla (1.5.2) y el grfico (1.5.3) representan la distribucin de frecuencias absolutas acumuladas y el polgono de frecuencias absolutas acumuladas del resultado del test del ejemplo 2 de la pgina 12.

Puntuacin 0 1 2 3 4 5 6 7 8 9 10
Tabla 1.5.2

Ni 1 3 6 11 20 26 31 36 40 43 45

Polgono de frecuencias absolutas acumuladas Ni

50 40 30 20 10 0
0 1 2 3 4 5 6 Grfico 1.5.3 7 8 9 10

1.5.2 Representaciones grficas de variables estadsticas discretas con valores agrupados en intervalos 1.5.2.1 Histograma de frecuencias. Se utiliza para representar datos que han sido agrupados en intervalos. Se construye de forma anloga al diagrama de barras pero levantando para cada intervalo un rectngulo. En este grfico los rectngulos tienen que solaparse (variable agrupada en intervalos) y el rea de cada rectngulo ser proporcional a la frecuencia (ni o fi) del intervalo.
Si los intervalos son de igual amplitud, la altura hi de cada rectngulo ser igual a la frecuencia (ni o fi) ya que el rea solo depender de la altura.
12-I

UNIVERSIDAD POLITCNICA DE MADRID

I. ESTADSTICA DESCRIPTIVA

Histograma del ejemplo 1 (Notas de examen realizado por 80 estudiantes)

30 25 20 15 10 5 0 3.5 - 4 4 - 4.5 4.5 - 5 5 - 5.5 Grfico 1.5.4 5.5 - 6 6 - 6.5

Si algn intervalo es de distinta amplitud, el clculo de su altura (hi) se efectuar hallando el cociente n f h i i , donde ai hi i ai ai representa la amplitud del intervalo.

1.5.2.2 Polgono de frecuencias. En este grfico representamos los puntos medios (xi, ni) o (xi, fi) de cada intervalo y a continuacin se unen los puntos mediante una poligonal.
Polgono de frecuencias de datos agrupados en intervalos. Ejemplo 1. (Notas de examen realizado por 80 estudiantes)

30 25 20 15 10 5 0 3.25 3.75 4.25 4.75 5.25 5.75 6.25 6.75


Grfico 1.5.5

La poligonal debe comenzar y acabar cortando al eje de la variable en los puntos medios de los que seran un intervalo anterior al primero y otro posterior al ltimo (variable agrupada en intervalos). De esta forma el rea encerrada por el polgono ser n o 1, segn que utilicemos ni o fi.

1.5.2.3. Polgono de frecuencias acumuladas. Se trata de poder observar la acumulacin de frecuencias hasta un valor determinado de la variable; por ello, es muy til para calcular percentiles de una forma Polgono de frecuencias acumuladas del ejemplo 1. grfica. El grfico se (Notas de examen realizado por 80 estudiantes ) obtiene al unir mediante 90 80 80 80 una poligonal los puntos 76 70 (ei, Ni) o (ei, Fi). 64
60 50 40 30 20 10 0 3.5 0 4 3 4.5
Q1 Q3

36

10 5 5.5 6 6.5 7

Al ser un grfico de datos agrupados en intervalos, el polgono siempre empieza en (e0, 0) y acaba en (ek, n) (ek,1).

Grfico 1.5.6

manuel.barrero@topografia.upm.es

Escuela Tcnica Superior de Ingenieros en Topografa Geodesia y Cartografa

13-I

1.5.3 Representaciones grficas de variables estadsticas cualitativas. Existe una gran multitud de grficos para representar los datos de una muestra o poblacin de una variable estadstica cualitativa. Nosotros solo mostramos algunos de ellos, y para ilustrar las grficas explicadas en este epgrafe utilizaremos el siguiente ejemplo.
Ejemplo 3.- Se pregunta a un grupo de 100 hombres y 125 mujeres sobre sus preferencias de vehculos, siendo stas las modalidades siguientes: BERLINA, 4X4, DEPORTIVO y MONOVOLUMEN. Los resultados obtenidos se reflejan clasificados por sexo en la siguiente tabla: MODALIDADES BERLINA DEPORTIVO 4X4 MONOVOLUMEN HOMBRES ni fi 50 0.50 5 0.05 10 0.10 35 0.35 100 1
Tabla 1.5.3

MUJERES ni fi 75 0.6 20 0.16 5 0.04 25 0.2 125 1

Total 125 25 15 60 225

1.5.3.1 Diagramas de barras. Para las variables cualitativas se pueden emplear los diagramas de barras horizontales o en columnas. Ambos consisten en representar las frecuencias mediante rectngulos horizontales o verticales, cuyas longitudes sean iguales a la frecuencia absoluta de cada modalidad cualitativa.
Diagrama de barras. Mujeres
8 0 6 0 4 0 2 0
0
6 0 5 0 4 0 3 0 2 0 1 0 0

Diagrama de barras. Hombres

Berlina

Deportivo

4X4

Monovolumen

Berlina

Deportivo

4X4

Monovolumen

Ejemplo 3
Grfico 1.5.7

Ejemplo 3

En el caso en que se desee comparar diferentes conjuntos con diferente nmero de elementos, debemos utilizar la frecuencia relativa para evitar falsear la longitud de las barras.
Diagrama de barras. Ejemplo 3
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Be rlina De portivo 4X4 Monovolume n Hombre s Muje re s

As en el ejemplo anterior para comparar las preferencias entre los hombres y las mujeres, debemos utilizar las frecuencias relativas fi como en el grfico (1.5.8).

Grfico 1.5.8

lu_seb@topografia.upm.es 14-I

I. ESTADSTICA DESCRIPTIVA

1.5.3.2 Diagrama de sectores. La idea de este grfico es semejante a la del diagrama de rectngulos; se cambia la longitud de cada rectngulo por la amplitud en los ngulos o en el rea de los sectores en que se divide el crculo.

Diagrama de sectores Ejemplo 3 (Hombres)


Berlina

Diagrama de sectores Ejemplo 3 (Mujeres)


Deportivo 4X4 Monovolum en

35% Berlina Deportivo 4X4 Monovolum en 10% 5% 50%

20% 4%

16%

60%

Grfico 1.5.9

Es la representacin en la que el crculo aparece dividido en sectores, de forma que los ngulos, y por tanto las reas respectivas, sean proporcionales a las frecuencias.

1.5.3.3 Pictogramas. La idea de este grfico es semejante a la del diagrama de rectngulos; la variable se representa por un dibujo de tamao proporcional a la frecuencia del valor de variable. 1.5.3.3.1 Cartogramas. Son representaciones sobre mapas de la variable en estudio. Usualmente los distintos valores de la variable se representan con colores distintos o distinta intensidad; como ejemplo podemos observar el cartograma elaborado por el Instituto de Estadstica de la Comunidad de Madrid. Consejera de Economa y Consumo sobre la renta per cpita del ao 2004 en la Comunidad de Madrid.

manuel.barrero@topografia.upm.es 15-I

1.6 Los grficos en EXCEL. En el grfico (1.6.1) se representan algunos de los elementos ms importantes de un grfico de EXCEL. Una vez realizado el grfico, si pulsamos con el botn secundario del ratn en estas zonas podremos modificar el grfico.
Diagram a de barras
Ttulo

rea del grfico

Eje de valores

5 4 3 2 1 0

4 3 2 2

4
A

rea de trazado Leyenda

Lneas de divisin

1
Series de datos

Rtulos de datos Grfico 1.6.1

Para realizar con Excel los grficos anteriormente estudiados, seleccionamos primeramente los valores de la variable (modalidades) y sus frecuencias, y a continuacin seleccionamos en el men Insertar y de l, el botn De este modo aparece una pantalla como la que se muestra en la figura 1.6.1.

Figura 1.6.1

Pulsando la pestaa Aceptar, aparece el grfico en la misma hoja como el de la figura 1.6.2.
lu_seb@topografia.upm.es 16-I

I. ESTADSTICA DESCRIPTIVA

Observemos que, encima de la pestaa Diseo, aparece otra nueva una pestaa con el nombre de Herramientas de grficos y que, pulsando en ella, aparece una nueva barra (figura 1.6.3) que permite realizar cambios en el grfico.

Figura 1.6.3

Tambin podemos realizar cambios en el grfico pulsando el botn secundario del ratn; en este caso, segn la posicin del puntero se obtienen unas opciones de cambio u otras.

1.7 Parmetros Estadsticos. Introduccin


Los parmetros estadsticos son ciertos valores representativos de un conjunto de datos, en el sentido de condensar en ellos la informacin contenida en dicho conjunto. Estos parmetros estadsticos nos proporcionarn informacin acerca de la situacin, dispersin y forma de los datos. En este curso estudiamos las siguientes medidas o parmetros:

Medidas de posicin y de centralizacin. Tienen por objeto dar una idea del valor o valores de la variable, alrededor de los cuales se agrupa una cantidad de datos. Por su importancia estudiaremos los siguientes:
Moda. Media. Mediana. Cuantiles.
manuel.barrero@topografia.upm.es

17-I

Cuartiles. Deciles. Percentiles.

Medidas de dispersin. Estas medidas determinan lo agrupada o dispersa que est la poblacin y por ello nos dan una idea de la mayor o menor concentracin de los valores de la variable alrededor de cierto valor. Por su importancia estudiaremos las siguientes: Rango intercuartlico. Varianza de la poblacin y de la muestra. Desviacin tpica de la poblacin y de la muestra. Coeficiente de variacin. Momentos no centrados. Momentos centrados. Medidas de forma. Tratan de identificar ciertas diferencias en la forma de la distribucin con respecto a un modelo determinado.
Coeficientes de Asimetra. Coeficiente de Curtosis.

1.8 Medidas de posicin y centralizacin


1.8.1 Moda M0. La moda de un conjunto de datos es el valor de la variable que tiene mxima frecuencia absoluta ni, o relativa fi. Puede ser calculada tanto para variables cualitativas como para variables cuantitativas.
La moda puede no ser nica, o incluso no existir cuando todos los valores de la variable tienen la misma frecuencia.

Clculo de la moda. Si la variable no est agrupada en intervalos, se observa directamente el valor de la variable que tiene mayor frecuencia absoluta o relativa.
Hallar la moda de los conjuntos de datos A = { 1, 1, 1, 2, 2, 3, 3, 3, 3, 4 }, 1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4 } y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}. - En A la moda M0 es 3, por ser el valor ms frecuente n=4. - En B existen dos valores modales M0= 1 y 4, la frecuencia absoluta en ambos es n=4. - En C no existe moda ya que todos los valores tienen igual frecuencia. Si la variable est agrupada en intervalos, se define el intervalo modal como el intervalo que tiene mayor frecuencia, y adoptamos como moda M0 el punto medio del intervalo modal.
lu_seb@topografia.upm.es 18-I

B ={

I. ESTADSTICA DESCRIPTIVA

En la distribucin de frecuencias de las notas del test del ejemplo 1, intervalo [5 5.5) es el intervalo modal y su punto Intervalo medio x = 5.25 es el valor que adoptamos como moda. [3.5 4) [4 4.5) La moda tiene la ventaja de ser fcil su clculo, pero tiene [4.5 5) el inconveniente de que dos muestras con datos muy [5 5.5) parecidos pueden tener modas muy distintas. [5.5 6) Es importante observar que al agrupar en intervalos [6 6.5] perdemos informacin acerca del autntico valor modal. Sumas

observamos que el

xi 3.75 4.25 4.75 5.25 5.75 6.25


Tabla 1.8.1

ni 3 7 26 28 12 4 80

fi 3/80 7/80 26/80 28/80 12/80 4/80 1

1.8.2 Mediana M. Se define como el valor central de los valores de la variable una vez que stos han sido ordenados en sentido creciente. Por tanto, la mediana M es un valor de la variable tal que el 50% de los datos son inferiores y el otro 50% de los datos son superiores. Clculo de la mediana. En primer lugar ordenamos los datos de menor a mayor; n Si los datos no estn agrupados en intervalos, pueden darse dos casos, que sea entero o 2 que no lo sea.
n no es un nmero entero, la mediana M es el valor de la variable que ocupa la 2 n posicin: parte entera del nmero + 1 . 2 n es un nmero entero, la mediana se calcula hallando el valor central de los Si 2 n n valores de la variable que ocupan las posiciones: parte entera de los nmeros y +1 . 2 2

Si

En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} observamos que los datos estn ordenados y n=10, por tanto, la mediana es M=2.5 que corresponde al punto medio de los n n valores de la variable que ocupan las posiciones = 5 (x=2) y + 1 = 6 (x=3). 2 2 En el conjunto de datos B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4} observamos que el nmero de datos es impar y estn ordenados. La mediana es el valor de la variable que ocupa el lugar parte n entera de + 1 = 6 , y por tanto, la mediana es M=2. 2

Si los datos estn agrupados en intervalos, el clculo se realiza de forma semejante a como se realiza para datos no agrupados; la diferencia estriba en que, en vez de hallar el punto medio, calculamos su valor por interpolacin lineal.
manuel.barrero@topografia.upm.es 19-I

Si
Ni n/2 Ni-1 ni

n est en el intervalo [ei-1 , ei), se tiene: 2

n i ei - e i-1 = a i n h - N i-1 2

M = e i-1 + h .

ei-1

M Grfico 1.8.1

ei

La interpolacin lineal anterior puede resumirse n Ni 1 a 2 en la formula: M = ei1 + ni

Para calcular la mediana de datos agrupados en intervalos procedemos de la siguiente forma: se localiza el primer intervalo cuya frecuencia acumulada supere la mitad de las observaciones, esto es, 80/2=40; esta frecuencia acumulada est en el intervalo [5 5.5) que denominamos intervalo mediano, por ser aqul que contiene a la Intervalo xi ni Ni mediana. El valor de la mediana lo obtenemos aplicando la frmula anterior: [3.5 4) 3.75 3 3 [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas
Tabla 1.8.2

4.25 4.75 5.25 5.75 6.25

7 26 28 12 4 80

10 36 64 76 80

M = 5+

( 40 36) 0.5 = 5.07


28

La generalizacin del concepto de la mediana da lugar a nuevas medidas de posicin que llamaremos cuantiles.

1.8.3 Cuantiles. Son medidas de posicin o de orden. En general dividen en dos partes a los datos colocados en orden creciente y tambin determinan la posicin de cada uno de los datos. Los cuantiles ms usados son los cuartiles, deciles y percentiles.
Los cuartiles dividen los datos ordenados de la poblacin en cuartas partes. Existen tres cuartiles Q1, Q2 y Q3. El primer cuartil (Q1) es un valor de la poblacin tal que el 25% de los datos son menores y el 75% son mayores que l. El segundo cuartil se denomina mediana (Q2=M). En el tercer cuartil (Q3) el 75% de los datos toman valores menores y el 25% mayores. Existen 9 deciles y dividen a la poblacin en diez partes iguales. Se llama decil de orden (D ), al valor de la variable que divide a la poblacin en dos partes de tal forma que 10 del total de los datos tomen valores inferiores a D y del total de datos tomen 10 10 valores superiores, con N y 0 < < 10 .
lu_seb@topografia.upm.es 20-I

I. ESTADSTICA DESCRIPTIVA

Existen 99 percentiles y dividen a la poblacin en cien partes iguales. Se llama percentil de orden (P ) al valor de la variable que divide a la poblacin en dos partes de 100 del total de los datos tomen valores inferiores a P y tal forma que el del total 100 100 tomen valores mayores, siendo N y 0 < <100. El clculo de los cuantiles se realiza de forma anloga al clculo de la mediana. En el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los datos estn ordenados y 3 n no es 4 un nmero entero; por tanto, el tercer cuartil es Q3=3, ya que es el valor de la variable que 3 ocupa el lugar: parte entera de n + 1 . 4

El decil sexto es el valor D6=3, que corresponde al valor medio de los valores de la variable 6 6 que ocupan las posiciones n = 6 (x=3) y n + 1 = 7 (x=3). 10 10 El percentil 40 coincide con el decil 4 y es el valor medio de los valores que ocupan los 40 40 n=4 y n + 1 = 5 , as pues P40=2. lugares 100 100 En el caso de que los datos estn agrupados en intervalos, el clculo se realiza de forma semejante a como se realiza para la mediana, pero todo referido al intervalo que contenga el valor de las frecuencias n , n y n , segn sea el cuantil a calcular. 4 10 100 Por ejemplo, para el clculo del percentil 80, localizamos el intervalo donde se encuentra P80, y calculamos su valor por interpolacin lineal. Si
n

Ni 80n/100 Ni-1 h ei-1 P80


Grfico 1.8.2

n est en el intervalo [ei-1 , ei); 100

n i ei ei 1 = a i n Ni 1 h 100

P = ei 1 + h .

ei

por tanto, la interpolacin lineal anterior se puede resumir en la formula:


n Ni 1 a i 100 . P = ei1 + ni
manuel.barrero@topografia.upm.es 21-I

El clculo de algunos cuantiles del ejemplo 1 es: 1 n = 20 4

Q1

( 20 10) 0.5 = 4.69 = 4.5 +


26

Intervalo
.

xi 3.75 4.25 4.75 5.25 5.75 6.25


Tabla 1.8.3

ni 3 7 26 28 12 4 80

Ni 3 10 36 64 76 80

[3.5 4) [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas

3 n = 60 4

( 60 36) 0.5 = 5.43 Q3 = 5 + 28

( 48 36 ) 0.5 5.21 6 n = 48 D6 = 5 + 10 28 ( 76 76) 0.5 = 6 95 . n = 76 P95 = 6 + 100 4


1.8.4 Media aritmtica

X . Propiedades. Posiblemente es el parmetro estadstico ms conocido y utilizado. Se representa por X y se define como la suma de todos los valores del conjunto de datos dividida por el nmero de datos; por tanto:
X=
xi ni ni xi
k n1x1 + n 2 x 2 + ... + n k x k 1 k = n i x i = fi x i . n n i =1 i =1

1 2 3 4

3 2 4 1 10
Tabla 1.8.4

3 4 12 4 23

La media del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es X = 2.3 , ya que: X=


3 1 + 2 2 + 4 3 + 1 4 23 =2.3 = 10 10

Intervalo [3.5 4) [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas

xi 3.75 4.25 4.75 5.25 5.75 6.25


Tabla 1.8.5

ni 3 7 26 28 12 4 80

ni xi

11.25 29.75 123.5 147 69 25 405.5

El clculo de la media tambin puede realizarse en forma de tabla aadiendo una nueva columna con los valores nixi. Cuando las observaciones han sido agrupadas en intervalos, el clculo se realiza de la misma forma, pero utilizando el valor central del intervalo como valor de todas las observaciones que han sido adjudicadas a dicho intervalo.

La media del ejemplo de la tabla (1.8.5) es

X=

3 3.75 + 7 4.25 + 26 4.75 + 28 5.25 + 12 5.75 + 4 6.25 405.5 = = 5.068 80 80

lu_seb@topografia.upm.es 22-I

I. ESTADSTICA DESCRIPTIVA

Propiedades
1. Solo es aplicable para variables estadsticas cuantitativas. 2. No depende del orden en el que estn colocados los datos. 3. Es ms representativa cuanto mayor sea la concentracin de los valores alrededor suyo y ms simtrica sea la distribucin. 4. Es muy sensible a la presencia de datos extremos. 5. La media de las desviaciones a la media es cero.

1 k 1 k ni xi X = 0 ni xi X = n n i=1 i =1
6. Si se multiplican todos los valores de la variable estadstica X por una constante a, la media queda multiplicada por la constante a.

aX =

1 k 1 k = an x n i x i = aX i i n a n i =1 i =1

7. Si se suma una constante b a los n valores de la variable, la media queda aumentada en dicho valor b.

b+X =

1 k 1 1 k n b + x = bn + ( ) i ni xi = b + X i n i=1 n n i =1

1.9 Clculo con EXCEL de los parmetros de posicin y tendencia central de un conjunto de datos individualizados
A continuacin exponemos un procedimiento para calcular estos parmetros utilizando las correspondientes funciones especficas de EXCEL.

=MODA(nmero1;[nmero2];) Calcula la moda del rango de datos. =MEDIANA(nmero1;[nmero2];) Calcula la mediana del rango de datos. =CUARTIL(matriz;cuartil) Calcula el valor de uno de los cuartiles. Matriz es el rango de los datos y cuartil son los valores 1, 2, 3, para calcular Q1, Q2=M y Q3, respectivamente. =cuartil(matriz;3), calcula el tercer cuartil del rango de los datos. =PERCENTIL(matriz;k)Calcula el percentil 100k, donde k es un nmero entre 0 y 1. =percentil(matriz;0.3) calcula el P30 que coincide con D3. =PROMEDIO(nmero1;[nmero2];) Calcula la media del rango de datos.
manuel.barrero@topografia.upm.es 23-I

Como ejemplo, usaremos los conjuntos de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, B = {1, 1, 1, 1, 2, 2, 3, 4, 4, 4, 4} y C = {1, 2, 3, 4, 5, 6, 7, 8, 9}. Escribimos en sucesivas casillas las frmulas de los parmetros que deseamos calcular, por ejemplo, para el clculo del cuartil tercero; en la celda 17,B hemos escrito:=cuartil(B2:B11;3). Adems, podemos aadir unos rtulos tiles, como se muestra en el grfico 1.9.1. Notemos que algunos parmetros calculados por EXCEL no coinciden con algunas de las definiciones dadas. Por ejemplo, la moda del conjunto B nos indica slo un valor modal en vez de dos; en el conjunto C la moda es indicada con #N/A, es decir, no existe valor modal. El primer y tercer cuartil de los conjuntos de datos A y B son distintos de los que obtendramos nosotros. La diferencia es debida a que se utilizan criterios distintos. Cuando el percentil buscado es un valor exacto de la serie de datos, nosotros tomamos como valor del percentil el punto medio de los valores que ocupan los lugares n 4 y n + 1 , mientras que 4 EXCEL interpola entre dichos valores.

Figura 1.9.1

lu_seb@topografia.upm.es 24-I

I. ESTADSTICA DESCRIPTIVA

1.10 Medidas de Dispersin


Como dijimos anteriormente, la media es ms representativa cuanto mayor sea la concentracin de los valores alrededor suyo; por ello, uno de los objetivos de las medidas de dispersin es el estudio de diferentes parmetros que nos indiquen el grado de alejamiento de los datos respecto de algn parmetro central.

1.10.1 Rango o recorrido de la variable estadstica (Re). Se define como la diferencia entre el mximo y el mnimo valor de la variable. Es una medida muy sencilla de calcular, pero, poco robusta, pues solo tiene en cuenta los valores extremos.
Para los datos del conjunto A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4},

Re=xmax-xmin=4-1=3.

Para evitar la influencia en el rango de los datos con valores extremos, suele ser frecuente utilizar el rango intercuartlico.

1.10.2 Rango o recorrido intercuartlico (IQR). La diferencia entre el tercer y el primer cuartil se denomina recorrido o rango intercuartlico y se representa por IQR.
Es fcil observar que el rango intercuartlico contiene el 50% de las observaciones centrales.
IQR = Q3 Q1

Su clculo es muy sencillo, y es una medida muy robusta en el sentido de no estar influenciada por la presencia de valores extremos. Del ejemplo 1, sabemos que Q3=5.43 y Q1=4.69, por tanto, IQR=0.74.

1.10.3 Varianza (2) y desviacin tpica () poblacionales. Propiedades. Al igual que la media en las medidas de posicin, la varianza es la medida de dispersin ms utilizada. Ambas suelen formar parte de muchas definiciones y estudios estadsticos. La varianza mide la dispersin de los valores de la variable respecto de la media. Cuanto mayor sea la varianza, menos representativa es la media.
Se define la varianza poblacional, o simplemente varianza (2), de un conjunto de datos, como la media de los cuadrados de las diferencias a la media.
2 = 1 k ni xi X n i =1

Se define desviacin tpica ( ) de la poblacin, como la raz cuadrada de la varianza.

n (x
k i =1 i

n
manuel.barrero@topografia.upm.es
25-I

Calcular la varianza y la desviacin tpica de los datos {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}. Por ser la media X = 2.3 , la varianza es

3(1 2.3)2 + 2(2 2.3) 2 + 4(3 2.3) 2 + 1(4 2.3) 2 = = 1.01 10


2

y la desviacin tpica
= 1.01 = 1.005

Propiedades de la varianza
I. La varianza es siempre positiva.

II. Si se multiplican todos los valores de la variable por una constante a, la varianza queda multiplicada por la constante a2. Si y = ax entonces:
k 2 2 1 k 1 n i yi Y = a 2 n i x i X = a 2 2 x. n i =1 n i =1 Si sumamos una constante b a los valores de la variable, la varianza no cambia. Si y = b + x entonces:

2 y =

III.

2 2 2 1 k 1 k 1 k n y Y n (b x ) (b X) n i x i X = 2 = + + = i i i i x n i =1 n i =1 n i =1 IV. La varianza es la media de los cuadrados de la variable, menos el cuadrado de la media de la variable. 2 2 2 1 k 1 k 1 k 2 2 x = n i x i X = n i x i 2n i x i X + n i X = n i x i2 X n i=1 n i =1 n i =1 V. La principal ventaja de la desviacin tpica frente a la varianza es que la primera se mide en las mismas unidades que los datos.

2 y =

1.10.4 Cuasivarianza o Varianza muestral (S2). Propiedades. Se define varianza muestral o Cuasivarianza (S2) como la cantidad

S2 =

1 k ni xi X n 1 i=1

Este parmetro tiene gran importancia en inferencia estadstica, ya que se utiliza con ms frecuencia que la varianza. La raz cuadrada de la cuasivarianza se denomina desviacin tpica muestral o cuasidesviacin tpica (S).

S=
lu_seb@topografia.upm.es 26-I

ni xi X
i =1

n 1

I. ESTADSTICA DESCRIPTIVA

La cuasivarianza y desviacin tpica muestral del conjunto {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} son

3(1 2.3)2 + 2(2 2.3)2 + 4(3 2.3)2 + 1(4 2.3)2 = 1.12 y S = 1.1222 1.06 S = 9
2

Propiedades
I. Cuanto mayor sea el nmero n de datos, ms se aproximan S2 a 2 y S a .
n n . 2 y S = n 1 n 1

II. S2 =

1.10.5 Coeficiente de variacin de Pearson (CV). Propiedades. En la propiedad II de la varianza, se observa que sta es afectada por los cambios de escala y, por tanto, no es til para comparar dispersiones entre variable estadsticas con distintas unidades. Por ello, para comparar la dispersin entre muestras o poblaciones, se utiliza el coeficiente de variacin de Pearson. Se define el coeficiente de variacin de Pearson (CV) como el cociente entre la desviacin tpica y el valor absoluto de la media. Generalmente se expresa en porcentajes.
CV = 100 % .

Algunas de sus propiedades son: Es independiente de las unidades que se utilicen. Nos permite comparar la dispersin de dos distribuciones con medias o con unidades diferentes. Tiene el inconveniente de no estar definido para distribuciones con media cero. Adems, cuando la media se aproxima a cero el coeficiente de variacin tiende a infinito.

Ejemplo. Calcular los parmetros anteriores para los valores de la evaluacin de los estudiantes recogidos en el ejemplo (1) y agrupados en la tabla (1.10.5).

ntervalo [3.5 4) [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas

xi 3.75 4.25 4.75 5.25 5.75 6.25

ni 3 7 26 28 12 4 80

ni xi
11.25 29.75 123.5 147 69 25 405.5

ni xi X
5.2173 4.6924 2.6416 0.9198 5.5692 5.5814 24.6219

Para calcular la varianza debemos hallar el valor de 2 1 k 2 = n i x i X . Para ello, n 1 aadimos dos nuevas columnas, la primera para el clculo de la media y la segunda para el clculo de la suma de los cuadrados de las diferencias a la

media.

ni xi X .
1

Tabla 1.10.5

manuel.barrero@topografia.upm.es 27-I

X=
S2 =

405.5 5.0687 80
80 0.3083 0.312 79

2 =

24.6219 0.308 80

= 0.3083 0.555
CV =

S = 0.3122 0.558

0.5552 100 10.95% 5.0687

1.11 Clculo con Excel de los parmetros de dispersin de un conjunto de datos individualizados
EXCEL dispone de algunas funciones especficas para el clculo de los parmetros de dispersin:

=VARP(nmero1;[nmero2];). Calcula la varianza del conjunto de datos. =DESVESTP(nmero1;[nmero2];). Calcula la desviacin tpica del conjunto de datos. =VAR(nmero1;[nmero2];). Calcula la cuasivarianza de los datos. =DESVEST(nmero1;[nmero2];). Calcula la desviacin tpica muestral.
Como ejemplo, usaremos el conjuntos de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}. Escribimos en sucesivas casillas las frmulas de los parmetros que deseamos calcular; por ejemplo, para el clculo de la cuasivarianza en la celda (4,C) hemos escrito:
Figura 1.11.1

=VAR(A3:A12).

1.12 Momentos
Los momentos son medidas de dispersin sobre un determinado valor. En general, se define el momento de orden r respecto del valor c como

m r (c) =

1 k r ni ( xi c ) n i =1

Segn el valor que tome c, se distinguen dos casos importantes:

Si c=0, entonces los momentos de orden r se denominan momentos no centrales o respecto del origen y se denotan por 1 k m r = n i x ir n i =1
lu_seb@topografia.upm.es 28-I

I. ESTADSTICA DESCRIPTIVA

Se observa que: o El momento de orden 0 respecto del origen siempre es la unidad (m0=1).

o El momento de orden 1 respecto del origen coincide con la media m1 = X .


Si c = X , entonces los momentos de orden r se denominan momentos centrales o respecto de la media y se denotan por

r =
Es importante notar que:

1 k ni xi X n i =1

o El momento de orden 0 respecto de la media siempre es la unidad, (0=1). o El momento de orden 1 respecto de la media siempre es cero, (1=0). o El momento de orden 2 respecto de la media siempre coincide con la varianza, (2=2). 1.12.1. Relaciones entre los momentos
2=m2-m12. 3=m3-3m2m1+2m13. 4=m4-4m3m1+6m2m12-3m14.

Ejemplo. Para el conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4}, los momentos centrales y no centrales son:
m1 =

3 1 + 2 2 + 4 3 + 1 4 23 = =A. 10 10

m2 =

3 12 + 2 2 2 + 4 32 + 1 4 2 63 . = 10 10

3 13 + 2 23 + 4 33 + 1 43 191 . m3 = = 10 10

3 14 + 2 24 + 4 34 + 1 44 615 m4 = = . 10 10

63 23 10.1 2 = m2 m = = = 2 10 10 10
2 1

191 63 23 36 23 3 = m3 3m 2 m1 + 2m = 3 + 2 = 10 10 10 10 1000
3 1 2 4 4 = m 4 4m3 m1 + 6m 2 m1 3m1 =

615 191 23 63 23 23 4 + 6 3 = 1.79 10 10 10 10 10 10

1.13 Medidas de forma


Adems de la tendencia central y de la dispersin, se puede tratar de caracterizar la forma de una distribucin mediante ndices que determinen la asimetra y el apuntamiento de la distribucin.

Asimetra. Una distribucin de frecuencias es simtrica si su correspondiente grfico es simtrico respecto a un eje vertical.
manuel.barrero@topografia.upm.es
29-I

Si la distribucin es simtrica, la mediana y la media coinciden.


M=X

Si la distribucin es simtrica y unimodal, la mediana, media y moda coinciden.

M = X = Mo
Una distribucin con asimetra por la derecha o positiva, quiere decir que la grfica de frecuencias desciende ms lentamente por la derecha que por la izquierda. En este caso se verifica que

Mo M X .
Una distribucin asimtrica por la izquierda o negativa, quiere decir que la grfica de frecuencias desciende ms lentamente por la izquierda que por la derecha. En este caso se verifica que

X M Mo .
1.13.1 Coeficiente de Asimetra de Pearson. Propiedades. Se define como el cociente
As = Mide la asimetra respecto de la moda. Si As=0 es simtrica respecto de la moda. X = M 0 . Si As>0 es asimtrica a la derecha de la moda. X > M 0 . Si As<0 es asimtrica a la izquierda de la moda. X < M0 . Si la moda no es nica, no est definido. El coeficiente de asimetra de Pearson del conjunto de datos A = {1, 1, 1, 2, 2, 3, 3, 3, 3, 4} es: As = 2.3 3 = 0.696 < 0 1.005 .
X Mo .

1.13.2 Coeficiente de Asimetra de Fisher. El coeficiente de asimetra de Fisher, se define como el cociente

g1 =
lu_seb@topografia.upm.es. 30-I

n (x 1
k i =1 i

I. ESTADSTICA DESCRIPTIVA

Es un coeficiente adimensional y mide la asimetra respecto de la media. Si g1=0 la distribucin es simtrica o no sesgada. Si g1<0 la distribucin es asimtrica o sesgada a la izquierda y X Me Mo . Si g1>0 la distribucin es asimtrica o sesgada a la derecha y Mo Me X .
1.13.3 Coeficiente de apuntamiento o curtosis g2. El coeficiente de apuntamiento de Fisher

se define e interpreta como sigue:

g2 =

n (x 1
k i =1 i

3.

Si la distribucin estudiada tiene por media X y desviacin tpica muestral S, entonces: Si g2>0, la distribucin es ms apuntada que la normal N X,S .
2

( ) Si g <0, la distribucin es menos apuntada que la normal N ( X,S) .

El apuntamiento como medida de forma es relativa. Su definicin se hace por comparacin con la distribucin normal de la misma media y varianza. Es mayor cuanto mayor sea la concentracin de los valores alrededor de la media.

1.13.2. Clculo con EXCEL de los parmetros estadsticos cuando los datos estn agrupados en intervalos.
Es frecuente que no dispongamos de los datos de forma individualizada sino que se presenten agrupados en intervalos. Veamos un procedimiento para el clculo de los parmetros estadsticos usando los momentos. Para ello, empleamos el ejemplo de la evaluacin de los estudiantes, en el que los datos se han agrupado en intervalos como figura en la tabla 1.13.1.

Intervalo
[3.5 4) [4 4.5) [4.5 5) [5 5.5) [5.5 6) [6 6.5] Sumas

xi
3.75 4.25 4.75 5.25 5.75 6.25
1.13.1

ni
3 7 26 28 12 4 80

Calcularemos la media, la varianza y los momentos centrados de orden 3 y 4. Para ello, aadimos en la tabla anterior, 4 nuevas columnas, correspondientes a los valores de nixi para el clculo de la media, ni(xi X)2 para el clculo de la varianza y ni(xi X)3 y ni(xi X)4 para los momentos g1 y g2.

manuel.barrero@topografia.upm.es 31-I

EXCEL dispone de dos funciones especficas para el clculo de los parmetros de forma, pero nosotros no las utilizaremos, ya que Excel calcula los estimadores de forma para la poblacin; por ello, efectuaremos el clculo de las medidas de forma utilizando la tabla de clculos que hemos empleado para hallar los momentos.

Figura 16.1.1

1.14 Errores en las observaciones.


Uno de los objetivos principales de la Estadstica es el de obtener informaciones tiles a partir de los datos disponibles. Por ello, es muy importante que los datos que utilicemos sean fiables (no contengan errores) y, por tanto, en todo tratamiento estadstico es conveniente efectuar un proceso de depuracin y estudio de los datos.

1.14.1 Valores atpicos o Outliers. Los valores atpicos o errneos, por ser inusualmente grandes o pequeos, en general son atribuibles a una de las siguientes causas:
El valor se observa y se registra o introduce en el ordenador incorrectamente. El valor proviene de una poblacin distinta. El valor es correcto, pero representa un suceso poco comn. El problema que se nos presenta es decidir si un determinado dato, con un valor poco comn, puede ser utilizado, o por el contrario lo hemos de rechazar. La respuesta no es fcil, ya que si rechazamos datos de forma inadecuada, podemos perder informacin valiosa y, por el contrario, si los aceptamos, puede variar los resultados de forma que nuestras conclusiones sean errneas. En la actualidad existe gran multitud de procedimientos que nos facilitan el tomar una decisin sobre la depuracin de datos. Consideramos que el estudio detallado de estos procedimientos queda fuera del mbito de esta asignatura y solo haremos una breve descripcin de uno de ellos
lu_seb@topografia.upm.es 32-I

I. ESTADSTICA DESCRIPTIVA

Grficos de caja. Boxplot. Los histogramas y los polgonos de frecuencia proporcionan impresiones visuales acerca de un conjunto de datos. Las cantidades numricas, tales como la media o varianza, proporcionan informacin acerca de alguna caracterstica particular de los datos.
1.14.2

Los grficos de caja son unas representaciones grficas que describen simultneamente varias caractersticas importantes de un conjunto de datos, como son el centro, la dispersin y la asimetra, pero tambin permiten identificar observaciones que caen inusualmente lejos del grueso de los datos, los puntos atpicos, (Outliers). Para la construccin de este grfico, se calcula previamente la media X , la mediana M, los cuartiles Q1 y Q3, as como los valores LI y LS que denominaremos barreras o bigotes:

LI=max( xmin , Q1-1.5(Q3 Q1))

LS=min ( xmax , Q3+1.5(Q3 - Q1)).

Donde xmin y xmax son los valores mximo y mnimo del conjunto de datos. Una vez calculados los valores anteriores, procedemos de la siguiente forma. Dibujamos una caja cuyos lados verticales corresponden a los valores de Q1 y Q3, trazamos una lnea vertical en el valor de la mediana, y dos pequeas lneas verticales (barreras) para los valores de LI y LS. A continuacin, trazamos un segmento a cada lado de la caja hasta las barreras y por ltimo colocamos el valor de la media y de los posibles puntos atpicos. El resultado de este grfico se muestra en el grfico 1.14.1 Todo dato que est fuera del intervalo [LI , LS] ser considerado como posible dato atpico, anmalo o Outlier y corresponde a un dato que debera ser estudiado. En este grfico hemos de observar que LS es menor que algunas observaciones; estas observaciones corresponden a puntos atpicos. La media es mayor que la mediana y, por tanto, es asimtrica hacia la derecha.
1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 335 340 345 350 355 360

Grfico 1.14.1

manuel.barrero@topografia.upm.es 33-I

Ejemplo. En el conjunto de datos, 23.39, 23.45, 23.47, 23.47, 23.50, 23.50, 23.58, el valor de la mediana es M=23.47, la media 23.48, el primer cuartil Q1=23.45, el tercer cuartil Q3=23.50 y los valores de los datos mximo y mnimo son respectivamente 23.39 y 23.58.

1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 23,35 23,4 23,45 23,5 23,55 23,6

Grfico 1.14.2

Los valores de las barreras son: Q1-1.5(Q3-Q1)=23.375, por tanto LI=xmin=23.39. Q3+1.5(Q3-Q1)=23.575, por tanto LS=23.575. En consecuencia, el dato 23.58 es un valor atpico y se representa como el grfico 1.14.2.

lu_seb@topografia.upm.es 34-I

You might also like