You are on page 1of 23

Captulo 1

Estadstica Descriptiva Unidimensional


El objetivo bsico de la Estadstica es extraer la informacin contenida en un conjunto de observaciones. Resumir los datos es un procedimiento til para conseguirlo y puede hacerse mediante tablas, grcos o valores numricos. A lo largo de este tema veremos las principales tcnicas numricas y grcas que nos permiten describir una caracterstica de inters observada en una poblacin, poniendo en relieve sus rasgos ms importantes.

1.1.

Conceptos bsicos. Poblacin y variable.

El universo de objetos al cual se reere el estudio que se pretende realizar recibe el nombre de poblacin. Por ejemplo, todas las piezas terminadas en una cadena de montaje, los nacidos en un da determinado, los coches de una determinada marca, etc. Las poblaciones pueden ser nitas e innitas (p.e. poblacin de bacterias). En general, estudiar todos los individuos de una poblacin (an siendo nita) es difcil, fundamentalmente por cuestiones de tiempo y costo. Se suele entonces analizar nicamente una parte representativa de ella a la que llamamos muestra. A las caractersticas objeto de estudio en la poblacin se les llama variables, ya que pueden variar de un individuo a otro. Por ejemplo, el grosor de una pieza, peso al nacer, consumo de gasolina, partido al que va a votar un individuo, etc. Segn los valores que puedan tomar las variables, se clasican en: 3

Captulo 1. Estadstica Descriptiva Unidimensional

Cualitativas (categricas): No toman valores numricos. Por ejemplo, causa de fallo de un componente elctrico, tipo de defecto presente en un material, partido al que se va a votar. Supongamos que se distinguen tres causas de fallo para los componentes en estudio: A, B y C. Estas son entonces las modalidades de la variable ausa de fallo". Las modalidades han de ser exhaustivas e incompatibles. Eso signica en este caso que en A, B y C estn recogidas todas las posibles causas de fallo (exhaustivas), y cualquier componente ha de presentar slo una de esas causas de fallo (incompatibles). Cuantitativas (numricas): Toman valores numricos. Por ejemplo, tiempo de fallo de un componente, grosor de una pieza, altura, peso, etc. Estas a su vez se clasican en: Discretas: Toman un nmero nito o innito numerable de valores (toman valores enteros). Por ejemplo, nmero de piezas defectuosas en un lote, nmero de hijos, etc. Continuas: Pueden tomar cualquier valor dentro de uno o varios intervalos de la recta real (pueden tomar valores con decimales). Por ejemplo, altura, temperatura, tiempo de fallo, etc.

1.2.

Organizacin de los datos. Tablas de frecuencias.

Un primer resumen de la informacin contenida en un conjunto de datos observado se obtiene al organizarlos en lo que se llama una tabla de frecuencias. En sta se recogen los distintos valores (nmeros o categoras) que toma la variable junto con sus correspondientes frecuencias de aparicin. Supongamos que hemos medido una variable X (numrica) sobre un conjunto de N individuos. Llamamos xi al valor que presenta el individuo i en la variable X, con i = 1, ..., N. Si observamos entre ellos k valores distintos, diremos que X toma valores x1 , x2 , ..., xk y determinaremos la frecuencia asociada a cada uno de ellos. Para un valor xi , i = 1, ..., k, denimos las siguientes frecuencias: Frecuencia absoluta, ni : Nmero de individuos que presentan el valor xi .
k X i=1

ni = n1 + ... + nk = N

1.2. Organizacin de los datos. Tablas de frecuencias.

Frecuencia relativa, fi : Proporcin de individuos que presentan el valor xi . fi


k X i=1

ni , N

fi

= 1

Frecuencia absoluta acumulada, Ni : Nmero de individuos que presentan un valor inferior o igual a xi . Ni Nk =
i X j=1

nj = n1 + ... + ni ,

= N

Frecuencia relativa acumulada, Fi : Proporcin de individuos que presentan un valor inferior o igual a xi . Fi Fk =
i X j=1

fj = f1 + ... + fi =

Ni , N

= 1

Observad que el clculo de las frecuencias acumuladas slo tiene sentido en variables numricas. Sobre tres ejemplos vemos cmo construir la tabla de frecuencias. Ejemplo 1.1: Supongamos que unas resistencias de cierto tipo son agrupadas en paquetes de 50 unidades. Se seleccionaron 60 de esos paquetes y se cont el nmero de resistencias que no cumplan con las especicaciones, resultando los siguientes datos: Tabla 1.1. Nmero de resistencias defectuosas en cada caja de 50 unidades 2 3 0 2 5 1 Delia Montoro Cazorla. 1 3 4 3 0 6 2 1 2 2 2 0 4 3 1 2 3 3 0 2 3 8 2 3 1 4 1 4 1 3 3 7 1 5 0 6 2 0 3 1 6 1 0 2 4 3 4 2 5 3 1 1 2 3

Dpto.

de Estadstica e I.O. Universidad de Jan.

Captulo 1. Estadstica Descriptiva Unidimensional

Lo primero que observamos es que la variable X = Nmero de resistencias defectuosas en un paquete podra tomar valores 0,1,...,50, pero de entre ellos tan slo 0,...,8 presentan frecuencia no nula. Se trata de una variable cuantitativa discreta, y la tabla de frecuencias resulta: Tabla 1.2. Tabla de frecuencias xi 0 1 2 3 4 5 6 7 8 ni 7 12 13 14 6 3 3 1 1 N = 60 fi 0.1167 0.2 0.2167 0.2333 0.1 0.05 0.05 0.0167 0.0167 1 Ni 7 19 32 46 52 55 58 59 60 Fi 0.1167 0.3167 0.5334 0.7667 0.8667 0.9167 0.9667 0.9834 1

En la tabla se observa, por ejemplo, que tan slo un 11.67 % de los paquetes no presentan resistencias defectuosas, y que un elevado porcentaje de paquetes, concretamente el 86.67 %, presentan como mucho cuatro resistencias defectuosas. Ejemplo 1.2: Un artculo de la revista Transactions of the Institution of Chemical Engineers presenta datos de un experimento donde se investig el efecto de varias variables de un proceso sobre la oxidacin en fase de vapor del naftaleno. A continuacin se presenta una muestra del porcentaje de conversin de moles de naftaleno a anhdrido maleico: Tabla 1.3. Porcentaje de conversin de moles de naftaleno a anhdrido maleico 4.2 3.1 4.7 3.8 4.7 4.8 5.0 4.0 3.8 5.2 3.6 4.3 3.8 2.8 3.0 2.0 5.1 2.8 4.0 5.0

En este caso, la variable X = Porcentaje de conversin de moles de naftaleno a anhdrido maleico es cuantitativa continua. Las variables continuas, al contener decimales, suelen presentar muchos valores distintos (rara vez tendremos valores con frecuencia mayor que uno o dos) , por lo que se suelen agrupar por intervalos. Lo mismo podra ocurrir en determinadas variables

1.2. Organizacin de los datos. Tablas de frecuencias.

discretas. Cantos intervalos hacemos y de qu amplitudes?. El nmero de intervalos o clases depende del nmero de datos y de la dispersin de los mismos (si son parecidos o no entre s), pero en realidad no hay ninguna regla establecida. En la prctica se suele tomar un nmero de intervalos aproximadamente igual a la raz cuadrada del nmero de observaciones. No de intervalos ' N

En cuanto a la amplitud, se suele tomar la misma en todos los intervalos. Una forma de obtenerla es: Amplitud= valor mximo de la variable-valor mnimo de la variable nmero de intervalos

Entonces, el valor mximo sera el extremo superior del ltimo intervalo, y el valor mnimo el extremo inferior del primer intervalo. Como normalmente los extremos inferiores se abren y los superiores se cierran, en lugar de tomar exactamente el mnimo de la variable, se toma un valor prximo inferior, ya que en otro caso el valor mnimo no podra incluirse en el primer intervalo. Nota: Hacer intervalos con la misma amplitud puede no ser una eleccin sensata si el conjunto de datos contiene puntos extremos (raros en relacin al resto). En tal caso se podran tomar intervalos ms estrechos en la zona de ms concentracin y ms amplios en la de menos concentracin. En este ejemplo tenemos 20 observaciones, por lo que podemos tomar 4 intervalos. Si quiero que el primer intervalo empiece en 1.5 y que el ltimo termine en 5.5, tendrn una amplitud de 1. Tabla 1.4. Tabla de frecuencias % Moles (1.5-2.5] (2.5-3.5] (3.5-4.5] (4.5-5.5] ni 1 4 8 7 fi 0.05 0.2 0.4 0.35 Ni 1 5 13 20 Fi 0.05 0.25 0.65 1

Al punto central de un intervalo se le llama marca de clase. La del primer intervalo es 1,5 + 2,5 2= . 2 Ejemplo 1.3: Se pregunta a un grupo de 20 alumnos de la asignatura de Mtodos Estadsticos, entre otras cosas, si hacen o no frecuentemente "botelln". Los resultados son: Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan.

Captulo 1. Estadstica Descriptiva Unidimensional

Tabla 1.4. Hbito "botelln" s no s s no s s s no s no s no no s s no no no s

Tabla 1.5. Tabla de frecuencias ni s no 11 9 fi 0.55 0.45

Un 55 % hacen botelln frente a un 45 % que no lo hacen.

1.3.

Representaciones grcas

Veremos las representaciones grcas ms comunes para cada tipo de variable. Cualitativas Diagrama de barras o rectngulos Diagrama de Pareto Diagrama de sectores Cuantitativas Histograma Polgono de frecuencias Diagrama de puntos

1.3.1.

Diagrama de barras o rectngulos

Se construye dibujando sobre la categora correspondiente un rectngulo con altura igual a la frecuencia (absoluta o relativa). Tambin es vlido para variables cuantitativas discretas, considerando en el eje de abcisas los valores de la variable en orden creciente en lugar de las categoras.

1.3. Representaciones grcas

Diagrama de barras

12 10
frecuencia

8 6 4 2 0 n s

1.3.2.

Diagrama de Pareto

Se ordenan las categoras de mayor a menor frecuencia y se dibujan los rectngulos correspondientes. Es muy utilizado en controles de la calidad, donde cada clase representa un tipo de disconformidad o problema de produccin.

1.3.3.

Diagrama de sectores

Se dibujan en un crculo sectores con reas proporcionales a las frecuencias de cada una de las categoras.

Diagrama de sectores
Hbito botelln n s 45,00% 55,00%

Delia Montoro Cazorla.

Dpto.

de Estadstica e I.O. Universidad de Jan.

10

Captulo 1. Estadstica Descriptiva Unidimensional

1.3.4.

Histograma

Es igual que el diagrama de rectngulos, considerando ahora en el eje de abcisas los intervalos y en el ordenadas las frecuencias (absolutas o relativas). Si los intervalos tienen la misma amplitud, las frecuencias son proporcionales a las alturas de los rectngulos del histograma, ya que el rea se obtiene multiplicando la base por la altura. Por lo tanto, cada altura da idea de la densidad o concentracin de datos en esa zona: donde hay ms altura, aparecen frecuentemente valores de la variable, donde hay menos, los datos son escasos. Sin embargo, esto no ocurre si las amplitudes no son iguales, por lo que, en tal caso, se representa la frecuencia dividida por la amplitud. La forma del histograma -como el diagrama de barras- reeja propiedades importantes de la variable en cuestin. Cuando el histograma presenta un nico mximo, la distribucin se dice unimodal, bimodal si presenta dos, y plurimodal si presenta ms de dos. Si el histograma es simtrico respecto de un valor central, la distribucin se dice simtrica, en cuyo caso todos los puntos equidistantes a tal valor central presentan la misma frecuencia. Si la cola de la derecha se extiende ms que la de la izquierda la distribucin se dice asimtrica a la derecha o positiva, lo cual indica que la variable toma ms valores bajos que altos. Si la cola de la izquierda se extiende ms que la de la derecha, asimtrica a la izquierda o negativa, predominando los valores altos.
20 16 12 8 4 0 -1 1 3 5 7 9 11
4 2 0 1,5 2,5 3,5 4,5 5,5 8 6

Asimtrico a la derecha

Asimtrico a la izquierda

4 3 2 1 0 0,82

1,02

1,22

1,42

1,62

1,82

Simtrico

El histograma de la variable Porcentaje de moles de naftaleno convertidos es:

1.3. Representaciones grcas

11

Histograma
6 5

frecuencia

4 3 2 1 0 1,5 2,5 3,5 4,5 5,5

Porcentaje de conversin de moles de naftaleno

1.3.5.

Polgono de frecuencias

El polgono de frecuencias resulta esencialmente equivalente al histograma o al diagrama de barras, y se obtiene uniendo mediante segmentos los centros de las bases superiores de sus rectngulos.

Polgono de frecuencias
6 5 4 3 2 1 0 1,5 2,5 3,5 4,5 5,5

Porcentaje de moles de conversin de naftaleno

1.3.6.

Diagrama de puntos

El diagrama de puntos resulta de utilidad cuando el conjunto de datos es razonablemente pequeo o hay relativamente pocos datos distintos. Cada dato se representa con un punto encima de la correspondiente localizacin en una escala horizontal de medida. Cuando un valor se repite, hay un punto por cada ocurrencia y se colocan verticalmente. Permite por ejemplo analizar la dispersin y detectar datos atpicos. Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan.

12

Captulo 1. Estadstica Descriptiva Unidimensional

Diagrama de puntos

N de resistencias defectuosas

1.4.

Descripcin numrica de una variable

Las tcnicas estudiadas anteriormente permiten una descripcin visual de la distribucin de una variable. En muchos casos, el resumen puede hacerse ecazmente de una forma ms sencilla y precisa: utilizando valores numricos que den idea de la ubicacin o del centro de los datos -medidas de posicin- usando cantidades que informen de la concentracin de las observaciones alrededor de dicho centro -medidas de dispersin- y mediante nmeros que reejen la forma (asimetra y apuntamiento) de la distribucin -medidas de forma. La conjuncin de tcnicas numricas y grcas permite una buena descripcin de la variable.

1.4.1.

Medidas de posicin

Entre ellas estudiamos: La media La mediana La moda Cuantiles: deciles, cuartiles y percentiles La media Supongamos que hemos medido la variable X sobre N individuos y tenemos los valores x1 , x2 , ...., xN . La media aritmtica, o simplemente media, se calcula como:

1.4. Descripcin numrica de una variable

13

- Si se dispone de los datos sin tabular : PN xi x1 + ... + xN x = i=1 = N N - Si los datos estn tabulados:

x=

Pk

i=1

ni xi

k X i=1

fi xi

La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse muy afectada por la presencia de datos que sean extremadamente grandes o pequeos (datos atpicos). Ejemplo 1.4: Clculo de la media de los datos del ejemplo 1.1.

x=

2 + 1 + 2 + 4 + ... + 6 + 1 + 2 + 3 = 2,53 resistencias defectuosas por caja. 60

A partir de la tabla de frecuencias, xi 0 1 2 3 4 5 6 7 8 Pk ni 7 12 13 14 6 3 3 1 1 N = 60

ni xi 0 12 26 42 24 15 18 7 8 152 152 = 2,53 60

x=

i=1

ni xi

Ejemplo 1.5: Clculo de la media de los datos del ejemplo 1.2 Si trabajamos con los datos sin tabular,

x=

4,2 + 4,7 + ... + 2,8 + 5,0 = 3,985 20 de Estadstica e I.O. Universidad de Jan.

Delia Montoro Cazorla.

Dpto.

14

Captulo 1. Estadstica Descriptiva Unidimensional

Si trabajamos con los datos tabulados, hemos de calcular las marcas de clase.

% Moles (1.5-2.5] (2.5-3.5] (3.5-4.5] (4.5-5.5]

ni 1 4 8 7 20

xi 2 3 4 5

ni xi 2 12 32 35 81

x=

81 = 4,05 20

Ntese que 4.05 no es la media real, es un valor aproximado, ya que se est suponiendo que los datos son: 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5. En adelante, si es posible, siempre calcularemos las medidas a partir de los datos sin agrupar en intervalos, para no perder precisin innecesariamente.

La mediana Es el valor que divide al conjunto de observaciones ordenado de menor a mayor en dos partes iguales, ocupa el lugar central. Deja por tanto al 50 % de las observaciones por debajo y al 50 % por encima. Mn 50 % Mediana 50 % Mx

Se calcula de las siguientes formas: - Si los datos estn sin tabular : una vez ordenados de menor a mayor se toma el valor central si el nmero de observaciones N es impar; si es par se toma la media de los dos valores centrales. - Si los datos estn tabulados: si existe un valor con frecuencia relativa acumulada igual a 0.5, se toma como mediana la media de tal valor y el siguiente. En otro caso, se toma aquel valor que supere por primera vez en frecuencia relativa acumulada 0.5.

1.4. Descripcin numrica de una variable

15

A diferencia de la media, la mediana no se ve afectada por la presencia de datos extremos. Por lo tanto, en un conjunto de datos con valores extremos, la mediana ser una medida de centralizacin ms representativa que la media. Ejemplo 1.6: Clculo de la mediana de los datos del ejemplo 1.2 Los datos ordenados de menor a mayor son: 2, 2,8, 2,8, 3, 3,1, 3,6, 3,8, 3,8, 3,8, 4, 4, 4,2, 4,3, 4,7, 4,7, 4,8, 5, 5, 5,1, 5,2 M ediana = 4+4 =4 2

Interpretacin: en el 50 % de los experimentos se obtiene un porcentaje de conversin de moles inferior o igual a 4. Ntese que en el primer 4 se obtiene una frecuencia relativa acumulada de 0.5. Ejemplo 1.7: Clculo de la mediana de los datos del ejemplo 1.1 xi 0 1 2 3 4 5 6 7 8 ni 7 12 13 14 6 3 3 1 1 N = 60 El valor 2 es la mediana, ya que presenta una frecuencia relativa acumulada de 0.5334, inmediatamente superior a 0.5 Interpretacin: El 50 % de los cajas presentan un nmero de resistencias defectuosas inferior o igual a 2. La moda Es el valor ms frecuente de la variable (mayor ni o fi ). Es el valor que presenta mayor altura en el diagrama de barras (caso discreto) o el intervalo con mayor altura en el histograma Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan. Fi 0.1167 0.3167 0.5334 0.7667 0.8667 0.9167 0.9667 0.9834 1

16

Captulo 1. Estadstica Descriptiva Unidimensional

(caso continuo). La moda puede no ser nica o no existir. Ejemplo 1.8: Clculo de la moda de los datos del ejemplo 1.1 El valor con mxima frecuencia (13) es el 3.

M oda = 3 Interpretacin: lo ms frecuente es encontrar cajas con 3 resistencias defectuosas. Ejemmplo 1.9: Clculo de la moda de los datos del ejemplo 1.2 En este caso sealamos el intervalo modal: (3.5-4.5] Interpretacin: el porcentaje de conversin de moles ms frecuente est entre el 3.5 y el 4.5 %. Cuantiles: deciles, cuartiles y percentiles Son medidas basadas en la ordenacin de los datos. Dividen al conjunto de datos ordenado en partes iguales. Segn el nmero de partes, hablamos de: Deciles: dividen al conjunto de datos en 10 partes iguales, cada una de las cuales engloba un 10 % de datos. Hay por tanto 9 deciles, D1 , ..., D9. Cuartiles: dividen al conjunto de datos en 4 partes iguales, cada una de las cuales engloba un 25 % de datos. Hay por tanto 3 cuartiles, Q1 , Q2 , Q3. Percentiles: dividen al conjunto de datos en 100 partes iguales, cada una de las cuales engloba un 1 % de datos. Hay por tanto 99 percentiles, P1 , ..., P99. La mediana, al dejar por debajo a un 50 % de los datos, coincide con el D5 , Q2 y P50 . La forma de clculo de los cuantiles es similar a la de la mediana. Una franja de inters es [P25 - P75 ] , que contiene al 50 % de los datos centrales. Por debajo del P25 quedan el 25 % de los datos ms pequeos, y por encima del P75 quedan el 25 % de los datos ms grandes. Ejemplo 1.10: Clculo de los percentiles 25 y 75 de los datos del ejemplo 1.1

P25 P75

= 1 (Fi = 0,3167 > 0,25) = 3 (Fi = 0,7667 > 0,75)

1.4. Descripcin numrica de una variable

17

Otra forma de calcularlos: el P25 es aquel valor que deja por debajo al 25 % de los datos, que en este caso son 15 (25 % de 60). Anlogamente, el P75 es el valor que deja 45 datos (75 %) por debajo y 15 datos (25 %) por arriba. Interpretacin: El 25 % de los paquetes con menos resistencias defectuosas presentan como mucho 1, y el 25 % de los paquetes con ms resistencias defectuosas presentan como mnimo 3. Ejemplo 1.11: Clculo de los percentiles 25 y 75 de los datos del ejemplo 1.2 P25 P75 = 3,35, = 4,75

1.4.2.

Medidas de dispersin

Las medidas de posicin o centralizacin no siempre proporcionan informacin suciente para describir un conjunto de datos de manera adecuada. Por ejemplo, veamos los tres conjuntos de datos siguientes: Ejemplo 1.12: Tabla 1.5: Conjunto de datos ejemplo 1.12 Conjunto 1: Conjunto 2: Conjunto 3: 10,20,30,40,50 10,30,30,30,50 30,30,30,30,30

Las medidas de centralizacin de cada uno de los conjuntos son: Media Conjunto 1 Conjunto 2 Conjunto 3 30 30 30 Mediana 30 30 30 Moda No existe 30 30

A la vista de estas medidas podramos llegar a la conclusin equivocada de que los tres conjuntos de datos son muy similares. Sin embargo, hay una clara diferencia entre los tres conjuntos: en el primero, hay gran dispersin en los datos (datos poco parecidos), en el tercero la concentracin de los datos es total, y en el segundo se da una situacin intermedia. Es por esto por lo que es necesario recurrir a otras medidas, las medidas de dispersin, que sean capaces Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan.

18

Captulo 1. Estadstica Descriptiva Unidimensional

de diferenciar estas situaciones. Claramente, el tercer conjunto de datos es el mejor; en l las medidas de centralizacin sern plenamente representativas. Entre las medidas de dispersin estudiamos: Rango. Rango Intercuartlico Varianza. Desviacin tpica Coeciente de variacin Rango. Rango Intercuartlico Una medida de variabilidad basada en la ordenacin de las observaciones es el rango, R, denido como la difencia entre el valor mximo y el mnimo, R = M ax M in El rango de un conjunto de datos es muy fcil de calcular, pero ignora toda la informacin contenida entre las observaciones ms grande y ms pequea. Por ejemplo, las muestras 1,3,5,8,9 y 1,5,5,5,9 tienen el mismo rango igual a 8. Sin embargo, en la segunda muestra slo existe variabilidad en los valores extremos, mientras que en la primera los tres valores intermedios cambian de manera considerable. Algunas veces, cuando el tamao de la muestra es pequeo, la prdida de informacin no es muy seria. Por ejemplo, el rango se utiliza mucho en el control de la calidad, donde se suelen utilizar muestras de tamao 4 o 5. En general, lo que se desea es tener una medida de variabilidad que dependa de todas las observaciones, ms que de unas cuantas. Una medida menos sensible a los valores extremos es el rango intercuartlico, RI, denido como la diferencia entre el tercer y primer cuartil, RI = Q3 Q1 Esta medida informa acerca de la representatividad de la mediana (Q2 ) : si el RI es pequeo, el 50 % de las observaciones centrales estn muy concentradas entorno a la mediana. Varianza. Desviacin tpica La varianza y desviacin tpica miden la dispersin de los datos entorno a la media, y hacen uso de todas las observaciones. Una forma intuitiva de medir la concentracin de los datos

1.4. Descripcin numrica de una variable

19

entorno a la media es calcular lo que distan los mismos de la media, x1 x, ..., xN x


Si todas estas diferencias son pequeas entonces las observaciones xi estarn prximas a x

y diremos que hay poca variabilidad. Una forma sencilla de combinar todas las desviaciones en una nica medida es promediarlas, pero al sumarlas, desviaciones positivas y grandes en magnitud pueden ser compensadas con desviaciones negativas grandes en magnitud.
N X (xi x) i=1 N X i=1

xi N x N

=0

Una alternativa es promediar tales diferencias en valor absoluto o al cuadrado. Al promedio de las desviaciones al cuadrado se le conoce como varianza, 2 ,
N X (xi x)2 i=1 N X i=1

x2 i

2 = Si los datos estn tabulados,

2 =

k X i=1

fi (xi x)2 =

k X i=1

ni (xi x)2 N

k X i=1

ni x2 i

Se expresa en el cuadrado de las unidades de la variable. Observad que 2 0 y que 2 = 0 s y slo s todas las observaciones son idnticas y por lo tanto coinciden con la media (mejor de los casos). A la raz cuadrada de la varianza se le conoce como desviacin tpica, = 2

En general podramos pensar que a mayor valor en la varianza o desviacin tpica, mayor dispersin y menor concentracin de los datos entorno a la media. En relacin a esta idea, se presenta el problema de que ambas medidas dependen de las unidades de medida (o dimensin) de los datos. Por ejemplo, una misma muestra de alturas en centmetros y en metros da lugar a varianzas distintas, mayor en el primer caso. Por lo tanto la varianza y desviacin tpica no nos permiten cuanticar la variabilidad ni comparar la dispersin de variables medidas en unidades distintas. Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan.

20

Captulo 1. Estadstica Descriptiva Unidimensional

cuasivarianza y cuasidesviacin tpica, que denotamos respectivamente por S 2 y S,


N X (xi x)2 i=1 N X i=1

Nota: si en lugar de dividir en tales medidas por N dividimos por N 1, se obtienen la


2

S2 S

N 1 S2 =

x2 N x i N 1

Ejemplo 1.13: Clculo de la varianza y desviacin tpica en datos de ejemplo 1.1 xi 0 1 2 3 4 5 6 7 8 ni 7 12 13 14 6 3 3 1 1 N = 60 Coeciente de variacin Como solucin al problema de dependencia de las unidades de medida de las variables que presentan la varianza y desviacin tpica, se crea una nueva medida adimensional (no depende de las unidades de medida) conocida como coeciente de variacin, denido como el cociente entre la desviacin tpica y la media (en valor absoluto), CV = x ni xi 0 12 26 42 24 15 18 7 8 152 ni x2 i 00 12 52 126 96 75 108 49 64 582 ni xi 152 = = 2,53, N 60 N X x2 i 582 2 i=1 2 x = 2,532 = 3,3 = N 60 = 3,3

x=

Pk

i=1

Mide la concentracin relativa de los datos entorno a la media. Cuanto ms prximo a cero est (vale 0 cuando = 0), menor dispersin habr, y por lo tanto ms representativa ser la media. Ejemplo 1.14: Con un micrmetro se realizan mediciones del dimetro de un balero, que tienen una media de 4.03 mm y una desviacin tpica de 0.012 mm; con otro micrmetro se

1.4. Descripcin numrica de una variable

21

toman mediciones de la longitud de un tornillo, que tienen una media de 1.76 pulgadas y una desviacin tpica de 0.0075 pulgadas. Los coecientes de variacin son: CVbalero CVtornillo = = 0,012 = 0,003 4,03 0,0075 = 0,004 1,76

En consecuencia, las mediciones realizadas con el primer micrmetro presentan una variabilidad relativamente menor que las efectuadas con el segundo.

1.4.3.

Medidas de forma

Ya vimos cmo a partir de una representacin grca se pueden estudiar algunos rasgos importantes de la variable; comentamos cmo hacernos una idea de la simetra o asimetra de una variable segn la forma del histograma. La simetra o asimetra tambin puede estudiarse con una medida numrica, el coeciente de asimetra. Exiten varios coecientes, el que a continuacin vemos se debe a Fisher y presenta la siguiente expresin: PN 3 i=1 (xi x) 1 = , N 3 y 1 = si los datos estn tabulados. Si un coeciente de asimetra vale 0, la distribucin es simtrica, si es mayor que 0, asimtrica a la derecha o positiva, y si es menor que cero, asimtrica a la izquierda o negativa. Tambin podemos hacernos una idea acerca de la simetra o asimetra de una variable comparando su media y mediana. Claramente, en variables simtricas la media, la mediana y la moda (si es nica) coinciden. Si la distribucin es marcadamente asimtrica a la derecha, su media ser bastante mayor que la mediana, ya que aunque sean pocos los valores altos que tome (cola de la derecha) , tirarn de la media hacia arriba, mientras que a la mediana segn comentamos no le afectan los valores extremos. Si la distribucin es marcadamente asimtrica a la izquierda, la media ser bastante menor que la mediana. En relacin a la forma aparece tambin el trmino curtosis, que hace referencia al apuntamiento de la distribucin. Por ejemplo, si una variable presenta un histograma muy apuntado (alta frecuencia ) y estrecho, sus datos estarn muy concentrados. Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan. Pk
i=1

fi (xi x)3 = 3

Pk

i=1

ni (xi x)3 N 3

22

Captulo 1. Estadstica Descriptiva Unidimensional

1.4.4.

Observaciones sobre las medidas numricas descriptivas

1. Cambios de variable lineales: Supongamos que a, b, son dos nmeros reales. Hacemos una transformacin en los datos de la forma yi = axi + b, i = 1, .., N, es decir, Y = aX + b. Entonces,

= ax + b, = a2 2 , x = |a| x ,

2 y y

2. Variable tipicada: Tipicar una variable consiste en hacer una transformacin lineal tal que la nueva variable tenga media 0 y varianza 1. La transformacin es Z= Xx x

3. Variable clasicada en grupos o estratos: Supongamos que tenemos N observaciones clasicadas en L grupos. El grupo i presenta un tamao ni , una media xi , una varianza 2 , i ni y su peso en el total de la poblacin es wi = . Entonces, la media total y la varianza N total (de las N observaciones) vienen dadas por:

L X i=1 L X i=1

wi xi , wi 2 + i
L X i=1

2 x

wi (xi x)2

1.5.

Ejercicios

1. Los ingenieros industriales realizan peridicamente un anlisis de la medicin del trabajo con el n de determinar el tiempo requerido para generar una unidad de produccin. En una planta de procesamiento se registr durante 20 das el nmero de horas-obrero totales requeridas para realizar cierta tarea. Los datos recogidos son: 128 113 146 124 100 119 109 128 131 112 95 124 103 133 111 97 132 135 131 150

1.5. Ejercicios

23

a) Obtn la tabla de frecuencias absolutas y relativas. b) Construye el histograma. c) Calcula la media, mediana y moda. Interpreta resultados. d) Cunto tiempo requieren como mximo el 25 % de los obreros ms rpidos?. Cunto tiempo requieren como mnimo el 25 % de los que ms tiempo emplean?. e) En base al histograma estudia la simetra o asimetra de la distribucin. f ) Decide qu medida de posicin puede ser representativa. g) Calcula una medida de dispersin asociada a la medida de posicin anterior. 2. Describe las caractersticas de los cuatro histogramas siguientes, y razona cul es la medida de centralizacin y dispersin ms adecuada para la distribucin correspondiente.
8 6 4 2 0 0 1 2 3 4 5 6
40 30 20 10 0 -1 1 3 5 7 9 11

40 30 20 10 0 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5

3. El tcnico responsable del funcionamiento de una empaquetadora automtica la ajust, en principio, para 450 g. Media hora despus del principio de la produccin se apartaron 10 paquetes para vericar su peso. Los resultados son: Peso (g) 448 450 453 451 447 449 446 451 448 447

a) Cul es el peso medio de esa muestra?. Calcula la varianza y la desviacin tpica, as como la mediana y los percentiles 25 y 75. b) Se considera que la empaquetadora funciona correctamente si la media de una muestra de 10 paquetes se sita en el intervalo [448,452]. Cul es la conclusin en el caso Delia Montoro Cazorla. Dpto. de Estadstica e I.O. Universidad de Jan.

24

Captulo 1. Estadstica Descriptiva Unidimensional

de la muestra anterior?. Te parece correcta la eleccin de tal mtodo de decisin?. Alguna idea para mejorar?. 4. El responsable en control industrial de una empresa somete a un test de abilidad 50 dispositivos electrnicos idnticos y anota su duracin (tiempo hasta el fallo en horas). La recogida de datos lleva a la distribucin de frecuencias siguiente: Duracin (horas) 0 < X 200 200 < X 400 400 < X 600 600 < X 800 800 < X 1000 1000 < X 1200 1200 < X 1400 1400 < X 1600 No de dispositivos 17 9 7 7 6 2 1 1

a) Obtn la tabla de frecuencias relativas y relativas acumuladas. b) Representa el histograma. Seala el intervalo modal. c) Cul es el tiempo medio de fallo de este tipo de dispositivos?. d) En qu intervalo se encontrar la mediana?. e) Qu porcentaje de dispositivos tienen una duracin superior a 200h? y a 600?. Qu porcentaje de dispositivos tienen una duracin comprendida en el intervalo 200 < X 400?.Qu porcentaje supera el tiempo medio de fallo?. 5. En una empresa se clasican los accidentes laborales segn causen o no la baja en el trabajador. Los datos medidos mensualmente durante un ao son: No Accidentes No causan baja Causan baja 498 152 650 a) Calcula los porcentajes correspondientes a cada tipo de accidente.

1.5. Ejercicios

25

b) Obtn una representacin grca. 6. En una empresa, los empleados se clasican en dos categoras: tcnicos y especialistas. El nmero de empleados, el salario medio anual en miles de euros y la desviacin tpica se muestran en la tabla siguiente: Categora Especialista Tcnico No de empleados 20 100 Salario medio 24 18 Desv. tpica 3 4

a) Calcula el salario medio y varianza del salario para el conjunto de trabajadores de la empresa. b) En la negociacin del salario del ao siguiente, se proponen dos alternativas. La primera consiste en elevar los salarios un 5 % a todo el personal. La segunda, en elevar el salario 1.2 miles de euros al ao a todo el personal. Calcula la media y varianza para el conjunto de los trabajadores en ambas alternativas. Qe alternativa es mejor?. Razona la respuesta. 7. En una liga de rugby femenino se contabilizaron y clasicaron las lesiones que tienen lugar (A=rotura de menisco, B=rotura de ligamentos, C=rotura de tibia, D=rotura de rtula, E=rotura de fmur). Los resultados son: A E C C C B B C A C B B C C A A A A B B C A B B B A C B D A A D C A D D C A B E B A A A C A C B C A C B C B B

Realiza una tabla de frecuencias y dibuja el diagrama de Pareto. Interpreta resultados. 8. Se tienen dos proveedores en dos reas geogrcas diferentes. En la primera zona los proveedores tienen una puntuacin media de 6.23 con una desviacin tpica de 2.3. En la segunda zona tienen una media de 5.2 con una desviacin de 1.3. El proveedor de la primera zona tiene una puntuacin de 6.84 y el de la segunda tiene una puntuacin de 6.31. Cul de los dos dos es mejor en relacin a su zona?.

Delia Montoro Cazorla.

Dpto.

de Estadstica e I.O. Universidad de Jan.

You might also like