You are on page 1of 48

Dra. Ms.I.

Narcisa Salazar

La estadstica tiene que ver con la recopilacin, presentacin, anlisis y uso de datos para tomar decisiones y resolver problemas.

Cualquier persona recibe informacin en forma de datos a travs de los peridicos, la televisin u otros medios; y a menudo es necesario obtener alguna conclusin a partir de la informacin contenida en los datos.

Los mtodos empleados para resumir y organizar datos se denominan estadstica descriptiva; mientras que los mtodos para tomar decisiones se denominan inferencia estadstica.

1) Mtodos Numricos
Las descripciones numricas de datos suelen ser importantes. Dado un conjunto de n observaciones x , x ,..., x
1 2 n

La estadstica descriptiva nos puede ayudar mediante resmenes numricos, que son medidas de tendencia central, o tambin llamadas de posicin y medidas de dispersin

Las medidas descriptivas ms comunes de tendencia central o localizacin son: la media aritmtica y la mediana (existen otras medidas de tendencia central que en ocasiones pueden resultar de inters: la moda, los cuartiles, los deciles, los percentiles, la media armnica, la media geomtrica y la media ponderada.)

La media aritmtica o simplemente promedio (tambin llamada media muestral ya que generalmente se calcula en relacin a una muestra) se calcula de la siguiente forma: si las observaciones de una muestra de tamao n son x1, x2,,xn entonces

x 1  x 2  ...  x n i ! 1 X! ! n n

Caracterstica de la Media
Es intuitiva y fcil de calcular. Su valor puede que no coincida con ninguno de los valores de la muestra La suma de las diferencias de cada valor de la muestra con la media su resultado es cero, es decir,

(x  x) ! 0
i i !1

La mediana se suele definir como el valor ms intermedio una vez que los datos han sido ordenados en forma creciente. Se suele denotar por Me. La forma ms general de calcular la mediana es la siguiente:

x n  1 2 Me ! x  x ( n 2)1 n 2 2

si n es impar si n es par

La mediana es aquel valor que deja el cincuenta por ciento de los datos por debajo y otro cincuenta por encima. Cabe destacar que es preferible el uso de la mediana como medida descriptiva del centro cuando se quiere reducir o eliminar el efecto de valores extremos en un conjunto de datos (muy grandes o muy pequeos).

Moda: Es una medida de tendencia central que se puede utilizar sea cual sea el tipo de variable a estudiar. La moda de un conjunto de observaciones es el valor que ms se repite, aquel cuya frecuencia absoluta es mxima. Puede ser nica, que haya ms de una, o que no exista.

Media Geomtrica: Se define como la raz n-sima del producto de todos los valores numricos, es decir,

X G ! n x1.x2 ....xn ! n ( xi )
i !1

La media armnica: Se define como el nmero de observaciones de la muestra dividido por la suma del inverso de cada una de las observaciones, es decir,

XA !

(1 / x )
i i !1

La localizacin o tendencia central de un conjunto de datos no necesariamente proporciona informacin suficiente para describirlos adecuadamente. Debido a que no todos los valores son semejantes, la variacin entre ellos se considera importante.

Se puede decir que un conjunto de datos tiene una dispersin reducida si los mismos se aglomeran estrechamente en torno a alguna medida de localizacin de inters y se dice que tiene una dispersin grande si se esparcen ampliamente alrededor de alguna medida de localizacin de inters.

Las medidas descriptivas ms comunes de dispersin son: el rango, la varianza, la desviacin estndar y el rango intercuartlico.

El rango de la muestra es la medida de variabilidad ms sencilla entre todas las mencionadas; y se define como la diferencia entre la observacin ms grande y la ms pequea :

r ! xmax  xmin

Aunque es una medida muy fcil de calcular, ignora toda la informacin de la muestra entre las observaciones ms grande y ms pequea. Sin embargo, vale la pena resaltar que el rango se utiliza mucho en aplicaciones estadsticas al control de calidad, donde lo comn es emplear muestras con tamaos n = 4 o n = 5 ya que en estos casos la prdida de informacin no se considera relevante.

En general, se desea una medida de variabilidad que dependa de todas las observaciones y no slo de unas pocas; as que parece razonable medir la variacin en trminos de las desviaciones relativas a alguna medida de localizacin (generalmente esta medida es la media)

Para el conjunto de datos x1,x2,.,xn Las diferencias

( x1  x ), ( x2  x ),....., ( xn  x )
determinan las desviaciones de la media. Dado que la suma de estas desviaciones es cero, se utiliza como medida de variabilidad el promedio de los cuadrados de tales desviaciones.

(x  x)
i

S !
2

i !1

n 1

Esta medida de variabilidad se denomina varianza. Como S2 no tiene las mismas unidades que los datos. Desviacin estndar como la raz cuadrada (positiva) de la varianza a fin de tener una medida en las mismas unidades de los datos; La desviacin estndar es til para comparar dispersin entre dos poblaciones.

Cuartiles y percentiles Cuartiles Los cuartiles dividen a un conjunto de datos en cuatro partes iguales, y se notan con Q1, Q2 y Q3

El primer cuartil, al que se le llama Q1, es el valor por debajo del cual se encuentra el 25% de los datos, y el tercer cuartil usualmente llamado Q3, es el valor por debajo de el se encuentra el 75% de los datos. Q2 es la mediana.

Los valores Q1, Q2 y Q3 dividen al conjunto de datos ordenados en cuatro partes iguales. Q1 se puede entender como la mediana de la mitad inferior de los datos ordenados y Q3 como la mediana de la mitad superior de los datos ordenado.

Procedimiento para el calculo de los percentiles


Sea Lp la posicin del percentil deseado. Entonces p

L p ! ( n)

100

donde n es el numero de datos y p el percentil Ejemplo: el percentil 33 P33, el percentil 50 es el P50, que es tambin la mediana el Q2. El percentil 25 es el P25=Q1 y el percentil 75 es el P75=Q3

Calculo del p-simo percentil Paso 1: Ordenar los datos de manera ascendente. Paso 2: Calculamos el Lp ( L p ! (n) p % ) 100 Paso 3: a) Si Lp no es entero, se redondea. El valor entero inmediato mayor que Lp indica la posicin del p-simo percentil. b) Si Lp es entero, el p-simo persentil es el promedio de los valores de los datos ubicados en los lugares i e i+1

Por Ejemplo: Si tenemos 15 datos ordenados y queremos localizar el primer cuartil (percentil 25) segn la formula este estar ubicado en la posicin 4 (por redondeo) y el tercer cuartil (percentil 75) estar ubicado en la posicin 12 (por redondeo) Si tenemos 20 datos ordenados el primer cuartil estar en la posicin intermedia entre el 5 y el 6 dato es decir si el 5 dato fuese 36 y el 6 41 el P25=Q1=38,5

Coeficientes de Asimetra y Curtosis


Asimetra Si los valores de la serie de datos presenta la misma forma a izquierda y derecha de un valor central (media aritmtica) se dice que es simtrica de lo contrario ser asimtrica. Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, n que viene definido: 3

(1 / n)( ( xi  x )
i !1

g1 !

Los resultados pueden ser los siguientes: g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media) g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda) g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)

Curtosis El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribucin. Se definen 3 tipos de distribuciones segn su grado de curtosis:

Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal). Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable. Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente frmula:

(1 / n)( ( xi  x ) g2 !
i !1

3

Los resultados pueden ser los siguientes: g2 = 0 (distribucin mesocrtica). g2 > 0 (distribucin leptocrtica). g2 < 0 (distribucin platicrtica).

2) Mtodos Grficos
Histogramas
Se utiliza con variables agrupadas en intervalos, representando en el eje X los intervalos de clase y levantando rectngulos contiguos de base la longitud de los distintos intervalos y de altura tal que el rea sea proporcional a las frecuencias representadas. Si son frecuencias acumuladas, sern proporcionales a las alturas aunque los intervalos sean de distinta amplitud.

Grafico de reas
En estos tipos de grficos se busca mostrar la tendencia de la informacin generalmente en un perodo de tiempo.
140 120 100 80 60 40 20 0 Suma de CODIGOS Suma de PROMEDIO Suma de PROMEDIO Suma de CODIGOS

Cartogramas
Estos tipos de grficos se utilizan para mostrar datos sobre una base geogrfica. La densidad de datos se puede marcar por crculos, sombreado, rayado o color.

Diagrama Pastel
Se divide un crculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de crculo proporcional a su frecuencia absoluta o relativa.
Suma de PROMEDIO
MARTES MIRCOLES JUEVES VIERNES LUNES

Dispersograma
Es un grficos que se construye sobre dos ejes ortogonales de coordenadas, llamados cartesianos, a cada punto corresponde a un par de valores de datos x e y de un mismo elemento o suceso.

Diagrama de Tallo y Hojas


Un diagrama de tallo y hoja permite analizar la probabilidad de que un suceso ocurra sin utilizar probabilidad y estadstica concretamente. Proporciona una informacin rpida, visual y relativamente nueva sobre datos no agrupados.
Tallo T1 T2 T3 T4 Hojas a , b, c, a , b, c, a , b, c, a , b, c,

Diagrama de Caja y Bigote


El diagrama de cajas tambin llamado boxplot es la presentacin visual que describe al mismo tiempo varias caractersticas importantes de un conjunto de datos, tales como el centro, la dispersin, el alejamiento de la simetra, y la identificacin de valores extremos (puntos atpicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos.

Presenta los tres cuartiles, (y los valores mnimos y mximos) alineados sobre una caja vertical u horizontalmente, la mediana, el valor mximo y valor mnimo.

Construccin de los lmites y los valores atpicos


Lmite interior inferior = Lmite del bigote inferior = Q1 - 1,5RI Lmite interior superior = Lmite del bigote superior = Q3 + 1,5RI Lmite exterior inferior = Q1 - 3RI (Rango intercuartlico) Lmite exterior superior = Q3 + 3RI (Rango intercuartlico)

Diagrama de frecuencia acumulada u OJIVA


Es un diagrama en donde se representan los intervalos de una clase versus la frecuencia relativa acumulada. Su principal ventaja radica en la fcil ubicacin de los cuartiles y percentiles ( calculados a partir del eje y para obtener su imagen en x). Su grfica es siempre una funcin creciente hasta 1.
120 Valor frecuencai acumulada 100 80 60 40 20 0 10_15 15 - 20 20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 Clases

Diagrama de Series de tiempo


Este diagrama permite graficar una relacin en funcin del tiempo, as por ejemplo se puede graficar la lnea de produccin de un determinado artculo durante el da, adems permite realizar comparaciones entre dos curvas de tiempo con la finalidad de estimar fluctuaciones, alzas o bajo rendimiento en un proceso.

Diagrama de puntos
Los diagramas de puntos sirven para presentar grficamente tablas en las cuales se consideran nicamente una variable y una cantidad asociada a cada valor de la misma.

Diagrama de dgitos
Es una combinacin entre el diagrama de tallo y hojas y el diagrama de series de tiempo. Su objetivo es dar una ampliacin a la informacin del grfico pudiendo hacer notorias ciertas caractersticas de similitud en la curva.

You might also like