You are on page 1of 28

!
!

""

7.1.- Introducción
!

"

#

$

%

La palabra estadística proviene del latín “status” o “estado”, sin embargo, esta
palabra sólo describe en parte su significado real, es decir, solo describe la función
de la estadística de llevar registros ordenados de datos para describir el “estado” de
las cosas. La estadística como se concibe hoy en día va más allá de esta simple
función.
En forma muy general, la estadística es la ciencia que se ocupa de la recolección,
clasificación, organización, análisis, síntesis e interpretación de datos. En palabras
sencillas podríamos decir que la estadística es la ciencia de los datos
En términos generales la estadística aborda dos tipos de problemas:
♦ Resumir, describir y explorar datos.
♦ Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se
escogió la muestra.
Así, la estadística se divide en dos partes íntimamente relacionadas:
Estadística Descriptiva.- Esta es la parte de la estadística que se dedica a la
organización, síntesis y descripción de conjuntos de datos.
Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer
inferencias es interpretar) un conjunto de datos, especialmente cuando estos son
demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o
reducida.
Estadística Inferencial.- Esta rama de la estadística trata el problema de inferir la
naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
Al conjunto total de donde se toman los datos que se desea describir se denomina la
población, mientras que una muestra es un subconjunto de datos seleccionados
de la población.
La estadística se puede ver como el conjunto de herramientas que nos permiten
establecer inferencias estadísticas (conclusiones fundamentadas en datos) a partir de
muestras tomadas de una población sobre la cual se realizan las inferencias. Por lo
tanto, la estadística proporciona técnicas para
El muestreo (la toma de datos)
La descripción, análisis y representación de los datos

Ejercicio: Al efectuar un estudio de las corrientes de carga de los sistemas de alimentación de computadoras en 146 instalaciones de los Estados Unidos (IEEE Transactions on . Equiprobable. La inclusión de un dato en la muestra no debe afectar la probabilidad de que otro dato sea o no tomado en ella. Esto significa que el muestreo en general debe ser con reemplazo. ya que el devolver una muestra o no antes de tomar la siguiente no altera la población. Para poblaciones infinitas. Es decir.Muestreo aleatorio: Una muestra confiable no es cualquier muestra. Poblaciones infinitas. Un proceso de muestreo que nos permite tener datos no contaminados de origen debe ser: Aleatorio.El planteamiento y validación de hipótesis basadas en los datos La obtención de modelos de comportamiento de la población basadas en los datos En la siguiente figura se ilustran las diferentes partes del proceso que van desde la toma de datos a la elaboración de inferencias estadísticas: 160 # H istog ram a d e la P o b lacio n 140 & Frecuencia 120 ' ( ) ' ! 100 80 $ %µ& ( %σ)& %σ& 60 40 20 0 -4 -2 0 Clas es 2 4 Histograma de la Muestra 16 14 $ Frecuencia 12 10 8 ' ! 6 4 2 0 -4 -2 0 Clases 2 # % ( # # & % )& % & 4 7. Para propósitos prácticos una población finita muy grande puede considerarse casi infinita. Todos los datos de la población deben tener la misma probabilidad de ser tomados en la muestra. el muestreo con o sin reemplazo no produce diferencias apreciables. debe ser imposible predecir cual es el siguiente dato de la población a ser tomado en la muestra.2. Esto nos garantiza que no se dará más preferencia a algunos sectores de la población que a otros. Independiente..

2 Ordenamiento de datos. ordenamos los datos del 0 al 10 como sigue: .0 2. Sin embargo.5 7..4 2. Estas herramientas se ilustrarán con el siguiente ejemplo: Ejemplo.4 8. en una población muy numerosa es impráctico y costoso tomar datos de toda la población..6 7. si se tomaran datos de la población total no habría necesidad de hacer inferencias..8 6. El simple ordenamiento de los datos nos permitirá observar algunos comportamientos a simple vista que no son fáciles de obtener con los datos desordenados.Materiales usados en la construcción.3. Tipos de datos.5 5. En la medida de lo posible es recomendable manejar datos cuantitativos.6 5. ya que estos permiten una representación más adecuada para extraer información visual. Son ejemplos de datos cualitativos: Ocupaciones de los egresados de Ingeniería Eléctrica.7 6. Para el ejemplo. Los datos pueden ser de tipo Cuantitativo o bien pueden ser Cualitativos (o categóricos) estos últimos no tienen interpretación de cantidad.0 6.0 5. obtenidas en un curso anual de Matemáticas: 3. los datos con que cuenta la estadística son datos tomados de una muestra.7 6.Industry App. 7. por ello es necesario seleccionar muestras y a partir de los datos de la muestra hacer inferencias. La siguiente es una muestra de las calificaciones de 20 alumnos. Empresas dedicadas a la comercialización de circuitos Integrados. a) ¿Cual es la población de interés? b) ¿Cual es la muestra? c) Hacer una inferencia sobre la población basada en la muestra. Julio/Agosto 1990) se detectó que menos del 10% de estas instalaciones tenia una corriente elevada del neutro respecto a la corriente nominal.6 6.6 6. no de la población total. ya que se contaría con toda la información de la población y en lugar de inferir bastaría con consultar el dato correspondiente.5 7.5 7. solo pueden clasificarse en base a criterios.Como ya se mencionó.5 8.Tablas de Frecuencia e Histograma Toma de datos. etc.3 7. Existe una gran cantidad de herramientas dedicadas a la representación de los datos que nos permiten extraer información visual más rápida que la inspección dato por dato.4 7.

0 .7.6.7 .6 . 7. 6.3 . 7. 7. 6. Rel. De esta manera se obtiene un diagrama en el que la longitud de las ramas nos dice a simple vista en que tallo caen más o menos datos.7 6 6.3 6.7 1 2 0. 2.2 7.4 7. De alumnos Opcionalmente podemos además hacer una representación gráfica de los datos con respecto al orden indicando además los que se repiten y cuantas veces lo hacen.2.6 Calificación Tanto la lista ordenada como la gráfica anterior nos proporcionan una mayor información a simple vista.8.7.0.4.0 .6 5. Para el ejemplo este diagrama quedaría como sigue Tallo 2 3 5 6 7 8 H o j a s . 6.Nadie obtuvo calificaciones menores de 2.5. 7. 3.4 .4 6. por ejemplo.5 5.4 1 1 0.7 3.4.5.7 .5 .5 7 7. 5.4 . 4 3 2 1 0 2.6 .6.05 0.6 7. 6.5 .6 No.5 .6 .0 . La misma información puede ser representada en una Tabla de Frecuencias la cual se presenta a continuación para el mismo ejemplo: Calificación Frecuencia Frecuencia Frecuencia Frec. Esta es una de las técnicas más simples para representar los datos y consiste en clasificarlos en renglones de acuerdo a un tallo consistente en el primer dígito.4.0. 7.0.4 .La mayor parte de alumnos obtuvieron calificaciones entre 5.3.5 .10 . 7.5. 6. 8.8 8 8.5 .05 2. 6. xi fi Acumulada Relativa Acumulada 2. es fácil advertir de ambas que: .4 ni mayores de 8.2.6 .5. anotando en forma de lista los dígitos siguientes formando las hojas para cada tallo. 5.4 2.8 Tablas de Frecuencia.2 .05 0.6.5 y 8 .5. Diagrama de Tallo y Hojas. 5.0. 8.

Datos Agrupados Cuando las muestras de datos son muy grandes.05 0.7 0.85 0.3.05 0.3 6.05 0. A los puntos medios de estos intervalos se les llama Marcas de clase.7 6.0 6. la representación anterior puede ser muy complicada o hasta confusa. Así.75 0.05 0.4 0.05 0.0 8.0 7. si el dato xi se repite fi veces en una muestra de n datos: .4 7.0 La frecuencia de un dato es simplemente el número de veces que aparece dicho dato.05 0.35 0.6 5.10 0.5 7.Su frecuencia relativa será fi/n La frecuencia relativa también puede expresarse en porcentaje simplemente multiplicándola por 100 y nos indica el porcentaje de veces que aparece el dato respecto al total.15 0.2 7.10 0.05 0.05 0.8 0.45 0.95 1.4 6.05 0.5 5. La frecuencia relativa es el cociente de la frecuencia entre el total de datos.3 0.Su frecuencia será fi .15 0.05 0.6 1 2 1 1 1 1 3 2 1 1 1 1 1 1 3 5 6 7 8 9 12 14 15 16 17 18 19 20 0.25 0. en este caso conviene agrupar los datos de acuerdo a la definición de clases a las que pertenecen los datos: Para ello se elige primeramente un intervalo (I) que contenga todos los datos y luego se divide este intervalo en subintervalos llamados Intervalos de Clase o Clases. Al número de datos de una clase se le llama Frecuencia de clase y a su cociente entre n (número de datos de la muestra) se le llama Frecuencia relativa de clase Ejemplo: .05 0.9 0.6 0. La frecuencia acumulada de un dato será la suma de todas las frecuencias de los datos menores o iguales a él y la frecuencia relativa acumulada es simplemente la frecuencia acumulada dividida entre el número total de datos.6 7.8 8.

2 . por lo cual ha sido necesario dividir los datos que caen en un límite por mitad. la tabla de frecuencias para los datos agrupados quedará como sigue: Intervalo de Marca de clase Clase x 2.4 2.8 .2 0. Si dividimos este intervalo en 5 intervalos de clase.4 0. obtenemos el diagrama de frecuencia acumulada que suele llamarse la curva de distribución (o Curva de de Frecuencia Acumulada).7.0 A la línea roja que une las alturas de los rectángulos sobre las marcas de clase se le denomina polígono de frecuencias Y si gratificamos el área bajo la curva del histograma (considerando el ancho de los intervalos de valor unitario).0 .475 0.7 3. I=[2.5 0.35 0.9].2 5. es decir.815 1. Acumulada F(x) 0. Algunos autores acostumbran indicar los intervalos de clase mediante números adyacentes.1 0.0 2. de manera que nunca se compartan los límites entre clases consecutivas. Rel.9.8 4.1 4. por ejemplo como el intervalo del 2 al 9.Para el ejemplo de las calificaciones podemos elegir el intervalo total de muchas maneras.1 0.5 Frecuencia Relativa f(x) 0.0 8.5 6.9 7.9 7.25 0.3 Frecuencia de clase 2 1 4 9.0 Esta información se puede representar en la siguiente gráfica denominada Histograma de los datos agrupados 0.05 0. Límites y límites reales de clase En el ejemplo anterior los límites de clase son compartidos por clases consecutivas.1 4.2 6.3.8 5.7 3.3 9.6 8. por ejemplo: .3 0.6.15 0.4 .05 0 2.5 Clases 6.45 Frecuencia Relativa 0.5 3.4.1 0.2 0.6 6.6 .35 0.175 Frec.15 Polígono de frecuencias 0.4 4.

XN).0 7.. 7. 2 a 3.Clase 1 : de 2.175. para N datos (X1. Es decir.375. A estas medidas también se les llama estadísticos y su característica fundamental es que son medidas descriptivas y numéricas calculadas a partir de la muestra.. la media se calcula como sigue = * ' * + + + ) .175 a 7.X2 . 6.Describen la ubicación de una observación dentro del conjunto de datos (un dato dentro de la muestra).Nos da una indicación del tamaño Así.95 En estos casos los límites reales están a la mitad entre las fronteras de una clase y la siguiente.775 a 6.4..575 a 9.. Estas medidas son de tres tipos: Medidas de tendencia central. Para ello se han definido medidas que nos dan información de manera sintética sobre si el histograma es simétrico.Es una medida descriptiva numérica de una población no de una muestra. se supone que los parámetros son las cantidades que describen a la población y normalmente no se conocen.375 a 4. un Parámetro.Medidas descriptivas de una distribución de datos.4. si es muy plano o muy puntiagudo..6 a 8. )...15 Clase 4 : de 6.775.8 a 6.1. 3.75 Clase 3 : de 4.2 a 7. los intervalos reales serían:. Es importante tener algunas “medidas” que nos permitan dar una descripción rápida sobre la forma que tiene el histograma de los datos y que lo hace diferente o parecido a otros histogramas.55 Clase 5 : de 7.00 a 3.Medidas de Tendencia Central La Media Aritmética o Media Muestral ( promedio de los valores de la muestra..Nos ayudan a ubicar el centro del histograma. Medidas de dispersión. en este caso..575 y 7. sólo se pueden inferir a partir de los estadísticos.35 Clase 2 : de 3. etc.Nos ayudan a medir que tan disperso esta el histograma respecto a su centro. Estas medidas se denominan medidas descriptivas numéricas y son cantidades calculadas a partir de un conjunto de datos que nos ayudan a crear una imagen mental de su histograma de frecuencia relativa. sobre donde está su centro. 4. Medidas de posición relativa.4 a 4... En forma similar.

Ejemplo: Para el caso de estudio. ya no es posible hacerlo de manera exacta. En el caso de que los datos ya estén agrupados y sea necesario calcular la media y la mediana. / .= - . / + -* + . sin embargo.5 En general la mediana se puede calcular como sigue: . para el ejemplo N=20 (par) . una buena aproximación se puede obtener de la siguiente manera Media de datos agrupados = * =* Donde: Nc = número de clases Xi = marca de la clase i-esima fi = frecuencia relativa de la clase i-esima . Para el caso de las calificaciones: =+ * Un caso más general que la media aritmética es la media ponderada que se calcula como = * =* Donde los coeficientes ai son los "pesos" o ponderaciones que se les da a los diferentes datos xi. +*) / .Es decir. esta media ponderada se La Mediana ( ).Es el número (no necesariamente un dato) para el cual el 50% de los datos son menores o iguales que él. = 6. * Obviamente en el caso particular en que convierte en la media aritmética. = * =* Ejemplo.' .. * = = = = * . Así. .= - * 0 ** = + 10+ 1 = + 1 Media y Mediana de Datos Agrupados Evidentemente las ecuaciones anteriores solo sirven para los datos no agrupados..

.1+4.2+6.1*0. si consideramos datos agrupados.6).9*0.) - Donde: IM = Intervalo mediano = Intervalo de clase en el que cae la mediana el valor que está a la mitad de los datos.Para el ejemplo de las calificaciones: . por lo que una muestra puede ser unimodal o multimodal dependiendo de si tiene una o varias modas.2 + (10-7/9. Esta idea se ilustra en la siguiente figura .305 Mediana de datos agrupados . La Mediana es el punto que divide a la figura en dos áreas iguales. mediana y moda es considerando el “perfil” del polígono de frecuencias como si fuera un figura plana. acumulada antes del IM)/2]*(Amplitud del IM. podemos afirmar lo siguiente: 2 2 2 La Moda es el punto más alto de la figura.05+5. la moda es 6. La Media es el punto de equilibrio (centro de masa) de la figura.7*0. sin embargo. = (lim. Interpretación geométrica de la media. mediana y moda Una manera de visualizar de manera geométrica el significado de media. entonces .5*0.475+8.9 Observación: La moda no siempre es única. del IM) + [N/2.175=6.642 - La Moda. Así.4) = 6.2. el Intervalo mediano es (6. (En datos agrupados corresponde a la marca de clase en la que ocurre el máximo del histograma) La moda no siempre es única. Inf. sin dibujáramos el histograma sobre una lámina plana de material homogéneo y lo recortáramos.5.7. es decir.Se le llama moda simplemente al dato que más se repite en una muestra. para el ejemplo. así. en tal caso se llaman multimodales. = 6.3*0.5)*(1. Para el ejemplo la moda de los datos sin agrupar es 6. podemos tener distribuciones de datos con varias modas.(frec.=2.

deciles y percentiles Los cuartiles.Esta es el recíproco de la suma de los recíprocos de todos los datos.Medidas de posición relativa.. es decir. el valor “medio” de un voltaje de corriente alterna. la media es más afectada que la mediana por datos muy alejados del centro del histograma llamados “outlayers” o datos atípicos que suelen aparecen debido a errores en la toma de datos.4. Mg= * Por ejemplo. + + -* . Por ejemplo.. sin embargo. La media RMS (MRMS o raíz cuadrática media).2. = * .. para la ubicación de un valor medio “pesimista” para la constante beta de un transitor.4# * 3 * Esto significa que la media es más sensible al “brazo de palanca”. 5 = * + * -* - . también pueden ser utilizadas para indicar dispersión El k-ésimo percentil de un conjunto de datos es el valor (no necesariamente un datgo) para el cual el k% de los datos ordenados son menores o iguales que él (queda a la izquierda de él) y el (100-K)% queda a la derecha. por ello se dice que la mediana es una medida más robusta que la media Otras medidas de centralización La media geométrica (Mg). es decir.Esta calcula un “centro” basado en la raíz de orden n del producto de los datos. el valor equivalente de un arreglo de resistencias en paralelo. dividida entre el número de datos.Es la raíz cuadrada de la suma de los cuadrados de cada dato. Cuartiles. ) Por ejemplo.. deciles y percentiles son medidas para indicar la posición relativa de algún dato en particular. 7. . '-* + . es decir.+ + -. La media armónica (MH).

Es importante tener medidas de variabilidad de la muestra. − = . el alumno que obtuvo la calificación de 7. Ejemplo: Para el mismo ejemplo de las calificaciones: Datos no agrupados: Para los datos agrupados: Rango = 8. El cuartil medio. ( ). Las siguientes son algunas de las medidas más utilizadas para medir o indicar el grado de dispersión de una muestra: El rango. mientras que una muestra poco dispersa (o muy concentrada). sin embargo.Existen varias maneras de definir los percentiles. El cuartil inferior (QL). es la mediana En forma similar.. el 70% de los datos son menores o iguales a 7 y el 30 % son mayores que 7..3. es decir. la mayoría de los datos están acumulados muy cercanos a la media. la definición anterior es la más utilizada.6-2.. es decir. ya que en la medida en que una muestra presenta mayor variabilidad. El cuartil superior (QU).es el 75-avo percentil. 7.4.de un conjunto de datos es le 25-avo percentil.Medidas de dispersión o variación. es decir.Es la mitad del rango intercuartílico.2 Rango = 9-2= 7 El Rango Intercuartílico. especialmente para muestras de menos de 100 datos.4 = 6. Una muestra muy dispersa es aquella cuyos datos se encuentran en su mayoría muy alejados de la media. el k-ésimo decil simplemente es el 10*k-ésimo percentil. es decir. puede producir resultados distintos.Es el 50-avo percentil. QU-QL Rango semi-intercuartílico. Ejemplo: En el ejemplo de las calificaciones..Es la diferencia entre el cuartil superior y el cuartil inferior.. las medidas de centralización nos dan un mayor error y son menos representativas.La medida mas simple para medir dispersión es la diferencia entre el mayor y el menor dato de la muestra..0 esta ubicado en el 70-avo percentil de la muestra..

ya que tiene la siguiente propiedad: En distribuciones aproximadamente simétricas el 50 % de los datos queda comprendido entre − y + Ejemplo: ¿Cuántos datos quedan entre Cuartiles: + y para el ejemplo? QL=5.5. Una idea para obtener una medida de dispersión que tome en cuenta cada uno de los datos de la muestra para su cálculo es buscar una manera de totalizar las desviaciones de cada dato respecto al centro de la muestra. . es decir.65. Esta medida tiene la propiedad de que entre .Q10.35 Entre estos dos valores hay 10 datos = 50% de los datos. ' − ) =* Sin embargo..2 Rango semi-intercuartílico: Entonces: − − = 6 −1 1 = 1 + = 6. Sin embargo. ya que las desviaciones positivas cancelan a las negativas. caen aproximadamente el 80% de los datos. se nos podría ocurrir sumar todas las desviaciones (diferencias) de cada dato respecto a la media. Observaciones: Las medidas de dispersión anteriores producen un mayor valor a mediad que es mayor la dispersión de la muestra. ninguna de ellas (en forma similar a la mediana y la moda) incluyen en su cálculo a cada dato de la muestra.5 . QU=7.0. El rango Q90 .Esta medida (Q) es más representativa que las anteriores. de la forma Xies decir.5 + 0. una alternativa mucho más utilizada y que toma en cuenta esto último es la siguiente La varianza (S2). ya que la media es el centro de la muestra. la sumatoria anterior resulta ser cero.+(Q90-Q10). = 6. Una manera de evitar que las desviaciones negativas se cancelen con las positivas es sumar los cuadrados de las desviaciones como sigue. Por ello.Es la diferencia entre el Percentil 90 y el Percentil 10.85 = 5.85 = 7.-(Q90-Q10) y .

5 -3.29 13 30.62 0.19 0. Para el ejemplo de las calificaciones se puede formar la siguiente tabla Suma Xi 2.Esta puede ser calculada directamente de la fórmula de su definición.2 0 5.3 32.4 6.51 -0.4 0.3 30.29 0.98 1. una medida más usada que la desviación media es la desviación típica o desviación estándar y se define como la raíz cuadrada de la varianza como sigue Desviación estándar = = Cálculo de la varianza.39 1.3 6.7 3. especialmente cuando se calculan por separado la media y la sumatoria de los cuadrados de los datos .28 =6.21 0.62 0.71 -0.6 124.71 -0.04 0.8 57..29 0.4 2.01 0.8 60.42 1. podemos obtener * * = − ) = + ( ( − ) −* −* * = − + ( ) −* * = − + ( ) −* = Finalmente: * ( −* − ) Esta última expresión nos da un método para calcular la varianza que puede resultar más sencillo en ocasiones.6 0.29 0. y recordando que obtenemos = *7* ' 8 1+ − 9+ * ) = 61 3.53 Así.26 0.76 7.5 6. sin embargo. Ejemplo.51 -2.2 7..8 64 74 823.5 12.5 0. si desarrollamos el cuadrado dentro de la sumatoria.)2 14.08 0.3 42.- 5.8 54.5 36 39.3 6.81 -3.79 2.5 5.3 49 49 51.3 42.79 0.= * −* ' − ) =* a esta cantidad se le llama la varianza o variancia.56 Xi.2 Xi2 5. Otra alternativa es la de tomar los valores absolutos para obtener lo que se denomina desviación media: Desviación media = − * =* O bien.19 1. .6 5.79 (Xi.8 8 8.7 41 42.7 52. usando la fórmula anterior.93 2.5 7.59 1.21.08 0.08 0.5 7 7 7.09 0. a partir de la tabla.61 -0.81 0.04 0.4 7.7 6 6.5 6.99 1.

la desviación estándar es S=1.6.12 -1.6 -0. Zi = -2.6 7.Otras medidas Asimetría o Sesgo.2 0..3 desviaciones típicas a la izquierda de la media.5 5. usando la fórmula de la definición para la varianza.7 6 6.5.3 -0.4 Otra manera de interpretar la normalización anterior es como una medida de la distancia de un dato Xi respecto a la media en términos o unidades de desviación típica S.En la práctica.5 6..17 0. obtenemos el mismo resultado como se esperaba: = *7* '1 ) = 61 y por lo tanto.17 0.65876 7.6 0.5 7 -2.8 8 8.72 0.7 3. simplemente haciendo el siguiente cambio de variable (para cada dato Xi): − = Así.4 6.4 7.84 0. como se esperaba.96 1. Es muy conveniente tener una medida de dicha asimetría.4 está a 2.Variables normalizadas Toda muestra de datos Xi con media conocida y varianza conocida S2 puede convertirse en una muestra Zi con media cero y varianza 1.08 1.21 1. para nuestro ejemplo: Zi = X i −6.5 6. las distribuciones de frecuencia casi nunca son simétricas. Así..11 0.4 2.4 . dicha medida se puede calcular como sigue .48 7 7. obtenemos la siguiente muestra (Zi) con media cero y varianza 1: Xi Zi 2. Finalmente.De la tabla también se puede observar que la sumatoria de todas las desviaciones es cero.3 6. 7.43 -0.13 0.6 5.4 -0.65876 si le aplicamos la transformación a cada uno de los datos. para el ejemplo. Así. si Xi = 2.3 significaría que el dato 2.17 0.05 0.6 7.5 5.48 0. Al grado de asimetría se le llama sesgo. se dice que es un conjunto de datos normalizados.3 -2. todo conjunto de datos con media cero y una varianza uno.

es decir. Sin embargo. * : =* −8 : −8 . cuartosis o picudés Una manera de medir el grado de "picudés" del polígono de frecuencia es mediante la curtosis. no ocurre necesariamente a la inversa. el sesgo puede ser cero aunque la distribución no sea simétrica Para ilustrar de manera geométrica el significado del sesgo. la cual se calcula como sigue Curtosis = − * =* es decir. Sesgo = * 8 =* es decir. un cálculo aproximado más sencillo puede hacerse como sigue: 8 − Sesgo ≈ ( ) Una propiedad interesante del sesgo es que si la distribución de datos es simétrica. el sesgo vale cero. el cálculo anterior puede ser muy "dispendioso". en las siguientes figuras se muestra el caso de una distribución con sesgo positivo y otra con sesgo negativo: (obsérvese que en general la media siempre es atraída más que la mediana por la cola del histograma) Sesgo positivo Sesgo negativo Curtosis. Sesgo = promedio de los datos normalizados Zi3 Sin embargo.Sesgo = 8 − * =* o bien.

Observe que una distribución que tienen extremos que se extienden mucho se les llama distribuciones Leptocúrticas y aquellas que se terminan bruscamente se les llama platocúrticas. es decir. De manera concreta un momento de enésimo orden se puede calcular como momento simple o como un momento central (o respecto a la media) y expresa como Momento central de orden n= − * =* y el momento simple de enésimo orden Momento simple de orden n= * =* En general. Los estadísticos descritos en las secciones anteriores se calculan para una sola muestra de datos.7. Este estadístico se obtiene a partir de la muestra datos de una población bidimensional (dos variables de interés: x. varianza. 7.8.3 En la siguiente figura se muestran dos distribuciones que tienen una varianza y un sesgo muy parecido pero tienen una curtosis diferente. A continuación se describen algunos estadísticos que permiten establecer relaciones entre dos muestras de datos: La Covarianza (cov(X. sesgo o picudés.Comparación entre dos muestras de datos.Y) o ). por lo cual no pueden ser utilizados para establecer relaciones entre dos muestras de datos o entre datos de dos variables distintas. a partir de dos muestras de datos del mismo tamaño: . o bien.. sesgo y picudés.. a las medidas de la forma * se les denomina momentos de orden n =* de la muestra y tienen el significado ya descrito. y). Curtosis = promedio de las Zi4.Momentos de Datos Estadísticos Los momentos de datos estadísticos son una generalización de las medidas de varianza. 7. mediante la fórmula: . Covarianza y Correlación. Una distribución que tenga una curtosis “normal” se le llama mesocúrtica.O bien.

la correlación entre las variables X. Cuando |r| es cercano a 1.5 36 39.79 0.79 0.19 0.3 42.29 0.6 124. el cual se define como sigue = = − = − Es decir.7 6 6.5 6. en cierto modo.29 0.4 2. el grado de dependencia entre las dos muestras de datos.71 -0. esto significa que si graficamos la muestra Y contra X obtendremos puntos aproximadamente sobre una línea recta.00 Xi.3 30.51 -2.4 7.6 7.2 7.71 -0.8 64 74 823. Mientras que si |r| es próximo a 0. En cada caso concreto.3 6. la correlación es muy débil y las variables están muy poco relacionadas y en este caso la grafica de Y contra X parece una nube de puntos dispersos.99 1.7 41 42.8 54. De la definición se puede obtener directamente la fórmula equivalente = El valor del coeficiente de correlación varía entre –1 y 1 (-1 r 1).76 7.5 5. Ejemplo. Y’.61 -0.7 3. Para evitar esto se recurre a otro parámetro denominado coeficiente de correlación o simplemente correlación. en la siguiente tabla se muestran dichos datos y los cálculos intermedios para obtener cov(X. la correlación es fuerte.3 32.Y) y r.3 49 49 51. Consideremos las calificaciones de los mismos estudiantes en la materia de Física obtenidas en el mismo ciclo escolar. Mientras que la covarianza expresa.19 1.8 60. lo que significa que las variaciones de una de las variables repercuten fuertemente en la otra.8 57.21 .81 -3. Y respectivamente.2 X i2 5.3 42.09 0.56 0.( = − )( − ) Donde son las medias de las variables X.5 6.- -3.39 0. Denominemos por X a los datos de matemáticas y por Y a los de física. Suma Xi 2.51 -0.39 1. En forma similar a como se procedió con la varianza se puede obtener la siguiente fórmula alternativa que en ocasiones puede ser más sencilla de calcular: = − Correlación (r).29 13 30. Y es la covarianza de las variables normalizadas X’.29 0.4 6.6 5.8 8 8. sin embargo tiene el inconveniente de que su valor depende de las unidades en que se expresen las variables.5 7 7 7.59 1. el valor de r indica el tipo de relación entre las variables x e y.5 5.79 2.

66 0.00 56.25 75.3 9.62 0.21.19 2.01 0.69 0.00 23.62 -3.3 Yi2 ( − ) − )( − -4.08 0.69 4.24 12.26 0.53 3.5 12.00 72.69 77.)2 14.48 1.35 12.=6. esto se puede constatar visualmente al graficar los Datos Y contra los datos X como se muestra en la siguiente figura: 12 10 8 datos Y ( 10.2 3.02 -0.25 64.2 5.84 3. el tercer .548/(1.08 0.44 42..19 1.69 1.99 5.79 4.8 6 6.07 10.25 1021.82 -0.210)=0.42 1.81 0.5 8 8.7 52.20 0.36 33.210.33 1.17 -0.77 5.5 5.968 Como puede verse.28 Yi 2.5 4.2 9.25 31.45 6.69 8.6 5.659. En 1977 John Tukey publicó un tipo de gráfico estadístico para resumir información utilizando 5 medidas estadísticas: el valor mínimo. =6.99 2.25 56. la mediana.(Xi.04 0.04 0.10 0.36 3.25 20.04 3. SXY= 3.62 -0.19 0.32 -2.0 3.815.40 2.64 1.18 7.47 1.21 92.2 6.5 7 7.94 4. Por su representación compacta son muy utilizados para representar varios conjuntos de datos en una misma gráfica con una caja y bigotes por cada conjunto de datos.39 2.49 90.49 2.89 1.03 0.36 ) 18.22 -1.94 1.65 1.81 0.00 84.06 -0.47 0.5 8.93 2.5 0.5 7.00 38.87 2.03 0. SY=2. la correlación es alta.69 1.20 0.82 -3.5 0.18 13.41 De donde se obtiene: .69 6. el primer cuartil.86 0. facilitando así la comparación visual entre distintos conjuntos de datos de una misma variable o de variables que nos interesa comparar.0 − 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 datos X 7.25 49.32 0.7 8.38 0.Otras herramientas gráficas Diagramas de Caja y Bigotes Estos diagramas permiten tener una representación visual resumida de los aspectos más relevantes del histograma de un conjunto de datos.69 0.42 67.44 81.08 0.64 36.3 6.06 0.8 9 9.98 1.64 86.548 Por lo tanto r=3. SX=1.9.5 136..62 0.55 3.659*42.32 -1.52 0.05 0.

85 =6. Este tipo de gráfico recibe el nombre de gráfico de caja (boxplot). este rectángulo se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable.= Por otra parte. Como se puede ver en la siguiente figura. Estos segmentos que quedan a izquierda y a derecha de la caja se llaman bigotes - . Ejemplo Para el ejemplo de los datos de la materia de matemáticas se tenía que QL=5.cuartil y el valor máximo. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero QL y QU). Un gráfico de este tipo consiste en un rectángulo (caja).= . de donde se obtiene: . constituye un indicio de simetría de los datos. Q=0. un diagrama de caja y bigotes en general puede lucir como se muestra en la siguiente figura: ? ? 9 ? 9 ? 99 . QU=7.5. Para esto calcula 4 barreras. indica que los datos son negativamente asimétricos.5. pero si existen valores de la variable comprendidos entre las barreras interiores y exteriores se consideran valores atípicos y se indican con un asterisco “*”. si la mediana está considerablemente más cerca de QL indica que los datos son positivamente asimétricos y si está más cerca d QU. De esta manera. de largo igual al rango intercuartílico (2Q) .2.< - > Los bigotes se dibujan con líneas continuas solamente hasta los límites recomendados por Tukey:.< 9 . Si existieren valores fuera de las barreras exteriores se consideran valores todavía más atípicos y se indican con un círculo “ ”. este tipo de gráfico nos proporciona información con respecto a la simetría o asimetría de la distribución: si la mediana está en el centro de la caja o cerca de él. el valor mínimo de la variable y el valor máximo son los extremos de los bigotes. dos interiores y dos exteriores: Bii = Barrera interior inferior = QL – 3Q Bis = Barrera interior superior = QU + 3Q Bei = Barrera exterior inferior = QL – 6Q Bes = Barrera exterior superior = QU + 6Q Si se consideran los valores de la variable comprendidos entre las dos barreras interiores.

5 8 8. en el cual descubrió que la minoría de la población poseía la mayor parte de la riqueza y la mayoría de la población poseía la menor parte de la riqueza. por lo cual el bigote derecho se prolongará solo hasta Xmax=8.75 que es superior al dato máximo. El Dr.5 10 En el mismo diagrama anterior se muestra el diagrama de caja para los datos de la materia de física en la parte superior. ya que permiten identificar visualmente en una sola revisión las minorías de características vitales a las que es importante prestar atención y de esta manera utilizar todos los recursos necesarios para llevar a cabo una acción de mejora sin malgastar esfuerzos ya que con el análisis descartamos las mayorías triviales.5 4 4.Bii=2.5 7 7. El nombre de Pareto fue dado en honor al economista italiano Wilfredo Pareto (1848-1923) quien realizó un estudio sobre la distribución de la riqueza.5 5 5. Según este concepto.5 9 9. obteniéndose lo que hoy se conoce como la regla 80/20.6 Bis=9. Diagramas de Pareto Es una variante del histograma que se utiliza para priorizar la importancia de las causas que generan problemas de acuerdo a la frecuencia con que se presentan.5 6 6. por lo que existen dos datos menores que esta barrera y se considerarán atípicos por lo tanto el bigote izquierdo se extenderá hasta el tercer dato X3=3. Algunos ejemplos de tales minorías vitales serían: . Joseph Juran. uno de los pioneros del control de calidad aplicó este concepto a la calidad. Algunas comparaciones saltan a la vista: Las calificaciones de Física son más dispersas que las de mátemáticas El promedio general de Física es más alto que en matemáticas En física todos los alumnos están dentro de rangos “normales”.95. Los diagramas de Pareto son una herramienta sencilla pero poderosa en el control de la calidad.6 el diagrama de caja y bigotes correspondiente queda como se muestra en la parte inferior de la siguiente figura Física Matemáticas 2 2. si se tiene un problema con muchas causas. mientras que en matemática hay dos alumnos excepcionalmente bajos de calificación en relación al resto del grupo.5 3 3. podemos decir que el 20% de las causas producen el 80 % del problema y el 80 % de las causas solo producen el 20 % del problema.

los diagramas de Pareto pueden utilizarse para: Identificar áreas de oportunidad para mejorar Identificar un producto o servicio para la mejora de su calidad. o características de la calidad causantes del grueso de desperdicio o de los costos de repetir trabajos. La minoría de elementos que representan la mayor parte del costo de un inventario Específicamente. Al finalizar la jornada. Rel. Ejemplo. un inspector revisa cada accesorio conforme sale de producción registrando sus defectos de acuerdo con dichos tipos. Las categorías son datos cualitativos y suelen ser una clasificación de causas de errores o defectos en los productos o los servicios. La minoría de productos que representan la mayoría de las ganancias obtenidas.La minoría de clientes que representan la mayoría de las ventas. . requiere categorías en lugar de intervalos de clase. se reviosaron 94 accesorios y se la siguiente tabla: Tipo de defecto Defecto Frecuencia Frecuencia Frec. (antes y después de los cambios) Un diagrama de Pareto. Llamar la atención a los problemas o causas de una forma sistemática. Un fabricante de accesorios plásticos desea analizar cuáles son los defectos más frecuentes que aparecen en las unidades al salir de la línea de producción. La minoría de causas de rechazo que representa la mayoría de quejas de los clientes. procesos. empezó por clasificar todos los defectos posibles en sus diversos tipos: Tipo de Defecto Color Dimensiones Acabado Fragilidad Desbalanceo Aplastamiento Incompleto Alabeo Otros Detalle del Problema El color no satisface los requerimientos del cliente Muy ovalado Aparición de rebabas El accesorio se quiebra en la instalación El accesorio requiere contrapesos El accesorio se aplasta en la instalación Falta alguno de los componentes metálicos Nivel de alabeo no aceptable Otros defectos Posteriormente. La minoría de vendedores que está vinculada a la mayoría de partes rechazadas. La minoría de problemas causantes del grueso del retraso de un proceso. a diferencia de un Histograma. La minoría de productos. Buscar causas principales de los problemas y establecer la prioridad de las soluciones Evaluar los resultados de los cambios efectuados a un proceso comparando diagramas de Pareto sucesivos obtenidos en momentos diferentes. Para esto.

Aplastamiento Fragilidad Dimensiones Color Alabeo Acabado Incompleto Desbalanceo Otros Total 40 35 8 3 3 2 2 1 0 94 relativa 42.1 % 2.1 % 1. La categoría “otros” siempre debe ir al final. es graficar los costos que implica resolver cada problema en lugar de su frecuencia.2 % 8.7 % 96. sin importar su valor.6 % 37.5% 3. de manera que si se eliminan las causas que provocan estos dos tipos de defectos desaparecería la mayor parte de los defectos.2 % 2.9 % 100 % 100 % La columna de frecuencia acumulada hace más evidente cuales son los defectos que aparecen con mayor frecuencia. Podemos ahora representar los datos en un histograma como el siguiente: 120 100 80 Frec Rel Frec Rel Acum 60 40 20 tro s O Al ab eo Ac ab ad o In co m pl et D es o ba la nc eo C ol or Ap la st am ie nt o Fr ag ilid D ad im en si on es 0 Podemos observar que los 2 primeros tipos de defectos se presentan en aproximadamente el 80 % de los casos.8 % 88.3 % 91.2 % 3.8 % 98. Otro análisis complementario y sumamente útil e interesante. Se verifica el principio de Pareto: La mayoría de los defectos encontrados en el lote pertenecen a la minoría (solo 2) de los tipos de defectos (los “pocos vitales”). con lo cual podríamos construir un diagrama similar a partir de ordenar las causas por sus costos. Obsérvese que se ha ordenado la tabla en orden decreciente de frecuencia.6 % 79. .1 % 0% 100 % acumulada 42.5 % 94.

en ocasiones ocurre que dos variables están relacionadas entre sí. . los cuales se pueden representar en una gráfica para ilustrar de manera visual el tipo de dependencia involucrada. dado que cualquier proceso de medida es susceptible en mayor o menor medida a errores. y una variable independiente x. de esta manera se tienen N puntos. en observaciones previas o en algún razonamiento empírico.10.7. y habrá que considerar que todos los puntos tienen asociado algún margen de error. En este caso se define una variable dependiente y. Se propone un modelo de dependencia a validar o a “ajustar” en términos de una función matemática: = ' @ *@ @ @ ) donde * @ @ @ son los parámetros cuyos valores “ajustan” la forma exacta de la curva para que se parezca lo más posible a los puntos experimentales.—Regresión Lineal Como se ilustró en el cálculo de la covarianza.yi) se puede considerar como las coordenadas de un punto en un plano. * 3 >0 9 9 9 9 9 9 9 9 3"'>@ *@ @A@ ) 9 9 9 9 9 9 9 9 9 9 + Sin embargo. no se debe caer en el extremo de buscar una curva que pase exactamente por cada punto experimental. luego se toman mediciones agrupadas en pares: ' * @ * )@ ' @ )@ @ ' @ ) Cada par de mediciones (xi. La exactitud está dada por la exigencia de que la curva pase lo más cerca posible de cada punto experimental. Este tipo de situaciones es común en la medición experimental de variables físicas en las que se desea establecer o validar algún modelo basado en alguna teoría. La mejor solución debe ponderar un equilibrio entre simplicidad y exactitud: La simplicidad está dada por la elección del tipo de modelo = ' @ * @ @ @ ) lo más simple posible y con el menor número de parámetros (n lo más pequeño posible).

la suma podría ser muy pequeña aún si existen errores de gran magnitud. la relación y = mx + b no va a cumplirse exactamente. = B − = + − En la siguiente figura se ilustra esta diferencia: * 3 >0 9 9 9 9 B 9 9 9 9 9 9 9 9 9 > + Una primera idea sería minimizar la suma total de los errores . Cálculo por mínimos cuadrados de la pendiente y la ordenada al origen: Estrategia: La estrategia utilizada para buscar la recta que “mejor” se ajuste a los datos experimentales fue propuesta por Gauss y consiste en buscar la recta que minimice la + y la ordenada diferencia o error entre cada ordenada predicha por la recta B = obtenida experimentalmente . pero como algunos son positivos y otros son negativos. La expresión teórica del modelo matemático será. b=ordenada al origen. por ello se busca más bien: Minimizar la suma de los cuadrados de los errores: = =* La minimización se hace respecto a los parámetros del modelo f( ). sin embargo. por lo tanto: = + + Se acostumbra por simplicidad suponer que ei es una variable aleatoria Normal con media cero y varianza conocida σ . En el caso lineal: = ( = =* =* + − ) . donde los parámetros a ajustar son m=pendiente de la recta. es decir. Las distancias verticales entre el valor observado y el valor dado por la recta para cada valor de x reciben el nombre de residuos. esta diferencia se denota como . es demasiado simple para la mayoría de los casos. Un modelo ligeramente más completo es una recta que no necesariamente pase por el origen: = + . Como es de suponerse.El modelo más simple es una línea recta que pase por el origen: = * . y se suelen denotar por ei.

Derivando respecto a m e igualando a cero ∂( ∂ = ∂ ) + − ∂ =* ( = )= + − =* de donde + = =* =* =* Derivando respecto a b e igualando a cero ∂ = ∂ ∂( ) + − ∂ =* ( = )= + − =* de donde + = =* =* hemos obtenido el sistema de dos ecuaciones lineales con las dos incógnitas m. = = = − = Por lo tanto el modelo lineal o recta de regresión queda: = + − = − . denominado conjunto de ecuaciones normales: =* =* = =* =* =* Resolviendo para m. =* = =* =* − =* − =* =* =* =* Las ecuaciones anteriores también se pueden escribir como sigue : − = − = − . b obtenemos − =* = − =* =* . b.

Si estamos interesados en estudiar la variación en la tensión sistólica en función de la edad del individuo. deberemos considerar como variable dependiente la tensión y como variable independiente (predictora) la edad. Nº Tensión Edad Nº Tensión Edad 1 114 17 36 156 47 2 134 18 37 159 47 3 124 19 38 130 48 4 128 19 39 157 48 5 116 20 40 142 50 6 120 21 41 144 50 7 138 21 42 160 51 8 130 22 43 174 51 9 139 23 44 156 52 10 125 25 45 158 53 11 132 26 46 174 55 12 130 29 47 150 56 13 140 33 48 154 56 14 144 33 49 165 56 15 110 34 50 164 57 16 148 35 51 168 57 17 124 36 52 140 59 18 136 36 53 170 59 19 150 38 54 185 60 20 120 39 55 154 61 21 144 39 56 169 61 22 153 40 57 172 62 23 134 41 58 144 63 24 152 41 59 162 64 25 158 41 60 158 65 26 124 42 61 162 65 27 128 42 62 176 65 28 138 42 63 176 66 29 142 44 64 158 67 30 160 44 65 170 67 31 135 45 66 172 68 32 138 45 67 184 68 33 142 46 68 175 69 34 145 47 69 180 70 35 149 47 .− Donde: = − − = = = Ejemplo. La siguiente tabla muestra los datos de 69 pacientes de los que se conoce su edad y una medición de su presión sistólica.

la recta de regresión de mínimos cuadrados correspondientes. por lo que el modelo de regresión lineal queda = ' (% + '! !& En la siguiente figura se muestra. resulta: = "# ! .Aplicando los cálculos anteriores a este caso. 190 180 170 Tensión 160 150 140 130 120 110 100 10 20 30 40 Edad 50 60 70 80 . = "% $ . de donde m=0.35.98. = &"$' . b=103. superpuesta al diagrama de dispersión. = & & .