Introducción La idea original de la "estadística" era la recolección de información sobre y para el "estado".

La palabra estadística se deriva directamente, no de raíces griegas o latinas clásica, sino de la palabra italiana estado. El nacimiento de la estadística se ubica a mediados del siglo XVII. Un ciudadano común llamado Juan Graunt, nacido en Londres, comenzó a revisar la publicación semanal de la iglesia, la cual era distribuida en la parroquia local y que listaba el número de nacimientos, bautizos, y de muertes en cada parroquia. Las cifras de mortalidad también enumeraban las causas de las muertes. Graunt que era comerciante organizó estos datos en la forma que hoy llamamos estadística descriptiva, la cual fue publicada como Observaciones Naturales y Políticas hechas sobre la tasa de Mortalidad. Luego de la publicación, fue elegido como miembro de la sociedad real. De esta forma, la estadística tomo prestados algunos conceptos de la sociología, tal como el concepto de población. El análisis exploratorio de datos utiliza técnicas gráficas y numéricas para estudiar patrones de conducta y el origen de los mismos. Las técnicas de estadística descriptiva normalmente usadas son: Distribución de frecuencia; Histogramas, Boxplot, Gráficos de Dispersión, diagramas de barras y errores, diagramas de diagnóstico. Cuando se examina la distribución de los datos, se debe detectar algunas características importantes, tales como forma, ubicación, variabilidad, y valores inusuales. Mediante una cuidadosa observación de los patrones en los datos, se puede generar conjeturas acerca las relaciones entre variables. La noción de cómo una variable puede estar asociada a otra esta inmersa en casi todo el análisis estadístico, lo que se puede realizar por ejemplo, mediante el análisis regresión lineal. Los datos deben ser recolectados acorde al desarrollo de un plan que garantice que la información es válida para los objetivos planteados. El plan debe identificar las variables importantes que estén relacionadas con los objetivos, y especificar cómo estas van a ser medidas. Los datos son conocidos como información cruda y no como conocimientos en sí. La secuencia que va desde los datos hasta el conocimiento aparece en la figura siguiente. Los datos se convierten en información, cuando se hacen relevantes para la toma de decisión de un problema. La información se convierte en hecho, cuando es respaldada por los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimiento instrumental es expresado junto con un cierto grado estadístico de confianza .

1

La figura anterior representa el hecho que a medida que la exactitud de un modelo estadístico aumenta, el nivel de mejoramiento en la toma de decisión aumenta. Esta es la razón del por que necesitamos la estadística. La estadística se creo por la necesidad de poner conocimiento en una base sistemática de la evidencia. Esto requirió un estudio de las leyes de la probabilidad, del desarrollo de las propiedades de medición, relación de datos. La inferencia estadística intenta determinar si alguna significancia estadística puede ser adjudicada, luego que se permita una variación aleatoria como fuente de error. Una inteligente y crítica inferencia no puede ser hecha por aquellos que no entiendan el propósito, las condiciones, y la aplicabilidad de las de diversas técnicas para juzgar el significado.

2

Análisis Exploratorio de Datos La finalidad del Análisis Exploratorio de Datos (AED) o Estadística Descriptiva es examinar los datos previamente a la aplicación de cualquier técnica estadística. De esta forma el analista consigue un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. El Análisis Exploratorio de Datos proporciona métodos sencillos para organizar y preparar los datos, detectar fallas en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes. En este curso se va a dar una breve visión general de dicho conjunto de técnicas exponiendo, brevemente, cuál es su finalidad, ilustrada con ejemplos. Las preguntas más frecuentes cuando tenemos un conjunto de datos son: ¿Existe algún tipo de estructura (normalidad, multimodalidad, asimetría, curtosis, linealidad, homogeneidad entre grupos, homocedasticidad, etc.) en los datos que se van a analizar? ¿Existe algún sesgo en los datos recogidos? ¿Hay errores en la codificación de los datos? ¿Cómo se sintetiza y presenta la información contenida en un conjunto de datos? ¿Existen datos atípicos (outliers)? ¿Cuáles son? ¿Cómo tratarlos? ¿Hay datos ausentes (missing)? ¿Tienen algún patrón sistemático? ¿Cómo tratarlos? Los objetivos de este curso son: 1) Definir qué es el Análisis Exploratorio de Datos (A.E.D.) y cuáles son sus objetivos. 2) Indicar cuáles son las etapas a seguir en la realización de un A.E.D. 3) Seleccionar los métodos gráfico y numérico apropiados para examinar las características de los datos y/o relaciones de interés. 4) Comprobar si se verifican algunas hipótesis de interés en los datos (normalidad, homocedasticidad). 5) Identificar casos atípicos univariantes. 6) Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial. ¿Qué es el análisis exploratorio de datos? El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes (normalidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier análisis estadístico. 3

Etapas del Análisis Exploratorio de Datos Para realizar un A.E.D. conviene seguir las siguientes etapas: 1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística. 2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los datos. 3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación existente entre ellas. 4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas técnicas estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. 5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que puedan ejercer en análisis estadísticos posteriores. 6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados. Preparación de los datos El primer paso en un A.E.D. es hacer accesible los datos a cualquier técnica estadística. Ello conlleva la selección del método de entrada (por teclado o importados de un archivo) y codificación de los datos así como la de un paquete estadístico adecuado para procesarlos. Los paquetes estadísticos son conjuntos de programas que implementan diversas técnicas estadísticas en un entorno común. Algunos de los más utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA, MINITAB, S-PLUS, EVIEWS, STATGRAPHICS, MATLAB, R y la planilla Excel. (estos dos últimos los usaremos en este curso). La codificación de los datos depende del tipo de variable. Los paquetes estadísticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numéricos, nominales, ordinales, etc). La inmensa mayoría de los paquetes estadísticos permite realizar manipulaciones de los datos previas a un análisis de los mismos. Algunas operaciones útiles son las siguientes: Combinar conjuntos de datos de dos archivos distintos Seleccionar subconjuntos de los datos Dividir el archivo de los datos en varias partes Transformar variables Ordenar casos Agregar nuevos datos y/o variables Eliminar datos y/o variables Guardar datos y/o resultados

Finalmente, y con el fin de aumentar la utilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de códigos en el que se detallen los 4

Uno de los parámetros mas utilizado es el promedio o media aritmética y la desviación estándar designados por µ . por ejemplo el número de alumnos de su colegio. Todos los paquetes anteriormente citados permiten esta posibilidad. Como por ejemplo si se realiza un estudio sobre los productos que hay en el mercado. son los objetos básicos sobre los cuales se ejecuta el estudio o el experimento. el paso siguiente consiste en realizar un análisis estadístico gráfico y numérico de las variables del problema con el fin de tener una idea inicial de la información contenida en el conjunto de datos. Por ejemplo. así como también detectar la existencia de posibles errores en la codificación de los mismos. Población infinita: cuando el número de elementos que la forman es infinito. Es decir. una persona. σ 2 respectivamente. partido al que va a votar un individuo. un pote de semillas. todas las piezas terminadas en una cadena de montaje. consumo de gasolina. Por ejemplo. se denomina parámetro. un animal. incluyendo una descripción de los elementos. Población: es el universo de objetos al cual se refiere el estudio que se pretende realizar. cuando consideramos toda la población. los coches de una determinada marca. Observación o dato: a cualquier valor cualitativo o cuantitativo asociado a una variable Variable: es cualquier característica objeto de estudio en la población. etc. es el conjunto de todos los elementos de interés para un determinado problema. Unidad de Muestreo: Una unidad es una persona.nombres de las variables utilizadas. etc. A los elementos que conforman la población se les llama unidad observable o unidad de observación. una planta o una cosa que son estudiadas por un investigador. Se les llama variables. ya que pueden variar de un individuo a otro. el grosor de una pieza. peso al nacer. los nacidos en un día determinado. Una medida descriptiva relacionada. 5 . Análisis estadístico unidimensional Una vez organizados los datos. Es importante que el investigador defina total y cuidadosamente a la población antes de recolectar la muestra. Hay tantos y de tantas calidades que esta población podría considerarse infinita. o de su curso. Muestra: Un subconjunto de una población o universo que se selecciona para ser estudiada ya que la población es demasiado grande como para analizarla en su totalidad. Por ejemplo. Los parámetros generalmente se designan por letras griegas. Población finita: cuando el número de elementos que la forman es finito. una muestra de suelo. su tipo y su rango de valores. o tan grande que pudiese considerarse infinita. Para iniciar el estudio del análisis estadístico se definen algunos conceptos propios de la terminología de la Estadística Descriptiva o análisis exploratorio de datos. su significado así como las fuentes de donde se han sacado los datos.

Si se encontrara que el valor fuera de $50000. entonces la variable se denomina unidimensional. En lugar de esto. el gasto promedio por cliente de su tienda durante el año pasado. es decir. el sexo. Se dice que las variables nominales que toman o pueden tomar uno de dos valores distintos – como hombre o mujer – son dicotómicos o binarios 6 . El puede calcular el gasto promedio de los miles de clientes que compraron en su tienda durante el año pasado. Variables Cualitativas Una variable cualitativa es aquella cuyos valores corresponden a conceptos. se denomina estadístico. y la escala de medida de la variable a analizar. Si se observan simultáneamente dos características a cada unidad observable. Se distinguen dos tipos de variables: cualitativa y cuantitativa. por ejemplo. si no se denomina variable nominal. Variables Cualitativas y Cuantitativas El tipo de análisis a realizar depende del tipo. y así sucesivamente.Una medida descriptiva relacionada con una muestra. Las variables nominales son aquellas que los valores se registran dentro de categorías o clases. categorías atributos o cualidades como. estos $50000 serían su estimación. Los estadísticos tienen dos fines. estado civil. la media poblacional µ. la profesión de una persona. entonces la variable se denomina bidimensional o bivariada. Si en dichas categorías hay un orden subyacente se denomina variable ordinal. el podría utilizar una estimación de la media poblacional calculando la media de una muestra aleatoria de clientes. etc. nivel de estudio. Describen la muestra que está disponible y sirven como aproximación a los parámetros correspondientes de la población. POBLACION PARAMETROS MUESTRA ESTADISTICOS Ejemplo: Suponga que el gerente de una tienda desea saber el valor de µ. Si se observa una sola característica a cada unidad observable. donde no tiene sentido el orden.

La suma de las frecuencias absolutas es siempre igual a n. 7 . llamados clases ( ci ) y el número de veces que cada valor se repite. n = ∑ ni i =1 k donde k es el número de clases. Estado Civil 1 2 3 Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo 4 5 6 7 8 9 10 11 Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo Viudo 12 13 14 15 1 Soltero Soltero 2 Soltero Soltero 3 Soltero Soltero 4 Soltero Soltero 5 Soltero Soltero 6 Soltero Soltero 7 Soltero Soltero 8 Soltero Soltero 9 Soltero Soltero 10 Soltero Soltero 11 Soltero Soltero 12 Soltero Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Casado Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado Soltero Soltero Casado Casado 13 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 14 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 15 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 16 Soltero Soltero Separado Soltero Soltero Casado Casado Casado Casado Casado Separado Soltero Soltero Casado Casado 17 Soltero Viudo 18 Soltero Viudo 19 Soltero Viudo 20 Soltero Viudo Soltero Soltero Soltero Soltero Soltero Soltero Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Casado Casado Casado Casado Casado Casado Soltero Soltero Soltero Soltero Soltero Soltero Casado Casado Soltero Casado Casado Casado Soltero Casado Casado Casado Soltero Casado Casado Casado Para comprender y resumir estos datos. La tabla 1 muestra el conjunto de datos obtenidos de esta variable.. lo que se denomina tabla de frecuencias. Tabla 1.Suponga que se extrae una muestra de 300 clientes de un supermercado y se les consulta por el estado civil de ellos. siendo n el número total de casos. La tabla se denomina tabla de frecuencias. Consideremos el siguiente ejemplo con la variable nominal estado civil Ejemplo 1.Los datos o elementos de una variable cualitativa se agrupan en forma natural en diferentes categorías o clases y se cuenta el número de datos que aparecen en cada una de ellas. es útil presentarlos en una tabla o gráficos en la que aparezca los valores posibles de la variable. A ese número se le denomina frecuencia absoluta (ni) o simplemente frecuencia.

hi = Se cumple que ∑ hi = 100 i =1 k ni *100 = f i *100% n Tabla 1.1 Tabla de frecuencia variable Estado Civil Contar de Estado civil Estado civil Total Casado Separado Soltero Viudo Total general 305 4 77 16 402 E s ta d o C iv il 300 frecuencia absoluta 0 50 100 150 200 250 C a sa d o S e p a ra d o S o lte ro V iud o C a te g o ría s Figura 1.La frecuencia relativa ( fi ) Expresa los resultados en proporciones. 8 .1 Grafico de barra de la variable Estado Civil (Entregado por defecto por el software). fi = se cumple ∑ f i = 1 i =1 k ni n Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el número total de observaciones n.

La Frecuencia acumulada Ni es el número de elementos de la población o muestra cuya modalidad es inferior o equivalente a la modalidad ci. es decir es la suma de las frecuencias absolutas de la clase ci y las anteriores a ella. Los gráficos utilizados en este caso son los de barra y circulares. de la frecuencia absoluta y relativa tiene sentido en este caso la frecuencia absoluta acumulada y la frecuencia relativa porcentual acumulada. Para el gráfico circular se utiliza la sentencia: “pie” nombre de la tabla de frecuencia igura 1.2 Grafico Circular de la variable Estado Civil (Entregado por defecto por el software). es útil presentarlos en una tabla o gráficos similares a los obtenidos para las variables nominales. Las tablas de resumen o de frecuencias además.Suponga que la distribución de frecuencia del Nivel de Estudio (variable cualitativa ordinal) de cierta ciudad en un determinado año es: Nivel de estudios Enseñanza media incompleta Sin estudio Enseñanza media completa Enseñanza superior completa Enseñanza superior completa Enseñanza superior completa Sin estudio Enseñanza media incompleta Enseñanza superior completa Enseñanza superior incompleta Sin estudio Estudios basicos Sin estudio Enseñanza media incompleta Sin estudio Enseñanza superior incompleta Enseñanza superior incompleta Sin estudio Estudios basicos Sin estudio Sin estudio Sin estudio Estudios basicos Sin estudio Estudios basicos Enseñanza media incompleta Enseñanza media completa Enseñanza media incompleta Enseñanza media completa Enseñanza media incompleta Enseñanza media incompleta Enseñanza media incompleta Enseñanza media incompleta Enseñanza superior completa Enseñanza media incompleta Enseñanza media incompleta Estudios basicos Enseñanza superior completa Enseñanza superior incompleta Enseñanza superior completa Sin estudio Estudios basicos Estudios basicos Enseñanza superior completa Enseñanza superior completa Enseñanza superior completa Enseñanza superior incompleta Enseñanza media incompleta Estudios basicos Enseñanza media incompleta Para resumir los datos ordinales.Gráfico circular. Ejemplo 2.. N i = ∑ n j = N i −1 + ni j =1 i La frecuencia relativa porcentual ( Hi ) define el porcentaje de individuos menores o iguales a la clase i-ésima Hi = Ni * 100 n 9 .

o bien el 64% de las 50 personas tienen enseñanza media O bien sin necesidad de cambiar el nombre de las columnas y para ordenar desde sin estudio hasta estudios superiores completos se utiliza [c(se escriben los número que corresponden al orden alfabético separados por comas)] N iv e l d e E s tu d io s 12 Nivel de Estudios Enseñanza media incompleta 10 frecuencia absoluta anza superior completa 8 Enseñanza med 2 4 6 za superior incompleta Sin estudio s in e s t e s tb a s e ns m e d c o m C la s e s e ns s up c o m 0 Estudios basicos Figura 1. La tabla de frecuencia resultante es: Tabla 1.Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el número total de observaciones n. la tercera clase dice que existen 13 personas con enseñanza media incompleta.2 Variable Nivel de Estudio Nivel de estudios Sin estudio Estudios basicos Enseñanza media incompleta Enseñanza media completa Enseñanza superior incompleta Enseñanza superior completa Total general ni 11 8 13 3 5 10 50 hi 22% 16% 26% 6% 10% 20% 100% Ni 11 19 32 35 40 50 Hi 22% 38% 64% 70% 80% 100% Por ejemplo.3 Gráfico de barra y circular de la variable Estado Civil 10 . que corresponde al 26% del total. que 32 personas tienen a lo más enseñanza media incompleta.

el número de paneles producidos en un día. personas Corr. basada en el tipo de valores que puede tomar.3 Tabla de datos del Nº de personas que viven en la casa Nº de Nº de Nº de Nº de Nº de Corr. Una primera clasificación. personas Corr.El número de personas que viven en la casa de una muestra de 50 familias son: Tabla 1. por ejemplo. 11 . personas 1 1 11 4 21 6 31 4 41 3 2 2 12 6 22 5 32 2 42 1 3 1 13 5 23 2 33 1 43 2 4 3 14 4 24 2 34 3 44 5 5 4 15 2 25 2 35 4 45 6 6 5 16 2 26 1 36 5 46 4 7 2 17 3 27 3 37 2 47 3 8 1 18 3 28 2 38 2 48 2 9 3 19 1 29 5 39 1 49 1 10 5 20 1 30 6 40 2 50 3 Cuando el conjunto de datos discretos es pequeño se puede construir tablas de frecuencia donde cada clase es uno de sus valores numéricos. personas Corr. por ejemplo. Ejemplo 3. es decir. Para tabular y graficar en Excel esta variable discreta se realiza en forma similar a las variables ordinales. – y variables cuantitativas continuas que son aquellas que pueden asumir cualquier valor en algún intervalo real. permite distinguir entre variables cuantitativas discretas que son aquellas donde el conjunto de valores que puede asumir la variable se puede enumerar.Variables Cuantitativas Variables cuantitativas son aquellas que se pueden expresar numéricamente. el cual permite describir diferentes características del conjunto de datos. se tratan de forma similar a las variables cualitativas ordinales. pueden tomar valores reales. personas Corr. Las variables cuantitativas discretas con un número de valores que se repite. La construcción de la tabla de frecuencia y los gráficos de barra y circular para este tipo de datos es similar a la de las variables cualitativas ordinales. La diferencia es que en estos casos se puede realizar un análisis descriptivo numérico. la temperatura aplicada en el proceso de producción de los paneles. Este conjunto puede ser finito o infinito..

Gráfico de Barra Nº de personas que viven en casa Se observa que en el 28% de las casas de los encuestados viven dos personas y que solo en un 8% de las casas viven 6 personas.08 hi 20 28 18 12 14 8 Ni 10 24 33 39 46 50 Hi 20 48 66 78 92 100 Nº de personas que viven en una casa 14 frecuencia absoluta 0 2 4 6 8 10 12 1 2 3 Clases 4 5 6 Figura 1.Tabla de frecuencias del Nº de personas que viven en casa Nº de Personas 1 2 3 4 5 6 ni 10 14 9 6 7 4 fi 0. La escala de intervalo. (El análisis numérico lo veremos más adelante). Nº de personas que viven en una casa 2 1 6 3 5 4 Figura 1.20 0.28 0.4.Tabla 1. además de todas las propiedades de la 12 . Gráfico de Barra Nº de personas que viven en casa Las variables cuantitativas continuas generalmente se miden por escala de intervalo o por escala de razón.14 0.4.18 0.12 0.5.

Para decidir la amplitud de los intervalos. comparar mediciones mediante un cuociente. es propio de la medición hecha. la posible existencia de varias modas en la misma que pongan de manifiesto la presencia de diversos grupos homogéneos en la muestra. Ubicación en una carretera respecto de un punto de referencia (Kilómetro 85 Ruta 5). en otro caso 2. Utilizar muchos o muy pocos intervalos puede ser poco informativo. hace que tenga sentido calcular diferencias entre las mediciones. La escala de razón permite. ojivas y boxplots con el fin de estudiar la forma de la distribución y analizar. La tabla de frecuencia o distribución de frecuencia ordena los datos y estos se dividen en clases o intervalos de clases mutuamente excluyentes (sin elementos comunes) y se registra el número de observaciones en cada clase. Cantidad de litros de agua consumido por una persona en un día. Decidir el número de intervalos o categorías o clases. será necesario agrupar en intervalos los valores de la variable. Localizar la observación mayor y menor. Ejemplos de variables con esta escala son: Temperatura de una persona. en particular. Es arbitrario. Nivel de aceite en el motor de un automóvil medido con una vara graduada. la escala de razón tiene un cero real. Pero se pueden seguir las siguientes reglas: Algunas regla para agrupar los datos en intervalos o categorías 1. 13 . entre 5 y 15 intervalos deberían ser suficientes. Cuando el tamaño de la muestra y el recorrido de la variable son grandes. necesitaremos decidir ¿cuántos intervalos queremos? Observación No existen criterios óptimos para elegir la cantidad de intervalos. En general. Tablas estadísticas o tablas de frecuencias Distribución de frecuencias Si la variable analizada es continua o discreta con un elevado número de valores distintos se tabula como una distribución de frecuencias agrupadas y se representa gráficamente mediante histogramas. Por otra parte. Ejemplos de variables con la escala de razón son: Altura de personas. fijo. Velocidad de un auto en la carretera. es decir el valor máximo y el valor mínimo de las observaciones. polígonos de frecuencias. Sobrepeso respecto de un patrón de comparación. si n no es grande k ≈ 1 + 3. no sujeto a variaciones.escala ordinal. que puede ser el número deseado de clases o si n es el número de observaciones se puede utilizar como referencia: k≈ n .22log(n). La escala de intervalo tiene un cero que se establece por convención y puede tener variaciones. además de lo de las otras escalas.

es decir es la sume de las frecuencias absolutas de la clase ci y las anteriores a ella.…. l1 =l0 + a. Se cumple que ∑n i =1 k i = n. r = x máx − x mín 4. Hallar la marca de clase de cada intervalo. 5. 14 . hi = Se cumple que ∑ hi = 100 i =1 k ni *100 n Frecuencia acumulada Ni al número de elementos de la población o muestra cuya modalidad es inferior o equivalente a la modalidad ci.3. se designa por ni. lk = l0 + ka. etc. Esta diferencia se denomina rango o recorrido de los datos. Ni = ∑ n j j =1 i También se puede determinar la frecuencia relativa acumulada porcentual. Se define por xi = li + li − 1 2 Distintos tipos de frecuencias Cuando se resume la información en una tabla a cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido. Hallar la diferencia entre estos dos valores (restar máximo menos el mínimo). Frecuencia relativa porcentual de la clase ci es el cuociente fi entre la frecuencia absoluta de la clase y el número total de observaciones n. Hallar la amplitud de la clase o del intervalo de clase ai se define por: a= xmáx − xmín k Así la división en clases o intervalos podría tomarse: l0 =xmín . su proporción con respecto a otros valores de la variable. Estos números se denominan frecuencias: Así tenemos los siguientes tipos de frecuencia: Frecuencia absoluta de la clase ci es el número de elementos en la población o muestra perteneciente a la clase ci.

Abs.lk Frec.00 10.lj … ck lk-1 -. Porcentual hi f1= n1/n*100 fj=nj/n*100 fk=nk/n*100 100% Frec. 64] 5 (64 .00 1 100 Ni 3 9 17 29 48 57 60 Hi 5.00 31.00 13. la amplitud es de por lo menos 8.Los siguientes datos son los ingresos anuales de 60 ejecutivos de empresas en Estados Unidos.13 0.33 20. Abs.28 .33 48. 94] ni 3 6 8 12 19 9 3 60 fi 0.00 xi 29 39 49 59 69 79 89 15 . 54] 4 (54 .33 80.. 44] 3 (44 .05 hi 5.67 15. Rel. Ni N1=n1 Nj=n1+n2+…+nj Nk=n Marca de clases xi x1 xj xk Ejemplo 4.00 100.05 0. luego a= xmáx − xmín 89 − 31 = = 8. Datos ingreso anuales de 60 ejecutivos 58 64 79 74 69 71 65 55 73 40 76 76 74 38 62 54 79 75 72 50 89 34 56 69 56 31 47 62 64 74 45 65 71 79 38 69 46 57 69 61 67 45 85 61 69 62 77 77 51 69 34 39 87 71 79 39 66 36 50 73 Para construir la tabla de frecuencia en Excel se determina primero el número de clases. Completando la Tabla de frecuencia se obtiene: Tabla 1.00 15. Una tabla estadística o tabla de frecuencias sirve para presentar en forma ordenada los datos.00 28. Los datos están expresados en miles de dólares.00 95.32 0.5 Tabla de frecuencias o Distribución de Frecuencias Modalidad Intervalos o clases de clases ci c1 l0 – l1 … cj lj-1 -. Acumu.00 5.20 0. Su forma general es: Tabla 1.28 por ser más fácil k 7 hacemos a = 10 y el límite superior de la primera clase li+1 = 34. ni n1 … nj nk n Frec.15 0.Se llama distribución de frecuencias al conjunto de intervalos o clases junto a las frecuencias correspondientes a cada una de ellas. 74] 6 (74 . 34] 2 (34 . Suponga que se van a construir k = 7 clases o categorías. 84] 7 (84 .10 0.4 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos Clases Intervalos 1 (24 .

que constituirán los tallos. etc.. agrupación de datos en torno a un valor central. y se utiliza para detectar tendencias. asimetría a la izquierda. Generalmente las hojas es la unidad del número y el tallo es la decena. estaciónales. Gráfico de tallo y hojas Un método gráfico para iniciar el análisis exploratorio de datos. 8 | 89 9 | 3445667 10 | 334678 11 | 122337789 12 | 00455577 13 | 2456899 14 | 238 15 | 556 ¿Qué podemos ver en este diagrama? • Rango de las observaciones. es la representación gráfica de tallo y hoja. El número utilizado para designar una hilera es su tallo. Ejemplo 5. Se lista en forma vertical y creciente los tallos y agregamos las hojas a la derecha del tallo. centena. y que además proporciona información visual rápida. Tabla 1. 16 . valores máximo y mínimo. Entrega una primera aproximación rápida de la distribución de los datos sin perder de vista las observaciones. asimetría a derecha y cuantas modas tiene la distribución. etc.La siguiente tabla muestra los datos de la fuerza de compresión de 45 muestras de aleación de aluminio-litio. variaciones cíclicas.5 Datos de la fuerza de compresión 96 108 125 112 134 120 93 94 155 135 119 103 88 148 155 132 97 113 117 156 103 111 89 124 127 139 112 125 118 138 95 142 127 104 136 113 94 117 106 125 96 107 120 139 143 a) b) c) d) Se separa cada observación en dos partes: tallo y hoja. Se separa esos dígitos de los restantes.Representación gráfica para variables discretas y continuas Un gráfico estadístico es una representación pictórica que permite dar un resumen visual de la información. • Forma de la distribución: simetría. Un diagrama de tallo y hoja consiste en una serie de hileras horizontales de números. el resto de los números de la hilera se denominan hojas.

989.003 20. Ejemplo 6.004 20.008 20.007 20.001 20.998 20.008 20.997 19.984 19. Un histograma se construye en el plano cartesiano. Las características geométricas del histograma nos permiten descubrir información útil sobre los datos.994 19.984 19. En el eje de las abscisas se coloca los límites de cada intervalo y en el eje de las ordenadas las frecuencias de clase (absoluta.994 19.008 20.996 20.969 19.001 20.000 20.969 y para el proceso 2 es 19.007 20.004 20.989 19.975 19.992 19.001 20.004 20.6 Datos de longitud de 20 partes.011 20.011 1996 1997 1998 1999 2000 2001 9 5 445 2478 112444788 1 9 644 9877531110000 100 En este caso vemos que el segundo proceso es menos variable que el primero que la longitud máxima para ambos proceso es 20. Existen varios tipos de gráficos o representaciones gráficas utilizándose cada uno de ellos de acuerdo al tipo de información que se está utilizando y los objetivos que se persiguen al presentar la información Los gráficos utilizados en variables cuantitativas discretas o continuas con un gran número de datos que se encuentran en una distribución de frecuencias son el histograma y el polígono de frecuencias.Consideremos la longitud en centímetros de 20 partes consecutivas de una línea de ensamble del proceso 1 y la longitud de 20 partes consecutivas de una línea de ensamble del proceso 2. relativas o relativas porcentuales). Los gráficos de tallo y hoja también son útiles para comparar la distribución de una variable en dos condiciones o grupos.000 20. a veces es conveniente presentar esta información de una manera más clara y efectiva por medio de gráficos.005 20.• • Posición del centro de la distribución y concentración de los datos.994 19.001 20. por ejemplo: 17 .985 19.011 y longitud mínimo para el proceso 1 es 19.010 20..009 20.010 20.001 20.000 20. El gráfico se denomina gráfico de tallo y hojas con espalda porque ambos grupos comparten los tallos.002 20.000 19. Aunque en las tablas se puede mostrar gran cantidad de información estadística.007 20. Desviaciones marcadas respecto al comportamiento general: outlier o valores atípicos. representando sobre cada intervalo un rectángulo que tiene a este segmento como base y como altura la frecuencia de cada clase. PROC1 PROC2 PROC1 PROC2 19. Tabla 1.000 20.

7. Sueldo ejecutivos ni 0 5 10 15 30 40 50 60 70 80 90 Sueldo Figura 1. El grado de agudeza del máximo. respectivamente. El lado al cual se sesga.6. El grado de dispersión. Polígono de Frecuencias Sueldo Ejecutivos ni 0 5 10 15 20 40 xi 60 80 100 Figura 1. Polígono de frecuencia de los ingresos de los ejecutivos 18 . en el eje de las abscisas va las marcas de clase y en el eje de las ordenadas alguna de las frecuencias (absoluta. es decir. La localización del “centro” de los datos. cuando no cae simétricamente en ambos lados del máximo. 3.1. 4. relativas o relativas porcentuales) los puntos correspondientes a estos pares se unen mediante rectas. La marca de clase del primer y último intervalo se une con la marca de clase anterior y siguiente. 2. Histograma de los ingresos de los ejecutivos El polígono de frecuencias es un gráfico de línea cerrado.

8..9. es un gráfico de las observaciones a través del tiempo u orden en que fueron observados.7 Datos del Nº de estudiantes que llegan tarde Semana 1 Semana 2 Semana 3 Lunes 10 14 9 Martes 7 5 3 Miércoles 6 10 6 Jueves 8 8 4 Viernes 11 7 6 Gráfico de tiempo N° de alumnos atrasados 15 10 5 0 s ar te s Lu ne Ju e Vi er ne s ve s Semana 1 Semana 2 Semana 3 M Tiempo Figura 1.Los datos siguientes corresponden al número de estudiante que llegaron tarde al colegio “A” durante un periodo de tres semanas. Ojiva Sueldos Ejecutivos 60 Ni2 0 10 20 30 40 50 20 40 60 limsup 80 Figura 1. Ojiva de los ingresos de los ejecutivos Gráfico de tiempo Cuando los datos de una variable están tomados a través de tiempo. en el eje de las abscisas van lo límites superiores de cada clase y en el eje de las ordenadas la frecuencia acumulada absoluta o la frecuencia acumulada relativa porcentual. Ejemplo 7. Los puntos consecutivos se conectan con líneas para ayudarnos a determinar si se producen cambios en la distribución a medida que pasa el tiempo. puede ser de gran interés el gráfico de los datos a través del tiempo o el orden en que los datos fueron obtenidos. Gráfico de tiempo Nº de estudiantes que llegaron tarde al colegio 19 . Tabla 1. Un gráfico de tiempo llamado también gráfico de series.La Ojiva es un gráfico de línea.

Las medidas de dispersión o variación con respecto a este centro.xn un conjunto de n valores. entonces Población (tamaño N) Muestra (tamaño n) Media o promedio aritmético Media o promedio aritmético poblacional muestral µ= ∑ xi i =1 N N x = i=1 ∑ x n n i para datos agrupados Población (tamaño N) Muestra (tamaño n) Media o promedio aritmético Media o promedio aritmético poblacional muestral µ = ∑ N i =1 ni xi N x= ∑n x i =1 i n i n donde xi es la marca de clases 20 . Las de uso frecuente en un análisis descriptivo son las medidas de tendencia central y las medidas de dispersión. Las medidas descriptivas numéricas que caracterizan lo mejor posible a los datos originales o a la distribución de frecuencias mas frecuentes son: Las medidas tendencia central de los datos. i) Para datos no agrupados sea x1. Se denota por µ si es obtenida de la población y por x si es obtenida de una muestra y se calcula de la siguiente manera:. Se les llama a estos valores medidas estadísticas o estadígrafos.. Las tres medidas más usuales de tendencia central son: la media. es una de las medidas más importantes y de mayor uso en diversas aplicaciones estadísticas. x2. La media Llamada también promedio aritmético o simplemente media o promedio..Resumen numérico de los datos Para ampliar la información acerca de esta distribución y completar así el análisis descriptivo de una población o muestra. Las medidas de tendencia central permiten determinar un valor característico de una distribución de frecuencias ubicado hacia el centro de la distribución.. la mediana. es necesario recurrir a ciertos valores numéricos que permiten cuantificar ciertas características de la distribución. la moda.

tendríamos una medida del error. . ∑ ( xi − x ) = 0 En efecto ∑ ( xi − x ) = ∑ xi − ∑ x =n( i =1 i =1 i =1 i =1 n n n ∑ xi n n ) − nx = nx − nx = 0 Este resultado es en cierta manera desalentador. 3. xi. Si elegimos cualquier representante de estas observaciones.. habrá una pérdida de precisión que será tanto mayor. cuanto mayor sea la diferencia entre los valores reales y las marcas de clase... i =1 n ∑ ( xi − x ) ∑ xi − x n 2 Error cuadrático Error cuadrático error máximo 4. entonces el error cuadrático será mayor si elegimos la media como representante de estas observaciones. diferirá de la media obtenida con los valores reales. la media aritmética obtenida a partir de las marcas de clase xi.2 ... digamos a . Veremos una de ellas. de manera que sumando los errores de esta forma no nos entrega información sobre la variabilidad o sobre cuan alejado están las observaciones del promedio. De manera que si consideramos las desviaciones de la observación respecto de la media como positivo. o sea.Observación 1. de los intervalos. El error más usual utilizado en estadística es el error cuadrático.n máx xi − x 5.. La media aritmética es sensible a valores extremos.. xn. Este error tiene interesantes propiedades. i =1 i =1. cuando mayores sean las amplitudes ai. de otra forma si x ≠ a Entonces En efecto. 2. x2. De las observaciones x1. Es decir.. En general. ∑ ( xi − x ) < ∑ ( xi − a ) 2 i =1 n n 2 i =1 21 . puesto que el error o desviación de una observación en particular respecto de la media es compensado con los demás errores. x2.. Podemos considerar las siguientes situaciones para medir el error. . xn se tiene la siguiente propiedad elemental que tendrá grandes consecuencias en la definición una medida de la variabilidad. Supongamos que tenemos las observaciones x1.

por ejemplo hacer yi = a + b xi. entonces la media de estas nuevas variables y1.. . xn. Supongamos que tenemos las siguientes observaciones x1. ... por razones que más adelante veremos puede ser altamente conveniente realizar una transformación lineal de estas observaciones. . .i =1 ∑ ( xi − a ) = ∑ ( xi − x + x − a ) = ∑ (( xi − x ) + ( x − a )) 2 2 i =1 i =1 n n n 2 = ∑ (( xi − x )2 + 2( xi − x )( x − a ) + ( x − a )2 ) = ∑ ( xi − x )2 + 2( x − a ) ∑ ( xi − x )+ ∑ ( x − a )2 =1 2 3 i =1 i =1 24 1 4 3 i14 4 0 positivo i =1 n n n n luego = ∑ ( xi − x )2 i =1 n Vamos a ver otra propiedad interesante de la media. Determinar el promedio de los sueldos de los ejecutivos para datos sin agrupados y agrupados Para datos sin agrupar la media es: ∑ xi n n x= i =1 = 58 + 76 + 89 + ... 1 n 1 n 1 n 1 n 1 1 n ∑ yi = ∑ ( a + bxi ) = ∑ a + b ∑ xi = na + b ∑ xi = a + bx n i =1 n i =1 n i =1 n i =1 n n i =1 Ejemplo 8. 34] 44] 54] 64] 74] 84] 94] ni 3 6 8 12 19 9 3 Ni 3 9 17 29 48 57 60 xi ni*xi 29 39 49 59 69 79 89 ni*xi^2 22 .05 60 Para datos agrupados la media es: Tabla 1. . .. y2. En efecto.. . .8 Tabla de frecuencias de los ingreso anuales de 60 ejecutivos Clases 1 2 3 4 5 6 7 Intervalos (24 (34 (44 (54 (64 (74 (84 . x2. . + 69 + 73 = 62. yn es y = a + bx .

o Es una medida muy útil para comparar dos o más poblaciones o Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Ejemplo 9.05 + 300 = 14571. a) 2 1 0 1 2 3 La media también se define como el punto de equilibrio Si la distribución es simétrica. o Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.Suponga que los sueldos de los gerentes generales de estas empresas es una función lineal de los sueldos de los ejecutivos dada por yi = 230 xi + 300 determine le sueldo promedio de los gerentes de estas empresas. 60 yi = 230 xi + 300 y = 230 x + 300 = 230 * 62. n x= i =1 ∑ ni x i n = 3 * 29 + 6 * 39 + 8 * 49 + 12 * 59 + 19 * 69 + 9 * 79 + 3 * 89 = 61. la media está exactamente en el centro de la distribución Media = 2 23 . la media no es el promedio apropiado para representar la serie de datos. o No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.Todos los valores son incluidos en el cómputo de la media.5 Propiedades de la media aritmética o Puede ser calculada en distribuciones con escala relativa y de intervalos o . o Una serie de datos solo tiene una media. Desventajas de la media aritmética o Si alguno de los valores es extremadamente grande o extremadamente pequeño. como en la figura a).8333333 3.

una ponderación (peso o coeficiente) que represente su importancia dentro de la muestra. los datos observados no tienen la misma importancia relativa. no resulta apropiado el promedio simple. entonces x w coincide con x . como en la figura c) la media tiende hacia este valor extremo. + wn xn i =1 = n w1 + w2 + .. En muchas ocasiones. k constante positiva. + wn ∑ wi i =1 ∑ wi xi n Si w i= k. Entonces el promedio ponderado de los datos... como en la figura b) la media tiende hacia la observación. Esto equivale a decir que. 3 4 5 6 7 8 9 10 11 Media = 4 Promedio Ponderado.. es necesario asignar a cada uno de éstos. n datos y w1 ... números reales tales que wi ≥ 0.. si cada observación tiene la misma ponderación.. Media = c) 2 1 0 1 2 2.wn. para luego sumar estos resultados y dividirlos por la suma de los coeficientes respectivos.x2 .b) 2 1 0 1 2 3 4 5 Cuando la observación mayor se mueve más a la derecha. Cada nota parcial debe ser multiplicada por su coeficiente o ponderación. está dado por: xw = w1 x1 + w2 x2 + ..5 Si la distribución tiene un valor extremo... En este caso.. n. según su importancia en el proceso de evaluación del trabajo del alumno. Sean x1 . con a lo menos un wi > 0. Definición. 24 .xn .. i=1. entonces el promedio y el promedio ponderado son iguales... Para hacer presente este hecho en la búsqueda de un 'centro' que represente a los datos.. Por ejemplo.w2.2...n. considérese el sistema de calificación del curso donde las pruebas tienen distinta ponderaciones.

Vamos a calcular la media de estas nuevas observaciones y1. y = ln (x).xn ) n = ln( x1 x2 . y además los "contrae". . .. esto es y= y1 + y 2 + . ¿Cuál es nota promedio de estas dos pruebas? xw = 0. y2. x2.. yn... Si un alumno obtiene un 5. si son muy grandes los datos los disminuye..5 en la primera evaluación 4. Como se puede observar en la gráfica 1. De tal manera que en el manejo de datos estadísticos a veces es conveniente utilizar la transformación tales como.17 0..xn ) e y = n ( x1 x2 .. + ln( xn ) = n n 1 = ln( x1 x2 .xn ) 25 1 n y = ln n ( x1 x2 . la función logaritmo (en este caso logaritmo natural) "suaviza" los datos. luego si a cada una de estas observaciones le aplicamos logaritmo natural tenemos que yi = ln ( xi ). Supongamos que tenemos un conjunto de observaciones x1.xn ) .9 en la segunda evaluación si la primera evaluación corresponde a un 45% y un 55% la segunda evaluación.Ejemplo. . no lo estarán tanto los valores transformados ln ( x1) y ln ( x2)...5 + 0 . ..55 * 4 .45 * 5.. + y n ln( x1 ) + ln( x2 ) + . ...55 La media geométrica.. es decir si x1 y x2 están muy separados. xn..9 = 5..45 + 0 .

04.624.050.que vimos).03. obteniendo al final $1. ¿A qué tasa mensual debería ponerse el capital inicial para obtener el mismo capital final al cabo de los tres meses? Esta pregunta quiere dilucidar cuál sería la tasa fija que el banco debiese haber aplicado en cada uno de los tres meses en que el capital estuvo depositado (con los intereses variables . erróneamente.092624 Esto significa que la tasa total aplicada es de 9. 26 .020. el banco le entrega $1.a la expresión de la derecha se le define como la media geométrica.02. las sucesivas tasas son: 1.092. Para ver claramente cómo interviene el promedio geométrico en este ejemplo.2624% Entonces.03*1. deposita este nuevo capital por un tercer mes. Esto significa que al término del mes.2%. De este modo. escribamos las tasas de interés como un factor multiplicativo del capital al cual se aplican. 8. El capital total finalmente obtenido. 1. toma el capital inicial más los intereses y los deposita por otro mes. por tanto la media a utilizar es la media geométrica. 4% . Suponga que una persona desea depositar $1. se hubiese promediado 2%.000. ahora al 4%.04 = 1000000*1.xn Ejemplos. Encontrar la media de los siguientes números 2. 3%. la tasa mensual estaría dada por la raíz cúbica de 1.029968. se habría necesitado una tasa mensual de 2.Al siguiente mes. 3% y 4%. 1..02*1. cuyo valor es 1. durante un mes a una tasa de 2%. es el de cálculo de interés en un depósito a plazo. Cantidad levemente inferior al 3% que se obtendría si. Esta vez el banco ofrece una tasa de 3%. obsérvese que entre ellos existe una razón o proporción constante..000. cada uno de ellos es el doble del anterior. Al término del segundo mes recibe $1. puede expresarse como: 1000000*1.092624.9968%.600. 4. Finalmente.000. y se denota por x g = n x1 x2 . Es decir. 1. de la siguiente manera xg = 3 2 * 4 * 8 = 4 Respuesta: la media geométrica de los datos es 4 Un caso de aplicación del promedio geométrico.

029968 Propiedades de la media geométrica La media geométrica esta basada en todas las observaciones. La media armónica está rígidamente definida y siempre es definitiva. La media geométrica es la que se debe utilizar cuando lo que se va a promediar son tasas de cambios o proporciones.El promedio geométrico de estos números es: x g = 3 1. y se intenta dar igual peso a tasas de cambios iguales.03 * 1.02 * 1.. La media geométrica es igual a cero si algunos de los valores es cero. y se puede volver imaginaria si ocurren valores negativos. xn. x2. . Se denota por xa y se define como el valor inverso de la media de los valores recíprocos de las observaciones x1.... + x1 x2 xn Ejemplo Un. realiza el viaje entre A y B a razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora. Con la excepción de estos dos casos. 27 . cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones. su valor siempre es definitivo y está rígidamente definido. pues hallar el recíproco de cero implica dividir entre cero.automóvil que hace viajes de ida y vuelta entre las ciudades A y B. esto es xa = n 1 1 1 + + . o La media armónica es el promedio que se ha de usar. La velocidad promedio del viaje de ida y vuelta será de xa = 2 1 1 + 80 120 = 96 Km / hr Propiedades de la media armónica o La media armónica se basa en todas las observaciones por lo que está afectada por todos los valores de la variable. da menos pesos a los valores extremadamente grandes que el que les da la media aritmética. Da a los valores extremadamente grandes un peso menor que el que les da la media geométrica. o La media armónica esta indeterminada si alguno de los valores es cero. por lo que está afectada por todos los valores de la variable. excepto cuando uno de los valores es cero. La media armónica. lo cual no es válido.04 = 1. Sin embargo. mientras que a los valores pequeños les da un peso mayor que el que les da tanto la media aritmética como la media geométrica. .

12 9 y 12 Me= (9+12)/2= Me=12 28 .25..xn y al conjunto de observaciones ordenadas las denotamos por x(1) .27 1.12.24. Luego el valor de la mediana es: Med = Ejemplo 10..4. .- x ( i ) + x ( i −1 ) 2 n par n impar 1. y supongamos que el ordenamiento se consigue de la forma x(1).16...27.25. entonces se determina un entero i tal que i<s<i + 1. . Se define la posición de la mediana como: s = Pos ( Med ) = Si s es un entero el valor de la mediana estado por n +1 2 Med = xs Si s no es un entero.20. x(n).9.Mediana Supongamos que tenemos un conjunto de observaciones x1.9.. si es discreta con muchos datos y rango pequeño o discreta o continua tabulada en intervalos. x(2).8.16. en los casos extremos se tiene que x(1) es la menor de todas las observaciones y que x(n) es la mayor de todas las observaciones. después que se ha ordenado en orden creciente... Cálculo de la mediana en el caso discreto no agrupado Si el conjunto de observaciones los denotamos por x1..7.6.24.7.6... .. x2.x(n). Ordenamos estas observaciones de menor a mayor.8.4.. La mediana es el valor central de la variable. es el valor que divide en dos partes la muestra. 30 n=12 n=13 Términos Centrales el 6º y 7º Término Central el 7º .. es decir x(i) es el i-ésimo número en orden entre las n observaciones. Para calcular la mediana debemos tener en cuenta si la variable cuantitativa está sin agrupar o si está agrupada.12.20. xn.

no así la media. sin embargo si cambiamos el último valor de esta muestra. n − N i −1 ) 2 med = li −1 + ai ni ( Donde: li-1 : límite inferior de la clase de la mediana n : número de observaciones Ni-1: frecuencia absoluta de la clase anterior a la clase mediana ni : frecuencia absoluta del intervalo mediano ai : amplitud del intervalo de la clase de la mediana Cambio en los valores extremos en los valores ordenados de la muestra no afectan significativamente a la mediana.09. De manera que. 5. se dice que es el intervalo donde se encuentra la mediana. En efecto. donde la mediana es med = 3. Med = x ( i ) + x ( i − 1) 2 = 65 + 65 = 65 2 Cálculo de la mediana para datos agrupados Para el caso de datos agrupados las observaciones están agrupadas en intervalos de clase.Ejemplo 11 Determinar la mediana para el ejemplo de los sueldos de los ejecutivo. 7. 4. 3. y en aquel intervalo de clase en que el valor correspondiente a la primera frecuencia absoluta acumulada que supera o es igual al 50% del número de observaciones. que es 8. en algunas ocasiones es más representativa la 29 . 1. 4. de manera que primero tenemos que fijarnos en la frecuencia absoluta acumulada. 3. 2. supongamos la muestra anterior 1. Para los datos sin agrupar primero ordenamos los datos 31 34 34 36 38 38 39 39 40 45 45 46 47 50 50 51 54 55 56 56 57 58 61 61 62 62 62 64 64 65 65 66 67 69 69 69 69 69 69 71 71 71 72 73 73 74 74 74 75 76 76 77 77 79 79 79 79 85 87 89 Como el número de elementos es par se ubican los dos valore centrales y se promedia. para los datos sin agrupar y agrupados. 8.72. 3. tenemos que la mediana sigue siendo la misma no obstante que la media cambia su valor a 4. y la media de esta muestra es x = 3. por 12.

esta vez nos fijamos en los intervalos de clase con sus respectivas frecuencias absolutas. En efecto. en lo que respecta a la estadística diríamos que tiene el mismo significado.1. Ahora el problema es ¿qué valor elegir de este intervalo modal y definirlo como moda? De momento digamos que una moda se denotará por moda. 5. 2. 8. Caso discreto La moda es el valor de mayor frecuencia absoluta. a saber: 2 y 5. 7. 1. fundamentalmente en muestras en que aparecen observaciones extremas.1 y ni + 1. 4. la moda no es única. 5. En cuyo caso tendremos una distribución bimodal o polimodal según el caso. li] es un intervalo modal si la frecuencia absoluta (o relativa) ni es mayor que las frecuencias adyacentes ni . 3. 5. 30 . que está mayoritariamente en uso. 8. es la primera clase. 6. En este ejemplo es la 5ª clase. la palabra moda describe una situación que es frecuente. Pues bien. 2. Caso continuo En este caso tiene más sentido hablar de intervalo modal. Por su propia definición. Si un intervalo tiene mayor frecuencia que sus intervalos inmediatamente adyacentes se dice entonces que es un intervalo modal. 2. De manera más formal. Como antes estudiaremos ambos casos.mediana que la media. Ejemplo. diremos que (li . En este caso podemos observar que hay dos modas. la que más se repite. donde la frecuencia acumulada supera o iguala a la mitad de los datos. es la única medida de centralización que tiene sentido estudiar en una variable cualitativa. en particular y como ejemplo se utiliza mucho en el vestuario. 6. de modo que puede haber más de una moda. pues no precisa la realización de ningún cálculo.5263158 ni 19 La moda En el lenguaje cotidiano. sobre todo de las damas. para el caso discreto es la observación absoluta (o relativa) más frecuente respecto de las observaciones vecinas. el discreto y el continuo. Intentaremos dar un lenguaje más formal a esta definición. El ejemplo de los sueldos de los ejecutivos el valor de la mediana para datos agrupados se obtiene determinando la clase de la mediana. 9. Ejemplo: Supongamos que tenemos las siguientes observaciones (ordenadas) 1. Pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. 9. 4. n 60 − Ni − l − 29 2 2 Med = l i −1 + * ai = 64 + * 10 = 64.

Ejemplo 11. Su objetivo es identificar zonas donde se producen aglomeraciones de datos. que por lo general es constante.de modo que la moda es donde ai es la amplitud del intervalo. Esta estadística debe usarse con cuidado. podría ser que por el solo hecho de haber una observación extra en un punto aislado. se presenta al usarla con muestras relativamente grandes. Este inconveniente es especialmente delicado cuando hay pocas observaciones en la muestra. 31 . cuatro alumnas tienen una estatura de 165 cm...Determinar la moda del sueldo de los ejecutivos para datos agrupados y sin agrupar. se podría reportar este valor como la moda principal. Como puede apreciarse. donde la influencia de un dato individual no distorsiona el análisis. sin embargo. La mayor utilidad de la moda. éste pudiese aparecer como una moda. tal como es el caso que se observa en el gráfico siguiente. Si no se pone atención al resto de las observaciones. hay una gran concentración de datos. lo que tiende a confundir ya que alrededor 159 cm.

rectangular. apreciación. Principales Características de la Moda. No puede ser calculado de una tabla de Puede ser calculado cuando los valores frecuencia cuando sus valores extremos son abiertos. No puede ser manipulada No puede ser manipulada algebraicamente. es más aconsejable el uso de la mediana. algebraicamente. El valor de la mediana es fijado o por su u posición en la selección. Mediana y Media Moda Mediana Media 1 2 3 Es el valor mas frecuente en a distribución. extremos son abiertos. 4 5 6 7 8 Es estable en cuanto a que Es estable en cuanto a que procedimientos para agrupar no afecta procedimientos para agrupar no afecta su su apreciación. Es el valor del punto medio de los datos Es ordenados. Sin embargo en estudios relacionados con propósitos estadísticos y de inferencia suele ser más apta la media. Es inestable. Una muestra tiene solo una media. Valores no necesitan ser ordenados para su cálculo. Una distribución puede tener mas de 2 modas. 32 . puede ser influenciada en el proceso de agrupación. Valores deben ser ordenados agrupados para su cálculo. mediana y moda En el caso de distribuciones unimodales. Modas de subgrupos no pueden ser ponderadas Medianas de subgrupos no pueden ser o combinadas. La suma algebraica de sus desviaciones es cero. yLos valores no necesitan ser ordenados para su cálculo. ponderadas o combinadas. si se posee la suma de los valores y el tamaño de la muestra. Su valor es establecido por las frecuencia predominante. Podría ser calculada igualmente cuando algún valor individual es desconocido. Puede ser calculada cuando los extremos de los valores de los grupos son abiertos. la mediana está con frecuencia comprendida entre la media y la moda (incluso más cerca de la media) En las distribuciones que presentan valores extremos. No es aplicable para datos cualitativos. Cada selección tiene solo una pero no existe moda en una distribución mediana. no por r los valores en la distribución.Relación entre media. el punto mas alto en la función. Medias de subgrupos pueden ser combinadas cuando son ponderadas apropiadamente. Puede ser aplicada a datos cualitativos. Pueden ser manipuladas algebraicamente. y no refleja valores individuales. tal que la mitad de los Es el valor promedio de todas las datos están por arriba y la otra por observaciones debajo de ella.

son un caso particular de los percentiles. Qi. D2. Podemos realizar una partición mayor de la distribución de frecuencias dividiéndola en 4.. r * ( xt +1 + xt ) Si los datos están agrupados de determina mediante la fórmula: n*k − N i −1 Pk = li −1 + 100 * ai ni Por su propia naturaleza. la mediana es un valor del recorrido de los datos que particiona a la distribución de frecuencias en dos partes. Hay 3.Cuantiles Como sabemos. Más precisamente. definamos D1. 10 ó 100 partes. el percentil puede estar situado en cualquier lugar de la distribución. cuartiles y deciles) también son denominados estadísticos de posición). r Pk = xt + 0. Si los datos no están agrupados al igual que en la mediana se debe ordenar el conjunto de datos y determinar primero la posición para posteriormente determinar el valor.. Los cuartiles. y se define como: Q1 = P25 Q2 = P50= Med Q3 = P75 De forma análoga se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamaño. por lo que no se puede considerar como una medida de tendencia central. 33 . deciles o percentiles... cada una conteniendo el 50% del total de la distribución.D9 como: Di = P10*i Los percentiles (que incluyen a la mediana. s = Pos ( Pk ) = si k (n + 1) si s entero Pk = x( s ) 100 s no es un entero s = t . Llamamos a estas particiones cuantiles y según el número de divisiones obtenemos cuartiles.

por ejemplo en torno a la media. y es posible que las nuevas observaciones se agrupen. 50. En rigor la primera medida de dispersión que ya hemos estudiado es el rango de las observaciones. Ejemplo 12. 62. Estas se determinan en función de la distancia entre las observaciones y algunos estadísticos de tendencia central. Ahora.75. 34 . 59. En segundo lugar. 57. De manera que es conveniente que creemos otras medidas de dispersión. 64. 70. 60. o de una medida de disgregación que tienen estas observaciones. basta que una observación nueva sea mayor o menor que el resto de las anteriores para que el rango aumente. 45. veremos medidas de dispersión mejores que la anterior. 60. 80. 75. Sin embargo debemos tener una noción en cuanto a la relación existente entre estas observaciones. 61. Hasta ahora hemos estudiado en las observaciones los estadísticos de posición (percentiles) y de tendencia central (medias. 40. Finalmente. 60. 65 Media =Moda =Mediana = 60 35 40 45 50 X X X XXXXXXXXXXX 55 60 65 70 75 80 85 Datos 2: 35. 63. podemos aumentar el número de observaciones. 56. Pero es claro que esta medida presenta varios inconvenientes. 55. En primer lugar solo considera dos observaciones.Medidas de variabilidad o dispersión Los estadísticos de tendencias central o posición nos indican donde se sitúa un conjunto de observaciones. una medida de cuan alejada está una determinada observación del resto. 60. mientras que en datos2 están mas dispersos o alejados. medianas y modas). 58. 85 Media =Moda =Mediana = 60 X 35 X 40 X 45 X 50 X 55 X X X X 60 X 65 X 70 X 75 X 80 X 85 Se puede observar que lo datos1 están muy cercanos alrededor del centro. 60. considere los siguientes conjuntos de datos: Datos 1: 55. esto significa tener más precisión en el fenómeno en estudio. 65. de modo que no puede ser muy fiable toda vez que uno de estos valores extremos se aleje demasiado y el resto se encuentre muy agrupado. y el rango no disminuirá. la más pequeña y la mayor. 60. Los de variabilidad o dispersión nos indican si esas observaciones o valores están próximas entre si o por el contrario están o muy dispersas.

.. DM Se define la desviación media como la media de las diferencias en valor absoluto de los valores de la variable a la media. es decir: Población (tamaño N) Varianza Poblaciónal ∑ ( xi − x ) N 2 Muestra (tamaño n) Varianza Muestral ∑ ( xi − x ) n 2 2 V ( X ) = σ X = i =1 N 2 V ( X ) = S X = i =1 n −1 2 V( X ) = 2 SX = 2 ∑ xi i =1 N − nx N 2 2 V ( X ) = S X = i =1 ∑ ( xi − x ) n n 2 2 2 V ( X ) = S X = i =1 n ∑ xi − nx n n −1 2 2 2 V ( X ) = S X = i =1 ∑ xi − nx n 35 .. si tenemos un conjunto de n observaciones. se define como la media de las diferencias cuadráticas de n observaciones con respecto a su media aritmética. es decir.Desviación media..xn entonces: Población (tamaño N) Desviación Media Poblaciónal Muestra (tamaño n) Desviación Media Muestral DM = ∑| x i =1 N i −x| N DM = ∑| x − x | i =1 i n n ii) para datos agrupados Población (tamaño N) Desviación Media Poblaciónal Muestra (tamaño n) Desviación Media Muestral DM = ∑ | x i − x | ni i =1 k N DM = ∑| x − x | n i =1 i k i n Varianza y desviación estándar La varianza. x1. S2.

. . esto es 36 . Supongamos que sobre cada una de estas observaciones realizamos la siguiente transformación Entonces para estas nuevas observaciones transformadas linealmente calcularemos su varianza..iii) para datos agrupados Población (tamaño N) Varianza Poblaciónal Muestra (tamaño n) Varianza Muestral 2 V ( X ) = S X = i =1 ∑ ( xi − x ) ni 2 N N 2 2 V ( X ) = s X = i =1 ∑ ( xi − x ) ni 2 n n −1 2 2 V( X ) = SX = i =1 ∑ ni x i − n x k N 2 V ( X ) = s X = i =1 k ∑ ( xi − x ) ni n n 2 V ( X ) = s2 = X V ( X ) = s2 = X i =1 k ∑ ni x i − n x n −1 i =1 ∑ ni x i − n x 2 n La varianza no tiene la misma magnitud que las observaciones (ej. Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. como: SX = V ( X ) Propiedades de la varianza. cuya varianza la denotaremos por V(X). xn. Por ello se define la desviación estándar o típica. Si las observaciones se miden en metros. la varianza lo hace en metros cuadrados).. Supongamos que tenemos las siguientes observaciones x1. .. xi...

La desviación intercuartílica se define como: RIQ = Q3 – Q1 37 . es decir multiplicamos cada una de las observaciones por una cantidad constante. Una última propiedad de la varianza que daremos sin demostración es la siguiente: Si tenemos las observaciones . entonces en el intervalo real se encuentra al menos el 75% de las observaciones. las observaciones siguen manteniendo el mismo grado de dispersión. que si tenemos una serie de observaciones. lo que nos dice la propiedad anterior. Es decir que si trasladamos "conjuntamente" las observaciones a otro sitio. que la varianza es la misma que las observaciones anteriores. Finalmente. entonces si hacemos un "traslado" de todas estas observaciones a una distancia que nos interesa. como por ejemplo entonces. si hacemos un cambio de escala. a saber .Notemos lo siguiente. entonces la varianza de este cambio de escala será proporcional a la anterior en un factor cuadrático de la cantidad constante.

Es normalmente afectada por valores extremos. los cuales podrían ocasionar el sesgamiento de los datos. muestreo más pequeños. y si denotamos por CVy al coeficiente de variación de las y1. dado que el es mas difícil de calcular y de entender. En la estimación de un parámetro. y si denotamos por CVy al coeficiente de variación de las y1. Si a la muestra x1. yn. xn se define el coeficiente de variación. y la más fácil de manejar algebraicamente... y2. haciendo y normalmente tiene errores de que la distribución sea normal.. sensible que la desviación estándar a valores extremos. esta ventaja de dar igual peso a la es inconsistente si existen brechas desviación de cada valor con entre los datos alrededor de los respecto a la media o la cuartiles. Sin embargo. Esta podría ser determinada en una distribución abierta en los extremos. 1 2 Es una medida de dispersión Es más adaptable como estimador más sensitiva que cualquiera de la dispersión de la población que de las descritas anteriormente. 3 Es más fácil de calcular y Es normalmente superior al rango como entender.. .. CV. la Media de Desviación Absoluta y la Desviación Estándar La Desviación intercuatílica Desviación media La Desviación Estándar La Desviación Estándar es normalmente mas útil y mejor adaptada a un análisis mas profundos que lo que es desviación media.. es claro que no tiene sentido para observaciones cuya media es nula. x2..Características Principales de la Desviación Cuartíl.. Es muy útil en distribuciones muy sesgadas. cuando su CV es menos del 10%. como CV = S *100% x Según esta definición... entonces Si a la muestra x1. cualquier otra medición. Su aplicación principal es la precisa elección de modelos en técnicas de predicciones comparativas. es muy En comparación con los demás.. la estimación se asume aceptable. xn le hacemos la transformación yi = xi + b.. 4 Desafortunadamente. mediana. o en aquellas en las cuales otras medidas de dispersión serian deformadas por valores extremos. 5 Coeficiente de variación Es un índice que puede servir para la comparación entre poblaciones en que se miden distintas características. xn le hacemos la transformación yi = xi + b. . La desviación intercuatílica es fácil de La Desviación media tiene la calcular y entender. Solo depende de dos valores. El CV es independiente de las unidades de medida. los cuales incluyen la mitad central de los mismos.. yn. . o en una en la cual los datos pueden ser seleccionados pero no medidos cuantitativamente. . Es la más amplia medida de dispersión usada. x2. x2. y2. Dada un conjunto de observaciones x1. esta difícil de manejar algebraicamente. entonces 38 . . además es menos una medida cruda de dispersión. signo negativo debe ser ignorado cuando se calcula.

ingresos de los ejecutivos para datos sin agrupar y agrupados.Además. es decir si yi = a xi entonces CVy = CVx.0656 39 . En efecto. entonces con el cálculo de los coeficientes de variación respectivos podemos tener una medida de que tipo de atributo está más disperso (en torno de la media) en comparación con el otro atributo.9722 15.2783 Desviación media 217. Generalmente el coeficiente de variación nos sirve para comparar la variación de dos o más conjuntos de datos Ejemplo 13. viene del hecho de que Sy = a Sx y de que y = a x En definitiva. Medidas de dispersión Medidas de dispersión Datos no agrupados 58 Rango o recorrido 12.4056 226. y como es de prever. esto es que miden dos atributos X e Y diferentes.. Tabla 11. es invariante bajo cambio de escala.Determinar las medidas de dispersión del ejemplo 4.0475 Varianza 14. Esto es si CVx < CVy entonces los datos relativos al atributo Y están más dispersos que los datos del atributo X.7325 Desviación estándar Datos agrupados 90 12. si tenemos dos tipos de observaciones diferentes.

decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo. ya que para variables continuas. Nos proponemos dar un paso más allá en el análisis de la variable. La asimetría puede verse en el diagrama de tallo y hoja o en el histograma. También puede verse a través de la posición relativa entre la media y la mediana. se estudia si la distribución de los datos es la simetría. Podemos basarnos en ella para. Estadísticos de asimetría Para saber si una distribución de frecuencias es simétrica. En primer lugar. Un buen candidato es la mediana. Un conjunto de datos que no se distribuye simétricamente. divide al histograma de frecuencias en dos partes de igual área. se llama asimétrico.Asimetría y apuntamiento Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al valor de central. hay que precisar con respecto a qué. Distribución Sim étrica 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 Dentro de los tipos de asimetría. de forma natural. vamos a destacar los dos fundamentales: Asimetría positiva Si las frecuencias más altas se encuentran en el lado izquierdo de la media. mientras que en derecho hay frecuencias más pequeñas (cola) Distribución Asim étrica Positiva 12 10 8 6 4 2 0 1 2 3 4 5 6 7 40 .

Conviene definir entonces unos estadísticos que ayuden a interpretar la asimetría. Por otro lado. mientras que en el izquierdo hay frecuencias más pequeñas (cola) Distribución Asim étrica Negativa 12 10 8 6 4 2 0 1 2 3 4 5 6 7 Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de frecuencias sea totalmente simétrica. AS = M S 3 M p = i =1 donde n ∑ ( xi − x ) n p n p 3 X M p = i =1 ∑ ( xi − x ) ni n es denominado el p–ésimo momento central (alrededor de la media) y 3 S X = ( V ( X ) )3 Apoyándonos en este índice. En la práctica diremos que la distribución de frecuencias es simétrica si lo es de un modo aproximado. diremos que hay asimetría positiva si As > 0 . En las distribuciones sesgadas positivamente la moda está a la izquierda de la mediana y la media a la derecha de la mediana. aún observando cuidadosamente la gráfica.Asimetría negativa Si las frecuencias más altas se encuentran en el lado derecho de la media. y que denotaremos mediante As. En las distribuciones sesgadas negativamente siempre la media está a la izquierda de la mediana y la moda a la derecha de ella. podemos no ver claro de qué lado están las frecuencias más altas. a los que llamaremos índices de asimetría. 41 . y que la asimetría es negativa si As < 0 y si As = 0 la distribución es simétrica.

las distribuciones de frecuencias se clasifican en: 1) Leptocúrtica: cuando. o sea.Curva bimodal (simétrica o asimétrica por estratos): 0.2 0. o sea.1 0 -3 2 Estadísticos de apuntamiento Uno de los coeficientes que nos indica el apuntamiento de una distribución de frecuencia es el coeficiente de aplastamiento de Fisher o coeficiente de curtosis definido por: K= M4 2 M2 De este modo.. K>0. si la distribución de frecuencias es más apuntada que la normal: 2) Mesocúrtica: cuando K=0. es decir. ingreso de los ejecutivos para los datos no agrupados son: (obtenidos utilizando Excel) 42 .4 0. cuando la distribución de frecuencias es tan apuntada como lo normal. 3) Platicúrtica: cuando K<0.3 0.Las medidas descriptivas del ejemplo 3. si la distribución de frecuencias es menos apuntada que la normal Ejemplo 14.5 0.

43 .8569 220. El valor de la mediana es de US$ 65000 es decir el 50% de los ejecutivos tienen un ingreso de a lo mas este valor y el otro 50% tienen un ingreso mayor a este valor. con una desviación estándar de US$ 14857. El ingreso mas frecuente es de US$ 69000.05 65 69 14. Como el valor de la curtosis es menor que 3 la curva es leptocúrtica. El coeficiente de asimetría es negativo la curva o histograma es asimétrico a izquerda lo que significa que hay una mayor variación de los ingresos en los entre los ejecutivos de menor ingreso.727577 -0.451824 Rango Mínimo Máximo Suma Cuenta 58 31 89 3723 60 Se aprecia que el ingreso promedio de los ejecutivos es de US$ 625000.7263 -0.Medidas descriptivas de la variable Ingreso de los Ejecutivos Media Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría 62.

Calcular las barreras externas BE1 y BE2 en la forma: BE1 = Q1 – 3 ⋅ Q BE2 = Q3 + 3⋅ Q 5. cuartíl inferior y los rangos intercuartiles (RIC) de un conjunto de datos. Pasos para Construir un Boxplot 1. 44 . Un punto atípico o extremo puede deberse.Calcular el recorrido intercuartílico (Q). por ejemplo. La porción central de la distribución que se encuentre entre Q1 y Q3 se representa por una caja (no interesa el ancho de ella).. la distribución es simétrica. Este tipo de datos no puede eliminarse inmediatamente sin un análisis preliminar de las causas que lo originan. Incluye la presencia de posibles outliers. 6. y Q3). Muestra una medida de dispersión tal como el cuartíl superior. La razón principal de utilizar los boxplots es porque ofrecen mucha información de una manera compacta.5 ⋅ Q BI2 = Q3 + 1. el cual es útil para comparar grupos de datos...Calcular las barreras internas BI1 y BI2 en la forma: BI1 = Q1 – 1. a una mala lectura.. 3. Muestra el rango de los datos.Cómo Construir un BoxPlot Un BoxPlot es un gráfico que tiene muchas características. Desde los extremos de la caja se trazan líneas hasta los respectivos valores adyacentes. A estas líneas se les llama “antenas” o “bigotes”.Identifique los puntos adyacentes Se llaman puntos adyacentes al mínimo y máximo dato que se encuentran dentro de las barreras internas.Calcular los 3 cuartiles (Q1.. causa fortuita. mal registro. Q2. Se llaman puntos extremos a aquellos puntos ubicados fuera de las barreras externas.Identificar los puntos atípicos y extremos: Se llaman puntos atípicos o outliers a aquellos datos que se encuentran fuera de las barreras internas y dentro de las barreras externas. etc. Dentro de esta caja se ubica el valor de la mediana (Q2). A través de un gráfico caja podemos identificar el tipo de asimetría de una distribución de frecuencias unimodal de la siguiente manera: i) Si la posición de la mediana se encuentra en la mitad de la caja y las antenas tiene la misma longitud. También indica acerca de la simetría o de la asimetría de la distribución.5 ⋅ Q 4. así como también a la mediana como medida central ubicación. 2..

la distribución presenta sesgo negativo.El gráfico de caja para el ejemplo 3 (ingreso de los ejecutivos) es: Box Plot Ingresos Ejecutivos 110 100 90 80 70 60 50 40 30 20 Ingreso Ejecutivos Mediana= 65 Q1 = 51 Q3 = 74 No hay puntos outlier 45 . la distribución presenta sesgo positivo.ii) iii) Sil a posición de la mediana se encuentra ubicada más cerca del primer cuartil y la antena superior es de mayor longitud que la antena inferior.. Ejemplo 15. Si la posición de la mediana se encuentra ubicada más cerca del tercer cuartil y la antena superior es de menor longitud que la antena inferior.

Sign up to vote on this title
UsefulNot useful