Probabilidad y Estadística Descriptiva

Unidad 1
Historia

Clasificación

Definición  Recopilación de Datos

Historia
 

Origen de la Palabra

La palabra statistik proviene de la palabra statista (que significa “estadista”, fue utilizada por primera vez por Göttingen Achenwall (1719 -1772), un profesor de Marlborough y de Göttingen, y el Dr. E. A. W. Zimmerman introdujo el termino estadística a Inglaterra. Sin embargo mucho antes del siglo XVII la gente utilizaba y registraba datos.

El viejo testamento contiene varios informes sobre levantamiento de censos. . Los gobiernos de los antiguos Babilonia.Primeros Registros  La estadística gubernamental oficial es tan vieja como la historia registrada. Egipto y Roma reunieron registros detallados sobre poblacion y recursos.

En el año 762 de nuestra era.En la Edad Media. A principios del siglo IX terminó la enumeración estadística de los siervos que había en los feudos. Carlomagno pidió la descripción detallada de los propiedades de la iglesia. los gobernantes empezaron a registrar las propiedades de la tierra.  .

extensión y valor de las tierras de Inglaterra. Guillermo el Conquistador ordenó que se escribiera el Domesday Book. . este fue el primer trabajo estadístico de Inglaterra. un registro de la propiedad. En el año de 1806.

población riqueza. o análisis de hechos.Definición de Estadística  La ESTADISTICA es la ciencia que le facilita al hombre el estudio de datos masivos. tales como son: Características biológicas o sociológicas. etc. y así mostrar una visión de conjunto clara y de más fácil apreciación.    . impuestos. representación y ANALISIS de DATOS. calidad. pasa de esa manera sacar conclusiones valederas y efectuar predicciones razonables de ellos. En una forma práctica. fenómenos físicos. resumen. así como para describirlos y compararlos. organización. que se presenten a una valuación numérica. producción. cosechas. la ESTADÍSTICA nos proporciona los métodos científicos para la recopilación.

. las dividen en dos grandes categorías: estadística descriptiva y estadística inferencial. Estas técnicas son tan diversas que los estadísticos. por lo general. Los Administradores aplican alguna técnica estadística a virtualmente todas las ramas de las empresas publicas o privadas.

. basándose en los datos simplificados y analizados de una muestra hacia la población o universo.Estadística Inferencial  La estadística inferencial permite realizar conclusiones o inferencias. se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación. a partir de una muestra representativa tomada a los habitantes de una ciudad. Por ejemplo.

Estadística Inferencial  Está fundamentada en los resultados obtenidos del análisis de una muestra de población. con el fin de inducir o inferir el comportamiento o característica de la población. de donde procede. . por lo que recibe también el nombre de Inferencia estadística.

. solo nos limitaremos a describir los datos encontrados en dicha muestra. no se podrá generalizar la información hacia la población. Si aplicamos las herramientas ofrecidas por la estadística descriptiva a una muestra. Se restringe a describir los datos que se analizan.Estadística Descriptiva  Es aquella que se emplea simplemente para resumir de forma numérica o gráfica un conjunto de datos.

Estadística Descriptiva  Tienen por objeto fundamental describir y analizar las características de un conjunto de datos. obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones. a fin de compararlas. . No obstante puede no solo referirse a la observación de todos los elementos de una población (observación exhaustiva) sino también a la descripción de los elementos de una muestra (observación parcial).

Ejemplo  Supongase que un profesor calcula la calificación promedio de un grupo de historia. podemos decir que el profesor esa utilizando estadística descriptiva. Graficas. . tablas y diagramas que muestren los datos de manera que sea mas fácil su entendimiento son ejemplos de estadística descriptiva. Como la estadística describe el desempeño de grupo pero no hace ninguna generalización acerca de los diferentes grupos.

. Recopilación de los datos. Análisis e interpretación.Metodología de la Investigación Estadística  El método de investigación estadística comprende las cinco fases siguientes:  Preparación del trabajo. Presentación de los datos. Evaluación y depuración de los datos.

En esta fase deben quedar perfectamente claros los conceptos y cada participante debe conocer a cabalidad sus atribuciones y responsabilidades.Preparación del Trabajo  Se limita a la redacción de las instrucciones para recabar los datos. definición precisa de los datos que se necesitan. diseño de formularios y planillas. planificación y organización del trabajo en el espacio y en el tiempo.   . ya que las dudas o malas interpretaciones echarán a perder el resto de la investigación.

muestreos.Recopilación de Datos En ella se recaban los datos necesarios para la investigación. La eficiencia con que se realice esta etapa generará la calidad de todo el trabajo de investigación estadística.  . o se toman de fuentes secundarias o registros y publicaciones. mediante encuestas. censos.

a intereses creados o a prejuicios sociales. a fin de subsanar o mitigar las influencias y efectos de tales errores e imperfecciones. . suelen adolecer de imperfecciones y errores varios.Evaluación de los Datos  Los datos recopilados. De allí que el paso inmediato sería una depuración y evaluación de tales datos. en la vida real. debidos a la ignorancia. a malos entendidos. de parte de quien aporta los datos o de quien los recaba.

Representación de los Datos  Los datos suelen estar presentados en forma tabular. en cuadros de doble entrada. prismogramas. entre otros. polígonos. diagramas figurados. proporcionales. . pictogramas. mediante: Histogramas. También suelen representarse gráficamente. o en valores promedios. dibujos acotados. porcentuales.

medicinas. inmigración. vivienda. fiscales. nupcialidad. de tan rotunda actualidad. ropas y servicios consumidos por una persona. . socioeconómicas. los índices de productividad o relación entre la producción y las horas – hombre de trabajo en ella utilizadas. mortalidad. De generalización más reciente tenemos los índices y tendencias del costo de la vida. mortinalidad (nacidos muertos). los cuales se obtienen sumando los costos promedios de alimentos. estándar. etc.Interpretación de los Datos  Podría decirse que es ésta la fase más amplia de todas y en la cual la investigación rinde sus mejores frutos. emigración. entre otros. familia. Igualmente. en el período que se estudia. Desde la más remota antigüedad se ha venido aplicando el análisis estadístico a las investigaciones demográficas. Obteniéndose así índices y tendencias de natalidad.

  .Recopilación de Datos  Datos: son colecciones de cualquier cantidad de observaciones relacionadas. Colección de datos: es un conjunto de datos relacionados.

Métodos para la Recolección de Datos  En estadística se emplean una variedad de métodos distintos para obtener información de los que se desea investigar. .

El investigador efectuará a esta persona una serie de preguntas previamente escritas en un cuestionario o boleta. donde anotará las respuestas correspondientes.Entrevista Personal  Los datos estadísticos necesarios para una investigación. debido a que al tener contacto directo con la persona entrevistada. permite obtener una información más veraz y completa que la que proporcionan otros métodos. se reúnen frecuentemente mediante un proceso que consiste en enviar un entrevistador o agente. directamente a la persona investigada. . el entrevistador podrá aclarar cualquier duda que se presente sobre el cuestionario o investigación. Este procedimiento que se conoce con el nombre de entrevista personal.

Una de las desventajas de este método se debe a que si el entrevistador no obra de buena fé o no tiene un entrenamiento adecuado. sobre todo si se trata de una  . puede alterar las respuestas por las personas entrevistadas. Otra desventaja es su alto costo.Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al nivel intelectual de las personas entrevistadas. ya que resulta bastante oneroso el entrenamiento de los agentes o entrenadores y los supervisores de estos.

en algunos casos no estamos seguros de que los formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por ellos mismos. Dentro de las desventajas de este procedimiento podemos señalar que solo un porcentaje bastante bajo de estos es devuelto. Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento. dando en este no solo las instrucciones pertinentes para cada una de las preguntas.  . Lo que trae como consecuencia que la información se obtenga con una serie de errores difíciles de precisar por el investigador.Cuestionarios por Correo consiste en enviar por correo el cuestionario acompañado por el instructivo necesario. el único gasto sería el de franqueo postal. sino también una breve explicación del objeto de la encuesta con el fin de evitar interpretaciones erróneas. puesto que no hay que incluir gastos de entrenamiento de personal.

Entre las limitaciones que presenta este método podemos señalar el número de preguntas que pueden formularse es relativamente limitado. ya que el entrenamiento y supervisión de las personas encargadas de efectuar las preguntas es siempre fácil. Este método es bastante simple y económico. por lo que quedan sin la posibilidad de ser entrevistados. este método consiste en telefonear a la persona a entrevistar y hacerle una serie de preguntas.Entrevista por Teléfono Como lo indica su nombre. debido a que muchas de las personas que potencialmente podrían ser investigadas no posee servicio telefónico.  . además las investigaciones efectuadas por este método tienen un carácter selectivo.

Instrumentos para Recolección de Datos .

 Datos propios de la investigación. nombre del encuestador.  Datos de identificación y de carácter social del encuestado: apellidos. cédula de identidad. grado de instrucción. (oficial o privada). constan de las siguientes partes:    La identificación del cuestionario: nombre del patrocinante de la encuesta. nombre de la encuesta. ocupación actual.Cuestionario  Cualquiera que sea el método por el que se decida el investigador para recabar información. etc. son los datos que interesa conocer   Como es natural. lugar y fecha de la entrevista. la parte referente a los datos personales es eliminada por no tener ningún tipo de interés para . edad o fecha de nacimiento. estas partes. En algunos tipos de investigación. estado civil. nombres. varían de acuerdo a la finalidad de la encuesta. nacionalidad. número del cuestionario. Los cuestionarios en general. sexo. así como las preguntas. es necesario elaborar un estudio de preguntas. ingresos. para construir el propósito de la investigación.

Facilidad de contestación: se deben evitar. . tratar en los posible de que con el menor número de preguntas. no debe tener preguntas indiscretas o curiosas. Claridad de la redacción. Discreción: un cuestionario hecho a conciencia. evitar preguntas ambiguas o que sugieran respuestas incorrectas.Consideraciones a Tomar El cuestionario debe ser conciso. en lo posible. Orden de las preguntas: estas deben tener una secuencia y un orden lógico. las preguntas de respuestas libres o abiertas y también la formulación de preguntas que requieran cálculos numéricos por parte del entrevistado. por lo que deben estar formuladas las preguntas de la forma más sencilla. agruparlas procurando que se relacionen unas con otras. se obtenga la mejor información. sobre datos personales que puedan ofender al entrevistado.

¿Para que me sirven los datos recolectados? .

de los efectos probables de ciertas características en situaciones dadas. . Un ejemplo muy claro es con los responsables de las tomas de decisiones en las empresas. ya que los pueden ayudar a hacer suposiciones bien pensadas acerca de las causas y. por tanto.

 Una investigación de mercado por ejemplo puede revelar que determinado producto es preferido por un individuo en especifico. . y en situaciones especificas.

que caen en un mismo intervalo de clase. .Distribución de Frecuencias    Frecuencia: Es el número de datos o elementos de la muestra. que sus valores quedan totalmente comprendidos dentro de los linderos de ese mismo intervalo. Es decir.

Algunos Conceptos
  

Población o Universo: La población, o el universo, está formado por la totalidad de los elementos que se desean estudiar, ejemplos podrían ser: La población total de Venezuela, los alumnos cursantes en las universidades del país, la producción de toda una industria, a cosecha de un año dado, el rendimiento de una raza de ganado, entre otros.

Según sus características dimensionales pueden ser: FINITA: Cuando tiene un valor limitado, como por ejemplo: las unidades de producto de una empresa. INFINITA: Cuando es un número ilimitado, como por ejemplo: longitud de las hebras de una plantación de algodón.

Muestra: En los estudios estadísticos, en vez de analizar la totalidad de la población o universo, se acude al recurso de considerar solamente una parte de ella, a la cual se llama muestra. Es requisito indispensable que la muestra a analizarse sea representativa realmente de la población o universo, al cual substituye en el estudio estadístico, o sea, que debe contener valores típicos del fenómeno que se desea estudiar.

 . que pueden obtener los alumnos de un curso en un examen comprenderá los valores desde cero hasta veinte.Dominio: Está constituido por los valores posibles. Por ejemplo. el dominio de la variable calificación. que puede tomar la variable.

en lugar de Tylenol. Bufferin o Advil.Pregunta…  Cuando se les pregunta que medicamento tomarían si estuvieran en una isla abandonada y solo hubiera que escoger una analgésico. la mayoría de los médicos prefiere Aspirina. ¿Se llego a esta conclusión a partir de una muestra o una población?   .

Pregunta…  El 25% de los automóviles vendidos en Estados Unidos en 2008 fue armado en Japón. ¿Se llego a esta conclusión a partir de una muestra o una población?   .

La tabla que se presenta m as adelante exhibe la producción en metros de cada uno de los 30 telares de la muestra tomada. Para no tener que medir la producción diaria(en metros) de cada telar. con lo que llega a una conclusión sobre la producción promedio de alfombras de las 500 maquinas.Ordenamiento de Datos  El director de producción de una compañía es responsable de la fabricación de alfombras en mas de 500 telares. Estas cantidades son los datos sin procesar desde los cuales el director puede llegar a una conclusión que abarque la totalidad de los telares en su desempeño del día anterior. tomo una muestra diaria de 30 telares. .

0 15.6 16.0 16.8 16.8 16.8 16.1 16.9 16.9 15.0 16.3 16.4 15.4 15.4 16.2 15.8 16.2 15.1 15.6 15.9 15.7 15.6 16.0 15.3 17 15.9 16.8 15.Producción en metros 16.7 16.3 .6 15.

 La ordenación de los datos es una de las formas mas sencillas de representarlos. . a continuación presentamos la tabla sobre los datos de las alfombras en un arreglo ascendente. los forma en orden ascendente o descendente.

1 16 . 9 16 16 16 16 16 . 6 15 . 9 15 . 8 15 . 3 16 . 3 16 . 8 16 . 2 16 . 7 15 . 6 15 . 9 15 . 4 16 . 4 15 . 1 15 . 8 15 . 3 16 . 6 16 . 2 16 . 4 16 . 9 15 . 6 15 . 7 15 . 8 15 .15 . 8 17 .

4. 2.Podemos ver si algunos de los valores se aparece mas de una vez....  . El arreglo de datos ofrece ventajas con respecto a los datos sin procesar:  1. 3.Podemos mostrar rápidamente los valores mayor y menor de los datos.Podemos observar la distancia entre valores sucesivos de los datos.Podemos fácilmente dividir los datos en secciones.

Distribución de Frecuencias Una forma en la que podemos comprimir los datos es la tabla de frecuencias o distribución de frecuencias. uno puede construir una distribución de frecuencias. Una distribución de frecuencias muestra el numero de observaciones del conjunto de datos que caen en cada una de las clases.  . Si uno puede determinar la frecuencia con la que se presentan los valores en cada clase de un conjunto de datos.

1 15 . 8 15 . 2 16 . 9 16 16 16 16 . 4 16 . 8 17 . 9 16 15 . 2 16 . 7 15 . 8 16 . 6 16 . 3 16 . 8 Arreglo de datos 15 . 6 15 .15 . 7 15 . 9 15 . 6 15 . 4 16 . 3 16 . 4 15 . 1 16 . 9 15 . 3 16 . 6 15 . 8 15 .

5 15 . 6 15 . 3 16 . 3 16 . 9 15 . 1 15 . 6 15 . 6 15 . 5 16 . 0 16 . 2 16 . 6 16 . 0 Distribución de Frecuencias 2 16 8 4 . 2 16 . 8 15 . 9 16 16 16 16 . 8 Arreglo de datos 15 . 8 15 . 7 15 . 1 a 16 . 1 a 15 . 7 15 . 9 16 15 . 3 16 .15 . 4 16 . 8 17 15 . 6 a 16 . 8 16 . 1 16 . 6 a 17 . 4 16 . 9 15 . 4 15 .

Sin embargo ganamos información acerca del patrón de existencias promedio.9 se repite 4 veces y que el valor 15. por ejemplo.2 no aparece. Ya no podemos saber. Podemos ver que perdimos algo de información al construir la distribución de frecuencias. que el valor 15.   .

un numero decimal (0.5.1 a 15. La frecuencia de un intervalo promedio de 15. por ejemplo es de 2 en la tabla de anterior. para obtener este valor se divide la frecuencia de esa clase entre el numero total de observaciones del conjunto de datos.También podemos expresar la frecuencia de cada valor como una fracción o un porcentaje del numero total de observaciones( Frecuencia Relativa).066) o  . pero se puede representar por 0.066. La respuesta puede expresarse como una fracción (2/30).

ningún punto de dato cae en mas de una categoría. Las clases son mutuamente exclusivas. es decir. Las clases son completamente inclusivas.     . La suma de todas las frecuencias relativas es igual a 1. Ya que todos los datos caen en una u otra categoría.00 0 a 100%.

67 % 53 .Distribución de Frecuencias Clase 15 . 67 % 13 . 5 16 . 0 Frecuencia 2 16 8 4 30 Frecuencia Relativa 6 . 33 % 100 % . 6 a 16 . 33 % 26 . 6 a 17 . 1 a 15 . 5 15 . 0 16 . 1 a 16 .

1  Los talleres Tequila Fix registran el numero de comprobantes de servicio extendidos el mes anterior por casa una de sus 20 sucursales de la forma siguientes: 823 669 722 217 648 427 360 588 321 555 468 349 634 904 847 308 752 586 641 766  .Ejercicio No.

 La compañía tiene la creencia de que una sucursal no puede mantener financieramente con menos de 475 servicios mensuales. Ordene los datos de la tabla e indique cuantas sucursales no pueden mantenerse en el servicio y cuantas recibirán bonificación. . Es también política de la compañía otorgar una bonificación económica al gerente de sucursal que genere mas de 725 servicios mensuales.

Practica No. 1  A continuación presentamos las edades de 50 miembros de un programa de servicio social: 83 65 44 38 91 51 87 55 88 71 66 68 78 76 83 61 64 69 99 80 82 51 98 84 68 65 70 67 47 65 54 75 82 60 51 56 66 77 42 56 92 74 79 66 73 60 68 62 74 55 .

¿Podría usted estimar la respuesta con alguna de las dos distribuciones de frecuencia relativa?  .Utilícelos para construir primero. La política estatal sobre programas de servicio social establece que aproximadamente 50% de los participantes en el programa sean mayores de 50 años. a)¿Está el programa de acuerdo con la política del estado? b)¿La distribución de frecuencias con trece intervalos es mas útil que la de los siete para responder la pregunta del inciso anterior? c)Suponga que el director de servicio social desea saber la proporción de participantes del programa que estén entre 45 y 80 años de edad. una distribución de frecuencias relativas mediante siete intervalos iguales y después con trece intervalos iguales.

religión y sexo. clasificar la información de acuerdo con características cualitativas.Hasta ahora. Como ejemplo tendremos que realizar una tabla donde muestre la clase. también. con los datos de los egresados de una universidad que corresponden a las ocupaciones que tienen:   . Podemos. nuestras clases han consistido en numero y describen algún atributo cuantitativo de los elementos de la muestra. como raza. la distribución de frecuencia y la distribución de frecuencias relativas. que no entran de manera natural en categorías numéricas.

Actor Banquero Empresario Químico Medico 5 8 22 7 10 Agente de Seguro Periodista Abogado Maestro Otros 6 2 14 9 17 .

10 0.08 Relativas 0.17 .02 0.07 0.Clase Ocupacional Actor Banquero Empresario Químico Medico Agente de Seguro Periodista Abogado Maestro Otros Distribución de 5 Frecuencias 8 22 7 10 6 2 14 9 17 Distribución de 0.22 0.06 0.14 0.05 Frecuencias 0.09 0.

ya que la clase otros cubre a todas las observaciones que no entran en las categorías mencionadas. Se utilizara algo parecido a esta clase siempre que nuestra lista no incluya específicamente todas las posibilidades.En la información anterior no se enumeran todas las ocupaciones que tienen los graduados. La categoría otros se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificación cuantitativa no este limitado. pero sigue siendo completamente inclusiva.  .

Para hallar el ancho de los intervalos podemos utilizar esta ecuación:   Valor unitario Valor mas _____ pequeño siguientes Ancho de después del valor de los intervalos Numero total de intervalos mas los datos = grande de los datos de clase . Como regla general los estadísticos rara vez utilizan menos de seis y mas de quince clases. pero el numero de clases depende del numero de puntos de datos recolectados.Nosotros podemos crear las clases que queramos.

Representación Grafica    Las graficas de distribución de frecuencia simples y distribución de frecuencia relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden distinguir fácilmente en las tablas. .

cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase y cuya altura es proporcional al numero de elementos que caen dentro de la clase.  .Histogramas    Un histograma consiste en una serie de rectángulos.

entonces las barras verticales del histograma también tiene el mismo ancho. La altura de la barra correspondiente a cada clase representa el numero de observaciones de la clase.  . en lugar de usar el nuero real de puntos.Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho. se conoce como Histogramas de Frecuencia Relativa. Un histograma que utiliza frecuencias relativas.

Histograma de Frecuencia Simple Frecuencia Nivel de producción en metros .

Histograma de Frecuencia Relativa Frecuencia Relativa Nivel de producción en metros .

Polígonos de Frecuencias
Son otra forma de representar gráficamente distribuciones tanto de frecuencia simple como relativas. Para construir un polígono de frecuencias señalamos estas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. Un polígono de frecuencias es solo una línea que conecta los puntos medio de todas las barras de un histograma.

Polígono de Frecuencia Simple

Polígono de Frecuencias

pero permite que el polígono alcance el eje horizontal en ambos extremos de la distribución. estas dos clases contiene cero observaciones. . Si comparamos el histograma con el polígono nos daremos cuenta que se han añadido dos clases. una en cada extremo de la escala de los valores.

El área de cada rectángulo. . muestra la proporción del numero total de observaciones que se encuentran en esa clase. en relación con el resto.Ventajas de los Histogramas Los rectángulos muestran cada clase de la distribución por separado.

Traza con más claridad el patrón de los datos.Ventajas de los Polígonos El polígono de frecuencias es más sencillo que su correspondiente histograma.   . El polígono se vuelve mas liso y parecido a una curva conforme aumentamos el numero de clases y el numero de observaciones.

Ojivas  Una distribución de frecuencias acumuladas nos permite ver cuantas observaciones están por encima de ciertos valores. en lugar de hacer un mero registro del numero de elementos que hay dentro de los intervalos. . si deseamos saber cuantos telares tejen menos de 17. Por ejemplo.0 metros. podemos utilizar una tabla que registre las frecuencias acumuladas “menores que” de nuestra muestra.

 . los puntos representados en la grafica indican el numero de telares que tienen una produccion menor que el numero de metros mostrados en el eje horizontal.La grafica de distribucion de frecuencias acumuladas se le conoce como Ojiva. Note que el limite inferior de las clases de la tabla se convienten en el limite superior de la distribucion acumulativa de la ojiva.

La ojiva para tal información tendría una inclinación hacia abajo y hacia la derecha. en lugar de tener una inclinación hacia arriba y a la derecha.  . En ocasiones. la información que utilizamos se presenta en términos de frecuencias acumuladas “mayores que”.

1 15.7 17.1 16.4 16.0 Frecuencia Acumulada 0 2 7 18 24 27 30 .Clase Menor que Menor que Menor que Menor que Menor que Menor que Menor que 15.5 15.8 16.

Acumulada Relativa .Ojiva de F.

Relativa Acumulada .Ojiva de F.

mediana y moda.Medidas de tendencia central  Media y Media Ponderada (Pesada)  Mediana  Moda  Relación entre media. .

la vida promedio de la batería de una cámara fotográfica o de la producción de tequila por una tonelada de agave. Esto es cierto en casos como la temperatura promedio en la ciudad.   .Medida de Tendencia Central Casi siempre. cuando nos referimos al “promedio” de algo. estamos hablando de la media aritmética. Para encontrar la media aritmética . sumamos los valores de todas las observaciones y el resultado lo dividimos entre el numero de observaciones.

  . Tener presente que las medidas que se calculan para una muestra se conocen como estadísticas. Una muestra de una población consiste en n observaciones (una ene minúscula) con una media de x (equis testada).Símbolos Convencionales  Ahora necesitamos aprender la notación matemática que utilizan los especialistas en estadística.

 La notación es diferente cuando calculamos medidas para la población entera. La media de una población se simboliza con µ. que es la letra griega mi. para el grupo que contiene todos los elementos que estamos describiendo. . es decir. El numero de elementos de una población se denota con la letra mayúscula cursiva N.

Calculo de la media a partir de datos no agrupados Media de la población Suma de los valores de todas las observaciones Número de elementos de la población Suma de los valores de todas las observaciones Número de elementos de la muestra Media de la muestra .

Generador Días fuera de servicio 1 7 2 3 23 4 4 8 5 2 6 7 12 6 8 9 13 9 10 4  .Media de la población  A continuación se describen el numero de días en que se encuentran fuera de servicio los generadores de una planta de energía. debido al mantenimiento regular al que se les somete o a alguna falla.

.

Estudiante 1 Aumento 9 2 7 3 7 4 6 5 4 6 4 7 2 .Media de la muestra  Se presenta un alista del aumento percentil en los resultados de un examen de admisión obtenidos por siete estudiantes distintos que tomaron un curso de preparación de dicho examen.

.

. Suponga que tenemos una distribución de frecuencias del saldo promedio mensual de la cuanta de cheques de 600 clientes de una sucursal bancaria.Cálculo de la media datos agrupados  de Una distribución de frecuencias consta de datos agrupados en clases. A diferencia del examen de admisión. no sabemos el valor individual de cada observación. Cada valor de una observación cae dentro de alguna de las clases.

99 250.00 499.99 100.99 350.99 400.00 – 249.00 – 299.00 449.00 – 349.99 300.99 50.00 – 99.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 .99 150.99 200.99 450.00 – 199.00 – 399.Clases (dolares) 0 – 49.00 – 149.

995 y se convierte en: 25. Es una estimación debido a que no utilizamos el total de 600 puntos de datos de la muestra.A partir de la información de la tabla. Para lograr que los puntos medios queden en cifras cerradas. podemos calcular fácilmente una estimación del valor de la media de estos datos agrupados. Para calcular la media aritmética primero calculamos el punto medio de cada clase. redondeamos las cantidades.00  . el punto medio de la primera clases es: 24. Así pues por ejemplo.

sumamos todos los resultados y dividimos esta suma entre el numero total de observaciones dela muestra. Después multiplicamos cada punto medio por la frecuencia de la observaciones de dicha clase. La formula es la siguiente: .

99 450.00 – 99.00 249.00 499.00 – 149.99 Medios 50.00 299.00 399.00 349.99 – 150.99 Frecuencia F x X .99 100.00 449.99 400.99 – 200.Clase Puntos 0 – 49.99 – 350.00 199.99 – 300.99 – 250.

00 – 125.00 225.00 100.00 399.00 50.00 499.00 – 99.00 175.00 249.00 299.99 – 250.00 275.00 149.99 – 150.99 – 300.00 475.99 – 350.Clase Puntos Medios 0 – 49.99 450.99 Frecuencia F x X .00 375.99 – 200.00 199.9925.99 400.00 349.00 425.00 449.99 75.00 325.

9925.00 175.99 – 250.99 Frecuencia F x X 78 123 187 82 51 47 13 9 6 4 600 .00 475.00 50.00 100.00 225.00 499.00 399.99 – 200.00 249.00 – 99.00 – 125.99 450.99 75.99 – 350.00 275.99 – 150.00 149.99 400.00 449.00 425.00 299.Clase Puntos Medios 0 – 49.00 375.00 199.00 349.99 – 300.00 325.

00 449.350 11.00 – 99.99 – 200.99 450.99 – 300.99 – 150.00 275.00 349.00 149.00 299.375 2.00 50.00 249.00 175.225 3.00 425.00 375.900 85.350 .375 14.99 – 350.00 225.9925.99 – 250.550 1.00 – 125.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 FxX 1.00 499.99 75.925 4.00 100.225 23.00 199.475 12.99 400.00 399.Clase Puntos Medios 0 – 49.950 9.00 325.00 475.

Clase Puntos Medios 0 – 49.00 375.00 149.00 425.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 FxX 1.475 12.550 1.00 399.00 225.225 3.900 85.00 325.225 23.00 275.950 9.00 349.350 .00 – 99.00 299.99 400.00 175.925 4.00 449.00 499.99 – 150.375 14.350 11.00 50.99 75.99 – 200.00 100.00 475.00 199.99 – 350.375 2.99 – 300.00 249.9925.99 – 250.99 450.00 – 125.

No se puede calcular la media a un conjunto de datos que tiene clases de extremo abierto. . Cada conjunto de datos tiene una media.    cabo Puede verse afectada por valores no representativos al resto de los datos.Ventajas y Desventajas Se trata de un concepto familiar. Tedioso al tener muchos datos a observar. La media es útil para llevar a procedimientos estadísticos.

la compañía cuyos datos son los siguientes: Nivel de Trabajo No calificado Semicalificado Calificado Salario por hora (x) $ 5.Media Ponderada (Pesada)  La media pesada nos permite calcular el promedio que toma en cuanta la importancia de cada valor con respecto al total.00 7.00 Producto 1 1 2 5 Producto 2 4 3 3 .00 9. por ejemplo. Considere.

Un simple promedio aritmético de los salarios pagados por trabajo seria:  . La compañía desea saber el promedio del costo de trabajo por hora para cada uno de los productos. semicalificado y calificado. no calificado.La tabla utiliza tres niveles de trabajo. para la producción de dos de sus productos finales.

el costo total del trabajo por unidad es (5 x 1)+(7 x 2)+(9 x 5)= $64 y como se invierten 8 horas de trabajo.00.Usando esta tasa promedio podríamos calcular el costo invertido en una unidad del producto 1 como $7(1+2+5)=$56. Para que nuestros cálculos sean correctos. y el de una unidad del producto 2 como $7(4+3+3)=$70. .    Realizar los mismo cálculos para el producto 2. Pero estos promedios son incorrectos. el costo promedio de trabajo por hora es $64/8 = $8. Para el producto 1. Podemos determinar los promedios correctos de la siguiente manera. debemos tomar en cuanta que se utilizan diferentes niveles de trabajo.

   (5 x 4)+(7 x 3)+(9 x 3) = $68 $68/10 = $6.80 .

pesamos el salario por hora de cada nivel mediante la fracción del trabajo total requerido para fabricar el producto. 2/8 de trabajo semiespecializado y 5/8 de trabajo especializado. Se requiere 1/8 de este tiempo de trabajo no especializado. Si utilizamos estas fracciones como nuestros pesos. Para hacerlo. por ejemplo. entonces una hora de trabajo en el producto cuenta en promedio: . Una unidad del producto 1. requiere 8 horas de trabajo. Otra forma de calcular el costo promedio por hora para el trabajo invertido en los dos productos consiste en tomar un promedio ponderado del costo de los tres niveles de trabajo.

Utilizando símbolos. la formula para calcular la madia ponderada es:   .Asi pues vemos que los promedios pesados dan el valor correcto para los costos promedios por hora de trabajo para los dos productos ya que toman en cuanta las diferentes cantidades de cada nivel que se utiliza en la elaboración de los productos.

Si aplicamos la formula anterior al producto 1 de nuestro ejemplo de costo de trabajo, encontramos:

Mediana
La mediana es una medida de tendencia central diferente a la media aritmética y la media ponderada. La mediana es solo un valor calculado a partir del conjunto de datos que mide la observación central de estos. Esta sola observación es la mas central o la que esta mas en medio en el conjunto de números. La mitad de los elementos están por arriba de este punto y la otra mitad esta por debajo.

Calculo de la media a partir de datos no agrupados

Para hallar la mediana de un conjunto de datos, primero organice estos en orden descendente o ascendente. Si el dominio de datos contiene un numero impar de elementos, el de en medio en el arreglo es la mediana. Si hay un numero par de observaciones, la mediana es el promedio de los dos elementos de en medio. En lenguaje formal, la mediana es:

8 5 5. Elemento del 1 arreglo en Minutos 4. Deseamos encontrar la mediana de siete elementos de un arreglo de datos.7 4 4.0     . los cuales representan los tiempos de los miembros de un equipo de atletismo.1 7 9.3 3 4.2 Tiempo de datos 2 4.0 6 5.

Considere los siguientes datos que corresponden al numero de pacientes tratados diariamente en la sala de emergencia de un hospital.   Elementos Numero de pacientes 1 86 2 52 3 49 4 43 5 35 6 31 7 30 8 11 .Observemos que a diferencia de la media aritmética que calculamos antes. Ahora calculemos la mediana de un arreglo con un numero par de elementos. la mediana que calculamos no se ve distorsionada por la presencia del ultimo valor.

5 del arreglo. 39 es el numero que representa la mediana de los pacientes tratados diariamente en la sala de emergencias durante ocho días . por consiguiente . necesitamos calcular el promedio de los elementos 4 y 5.Elementos Numero de pacientes 1 86 2 52 3 49 4 43 5 35 6 31 7 30 8 11  Como la mediana es el elemento numero 4. el promedio de estos dos elementos es igual a (43+35)/2 lo cual da como resultado 39. el cuarto elemento de la tabla es 43 y el quinto 35.

tenemos acceso a los datos hasta después que han sido agrupados en una distribución de frecuencias. Por ejemplo. En este caso. No obstante podemos calcular la mediana del saldo de las cuentas de estos 600 clientes determinando cual de estas clases contiene la  . no conocemos cada observación que llevo a la construcción la tabla de los saldos promedios. tenemos diez intervalos de clase y un registro de las frecuencias. la cual contiene datos de 600 clientes bancarios.Cálculo de la mediana a partir de datos agrupados A menudo.

99 50.00 499.99 200.99 350.00 – 199.00 – 349.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 .99 100.00 – 299.99 150.99 450.Clases (dolares) 0 – 49.00 – 399.00 – 249.00 449.00 – 99.99 250.99 400.99 300.00 – 149.

debemos sumar las frecuencias que mostramos en la tabla anterior hasta que alcancemos el elemento numero (n+1)/2. las observaciones numero 300 y 301 deben estar en esta tercera clase. En consecuencia. el valor para la formula anterior es 300. ahora el problema consiste en encontrar los intervalos de clase que contenga a los elementos numero 300 y 301. pero cuando tomamos en cuanta al tercer intervalo de clase. Para llevar a cabo esto. La frecuencia acumulada para las dos primeras clases es de solamente 78+123=201.5. sumamos 187 elementos a los 201 acumulados y tendremos un total de 388. Como tenemos 600 cuentas. .

 Ahora implementamos la siguiente formula para poder calcular la mediana:     n = número total de elementos de la distribución F=suma de todas las frecuencias de clase hasta. f m=frecuencia de la clave mediana.  w= ancho del intervalo de la clase.  . L m= límite inferior del intervalo de la clase mediano. pero sin incluir la mediana.

 Si utilizamos la formula anterior tenemos que n=600. . fm=187. w=50 y Lm=100. F=201.

Moda La moda es una medida de tendencia central diferente de la media. La moda es aquel valor que mas se repite en el conjunto de datos. Como todos los demás aspectos de la vida. pero un tanto parecida a la mediana. pues en realidad no se calcula mediante algún proceso aritmético ordinario. el azar puede desempeñar un papel importante en la organización de datos.  .

a ve Viajes por entregar por día en un lapso de 20 días 0 2 5 7 0 2 5 7 1 4 6 8 1 4 6 12 15 15 15 19 .A co n ti u a ci n se p re se n ta u n a ta b l co n e l n ó a n u m e ro d e vi j s d e e n tre g a p o r d í q u e h a ce ae a u n a p l n ta re vo l d o ra d e co n cre to .

Cálculo de la moda de datos no agrupados Si calculamos la moda en la siguiente lista de datos no agrupados podemos ver que el modal es el valor de 15. ya que se presenta más a menudo que cualquier otro valor. La moda nos dice que 15 es el número más frecuente de viajes. pero no nos dice que la mayor cantidad de viajes esta por debajo de 10.  . sin embargo una moda de 15 implica que la actividad de la planta es mayor que 6.7 que es el resultado de la media aritmética.

podemos suponer que la moda esta localizada en la clase que contiene el mayor número de elementos. en la clase que tiene la mayor frecuencia. . es decir.Cálculo de la moda para los datos agrupados  Cuando los datos se encuentran agrupados en una distribución de frecuencias. utilizamos la siguiente formula. Para determinar un solo valor para la moda a partir de esta clase modal.

d =frecuencia de la clase modal menos la 2 frecuencia de la clase que se encuentra inmediatamente por encima de ella.  En la que: LMo =límite inferior de la clase modal. d =frecuencia de la clase modal menos la 1 frecuencia de la clase que se encuentra inmediatamente por debajo de ella.  . w=ancho del intervalo de la clase modal.

. d1=187-123=64. d2=18782=105 y w=50. Si utilizamos la formula anterior para calcular la moda del saldo de las cuantas de cheques. tenemos: LMo =100.

 Varianza de la Población   Desviación Estándar de la Población  .Medidas de Dispersión para un conjunto de datos.

que se simboliza con σ²(sigma cuadrada). Cada población tiene una varianza.Varianza de la Población La varianza y la desviación estándar nos dan una distancia promedio de cualquier observación del conjunto de datos con respecto de la media. Para calcular la varianza de una población. dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población.  .

      La fórmula para calcular la varianza es: donde: .

Desviación Estándar de la Población   La desviación estándar de la población o σ. Como la varianza es el promedio de las distancias al cuadrado que can de las observaciones a la media. . es simplemente la raíz cuadrada de la varianza de la población. la desviación estándar es la raíz cuadrada del promedio de las distancias al cuadrado que van de las observaciones a la media.

      La fórmula para la desviación estándar es: donde: .

Varianza y Desviación Estándar Para Datos Agrupados    Cuando los datos se encuentran agrupados en una distribución de frecuencias se utilizan las fórmulas siguientes. .

       donde: .