Probabilidad y Estadística Descriptiva

Unidad 1
Historia

Clasificación

Definición  Recopilación de Datos

Historia
 

Origen de la Palabra

La palabra statistik proviene de la palabra statista (que significa “estadista”, fue utilizada por primera vez por Göttingen Achenwall (1719 -1772), un profesor de Marlborough y de Göttingen, y el Dr. E. A. W. Zimmerman introdujo el termino estadística a Inglaterra. Sin embargo mucho antes del siglo XVII la gente utilizaba y registraba datos.

Primeros Registros  La estadística gubernamental oficial es tan vieja como la historia registrada. Los gobiernos de los antiguos Babilonia. El viejo testamento contiene varios informes sobre levantamiento de censos. Egipto y Roma reunieron registros detallados sobre poblacion y recursos. .

En la Edad Media.  . Carlomagno pidió la descripción detallada de los propiedades de la iglesia. los gobernantes empezaron a registrar las propiedades de la tierra. En el año 762 de nuestra era. A principios del siglo IX terminó la enumeración estadística de los siervos que había en los feudos.

un registro de la propiedad. extensión y valor de las tierras de Inglaterra. este fue el primer trabajo estadístico de Inglaterra. . Guillermo el Conquistador ordenó que se escribiera el Domesday Book. En el año de 1806.

población riqueza. que se presenten a una valuación numérica. resumen. En una forma práctica. y así mostrar una visión de conjunto clara y de más fácil apreciación. así como para describirlos y compararlos. etc.Definición de Estadística  La ESTADISTICA es la ciencia que le facilita al hombre el estudio de datos masivos. fenómenos físicos. pasa de esa manera sacar conclusiones valederas y efectuar predicciones razonables de ellos. calidad. impuestos.    . la ESTADÍSTICA nos proporciona los métodos científicos para la recopilación. cosechas. organización. tales como son: Características biológicas o sociológicas. o análisis de hechos. producción. representación y ANALISIS de DATOS.

 Los Administradores aplican alguna técnica estadística a virtualmente todas las ramas de las empresas publicas o privadas. por lo general. Estas técnicas son tan diversas que los estadísticos. . las dividen en dos grandes categorías: estadística descriptiva y estadística inferencial.

. basándose en los datos simplificados y analizados de una muestra hacia la población o universo. Por ejemplo. se podrá inferir la votación de todos los ciudadanos que cumplan los requisitos con un error de aproximación. a partir de una muestra representativa tomada a los habitantes de una ciudad.Estadística Inferencial  La estadística inferencial permite realizar conclusiones o inferencias.

. por lo que recibe también el nombre de Inferencia estadística.Estadística Inferencial  Está fundamentada en los resultados obtenidos del análisis de una muestra de población. con el fin de inducir o inferir el comportamiento o característica de la población. de donde procede.

solo nos limitaremos a describir los datos encontrados en dicha muestra. no se podrá generalizar la información hacia la población. Si aplicamos las herramientas ofrecidas por la estadística descriptiva a una muestra. .Estadística Descriptiva  Es aquella que se emplea simplemente para resumir de forma numérica o gráfica un conjunto de datos. Se restringe a describir los datos que se analizan.

No obstante puede no solo referirse a la observación de todos los elementos de una población (observación exhaustiva) sino también a la descripción de los elementos de una muestra (observación parcial). a fin de compararlas.Estadística Descriptiva  Tienen por objeto fundamental describir y analizar las características de un conjunto de datos. . obteniéndose de esa manera conclusiones sobre las características de dicho conjunto y sobre las relaciones existentes con otras poblaciones.

tablas y diagramas que muestren los datos de manera que sea mas fácil su entendimiento son ejemplos de estadística descriptiva. Como la estadística describe el desempeño de grupo pero no hace ninguna generalización acerca de los diferentes grupos. podemos decir que el profesor esa utilizando estadística descriptiva. . Graficas.Ejemplo  Supongase que un profesor calcula la calificación promedio de un grupo de historia.

Recopilación de los datos. Evaluación y depuración de los datos. Presentación de los datos. .Metodología de la Investigación Estadística  El método de investigación estadística comprende las cinco fases siguientes:  Preparación del trabajo. Análisis e interpretación.

definición precisa de los datos que se necesitan.Preparación del Trabajo  Se limita a la redacción de las instrucciones para recabar los datos. ya que las dudas o malas interpretaciones echarán a perder el resto de la investigación. diseño de formularios y planillas. En esta fase deben quedar perfectamente claros los conceptos y cada participante debe conocer a cabalidad sus atribuciones y responsabilidades.   . planificación y organización del trabajo en el espacio y en el tiempo.

La eficiencia con que se realice esta etapa generará la calidad de todo el trabajo de investigación estadística.Recopilación de Datos En ella se recaban los datos necesarios para la investigación. o se toman de fuentes secundarias o registros y publicaciones.  . muestreos. mediante encuestas. censos.

Evaluación de los Datos  Los datos recopilados. debidos a la ignorancia. De allí que el paso inmediato sería una depuración y evaluación de tales datos. suelen adolecer de imperfecciones y errores varios. de parte de quien aporta los datos o de quien los recaba. a malos entendidos. a intereses creados o a prejuicios sociales. a fin de subsanar o mitigar las influencias y efectos de tales errores e imperfecciones. en la vida real. .

en cuadros de doble entrada. También suelen representarse gráficamente. o en valores promedios. proporcionales. mediante: Histogramas. polígonos. pictogramas. dibujos acotados. porcentuales. entre otros. prismogramas. . diagramas figurados.Representación de los Datos  Los datos suelen estar presentados en forma tabular.

ropas y servicios consumidos por una persona. mortinalidad (nacidos muertos). inmigración. . fiscales. familia.Interpretación de los Datos  Podría decirse que es ésta la fase más amplia de todas y en la cual la investigación rinde sus mejores frutos. Desde la más remota antigüedad se ha venido aplicando el análisis estadístico a las investigaciones demográficas. entre otros. los índices de productividad o relación entre la producción y las horas – hombre de trabajo en ella utilizadas. de tan rotunda actualidad. De generalización más reciente tenemos los índices y tendencias del costo de la vida. Igualmente. los cuales se obtienen sumando los costos promedios de alimentos. socioeconómicas. en el período que se estudia. mortalidad. estándar. emigración. Obteniéndose así índices y tendencias de natalidad. etc. nupcialidad. medicinas. vivienda.

Colección de datos: es un conjunto de datos relacionados.   .Recopilación de Datos  Datos: son colecciones de cualquier cantidad de observaciones relacionadas.

.Métodos para la Recolección de Datos  En estadística se emplean una variedad de métodos distintos para obtener información de los que se desea investigar.

debido a que al tener contacto directo con la persona entrevistada. . el entrevistador podrá aclarar cualquier duda que se presente sobre el cuestionario o investigación. El investigador efectuará a esta persona una serie de preguntas previamente escritas en un cuestionario o boleta.Entrevista Personal  Los datos estadísticos necesarios para una investigación. se reúnen frecuentemente mediante un proceso que consiste en enviar un entrevistador o agente. permite obtener una información más veraz y completa que la que proporcionan otros métodos. directamente a la persona investigada. donde anotará las respuestas correspondientes. Este procedimiento que se conoce con el nombre de entrevista personal.

sobre todo si se trata de una  . Otra desventaja es su alto costo. ya que resulta bastante oneroso el entrenamiento de los agentes o entrenadores y los supervisores de estos.Otra ventaja es la posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al nivel intelectual de las personas entrevistadas. puede alterar las respuestas por las personas entrevistadas. Una de las desventajas de este método se debe a que si el entrevistador no obra de buena fé o no tiene un entrenamiento adecuado.

sino también una breve explicación del objeto de la encuesta con el fin de evitar interpretaciones erróneas. puesto que no hay que incluir gastos de entrenamiento de personal. el único gasto sería el de franqueo postal. Una de las ventajas es que tienen un costo muy inferior al anterior procedimiento. en algunos casos no estamos seguros de que los formularios hayan sido recibidos por sus destinatarios y que hayan sido respondido por ellos mismos.  . Dentro de las desventajas de este procedimiento podemos señalar que solo un porcentaje bastante bajo de estos es devuelto.Cuestionarios por Correo consiste en enviar por correo el cuestionario acompañado por el instructivo necesario. dando en este no solo las instrucciones pertinentes para cada una de las preguntas. Lo que trae como consecuencia que la información se obtenga con una serie de errores difíciles de precisar por el investigador.

además las investigaciones efectuadas por este método tienen un carácter selectivo. Entre las limitaciones que presenta este método podemos señalar el número de preguntas que pueden formularse es relativamente limitado.Entrevista por Teléfono Como lo indica su nombre. debido a que muchas de las personas que potencialmente podrían ser investigadas no posee servicio telefónico. Este método es bastante simple y económico. este método consiste en telefonear a la persona a entrevistar y hacerle una serie de preguntas. ya que el entrenamiento y supervisión de las personas encargadas de efectuar las preguntas es siempre fácil. por lo que quedan sin la posibilidad de ser entrevistados.  .

Instrumentos para Recolección de Datos .

nombre del encuestador. edad o fecha de nacimiento. número del cuestionario. para construir el propósito de la investigación. sexo. etc. grado de instrucción. ingresos. ocupación actual.Cuestionario  Cualquiera que sea el método por el que se decida el investigador para recabar información. lugar y fecha de la entrevista. varían de acuerdo a la finalidad de la encuesta. estas partes. nacionalidad.  Datos propios de la investigación. así como las preguntas. es necesario elaborar un estudio de preguntas. Los cuestionarios en general. son los datos que interesa conocer   Como es natural. (oficial o privada). nombre de la encuesta. constan de las siguientes partes:    La identificación del cuestionario: nombre del patrocinante de la encuesta. la parte referente a los datos personales es eliminada por no tener ningún tipo de interés para . cédula de identidad. nombres. En algunos tipos de investigación.  Datos de identificación y de carácter social del encuestado: apellidos. estado civil.

agruparlas procurando que se relacionen unas con otras.Consideraciones a Tomar El cuestionario debe ser conciso. evitar preguntas ambiguas o que sugieran respuestas incorrectas. Facilidad de contestación: se deben evitar. sobre datos personales que puedan ofender al entrevistado. se obtenga la mejor información. las preguntas de respuestas libres o abiertas y también la formulación de preguntas que requieran cálculos numéricos por parte del entrevistado. no debe tener preguntas indiscretas o curiosas. Orden de las preguntas: estas deben tener una secuencia y un orden lógico. por lo que deben estar formuladas las preguntas de la forma más sencilla. tratar en los posible de que con el menor número de preguntas. en lo posible. . Claridad de la redacción. Discreción: un cuestionario hecho a conciencia.

¿Para que me sirven los datos recolectados? .

ya que los pueden ayudar a hacer suposiciones bien pensadas acerca de las causas y. Un ejemplo muy claro es con los responsables de las tomas de decisiones en las empresas. de los efectos probables de ciertas características en situaciones dadas. . por tanto.

 Una investigación de mercado por ejemplo puede revelar que determinado producto es preferido por un individuo en especifico. y en situaciones especificas. .

Distribución de Frecuencias    Frecuencia: Es el número de datos o elementos de la muestra. Es decir. que caen en un mismo intervalo de clase. que sus valores quedan totalmente comprendidos dentro de los linderos de ese mismo intervalo. .

Algunos Conceptos
  

Población o Universo: La población, o el universo, está formado por la totalidad de los elementos que se desean estudiar, ejemplos podrían ser: La población total de Venezuela, los alumnos cursantes en las universidades del país, la producción de toda una industria, a cosecha de un año dado, el rendimiento de una raza de ganado, entre otros.

Según sus características dimensionales pueden ser: FINITA: Cuando tiene un valor limitado, como por ejemplo: las unidades de producto de una empresa. INFINITA: Cuando es un número ilimitado, como por ejemplo: longitud de las hebras de una plantación de algodón.

Muestra: En los estudios estadísticos, en vez de analizar la totalidad de la población o universo, se acude al recurso de considerar solamente una parte de ella, a la cual se llama muestra. Es requisito indispensable que la muestra a analizarse sea representativa realmente de la población o universo, al cual substituye en el estudio estadístico, o sea, que debe contener valores típicos del fenómeno que se desea estudiar.

 . que pueden obtener los alumnos de un curso en un examen comprenderá los valores desde cero hasta veinte. el dominio de la variable calificación. Por ejemplo. que puede tomar la variable.Dominio: Está constituido por los valores posibles.

la mayoría de los médicos prefiere Aspirina. en lugar de Tylenol. Bufferin o Advil. ¿Se llego a esta conclusión a partir de una muestra o una población?   .Pregunta…  Cuando se les pregunta que medicamento tomarían si estuvieran en una isla abandonada y solo hubiera que escoger una analgésico.

¿Se llego a esta conclusión a partir de una muestra o una población?   .Pregunta…  El 25% de los automóviles vendidos en Estados Unidos en 2008 fue armado en Japón.

tomo una muestra diaria de 30 telares. La tabla que se presenta m as adelante exhibe la producción en metros de cada uno de los 30 telares de la muestra tomada. Para no tener que medir la producción diaria(en metros) de cada telar.Ordenamiento de Datos  El director de producción de una compañía es responsable de la fabricación de alfombras en mas de 500 telares. con lo que llega a una conclusión sobre la producción promedio de alfombras de las 500 maquinas. . Estas cantidades son los datos sin procesar desde los cuales el director puede llegar a una conclusión que abarque la totalidad de los telares en su desempeño del día anterior.

9 15.7 16.0 16.3 17 15.8 16.7 15.8 16.1 16.8 16.0 15.9 15.9 16.8 15.Producción en metros 16.3 16.4 15.9 16.6 16.0 16.6 15.0 15.6 15.2 15.4 16.4 15.3 .6 16.2 15.1 15.8 16.

los forma en orden ascendente o descendente. a continuación presentamos la tabla sobre los datos de las alfombras en un arreglo ascendente. La ordenación de los datos es una de las formas mas sencillas de representarlos. .

9 15 . 8 15 . 2 16 . 6 16 . 4 16 . 6 15 . 9 16 16 16 16 16 . 7 15 . 9 15 . 3 16 . 3 16 . 8 17 . 6 15 . 4 16 . 8 16 . 9 15 .15 . 4 15 . 1 16 . 8 15 . 3 16 . 2 16 . 1 15 . 7 15 . 6 15 . 8 15 .

Podemos fácilmente dividir los datos en secciones.Podemos observar la distancia entre valores sucesivos de los datos.  .. El arreglo de datos ofrece ventajas con respecto a los datos sin procesar:  1..Podemos mostrar rápidamente los valores mayor y menor de los datos. 2.Podemos ver si algunos de los valores se aparece mas de una vez. 3. 4..

uno puede construir una distribución de frecuencias.Distribución de Frecuencias Una forma en la que podemos comprimir los datos es la tabla de frecuencias o distribución de frecuencias. Si uno puede determinar la frecuencia con la que se presentan los valores en cada clase de un conjunto de datos.  . Una distribución de frecuencias muestra el numero de observaciones del conjunto de datos que caen en cada una de las clases.

8 15 . 9 15 . 8 15 . 6 15 . 4 15 . 2 16 . 3 16 . 9 16 16 16 16 . 8 17 . 9 15 . 3 16 . 6 16 .15 . 1 16 . 3 16 . 7 15 . 6 15 . 4 16 . 6 15 . 9 16 15 . 2 16 . 7 15 . 8 16 . 8 Arreglo de datos 15 . 1 15 . 4 16 .

6 15 . 7 15 . 4 16 . 5 15 . 6 16 . 9 16 15 . 4 16 . 3 16 . 9 15 . 2 16 . 4 15 . 0 Distribución de Frecuencias 2 16 8 4 . 6 15 . 8 17 15 . 3 16 . 8 15 . 2 16 . 6 a 17 . 1 a 16 . 6 a 16 . 1 15 .15 . 6 15 . 9 16 16 16 16 . 7 15 . 9 15 . 5 16 . 8 16 . 8 Arreglo de datos 15 . 8 15 . 1 a 15 . 0 16 . 3 16 . 1 16 .

Ya no podemos saber. por ejemplo.9 se repite 4 veces y que el valor 15. que el valor 15. Sin embargo ganamos información acerca del patrón de existencias promedio. Podemos ver que perdimos algo de información al construir la distribución de frecuencias.   .2 no aparece.

La respuesta puede expresarse como una fracción (2/30). por ejemplo es de 2 en la tabla de anterior. un numero decimal (0.1 a 15. La frecuencia de un intervalo promedio de 15.066. para obtener este valor se divide la frecuencia de esa clase entre el numero total de observaciones del conjunto de datos.5.También podemos expresar la frecuencia de cada valor como una fracción o un porcentaje del numero total de observaciones( Frecuencia Relativa). pero se puede representar por 0.066) o  .

    .00 0 a 100%. ningún punto de dato cae en mas de una categoría. es decir. Ya que todos los datos caen en una u otra categoría. La suma de todas las frecuencias relativas es igual a 1. Las clases son mutuamente exclusivas. Las clases son completamente inclusivas.

67 % 13 . 5 16 . 6 a 16 . 1 a 16 .Distribución de Frecuencias Clase 15 . 33 % 26 . 6 a 17 . 0 Frecuencia 2 16 8 4 30 Frecuencia Relativa 6 . 1 a 15 . 0 16 . 5 15 . 67 % 53 . 33 % 100 % .

1  Los talleres Tequila Fix registran el numero de comprobantes de servicio extendidos el mes anterior por casa una de sus 20 sucursales de la forma siguientes: 823 669 722 217 648 427 360 588 321 555 468 349 634 904 847 308 752 586 641 766  .Ejercicio No.

Es también política de la compañía otorgar una bonificación económica al gerente de sucursal que genere mas de 725 servicios mensuales. La compañía tiene la creencia de que una sucursal no puede mantener financieramente con menos de 475 servicios mensuales. . Ordene los datos de la tabla e indique cuantas sucursales no pueden mantenerse en el servicio y cuantas recibirán bonificación.

1  A continuación presentamos las edades de 50 miembros de un programa de servicio social: 83 65 44 38 91 51 87 55 88 71 66 68 78 76 83 61 64 69 99 80 82 51 98 84 68 65 70 67 47 65 54 75 82 60 51 56 66 77 42 56 92 74 79 66 73 60 68 62 74 55 .Practica No.

Utilícelos para construir primero. a)¿Está el programa de acuerdo con la política del estado? b)¿La distribución de frecuencias con trece intervalos es mas útil que la de los siete para responder la pregunta del inciso anterior? c)Suponga que el director de servicio social desea saber la proporción de participantes del programa que estén entre 45 y 80 años de edad. ¿Podría usted estimar la respuesta con alguna de las dos distribuciones de frecuencia relativa?  . una distribución de frecuencias relativas mediante siete intervalos iguales y después con trece intervalos iguales. La política estatal sobre programas de servicio social establece que aproximadamente 50% de los participantes en el programa sean mayores de 50 años.

también. la distribución de frecuencia y la distribución de frecuencias relativas. religión y sexo. Como ejemplo tendremos que realizar una tabla donde muestre la clase. Podemos. que no entran de manera natural en categorías numéricas. con los datos de los egresados de una universidad que corresponden a las ocupaciones que tienen:   .Hasta ahora. como raza. nuestras clases han consistido en numero y describen algún atributo cuantitativo de los elementos de la muestra. clasificar la información de acuerdo con características cualitativas.

Actor Banquero Empresario Químico Medico 5 8 22 7 10 Agente de Seguro Periodista Abogado Maestro Otros 6 2 14 9 17 .

08 Relativas 0.02 0.10 0.17 .05 Frecuencias 0.07 0.09 0.06 0.Clase Ocupacional Actor Banquero Empresario Químico Medico Agente de Seguro Periodista Abogado Maestro Otros Distribución de 5 Frecuencias 8 22 7 10 6 2 14 9 17 Distribución de 0.22 0.14 0.

En la información anterior no se enumeran todas las ocupaciones que tienen los graduados.  . Se utilizara algo parecido a esta clase siempre que nuestra lista no incluya específicamente todas las posibilidades. pero sigue siendo completamente inclusiva. La categoría otros se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificación cuantitativa no este limitado. ya que la clase otros cubre a todas las observaciones que no entran en las categorías mencionadas.

Para hallar el ancho de los intervalos podemos utilizar esta ecuación:   Valor unitario Valor mas _____ pequeño siguientes Ancho de después del valor de los intervalos Numero total de intervalos mas los datos = grande de los datos de clase . Como regla general los estadísticos rara vez utilizan menos de seis y mas de quince clases. pero el numero de clases depende del numero de puntos de datos recolectados.Nosotros podemos crear las clases que queramos.

.Representación Grafica    Las graficas de distribución de frecuencia simples y distribución de frecuencia relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden distinguir fácilmente en las tablas.

 .Histogramas    Un histograma consiste en una serie de rectángulos. cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase y cuya altura es proporcional al numero de elementos que caen dentro de la clase.

entonces las barras verticales del histograma también tiene el mismo ancho. Un histograma que utiliza frecuencias relativas. en lugar de usar el nuero real de puntos. La altura de la barra correspondiente a cada clase representa el numero de observaciones de la clase.  . se conoce como Histogramas de Frecuencia Relativa.Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho.

Histograma de Frecuencia Simple Frecuencia Nivel de producción en metros .

Histograma de Frecuencia Relativa Frecuencia Relativa Nivel de producción en metros .

Polígonos de Frecuencias
Son otra forma de representar gráficamente distribuciones tanto de frecuencia simple como relativas. Para construir un polígono de frecuencias señalamos estas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. Un polígono de frecuencias es solo una línea que conecta los puntos medio de todas las barras de un histograma.

Polígono de Frecuencia Simple

Polígono de Frecuencias

estas dos clases contiene cero observaciones. . Si comparamos el histograma con el polígono nos daremos cuenta que se han añadido dos clases. pero permite que el polígono alcance el eje horizontal en ambos extremos de la distribución. una en cada extremo de la escala de los valores.

Ventajas de los Histogramas Los rectángulos muestran cada clase de la distribución por separado. muestra la proporción del numero total de observaciones que se encuentran en esa clase. . en relación con el resto. El área de cada rectángulo.

Ventajas de los Polígonos El polígono de frecuencias es más sencillo que su correspondiente histograma.   . El polígono se vuelve mas liso y parecido a una curva conforme aumentamos el numero de clases y el numero de observaciones. Traza con más claridad el patrón de los datos.

podemos utilizar una tabla que registre las frecuencias acumuladas “menores que” de nuestra muestra. . Por ejemplo.0 metros. en lugar de hacer un mero registro del numero de elementos que hay dentro de los intervalos.Ojivas  Una distribución de frecuencias acumuladas nos permite ver cuantas observaciones están por encima de ciertos valores. si deseamos saber cuantos telares tejen menos de 17.

Note que el limite inferior de las clases de la tabla se convienten en el limite superior de la distribucion acumulativa de la ojiva.La grafica de distribucion de frecuencias acumuladas se le conoce como Ojiva.  . los puntos representados en la grafica indican el numero de telares que tienen una produccion menor que el numero de metros mostrados en el eje horizontal.

 En ocasiones. en lugar de tener una inclinación hacia arriba y a la derecha. La ojiva para tal información tendría una inclinación hacia abajo y hacia la derecha.  . la información que utilizamos se presenta en términos de frecuencias acumuladas “mayores que”.

5 15.4 16.Clase Menor que Menor que Menor que Menor que Menor que Menor que Menor que 15.0 Frecuencia Acumulada 0 2 7 18 24 27 30 .7 17.8 16.1 16.1 15.

Acumulada Relativa .Ojiva de F.

Relativa Acumulada .Ojiva de F.

mediana y moda. .Medidas de tendencia central  Media y Media Ponderada (Pesada)  Mediana  Moda  Relación entre media.

estamos hablando de la media aritmética. la vida promedio de la batería de una cámara fotográfica o de la producción de tequila por una tonelada de agave. Para encontrar la media aritmética . cuando nos referimos al “promedio” de algo. Esto es cierto en casos como la temperatura promedio en la ciudad.Medida de Tendencia Central Casi siempre.   . sumamos los valores de todas las observaciones y el resultado lo dividimos entre el numero de observaciones.

  . Una muestra de una población consiste en n observaciones (una ene minúscula) con una media de x (equis testada).Símbolos Convencionales  Ahora necesitamos aprender la notación matemática que utilizan los especialistas en estadística. Tener presente que las medidas que se calculan para una muestra se conocen como estadísticas.

. es decir. La media de una población se simboliza con µ. que es la letra griega mi. El numero de elementos de una población se denota con la letra mayúscula cursiva N. para el grupo que contiene todos los elementos que estamos describiendo. La notación es diferente cuando calculamos medidas para la población entera.

Calculo de la media a partir de datos no agrupados Media de la población Suma de los valores de todas las observaciones Número de elementos de la población Suma de los valores de todas las observaciones Número de elementos de la muestra Media de la muestra .

Generador Días fuera de servicio 1 7 2 3 23 4 4 8 5 2 6 7 12 6 8 9 13 9 10 4  . debido al mantenimiento regular al que se les somete o a alguna falla.Media de la población  A continuación se describen el numero de días en que se encuentran fuera de servicio los generadores de una planta de energía.

.

Media de la muestra  Se presenta un alista del aumento percentil en los resultados de un examen de admisión obtenidos por siete estudiantes distintos que tomaron un curso de preparación de dicho examen. Estudiante 1 Aumento 9 2 7 3 7 4 6 5 4 6 4 7 2 .

.

. Cada valor de una observación cae dentro de alguna de las clases.Cálculo de la media datos agrupados  de Una distribución de frecuencias consta de datos agrupados en clases. Suponga que tenemos una distribución de frecuencias del saldo promedio mensual de la cuanta de cheques de 600 clientes de una sucursal bancaria. no sabemos el valor individual de cada observación. A diferencia del examen de admisión.

99 100.99 350.99 250.00 – 199.00 – 299.00 – 149.99 450.00 – 249.00 – 99.00 499.99 50.00 449.99 400.99 300.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 .00 – 349.00 – 399.Clases (dolares) 0 – 49.99 200.99 150.

Para calcular la media aritmética primero calculamos el punto medio de cada clase.995 y se convierte en: 25. Así pues por ejemplo. podemos calcular fácilmente una estimación del valor de la media de estos datos agrupados.A partir de la información de la tabla. Es una estimación debido a que no utilizamos el total de 600 puntos de datos de la muestra. redondeamos las cantidades. Para lograr que los puntos medios queden en cifras cerradas. el punto medio de la primera clases es: 24.00  .

 Después multiplicamos cada punto medio por la frecuencia de la observaciones de dicha clase. sumamos todos los resultados y dividimos esta suma entre el numero total de observaciones dela muestra. La formula es la siguiente: .

00 449.00 199.00 249.00 499.99 – 200.99 450.99 – 150.00 399.99 – 350.00 299.99 – 250.99 – 300.99 400.99 Frecuencia F x X .00 349.99 Medios 50.00 – 149.Clase Puntos 0 – 49.00 – 99.99 100.

00 – 99.00 349.00 399.00 375.00 50.00 199.99 400.00 275.00 475.00 325.99 Frecuencia F x X .9925.00 299.99 – 200.99 450.99 – 350.00 499.00 100.00 225.Clase Puntos Medios 0 – 49.00 449.99 – 150.99 75.00 425.99 – 300.00 249.00 149.99 – 250.00 175.00 – 125.

9925.00 – 125.99 75.99 – 250.00 100.00 349.99 400.00 175.00 225.00 399.00 499.Clase Puntos Medios 0 – 49.99 – 200.00 449.00 325.00 375.00 249.00 425.99 – 350.00 275.99 450.00 199.00 149.00 – 99.00 475.99 – 150.99 – 300.99 Frecuencia F x X 78 123 187 82 51 47 13 9 6 4 600 .00 50.00 299.

350 11.00 – 125.00 399.00 449.00 225.00 375.00 499.00 175.99 – 200.00 – 99.99 450.350 .00 325.550 1.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 FxX 1.00 475.375 14.00 199.99 400.99 – 350.00 149.375 2.225 23.225 3.925 4.00 425.99 75.950 9.00 100.00 299.99 – 300.00 249.475 12.00 349.9925.900 85.99 – 150.00 50.99 – 250.Clase Puntos Medios 0 – 49.00 275.

00 149.375 2.00 275.225 23.Clase Puntos Medios 0 – 49.00 100.350 11.350 .99 75.00 175.00 499.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 FxX 1.950 9.00 299.00 – 99.99 – 150.99 – 300.00 449.99 – 250.900 85.00 375.225 3.99 450.99 400.375 14.00 249.99 – 200.00 225.550 1.00 199.00 325.99 – 350.00 349.00 – 125.00 475.9925.00 50.00 425.00 399.925 4.475 12.

.    cabo Puede verse afectada por valores no representativos al resto de los datos. Cada conjunto de datos tiene una media. No se puede calcular la media a un conjunto de datos que tiene clases de extremo abierto. La media es útil para llevar a procedimientos estadísticos.Ventajas y Desventajas Se trata de un concepto familiar. Tedioso al tener muchos datos a observar.

Considere.00 7.00 Producto 1 1 2 5 Producto 2 4 3 3 . la compañía cuyos datos son los siguientes: Nivel de Trabajo No calificado Semicalificado Calificado Salario por hora (x) $ 5.Media Ponderada (Pesada)  La media pesada nos permite calcular el promedio que toma en cuanta la importancia de cada valor con respecto al total.00 9. por ejemplo.

La compañía desea saber el promedio del costo de trabajo por hora para cada uno de los productos. para la producción de dos de sus productos finales. semicalificado y calificado. no calificado. Un simple promedio aritmético de los salarios pagados por trabajo seria:  .La tabla utiliza tres niveles de trabajo.

Podemos determinar los promedios correctos de la siguiente manera. Para que nuestros cálculos sean correctos.    Realizar los mismo cálculos para el producto 2. debemos tomar en cuanta que se utilizan diferentes niveles de trabajo. . Para el producto 1. y el de una unidad del producto 2 como $7(4+3+3)=$70.00. Pero estos promedios son incorrectos.Usando esta tasa promedio podríamos calcular el costo invertido en una unidad del producto 1 como $7(1+2+5)=$56. el costo total del trabajo por unidad es (5 x 1)+(7 x 2)+(9 x 5)= $64 y como se invierten 8 horas de trabajo. el costo promedio de trabajo por hora es $64/8 = $8.

80 .   (5 x 4)+(7 x 3)+(9 x 3) = $68 $68/10 = $6.

Si utilizamos estas fracciones como nuestros pesos. 2/8 de trabajo semiespecializado y 5/8 de trabajo especializado. por ejemplo. pesamos el salario por hora de cada nivel mediante la fracción del trabajo total requerido para fabricar el producto. Para hacerlo. entonces una hora de trabajo en el producto cuenta en promedio: . requiere 8 horas de trabajo. Otra forma de calcular el costo promedio por hora para el trabajo invertido en los dos productos consiste en tomar un promedio ponderado del costo de los tres niveles de trabajo. Se requiere 1/8 de este tiempo de trabajo no especializado. Una unidad del producto 1.

Utilizando símbolos.Asi pues vemos que los promedios pesados dan el valor correcto para los costos promedios por hora de trabajo para los dos productos ya que toman en cuanta las diferentes cantidades de cada nivel que se utiliza en la elaboración de los productos. la formula para calcular la madia ponderada es:   .

Si aplicamos la formula anterior al producto 1 de nuestro ejemplo de costo de trabajo, encontramos:

Mediana
La mediana es una medida de tendencia central diferente a la media aritmética y la media ponderada. La mediana es solo un valor calculado a partir del conjunto de datos que mide la observación central de estos. Esta sola observación es la mas central o la que esta mas en medio en el conjunto de números. La mitad de los elementos están por arriba de este punto y la otra mitad esta por debajo.

Calculo de la media a partir de datos no agrupados

Para hallar la mediana de un conjunto de datos, primero organice estos en orden descendente o ascendente. Si el dominio de datos contiene un numero impar de elementos, el de en medio en el arreglo es la mediana. Si hay un numero par de observaciones, la mediana es el promedio de los dos elementos de en medio. En lenguaje formal, la mediana es:

0 6 5.7 4 4.3 3 4. Elemento del 1 arreglo en Minutos 4.2 Tiempo de datos 2 4. Deseamos encontrar la mediana de siete elementos de un arreglo de datos.1 7 9. los cuales representan los tiempos de los miembros de un equipo de atletismo.0     .8 5 5.

la mediana que calculamos no se ve distorsionada por la presencia del ultimo valor. Ahora calculemos la mediana de un arreglo con un numero par de elementos. Considere los siguientes datos que corresponden al numero de pacientes tratados diariamente en la sala de emergencia de un hospital.   Elementos Numero de pacientes 1 86 2 52 3 49 4 43 5 35 6 31 7 30 8 11 .Observemos que a diferencia de la media aritmética que calculamos antes.

39 es el numero que representa la mediana de los pacientes tratados diariamente en la sala de emergencias durante ocho días . el cuarto elemento de la tabla es 43 y el quinto 35. el promedio de estos dos elementos es igual a (43+35)/2 lo cual da como resultado 39.5 del arreglo. por consiguiente . necesitamos calcular el promedio de los elementos 4 y 5.Elementos Numero de pacientes 1 86 2 52 3 49 4 43 5 35 6 31 7 30 8 11  Como la mediana es el elemento numero 4.

Por ejemplo. tenemos acceso a los datos hasta después que han sido agrupados en una distribución de frecuencias. No obstante podemos calcular la mediana del saldo de las cuentas de estos 600 clientes determinando cual de estas clases contiene la  . la cual contiene datos de 600 clientes bancarios. tenemos diez intervalos de clase y un registro de las frecuencias. En este caso. no conocemos cada observación que llevo a la construcción la tabla de los saldos promedios.Cálculo de la mediana a partir de datos agrupados A menudo.

00 – 349.99 Frecuencia 78 123 187 82 51 47 13 9 6 4 600 .99 150.00 – 99.99 250.99 50.99 450.00 499.00 – 199.99 200.99 350.00 – 299.Clases (dolares) 0 – 49.00 449.00 – 149.99 300.99 400.00 – 399.99 100.00 – 249.

el valor para la formula anterior es 300. Como tenemos 600 cuentas.5. ahora el problema consiste en encontrar los intervalos de clase que contenga a los elementos numero 300 y 301. sumamos 187 elementos a los 201 acumulados y tendremos un total de 388. Para llevar a cabo esto. las observaciones numero 300 y 301 deben estar en esta tercera clase. pero cuando tomamos en cuanta al tercer intervalo de clase. En consecuencia. La frecuencia acumulada para las dos primeras clases es de solamente 78+123=201. . debemos sumar las frecuencias que mostramos en la tabla anterior hasta que alcancemos el elemento numero (n+1)/2.

L m= límite inferior del intervalo de la clase mediano. f m=frecuencia de la clave mediana. Ahora implementamos la siguiente formula para poder calcular la mediana:     n = número total de elementos de la distribución F=suma de todas las frecuencias de clase hasta.  .  w= ancho del intervalo de la clase. pero sin incluir la mediana.

. Si utilizamos la formula anterior tenemos que n=600. fm=187. F=201. w=50 y Lm=100.

el azar puede desempeñar un papel importante en la organización de datos.Moda La moda es una medida de tendencia central diferente de la media. Como todos los demás aspectos de la vida. pero un tanto parecida a la mediana. La moda es aquel valor que mas se repite en el conjunto de datos. pues en realidad no se calcula mediante algún proceso aritmético ordinario.  .

a ve Viajes por entregar por día en un lapso de 20 días 0 2 5 7 0 2 5 7 1 4 6 8 1 4 6 12 15 15 15 19 .A co n ti u a ci n se p re se n ta u n a ta b l co n e l n ó a n u m e ro d e vi j s d e e n tre g a p o r d í q u e h a ce ae a u n a p l n ta re vo l d o ra d e co n cre to .

 . pero no nos dice que la mayor cantidad de viajes esta por debajo de 10.Cálculo de la moda de datos no agrupados Si calculamos la moda en la siguiente lista de datos no agrupados podemos ver que el modal es el valor de 15.7 que es el resultado de la media aritmética. sin embargo una moda de 15 implica que la actividad de la planta es mayor que 6. ya que se presenta más a menudo que cualquier otro valor. La moda nos dice que 15 es el número más frecuente de viajes.

utilizamos la siguiente formula. es decir. . podemos suponer que la moda esta localizada en la clase que contiene el mayor número de elementos.Cálculo de la moda para los datos agrupados  Cuando los datos se encuentran agrupados en una distribución de frecuencias. en la clase que tiene la mayor frecuencia. Para determinar un solo valor para la moda a partir de esta clase modal.

 . d =frecuencia de la clase modal menos la 2 frecuencia de la clase que se encuentra inmediatamente por encima de ella.  En la que: LMo =límite inferior de la clase modal. w=ancho del intervalo de la clase modal. d =frecuencia de la clase modal menos la 1 frecuencia de la clase que se encuentra inmediatamente por debajo de ella.

tenemos: LMo =100. d2=18782=105 y w=50. . d1=187-123=64. Si utilizamos la formula anterior para calcular la moda del saldo de las cuantas de cheques.

Medidas de Dispersión para un conjunto de datos.  Varianza de la Población   Desviación Estándar de la Población  .

que se simboliza con σ²(sigma cuadrada). Para calcular la varianza de una población.Varianza de la Población La varianza y la desviación estándar nos dan una distancia promedio de cualquier observación del conjunto de datos con respecto de la media. dividimos la suma de las distancias al cuadrado entre la media y cada elemento de la población entre el número total de observaciones de dicha población. Cada población tiene una varianza.  .

      La fórmula para calcular la varianza es: donde: .

es simplemente la raíz cuadrada de la varianza de la población. . la desviación estándar es la raíz cuadrada del promedio de las distancias al cuadrado que van de las observaciones a la media. Como la varianza es el promedio de las distancias al cuadrado que can de las observaciones a la media.Desviación Estándar de la Población   La desviación estándar de la población o σ.

      La fórmula para la desviación estándar es: donde: .

.Varianza y Desviación Estándar Para Datos Agrupados    Cuando los datos se encuentran agrupados en una distribución de frecuencias se utilizan las fórmulas siguientes.

       donde: .

Sign up to vote on this title
UsefulNot useful