P. 1
Curso breve de Estadística

Curso breve de Estadística

|Views: 385|Likes:
Published by Manuel Maluenga

More info:

Published by: Manuel Maluenga on Oct 24, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

01/22/2013

pdf

text

original

Sections

  • INTRODUCCIÓN A LA ESTADÍSTICA
  • OBJETIVOS DEL CURSO
  • TEMA I: MÉTODOS DESCRIPTIVOS
  • TEMA II: PROBABILIDADES
  • TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD
  • TEMA IV: MUESTREO Y ESTIMACIÓN
  • TEMA V: PRUEBAS DE HIPÓTESIS
  • 5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra
  • TEMA VI: ANÁLISIS DE VARIANZA
  • BIBLIOGRAFÍA BÁSICA:

CURSO BREVE DE ESTADÍSTICA

COLECTIVO DE AUTORES: MSc. Manuel Ernesto Acosta Aguilera
mernesto@fec.uh.cu luisp@fec.uh.cu

Prof. Asistente Prof. Auxiliar Prof. Auxiliar

MSc. Luis Piña León MSc. Daysi Espallargas Ibarra
daysi@fec.uh.cu

DPTO. ESTADÍSTICA - INFORMÁTICA FACULTAD DE ECONOMÍA UNIVERSIDAD DE LA HABANA 2008

ÍNDICE

INTRODUCCIÓN A LA ESTADÍSTICA ..................................................................................... 3 OBJETIVOS DEL CURSO ............................................................................................................ 4 TEMA I: MÉTODOS DESCRIPTIVOS......................................................................................... 5
1.1: Definición de población y muestra. Clasificación de las variables. Organización de los datos. Tablas de frecuencias. Gráficos...............................................................................................................5 1.2: Medidas descriptivas o estadígrafos. Estadígrafos de posición más usados: media, mediana y moda. Estadígrafos de dispersión más usados: varianza, desviación típica y coeficiente de variación.....................................................................................................................................................16

TEMA II: PROBABILIDADES. .................................................................................................. 28
2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística de Probabilidad...............................................................................................................................................28 2.2: Axiomatización de la Probabilidad. Reglas de cálculo de probabilidades. Probabilidad condicional. Independencia de sucesos. ..............................................................................................35

TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD.......................................... 41
3.1: Definición de variable aleatoria. Función de probabilidad univariada: casos discreto y continuo. Función de distribución. Media y varianza de variables aleatorias. ................................41 3.2: Distribución binomial: características y uso. Distribución de Poisson: características y uso. .....................................................................................................................................................................49 3.3: Distribución normal o de Gauss. Distribución chi-cuadrado. Distribución t de Student. Distribución F de Fisher...........................................................................................................................58

TEMA IV: MUESTREO Y ESTIMACIÓN ................................................................................. 74
4.1. Conceptos básicos: Población y Muestra. Muestreos aleatorios: Muestreo Aleatorio Simple. Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. ................................74 4.2 Estimadores. Propiedades deseables para un buen estimador. Estimación puntual. Distribución muestral. Distribución muestral de la media tanto con varianza (σ2) conocida como desconocida. Distribución muestral de las proporciones y de la varianza. .....................................80 4.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p. Estimación por intervalos de confianza. ...............................................................................................89

TEMA V: PRUEBAS DE HIPÓTESIS ........................................................................................ 98
5.1. Conceptos básicos. Desarrollo general de pruebas de hipótesis. Pruebas para medias en una población............................................................................................................................................98 5.2: Tamaño del error tipo II. Función de potencia. Tamaño de la muestra. ................................112 5.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia. Tablas de contingencia. ...........................................................................................................................................119

TEMA VI: ANÁLISIS DE VARIANZA.................................................................................... 129
6.1: Conceptos básicos del análisis de varianza. Modelo de clasificación simple. Supuestos del método. ....................................................................................................................................................129

BIBLIOGRAFÍA BÁSICA:........................................................................................................ 140

1

PRESENTACIÓN
A los estudiantes: Este texto ha sido elaborado por un colectivo de profesores de Estadística de la Facultad de Economía de la Universidad de La Habana, para contribuir a un mejor estudio de los temas correspondientes a esta asignatura en las carreras de perfil económico y social, en general, particularmente en la Licenciatura en Economía. El objetivo del estudio de la Estadística en cualquier carrera es dotar al alumno de algunos elementos que le servirán para trabajar con conjuntos de datos, describir situaciones de interés, hacer inferencias sobre la base de observaciones y evaluar hipótesis relacionadas con alguna circunstancia práctica; además, pueden iniciarse en el estudio de los fenómenos y experimentos aleatorios, estableciendo el vínculo entre los conocimientos y habilidades de los contenidos de la Estadística Descriptiva, la Teoría de las Probabilidades y la Estadística Inferencial. Debe señalarse que la Estadística es eminentemente práctica, sin embargo, se necesita del conocimiento de la teoría que la sustenta para la correcta aplicación de las fórmulas de cálculo y los modelos que intentan representar la realidad existente. En el texto se detallan los objetivos generales del curso y la distribución del mismo en los seis temas en que está subdividido. También se incluyen los objetivos específicos de cada una de las unidades didácticas que conforman los distintos temas. Además, se desarrolla sucintamente el contenido de la asignatura, el cual aparece disperso en otros textos que se refieren en la bibliografía básica. Finalmente, se brindan ejemplos demostrativos de todos los aspectos abrdados, y se han añadido ejercicios para que sirvan de autoevaluación. Es aspiración de los autores que estos apuntes para el estudio de Estadística sean de utilidad tanto para sus destinatarios iniciales como para estudiantes de otras carreras y modalidades de estudio. Los Autores. La Habana, 2008

2

enfermos recuperados con ciertos medicamentos Las estadísticas son tan antiguas como las sociedades humanas. por ejemplo: natalidad o mortalidad en un país o provincia. organización. reducción. • 3 . pasajeros transportados durante un período. Inferencia estadística (Estadística Inferencial) Estudia y concluye sobre un fenómeno basándose en el análisis e investigación de una parte del mismo. utilizando las probabilidades. cifras de producción de una empresa. La Estadística como ciencia puede definirse como un conjunto de principios y métodos que se han desarrollado para analizar datos numéricos. pero la Estadística como ciencia (con mayúscula) surge en el siglo XVI paralelo al desarrollo de las probabilidades. se ocupan de la recolección. tabulación y presentación de la información.INTRODUCCIÓN A LA ESTADÍSTICA El vocablo “estadística” (con minúscula) se utiliza para denominar cualquier colección sistemática de datos. por lo que constituye una poderosa herramienta para la investigación científica. sus métodos se clasifican en: • Métodos descriptivos (Estadística Descriptiva) Describen el comportamiento de los datos estadísticos. resultados periódicos en cierto deporte.

así como también a la obtención de una medida probabilística del error y del tamaño de la muestra requerido para la estimación de los mismos. 5. y caracterizar estas funciones mediante la esperanza. Poisson. Calcular e interpretar los principales estadígrafos o medidas de posición y de dispersión. parámetro y estimador. los conceptos de función de probabilidad. Verificar el supuesto de normalidad a través de la prueba Jarque-Bera. Identificar y caracterizar las distribuciones probabilísticas: Binomial. Obtener muestras aleatorias simples mediante la tabla de números aleatorios. Asociar a la noción de variable aleatoria (tanto discreta como continua). Clasificar las variables en cualitativas. Organizar los datos u observaciones de diferentes variables (discretas y continuas) en tablas de frecuencias. Aplicar e interpretar los fundamentos de la teoría de probabilidades en la solución de problemas. Identificar y emplear distintas pruebas paramétricas para una población: de media (con varianza conocida y desconocida). muestreo. y de varianza. Definir el espacio muestral de un experimento o fenómeno aleatorio. σ2 y p). región crítica o de rechazo y nivel de significación. Diferenciar entre determinismo y aleatoriedad. la varianza y la proporción en la estimación puntual y por intervalos de los parámetros correspondientes (μ. valor esperado o media teórica. 3. Aplicar las propiedades o teoremas derivados de la definición axiomática de probabilidad. Establecer los supuestos del análisis de varianza. Aplicar las definiciones de probabilidad condicional e independencia. 4. Construir gráficos de barras (histogramas) y polígonos de frecuencias. Calcular la probabilidad de ocurrencia de un suceso utilizando la definición clásica y la estadística. como para verificar independencia entre variables o criterios de clasificación. Diferenciar entre los errores de tipo I y tipo II. Identificar y emplear las pruebas no paramétricas chicuadrado. Aplicar e interpretar resultados obtenidos mediante algún paquete de cómputo estadístico. 2. Aplicar la distribución muestral de la media. Identificar los conceptos básicos de población. función de distribución o acumulación. de proporciones. tanto para probar normalidad. Calcular probabilidades asociadas a las distribuciones anteriores haciendo uso de las tablas correspondientes. Aplicar el análisis estadístico para verificar la igualdad de tres o más medias poblacionales a través del análisis de varianza. a partir de salidas del programa de cómputo EViews. Identificar los conceptos básicos asociados a las pruebas de hipótesis: hipótesis nula e hipótesis alternativa. muestra. 4 . t’ Student y F de Fisher. Normal.OBJETIVOS DEL CURSO 1. Caracterizar el Muestreo Aleatorio Simple (MAS) y el Muestreo Irrestricto Aleatorio (MIA). Chi-Cuadrado. cuantitativas discretas y cuantitativas continuas. 6. y la varianza teórica.

organización. Muestra: Cualquier subconjunto de la población tomado para su estudio. nivel escolaridad. sexo.TEMA I: MÉTODOS DESCRIPTIVOS Con este tema se inicia el estudio de la parte de la estadística que se ocupa de la recolección. 5 . organización. En casi todos los textos se representa con el símbolo “N”. Generalmente representan valores enteros asociados a observaciones susceptibles de conteo. Muestreo: Procedimiento mediante el cuál se extrae una muestra. A la vez. Organización de los datos. reducción. color del pelo o de los ojos. Variable o característica: Es el signo o detalle que interesa caracterizar en la población. pesos. malo). regular. ingresos. estado civil. tabulación y presentación de la información en un estudio o investigación dados. Para organizar los datos muchas veces es útil conocer qué tipo de variables éstos miden. El buen uso de los métodos descriptivos ahorra tiempo y esfuerzo. y no es hasta que la misma se organiza. y se refieren a cualidades tales como: calidad (bueno. se distinguen dos tipos de datos o variables cuantitativos: • Variables Discretas: Son aquellas que tienen valores prohibidos dentro de su intervalo de definición. etc. número de hijos. Censo: Observación y estudio de todos los elementos que componen la población. toman valores determinados. Con este fin. 1.. entrevista. como son: Población: Colección de individuos o elementos que representan el objeto de interés (seres vivos o inanimados). Durante este proceso siempre se hace referencia de alguna manera a conceptos básicos en el contexto de la Estadística. Cuantitativas: Se refieren a cantidades tales como costos. Tamaño de la población: Cantidad de elementos que abarca la población. cuestión esencial para cualquier investigación. facilita la interpretación de resultados y sirve de base incuestionable para el desarrollo de métodos de inferencia y predicción: La información recogida durante el proceso de observación. etc. predefinido. En casi todos los textos se representa con el símbolo “n”. o sea. Tamaño de muestra: Cantidad de elementos contenidos en la muestra. Gráficos. suele ser dispersa.1: Definición de población y muestra. verdadera información. más allá de un conjunto de datos. estaturas. las variables pueden clasificarse en: Cualitativas: También llamadas atributos. Tablas de frecuencias. Ya se ha dicho que los métodos descriptivos se ocupan de la recolección. Clasificación de las variables. procesa y presenta adecuadamente que cobra real dimensión la misma y puede considerarse. resumen y presentación de la información. medición. etc.

TABULACIÓN DE DATOS (TABLAS DE FRECUENCIAS): Según la forma en que se presenta la información. Es importante tener en cuenta que la continuidad está dada por la propia naturaleza de variable. tal como fueron obtenidos durante el proceso observación o medición en la muestra o población. o se organizan en las tablas de frecuencias. a partir de los datos primarios. es usual utilizar clases del mismo ancho siempre que es posible. de la precisión deseada o de costumbres al expresar una magnitud. es decir. Generalmente representan observaciones susceptibles de medición. o agrupados.L1 L1 . todos y cada uno de los valores que toma la variable. sino en agrupaciones parciales del recorrido de la variable. pueden estar no agrupados. denominadas “clases” o “intervalos de clases”. Por su parte.L2 … Lk-1 . que muchas veces se toma como el valor representativo de la clase. denominadas tablas de frecuencias o distribuciones de frecuencias. pues esto es algo que depende de las unidades de medida utilizadas. sino su área. es decir. Recolección organizada o tabulación (datos organizados): Es el ordenamiento de la información en tablas. se construyen intervalos para resumir la información observada.) La forma general de una tabla de frecuencias es la siguiente: Li-1 . (Si las clases no tienen el mismo ancho. organizados.• Variables Continuas: Son aquellas que pueden tomar cualquier valor dentro de su intervalo de definición. • Se dice que los datos están organizados.Lk ↑ sólo si hay clases (datos agrupados) Xi X1 X2 … Xk ni n1 n2 … nk fi f1 f2 … fk ↑ Ni N1 N2 … Nk ↑ Fi F1 F2 … Fk ↑ frecuencias complementarias 6 . Una clase se caracteriza por un valor que es su límite inferior y otro que es su límite superior.Li L0 . de manera que se leen directamente los valores observados. se colocan los datos en columnas que recogen los distintos valores de la variable y las frecuencias (las veces) con que han aparecido tales valores. Y a la diferencia o distancia entre los límites de la clase se le llama ancho de clase: aunque no es obligatorio. se habla de: • Recolección simple o no organizada (datos no organizados): Es el listado de los datos presentados en su forma primaria. El promedio de los dos límites. es llamado marca de clase. esto es. Cuando los datos se tabulan. se dice que los datos están organizados y agrupados cuando en la tabla se presentan éstos no con sus valores individuales. pero no agrupados. no es la altura de las barras o rectángulos la que debe ser proporcional a las frecuencias representadas. esto es. no porque ésta se exprese con valores decimales o no. cuando en las tablas de frecuencias se ponen.

Los símbolos y definiciones correspondientes son: Xi : representa los valores individuales de la variable (en datos no agrupados) o las marcas de clase (en datos agrupados en clases) Li-1 . como sí ocurre con las variables discretas.Li : representan las clases (si los datos se agruparon). F2 = f1 + f2. Así. como: fi ( frecuencia relativa ): proporción de veces que se repite el i-ésimo valor de la variable (si se multiplica por cien constituye un porciento). o iguales al i-ésimo valor de la variable. ya que estas son las que pueden tomar cualquier valor en un intervalo. N3 = n1 + n2 + n3. cuando se insiste en que las variables discretas se presentan en tablas de frecuencia sin agrupar. Fi ( frecuencia relativa acumulada ): es la proporción (o porciento) de observaciones menores 7 . Así. o el caso de que se tiene una variable continua para la cual todas las observaciones constituyen valores enteros y se pueden recoger entonces en una tabla de frecuencia con datos no agrupados. esto es ante todo con fines metodológicos. y así sucesivamente hasta Fk = 1. F3 = f1 + f2 + f3. y prácticamente es imposible considerar todos y cada uno de los valores que toma la variable. N2 = n1 + n2. donde ∑ ni = n n ( tamaño de la muestra ): cantidad de observaciones efectuadas. delimitadas por los límites de clase. es decir. y así sucesivamente hasta Nk = n. Generalmente se agrupan las observaciones correspondientes a variables continuas. se podría presentar la situación de que se tiene una variable discreta que toma tantos valores diferentes que es necesario agruparla. se cumple que: fi = ni/n y donde ∑ fi = 1 Ni ( frecuencia absoluta acumulada ): Es el número de observaciones menores o iguales al iésimo valor de la variable. siendo F1 = f1. porque esto depende de la cantidad de datos que se tiene y del tipo de análisis que se va a hacer. se interpreta como el número de observaciones menores o iguales al i-ésimo valor de la variable. el inferior (Li-1) y el superior (Li) ni ( frecuencia absoluta ): número de veces que se repite el i-ésimo valor de la variable. número de elementos contenidos en la muestra k: representa el número de valores diferentes observados (datos no agrupados) o la cantidad de clases creadas (datos agrupados) También pueden incorporarse a la tabla otras frecuencias. donde N1 = n1. No obstante no se puede decir rotundamente que no se agrupan en clases las variables discretas y sí las continuas. y las variables continuas en tablas de frecuencias agrupadas. Por todo ello.

ni ≥ 0 2. diversidad de criterios o necesidades de la investigación.. Se debe considerar también que la agrupación de datos siempre conlleva un grado de pérdida de información.9 24. pero en cualquiera de los dos casos hay infinitos valores posibles entre el cierre de una clase y el inicio de la otra. 0 ≤ fi ≤ 1 5.9 19.. se consideran los intervalos de clase como abiertos al inicio y cerrados al final. F1 = f1 9. f1 = F1 ≤ F2 ≤ F3 ≤ . Nk = n / 0 ≤ Fi ≤ 1 / Ni ≥ 0 6. ≤ Fk AGRUPACIÓN DE LOS DATOS EN CLASES: La agrupación de datos en clases incluye muchas cuestiones subjetivas. Algunas de las formas en que se presentan los intervalos de clases son: Caso A 10 15 20 14. de manera que para una observación dada sea inequívoca (única) la pertenencia a una clase.9 y 15 (caso A) y lo mismo entre 15 y 15.PROPIEDADES DE LAS FRECUENCIAS: De la definición de las distintas frecuencias se deduce que éstas son siempre números no negativos. como facilidad o conveniencias de agrupación. ∑ni = n 3. así: ( Li-1 .1 20. y pueden considerarse como propiedades de las mismas las siguientes: 1. es decir. e incluso puede depender de la propia naturaleza de los datos.1 15 20 25 Caso C 10 15 20 15 20 25 Las variantes A y B se utilizan con el objetivo de que no se repita el mismo valor de un límite de clase. y se suele recurrir al siguiente convenio: cuando una observación coincide con un límite de clase se incluye en la clase donde dicho límite es el límite superior. ∑ fi = 1 4. Li ] También existen los intervalos abiertos atendiendo al tipo de información que se puede presentar: 8 . donde el valor que cierra una clase es el mismo que abre la siguiente. Fk = 1 7.1 (caso B).9 Caso B 10 15. ≤ Nk 10. es decir.. n1 = N1 ≤ N2 ≤ N3 ≤ . Por ello muchos autores e investigadores prefieren la variante C. N1 = n1 8. pues ya no se cuenta con todos y cada uno de los valores de la variable sino con los intervalos creados. entre 14. no obstante.. esta pérdida de información en general no es significativa para el análisis global.

Determinar las marcas de clases (Xi). Clasificar la variable en las distintas clases. partiendo del valor mínimo observado (xmin) o un valor inferior. Calcular las restantes frecuencias deseadas: relativas (fi). 6. a partir del uso que se hará de la información. para lo cual se puede hacer un tarjado.Xmin 2. es decir. y entre los gráficos más usados se encuentran: • Gráficos de barras o histogramas Constan de dos ejes. y un eje vertical 9 . valores que representarán a sus respectivas clases. como el cociente del recorrido de los datos entre la cantidad de clases que se decidió usar. y a partir de ahí calcular el ancho que deberán tener las mismas. un eje horizontal. aproximado convenientemente y siempre por exceso: c ≈ R/k 4.Abierto en la primera clase menos de 10 10 20 20 30 30 40 40 50 Abierto en la última clase 0 10 10 20 20 30 30 40 más de 50 Abierto en la primera y en la última clase menos de 10 10 20 20 30 30 40 más de 50 Es útil tener en cuenta además que no siempre los intervalos podrán ser de igual amplitud. Entre los métodos seguidos para crear las clases. Determinar el recorrido de la variable (R). Los pasos que se deben dar para agrupar los valores observados según el segundo método pueden resumirse como sigue: 1. ni tantos que parezca que no se han agrupados los datos ( 4 ≤ k ≤ 20 ) 3. Definir el número de intervalos o clases (k): La práctica indica que menos de 4 ó 5 clases suele ser muy poco y que en general más de 20 clases puede ser excesivo. Determinar la amplitud o ancho de estos intervalos (c). REPRESENTACIÓN GRÁFICA DE LOS DATOS: Otra manera de presentar los datos de manera de que brinden información a primera vista es una representación gráfica de los mismos. representaciones y cálculos. 7. la cantidad de clases que se crearán. que se pierda demasiada información. donde se distribuyen los valores observados de la variable (datos no agrupados) o sus límites de clases (datos agrupados). dos son los más utilizados: 1. 2. Crear las clases. definido como la diferencia entre el valor máximo y el mínimo de la variable: R = Xmax . el ancho de clases que se empleará. para lograr mayor facilidad en las interpretaciones. y con esto ver cuántas clases surgen. ni tan pocos. sin embargo es recomendable que estos tengan el mismo ancho si es posible ello. absolutas acumuladas (Ni) y relativas acumuladas (Fi). obteniendo las frecuencias absolutas correspondiente (ni). Definir. Definir. 5. a partir de la cantidad de datos disponibles. y sumando sucesivamente el ancho de clases (c) determinado.

aunque actualmente se utilizan menos que aquellos.10 Ni 4 7 14 18 20 Fi 0. si los datos están agrupados en clases se distribuyen no sus límites de clase sino sus marcas de clase. 0 3 4 2 1 2 3 2 2 1 2 3 2 4 0 0 1 2 0 3 Datos en su forma primaria (sin organizar) Variable cuantitativa discreta.15 0. y el gráfico suele ser denominado histograma.20 0. Para facilitar el conteo de las observaciones se suele hacer algún tipo de marcas. y por tanto su área. En este caso k = 5 (son cinco los valores distintos de X: 0. y tienen la misma función. • Polígonos de frecuencias Son similares a los gráficos de barras.00 10 .35 0.90 1.35 0. no parece necesario crear clases para agrupar los datos. sobre el punto correspondiente a cada observación o marca de clase se hace una marca a la altura de la frecuencia observada. con la diferencia de que en el eje horizontal. • EJEMPLO 1 (Datos no agrupados): Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que tienen los estudiantes de un grupo. formando una línea poligonal. Gráficos circulares o de pastel Parten de subdividir un círculo en tantos sectores como valores distintos (datos no agrupados) o clases (datos agrupados en clases) se tiene. ¿Qué tipo de variable es esta?: Construcción de la tabla o distribución de frecuencias: Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con pocos valores diferentes. 1. Si los datos están agrupados en clases las barras conforman rectángulos contiguos. En cualquier caso.70 0. y posteriormente estas marcas se unen con trazos rectos. 2. de manera que la amplitud angular del sector. 3 y 4). es proporcional a la frecuencia absoluta correspondiente (y consecuentemente también a la relativa).20 0. Constan de también de dos ejes. En el punto correspondiente a cada observación o clase se levanta una barra cuya altura indica el valor de la frecuencia observada.20 0. número de ausencias Xi 0 1 2 3 4 tarjado //// /// /////// //// // cantidad de estudiantes ni 4 3 7 4 2 n = 20 proporción de estudiantes fi 0. a lo cual se le llama tarjado.donde se representan las frecuencias absolutas (ni) o relativas (fi) correspondientes.

• fi indica el porciento de veces que se repite el valor de la variable. n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.10 indica que el 10% de los estudiantes tienen 4 ausencias • Ni indica el número de observaciones menores o iguales al valor de la variable. Representación gráfica: A partir de la tabla de frecuencias se puede construir cualquiera de los gráficos siguientes: ni 8 7 6 5 4 3 2 1 0 0 1 2 3 4 xi gráfico de barras ni 8 7 6 5 4 3 2 1 0 polígono de frecuencias 0 1 2 3 4 xi diagrama circular 4 10% 3 20% 1 15% 0 20% 2 35% 11 . F3 = 0. así: N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia N3 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias • Fi indica el porciento de observaciones menores o iguales al valor de la variable.Interpretación de las distintas frecuencias: • ni indica las veces que se repite el valor de la variable. así: n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.35 indica que el 35% de los estudiantes tienen hasta 1 ausencia.70 indica que el 70% de los estudiantes tienen hasta 2 ausencias.20 indica que el 20% de los estudiantes tienen 3 ausencias f5= 0. así: F2 = 0. así: f4 = 0.

Determinación del ancho de clases: c ≈ R/k R/k = 27/6 = 4. un taxi podría haber consumido 24. por su propia naturaleza (de hecho. pero resulta más cómodo comenzar ligeramente por debajo de él. que sería desde 45 (extremo abierto) a 50 (extremo cerrado).Xmin = 48 . en 20.5 ≈ 5 c=5 (El valor R/k = 4. en vez de facilitar. 6. así.5 ó X2 = X1 + c Y así sucesivamente… Clasificación de la variable y cálculo de las distintas frecuencias: Para ello se puede hacer previamente un tarjado… Se debe tener en cuenta. Determinación de las marcas de clases (Xi): Siendo el promedio de los límites de clase se tiene que: Xi = (Li – Li-1)/2 Así: X1 = (20 + 25)/2 = 45/2 = 22. el convenio de que si una observación coincide con un límite de clase. de manera que la primera clase sea desde 20 a 20 + c (ya se tiene c = 5). de 20 a 25. o sea. la interpretación y el trabajo con la información.21 = 27 Definición del número de clases a usar: Para 50 observaciones podrían usarse 5.75 litros de gasolina). según decisión de quien va a organizar los datos. 12 • • • • . un día dado: 46 43 28 26 29 39 28 30 23 30 34 30 26 30 48 33 27 21 43 47 32 32 37 40 23 36 42 39 36 31 41 30 25 21 24 26 31 33 38 38 32 34 47 31 35 36 41 28 38 36 ¿Qué tipo de variable es ésta? Aunque los datos observados son todos enteros la variable es continua. sin incluir el 25 (límite inferior y extremo abierto) e incluyendo el 30 (límite superior y extremo cerrado). nótese que esta aproximación fue a un valor superior al verdadero cociente. es decir.5 se redondea a 5 porque no tendría sentido en este caso hacer los intervalos de amplitud decimal. la segunda de 25 a 30. ya que complicaría.5 X2 = (25 + 30)/2 = 55/2 = 25. además. 7 u 8 clases.) Creación de las clases: Se podría partir del valor Xmin = 21. por exceso. se incluye en la clase donde dicho límite está como límite superior. Determinación del recorrido: R = Xmax .EJEMPLO 2 (Datos agrupados): Los siguientes valores corresponden al registro del consumo de gasolina de una flota de 50 taxis. Sea en este caso k = 6. en litros. • • • Se tiene n = 50 taxis (tamaño de la muestra). y así sucesivamente hasta la sexta clase (k = 6).

. no en la que va de 30 a 35.12 0.5 litros (utilizando la marca de clases) f3 = 0.50 tarjado Xi 22. nunca con la marca de clases.22: indica que el 22% de los taxis consumieron entre 30 y 35 litros de gasolina.30 30 .. o un máximo de 40 litros.5 ni ///// / 6 ///// ///// /// 13 ///// ///// / 11 ///// ///// / 11 ///// 5 //// 4 n = 50 fi 0.5 42.60 0.todos los taxis que consumieron 30 litros de gasolina se incluyen en la clase de 25 a 30.10 0.5 37. • Representación gráfica: ni 14 12 10 8 6 4 2 0 20 25 30 35 40 45 50 histograma ni polígono de frecuencias 14 12 10 8 6 4 2 0 22.35 35 . o que consumieron 32.5 42.Ponga 3 ejemplos de variables discretas y 3 de variables continuas 2.22 0.12 0.25 25 .40 40 .45 45 . clases (Li-1. Li] 20 .5 i X X (clases) EJERCICIOS DE AUTOEVALUACIÓN 1.5 47.5 27.00 Interpretación de las distintas frecuencias: • • • n2 = 13: indica que hay 13 taxis que consumieron entre 25 y 30 litros de gasolina.¿Cómo se forma una tabla de frecuencias? 13 .82 0.38 0. N4 = 41: indica que 41 taxis consumieron HASTA 40 litros de gasolina..5 32.92: indica que el 92% de los taxis consumió HASTA 45 litros de gasolina. o que consumieron como promedio 27.5 litros como promedio.22 0. (Las frecuencias acumuladas se interpretan utilizando el límite superior del intervalo.08 1.5 37.5 32.26 0.5 47.) F5 = 0.5 27. o un máximo de 45 litros.92 1.¿Qué quiere decir organizar los datos? 3.00 Ni 6 19 30 41 46 50 Fi 0.

5 5 4 8 5 3 3 7 7.¿Cómo se determina el recorrido de la variable? 9.5 5 7 7 8 12 7 10 12 5 8 5 7.. se han agrupados los establecimientos hoteleros por el número de cuartos.5 8 a) Diga qué tipo de variable es.4.Si una observación le coincide con un límite de clases.¿Es absolutamente privativo de las variables discretas la organización de los datos directamente a partir de los valores observados. b) Construya la distribución de frecuencias para esta variable.5 7 15 3 5 8 4 5 4 4 7 7. 6....5 7.5 4 7 5 4 7 5 10 10 7 7.¿Se agrupan en intervalos de clase sólo las variables continuas? 10. 3 4 2 3 4 2 3 3 2 4 3 2 2 2 3 4 1 1 3 3 3 1 2 4 2 5 2 2 1 2 2 5 2 1 2 1 2 3 5 1 3 3 3 2 1 2 1 4 3 2 5..Investigados los precios por habitación de 50 hoteles del país se ha obtenido los siguientes resultados (en cientos de pesos): 7 5 4 3 7 3 7. 14. ¿dónde la pondría y por qué? 13.. construya una distribución de frecuencias e interprete 3 frecuencias absolutas y relativas simples y 3 frecuencias absolutas y relativas acumuladas..¿En casos de datos agrupados se cumple que: ∑ni = n y ∑fi = 1? Fundamente su respuesta.¿En que casos utilizaría intervalos de amplitud diferentes? 12.Realizada una encuesta en una región del país. obteniéndose la siguiente distribución: cuartos 0 100 100 200 200 300 300 400 # de hoteles 25 37 12 22 14 .¿Qué pasos se deben dar para conformar una tabla de frecuencia? 7.A partir de los siguientes datos. que representan el número de habitaciones de 50 viviendas del municipio Plaza. 8...¿Cómo determinaría el número de intervalos o clases a considerar en una tabla de frecuencias? 11. o considera que una variable continua también podría organizarse de esta forma? Explique... que se están visitando para estudiar el grado de hacinamiento.

la tabla de frecuencia es de esta forma? 15 ...Represente gráficamente la distribución. c. b. d. siendo ese el tipo de variable.400 500 600 700 500 600 700 800 21 13 5 3 a.¿Por qué..Determine el número de establecimientos hoteleros con más de 300 cuartos.Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400...¿Que tipo de variable es ésta? e.

por x • en la población. La media se representa: • en la muestra. Cuando un estadígrafo es calculado a partir de todos los datos poblacionales. es posible la obtención de ciertas cantidades numéricas. desviación típica y coeficiente de variación. pero no suelen ser suficiente para describir a la misma. la mediana. la moda y la media geométrica. Un estadígrafo o estadístico es una medida descriptiva que resume alguna de las principales características de un conjunto de datos. por μ (la letra griega miu) • en definiciones y demostraciones. La organización de los datos y el análisis del comportamiento de los mismos mediante tablas o gráficos. las decilas y los percentiles. como las más importantes medidas de tendencia central. 1. La mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un punto central y por lo general es posible encontrar algún tipo de valor promedio que describa todo el conjunto. MEDIA ARITMÉTICA (O MEDIA) La media aritmética. también se recurre en muchos casos a otras estadígrafos de posición que no son medidas de tendencia central. mediana y moda. Estadígrafos de dispersión más usados: varianza. es una medida de tendencia central.2. respectivamente. Un valor típico descriptivo como ese. no en una muestra sino en toda la población. se dice que es un parámetro poblacional.1. que son aquellos valores que dividen el conjunto de datos en cuatro. Se define como la suma de todos los valores de la variable dividida entre el número de elementos. como puede ser la tendencia central. entre las que se encuentran las cuartilas.1. más frecuentemente denominada sólo media. la dispersión o la forma. la media aritmética. es el promedio o medida de tendencia central que se utiliza con mayor frecuencia. Sin embargo. Estadígrafos de posición más usados: media. Con frecuencia se utilizan. No obstante. aportan una información inicial sobre la población en estudio. es lo que comúnmente se conoce como promedio. dicho en otras palabras. diez y cien partes iguales. éstos suelen clasificarse. Precisamente atendiendo al tipo de resumen que brindan los estadígrafos. que caracterizan mejor el conjunto de datos. por M(x) A partir de la propia definición se deduce que la media en una muestra puede calcularse como: 16 . aunque menos usadas.2: Medidas descriptivas o estadígrafos.ESTADÍGRAFOS O MEDIDAS DE POSICIÓN O TENDENCIA Los llamados estadígrafos de posición son medidas que informan sobre el centro de la distribución (tendencia central) o sobre valores significativos de ésta. denominadas estadígrafos o estadísticos. como las cuantilas. es decir.

y por tanto. creando columnas auxiliares.30 30 .5 357.5 212.85 ∑ x in i = n 20 Nota: Es usual.10 0. el consumo promedio en el día fue de 33. continuación): Calcular el consumo promedio diario de gasolina de los 50 taxis de la flota.5 47.08 Xini 135. clases 20 .35 0.50 Xi 22.35 0.20 0.22 0.3 litros por auto. cuando se efectúan cálculos utilizar la propia tabla de frecuencia.5 190.5 42.20 0.5 37.90 1. EJEMPLO 2 (caso de datos agrupados. por tanto: 34 1 1 = 4.0 x= 1 1665 = 33. la expresión matemática empleada no se diferencia del caso en que los 17 .22 0.40 40 .3 ∑ x in i = 50 n (O sea. como se ve. para facilitar los mismos. x= 1 ∑ x in i ó x = n ∑ x in i ó x = ∑ x i f i n (en datos tabulados) EJEMPLO 1 (caso de datos no agrupados.) Nota: Para los cálculos de la media en datos agrupados en clases se utilizan las marcas de clase.70 0. la expresión matemática derivada de la definición de la media debe modificarse.10 Ni 4 7 14 18 20 Fi 0.15 0.5 32. y salvo eso.35 35 .x= ∑ xi n ó x= 1 ∑ xi n (definición) EJEMPLO: Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 5 5 Su promedio es.0 1665.26 0.45 45 .5 412.25 x = ∑ x i = (5 + 4 + 3 + 4 + 5 + 3 + 5 + 5 ) = 8 8 n Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni). como se muestra.25 25 .00 Xini 0 3 14 12 8 37 x= 1 37 = 1.5 27. continuación): Calcular el promedio de inasistencias para los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0.0 357.5 ni 6 13 11 11 5 4 fi 0.20 0. multiplicando cada valor por su respectiva frecuencia.12 0.

el valor modal es el de mayor frecuencia. M(kx) = k M(x) (La media de una constante por una variable es igual a la constante por la media de la variable. se le llama desviaciones con respecto a la media. valores atípicos muy grandes conducirán a una media mayor que la real del conjunto. M(x . M(x1 + x2) = M(x1) + M(x2) (La media de la suma de dos variables es igual a la suma de las medias de ambas variables. M(x . el valor que correspondería a una distribución equitativa para todas las observaciones. o existir más de una (distribución multimodal). cuando este valor fijo es la propia media de la variable. (La media del cuadrado de las desviaciones con respecto a la media al cuadrado es un mínimo. así. M(k) = k (La media de una constante es igual a la propia constante. Se denota por Mo(x) y puede no existir en una distribución (distribución amodal). Algo a tener en cuenta en este sentido es que si existen intervalos abiertos. o sea.x ) = 0 (La media de las desviaciones con respecto a la media es igual a cero. 18 .) 5. De la quinta propiedad citada se deduce que la media es el centro de gravedad o el punto de equilibrio de la distribución. Esto no quita que también para datos cuantitativos suele ser de interés conocer el valor modal.) 2. estos arrastran consigo el valor de la media. MODA La moda se define como el valor mas frecuente en un conjunto de datos. PROPIEDADES Y CARACTERÍSTICAS DE LA MEDIA: Algunas propiedades importantes y con utilidad práctica de la media son: 1.datos no están agrupados.) Cabe especificar que se le llama desviaciones a la diferencia entre los valores de una variable y un valor fijo. como a veces se presenta la primera o la última clase. es decir.x )2 = mínimo. pues en ellos es imposible calcular otros estadígrafos de posición. M(k + x) = k + M(x) (La media de una constante más una variable es igual a la constante más la media de la variable. mientras que valores muy pequeños provocarán que la media sea menor que la real.) 3. Una característica notable en la media es que ésta se ve afectada por la ocurrencia de valores extremos.) 4. que se utiliza en ocasiones como medida de tendencia central.) 6. La moda cobra especial importancia en datos de tipo cualitativo. como la media. esto quiere decir que si hay algunos valores atípicos en el conjunto. la media no se puede calcular a menos que se modifiquen los mismos.

que el mismo puede obtenerse a partir de la expresión: Mo ( x ) = L mod −1 + c ⋅ Siendo: Lmod-1: c: nmod: nmod-1: (n mod n mod − n mod −1 − n mod −1 ) + (n mod − n mod +1 ) el límite inferior de la clase modal el ancho de la clase modal (que en general es el de todas las clases) la frecuencia absoluta de la clase modal la frecuencia absoluta de la clase anterior a la modal 19 .70 0.20 0. En datos tabulados es muy sencillo encontrar el valor o valores modales. atendiendo a cuestiones geométricas. se repite 7 veces en la muestra (o un 35% de las veces).90 1. Pero si se quiere indicar un valor modal dentro de la clase modal.10 Ni 4 7 14 18 20 Fi 0. EJEMPLO: Sean las calificaciones de tres estudiantes: A: 3 4 3 4 5 4 5 4 4 B: 3 4 5 4 5 4 5 5 4 Organizando primeramente los datos se tiene: A: 3 3 4 4 4 4 4 5 5 B: 3 4 4 4 4 5 5 5 5 C: 3 3 3 4 4 4 5 5 5 Mo(A) = 4 (conjunto unimodal) Mo(B) = { 4 . pues son aquellos que presentan la máxima frecuencia absoluta.00 nmod = 7 (frecuencia modal) Mo(X) = 2 Nota: La frecuencia modal es 7. Cuando se trabaja con datos agrupados en clases.35 0. continuación): Determinar la moda de inasistencias para los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0. conformando lo que se llama un arreglo ordenado. y para muchos fines esto es suficiente.35 0.20 0. por eso no tiene valor modal. 5 } (conjunto bimodal) Mo(C) = Ø (conjunto amodal) C: 3 4 3 4 5 4 5 5 3 Nota: Para el estudiante C ninguna nota es más frecuente que las demás. EJEMPLO 1 (caso de datos no agrupados.Para determinar la moda a partir de datos primarios suele ser conveniente organizar primero estos. es sencillo determinar la clase o clases modales existentes.20 0.15 0. se ha determinado. porque la cantidad de inasistencias que más ocurre. que son dos.

5 32. continuación): Calcular el valor modal para el consumo diario de gasolina de los 50 taxis de la flota. atendiendo al número de observaciones.5 ni 6 13 11 11 5 4 fi 0. es necesario antes ordenarlos.nmod+1: la frecuencia absoluta de la clase siguiente a la EJEMPLO 2 (caso de datos agrupados.30 30 .45 45 .30 Para determinar un valor modal puntual se parte de la clase modal: Mo ( x ) = L mod −1 + c ⋅ (n mod n mod − n mod −1 13 − 6 = 25 + 5 ⋅ (13 − 6 ) + (13 − 11) − n mod −1 ) + (n mod − n mod +1 ) Mo ( x ) = 25 + 5 ⋅ 7 = 25 + 3.5 37. esto es. Se denota por Me(x). 20 .12 0. o sea.89 = 28. Además.25 25 .08 nmod = 13 clase modal: 25 .10 0. La moda. aunque es menos frecuente este uso.50 Xi 22. Para calcular la mediana a partir de un conjunto de datos en su forma primaria. clases 20 .5 47. no tiene necesariamente que existir. la mediana está representada por el valor numérico correspondiente a la posición del centro de las observaciones ordenadas. después.89 9 CARACTERÍSTICAS DE LA MODA: A diferencia de la media.35 35 . llamando valor modal a aquel donde exista un máximo relativo en la distribución de frecuencias. se puede buscar la posición del valor mediano en el arreglo ordenado.40 40 . donde: ni – 1 < ni >ni + 1 MEDIANA La mediana se define como el valor central de un grupo de datos ordenados. según las dos siguientes reglas: Regla 1: Si el tamaño de la muestra es un número impar. ni tiene que ser única.22 0. como aquel valor que supera hasta un 50% de las observaciones y a la vez es superado por hasta un 50 % de las observaciones.5 27.5 42.26 0. la moda no se afecta ante la presencia de valores extremos.22 0. como se ha visto. la moda puede ser definida en forma relativa.

90 1.10 Ni 4 7 14 18 20 Fi 0. es un convenio adoptado.00 n/2 = 10 Nmed = 14 ( >10 ) Me(X) = 2 Nota: La frecuencia mediana es 14. si la frecuencia mediana encontrada supera a n/2. Me(x) = Xmed (Es decir. si la frecuencia mediana encontrada coincide con n/2. Determinar la fracción n/2.15 0. y entonces: • Si Nmed > n/2. la mediana es el promedio del valor de X al que le corresponde dicha frecuencia en la tabla con el valor de X siguiente) • EJEMPLO 1 (caso de datos no agrupados. será la semisuma o promedio de los dos valores centrales de las observaciones ordenadas.20 0. Encontrar la denominada frecuencia mediana. se tiene: SI: 3 4 4 5 5 5 5 Me(x) = 5 Me(x) = (4 + 5)/2 = 4. la mediana es el valor de X al que le corresponde dicha frecuencia en la tabla) Si Nmed = n/2.70 0.35 0. 21 .5 SII: 3 4 4 4 5 5 5 5 Para determinar la mediana en datos tabulados pero sin agrupar en clases se puede proceder de la siguiente manera: 1. estrictamente hablando. pues cualquier valor entre los dos valores centrales podría ser considerado como un valor mediano) EJEMPLO: Sean las calificaciones de un estudiante en dos semestres: SI: 5 3 5 4 4 5 5 SII: 5 3 5 4 4 5 5 4 Ordenando los datos. entonces el valor mediano. que ubica el centro de la distribución. continuación): Determinar la mediana para las inasistencias de los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0.20 0. que es la primera frecuencia absoluta acumulada que iguala o supera a n/2 (representada por Nmed). (Esto.35 0. 2. Me(x) = (Xmed + Xmed+1)/2 (Es decir.20 0.Regla 2: Si el tamaño de la muestra es un número par. porque es la primera frecuencia absoluta acumulada que sobrepasa a n/2 = 10.

73 nmed 11 11 CARACTERÍSTICAS DE LA MEDIANA: La mediana no se ve afectada por datos extremos. no puede decirse que ambas empresas tiene el mismo comportamiento. a pesar de que han coincidido en el valor de la recaudación media mensual: la primera de ellas es mucho más estable en su comportamiento que la segunda… Esto sería útil conocerlo a través de alguna medida resumen.50 Xi ni Ni 22. mucho menos.73 = 32.30 30 .5 37. habiendo recaudado unos meses mucho más que dicho valor.35 n − Nmed−1 25 − 19 6 Me( x ) = Lmed−1 + c ⋅ 2 = 30 + 5 ⋅ = 30 + 5 ⋅ = 30 + 2.5 42. como aquella cuya frecuencia absoluta acumulada sobrepasa a n/2.35 35 .2. junto con el valor de la media. no basta con ellos para caracterizar un conjunto de datos: Téngase por caso dos empresas que reportan el mismo promedio de recaudaciones mensuales. se determina ante todo una clase mediana.45 45 . sobre esa clase se aplica la siguiente expresión: n −N med−1 Me( x ) = L med−1 + c ⋅ 2 nmed Siendo: Lmed-1: c: Nmed-1: nmed: el límite inferior de la clase mediana el ancho de la clase modal (que en general es el de todas las clases) la frecuencia absoluta acumulada hasta la clase anterior a la mediana la frecuencia absoluta de la clase mediana EJEMPLO 2 (caso de datos agrupados. mientras que la otra ha oscilado bastante en sus recaudaciones alrededor de ese valor medio. de esta manera.25 25 . siendo que una de ellas esto se debe a que todos los meses ha recaudado esa misma cantidad. 1.5 27.En el caso de datos agrupados en clases. 22 . es por ello que cuando éstos existen ella es más representativa que la media como medida de tendencia central.40 40 . pero otros. clases 20 . y si quiere un valor mediano. continuación): Calcular el valor mediano para el consumo diario de gasolina de los 50 taxis de la flota.ESTADÍGRAFOS O MEDIDAS DE DISPERSIÓN A pesar de toda la información que brindan los estadígrafos de posición.5 32.5 6 13 11 11 5 4 6 19 30 41 46 50 Nmed = 30 clase mediana: 30 .5 47.2.

los estadígrafos de dispersión son medidas que describen cómo se distribuyen los datos alrededor de alguno de sus valores representativos. como se muestra: 23 . por σ2 (la letra griega sigma. la varianza es: S2 = 1 1 2 2 2 2 2 2 2 ∑ (x i − x ) = (5 − 4 ) + (4 − 4 ) + (3 − 4 ) + (4 − 4 ) + (5 − 4 ) + (3 − 4 ) n 6 1 4 2 2 S 2 = 12 + 0 2 + (− 1) + 0 2 + 12 + (− 1) = = 0. y base para el cálculo de otras. que cada valor de la variable (Xi) se repite una determinada cantidad de veces (ni). Por sus propiedades. puede calcularse como: S2 = EJEMPLO: ∑ (x i − x ) n 2 ó S2 = 1 2 ∑ (x i − x ) n (definición) Sea X las calificaciones de un estudiante: X: 5 4 3 4 5 3 El promedio es: x = 4 Por tanto. principalmente alrededor de su media.Precisamente. al cuadrado) • en definiciones y demostraciones. es la medida de dispersión más usada. por V(x) De la definición de la varianza se desprende que ésta.67 6 6 [ ] [ ] Al trabajar con datos tabulados debe tenerse en cuenta. Por tanto. VARIANZA La varianza de un conjunto de datos se define como la media o promedio del cuadrado de las desviaciones de la variable respecto a su media. Entre las medidas de dispersión más empleadas destacan la varianza. y por tanto. al igual que en los cálculos de la media. la desviación típica y el coeficiente de variación. La varianza se representa: • en la muestra. por S2 • en la población. la expresión matemática derivada de la definición debe modificarse. las medidas de posición no dicen mucho si no están acompañadas de medidas de dispersión o variabilidad. porque a través de estas últimas es que se puede determinar si la medida de posición es significativa o representativa de la distribución. en una muestra.

53 9.2450 30.1556 2568.20 0.5500 Nota: Algunos cálculos se han organizado utilizando la propia tabla de frecuencias. V(x) ≥ 0 (La varianza es un número no negativo. continuación): Calcular la varianza en las inasistencias para los 20 estudiantes del grupo analizado: Xi 0 1 2 3 4 ni 4 3 7 4 2 fi 0.8557 7.15 0.00 (x i − x )2 ni 13.5 27.50 Xi ni (x i − x )2 ni 703.3 Por tanto: S2 = 1 2568 .7334 441.) 4. dada la manera en que se define y calcula.90 1.35 0.10 Ni 4 7 14 18 20 Fi 0.45 45 .85 Por tanto: Calcularla varianza para el consumo diario de gasolina de los 50 taxis de la flota. y esto hace que no se le pueda dar una interpretación realista a dicho estadígrafo. 24 .2900 S = n ∑ (x i − x ) n i = 20 = 1.5 32.5 42.20 0.045 2 = 128 .1575 1 30.5779 191.20 0.35 0.0450 22. V(k) = 0 (La varianza de un grupo de datos constante es igual a cero.4445 803.25 25 .4 ∑ (x i − x ) n i = n 50 PROPIEDADES Y CARACTERÍSTICAS DE LA VARIANZA: Algunas propiedades importantes y con utilidad práctica de la varianza son: 1. EJEMPLO 2 (caso de datos agrupados.5 47.2779 420.5 6 13 11 11 5 4 n=50 Se tiene que: x = 33. se expresa en unidades cuadráticas respecto a la variable de la que procede.40 40 .∑ (x i − x ) n i S = n 2 2 ó S2 = 1 2 2 ∑ (x i − x ) n i ó S 2 = ∑ (x i − x ) fi n (en datos tabulados) EJEMPLO 1 (caso de datos no agrupados.30 30 . continuación): Se tiene que: x = 1. clases 20 .35 35 . V(kx) = k2 V(x) (La varianza del producto de los valores de una variable por una constante es igual a la constante al cuadrado por la varianza de la variable.70 0.) 2.6900 2.1675 0. V(x ± k) = V(x) (La varianza de la suma de los valores de una variable más una constante es igual a la varianza de la variable.5 37.) La varianza.) 3.55 2 2 5.

La desviación típica o desviación estándar se define como la raíz cuadrada positiva de la varianza. DESVIACIÓN TÍPICA O ESTÁNDAR Puesto que la varianza pierde interpretación por estar su resultado en unidades cuadráticas. Este estadístico es el denominado coeficiente de variación. y en forma matemática puede expresarse: 25 . se dice que es una medida de dispersión absoluta: mientras mayor es la varianza en un conjunto de observaciones. en centavos. resulta conveniente contar con otro estadístico que basado en el valor de la varianza sirva para dar una medida de la dispersión en las mismas unidades o dimensiones en que están expresados los datos y este estadístico es la desviación típica. Se denota por S en la muestra y por σ en la población: S = S2 EJEMPLO: Sea X el precio de venta. El coeficiente de variación se define como el cociente de la desviación típica entre la media. Se denota por CV(x). Esta necesidad surge generalmente cuando se comparan las dispersiones entre varios conjuntos expresados en unidades diferentes. por la misma forma en que se define y calcula. o incluso entre variables expresadas en las mismas unidades pero con diferencias significativas en sus valores medios.1¢ La desviación típica es una magnitud no negativa. pero no cumple las restantes propiedades matemáticas de aquella. esto es que sea un valor relativo. por el contrario. y con el misma interpretación que la varianza en cuanto a medida de dispersión absoluta. la varianza. indica el grado de dispersión de los datos. mayor es su dispersión. COEFICIENTE DE VARIACIÓN En ocasiones resulta necesario contar con un estadígrafo que refleje la dispersión sin depender de la magnitud de las observaciones. la desviación estándar es: S = S 2 = 26 = 5. los distintos jabones de una marca dada: X: 40 35 45 50 40 El precio promedio para la marca es: x = 1 40 + 35 + 45 + 50 + 40 = 42 ¢ ∑ xi = n 5 La varianza es: S 2 = 1 130 2 = 26 ¢ 2 ∑ (x i − x ) = n 5 Por tanto. pues la extracción de la raíz no lo permite.No obstante. si una varianza nula indica que todas las observaciones coinciden en un mismo valor.

5 kg En este caso no tiene sentido decir que hay mayor dispersión en términos absolutos en la estatura.. para expresar el resultado en porciento. X: estatura (cm) Y: peso (kg) X = 155 cm S2 X = 110 cm S X = 10.CV( x ) = Sx x Del coeficiente de variación se dice que es una medida de dispersión relativa. por el hecho de que la desviación estándar para dicha variable es 10.¿Cómo se define la mediana? 5. considera que es mejor para representar el promedio? Explique su respuesta.068 = 6.¿Qué indican las medidas de tendencia central? 2.. o una medida de la variabilidad de los datos...¿Qué desventajas se le pudiera atribuir a la media? 4..5.¿En que casos considera útil utilizar la moda? 26 .7%) que en la estatura de los niños (6.5 = 0.¿Cómo se define la media aritmética? ¿Cuáles son sus propiedades? 3. Aquí cobran especial importancia los coeficientes de variación.8% 155 CV( Y ) = 4. que quedan: CV( X) = 10..5 = 0.5 cm 2 Y = 42 kg S 2 = 20 kg2 Y S Y = 4.. EJEMPLO: Sea cuenta con datos del peso y la estatura de un grupo de 20 niños entre 8 y 10 años.8%). Muchas veces su valor se multiplica por 100. y se desea saber cuál de las dos variables tiene mayor variabilidad. EJERCICIOS DE AUTOEVALUACIÓN 1. pues las unidades en que están expresadas ambas no son comparables. media y mediana.107 = 10.5 mientras que para el peso es 4. 6.¿Cuál de los dos estadísticos.¿Cómo se define la moda? 7. por carecer de unidades.7% 42 De ello resulta que hay mayor variabilidad en el peso (10.

. 10. 266. 317. 451.Calcule la media. 562. 1049... Li-1 10 15 20 25 30 Li 15 20 25 30 35 ni 4 6 7 2 1 27 . 264..¿Cómo se define el coeficiente de variación? ¿Cómo se interpreta este coeficiente? 14. c..¿Cuándo y porqué utilizaría la desviación típica en vez de la varianza? 13.¿Cómo se define la varianza? Mencione algunas de sus propiedades. 545.Calcule la varianza. el auditor toma una muestra de 20 de esas cuentas no pagadas (dadas en cientos de pesos). El resultado en horas de funcionamiento fue: 342.. 298 a. 426. 631... 492..¿Qué indican las medidas de dispersión? 9..¿Cómo se define la desviación típica? ¿Cómo la interpretaría en general? 12..Calcule la media.Utilizando la información anterior ¿qué se aconsejaría al fabricante si él deseara anunciar que sus baterías duran 400 horas? 16. la mediana y la moda. b.. c.. la desviación típica y el coeficiente de variación. Los adeudos de la empresa eran: a.A que conclusión llegaría acerca de la empresa conociendo que tiene 370 facturas pendientes de pago..¿Cómo interpretaría el resultado de la varianza? 11.Examinando los registros de cuentas mensuales de una empresa que vende libros por correo.Un fabricante de pilas para linternas tomó una muestra de 13 piezas de la producción de un día y las utilizó de forma continua hasta que comenzaron a fallar.8.¿Cuáles son las ventajas del coeficiente de variación sobre la desviación típica? 15. 512.. la mediana y la moda.Calcule la varianza y el coeficiente de variación e interprete los resultados. ¿Qué medidas descriptivas parecen ser las mejores y cuales las peores? ¿Por que? b.

TEMA II: PROBABILIDADES.
2.1: Introducción a los fenómenos y experimentos aleatorios. Espacio muestral y sucesos. Clasificación de sucesos. Definición clásica de Probabilidad. Definición estadística de Probabilidad.
La Teoría de las Probabilidades surge en el siglo XVII, relacionada con problemas de los juegos de azar, y entre sus principales precursores estuvo el matemático Pascal, junto con Fermat, Huygens y Bernoulli; algo después se sumó la importante contribución de De Moivre, Gauss, Laplace y Poisson. Esta teoría se encarga del estudio de las leyes que rigen el comportamiento de los fenómenos aleatorios, y es la base de la inferencia estadística, de ahí la necesidad de su estudio si se quiere pasar de la mera descripción al trazado de predicciones. Para desarrollar la teoría de las probabilidades es preciso establecer la barrera entre el determinismo y la necesario aleatoriedad o azar: Un fenómeno o experimento es determinista cuando se puede predecir con total exactitud el resultado del mismo a partir del conocimiento de las condiciones iniciales; así, los fenómenos y experimentos de que se ocupan ciencias exactas como la física y la química son deterministas. Un fenómeno o experimento es, por el contrario, aleatorio cuando no se puede predecir con exactitud el resultado del mismo aunque se conozcan las condiciones iniciales; esto es lo que por lo general ocurre en el campo de las ciencias económicas y sociales. Según lo dicho, si se va a dejar caer un dado desde una altura determinada, el hecho de que se conozca cuál es la altura permitiría determinar antes y con exactitud, sobre la base de leyes físicas, con qué velocidad llegará el dado al suelo, lo que hace de ésta una observación determinista; sin embargo, no sería posible predecir con total certeza qué cara del dado quedará hacia arriba, siendo esta otra una observación aleatoria. Se plantea que la estadística es la tecnología del método científico que proporciona instrumentos para la toma de decisiones, cuando estas se adoptan en ambiente de incertidumbre y siempre que pueda ser medida en términos de probabilidad. Luego es una ciencia que estudia los fenómenos aleatorios. La probabilidad, en una aproximación intuitiva, puede definirse como una medida cuantitativa de que las posibilidades pueden llegar a ser realidades.

TERMINOLOGÍA ASOCIADA A LOS EXPERIMENTOS ALEATORIOS:
Para llegar a una definición más rigurosa de lo que lo que es probabilidad resulta útil dominar algunos conceptos vinculados justamente con lo no medible con exactitud, con lo aleatorio:
Espacio muestral: Es el conjunto formado por todos los posibles resultados de un experimento o fenómeno aleatorio. Se suele representar con “S”, mayúscula, y utilizando la notación de la Teoría de Conjuntos. La cantidad de elementos (puntos muestrales) que conforman el especio muestral es denominada “tamaño del espacio muestral”, y se representa como N(S).

Ej. 1: Lanzamiento de una moneda...

S: { C ; E } donde C: Cara E: Escudo
28

Ej. 2: Lanzamiento de un dado...

N(S) = 2 S: { 1, 2, 3, 4, 5, 6 } N(S) = 6

Cuando el experimento consta de observaciones sucesivas (a esto se le denomina experimento de muestreo), el espacio muestral es la combinación de los posibles resultados en cada una de las observaciones, y para determinar el mismo se pueden utilizar los llamados diagramas de árbol. En un diagrama de árbol se ordenan las diferentes observaciones y se establecen los posibles resultados para cada observación atendiendo a las observaciones anteriores. Ej. 3: Lanzamiento de dos monedas

S: { CC ; CE ; EC ; CC } N(S) = 4 El espacio muestral puede ser finito o infinito según el conjunto tenga un número finito o infinito de elementos (puntos muestrales).
Punto muestral: Es cada uno de los resultados posibles de un experimento o fenómeno aleatorio. Suceso o evento: Cualquier característica observada como resultado de un experimento o fenómeno, y es aleatorio si tiene tanto posibilidad de ocurrir o como de no ocurrir; o sea, es una colección cualquiera de puntos muestrales. Se utilizan letras mayúsculas para representarlos, exceptuando la S.

Para establecer relaciones de sucesos con el espacio muestral o entre ellos mismos se utilizan los diagramas de Venn. En un diagrama de Venn se suele representar el espacio muestral como un rectángulo, y dentro de este, con círculos u otras formas geométricas los diferentes sucesos de interés, así:

S A

Ejemplos de sucesos, en el experimento del lanzamiento de un dado son: A: Que salga el 6. B: Que salga un número > 3 C: Que salga un número ≤ 2 D: Que salga un número par E: Que salga un número impar F: Que salga un número primo G: Que salga un número < 10 H: Que salga un número > 6 A={6} B = { 4; 5; 6 } C = { 1; 2 } D = { 2; 4; 6 } E = { 1; 3; 5 } F = { 1; 2; 3; 5 } G = { 1; 2; 3; 4; 5; 6 } (= S ) H = ø (conjunto vacío)
29

Los sucesos pueden clasificarse atendiendo a diferentes criterios; así, en dependencia de la cantidad de puntos muestrales que lo constituyen se habla de sucesos simples y compuestos:
Suceso simple: Es aquel que consta de un solo punto muestral. (En el ejemplo anterior, el suceso A.) Suceso compuesto: Es aquel que tiene dos o más puntos muestrales. (En el ejemplo anterior, los sucesos del B al G.)

Atendiendo a su ocurrencia, se puede hablar de sucesos seguros o ciertos y de sucesos imposibles o nulos:
Suceso seguro o cierto: Es aquel cuya ocurrencia es inevitable, que siempre va a ocurrir. (En el ejemplo anterior, el suceso G: al lanzar un dado siempre saldrá un número del 1 al 6.) Los sucesos seguros coinciden con el espacio muestral. Suceso imposible o nulo. Es aquel que nunca ocurrirá. (En el ejemplo anterior, el suceso H.) Los sucesos imposibles constituyen conjuntos vacíos.

Además, en función del vínculo de un suceso o evento con otros existen las siguientes denominaciones:
Subevento: A es un subevento o subsuceso de B si todos los puntos muestrales de A están incluidos en B, o sea, A ⊂ B. (En el ejemplo anterior: A ⊂ B, A ⊂ D, C ⊂ F, E ⊂ F.)

A⊂B
Sucesos complementarios: Un suceso es complementario de otro suceso A, si está formado por todos los puntos del espacio muestral que no están incluidos en A; se dice entonces que ese suceso es el complemento de A, y se denota por A' o Ac. (En el ejemplo anterior se tiene para A = { 6 } que el complemento es A’ = { 1; 2; 3; 4; 5}.)

Sucesos excluyentes: Dos sucesos se dice que son mutuamente excluyentes si la ocurrencia de uno excluye la ocurrencia del otro, por lo tanto dichos sucesos no tienen puntos en común. (En el ejemplo anterior son excluyentes A y C, B y C, D y E.)

30

siendo B = { 4. es decir. 5. entre ellas. 6 } (que salga un número mayor que 3) y D = { 2. (En el ejemplo anterior son no excluyentes A y B. es decir: B ∩ D ≡ BD = { 4.: En el lanzamiento del dado. etc.) Sucesos exhaustivos: Se dice que dos sucesos son colectivamente exhaustivos cuando la ocurrencia de ambos abarca el espacio muestral. Ej. la intersección es el suceso dado por que salga un número par y mayor que tres. lo contrario no necesariamente ocurre. las más usadas son: • Intersección o producto: La intersección de los sucesos A y B da como resultado un suceso que consiste en la ocurrencia simultánea de ambos. 6 } B ∩ D ≡ BD 31 . si tienen puntos en común. Sucesos no excluyentes: Dos sucesos son no excluyentes si pueden ocurrir simultáneamente. 6 } (que salga un número par). Todos los sucesos complementarios son exhaustivos. C y E. lo contrario no necesariamente ocurre. B y D. Se denota por A ∩ B ó AB. OPERACIONES ENTRE SUCESOS: Para establecer la relación entre diferentes sucesos se recurre a las operaciones definidas por el álgebra booleana en la propia Teoría de Conjuntos. Todos los sucesos complementarios son excluyentes. C y D. es decir. D y F. que contiene los puntos muestrales contenidos a la vez en A y en B. 4.) Nota: Un caso particular de sucesos exhaustivos son los complementarios. (En el ejemplo anterior son no exhaustivos: D y E.Nota: Un caso particular de sucesos excluyentes son los complementarios.

167 La probabilidad de obtener un número par será: D: Que salga un número par N(D) = 3 P(D) = 3/6 = 0. así: P( A ) = N( A ) N(S) Ejemplos: La probabilidad de obtener el número 6 al lanzar un dado será: A: Que salga el 6. que establece que: Si S es un espacio muestral finito y todos los puntos muestrales son equivalentes o igualmente representativos. 2 } (que salga un número menor o igual que 2). que no ocurra A. 6 } B∪D • Complemento o negación: El complemento de un suceso A da como resultado su suceso complementario.5 32 . es decir. Ej. entonces la probabilidad de ocurrencia de cualquier suceso A definido en S puede calcularse como el cociente del número de resultados favorables al suceso A (tamaño del suceso) entre el número de resultados posibles (tamaño del espacio muestral). es decir que contiene todos los puntos muestrales contenidos en A o en B (o en ambos). N(A) = 1 P(A) = 1/6 = 0. 5. Laplace formula la que es conocida como definición clásica de probabilidad. 4. 6 } C’ ≡ Cc DEFINICIÓN CLÁSICA DE PROBABILIDAD: En el siglo XIX. concretamente en el año 1812. es decir: B ∪ D = { 2. la unión es el suceso dado por que salga un número par o mayor que tres.• Unión o suma: La unión de dos sucesos A y B da como resultado un suceso que consiste en la ocurrencia de al menos uno de los dos sucesos. es decir: C’ = { 3. Ej. 5. 5. 6 } (que salga un número mayor que 3) y D = { 2. 4. el complemento unión es el suceso dado por que salga un número mayor que 2.: En el lanzamiento del dado. 6 } (que salga un número par). 4. siendo C = { 1. Se denota por A ∪ B ó A + B. siendo B = { 4. Se denota como A’ ó Ac.: En el lanzamiento del dado.

DEFINICIÓN ESTADÍSTICA DE PROBABILIDAD: Debido a las limitaciones que confronta la definición clásica de probabilidad. y mientras más lanzamientos se haga más tenderá este valor al 50%. Se le llama regularidad estadística a la estabilidad que presentan las frecuencias relativas asociadas a un suceso al considerar un gran número de veces un experimento bajo las mismas condiciones. así: P( A ) = lim nA = lim f A n n→ ∞ n→ ∞ Ejemplo: Un arquero ha acertado 70 veces en un blanco de un total de 100 intentos. por ejemplo. dadas por lo siguiente: No siempre es posible repetir un experimento un mismo número de veces bajo las mismas condiciones. igualmente probables. porque si no se realiza el experimento no se puede calcular la misma. 2. como medida de la posibilidad de ocurrencia de un suceso. 1000 veces). se comenzaron a realizar experimentos con los juegos de azar. Esta definición también tiene limitaciones.La definición clásica también se conoce como definición a “priori” de probabilidad. No puede ser aplicada cuando los puntos muestrales no son equiprobables.70 O sea. y entonces puede asociarse a un número P(A) equivalente a la probabilidad de ocurrencia de A. Sea A: acertar en el blanco Se tiene que n = 100 y nA = 70. se observará que aproximadamente el 50% de estas veces sale cara. alcanza un cierto valor límite o ideal. PROPIEDADES DE LA PROBABILIDAD: La probabilidad. se espera que el arquero haga blanco un 70% de las veces que tire. Entonces: P(A) = 70/100 = 0. la frecuencia relativa asociada a un suceso A (fA). Esta definición tiene las siguientes limitaciones: 1. No puede ser aplicada a espacios muestrales infinitos. porque no es necesario realizar el experimento para calcular la probabilidad de ocurrencia. o lo que es lo mismo. surgiendo el concepto de regularidad estadística. y se quiere conocer la probabilidad de que haga blanco en un nuevo tiro. surge la definición estadística de probabilidad que plantea: Si el número de observaciones (n) tiende a infinito. cumple las siguientes propiedades: • • P(A) ≥ 0 P(S) = 1 33 . La definición estadística o frecuencial además se conoce como definición “a posteriori” de probabilidad. A partir de la regularidad estadística. si una moneda se lanza un gran número de veces (500.

8 sea mujer o disfrute ir de compras? c.¿Cuáles son las limitaciones de ambas definiciones? 9...¿Puede calcularse probabilidad a partir de un experimento determinista?.En una amplia red metropolitana se seleccionó una muestra de 500 entrevistados para determinar diversas informaciones relacionadas con el comportamiento del consumidor.5 sea mujer y disfrute ir de compras? c.¿Cómo se define la probabilidad clásicamente? ¿Bajo que condiciones puede aplicarse? 7... 6. EJERCICIOS DE AUTOEVALUACIÓN 1. b.¿Cómo se define la probabilidad estadística o frecuencialmente? 8. De 240 hombres 136 contestaron que sí..Lo anterior implica que: 0 ≤ P(A) ≤ 1 Nota: Es común multiplicar las probabilidades por 100 para expresarlas porcentualmente.¿Qué es un experimento aleatorio? 2.. a.. y de esta forma.4 no disfrute ir de compras? c. lógicamente. 3.¿Cual es la probabilidad de que el entrevistado seleccionado en forma aleatoria ..1 sea hombre? c.6 sea hombre y no disfrute ir de compras? c.Explique la diferencia entre unión e intersección y proporcione un ejemplo de cada uno.¿Cuál es el complemento de disfrutar ir de compras? c.¿Cuáles son los sucesos mutuamente excluyentes? 4.. resultará un número (un valor porcentual) entre 0 y 100.¿Cuáles son los sucesos complementarios? 5. Entre las preguntas hechas se encontraba: “¿disfruta ir de compras?”. Explique...De un ejemplo de un evento simple....3 sea mujer? c.7 sea hombre y disfrute ir de compras? c.2 disfrute ir de compras? c. de 260 mujeres 224 contestaron que sí.9 sea hombre o no disfrute ir de compras? 34 . c.

Reglas de cálculo de probabilidades. se dirá. entre los más usados están: Teorema 1: Teorema 2: Teorema 3: La probabilidad de un suceso imposible o nulo es cero: P(∅) = 0 Si A es un subconjunto de B entonces P(A) ≤ P(B) La probabilidad del suceso complementario al suceso A es igual a la probabilidad del espacio muestral. El mismo puede generalizarse para más de dos sucesos. Probabilidad condicional.. y donde la aplicación directa de alguna de las definiciones de este concepto parece prácticamente imposible. la regla de la unión referida a tres sucesos queda: 35 . si S es un espacio muestral y A un suceso definido en S. de ahí que la teoría en torno a las probabilidades continuase desarrollándose para encontrar solución a estos casos. P(A1 ∪ A2 ∪ A3 ∪ . será: P(A ∪ B) = P(A) + P(B) . + P(Ak) si los k sucesos son excluyentes o lo que es lo mismo si para cada par Ai y Aj se tiene que AiAj = ø siendo i ≠ j. TEOREMAS ASOCIADOS AL CÁLCULO DE PROBABILIDADES: De los axiomas establecidos para la probabilidad se derivan algunos teoremas que encuentran aplicación directa en el cálculo de probabilidades. que todo suceso A definido en S está asociado a un numero real P(A). Existen múltiples situaciones complejas en las que es necesario o deseable conocer la probabilidad de ocurrencia de un determinado suceso. Independencia de sucesos. P(S) = 1 3. menos la probabilidad de A.P(AB) Este teorema es conocido como “regla de la unión”.. ∪ Ak) = P(A1) + P(A2) + . por ejemplo. P(A) ≥ 0 2.P(AB) Teorema 5: La probabilidad de que ocurra la unión de dos sucesos. Entonces. el cual cumplirá con los siguientes axiomas: 1. en 1933 se axiomatiza la probabilidad a partir de la formulación de tres axiomas básicos. P(A') = 1 . que es igual a 1 ( P(S) = 1 ).P (A) Teorema 4: La probabilidad de que ocurra A y no ocurra B será: P(AB') = P(A) . dando lugar a numerosos teoremas y reglas. A y B.2...2: Axiomatización de la Probabilidad. llamado probabilidad de A. Dadas las limitaciones que presentan las dos definiciones previas.

48 = 0. sino sólo aquella parte o subconjunto de aquel que coincide con la realización del suceso condicionante.P(GJ') = P(G) .105 .P(AC) .045 = 0.48 b.42 .P(G ∪ J)' = 1 .P(AB) . que se lee “probabilidad de A dado B”.¿Cuál es la probabilidad de seleccionar aleatoriamente un habanero del grupo y lea Granma o Juventud Rebelde.045 = 0.0. Se tiene: N(S) = 1000 N(G) = 420.¿Qué probabilidad hay de que el habanero seleccionado no lea ninguno de los periódicos? c.42 P(J) = 0.¿Qué probabilidad hay de que lea sólo Granma? Sean los sucesos: G: leer Granma J: leer Juventud Rebelde. Matemáticamente se puede calcular la probabilidad condicional como el cociente de la probabilidad de intersección de los dos sucesos entre la probabilidad del suceso condicionante: 36 .P(G ∪ J) = P(G) + P(J) + P(GJ) = 0. será: P(A’B’) = 1 ..0. La probabilidad así calculada se le llama probabilidad condicional. a.52 c.P(G ∪ J) = 1 . Para representar la probabilidad condicional de un suceso A respecto a otro B (condicionante o condición) se utiliza la el símbolo P(A/B). por tanto: N(GJ) = 45...105 P(GJ) = 0.0.P(GJ) = 0. esto quiere decir que ya no interesa la totalidad del espacio muestral. A y B.. b.. por tanto: P(G) = 0.P(A ∪ B) Ejemplo: De un grupo de 1000 habaneros: 420 leen Granma. o “probabilidad de A si ocurre B”.. que puede ser llamado condicionante. 105 leen Juventud Rebelde y 45 leen ambos periódicos. por tanto: N(J) = 105.42 + 0.P(BC) + P(ABC) Teorema 6: La probabilidad de que no ocurra ninguno de dos sucesos.385 PROBABILIDAD CONDICIONAL: Muchas veces surge la necesidad de calcular la probabilidad de ocurrencia de un suceso asumiendo la ocurrencia de otro.045 a.P(A ∪ B ∪ C) = P(A) + P(B) + P(C) .

Se quiere determinar la probabilidad de que un estudiante termine bien el segundo año. Solución: como es sin reposición las extracciones.85 P( A ) 0.. De una urna que contiene 4 esmeraldas y 1 brillante. se puede expresar como: P(AB) = P(A) P(B/A) P(AB) = P(B) P(A/B) De la misma forma: P(ABC) = P(A)P(B/A)P(C/AB) Luego la regla del producto expresa la probabilidad de que ocurran A y B en un orden determinado: P(AB)=P(A)P(B/A) que primero salga A y en segundo lugar salga B ó P(AB)=P(B)P(A/B) que primero salga B y en segundo lugar A Si no interesa el orden. la probabilidad de AB.Que la 1ra piedra sea esmeralda y la 2da brillante.P(E1 E2)= 4/5 . y que un 59..595 = = 0. se extraen 2 piedras.5% termina bien los dos años de estudio.6 c.70 REGLA DEL PRODUCTO: Si A y B son sucesos definidos en S.P( A / B) = P( AB) P(B) También se puede calcular la probabilidad condicional directamente a partir del tamaño de los sucesos: N( AB) P( A / B) = N(B) Ejemplo: En una escuela de idiomas se ha visto que el 70% de los estudiantes termina bien el primer año de Inglés. a... además que piden orden. Sean los sucesos: A: terminar bien el 1er año de Inglés B: terminar bien el 2do año de Inglés Entonces: P(B / A ) = Se sabe que: P(A)=0.595 P( AB) 0. entonces se tienen que expresar las dos combinaciones posibles que hay: P(AB) = P(A1 B2 ) + P(B1 A2 ) Ejemplo. entonces los sucesos son dependientes. sin reposición. b. 1/4 = 4/20 = 1/5 = 0... a.70 P(AB)=0. 3/4 = 16/20 = 6/10 = 0. una a una. Calcule la siguiente probabilidad.P(E1 B2 )= P(E)P(B/E) = 4/5 .P(E1 B2 ∪ B1 E2) = P(E)P(B/E) + P(B)P(E/B) 37 . de acuerdo a la definición de probabilidad condicional.Solo una sea esmeralda. sino que salga una vez A y una vez B.Que las dos piedras sean esmeraldas c.20 b.

no depende de que salga cara o no en el segundo lanzamiento. Para otros experimentos aleatorios.= 4/5 .40 P(B)=0. esto es debido a que se repuso la primera pieza.4 INDEPENDENCIA DE SUCESOS: Dos sucesos A y B se llaman independientes.42 P(C)=0. Ejemplo. la probabilidad de que salga cara en el primer lanzamiento. si hay más). Por tanto. no depende de la ocurrencia o no del otro. de obtener también una pieza defectuosa? P=20/100=0. se debe tener más cuidado.20. ¿Cuál será la probabilidad de obtener una pieza defectuosa en la primera extracción?: P=20/100=0.15 P(A/B)=0 P(A/C)=0 P(C/B)=0 38 . es decir. cuando las observaciones son con reposición se puede considerar que son independientes. Generalmente para los juegos de azar. entonces la probabilidad de pieza defectuosa en la segunda extracción será 20/99. sin reponer la primera pieza tomada. Si de la caja de 100 piezas en la primera extracción sale una pieza defectuosa. será 19/99.20 ¿Y cuál será la probabilidad. es fácil decidir si dos sucesos son independientes o no. Un ejemplo de independencia es el siguiente: Si se lanza una moneda dos veces. es decir exactamente igual. Si se tienen 3 sucesos definidos en un espacio muestral S y se conoce que: P(A)=0. en la segunda extracción. Ejemplo: Si una caja contiene 100 piezas de las cuáles 20 son defectuosas y se extraen aleatoriamente 2 piezas una a una (con reposición). cuando la probabilidad de ocurrencia de uno de ellos. pues lo que ocurre en la segunda extracción es independiente de lo que ocurre en la primera (y así con las sucesivas. P(AB) = P(A) P(B) Se debe aclarar que sólo se puede comprobar independencia a través de esta última fórmula si se tienen las 3 probabilidades y comprobar si la intersección es igual al producto de la probabilidad de ambos sucesos. la probabilidad de pieza defectuosa en la segunda extracción. Pero si no se repone. 1/4 + 1/5 . P(B/A) = P(B) 3. pero si lo que sale en la primera extracción es una pieza en buen estado. 4/4 = 4/20 + 4/20 = 8/20 = 4/10 = 0. P(A/B) = P(A) 2. Dos sucesos son independientes si se cumple alguna de las siguientes igualdades: 1. se hacen las observaciones “sin reposición” la probabilidad de cada observación depende de las anteriores.

¿Cuándo dos sucesos son mutuamente excluyentes? 5..1.. a... d.. pero: P(A) = 0.. ¿Cuál es entonces la probabilidad de que no disfrute ir de compras? b.P(A/B) = P(A) ya que para que A y B sean independientes se debe cumplir esta relación.¿Sea mujer o disfrute ir de compras? 39 . d.compare la respuesta a.¿Cuál es la probabilidad de que un entrevistado.... la intersección es igual al conjunto vacío. por tanto no son equiprobables..15 Por tanto. sin reposición.A y C son mutuamente excluyentes c.....Con referencia al ejercicio 9 de la autoevaluación de la semana anterior.Diga al menos 3 propiedades de la definición axiomática de probabilidad.. P(C/B) = P(C) ya que para que sean independientes se debe cumplir P(C/B) = P(C) 0 ≠ 0. Pero P(A/B) = 0 y P(A) = 0. ya que al no tener elementos comunes(AC).. 6. Como P(A/C)=0 eso implica que P(AC)=0 ya que P(A/C)=P(AC)/P(C) por lo tanto los sucesos A y C son mutuamente excluyentes.B y C son independientes d. a.Supóngase que el entrevistado seleccionado sea mujer.P(B/C) = P(B) ó cualquiera de las dos.Supóngase que el entrevistado seleccionado disfruta ir de compras.Para que sean equiprobables se debe cumplir que P(A) = P(B). b.42..Diga si: a.40 luego son diferentes por tanto no son independiente..¿Son estadísticamente independiente disfrutar ir de compras y el sexo de la persona? Fundamente su respuesta..el primer muñeco seleccionado sea una muñeca y el segundo un muñeco?.. d.A y B son equiprobables a. c. no son independientes.¿Cuándo dos sucesos son independientes? 4.Un embarque de 10 muñecos contiene 3 muñecos y 7 muñecas.40 ≠ P(B) = 0. ¿Cuál es la probabilidad de que sea un hombre? c. seleccionado en forma aleatoria.A y B son independiente b.3 y explique porque son diferentes... 3.2 y a.Para que sean mutuamente excluyentes se debe cumplir que P(AC)=0... ¿cuál es la probabilidad de que: a1.haya una muñeca y un muñeco? a3.Si se seleccionan dos muñecos. b..¿Cuáles son los axiomas sobre los que descansa la teoría axiomática de la probabilidad? 2..sean dos muñecas? a2. EJERCICIOS DE AUTOEVALUACIÓN 1.

Probabilidad de que fume dado que padece de los pulmones.A partir de una investigación realizada. diga: a.. 7.Probabilidad de que no sea fumador..Probabilidad de que padezca de afección respiratoria.3. y que padecen afecciones respiratorias dado que son fumadores un 50%.¿Sea hombre o mujer? Utilice para el inciso “d” las propiedades de la definición axiomática de probabilidad. se supo que el 70% de los hombres son fumadores.Probabilidad de que sea fumador y padezca de afección pulmonar.. Si se realiza el experimento de seleccionar un individuo del grupo al azar..Probabilidad de que no padezca de afecciones pulmonares dado que fuma e. d.2. 40 .. dado que padecen de afecciones existen un 40%. b.d..¿Sea hombre o no disfrute ir de compras? d. c... Además se conoció que no siendo fumadores.

Se denota por f(x).de valores. siendo su espacio muestral o dominio de definición: X = { 0. mediante X. o sea es la transformación del espacio muestral en un conjunto numérico. El espacio muestral es: S = { CC EE CE EC } Si lo que interesa es conocer la cantidad de caras que pueden aparecer.TEMA III: DISTRIBUCIONES TEÓRICAS DE PROBABILIDAD 3. y por tanto son clasificables igualmente en discretas y continuas: son discretas las que toman un conjunto finito -o infinito. y que se utilizan atendiendo a las características de la situación existente. que son modelos teóricos basados en las probabilidades. Todo modelo así desarrollado se basa en lo siguiente: Una función de probabilidad: f(x) Una función de distribución: F(x) Parámetros (medidas numéricas descriptivas) FUNCIÓN DE PROBABILIDAD: Una función de probabilidad es la correspondencia que se establece entre los valores. Media y varianza de variables aleatorias. Función de distribución. Cuando se conocen características o se efectúan estudios sobre el comportamiento de una variable. 1. de una variable aleatoria y la probabilidad de ocurrencia de éstos. 2 } Como para una variable aleatoria es imposible saber con exactitud qué valor tomará en un momento dado. 41 . Función de probabilidad univariada: casos discreto y continuo. En este tema que se estudiarán las distribuciones teóricas de probabilidad. Una manera más matemática de expresarlo es la siguiente: una variable aleatoria "X" es una aplicación definida en un espacio muestral S. Ejemplo: Experimento: lanzamiento de una moneda dos veces. se define entonces la variable aleatoria X: número de caras que aparecen. pero numerable. La mayor parte de las variables aleatorias se pueden expresar numéricamente. establecidos para describir el comportamiento de variables en cuyos valores hay incidencias aleatorias. son continuas las que pueden tomar cualquier valor real de un intervalo. para describir el comportamiento de las mismas se recurre al uso de las probabilidades. que toma valores reales. Se dice que una variable es aleatoria si sobre cuyos valores influye de alguna manera la aleatoriedad o azar. se puede desarrollar algún modelo que brinde una descripción probabilística de la misma. o intervalos de valores..1: Definición de variable aleatoria.. el cual tendrá además implícito un grupo de condiciones que debe cumplir la variable.

x1 < x2 ⇒ P(x1 < x ≤ x2) = F(x2) ..f (x) ≥ 0 2.) FUNCIÓN DE DISTRIBUCIÓN: Existe otra función que está íntimamente relacionada con las funciones de probabilidad. Para que sea una función de probabilidad. la cual se denomina función de distribución o función de acumulación probabilística.. x1 ≤ x2 ⇒ F(x1) ≤ F(x2) (Es decir.. Para que sea una función de probabilidad. si la función de probabilidad [f(x)] es continua se le denomina función de densidad.. quiere decir que: F(xk) = P(X ≤ Xk) Toda función de distribución cumple las siguientes propiedades: 1. matemáticamente. es decir.f (x) ≥ 0 2. en el caso continuo no importa si las desigualdades son estrictas o no.P (X = Xk) = 0 Esta última propiedad nos indica que para variables continuas la probabilidad de tomar un valor puntual es nula. y muchos autores la representan entonces como p(x). la función de densidad. no aporta probabilidad.F(x1) Para las funciones de distribución correspondientes a variables discretas. debe cumplir las siguientes propiedades: 1. 0 ≤ F(x) ≤ 1 4. deben cumplirse las siguientes propiedades: Xmax 1. se cumple que: F( x k ) = Xmin Xk ∑ f(x ) i Y de la quinta propiedad general citada se deriva. pues da igual: un punto por sí mismo no influye. que: 42 .) 5. lim F( x ) = 1 X→ ∞ 3. y esto conlleva que para las variables continuas se cumpla lo siguiente: ∫ f ( x )dx = P(a ≤ x ≤ b) = P(a < x ≤ b) = P(a ≤ x < b) = P(a < x < b) a b (Por tanto.P(a < x ≤ b) = f ( x )dx a ∫ b 4. Esto. es una función no decreciente. y se denota por F(x)..- Xmin ∫ f ( x)dx = 1 3. acumula las probabilidades hasta un valor dado (xk). en el caso discreto. La función de distribución recoge la probabilidad de que la variable tome valores menores o iguales al valor dado. lim F( x ) = 0 X→ − ∞ 2.Si la función de probabilidad [f(x)] es discreta también se le denomina función de cuantía.∑ f (x) = 1 Ahora bien. la función de cuantía.

F(x1) . teniendo en cuenta que la probabilidad puntual en variables continuas es nula.Propiedad f (x) ≥ 0 f (x0)= 1/10..Probabilidad de que x tome a lo sumo valor 2 Solución: a.Un determinado experimento aleatorio tiene como función de probabilidad la relación: x +1 f(x) = para x = { 0.. 3 } 10 Se pide: a...Probabilidad de que x tome por lo menos valor 1 e.f (x2) Debe mencionarse que la función de distribución es más usada en el caso de variables continuas que en el de las discretas.F(x1) + f (x1) .F(xk) P(x1 ≤ x ≤ x2) = P(x1 < x < x2) = P(x1 < x ≤ x2) = P(x1 ≤ x < x2) = F(x2) ..P(x > 1) = c. 2. con fines prácticos.P(x1 < x ≤ x2) = F(x2) . f (x3)= 4/10. Para funciones de distribución correspondientes a variables aleatorias continuas se cumple que: Xk F( x k ) = f ( x) dx Xmin ∫ y ∂ F( x ) = f(x) ∂x Además.7 x=2 3 F(x) 1/10 3/10 F(1) = 3/10 = 0.. pues para estas últimas resulta más cómodo trabajar directamente con la función de cuantía.x f (x) 0 1/10 1 2/10 ∑ f (x ) = (1+2)/10 + (1+3)/10 = 3/10 + 4/10 = 7/10=0. 1. por tanto f (x) > 0 Propiedad que la suma de f (x) desde 0 a 3 = 1 f (x)= 1/10[(1+0)+(1+1)+(1+2)+(1+3)] = 10/10 = 1 b.F(1) d.Verificar las propiedades de f(x) b.F(x1) Ejemplos: 1.F(x1) P(x1 ≤ x ≤ x2) = F(x2) .P(x >1) c. de la quinta propiedad general citada se deriva para este caso. f (x1)= 2/10..3 esto nos indica que x es menor ó igual a 1. f (x2)= 3/10. lo siguiente: P(x ≤ xk) = P(x < xk) = F(xk) P(x ≥ xk) = P(x > xk) = 1 . 43 ..F(x1) + f (x1) P(x1 < x < x2) = F(x2) ..f (x2) P(x1 ≤ x < x2) = F(x2) .

.6 x=0 2 También se podría hacer sumando en vez de por el complemento: = 1/10[(1+0) + (1+1) + (1+2)] = = 1/10 (1 + 2 + 3) = 6/10 = 0..Halle F(x) f.P(x = 3) e..P(x ≤ 2) = ∑ f (x) = 1 .1/10 = 9/10 = 0.9 e..55 d.(6 + 4)] = 1/18(3xk + x2k ..10) = 8/18 = 4/9 = 0.F(x) = 1/18 ∫ (3 + 2 x)dx 2 = 1 / 18(3x + 2x 2 / 2] = [(3xk + x 2 k ) .44 c..f (x = 3) = 1 ..(6+4)] 2 2 4 = 1/18 (28 .f (x = 0) = 1 . sumando. d.6 2..4/10 = 6/10 = 0.2 3/10 6/10 3 4/10 10/10 Nota: Como se ve..P(x ≥ 3)=1/18 ∫ (3 + 2 x)dx 3 4 = 1 / 18(3x + 2x 2 / 2] = 1 / 18[(12 + 16) ..Verifique si se cumplen las propiedades de f (x) b.9 x=1 3 También se podría hacer.[1/18(4+6-10) ] 44 .P(x ≥ 3) d.P(x < 3)= 1/18 ∫ (3 + 2 x)dx 2 3 = 1 / 18(3x + 2x 2 / 2] = 1 / 18[(9 + 9) .P(x=3) = 0 xk e.f (x) = 1/18 ∫ (3 + 2x)dx = 1/18[ 3x + 2x /2 ]= 1/18[(12+16) . si la variable es discreta F(x).P(x ≥ 1) = ∑ f (x) = 1 .P(2 < x ≤ 3) = F(3) .-Sea f (x) = 1/18(3 + 2x) una función de densidad para 2 < x < 4 a..(9 + 9)] =1/18(28 -18) = 10/18 = 5/9 = 0. en vez de por el complemento: = 1/10[(1+1) + (1+2) + (1+3) ] = = 1/10 (2 + 3 + 4) = 9/10 = 0.10) = 18/18 = 1 b.10) f. es decir las frecuencias relativas acumuladas.(6 + 4)] = 1/18 (18 ..Calcule P(2 < x ≤ 3) haciendo uso de la F(x) Solución: a.10) por tanto F(x) será: F(x) = 1/18 (x2 + 3x .Calcule P(x < 3) c..F(2) = [1/18(9+9-10) ] .. se determina de la mismo que Fi.

es decir. P(xi) o f(xi). .. valor esperado o esperanza matemática. xi.La esperanza de la suma (o resta) de una constante y una variable es igual a la constante más la suma (o resta) de la esperanza de x: 45 . . y después sumando los productos resultantes. Tienen su equivalente en los estadígrafos que se utilizan para caracterizar conjuntos de observaciones o muestras. x2 .. como medida de posición.0) = 8/18 = 4/9 = 0. y la varianza como medida de dispersión. xn son variables aleatorias entonces: E ( ∑ xi ) = ∑ E (x) 4. xmin. de la siguiente forma: Xmax μ = E( x ) = Propiedades de la media o valor esperado: Xmin ∫ x f ( x) dx 1. así: μ = E (x) = ∑ x f(x) En el caso de las variables aleatorias continuas. Entre los parámetros más usados están la media. xmax. sus rasgos principales..Si x1.La esperanza del producto de una constante por una variable es igual a la constante por la esperanza de la variable: E (kx) = k E (x) 3. En el caso de las variables aleatorias discretas. y en este caso se conocen como parámetros de las variables.La esperanza de una constante es igual a la propia constante: E (k) = k 2. MEDIA O ESPERANZA MATEMÁTICA El valor medio de una variable aleatoria.. esta medida de resumen se obtiene integrando el producto de la variable x por su función de probabilidad.44 MEDIDAS NUMÉRICAS DE RESUMEN ASOCIADAS A VARIABLES ALEATORIAS: Las medidas numéricas de resumen asociadas a variables aleatorias permiten sintetizar la información de forma tal que ofrecen las características generales del fenómeno en estudio. esta medida de resumen se puede obtener multiplicando cada posible de la variable. se denomina media teórica.= 1/18(8 . hasta su valor máximo.. La media o valor esperado de una variable aleatoria se puede considerar como su promedio ponderado sobre todos los resultados posibles siendo las "ponderaciones" la probabilidad relacionada con cada uno de los resultados. por su probabilidad correspondiente. y se denota por E(x) ó μ.. El cálculo del valor esperado está en dependencia si se está trabajando con variables aleatorias discretas o continuas. desde el valor mínimo de la variable.

Si x e y son variables aleatorias independientes entonces.. es (x . y en este caso lo que está dentro del paréntesis.. Esta definición hace un tanto difícil el cálculo de la varianza. E (C1x1 + C2x2 + .μ)2 También se simboliza por σ2 (sigma al cuadrado.Si la media poblacional es igual a la esperanza de x. + Cnxn ) = C1E (x1) + C2E (x2) + .. Por lo tanto para el cálculo de la varianza para una variable aleatoria discreta sería: V(x) = ∑(x . variables y constantes es igual a la suma del producto de las "n" constantes por las esperanza de las variables. V(x) = E (x2) . entonces la esperanza de las desviaciones con respecto a la media es igual a cero: E (x .La varianza de una variable es igual o mayor que cero: 2.. ya que como se dijo anteriormente en el cálculo de la esperanza. la esperanza del producto de "x" e "y" es igual al producto de la esperanza de "x" y de la esperanza de "y": E (xy) = E (x) E (y) 7.La varianza de una constante es igual a cero: V(k) = 0 V(x) ≥ 0 46 ..μ)= 0 6.... al cuadrado: V(x) = E (x .μ)2. + CnE (xn) VARIANZA La varianza es igual a la esperanza de las desviaciones con respecto a la media. la variable.E (k ± x) = k ± E (x) 5.μ)2 f(x) Y en el caso de variables aleatorias continuas sería: x max V( x ) = x min ∫ ( x − μ) 2 f ( x )dx Haciendo transformaciones matemáticas se puede llegar a obtener una fórmula de cálculo para la varianza que es mucho más cómoda. es lo que está dentro del paréntesis.La esperanza del producto de la suma de n. letra griega)..[E (x)]2 en el caso de la variable discreta la: xn E(x ) = ∑ x f (x) y en el caso de variables continua E(x )= Propiedades de la varianza: 2 2 2 ∫x 2 f ( x )dx x1 1.

..... porque la variable toma valores definidos: 1.La varianza de la suma del producto de "n" variables por "n" constantes es igual a la suma del producto de las "n" constantes al cuadrado por las varianzas de las variables: V(C1 x1 + C2 x2 + ... 2. En este caso es discreta..¿Cuál será el valor de la varianza de x? b.La varianza del producto de una constante por una variable es igual a la constante al cuadrado por la varianza de la variable: V(kx) = k2 V(x) 4..La función de una variable aleatoria x.07 = 1. Solución: Primeramente se debe definir si es una variable aleatoria discreta o continua.Hallar E(x+3) c. y 4. x2 . esta dado por: x: 1 2 3 4 f(x): 1/6 1/3 1/6 1/3 Calcular el valor esperado de x y su varianza.26 Ejemplo 2.xn son variables aleatorias independientes.7.¿Cuál será el valor de V(2x)? e. + C2n V(xn) Ejemplo 1. que se pueden tabular: x: f(x): x f(x) x2 f(x) 1 1/6 1/6 1/6 2 1/3 2/3 4/3 3 1/6 3/6 9/6 4 1/3 4/3 16/3 Entonces: E (x)= μ = ∑ x f (x) = 1/6 + 2/3 + 3/6 + 4/6 = (1+4+3+8)/6 = 16/6 = 2.33 V(x)= E(x2) . entonces la varianza de la suma de "n" variables es igual a la suma de las varianza de las variables: V(∑ xi) = ∑ V(xi) 6.Hallar E(2x2) d.[E(x)]2 = 8.[E(x)]2 E(x2) = ∑x2 f (x) = 1/6 + 4/3 + 9/6 + 16/3 = (1+ 8 + 9 + 32)/6 = 50/6 = 8. se sabe..2...66 V(x)= E(x2) . Para los cálculos se necesitarán los productos x f (x) y x2 f (x).33 .La varianza de la suma de una constante más una variable es igual a la varianza de la variable: V(k+x) = V(x) 5. ya que en dependencia del tipo de variable así será su cálculo. + Cn xn) = C 21 V(x1) + C22 V(x2) + ..662 = 8..Si x1 .¿Cuál es el valor de la desviación típica de x? 47 ... 3.Si f (x) = x/2 para 0 < x < 2 a..3. .33 .

P(x1 < x < x2) f.23) = 0.V(2x) = 22 V(x) = 4 (0. indica que es una variable continua..23 = 0..33 + 3 = 4.A partir de la definición de función de distribución como determinaría las siguientes probabilidades para una variable aleatoria discreta y para una variable aleatoria continua: a..P(x ≤ xk) b.33 a.P(x1 ≤ x ≤ x2) 48 .23 b..48 EJERCICIOS DE AUTOEVALUACIÓN 1.92 e.E( x ) = x f ( x )dx = ⎜ 3 ⎟ 20 2⎝ ⎠ 2⎝3 ⎠ 6 3 0 ∫ 2 2 ∫ 0 2 1 3 1 ⎛ x4 E( x ) = x f ( x )dx = x dx = ⎜ 20 2⎜ 4 ⎝ 0 2 ∫ 2 2 ∫ ⎞ 1 16 ⎞ 16 ⎟ = ⎛ − 0⎟ = =2 ⎜ ⎟ ⎠ 8 ⎠0 2⎝ 4 2 V(x) = E (x2) ..1.¿Qué entiende por variable aleatoria? ¿A qué se denomina función de probabilidad? ¿Cómo se denomina a la función de probabilidad de una variable aleatoria discreta y cómo a la de una variable continua? ¿Cómo se define la función de distribución? 2..Solución: ¿Qué tipo de variable es esta? La forma de presentar el recorrido de la variable x..σ = σ 2 = 0..E(2x2) = 2 E(x2) = 2 ⋅ 2 = 4 d....P(x1 ≤ x < x2) d..332 = 2 .77 = 0.[E (x)]2 = 2 .P(x > xk) c.P(x1< x ≤ x2) e.E(x+3) = E (x) + 3 = 1.33 c.1. 2 1 2 1 ⎛ x3 ⎞ 1⎛8 ⎞ 8 4 x dx = ⎜ ⎟ = ⎜ − 0 ⎟ = = = 1..

o independientes. binomial negativa.Función de Probabilidad: f ( x ) = ⎜ ⎟ p x qn− x ⎜x⎟ ⎝ ⎠ ó f ( x) = n! p x qn − x x! (n − x )! 49 . Las pruebas son independientes. geométrica. 2.2: Distribución binomial: características y uso. . Distribución de Poisson: características y uso. binomial. denominadas éxito (ocurrencia del suceso de interés) y fracaso (no ocurrencia del suceso). n 2. 1. . siendo q= 1 .. X = 0..Características: Se realizan "n" pruebas (número finito de observaciones). La probabilidad de éxito es constante de una observación a otra (p) (igualmente lo será entonces la probabilidad complementaria del fracaso (q). Entre las distribuciones probabilísticas más usadas asociadas a variables aleatorias discretas cabe citar las siguientes: Bernoulli.3. Sin embargo existen con frecuencia experimentos de carácter repetitivos en que interesa registrar la ocurrencia o no ocurrencia de un suceso. 1. hipergeométrica y Poisson DISTRIBUCIÓN BINOMIAL La distribución Binomial es una de las distribuciones discretas más utilizadas.Definición de la variable: X: cantidad de éxitos (veces que ocurre un suceso de interés) en n pruebas. Su nombre se debe a la relación que tiene la misma con el desarrollo del binomio: (p + q)n = ∑ x =0 n C n p x qn − x ≡ x ∑ ⎛ n ⎞ x n− x ⎜ ⎟p q ≡ ⎜ ⎟ x =0 ⎝ x ⎠ n ∑ x!(n − x )! p q x =0 n n! x n− x ⎛n⎞ Donde el símbolos Cn y ⎜ ⎟ son equivalentes y se leen “combinatoria de n con x”.p ⎛n⎞ 3.. siendo: x ⎜x⎟ ⎝ ⎠ ⎛n⎞ n! Cn ≡ ⎜ ⎟ = x ⎜ x ⎟ x! (n − x )! ⎝ ⎠ La distribución binomial está relacionada con la distribución de Bernoulli. El resultado de cada observación se puede clasificar en una de dos categorías mutuamente excluyentes y colectivamente exhaustiva.. Distribución Binomial: Antecedentes: Los experimentos son con reposición.. que es la distribución de una variable aleatoria que toma solamente valores cero y uno (fracaso y éxito) al realizar una única observación y verificar si ocurrió o no un suceso de interés.

. pueden llegar a ser muy laboriosos.EN LA EDUCACION.Forma: Una distribución binomial puede ser simétrica o asimétrica (sesgada). y un fragmento de estas tablas puede consultarse en la Selección de tablas estadísticas.EN JUEGOS DE AZAR. ¿Qué probabilidad tiene un estudiante de aprobar un examen de 5 preguntas de opción múltiple (cada una de ellas contiene 4 opciones) si adivina en cada pregunta? (Aprobar se define como lograr correcto el 60% de las preguntas. Sin embargo. si en realidad los cambios de precios en el mercado accionario son aleatorios? Los cálculos de probabilidad a partir de la función.5. la distribución binomial será simétrica.[E(x)]2 = npq 6.Función de Distribución: F( x k ) = 5.5 y mayor sea el número de observaciones “n”... La tabla de la binomial tiene en la primera fila los valores de “p”. en la primera columna los valores de “n” y en la segunda columna los valores de x.EN EL CONTROL DE LA CALIDAD DE UN PRODUCTO. y cada vez que se especifican estos parámetros se tiene un caso particular de distribución binomial.Representación: X ∼ B (n. con una “p” pequeña la distribución tendrá un gran sesgo a la derecha y para una “p” muy grande la distribución tendría un gran sesgo a la izquierda. pero están representados en ella por una k. en una base diaria durante 10 sesiones (consecutivas) de operaciones. por otra parte. si el 10% de todos los conos de hilo producido en cierta planta son defectuosos? . es decir. la distribución será sesgada. ¿Qué probabilidad hay de que.. La notación anterior se lee: X sigue una distribución binomial con parámetros n y p. 7. 50 . como: . al tirar un dado 10 veces salga el 6 al menos cinco veces? .5. en especial cuando aumenta “n”. acertar por lo menos 3 preguntas) . Siempre que p = 0. ¿Qué probabilidad hay de que en una muestra de 20 conos de hilo del mismo tipo ninguno está‚ defectuoso.EN LAS FINANZAS. ¿Cuál es la probabilidad de que cierta acción mostrar un aumento en su precio al cierre. Cuanto más cerca se encuentre “p” de 0. sin tomar en cuenta que tan grande o pequeño sea el valor de “n”. por ello se han desarrollado tablas con los valores de esta distribución para diferentes combinaciones de n y p. p) La distribución binomial queda definida por dos parámetros: "n" y "p". La distribución BINOMIAL ha sido utilizada en numerosas aplicaciones.4. cuando “p” es diferente de 0. menos sesgada será la distribución.Parámetros: n ∑ f ( x) x min xk μ = E(x) = ∑ xf( x ) = np x =0 σ2 = V(x) = E(x2) .

.2550. al ser p > 0. esta se obtiene donde se interceptan el valor de p = 0. ya que: ... y hay casos en que. 51 .p es constante (el 5% de los trabajadores son ausentistas). para la cual de éxito es la “q”. .15 y se quiere obtener la probabilidad de un éxito.. . o sea. d. Calcule la probabilidad que: a. sería necesario redefinir el cálculo en términos de la variable complementaria (el fracaso). Si se quiere tener el resultado de la probabilidad se combinan los valores de n y p y dentro de ellos se busca el valor de x que se necesita digamos que se tiene una distribución binomial donde n = 2 y p = 0. En la industria rayonera de Matanzas se está realizando una investigación acerca de la disciplina laboral.2 de ellos sean ausentistas. P(x = 1). si se selecciona una muestra aleatoria de 5 trabajadores.15 y x = 1 (dentro de n = 2). b. que en este caso es igual a 0. Ejemplo 1.al menos 4 sean ausentistas Solución Aquí se puede observar que la distribución binomial se ajusta.el resultado se puede clasificar en éxito y fracaso (ausentistas y no ausentistas respectivamente) . y buscar entonces en la tabla los valores equivalentes de x (esto se verá concretamente en un ejemplo). es decir que un obrero sea ausentista es independiente de que otro lo sea.de que todos asistan. c.Sin embargo debe tenerse en cuenta que no están todos y cada uno de los valores de “p” que se necesitan.entre 3 y 5 sea ausentistas.5.las pruebas son independientes. Las estadísticas demuestran que el 5% de los obreros son ausentistas.n es finito (se analizarán 5 trabajadores).

Por tanto puedo decir que X ∼ B(5 ; 0,05) X: número de obreros ausentistas de 5 5 a.- P (x = 2) = f(2) = C 2 0.05 2 0.95 3 = 10(0.0025)(0.8574) = 0.0214 5! 5 ⋅ 4 ⋅ 3! n! ya que C n = = C5 = = = 10 x 2 (n − x )! x! 3! ⋅ 2! 2 ⋅ 1⋅ 3! Sin embargo esto se resuelve muy fácil utilizando la tabla, buscando para n = 5, y para una p = 0.05 y dentro de ellos x = 2 donde se interceptan se obtiene este valor encontrado, es decir 0.0214. Luego, podemos concluir que únicamente será necesario hacer el cálculo a través de la función de probabilidad cuando no exista en la tabla la probabilidad de éxito que se tiene (p) b.- P(3 ≤ x ≤ 5) = f(3) + f(4) + f(5) = 0.011 + 0 + 0 =0.011 c.- P (x=0) = f(0) = 0.7738 d.- P (x ≥ 4) = f (4) + f (5) = 0 + 0 = 0 También si no se tuviese la tabla habría que sustituir en la función de probabilidad los valores y resolverla.
Ejemplo 2. La probabilidad de que un avión de combate regrese de una misión sin sufrir daños es de 0.85 y se envían 4 aviones a una misión, hallar la probabilidad de que: a.- De 2 a 4 regresen sin sufrir averías. b.- Al menos 3 regresen sin sufrir daños. c.- A lo sumo dos regresen sin sufrir daños. d.- Probabilidad de que todos regresen dañados. e.- ¿Cuál es el promedio de aviones que no debe sufrir daños? Solución: X: número de aviones de combate que regresan sin sufrir daños. X ∼ B(n ; p) n = 4 p = 0.85 q = 0.15.

Como en la tabla no está p = 0.85 > 0.5 habría que usar la función y sustituir los valores en ella para calcular las probabilidades deseadas. No obstante, se puede utilizar la variable complementaria de X y replantear los cálculos en términos de esto, con la equivalencia adecuada entre X y X’.
X’: # de aviones de combate que regresan dañados n=4 px’ = qx = 0.15

Para buscar la equivalencia entre lo que pide el problema y como se tiene expresada la variable se puede hacer una tabla que ayude a ver claramente lo que se va a calcular. Aviones sin sufrir daños (x): 0 1 2 3 4 4 3 2 1 0 Aviones con daños (x’): Que regrese 1 avión sin sufrir daño es lo mismo que decir que regresen 3 dañados; que regresen 3 aviones sin sufrir daños es lo mismo que decir que regrese 1 avión dañado… O sea, se busca la equivalencia entre la variable original y su complemento.
52

a.- P(2 ≤ x ≤ 4) ≡ P(x’ ≤ 2) = f (0) + f (1) + f (2) = 0.5220 + 0.3685 + 0.0975 = 0.9880 b.- P(x ≥ 3) ≡ P(x’ ≤ 1) = f (0) + f (1) = 0.5220 + 0.3685 = 0.8905 c.- P(x ≤2) ≡ P(x’ ≥ 2) = f(2) + f(3) + f(4) = 0.0975 + 0.0115 + 0.0005 = 0.1095 d.- P(x’ = 4) = 0.005 (Esta pregunta está realizada directamente en términos de la variable complementaria, de ahí que no haya que buscar equivalencia.) e.- np = 4(0,85) = 3.4 = μ npq = 0.85(0.15)(4) = 0.1275(4) = 0.51 = σ2

DISTRIBUCIÓN DE POISSON
Esta distribución se refiere a aquellas situaciones en las cuales el suceso ocurre repetidamente, pero al azar, es decir sin seguir una periodicidad dada, se produce aleatoriamente. A la ocurrencia del suceso se le denomina cambio. Estos cambios pueden ocurrir en el tiempo, o en puntos aleatorios, o en una línea de espera; es decir pueden formularse en función del tiempo, unidades de longitud, área o volumen etc.. El interés estará centrado en: número de cambios que ocurren en un intervalo dado. Ejemplos: Número de barcos que llegan al puerto de la Habana en una semana; número de negocios que cierran, por semana, en Ciudad de la Habana.
1.- Definición de la variable:

X: cantidad de cambios u ocurrencias aleatorias que se producen en un intervalo (t ó I) de otra variable X : 0, 1, 2, ..., ∞
2.- Características: Sin antecedentes, importancia para su uso en programación Matemática.

- Los cambios u ocurrencias observados son independientes entre sí. - El promedio de ocurrencias o cambios en intervalos de tamaño fijo es constante (λ) (rapidez de cambio constante en el tiempo o en el espacio) - La probabilidad de observar dos o más cambios ó éxitos en un intervalo suficientemente pequeño es cero.
3.- Función de probabilidad: f ( x ) =

e − λ λx x!

λ es el promedio (histórico) de cambios en un intervalo unitario "t ó I" e es la constante de Euler (2.71828)
4.- Función de Distribución: F( x k ) =

∑ f (x)
x min

xk

53

5.- Parámetros: μ =λ Coinciden numéricamente aunque por supuesto μ está expresada en σ2 = λ unidades lineales y σ2 en unidades cuadráticas. 6.- Simbólicamente se expresa como: X ∼ P ( λ)

Esta distribución queda definida por un solo parámetro, “λ” .
Forma: La distribución de Poisson estará sesgada hacia la derecha cuando λ es pequeña. Se acercará a la simetría (con su punto más alto en el centro) según aumente λ. Ejemplos: Supóngase que se estudian las llamadas recibidas por hora en una central telefónica. Cualquier llamada que se reciba es un evento discreto en un punto dado durante un intervalo continuo de una hora. En una hora se recibirán 180 llamadas como promedio. Ahora si se dividiera el intervalo de una hora en 3600 intervalos consecutivos de un segundo, se tendría:

λ = 180/3600 = 0.05/segundos 1.- La cantidad esperada (o promedio) de llamadas recibidas en cualquier intervalo de un segundo sería 0.05, es decir sería estable. 2.- La probabilidad de recibir más de una llamada en cualquier intervalo de una fracción de segundo es cero. 3.- Recibir una llamada en un segundo dado no tiene efecto (o sea, es estadísticamente independiente) sobre recibir otra llamada en cualquier otro intervalo de un segundo. De la misma forma que para la distribución binomial, la distribución de Poisson se encuentra tabulada, encontrándose su tabla en la Selección de Tablas estadísticas. La tabla de la Poisson tiene en la primera fila los valores de λ, y en la primera columna los valores de x designados en esta tabla por k. En ella aparecen grupos de valores para valores de λ desde 0.1 hasta 8, estando estos grupos definidos hasta donde "x" puede tomar valores, proporciona los valores de λ con aproximación hasta la décima. Se debe señalar que para cálculos con valores de λ mayores de 8 se puede acudir a la tabla de la función exponencial, en la columna de exponentes negativos (e-x), que está en la página 20 de la Selección de tablas estadísticas; y sustituir luego en la fórmula de la función de Poisson el valor correspondiente.

54

Ejemplo 1 Una pizarra telefónica recibe 480 llamadas en una hora. pero no puede recibir más de 12 llamadas en un minuto.La probabilidad de que se produzcan a lo sumo 1 llamada en un minuto dado. b.La probabilidad de que se produzcan más de 2 llamadas en un minuto..La probabilidad de que la pizarra quede saturada en medio minuto (30 segundos).. c. en este caso pasar de llamadas por hora a llamadas por minuto.. pues si no coincide con el 55 . Solución: x: # de llamadas que se reciben en un minuto λ0 = 480 llamadas/hora (promedio histórico conocido) Nota: Para los cálculos posteriores se debe convertir el promedio conocido a las mismas unidades de los intervalos de interés..El número de llamadas esperadas en cinco minutos.La probabilidad de que se produzcan 10 llamadas en un minuto. Determine: a. λ0 = 480 llamadas/hora = 480 llamadas / 60 minutos = 8 llamadas/min Nota: para cada cálculo de probabilidades que interese se debe atender también al intervalo (I) en el que se efectúa el conteo de ocurrencias. d. e..

.0027 + 0. I = 1 min (por tanto λ = λ0 = 8 ) P(x ≤ 1) = f (0) + f (1) = 0.Hallar el valor de λ b. I = 1 min (por tanto λ = λ0 = 8 ). porque como la pizarra no puede recibir más de 12 llamadas en un minuto. c. basta con encontrar qué valor de λ cumple que e-λ=0.00674.0. lo cual se hace multiplicando el tamaño del intervalo por el promedio histórico.0137 = 0. debe estar en la derecha. si la igualdad está en la parte izquierda de la expresión no debe estar en la derecha.0993 b.00674 Se pide: a. I = ½ min (por tanto λ = λ0/2 = 4 ).intervalo asociado al promedio histórico.. por tanto NUNCA SE PUEDE CALCULAR DIRECTAMENTE P(x > Xk) ni P(x ≥ Xk).P(x ≤ 12) = 1 .0003 + 0.[f (0)+ f (1)+ f (2)] = 1 – (0. sino que siempre en estos casos hay que trabajar con el complemento. Y al hacer esto. Lo buscado ahora es P(x > 12).Se sabe que f (0) = e − λ λ0 0! Pero: λ0 = 1 y 0! = 1 (por propiedad del factorial).0030 + 0. P(x >12) = 1 .. I = 1 min (por tanto λ = λ0 = 8 ) P(x > 2) = 1 .0027 = 0.I = 1. Por tanto: f(0) = e-λ Entonces. y lo buscado es: P(x =10) = f (10) = 0.5 ⋅ 5 = 7..5 I0.0006 56 .9860 e.0003 Nota: Se debe tener en cuenta que en la distribución de Poisson "x" toma valores desde 0 hasta infinito.[ P(x=0) + P(x=1) + P(x=2) + P(x=3) +. Y se obtiene que e-5 = 0. y si la igualdad no está en la parte izquierda. Solución: a. es necesario calcular el promedio (λ) correspondiente a dicho intervalo.0107) = 1 – 0. quedaría saturada si recibe más de 12..00674 (para ello se puede usar la tabla de e-x que está en la página 20 de la selección de tablas estadísticas).5 λ0 = 1..5 veces el original.0030 d.5 P(X = 0) = f (0) = 0. que es su complemento. lo que implica que λ = 5. por tanto λ = 1..9997 = 0. a. b. en un intervalo 1.Calcular la probabilidad de que X = 0 ..P(x ≤ 2 ) = 1 . I = 5 min (por tanto λ = 5λ0 = 40 ) μ = λ = 40 llamadas Ejemplo 2 Sea una distribución de Poisson donde f (0) = 0. cualquiera sea Xk.. + P(x =12) ] = 1 .

¿Cuantas veces se puede esperar que funcione en forma apropiada la impresora principal? 4.4.dos ó tres automóviles para tomar gasolina? e.. y cuál es su recorrido? ¿Cuales son las características de una distribución de Poisson? ¿Qué parámetros definen la distribución de Poisson? ¿Qué representa λ en la distribución de Poisson? ¿Cuál es la media y la varianza en la distribución de Poisson? 3.2.3.¿Cuál es la probabilidad de que la impresora principal funcione en forma apropiada..por lo menos nueve veces? a...1.. Si se hace una muestra aleatoria de 10 inspecciones: a.¿Qué expresa la variable X en una distribución de Poisson.menos de 9 veces? b.EJERCICIOS DE AUTOEVALUACIÓN 1.cuando más 9 veces? a. y cuál es su recorrido? ¿Cuales son las características de la distribución binomial? ¿Qué parámetros la definen? ¿Cuál es su media y cuál su varianza? 2...al menos dos automóviles? 57 .más de 9 veces? a...menos de dos automóviles? b.menos de dos automóviles ó más de tres? d. ¿Cuál es la probabilidad de qué en determinado minuto se detengan...El número promedio de automóviles que se detienen por minuto para tomar gasolina en cierta gasolinera perteneciente a CUPET de Ciudad de la Habana es 1..exactamente nueve veces? a..5... la impresora principal del centro de cómputo de cierta universidad funciona adecuadamente el 90% del tiempo.¿Qué expresa la variable X en una distribución binomial..2.. a..más de tres automóviles? c..Sobre la base de la experiencia anterior.. a.

σ .. las que surgen por algún proceso de medición en diversos fenómenos de interés o como transformaciones de otras variables. t’Student y F de Fisher. 1.. DISTRIBUCIÓN NORMAL O DE GAUSS Muchas de las técnicas utilizadas en estadística aplicada se basan en la distribución Normal o de Gauss.F(X) P(a < X ≤ b) = F(b) . lo que se recoge en tablas son valores de la función de distribución (F).F(a) (No obstante. Los modelos continuos tienen aplicaciones importantes en los negocios y en las ciencias sociales. exponencial. normal.Es simétrica con respecto a X = μ . Distribución t de Student. o si es > ó ≥.Tiene dos puntos de inflexión en μ +σ y μ .) Para aquellas distribuciones continuas de amplio uso.71828 y π =3. además de en la Ingeniería y la Física.14159 3. Luego de estudiar dos distribuciones de probabilidad discreta se prestará atención a las funciones continuas de densidad de probabilidad. Entre las distribuciones probabilísticas más usadas con variables aleatorias continuas cabe citar las siguientes: uniforme. Distribución F de Fisher.FUNCION DE DISTRIBUCIÓN F( x k ) = ∫ xk −∞ f ( x )dx 58 .La función está definida en todo el eje X .3.Tiene la forma de una campana boca a bajo.FUNCION DE PROBABILIDAD 1 σ 2π 1⎛ x− μ ⎞ − ⎜ ⎟ 2⎝ σ ⎠ 2 f ( x) = e Donde: e = 2.CARACTERISTICAS: .La función tiene un máximo en X = μ = Me = Md . en variables continuas no hay diferencia si el signo es < ó ≤..3: Distribución normal o de Gauss. chi-cuadrado. ya que la probabilidad de un valor puntual es nula. Distribución chi-cuadrado. En las distribuciones continuas tiene una marcada importancia la función de distribución ya que a partir de sus propiedades es factible calcular fácilmente probabilidades.Su variable aleatoria asociada tiene rango infinito (− ∞ < Χ < ∞ ) 2. así: P(X ≤ Xk) = F(X) P(X > Xk) = 1 . .

. y así se tendría la posibilidad de tabular los resultados. es decir cualquier variable aleatoria normal X. Toda distribución normal con media μ y desviación típica σ tiene la característica de tener el área bajo la curva de su función de densidad. P(μ −2σ < Χ < μ+2σ) = 95. Pues bien Z ∼ N (0 .73% del área bajo la curva normal A estas tres expresiones se les llaman comúnmente “reglas de las 3 sigmas”. Como es una variable continua para calcular probabilidad se tendría que integrar la función de X. en el intervalo que se quiere hallar la probabilidad. habrá tantas curvas normales como valores o combinaciones particulares de μ y σ haya. 5.45% del área bajo la curva normal 3. se convierte en una variable aleatoria estandarizada "Z" que siempre tendría como media cero y desviación típica 1. 1) y su función de probabilidad es: f ( z ) = Donde: Z = x−μ σ 1 2π 1 − Z2 2 e 59 .. distribuida de la siguiente forma: 1.REPRESENTACION X ∼ Ν(μ.PARAMETROS: La media en esta distribución es μ y la varianza es σ2 por lo que la misma queda definida por estos dos parámetros ya que "e" y " π " son constantes matemáticas. P(μ −3σ < Χ < μ+3σ) = 99.27% del área bajo la curva normal 2. σ) Por lo tanto. P(μ −σ < Χ < μ+σ) = 68.4. La única forma de hacer una tabla para evitar este cálculo sería estandarizando la variable.

hasta la aproximación de la décima y en la primera fila la aproximación de la centésima. la tabla aparece estructurada de manera que en una primera mitad aparecen los valores de Z negativos. En el folleto de selección de tablas estadísticas. independientemente del signo de Z. es decir la probabilidad acumula desde menos infinito (-∞) hasta el valor de Z que se busca. o sea los correspondientes a la cola izquierda de la distribución. correspondientes a la cola derecha. Como se dijo anteriormente en esta tabla están registrados los valores de la función de distribución. no obstante. dichas probabilidades están en el cuerpo de la tabla. será positivo.La estructura de la tabla normal es la siguiente: En la primera columna se tienen los valores de Z. que cualquier valor de probabilidad. y en una segunda mitad se presentan los valores de Z positivos. 60 . Nota: Queda claro. por tanto son valores acumulados.

9959.50 Esto no hay ni que buscarlo en la tabla porque el área bajo la curva es 1 por tanto de la mitad al final de la distribución será la mitad.82.1) = 0.4) . hallar: a.5) = P(Z < (23...5) e.P(Z < -2.P(X < 25) d.P(X > 23) = 0.0047 = 0. Ejemplo 1: (Ejercicio 324.0. a..5/5) = P(Z < 0. es decir.50 d. lo que indica que una variable Z tiene un 99..P(Z < -13/5) = 1 . esa es la probabilidad de que la variable Z tome algún valor entre menos infinito y Zk = -2..9953 c.50) pero además.P(X < 20) c. (0.6) = 1 .23)/5) = P(Z < 0.P(25 < X < 30) b. para Zk= 2.5 ..0024. y buscando Z=0 daría también Fz(0) = 0.82 la probabilidad acumulada es 0.1) = Fz(0.P(X < 10)= 1 . y por tanto la desviación típica para la variable es σ = 5. se debe observar que se conoce la varianza (σ2 = 25).P(X < 23.P(Z < (10-23)/5)= 1 .64.P(8 < X < 21) = P[(8-23)/5 < Z < (21-23)/5]= P(-15/5 < Z < -2/5)= = P(-3 < Z < -0.Fz(-2.P(8 < X < 21) Solución: Ante todo...5398 b.P(X > 10) = 1 . en este punto "Z" es igual a cero.Así para una Zk = -2. página 223 del Laboratorio) En una distribución normal con μ = 23 y σ2 = 25.4)= Fz(-0.64 la probabilidad acumulada es 0.Fz(-3) = 61 ..6) = 1 .59% de tomar algún valor menor o igual a 2.P(X > 10) f.P(X < 23. Igualmente..P(X >23) g..

5).5) = Fz(-2.3446 . o sea.4) = Fz(1. siendo el peso promedio de 15 onzas con una desviación típica de 0. a) ¿Qué probabilidad hay de que una caja tenga un peso neto inferior a 13 onzas? b) ¿Qué proporción de las cajas tendrá pesos netos superiores a 16 onzas? c) ¿Qué proporción de las cajas tendrá pesos netos entre 15 y 16 onzas? d) ¿Cuál es el peso máximo del 20% de las cajas menos pesadas? e) ¿Cuál es el peso mínimo del 10% de las cajas más pesadas? Solución: Sea X el peso neto de las cajas de talco: X ∼ N (15 .8) = P(Z > 1.0.25) = 1 . página 226.8) Al tratarse de una variable con distribución normal.4) = 0. 62 .9192 .4) = = 0.0062 En este caso.25) = 1 – 0.6554 Ejemplo 2: (Variante del problema 332.6) = = Fz(-0. b) P(X > 16) = P(Z > (16 -15)/0.6% de las cajas tendrá pesos netos mayores de 16 onzas. que es la que brinda la tabla.P(X < 25) = P(Z < (25-23)/5) = P(Z < 2/5) = P(Z < 0.8944 = 0.Fz(0.P(25 < X < 30) = P[(25-23)/5 < Z < (30-23)/5]= P(2/5 < Z < 7/5)= = P(0. del Laboratorio) El llenado de las cajas de talco en la fábrica de una empresa de perfumería se hace automatizadamente. restando a la probabilidad bajo toda la curva (que es 1) la acumulada hasta el punto zk.2638 f.4) . se debe estandarizar la misma en cada cálculo para hacer uso de la tabla. a) P(X < 13) = P(Z < (13 .2743 g.P(X < 20) = P(Z < (20-23)/5) = P(Z < -3/5) = P(Z < -0.25).1056 (El 10.6554 = 0. al tratarse de la probabilidad acumulada hasta un punto (z=-2.0013 = 0.3433 e.) Aquí. el resultado se debe calcular usando la regla del complemento.25)= 1 .0..15)/0. al tratarse de la probabilidad por encima de un punto (zk=1.5) = 0.P(Z ≤ 1. de forma que el peso neto de las cajas se distribuye normalmente. 0.= 0.8) = P(Z < -2..4 < Z < 1.8 onzas.Fz(1.. el resultado es directamente el valor que aparece en la tabla para la z.6) = 0.4) = = Fz(0.

d) Para resolver esto lo primero es ubicar las cajas menos pesadas. y de su encabezado de fila y columna se llega a que: Zk = Z0. al tratarse de la probabilidad en un intervalo.672 = 14. el resultado se debe calcular como la diferencia de lo acumulado hasta el límite superior (z=1.20 = -0.84 ⋅ 0. Encontrar mediante la tabla el valor de Z que acumula un 20% de probabilidad implica buscar en el interior de la misma el número más cercano a 0.25) .2005).20 (que es 0. y de ellas importa las que representan el 10% del total. que son aquellas ubicadas en la cola o extremo izquierdo de la curva. e) Ahora interesan las cajas más pesadas. que son las ubicadas en la cola o extremo derecho de la curva.8944 – 0.20 Entonces. Debe destacarse aquí que la probabilidad acumulada hasta el extremo inferior no era necesario calcularla. De ellas interesan las que representan el 20% del total.328 onzas.25) menos lo acumulado hasta el límite inferior (z=0). y se quiere determinar el peso (Xk) que acota superiormente a ese 20% de cajas.20 Con esto se quiere decir que es el valor de de una variable Z que ha acumulado un 20% de probabilidad. se quiere 63 .c) P(15 < X < 16) = P[(15 -15)/0. ó z=0 para la variable estandarizada).5 = 0.25) = Fz(1. que el peso máximo para el 20% de las cajas menos pesadas es de 14.8 < Z < (16 -15)/0.20 Y una forma de representar ese valor Zk es: Zk = Z0.328 Se concluye. O sea.84 x−μ Conocido el valor Zk se puede hallar Xk. y conociendo que la distribución normal es simétrica respecto a su media se deduce que hasta el punto X=μ (z=0) se acumula un 50% de probabilidad.8] = P(0 < Z < 1.Fz(0) = 0. pues dicho extremo coincide con el valor de la media de la variable (μ=15.4% de las cajas tendrán pesos netos entre 15 y 16 onzas. pues.) En este caso. puede plantearse que: P(X < Xk) = 0. por tanto. despejando de: Z = σ Xk = Zk σ + μ = -0.8 + 15 = 15 – 0.3944 (El 39. de la misma manera se tiene que: P(Z < Zk) = 0.

0. pues. la suma de sus cuadrados.90 Buscando en la tabla el valor de Z que acumula un 90% de probabilidad se encuentra que el valor más cercano a 0. TEOREMA CENTRAL DEL LÍMITE Hay un importante teorema asociado a la distribución normal. Si Z1.90 = 1..024 Se concluye. Zv.. al cuadrado) y donde: χ2 = Z12 + Z22 + ..10 = Z0.10 Pero esto no constituye un valor de probabilidad acumulada.024 onzas. son variables aleatorias normalmente distribuidas e independientes con media cero y varianza 1.28 Y despejando Xk: Xk = Zk σ + μ = 1. la suma y la media de estas variables tienden a una distribución normal cuando el número de variables se hace grande.8997. DISTRIBUCIÓN CHI-CUADRADO Esta distribución fue introducida por Helmert en 1876.. en el que descansa la gran importancia y el poder de aplicación de esta distribución.. o ji.90 en el interior de la misma es 0.28 ⋅ 0. y de su encabezado de fila y columna se llega a que: Zk = Z0.8 + 15 = 15 + 1.determinar el peso (Xk) que acota inferiormente a ese 10% de cajas.024 = 16..10 = 0. haciendo uso de la regla del complemento: ó: P(Z < Zk) = 1 . se representan en general por χ2 (letra griega chi. y para Zk sería. y puede plantearse que: P(X > Xk) = 0. que recibe el nombre de Teorema Central del Límite. + Z v2 A la distribución probabilística asociada a esta nueva variable se le llama distribución jicuadrado.10 Así. pues la probabilidad acumulada es la que está por debajo del punto. se tiene también que: P(Z > Zk) = 0. Este teorema establece que si se tiene un grupo de variables que siguen una misma distribución. siendo su función de densidad: 64 . Z2. que el peso mínimo para el 10% de las cajas más pesadas es de 16.90 Zk = Z1-0.

si se dice que una variable tiene n -1 grados de libertad esto indica que solo n -1 de los valores de la muestra están libre para variar. 65 . 19. o sea: χ2 ≥ 0. Se puede demostrar este concepto de la forma siguiente. ν. el quinto solo puede ser 23 para que todos sumen 100. Digamos que 4 de los valores son: 18. La distribución χ2 es asimétrica. Una variable chi cuadrado está definida para cualquier valor real positivo. ¿Cuantos valores diferentes se necesitarían conocer antes de poder obtener el resto? n X i = 100 El hecho de que n = 5 y de que X = 20 también indica que: ∑ i =1 Por lo tanto una vez que se conocen 4 valores el quinto no tendrá "libertad de variar". en el cuerpo de la tabla están los valores de la variable chi-cuadrado. y 16. Así. Caso ilustrativo: Suponga que se tiene una muestra de 5 elementos de la que se sabe que la media es igual a 20. Obsérvese que la distribución depende de un sólo parámetro: los grados de libertad.2) Cuando ν (nu) es grande (ν > 30) la distribución χ2 se puede aproximar a la distribución normal. Estructura de la tabla: Tabla limitada para algunos valores de los grados de libertad.f ( x ) = Kν χ (ν − 2 )/ 2 e -x/2 y ƒ(x ) = 0 Cuando x > 0 cuando x ≤ 0 En esta función ν (nu). puesto que la suma tiene que ser 100. y tiene como μ = ν y σ2 =2ν. Para ν > 2 la curva ƒ(x) de la chi-cuadrado tiene un máximo en x = (ν . xk La función de distribución viene dada por: F ( x) = ∫ f ( x)dx 0 Esta función está tabulada para distintos valores de los grados de libertad. y Kν es una constante que depende de ν. ¿Qué son los grados de libertad? Los grados de libertad constituyen la cantidad de valores independientes que admite un conjunto de observaciones a partir de determinadas condiciones que tiene que cumplir dicho conjunto. representa los llamados grados de libertad de la distribución. 24. deformada a la derecha. El área o probabilidad acumulada se encuentra en la primera fila y en la primera columna los grados de libertad.

..6) . es la probabilidad buscada.99 g.Hallar los grados de libertad que satisfacen P(χ2 > 8.80 . al subir por la columna. b.56 < χ2(17) < 16. Solución: a.6) b. la tabla brinda el área (o probabilidad acumulada) desde cero hasta un punto.7) = 0..1) = 1 .1) = 1 .9) = 0..Diga el valor de P(χ2(17) < 27.Hallar Xk si P(χ2(17) > χ2k) = 0.7 < χ2(17) < 21..6) = Fχ2(27.P(χ2(17) < 10.90 Esto se puede deducir del gráfico.P(χ2(17) < 27.10 = 0..P(5. pues lo que se quiere no es la probabilidad acumulada 66 ..Fχ2(5.Calcule la P(7.1) d.Fχ2(10. resuelva las siguientes proposiciones: a.1) = 1 .95 (por definición de F(x)) Se busca en la tabla a partir de ν = 17 el valor 27.6) = 0.6) c.8 e.005 = 0.755 c.3) f.0..6 y el valor que le corresponde en la fila superior.Halle P(5.0.6) = Fχ2(21. Ejemplo: Se conoce que una variable en estudio tiene una distribución χ2.Determinar qué valores χ21 y χ22 alrededor de χ2(21) = 20.3 forman probabilidades de áreas centrales.7 < χ2(17) < 21..Nota: Como lo que está tabulado es la función de distribución..P(χ217) > 10.Calcule P (χ2(17) >10.

30 0. d.03 χ22 23.3 8.01 y donde esté 8.90 0.Puntos χ21 y χ22 simétricos que forman un área central con χ2(21) = 20.10 0.95 0.20 0.6 10.99 ===> P(χ2 < 8. el estudio de la misma se circunscribe al manejo de la tabla. para ν>2.hasta 10. como la normal.90 0.60 0.40 0.475 f. y se busca el grado de libertad que le corresponde a este valor. g.3) = Fχ2(16.4 13.9 8..005 0.8 ===> P(χ2(17) < Xk) = 0.2 15.025 0.9 26.80 0.0..P(χ2(17) > Xk) = 0. De momento. sino de ahí en adelante.3 son: Probabilidades acumuladas F(χ21) F(χ22) 0.2 29.01 0.1. o sea: -∞ < t < ∞ En esta distribución μ = 0 y σ2 = ν/(ν-2).05 0.5 38. muy utilizada en la teoría de muestras pequeñas.70 0.9) = 0. con la que se trabajará en el campo de la inferencia.20 por tanto Xk = 12 e. que serán los mismos que caractericen a la variable t.01 por tanto ν = 21 Esto se obtiene recorriendo los valores de χ20. por lo que se puede utilizar la regla del complemento.995 Probabilidad central χ21 17.9 31. ya que su aplicación se verá posteriormente La distribución t'Student es la distribución de la variable: t = Z χ2 ν Aquí Z representa a una variable con distribución normal estándar y χ2 otra variable con distribución chi cuadrado.975 0. ν representa los grados de libertad de la chi cuadrado.9) = 0.4 0.Fχ2(7.025 = 0.80 0.P(χ2 > 8.99 DISTRIBUCIÓN T'STUDENT: Es una distribución continua de considerable importancia práctica.6 32..56) = 0.9 ó un valor próximo a él.56 < χ2(17) < 16. 67 .98 0.50 . La curva de la distribución es simétrica.P(7. La función de probabilidad es: f (t ) = Kν (1 + t / ν ) (ν +1)/ 2 2 ( Kν es una constante que depende de ν ) Una variable t está definida para cualquier valor real.7 35.2 11.99 0.3) .95 0.. pero un poco más achatada que ella.

En la práctica. 68 . tiende a la normal estandarizada (z).50 se debe utilizar la mencionada simetría. las probabilidades acumuladas por encima de 0. es decir. recogiendo probabilidades acumuladas desde .Cuando los grados de libertad aumentan la variable t se aproxima cada vez más a una distribución normal con μ = 0 y σ = 1. así. La función de distribución de la t’Student está tabulada.∞ hasta un punto. Estructura de la tabla: Está limitada para algunos valores de los grados de libertad. El área o probabilidad acumulada se encuentra en la primera fila. se suele tabular sólo valores positivos de t. y en el cuerpo de la tabla están los valores de la variable t. o lo que es lo mismo.50. dada la simetría de la distribución. si quiere hacer uso de un valor negativo de t o de alguna probabilidad acumulada inferior a 0. que están ubicados en la primera columna.

74 < t(17) < -0. se le cambia el sentido del signo de la desigualdad..07 < t(17) < 2..75 g.534) e.392) = P(t(17) < 0. Solución: a.. resuelva las siguientes proposiciones: a.70 si t(17). De la misma forma si se trabaja con las propiedades de la función de distribución y se tiene el caso de una Ft evaluada para algún valor de "t" negativo. entonces será [1 .392) c. lleva a tener que hacer algunas transformaciones cuando aparece un percentil con signo negativo.Halle tk las que P(t(17) < tk) = 0.863.863) = 0. esto no es un valor que se puede obtener directamente de la tabla. como en principio cambia la desigualdad. lo que está apoyado en la simetría de la distribución.65 Gráficamente se puede observar lo que se desea calcular como el área sombreada siguiente: Sin embargo.80 (Por definición de F(x)) Se busca en 17 grados de libertad un valor igual o próximo a 0.. es decir si se tiene que buscar un área que corresponde a la cola izquierda. en ese caso.Diga el valor de P(t(17) < .0.P(t(17) > -0. Pero utilizando la simetría de la distribución se tiene un área equivalente: 69 .9) d.Resuelva P(-1. pues no es una probabilidad acumulada.257) f..Halle P(t(17) < 0.Calcule P(-1... con distribución t'student.La razón apuntada anteriormente.Ft] (con el valor correspondiente positivo). de que la función de distribución está tabulada sólo para valores positivos de "t"..Represente gráficamente y calcule P(t(17) > -0.392) = Ft (0.863) b. b.P(t(17) < 0.Halle entre que valores t1 y t2 se encuentra una probabilidad central del 0..863) = Ft(0.392) = 0. y el valor que le corresponde en la primera fila es la probabilidad buscada. Ejemplo: Se tiene una Variable aleatoria "x". evidentemente el valor de "t" es negativo.

995 .0.257) = F(-0. se obtiene de esta forma la probabilidad buscada.30 (por propiedad de F(x)) (por ser "t" negativa) (por propiedad de F(x)) e.P(t1 < t(17) < t2) = 0.689 g.40 .P(t(17) < tk) = 0.95) = 0.0. debido a la simetría de la distribución.F(1.[1 .534) = P(t(17) > 0.74 < t(17) < -0.F(-1.845 d. c.35 f. y los 0.F(0.0.07) = F(2.F(1.05 = 0.P(-1.Y la tabla da la probabilidad acumulada desde -∞ hasta la t positiva.0.. 70 .70 = 0.9) .(1 .07 < t(17) < 2. dibujando un área central igual a 0.F(-1.534) = 1 ..257)] .P(-1.P(t(17) < -0.70.74) = [1 . DISTRIBUCIÓN “F” DE FISHER Otra de las distribuciones importantes asociadas a la normal es la que se define como el cociente de dos distribuciones χ2 independientes..0.60) ...995 .75 ====> tk = 0.534) = 1 . por tanto.0. t1 y t2.15 = 0.(1 .30 restantes se dividen para las dos colas: Buscando esta área se obtiene el valor de "t" positivo en la tabla (es decir de t2) y el valor de t1 es el mismo con signo negativo.9) = F(2.257) .7 (por ser las dos "t" negativas) Para buscar estos dos valores.9) .74)] = (1 . y que es llamada distribución de probabilidad de Fisher.F(0.07)] = 0.85) = 0.[1 . conviene graficar la distribución.

30. También se marcan con el 5% y el 1 %.2 2 Sean X ∼ χ n e Y∼ χ m variables aleatorias independientes. y estos porcentajes se refieren a la proporción de área encerradas por las curvas a la derecha de los valores dados en las tablas. lo que indica el 1%.12 está a la derecha de 4. una para las proporciones acumulativas del 95% y otra del 99% (F0. F0. que suelen ser llamados respectivamente grados de libertad del numerador (νn) y del denominador (νd). n) ⎛ n + m ⎞ n/2 m/2 Γ⎜ ⎟n m ⎝ 2 ⎠ La función de densidad de Fisher es: f ( x) = x −( m − 2) / 2 (m + nx) −( n + m ) / 2 n⎞ ⎛m⎞ ⎛ Γ⎜ ⎟Γ⎜ ⎟ ⎝2⎠ ⎝ 2 ⎠ 1 ∼ F(m. entonces: F= χ (2n ) / n χ (2m ) / m ∼ F(n. 71 .95 . equivale a decir un α = 1%). que en la tabla están en la primera fila. el número de grados de libertad del numerador. la función de densidad de Fisher toma la forma: Lo más común al tabular la distribución de Fisher es construir diferentes tablas para los valores de probabilidad acumulada útiles en las aplicaciones de esta distribución. m) ⇔ F Gráficamente. y se caracteriza por un par de grados de libertad (n . m).99 (lo que. el nivel de probabilidad acumulada. n) Una propiedad interesante de esta distribución es la siguiente: F ∼ F(n. es que el 1% del área bajo la curva F10. si n = 10 y m = 12. el número de grados de libertad del denominador que están en la primera columna (a la izquierda). por ejemplo. Debe destacarse que: F(n. Se presentan dos tablas separadas.99). Lo que sigue es un fragmento de la tabla para una probabilidad acumulada igual a 0. m) Una variable F de Fisher está definida para valores reales positivos (F ≥ 0). así. m) ≠ F(m. como se verá más adelante. Estructura de la tabla: En esta tabla debe entrarse con 3 valores. en muchas aplicaciones.

15) < 3.2123 < F(10.95 e) P(0.95 ó 0.15) < 3.30) 72 .20) < Xk) = 0. tal que P(F(10.99 d) El valor de xk.F(10. tal que P(F(12.28 e) P(0.99.12) < 4.37 d) El valor de Xk.15) > 4. se limitará la búsqueda a estas dos tablas. y que se va a tratar únicamente con probabilidades acumuladas iguales a 0.95 b) P(F(4.06) = 0.89) c) El valor de xk.30) Solución: Puesto que las probabilidades acumuladas son del 95% ó del 99%. resuelva las siguientes proposiciones: a) P(F(4.20) < xk) = 0.95 ⇒ Xk = 3.06) b) P(F(4. tal que P(F(10.01 c) El valor de Xk.99 ⇒ Xk = 3.2123 .8) > xk) = 0. y los grados de libertad del denominador (el segundo número del par) están en la primera columna.Ejemplo: Si se reconoce que la variable aleatoria en estudio sigue una distribución F de Fisher. tal que P(F(12. Se debe tener en cuenta que los grados de libertad del numerador (el primer número del par) están en la primera fila de la tabla.89) = 1 – 0.12) < 4.99 = 0.8) > Xk) = 0. a) P(F(4.15) > 4.

.975 f...01 = 0.χ20. 12) < 4.¿Cuál es la probabilidad de que una llamada en particular durara entre 180 y 300 segundos? c.Aquí lo que se quiere es el área entre dos puntos..025 i. o sea: P = 0. y cuáles son su media y varianza? 4.01 8.95 d.80 f.98 conociendo que X sigue t (10) 7.99 h.¿Qué distribución tiene Z.χ20. 12) < 0.95 d.El análisis estadístico de 1000 llamadas telefónicas de larga distancia realizadas desde las oficinas centrales de la Corporación CIMEX...χ20.99 – 0.995 j..P(Xo < X < 26.....99 y P(F(10.¿Qué parámetros la definen? 3.Calcule cada uno de los valores siguientes para una χ2 con 25 grados de libertad: a.2123 ) = 0. T'Student y Ji-Cuadrado? 5.90 b.¿Qué porcentaje de las llamadas duró entre 110 y 180 segundos? e.-t0..¿Qué porcentaje de llamadas duró menos de 180 segundos? b.Calcule cada uno de los valores siguientes para una t con 25 grados de libertad: a.975 b.995 j....-t0.30.98 conociendo que X sigue χ212 b.χ20....30) = 0.-t0.¿A qué tipo de variable corresponden estos tres modelos: Normal.10 c.t0..χ20.01 i. a.χ20.025 g.99 h.¿Cuáles son las características de la distribución normal 2...t0.05 e.. señala que la duración de estas llamadas está distribuida normalmente con μ = 240 segundos y desviación típica igual a 40 segundos. Si P(F(10.005 73 . EJERCICIOS DE AUTOEVALUACIÓN 1. menos el área tras 0.2130 nos dará el área o probabilidad buscada..χ20.90 g.10 c.t0..98..P(Xo < X < 2.¿Cuál es la duración mínima del 1% de las llamadas más largas? 6.-t0.t0.Determine el valor de Xo en cada uno de los siguientes casos: a.χ20.¿Cuantas llamadas duraron menos de 180 segundos ó más de 300 segundos? d..χ20.01 entonces el área tras 4.χ20.-t0..05 e..76) = 0..-t0.2) = 0.

mientras que la Estadística Inferencial desarrolla técnicas que permiten hacer análisis. Uso de la tabla de números aleatorios para efectuar un muestreo aleatorio. que se abordará brevemente aquí. Dentro de los muestreos aleatorios están: Muestreo Aleatorio Simple (MAS) Muestreo Irrestricto Aleatorio (MIA) Muestreo Sistemático (MS) Muestreo Aleatorio Estratificado (MAE) Muestreo Aleatorio por Conglomerado (MAC) 74 . Su principal limitación es que no permiten establecer una medida probabilística de los posibles errores en la estimación. pronósticos y llegar a conclusiones. y a partir de ella estimar. y la presencia del azar conlleva la posibilidad de emplear la Teoría de las Probabilidades en la medición de posibles errores de estimación. Como se dijo. lo cual es abordado por un gran capítulo de la Estadística Inferencial que es la Teoría del Muestreo. Conceptos básicos: Población y Muestra. Algunos conceptos que se deben manejar para adentrarse en la Teoría del Muestreo son: Población: Conjunto de individuos. partiendo de un grupo de observaciones. elementos o cosas que se desea estudiar a partir de algunas características que tienen en común. reducción y medición de la información. la Estadística Descriptiva se ocupa de la recolección. Con este tema se inicia el estudio de la parte de la Estadística que se ocupa de la inferencia. organización. dar un valor aproximado de los parámetros que interesa estudiar. es decir. Muestreos aleatorios son aquellos en que de alguna manera se introduce la aleatoriedad o azar en la conformación de la muestra.TEMA IV: MUESTREO Y ESTIMACIÓN 4. Muestra: Parte o subconjunto de la población que se toma para el estudio. intentando eliminar la subjetividad en el proceso. de una muestra. Muestreos opináticos o no aleatorios son aquellos en que se selecciona la muestra atendiendo por lo general a la opinión de algún experto en el tema en estudio.1. o sea. Una parte importante de la aplicación cualquier método inferencial es la adecuada selección de la muestra. Los métodos de muestreo pueden ser: opináticos o aleatorios. Muestreos aleatorios: Muestreo Aleatorio Simple. Censo: Estudio de la totalidad de elementos de la población. Muestreo: Conjunto de procedimientos para tomar una muestra de una población. Ante la imposibilidad material. temporal o económica de realizar un censo se determina tomar una muestra.

x2.. xn.. se dice que estos valores conforman una muestra aleatoria simple si se cumple que: 1. Solución: Población: X = 1. 2.. y también parece absurdo tomar todas las muestras posibles.36/9 =(42 -36)/9 = 6/9 = 2/3 = 0. tendrá asociada una función de probabilidad f (x1). Nn muestras distintas de tamaño n. xn (como la selección se hace con reposición eso equivale a que los valores de “xi” son independientes)..[E(x)]2 = 14/3 . pues es un trabajo mayor tomar todas las muestras posibles que hacer un censo.. 3} se quiere obtener todas las muestra aleatorias simples de tamaño 2 y verificar sus propiedades. x2. 2. 3 (N = 3) Como hay un solo valor de cada elemento se puede plantear: Xi f(X) X f(X) X2 f(X) 1 1/3 1/3 1/3 2 1/3 2/3 4/3 3 1/3 3/3 9/3 1 2 14/3 Así: f (x) = 1/3 E(x) = Σ x f(x) = 6/3 = 2 V(x) = E(x2) . EL MUESTREO ALEATORIO SIMPLE (MAS) El Muestreo Aleatorio Simple (MAS) es el procedimiento mediante el cual se eligen por sorteo n elementos de una población tamaño N.. Sin embargo lo más importante para obtener buenas estimaciones será siempre que la muestra sea representativa de la población. son los mismos para toda la muestra.. Dado lo anterior se puede llegar a una definición más rigurosa del MAS: Sean x1. haciendo las extracciones o selección con reposición.. lo que indica que debe usarse el método de muestreo adecuado y tenerse una idea del tamaño de muestra necesario.. x2. y su varianza.= V(xn) = V(x) (La probabilidad de que cualquier elemento de la población pase a la muestra es la misma.f(x1.... con reposición. n variables aleatorias independientes que representan un conjunto de valores observados de una variable poblacional X.. Ejemplo: Demostración de las propiedades del MAS Dada una población finita con 3 elementos cuyos valores en la variable son x = {1... f (x2). y cada una de ellas será un conjunto de n variables independientes: x1...f(xn) 3.= E(xn) = E(x) 4.f(x1) = f(x2) = . .) (Hay independencia entre las observaciones. f(xn)..(6/3)2 = 14/3 .El uso de uno u otro de los muestreos aleatorios está en dependencia de cómo se comporta la característica objeto de interés en la población. Nota: El tomar una muestra de una población de tamaño 3 parece un absurdo.= f xn) = f(x) 2.67 75 . Sea una población finita de tamaño N.. De esta población se pueden obtener......xn) = f(x1)f(x2).. Como “xi” es una variable aleatoria..E(x1) = E(x2) = ... pues ésta es estudiable en su totalidad..) El valor esperado para cada observación. y sea X la variable o característica en estudio. Se trata aquí de un desarrollo teórico.V(x1) = V(x2) = .

4 = 2/3 V(x2) = E(x22) . dada la independencia que garantiza.[E(x1)]2 = ∑ x12 f(x1) – (2)2= 14/3 . resulta: X2 \ X1 1 2 3 f(x1) 1 1/9 1/9 1/9 1/3 2 1/9 1/9 1/9 1/3 3 1/9 1/9 1/9 1/3 f(x2) 1/3 1/3 1/3 1 1ra propiedad: f (x1) = f (x2) = f (x) = 3/9 = 1/3 2da propiedad: Por tanto: 3ra propiedad: f(x1) = 1/3 f (x2) = 1/3 f (x1.4 = 2/3 Por tanto: V(x1) = V(x2) = V(x) Notas: • Conviene resaltar que algunos autores (ver Canavos). según el espacio muestral. 76 • . pero el estudio de éste. al hablar del Muestreo Aleatorio Simple (o MAS) incluyen dentro del mismo el caso con reposición como aquel sin reposición. Por otra parte. los cálculos probabilísticos serán más complicados. cuando la población es muy grande –y a la vez mucho más grande que la muestra que se obtendrá–. otros autores (ver Calero) diferencian estos casos y cuando no se hace reposición hablan de un muestreo irrestricto aleatorio (MIA). aunque se haga reposición es muy poco probable que un elemento de la población salga repetido en la muestra. es la base para cualquier otro muestreo donde –dada la no reposición– ya no habría independencia entre los elementos de la muestra. En la práctica rara vez interesa efectuar un muestreo con reposición.El conjunto de todas las muestras posibles de tamaño 2 es: x1 1 1 1 x2 1 2 3 x1 2 2 2 x1 1 2 3 x2 1 2 3 f (x1) 3/9 3/9 3/9 x1 3 3 3 x2 1 2 3 Siendo: x1 = valores que toma el 1er elemento de la muestra x2 = valores que toma el 2do elemento de la muestra N(S) = 9 x 21 f (x1) 1/3 4/3 9/3 Σ= 14/3 x2 1 2 3 f (x2) 3/9 3/9 3/9 x2 f(x2) 1/3 2/3 3/3 Σ= 2 x22 f (x2) 1/3 4/3 9/3 Σ= 14/3 Entonces: x1 f(x1) 1/3 2/3 3/3 Σ= 2 Y de un análisis bivariado.[E(x2)]2 = ∑ x22 f(x2) – (2)2= 14/3 . Aquí se preferirá distinguirlos separadamente. y donde. x2) = 1/9 f (x1 x2) = 1/9 = f (x1)f (x2) = 1/3⋅1/3 E(x1) = ∑ x1 f(x1) = 1/3 + 2/3 + 3/3 = 2 E(x2) = ∑ x2 f(x2) = 1/3 + 2/3 + 3/3 = 2 Por tanto: E(x1) = E(x2) = E(x) = 2 4ta propiedad: V(x1) = E(x12) . lo cual hace que el muestreo con reposición pueda verse como un caso límite del muestreo sin reposición cuando N es muy grande. por tanto.

3.Se elegirá al azar. en el caso de las filas están numeradas consecutivamente desde la 1 a la 25.Se enumeran de forma consecutiva los N elementos de la población. que puede aparecer o no en la tabla de números aleatorios). por tanto solo puede ser utilizada de esta forma. Esta tabla está formada por 4 bloques de 1000 cifras..4 ó 5 . como cifras tenga N. lo que indica las columna 1. Estas tablas pueden ser aleatorias de forma horizontal. mientras que las columnas están de cuatro en cuatro y se indica 1 . y están numeradas las filas y columnas. 6. fila y columna por donde se comenzará a tomar. la tabla suministra un grupo de números equivalentes a los que se tomarían al azar. etc. (Para que cada elemento esté identificado con una etiqueta. el bloque.TABLA DE NÚMEROS ALEATORIOS Una tabla de números aleatorios es una tabla para ayudar a elegir n elementos de una población mediante "sorteo". es decir. 2. 77 . y así sucesivamente. 4 o las columna 5.: Si N = 3000 se formarán números de 4 cifras. hecha como si se introdujera una lista de números en un bombo y se fueran tomando luego algunos sin mirar. 2. o de ambas formas. en forma consecutiva y horizontalmente los "n" números aleatorios que ayudarán a conformar la muestra. Ej.8. Estructura de la tabla: La tabla de números aleatorios que está en la selección de tablas estadística es aleatoria solamente de forma horizontal. y 8.. según lo siguiente: Cada número seleccionado debe tener tantas cifras.. Uso de la tabla: 1. 7. de forma vertical.

N = 20 ⇒ 2 cifras 78 . los números aleatorios repetidos también deben eliminarse previamente y buscar otros. Ej. no obstante. utilizando para el arranque el primer bloque. Solución: Primeramente se etiqueta la población: 31 511 82 712 93 913 84 55 76 316 57 817 48 618 69 419 810 520 414 715 Nota: Lo que semeja un exponente son las etiquetas que se le han puesto a la población. sino transformarlo. Parte) X: # de televisores que llegan con roturas en una semana a 20 talleres. como se ve en el siguiente esquema: 3. sino sólo 999. Otro criterio es no desecharlo tal número. la enumeración de sus elementos para después elegir la muestra. 3 8 9 8 5 7 5 4 6 8 5 7 9 4 7 3 8 6 4 5 Seleccione una muestra aleatoria de tamaño 5 (o sea. Ej. pero los mayores que 9000 deben desecharse. se quiere como muestra el resultado para 5 talleres). se obtiene la muestra. se debe elegir un intervalo de trabajo que no sobrepase al mayor múltiplo de N con la misma cantidad de cifras que N. y estos estarías entonces privilegiados probabilísticamente en el muestreo. este criterio obliga a trabajar más. pues a partir de 9000 hasta 9999 no hay otros 3000 número. Ejemplo: (Ejercicio 423 página 289 del Laboratorio de Estadística 2da.: Si N = 3000 su mayor múltiplo con la misma cantidad de cifras (4) es 9000. Para ello se toman de la población los elementos cuyo etiquetado coincide con los números aleatorios generados. columna 25. Para garantizar que cada uno de los N elementos de la población tenga la misma posibilidad de ser seleccionado. Al formar números de cuatro cifras. estos podrán variar entre 0001 y 9999.Si el número seleccionado de la tabla es > N puede ser desechado. o sea.. restándole sucesivamente N hasta obtener un número menor o igual a N. Nota: En el caso de que se opte por un muestreo sin reposición (lo que Calero Vinelo denomina un MIA).3000 = 4820 – 3000 = 1820 <N. fila 3.Finalmente.: Si el número aleatorio encontrado es 7820 y N=3000 entonces se resta: 7820 .

. f(xn) 79 .. xn) = f (x1)f(x2) .El mayor múltiplo de 20 con 2 cifras es 80... que será el que se tome como número aleatorio rectificado. . número aleatorio 10 03 22 11 54 número elemento aleatorio de la rectificado muestra Xi 10 8 3 9 2 8 11 5 14 4 EJERCICIOS DE AUTOEVALUACIÓN En lo adelante se podrán resolver preguntas como la siguiente: Si en una población se conoce que x sigue una N (10. que se definen en el MAS? A esto puede responderse que cada xi sigue una distribución normal con la misma media y la misma varianza y que su función conjunta es igual al producto de las funciones de cada variable: f (x1.. por lo tanto el intervalo de trabajo estará entre 01 y 80. x2. 2) ¿Qué podría afirmarse de la distribución y los parámetros de la variable aleatoria xi. todo valor mayor que 80 se elimina y el que esté entre 20 y 80 se rectifica restándole 20 hasta que quede un número del 1 al 20.

En general es de interés poder contar con un estimador para cualquier parámetro poblacional. Distribución muestral de las proporciones y de la varianza. cuando se calcula éste sobre una muestra. PROPIEDADES DESEABLES PARA UN BUEN ESTIMADOR: La importancia de contar con buenos estimadores puede quedar clara si se analiza que las estimaciones de los parámetros se obtendrán con una muestra que no contiene exactamente la misma información que la población. y que será expresada en términos probabilísticos. Propiedades deseables para un buen estimador. que el método de estimación usado no introduzca otros errores. es aquella parte de la Inferencia Estadística que se ocupa de los métodos para estimar el valor de los parámetros poblacionales. pues solamente es un reflejo de ella. 80 . el resultado obtenido puede servir como sustituto del valor de un parámetro poblacional. tema que se comienza a estudiar ahora. • Ser consistentes. se deriva de ello que las estimaciones o medidas que se determinan en cada muestra son variables aleatorias. la proporción asociada a determinados valores de la variable. Se denomina estimación al valor numérico concreto que resulta de un estimador. ni económico. etc. que pueden variar de una muestra a otra. y θ para el estimador correspondiente (el acento circunflejo ^ denota estimación). se pueden sacar muchas muestras. lo cual ya de por sí conlleva a posibles errores. En tales situaciones el estadístico o el investigador tendrán que estimar dichos parámetros sobre la base de lo que tiene posibilidad de conocer: una muestra aleatoria.4. la varianza. por tanto. En ocasiones ocurre que los principales parámetros poblacionales son desconocidos. En la Inferencia Estadística se emplea el método inductivo (de lo particular a lo general). La Teoría de la Estimación. que la conclusión o inferencias obtenidas tendrá asociado un grado de error o incertidumbre y es necesario por tanto estudiar los métodos que ofrezcan una medida confiable del mismo.2 Estimadores. lo que tendrá como consecuencia. observar toda la población para calcular el valor de dichos parámetros. como la media. • Ser eficientes. Se le llama estimador a cualquier función de "n" variables en la que. Distribución muestral de la media tanto con varianza (σ2) conocida como desconocida. después de sustituir los valores muestrales. Como de una población de tamaño N. Estimación puntual. Para representar un parámetro cualquiera se utiliza de forma genérica el símbolo θ (letra griega $ sita). Distribución muestral. de aquí la importancia que tiene la toma correcta de la muestra. y no resulta ni posible. Para hablar de buenos estimadores se definen entre las cualidades que estos deben tener las siguientes: • Ser insesgados. Es de desear. y en ocasiones un reflejo bastante pálido.

y se llama sesgo a la cantidad en que difiere el estimador del parámetro: ˆ Sesgo = E(θ) − θ Cabe preguntarse: ¿Será x un estimador insesgado de μ? ⎛1 E( x ) = E⎜ ⎝n ∑ x ⎟ = n E(∑ x ) = n ∑ E(x ) = n ∑ μ = n n μ = μ ⎠ ⎞ 1 1 1 1 O sea: E( x ) = μ Por tanto x es un estimador insesgado. un estimador insesgado para la varianza poblacional será: s2 = n 1 S 2 . que es sesgado. con el parámetro que estima. así: n n n −1 2 ⎛ n ⎞ ⋅ σ = σ2 E⎜ S2 ⎟ = E(S 2 ) = n −1 ⎠ n −1 n −1 n ⎝ Entonces. 81 . pues: ˆ E(p ) = p ˆ Con: p = xn x y p= N n N (Aquí X es una variable discreta. de conteo: xn indica un conteo en la muestra y xN un conteo en la población) Hay que destacar. si E(θ) ≠ θ . que puede también formularse como: s 2 = n −1 n −1 ∑ (x − x ) 2 Esta última manera de plantearlo muestra que el estimador de la varianza se diferencia de la verdadera varianza de la muestra en que aquella se calcula dividiendo por n mientras que en éste se divide por (n -1). una diferencia. la media muestral constituirá una estimación insesgada de la media poblacional. Lo mismo puede decirse de la proporción de elementos que cumplen determinada condición en una muestra como estimador para la correspondiente proporción poblacional: es un estimador insesgado. Pero observando a este resultado puede construirse un estimador insesgado para la varianza poblacional. se dice. o sea. sin embargo. E(S2) tiene un sesgo. o sea. al aplicar las propiedades del valor esperado se obtiene: n −1 2 E (S 2 ) = σ n O sea. que S2 no es un estimador insesgado de σ2.INSESGADEZ Se dice que un estimador es insesgado si se cumple que su esperanza es igual al parámetro que estima. multiplicando por n y dividiendo entre (n -1) la varianza de la muestra. al contar con una muestra aleatoria. σ2. con lo cual. ya que. si: ˆ E(θ) = θ ˆ Si el estimador no es insesgado.

el estimador tiende a estar más cerca del parámetro. En términos rigurosos debe decirse: n→ ∞ ˆ lim P(| θ − θ | ≤ ε ) = 1 para todos los valores de θ y ε > 0 Este límite constituye lo que se denomina convergencia en probabilidad. y de la comparación elegir cuál es el más eficiente. de manera que n → N. En el MAS se utilizan como buenos estimadores para los parámetros más significativos los que siguen: 82 . Este error cuadrático medio (ECM) se calcula como la suma de la varianza más el sesgo al cuadrado del estimador: ECM (θ$) = V (θ$) + ( E (θ$) − θ ) 2 Así. entonces: ESTIMACIÓN PUNTUAL Y ERROR DE ESTIMACIÓN: El objetivo que se persigue con una estimación es obtener valores específicos del parámetro desconocido. es decir.lim E(θ) = θ n→ ∞ ˆ 2. se cumple que: ˆ 1. que pueden ser utilizados en su lugar. • Si los estimadores que se comparan son todos insesgados. converge en probabilidad al valor del parámetro que está intentando estimar conforme el tamaño de la muestra crece. el procedimiento tiene que ser calcular el ECM para todos los estimadores que se propongan. s2 y p son estimadores consistentes. Esto implica que la varianza de un estimador consistente disminuye a medida que “n” crece y su media tiende al verdadero valor del parámetro. si un estimador es consistente. Notas: • Todo estimador eficiente es consistente. Nota: Un estimador insesgado puede o no ser consistente. EFICIENCIA Se dice que un estimador es eficiente si su error cuadrático medio es menor que el de cualquier otro estimador con el que se le compare... Una estimación puntual es precisamente eso: la evaluación de un buen estimador en una muestra para tomar ese valor como medida aproximada del parámetro desconocido. es decir.CONSISTENCIA Se dice que un estimador es consistente si al hacerse el tamaño de muestra cada vez más grande. ECM (θ$) = V (θ$) y el estimador eficiente será el de menor varianza.lim V(θ) = 0 n→ ∞ ˆ Bajo muestreos aleatorios simples se verifica que: x .

calculando uno modularmente y el otro sin emplear el módulo. Se llama error de muestreo o error de estimación (em) a la diferencia entre el valor de la estimación y el del verdadero valor del parámetro. constituye otra variable aleatoria. a través del MAS. estimar también la varianza. que es lo que se hará acá.tipo de estudio característica medible parámetro ( θ ) medida de tendencia cuantitativo medida de dispersión cualitativo medida de proporción μ σ2 p ˆ estimador ( θ ) 1 x= x n 1 s2 = ( x − x)2 n −1 x ˆ p= n n ∑ ∑ Ejemplo: Estimar el promedio de televisores que llegan con roturas a los talleres a partir de la muestra de tamaño 5 tomada (ver ejemplo anterior). y si sobre todas ellas se calcula –por ejemplo. Además. Solución: Xi Xi2 8 64 9 81 8 64 5 25 4 16 ∑ = 34 ∑=250 1 34 x= = 6.8 2 = 4 . que será una medida probabilística. es un valor que no se puede conocer.) ˆ μ=x= ∑ ˆ σ2 = s2 = 1 n −1 ∑ ( x − μ)2 = ∑x 2 − n x2 n −1 = 250 − 5 ⋅ 6. aquel en que la suma de desviaciones cuadráticas se divide por n -1. pues habría que conocer el parámetro poblacional. DISTRIBUCIONES MUESTRALES: Ya se ha visto que si de una población cualquiera se toman todas las muestras posibles de tamaño n. no habría necesidad de estimarlo.8 n 5 (Aproximadamente 7 televisores llegan como promedio a los talleres. Pero además. se ha recurrido a una transformación matemática de la definición del estimador.7 4 Es de destacar que para estimar la varianza se ha usado el estimador insesgado. es decir. otros autores no consideran esta diferenciación como fundamental y utilizan ambos términos como sinónimos.8 = 34/5 = 6. al depender de una estimación. que es el error de muestreo): ˆ em (θ) = θ − θ Nota: Algunos autores diferencian entre el concepto de error de estimación y el de muestreo. El error de muestreo. que en muchos casos simplifica los cálculos. pues puede variar de estimación a estimación. Esto conduce a que se plantee la necesidad de contar con una medida del error de muestreo. y si se conociera éste. (Es evidente que cuando se estima un parámetro poblacional a partir de un estimador muestral puede haber implícito un error.la media muestral 83 .

Es común. una vez conocida la distribución muestral asociada a un estimador.σ) entonces X ∼ N ( μ . pues se calcula como la raíz del promedio de sus cuadrados. determinar la media y la desviación estándar de la distribución.. σ / n ) 84 .) Estas características informan que: 1. es una medida resumen del error de estimación para el parámetro.como estimación de la media poblacional. Ejemplo: La distribución del estimador de la media ( x ) cumple lo siguiente: E( x ) = μ y V( x ) = σ2/n (Ver demostración en página 123 del libro de texto. Lo mismo pasaría con la varianza o cualquier otro estimador. entonces la media muestral tendrá también una distribución normal..La varianza del estimador x es n veces menor que la varianza de la población: V(x) = σ2 y V( x ) = σ2/n σ 3. ˆ ˆ σ( θ) = V ( θ) = ∑ DISTRIBUCIÓN MUESTRAL DE LOS PARÁMETROS MÁS USADOS: Hay un teorema que plantea que si X tiene una distribución normal. con media μ y varianza σ2. y al ser variable aleatoria tiene asociada: Distribución de probabilidad Características numéricas o parámetros A las distribuciones de probabilidad de los estimadores se les denomina distribuciones muestrales.La desviación estándar o error estándar asociado a la media es: σ x = V( x ) = n (Lo cual permite concluir que a medida que n aumenta los valores de la media muestral se concentran más alrededor de μ.El centro de la distribución poblacional y de la distribución muestral de x coinciden: μ(x) = μ ( x ) 2. a esta última se le suele llamar error estándar. en este caso con media μ y varianza σ2/n. por tanto se puede llegar a una conclusión muy importante: Todo estimador es una variable aleatoria. si X ∼ N(μ . Falta por conocer la función de probabilidad del estimador para poder sacar conclusiones respecto al error. y se selecciona una muestra aleatoria tamaño n por el procedimiento del MAS.. o sea. O sea. lo que hace que estas estimaciones constituyan variables aleatorias. se obtendrán valores diferentes en el conjunto de muestras.) Nota: El nombre de error estándar se debe a la propia manera en que se calcula éste: 1 ˆ ( θ − θ)2 n De la expresión anterior se ve que el error estándar es una especie de promedio de los ˆ errores de estimación o muestreo (θ − θ) .

tiende a distribuirse normalmente cuando n > 30. se utiliza la distribución t'Student. s/ n No obstante. y por tanto t se puede aproximar a través de Z. 1). 1). Esto es. utilizando también el teorema central del límite se llega a que la proporción muestral. con varianza desconocida. ⎜ ⎟ n⎠ ⎝ De la misma manera. o sea. la distribución t'Student tiende a la normal estandarizada. Si X ∼ N( μ. σ / n ) Nota: En la práctica se ha demostrado que siempre que n ≥ 30 la aproximación a la normal es buena. o sea: ⎛ ˆ pq ⎞ ⎟ . σ ) y n → ∞ entonces x ∼ N (μ . entonces la transformación: x−μ σ/ n tiende una distribución que se aproxima a la normal estandarizada a medida que n tiende a infinito. como estimador de la proporción poblacional. Pero. es necesario previamente estimar ésta a través de s. y de la cual se ha extraído una muestra aleatoria de tamaño n. entonces: x ∼ N⎜ μ . si X ∼ ? (μ . y si X no tiene una distribución normal? Esto lo resuelve el Teorema Central del Límite. ⎜ n ⎟ pq / n ⎝ ⎠ x−μ 85 . el propio teorema central del límite permite concluir lo siguiente: Si n → ∞. 1) ˆ Si n > 30 entonces: p ∼ N⎜ p . Y hay otro teorema que plantea que si se tiene una población normal. a lo cual se le llama caso de σ desconocida. que entre sus corolarios establece: si X es una variable aleatoria con media μ y varianza σ2. así: ⎛ s ⎞ ⎟ . La transformación así obtenida para la media t = .Y para calcular la probabilidad de cierto comportamiento de la media. se utilizará la variable x −μ estandarizada: Z = σ/ n ¿Pero. y x es la media de una muestra aleatoria simple de tamaño n. ?) y n > 30. recibe el nombre de estadígrafo t. cuando se quiere hallar la probabilidad de cierto comportamiento de la media siendo desconocida la varianza de la población –si se cumple que la variable original se distribuye normalmente-. o lo que es igual: t → Z ∼ N (0. cuando n > 30. su estimador insesgado y consistente (teniendo en cuenta dividir por n -1 y no por n en el cálculo). esto es a Z ∼ N (0. por lo que se utiliza este criterio para considerar que n → ∞ Hasta aquí se ha llegado a expresiones que involucran el conocimiento de la varianza (σ2) o la desviación típica (σ) poblacional de X. entonces se puede afirmar que: x−μ ∼ t (n-1) s/ n Así. ¿y si esta no se conoce? Si la desviación típica poblacional no se conoce. o estandarizando: z p = p − p ∼ N (0.

n = 4. ⎜ n ⎟ ⎝ ⎠ ˆ p pq / n ∼ N (0. 1) EJEMPLO 1: Sean: X ∼ N (60 .0..60)/2) = P(Z < 2) = Fz (2) = 0.Fz (0) = 1 . ? ) y n > 30 σ2 p s2 Z= Z= x −μ σ/ n x −μ σ/ n ∼ N (0. Sin embargo.60)/2) = P(Z < 1) = Fz(1) = 0. 1) ∼ N (0.5 4.. ⎜ ⎝ ⎛ x ∼ N⎜ μ .Se verifica en la práctica que esta aproximación es realmente buena cuando el producto np > 5 y/o nq < 5. μ = 60.P(58 < x < 62) = P [(58 -60)/2 < Z < (62 -60)/2] = P ( -1 < Z < 1) = Fz(1) . σ x = Calcular: σ n = 4 4 =2 1. hay un teorema que plantea que para una población normal se cumple que s2 tiene asociada una distribución chi-cuadrado con ( n -1) grados de libertad. Por otra parte..60)/2) = P(Z > 0) = 1 . al estudiar s2 como estimador de la varianza poblacional se ve que no sigue una distribución normal.9772 2.1587 = 0.8413 3. ⎜ ⎟ n⎠ ⎝ Z= x −μ σ/ n ∼ N (0. ⎜ ⎝ σ ⎞ ⎟ ⎟ n⎠ σ ⎞ ⎟ ⎟ n⎠ ∼ t (n -1) ó ⎛ s ⎞ ⎟ x ∼ N⎜ μ .. σ = 4.P(Z < 0) = 1 .P( x > 60) = P(Z > (60 . σ ) X ∼ ? (μ .Fz(-1) = 0.8413 .P( x < 62) = P(Z < (62 . σ ) y n > 30 X ∼ N (μ .0. 4). 1) χ2 = X∼N n > 30 zp = ˆ p−p (n − 1)s 2 ∼ χ2(n -1) 2 σ ó ⎛ pq ⎞ ⎟ ˆ p ∼ N⎜ p . como sigue: (n − 1)s 2 ∼ χ2(n -1) σ2 (n − 1)s 2 Debido a esto la expresión χ 2 = recibe el nombre de estadígrafo chi-cuadrado.6826 86 . σ2 Resumen de las principales distribuciones muestrales: parámetro estimador condiciones distribución muestral X ∼ N (μ .P( x < 64) = P(Z < (64 . ?) X ∼ ? (μ . 1) t= x −μ s/ n ó ó μ x ⎛ x ∼ N⎜ μ .5 = 0. sino que tiene un comportamiento asimétrico.

μ=5.0.P (0. a.5 4 (error promedio de estimación o error estándar) d..05 < Z < 0.55 .5 < t(15) < 0. n = 100 Calculando previamente la desviación típica se tiene: σ = pq = n 0 .995 = 0.0025 = 0.5 ⋅ 0 .12 i i i=1 b.P(s2 > 8) = 1 – P(s2 < 8) = 1 .P (χ2(20) < 40) = 1 .si μ = 32 entonces em = ( x .EJEMPLO 2: Datos: n = 16.P (χ2(20) < 160/4) = 1 .8413 .μ < 0..5 < x .0.5) = P ( -1 < t < 1) = Ft (1) .μ) = 30..8185 b.0.70 (Nota: Se utiliza la t'Student porque se desconocía la varianza de la población.05/0.5/0.9 ⎛ − 0 ...05) = P (-2 < Z < 1) = Fz(1) .05 < Z < (0.μ⏐< 0. ∑ (X n i=1 i − X ni = 60 ) 2 ∑ X n = 482/16 = 30.0.0.x = 1 n n ∑ i=1 n X ini = 482 .50)/0.5. σ=2 a.0.) EJEMPLO 3: Datos: x: incremento del rendimiento p = 0. Datos: n=21.85) = 0.P[ (n-1)s2/σ2 < 20(8)/4] = 1 .5 ) = P⎜ ⎜ ⎟ 2 / 16 ⎠ ⎝ 2 / 16 = P ( -0.Ft (-1) = 0.40 .Tome valores en el intervalo (4.1 ..0228 = 0.Sea inferior a 5 c.85 .P (⏐ x .5) = P ( -0.s x = 2 1 n X i − X ni = 60/15 = 4 n − 1 i=1 ∑( ) s n = 2 16 = 2 = 0..15 = 0... 8) d.Fχ2(20) (40) = 1 .μ = n p = 60 ⋅ 0.005 87 .5 ⎞ ⎟ < t(15) < e.8185 = 49 EJEMPLO 4: Calcule la probabilidad de que la varianza de una muestra de tamaño 21 obtenida de una población normal con media 5 y desviación típica 2: a.Entre qué dos valores se moverá S2 con una probabilidad central de 0.10/0.32 = -1.05] = P (-0.85 .5/0. 5 = 0.40 < P < 0.s 2 = c.Fz(-2) = 0.5 0 .05 100 a...(1 .Sea superior a 8 b.55) = P [(0.95..50)/0.

59 (4)/20 = 1..-¿Que supuesto se debe tener en cuenta para trabajar con la distribución de probabilidad de t'student? 3.50 = 0.84) = 0.P(s2a < s2 < s2b) = 0.P(s2 < 5) = P (χ2(20) < 20(5)/4] = P (χ2(20) < 100/4) = P (χ2(20) < 25) = F(χ2) (25) = 0.b..95 EJERCICIOS DE AUTOEVALUACIÓN 1.¿Qué distribución de probabilidad tiene la proporción muestral.Si se desconoce la distribución de probabilidad que sigue la variable original y n → ∞...025) (4)/20 = 9. despejando de χ (2n−1) χ (2n−1) σ 2 (n − 1)s 2 2 se llega a: s = = (n − 1) σ2 Entonces: s2a = χ2(0.. asuma determinados valores? 88 .¿Tiene la varianza muestral una distribución normal? 7.. ¿Cual sería la distribución de probabilidad de la media? Fundamente su respuesta.95 (probabilidad central) Estos valores de probabilidad central se buscan como sigue: Luego χ2a = χ2(0.0. 5.495 d.995 ..84 Por tanto.¿Con qué distribución calcularía la probabilidad de que la varianza muestral.Fχ2(20) = 0. y bajo cuales condiciones? 6.2(4)/20 = 6..025) y χ2b = χ2(0.Si se desconoce la varianza de la población y n < 30 ¿Con que distribución de probabilidad trabajaría en el cálculo de la probabilidad de la media? 2.1918 < s2 < 6. Ahora..918 s2b = χ2(0. los valores s2a y s2b determinan una probabilidad central del 95% así: P (1.P(4 < s2 < 8) = P [20 (4)/4 < χ2(20) < 20(8)/4] = P(20 < χ2(20) < 40) = Fχ2(40) .80 c.975) (4/20) =34.Si se desconoce la varianza de la población y n > 30 ¿Con que distribución de probabilidad trabajaría en el cálculo de la probabilidad de la media? 4.975) son los valores que le corresponden a s2a y s2b.

por ello la estimación puntual no permite evaluar cuan cercano está el valor estimado del correspondiente parámetro. Cuando se quiere estimar un parámetro. por tanto. La construcción del intervalo de confianza se basa en encontrar el par de valores que delimiten este intervalo para un nivel de confianza prefijado. 0. esto puede hacerse no sólo mediante una estimación puntual. y este error no es calculable ya que en la práctica no se conoce el verdadero valor de un parámetro que se está estimando. es decir. y al intervalo construido se le llama entonces intervalo de confianza. representada como 1-α. lo cual se basa en la distribución muestral del estimador. sino que puede recurrirse a una estimación por intervalos. Estimación por intervalos de confianza. Y aún más. y a la distancia desde el centro del 89 . cualquier estimación puede tener asociada un error de muestreo.4. Una estimación por intervalos consiste en construir un intervalo alrededor de la estimación puntual de manera que se pueda garantizar que el parámetro estimado está dentro de dicho intervalo con una probabilidad escogida de antemano. 0. en la práctica. α representará la probabilidad de que el verdadero valor del parámetro no esté en el intervalo. se puede organizar el proceso de estimación de manera tal que se dé un intervalo posible de valores para el parámetro (estimación por intervalo). los niveles de confianza más usados suelen ser: 0. cuando la distribución muestral del estimador es a su vez simétrica –por ejemplo normal o t’Student. si 1-α representa la probabilidad con que se quiere que el mismo contenga al parámetro.95. no permite calcular la precisión de la estimación. o el estadístico. Como se sabe. o que se garantice que el error de estimación no sobrepase un determinado valor prefijado (error máximo permisible). 0. y los intervalos suelen construirse de forma tal que esta probabilidad α se reparta simétricamente. en estudios económicos y sociales.99.3: Error máximo permisible y tamaño de muestra necesario para la estimación de μ y p. El nivel de confianza lo decide el investigador. como se muestra gráficamente: Utilizando el método habitual para la construcción de los intervalos –la repartición simétrica de la probabilidad α a ambos lados-. de extremos variables. a esa probabilidad.los límites del intervalo resultan también simétricos respecto a la estimación puntual tomada como partida.98. dado por la diferencia entre el estimador y el parámetro. Pero conociendo la correspondiente distribución muestral se puede tener una medida probabilística del error.90. se le denomina nivel de confianza. El intervalo es. Al crearse el intervalo de confianza. ya que sus límites pueden cambiar según el resultado de la estimación puntual sobre la muestra.

intervalo hasta cada límite.μ > d) = α 90 .μ < -d) + P( x .μ ⏐ > d ) = α Pero: P(⏐ x .μ ⏐ > d ) = P( x . que simboliza con la letra d. y prefijado un nivel de confianza (1 .μ ⏐ ≤ d ) = P (-d ≤ x .α Esto equivale a decir que: P(⏐ x . siendo la varianza poblacional (σ) conocida.α): Fijar un nivel de confianza quiere decir que se exige que el error máximo permisible cumpla con: P(⏐ x . que es una manera abreviada de indicar que lo que sigue se resta y se suma para crear un intervalo.μ ≤ d) = 1 . se forman así: estimador ± error máximo admitido Ejemplo ilustrativo: Sea el caso de una estimación por intervalo para la media. por el error estándar del estimador: ˆ dθ = C α σ(θ) 1− 2 Los intervalos de confianza para la media y la proporción. por tanto. en caso de estimadores con distribuciones simétricas el intervalo de confianza queda de la forma: ˆ θ = θ ± dθ En la expresión anterior se utilizó el símbolo ±. y en general se calcula como el producto de un factor que depende del nivel de confianza. θ + d θ ] El error máximo admitido viene a representar el máximo error que se admite cometer en la estimación bajo el nivel de confianza escogido. por tener ambos estimadores distribuciones muestrales simétricas. se le denomina entonces error máximo admitido: Entonces. el mismo intervalo de confianza puede representarse como sigue: ˆ ˆ θ ∈ [θ − d θ . el denominado coeficiente de confianza (C1-α/2).

? ) y n > 30 σ2 s 2 μ x s n μ= x ± d ó μ ∈[ x − d . y lo mismo es aplicable a la t’Student. σ ) y n > 30 X ∼ N (μ . dado que la distribución muestral (chicuadrado) es asimétrica. se tiene que x ∼ N⎜ μ . y se calculan directamente los límites inferior y superior del intervalo de confianza. Además. al hallar el límite inferior del intervalo es equivalente usar –Z1-α/2 ó Zα/2. Por otra parte. que es simétrica. 91 . p + d ] Vale la pena anotar que en el caso de la varianza. ?) X ∼ ? (μ .Y dada la simetría ambos sumandos son iguales. Esto se resume en la siguiente tabla (asumiendo siempre un muestreo aleatorio simple): parámetro estimador condiciones error máximo admisible σ d=Z α 1− n 2 σ d=Z α 1− n 2 d = t (n−1) 1− α 2 intervalo de confianza X ∼ N (μ . y la varianza. σ ) X ∼ ? (μ . si X ∼ N (μ .α) más grandes.μ < -d) = P⎜ z < =Z α ⎜ ⎟ 2 1− σ n⎠ σ n ⎝ 2 α 2 Y despejando: d=Z σ α 1− 2 n Atendiendo al ejemplo anterior. x + d ] d=Z s 1− α 2 n ⎡ ⎢ (n −1) s 2 (n −1) s 2 . ⎜ ⎟ n⎠ ⎝ ⎛ −d −d ⎞ α ⎟= Entonces: P( x . se pueden desarrollar las expresiones para los intervalos de confianza en todos los casos de la media. Para niveles de confianza (1 . por lo que: P(x − μ < −d) = ⎛ σ ⎞ ⎟ . por tanto: Ahora. 2 σ ∈⎢ 2 χ ⎢ χ (n − 1) (n − 1) α / 2 1− α / 2 ⎢ ⎣ 2 X∼N --ˆˆ pq n ⎤ ⎥ ⎥ ⎥ ⎥ ⎦ p ˆ p n > 30 d=Z α 1− 2 ˆ p= p ± d ó ˆ ˆ p ∈[ p − d . mayor es el ancho del intervalo. es fácil darse cuenta al examinar las expresiones para los intervalos de confianza que: Mientras más grande es el tamaño de la muestra menor es el ancho del intervalo.σ). no se puede hablar de un error máximo admitido. y las proporciones. en los casos en que se usa la normal.

respectivamente. y un nivel de confianza grande incrementará el valor del coeficiente de confianza. 2 2 ⎛ Z1−α / 2 ⎞ ⎛ Z1−α / 2 ⎞ ⎟ =⎜ ⎟ n =pq ⎜ ⎜ d ⎟ ⎜ 2d ⎟ ⎝ ⎠ ⎝ ⎠ Aquí p y q son desconocidos (es justo lo que se quiere estimar).7 toneladas. σ ) ) s s ≈Z α Entonces: μ = x ± d y d = t (n−1) 1− α 1− n n 2 2 Se parte del uso de la t porque la desviación típica poblacional es desconocida (lo que se tiene es una estimación puntual de la misma). pues el error máximo asumido es precisamente d.75 92 . Finalmente. dada la convergencia de la t a la Z.96 0. los resultados usados para un muestreo aleatorio simple son los siguientes: Para la media (con σ conocida): Para la media (con σ desconocida): Para las proporciones: n = ⎜ Z 1−α / 2 ⎝ ⎛ σ⎞ ⎟ d⎠ 2 s⎞ ⎛ n = ⎜ Z 1−α / 2 ⎟ d⎠ ⎝ 2 Aquí se utiliza la Z y no la t porque esta última involucra a la n en sus grados de libertad.95 ( Se asumirá que X ∼ N(μ . están dadas por 12 y 0. una importante aplicación de las expresiones para los intervalos de confianza es el empleo de éstas para determinar el tamaño de muestra mínimo necesario para que el error en una estimación no sobrepase un valor decidido de antemano. y obtener Z por la intercepción con los bordes. Pero una vía más rápida es utilizar la tabla que está a continuación en la selección de tablas (página 17). es decir.7 = 0. donde están las dos colas de la curva sombreadas. se puede usar esta última.7 60 = 1.95 ⇒ α = 0. que matemáticamente maximiza n. por eso se toma p = q = 0.176 7.Ambos resultados son lógicos ya que un tamaño grande de la muestra disminuirá la varianza del estimador. que es más cómodo.α/2) = 0. s = 0.975 se puede buscar este número en el interior de la tabla de la normal estándar. con un 95% de confianza.5. el estadístico de la distribución de probabilidad del estimador. x = 12.975 Para buscar el valor de Z0.05 ⇒ α/2 = 0. (1 . Esto se consigue despejando n en la expresión. no obstante. al ser n > 30.7. Se quiere hallar un intervalo de confianza para la carga media máxima soportada por los cables. Para obtener el coeficiente de confianza se debe ver que: (1 . ahí se busca simplemente el valor de α por la derecha y en la izquierda está la Z requerida.α) = 0. Solución: X: carga soportada por un cable Información: n = 60. Ejemplo 1: La media y la desviación típica de las cargas máximas soportadas por 60 cables.α) = 0.96 ⋅ 0. lo que dará como resultado en cada caso un intervalo más amplio. d = 1.025 ⇒ (1 .

Por tanto: μ = 12 ± 0.05. Interprete el resultado. c) Calcule para un nivel de confianza de 0.18 Y siendo: 12 + 0.α )⋅100% de todos los posibles intervalos contendrán al parámetro. esto se aprecia en el esquema mostrado. donde cada barra horizontal representa el intervalo obtenido de una muestra dada. pues.82 .0.95 el error máximo en la estimación de la proporción.82 y 12.18 y 12 .18 toneladas.82 . un intervalo de confianza del 90% para la media poblacional indica que el 90% de las muestras que se tomen (o sea.18 ] Se puede decir. el intervalo será: μ ∈[11.α equivale a indicar que un (1 . Solución: X: cantidad de personas que prefieren el nuevo producto. μ Por ejemplo. b) Calcule la probabilidad de que el error máximo en la estimación de esta proporción no sea mayor de 0. 12. d) Determine cuántas personas deben seleccionarse para que la proporción resultante tenga un error no mayor de 0. 93 . 0 0 1 1 0 1 0 1 0 1 1 1 0 1 0 1 1 1 0 1 1 0 1 0 1 1 0 1 1 0 0 1 1 0 1 1 0 1 1 0 a) Calcule la proporción muestral de individuos que gustan de este producto. que en el 95% de los cables el valor medio de la carga soportada está entre 11. mientras que el α⋅(100)% restante serán intervalos que no contengan al verdadero valor de dicho parámetro.18 = 11.60 n 40 El 60% de las personas prefieren el nuevo producto. 9 de cada 10 muestras) darán lugar a intervalos que contengan el parámetro. efectuar una estimación por intervalo con un nivel de confianza 1 . Nota: Es esencial saber interpretar adecuadamente la información que brinda un intervalo de confianza: En el caso teórico de contar con todas las muestras posibles de tamaño n. n = 40 ˆ a) p = X n 24 = = 0.01 con una probabilidad asociada de 0.18 = 12.99. Ejemplo 2: A continuación se brindan los resultados de las entrevistas a 40 personas sobre su preferencia (1) o no (0) respecto a un nuevo producto que se ha ofertado en el mercado.

μ ≤ 8) = P (-8/4 ≤ Ζ ≤ 8/4) = P (-2 ≤ Ζ ≤ 2) = Fz(2) . b) d = Z σ α 1− 2 n = Z 0. 16).P ⎜≤ 0.58 ⎞ ⎛ Z0.641) = 0.4 / 40 = 0.02 ⎟ = 64.0228 = 0.05 0.1529 n 40 α 1− 2 En muestras de tamaño 40 el error en la estimación de la proporción poblacional no será superior a 0.μ ⏐ ≤ 8) = P(-8 ≤ x .9772 .0775 ≈ 0.05) = P⎜ ≤Z≤ ⎜ σp σp ⎟ ˆ ˆ ⎠ ⎝ donde : σ p = pq / n = 0.0.05 ⎞ ⎟ $ $ b) P (⎜ p .641) = Fz(0.Calcule la probabilidad de que el error en la estimación de μ no sea mayor de 8 kgf.Diga cuántas varillas deberán seleccionarse para que la media resultante tenga un error no mayor de 2 kgf con una confiabilidad del 95%.99.078) = P (-0.5 = 4160.6 ⋅ 0. entonces x ∼ N⎜ 400 . pues el número obtenido es lo mínimo necesario para satisfacer las condiciones deseadas para la estimación.995 ⎞ 2 ⎟ ⎜ ⎟ d) n = p q ⎜ 1−α / 2 ⎟ = ⎜ ⎜ 2 d ⎟ = ⎜ 2 ⋅ 0.0060 = 0.153.9544 En el 95.641 ≤ Ζ ≤ 0.078 ≤ Ζ ≤ 0.Determine. Solución.Fz(-0..4 % de las muestras de tamaños 16 el error que se puede cometer al estimar μ no va a ser mayor que 8. con una probabilidad de 0.05/0.2611 = 0. 2 2 2 Ejemplo 3 La experiencia adquirida indica que la resistencia a la ruptura de las varillas de alambre producidas por cierta fábrica sigue una distribución normal con una resistencia media de 400 kgf (kilogramo-fuerza) y una desviación típica de 16 kgf.58 ⋅ 4 = 10.995 σ n = 2.05 ≤ p .975 = 1.641) . por tanto: X ∼ N (400 .⎛ − 0. el error que se puede cometer al estimar p no va a ser mayor que 0.Fz(-2) = 0.05) = P (-0. con una probabilidad de 0..P ≤ 0. el error máximo que se espera cometer al estimar μ a través de la media muestral.4 = Z 0.05) = P (-0.25 ≈ 4161 ⎜ d ⎟ ⎠ ⎝ ⎠ ⎝ ⎝ ⎠ Nota: Debe destacarse que la aproximación de n siempre es por exceso.7389 .P ⎜≤ 0.078 = 0. ⎛Z ⎞ ⎛ 2. ⎜ ⎟ 16 ⎠ ⎝ a) P(⏐ x .05/0. 4) .078 ˆ Por tanto: $ P (⎜ p .6 ⋅ 0 .05 c) d = Z ˆˆ pq 0 . Si se toma una muestra aleatoria de 16 varillas.0. X: resistencia a la ruptura (kgf) n = 16 ⎛ 16 ⎞ ⎟ = N (400 . b.95. a.32 94 .. c.78% de las muestras de tamaño 40.4778 En el 47.96 ⋅ 0.

0036 = 0.20 pq / n = 0.7412 ≤ p ≤ 0. Solución: X: Núcleos familiares con 4 ó más integrantes.298.94 Ejemplo 5 En una muestra simple aleatoria de 64 piezas de un mismo tipo. 2⎠ d⎠ d⎠ ⎝ ⎝ ⎝ Debe significarse que con una muestra de este tamaño se está garantizando que el error en la estimación de la resistencia media no sea mayor de 2 kgf. el intervalo será: 0.298.16 / 37 = 0.96 0.0988 Por tanto el intervalo de confianza será: 0.102 y 0.060 ˆ ˆ Entonces: p = p ± Z(1−α/2) pq / n = 0.20 ± 0.9388 Esto indica que el 90% de las veces el valor de la proporción muestral se encontrará entre 0.20 ± 1. Solución: n = 64 ˆ p = p ± Z(1−α/2) ˆ p = 13/64 = 0.74 y 0.20 ± 1. Ejemplo 6 Calcule un intervalo de confianza del 95% de la varianza poblacional de una población normal.05) O sea: p = 0.84 ± 1.64(0.96 ⋅ ⎟ = 246 varillas. 95 . Se tiene que: ˆ p = Xn/n = 31/37 = 0. indicando que el 95% de las veces el verdadero valor de la proporción poblacional se encontrará entre 0.84 Y: σ p = pq / n = 0.84 ⋅ 0.20(0. se encontraron 13 piezas defectuosas.0025 = 0.8) / 64 = 0.098 Por tanto. con una probabilidad de certeza del 95% Ejemplo 4 En una determinada localidad se obtuvo la siguiente muestra aleatoria.102 ≤ p ≤ 0.σ⎞ σ⎞ 16 ⎞ ⎛ ⎛ ⎛ c) n = ⎜ Z1−α / 2 ⎟ = ⎜ Z0. Dé una estimación por intervalo con un nivel de confianza del 95% para la proporción de piezas defectuosas en el almacén.975 ⎟ = ⎜1.20 ±1. si en una muestra aleatoria de tamaño 22 se obtuvo una varianza de 121. para un nivel de confiabilidad del 90%.96(0.96 0. correspondiente a la cantidad de personas por núcleos familiares en 37 viviendas: 2 2 2 4 2 5 6 6 5 6 6 6 7 5 5 4 4 2 8 4 6 8 5 2 2 5 5 4 3 6 7 6 5 5 5 6 5 4 6 1 Se quiere una estimación por intervalos de la proporción de los núcleos familiares con 4 ó más integrantes.060) = 0.84 ± 0. extraídas de un almacén.

diga qué error máximo 96 .. b.5 10. 152.Halle una estimación por intervalo del 95% de μ y de σ2. 2 . 6. cuya distribución muestral asociada es χ2.Solución: n = 22 s2 = 121 1 . y 151 a..95 Como se desea un intervalo de confianza para la varianza.3 ⎦ ⎥ ⎢ χ ( 21) ( 21) 0..¿En que caso en la estimación por intervalo de μ se trabaja con la distribución muestral de t'Student? ¿Qué supuestos se deben hacer para trabajar con esta distribución en el cálculo del intervalo de confianza de μ? 5. Nota: Si se quiere sacar el intervalo de confianza de la desviación típica poblacional sólo se le saca la raíz cuadrada al intervalo de la varianza: 8. 7.57 y 246.975 ⎥ ⎢ ⎥ ⎦ ⎣ ⎦ Por tanto: 71.¿Qué nos indica el error máximo admisible? ¿Para que se utiliza? 2.. ⎥=⎢ 2 ⎥=⎢ ⎥ χ ⎣ 35. se sustituye directamente en la expresión para el intervalo de confianza: ⎡ ⎢ (n −1) s 2 (n −1) s 2 σ 2∈ ⎢ 2 ...69 Esto indica que el 95% de las veces el valor de la varianza poblacional se encontrará entre 71..¿A partir de qué se calcula el tamaño de la muestra? ¿Cuáles son los criterios que se deben tener en cuenta para determinarlo? 3.57 ≤ σ2 ≤ 246. 2 χ ⎢ χ (n − 1) (n − 1) α / 2 1− α / 2 ⎢ ⎣ ⎤ ⎡ ⎤ ⎥ ⎢ (22 −1)⋅121 (22 −1) ⋅121⎥ ⎡ 2541 2541⎤ .46 ≤ σ ≤ 15.Se desea estimar el ingreso medio de una población que sigue aproximadamente una distribución normal constituida por 10 personas y para ello se seleccionó una muestra de 5 personas.Halle una estimación puntual de μ y de σ2.025 ⎥ 0.? 4. 149. recogiéndose de ellos lo siguiente: ingresos: 150...Si el tamaño de una muestra es de 225 unidades en una población de 3000 elementos y se conoce que la característica en estudio tiene una varianza de σ2 = 400.71 EJERCICIOS DE AUTOEVALUCIÓN 1.α = 0.¿Qué ventajas tendrá una estimación por intervalo sobre una estimación puntual.¿Con que distribución de probabilidad se trabaja el intervalo de confianza de la proporción poblacional y que condiciones se deben dar? ¿Y con que distribución de probabilidad se trabaja el intervalo de confianza de la varianza y desviación típica poblacional?.69. 148.

a. de los cuales 18 son fumadores.admisible puede obtenerse con una confiabilidad de un 95%..En estimaciones puntuales b. Dé un estimado de la verdadera proporción de fumadores y del total de fumadores de dicha población.De una población de 200 trabajadores se han muestreado 30. 97 . Calcule el tamaño de la muestra necesario para una estimación confiable (utilice un nivel de confianza del 95%). 9...En estimaciones por intervalo con una confianza del 99%.05.. con una d = 0. si una muestra arroja una proporción del 50%. para la estimación de la media poblacional. 8.Se conoce que el número de propietarios de autos de la ciudad de la Habana es de 9000 y se desea estimar la proporción de ellos que se encuentran retrasados en el pago de impuesto sobre circulación terrestre en el mes de junio del año 1997.

cuando se quiere conocer si un método de enseñanza determinado. CARACTERÍSTICAS GENERALES DE UNA PRUEBA DE HIPÓTESIS: Si el desarrollo de una prueba requiere del conocimiento de parámetros o características de la distribución de la población. se le clasifica como prueba paramétrica. estos datos no son requeridos. Desarrollo general de pruebas de hipótesis. Para verificar si la suposición es cierta o no se debe. • En el deporte. • En la educación. p u otro) y con θo el valor histórico conocido para dicho parámetro. si. se hablará de una prueba no paramétrica. por ejemplo: • En la agricultura. En el proceso de desarrollar una prueba de hipótesis a partir de una determinada suposición. Conceptos básicos. aumenta la promoción o no. una hipótesis estadística siempre se subdivide en dos: una llamada hipótesis nula (Ho) y otra llamada hipótesis alternativa (H1). El desarrollo de pruebas de hipótesis forma parte de los métodos de la Estadística Inferencial vinculados directamente la toma de decisiones. y como tal se utiliza en prácticamente cualquier rama de las ciencias y la tecnología. En general. y teniendo en cuenta el comportamiento probabilístico de los estimadores usados. Pruebas para medias en una población. tomar una muestra de la población y calcular sobre ella una estimación del parámetro o parámetros en cuestión.TEMA V: PRUEBAS DE HIPÓTESIS 5. cuando se quiere conocer si un medicamento disminuye o no el tiempo de restablecimiento de un paciente. y se formula entonces lo que se llama hipótesis estadística. σ2. entonces. con θ se representa el parámetro en cuestión (que puede ser μ. La simbología usada en este contexto es análoga a la que se utiliza en el contexto general de la Teoría de la Estimación: así. lo que equivale a decir que es una hipótesis que contiene una igualdad o algo similar. cuando se quiere conocer si un estilo de juego mejora o no los resultados. a partir de esas estimaciones. Hipótesis alternativa (H1): Es la hipótesis que deberá ser aceptada si la nula se rechaza. Desarrollo del contenido: Una prueba de hipótesis suele girar en torno al valor de uno o varios parámetros poblacionales –o al comportamiento de la distribución de la población–. y tiene asociado algún tipo de desigualdad estricta. • En medicina. cuando se quiere conocer si un nuevo fertilizante aumenta el rendimiento o no. Hipótesis nula (Ho): Es una hipótesis de diferencias nulas. se puede llegar a una conclusión sobre la suposición o hipótesis de partida. sobre lo cual se tiene alguna suposición previa basada en evidencia empírica o teórica.1. por el contrario. se busca como traducir dicha suposición a términos de algún parámetro o estadígrafo. Al plantear el par de hipótesis nula y alternativa surge alguno de los tres casos siguientes: 98 .

y suele ser en muchos casos la que se formula primero. se quiere verificar si el valor del parámetro ha variado en algún sentido. O sea. pero ˆ ˆ si θ ≤ θc. se rechazaría H0. O sea. ya que si Ho se rechaza ello implica que H1 se acepta. aunque sea θ > θ0. adoptándose H1. todo lo cual da lugar a los siguientes conceptos: ˆ Estadístico o estadígrafo de prueba: Es el estimador ( θ ). o incluso aumentó. estando separadas ambas regiones por el valor crítico. Valor crítico (C o θc): Es un valor numérico que se calcula a partir del dato histórico conocido y de la distribución probabilística del estimador. por ello es esta última es la que recoge la igualdad. contraponiendo esto a que se mantiene igual. estricta o no. 99 . se asocia a la situación que existía hasta el momento del cambio. La necesidad del valor crítico puede entenderse por el hecho de que el estadígrafo de prueba. Comúnmente la hipótesis alternativa representa la hipótesis de investigación. por el contrario. como se representa en los siguientes esquemas: ˆ Caso del posible aumento: Si θ > θc. Región crítica ó región de rechazo (W o Wc): Es el conjunto de valores del estadístico de prueba a partir de los cuales se rechaza la hipótesis nula. La decisión estadística se basa en estimaciones efectuadas sobre la muestra aleatoria tomada. no se debe comparar directamente con el dato histórico. que se utiliza para tomar una decisión respecto al comportamiento del parámetro en estudio. sino que se debe dejar una especie de margen para los posibles errores de estimación. la hipótesis nula. La ubicación de la región crítica respecto al dato histórico depende de la hipótesis alternativa. y puede ser unilateral (a la derecha o a la izquierda) o bilateral (a ambos lados). o alguna transformación de éste. La distribución del estadístico de prueba se divide en dos partes la región de rechazo y la región de no rechazo o aceptación. para que el estadígrafo de prueba se compare con él y se pueda tomar una decisión. no hay evidencia de un aumento significativo. al ser el resultado de una estimación. se quiere verificar si el valor del parámetro ha aumentado. lo que se desea verificar después de algún cambio en el sistema en estudio. a lo ya conocido. contraponiendo esto a que se mantiene igual. contraponiendo esto a que se mantiene igual. se quiere verificar si el valor del parámetro ha disminuido.Ho: θ = θo ( ó Ho: θ ≤ θo ) H1: θ > θo Ho: θ = θo ( ó Ho: θ ≥ θo ) H1: θ < θo Ho: θ = θo H1: θ ≠ θo O sea. En muchos casos Ho se formula con la intención expresa de ser rechazada. o incluso disminuyó.

100 . Ho: θ = θo ( ó Ho: θ ≥ θo ) H1: θ < θo Ho: θ = θo H1: θ ≠ θo Debe señalarse. El nivel de significación es escogido en la práctica por el investigador. adoptándose H1. se rechazaría H0.α). adoptándose ˆ ˆ H1. definido en la Teoría de la Estimación. pero si θc1 ≤ θ ≤ θc2. Nivel de significación (α): Es la probabilidad máxima con que se admite cometer el error considerado más grave. pero ˆ ˆ si θ ≥ θc. Esto es: Ho: θ = θo ( ó Ho: θ ≤ θo ) H1: θ > θo Se rechaza Ho para todo valor del estadístico de prueba que sea mayor que θc y se acepta Ho para todo valor del estadístico de prueba que sea menor o igual que θc. En lugar del nivel de significación a veces se utiliza el nivel de confianza (1 . no hay evidencia de variación significativa. aun si θ ≠ θ0. en ella se establece lo que se debe hacer. partiendo del valor crítico determinado. se rechazaría H0. aunque sea θ < θ0.01). no obstante.ˆ Caso de posible reducción: Si θ < θc.05) y 1% (0. no hay evidencia de una reducción significativa. en el caso que se acepte Ho no se debe plantear categóricamente que se acepta Ho. que en términos estrictamente estadísticos. Una vez fijado éste se puede calcular el valor crítico y determinar la región crítica. Se rechaza Ho para todo valor del estadístico de prueba que sea menor que θc y se acepta Ho para todo valor del estadístico de prueba que sea mayor o igual que θc. ya que es más factible refutar hipótesis que aceptarlas. Se rechaza Ho para todo valor del estadístico de prueba que sea menor que θc1 o mayor que θc2 y se acepta Ho para todo valor del estadístico de prueba que esté comprendido entre θc1 y θc2. ˆ Caso de posible variación: Si θ < θc1 ó ˆ θ > θc2. Los valores más usados son: 5% (0. Regla de decisión: Es una especie de traducción al lenguaje común de la región crítica. sino que “no hay elementos para rechazar Ho”. El término de significación se utiliza dado que conociendo el valor de α se podrá determinar cuál es el valor del estadístico de prueba a partir del cuál la diferencia entre éste y el parámetro se considera significativa.

es decir. y sus probabilidades. A partir de las definiciones se tiene: α = Ρ ( Rechazar H0 siendo cierta) Entonces: β = Ρ ( Aceptar H0 siendo falsa ) Entonces: ˆ α = Ρ( θ ∈ Wc / θ = θ0) ˆ β = Ρ( θ ∉ Wc / θ ≠ θ0) Luego. al otro se le llama Error tipo II. La probabilidad de un error de tipo I se conoce como α. es el nivel de significación. Observando las figuras anteriores se puede comprender mejor lo planteado: Se representa la distribución probabilística asociada al estadístico de prueba en una prueba dada. y se le denomina Error tipo I.POSIBLES ERRORES A COMETER: Al tomar una decisión es posible que se cometa uno de los dos siguientes errores: rechazar Ho siendo cierta o aceptar Ho siendo falsa. es el más grave. se les llama riesgo de los productores (α) y riesgo de los consumidores (β) respectivamente. provoca en general un aumento del otro. o sea. que la probabilidad de cometerlos sea lo suficientemente pequeña. interesa medir las magnitudes de esos errores y tratar de que estos sean lo más pequeños posible. Es por ello que la solución dada por los matemáticos es fijar la probabilidad de cometer el error de connotación más grave a un nivel aceptablemente bajo y tratar de hacer mínimo el otro. se desplaza el valor crítico (θ c). se prefija α. y aumenta β. En el contexto económico a los errores antes mencionados. Es apreciable que al disminuir α. Al riesgo de rechazar una hipótesis nula verdadera se le llaman riesgo de los productores porque que si 101 . El primero de estos posibles errores. Pero reducir la magnitud de ambos es imposible pues una disminución en uno de ellos. y la probabilidad de un error de tipo II se conoce como β. tanto para la hipótesis nula (θ 0) como para un valor de la alternativa (θ a). dadas sus consecuencias.

y si la decisión es errónea es una pérdida de posibles mejoras para el consumidor. según el parámetro en prueba) Toma de decisión y conclusión La decisión se toma utilizando el estadístico de prueba que nos facilitó la muestra y si el mismo cae en la región crítica se rechaza H0 y por tanto se acepta H1. Por su parte. como se ha dicho. si se toma como estadígrafo de prueba la propia media muestral ( x ). se puede elaborar una especie de algoritmo para desarrollar una prueba de hipótesis. las regiones críticas –atendiendo al tipo de hipótesis alternativa– quedan: Para cuando σ² es conocida: ⎧ σ ⎫ WC = ⎨x : x > μ 0 + Z1−α H1: μ > μo ⎬ n⎭ ⎩ ⎧ σ ⎫ H1: μ < μo WC = ⎨x : x < μ 0 − Z1−α ⎬ n⎭ ⎩ ⎧ σ H1: μ ≠ μo WC = ⎨x : x < μ 0 − Z1−α ó 2 n ⎩ x > μ 0 + Z1−α 2 σ ⎫ ⎬ n⎭ 102 . si cae en la región de no rechazo (de aceptación) no existen elementos para rechazar H0. al riesgo de aceptar una hipótesis nula falsa se le llaman riesgo de los consumidores porque una aceptación de la nula debería corresponderse con el hecho de que la mejor opción era la ya existente. la varianza y las proporciones en una población. que implicaría los siguientes pasos: • • • • • • • Análisis de los datos Formulación de las hipótesis nula y alternativa Elección del nivel de significación (α) Determinación del valor crítico (θ c) Planteamiento de la región crítica (W c) o de la regla de decisión Cálculo del estadístico de prueba (a partir de la muestra. PRUEBAS DE HIPÓTESIS PARAMÉTRICAS: Se le llama pruebas paramétricas.la hipótesis se rechaza es a favor de un cambio que supuestamente conlleva una mejora en las ventas. PASOS A SEGUIR EN LA CONSTRUCCIÓN DE UNA PRUEBA DE HIPÓTESIS: A manera de resumen. igual que cuando se hacen cálculos probabilísticos asociados a alguna estimación. Las pruebas paramétricas más conocidas son las pruebas respecto al comportamiento de la media. a aquellas que requieren del conocimiento de la distribución muestral de los estimadores asociados a los parámetros poblacionales. En función de esto. Pruebas para la media: En el caso de las pruebas para medias se debe tener en cuenta si se conoce la varianza poblacional real (σ²) o si se contará con una estimación de la misma (s²). y al ser errónea la decisión el productor pierde una posible ganancia extra.

que en dependencia de si se conoce o no la varianza poblacional recibe el nombre de estadígrafo Z o estadígrafo t respectivamente. Así se tiene.Z1-α } Wc = { Z0 : | Z0 | > Z1-α/2 } H1: μ ≠ μo Para cuando σ² es desconocida: Wc = { t0 : t0 > t1-α (n-1) } H1: μ > μo H1: μ < μo Wc = { t0 : t0 < . O sea: Z0 = x − μ0 σ/ n t0 = x − μ0 s/ n Si se usan estos estadígrafos de prueba las regiones críticas quedan expresadas de una manera más sencilla: Para cuando σ² es conocida: H1: μ > μo Wc = { Z0 : Z0 > Z1-α } H1: μ < μo Wc = { Z0 : Z0 < . en particular la toma de la muestra mediante un muestreo aleatorio simple y la asunción de normalidad poblacional de la variable. Las pruebas para proporciones se basan en las mismas condiciones o supuestos analizados para considerar adecuada la proporción muestral como estimador de la proporción poblacional: desarrollar un muestreo aleatorio simple y contar con una muestra tal que n > 30. en correspondencia con la distribución muestral que sigue. si n > 30. para los distintos casos de hipótesis alternativas las regiones críticas siguientes: 103 . ello puede expresarse como una prueba de hipótesis para proporciones. o sea. que algunos llaman vía interna de solución.Para cuando σ² es desconocida: ⎧ WC = ⎨x : x > μ 0 + t 1−α (n−1) H1: μ > μo ⎩ ⎧ H1: μ < μo WC = ⎨x : x < μ 0 − t 1−α (n−1) ⎩ ⎧ WC = ⎨x : x < μ 0 − t 1−α H1: μ ≠ μo 2 ( n −1) ⎩ s ⎫ ⎬ n⎭ s ⎫ ⎬ n⎭ s n ó x > μ 0 + t 1−α 2 ( n −1) s ⎫ ⎬ n⎭ Nota: Aquí igualmente deben tenerse en cuenta las condiciones necesarias o supuestos de aplicación de la distribución probabilística adecuada.t1-α (n-1) } Wc = { t0 : | t0 | > t1-α/2 (n-1) } H1: μ ≠ μo Pruebas para proporciones: Si lo que interesa verificar es la posible variación en algún valor porcentual o en el resultado del conteo de alguna variable. es utilizar como estadígrafo de prueba la conocida estandarización de la media muestral. Otra variante. También puede sustituirse el uso de la t por Z cuando la muestra es suficientemente grande.

o sea. cuando se usa Z. o difieren o no de cierto valor dado. Esta prueba se hará bajo el supuesto de que se tiene una muestra aleatoria simple procedente de una distribución.Z1-α } Wc = { Z0 : | Z0 | > Z1-α/2 } Este resultado para las regiones críticas coincide con en el de las pruebas para medias cuando la varianza poblacional es conocida. las regiones críticas para los posibles casos de alternativas resultan: ⎫ ⎧ σ2 2 WC = ⎨s 2 : s 2 > χ 1−α (n−1) ⎬ n −1 ⎭ ⎩ 2 ⎫ ⎧ σ WC = ⎨s 2 : s 2 < • H1: σ2 < σ20 χ 2 (n−1) ⎬ α n −1 ⎭ ⎩ 2 ⎫ ⎧ σ σ2 2 2 WC = ⎨s 2 : s 2 < • H1: σ2 ≠ σ20 χ α (n−1) ó s 2 > χ 1−α (n−1) ⎬ 2 n −1 2 n −1 ⎭ ⎩ 2 (n − 1) s 2 Por la vía interna de solución el estadígrafo de prueba es: χ 0 = 2 σ0 Y las regiones críticas son: • H1: σ2 > σ20 H1: σ2 > σ20 H1: σ2 < σ20 H1: σ2 < σ20 Wc = { χ20 : χ20 > χ21-α } Wc = { χ20 : χ20 < χ2α } Wc = { χ20 : χ20 < χ2α/2 ó χ20 > χ21-α/2 } 104 . lo que varía es la forma en que se calcula el estadígrafo de prueba. Pruebas para la varianza: Cuando es de interés determinar si la variabilidad en el valor de una magnitud medida con determinado método no supera ciertos límites.• • • H1: p > p0 H1: p < p0 H1: p ≠ p0 ⎧ p 0 q0 ⎫ ⎪ˆ ˆ ⎪ WC = ⎨p : p > p 0 + Z 1−α ⎬ n ⎪ ⎪ ⎩ ⎭ ⎧ p 0 q0 ⎫ ⎪ˆ ˆ ⎪ WC = ⎨p : p < p 0 − Z 1−α ⎬ n ⎪ ⎪ ⎩ ⎭ ⎧ p 0 q0 ⎪ˆ ˆ WC = ⎨p : p < p 0 − Z 1−α ó 2 n ⎪ ⎩ ˆ p > p 0 + Z 1−α 2 p 0 q0 n ⎫ ⎪ ⎬ ⎪ ⎭ Para la vía interna de solución se recurre al estadígrafo: Z 0 = ˆ p − p0 p 0 q0 n Y las regiones críticas quedan: H1: p > p0 H1: p < p0 H1: p ≠ p0 Wc = { Z0 : Z0 > Z1-α } Wc = { Z0 : Z0 < . el problema se reduce a realizar una prueba de hipótesis para la varianza poblacional. Atendiendo a que el estimador de la varianza tiene asociado a su distribución muestral una chicuadrado. Esto evidencia una de las ventajas de la vía interna: las regiones críticas suelen permanecer inalterables para un tipo de alternativa dado.

lo primero que se hace es analizar a que parámetro se le va a hacer la prueba. se tiene que x ∼ N (µ .Ejemplo 1: En una fábrica se producen cuerdas cuya resistencia promedio es de 500 kgf (kilogramofuerza). tomándose una muestra de 64 de las cuerdas producidas. con una desviación típica de 40 kgf.2 Se acepta H0 si x ≤ 508. que con la nueva materia prima la resistencia promedio no varía o incluso disminuye. El jefe de producción plantea que con otra materia prima la resistencia promedio puede aumentarse.) H1: µ > 500 (Dice que con la nueva materia prima la resistencia promedio aumenta. o sea: µ ≤ 500.64 (5) } = { x : x > 500 + 8. Formulación de las hipótesis: H0: µ = 500 (Dice que con la nueva materia prima la resistencia promedio no varía.2 } Regla de decisión: Se rechaza Ho si x > 508. σ / n ).2 105 .05 Dado que σ2 es conocida. En este caso se plantea que con la nueva materia prima la resistencia promedio puede aumentarse. y esto está en dependencia de lo que se va a investigar. luego las fórmulas para el cálculo de la región crítica que se deben utilizar son las de la normal.95 (40 / 64 ) } = { x : x > 500 + 1. por lo que evidentemente se debe efectuar una prueba de hipótesis de media ( μ ). es decir. Datos: µ0 = 500 σ = 40 n = 64 x = 510 α = 0.2 } Por tanto: Wc = { x : x > 508. para ello lo segundo que se hará es sacar la información que brinda el problema. Se quiere realizar la prueba de hipótesis correspondiente para un 5% de significación.) Nota: H0 hubiera podido ser también totalmente contraria a H1. Solución: Al enfrentar un problema de este tipo. Se debe determinar entonces si se conoce la varianza poblacional ( σ²) o no. para la cual la resistencia promedio fue de 510 kgf. Región crítica: ⎧ σ ⎫ WC = ⎨x : x > μ 0 + Z1−α ⎬ n⎭ ⎩ = { x : x > 500 + Z0. Para probar su planteamiento se utilizó de forma experimental la nueva materia prima.

64 Decisión: x − μ 0 510 − 500 10 Z0 = = = = 2 > ZC = 2 40 5 σ/ n 64 o sea: Z 0 ∈ WC Por tanto.9 s = 1. se rechaza H0.64 Se acepta Ho si Z0 ≤ 1. Al tomar esta decisión pudo cometerse el error tipo I. La prueba hubiera podido desarrollarse también por la llamada vía interna.1 litros. o sea: x ∈ WC Por tanto. Luego.1 σ = ? n = 16 σ = 9. ¿Hay razón para afirmar que ha variado la producción medio diaria de leche por vaca? Solución: Esta es una prueba paramétrica sobre la media.9 litros con una desviación estándar de 1. ya que de lo que se trata es de verificar si ha tenido variación la producción promedio diaria de leche por vaca. en este caso. se tiene que trabajar obligatoriamente con la distribución t'Student. 106 . de la misma manera.64} Regla de decisión: Se rechaza Ho si Z0 > 1.95 } = { Z0 : Z0 > 1. con un nivel de significación del 5. y se llega a igual conclusión: el cambio de materia prima puede aumentar la resistencia promedio de las cuerdas. para las mismas hipótesis planteadas se tendría: Región crítica: Wc = { Z0 : Z0 > Z1-α } = { Z0 : Z0 > Z0. Ejemplo 2: La producción promedio diaria de leche por vaca en la provincia en los meses de verano ha sido en los años anteriores de 10. lo cual permite concluir. Datos: μ = 10. se rechaza H0 Esto implica que se acepta H1. para el cálculo de la región crítica. rechazar una hipótesis nula cierta.1 litros.1 Nota: Este es un caso típico en que se desconoce la varianza poblacional ( σ 2 ).2. al ser n < 30. Este año en una muestra simple aleatoria de 16 días de los meses de verano se obtuvo una producción media diaria por vaca de 9. por ello se indica el nivel de significación usado. que con la nueva materia prima la resistencia promedio puede aumentarse.Toma de la decisión: x = 510 > µC = 508. pues la desviación estándar disponible es una estimación calculada sobre la propia muestra.

514 ≤ x ≤ 10.0.13 } Decisión: x − μ 0 9.9 − 10.1 Nivel de significación: α = 0. Ejemplo 3: Se afirma que un lote de piezas contiene menos del 30% de piezas defectuosas.2 t0 = = = = −0. ¿Hay razón para mantener la afirmación con una significación del 5%? 107 .1 + 0.275) } > 10.586 } > 9.13 (0.975 (15) (1.1 + 2. El error que se pudo haber cometido al tomar la decisión anterior es de tipo II.686 } Regla de decisión: Rechazar Ho si x < 9.13 (0. con un 5% de significación.9 < 10. Para comprobarlo se revisan 50 piezas del lote seleccionadas al azar.514 ó x > 10.1 .1 − 0.686. se llegaría a idéntica conclusión si se utilizara la vía interna de análisis.1 . o sea: x ∈ WC Por tanto.514 ó x > 10.1 H1: μ ≠ 10. Por supuesto. entre las cuales se detectan 10 defectuosas.05 (Cuando no se sugiere ninguno.686 Decisión: x = 9.975 (15) (1. no rechazar H0.1 / 16 ) } > 10.Hipótesis: Ho: μ = 10. no se rechaza H0 Entonces se concluye que no hay elementos para asegurar.975 (15) } = { t0 : | t0 | > 2.686 No rechazar Ho si: 9.514 y 9. el nivel de significación lo decide el estadístico. otra vez.586 ó x > 10.t0.9 > 9.2.13 la decisión es.) Región crítica: ⎧ s WC = ⎨x : x < μ 0 − t 1−α 2 ( n −1) n ⎩ ó x > μ 0 + t 1−α 2 ( n −1) s ⎫ ⎬ n⎭ ={ ={ ={ ={ x: x: x: x: x x x x > 10.1 / 16 ) ó x > 10.727 0.1 16 Como: | t0 | = 0.1 + t0.275 s/ n 1. que la producción promedio diaria de leche por vaca ha variado en la región. como se demuestra a continuación: Región crítica: Wc = { t0 : | t0 | > t1-α/2 (n-1) } = { t0 : | t0 | > t0.727 < 2.1 .275) ó x > 10.

Datos: X: cantidad de piezas defectuosas n = 50 piezas xn = 10 piezas defectuosas Hipótesis: H0: P ≥ 0.70 0.64} Decisión: ˆ p − p0 0. no se rechaza Ho.10 Z0 = = = = −1.30 − Z 0.64 ⋅ 0.064 50 n O sea.30 Región crítica: ⎧ p 0 q0 ⎫ ⎧ 0. ya que lo que se está investigando es sobre la proporción de piezas defectuosas. evidentemente es de proporciones.30 − 1. Ejemplo 4: El precio de cierto producto en el mercado mundial exhibió durante el pasado año una variabilidad expresada en términos de una desviación típica de 0.95 } = { Z0 : Z0 < -1.30 − 0. el 30%. con lo cual la decisión sigue siendo no rechazar H0. Entonces.20 > 0. es una hipótesis: la hipótesis alternativa. Z 0 ∉ WC .05 p0 = 0.30 − 1.95 ⎬ = p : p < 0.0042 50 n ⎪ ⎪ ⎪ ⎪ ⎭ ⎩ ⎭ ⎩ α = 0.Solución: Esta prueba.064} = {p : p < 0.195} Decisión: x 10 ˆ p= n = = 0. La afirmación que se quiere verificar.30 { } ˆ ˆ ˆ ˆ ˆ ˆ = {p : p < 0.105} = {p : p < 0.5625 > -1.64 p 0 q0 0. y se tiene como dato con el conteo de éstas en la muestra tomada. Una muestra 108 .30 − 0.30 H1: p < 0.70 ⎫ ⎪ˆ ˆ ⎪ ⎪ˆ ˆ ⎪ ˆ ˆ WC = ⎨p : p < p 0 − Z1−α ⎬ = ⎨p : p < 0.64 0.30 ⋅ 0.4 dólares. referente a que menos del 30% de las piezas es defectuosa.195 n 50 ˆ O sea. p ∉ WC Por tanto. luego.20 − 0. bajo el α usado no se puede afirmar que el lote contiene menos del 30% de piezas defectuosas. Utilizando la vía interna se tiene: Región crítica: Wc = { Z0 : Z0 < -Z1-α } = { Z0 : Z0 < -Z0.30 ⋅ 0. no es algo dado por seguro. es el equivalente a una proporción histórica. y el dato a tomar como referencia.

.3 > 42.aleatoria de 30 días correspondiente al presente año dio como resultado una desviación típica de 0.Explique qué significan los términos hipótesis nula e hipótesis alternativa. EJERCICIOS DE AUTOEVALUACIÓN.16 σ0 2 O sea.52 = 0. como era de esperar.05 Nota: σ0 = 0. Esto que implica que se acepte H1.16 0. mientras que. 1. Solución: Ya que lo que se quiere investigar es la estabilidad del precio.4 s = 0.16 (El precio actual se mantiene con la misma estable.235 O sea.6} Decisión: (n − 1) s 2 29 ⋅ 0.) Región crítica: ⎫ ⎧ ⎧ 0.25 2 χ0 = = = = 45.5 n = 30 α = 0.235 χ1−α (n−1) ⎬ = ⎨s 2 : s 2 > n −1 29 29 ⎭ ⎩ ⎭ ⎭ ⎩ ⎩ { } Decisión: s2 = 0.16 Hipótesis: Ho: σ2 = 0. ¿Hay razón suficiente para creer que el precio del producto es menos estable este año que el pasado? Considere un α = 0.5 dólares. y se cuenta dato con desviaciones típicas.) (El precio actual es menos estable. con una significación del 5% (o una confiabilidad del 95%) que el precio del producto este año es menos estable que en el anterior. se rechaza H0. un precio más estable implica menor varianza.05. χ 0 ∈ WC Por tanto.16 H1: σ2 > 0.25 7.6 2 0.6⎬ = s 2 : s 2 > 0. queda claro se debe efectuar una prueba de varianzas. esto es.95 ( 29 ) ⎬ = ⎨s 2 : s 2 > 42.16 σ2 2 ⎫ ⎧ ⎫ WC = ⎨s 2 : s 2 > χ 0. puede decirse.4 ⇒ σ02 = 0. con mayor variabilidad. s 2 ∈ WC Por tanto. por el contrario. Datos: σ0 = 0. llegándose a las mismas conclusiones. 109 . Es bueno destacar que un precio menos estable implica mayor varianza. o sea. Por la vía interna sería: Región crítica: Wc = { χ20 : χ20 > χ21-α } = { χ20 : χ20 > χ20. es decir su variabilidad.16 2 0.95 }= { χ20 : χ20 > 42. se rechaza H0.25 > 0.

05 110 .Supóngase que se conocen los resultados de una prueba de aptitud para la admisión a estudios de grado en Administración de Empresas. se conoce que μ = 2.¿Cuál es la relación de β con el error de tipo II? 5.Se conoce que en una ciudad. El gerente comercial de la cadena desea estimar la proporción de bolígrafos defectuosos.8 pies cuando el proceso funciona correctamente.40. la proporción de hombres es de 0.05 y que pudiera devolverse el embarque?.05 11.. Utilice un α = 0. Entrega barras de acero con una longitud promedio de por lo menos 2. La planta embotelladora ha informado a la división de inspección que se desconoce la desviación típica de la población. Se puede devolver el embarque si más del 5% están defectuosas.Explique qué indica el error tipo I y el error tipo II.01 8. De la línea de producción se selecciona una muestra de 25 barras.43 pies y una desviación típica de 0. Se pide hacer la prueba para un α = 0.02.La compañía Acero Valle Verde fabrica barras de acero..05 litros.¿En muestras con menos de 30 observaciones se puede considerar que la proporción muestral sigue una distribución normal? 10. La compañía desea determinar si se necesita ajustar el equipo de producción. se toma una muestra aleatoria de 300 bolígrafos y se encuentran que 30 están defectuosas... los cuales tienen una distribución normal con media de 500 y una desviación típica de 100. se extrajo una muestra aleatoria de tamaño 100. ¿Sería probable que la proporción de plumas defectuosas fuera superior a 0.01 6. y que al tomar una muestra aleatoria de 100 botellas.. recibe de una firma un embarque de cierta marca de bolígrafos baratos..La cadena de tiendas Gaviota. Si una muestra aleatoria de 12 solicitantes del Stephan College tiene una media muestral de 537 ¿existe evidencia de que su resultado medio sea diferente de la media esperada de todos los solicitantes? Use α = 0. mostró un promedio de 1. Utilice un α = 0..Una gran cadena nacional de electrodomésticos tiene una venta especial por fin de temporada de podadoras de césped. Para verificar este supuesto..20 pies.05 ¿se puede llegar a la conclusión que se haya vendido un promedio de más de 5 podadoras por tienda durante esta venta? ¿Qué suposiciones se requiere para realizar esta prueba? ¿Qué error se pudiera estar cometiendo con la decisión tomada? 9. ¿Es posible concluir que la cantidad promedio en las botellas fuera menos de 2 litros? Utilice un α = 0.99 litros y una desviación típica de 0.. Se supone que después de la construcción de una gran industria.La división de inspección del departamento de pesas y medias de la provincia Habana está interesada en confirmar la cantidad real de refrescos que se envasa en botellas de 2 litros. 3. resultando que la misma está integrada por 45 hombres y 55 mujeres. 7. La muestra señala una longitud promedio de 2.2. A continuación se presenta el número de podadoras vendidas durante esta venta en una muestra de 10 tiendas: 8 11 0 4 7 8 10 5 8 3 A un α = 0. la proporción de hombres aumentó..05 y diga qué error pudo estar cometiendo con la decisión tomada.¿Cuál es la relación de α con el error de tipo I? 4.

Un fabricante de aparatos de televisión ha afirmado en su garantía que en el pasado solo el 10% de sus aparatos necesitaron alguna reparación durante sus dos primeros años de funcionamiento. el departamento de control de la calidad del ministerio seleccionó una muestra de 100 aparatos y encuentra que 14 de ellos requirieron alguna reparación durante sus primeros dos años de funcionamiento. ¿es válida la afirmación del fabricante o es probable que no lo sea? 111 . Utilizando un α = 0.12.01.. Para comprobar la validez de esta afirmación.

P( θ ∉ Wc / θ = θk) = P( θ ∈ Wc / θ = θk) Si β representa la probabilidad de aceptar una hipótesis nula falsa. Este error se puede graficar y se obtiene la llamada curva característica de operación o curva OC (por las iniciales en inglés: Operation Characteristic) de gran utilidad en técnicas estadísticas. pero también depende de algún valor específico asociado a la hipótesis alternativa (θk).β(θk) = 1 . Se puede decir entonces que la función de potencia permite calcular la probabilidad de descubrir la falsedad de una hipótesis nula. o sea: β = β(θk). Gráficamente se comporta como una curva con tendencia asintótica a 1 en la medida en que θk se adentra en la región crítica. La función de potencia también se suele graficar. por el otro extremo. la curva es asintótica a 0: 112 . Tradicionalmente el estadístico controla el error tipo I estableciendo el nivel de riesgo que está dispuesto a tolerar en términos de rechazar una hipótesis nula verdadera. por ello se suele describir a β como función del parámetro en prueba. ya que. si la prueba es unilateral. Tamaño de la muestra. no está controlado.β(θk) En forma directa se puede plantear: ˆ ˆ П(θk) = 1 . es decir muestra la probabilidad de no rechazar una hipótesis nula falsa para cada posible valor verdadero del parámetro poblacional. Función de potencia. fijando el α de la prueba. Si se procede a la inversa y se establece de antemano la región crítica a usar. Para lograr la curva característica deben elegirse varios valores representativos para dicho parámetro y calcular β para cada uno. como se dijo. Equivalentemente. pues permitir determinar los riesgos que se derivan de no rechazar una hipótesis nula falsa. Una vez especificado el valor de α queda determinado el tamaño de la región crítica o de rechazo. Se le llama función de potencia a la expresión: П(θk) = 1 . se puede calcular lo que se denomina potencia de la prueba. y a dicha probabilidad para un θk dado se le llama potencia de la prueba. П viene a representar la probabilidad de rechazar dicha hipótesis nula falsa. se puede calcular el α a partir de su propia definición: α = P( Rechazar H0 siendo cierta) Entonces: ˆ α = P( θ ∈ Wc / θ = θ0) De la misma forma se puede calcular el valor de β asociado al error de tipo de II: β = P( Aceptar H0 siendo falsa ) Entonces: ˆ β = P( θ ∉ Wc / θ ≠ θ0) El valor de β depende del α escogido –o del valor crítico derivado-.2: Tamaño del error tipo II. el mismo está asociado a situaciones como las provocadas por que artículos de mala clase sean aceptados para la venta. es decir. En muchas aplicaciones estadísticas el segundo tipo de error (error tipo II). con pérdida para el consumidor. pero aun entonces el que realiza el experimento debe estar enterado de la existencia de este error y tener una idea de lo grande que puede ser.5.

En general. pero ocurre lo contrario si el verdadero valor está muy alejado del hipotético. y muy pequeño por tanto el tamaño probabilístico del error tipo II. П(θC) = ½ = 0.5 113 . o sea. la potencia de la prueba. observables en los gráficos: 1. П(θ0) = α 2. será alta. la probabilidad de descubrir un cambio en la situación en estudio –si lo hubo-.Los gráficos anteriores permiten concluir que cuando el valor real de un parámetro sometido a prueba se aleja mucho del valor hipotético. La función de potencia cumple además con las dos propiedades siguientes. se dice que una prueba es potente para un valor alternativo dado si su potencia es mayor del 80 u 85%.

se usará la distribución Z. el valor de β no sobrepase una determinada cota. para hacer los análisis pertinentes se tomó una muestra aleatoria de 25 paquetes.σ/ n ). Hipótesis: Ho: μ = 368 H1: μ < 368 Región crítica: ⎧ 15 ⎫ σ ⎫ ⎧ WC = ⎨x : x < μ 0 − Z1−α ⎬ = {x : x < 368 − 1. Diga qué error pudiera cometerse. b) Si el gerente plantea que él está sobre todo interesado en detectar disminuciones en el peso medio por encima de los 10 gramos.5 > 363. mediante despeje. β y la potencia de una prueba. conviene analizar una situación concreta. La oficina local de protección a los consumidores hace inspecciones periódicas para conocer si el peso de los paquetes de cereal producidos por la fábrica tienen el peso adecuado. esta vez. ¿es potente la prueba para ello? c) ¿Qué pasaría con la prueba si el gerente decide utilizar como valor crítico μC = 367 gramos? d) ¿Qué tamaño debe tener la muestra que se utilice si se quiere una significación del 5% y una potencia del 98% para detectar disminuciones de al menos 5 gramos en el peso promedio? Solución: a) Datos: X: peso neto de las cajas de cereal (gramos) μ0 = 368 σ = 15 n = 25 x = 367.95 n⎭ ⎩ 25 ⎭ ⎩ Por lo tanto la región de rechazo será: WC = { x : x < 363. que resultó igual a 367.92} ⎬ = ⎨x : x < 368 − Z 0. entonces x ∼ N (μ . es decir.5 gramos.σ ). a) Haga la prueba correspondiente para un α = 0.64 ⋅ 3} = {x : x < 368 − 4. calculándose el peso promedio.08 } Decisión: x = 367. siendo σ conocida. una vez fijado el valor de α. Calcule la potencia de la prueba. Ejemplo ilustrativo: Para ver una aplicación de lo planteado respecto a los valores de α.05 Como X ∼ N (μ .05. el tamaño de muestra necesario para que. y cuál es su tamaño probabilístico.5 α = 0.Una de las principales aplicaciones de la función de potencia es determinar. como la que se expone a continuación: El proceso de llenado de los paquetes de cereales en una determinada fábrica está ajustado de forma tal que el peso neto de los paquetes sigue una distribución normal con media de 368 gramos y una desviación típica de 15 gramos.08 O sea: x ∉ WC 114 . si se desea conocer si el peso promedio de los paquetes ha disminuido.

9049 Ahora la potencia correspondiente es: П(μk2) = 1 . dos valores: μk1 = 320. El tamaño probabilístico del posible error puede determinarse como sigue: β = P ( x ∉ WC / μ = μk) = P ( x > μC / μ = μk) Y luego.0951 Este otro resultado indica que existe una probabilidad alta de concluir que el peso promedio no ha disminuido –o sea.β(μk2) = 1 – 0. hasta μk2 = 367 se tiene: 363.51%) para detectar disminuciones en el peso neto medio si éste ha disminuido levemente. En términos de la potencia.08 − 320 15 25 ) = P ( Z > 14.36) = 1 – 1 = 0 Y la potencia correspondiente es: П(μk1) = 1 . la diferencia observada puede deberse a la aleatoriedad de la propia muestra. Así.36 ) = 1 . calcular directamente П(μk): 115 .si en realidad ha disminuido muy poco. Para ello se puede calcular primero la correspondiente β(μk). la potencia de la prueba será: П(μk) = 1 . su cálculo y el de la potencia requieren que se considere algún valor alternativo para el verdadero peso neto medio de las cajas (μk). muy alejado de μ0. hasta μk1 = 320 se tiene: β(μk1) = P ( x > μC / μ = μk1) = P ( x > 363.β(μk) Dado que β depende de algún valor específico del parámetro. de no detectar su disminución. y μk2 = 367. muy cercano de μ0.FZ (-1.0951 = 0. o mejor.08 − 367 β(μk2) = P ( x > μC / μ = μk2) = P ( x > 363. sería de tipo II. para una mínima disminución. de no detectar su disminución. con la significación escogida (α = 0.05) no hay elementos para asegurar que el peso medio de los paquetes de cereales es inferior a lo debido.31 ) 15 25 = 1 .08 / μ = 367) = P ( Z > ) = P ( Z > -1.31) = 1 – 0. En términos de la potencia. para una gran disminución. Por su parte. de haberse cometido un error.FZ (14.10 = 358 Lo que se quiere es determinar la potencia de la prueba para μk = 358.9049 = 0. la prueba es muy poco potente (П=9. Pudieran considerarse. A partir de esta decisión.β(μk1) = 1 – 0 = 1 Este resultado indica que existe una probabilidad muy pequeña (casi cero) de concluir que el peso promedio no ha disminuido –o sea.si en realidad ha disminuido mucho. la prueba es muy potente (П=100%) para detectar disminuciones en el peso neto medio si éste realmente ha disminuido mucho. b) Datos: Δμ = -10 (disminución de 10 gramos) μk = μ0 + Δμ = 368 .Esto indica que.08 / μ = 320) = P ( Z > 363.

estando más cerca de μ0.5 = 363 α = 0. la potencia deseada para la prueba es la probabilidad acumulada hasta el valor de Z obtenido en la expresión anterior. lo cual implica que se despeje de la función de potencia: ⎛ ⎛ μ − μk ⎞ μ − Z 1−α σ n − μ k ⎟ = P⎜ Z < 0 Π(μ k ) = P( x < μ C / μ = μ k ) = P⎜ Z < C ⎜ ⎟ ⎜ σ n ⎠ σ n ⎝ ⎝ ⎞ ⎟ ⎟ ⎠ O sea. pues existe un 95.33) = 0. Por tanto: 116 .05 П (μk) = 0.07%.33 ) = FZ (-0. al ser mayor el nuevo valor crítico. d) Datos: Δμ = -5 (disminución de 5 gramos) μk = μ0 + Δμ = 368 . En este caso. la prueba es altamente potente.69 ) Es decir.69) = 0.3707 Se obtiene. el nivel de significación de la prueba o probabilidad de cometer un error de tipo I cambia. del 33. pues. como se ve en la siguiente figura.45% de probabilidad de detectar una disminución en el peso neto medio de los paquetes si hay una disminución real de 10 gramos o más.08 / μ = 358) = P ( Z < = FZ (1. una probabilidad alta para el error tipo I.9545 363. El nuevo valor de α puede calcularse como sigue: α = P( x < μC / μ = μ0) = P( x < 367 / μ = 368) = P ( Z < 367 − 368 15 25 ) = P ( Z < -0.08 − 358 15 25 ) = P ( Z < 1.98 Se quiere determinar n para un nivel de significación y una potencia prefijados.П (μk) = P ( x < μC / μ = μk) = P ( x < 363. c) Datos: μC = 367 Si se toma un valor crítico distinto. el nivel de significación debe aumentar.

117 . de ahí la necesidad de tomar en cuenta las consecuencias de cada error. Para la determinación del tamaño de muestra necesario se recurre al despeje de la función de potencia. pero puede haber límites en los recursos disponibles. entonces se querría estar muy seguro de que un cambio resultaría beneficioso por lo que un error tipo I pudiera ser lo más atendible y α se mantendría muy bajo. sería lo más importante y se podría utilizar un nivel más alto de α. Así la selección de los valores que deben tener α y β depende de los costos inherentes a cada tipo de error. El riesgo de un error tipo I en el problema de llenado de los paquetes de cereales implica llegar a la conclusión de que el peso promedio ha cambiado cuando en realidad no es así. Por otra parte. pues siempre que se disminuye α aumenta β.98 = 2. Por ejemplo si fuera muy costoso hacer cambiar la línea de llenado. quien deba tomar la decisión tiene que equilibrar los dos tipos de errores. El riesgo de un error tipo II implica llegar a la conclusión de que el peso promedio de llenado no ha cambiado cuando en realidad sí ha cambiado.ZΠ = μ 0 − Z 1−α σ σ n − μk n . Los valores para α y β dependen de la importancia de cada riesgo en un problema en particular.05 Y efectuando los despejes previstos: ZΠ σ n = μ 0 − Z 1−α σ n − μk (Z Π + Z1−α ) ⎛ Z + Z 1−α ⎞ Siendo.738 ⋅ 15 ) 2 = 11. No obstante. al aumentar el tamaño de la muestra se pueden controlar tanto α como β.07 2 = 122.05 + 1. el riesgo de un error tipo II. y viceversa. donde: ZП = Z0. si se quiere estar seguro de detectar los cambios para una media hipotética.98 + Z 0. finalmente: n = ⎜ Π ⎜ μ − μ σ⎟ ⎟ k ⎝ 0 ⎠ 2 σ n = μ0 − μk 2 ⎛ Z + Z 1−α ⎞ ⎛ Z 0.95 ⎞ ⎛ 2. Consideraciones finales: Para un determinado tamaño de muestra.54 n=⎜ Π ⎜ ⎟ ⎜ μ − μ σ ⎟ = ⎜ 368 − 363 15 ⎟ = ⎜ ⎟ 5 ⎝ ⎠ ⎝ ⎠ k ⎝ 0 ⎠ 2 2 Entonces: n = 123 Esto quiere decir que se requiere una muestra de al menos 123 paquetes para garantizar los requerimientos planteados para la prueba.64 ⎞ 15 ⎟ = (0.

EJERCICIOS DE AUTOEVALUCIÓN 1.01 si se está de acuerdo en probar 64 cordeles b) Bajo la regla de decisión adoptada en el inciso (a) ¿cuál es la probabilidad de aceptar el proceso antiguo.. la policía interceptó un promedio de $60 millones en drogas por semana. Durante 36 semanas elegidas al azar en 1992.-Para probar que una moneda no está trucada. Se cree que mediante un nuevo proceso de fabricación la carga media de rotura puede ser aumentada. 3. cuando en realidad el nuevo proceso ha aumentado la carga media de rotura a 310 lbs.05. ¿Cuál es la probabilidad de aceptar la hipótesis de que la moneda no esté trucada cuando la probabilidad real de obtener cara es P = 0. ¿cómo se logra? 118 .. 7.? Suponga que la desviación estándar sigue siendo 24 lbs.¿Es posible controlar las probabilidades de error tipo I y tipo II en una prueba de hipótesis particular? Si es así. ¿afecta esto a la probabilidad de cometer un error tipo I? 5.. la policía del Estado de La Florida intercepta un promedio de $56 millones en drogas que se transportan hacia el norte por una carretera interestatal.Una empresa fabrica cordel cuya carga de rotura tiene una media de 300 lbs y una desviación estándar de 24 lbs.. Calcule la probabilidad de que ocurra un error tipo II si la media poblacional es en realidad $59 millones. ¿Indica esta evidencia muestral un aumento en el movimiento de drogas a través de La Florida? Realice una prueba con un nivel de significación de 0. con una desviación estándar de $20 millones.. ¿cómo afecta esto a la probabilidad de cometer un error tipo II? 4.Cada semana.Que es más importante controlar un error tipo I o el error tipo II? 6.Si la probabilidad de cometer un error tipo I disminuye.Si la probabilidad de cometer un error tipo II disminuye. se adopta la siguiente regla de decisión: Acepte la hipótesis si el número de caras en una muestra simple de 10 lanzamientos está entre 40 y 60 inclusive de lo contrario rechace la hipótesis.. a) Diseñe una regla de decisión para rechazar el proceso antiguo a un nivel de significación de 0.7? 2.

Existen muchos problemas donde el interés del investigador se centra en contrastar hipótesis sobre cómo se distribuye el número de sucesos que pertenecen a ciertas categorías. en general. se utilizan mucho también la prueba Kolmogorov . Las pruebas para la bondad del ajuste se utilizan para verificar si un grupo de datos u observaciones se ajusta bien al comportamiento de alguna distribución probabilística conocida. y la verificación se basa en comparar los valores observados con los valores teóricos esperados bajo dicha condición: Si las diferencias entre lo observado y lo esperado son muy grandes. Entre las pruebas no paramétricas más conocidas están las llamadas pruebas chi-cuadrado. así: nei = n⋅ Pi 119 . determinando para cada clase las frecuencias observadas (oi ó noi). La ventaja de las pruebas no paramétricas radica precisamente en el hecho de que no se necesita del conocimiento de características poblacionales que en muchos casos son ignoradas. Prueba chi-cuadrado para verificar el supuesto de independencia. cumple una cierta condición teórica. la prueba chi-cuadrado no es la única aplicable a este tipo de estudios: para análisis de normalidad.3: Pruebas no paramétricas: Prueba chi-cuadrado de la bondad de ajuste para verificar normalidad. pues éstas son siempre más potentes que las no paramétricas equivalentes. no obstante. Las pruebas chi-cuadrado. mayores que un valor tomado como crítico. cabe mencionar las de Cramer y las de Kendall. una prueba no paramétrica es aquella que no requiere del conocimiento de parámetros o características de la distribución poblacional. se debe preferir la paramétrica. incluidos aquellos que también pueden realizarse mediante pruebas paramétricas. por ejemplo. PRUEBA CHI-CUADRADO PARA NORMALIDAD: Tiene gran importancia el poder conocer si un grupo de datos sigue o no una distribución normal. se rechaza la hipótesis nula y se asume que no se cumple la condición supuesta. Las pruebas de independencia buscan establecer si dos variables son independientes entre sí o no. que deben su nombre a que el estadígrafo de prueba utilizado sigue la distribución homónima. las cuales se calculan multiplicando el total de observaciones (n) por la probabilidad adjudicable a la variable de pertenecer a cada clase asumiendo que hay normalidad (Pi). La hipótesis nula en estas pruebas siempre está asociada al cumplimiento de la condición.Smirnov y la prueba Jarque . es decir.Bera. La prueba χ2 es adecuada para dar solución a este tipo de problema. pretenden decidir sobre si una determinada variable. como la normal o la de Poisson. Tampoco son las únicas en este sentido. Tablas de contingencia. Las hipótesis correspondientes a esta prueba son: H0: x ∼ N (la variable sigue una distribución normal) / H1: x ∼ N (la variable no sigue una distribución normal) Para verificar la hipótesis de normalidad se toma una muestra aleatoria de tamaño n y se agrupan las observaciones en k clases o categorías. empírica u observada. Como se ha dicho. Existen pruebas no paramétricas para los más variados estudios. entre otras. si se puede escoger para una investigación dada entre efectuar una prueba paramétrica y una no paramétrica. Dos de las aplicaciones inmediatas de las pruebas chi-cuadrado son las que se conocen como pruebas para la bondad del ajuste y pruebas para independencia.5. La prueba busca comparar tales frecuencias observadas con las frecuencias esperadas bajo la condición de normalidad (ei ó nei).

y la última clase como extendida hasta infinito (∞).El estadístico de prueba se define cómo: 2 χ0 = ∑ : (no − ne ) i i 2 ne 2 χ0 Y la región crítica correspondiente es: WC = { i 2 χ0 2 > χ1−α (k −3 ) } Nota: De forma general el estadígrafo de prueba en las pruebas chi-cuadrado para la bondad del ajuste tiene k . si se tiene una muestra relativamente grande (n mayor que 60 ó 100 observaciones). luego m = 2. pues la distribución normal corresponde a una variable continua. Vale la pena recordar que la regla de las tres sigmas establece que para toda distribución normal con media μ y desviación típica σ el área bajo la curva de su función de densidad se distribuye de la siguiente forma: 120 . Para ello se debe determinar el recorrido de la variable. esto se resuelve agrupando clases adyacentes hasta que se logre el cumplimiento. Una vez hecho esto se deberán estimar los dos parámetros que caracterizan a la distribución normal: μ y σ. por eso. sobre todo el cálculo de la probabilidad correspondiente a cada clase. por lo que los grados de libertad resultan k . y m es la cantidad de parámetros que caracterizan a la distribución bajo análisis: en el caso de una distribución normal. solo el 20% de las frecuencias esperadas (ei ó nei) puede ser menor que 5 Ninguna frecuencia esperada (ei ó nei) puede ser menor que 1 En caso de que se viole algún supuesto. Con las correspondientes estimaciones se pasará a calcular para cada clase la probabilidad de que una variable con distribución normal pertenezca a la misma. que permite tomar una decisión. Procedimientos para el cálculo de las Pi: Como los datos suelen estar en su forma primaria. es evidente que al final de los cálculos debe cumplirse que: ∑ Pi = 1. y que se basa en la regla de las tres sigmas asociada a la distribución normal. en este cálculo. el primer paso es organizarlos. se puede recurrir a un método alternativo que simplifica algunos cálculos. dado el comportamiento teórico normal.m -1 grados de libertad. se obtiene el valor del estadígrafo de prueba. el procedimiento es bastante laborioso. Con esas probabilidades se calculan las frecuencias esperadas.3. Finalmente. Como se aprecia. la primera clase se considera como originada en menos infinito (-∞). En cualquier caso. Para realizar la prueba deben cumplirse los siguientes supuestos o restricciones: Si k = 2. ninguna frecuencia esperada (ei ó nei) debe ser menor que 5 Si k > 2. decidir cuántas clases conviene usar y calcular el ancho de clases necesarios. siendo k la cantidad de clases o categorías en que se ha distribuido la variable (garantizando que se cumplan determinados supuestos). verificándose que se cumplen los supuestos requeridos. ésta se caracteriza totalmente con μ y σ. creando clases.

Lo cual equivale a decir que: 1. P(μ −σ < X < μ+σ) = 68.27% del área bajo la curva normal 2. P(μ −2σ < X < μ+2σ) = 95.45% del área bajo la curva normal 3. P(μ −3σ < X < μ+3σ) = 99.73% del área bajo la curva normal El método alternativo propuesto sugiere aprovechar esto para construir los intervalos de clase de manera que las probabilidades correspondientes sean siempre valores fijos, dados por las secciones en que queda subdividida el área bajo la curva. Entonces, se procederá como sigue: Primeramente se estimarán μ y σ a partir de la totalidad de los datos sin tabular Se crearán 6 clases, partiendo de la estimación para μ en el centro de las clases (o sea, como límite superior de la tercera clase e inferior de la cuarta) y tomando como ancho de clases la estimación para σ. Se adjudicarán las frecuencias observadas correspondientes a cada clase, y las respectivas probabilidades, valores estos últimos que siempre serán: 0.0228, 0.1359, 0.3413, 0.3413, 0.1359 y 0.0228. Finalmente, se calcularán las frecuencias esperadas, y se verificará que se cumplan los supuestos; luego se obtendrá el estadígrafo de prueba.
Ejemplo:

A partir de la muestra siguiente, se quiere verificar, con un nivel de significación del 5%, si la misma procede de una población normal. 10 10 16 19 20 17 21 12 11 16 20 19 16 22 13 15 20 17 19 23 22 14 10 17 18 18 24 21 15 15 18 20 17 23 22 22 26 30 29 27 27 29 28 26 28 26 27 31 33 30 28 27 26 26 32 33 30 27 26 28 26 33 32 29 29 30 29 28 33 31

121

24 24 24
Solución:

23 23 24

24 20 23

23 21 21

21 21 22

35 34 31

32 37 38

31 41 36

38 39 36

39 41 40

En el problema se tiene que: n = 100 y ∑X = 2500 ˆ Por tanto: μ = x = 1 n

∑X =
1 n −1

2500 = 25 100
2

ˆ σ2 = s2 =

∑ ( X − x)

=

5420 = 54.75 99

y: s = 54.75 = 7.4

Es decir, se partirá de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomando como ancho de clase c = s = 7.4, se crearán las clases y la tabla de frecuencias:
clases -∞ – 10.2 10.2 – 17.6 17.6 – 25.0 25.0 – 32.4 32.4 – 39.8 39.8 – ∞ noi Pi nei = n⋅Pi 0.0228 2.28 0.1359 13.59 0.3413 34.13 0.3413 34.13 0.1359 13.59 0.0228 2.28

3 14 34 33 14 2

Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No obstante, a continuación se muestra cómo calcularlas, para el caso en que no se quiera o no se pueda seguir este método, o incluso siguiéndolo no se recuerden las probabilidades:

P1 = P( x ≤ 10.2 ) = P [ z ≤ (10.2 – 25)/ 7.4 ] = P ( z ≤ -2 ) = Fz (-2) = 0.0228 P2 = P( 10.2 < x ≤ 17.6 ) = P( -2 < z ≤ -1 ) = Fz (-1) - Fz (-2) = 0.1587 - 0.0228 = 0.1359 P3 = P( 17.6 < x ≤ 25 ) = P ( -1 < z ≤ 0 ) = Fz (0) - Fz (-1) = 0.5 - 0.1587 = 0.3413 P4 = P( 25 < x ≤ 32.4 ) = P( 0 < x ≤ 1 ) = Fz (1) - Fz (0) = 0.8413 - 0.5 = 0.3413 P5 = P( 32.4 < x ≤ 39.8 ) = P( 1 < z ≤ 2 ) = Fz (2) - Fz (1) = 0.9772 - 0.8413 = 0.1359 P6 = P( x > 39.8) = P( z > 2 ) = 1 - Fz (2) = 1 - 0.9772 = 0.0228 Una vez completada la tabla se debe comprobar el cumplimiento de las restricciones, y se verifica que: ∑ Pi = 1 Todas las frecuencias esperadas son mayores que 1

122

Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que 5, por lo que se viola esta restricción. Para remediar el no cumplimiento en la restricción anterior se debe agrupar clases adyacentes; en este caso se pudieran agrupar la primera y la segunda clases, o la quinta y la sexta, y como hay dos posibilidades de agrupamiento se debe preferir aquella en donde inicialmente hay más diferencias entre las frecuencias esperadas y los observadas, que aquí se corresponde con las clases primera y segunda. La tabla, después de agrupadas las clases queda:
clases -∞ – 17.6 17.6 – 25.0 25.0 – 32.4 32.4 – 39.8 39.8 – ∞ noi 17 34 33 14 2 n ei 15.87 34.13 34.13 13.59 2.28

Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que hace constituye el 20%, que es justo el máximo admitido para esta restricción, que se puede dar ya entonces por cumplida. Queda, pues, k = 5.
Hipótesis: H0: x ∼ N H1: x ∼ N / Región crítica: 2 2 2 2 2 2 2 2 WC = χ 0 : χ 0 > χ1−α (k −3 ) = χ 0 : χ 0 > χ 0.95 ( 2 ) = χ 0 : χ 0 > 5.99

{

} {

} {
i

}

(α = 0.05 )

Decisión:

El estadígrafo de prueba
2 χ0 =

2 es: χ 0

=
2


+

(no − ne )
i

2

ne

i

(17 − 15.87)
15.87

2

+

(34 − 34.13 )
34.13

(33 − 34.13 ) 2 + (14 − 13.59) 2 + (2 − 2.28) 2
34.13 13.59 2.28

= 0.1374

2 2 χ 0 = 0.1374 < 5.99 O sea: χ 0 ∉ WC , por lo que no se rechaza H0.

Esto quiere decir que puede aceptarse, con una significación del 5%, que los datos siguen una distribución normal.

PRUEBA CHI-CUADRADO PARA INDEPENDENCIA:
Otro problema que requiere de una prueba estadística es el de contrastar el supuesto de independencia estadística entre dos variables aleatorias. La prueba resultante puede ser aplicada para variables tanto cualitativas como cuantitativas. Las hipótesis correspondientes son: H0: X y Y son independientes

123

así: n X n Yj n Xi ⋅ n Yj Pi j = Pi j ⋅ Pi j = i ⋅ = n n n2 Aquí: Pi j representa la probabilidad de pertenecer a la clase o celda (i. pudiera encontrarse un equivalente para las hipótesis planteadas. la cantidad de filas. que se denotan por ne i j y suelen ponerse entre paréntesis junto a la frecuencia observada correspondiente. que representan el total de observaciones para cada valor de la correspondiente variable. Yj) deben calcularse las frecuencias esperadas bajo la hipótesis de independencia. Yj) siendo las variables independientes. y representan la cantidad de veces que se observan a la vez el valor Xi de X con el valor Yj de Y ( Se suele reservar el subíndice i para la X y el subíndice j para la Y ). En función de lo anterior. Las frecuencias esperadas se calculan como: ne i j = n Pi j Y las probabilidades correspondientes se pueden obtener partiendo de la condición de independencia. siendo: nY = j ∑ i=1 r no ij y n Xi = ∑ noij j=1 k Para cada par (Xi .H1: X y Y son dependientes Para desarrollar la prueba las dos variables sobre las que se plantean las hipótesis se clasificarán conjuntamente en categorías o clases. es decir: H0: X y Y son independientes equivale a: H0: Pi j = Pi Pj 124 . como la mostrada: Y X X1 X2 … Xr nY Y1 Y2 … Yk nX no 11 no 12 no 21 no 22 … … … … no i j … … no 1k no 2k … nX1 nX2 … no r1 no r2 nY1 nY2 no rk nYk nXr n Se denota por k la cantidad de categorías en que se clasifica la variable Y. j) Pi representa la probabilidad de pertenecer a la clase i de la variable X Pj representa la probabilidad de pertenecer a la clase j de la variable Y Nota. en una tabla denominada tabla de doble entrada o tabla de contingencia. En los bordes derecho e inferior de la atabla aparecen las llamadas frecuencias marginales de X y de Y respectivamente (nX y nY). Las frecuencias denotadas por no i j dentro de la tabla son las llamadas frecuencias observadas conjuntas. y por r la cantidad de categorías de la variable X. en una muestra de n observaciones. o sea. Para ello se necesita también calcular la probabilidad (Pi j) de que ocurra cada par de valores (Xi . o lo que es lo mismo. así. sin tener en cuenta los valores de la otra. la cantidad de columnas. los datos serán clasificados en k⋅r grupos.

Solución: Datos: n = 300 r = 2 (carrera: número de filas) k = 4 (evaluaciones: número de columnas) Nota: Decir que los resultados en Estadística se diferencian para las carreras de Economía y Contabilidad equivale a decir que dichos resultados dependen de la carrera que se estudia. por lo que puede efectuarse la verificación mediante una prueba chi-cuadrado para independencia. por lo que la región crítica toma la forma: 2 2 2 WC = χ 0 : χ 0 > χ1−α [(k −1)(r −1)] { } Ejemplo: Una muestra aleatoria simple de 300 estudiantes universitarios de las carreras de Economía y Contabilidad arrojó los siguientes resultados respecto a la distribución de las evaluaciones en Estadística: Evaluación: Carrera: Economía Contabilidad Total 2 3 4 5 Total 180 120 300 27 24 51 85 44 129 50 40 90 18 12 30 ¿Puede afirmarse con base en estos datos. es decir: Ninguna frecuencia esperada puede ser menor que 1 No más de un 20% de las frecuencias esperadas pueden ser menores que 5 El estadígrafo de prueba también se calcula de la misma manera. Hipótesis: H0: Los resultados en Estadística son independientes de la carrera 125 .H1: X y Y están relacionadas equivale a: H1: Pi j = Pi Pj Finalmente. que entre la población de estudiantes universitarios de las carreras de Economía y Contabilidad hay diferencias respecto a sus resultados en Estadística? Utilice un nivel de significación del 5%. teniendo en cuenta que la sumatoria incluye ahora dos variables: 2 χ0 = ∑ ij ⎛n − n ⎞ ⎜ oij eij ⎟ ⎝ ⎠ ne ij 2 En este caso los grados de libertad asociados al estadígrafo son el producto (k-1)(r-1). las frecuencias esperadas quedan: nX ⋅ nY i j ne = ij n Dichas frecuencias esperadas deben cumplir con los mismos supuestos o restricciones que en la prueba para verificar normalidad.

665 < 7.¿Por qué es necesario al calcular las Pi que estas sumen 1? 126 . EJERCICIOS DE AUTOEVALUACIÓN 1. es necesario además calcular las correspondientes frecuencias esperadas. y se mantiene la cantidad original de filas y columnas (r = 2 y k = 4). no existen elementos para afirmar que los resultados en Estadística entre los estudiantes de Economía y Contabilidad dependen de la carrera que estudian.4) 51 85 (77. queda: Evaluación: Carrera: Economía Contabilidad Total 2 3 4 5 Total 180 120 300 27 (30. con una significación del 5%..4) 44 (51.¿Para que se utiliza la prueba o dócima de bondad del ajuste? ¿Cuales son las restricciones que se tiene en cuenta para aplicar la distribución χ2 a esta prueba no paramétrica? ¿Cómo se plantearían las hipótesis en este tipo de prueba? ¿Cómo se calculan las frecuencias esperadas? 2.. 2 χ 0 = 3.6) 129 50 (54) 40 (36) 90 18 (18) 12 (12) 30 Como se ve. así: ne = ij nX ⋅ nY i j n nX ⋅ nY 2 Por ejemplo. por lo que no se rechaza H0.81 Esto quiere decir que. por lo que se cumplen los supuestos o restricciones.4) 2 (50 − 54) 2 (18 − 18) 2 (24 − 20.4 54 18 20.4) 2 ( 44 − 51.6 77.6 36 12 2 O sea: χ 0 ∉ WC .H1: Los resultados en Estadística dependen de la carrera En la tabla de contingencia se tienen las distintas frecuencias observadas.4 51.6) 2 (85 − 77.6 300 ó ne 24 = 4 n = 30 ⋅ 120 = 12 300 Y sustituyendo los distintos valores en la tabla de contingencia. Región crítica: 2 2 2 2 2 2 2 2 2 2 2 WC = χ 0 : χ 0 > χ1−α [(k −1)(r −1)] = χ 0 : χ 0 > χ 0.95 [(1)(3 )] = χ 0 : χ 0 > χ 0.6) 24 (20. será: ne = nX ⋅ nY 1 1 11 n = 51 ⋅ 180 = 30.95 ( 3 ) = χ 0 : χ 0 > 7.81 { } { } { } { } Decisión: 2 χ0 = (27 − 30. en otras palabras. no hay diferencias significativas en cuanto a los resultados en Estadística entre ambas carreras. todas las frecuencias esperadas son directamente mayores que 5.6) 2 ( 40 − 36) 2 (12 − 12) 2 + + + + + + + 30.

22 8. Utilice la prueba de χ2.22 104 7.44 7.34 47 > 10.00 131 8.. Una muestra aleatoria de 400 hogares mostró lo siguiente: Tipo de casa Casa de una TV cable sola familia Sí 94 No 56 150 Total Casa de 2 a 4 Edificio de familias apartamentos 39 77 36 98 75 175 Total 210 190 400 Con un α = 0.El director de mercadotecnia de una compañía de televisión por cable está interesado en determinar si hay alguna diferencia en la proporción de hogares que contratan el servicio de cable por televisión. Intervalos ni < 5. sobre la base del tipo de residencia (viviendas para una sola familia.¿Por qué no se debe aplicar la prueba chi-cuadrado para la independencia cuando las frecuencias esperadas en algunas celdas sean menores que 5? ¿Qué acción se puede llevar a cabo en estas circunstancias que permitan analizar esos datos? 127 .78 respectivamente.00 y $0..La corporación SIMEX tiene varios miles de trabajadores por hora. 4. viviendas para 2 ó 4 familias y edificios de apartamentos).00 8. La analista de la corporación quiere determinar si la distribución normal se puede utilizar para describir la escala de salarios por hora de la corporación. Intervalos 0 a 2 2 a 4 4 a 6 6 a 8 8 a 10 10 a 12 ni 12 94 170 188 28 8 Pruebe a un α = 0. ¿podría considerar que hay relación entre la contratación de servicios de TV por cable y el tipo de residencia? 6.Una muestra aleatoria de 500 acumuladores para automóviles mostró la siguiente distribución: de la duración en años de los acumuladores..78 9.66 6.05.3.66 12 5.56 98 9. para ello seleccionó una muestra aleatoria de trabajadores por hora y se registró sus salarios.. si dicha distribución sigue una distribución normal.78 117 8.56 10.01.44 38 6. La analista encontró que la media y la desviación típica muestral son $8.34 13 560 5. Realice la prueba deseada para un α del 5%.

Determine si hay relación entre el tiempo de viaje y el estrés.. Estrés Tiempo Viaje Menos de 15 min De 15 a 45 min Más de 45 min Total Alto 9 17 18 44 Moderado Bajo 5 8 6 19 18 28 7 53 Total 32 53 31 116 128 . con vistas a situarles un ómnibus si esto se comprueba.Una gran corporación esta interesada en determinar si existe asociación entre el tiempo que le toma a sus empleados trasladarse al trabajo. Un estudio de 116 trabajadores de la línea de montaje reveló lo mostrado en la tabla que sigue.7. y el nivel de problemas relacionados con el estrés observado en los mismos.

Ejemplos de aplicación son los siguientes: • • • • • La decisión acerca de qué método de producción abarata más los costos. a los que se les llama niveles. En cuanto al factor externo. La identidad fundamental da pie a la formación de un estadístico de prueba. La investigación sobre qué tipo de fertilizante da mejores rendimientos. y los matemáticos prefieren explicitar así una variable dependiente.1: Conceptos básicos del análisis de varianza. en particular para el diseño de experimentos. Supuestos del método. el mismo puede ser considerado como una variable independiente. La verificación de la similar efectividad de tres métodos de enseñanza de una lengua extranjera. en vez de X. ANÁLISIS DE VARIANZA DE CLASIFICACIÓN SIMPLE: Atendiendo a la cantidad de factores externos considerados en el modelo el método de análisis de varianza se clasifica en simple (un único factor). doble (dos factores). y todo ello se refleja en una tabla llamada tabla de análisis de varianza o tabla ANOVA. por las siglas en inglés. cuya naturaleza puede ser tanto cualitativa como cuantitativa. de manera que puedan compararse los promedios de la variable correspondientes a los distintos valores del factor. justificado esto por el hecho de que se asume que es una variable que puede estar dependiendo de otra –u otras-: el factor externo. que resume los principales aspectos teórico-prácticos de la técnica. 129 . La comparación de la producción media por hectárea de distintas variedades de un cultivo. de marcada importancia dentro de la Estadística. Modelo de clasificación simple. El análisis de varianza como técnica es un instrumento estadístico poderoso que trata de determinar si el efecto aislado de un factor externo –o de un conjunto de factores externosincide sobre el comportamiento de una variable o característica en estudio. La evaluación en un laboratorio médico sobre el efecto de diferentes medicamentos en la presión sanguínea. Esta técnica pretende expresar la variabilidad total del conjunto de datos como una suma de términos que se pueden atribuir a distintas fuentes o causas específicas de variación.TEMA VI: ANÁLISIS DE VARIANZA 6. Su fin inmediato es aplicar una prueba de hipótesis para la comparación de medias entre varias poblacionales. sobre la base de datos muestrales. En casi toda la bibliografía sobre el análisis de varianza utiliza el símbolo Y. y múltiple (más de factores). y su efecto en los valores de la característica medible o variable dependiente. pero lo que interesa de él son los distintos valores que toma. para denotar la variable en estudio. Se inicia aquí el estudio de una técnica llamada análisis de varianza. A esa descomposición de la variabilidad total se le denomina identidad fundamental del análisis de varianza. Para ello se debe contar con observaciones de la variable bajo diferentes influencias del factor externo.

En el análisis de varianza de clasificación simple se trata entonces de decidir si un determinado factor externo influye o no sobre una variable. Ejemplo: Se desea comparar el efecto de tres tipos de pienso para cerdos en el incremento en peso de los animales. La característica medible o variable dependiente es el incremento en peso de los cerdos. juzgando –mediante una prueba de hipótesis. y con un subíndice j las distintas observaciones correspondientes a las muestras o grupos tomados para cada población o nivel. de respectivo tamaño Ni. La notación en uso tiende además a indicar con un subíndice i los diferentes niveles o poblaciones a los que da origen (1 ≤ i ≤ k). La hipótesis alternativa habla de diferencias entre las medias de algunas poblaciones. a lo que también se llama cantidad de poblaciones en comparación.si la variabilidad que se observa en la variable es atribuible al azar o si realmente se debe a la influencia de dicho factor. y de cada una de ellas se debe disponer de una muestra aleatoria.Es común representar con k la cantidad de niveles o valores distintos del factor externo. lo que está asociado entonces con alguna influencia del factor externo. lo cual equivale a que el factor externo no incide sobre la variable. Las hipótesis en el análisis de varianza tienen siempre la siguiente forma: H0: μ1 = μ2 = … = μk (las medias de las k poblaciones son todas iguales) H1: Al menos una μi difiere de las demás O sea. Las poblaciones en comparación son en este caso tres (k = 3): los posibles cerdos alimentados con cada tipo de pienso. pero con igual varianza σ2. entonces la varianza total asociada a la nueva megapoblación o población global será: 130 . la hipótesis nula recoge el hecho de que las medias correspondientes a cada población en estudio sean todas iguales. Fundamentación teórica del método: Ya se ha dicho que la este método se basa en expresar la variabilidad total del conjunto de datos como una suma de términos que se pueden atribuir a distintas fuentes o causas específicas de variación. Los niveles del factor son cada uno de los tipos de pienso. Hay un teorema que plantea que si se unen k poblaciones. y cada una da lugar a una muestra o grupo de observaciones. y para ello se hace uso ve varios teoremas importantes en el campo de la Estadística. El factor externo o variable independiente es el tipo de pienso.

quedando la identidad fundamental del análisis de varianza como sigue: SCT = SCD + SCE Donde: SCE = ∑ (y ij i − y)2 = ∑ n (y i i − y)2 131 . y dada la forma de su valor esperado se cumple que SD2 siempre es un estimador insesgado de σ2. proporciona una estimación válida de la varianza desconocida de la población sin importar si se acepta o rechaza H0. Conviene destacar que esta varianza. si todas las medias son iguales será: σ 2 = σ 2 . que son los denominadores de las varianzas. si alguna media poblacional es diferente. la variación total en los datos se divide en dos fuentes: variación entre grupos y variación dentro de grupos. En el caso del análisis de varianza de clasificación simple. como es insesgada. T De modo que una comparación de varianzas puede conducir a una conclusión sobre la igualdad de medias poblacionales. y dada la forma matemática de su valor esperado se ve que SE2 es un estimador sesgado de σ2. y esto se expresa mediante las llamadas sumas de cuadrados. Hay otro teorema que plantea que si dos o más muestras proceden de una misma población. entonces podrá obtenerse un estimador de σ2 a través de la siguiente expresión: 2 SD = 1 n−k ∑ (y ni j=1 ij − yi ) 2 2 siendo: E S D = σ 2 ( ) A esta varianza se le da el nombre de varianza dentro del grupo. Por lo tanto. se tendría una suma de cuadrados total (SCT). bajo la misma condición de que todas las varianzas poblacionales son iguales a σ2. una suma de cuadrados entre grupos (SCE) y una suma de cuadrados dentro de grupos (SCD). o de diferentes poblaciones con igual varianza σ2. Así. siendo N = ∑Ni el tamaño de la población global. El método que se utiliza es a través de los estimadores de σ2. o sea.σ2 T =σ + 2 ∑ N (μ i i=1 k i − μ) 2 N . que se hace insesgado sólo si todas las medias poblacionales son iguales. si se cumple la hipótesis nula planteada para el análisis de varianza. se puede concluir que σ 2 > σ 2 . Un teorema más establece que. otro estimador de σ2 es: 2 SE = ∑n ( y k i i=1 i −y ) 2 k −1 siendo: E ( )= σ 2 SE 2 + ∑ n (μ i i=1 k i − μ) 2 k −1 A este varianza de le denomina varianza entre grupos. T Por otra parte.

SCD = SCT = ∑ (y ij ij − y i )2 = − y )2 ∑ (n − 1) s i 2 i ∑ (y ij ij La suma de cuadrados entre grupos busca las diferencias de las medias de cada grupo respecto a la media de la muestra conjunta. La suma de cuadrados dentro de los grupos lo que hace es comparar cada elemento de la muestra con la media de su propio grupo. el total de observaciones. tras hacer algunas transformaciones matemáticas se llega a la identidad fundamental planteada anteriormente: ∑∑(y i=1 j=1 k ni ij −y = ) ∑∑(y 2 i=1 j=1 k ni ij − yi + ) ∑n (y − y ) 2 i i i i=1 k 2 (SCT = SCD + SCE) Desarrollo práctico del método: En la simbología usada al definir las sumas de cuadrados se tiene que: ni n = Σni Representa el tamaño de muestra correspondiente a la población iésima. Una representación gráfica del origen de estas variaciones es siempre útil para comprender su significado: Es evidente que: ( y ij − y ) = ( y ij − y i ) + ( y i − y ) Si se eleva al cuadrado ambos miembros. y se suma sobre todos los grupos (i) y todas las observaciones correspondientes (j). Representa el tamaño de la muestra conjunta. 132 . por tanto. o sea. en el caso en que la hipótesis nula del análisis de varianza sea cierta esta diferencia entre grupos será mínima.

k (grados de libertad dentro de grupos) GLT = n . sobre todo si se tienen que estimar previamente las medias y varianzas de cada grupo. 1 yi = ni s i2 = 1 ni − 1 ∑y j ij 2 ∑ (y j ij − yi ) No obstante. se acostumbra a obtener por diferencia. y que son: GLE = k -1 (grados de libertad entre grupos) GLD = n .1 (grados de libertad totales) Para los grados de libertad se cumple también que: GLT = GLD + GLE O explícitamente: (n – 1) = (n – k) + (k – 1) 133 . es decir. cuando estas estimaciones no se tienen de antemano –que es lo común. y estas son: SCE = ∑ i T i2 T2 − ni n i Donde: n = i ∑ n es el tamaño de la muestra global. es decir como: SCD = SCT − SCE De la misma forma resulta de gran importancia en el análisis de varianza la relación entre los grados de libertad asociados a cada suma de cuadrados. Representa la media de las observaciones correspondientes a la muestra i-ésima.se suele recurrir a fórmulas alternativas que simplifican un poco el proceso. dado el carácter aditivo de las sumas de cuadrados. y la media global. Representa la estimación de la varianza efectuada a partir de la muestra i-ésima. y n el de cada grupo T = ∑ y son los totales (suma de observaciones) de cada grupo i i ij j T= SCT = SCD = ∑ T es el total de la muestra conjunta i i ∑ ij 2 y ij − T2 n ∑ ij 2 y ij − ∑ i Ti2 ni Esta última.y= 1 n ∑y ij ij Representa la media de todas las observaciones efectuadas. como el cálculo manual de las sumas de cuadrados es bastante laborioso. de la muestra conjunta.

el otro se basa en la suma de los cuadrados entre los grupos (SCE). Así se tiene: SCD SCE 2 2 S D = CMD = y SE = CME = n−k k −1 Y el estadígrafo de prueba es: F0 = 2 SE 2 SD Debido a que el cálculo de varianzas entre y dentro de grupos conlleva varios pasos. Si la hipótesis nula es cierta. Por todo lo anterior. y la varianza entre grupos. Si la hipótesis nula es cierta. la varianza entre grupos será significativamente mayor que la varianza dentro de los grupos. la prueba estadística se basa en la razón de las varianzas SE2/SD2. si la hipótesis nula es falsa entonces el numerador debe ser mayor que el denominador y la razón debe ser mayor que uno 134 . las varianzas o cuadrados medios y el valor del estadístico de prueba F0. Si no hay diferencia de un grupo a otro. es decir la varianza total ST2.n-k). la varianza dentro del grupo SD2. cualquier diferencia en la media muestral se explicará por la variación aleatoria. y la varianza entre grupo SE2. se acostumbra a resumir estos resultados en una tabla conocida como tabla de análisis de varianza (ANOVA). cuyos grados de libertad en este caso coinciden con los de las sumas de cuadrados en el numerador y en el denominador.Al dividir las sumas de cuadrados entre sus grados de libertad se obtienen los distintos cuadrados medios o estimadores de σ2. siendo los dos últimos los de verdadero interés para la aplicación de la técnica. Uno de los estimadores se basa en la suma de los cuadrados dentro de los grupos (SCD). se pueden examinar dos estimadores diferentes de la varianza de la población. sino también mide las diferencias de un grupo con otro. es decir: F0 ∼ F(k-1. Sin embargo si en realidad hay una diferencia entre los grupos. debe estar cerca de la varianza dentro de los grupos. El estimado de la varianza entre los grupos no solo toma en cuenta las fluctuaciones aleatorias de una observación a otra. estos estimadores deben ser aproximadamente iguales. Esta tabla incluye las fuentes de variación. los grados de libertad. las sumas de los cuadrados (es decir las variaciones). si es falsa el estimador basado en la suma de los cuadrados entre grupos debe ser mayor. pues del cociente de estos se obtiene el estadígrafo de prueba F0. obtenido del cociente SE2/SD2: Fuentes de Variación entre grupos dentro de grupos total Sumas de Cuadrados Tabla ANOVA Grados de Varianzas o Libertad Cuadrados Medios SCE 2 sE = k-1 n −1 SC D 2 sD = n-k n−k Estadígrafo F0 = 2 sE 2 sD SCE SCD SCT n-1 Al estadígrafo se le llama F porque se ha probado que la razón de dos varianzas tiene asociada una distribución probabilística F de Fisher. Con el fin de determinar si las medias de los diversos grupos son todas iguales. esta razón debe estar cercana a uno.

. esto es: Yi ∼ N(μi . Las características medibles son estadísticamente independientes de una población a otra: Y1. bajo el que se asume que las varianzas poblacionales son iguales para todos los grupos en comparación. n2. Verificación del supuesto de homocedasticidad: Prueba de Bartlett 135 . Yk. 3.k. pues parte de la relación entre dos varianzas. o sea: σ12 = σ22 = …= σk2 2.…. el cual es conocido como supuesto de igualdad u homogeneidad de varianzas. La región crítica siempre es hacia la derecha ya que el problema se reduce a buscar un valor a partir del cuál el estadístico de prueba resulte significativamente mayor que 1 para rechazar la hipótesis nula. De incumplirse el supuesto de homocedasticidad se invalida el resultado obtenido al aplicar la prueba del análisis de varianza. 4. Las características medibles se distribuyen normalmente en cada población. = μk H1: alguna μi diferente Es bueno señalar que estas hipótesis son equivalentes a decir: H0 : 2 E SE =1 2 E SD ( ) ( ) H1 : ( )>1 E(S ) 2 E SE 2 D Ya que como se vio anteriormente SE2 es un estimador sesgado de la varianza total... por ello resulta útil ante la duda verificar antes (o después si se prefiere) su cumplimiento.. y así se rechazará la hipótesis de que no hay diferencias entre las medias de los grupos cuando la razón entre las varianzas o cuadrados medios sea mayor que el valor tomado crítico: SE2/SD2 = CME/CMD > F1 − α ( k – 1. Las varianzas de las k poblaciones son iguales. Las muestras n1.. la región crítica toma la forma: ⎧ ⎫ S2 W C = ⎨F0 = E : F0 > F1− α (k − 1 . 2. σi). Y2.. Además ésta es la razón por la cuál la distribución a utilizar es la F de Fisher.nk de los k grupos poblacionales son seleccionadas mediante un muestreo aleatorio simple. donde i = 1. . De estos supuestos el más importante es el primero citado. o más técnicamente como supuesto de homocedasticidad (igual variabilidad).Como se aprecia el problema se reduce a buscar un valor a partir del cuál el estadístico de prueba resulte significativamente mayor que 1. O sea. .n – k) De aquí se infiere que las hipótesis nula y alternativa que se plantearán serán las siguientes: H0: μ1 = μ2 = ... y sólo será insesgado si se cumple que H0 es cierta. n − k ) ⎬ 2 SD ⎩ ⎭ Supuestos del modelo del análisis de varianza: Para aplicar la técnica del análisis de varianza es necesario que se cumplan las siguientes suposiciones sobre los datos investigados: 1. mientras que SD2 es siempre un estimador insesgado.

b) Se quiere también verificar el cumplimiento del principal de los supuestos asociados al análisis anterior. como sigue: H0: σ12 = σ22 = …= σk2 (las varianzas de las k poblaciones son todas iguales) H1: Al menos una σi2 difiere de las demás Bartlett encontró que. de la presencia de heterocedasticidad. Como este último es más sencillo de obtener usando tablas de logaritmos. A su vez. se suele plantear la expresión en términos del logaritmo decimal y luego multiplicar por 2. en centavos. de un producto fabricado bajo tres tecnologías diferentes. cuya hipótesis nula habla de la existencia de homocedasticidad y la alternativa de la no existencia. que es el factor de conversión de logaritmos decimales en naturales. entre otras.Para verificar el cumplimiento del supuesto de homocedasticidad se utiliza. Tecnologías A B C 7 2 7 4 4 8 6 5 7 4 6 11 9 3 7 136 . C se calcula como: 1 ni − 1 ∑ (y j ij − yi ) 2 C = 1+ Ejemplo: 1 ⎡ ⎢ 3(k − 1) ⎣ ∑n 1 1 ⎤ − ⎥ n −k⎦ i −1 Los datos tabulados corresponden a muestras aleatorias del costo de producción. el cociente representado por M/C seguía con muy buena aproximación una distribución chi-cuadrado. o lo que es lo mismo.3026. a) Se quiere realizar una prueba estadística a un 5% de significación para decidir si existen diferencias entre las tecnologías que puedan afectar los costos correspondientes (o lo que es lo mismo. la llamada prueba o dócima de Bartlett -en honor al matemático que la introdujo-. y podía ser utilizado como estadígrafo de prueba con la región crítica dada por: ⎫ ⎧M M 2 WC = ⎨ : > χ 1− α ( k −1) ⎬ ⎭ ⎩C C El valor de M se calcula como: 2 M = (n − k ) ln( s D ) − ∑ (n − 1)ln(s i i 2 i ) ⎡ 2 ó M = 2. si para cada población se contaba con una muestra de al menos cinco observaciones (ni ≥ 5). sD2 (también CMD) es la varianza o cuadrado medio dentro de grupos ya obtenida previamente durante el cálculo de F0: SC D 2 sD ≡ CMD = n−k Y si2 representa la estimación de la varianza para el i-ésimo grupo: s i2 = Por su parte.3026 ⎢(n − k ) lg( sD ) − ⎣ ∑ (n − 1)lg(s i i 2 ⎤ i )⎥ ⎦ En estas expresiones equivalentes ln indica el logaritmo natural y lg el logaritmo decimal. si el costo de producción medio depende o no de la tecnología).

T = 90. Datos iniciales: n = 15 k=3 a) Verificación de la igualdad o no de costos medios entre las tecnologías: Hipótesis: H0: μ1 = μ 2 = μ 3 H1: alguna μi diferente Nivel de significación elegido: α = 0. Resumiendo: n = 15.89 Ahora. F0.Solución: La variable en estudio (Y) es el costo de producción del producto.89 } { } { } Regla de decisión: Rechazar H0 si F0 > 3. quedando ahora las observaciones para los distintos niveles o poblaciones en filas. n − k ) = F0 : F0 > F0. Dicha tabla auxiliar se puede preparar atendiendo a lo que se necesita a partir de las fórmulas abreviadas para las sumas de cuadrados. k = 3. se requiere contar con la llamada tabla ANOVA. y el j las observaciones. 12 ) = {F0 : F0 > 3 . donde se traspuso por comodidad el orden de los datos.95 (2 . y para llegar a ésta conviene crear una tabla auxiliar a partir de los datos muestrales.89 No rechazar H0 si F0 ≤ 3. Tecnología Yi j 7 4 6 4 9 A 2 4 5 6 3 B 7 8 7 11 7 C Totales: ni 5 5 5 15 Ti 30 20 40 90 Ti 2 900 400 1600 Ti2/ni 180 80 320 580 Y2i j 49 16 36 16 81 / 198 4 16 25 36 9 / 90 49 64 49 121 49 / 332 620 Nota: Debe tenerse en cuenta que el subíndice i representa las muestras (aquí en distintas filas). para calcular el estadígrafo de prueba. a continuación se muestra la aquí usada. n1 = n2 = n3 = 5 Luego: SC T = k ni ∑∑ i=1 j=1 Yij2 − T2 = 620 – 902/15 = 620 – 8100/15 = 620 – 540 = 80 n 137 .05 Región crítica: W C = F0 : F0 > F1− α (k − 1 . y el factor externo en este caso son las tecnologías.

se rechaza H0.33 - F0 = 20 = 6. b) Verificación de la igualdad o no de varianzas entre las tres tecnologías: Hipótesis: 2 2 H0: σ1 = σ 2 = σ 3 2 2 H1: alguna σi diferente Nivel de significación: α = 0.89 40 40 80 2 12 14 20 3. Tabla ANOVA Fuente de Sumas de Grados de Cuadrados Estadístico de Variación cuadrado libertad medios prueba Entre grupos Dentro de grupos Total Decisión: F0 = 6.99 No rechazar H0 si M/C ≤ 5.SCE = ∑ i=1 k k Ti2 T 2 − = 580 – 540 = 40 ni n ni 2 y ij − SCD = ∑∑ i=1 j=1 ∑ i=1 k Ti2 = 620 – 580 = 40 ni Esta última también se puede calcular utilizando la identidad fundamental y despejando: SCT = SCD + SCE ∴ SCD = SCT – SCE = 80 – 40 = 40 Y ya se está en condiciones de completar la tabla de análisis de varianza para el cálculo del estadístico de prueba. a un 5% de significación Si se quisiera saber cuál tecnología es diferente se pudiera completar el análisis comparando dos a dos dichas tecnologías. se puede crear otra tabla auxiliar a partir de los datos muestrales.99 Para calcular el estadígrafo de Bartlett.95 ( 2 ) ⎬ = ⎨ : > 5 .06 > 3.06 3. Esto indica que existen diferencias significativas entre los costos de producción para al menos una de las tecnología. M/C. como la siguiente: 138 . o sea.99 ⎬ ⎩C C ⎭ ⎩C C ⎭ ⎩C C ⎭ Regla de decisión: Rechazar H0 si M/C > 5.3 Por tanto.05 (el mismo anterior) Región crítica: ⎧M M ⎫ ⎧M M ⎫ ⎧M M ⎫ 2 2 WC = ⎨ : > χ 1− α ( k −1) ⎬ = ⎨ : > χ 0. se acepta H1.

99 Por tanto.016 3. Se quiere: a.324 < 5.665 + 4.Verificar el supuesto de homocedasticidad necesario para la verificación anterior.33 ) − (6. no se rechaza H0.A 7 4 6 4 9 B 2 4 5 6 3 C 7 8 7 11 7 ni yi = s i2 = 1 ni − 1 1 ni ij 5 6 4.25 + 0.203 – 14.504 0.25 ) − 15 − 3 ⎥ = 1 + 6 (0. Métodos B C 6 7 5 5 6 6 6 7 7 5 6 A 5 5 6 7 5 5 D 7 7 8 7 8 139 . en centavos.25 ni − 1 ni − 1 ∑ Entonces queda: 2 M = (n − k ) ln( s D ) − ∑ (n − 1)ln(s i i 2 i ) = (15 − 3) ln(3.111 Y finalmente: M/C = 0.436 – 14. O sea.5 5 8 3 n = Σni = 15 ∑y j ij 2 ∑ (y j − yi ) ln(si2) 1.360 1 ⎡ 1 1 ⎤ 1 ⎡ 1 ⎤ 1 C = 1+ − ⎢ ⎥ = 1+ ⎢(0.394 ) = 12⋅1.75 − 0.076 = 14. EJERCICIOS DE AUTOEVALUACIÓN La siguiente tabla contiene los resultados obtenidos al aplicar cuatro métodos diferentes de fabricación de un cierto producto..099 (ni -1)ln(si2) 6.05.076 = 0. b. puede aceptarse que se cumple el supuesto de existencia de homocedasticidad. en general. del método de fabricación..394 Σ(ni -1)ln(si2) = 14.25 0.25 0. siendo la variable observada en estudio el costo de producción.083 ) 3(k − 1) ⎣ ni − 1 n − k ⎦ 3⋅2 ⎣ ⎦ ∑ = 1+0.25 + 0.667/6 = 1.5 5 4 2.360/1.665 4.75 0. o sea. conociendo que M/C = 1.Determinar si el costo depende o no.916 1.111 = 0. se acepta la propia H0.076 1 1 = 0.324 Decisión: M/C = 0.016 + 3.

Tablas Estadísticas. 1988. de Economía. La Habana. Estadística. McGraw Hill. John. McGraw Hill de México. Calero Vinelo. 1987 Estadística: Teoría y Problemas. et al. 1974. Edición Revolucionaria. La Habana. de Estadística. Selección realizada por el Dpto. George. Fac. Universidad de La Habana. Estadística. Probabilidad y Estadística. Dpto. Laboratorios de Estadística Matemática I y II: Colectivo de Autores. 1987. Juan. Guerra Bustillo. Pueblo y Educación. Caridad. et al. Arístides. Canavos. Estadística I. Estadística elemental moderna. 140 . Fac. España. Editorial Félix Varela. La Habana. 1983. La Habana.BIBLIOGRAFÍA BÁSICA: Estadística. Murray Spiegel. de Economía. 2004. II y III. Freund. Cué Muñiz. Pueblo y Educación. 1987. Universidad de La Habana. Universidad de La Habana.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->