You are on page 1of 197

2

Antonio Rustom J.
ESTADSTICA DESCRIPTIVA, PROBABILIDAD E INFERENCIA. Una visin conceptual y aplicada.

Responsable edicin: Pedro Calandra B. Diseo de portada: Claudia Rustom S. Compilacin: Denisse Espinoza A. Derechos Reservados Se autoriza la reproduccin parcial de la informacin aqu contenida, siempre y cuando se cite esta publicacin como fuente. Inscripcin N: 223.022 del Registro de Propiedad Intelectual ISBN: 978-956-19-0790-4 Departamento de Economa Agraria Facultad de Ciencias Agronmicas Universidad de Chile Avda. Santa Rosa 11315, La Pintana, Santiago, Chile. Versin digital disponible en: http://www.agren.cl/estadistica Santiago de Chile 2012

ESTADISTICA DESCRIPTIVA, PROBABILIDAD E INFERENCIA Una visin conceptual y aplicada

ANTONIO RUSTOM J.

REVISORES DE CONTENIDO CLAUDIO FERNNDEZ L. ALBERTO MANSILLA M.

2012

INDICE
Prlogo Unidad 1 ESTADSTICA DESCRIPTIVA 1 Introduccin 2 Trminos estadsticos bsicos 3 Tipos de variables 4 Descripcin de variables 5 Otros tipos de grficos PROBABILIDAD 1 Modelos matemticos 2 Espacio muestral y eventos 3 Frecuencia relativa, la probabilidad y sus propiedades 4 Probabilidad en espacio muestral finito equiprorable 5 Probabilidad condicional 6 Teorema de la probabilidad total y teorema de Bayes DISTRIBUCIONES DE PROBABILIDAD 1 Introduccin 2 Distribucin de variable aleatoria 3 Valores caractersticos de variables aleatorias 4 Nociones sobre distribuciones de variables aleatorias bidimensionales DISTRIBUCIONES DE PROBABILIDAD NOTABLES 1 Introduccin 2 Distribucin Normal 3 Distribucin Uniforme 4 Distribucin Exponencial 5 Distribucin de Bernoulli 6 Distribucin Binomial 7 Distribucin de Poisson 8 Distribucin de Pascal DISTRIBUCIONES DE PROBABILIDAD EN EL MUESTRO DE POBLACIONES 1 Introduccin 2 Poblacin, muestra y tipos de muestreo 3 Estadgrafos 4 Distribucin de las muestras de una poblacin normal 5 Distribuciones que incluyen a la varianza muestral de una poblacin normal 7 9 9 11 11 12 26 31 31 26 36 40 43 50 55 55 55 62 68 75 75 76 81 83 84 84 88 92 95 95 95 98 100 103

Unidad 2

Unidad 3

Unidad 4

Unidad 5

Unidad 6

INFERENCIA ESTADSTICA PARA MEIAS Y VARIANZAS 1 Introduccin 2 Estimacin de parmetros 3 Contraste de hiptesis estadsticas 4 Comentarios sobre intervalos de confianza y pruebas de hiptesis TEOREMA CENTRAL DEL LIMITE E INFERENCIAS PARA PROPORCIONES 1 Muestras de tamao pequeo 2 Teorema del Lmite Central 3 Proporcin Poblacional 4 Intervalos de Confianza para Proporciones 5 Contraste de hiptesis para proporciones 6 Contraste de hiptesis para dos o ms proporciones

109 109 109 114 127

Unidad 7

131 131 131 132 134 136 139 145 181

Ejercicios y problemas a resolver Bibliografa Anexo 1 Anexo 2 Anexo 3 Anexo 4 Anexo 5 Anexo 6 rea bajo la curva normal estndar Funcin de Distribucin Acumulativa Binomial Funcin de Distribucin Acumulativa de Poisson Percentiles de la distribucin ji-cuadrada de Pearson Percentiles de la distribucin t de Student Percentiles de la distribucin de Fisher-Snedecor

183 185 187 189 191 193

PROLOGO
Este libro va dirigido a alumnos que estudian agronoma y es el resultado de las experiencias en mi docencia en las carreras de Ingeniera Agronmica, Ingeniera Forestal y Medicina Veterinaria principalmente en la Universidad de Chile y en la Universidad Santo Toms, y fundamentalmente por mi labor como profesor consultor de alumnos tesistas y de mi interrelacin con investigadores en aspectos metodolgicos estadsticos de sus anteproyectos y proyectos. El desarrollo de los contenidos hace mucho nfasis en lo conceptual con ejemplos y problemas orientados a las reas mencionados. En ste, las demostraciones de teoremas o propiedades se han limitado a aquellas que cumplan con ser un reforzamiento de lo conceptual para que no sean un distractor de lo esencial que es el concepto. El libro sigue un orden lgico, en el cual primero se hace una revisin de los elementos de estadstica descriptiva que, a parte de servir sus propios fines de describir datos, permite introducir aquellos conceptos fundamentales de la estadstica como son la media aritmtica, la varianza, la desviacin estndar y el coeficiente de variacin, amn de otros, como los relacionados a los percentiles, con gran importancia estadstica y cultural. Las unidades de probabilidad cumplen con ser un respaldo para la fundamentacin en el desarrollo de las unidades posteriores, principalmente de las distribuciones de probabilidad notables y comportamiento de las muestras aleatorias. Las unidades esenciales del libro, para aquellos que manejan las nociones ya mencionadas, son las de distribucin Normal, distribuciones en el muestreo de poblaciones, la estimacin y pruebas de hiptesis para los parmetros: media aritmtica, varianza y proporcin. El libro incluye, adems, un conjunto de ejercicios y problemas propuestos, con temtica orientada a las ciencias silvoagropecuarias, la mayora de los cuales se resuelven utilizando como referencia los ejemplos desarrollados en el texto. Con frecuencia algunos alumnos consultan por qu los problemas no incluyen las respuestas, pregunta que considero que refleja que tales alumnos todava no se compenetran con que la estadstica es una metodologa al servicio de las ciencias. As, en un problema de prueba de hiptesis, el resultado es todo el desarrollo bien conceptualizado y en un orden lgico. En cambio una respuesta simplista como " se acepta la hiptesis nula" o "se rechaza la hiptesis nula" carece totalmente de sentido sin el contexto previo. No es casualidad que ningn libro de estadstica incluya respuesta a problemas propuestos de tal naturaleza. Sin embargo, hay problemas, especialmente de probabilidades o tamao de muestra, en los cuales es posible dar una respuesta que resuma el desarrollo pertinente. En casos como ste se han incluido las respuestas. Debo agradecer a todos los acadmicos de la facultad con los cuales me he interrelacionado y que sin saberlo han aportado a que este libro se haya escrito, al igual que a todos aquellos que aparecen en la bibliografa. Al profesor Marcos Mora quien, como director del Departamento de Economa Agraria, apoy y gestion para que la Facultad patrocinara su publicacin.

Mi mayor muestra de gratitud y amistad al Profesor Claudio Fernndez por su disposicin para leer el libro y aportar con sus sugerencias para mejorar el original. Al Profesor Alberto Mansilla, mi entraable amigo, por su importante influencia para despertar en m el inters por la Estadstica, y en relacin a este libro, por mostrarme una forma didctica de presentacin de la teora de probabilidades. A la Facultad de Ciencias Agronmicas por hacer posible la publicacin de este libro, al Jefe de Biblioteca, Profesor Pedro Calandra, por su responsabilidad en la edicin, y especialmente a Denisse Espinoza por su paciencia y dedicacin para llevarla a cabo. Principalmente mis agradecimientos a Eliana, mi esposa, cuya paciencia para soportarme sentado durante horas frente al computador, me sirvieron de estmulo para seguir adelante y concluir el texto. Antonio Rustom J

Santiago, 2012

1. ESTADISTICA DESCRIPTIVA
1.1 Introduccin. Se postula que "quien tiene la informacin tiene el poder". Posiblemente de ah las grandes inversiones de los pases, principalmente los desarrollados, en generar conocimientos a travs de investigaciones de las ms diferentes disciplinas. Hoy en da la generacin de informacin y su recopilacin ha adquirido gran volumen y se requiere de instrumentos que sean capaces de procesarla en volumen y rapidez. La informacin siempre, y con mayor razn hoy en da, es importante para la toma de decisiones las que deben ser oportunas y ptimas. Con mala o insuficiente informacin posiblemente la decisin sea mala , por muy bueno que sea el procesamiento de sta. Por el contrario, por muy buena que sea la informacin si el procesamiento es malo seguramente tambin la decisin sea equivocada. En consecuencia, un slido respaldo para una acertada toma de decisiones, contempla ambas aspectos: informacin buena y suficiente, procesamiento correcto. La Estadstica es una disciplina que proporciona la metodologa, fundada en la Matemtica, para obtener, recopilar, procesar, resumir y presentar datos referentes a un estudio de inters, transformndolos en estadsticas con el fin de interpretarlas para obtener conclusiones, dando garanta de idoneidad en los procedimientos. Tambin propone metodologas que permita deducir caractersticas poblacionales a partir de muestras de ella. Actualmente la Estadstica est tan difundida y sus mritos tan aceptados que prcticamente no existe actividad que no la utilice de una u otra manera, a tal punto que cualquier investigacin que genere datos y no la utilice en la forma adecuada para su anlisis, corre el riesgo que sus conclusiones no sean consideradas cientficamente vlidas. Por dato se entender un valor que mida en un individuo una caracterstica, que puede ser una cualidad o una cantidad. Por ejemplo: color de pelo "rubio" ; calificacin "regular" ; rendimiento "72 qq/ha" . Cada uno de ellos, rubio, regular, 72 es un dato. Abuso y mal uso de la estadstica. A pesar de la evidente utilidad de la estadstica, su uso se presta para mal uso e incluso para abusos, lo que ha permitido que surjan detractores que basan sus opiniones en estos ltimos sin reconocer sus grandes ventajas. A continuacin un par de estas opiniones: 1) Benjamn Disraeli hizo la siguiente aseveracin "Existen tres tipos de mentiras, las mentiras ordinarias, las grandes mentiras y las mentiras estadsticas". Darrel Huff en su libro Cmo mentir con la Estadstica, anot al respecto "los bribones ya conocen tales trucos; los hombres honrados deben aprenderlos para defenderse" (tomado del texto Estadstica para administradores de Levin, R.. & Rubin, D.) 2) Hace aos, una escritora humorstica chilena, Eliana Simon, public en una revista nacional un aforismo que deca: "Todo se puede probar con pruebas y lo que no se prueba con pruebas, se prueba con estadsticas". Sin embargo la misma escritora escribi tambin "Por lo general, el que no cree en las estadsticas, creera en ellas si las entendiera" (tomado del libro Estadstica Elemental de Horacio D'Ottone).

10
Es cierto, como se expres ms arriba, que personas sin escrpulos se sirven de ella para sus propios fines cuando no tienen otros argumentos para respaldar sus posiciones. A continuacin algunos ejemplos. 1) La atencin hospitalaria es mala y como prueba est que el porcentaje de enfermos fallecidos en los hospitales es muy superior al porcentaje de enfermos fallecidos en sus casas. Es obvio que el porcentaje de fallecidos sea ms alto en los hospitales, independiente de la calidad de la atencin. 2) El 33% de las alumnas de un curso de ingeniera se cas con profesores de la universidad. Lo cual resulta cierto, pero no se dijo que el curso tena solamente tres alumnas. 3) Segn una estadstica se producen ms accidentes en el centro de Santiago a 35 km/h que a 65 km/h. La razn es que en el centro la causa de los accidentes es por la congestin vehicular, causa tambin de la baja velocidad. En otros casos se debe a un mal uso o interpretacin de ella, como lo ilustran los siguientes ejemplos. 1) La produccin industrial en el ao 1963 est al mismo nivel que en 1950, ya que como se puede apreciar entre 1950 y 1958 sta disminuy un 30%, mientras que entre 1958 y 1963 aument un 30%. La razn de esta mala conclusin est en que las bases de clculo de ambos porcentajes es distinta. As, si en 1950 la produccin es 100, en 1958 ser 70 y por tanto en 1963 ser 91, es decir, 9% menor que en 1950. 2) Un diario publicaba "los compositores encuentran inconcebible que ms del 100% de lo recaudado por el Departamento de Derecho de Autor se destine a pagar al personal que trabaja en el servicio, y el resto a cancelar derechos a los autores del pas". Aqu est muy expresada la idea, porque si lo recaudado es 100% no hay resto para cancelar a los autores. 3) Un estudio revel una alta correlacin entre el peso de un nio de bsica y su rapidez de lectura, deducindose que los nios gordos tienen mayor rapidez de lectura que los flacos. En este caso la alta correlacin es verdadera , pero la deduccin es mala, por que, en primer lugar asocian peso con "gordura", en circunstancia que el peso est altamente correlacionado a la edad y por lo tanto a la estatura. En segundo lugar, los alumnos de mayor peso estn asociados a mayor edad y por lo tanto a alumnos de los ltimos cursos de bsica.

Uso de la Estadstica. La Estadstica es necesaria cuando existe variabilidad entre los datos. Sin variabilidad en las observaciones la Estadstica carece de valor. Se puede decir, entonces, que la Estadstica es en general el estudio de la variabilidad. Dos aspectos importantes de sta son:

1 Describir informacin. Esto es vlido slo para el conjunto de datos descritos y se realiza mediante: i) tablas de frecuencias y/o porcentajes ii) grficos

11
iii) medidas que resumen la informacin, como media o promedio, moda, mediana, desviacin estndar, coeficiente de variacin , etc. De esta manera una gran cantidad de datos pueden ser mostrados en forma "resumida" y susceptibles de ser interpretados. 2 Hacer inferencias. Corresponde a la obtencin de conclusiones acerca de las caractersticas de una poblacin a partir de una muestra de sta. 1.2. Trminos estadsticos bsicos. Por Universo se entender el conjunto de individuos objeto de nuestro inters o estudio. La especificacin del universo, en general, no es trivial, pues es necesario que no haya ambigedad respecto a quien forma parte o no forma parte de este conjunto. Por Poblacin se entender el conjunto de datos de una caracterstica medida en cada individuo del universo. As, asociado a un mismo universo se podrn tener varias poblaciones. Para distinguir una poblacin de otra denominaremos variable a cada una de estas caractersticas, por ejemplo, la variable peso, la variable altura, la variable sexo, la variable estado civil, etc. En consecuencia, los diferentes valores que toma una caracterstica se denomina variable. Por muestra se entiende cualquier subconjunto de la poblacin. Existen distintas formas de elegir una muestra. Las dos ms opuestas son: las muestras dirigidas donde la seleccin de los individuos de la poblacin se efecta al gusto del investigador ; las muestras aleatorias, que son las que tienen validez estadstica y son aquellas donde los individuos son seleccionados mediante un procedimiento regido por el azar, por ejemplo, a travs de nmeros aleatorios. Por parmetro se entender cualquier valor caracterstico de una poblacin, por ejemplo, el peso promedio, la altura mxima o el estado civil ms frecuente. Este valor es constante. Por estadgrafo o estadstico se entender un valor caracterstico obtenido a partir de una muestra . Esta cantidad es variable , puesto que depende de la muestra, ya que de una poblacin se puede elegir un conjunto "muy grande" de muestras cada una con un valor caracterstico distinto. 1.3 Tipos de variables. Para representar adecuadamente poblaciones es necesario reconocer el tipo de variable que se necesita describir. Se puede distinguir dos tipos de variables, las que a su vez se pueden subdividir en otros dos tipos. Cualitativas Nominales Ordinales Tipos de variables Cuantitativas Discretas Continuas Variable cualitativa, es aquella que mide una cualidad . Variable cuantitativa, es aquella que mide una cantidad.

12
Variable nominal, es aquella cuyos valores son nombres o cdigos sin una relacin de orden intrnseco entre ellos. Ejemplos son: sexo ; estado civil ; nacionalidad ; religin ; raza o color de piel. Variable ordinal, corresponde a aquella cuyos valores son nombres o cdigos , pero con una relacin de orden intrnseco entre ellos, es decir, sus valores conllevan un ordenamiento de mejor a peor o de mayor a menor. Por ejemplo: la calificacin ( excelente , bueno , regular , malo); el grado en las F.F.A.A.( General , Coronel , Capitn , ....) ; la calidad ( extra , primera , segunda , ...) o nivel de infestacin (sana , leve , moderada , ....). Variable discreta, usualmente es aquella que solo toma valores enteros. Por ejemplo: nmero de hijos por familia ; nmero de elementos defectuosos en una partida de repuestos o nmero de insectos por hoja. Variable continua, son las de mayor jerarqua matemtica, y corresponden a aquellas que pueden asumir cualquier valor real dentro de un cierto rango. Por ejemplo:estatura ; peso ; edad ; rendimiento de un cultivo o el tiempo que demora un corredor en los 100 m. 1.4 Descripcin de variables. En general, cualquiera sea el tipo de la variable a resumir, existen tres formas de realizarla: 1 Por medio de tablas de frecuencias , que corresponde a una tabla forma da por columnas, donde en la primera columna se anotan los diferentes valores de la variable (clases o categoras) y en las siguientes columnas los diversos tipos de frecuencia. Por frecuencia absoluta se entiende el nmero de individuos que pertenece a una misma clase. 2 Mediante grficos , que son recursos pictricos que permi ten ilustrar mediante un dibujo ad hoc lo que aparece en la tabla de frecuencias. Existen diversos tipos de grficos y el uso de cada uno depende del tipo de variable a representar. 3 Con medidas resmenes , que corresponden a parmetros o estadgrafos , segn se trate de una poblacin o una muestra, y que sirven para mostrar posicionamiento de los datos, medidas de posicin, o el grado de concentracin de estos, medidas de dispersin. Estas posibilidades de presentacin de datos pueden ser elegidas en forma excluyente o complementarias, incluso las tres simultneamente. A continuacin se explicar la manera en que es posible resumir cada tipo de variable. Descripcin de Variables nominales. 1 Mediante tablas de frecuencia cuya estructura es la siguiente:
VALOR n" n# n$ ... ... nk TOTAL fi f" f# f$ ... ... fk N hi (%) h" h# h$ ... ... hk 100,0%

13
donde fi : es la frecuencia absoluta ; N: tamao de la poblacin y expresada en porcentaje, hi =100 fi /N. En el cuadro 4.1 se muestra un ejemplo de este tipo de variable.
Raza fi hi (%) Pastor Alemn 38 31,7 Doberman 12 10,0 Labrador 3 2,5 Pekins 44 36,7 Poodle 23 19,1 TOTAL 120 100,0 Cuadro 4.1. Perros atendidos en una clnica Veterinaria, por raza.

la frecuencia relativa,

2 A travs de grficos de los cuales los ms conocidos y utilizados son: Los de barra simple que se usan para representar tanto frecuencias absolutas , como frecuencias relativas. Se dibujan como barras rectangulares de altura proporcional a la frecuencia y todos de igual base. Las barras van separadas porque representan categoras y no valores numricos en el eje \ . La figura 4.1 es la representacin grfica del cuadro 4.1.

Los circulares son grficos simulando una torta con porciones de diferentes tamao, que sirven para expresar la frecuencia relativa o porcentaje de cada categora, donde los tamaos de los sectores circulares son proporcional al porcentaje que representa cada categora. La figura 4.2 representa la misma informacin anterior en trminos porcentuales.

14

Los de barras agrupadas sirven para representar frecuencias absolutas o relativas, cuando existen subdivisiones dentro de cada categora, como se ilustra en el cuadro 4.2.
Raza fi hi (%) <1 1-2 3-4 Pastor Alemn 38 31,7 14 10 14 Doberman 12 10,0 1 7 4 Labrador 3 2,5 2 0 1 Pekins 44 36,7 28 9 7 Poodle 23 19,1 12 8 3 TOTAL 120 100,0 57 34 29 Cuadro 4.2. Perros atendidos en una clnica Veterinaria, por raza y grupo de edad.

Por ejemplo si la clasificacin de perros atendidos en la Clnica Veterinaria se subdividiera por grupos de edad, el grfico para su representacin puede ser el de barras agrupadas, como el de la figura 4.3.

15

Los grficos de barras compuestas o subdivididas en los cuales cada barra corresponde al 100% de una clase y cada subdivisin es proporcional al porcentaje que representa cada subcategora. La misma informacin de la figura 4.3 se presenta en forma de barras subdivididas en la figura 4.4.

Ntese que cada barra tiene la misma altura, independiente de la frecuencia que ella represente, pues cada barra muestra el particionamiento de cada categora. Este tipo de grfico no es de utilidad cuando el nmero de subdivisiones es mayor a 4, ya que la comparacin entre las categorias se hace ms confusa. Los grficos de lnea casi siempre estn vinculados a la variable tiempo, asociada al eje de abscisas. Como su nombre lo indica estos se forman al unir los diferentes puntos en el tiempo

16
por medio de segmentos rectilneos. Tienen la ventaja de permitir la superposicin en paralelo de dos o ms lneas lo que facilita la comparacin de otros fenmenos asociados al mismo perodo. En la realidad es una representacin de una variable continua como el tiempo. Un ejemplo se muestra en la figura 4.5 donde se representa la evolucin del Indice Burstil Agroindustrial en los aos 2004, 2005 y 2006.

Los pictogramas son dibujos cuyas figuras se relacionan al fenmeno que se est representando, por ejemplo, "barriles" para representar produccin de petrleo ; "vacas" para representar masa ganadera o "personas" para representar poblaciones. Son de poco valor acadmico, porque estn orientados a la divulgacin. 3 Utilizando medidas resmenes, que en el caso de las variables nominales la nica posible es la moda. Se llama Moda (Mo), al valor de la variable que tiene mayor frecuencia, o sea, el valor que ms se repite en la poblacin o muestra. Segn el ejemplo del cuadro 4.1 la moda es Pekins, Mo = Pekins, pues de las razas atendidas fue la ms frecuente con 44 ejemplares. Descripcin de variables ordinales. En general utiliza el mismo tipo de tablas de frecuencia y de grficos que el tipo anterior, la diferencia radica en que los valores llevan un ordenamiento tanto en la tabla de frecuencia como en el grfico. Como medidas resmenes, para este tipo de variables, adems de la moda se puede utilizar la mediana. Se llama Mediana (Me) o valor mediano , al valor de la variable que ocupa la posicin central o las dos posiciones centrales de los datos ordenados. As la mediana es un valor o dos valores que separa a los datos ordenados en dos grupos con igual nmero de observaciones, uno con valores mayores o iguales a la mediana y el otro con valores menores o iguales a la mediana.

17
Ejemplos 4.1 a) En una evaluacin por nivel de dao por pudricin en racimos de uva estos se calificaron como sano (S), leve (L), moderado (M) y grave (G). Esta es una escala ordinal, porque sano es el menor nivel de dao y grave el mayor. En la inspeccin de 7 racimos se determinaron los siguientes niveles para cada uno: S , S , L , M , G , L , S. Para encontrar la mediana es necesario ordenar los datos en uno de los dos sentidos, sea: S S S L L M G. El valor que ocupa la posicin central es L que se ubica en el cuarto lugar, por lo tanto Me = leve. Ntese que a la izquierda hay 3 valores S, menores a L, y a la derecha hay 3 valores, una L igual a la mediana y los otros M y G mayores a la mediana L. En este mismo ejemplo la moda es S. b) Si en la misma situacin anterior el nmero de racimos evaluados fuera un nmero par, entonces, resultaran dos valores medianos, iguales o distintos. Por ejemplo en 10 racimos los niveles, ya ordenados, resultaron: S S S S S L L L M G. Los dos valores que ocupan las posiciones centrales, 5 y 6 ubicacin, son S y L respectivamente, por lo tanto una mediana es S y la otra es L. A la izquierda de S hay 4 valores iguales a S y a la derecha de L hay 4 valores, dos iguales a L y otros dos mayores. Descripcin de Variables cuantitativas para datos no agrupados. Si el nmero de datos, N , no es grande estos, pueden ser tratados en forma individual como cantidades X" , X# , X$ , ......, XN . En esta situacin no se tabulan y tampoco es posible mostrarlos en un grfico, pero si se pueden resumir en trminos de dos tipos de medidas: medidas de posicin y medidas de dispersin. Las medidas de posicin de tendencia central , cumplen el propsito de indicar el valor alrededor del cual se distribuyen los datos, es decir, una especie de centro de gravedad de estos. En general se pretende informar del orden de magnitud de los datos. Algo equivalente a decir, por ejemplo, "los honorarios son del orden de los $ 20.000 diarios". Existen, tambin, otros tipos de medidas de posicin que no son de tendencia central y que se presentarn posteriormente. Las medidas de dispersin, tienen por finalidad cuantificar la variabilidad de los datos, es decir, que tan separados o dismiles son uno de otro. Se puede decir que es una medida del "grado de concentracin o de densidad" de los datos en torno a su centro de gravedad. Medidas de posicin de tendencia central. Entre las medidas de posicin ms relevantes se mencionan la Moda y la Mediana , definidas anteriormente, y la Media aritmtica que es la ms importante de todas para variables cuantitativas, debido a su amplia utilizacin, a sus propiedades matemticas y a su vinculacin a la distribucin normal. La moda es importante, principalmente, en variables cualitativas o cuando el inters es la mayora. La mediana, tambin es ms importante para variables cualitativas ordinales y en ciertas situaciones especiales de variables cuantitativas. La media aritmtica , designada y definida como . conlleva una serie de propiedades muy importantes.
3 "

! X3
N

, tiene un uso muy difundido y

A continuacin se listan una serie de propiedades de la media aritmtica, denominada comnmente promedio, y ejemplos ilustrativos de ellas.

18
P" : ! \3 R . , esta propiedad es una consecuencia directa de la definicin.
N i=1

P# : !(\3 . ! , que establece que la suma de los desvos, respecto a la media, de un


N i=1

conjunto N de datos es siempre igual a cero. Se llama desvo a la diferencia (\3 . e indica cuantas unidades est el valor Xi por sobre o por bajo la media del grupo, dependiendo si es positiva o negativa respectivamente. P$ : ]3 \3 5 .] .\ 5 , esta propiedad dice que si a cada uno de los datos de un grupo se le suma una cantidad constante k, entonces, el promedio de los nuevos datos es igual al promedio original aumentado en la cantidad k. P% : ]3 5\3 .] 5.\ , es decir, si cada dato de un conjunto es amplificado por una constante k, entonces el nuevo promedio es k veces el promedio original. P5 ]3 -\3 5 .] -.\ 5 es la expresin de las propiedades 3 y 4 en forma combinada. P6 : La media de una constante es la constante, propiedad bastante trivial e intuitiva. Ejemplos 4.2 a) Si el ingreso per cpita de una familia compuesta por 5 personas es de $ 75.000, entonces, el ingreso familiar es de $ 375.000, independiente del ingreso de cada uno. b) Si la edad promedio de un grupo familiar es actualmente 38 aos, entonces la edad promedio de este mismo grupo familiar en 14 aos ms ser de 52 aos. c) Si en la arveja el peso de su vaina vaca es siempre igual al peso de los granos que contiene, entonces, el peso promedio de las vainas completas es el doble del peso promedio de su contenido. d) En una empresa donde el sueldo promedio de sus empleados es de $ 220.000, el sindicato logra un reajuste de sueldos del 12% ms una asignacin fija de $ 20.000 por trabajador. Entonces, el sueldo promedio reajustado en la empresa ser igual a : 220.000 ms 12% de 220.000 ms 20.000, o sea, 1,12220.000 20.000 , es decir, de $ 266.400. Observaciones. 1) Cuando los datos estn "bien distribuidos" la media aritmtica y la mediana tienen valores muy parecidos, por lo cual se puede utilizar cualquiera de las dos como medida de posicin, pero debe preferirse la media aritmtica por ser ms familiar para la mayora de las personas y por tener ms propiedades vinculantes a otras medidas y a la distribucin normal. 2) La media aritmtica, sin embargo, es muy sensible a valores extremos y por lo tanto su valor deja de ser "representativo" del conjunto de datos. En casos como estos se puede utilizar la mediana o la media calculada excluyendo los datos extremos, haciendo la aclaracin correspondiente.

19
Medidas de dispersin. Estas tienen por objetivo dar una cuantificacin de la heterogeneidad de los datos, es decir, dar una medida de qu tan parecido o dismiles son los datos de una poblacin entre si. El Rango es una manera sencilla de hacerlo midiendo cun repartidos estn los datos y se define por R Xmax Xmin . Para calcular el rango es necesario, por tanto, identificar los valores extremos de los datos. Su desventaja es que al considerar slo los valores extremos y no los datos restantes resulta una medida poco eficiente. La Varianza, 52 , es otra forma de medir la variabilidad de los datos. Su construccin se realiza sobre la base de los desvos respecto a la media aritmtica y cuya definicin es 52 i=1 N . Se puede demostrar que 52 i=1N .2 , la que resulta ser una forma ms prctica para su clculo. La varianza es una medida que se complementa muy bien con la media aritmtica, en especial cuando se asocian a la distribucin normal. Sin embargo la varianza tiene el gran inconveniente que sus unidades de medida estn al cuadrado, por lo que no tiene interpretacin en la realidad, por ejemplo sus unidades pueden ser "kg al cuadrado" o "aos al cuadrado". Este inconveniente se subsana con la Desviacin Estndar o Desviacin tpica, 5, que se define como la raz cuadrada de la varianza, cuya expresin es
! X .2
N

! X2
N i

5 i=1N
N

! X2
i

.2 se explican a

Las propiedades ms importantes de la varianza y la desviacin tpica continuacin.

2 2 P" : ]3 \3 5 5] 5\ y 5] 5\ , que establece que la varianza y la desviacin estndar no se altera al sumar una constante a los datos. 2 2 P2 : ]3 k\3 5] 5 2 5\ y 5] 5 5\ , que especifica que al multiplicar los datos por una constante, la varianza queda amplificada por la constante al cuadrado y la desviacin estndar slo por la constante. 2 P3 : \3 5 5\ 5\ 0 es decir, que la variabilidad de una constante es cero.

Ejemplo 4.3 Se mostrarn, numricamente, las propiedades de la media y la varianza utilizando los datos de la siguiente tabla.

20
\3 5 8 12 20 22 ]3 \3 % 9 12 16 24 26 Z3 $\3 15 24 36 60 66

!\3 '( !\3# """( !]3 )( !]3# "($$

# .\ "$ % 5\ %$ )%. # # .] .\ % "( % 5] 5\ %$ )%. # # .Z $.\ %! # 5Z *5\ $*% &'.

!Z3 #!" !Z3# "!!&$

Observacin. Una notacin utilizada universalmente consiste en resumir una informacin cuantitativa en la forma . 5 . Medida de dispersin relativa. Establecer la homegeneidad o heterogeneidad de los datos de una poblacin mediante la desviacin tpica o la varianza, requiere conocimiento y principalmente experiencia del fenmeno en estudio para una correcta interpretacin de sta. Una medida til porque mide la dispersin en forma relativa es el Coeficiente de Variacin, que permite una interpretacin ms objetiva de la variabilidad, definida por G Z [ 5 . 100]% . Con la dispersin relativa es posible establecer rangos que determinen niveles de variabilidad poblacional de homogeneidad o heterogeneidad, as por ejemplo CV menores al 5% indican , por lo general , gran homogeneidad, CV de alrededor del 20% corresponden por lo general a una homogeneidad moderada , mientras que CV mayores al 50% indican gran heterogeneidad. Puede alcanzar, incluso porcentajes muy superiores a 100%. Ejemplo 4.4 Se expresa que en una lechera E la produccin por vaca es 15 2 , entonces se entiende que la produccin promedio por vaca es 15 litros, con una desviacin estndar de 2 litros y un G Z "$ $%. Si en otra lechera F la produccin por vaca es 14 0,5 , entonces en sta la produccin promedio por vaca es de 14 litros con una desviacin estndar de 0,5 litros y un G Z $ '%. En consecuencia, la produccin en la lechera F es ms homognea que en la lechera E. En una distribucin normal o gaussiana, se establece, como se justificar cuando se estudie esta distribucin, que aproximadamente el 68% de los individuos tienen valores en el rango dado por . - 5 y . + 5. Por experiencia se sabe que la produccin sigue un comportamiento normal, luego en el caso de la lechera E se puede deducir que el 68% de las vacas se esperara que tengan una produccin entre 13 y 17 litros, mientras que en la lechera F se esperara una produccin entre 13,5 y 14,5 litros para el 68% de las vacas. Con esta otra presentacin, tambin se evidencia que la produccin en la lechera F es ms homognea que en la lechera E

21
Descripcin de Variables cuantitativas discretas para datos agrupados. En este caso las tablas son similares a las de variables cualitativas, pero pueden incluir, adems, frecuencias acumuladas: En la primera columna, ahora se indican los diferentes valores Xi que asume la variable en estudio y en las siguientes columnas la frecuencia fi que representa las veces que se repite el valor Xi , la frecuencia acumulada Fi es la suma parcial de las fi , por ejemplo F$ = f" +f# +f$ , Fi = f" +f# +f$ +f% +...+fi , y Hi es la expresin porcentual de Fi o si se prefiere es la suma parcial de las hi , como lo muestra el ejemplo del cuadro 4.3.
n lesiones/hoja (X i) f i h i(%) F i H i(%) 0 128 32,0 128 32,0 1 100 25,0 228 57,0 2 52 13,0 280 70,0 3 20 5,0 300 75,0 4 40 10,0 340 85,0 5 60 15,0 400 100,0 Total 400 100,0 Cuadro 4.3. Nmero de lesiones causadas por virus en 400 hojas de tabaco.

En la tabla , la frecuencia 52 corresponde al nmero de hojas que presentaron 2 lesiones, cuyo valor porcentual es 13,0%; la frecuencia acumulada 300 indica que existen 300 hojas con 3 o menos lesiones y el 57% de la ltima columna dice que en el 57% de las hojas se encontr a lo ms una lesin. El grfico a utilizar para representar estos datos se denomina grfico de varas que consiste en ubicar sobre el eje horizontal X los valores Xi y trazar sobre este valor una lnea perpendicular, vara, de altura proporcional a la frecuencia.

Las medidas de posicin, al igual que antes,incluye a la Moda que es el valor Xi de mayor frecuencia, la Mediana, ya definida anteriormente, que ahora se determina como el valor X i tal que Hi &!% y Hi" &!% , es decir, "el valor en el cual se supera por primera vez el 50%" .

22
La Media aritmtica se calcula utilizando la frecuencia fi , ya que este nmero indica las veces que se repite el valor Xi , como lo indica la siguiente expresin . i "N . Entre las medidas de dispersin, la Varianza se obtiene igualmente que la media, ponderando los desvos de los datos por la frecuencia fi . Su expresin es 5 y su frmula prctica de clculo es 5 N .2 . La desviacin N tpica es por definicin la raz positiva de la varianza y el G Z la razn porcentual entre la desviacin tpica y la media.
i=1
i=1

! fi Xi
l

! fi X .2 i
l

! fi X2
l i

Ejemplo 4.5 Con los datos del cuadro 4.3, se obtiene que la Moda es 0, que la Mediana es 1 y que . = ( !"#) ""!! #&# &'!%!! " )" lesiones/hoja. Observe que este promedio no es un valor entero, pero igual tiene interpretacin y es una forma til para comparar situaciones. Hay que comprender que el promedio es un valor referencial, de mucha utilidad, pero no necesariamente debe coincidir con algn valor observado. Es posible leer que un futbolista M es ms goleador que otro P, porque M tiene un promedio de goles por partido de 1,6, mientras que el promedio de goles de P es de 1,2. Para los mismos datos la varianza se calcula 5 # = ( !# "#) &# '!%!! " )"# , lo que da $ #*$*, por lo tanto 5 = 3,2939 = 1,8149 y G Z 100,3%. Descripcin de variables continuas para datos agrupados. Si la variable es continua los datos se clasifican en clases que son intervalos, denominndose tabla de frecuencias de intervalos. La frecuencia fi representa ahora el nmero de datos comprendido en el intervalo y el resto de la tabla se confecciona en la misma forma que en la tabulacin de variables discretas, pero incluyendo, adems, una columna con el valor marca de clase Xi . La tabla adquiere la estructura que se muestra a continuacin.
Intervalo L0 X L" L" X L# L2 X L$ ................ Li-1 X Li ................ Lk -1 X Lk Total Xi X" X# X$ ... Xi ... Xk fi f" f# f$ ... fi ... fk N hi (%) h" h# h$ ..... hi ..... hk 100,0 Fi F" F# F$ .... Fi .... N Hi (%) H" H# H$ .... Hi ..... 100,0

donde: Li-1 e Li : son los lmites inferior y superior respectivamente del intervalo i-simo; + Li Xi = Li-12 , recibe el nombre de valor clase del intervalo "i" , cuyo supuesto es que representa al promedio de los datos incluidos en el intervalo, lo que no necesariamente ocurre as y ci = Li - Li-1 , recibe el nombre de amplitud del intervalo "i", amplitud que puede ser distinta para cada intervalo. Por lo general, intervalos de igual amplitud facilita los clculos. Los grficos utilizados en variables continuas son Histogramas y Polgonos de frecuencias La tabla corresponde a la distribucin de la produccin de 500 manzanos enanos

23
Produccin(kg/rbol) 60 X 75 75 X < 90 90 X 105 105 X 120 120 X 135 135 X 150 150 X 165 TOTAL Frecuencia 45 60 70 110 90 70 55 500

Cuadro 4.3 Produccin en kg de 500 manzanos enanos.

El histograma y polgono de frecuencias no acumuladas se muestra en la figura 4.7.

La figura 4.8 ilustra la informacin anterior mediante un histograma y polgono de frecuencia acumulada. Los histogramas de frecuencias acumuladas tienen altura Fi o Hi . Los polgonos de frecuencias acumuladas unen los rectngulos en diagonal, empezando en 0 y terminando en N o 1 (100%), segn sea el caso, tendiendo a la forma de la curva llamada ojiva.

24

En cuanto a las medidas resmenes en este caso se da una gran variedad , las que se agrupan en medidas de posicin , como son la media aritmtica , la mediana , la moda (aunque esta ltima no tiene un gran sentido prctico) , las cuartilas , percentilas etc. ; y medidas de dispersin , como son la amplitud , la desviacin tpica , el coeficiente de variacin, etc. La media aritmtica se calcula considerando la frecuencia fi , pero como en este caso la frecuencia no representa a un nico valor , sino a un intervalo , debe utilizarse para este clculo el valor clase \3 , quedando la frmula en forma similar a la de variable discreta: .
3 "

! fi Xi
k

La Varianza , 5 # , se obtiene , por la misma razn que la media , ponderando los desvos de los valores clase \3 respecto a la media aritmtica por la frecuencia fi , quedando su expresin en la forma: 5#
! fi X .#
l i=1 i

y su frmula prctica de clculo es

5#

! fi X2
l i=1 i

.2 .

La desviacin tpica , 5 , es como antes la raz positiva de la varianza y el G Z la razn porcentual entre la desviacin tpica y la media. Otras medidas de posicin. Las cuartilas , quintilas , decilas y percentilas son otro tipo de medidas de posicin , siendo la percentila la que involucra a todas las otras, incluyendo a la mediana. Existen 99 percentilas: T" a T99 y corresponden a valores dentro del rango de los datos, de modo que entre dos percentilas sucesivas , T3 y T3" siempre queda comprendido el 1% de los datos. As , por ejemplo , entre la percentila T$& y la percentila T&) se encuentra un 23% de las observaciones , puesto que entre ellas existen (58 - 35) percentilas sucesivas.

25
Se llama intervalo percentil k al intervalo "i" tal que L3 k% y L3" k% o en palabras "el valor en el cual se supera por primera vez el k%" acumulado de las observaciones. La frmula para determinar la percentila k , est dada por: Pk = Li-1 +
kN 100

Fi-1
fi

ci ,donde

Li-1 : lmite inferior del intervalo percentil k Fi-1 : frecuencia acumulada hasta el intervalo anterior al percentil k fi : frecuencia del intervalo percentil k ci : amplitud del intervalo percentil k El percentil k , se debe interpretar en el sentido que el k% de las observaciones es menor a T5 y el otro (100 - k)% de observaciones tiene valores mayores. La figura 4.9 explica como se determina la percentila k.

La figura muestra que el punto donde el porcentaje k, en el eje del porcentaje acumulado, intersecta al polgono de frecuencia acumulada determina en el eje de abscisa el valor Pk el que se calcula mediante interpolacin o por proporcionalidad en tringulos rectngulos, rea sombreada pequea versus rea sombreada mayor, lo que origina la frmula dada. La figura, tambin muestra el caso de la mediana, cuya explicacin es similar a la dada. El cuadro siguiente muestra las relaciones de cuartilas , quintilas y decilas con las percentilas:
Cuartilas U" T#& U# T&! U$ T(& Quintilas G" T#! G# T%! G$ T'! G% T)! Decilas H" T"! H# T#! H$ T$! H% T%! H& T&! H' T'! H( T(! H) T)! H* T*!

Observe que de acuerdo a las relaciones anteriores y a la definicin de mediana se deducen las siguientes equivalencias: Q / U# H& T&! Ejemplo 4.6 Se utilizarn los datos del cuadro 4.3, para lo cual ser necesario completar la tabla en la forma siguiente

26
Produccin(kg/rbol) 60 X 75 75 X < 90 90 X 105 105 X 120 120 X 135 135 X 150 150 X 165 TOTAL Xi 67,5 82,5 97,5 112,5 127,5 142,5 157,5 fi 45 60 70 110 90 70 55 500 hi (%) 9,0 12,0 14,0 22,0 18,0 14,0 11,0 100,0 Fi 45 105 175 285 375 445 500 Hi (%) 9,0 21,0 35,0 57,0 75,0 89,0 100,0

Para caracterizar la informacin de la tabla las mejores medidas son la media aritmtica y la desviacin tpica las que resultan de los siguientes clculos. .=
45*67,5 + ....+55*157,5 500

57300 500

= 114,6 kg ; 5 # =

45*(67,5)# + ....+55*(157,5)# 500

- (114,6)# = 706,59

5 = 706,59 = 26,58 kg y Coeficiente de Variacin C.V = 26,58/114,6 = 23,2%. Luego la variabilidad relativa de la produccin de los rboles es de 23,2%, que se puede interpretar
50

como una produccin homognea. La mediana, Me = P50 = 105 + 100 110 * 15 = 115,2 kg, es slo un complemento a la informacin anterior y su interpretacin es que el 50% de los rboles tienen una produccin menor a 115,2 kg y el otro 50% una produccin mayor a ese valor. Otra informacin relevante se obtiene con aplicacin de los percentiles, como por ejemplo si
82

*500 - 175

interesa saber el valor del percentil 82, P82 = 135 + 100 70 * 15 = 142,5 kg y su interpretacin es que el 82% de los rboles produce menos de 142,5 kg y el otro 18% produce ms de 142,5 kg. Determinar qu porcentaje de los rboles tienen una produccin menor a 100 kg. se realiza
k

*500 - 375

aplicando el concepto de percentil, 100 = 90 + 100 70 * 15 de donde se despeja k = 30,3%. La respuesta es que el 30,3% de los rboles produce menos de 100 kg. El mismo procedimiento se utiliza para saber cuntos rboles tienen una produccin mayor
k

*500 - 105

a 130 kg , 130 = 120 + 100 90 * 15, que da un valor para k de 69 %. Luego el 69% de los rboles produce menos de 130 kg y por lo tanto el 31% de 500 , igual a 155 rboles, tienen una produccin mayor a los 130 kg. Si se establece que el 20% de los rboles de menor produccin sern sometidos a una poda especial, se necesita establecer cul ser la produccin mxima de los rboles sometidos
20

*500 - 285

a esta poda. Esto requiere calcular el percentil 20, P20 = 75 + 100 60 * 15 = 88,75 kg, y por lo tanto deben ser seleccionados todos los rboles que tenga produccin menor a 88,75 kg.

*500 - 45

1.5 Otros tipos de grficos. En forma ms reciente han surgido otras formas grficas para representar informacin cuantitativa. Dos de ellos, de bastante inters, son el diagrama de tallo y hoja ( Stem-and-Leaf) y el diagrama de caja (Boxplot).

27
Diagrama de tallo y hoja. Una forma muy adecuada de organizar un nmero moderado de datos individuales consiste en dividir cada dato en dos parte, su tallo y su hoja. Si por ejemplo el conjunto de datos son nmeros de dos dgitos, ya sea decenas y unidades o entero y decimal, entonces las decenas o el entero es el tallo y las unidades o el decimal es la hoja.

Ejemplo 5.1 Los valores 42; 32; 13; 18; 23; 44; 41;18; 15; 25; 35; 28; 17; 28; 42; 51; 50; 21; 27; 36 corresponden a las altura de 20 plantas regeneradas de coige medidas en una cuadrcula en un bosque nativo y cuya representacin en un diagrama de tallo y hoja queda como sigue.

El diagrama del ejemplo se obtuvo digitando los 20 datos en una columna con la siguiente secuencia de comandos: Graph Steam-and-Leaf (opcional Trim outliers) Increment = 10, porque los datos corresponden a decenas. En el cuadro la columna del centro, el tallo, indica la cifra de las decenas, y los de la derecha, las hojas, indica la cifra de las unidades. En la columna de la izquierda el ( ) indica la "moda"de las hojas y los nmeros hacia arriba y abajo es el nmero de datos acumulados alrededor de la "moda". En este ejemplo la moda es (6) que indica que existen 6 valores entre 20 y 29. La primera fila indica que los valores entre 10 y 19 son 13 15 17 18 18; el 5 indica el nmero de datos acumulado hasta la moda. En la tercera fila el tallo es 3 que corresponde a los datos 32 35 36; el 9 indica cuantos datos hay acumulado desde abajo hasta la moda. Diagrama de caja. Se usa para graficar algunos estadsticos de orden y dispersin que describen un conjunto de datos. Consiste en dibujar en eje horizontal (o vertical) un segmento de lnea que va del dato menor al mayor (Rango de los datos). Entre ellos se dibujan dos rectngulos adyacentes (caja) que empieza en el valor Q" , le sigue una lnea que indica la mediana (Q# ) de los datos y termina en el valor Q$ . La longitud de la caja ( Q$ - Q" ) se llama rango intercuartil y es otra medida de dispersin de los datos. Otra forma de este diagrama, lo que depende del programa estadstico utilizado, indican los valores que se alejan ms de lo "razonable" de la masa de datos (Outliers), que pueden servir como diagnstico de situaciones irregulares o anormales de los datos. MINITAB utiliza como

28
criterio un segmento de lnea (bigote) cuyo lmite inferior es Q" " &U$ U" y como lmite superior Q3 " &U$ U" ; los valores fuera de este rango; outliers, los indica con " * ". Ejemplos 5.2 a) El grfico corresponde a 40 datos de contenido de nicotina en cigarrillos cuyos estadsticos son: Min = 0,72 ; Max = 2,55 ; Q" = 1,63 ; Q# = 1,770 ; Q$ = 2,02 ; . = 1,774.

Los lmites del segmento de lnea son: " '$ " &# !# " '$ y # !# " &# !# " '$, es decir, 1,05 y 2,61. Los asteriscos indican los dos valores inusuales, "outliers", que corresponden al valor mnimo 0,72 y al valor que le sigue 0,85. Los 38 valores restantes quedan comprendidos entre los los lmites 1,05 y 2,61. Los estadsticos y el grfico del ejemplo se obtuvo digitando los datos de nicotina en una columna de la planilla de MINITAB y la siguiente secuencia de comandos: Stat BasicStatistics DisplayDescriptiveStatistics Graphs Boxplot of data.

b) Los datos de " Determinacin de proteina C-reactiva en hembras caninas con tumores 1 mamarios benignos y malignos" fueron procesados con MINITAB, siguiendo la secuencia de comandos indicados ms arriba, obtenindos/ los estadsticos y el grfico que se muestran a continuacin.

1R. Crossley, et al, Escuela Medicina Veterinaria, Univ.Santo Toms

29

El cuadro muestra diferencias de promedios (Mean) de proteina C entre las tres condiciones de las hembras caninas, con un valor claramente superior entre las hembras con tumores malignos. Analizando los valores de la mediana (Median) se verifica que estos son muy similares entre los grupos sano y benigno, pero con un valor muy superior para el grupo de los malignos, lo que se ilustra en el grfico de caja (boxplot), en el cual se aprecia, adems, la gran dispersin en contenido de proteina-C entre las hembras con tumores malignos, al punto que sus valores menores se confunden con los de los otros dos grupos, lo que se constata en la coincidencia de los valores mnimos de los tres grupos. Esto significa que, si se desea utilizar esta tcnica para determinar tumores malignos, valores bajos de proteina-C no son discriminatorios, por lo que un valor bajo de proteina-C no permite descartar tumores malignos. La bsqueda de valores que permitan diferenciar tumores malignos de benignos hay que centrarla, entonces, en los valores altos, donde la mediana del grupo de tumores malignos se ve, en el grfico, que supera a todos los de los otros dos grupos, razn por la cual se podra adoptar la mediana 7,15, como valor lmite inferior para decidir cuando un tumor es maligno. Este caso puede ser un claro ejemplo en que la mediana se comporta mejor que la media aritmtica para comparar grupos, debido a la gran diferencia de dispersin entre estos.

30

31

2. PROBABILIDAD
2.1 Modelos Matemticos. En el desarrollo histrico de los esfuerzos por conocer la realidad han habido tres ideas creativas que han sido fundamentales a las ciencias, cada una en su poca: la idea del orden, la idea de la causa mecnica y la de la probabilidad. Para los antiguos la ciencia consista principalmente en ordenar las cosas. A partir de Galileo y Newton la ciencia pas a ser la bsqueda de las causas de los fenmenos observables. Actualmente una buena parte de la ciencia moderna tiene como concepto primordial la probabilidad de ocurrencia de ciertos comportamientos. (Extractado de "La ciencia su mtodo y su historia", Silvia Bravo, 1991). Todo modelo es una representacin aproximada de la realidad y no es sensato intentar desarrollar un modelo que la represente en forma exacta. El modelo debe ser adecuado, pero simple, luego no debe incluir tcnicas sofisticadas que aporten una mayor precisin innecesaria o que requieran informacin difcil de obtener o cara. En la elaboracin de un modelo se hacen algunos supuestos bsicos cuya validez debe ser probada. La validacin de un modelo exige deducir un cierto nmero de consecuencias y corroborarlas con las observaciones. Por lo tanto un buen modelo es aquel que une la simplicidad con una razonable aproximacin a la realidad, sin omisiones importantes en el desarrollo del fenmeno. Los fenmenos naturales se clasifican en dos tipos. Fenmenos determinsticos. Son aquellos en los que el resultado esperado queda determinado por las condiciones bajo las cuales se realiza, es decir, son predecibles. Muchos de los fenmenos de la fsica o de la qumica, que se estudian en la enseanza media o en un primer ao universitario, satisfacen esta condicin y por lo tanto el modelo matemtico que los describe corresponde a una ecuacin. As, la ley de Boyle-Mariotte que relaciona la presin y volumen de un gas a temperatura constante; la frmula d = vt que relaciona la distancia recorrida por un mvil que mantiene cierta rapidez media v durante un tiempo t, o 2H# O# 2H# O, son ejemplos de este tipo de fenmenos. Fenmenos no determinsticos o aleatorios. Son aquellos en los cuales el azar tiene una participacin importante y por lo tanto los modelos determinsticos no son adecuados, pues el resultado de estos fenmenos no son predecibles con exactitud y por lo tanto se utilizan modelos matemticos estocsticos para describirlos, los cuales llevan incorporados una componente que representa la incertidumbre. As, el resultado del lanzamiento de una dado; de una moneda; la cantidad de agua lluvia que cae en una estacin meteorolgica durante un ao; cantidad de partculas emitidas en un intervalo de tiempo por una fuente radiactiva; produccin en qq/ha de una variedad de trigo o el tiempo de espera en un paradero por un bus, son algunas de las innumerables situaciones de este tipo de fenmenos.

32
En resumen se puede decir que un modelo determinstico supone que el resultado est determinado por las condiciones iniciales, mientras que en un modelo estocstico las condiciones experimentales determinan solamente el comportamiento probabilstico de los resultados posibles. Caractersticas de los experimentos aleatorios. En lo sucesivo se utilizar el trmino experimento, pues es necesario poder realizarlos a voluntad. Sus caractersticas son: 1 Es posible repetirlo indefinidamente sin cambiar esencialmente las condiciones en que se realiza. 2 No es posible predecir un resultado en particular. 3 Es posible describir el conjunto de todos los resultados posibles. 4 A medida que el experimento se repite los resultados parecen ocurrir en forma caprichosa, pero cuando el experimento se repite un nmero grande de veces se observa un comportamiento de regularidad que lo caracteriza. 2.2 Espacio muestral y eventos. Estos son los conceptos a base de los cuales se formaliza toda la teora de las probabilidades, cuyas definiciones y ejemplos se dan a continuacin. Definicin. Se llama espacio muestral al conjunto S de todos los resultados posibles de un experimento o fenmeno aleatorio &. Es el smil al concepto de poblacin y puede haber ms de un espacio muestral para un mismo experimento. Ejemplos de experimentos aleatorios con sus posibles espacios muestrales se listan a continuacin: &" : lanzamiento de una moneda ; S - =. &# : lanzamiento de dos monedas ; S" - - - = = - = = que corresponde al espacio muestral ms detallado o S# ! " # si lo que interesa es indicar el nmero de caras obtenidas en cada lanzamiento. Hay que diferenciar entre el resultado (c, s) y (s, c), lo que se puede explicar utilizando el artificio de que las dos monedas estn pintadas de color diferente, supngase rojo y blanco, entonces (c, s) corresponde a obtener cara con la moneda roja y sello con la moneda blanca, mientras que (s, c) corresponde a la situacin inversa. Tambin puede razonarse haciendo la consideracin que la moneda es la misma y que se lanza dos veces. &3 : lanzamiento de un dado ; S " # $ % & '. &4 : lanzamiento de dos dados ; en este caso el espacio muestral ms detallado es el producto cruz 1, 2, 3, 4, 5, 6x" # $ % & ', es decir, S " " " # $ % ' '. &5 : medicin del agua lluvia diaria caida en una estacin de monitoreo ; S h/ ! h "!!, asumindose que el agua cada en ese lugar es imposible que supere los 100 mm.

&6 : medicin del rendimiento, en qq/ha, de una variedad de trigo ; S p/ ! p )!. Aunque se piense que no se va a dar un rendimiento nulo no hay inconveniente en que el

33
espacio muestral los incluya, como se ver ms adelante. Lo que no puede suceder es que el espacio muestral "quede corto". &7 : nmero de plantas enfermas al seleccionar 3 plantas de un vivero ; S ! " # $. Definicin. Se llama suceso o evento a cualquier subconjunto del espacio muestral, includos el propio S y el conjunto vaco.. Para designar sucesos se utilizan las primeras letras del abecedario en maysculas: A, B, C,..., as A - es un suceso asociado a &" ; B (- =), = - es un suceso asociado a &# ; C " ' y D # % ' son sucesos asociados a &% ; E h/ "& h $! y F p/ p %& son sucesos asociados a && y &' respectivamente. Notacin de sucesos. Con la finalidad de tener un lenguaje para la probabilidad exenta de ambigedad es necesario establecer una notacin precisa para expresar nuevos sucesos a partir de la combinacin de dos o ms de ellos. Esta notacin se logra a travs del uso de la teora de conjuntos. El rea sombreada de cada figura representa el sector en el cual se ubica el resultado del experimento. Si = W es el resultado de un experimento, entonces se dice que: 1) ocurre un suceso E si y solo si = E, que se denotar por E

34
2) no ocurre el suceso E si y solo si = Ew , que se denotar por Ew

3) ocurre E o F o ambos si y solo si = E F, que se denotar por E F

4) ocurre E y F si y solo si = E F, que se denotar por E F

35

5) ocurre E y no ocurre F , equivalente a decir ocurre slo A, si y solo si = E F w , que se denotar por E F w

6) no ocurre E ni ocurre F , equivalente a decir no ocurre ninguno de los sucesos si y solo si = Ew F w , que se denotar por Ew F w .

() E y F no ocurren juntos si y solo si E F 9

Definicin. Se dice que los sucesos E y F son mutuamente excluyentes si no pueden ocurrir juntos. La condicin de exclusin es muy importante, porque permite establecer que si uno de los sucesos ocurre, entonces el otro no ocurre.

36
Definicin. Se llama suceso elemental a aquel suceso que est constituido por uno de los resultados de un experimento, es decir, es un conjunto unitario. As, si un experimento tiene asociado un espacio muestral de cardinalidad n, #S= n, entonces existen n sucesos elementales vinculados Ei =i i = 1, 2, 3, ....,n. Ejemplos 2.1. a) Al considerar los sucesos E " ', F # % ' G " $ & H ' asociados al experimento &$ se establece que H es un suceso elemental, que H y G son sucesos mutuamente excluyentes y que F y G son sucesos complementarios, F w G , y por lo tanto son tambin mutuamente excluyentes. b) El espacio muestral asociado al experimento &% se puede descomponer en 36 sucesos elementales E" " " E# " # E$ " $ E$' ' ' 2.3 Frecuencia relativa, la probabilidad y sus propiedades. Sea & un experimento que se repite n veces, E un suceso cualquiera asociado a ste y fE la frecuencia absoluta del suceso E, entonces la frecuencia relativa de E es 2E fE n. La frecuencia relativa tiene las siguientes propiedades: 1 ! 2E " 2 2E " si y solo si E ocurre en las n repeticiones, es decir, ocurre siempre. 3 2E ! si y solo si E ocurre nunca en las n repeticiones. 4 Si E y F son dos sucesos mutuamente excluyentes, entonces 2EF 2E 2F 5 Cuando n _ , entonces la frecuencia relativa 2E tiende a la probabilidad del suceso E De esta forma se puede considerar que 2E es la probabilidad emprica de A. Tomando como modelo la frecuencia relativa y sus propiedades se establece la siguiente definicin. Definicin. Sea W un espacio muestral asociado a un experimento & y T una funcin que le asocia a cada suceso de S un nmero real bajo las siguientes condiciones: 1 0 T E 1, para todo E W 2 T W " 3 Si E F 9 implica que T E F T E T F , entonces T es una probabilidad para S y (S,P) se designa como un espacio de probabilidad de S. Consecuencia. Si en un espacio muestral finito W , de cardinalidad #S = n, se conoce la probabilidad pi de cada suceso elemental de W , que satisfacen las condiciones, i) pi 0, i = 1, 2, 3, ...., n y ii) !pi ", entonces todo suceso E tiene asignada una
i=1 n

probabilidad que se puede deducir a partir de los sucesos elementales, pues E siempre se

37
puede expresar como la unin de sucesos elementales y estos por definicin son mutuamente excluyentes. Por ejemplo E # % &} #} %} &} y por lo tanto T # % &} T #} T %} T &}, en virtud de la condicin 3 de la probabilidad. Ejemplos 3.1. a) Sea W + , - . y T tal que T (+ ) "' , T (, ) "5 , T (- ) "$ , T (.) $"! y el suceso E + - . , entonces T es una probabilidad bien definida para W , porque i) T =i ! , para todo =3 W y ii) ! T =3 "' "& "$ $"! ", luego
3" %

T (E T + T - T . "' "$ $"! %&. b) Sea W " # $ y T tal que T (") ""! , T (" #) #5, T $ $&. En este caso T es una probabilidad bien definida, porque se puede determinar T (") ""!, T # T (" #) T " $"! y T ($) $&, positivos, y T (") T # T $ ". c) Sea W " # $ y T tal que T (" #) #5, T $ $&. En esta situacin T no es una funcin de probabilidad , porque no se pueden determinar a partir de las condiciones dadas T ("), T #, T (" $) y T 2, 3. Las propiedades ms importantes de la probabilidad se enuncian y demuestran a continuacin. Teorema 1. Probabilidad que no ocurra el suceso E: T Ew " T (E). Demostracin. W E Ew y E Ew 9 , luego T W T E T Ew " , de acuerdo a la tercera y segunda condicin de la probabilidad. De la ltima igualdad, despejando se tiene T Ew " T E. Teorema 2. Probabilidad del suceso imposible, cuya notacin es 9: T 9 ! Demostracin. T 9 T W w " T W " " !, por teorema 1 y segunda condicin de la probabilidad.

38
Teorema 3. Probabilidad que ocurra al menos T E F T E T F T E F. Demostracin. E F E F Ew y F E F F Ew , luego T E F T E T F Ew por ser E y (F Ew) sucesos mutuamente excluyentes. T F T E F T F Ew , pues E F y F Ew son mutuamente excluyentes. Despejando P(F Ew de la ltima igualdad y sustituyndola en la anterior se obtiene T (E F T E T F T E F que corresponde a la propiedad enunciada. Teorema 4. Probabilidad que ocurra al menos uno de los sucesos E F o G: T E F G T E T F T G T E F T E G T F G T E F G Demostracin. La demostracin se consigue aplicando recurrentemente el teorema 3. Teorema 5. Probabilidad que entre dos sucesos E y F ocurra slo E T E F w T ET E F Demostracin. E E W E F F w E F E F w , usando propiedades de conjuntos. Adems como E F y E F w son sucesos mutuamente excluyentes w T E T E F E F T E F T E F w . Despejando T (E F w de la igualdad se obtiene la propiedad buscada. Teorema 6. Probabilidad que no ocurra el suceso E ni ocurra el suceso F : T Ew F w " T E F. Demostracin. Una propiedad en teora de conjunto establece que E Fw Ew F w , luego T Ew F w T E Fw " T E F , aplicando el teorema 1. Consecuencia. Una propiedad muy til en probabilidad dice que "la probabilidad que ocurra al menos uno de entre varios sucesos es igual a 1 menos la probabilidad que no ocurra ninguno de los sucesos". Esta propiedad se deduce del teorema 6, que en el caso de dos sucesos se expresa uno de los sucesos E o F

39
como T E F " T Ew F w T E F G " T Ew F w G w . Teorema 7. Si E F , entonces T E T F. Demostracin. F E F Ew , luego T F T E T F Ew T F Ew !. Ejemplos 3.2 a) Dada T E "# , T F "$ y T E F "& , se puede establecer que - T F w " T F " "$ #$ , por teorema 1. - T (E F T E T F T E F "# "$ "& "*$!, por teorema 3. - T Ew F T F T E F "$ "& #"&, por teorema 5. - T Ew F w T E Fw " T E F " "& %& , por otra propiedad de conjuntos que establece que (A B)' = (A' B') y teorema 1. - T Ew F T Ew T F T Ew F " "# "$ #"& ("!. b) En un vivero una planta puede tener una enfermedad \ con probabilidad "&, otra enfermedad ] con probabilidad #( y la enfermedad \ o la enfermedad ] o ambas con probabilidad $( Cul es la probabilidad de que una planta cualquiera tenga: i) ambas enfermedades ? ii) slo la enfermedad ] ? ; iii) no est enferma ? Del enunciado se establece T \ "& T ] #( y T \ ] $(, entonces i) se debe determinar T \ ] . Al despejar la probabilidad de la interseccin en el teorema 3, se establece que T \ ] T \ T ] T \ ] "& #( $( #$& ii) lo que se desea es T \ w ] , es decir, que no tenga la enfermedad \ y tenga la enfermedad ] , por lo tanto T \ w ] T ] T \ ] #( #$& )$& iii) que no est enferma significa que no tenga la enfermedad \ y no tenga la enfermedad ] , luego se debe calcular T \ w ] w " T \ ] " $( %( por lo tanto T F T E pues y en el caso de tres sucesos como

40
2.4 Probabilidad en espacio muestral finito equiprobable. Un espacio muestral W es finito si su cardinalidad es un nmero natural n y es equiprobable si todos los resultados de un experimento & tienen la misma posibilidad de ocurrir. La condicin de equiprobabilidad debe justificarse cuidadosamente. Ejemplos 4.1 Considrense los siguientes experimentos y sus correspondientes espacios muestrales. a) &" lanzamiento de un dado simtrico y W " # $ % & ', entonces W es un espacio muestral finito equiprobable. b) &2 lanzamiento de una moneda equilibrada y W - =, entonces W es un espacio muestral finito equiprobable. c) &3 dos lanzamientos de una moneda equilibrada y W (- - - = = - = =, entonces W es un espacio muestral finito equiprobable. d) &4 dos lanzamientos de una moneda equilibrada y W ! " #, donde 0, 1 o 2 indican el nmero de caras obtenidas en ambos lanzamientos. Entonces W no es un espacio equiprobable, porque ! es equivalente a = = " es equivalente a - = = - y 2 es equivalente a - -. e) && extraccin de 3 fichas al azar, sin sustitucin, de una bolsa que contiene 6 fichas rojas, 4 blancas y 5 azules. Entonces, si W es el conjunto de todas las combinaciones posibles de 15 fichas tomadas de a 3, ste es un espacio muestral finito equiprobable de "& $ %&& resultados. f) Si en el mismo experimento anterior W representa el nmero de fichas rojas obtenidas, entonces W no es un espacio muestral equiprobable, pues el nmero de combinaciones que no contienen fichas rojas es distinto al nmero que contiene una roja y distinto al que contiene dos rojas y distinto al que contiene las tres rojas, luego sus posibilidades son distintas. Asignacin de probabilidades en espacios muestrales finitos equiprobables. Si W es un espacio muestral finito equiprobable, entonces hay n resultados con igual probabilidad p, para los cuales se debe satisfacer que: !T =i ! p np=", de donde
i=1 i=1 n n

resulta que p "n. La consecuencia es que en todo espacio muestral equiprobable de cardinalidad n, cada suceso elemental tiene probabilidad T =i "#W "n y por lo tanto cualquier suceso asociado a este espacio muestral tiene una probabilidad asociada directamente proporcional a su cardinalidad. A partir de esta condicin se establece la definicin clsica de probabilidad de sucesos en los siguiente trminos nmero de casos favorables T E #E#W nmero de casos posibles .

41
Ejemplos 4.2 a) Si W (- - - = = - = = es un espacio equiprobable correspondiente al lanzamiento de dos monedas legales, entonces - la probabilidad de obtener 2 caras es T - - "%, pues hay 1 resultado favorable entre 4 resultados posibles - la probabilidad de obtener 1 cara es T - = = - #% "#. b) Con una bolsa que contiene 6 fichas rojas, 4 blancas y 5 azules, se realiza el experimento: i) &: extraer una ficha al azar. En este caso el espacio muestral equiprobable es el conjunto de las 15 fichas, bajo el supuesto que la nica diferencia entre las fichas es su color. Entonces la probabilidad de que la ficha obtenida sea de uno de los tres colores posibles es proporcional al nmero de fichas de ese color, o sea, T azul) &"&, T blanca) %"& y T roja) '"&. ii) & extraccin de 3 fichas al azar, sin sustitucin. Este es el experimento && del ejemplo 4.1 y el espacio muestral equiprobable, cuyos elementos son conjuntos ternarios de la forma {r, b, r} o {a, a, a}, es muy amplio para expresarlo por extensin, que por lo dems no interesa, porque slo es importante su cardinalidad, que como se explic antes corresponde a %&&. Probabilidades las combinaciones entre 15 fichas tomadas de a 3, o sea, #W 15 3 tipo, asociadas a este experimento, se calculan a continuacin: 15 %%&& , pues hay 4 combinaciones para obtener 3 fichas - T 3 fichas blancas 4 3 3 blancas. -T una ficha de cada color T 1 roja, 1 azul y 1 blanca)
5 4 6 1 1 1

15 3

6 5 4 455

#%*",

esto se explica porque hay 6 formas de seleccionar una ficha roja, 5 para una ficha azul y 4 para blanca y 120 formas de que sea una de cada color. -T dos fichas rojas y una azul)
5 6 2 1

15 3

(&%&&, pues dos fichas rojas se pueden obtener

como combinacin de dos fichas elegidas de entre las 6 rojas que hay. - T al menos una ficha roja) " T (ninguna roja) "
15 3 9 3

" )%%&& $("%&&,

utilizando la consecuencia del teorema 6 y por qu 3 fichas no rojas se pueden elegir de entre las 9 fichas que son blancas o azules. - T a lo ms 2 fichas rojas) T ninguna roja o 1 roja o 2 rojas) T ninguna roja T 1 roja) T 2 rojas)
9 3 15 3

6 9 2 1

15 3

6 9 1 2

15 3

)(*"

Tanto en este caso como en el anterior el espacio muestral corresponde al nmero de fichas rojas obtenidas al seleccionar 3 fichas al azar, esto es, W ! " # $ y por lo tanto !}, {"}, {#}, {$ son los sucesos elementales de W y en consecuencia T !} T {"} T {#} T {$ " Se puede observar que "a lo ms 2 fichas rojas" es equivalente a 0 o 1 o 2 fichas rojas, por lo tanto, despejando T {$ en la igualdad anterior, se establece que

42
3
6

T a lo ms 2 fichas rojas) " T $ "

15 3

" #!%&& )(*"

Por otra parte "al menos una ficha roja" es equivalente a 1 o 2 o 3 fichas rojas. Despejando T ! de la misma igualdad anterior se tiene que T al menos una ficha roja) " T !, lo que es otra fundamentacin para la importante propiedad utilizada en la probabilidad anterior. c) Se realiza el experimento que consiste en lanzar un dado simtrico dos veces, luego el espacio muestral equiprobable est formado por los 36 pares ordenados que se obtienen con el producto {1, 2, 3, 4, 5, 6} x {1, 2, 3, 4, 5 ,6}. No es dificultoso expresar este espacio muestral por extensin en los siguientes trminos W " " " # " ' # " # ' ' & ' ' y a partir de ste calcular las probabilidades de obtener: - dos seis, lo que se plantea T ' ' "$' , pues hay un resultado favorable entre 36 posibles. - un tres y cualquier otro nmero, lo que equivale a los pares que tengan primer elemento 3 y segundo elemento distinto a tres o viceversa, luego hay 10 pares que cumplen con la condicin, en consecuencia T slo un tres en ambos dados) "!$'. - al menos un tres, es equivalente a slo una vez tres o dos veces tres, luego T al menos un tres T slo un tres T $ $) "!$' "$' ""$'. Otra forma consiste en aplicar la propiedad T al menos un tres) " T ningn tres " #&$' ""$', pues con el primer y segundo dado habra que obtener {1,2,4,5,6}, cuyo producto cruz corresponde a 25 pares ordenados. - seis puntos en total. Sea E B C B C '} " & # % $ $ % # & ", entonces T E &$'. - un par, o sea, el suceso F B C B C " " # # $ $ ' ' y por lo tanto T un par T F '$' - un nmero menor en el primer lanzamiento que con el segundo, que queda representado por el suceso G B C B C " # " $ " ' # $ & '. Este suceso tiene cardinalidad 15 y por lo tanto T G "&$'. d) Los 25 huertos de una localidad se clasificaron en trminos del sistema de riego en tecnificado (T) o surco (S) y de su tamao en mediano (M) o pequeo (P). Se encontraron que 13 huertos son de tamao pequeo; 10 riega por surco ; 5 de tamao pequeo y riego tecnificado. Se necesita realizar una encuesta en la localidad para lo cual se deben seleccionar 5 huertos al azar. Interesa calcular la probabilidad de que los 5 huertos seleccionados i) tengan riego tecnificado ; ii) sean de tamao mediano ; iii) sean de tamao pequeo y tengan riego tecnificado; iv) sean de tamao mediano y rieguen por surco. Lo primero es cruzar la informacin en una tabla 2 por 2 e ir ubicando la informacin entregada como se muestra en la primera tabla. Las siguientes celdas se rellenan por defecto como ocurre en la segunda tabla. tipo riego \ tamao M P Total tipo riego \ tamao M P Total
T S Total 5 13 10 25 T S Total 10 2 12 5 8 13 15 10 25

A continuacin se trata de identificar los valores adecuados para calcular las probabilidades de inters.

43

15 5 25 5

i) T & X

$!!$&$"$! ! !&'& , pues 15 son los huertos con riego tecnificado.

ii) T & Q

12 5 25 5

(*#&$"$! ! !"%*, pues 12 son los huertos de tamao mediano.


5
5

iii) T & de (X T )

25 5

"&$"$! ! !!!!#, pues son slo 5 los huertos pequeos y

con riego tecnificado. De acuerdo a la probabilidad obtenida es muy difcil que esta situacin pueda ocurrir. iv) T & de Q W !. Este suceso es imposible que ocurra, porque se deben elegir 5 de esa condicin y existen slo 2. 2.5 Probabilidad condicional. Considrese la bolsa con 6 fichas rojas, 5 azules y 4 blancas de la cual se extraen fichas, una a una, definindose los sucesos E la 1 ficha obtenida es blanca} y F la 2 ficha obtenida es blanca}, entonces la probabilidad de F depender de lo que ocurra antes de extraer la 2 ficha lo que se puede realizar de dos formas. i) con sustitucin En este caso despus de cada extraccin la bolsa se mantiene en las mismas condiciones iniciales cada vez, por lo tanto T E T F %"&, es decir, la probabilidad en cada extraccin es constante. ii) sin sustitucin En esta situacin despus de extraer la 1 ficha y no restituirla, la condicin inicial de la bolsa ha sido modificada, por lo tanto T E %"&, pero para determinar T F es necesario conocer la composicin de la bolsa despus de extraer la 1 ficha y ello depende de si ocurri o no el suceso A, o sea, la probabilidad de B est condicionada a la ocurrencia o no ocurrencia de A. Este nuevo concepto necesita explicarse y para ello se debe tener una notacin adecuada. P(B/A) designa la probabilidad de que ocurra B dado que ha ocurrido A, lo que se lee "probabilidad de B dado A". Para el caso de los dos sucesos definidos antes, corresponde a la probabilidad de que la segunda ficha sea blanca dado que la primera lo fue y en consecuencia despus de la primera extraccin en la bolsa hay catorce fichas de las cuales slo tres son blancas, por lo cual P(B/A) = P(la 2 ficha sea blanca dado que la 1 fue blanca) = 3/14. Tambin, P(B/A') = P(la 2 ficha sea blanca dado que la 1 no lo fue) = 4/14 o P(B'/A) = 11/14. P(B/A) significa que se est calculando la probabilidad de B referida al espacio muestral reducido A, en vez de referirla al espacio muestral original S.

44

Cuando se calcula P(B) se est preguntando que tan probable es que el resultado est en B sabiendo que est en S, mientras que cuando evaluamos P(B/A) la pregunta es que tan probable es que el resultado est en B sabiendo que est en A. El rea sombreada en la figura 5.1 representa la ocurrencia del suceso A y B/A significa que haya ocurrido B habiendo ocurrido A, representada en la figura 5.2 por el rea ms oscura, que corresponde a la interseccin de A y B, pero referida al suceso A.

De los conceptos anteriores surgen las siguientes definiciones. Definiciones. Dado dos conjuntos E y F cualesquiera asociados a un espacio muestral W , entonces 1 T FE T E FT E T E ! 2 T EF T E FT F T F ! Observaciones. 1) Cuando las probabilidades estn condicionada a un suceso cualquiera, denominado A o B o C, entonces tal suceso pasa a tener formalmente las caractersticas de un espacio muestral, reducido en relacin al espacio original S, de modo que todas las propiedades de la probabilidad que se cumplen en S son tambin vlidas en el espacio muestral reducido. De hecho cuando se plantea la probabilidad de B, P(B), es totalmente concordante a denotarla como P(B/S). 2) Consecuente con la observacin anterior es posible demostrar las siguientes propiedades: P(B'/A) = 1 - P(B/A) , equivalente teorema 1 P(B'/A') = 1 - P(B/A') , equivalente teorema 1 P((B C)/A) = P(B/A) + P(C/A) - P((B C)/A) , equivalente teorema 3 P(B C')/A) = P(B/A) - P((B C)/A) , equivalente teorema 5

45
Ejemplos 5.1 a) Si T E #& T F #$ T E F "', entonces "' - T EF T E FT F #$ "% - T FE T E FT E
"' #&

&"#
#$"' "#&

- T F w E " T FE " &"# ("# T FT EF - T FEw T Ew FT Ew T Ew w w w - T F E " T FE " &' "'

$' $&

&'

b) Se lanza un dado. Si el resultado es par cul es la probabilidad de que sea el nmero 6? - T seispar) "$ , porque si ocurre par hay slo tres resultados posibles de los que uno de ellos es el 6. Tambin haciendo uso de la definicin "' T par y seis) T seis T seispar T par T par $' "$ c) La siguiente tabla corresponde al ejemplo 4.2 d)
tipo riego \ tamao T S Total M 10 2 12 P 5 8 13 Total 15 10 25

.de la cual se pueden calcular las siguientes probabilidades al seleccionar un huerto al azar. - T huerto con riego tecnificado) "&#& $& - T (huerto pequeo con riego tecnificado) &#& "& - T huerto pequeo/riego tecnificado) &"& "$ , pues los huertos con riego tecnificado son 15 de los cuales 5 son de tamao pequeo. - T riego por surco/huerto mediano) #"# "' , pues los huertos medianos son 12 de los cuales 2 riegan por surco. d) Del ejemplo 4.2. c) se tienen los sucesos E B C B C '}, F B C B C y G B C B C, cuyas probabilidades son T E &$' T F "' y T G &"#. Se puede establecer las siguientes probabilidades condicionales. - T EF "' , porque hay 6 pares que cumplen con B y slo uno de ellos suma seis. - T FE "& , porque hay 5 pares que cumplen con A y slo uno de ellos es un par. - T EG #"&, porque hay 15 pares que cumplen con C de los cuales 2 cumplen con A. - T G F 0 , porque hay 6 pares que cumplen con B y ninguno cumple con C. Las 4 probabilidades anteriores se calcularon usando el camino ms sencillo, pero las mismas probabilidades se calculan usando la definicin. e) Con el fin de aportar mayor claridad al concepto de probabilidad condicional considrese el ejemplo introductorio de probabilidad condicional, consistente en extraer sin sustitucin dos fichas de una bolsa y los sucesos A = { la 1 ficha sea blanca } y B = { la 2 ficha sea blanca }, determinndose, usando el mtodo simplificado, que P(B/A) = 3/14. El procedimiento a continuacin es el que se debe realizar para calcular esta probabilidad haciendo uso de la = 105 y definicin. Si se extraen de la bolsa dos fichas sin sustitucin, entonces #S = 15 2 4 #(A B) = 2 = 6 , luego P(A B) = 2 / 35. Para calcular P(A) es necesario tener en cuenta que el orden es importante porque as est definido el suceso A, de manera que ahora se trata de variaciones, de modo que #S = 1514 = 210 , pues la primera ficha seleccionada puede ser cualquiera de las 15 y la segunda cualquiera de las restantes y #A = 414 = 56 , pues la

46
primera debe ser blanca y la segunda cualquiera de las 14 restantes, de donde / 35 P(A) = 56 / 210 = 4/15. En consecuencia P(B/A) = P(A B) / P(A) = 2 4 / 15 = 3 /14 como se haba establecido. Otra forma de analizar la situacin anterior consiste en considerar que, en la situacin que se est analizando, el orden en que son extradas las fichas es importante, por lo tanto el espacio muestral son variaciones de 15 fichas tomadas de a 2 en vez de combinaciones, es decir, #S = P"& 15 14 210, pero la condicionalidad reduce este # espacio muestral al suceso A con #A = 414 = 56, entre los cuales hay 43 = 12 que corresponden a dos fichas blancas, luego P(B / A) = 12 / 56 = 3/14. Observaciones. 1) Los resultados (b1 , b2 ) y ( b2 , b1 ) son dos segn las variaciones cuando el orden importa y slo uno cuando el orden no importa que corresponde a las combinaciones, cuya notacin ser { b1 , b2 } con parntesis de conjunto, donde "b" se refiere a una ficha blanca. 2) Hay dos maneras de calcular la probabilidad condicional P(A / B), directamente considerando la probabilidad de A respecto al espacio muestral reducido B, o usando la definicin donde P(A B) y P(B) se calculan respecto al espacio muestral original S. Principio multiplicativo de probabilidades. Como consecuencia de la probabilidad condicional se obtiene el principio multiplicativo general de probabilidad. Despejando P(A B) ya sea de la definicin 1 como de la definicin 2, se deduce que: Principio multiplicativo general P(A B) P(A/B)P(B) P(B/A)*P(A) Por conveniencia se adoptar la notacin (si , sj ) para indicar un orden en los resultados, primero el resultado si y segundo el resultado sj . La notacin (si y sj ) denotar que el orden no importa, primero si y despus sj o viceversa. Ejemplos 5.2 a) De la bolsa conteniendo 6 fichas rojas (r), 5 azules (a) y 4 blancas (b), se extraen dos fichas sin sustitucin, entonces la probabilidad de obtener - una roja y una azul en ese orden se plantea y calcula T r ,a) T 1 roja)T (2 azul/1 roja) 6 5 T r, a) 15 14 "( - una roja y una azul en cualquier orden: T r y a)
5 6 1 1

15 2

#(. Se aprecia que en este

caso la probabilidad es el doble de la anterior, evidentemente porque la anterior es ms restrictiva, exige un orden. La relacin entre ambas formas es que cuando se exige un orden, entonces (r y a) es equivalente a (r, a) y (a, r). Luego P(r y a) = P(r, a) + P(a, r) = 1/7 + 1/7 = 2/7. - dos fichas blancas: T b, b) T b y b , pues existe un solo ordenamiento de dos fichas 4 3 blancas, luego, T b, b) T 1 blanca)T 2 blanca/1 blanca) 15 14 #$&. El mismo resultado se obtiene con combinatoria para T b y b)
4 2 15 2

6 105

#$&.

47
b) De la bolsa anterior se extraen 3 fichas sin sustitucin, entonces la probabilidad de obtener - una roja, una azul y una roja en ese orden: 6 5 5 T r, a, r) T 1 rojaT 2 azul/1 roja)T 3 roja/1 roja y 2 azul) 15 14 13 &*". - dos rojas y una azul en cualquier orden: T 2 rojas y 1 azul)
5 6 2 * 1

15 3

75 455

"&*"

Se puede constatar que esta ltima probabilidad es 3 veces la anterior debido a que hay tres ordenamientos posibles para extraer dos fichas rojas y una azul, donde cada ordenamiento tiene una probabilidad de 5/91. - una blanca, una azul y una roja en ese orden: T b, a, r) T 1 blanca)T 2 azul/1 blanca)T 3 roja/1 blanca y 2 4 5 6 azul 15 14 13 %*" - una de cada color en cualquier orden T roja y azul y blanca
5 4 6 1 1 1

15 3

120 455

#%*",

que es 6 veces la probabilidad anterior, esto debido a que existen 3x 6 ordenamientos posibles para obtener una ficha de cada color. c) En cierta carrera un alumno, si estudia lo suficiente, tiene una probabilidad de 0,6 de aprobar clculo por primera vez, una probabilidad de 0,9 de aprobar estadstica si aprob clculo la primera vez y de 0,5 en caso contrario. Cul es la probabilidad de que un alumno que toma por primera vez clculo apruebe estadstica, si estudia lo suficiente? Sea C el suceso aprobar clculo por primera vez, E el suceso aprobar estadstica la primera vez, entonces T G ! ' , T IG ! * y T IG w ! &, luego w w T I T IG T G T IG T G ! *! ' ! &! % ! (% d) En un invernadero hay 6 plantas de una especie entre las cuales hay 2 que estn enfermas con un virus. Se examinan las plantas una a una hasta encontrar las dos enfermas. Cul es la probabilidad de que la segunda enferma se encuentre i) al examinar la segunda planta?, ii) al examinar la cuarta planta? , iii) despus de examinar la cuarta planta? i) Para encontrar la segunda enferma (E) en el segundo examen es necesario que la primera planta examinada sea una de las enfermas, luego # 1 T 2 E en 2 examen) T 1 E y 2 E) T 1 E)T 2 E/1 E) 6 5 ""& ii) Para encontrar la segunda enferma en la cuarta inspeccin debe ocurrir que entre las tres primeras plantas examinadas haya una enferma y dos sanas, en cualquier orden, y la cuarta planta examinada est enferma, entonces T 2 E en 4 examen) T E/ 1 E y 2 S en las tres primeras)T 1 E y 2 S en las tres primeras) 1 3
2 4 2 1

6 3

3 1 3 5 "&

La probabilidad anterior es equivalente a la suma de las probabilidades de los tres sucesos independientes (E, S, S, E), (S, E, S, E), ( S, S, E, E). iii) T examinar ms de 4 plantas para 2 E) T examinar 5 plantas) T examinar 6 plantas) " #
2 4 3 1

6 4

" "

4 2 4 1 6 5

4 15

1 3

$&.

48
Observaciones. 1) El nmero de ordenamientos posibles entre n elementos distintos est dado por nx. El nmero de ordenamientos con n elementos entre los cuales hay grupos de elementos iguales de tamao a, b, c se determina por nxax bx cx. Por ejemplo la cantidad de nmeros distintos, de cuatro cifras, que se pueden escribir utilizando los dgitos {2, 4, 5, 7} es igual a 4x , es decir, 24. En cambio utilizando los dgitos {2, 2, 5, 5} slo se pueden obtener 4x2x2x, es decir, 6 nmeros distintos, de cuatro cifras que son: 2255, 2525, 2552, 5252, 5225 y 5522. Utilizando los dgitos {2, 4, 5, 5, 5} se pueden escribir 5x1x1x3x, es decir, 20 nmeros distintos. Intente escribirlos todos! 2) Verifique que P(r, r, a) = P(r, a, r) = P(a, r, r) y que P(r, a, b) = P(a, r, b) = ......= P(b, a, r). 3) En las situaciones de extracciones de elementos en los cuales el orden en que son obtenidos no importa, la extraccin uno a uno es equivalente a extraerlos todos en forma simultnea. Independencia de sucesos. Para introducir el concepto se revisarn algunas situaciones anteriores. 1. En el ejemplo introductorio de probabilidad condicional cuando se extraen fichas una a una con sustitucin se verifica que para los sucesos A = {la 1 ficha extrada sea blanca} y B = {la 2 ficha extrada sea blanca}, la P(B/A) = 4/15 y esta probabilidad es coincidente con la P(B) = 4/15. Es decir, la probabilidad de B no se ve afectada por la ocurrencia de A. 2. En el ejemplo 5.1 c) se definieron los sucesos E B C B C '}, F B C B C y G B C B C, determinndose que P(A/B) = 1/6 P(A) y P(A/C) = 2/15 P(A), o sea, en ambas situaciones la probabilidad de A fue afectada por la ocurrencia del suceso B o por la ocurrencia de C. Sin embargo, al considerar el suceso H B C C nmero par} con P(D) = " # , se establece que P(D/B) = 3/6 = P(D), pues de los 6 pares ordenados que satisfacen B, slo (2,2), (4,4) y (6,6) cumplen con la condicin que la segunda componente sea par, resultando que la probabilidad de D no es afectada por la ocurrencia del suceso B. En cambio P(D/C) = 9/15 P(D), verificndose que la probabilidad de D es afectada por la ocurrencia de C. Las situaciones anteriores que resultaron notables dan origen a la siguiente definicin. Definicin. Se dice que dos sucesos A y B asociados a un espacio muestral S son sucesos independientes si y slo si P(A / B) = P(A) y P(B / A) = P(B). La condicin de independencia entre dos sucesos establece que la ocurrencia de uno de ellos no altera la probabilidad de ocurrencia del otro. La condicin de independencia da origen a una importante consecuencia. Principio multiplicativo de probabilidades para sucesos independientes. Del principio multiplicativo general se tiene que P(A B) = P(A / B)P(B), pero si A y B son sucesos independientes, entonces por definicin P(A / B) = P(A), que al sustituirse en la igualdad anterior resulta

49

Principio multiplicativo para sucesos independientes A y B sucesos independientes P(A B) P(A)P(B) El principio anterior se puede aplicar en dos direcciones. La ms frecuente ocurre cuando mediante un simple racionamiento basado en las condiciones en las que se realiza el experimento permite deducir que dos sucesos son independientes, entonces se aplica P(A B) = P(A)P(B). La otra ocurre cuando es dfcil establecer a priori que dos sucesos son independientes, entonces si se puede establecer que P(A B) = P(A)P(B), se deduce que A y B son sucesos independientes. Ejemplos 5.3 a) Del enunciado del problema 3.2 b) no es posible establecer a priori si las enfermedades \ e ] son o no independientes, pero considerando la informacin se puede establecer que # T \ ] #$& " & ( T \T ] , consecuentemente el que una planta tenga la enfermedad \ es independiente a que contraiga la enfermedad ] y viceversa. Dicho de otra manera el que una planta tenga una enfermedad no afecta el que contraiga la otra. b) Del enunciado del ejemplo 5.1 a) no es posible deducir si existe independencia entre los sucesos E y F , pero con la informacin entregada se establece que: # T E F "' # & $ T ET F, luego los sucesos no son independientes. c) El mecanismo que acciona una lnea de embalaje en una exportadora depende de dos subsistemas independientes, A y B, con probabilidades de falla de ""! y ""&, respectivamente, durante un da cualquiera. La lnea deja de funcionar si fallan simultneamente ambos subsistemas. Entonces, la probabilidad de que en un da cualquiera: i) la lnea se detenga. Para que esto ocurra deben fallar ambos subsistemas, que corresponde " " a T E F T ET F "! "& ""&!. ii) falle slo el subsistema E, que se calcula: " " T E F w T E T E F "! "&! "%"&! iii) la lnea funcione, lo que ocurrir si al menos un subsistema funcione, esto es, " T Ew F w " T E F " T ET F " "&! "%*"&!. En este caso se aplic la propiedad "probabilidad de que al menos uno no falle, es igual a uno menos la probabilidad de que ambos fallen". d) Si se lanzan dos dados legales los resultados de ambos dados son independientes, luego " i) T seis y seis) T seis)T seis) " ' ' "$' & & " ii) T exactamente un seis) T seis no seis) T (no seis, seis " ' ' ' ' &") & iii) T al menos un seis) " T ningn seis) " & ' ' ""$' " iv) T un par) 'T un par especfico)=' " ' ' "', pues existen 6 pares posibles (1,1),...(6,6). e) Se lanza un dado cuatro veces y se observa el nmero de ocurrencias del seis. El espacio muestral para este experimento es W ! " # $ %, que corresponde a las veces que puede ocurrir el seis en los cuatro lanzamientos. Ntese que este espacio muestral no es equiprobable, as T ({!}) significa que ninguna vez ocurra el seis, o sea, & & & T no seis, no seis, no seis, no seis) & ' ' ' ' "#&"#*', porque los lanzamientos son

50
independientes y la probabilidad de no seis cada vez es &' T " indica que uno de los lanzamientos muestre seis y los otros tres muestre cualquier valor distinto de seis, luego T seis y no seis y no seis y no seis), que puede ocurrir de 4 maneras distintas, es decir, 4 1 " & & & maneras, por lo tanto, T seis y no seis y no seis y no seis) % ' ' ' ' "#&$#%. La " " & & 4 T # % # ' ' ' ' #&#"', pues existen 2 = 6 formas de ordenar dos veces el seis en cuatro lanzamientos. De esa manera se sigue calculando la probabilidad para los otros elementos, 3 y 4, del espacio muestral. Realice los clculos y verifique que la suma de todas las probabilidades es igual a 1. f) En una cmara de fro hay 1 bins de manzanas Granny , 1 de manzanas Richard y otro de manzanas Fuji, todas de igual apariencia. Se sabe que la probabilidad que una manzana tenga polilla es de 0,05 si es de la variedad Granny, 0,10 si es de la variedad Richard y 0,03 si es de la variedad Fuji. Entonces al elegir una manzana al azar de cada bin i) T las tres sanas T sana/Gr)T sana/Ri)T sana/Fu) ! *&! *!! *( ! )#* ii) P(dos sanas y una daada) T S y S y D) T S/Gr)T S/Ri)T D/Fu) T S/Gr)T D/Ri)T S/Fu) T D/Gr)T S/Ri)T S/Fu) ! *&! *!! !$ ! *&! "!! *( ! !&! *!! *( ! "'" g) Una bolsita A contiene dos semillas de flores rojas y tres de flores blancas y otra B contiene tres semillas de flores rojas y tres de flores blancas. Se extraen, sin sustitucin, dos semillas de cada bolsita. Dada la independencia del contenido de ambas bolsitas se puede calcular: i) T todas sean de flores de igual color) T 2 rs de A y 2 rs de B) T 2 bls de A y 2 bls de B) T 2rs/A)T 2rs/B) T 2bls/A)T 2bls/B)
2 2 5 2 3 2 6 2 # 3 " 1 5 2
3 3 1 1

2 2 5 2

3 2 6 2

3 2 5 2

3 2 6 2

%&!

ii) T sean 2 de cada color) T 2rs/A)T 2bls/B) T r y b/A)T r y b/B) T 2bls/A)T 2rs/B)
6 2

3 2 5 2

3 2 6 2

""#&

2.6 Teorema de la probabilidad total y teorema de Bayes. Muchas veces la probabilidad de un suceso es difcil obtenerla directamente, pero puede lograrse a partir de la probabilidad de ocurrencia de una serie de sucesos, lo que conduce a lo que se denomina probabilidad total. Previamente es necesario recordar el concepto de particin. Definicin. Se llama particin de un espacio muestral S a una serie de k sucesos Fi que cumplan las siguientes condiciones: 1 Fi 9 , para todo i = 1, 2, 3, ,k 2 Fi Fj 9 , si i j 3 F1 F2 F3 Fk W . La definicin establece que los sucesos son no vacos y excluyentes entre ellos, es decir, no tienen elementos en comn y adems, son exhaustivos, pues entre todos completan el espacio muestral. Un rompecabezas es una particin, donde cada pieza es un subconjunto del cuadro completo, o sea, un suceso desde el punto de vista probabilstico.

51

Teorema de la probabilidad total. Sea E W y { Fi / i = 1, 2, 3, ....., k} una particin de W , la cual induce la particin { E Fi / i = 1, 2, 3, ....., k} en el suceso E, tal que: 1 (E Fi ) (E Fj ) 9 , si i j. 2 (E F1 ) (E F2 ) (E F3 ) E Fk ) E, entonces si son conocidas las T EFi ) y T Fi ) para cada i = 1, 2, 3, k , se puede establecer que T E ! T EBi )T Fi ),
i=1 k

T Fi ) ! Demostracin. T E T (E F1 ) (E F2 ) (E F3 ) E Fk ) !T E Fi ) , pues se trata de


i=1 k

una unin de sucesos mutuamente excluyentes por la condicin 1 de particin de E. Pero para elemento E Fi de la particin de E se cumple que T E Fi ) T EFi )T Fi ), de acuerdo al principio multiplicativo general de probabilidades. Por lo tanto, sustituyendo en la sumatoria anterior se cumple que T E ! T EBi )T Fi ).
i=1 k

Observaciones. 1) Siguiendo con la analoga del rompecabezas, si el suceso A a que hace referencia el teorema lo asimilamos a la figura central de ste, se tendr que algunas de las piezas contienen parte de la figura central, no importa que la mayora de las piezas no contribuyan a su formacin, lo que equivale a decir que algunas A Bi son vacas, lo fundamental es que al armar el rompecabezas completo la figura central quedar completa. 2) Otra situacin se da al considerar un huerto de manzanos donde el 60% de la produccin es de la variedad Granny Smith, el 30% de la variedad Fuji y el 10% de la variedad Royal, entonces las tres variedades de manzanas establecen una particin del suceso A = {manzanas calibre 100} correspondientes a {manzanas Granny calibre 100} , {manzanas Fuji calibre 100} y {manzanas Royal calibre 100}.

Ejemplos 6.1 a) El 60% de la produccin de un huerto de manzanos es de la variedad Granny Smith, el 30% de la variedad Fuji y el 10% de la variedad Royal, y se sabe que son calibre 100 el 15% de las manzanas Granny, el 35% de las Fuji y el 40% de las Royal. Entonces el porcentaje de manzanas calibre 100 de la produccin total del huerto se calcula usando el teorema de la probabilidad total, donde A = {manzanas calibre 100}, como

52
T A) T AG)T G) T AF)T F) T AR)T R) ! 1&! ' ! $&! $ ! %!! " ! #$&, es decir, el 23,5% del total de manzanas es calibre 100. Tngase en cuenta que la particin la establecen las variedades y por lo tanto la suma de sus probabilidades debe ser 1, sin embargo las probabilidades condicionales P(A/G), P(A/F) y P(A/R) no tienen por qu sumar 1, pues estn referidas respecto a cada variedad. b) Una mezcla de semillas de clavel produce flores blancas, rojas y rosadas en proporcin de 50%, 30% y 20% respectivamente. El 5% de las semillas de flores blancas, el 10% de las rojas y el 15% de las rosadas son infrtiles (F'). Se desea determinar el porcentaje total de semillas infrtiles. Las condiciones del enunciado se disponen adecuadamente a continuacin: T flor blanca) T b) ! & T F' / b) ! !& T flor roja) T r) ! $ T F ' / r) ! "! T flor rosada) T s) ! # T F' / s) ! "& Por el teorema de la probabilidad total b)T b) T F') T F'/ b)T b) T F'/ r)T r) T F'/

! !&! & ! "!! $ ! "&! # ! !)&. El resultado obtenido permite establecer que el 8,5% del total de semillas son infrtiles. Teorema de Bayes. En el caso del ejemplo 6.1 b) se puede estar interesado en determinar la probabilidad de que una semilla que result ser infrtil corresponda a una de flor roja. P( roja e infrtil) /r)P(r) 0,3 En smbolos P(r /F') = = P(F' = 0,10 = 6/17, por la definicin de P(infrtil) P(F' ) 0,085 probabilidad condicional y el principio multiplicativo general de probabilidades. Esta forma de resolver el problema se debe al Rev. Thomas Bayes. Formalmente, conocidas las probabilidades
T EFj ) T E

T EFi ) y T Fi ) para todo i, entonces la

probabilidad T Fj /E )

T EFj )T Fj ) T E

T EFj )T Fj )
i=1

! T EBi )T Fi )

, para j = 1, 2, 3, k.

Las explicaciones son las del prrafo anterior, reconociendo, adems, que P(A) es la probabilidad total. Ejemplos 6.2 a) La efectividad de un producto para controlar pudriciones en peras es de 0,80 si el hongo es Botrytis y 0,60 si el hongo es Penicillium. Se estima que el 30% de los frutos est infectado por Botrytis, el 10% est infectado por Penicillium y el resto est sano. Entonces el porcentaje de frutos que se espera que presenten pudriciones despus de aplicar el producto se obtiene con la informacin a continuacin, aplicando la probabilidad total. T (efectiv /Bot) ! )! .......... T (Bot) ! $ T efect /Pen) ! '! ........... T Pen) ! " T efect /sano) " ! ............. T sano) ! ' , por lo tanto T sin pudr) T efect /Bot)T Bot) T efect /Pen)T Pen) T efect /sano)T sano) ! )! $ ! '! " " !! ' ! *! , es decir, el 90% de los frutos estar sano y en consecuencia el 10% presentar pudriciones. Podra interesar establecer la probabilidad de que un fruto haya estado infectado por Penicillium si est sano despus de aplicar el producto. En este caso hay que aplicar el teorema de Bayes:

53
T Pen / sano)
T sano/Pen)T (Pen) T sano)

!'!" !*

""&.

b) En la situacin del problema 6.1 b) se seleccionan 250 semillas de la mezcla y se siembran. Es necesario saber la proporcin de flores de cada color que se obtendrn. Esta situacin se resuelve aplicando sucesivamente el teorema de Bayes, pues se necesita P(b /frtil), P(r /frtil) y P(s /frtil). La informacin a utilizar es T flor blanca) T b) ! & T F' / b) ! !& ......T F /b) ! *& T flor roja) T r) ! $ T F ' / r) ! "! ......T F /r) ! *! T flor rosada) T s) ! # T F' / s) ! "& ......T F /s) ! )& T F) " T F') " ! !)& ! *"& T F /b)T b) !*&!& T b /F) !*"& *&")$ &" *% T F) T r /F) T s /F) $%")$ ") '% , es decir, 51,9% sern flores blancas, 29,5% sern rojas y 18,6% sern flores rosadas. Estas probabilidades reciben el nombre de probabilidades a posteriori. c) Una empresa M considera que su rival la empresa W tiene una probabilidad de 0,6 de presentarse a una licitacin. Si W se presenta la probabilidad de que M gane (G) la licitacin es 0,2, mientras que si W no se presenta (W' ) la probabilidad de ganarla es 0,9. A la empresa M le interesa conocer sus posibilidades de hacerse con la licitacin. Esto corresponde a la probabilidad total T G) T G / W)T W) T G/ W' )T W' ) ! #! ' ! *! % ! %), es decir, M tiene una probabilidad de 48% de ganar la licitacin. Un financista tiene la curiosidad de saber la probabilidad de que W no se haya presentado a la licitacin si M gan la licitacin, entonces T G / W' )T W' ) T W' /G) !*!% T G) !%) $4. Esta probabilidad es de 75%.
T F /r)T r) !*!!$ !*"& T F) T F /s)T s) !)&!# T F) !*"&

&%")$ #* &%

54

55

3. DISTRIBUCIONES DE PROBABILIDAD
3.1 Introduccin Recurdese que un modelo matemtico es la descripcin matemtica de una situacin real en cuya elaboracin se hacen algunos supuestos y en el que se consideran algunas simplificaciones de la realidad. La bondad de un modelo depende de cun bien se aproxima a la realidad que pretende describir y adems de cun simple sea. En sntesis un modelo es una forma matemtica de describir el comportamiento de un fenmeno. Los fenmenos determinsticos, como lo son por ejemplo, los fsicos de la cinemtica, la energa , la ptica, la termodinmica o en la qumica inorgnica como sucede con compuestos y sustancias de gran importancia biolgica tales como los fertilizantes o los pesticidas, son descritos mediante modelos determinsticos. Estos modelos se traducen en frmulas que establecen las interrelaciones entre los factores que intervienen en el fenmeno, mediante la cual se puede determinar con certeza el comportamiento de ste si se conocen las condiciones en que acta un nmero determinado de los factores. Por ejemplo, se puede predecir con certeza la distancia recorrida por un mvil si se conocen las condiciones en que se realiza el movimiento. Por el contrario, en los fenmenos no determinsticos, como lo son todos los juegos de azar y tambin innumerables fenmenos naturales, como los climticos, la produccin de frutales o de cultivos, no se pueden predecir con certeza el resultado. En consecuencia la nica manera de describirlos es a travs de su comportamiento probabilstico mediante modelos estocsticos. Para comprender estos modelos se requiere conocer una serie de trminos, notaciones y conceptos que les son propios y que se desarrollarn en esta unidad. 3.2 Distribuciones de variable aleatoria. El concepto bsico en el que se sustenta toda la teora de las distribuciones de probabilidad cuyo objetivo es formular los modelos estocsticos en trminos puramente matemticos, es el de variable aleatoria. Definicin. Se llama variable aleatoria (v.a) a una funcin \ cuyo dominio es el espacio muestral W y con recorrido en los reales, tal que a cada elemento del espacio muestral le asigna una imagen en los nmeros reales. En trminos matemticos: \ W d tal que a = W \= d. Observaciones. 1) Se conviene en designar las variables aleatorias por letras maysculas \ , ] , Z, 2) El recorrido de una variable aleatoria, VX , est formado por todas las imgenes de \ en d. Conceptualmente es otro espacio muestral del experimento. Este nuevo espacio muestral generalmente no es equiprobable, aunque W si lo sea. Los siguientes ejemplos servirn para clarificar el concepto.

56
Ejemplos 2.1. a) &" : lanzamiento de una moneda, con espacio muestral S = e= - f, y sea la v.a \" tal que, \" = " \" - # con VX" e" #f , es decir, la funcin \ transforma al resultado sello en el real " y cara en el real # Observe que la definicin de variable aleatoria no impone ninguna restriccin respecto al nmero real que se asigne, ni tampoco en que los valores asignados tengan alguna interpretacin, aunque lo habitual es que si la tenga, como se ilustra en el siguiente caso: Sea \# : n de sellos obtenidos al lanzar una moneda. De acuerdo a esta definicin de \# \# = " \# - ! con VX# e! "f que se explica en el sentido que si al lanzar la moneda ocurre sello el nmero de sellos obtenidos es uno, mientras que si ocurre cara el nmero de sellos obtenidos es cero. Ambas variables aleatorias, \" y \# , son conceptualmente correctas. b) &# lanzamiento de dos monedas , con W =e- - - = = - = =f. Si \ : n de sellos obtenidos con &# , entonces y \- - ! \= - \- = " \= = # V\ e! " #f. c) &$ lanzamiento de un dado , con espacio muestral S = e" # $ % & 'f. Si \" : puntos obtenidos con &3 , entonces \" =3 =3 a =3 W y por lo tanto VX" = e" # $ % & 'f resulta igual a W , pues \" es la funcin identidad. Si para este mismo experimento se define \# : n de seis obtenidos con &3 , entonces \# (1) =\# (2) =\# (3) =\# (4) =\# (5) = 0, mientras que \# (6)= 1, luego VX# = e! "f Otra posible variable aleatoria en este experimento es " si el valor es par \$ , con VX$ = e" #f. 2 si el valor es impar d) &% se lanzan dos dados y se observan los valores obtenidos. Si se define \" suma de puntos obtenidos, entonces VX " = e# $ % & ' ( ) * "! "" "#f , mientras que si la variable aleatoria es \# n de ases obtenidos entonces VX# = e! " #f. Para continuar con el desarrollo del modelo se debe tener una funcin que le asigne probabilidades a los elementos de VX . Para ello, hay que distinguir entre variables aleatorias discretas y continuas. Distribuciones de variables aleatorias discretas (v.a.d). Una variable aleatoria es discreta si VX es un conjunto finito infinito numerable. Todos los ejemplos 2.1 corresponden a este tipo de variable. Definicin. Sea \ variable aleatoria discreta, entonces una funcin p, denominada funcin de probabilidad puntual (f.p.p) de cuanta, que le asigne probabilidades a los elementos B3 de VX , debe satisfacer las siguientes condiciones: 1) p(B3 ) 0 , a B3 VX 2) ! p(B3 ) "
B3 VX

57
Ejemplos 2.2 a) Sea \ variable aleatoria discreta con "# si B # 3 correcta funcin de probabilidad puntual pB3 "$ si B3 $ , entonces p es una "' si B3 ' en VX = { 2 , 3 , 6 } porque sus imgenes son no negativas y su suma es igual a 1. b) La distribucin p(B3 ) " a B3 " # $ % & ' para la variable aleatoria X" del ' experimento &$ del ejemplo 2.1, constituye una correcta funcin de probabilidad puntual. En este caso se establece que el espacio VX" es equiprobable lo que ocurre si el dado es simtrico. Si el dado estuviese cargado entonces la funcin p indicara diferentes valores para cada B3 En el mismo experimento la variable aleatoria \# tiene por funcin de cuanta &' si B3 ! pB3 . "' si B3 " #&$' si B ! 3 c) En &4 la variable aleatoria \# tiene funcin de cuanta pB3 "!$' si B3 " "$' si B3 # Distribuciones de variables aleatorias continuas (v.a.c). Una variable aleatoria es continua si el conjunto VX es un conjunto infinito no numerable. En este tipo de variable aleatoria el conjunto VX corresponde a un intervalo o a una unin de intervalos de nmeros reales. As si & consiste en medir la cantidad de agua lluvia caida en Quinta Normal durante un ao dado, habra que establecer, por ejemplo, VX = eh0 h "!!!f, donde h es la altura en mm., o ms simplemente, como se adoptar en lo sucesivo, VX ser el conjunto de los reales, d. Tenga en cuenta que el espacio muestral no tiene por qu estar ajustado a lo que realmente suceda, pues lo importante es que no deje fuera valores posibles, y d cumple con ser el conjunto VX ms amplio posible. Definicin Sea \ variable aleatoria continua, entonces una funcin f, denominada funcin de densidad de probabilidad (f.d.p), que asigne probabilidades en d, debe satisfacer las siguientes condiciones: 1) fB 0 , a B d _ 2) '_ fB .B " b 3 ) T a \ b 'a fB.B Observaciones. 1) La definicin anterior establece que una funcin que asigne probabilidades a una variable aleatoria continua debe ser no negativa. 2) Las probabilidades se asignan en trminos de rea bajo la curva cuya funcin es f, por esta razn la segunda condicin establece que el rea total es uno, porque corresponde a la probabilidad del espacio muestral. 3) La tercera condicin dice que la probabilidad del suceso definido por el intervalo [a , b] la determina el rea limitada por la recta B a , la curva fB , la recta B b y el eje S\ .

58
4) De la definicin se establece que las probabilidades puntuales, es decir en un punto, tienen el valor cero, pues el rea bajo una curva en un punto es nula, luego, T \ c !. Esta situacin es intuitivamente correcta, porque cualquier intervalo contiene infinitos puntos y si cada uno tuviera probabilidad superior a cero, entonces la probabilidad del intervalo superara al valor 1. Se debe tener presente que la probabilidad es del intervalo y no de los puntos que estn en l. Como consecuencia de la definicin se concluye que para variables aleatorias continuas b T a \ b T a \ b T a \ b T a \ b 'a fB.B Algunos ejemplos ayudarn a comprender mejor estos conceptos que son vlidos por su sencillez y no necesariamente por su interpretacin a alguna situacin real. Ejemplos 2.3. a) Sea \ variable aleatoria continua con fB " " # B si ! B # ! para otros valores

0 " - T \ " '-_ !.B '! " " # B .B ! $% $% , esto se explica porque la funcin vale cero en los negativos y por lo tanto el rea es nula. _ # '_ - T \ #$ ' # f B .B ' # " " # B .B # !.B %* , pues la funcin toma el valor
# $ $

La figura 2.1 muestra el comportamiento de esta variable aleatoria, que coincide con S\ en los negativos y en el intervalo ] 2 , +_[ , y que en [0 , 2] es un segmento de recta ubicada por arriba del eje S\ , por lo que la variable toma valores en este ltimo intervalo, formando un tringulo rectngulo con el eje coordenado cuya rea es igual a uno, cumplindose que el rea total bajo fB es la unidad. Tambin se aprecia que asigna probabilidades mayores a intervalos cercanos al cero y probabilidades decrecientes a intervalos cercanos al dos. Algunos clculos de probabilidades asociadas a esta variable se desarrollan a continuacin. $ - T " \ $ ' "# " " B .B "#
# #

' " fB .B _

cero en el intervalo ]2 , _[ . " '# - T " \ & # " " # B .B "%

59
B# $ si # B " ! para otros valores La funcin de densidad de probabilidad es un arco de parbola positiva con vrtice en O en el intervalo [-2 , 1] y coincide con S\ fuera del intervalo figura 2.2. El rea total bajo la curva _ # " # '_ corresponde a '-_ fB .B '-_ ! .B '-# B $ .B " ! .B 0 " ! ". b) Sea la variable aleatoria continua \ con fB

Algunas probabilidades asociadas a esta distribucin se calculan a continuacin. " # B - T " \ " ' # .B "$' "
#

.B )* _ " ' - T \ " -" fB .B '-" ms clara en la figura 2.2.

- T \ !

# '! B -# $

-# $

B# $

.B '" ! .B
_

# *

! #*, representada por el rea

Funcin de distribucin acumulativa (f.d.a). Otra forma de expresar el comportamiento de una variable aleatoria consiste en hacerlo mediante su distribucin acumulativa, la que aporta una serie de ventajas, en especial para las distribuciones notables, por razones que se van a explicar posteriormente. Definicin. Se llama funcin de distribucin acumulativa, de una variable aleatoria \ , discreta o continua, a una funcin J tal que J B T \ B. Tal como lo da a entender su nombre esta es una funcin que va acumulando probabilidades. En el caso discreto lo hace sumando probabilidades punto a punto, similar a la frecuencia relativa acumulada L3 en descriptiva. En el caso continuo corresponde al rea total bajo la curva desde -_ hasta el punto B en el eje real. Formalmente: 1. Si \ variable aleatoria discreta J B ! pB3 2. Si \ variable aleatoria continua J B '_ fB .B
B3 B
B

60

La figura 2.3 ilustra el concepto de funcin de distribucin acumulativa en el caso de una variable aleatoria continua X. La interpretacin es que en la medida que el punto x" avanza hacia la derecha el rea bajo la curva se va incrementando y por tanto el valor de F(x" ), es decir, aumenta la probabilidad de que ocurra un valor de X menor o igual que x" , hasta alcanzar el valor 1 cuando x" llegue al final del recorrido. Propiedades. 1 J es una funcin no decreciente , esto es, si B" B# J B" J B# . 2
B - _

lim J B ! y lim J B " , es decir, J B vara entre ! y "


B_

3 Si \ variable aleatoria discreta, entonces J es u na funcin escalonada, con saltos de altura p(B3 en cada punto B3 V\ y con probabilidad puntual T \ B3 J B3 J B3-" 4 Si \ variable aleatoria continua, entonces J es un a funcin continua en d con . fB .B J B , con probabilidades T + \ , J , J + y P(\ , "J ,.

Ejemplos 2.4. "# si B # 3 a) Si \ variable aleatoria con pB3 "$ si B3 $ "' si B3 '

, entonces

61
! "# J B &' " si si si si B# #B$ $B' B'

b) Si \ variable aleatoria con fB ! $ J B B +) * * " si B # si # B " si B "

B# $ si # B " ! para otros valores


B B B#

, entonces

, pues '-_ f B .B = '-2

.B =

B$ ) * +*

La funcin cuyo grfico es el de la figura 2.5 no tiene rea asociado, sino que valores sobre la curva, as en la grfica F(-1) = 7/9 como se aprecia en la grfica, valor que corresponde al rea ms oscura de la figura 2.2.

62

Como ejemplos del clculo de probabilidades utilizando la funcin de distribucin acumulativa J , se utilizarn los mismos casos del ejemplo 2.3. b), de modo que sirvan de comparacin.
" " " " ) 1 ) - T " # \ # J # J - # (# + * - (# + * "$' - T \ ! J ! ! ) * )* " ) - T \ " " T \ " " J " " -* * #* $ $ -" ) - T 1 \ # J # J -" " * * 1 (* #* , pues $# est en el intervalo B ", as que J $ # ", como se ve en la figura 2.5.

3.3 Valores caractersticos de variables aleatorias. Son valores que permiten resumir mediante un nmero ciertas caractersticas de una variable aleatoria. Muchas veces este valor caracterstico coincide con el parmetro de la distribucin. Los dos ms importantes se refieren al valor esperado o esperanza matemtica y el otro a la varianza. Valor esperado de una variable aleatoria. Definiciones. 1. Se llama valor esperado de una variable aleatoria discreta al nmero I [\ ] = ! B3 pB3 .
B3 VX

_ 2. Se llama valor esperado de una variable aleatoria continua al nmero I [\ ] = '_ BfB.B. 3. Para cualquier funcin L de la variable aleatoria \ , I [L\ ] ! LB3 :B3 si \ es

variable aleatoria discreta, o I [L\ ]

' _ LBfB .B _

B3 VX

si \ es variable aleatoria continua.

Ejemplos 3.1 a) Sea \ : puntos obtenidos al lanzar un dado ("legal") con :B3 = " ' a B3 e" # $ % & 'f, " " " " " " " entonces I [\ ] =" ' # ' $ ' 4 ' & ' ' ' = ' ("+#+$+%+&+') $ & % $& ") b) Sea \ variable aleatoria discreta con :B3 $& "# $& " $& % "# " * I [\ ] =! $& " ") $& # $& $ $& ( si si si si B3 ! B3 " B3 # B3 $

, luego

63
c) Sea \ suma de puntos al lanzar dos veces un dado legal, entonces la distribucin de \ "$' si B3 # "# #$' si B3 $ "" $$' si B3 % "! es :B3 %$' si B3 & * &$' si B3 ' ) '$' si B3 ( La distribucin especifica que la probabilidad de obtener una suma de # puntos es "$' igual a la probabilidad de obtener "# puntos o que obtener & o * puntos tienen ambas la misma probabilidad de %$'. Entonces el nmero esperado de puntos obtenidos es " # $ # " I [\ ] # $' $ $' "! $' "" $' "# $' #&# $' 7 Observacin. De los tres ejemplos anteriores, especialmente en el a), es posible deducir que el valor esperado de una distribucin es equivalente al "promedio" de los valores que esta variable aleatoria puede tomar, pero no como promedio simple de sus valores, sino como un promedio ponderado por su probabilidad :B3 . Esto es equivalente a pensar que en una tabla de frecuencia de variable discreta, .
! 03 X3 R

03 R X 3

! 23 X3 ,

pues 23 03 R es la

frecuencia relativa y sta equivale a una probabilidad emprica. En este sentido, en los tres ejemplos, se puede interpretar que si se observa la variable aleatoria un nmero "infinito" de veces, entonces el promedio de los valores obtenidos es su valor esperado. Ejemplos 3.2 a) Sea \ variable aleatoria continua con fB #B si ! B " ! para otros valores

En la figura 3.1 se aprecia que la grfica de esta distribucin est representada por el segmento que une los puntos (! ! y " # y por el eje S\ en el resto de los reales. De esta manera asigna probabilidades mayores a valores en intervalos cercanos a 1 y probabilidades pequeas a intervalos cercanos al cero. _ " La interpretacin de I [\ ] '-_ BfB .B '! B#B .B #$ , es que si se observa un nmero muy grande de veces el valor de la variable su "promedio" es #$, lo cual es consistente porque sus valores son ms cercanos al 1 que al cero, dentro del intervalo [! "].

64

b) Sea la funcin de distribucin de \ B# $ si # B " fB ! para otros valores , entonces 1 1 B3 B# ' ' I [\ ] -2 B $ .B -2 $ .B &% , o sea, su valor "promedio" es -&%, valor consistente, porque de acuerdo al ejemplo 2.3 b) esta variable aleatoria toma valores negativos con una probabilidad de )* Propiedades del valor esperado. Las propiedades que se exponen a continuacin son equivalentes a las establecidas para la media poblacional en la unidad de descriptiva. 1 I [5 ] 5 . El valor esperado de una constante es igual a la constante. La propiedad es trivial, pues corresponde a la misma propiedad del promedio. 2 I [ -\ ] - I [ \ ] . La propiedad establece que la constante que multiplica a la variable aleatoria multiplica al valor esperado. $ I [-\ 5 ] -I [ \ ] 5 . Esta corresponde a la propiedad de linealidad del valor esperado e incluye a las dos primeras como casos especiales. Demostracin. Por facilidad en la demostracin se considerar a \ como variable aleatoria continua, pero como la integral y la sumatoria tienen las mismas propiedades a utilizar en la demostracin, tambin es vlida para las variables aleatorias discretas.

I [-\ 5 ] '_ -B 50 B .B , por la definicin 3 de valor esperado


_

'_ -B0 B 50 B .B
_

65
I [-\ 5 ] '_ -B0 B .B '_ 50 B .B
_ _ _ _ -'_ B0 B .B 5'_ 0 B .B

-I [x] 5 , pues la primera integral es el valor esperado de \ y la segunda es igual a uno por definicin. 4 Sean \ e ] variables aleatorias cualesquiera, entonces I [\ ] ] I [\ ] I [] ] & Sean \ e ] variables aleatorias cualesquiera, entonces I [\] ] I [\ ]I [] ], salvo que \ e ] sean variables aleatorias independientes. Estas dos ltimas propiedades se demuestran en la seccin 4.3, ejemplo 4.2 y en la consecuencia 3 de variables aleatorias independientes. Ejemplos 3.3 Como ejemplos se mostrarn algunas aplicaciones del valor esperado. a) Una compaa aseguradora desea ofrecer un seguro agrcola anual para la produccin de cerezas por un monto de 2500 UF. La compaa estima que puede tener que pagar el monto total con probabilidad 0,02 , el 50% del total con probabilidad 0,06 y un 25% del monto con probabilidad 0,1. Cunto debe ser la prima anual que la compaa debe cobrar si desea tener una utilidad promedio de 50 UF anual por cada uno de estos seguros? Sea X: la prdida anual por cada siniestro de la compaa, cuya distribucin de probalidad es ! !# si B3 #&!! ! !' si B3 "#&! pB3 ! "! si B3 '#& ! )# si B3 ! Por lo tanto I [\ ] = #&!!! !#+"#&!! !'+'#&! " = ")( & UF , es el monto promedio anual que debera pagar la compaa por cada seguro. Si desea tener una ganancia de 50 UF, entonces debera cobrar 237,5 UF, que corresponde a la prdida ms la utilidad esperada. b) La funcin :B3 representa la distribucin de probabilidad de calidad de un productor de "' si B3 ", es decir primera "# si B3 #, es decir segunda . repollos :B3 "% si B3 $, es decir tercera ""# si B3 % , si es desecho Si la ganancia por unidad est dada segn la funcin g(x) = 18x# -144x+281, calcular la ganancia promedio del productor por cada unidad.

Forma 1. 1 Por la propiedad del valor esperado I [1\] I [")\ # "%%\ #)"] ")I [\ # ] "%%I [\ ] #)" " " " " # " # " # " 2 I [\ # ] "# " ' # # $ % % "# #$% y I [\ ] " ' # # $ % % "# *%

66
3 Sustituyendo estos valores donde corresponde se obtiene una ganancia promedio por unidad de $ 60,5. Forma 2. 1 Se obtiene la distribucin de probabilidad de la ganancia. Los valores de gi se obtienen sustituyendo los valores 1, 2, 3 y 4 de B3 , respectivamente, en la funcin ganancia, obtenindose: "' si 13 "&& "# si 13 '& p ( 13 "% si 13 "" ""# si 13 ( " " " 2 Se calcula I [K ] "&& " ' '& # "" % -( "# $ 60,5 , coincidente con el resultado anterior. c) La variable aleatoria \ representa el peso (en kg) de pollos broiler de un productor, cuya distribucin est dada por: $ 3B B# si " B $ f B 10 . ! en otro caso Si el productor tiene una ganancia de 0,01 UF por cada pollo que pese entre 1 y 1,5 kg , de 0,02 UF por cada pollo que pese entre 1,5 kg y 2,5 kg y de 0,015 UF cuando pesa ms de 2,5 kg. Cul ser su ganancia total al vender su produccin de 5000 pollos ? De la funcin de distribucin del peso de los pollos se establece que T " \ " & "$%! , que T " & \ # & #$%! y que T # & \ $ %%!, luego la distribucin de probabilidad de la ganancia queda establecida por "$%! si 1 ! !"! 3 p 13 #$%! si 13 ! !#! , en consecuencia la ganancia promedio por pollo es %%! si 13 ! !"& "$ #$ 4 I [K ] ! !"! 4 ! + ! !#! 4! +! !"& 4! 0,01625 UF, po lo tanto, la ganancia total se obtiene multiplicando la ganancia promedio por unidad por el total de pollos vendidos, resultando una ganancia de 81,25 UF. Observe que la distribucin de la variable ganancia es discreta. Varianza de una variable aleatoria. Definicin. Se llama varianza de una variable aleatoria a I [\ I [X]]# .

Observacin. La definicin establece que la varianza es un promedio de desvos al cuadrado. Por la misma razn que en estadstica descriptiva, sta es una medida de la variabilidad del comportamiento de la variable aleatoria.

67
Proposicin. Z [\ ] I [\ # ] (I [\ ])# Demostracin. Sea I [ \ ] ., entonces Z [\ ] I [\ .]# , por cuadrado de binomio I [\ # # .\ .# ], usando propiedades I [\ # ] # .I [\ ] .# I [\ # ] # . . .# I [\ # ] .# I [\ # ] (I [\ ])# Ejemplos 3.3 a) Del ejemplo 3.1 a) se tiene que :B3 = " ' a B3 e" # $ % & 'f y que I [\ ] $ & , # # # # " # " # " entonces Z [\ ] I [\ ] I [\ ]) I [\ ] "# " ' # ' & ' ' ' *"', ( # luego Z [\ ] *" ' # $&"#. % si B3 ! $& ") si B3 " b) Del ejemplo 3.1 b), :B3 $& y I [\ ] = * "# ( . Como si B # 3 $& " $& si B3 $ " * # # # % # ") # "# I [\ ] ! $& " $& # $& $# $& "&( Z [\ ] "& ( ( #%%*. c) Del ejemplo 3.2 a), fB
" " #

I [\ # ] '! B# #B .B

#B si ! B " y I [\ ] #$ , luego ! en otro caso # # Z [\ ] " # $ "").


& %

d) Del ejemplo 3.2 b), fB I [\ # ] '-2 B# B $


"
#

B# $ si # B " y I [\ ] ! para otros valores & # .B ""& Z [\ ] "" & 4 &")!.


V[\ ] E[\ ]

de donde

La variabilidad relativa de \ se obtiene con el G Z Propiedades de la varianza.

&" )!

& 4

! '$*

Tal como sucede con la esperanza las propiedades a continuacin se corresponden con las vistas en estadstica descriptiva. 1 Z [5 ] = 0 Se establece que la varianza de una constante es igual a cero, situacin trivial por que una constante no vara. 2 Z [-\ ] - # Z [\ ] . La propiedad establece que la constante que m ultiplica a la variable aleatoria multiplica al cuadrado a su varianza. 3 Z [-\ 5 ] - # Z [\ ]

68
Demostracin. Z [-\ 5 ] I -\ 5# I -\5# I- # \ # #-5\ 5 # -I\ 5# - # I\ # #-5 I\ 5 # - # I\# #-5 I\ 5 # - # I\ # - # I\# , pues 5 # y los dobles productos se anulan # # # # - I\ I\ - Z \ Esta demostracin sirve para validar las dos propiedades anteriores que resultan como casos particulares de sta. 4 Sean \ e ] variables aleatorias independientes , entonces Z [\ ] ] Z [\ ] Z [] ]. Esta es una propiedad importante en estadstica, porque establece que al tener dos variables aleatorias independientes la varianza de su suma o diferencia es siempre igual a la suma de sus varianzas, cuya demostracin es el ejemplo 4.3. c) de la seccin 3.4. 3.4 Nociones sobre distribuciones de variables aleatorias bidimensionales. En muchas situaciones interesa considerar simultneamente dos o ms caractersticas en un mismo individuo, como por ejemplo, su altura y su peso ; su edad, aos de educacin y su ingreso mensual. Para tal efecto es necesario desarrollar algunos conceptos. Definiciones. 1. El par \ ] recibe el nombre de variable aleatoria bidimensional o vector aleatorio si y solo si \ e ] son variables aleatorias unidimensionales. p p Notacin: X \ ] ; X : W d# ; R p es su recorrido. X p 2. El vector aleatorio X es discreto si su recorrido es un conjunto finito o infinito numerable. p 3. En X vector aleatorio discreto, una funcin p(B3 , C4 ) que le asigne probabilidades a los elementos (B3 , C4 de Vp , denominada funcin de probabilidad puntual conjunta de cuanta X conjunta, debe satisfacer las siguientes condiciones: p 1 :(B3 C4 ) 0 , a B3 C4 V\ 2 ! ! :(B3 C4 ) "
p B3 C4 V\

p , entonces T F ! 4. Si F V\

B3 C4 F

! :(B3 C4 )

p 5. El vector aleatorio X es continuo si su recorrido es una regin de d# . p 6. Sea X vector aleatorio continuo, entonces una funcin f B C, denominada funcin de densidad conjunta , que le asigne probabilidades a toda regin B de d# , debe satisfacer las siguientes condiciones: 1 f B C 0 , a B C d# _ _ 2 '_ '_ f B C .E " , donde .E .B.C .C.B 7. Si F d# , entonces T F 'F ' f B C .E

69

8. Se llama covarianza de \ e ] a G 9@\ ] I [\] ] I [\ ] I [] ] . La covarianza es una medida del grado de asociacin entre dos variables. Si G 9@\ ] ! la asociacin entre las variables es directa, en cambio si G 9@\ ] ! la asociacin es inversa. El inconveniente de la covarianza es que su unidad de medida depende de las de las variables y que puede tomar cualquier valor real lo que dificulta una interpretacin ms fina. Similar a lo que ocurre en estadstica descriptiva, donde el coeficiente de variacin facilita la interpretacin de la variabilidad, en este caso se establece el coeficiente de correlacin entre dos variables aleatorias. 9. Se llama coeficiente de correlacin entre X e Y al nmero adimensional rho (3) que se calcula como la covarianza entre las variables, dividida por la raz del producto de sus varianzas, as: 3 G 9@\ ] Z [\ ]Z [] ] , -1 3 1, es decir, es un valor acotado. 10. Si ^ es una funcin L de dos variables aleatorias, ^ L\ ] , entonces, segn la distribucin sea discreta o continua I [^ ] ! ! L B3 C4 :(B3 C4 )
p B3 C4 V\

I [^ ] '_ '_ L B Cf B C .E
_ _

Ejemplos 4.1 a) La siguiente tabla de doble entrada define una funcin de probabilidad conjunta :(B3 C4 ) para un vector aleatorio discreto
B3 C4 " $ & Total ! ! !& ! "! ! "& ! $! # ! !$ ! "# ! #& ! %!
4

! !( ! !& ! !) ! #!

' ! !& ! !$ ! !# ! "!

Total ! #! ! $! ! &! " !!

Segn la tabla T \ = $ ] = ! :(B# C" ! "!, T \ = 1 ] = 4 :(B1 C3 ! !( T \ $ ] % T \ = & e ] = ! # T \ = & ] = 0) + P(\ = & ] = 2) ! %! Observe que la suma de todas las casillas es uno, lo que corresponde a la probabilidad del espacio muestral. Sea ^ \] , entonces de la distribucin conjunta, I [^ ] ! ! B3 C4 :(B3 C4 )
p B3 C4 V\

I [^ ]= "!! !&+"#! !$+"%! !(+"'! !&++&!! "&+&#! #&+&%! !)+&'! !# = ( # . Esto significa que la esperanza o promedio del producto de \ por ] es 7,2 . p B# b) Sea X \ ] con distribucin conjunta f B C ! "$ # # BC " Entonces T \ $ ] " '! '" B $ .C .B "$$#%
BC $

si ! B " ! C # en otra situacin

70
_ _ Sea ^ #\ ] , entonces I [^ ] '_ '_ #B Cf B C .E " # '! '! #B CB# BC $ .C .B " # & " $ # '! '! #B $ B C $ BC # .C .B #$*. Significa que el valor esperado de dos veces la variable aleatoria X ms la variable aleatoria Y es 23 / 9.

Distribuciones marginales. En la tabla que define la distribucin conjunta :(B3 C4 ) los totales por fila, se llama distribucin marginal de \ . Los totales de columnas, se llama distribucin marginal de ] Las distribuciones marginales corresponden a distribuciones unidimensionales de las variables aleatorias \ e ] por separado, las que se deducen de la distribucin conjunta. As del ejemplo 4.1 a), la ltima columna y la ltima fila respectivamente son las distribuciones marginales ! $! si C4 ! ! %! si C4 # :(C4 ! #! si C4 % ! "! si C4 ' Las distribuciones marginales se pueden utilizar como cualquier distribucin unidimensional, lo que se ilustra en los siguientes ejemplos. ! #! si :B3 ! $! si ! &! si B3 " B3 $ B3 & T \ $ ! $! T ] ! T ] = # T ] = 4 T ] = ' ! (! I [\ ] "! #! $! $! &! &! $ ' y anlogamente I [] ] # # Z [\ ] "# ! #! $# ! $! &# ! &! $ '# # %% y V [] ] $ &' Considerando que I [\] ] ( # (del ejercicio 4.1 a)) se obtiene que G 9@\ ] ( # $ '# # ! (# , con un coeficiente de correlacin 3 ! (## %%$ &' ! #%%. La funcin g B obtenida integrando f B C respecto a C en todo su recorrido se llama _ funcin de ditstribucin marginal de \ , luego gB '_ fB C .C La funcin h C obtenida integrando integrando f B C respecto a B en todo su recorrido _ se llama funcin de ditstribucin marginal de ] , luego h C '_ fB C .B Para la funcin de densidad conjunta del ejemplo 4.1 b), las funciones marginales respectivas son: #B# # _ # # # $ B si ! B " gB '_ f B C .C '! B# BC $ .C #B $ B g B ! en otro caso C " ' si ! C # _ " C " hC '_ f B C .B '! B# BC h C $ $ .B $ ' ! en otro caso Las distribuciones gB y hC, igual que en el caso discreto, se utilizan en situaciones como las siguientes.
# # ' T \ " # " #B $ B .B &' ; "

C I [] ] '! C " $ ' .C "!*.


#
#

C T ] #& '! " $ ' .C ""(


#&

71
Ejemplo 4.2 Se demostrar la propiedad que I [\] ] I [\ ] I [] ] Sea ^ \]
_ _ I [\] ] '_ '_ BCf B C .C .B _ _ _ _ '_ '_ Bf B C .C .B '_ '_ C f B C .C .B

'_ B .B'_ f B C .C '_ C .C'_ f B C .B _ _ '_ B .Bg B '_ C .Ch C I [\ ] I [] ]


_ _ _ _

Variables aleatorias independientes. Un caso importante en estadstica es aquel en que dos variables aleatorias son independientes, lo cual se establece en la siguiente Definicin. Se dice que dos variables aleatorias son independientes si y solo si su distribucin conjunta es igual al producto de sus distribuciones marginales y sus rangos no dependen una de la otra. Consecuencias. 1. Si \ ] es un vector aleatorio discreto, \ e ] independientes :B3 C4 :B3 :C4 # Si \ ] es un vector aleatorio continuo, \ e ] independientes fB C gBhC 3. \ e ] independientes I [\] ] I [\ ] I [] ] G 9@\ ] !. Demostracin.
_ _ , por definicin I [\] ] '_ '_ BCf B C .E _ _ '_ '_ BCg B)h ( C .C .B , por ser \ e ] independientes _ _ '_ Bg B .B' _ Ch ( C .C _ _ '_ Ch ( C .C'_ Bg B .B I [] ] I [\ ] Por lo tanto G 9@\ ] I [\] ] I [] ] I [\ ] ! Ejemplos 4.3

a) La siguiente tabla describe la distribucin conjunta del vector aleatorio \ ]


B3 C4 " # $ :C4 % ! !* ! "& ! !' ! $! & ! #" ! $& ! "% ! (! :B3 ! $! ! &! ! #! " !!

Se puede verificar que la tabla describe la distribucon conjunta de variables aleatorias independientes, porque en cada casilla :B3 C4 :B3 :C4 . Adems I [\ ] "! $! #! &! $! #! " * I [] ] %! $! &! (! % ( I [\] ] "%! !* + "&! #"+ #%! "& + #&! $& +$%! !' +$&! "% ) *$ G 9@\ ] I [\] ] I [\ ]I [] ] ) *$ " *% ( !

72
f B C 18
1

b) Sea

BC # !

si 0 B # 0 C $ :9@

, la distribucin conjunta de dos

variables \ e ] Sus funciones de distribucin marginales son g B '! hC '!


$ 1 # 18 BC

" # B si ! B # .C " B si ! B # luego g B # ! para otros valores

# 1 BC# 18

" # C si ! C $ # .B " C si ! C $ , luego h C * * ! para otros valores

Los valores esperados de \ e ] son respectivamente I [\ ] '! B " B .B %$ #


#

I [] ] '! C " C# .C *% *
$ # $

" Si ^ \] , entonces I [\] ] '! '! BC ") BC# .C .B # * # '! ) B .B $

Se puede establecer que \ e ] son variables aleatorias independientes, pues fB C


1 # 18 BC

% * " # " # B * C gBhC y G 9@\ ] $ $ % !

c) Se demostrar que si \ e Z [\ ] ] es igual a Z [\ ] Z [] ]. Demostracin.

] son variables aleatorias independientes, entonces

Z \ ] I \] # I\] # I \ # ] # #\] I\ I] # I \ # I ] # # I \] I \# I ] # # I\ I ] I \ # I \# I ] # I ] # # I \] I\ I ] Z \ Z ] # G 9@\ ] Z \ Z ] , pues como \ e ] son independientes G 9@\ ] ! Observacin. De la demostracin anterior se deduce la propiedad ms general de la varianza de una suma o diferencia de variables aleatorias que establece: Z [\ ] ] Z [\ ] Z [] ] # G 9@ \ ] . Ejemplos 4.4 a) Del ejemplo 4.1 b), se obtiene que I [\ ] "$") y I [ ] ] "!*, entonces "$ "! utilizando propiedades, I [#\ ] ] #I [\ ] I [] ] # ") * #$*, lo que coincide con el resultado obtenido antes por definicin. "! Tambin, por propiedades I [# \ $] ] # I [\ ] $I [] ] # "$ ") $ * )$") En este caso se puede verificar que Z [\ ] ] Z [\ ] Z [] ], porque \ e ] no son variables aleatorias independientes.

73

b) Con la distribucin conjunta de variables aleatorias discretas del ejemplo 4.3 a) se obtiene que: I [\ ] " * I [] ] % ( Z [\ ] "# ! $+## ! &+$# ! # " *# ! %* Z [] ] %# ! $+&# ! ( % (# ! #". A partir de los cuales, utilizando propiedades, se calcula:. I [# $\ ] ] # $I [\ ] I [] ] " ! Z [\ ] ] Z [\ ] Z [] ] ! %* ! #" ! (! , porque \ e ] son variables aleatorias independientes. Z [\ ] ] Z [\ ] Z [] ] ! (! , por la misma razn anterior. Tambin: Z [ \ $] #] Z [- \ $] #] Z [ -\ $] ] Z [ -\ )] Z [$] ] -"# Z [\ ] $# Z [] ] ! %* *! #" # $)

74
.

75

4. DISTRIBUCIONES DE PROBABILIDAD NOTABLES


4.1 Introduccin. El diagrama de la figura 1.1 establece las dos formas de describir el comportamiento de una poblacin, empirica o teoricamente, la primera de las cuales requiere realizar una observacin exhaustiva de la poblacin, es decir, un censo.

Figura 1.1. Distribuciones empricas y tericas.

Por lo general es difcil realizar censos para grandes poblaciones por razones principales de costo y tiempo , pero igualmente existe la necesidad de caracterizarlas basndose, si es posible, en un nmero razonable de observaciones, es decir, en una muestra de la poblacin. Para tal efecto hay que recurrir a supuestos sobre el comportamiento de la poblacin, es decir, distribuciones tericas, de las cuales se puede asumir su forma, pero no sus parmetros, los cuales se deducirn a partir de la muestra, es decir, se har una estimacin. La forma de la distribucin terica se puede deducir a partir de comportamientos anteriores del fenmeno o a partir de un anlisis descriptivo de la muestra si sta contiene un nmero relativamente grande de observaciones como para construir un histograma de frecuencias. Existe un gran nmero de distribuciones tericas, tanto de variables continuas como de variables discretas, cada una de las cuales se expresa en trminos de una funcin matemtica, como se estudi en distribuciones de variables aleatorias. Entre las distribuciones de variable aleatoria continua ms notables se debe mencionar la distribucin Normal, la ms importante de todas las distribuciones, la distribucin Uniforme y la distribucin Exponencial. De las distribuciones discretas son importantes la distribucin Binomial, la ms notable entre las

76
discretas, la distribucin de Poisson y la distribucin Binomial negativa, todas con aplicaciones en el mbito agronmico. 4.2 Distribucin Normal. Es la distribucin que aparece con mayor frecuencia en el comportamiento de fenmenos reales, en especial en el rea de las ciencias naturales. Johann Carl Friedrich Gauss genio matemtico , fsico y astrnomo, de nacionalidad alemana, fue el que mayormente contribuy a su formulacin y aplicacin en diferentes reas del saber como por ejemplo en su aplicacin a la teora de los errores, de importancia en ingeniera. Es una distribucin de variable aleatoria continua cuya funcin matemtica, funcin de " B. # densidad de probabilidad, es 0 B " # / # 5 -_ B _ , cuya grfica corresponde a
#15

una curva en forma de campana denominada Campana de Gauss, que como se puede apreciar depende de los parmetros . y 5 2 , que corresponden a su valor esperado y varianza respectivamente. Notacin: \ R (. , 5 2 ) Caractersticas de la distribucin normal. 1 la curva tiene forma acampanada, asinttica al e je \ hacia -_ y +_. El rea total encerrada por sta y \ es igual a 1, como corresponde a toda funcin de distribucin de probabilidad. 2 la curva tiene un mximo en . y es simtrica respecto a la recta x = .. Luego, en esta distribucin son coincidentes la media aritmtica, la mediana y la moda, es decir, . = Me = Mo. 3 la curva tiene dos puntos de inflexin que se ubican en x = . - 5 y x = . + 5 4 el rea bajo la curva comprendida entre los puntos de inflexin es igual a 0,6826 (68,26%) y el rea entre . - 25 y . + 25 es igual a 0,9544 (95,44%), cualesquiera sean los valores de sus parmetros . y 5 # . Se debe recordar que el rea bajo la curva, en variables aleatorias continuas, corresponde a la probabilidad de sucesos que son intervalos de nmeros reales. En consecuencia, lo anterior se puede interpretar en el sentido que el 68,26% de los individuos que componen la poblacin terica tienen un valor de la variable en estudio entre . - 5 y . + 5 y en el 95,44% el valor de la variable quedar comprendida entre . - 25 y . + 25 . Ejemplo 2.1 En una lechera la produccin diaria de leche por vaca, \ , se distribuye R 18 , 9) , cuya grfica es la de la figura 2.1. De acuerdo al enunciado se puede deducir que el 68,26% de las vacas tienen una produccin diaria de leche entre 15 y 21 litros de leche, que corresponde a valores entre .5 , mientras que el 95,44% de las vacas produciran entre 12 y 24 litros diarios, que corresponde a .25 . Si la lechera cuenta con 3000 vacas la pregunta de cuntas de ellas producen entre 15 y 21 litros, se resuelve considerando que el 68,26% de ellas est en esa condicin y por lo tanto el 68,26% de 3000 corresponde a 2048 vacas Para contestar la pregunta de cuntas vacas producirn ms de 24 litros, se debe considerar que el 95,44% de ellas produce entre 12 y 24 litros diarios y que en los extremos, es decir bajo 12 litros y sobre 24 litros, est el (100 - 95,44)% = 4,56% de las observaciones y

77
como la distribucin es simtrica, la mitad, o sea, el 2,28% produce ms de 24 litros, lo que implica que 68 son las vacas que estaran en esa condicin.

Distribucin Normal Tpica o estndar. Se llama distribucin normal tpica a ^ R ! ", con funcin de distribucin de " # D probabilidad 0 D "#1 / # D . Su funcin de distribucin acumulativa es 9D '_ 0 D .D ,

que representa el rea bajo la curva normal estndar desde -_ hasta el valor real D Por a ejemplo el rea acumulada hasta el punto a es 9(a) '_ 0 D .D , representada en la figura 2.2. La relacin entre el rea bajo la curva normal tpica con la probabilidad de ^ se expresa as: 1) T ^ a 9a, por definicin y que corresponde al rea desde -_ hasta a. 2) T a ^ b 9b 9a , corresponde al rea entre a y b, segn la siguiente deduccin b a b b b a '_ 0 D .D '_ 0 D .D 'a 0 D .D 'a 0 D .D '_ 0 D .D '_ 0 D .D T a ^ b 9b 9a 3) T ^ b " T ^ b " 9b, corresponde al rea desde b hasta +_.

La funcin de distribucin acumulativa 9 est tabulada para diferentes valores de D La razn de la tabulacin radica en la situacin prctica de obviar los clculos rutinarios de la D integracin debido a que la '_ 0 D .D no se puede resolver utilizando el Teorema Fundamental del clculo debido a que la funcin 0 D En el anexo 1 (tabla A1) se incluye una tabla de la funcin 9D. Los valores para D con un decimal se presentan en la primera columna y las siguientes columnas corresponden al segundo decimal de D . As, por ejemplo 9-# "! ! !"(* se lee en la interseccin de lnea -2,10 con la columna 0,00 y 9-# "% ! !"'# se lee en la misma lnea en la columna 0,04. La probabilidad 9" $) ! *"'# se lee en la lnea con z igual 1,30 y en la columna del 0,08.
# " " #D #1 /

no tiene primitiva.

Ejemplo 2.2 Se mostrarn algunos ejemplos de clculo de probabilidades asociada a una distribucin normal tpica.

78

- T ^ " # 9" # ! ))%* - T ^ - ! '& 9- ! '& ! #&() -T ! & ^ ! )# 9! )# 9! & ! (*$* ! '*"& ! "!#% - T -! & ^ ! )# 9! )# 9- ! & ! (*$* ! $!)& ! %)&% - T -" # ^ -! ( 9- ! ( 9- " # ! #%#! ! ""&" ! "#'* - T ^ " %& " T ^ " %& " 9" %& " ! *#'& ! !($& - T ^ - ! '& " T ^ - ! '& " ! #&() ! (%##

A continuacin se enunciar un teorema de enorme importancia estadstica, porque establece la relacin entre una distribucin normal cualquiera y la distribucin normal tpica. Teorema. Sea \ variable aleatoria con distribucin R . 5 # , entonces la variable tipificada ^ tiene distribucin R ! ".
\. 5

Esto es de especial relevancia porque limita los clculos de probabilidad de distribuciones normales al uso de una tabla nica, como la A1 del anexo.

Consecuencia. Se fundamentar matemticamente cmo probabilidades asociadas a una variable \ R . 5 # se pueden obtener a partir de probabilidades de una normal tpica.

79
Por definicin T + \ , '+ sustitucin D
B. 5 , B. # " #15 # I\T 5 # +. 5

.B , al realizar en la integral la

se deduce que .B 5 .D y que los lmites de integracin de la integral


,. 5 . Entonces , B . " , '+ # I\T 5 # # .B #15 D " 'D"# I\T D # # 5 .D 5 #1 D " 'D"# I\T D # # .D #1

transformada son respectivamente D" T + \

y D#

T D" ^ D# +. ,. T 5 ^ 5 .
,. 5 . 9 + 5 .

9 Ejemplos 2.3

a) Para ilustrar el uso del teorema en el clculo de probabilidades, considrese la variable \ R ## #& cuya transformacin ^ \## R ! ", entonces para obtener 5 probabilidades de eventos de \ se procede como a continuacin - ## - ## - ## T \ "# T \ -5## "# 5 ) T ^ "# 5 9 "# 5 9- # ! !##)
- ## - ## T #! \ #& T #! 5 \## #&## T #! 5 ^ #&## 5 5 5 9! ' 9- ! ) ! (#&( ! #""* ! &"$)

T \ #* " T \ #* " T ^

#* - ##
5

) " 9" % " ! *"*# ! !)!)

b En una lechera la produccin de leche por vaca tiene distribucin \ R ") *, representada en la figura 2.1. Cul es la probabilidad que una vaca elegida al azar: 1) produzca menos de 12 litros ") Es necesario transformar \ R ") * a ^ R ! " , lo que implica que ^ \ , $ \ - ") "#") luego T \ "# T $ $ T ^ -# ! !##), por lo tanto la probabilidad que una vaca elegida al azar produzca menos de 12 litros es de 0,0228. Tambin se puede decir que el 2,28% de las vacas de la lechera producen menos de 12 litros diarios. 2) tenga una produccin entre 21 y 24 litros? Esto es, T #1 \ #4 T " ! ^ # ! 9(# ! 9" ! ! *((# ! )%"$ ! "$&* Por lo tanto la probabilidad que una vaca cualquiera produzca entre 21 y 24 litros diarios es de 0,1359.

3) produzca entre 15 y 22 litros? T "& \ ## T " ^ " $$ 9(" $$9 " ! ! *!)# ! "&)( ! (%*&. En consecuencia la probabilidad que una vaca elegida al azar tenga una produccin entre 15 y 22 litros es de 0,7495. 4) tenga una produccin mayor a 25 litros? T \ #& " T ^ # $$ " 9(# $$ " ! **!" ! !!**. Es decir, el 0,99% de las vacas de la lechera produce ms de 25 litros.

80

Valores percentiles de la distribucin normal tpica. Los valores percentiles de distribuciones de probabilidad son de gran importancia en estadstica. En el caso de la distribucin normal el valor percentil consiste en obtener el valor de a tal que T ^ a !, ! ! " . Conceptualmente esta situacin es la inversa de la desarrollada en la seccin anterior. Es decir, si la distribucin tabulada es T ^ a 9a, entonces T ^ a ! implica 9a !, luego a 9" ! es la inversa de la funcin de distribucin acumulativa normal. Notacin. Se utilizar la notacin percentil D! 9" ! Los valores percentiles D! se obtienen de la misma tabla, funcin acumulativa de la normal estndar, usndola en forma inversa. Ejemplos 2.4 En cada caso obtener el valor de + que cumpla con la probabilidad dada a partir de una tabla de la distribucin acumulativa normal estndar: a) T ^ + ! "!*$ 9+ ! "!*$ + 9-" ! "!*$ D!"!*$ " #$ b) T ^ + ! )"&* 9+ ! )"&* + 9-" ! )"&* D!)"&* ! *! c) T ^ + ! #! " T ^ + ! #! T ^ + ! )! + 9-" ! )! ! )%

d) T ^ + ! "!*$ " 9+ ! "!*$ 9+ ! )*!( + 9-" ! )*!( " #$ e) T ^ + ! "! f) T ^ + ! "! Observaciones. 1) Los ejemplos a) y d) , e) y f) corresponden a situaciones simtricas en la distribucin normal tpica, por lo cual sus valores percentiles tienen el mismo valor pero con signos opuestos. Ello siempre ocurrir con los valores percentiles complementarios, esto es D! D" - ! . 2) Una situacin de gran importancia en estadstica son los intervalos de probabilidad central " ! de la distribucin normal tpica ^ , cuyos extremos son valores percentiles simtricos, que en trminos probabilsticos es T D!# ^ D" - !# " ! o en forma equivalente T D" - !# ^ D" - !# " !, pues por la observacin anterior D!# D" - !# por corresponder a valores percentiles simtricos. As T D!"! ^ D!*! ! )! T " #) ^ " #) ! )! (ver ejemplo e) y f) anterior) y T D!!#& ^ D!!*(& ! *& T " *' ^ " *' ! *& , valores que se encuentran en el cuadro 2.1. 9+ ! *! + 9" ! *! D!*! " #) 9+ ! "! D!"! " #)

81
Valores percentiles notables de la distribucin normal tpica. Ciertos valores percentiles de la distribucin normal tpica tienen uso frecuente en inferencia y por esta razn se denominarn valores notables, los cuales se resumen en la siguiente tabla. !
! "! ! !& ! !#& ! !"

D!
- " #) - " '4& - " *' - # $$

D"-!
" #) " '4& " *' # $$

Cuadro 2.1. Valores percentiles notables de la distribucin Z

Tambin se pueden calcular valores percentiles de distribuciones normales cualesquiera y para ello se debe realizar el proceso de tipificacin tal como en el clculo de probabilidades. Ejemplo 2.5 Si en un cierto huerto ocurre que el peso \ de manzanas Granny, tiene distribucin normal con media 140 gr y desviacin tpica de 20 gr, entonces se pueden determinar situaciones como las siguientes. a) El peso mximo del 10% de las manzanas de menor peso, o sea, el percentil 10. La distribucin de las manzanas es \ R "%! %!! para la cual se est pidiendo a tal que a"%! T \ a ! "! T ^ a"%! ! "! 9 a"%! ! "! 9" ! "! " #). #! #! #! Despejando, se obtiene que a ""% %! gr, en consecuencia el 10% de las manzanas ms pequeas pesan menos de 114,4 gr. b) El peso mnimo del 5% de las manzanas ms grandes, es decir, el percentil 95. T \ a ! !& " 9 a"%! ! !& 9 a"%! ! *& a"%! 9" ! *& " '%&. #! #! #! Despejando se obtiene que a "(# * gr. Luego el 5% de las manzanas ms grandes pesan sobre los 172,9 gr. c) Entre que peso se encuentra el 90% central de las manzanas. El 90% central se encuentra entre el percentil 5 y el 95 de la distribucin del peso de las manzanas, designados respectivamente por a y b, valores simtricos en relacin a la media 140. Por lo tanto T a \ , ! *! T a"%! ^ b"%! #! #! ) ! *!, luego a"%! a"%! " 9( #! ) ! !& #! 9 ! !& " '%& + "!( " b"%! 9( b"%! 9" ! *& " '%& , "(# *, por consiguiente el 90% central de #! ) ! *& #! las manzanas pesa entre 107,1 gr y 172,9 gr. 4.3 Distribucin Uniforme. La distribucin uniforme es la smil de la distribucin equiprobable de variable aleatoria discreta, y establece que en cualquier posicin, dentro del rango de valores de la variable, la probabilidad de un suceso est en relacin con la longitud del intervalo que lo define. Por ejemplo si a , b , c y d, en orden de magnitud, pertenecen al rango de valores y si b - a = d - c , entonces en una distribucin uniforme se cumple que T a \ b T c \ d. En consecuencia la funcin de distribucin de probabilidad de la distribucin uniforme debe ser una funcin constante en el intervalo de valores de \ . Una variable aleatoria continua \ tiene

82
distribucin uniforme de parmetros a y b si su funcin de distribucin de " si a B b es de la forma f B ba . ! para otros valores Notacin: \ Unif (a , b) probabilidad

Valores caractersticos. Es fcil deducir aplicando las definiciones de valor esperado y varianza que ba)# b I [\ ] a y Z [ \ ] # "# . Ejemplo 3.1 En un terminal de buses la frecuencia de salida a un cierto destino es de treinta minutos a partir de las 7:00 AM. Un usuario frecuente llega al terminal en un instante que est distribuido uniformemente entre las 7:30 y las 8:00 hras. Si llega justo a la hora de salida ya no puede abordarlo y debe esperar el siguiente, de modo que su espera mxima es de 30 minutos. La hora de llegada del usuario ocurre, tambin, en un intervalo de 30 minutos, luego es una distribucin uniforme en un intervalo de longitud treinta, por lo tanto las probabilidades de tiempos de espera es la razn con respecto a 30 del tiempo desde su hora de llegada hasta las 8 hras. Si, por ejemplo, el usuario tuviera que esperar al menos 10 minutos, su hora de llegada debe ser entre las 7:30 y las 7:50, es decir, en un intervalo de longitud 20, lo que implica una probabilidad de ocurrencia de 20/30 o 2/3. Si interesa la probabilidad de que tenga que esperar menos de 16 minutos, su llegada debe ser entre las 7:44 y las 8:00, correspondiente a un intervalo de longitud 16, cuya probabilidad es 8/15. Para una espera de al menos 5 minutos, cuando la frecuencia de salida es cada 15 minutos, su llegada debe ser entre las 7:30 y 7:40 o entre las 7:45 y 7:55, esto es, dos intervalos de longitud 10, pero la llegada del usuario sigue siendo uniforme en un intervalo de 30 minutos, luego la probabilidad de tal evento es 20/30. Por otra parte la probabilidad de una

83
espera de menos de 8 minutos es de 16/30, pues su llegada debe ser entre 7:37 y 7:45 o 7:52 y 8:00, que corresponde a dos intervalos de longitud 8. 4.4 Distribucin Exponencial La variable aleatoria continua \ tiene distribucin exponencial de parmetro ! si su funcin !/!B si B ! ! ! de densidad tiene la forma f B . ! si B ! Notacin: \ IB:! Valores caractersticos. Aplicando las definiciones de valor esperado y varianza a la distribucin exponencial y utilizando un poco de clculo integral se puede establecer que I [\ ] "! y Z [\ ] "!# . Ejemplo 4.1 Un pesticida, que se degrada inicialmente en forma muy rpida, tiene un promedio de residualidad de 8 das. Por residualidad se entender que el producto es an efectivo en ese instante. Por experiencias anteriores se sabe que la variable aleatoria T, das de residualidad, se ajusta a una distribucin exponencial. a) determinar la funcin de distribucin de probabilidad del tiempo de residualidad T I [X ] ) "! ! ") ! "#& f > ! "#&/!"#&> si > ! si > ! !

b) cul es la probabilidad que el insecticida tenga una residualidad mayor a 16 das ? Para este propsito conviene obtener la funcin de distribucin acumulativa que implica ! , si > ! ' > ! "#&/!"#&B .B " /!"#&> , si > !, o sea, J > , !"#&> ! "/ , si > ! debindose calcular T X "' " J "' /"') /# ! "$&. Luego el insecticida tiene efectividad despus de los 16 das con una probabilidad de 0,135. c) cul es el valor mediano de la residualidad del insecticida ? La mediana corresponde al valor de > tal que J > ! & " /!"#&> ! & /!"#&> ! &. Aplicando logaritmo y resolviendo se obtiene que > & & das. significa que hay una probabilidad del 50% que el producto dure menos de 5,5 das.

Esto

d) despus de cuntos das existe una probabilidad menor a 0,05 de que haya residualidad del producto ? Se debe calcular T X > ! !& " J > ! !& J > ! *& />) ! !&, usando logaritmo y despejando se obtiene > #% das, es decir, despus de los 24 das.

84

4.5 Distribucin de Bernoulli. Existen experimentos dicotmicos en los cuales el resultado se puede establecer en trminos de xito o fracaso, es decir, ocurre E o E, como por ejemplo un individuo puede estar sano o enfermo, vivo o muerto, defectuoso o no defectuoso. En estos casos la variable asociada es una variable aleatoria ] denominada variable Bernoulli tal que ] " si ocurre E, es decir, se obtiene un xito cuya probabilidad de ocurrencia es :, e ] ! si ocurre E, o sea, se obtiene un fracaso cuya probabilidad de ocurrencia es " :. Formalmente la distribucin de ] es " : si C3 ! p C3 : si C3 " Valores caractersticos. I [] ] : Z [] ] :" : Demostracin. Aplicando las definiciones de esperanza y varianza se tiene que 1) I [] ] !" : ": : . 2) Z [] ] I [] # ] I [] ] # !# " : "# : :# : :# :" : . 4.6 Distribucin Binomial. La distribucin binomial se origina cuando se seleccionan al azar individuos para establecer si poseen o no una determinada caracterstica E. La eleccin debe ser independiente y la probabilidad de que un individuo presente la caracterstica E es la misma de un individuo a otro. Estas condiciones se dan por ejemplo cuando de un conjunto muy grande de semillas de una determinada variedad, entre las cuales el porcentaje de germinacin es p, se seleccionan n semillas en forma independiente, luego el nmero de semillas germinadas sigue una distribucin binomial. O cuando en un vivero la probabilidad de que una planta est enferma es p y se seleccionan n plantas al azar para ser examinadas, entonces el nmero de plantas

85
enfermas entre las n seleccionadas tiene distribucin binomial. Es condicin en estos casos que la seleccin sea una tras otra y con sustitucin, al ser finitas las poblaciones definidas, pero si el nmero de individuos, semillas o plantas, es muy grande la sustitucin es irrelevante. Considrese el caso de un vivero en el cual T enferma) p , T sana " p q y del cual se seleccionan 10 plantas al azar. Si \ es el nmero de plantas enfermas que hay entre las 10 seleccionadas, entonces para calcular las probabilidades se procede como se estableci en probabilidades para sucesos independientes. As las probabilidades de obtener 4, 7 o B3 plantas enfermas se calculan segn el siguiente procedimiento: T \ 4) cT I I I I W W W W W W , donde I I I I W W W W W W es una de las formas en que puede ocurrir 4 enfermas y 6 sanas, cuya probabilidad es p 4 q ' , debido a la independencia de la seleccin y c es el nmero de formas distintas en que puede ocurrir esa 4 ' combinacin y por lo tanto c "! 4 #"!. Se deduce, entonces que T \ % #"! : ; . T (\ B3 "! B3 p
( $ ( $ De manera anloga se establece que T \ ( "! ( p q "#! p q

que

B3 q "!B3 ,

en el producto, q debe aparecer el resto de las veces y "! B3 es el nmero de ordenamientos posibles en que puede ocurrir B3 enfermas y "! B3 sanas.

porque al haber B3 plantas enfermas p debe aparecer B3 veces

8 distribucin acumulativa J x; n,p ! B :B3 ; 8B3 . 3


x

Formalmente, la variable aleatoria discreta \ , correspondiente al nmero de veces que ocurre un suceso A, cuya probabilidad de ocurrencia es p, en n observaciones independientes de un experimento %, tiene distribucin binomial de parmetros n y p, con funcin de 8 distribucin de probabilidad pB3 B :B3 ; 8B3 B3 ! " # 8, con funcin de 3
B3 = !

Notacin: \ Bin (n , p)

Observaciones. 1) La distribucin recibe el nombre de binomial porque cada uno de los valores pB3 resulta ser un trmino del desarrollo del binomio evidentemente es igual a 1, pues p q ". 2) Es fcil establecer la relacin entre la distribucin binomial y la distribucin de Bernoulli, de parmetro p, ya que a cada una de las n observaciones independientes de % corresponde un valor 1 o 0, segn haya ocurrido o no el suceso A, por la cual la variable binomial \ corresponde a la suma de n variables independientes Bernoulli, es decir,
8 3" 8 q pn ! B p B3 q 3 n B3! 8B3

, cuya suma

\ ! ]3 Bin (n , p).

86
Por ejemplo el valor \ = 4, donde \ es el nmero de plantas enfermas al examinar 10 plantas al azar, puede ocurrir de varias maneras, como por ejemplo, I I I I W W W W W W = " " " " ! ! ! ! ! ! I W W I W W W I I W = " ! ! " ! ! ! " " !, que corresponden a una sucesin de 10 variables Bernoulli, cuya suma es el valor de \ igual a 4. 3) Existen tablas de la distribucin acumulativa binomial, para ciertas combinaciones de n y p. Valores caractersticos. I [\ ] 8: Z [\ ] 8:" : Demostracin. Dado que \ ! ]3 ,
8 3"

y que para cada ]3 , I []3 ] : , Z []3 ] :" :,

luego por

la propiedad del valor esperado y de la varianza para variables independientes 8 8 8 1) I [\ ] I [! ]3 ] ! I []3 ]) ! :) 8: 2) Z [\ ] Z [! ]3 ] ! Z []3 ]) ! :" : 8:" :.
3" 3" 3" 3" 8 3" 8 3" 8

Ejemplo 6.1 En un vivero la probabilidad que una planta de vid tenga virus es de 0,04. Un viticultor necesita comprar 100 parras al vivero. Si \ es el nmero de plantas con virus que hay entre las compradas por el viticultor, entonces B3 "!!B3 \ F38"!! ! !%, con pB3 "!! , B3 ! " # "!!, cuyo B3 ! !% ! *' grfico es el de la figura 6.1. a) Cuntas plantas con virus se espera que adquiera el viticultor? Esto se refiere al I [\ ] "!!! !% %, es decir se espera, pero no tiene que ocurrir necesariamente as, que ste en promedio adquiera 96 plantas sanas y 4 enfermas con virus .

87
b) Cul es la probabilidad de que el viticultor adquiera 1) ninguna planta con virus ? ! !%! ! *'"!! ! !"'* , luego existe una probabilidad Corresponde a T \ ! "!! ! de 1,7% de que este suceso ocurra. 2) al menos una planta con virus ? Esto es T \ " " T \ ! " ! !"'* ! *)$", o sea, esto ocurrir en el 98,31% de los casos. 3) entre 5 y 10 plantas con virus, ambos valores incluidos ?
"! B3&

B3 "!!B3 Luego, T & \ "! ! "!! , pero el clculo de esta probabilidad, B3 ! !% ! *'

an con calculadora cientfica, es tedioso, por lo que es conveniente utilizar tablas de la distribucin acumulativa binomial como la del anexo 2 ( tabla A2). . Entonces T & \ "! J "!;"!! ! !%J % "!! ! !% ! **() ! '#)* ! $')*. Este suceso ocurrir el 36,89% de las veces.

4) exactamente 4 plantas con virus ? De la tabla A2, T \ % J % "!! ! !% J $ "!! ! !% ! '#)* ! %#*& ! "**%. Esto corrobora que la probabilidad de ocurrencia del valor esperado de una variable aleatoria discreta no es necesariamente un valor alto y en este caso ocurre aproximadamente el 20% de las veces. Aproximaciones de la distribucin binomial. Existen dos aproximaciones para la distribucin binomial. Una de estas aproximaciones es a la distribucin de Poisson y ocurre cuando n es "grande" y p o q pequeo. Esta distribucin se tratar a continuacin. La otra aproximacin es a la distribucin normal la que resulta bastante satisfactoria cuando npq 4. Segn esta condicin la aproximacin no resulta buena para el problema del viticultor, pues 1000,040,96 %. En la figura 6.2 se ilustra el caso de la aproximacin a la normal de una binomial con p = 0,3 y con n de 30, 120 y 270 a distribuciones N( 9, 6,3), N(36, 25,2) y N(81, 56,7) respectivamente.

88
A continuacin un ejemplo ilustrativo. Ejemplo 6.2 En un vivero una planta de kiwi tiene una probabilidad de 0,2 de estar enferma. Se examinan una a una 64 plantas seleccionadas al azar. Si \ es el nmero de plantas enfermas detectadas en las 64 examinadas, entonces 1) Como X Bin (64, 0,2, se utilizar la distribucin exacta de la tabla A2 para calcular las siguientes dos probabilidades: - T & \ "! J "!; '%, ! # J % '% ! # ! #%"! ! !!#" ! #$)* - T ) \ ") J ") '% ! # J ( '% ! # ! *&(* ! !%#! ! *"&* 2) Dado que I [\ ] 64/5, Z [\ ] 256/25 y que npq 640,20,8 10,24 4, entonces X N 64 256 , entonces se utilizar esta aproximacin para calcular las 5 25 probabilidades anteriores: - T & \ "! T %& \ "!& T -# &* ^ -! (# 9-! (# 9-# &*, luego T & \ "! ! #$"! . - T ) \ ") T ( & \ ") & 9" () 9-" '' ! *"%! Las probabilidades de la distribucin normal fueron obtenidas de la tabla A1. Al usar la aproximacin se debe realizar la correccin por continuidad propuesta por Yates, que consiste en restar 0,5 en el lmite inferior del intervalo y sumar 0,5 en el lmite superior, pues se debe asumir que en un intervalo con lmites nmeros enteros al pasar a otro con lmites en un contnuo, el intervalo parte media unidad antes y termina media unidad despus. Esta aproximacin se aplic en los clculos anteriores. Comparando los resultados exactos con los de la aproximacin, se aprecia que las diferencias son del orden de milsimas, con la ventaja que es ms prctico aplicar la distribucin normal como se ver ms adelante.

4.7 Distribucin de Poisson. La distribucin de Poisson se puede presentar como una distribucin lmite de la distribucin binomial cuando n tiende a infinito y p q tiende a cero. La deduccin de esta distribucin se har aplicando esta situacin lmite. Sean n y p tal que np se mantenga constante e igual a un valor -, entonces para obviar el doble limite se sustituir p - n, pues de esta manera p tender a cero cuando n tienda a infinito. Luego 8 - B3 - 8B3 pB3 lim lim F388 : lim F388 n ) lim B3 8 " 8
8_ :! 8_ 8 B 3 8 _ 8 -B 3 lim B 8 B3 3 8_ - B3 8 " . 8 " 8 8(8-1)8-2)........(8x3 1)
B3 x

Pero

tiene x3 factores tanto en numerador como


-B 3 - B3 8 8 " 8 B3 " 8 B3 " 8

en

denominador. Por lo tanto, pB3 lim

8(8-1)8-2)........(8x3 1)

8 _

lim

8 x3 x " 8x3 8 8_ 8(8-1)8-2)........(8x3 1) -B 3 - 8 " 8 x3 x lim 8x3 8_

8B3 " B3 x 8(8-1)8-2)........(8x3 1) -B3

89
-B 3
x3 x

lim

8 _

8(8-1)8-2)........(8x3 1) - 8 - B3 lim " 8 lim " 8 . 8x3 8 _ 8 _

Se determinar cada uno de los tres lmites por separado. u = lim


8 _ 8(8-1)8-2)........(8x3 1) 8x3 8 8 1 8 2 3 1 lim 8 8 8 8x ", pues el lmite de cada 8 8 _

uno de los x3 factores es 1.


8 v = lim " , que corresponde a un lmite matemtico notable 8 = e

8_

B3 B3 w = lim " = ( lim " = "B3 ". 8 8 ) 8 _ 8 _

En consecuencia As, pB3


-B 3

pB3

-B 3
x3 x

uv w

-B 3
x3 x

e- .

con funcin de distribucin acumulativa J x; - !


x

una variable aleatoria discreta X con funcin de probabilidad , x3 ! " # $, se denomina distribucin de Poisson de parmetro - !, x3 x e
- B3
x3 x

e - .

B3 !

Notacin: X c (-). Existen tablas de la distribucin acumulativa de Poisson para diferentes valores de -. Ejemplo 7.1 Un ejemplo tpico asociado a la aproximacin binomial tiene relacin con el clculo actuarial, que corresponde al que usan compaas de seguros cuando tienen que calcular las primas a cobrar por seguros con un alto nmero de asegurados y con una baja probabilidad de ocurrencia del siniestro. La siguiente situacin ilustra uno de estos casos. Una compaa tiene 50.000 afiliados al Seguro Obligatorio por Accidentes Personales. La compaa sabe que la probabilidad anual de muerte por accidente automovilstico es de 0,0001. La variable aleatoria X nmero de muertes accidentales anuales entre sus asegurados, es una variable binomial de parmetros n = 50000 y p = 0,0001, cuya funcin de distribucin es B3 &!!!!B3 , pero estas probabilidades son molestas de pB3 &!!!! B3 ! !!!" ! **** calcular. Como este es un caso con n grande y p pequeo, es vlida la aproximacin de Poisson. En este ejemplo - np 500000,0001 5 , luego Bin &!!!! ! !!!" es aproximadamente una Poisson de parmetro 5, denotada c (&). Usando la distribucin acumulativa, del anexo 3 (tabla A3), la compaa puede calcular la probabilidad de los siguientes sucesos. a) Cul es la probabilidad de no pagar ningn siniestro durante el ao ? T \ ! J !;& ! !!'( ! (% b) Cul es la probabilidad de pagar a lo ms 3 siniestros durante ese periodo ? T \ $ J $;& ! #'&! c) Cul es la probabilidad de tener que pagar exactamente 5 siniestros en el ao ? T \ & J &;& J %;& ! '"'! ! %%!& ! "(&&

90

d) Cul es la probabilidad de pagar ms de 5 siniestros en el periodo ? T \ & " T \ & " J &:& " ! '"'! ! $)%! Valores caractersticos. I [\ ] - Z [\ ] Esta distribucin se caracteriza por el hecho que la varianza es igual que el valor esperado. No se dar un demostracin formal de los valores caractersticos anteriores, pero s una fundamentacin. El valor esperado de la binomial es np que por definicin es igual a -, por lo cual debe corresponder al valor esperado de la Poisson. Por otra parte cuando p tiende a cero, entonces q tiende a uno y como la varianza de la distribucin binomial es npq -q y como el valor lmite de q es uno resulta igual a -, que corresponde a la varianza de la distribucin de Poisson. Observacin. En el ejemplo 7.1 el valor de - es 5, que corresponde al nmero promedio de muertes anuales por accidentes automovilsticos que le suceden a la compaa de seguros. La distribucin de Poisson, adems de su utilizacin como aproximacin a la distribucin binomial, sirve como modelo probabilstico de un nmero grande de situaciones, varias de ellas en el rea biolgica y agronmica. La distribucin de bacterias en un cultivo, la distribucin de glbulos rojos en una muestra de sangre, la distribucin de ciertas plagas de insectos en un huerto, se modelan de acuerdo a la distribucin de Poisson. Otro tipo de situaciones surgen cuando los eventos ocurren a lo largo del tiempo, por ejemplo: nmero de camiones llegados a un centro de acopio o barcos a un puerto durante un da, nmero de llamadas recibidas en una central telefnica en un lapso de una hora especfica o nmero de personas haciendo fila en un banco entre las 13:30 y 14:00. En general la distribucin de Poisson se deriva del denominado proceso de Poisson que se asocia al nmero de ocurrencias de un suceso A en una regin continua, que puede ser un intervalo , una superficie o un volumen, cuando la ocurrencia de A en un punto de la regin es independiente a la ocurrencia en otro punto. El proceso de Poisson presupone principalmente que: 1 el nmero de eventos que ocurren en regiones dis juntas son independientes 2 la probabilidad que un evento ocurra dos o ms v eces en una regin pequea es virtualmente cero. 3 el parmetro de la distribucin del nmero de ev entos que ocurre en una regin dada es proporcional al tamao de la regin. En el caso del ejemplo 7.1 el nmero promedio de muertes anuales por accidentes automovilsticos es 5, entonces el promedio de muertes mensuales es 5/12 o el promedio de muertes en dos aos por la causal anterior es 10, por la condicin tercera anterior.

91
Ejemplos 7.2 a) En una cierta localidad se estima que el nmero promedio de madrigueras de conejos que existen por hectrea es 2 y sea X el nmero de madrigueras por ha, entonces X c (#). De la tabla A3 se obtienen los valores para calcular las probabilidades de que en un cultivo de: 1) una hectrea no haya madriguera, se determina como T \ ! J ! # ! "$&$ 2) una hectrea haya exactamente 2 madrigueras, lo que corresponde a T \ # J # # J " # ! '('( ! %!'! ! #(!( 3) una hectrea se encuentren menos de 3 madrigueras, es decir, T \ $ T # J # # ! '('( 4) una hectrea haya ms de 5 madrigueras, se plantea T \ & " T \ & "J & # " ! *)$% ! !"'' 5) dos hectreas no haya madrigueras. En esta situacin ] c (%) y en consecuencia se debe utilizar una tabla para lambda igual a 4. Sin embargo, se ver como con los supuestos del proceso de Poisson se puede resolver utilizando la distribucin de lambda igual a dos. Las dos hectreas corresponden a dos regiones de una hectrea, en cada hectrea las ocurrencias son independientes, de acuerdo a la condicin primera anterior As, T ] ! T \ !T \ ! ! "$&$# , cuyo resultado ! !")$ es coincidente con el valor J !;%. 6) dos hectreas haya exactamente dos madrigueras ? Dos madrigueras en dos ha. en relacin al suceso por cada ha. puede ocurrir de varias maneras, dos en la primera ha. y cero en la segunda, o viceversa o una madriguera en cada ha. Luego T ] # T \ #T \ ! T \ !T \ # T \ "T \ " ! #(!(! "$&$ ! "$&$! #(!( ! #(!(# ! "%'&, coincidente con J # % J " %. b) Si por una parada P pasan en promedio 3 buses cada 15 minutos en forma aleatoria, este se trata de un comportamiento con distribucin de Poisson de parmetro 3. Cul es la probabilidad que un usuario que llega a P puntualmente a las 8 AM tenga que esperar por un bus 1) a lo menos 15 minutos ? Esto significa que desde las T \ !- $ J ! $ ! !%*).

las

8:15

no

pasen

buses,

luego

2) a lo ms 15 minutos ? La distribucin es la misma, pero se trata que en el intervalo pase por lo menos un bus, luego T \ "- $) " J ! $ ! *&!# 3) a lo ms 5 minutos ? En esta situacin se trata de una distribucin de Poisson de parmetro 1, pues el intervalo es la tercera parte del anterior, en consecuencia

92
T \ "- " " J ! " " ! $'(* ! '$#". 4) a lo menos 30 minutos ? El parmetro de la distribucin es 6, porque el intervalo es el doble de 15 minutos y por lo tanto T \ !- ' J ! ' ! !!#& J ! $J ! $. Ntese que la probabilidad de que ello ocurra existe, pero es muy baja.

4.8 Distribucin de Pascal. Esta distribucin tambin se denomina binomial negativa, porque su distribucin est asociada al desarrollo de " ;< . Se genera cuando interesa el nmero de observaciones necesarias para que un suceso A ocurra r veces en n observaciones independientes de un experimento &. Es una generalizacin de la distribucin geomtrica, en cuyo caso r ". Definicin. La variable aleatoria discreta \ nmero de veces que debe repetirse, en forma independiente, un experimento & hasta que un suceso A, asociado al experimento y cuya probabilidad es p , ocurra r veces, tiene distribucin de Pascal de parmetros r y p, con < B3 < 3 " funcin de probabilidad pB3 B B3 < ,< ", < #, . <" : ; Notacin: \ B r , p) Valores caractersticos. I [\ ]
< :

Z [\ ]

r q :#

93
Observaciones. 1) Cada una de las pB3 corresponde a un trmino del desarrollo de p r (" qr , de donde proviene su nombre de binomial negativa. 2) Esta distribucin tiene la caracterstica que Z [\ ] I [\ ] , a diferencia de la binomial en la cual Z [\ ] I [\ ] y de la Poisson en que ocurre que Z [\ ] I [\ ] . 3) No hay tablas para esta distribucin, pero para el clculo de probabilidades se hace uso de su relacin con la distribucin binomial, siendo \ F (< :) e ] F388 :, entonces: T \ 8 T ] < y T \ 8 T ] < Ejemplo 8.1 En un procedimiento de inspeccin sanitaria para la deteccin de plagas en plantas que se internan al pas con fines de propagacin deben examinarse n plantas. La norma establece que si no se detectan plantas con problemas el lote es aceptado; si se detectan hasta 2 plantas con problemas el lote es puesto en cuarentena y con 3 ms plantas con problemas el lote es rechazado. Para un lote de cierta especie de planta la probabilidad que una planta venga con problemas es de 0,12 cul es la probabilidad de : a) tener que examinar 20 plantas o menos para encontrar 1 planta con problema? Esto corresponde a una distribucin de Pascal \ B (1, 0,12) y sea la distribucin asociada ] Bin(20, 0,12) , luego T \ #! T ] " " ! !((' ! *##% b) no detectar plantas con problemas al examinar 20 plantas ? Esto corresponde a la binomial ] , por lo cual T ] ! ! ))#! ! !((' c) tener que examinar 30 plantas o menos para encontrar 1 planta con problema? En este caso se asocia ] Bin(30, 0,12), luego T \ $! T ] " ! *()% d) tener que examinar 30 plantas o menos para encontrar 3 plantas con problemas? Para este caso \ B (3, 0,12), luego T \ $! T ] $ " ! #)%( ! ("&$ Del anlisis de las probabilidades anteriores se aprecia que es insuficiente examinar 20 plantas en las condiciones planteadas para decretar cuarentena, porque la probabilidad no es suficientemente alta, por lo que 30 plantas es ms adecuado, an cuando su probabilidad no es suficientemente alta para decretar rechazo.

94

95

5. DISTRIBUCIONES DE PROBABILIDAD EN EL MUESTREO DE POBLACIONES


5.1 Introduccin. El estudio del muestreo es la introduccin a la teora estadstica propiamente tal. La experimentacin es parte del Mtodo Cientfico, mediante el cual un investigador obtiene un conjunto de datos a partir de los cuales desea obtener conclusiones vlidas para un conjunto ms amplio o poblacin. El paso de lo particular a lo general se denomina inferencia inductiva y la Estadstica aporta diversas metodologas para llevar a cabo este proceso, todas ellas basadas en el comportamiento de variables aleatorias en cierto tipo de muestreo. As, si es de inters conocer las caractersticas de una cierta poblacin es posible, en base a experiencias previas establecer el supuesto de su comportamiento probabilstico,es decir, su distribucin de probabilidad. Sin embargo, a menos que se haya censado, sus parmetros no sern conocidos, lo que implica que su caracterizacin es incompleta, porque slo saber su comportamiento carece de valor prctico como para sacar conclusiones respecto a ella. Surge, entonces, la interrogante de cul sera la forma para obtener informacin acerca de ellos. Una manera sera, como ya se mencion, realizar un censo, pero ste es un proceso lento que incluso puede ser irrealizable y adems muy oneroso. Otra forma consiste en seleccionar unos pocos elementos de la poblacin y a partir de ellos conseguir informacin para los parmetros. Este ltimo procedimiento se denomina muestreo. Dos ejemplos de la realidad ayudarn a ilustrar las ventajas del muestreo y la inferencia inductiva. Ejemplos 1.1 a) una cocinera no necesita tomarse toda la sopa para saber si sta est bien sazonada, por el contrario prueba una pizca y de lo que ah concluya lo hace extensivo al total, es decir, realiza una inferencia inductiva. b) por exigencia legal un productor de semillas de flores debe informar en el envase del porcentaje de semillas infrtiles. Para obtener la informacin en ningn momento piensa en sembrar todas las semillas producidas, sino que tomar un conjunto bien mezclado de ellas, las pondr a germinar y a partir del resultado sacar conclusiones. Es posible que tenga que repetir varias veces el proceso. En ambos ejemplos no fue necesario usar toda la poblacin para obtener conclusiones acerca de la caracterstica de inters. Sin embargo, toda inferencia inductiva conlleva riesgo o un cierto grado de incertidumbre, pues una inferencia inductiva exacta es imposible. Una de las metodologas estadsticas, la inferencia, establece tcnicas para realizar inferencias inductivas y dar una medida, con apoyo del clculo de probabilidades, del grado de incertidumbre de tales inferencias, siempre que se respeten ciertos principios. 5.2 Poblacin, muestra y tipos de muestreo. La poblacin corresponde a la totalidad de los valores de una caracterstica medida en el conjunto de los individuos que son de inters en un cierto estudio y para los cuales se obtendrn las conclusiones respecto a tal caracterstica, es decir, es el espacio muestral. Una muestra de la poblacin es cualquier subconjunto de sta. Surge la cuestin, entonces, de cmo seleccionar la muestra. Dos tipos de muestras son las muestras probabilsticas y las

96
muestras no probabilsticas. En las muestras probabilsticas cada individuo tiene una probabilidad dada, habitualmente la misma probabilidad, de ser escogido. Esta forma de muestreo requiere que los individuos sean seleccionados aleatoriamente. En las muestras no probabilsticas los individuos son seleccionados de acuerdo al criterio del o los investigadores, basado en sus experiencias y de su supuesto conocimiento de la poblacin en estudio. Esta forma de muestreo da, por lo general, muestras sesgadas. Con frecuencia se le pregunta al Estadstico como hacer para seleccionar una muestra representativa. De partida es imposible saber si la muestra seleccionada lo es, porque no se conoce lo que se quiere representar, esto es, la poblacin. Sin embargo el nico procedimiento que garantiza, con algn grado de certeza conocido, seleccionar una muestra representativa es la aleatorizacin. Cuando el muestreo se aplica a poblaciones pequeas o relativamente grandes se le denomina muestreo en poblaciones finitas. Existen varios tipos entre los cuales los ms importantes y de mayor uso son: el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemtico. Muestreo aleatorio simple. Es el muestreo ms sencillo de todos y consiste en que la eleccin de los individuos de la poblacin se realiza en forma irrestricta, de modo que cada individuo tiene la misma probabilidad de ser seleccionado en la muestra. Muestreo estratificado. Se aplica cuando en la poblacin existen claramente identificados dos o ms subpoblaciones o estratos de inters para el estudio a realizar y se quiere asegurar una muestra con una cantidad de individuos de cada estrato en relacin al tamao de ste. Por lo general, en cada estrato se realiza un muestreo aleatorio simple. Ejemplos de estratos son: clases socioeconmicas (ABC1, C2, C3, D, E) ; sexo (hombres, mujeres). Muestreo por conglomerado. Hay situaciones en los cuales la poblacin est conformada por conglomerados que son grupos de individuos que tienen la particularidad de estar muy cercanos unos a otros. Cuando establecer una lista de todos los individuos resulta muy difcil o cuando una seleccin aleatoria de estos implicara tener observaciones que podran quedar muy distantes una de otras, lo que resultara muy costoso, es posible seleccionar primero conglomerados, en forma aleatoria, y dentro de estos a los individuos de inters para el estudio. Si los individuos son heterogneos dentro del conglomerado se observan varios o todos sus componentes, de lo contrario si son muy homogneos basta con pocas observaciones. Por ejemplo para estimar el ingreso promedio por hogar en el Gran Santiago, resulta muy conveniente seleccionar manzanas (conglomerados homogneos) y dentro de estas diferentes hogares, pues es ms fcil tener un mapa con las diferentes manzanas que un listado de todos los hogares. Adems, es menos costoso encuestar dentro de la manzana que muchos hogares repartidos por toda la ciudad. Un manzano es un conglomerado de frutos si lo que se necesita es medir la infestacin por polilla de la manzana. En inspecciones sanitarias para detectar presencia de insectos cuarentenarios en fruta de exportacin el palet es un conglomerado de cajas.

97
Muestreo sistemtico. Consiste en realizar la eleccin de los individuos en forma sistemtica a intervalos regulares, en el espacio o el tiempo, hasta obtener el nmero de individuos necesarios para la muestra, donde el primer seleccionado fue elegido al azar. Por la razn descrita ste no es propiamente un muestreo probabilstico por lo que se dice que es un muestreo seudoaleatorio. Se utiliza por razones prcticas de seleccin. Por ejemplo, si se necesita estimar el porcentaje de fruta de descarte por defectos o daos de insectos en una exportadora, una forma prctica de hacerlo consiste en seleccionar fruta en la lnea de embalaje (correa transportadora) a intervalos de tiempo iguales hasta conseguir un nmero adecuado de frutos. En este tipo de muestreo se corre el riesgo de obtener muestras sesgadas cuando existen periodicidades dentro de la poblacin. El muestreo propio de la inferencia estadstica no corresponde a ninguno de los anteriores, aunque se parece bastante al primero. Su diferencia radica en que se trata de un muestreo en poblaciones infinitas, lo cual puede resultar extrao, pero que se puede explicar porque se trata de muestras de variables aleatorias y en teora a una variable aleatoria se le pueden realizar infinitas observaciones. Muestreo aleatorio simple (m.a.s) en poblaciones infinitas. Supngase que se desea establecer la distribucin de la poblacin de alturas de las chilenas adultas. Situaciones previas han permitido establecer que el comportamiento de las alturas en poblaciones grandes tiene aproximadamente forma acampanada. Se puede en consecuencia hacer el supuesto de normalidad de las alturas de la poblacin de inters pero qu se sabe de sus parmetros media y varianza ? En la realidad casi nada, a lo ms, una idea vaga del promedio de las alturas. Por lo tanto se debe obtener informacin para determinar valores de los parmetros. Una manera de proceder sera medirle las alturas a todas las chilenas adultas, es decir, censarlas. Con tales datos, si es que no hay errores de medicin, se calculan los verdaderos valores de . y 5 # . Es fcil darse cuenta de las dificultades, tiempo y costo son las principales, de llevar a cabo tal proyecto. Otra manera consiste en obtener la informacin mediante una muestra aleatoria. Si el propsito es comparar con la poblacin de alturas de las mujeres estadounidenses adultas, se debe repetir el procedimiento de medirles las alturas a una muestra de esta otra poblacin, con el fin de obtener informacin de los nuevos parmetros para esta otra distribucin normal. Definicin. Una muestra aleatoria simple de la variable aleatoria \ es un conjunto de n observaciones independientes \" \# \$ \8 de \ , todas ellas con la misma distribucin de probabilidad. El nmero natural n recibe el nombre de tamao de la muestra. Observaciones. 1) Conceptualmente una muestra aleatoria consiste en n observaciones repetidas de \ todas realizadas bajo condiciones idnticas, pero como en la prctica esto es imposible, hay que contentarse con que las condiciones sean similares y las variaciones irrelevantes.

98
2) Por la condicin de independencia de las observaciones, si \ variable aleatoria con funcin de distribucin pB3 o fB, segn sea discreta o continua, entonces la funcin de distribucin conjunta, g , de la muestra \" \# \$ \8 de \ es, respectivamente: g\" \# \$ \8 # pB3 g\" \# \$ \8 # fB
3" 3" 8 8

3) Como cada variable aleatoria \3 tiene la misma distribucin que \ , entonces: I [\3 ] I [\ ] . y Z [\3 ] Z [\ ] 5 # 3 " # $ 8 5.3 Estadgrafos. El estadgrafo es un elemento muy importante en estadstica, porque se refiere a un resultado obtenido a partir de las observaciones muestrales. Definicin. Sea \" \# \$ \8 una muestra aleatoria de \ y B" B# B$ B8 los valores observados en la muestra obtenida, entonces se llama estadgrafo a una funcin real L de la muestra y valor del estadgrafo a la funcin L de los valores observados. Observaciones. 1) Un estadgrafo es una variable aleatoria ] L\" \# \$ \8 , mientras que el valor del estadgrafo es un nmero real C LB" B# B$ B8 . Por ejemplo, en una poblacin de pesos de manzanas se tomar una m.a.s tamao 3, es decir, se seleccionarn tres manzanas para medirle su peso representados por las variables aleatorias \" \# y \$ , donde las tres observaciones tienen la misma distribucin de la poblacin, representada por la variable aleatoria \ . Considrese como estadgrafo el promedio de la muestra, es decir, ] ! \3 $ . El valor de ] es desconocido mientras no se seleccionen las manzanas y se
3" $

pesen, luego es una variable aleatoria. Suponga que los pesos de las manzanas seleccionadas resultaron ser 165 gr , 142 gr y 155 gr. respectivamente, por lo tanto el valor del estadgrafo ] es C ! B3 $ "'& "%# "&&$ "&% gr.
3" $

2) Un estadgrafo puede ser cualquier funcin de la muestra. Algunos posibles estadgrafos son: la media muestral, la varianza muestral, mnimo muestral, mximo muestral, rango muestral, mediana muestral, proporcin muestral, y as muchos otros. Todos conceptualmente equivalentes a lo visto en descriptiva, con el apelativo de muestral para diferenciarlos de los parmetros respectivos. De los anteriores los ms importantes son la media, la varianza y la proporcin muestral, por sus propiedades y su vinculacin a la distribucin normal. Media o promedio muestral. A la media poblacional, como se describi en estadstica descriptiva o como valor esperado q de una variable aleatoria, se asocia la media muestral, simbolizada por X , segn la siguiente

99
Xi q funcin de la muestra aleatoria simple: X i=1n . Esta definicin tiene como consecuencias varias propiedades importantes para el promedio muestral. !
n

Teorema 3.1. q Sea \ una variable aleatoria con I [\ ] . y Z [\ ] 5 # y X q q tamao n de \ , entonces I [X] . y Z [ X] 5 # 8. Demostracin. Usando propiedades del valor esperado y la consecuencia 3) de la definicin de muestra aleatoria simple q I [ X] I [
!X
i=1 n i

la media de una muestra

" "! "! ] n I [X3 ]) n . n (n.) . I [\ ].


i=" i=1

Usando propiedades de la varianza y de la condicin de independencia de las X3 de la definicin de muestra aleatoria simple q Z [ X] Z [
!X
i=1 n i

" ! n#
i="

Z [X3 ])

" ! n#
i=1

5#

" # n# (n5 )

5 # n

Z [ \] n .

q Notacin : I [ X] .q X

q # ; Z [ X] 5q . X

El teorema anterior es vlido cualquiera sea la forma de la distribucin de \ y es un resultado de enorme importancia para la estadstica inferencial, como se ver en ese captulo, principalmente porque demuestra que si el tamao de la muestra crece, la magnitud de la varianza de la media muestral decrece en proporcin inversa al n . Ejemplos 3.1 q q a) sea \ R ## %! y X la media de una muestra tamao 10 de \ , entonces I [ X] ## q y Z [ X] %!"! %. b) si \ Bin (n , p) se recordar que I [\ ] np y que Z [\ ] np(1-p) , luego q q (1-p) I [ X] np y Z [ X] np p(1-p) . n

Varianza muestral. Es una medida de variabilidad de los datos de la muestra, en forma similar a la varianza poblacional y por ser un estadgrafo corresponde a una funcin de la muestra aleatoria, segn la siguiente definicin: S#
n ! Xi q X# i=1

n1

donde (n - 1) recibe el nombre de grados de libertad.

100
Observaciones. 1) Ntese la semejanza con la definicin de varianza en descriptiva, es decir, suma de desvos (respecto a la media muestral) al cuadrado, dividido por (n - 1). El denominador en el clculo de un estimador de varianza siempre se llaman grados de libertad. 2) La divisin por los grados de libertad (n - 1), en vez de n, es necesaria, porque es deseable que suceda que I [S# ] 5 # , como se demostrar. Teorema 3.2. Sea S# la varianza muestral definida como antes, entonces: 1. S#
! X2 ( !X )# n
i=1 i i=1 i n n

n1

2. I [S# ] 5 # Demostracin.
n ! Xi q X# i=1

1) S#

n1

1 ! # (Xi n-1

q q# 2Xi X X
1 ! n - 1c

1 ! n - 1c

q ! q# X# Xi !X d i 2X
1 ! n - 1

1 ! n - 1c
n n i=1 i

q q q# X# i 2X (nX) nX d
i

q# X# i nX d

i=1n # X# i n
i

!X

! X2 ( !X )# n
i=1

n1

1 !\i n - 1 I

2) I [S# ] I i=1 n 1
1 ! n - 1 I \i

n ! Xi q X #

q # . ) X .
1 ! n - 1 I\i
#

q .)# nX . #
1 # n - 1 n5

q .)# nIX . # - 1)5 # 5 # .

1 # ! # n - 1 5 n5q X

n 5 n

" n - 1 (n

5.4 Distribucin de las muestras de una poblacin normal. Con el fin de entender plenamente el concepto de distribucin muestral hay que tener presente las siguientes consideraciones. Una distribucin hace referencia a una poblacin, en este caso a una poblacin de muestras aleatorias. El caso es que se tiene originalmente una poblacin, que es la que interesa conocer a travs de una muestra. La consideracin que se hace, entonces, es que a partir de un tamao muestral n dado, se genera una poblacin terica correspondiente a todas las posibles muestras tamao n que se pueden obtener de la poblacin de inters. La distribucin de la poblacin terica de las medias es la que se va desarrollar, an cuando para los propsitos de investigacin ser necesario tener slo una muestra de esa poblacin.

101

En el desarrollo de este tema es necesario hacer uso del teorema que establece propiedades reproductivas de la distribucin normal, el que establece que cualquier funcin en primer grado de una variable aleatoria con distribucin normal tambin ser normal, el que se enunciar sin demostracin. Teorema 4.1. 1. Sea \ R . 5 # y la funcin de \ , ] +\ - , entonces la variable aleatoria ] tiene # distribucin normal con media .] +. - y varianza 5] + # 5 # . 2. Sea \i R .i , 5i# ) , i " # $ 5 un conjunto de k variables aleatorias normales e independientes y sea ] ! \i , entonces la variable aleatoria ] tiene distribucin normal
i=1 k

con media .] ! .i
i=1

# y varianza 5] ! 5i# . i=1

Consecuencia. q Dado que X corresponde a una suma de variables aleatorias normales, en virtud del teorema anterior su distribucin es normal y en virtud del teorema 3.1 su valor esperado es . y su q varianza 5 # /n , por lo tanto si \ R . 5 # X R . 5# 8 . Del resultado anterior q q X . se deduce que la transformacin ^ de X, 5 # 8 , tiene distribucin normal tpica, al igual que la transformacin ^ de \
\. 5#

Con este resultado es posible calcular probabilidades de

sucesos vinculados a la media muestral de una poblacin normal a partir de una distribucin normal estndar. Ejemplos 4.1. q q a) Sea \ R ## %! y X la media de muestra tamao 10 de \ , entonces X R ## %. El grfico de ambas distribuciones se ilustra en la figura 4.1, en la cual el rea en blanco es comn a ambas distribuciones y por lo tanto las reas sombreadas en una y otra son iguales. q b) A partir de la distribucin X R ## %, se calculan las siguientes probabilidades: q q ## - T X "* T X "*## # T ^ " & 9 " & ! !'') % q - T #" X #% T ! & ^ " ! 9" ! 9 ! & ! )%"$ ! $!)& ! &$#) q - T X #$ & T ^ ! (& " 9! (& " ! (($% ! ##'' Los resultados anteriores significan que, bajo las condiciones enunciadas, slo el 6,68% de las muestras dar valores promedios menores a 19, es decir, 3 unidades por debajo de la media poblacional; que el 53,28% de las muestras entregar valores promedios entre 21 y 24 y que el 22,66% de las muestras dar como resultado promedios por sobre 23,5. Estos resultados sirven para determinar que tan probable resultar que una media muestral tenga la aproximacin deseada respecto a la media poblacional que es la que interesa conocer. Se puede apreciar a travs del grfico anterior, o realizando los clculos respectivos, que las probabilidades de alejarse del valor central son bastante menores para el promedio muestral que las que les correspondera a cualquier valor poblacional \ . Por el contrario la probabilidad

102
q de una X de estar "alrededor" del valor central es bastante mayor que para un valor q poblacional, como consecuencia de la menor varianza de la poblacin de X.

c) De un criadero donde el peso de los cerdos tiene distribucin normal con media 82 kg y varianza 25, se toma una muestra de 16 cerdos seleccionados al azar. Cul es la probabilidad que el peso promedio obtenido de la muestra : - sea menor a 80 kg ? q q )# Primero es conveniente establecer que X R )# #&"' X&% R ! ". luego q )!)# T X )! T ^ "#& 9 " ' ! !&%), o sea, la probabilidad de obtener con la muestra una media menor a 80 es de 0,0548 - tenga una diferencia de 1 kg respecto a . ? q q . " " Esto se plantea T " X . " T "#& X "#& T ! ) ^ ! ) "#& 9! ) 9 ! ) ! ())" ! #""* ! &('#, es decir, la probabilidad de obtener de la muestra una media que difiera de . en a lo ms 1 kg es de 0,5762.

d) En las condiciones del ejemplo anterior, determinar: q - los valores + y , equidistante de . tal que T + X , ! *&, en consecuencia q q )# X)# , )# +)# , )# T + X , ! *& T + "#& "#& "#& ! *& T "#& ^ "#& ! *& Para que la probabilidad anterior se d,
b - 82 a - 82
1,25

debe corresponder al percentil 0,025 de la Z

- 82 y 1,25 al percentil 0,975, por lo tanto = - 1,96 y b1,25 = 1,96. Despejando a y b se 1,25 obtiene que a = 79,55 kg y b = 84,45 kg. q - el valor de - tal que T X - ! !&, luego q )# )# )# T X - ! !& T ^ -"#& ! !& " 9 -"#& ! !& 9 -"#& ! *& )# -"#& 9" ! *& " '%& - )% !' kg.

a - 82

e) Cul ser el tamao de muestra necesario a tomar de la poblacin de pesos de los cerdos para que la probabilidad de obtener una media mayor a 83 sea de 0,10 ?

103
q q La distribucin de las medias muestrales es X R )# #&n , luego T X )$ ! "! T ^
" & 8

! "! " 9

8 &

! "! 9

8 &

! *!

8 &

" #) 8 %".

Por lo tanto para que se cumpla la probabilidad deseada la muestra debe corresponder a 41 cerdos del criadero, seleccionados al azar. Observe que el resultado aritmtico es 40,96, pero n debe ser un nmero natural, luego se aproxima a 41. En clculos de tamao de muestra el criterio, cuando el resultado es decimal, es siempre aproximar hacia arriba. 5.5 Distribuciones que incluyen a la varianza muestral de una poblacin normal. Con la varianza muestral o con la combinacin de la varianza con la media muestral resultan tres distribuciones de enorme importancia, en especial para la inferencia estadstica. Distribucin ji cuadrada. Karl Pearson, destacado Estadstico britnico, con el fin de aportar un enfoque estadstico al estudio de la herencia y la evolucin biolgica es su creador, as como del concepto de correlacin lineal . Tiene mltiples aplicaciones y una muy importante en el rea de la gentica. 8"W # Pearson estableci que el estadgrafo H# tiene la distribucin denominada ji 5# cuadrada (chi-square) con (n 1) grados de libertad, correspondiente a los de S# . Notacin: H# Observaciones. 1) La distribucin tiene por representacin una curva como la de la figura 5.1 , donde grados de libertad (g.l) es el parmetro de la distribucin. A medida que el valor del parmetro (g.l) aumenta la moda de la distribucin aumenta, es decir, el mximo de la curva se desplaza hacia la derecha. 2) La funcin de distribucin tiene una expresin matemtica bastante complicada, razn por la cual el rea acumulada bajo la curva, desde 0 hasta un valor d > 0 , est tabulada para diferentes grados de libertad, desde 1 hasta 45 o ms segn la tabla utilizada, y para diferentes valores percentiles :0,005 ; 0,01 ; 0,025 ; 0,05 ; 0,10 ; 0,25 ; 0,50 y sus complementarios. La tabla, del anexo 4 (A4), corresponde a los valores percentiles de distribuciones ji cuadrado con distintos grados de libertad. Cada lnea se refiere a la distribucin ji cuadrada con los grados de libertad indicados y donde cada columna corresponde a los percentiles p convencionales, ya mencionados
8"W # 5#

;# 8 " ; Notacin percentil alfa : ;# ! 8 "

104

Ejemplos 5.1 a) Determinar por tabla los valores percentiles indicados: # - ;# !!& "& ( #'" ; ;0,90 15 ## $!( los que se encuentran en la lnea 15 columnas 0,05 y 0,90 respectivamente - ;# ;# !!& * $ $#& ; !*! * "% ')% se buscan en las mismas columnas en lnea 9. Observe que al aumentar los grados de libertad los valores percentiles son mayores concordante con la observacin 1 anterior.
# - ;# !!& "# & ##' ;!*& "# #" !#' los valores percentiles de la ji cuadrado son siempre positivos (ver figura 5.1) a diferencia de lo que ocurre en la normal estndar.

b) Obtener las probabilidades pedidas para el estadgrafo H# ;# #! De la lnea 20 de la tabla se determina que: - T H# "! )& ! !& porque 10,85 es el percentil 0,05 de la distribucin de ;# #! . - T H# #) %" " ! *! ! "! porque 28,41 corresponde al percentil 0,90. - T (* &* H# $% "( ! *(& ! !#& ! *& porque 34,17 y 9,59 son los percentiles 0,975 y 0,025 respectivamente. En el siguiente teorema se enunciarn, sin demostracin, las propiedades reproductivas de la distribucin ji cuadrada que son de inters.

105
Teorema 5.1. 1. Sean {Hi# ;# 8i , i " # $5 5 variables ji cuadradas independientes, con 8i grados de libertad cada una,entonces la variable aleatoria ] !Hi# tiene distribucin ji cuadrada
i" 5

con 8 !8i grados de libertad.


i"

2. Sean ^i R ! , ") , i " # $ 5 5 variables normales tpicas independientes, entonces la variable aleatoria libertad. Observaciones. 1) El teorema establece que una suma de variables ji cuadradas independientes tambin tiene distribucin ji cuadrada con grados de libertad la suma de los grados de libertad de cada una. 2) Adems, demuestra que la variable aleatoria que resulta de sumar variables normales tpicas independientes al cuadrado tiene distribucin ji cuadrada y como consecuencia se deduce que una normal tpica al cuadrado tiene distribucin ji cuadrada con un grado de libertad. Distribucin t de Student. Esta distribucin se debe al Estadstico ingls William Sealey Gosset, qumico de formacin, alumno y colaborador de Karl Pearson, de quien se cuenta que public sus primeros trabajos bajo el seudnimo de Student, porque tema ser despedido si alguno de sus jefes, en la fbrica de cerveza Guiness donde trabajaba como qumico, descubriera que realizaba investigaciones en estadstica. La verdad es otra, pero lo importante es su contribucin a la estadstica. En los inicios del siglo pasado Gosset estableci que el estadgrafo >
q X . S# 8

] !^i# tiene distribucin ji cuadrada con 5 grados de


i"

tiene

distribucin t con (n 1) grados de libertad, correspondiente a los de S# . Notacin: >


q X . S# 8

t 8 " ; Notacin percentil alfa : t! 8 ".

106

Observaciones. 1) Grados de libertad es el parmetro de la distribucin, igual como ocurre con la ji cuadrada, pues de hecho esta distribucin es consecuencia del cociente entre una normal estndar y la raz aritmtica de una ji cuadrada dividida por sus grados de libertad, ambas independientes entre s. 2) La curva de la distribucin t de Student es acampanada centrada en 0, similar a la normal estndar, pero con "colas ms pesadas", o sea, encierran una mayor rea, por lo que sus valores percentiles son mayores que los de ^ , lo que implica mayor variabilidad Esto parece intuitivamente razonable, porque se diferencia con el estadgrafo ^ en que en el denominador en vez del parmetro 5 # aparece la varianza muestral S# que es un estadgrafo. Tambin se cumple que lim >8 " R ! ", como se ilustra en la figura 5.2.
8_

3) La funcin de distribucin tiene una expresin matemtica ms complicada que la de ^ , razn por la cual el rea acumulada bajo la curva, desde 0 hasta un valor > > 0 , est tabulada para diferentes grados de libertad, n, desde 1 hasta 90 o ms segn la tabla utilizada, y para diferentes valores percentiles : 0,75 ; 0,90 ; 0,95 ; 0,975 ; 0,99 ; 0,995 . Los valores percentiles complementarios solo se diferencian en el signo, pues son negativos, tal como ocurre en la distribucin normal estndar. La tabla, del anexo 5 (A5), corresponde a percentiles de distribuciones t de Student, con distintos grados de libertad. El uso de la tabla es similar al de la ji cuadrada con la diferencia que slo aparecen los percentiles superiores debido a la simetra de la distribucin, porque percentiles complementarios inferiores solamente cambian su signo a negativo. Ejemplos 5.2 a) Determinar por tabla los valores percentiles complementarios indicados: - t!*! "! " $(## ; t!,"! "! " $(## los que se obtienen de la lnea 1! - t!*& & # !"&! ; t!!& & # !"&! los que se obtienen de la lnea & - t!*& #% " ("!* ; t!!& #% " ("!* los que se obtienen de la lnea #%

107
Observe que al aumentar los grados de libertad los valores percentiles disminuyen, lo que se puede constatar al leer los valores hacia abajo en una misma columna. Para grados de libertad grandes, mayores a 90, los valores percentiles son bastante cercanos al de la normal tpica como se puede verificar comparando con la ltima fila del cuadro 5.2. b) Obtener las probabilidades pedidas para el estadgrafo > t *: De la lnea 9 de la tabla se determina que: - T > " )$$" ! *& porque 1,8331 es el percentil 0,95 de la distribucin de > - T > " $)$! " ! *! ! "! porque 1,3830 corresponde al percentil 0,90 - T (> ! (!#( ! #& porque -0,7027 es el percentil 0,25, complementario a 0,75 - T " $)$! > # #'## ! *(& ! "! ! )(& - T # #'## > # #'## ! *(& ! !#& ! *&, porque 2,2622 es el percentil 0,975 Distribucin de Snedecor-Fisher. Esta distribucin es conocida gracias al matemtico y fsico estadounidense George W. Snedecor quien la bautiz de este modo en reconocimiento al notable matemtico, estadstico y genetista ingls Ronald A. Fisher, quien la haba estudiado anteriormente en 1924 y con quien trabajaron en conjunto. La distribucin es el resultado del cociente entre dos variables aleatorias independientes con distribucin ji cuadrada, cada una dividida por sus correspondientes grados de libertad, m la del numerador y n la del denominador. Y 7 Si Y ;# 7 y Z ;# 8 con Y y Z independientes, entonces J Z 8 tiene distribucin con m y n grados de libertad en el numerador y denominador respectivamente. Notacin: J 7 8 ; Notacin percentil alfa : ! 7 8.

108
Observaciones. 1) Grados de libertad son los dos parmetros de la distribucin . 2) La curva de la distribucin parte de 0 y tiene una forma algo parecida a la de ji cuadrada, pero en este caso su moda se aproxima al valor 1 a medida que ambos grados de libertad aumentan (Figura 5.3). 3) La funcin de distribucin est tabulada para diferentes grados de libertad del numerador y denominador, y para diferentes valores percentiles : 0,90 ; 0,95 ; 0,975 ; 0,99 ; 0,995 . La tabla A6, del anexo 6, es una tabla de distribuciones . El uso de esta distribucin, por lo general, es para los percentiles superiores. Si se necesitara algn percentil inferior se puede hacer uso de la siguiente relacin "-! 8 7 "! 7 8 4) J Si
Y 7 Z 8

Y
7

# 7W" # 5"

;# 7
# W"# 5" # W## 5#

# 8W# # 5#

;# 8 ,

entonces

por

definicin

8 7 8. Este resultado ser de gran utilidad y uso en 8 desarrollos estadsticos futuros. Ejemplos 5.2 Obtener los valores percentiles indicados (7 se busca en la columna y 8 en la fila) : - !*& % "! $ %()! y !,*& "! % & *'%% , son valores muy diferentes. - !*! & & $ %&$! ; !*(& & & ( "%'% - !*& $ "# $ %*!$ ; t!!& "# $ "$ %*!" ! #)'&

W"# W##

# 5" # 5#

109

6. INFERENCIA ESTADISTICA PARA MEDIAS Y VARIANZAS


6.1 Introduccin. La inferencia estadstica es una parte de la Estadstica que comprende los mtodos y procedimientos adecuados para deducir caractersticas de una poblacin a partir de muestras aleatorias, en forma cientficamente vlidas, cuyo fin es obtener conclusiones respecto a sta, sujetas a una duda razonable mediante la asignacin de una medida objetiva. La inferencia comprende dos aspectos. la estimacin de parmetros y el contraste de hiptesis estadsticas. 6.2 Estimacin de parmetros. Un parmetro, como se recordar, representa un valor poblacional y por lo tanto es una constante. El valor de un parmetro se obtiene a travs de un censo, lo que es posible de hacer cuando las poblaciones son finitas, pero en el caso de la inferencia el tipo de poblaciones que se estudian se consideran que son infinitas. En consecuencia la nica va de conseguir una imagen del parmetro es a travs de muestras. Para que una muestra tenga validez estadstica sta debe ser aleatoria y simple, en los trminos definidos en la unidad Distribuciones Muestrales. Una muestra aleatoria simple (m.a.s) permite obtener un estimador del parmetro de inters, esto es, un valor muestral o estadgrafo que estar "cercano" en alguna medida al valor del parmetro. Estimacin puntual. Se llama estimador puntual de un parmetro a un estadgrafo que cumple con lo anterior. Sin embargo proporciona una imagen algo imprecisa del parmetro, puesto que una vez calculado el valor del estimador a partir de las observaciones muestrales, slo se puede confiar en que ste est "cercano" al del parmetro. Por ejemplo, si para estimar el peso promedio de q una poblacin de hombres adultos, una muestra aleatoria simple entrega una media X igual a 66,3 kg, la imagen que se puede asociar es que el verdadero peso promedio de las personas estar "alrededor" de ese valor cun cercano?, imposible establecerlo. Pueden existir muchos estimadores para un mismo parmetro, por lo tanto hay que establecer ciertos criterios que permita elegir de entre ellos al que sea el mejor, en el sentido de que tenga la mayor capacidad de entregar un valor cercano al de l. Algunas propiedades que caracterizan a un buen estimador s ) del parmetro ) se explican a continuacin. 1 Insesgamiento , que consiste en que I s ) ) , lo que significa que e l valor "promedio" del estimador se distribuye alrededor del valor del parmetro ) . 2 Eficiencia o precisin , que consiste en tener la menor varianza entre los estimadores insesgados de ) , es decir, que de todos los estimadores s ) que cumplan la propiedad anterior se debe preferir aquel cuya distribucin tenga la menor variabilidad . De esta manera se asegura una alta probabilidad de que el valor de s ) estar ms cercano al de ) . 3 Consistencia , es decir, que en la medida que el tamao de la muestra crezca el valor de s ) estar cada vez ms prximo al del parmetro ) . Esta es una propiedad asinttica.

110
4 Suficiencia , cuando el estimador utiliza toda la informaci n relevante contenida en la muestra, de modo que ningn otro estimador pueda proporcionar informacin adicional para estimar al parmetro. De los tres parmetros ms importantes: . , 5 # y la proporcin poblacional P, se puede q s , respectivamente, son sus mejores estimadores, donde P s es la establecer que X , S# y P proporcin muestral, ya que es demostrable que satisfacen los criterios anteriores. Estimacin por intervalos de confianza. Es otra forma de estimacin de parmetros, mucho ms informativa que la puntual, pues permite establecer un rango de valores dentro del cual se encontrara el verdadero valor del parmetro, complementada con un nivel de seguridad o certeza de que esto sea cierto. Para construir intervalos de confianza es necesario partir de un intervalo de probabilidad (" ! y disponer de una variable pivotal adecuada para el objetivo a conseguir. Un intervalo es de probabilidad si al menos uno de sus lmites es una variable aleatoria o una funcin de ella. Una variable pivotal es un estadgrafo que debe incluir al parmetro a estimar, a su estimador y cuya distribucin debe ser conocida y totalmente determinada. Intervalo de confianza para la media de una poblacin normal. Existen dos casos a considerar, cuando la varianza poblacional es conocida y cuando esta varianza no es conocida. Caso 1. Varianza poblacional 5 # conocida. En esta situacin el nico parmetro desconocido es . el cual debe ser estimado q puntualmente mediante X, luego bajo la normalidad de la poblacin la variable pivotal a utilizar q X. es Z 5 # 8 R ! ". Un intervalo de probabilidad central (1 ! para la variable Z est dada por T D"!# ^ D"!# ) " ! . Sustituyendo Z
q X.

T D"!# 5 # 8 D"!# ) " ! y despejando . en la desigualdad q q T X D"!# 5 # 8 . X D"!# 5 # 8) " ! , obtenindose un intervalo de probabilidad para ., porque sus dos lmites son variables aleatorias que dependen del q q estimador X. Sin embargo, una vez obtenida la muestra y calculado el valor de X, el intervalo deja de ser aleatorio, pues sus lmites sern constantes y en consecuencia no tiene asociada una probabilidad, transformndose en una proposicin, cuyos valores son verdadero o falso, es decir, contiene o no a .. Esta es la razn que explica por qu el intervalo obtenido se denomina de confianza con valor el de la probabilidad con que se construy. As
q q X D"!# 5 # 8 . X D"!# 5 # 8) Intervalo del "!!1-!)% de Confianza para . con varianza conocida.

111

Ejemplo 2.1. Se desea estimar, mediante un intervalo de confianza del 95%, el rendimiento promedio de una nueva variedad de trigo cuya distribucin se asume es normal y desviacin tpica de 12 qq/ha , o sea \ R . 144. Para tal efecto se siembran 15 parcelas experimentales de 10x10 m . Sus rendimientos, expresados en qq/ha , fueron de 89,4 ; 92,8 ; 79,2 ; 82,6 ; 96,2 ; 65,6 ; 106,4 ; 86,0 ; 99,6 ; 69,0 ; 77,5 ; 58,8 ; 96,2 ; 80,9 ; 52,0. Como este es un caso de varianza conocida, para construir el intervalo slo se necesita calcular la media muestral, cuyo valor es 82,15 qq/ha, y determinar que z!*(& " *' (fig. 2.1). Sustituyendo los valores en la expresin del recuadro anterior ( )# "& " *'"%%"& . )# "& " *'"%%"& al 95% de confianza ( (' " . )) # al 95% de confianza. Se deduce, entonces, que con una certeza del 95%, el rendimiento promedio de la nueva variedad es de entre 76,1 y 88,2 qq/ha. Caso 2. Varianza poblacional 5 # desconocida. En este caso los dos parmetros de la distribucin normal son desconocidos y deben ser q estimados por X y S# . Debido a la normalidad de la poblacin la variable pivotal a utilizar es > por
q X. W # 8

>8 ". Ahora el intervalo de probabilidad (1 ! para la variable > est dada
q X.

T >"!# 8 " > >"!# 8 ") " ! . Sustituyendo >

T >"!# 8 " W # 8 >"!# 8 ") " ! , despejando . en la desigualdad q q T X >"!# 8 "W # 8 . X >"!# 8 "W # 8) " ! , deducindose que
q q X t"!# 8 "W # 8 . X >"!# 8 "W # 8) Intervalo del "!!1-!)% de Confianza para . con varianza desconocida.

112

Ejemplo 2.2. Asuma que en el mismo enunciado del ejemplo 2.1 no se tiene conocimiento de la variabilidad de los rendimientos de esta nueva variedad, es decir, no se conoce su varianza y que tanto la muestra como los valores muestrales se mantienen. Ahora, adems, de obtener un estimador puntual para la media se necesita calcular el estimador de 5 # , S# , mediante la
i=1 frmula W # i=1 n , que con los datos anteriores resulta ser 243,0. Se necesita, 1 tambin, el valor t0,975 14 2,1448 (fig. 2.2), ya que ahora la distribucin del estadgrafo es > de Student. Sustituyendo ( )# "& # "%%)#%$"& . )# "& # "%%)#%$"& al 95% de confianza ( ($ & . *! ) al 95% de confianza. Se puede apreciar que esta estimacin es ms imprecisa que la obtenida con varianza conocida.

! X2 ( !X )# n
n n i i

Intervalo de confianza para la varianza y desviacin tpica de una poblacin normal. Cuando la varianza es desconocida su estimador puntual es S# y una estimacin por 8"W # intervalo de confianza debe establecerse utilizando la variable pivotal H# 5 # cuya distribucin, se recordar es ji cuadrada con (n-1) grados de libertad y un intervalo central de probabilidad (1-!) para una ji cuadrada es # # # T ; # !# 8 " H ;"!# 8 " " ! , sustituyendo H T ; # !# 8 " T ;#
8"W # 8" "!#

8"W # ;# "!# 8 " 5# # 8"W 5 # ;# 8" " ! , !#

" ! , despejando 5 # luego se deduce


#

;#8"W 5# 8"
"!#

8"W # ;# 8" !#

Intervalo del "!!1-!)% de Confianza para 5 # .

El intervalo de confianza para la desviacin tpica se obtiene tomando la raz de los tres trminos de la desigualdad.

113
8"W ;#8"W 5 ;# 8" 8" "!# !#
# #

Intervalo del "!!1-!)% de Confianza para 5 .

Ejemplo 2.3. Se aprovecharn los datos de los ejemplos anteriores para ejemplificar la estimacin por intervalo de confianza de la varianza y desviacin tpica cuando estas son desconocidas. De 14*243 # los clculos anteriores W # result ser igual a 243, luego 14*243 26,12 5 5,63 # "$! # 5 # '!% $ al 95% de confianza ya que ;# 0,025 14 5,63 y ;0,975 14 26,12 (fig. 2.3) y el intervalo para 5 es "$! # 5 '!% $ ( "" % 5 #% ') al 95% de confianza, luego al 95% de confianza el verdadero valor de la desviacin tpica poblacional es de entre 11,4 y 24,6 qq/ha .

Intervalo de confianza para la diferencia de las medias de dos poblaciones normales.


# La estimacin se obtendr a partir de muestras aleatorias independientes de X" N." , 5" ) # y X2 N.2 , 52 ) de tamao 8" y 8# respectivamente, y se desea estimar d (.# - ." ). Su q q estimador s d X# X" ) tiene distribucin normal, por ser una combinacin lineal de q q q q # # X " N." , 5" 8" ) y X # N.# , 5# 8# ), con Is d IX# X" ) .# ." y q q q q # # # # s s Z d Z X# X" ) Z X# Z X" 5" 8" 5# 8# , por lo tanto d Nd, 5" 8" 5# 8#

y en consecuencia

s dd Z s d

q q X# X" ).# ."


# 8 5 # 8 5" " # #

N! "

# # En el caso ms realista, de varianzas poblacionales 5" y 5# desconocidas, stas deben ser # # estimadas por S" y S# respectivamente. El supuesto habitual en casos de 2 o ms poblaciones es el de homocedasticidad, es decir, que todas las varianzas poblacionales son # # desconocidas e iguales, luego 5" 5# 5 # , donde 5 # es la varianza comn a ambas # # poblaciones y por lo tanto S" y S# son estimadores de 5 # , razn por la cual combinando

114
# ambas muestras se obtiene el estimador S# : , que corresponde a la media ponderada entre S"
" # # " # y S# # respecto a sus grados de libertad, luego Sp 8" 8# # Recurdese que el denominador en el clculo de una varianza corresponde a los grados de # # libertad de esa varianza muestral y en este caso es igual (n" +n# -2). Sustituyendo 5" y 5# por # # # # s su estimador S: se obtiene la varianza estimada de d, Sp 8" Sp 8# = Sp "/8" "8# ).

8 "W # 8 "W #

Por lo tanto

q q X# X" ).# ."


# "/8 "8 ) Sp " #

tiene distribucin > de Student con (n" +n# -2) grados de libertad,

porque se est usando una varianza estimada con esos grados de libertad. El estadgrafo anterior corresponde a la variable pivotal a utilizar para obtener el intervalo de confianza para la diferencia de las medias. Se debe mencionar que, si no se cumpliera el supuesto de homocedasticidad, se tendra una variable pivotal cuya distribucin no es exacta. El intervalo de probabilidad (1 ! para la variable > est dada por: T >"!# 7 > >"!# 7) " ! , con m = n" +n# -2 . Sustituyendo > y despejando .# ." de la desigualdad se obtiene
# "/8 + "8 ) . # (X # -X " ) t"-!# 7 Sp " # # " X # -X " ) >"-!# 7 Sp "/8" + "8# ) )

q q

q q

Intervalo del "!!1-!)% de Confianza para .# -." , con varianzas desconocidas e iguales.

6.3 Contraste de hiptesis estadsticas. El contraste de hiptesis, tambin denominado Prueba de Hiptesis o Docimasia Hiptesis, corresponde a un conjunto de metodologas cuyo objetivo es verificar si determinado parmetro toma uno o varios valores posibles de inters. Tambin una prueba hiptesis puede referirse a la distribucin de poblaciones, todo ello evidentemente, a partir muestras aleatorias. Existen algunos conceptos bsicos vinculados a una prueba de hiptesis y que explicarn en lo que sigue. de un de de se

Una hiptesis estadstica es una proposicin acerca de una caracterstica poblacional, como puede ser su distribucin o el valor o valores de sus parmetros, y que necesita ser probada. Como se ver, una hiptesis estadstica nunca podr ser aceptada libre de toda duda, pues siempre existir un cierto nivel de incertidumbre. Una hiptesis respecto a un parmetro puede ser simple, si especifica un nico valor del parmetro y compuesta, si especifica ms de un valor del parmetro. Una prueba de hiptesis estadstica consta de dos hiptesis. Una denominada hiptesis nula, designada por H! , y la otra hiptesis alternativa, designada por H" o Ha . La hiptesis nula es la hiptesis conservadora que representa lo conocido, el statu quo. La hiptesis nula debe ser una hiptesis simple, y si se refiere a un parmetro debe especificar un nico valor para ste. La hiptesis alternativa es la hiptesis que representa el cambio, lo que se quiere probar. Esta puede ser una hiptesis simple o compuesta. Por lo general, se consideran hiptesis alternativas compuestas. Una hiptesis alternativa compuesta puede ser de tres tipo: 1) Hiptesis alternativa bilateral, cuando es la negacin de H! 2) Hiptesis alternativa unilateral derecha, cuando plantea para el parmetro un valor mayor al especificado en H!

115
3) Hiptesis alternativa unilateral izquierda, cuando plantea para el parmetro un valor menor al especificado en H! Ejemplos 3.1. a) En un juicio a un individuo que supuestamente cometi un delito, las hiptesis nula y alternativa para un juez son, respectivamente, Inocente versus Culpable. b) Un asesor econmico aconseja a un productor de kiwi cambiarse a la viticultura porque resultar ms rentable. El agricultor si quiere considerar seriamente la alternativa deber reunir mltiples consejos e informacin al respecto y deber plantearse las siguientes hiptesis nula y alternativas respectivamente: mantenerse como productor de kiwi versus cambiarse a la viticultura. Los dos ejemplos anteriores se refieren a un mbito no matemtico-estadstico. Un ejemplo en el mbito estadstico es el siguiente. c) Un Instituto de Investigacin afirma haber desarrollado una nueva variedad de trigo cuyo rendimiento promedio supera en 6 qq/ha los 72 qq/ha que rinde la variedad tradicional. Alguien que quiera verificar tal aseveracin, debe plantearse las hiptesis L! . (# versus L" . (8. Una prueba de hiptesis estadstica es una regla que consiste i) en tomar la decisin de aceptar H! , cuando estadsticamente la muestra no entregue evidencia suficiente para decidir rechazarla o ii) en tomar la decisin de rechazar H! si la evidencia muestral deja "una mnima duda" de que esa sea la decisin correcta. En resumen, una prueba de hiptesis es una regla de decisin que permite aceptar o rechazar una hiptesis nula, a partir de informacin muestral. Aceptar una hiptesis nula no permite la conclusin que sta sea verdadera, as como rechazarla, no permite la afirmacin de que la hiptesis alternativa es verdadera. Nunca es posible probar estadsticamente que una hiptesis nula es verdadera, pues se trata slo de una cuestin de "credibilidad probabilstica". Ejemplo 3.2. En el caso 3.1 c) el interesado debe disear una muestra aleatoria para reunir informacin sobre el rendimiento de la nueva variedad y una regla, por el momento arbitraria, podra ser que si se obtiene una media muestral "ms cercana a 72" se acepta H! y por el contrario si sta es "ms cercana a 78" se rechaza H! . q Ntese que la anterior es una perfecta regla de decisin, porque cualquier valor X que se obtenga, permitir optar por una u otra hiptesis y adems que la decisin debe basarse en un estadgrafo. Sin embargo no es una regla diseada estadsticamente, como se ver posteriormente. Se llama regin crtica de una prueba de hiptesis a un conjunto VG que contiene a todos los valores del estadgrafo que conducen al rechazo de H! . q q q En el ejemplo 3.2, la regin crtica es VG \ \ (&, pues para esos valores, X estar ms cerca de 78 y la decisin ser rechazar la hiptesis nula.

116
En toda prueba de hiptesis existe la posibilidad de cometer dos tipos de errores, uno al tomar la decisin de aceptar y el otro la de rechazar la hiptesis nula. Siempre est presente la posibilidad de cometer uno de ellos, pero obviamente el propsito es tomar todas las veces la decisin correcta y como ello no es posible hay que disminuir el riesgo de cometer errores de decisin y la manera de lograrlo consiste en mantener baja su posibilidad de ocurrencia. Las posibles decisiones a tomar se muestran en el siguiente cuadro. H! H" H! Decisin correcta Decisin errnea: error tipo I Decisin errnea: error tipo II Decisin correcta H" El cuadro muestra que en dos situaciones la decisin es la correcta y en otras dos la decisin es incorrecta, pero no existe certeza a que tipo corresponde la decisin tomada. Cuando se toma la decisin de rechazar H! , siendo esta la hiptesis verdadera, el error que se comete se denomina de tipo I. Al tomar la decisin de aceptar H! , siendo esta la hiptesis falsa, el error que se comete se denomina de tipo II. De los dos errores, el que provoca consecuencias ms grave es el tipo I y por lo tanto la posibilidad de cometerlo debe ser ms "pequea". La posibilidad de cometer el error tipo II tambin importa, pero sus consecuencias son menos grave, razn por la cual debe ser mantenido en niveles de riesgo "razonables". Los niveles de riesgo de ambos errores se establecen en trmino de probabilidades, segn las siguientes definiciones.
Hiptesis verdadera \ Decidir por

Definiciones. 1. La magnitud del error tipo I se designa por !, siendo ! Probrech. H! / H! verdadera). 2. La magnitud del erro tipo II se designa por " , donde " Prob(aceptar H! / H! falsa). 3. La Potencia de una prueba de hiptesis es la probabilidad de rechazar una hiptesis nula que es falsa y es igual a 1 " . En el ejemplo 3.1 a) el juez puede cometer el error tipo I cuando decide declararlo culpable en circunstancia que el individuo es realmente inocente. El juez puede cometer el error tipo II si decide declararlo inocente cuando realmente es culpable. En cualquier otra situacin el juez toma la decisin correcta. Del comentario anterior resalta que es ms grave cometer el error tipo I, es decir, declarar culpable a un inocente. Tambin es grave cometer el error tipo II, pero sus consecuencias son menos graves. En el ejemplo 3.1 b) el agricultor cometera el error tipo I si se cambia a la viticultura y resulta que sta no es ms rentable que el kiwi. Es fcil apreciar que este error le trae un gran dao econmico e incluso podra ser su ruina econmica. El error tipo II lo comete si se mantiene como productor de kiwi y este resulta menos rentable que la viticultura. En este caso tambin habra un dao econmico, en el sentido que perdi la oportunidad de hacer un buen negocio, pero su situacin no cambia, sigue igual como estaba, lo que en economa se llama costo de oportunidad. En las dos situaciones anteriores resulta claro que el error tipo I debe ser controlado mediante niveles de riesgo bajos que le den al juez o al inversionista "cierta seguridad de proteccin" contra este error. Por esta razn es que la probabilidad mxima de cometerlo, valor !, queda al arbitrio del interesado o investigador. Con el fin de tener valores comparativos de riesgo, en estadstica se conviene en utilizar valores de ! de 5% , 1% , 0,1% 10%, y no valores intermedios. En las situaciones comunes se ocupa el valor del 5%.

117

En una prueba de hiptesis se llama nivel de significacin al valor que el investigador le asigna a !. El nivel se acostumbra a expresarlo en porcentaje. Si el nivel de significacin de una prueba es del 1%, entonces ! = 0,01. El ejemplo estadstico 3.1 c) servir para ver integralmente los conceptos anteriores. Si se quiere comprobar cientficamente la aseveracin del Instituto de Investigacin, es necesario, entonces, realizar una prueba con las hiptesis: L! . (# versus L" . (). Asumiendo que ambas poblaciones se comportan normales, entonces segn H! la nueva variedad hbrida tiene un comportamiento N(# 5 # ) , es decir, el mismo de la variedad en uso, mientras que bajo H" su comportamiento es N() 5 # , por el momento la varianza no juega su papel, razn por la cual no se especificar su valor, aunque se supondr igual en ambas poblaciones. La figura 3.1 grafica la situacin anterior, en donde la campana de la izquierda, X! , muestra el comportamiento de la variedad hbrida cuando su rendimiento no es mejor que la tradicional y la de la derecha, X" , cuando su rendimiento la supera en 6 qq/ha. Para obtener informacin que permita apoyar una u otra hiptesis, es necesario tomar una m.a.s. Al no conocer cual es la real situacin de la nueva variedad, no se sabe si la muestra proviene de la primera o de la segunda de las distribuciones.

Sin embargo, la decisin respecto a . no se toma sobre la base del comportamiento de las q poblaciones, sino del comportamiento del estadgrafo X estimador del parmetro, representado por las campanas ms leptocrticas, segn sea H! o H" la hiptesis verdadera. En q consecuencia la regla de decisin se establece en relacin al comportamiento de X0 N(# q 5 # 8 y X1 N() 5 # 8 , como lo muestra la figura 3.2, que representa las mismas dos campanas leptocrticas de la figura anterior. La VG se establece en relacin a un valor crtico q q (Z G ) K, expresndose en trminos generales como VG XX O, que segn el criterio utilizado en el ejemplo 3.2, K = 75, ste se ubicara justo en el punto de corte de las dos campanas de la figura 3.2. En esta situacin el error tipo I y tipo II tendrn la misma probabilidad de ocurrir, correspondiendo al rea sombreada a la derecha y a la izquierda de K respectivamente. Pero el rea de la derecha debe tener la magnitud !, entonces la posicin de K queda determinada por esta condicin. Si el nivel de significacin de la prueba es del 5%, K

118
debe estar ms hacia la derecha, ms cercano a 78, de forma tal que el rea sombreada bajo la curva que grafica el comportamiento de la media muestral bajo la hiptesis nula H! , rea de la derecha, sea igual a 0,05. De esta manera la magnitud del error tipo II, valor de " , corresponde al rea sombreada bajo la curva de la media muestral bajo la hiptesis alternativa H" . Visualmente se aprecia que la magnitud de " es bastante mayor que la magnitud de !. Es fcil apreciar, que en esta misma situacin, al disminuir " aumenta ! y viceversa, por el hecho de tener que mover la posicin de K hacia la izquierda o hacia la derecha respectivamente (fig. 3.2). La nica forma de disminuir " manteniendo fijo el valor de !, consiste en aumentar el tamao muestral, es decir aumentando n. De esa forma se consigue que ambas curvas sean ms leptocrticas, o sea estn ms concentradas alrededor de su media y por lo tanto el rea de traslape entre ellas sea menor, como se aprecia en la figura 3.3, en la cual la distribucin de las medias muestrales corresponde a muestras tamao 25, mayor que en el caso anterior. Ntese que la posicin de K se mueve hacia la izquierda, debido a que las reas disminuyen y q K, como se dijo, es el lmite de un rea del 5% bajo la curva X! . Un ejemplo numrico ayudar a aclarar estos conceptos. Ejemplo 3.3. Supongamos que X N. "%%, es el comportamiento del rendimiento de la nueva variedad hbrida, del ejemplo 6.3.1 c), donde el valor de . depende de cual hiptesis, H! o H" , es la verdadera. Se asumi que la desviacin tpica del rendimiento es 12 qq/ha, ya que para los clculos se necesitar de tal informacin. Si, como se hace frecuentemente, se fija q q arbitrariamente en 16 el tamao de la muestra, se tendr que X0 N(# * y X1 N() *, # "%% pues 5 8 = "' es 9. De esta manera el valor de K se determina asignando ! = 0,05 q Probrech. H! / H! verdadera) = 0,05 T X O . (# ! !& O(# O(# T ^ O(# $ ! !& " 9( $ ) ! !& 9( $ ) !*& O(# 9" ! *& O(# " '%& O (' * Con este valor se puede calcular la $ $ probabilidad de cometer el error tipo II: " Prob(aceptar H! / H! falsa) q " T X O . () " T ^ ('*() " 9 ! $( ! $&', que corresponde $ al rea sombreada de la izquierda de la figura 3.2.

119

Resumiendo, para un nivel de significacin del 5% y un tamao de muestra 16 el valor crtico K corresponde a 76,9 con una probabilidad del error tipo II de 35,6%, es decir, aproximadamente 7 veces el error tipo I. Si se aumenta el tamao de la muestra a 25 se q q tendr que X0 N(# & (' y X1 N() & (', pues 5 # n 144/25 es 5,76. Siguiendo los mismos pasos anteriores se determina que, ahora K toma el valor 75,9, ms a la izquierda que antes, con una probabilidad de 19,6% para el error tipo II, casi 4 veces el de !, como se ilustra en la figura 3.3. En el ejemplo anterior se plante la relacin entre el tamao de muestra y la magnitud de los errores tipo I y tipo II como suele hacerse en la realidad, esto es, definir el nivel de significacin de la prueba y decidir el tamao de la muestra por consideraciones prcticas, con lo cual se pierde el control del error tipo II, por ello, esa no es la forma cientfica de hacerlo. El tamao de la muestra es el resultado de decidir a-priori los valores aceptables para ! y " , el que depender de lo que planteen las hiptesis nula y alternativa, esta ltima en trminos de una hiptesis simple.

120
Ejemplo 3.4. Se desea establecer el tamao de muestra necesario para contrastar las hiptesis del ejemplo 3.1 c), L! . (# versus L" . (). Asumiendo que X R . "%% se tendr que la distribucin de las medias muestrales bajo la hiptesis nula y alternativa q q son X0 R (# 1448 y X1 R () 1448. Entonces para valores ! = 0,05 y " = 0,15, que corresponden a valores habituales, se tiene: q O(# Probrech. H! / H! verdadera) ! !& T X O . (# ! !& T ^ ! !& "%%8 " 9(
O(# 8 ) "#

! !& 9(

O(# 8 ) "#

!*&

O(# 8 "#

" '%& (1).


O() "%%8

q Prob(aceptar H! / H! falsa) ! "& T X O . () ! "& T ^ 9


O() 8 "#

! "&

O() 8 "#

! "&

" !% #

$' 8 " '%& "# " '%& 8 & %) 8 $". En el clculo de 8 siempre se debe aproximar hacia arriba, para no sobrepasar el valor de !. Entonces con un tamao muestral de 31 o ms se podra cometer un error mximo, tipo I tipo II, de 5% 15% respectivamente, al contrastar las hiptesis planteadas.

(1) y (2) establecen un sistema para K y n que al dividir miembro a miembro (1) por (2) se "'%& obtiene: O(# O(# Sustituyendo en (1) O() "!% O() " &) O (& '.
(&'(# 8 "#

Esquema para contrastar hiptesis. El mtodo cientfico exige el cumplimiento de ciertas condiciones como son el planteamiento de hiptesis, un anlisis lgico y crtico y una metodologa vlida para probar la hiptesis planteadas. As, para probar hiptesis es necesario ceirse a un esquema de 6 pasos que satisface tales exigencias y que se explican a continuacin. 1 Se plantean las hiptesis nula, H !, y la alternat iva H" . La hiptesis nula siempre corresponde a una hiptesis simple, ya que debe especificar completamente la distribucin poblacional, bajo la cual se establece el estadgrafo de prueba y su distribucin, la que debe ser conocida. La hiptesis alternativa especifica lo se quiere probar, que por lo general representa el cambio en relacin a la hiptesis nula. Esta hiptesis puede ser simple o compuesta. Por lo general es una hiptesis compuesta, es decir, especifica infinitas distribuciones poblacionales alternativas. 2 Se debe elegir el nivel de significacin de la p rueba o valor de !, que se refiere al riesgo mximo de cometer el error tipo I, el que segn se explic anteriormente es el que provoca consecuencias ms grave. 3 Se debe identificar el estadgrafo de prueba, el que debe tener caractersticas similares a la variable pivotal y cuya distribucin debe ser conocida. 4 Se especifica la Regin Crtica, RC , cuya construc cin depende de la hiptesis alternativa, el valor de ! y la distribucin del estadgrafo de prueba. 5 Consiste en planificar la muestra aleatoria cuya s observaciones entregarn la evidencia que permitir tomar la decisin de rechazar o aceptar la hiptesis nula. Para este propsito es necesario procesar los valores y obtener un valor calculado del estadgrafo de prueba o valor

121
muestral. A continuacin se debe verificar si el valor, as calculado, pertenece o no la Regin Crtica. Si pertenece, la decisin es rechazar la hiptesis nula, en caso contrario la decisin es aceptarla o no rechazarla. Aceptar la hiptesis nula debe interpretarse en el sentido que los datos no proporcionan evidencia suficiente para refutarla, lo que no es equivalente a concluir que lo que plantea la hiptesis nula es lo verdadero. Recuerde que es imposible establecer la certeza de que una hiptesis es verdadera a partir de una muestra. Al rechazar una hiptesis nula se debe concluir que con los datos muestrales es ms creble o probable lo que especifica la hiptesis alternativa, dado que, bajo la condicin que la hiptesis nula es la verdadera, la probabilidad de obtener una muestra que proporcione los datos que nos conduce a la hiptesis alternativa resulta ser pequea. Una probabilidad pequea se refiere a que su valor es igual o menor al nivel de significacin de la prueba de hiptesis cuyo valor es !. 6 En este paso se debe redactar una conclusin respecto al problema en es tudio, la que se deduce del anlisis de los resultados realizados en la etapa anterior. En cada uno de los siguientes tipos de pruebas de hiptesis slo se indicarn los pasos 1, 3 y 4 que son especficos de cada una, puesto que los pasos 2, 5 y 6 son generales y tienen el mismo enunciado anterior. Prueba de hiptesis para la media de una poblacin normal. Sea la poblacin X N. 5 # de la cual se toma una m.a.s. tamao n. 1 Las hiptesis son: . . hiptesis bilateral
!

H! . .! versus H" : . .! hiptesis unilateral derecha , .! d . .! hiptesis unilateral izquierda Existen dos casos a considerar:

Caso 1. Varianza poblacional 5# conocida. 3 En esta situacin, al igual que para intervalos de confianza, el estadgrafo de prueba es q X.! Z 5 # 8 R ! " , bajo la hiptesis H! . 4 La regin crtica depende de lo establecido en los tres pasos anteriores y en particular de la hiptesis alternativa, por lo cual hay tres posibles R.C. asociadas a cada una de las tres q hiptesis alternativa, con un zc que resulta de los clculos al sustituir X en el estadgrafo indicado en el paso anterior: RC = { z c / z c z"!# o z c z"!# } regin crtica bilateral RC = { z c / z c z"! } regin crtica unilateral derecha RC = { z c / z c z"! } regin crtica unilateral izquierda q Obsrvese que la regin crtica no se estableci X K , porque resulta ms directa la q q X.! forma anterior, para evitar tener que despejar X, como se deduce de: 5 # 8 z"! , que q al despejar se obtiene X .! z"! 5 # 8, donde K = .! z"! 5 # 8.

122
Ejemplo 3.5. Se desea probar, al nivel del 5%, si una nueva variedad de trigo tiene mayor rendimiento que la variedad tradicional, actualmente en uso, cuyo rendimiento promedio se sabe es de 72 qq/ha con una desviacin tpica de 12 qq/ha. Con esta descripcin se debe plantear la prueba a realizar, es decir, establecer los pasos 1 a 4 del esquema propuesto. 1) H! . 72 versus H" : . 72 2) Se fijar un nivel de significacin del 5% ( ! = 0,05 ) 3) El estadgrafo de prueba, bajo la hiptesis H! , es Z
q X.! 5 # 8

R ! ", suponiendo

que los rendimientos se distribuyen normales, lo que habitualmente es verdadero, y por ser conocida la varianza poblacional. 4) La regin crtica es unilateral derecha porque la hiptesis alternativa lo es, luego RC = { z c / z c z0,95 " '%&} 5) Con el objetivo de realizar la prueba planteada, se siembran 10 parcelas experimentales de 10x10 m con semilla de la nueva variedad, obtenindose una produccin para cada una de 89,4 ; 92,8 ; 82,6 ; 96,2 ; 106,4 ; 86,0 ; 69,0 ; 77,5 ; 96,2 ; 80,9 qq/ha. q )(((# A partir de los datos se calcula que X = 87,7 y z- = 4,14 y como este valor "%%"! pertenece a la RC, pues 4,14 > 1,645, entonces la decisin es rechazar H! 6) Basado en la evidencia proporcionada por la muestra aleatoria es posible concluir que la nueva variedad tiene un rendimiento superior a la tradicional, al nivel del 5%. Observacin. En la conclusin es importante dejar constancia del nivel de significacin de la prueba, porque es posible que la decisin de rechazar la hiptesis nula sea incorrecta, es decir, se puede estar cometiendo el error tipo I, cuyo valor mximo es el valor de !. Sin embargo en el ejemplo 3.5 , el verdadero valor del error tipo I, de haberse cometido, es mucho menor al 5%, debido a que zc = 4,14 es bastante mayor que el valor crtico 1,645, valor lmite de la regin de rechazo, lo que indica que el zc est muy al interior de la regin crtica, lo que otorga mayor seguridad en no estar cometiendo un error en la decisin tomada. Caso 2. Varianza poblacional 5# desconocida. Las hiptesis son las mismas del caso 1, en consecuencia sigue el paso siguiente: q X.! 3 En esta situacin el estadgrafo de prueba, bajo la hiptesis H! , es t S# 8 >8 ", q # por lo cual de la muestra se debe obtener tanto el valor de X como de S .

q 4 Las regiones crticas con un t c que resulta de lo s clculos al sustituir X y S# en el estadgrafo indicado, son similares a las del caso 1, pero con valores percentiles de la t: RC = { t c / t c >"!# 8 " o t c >"!# 8 " regin crtica bilateral RC = { t c / > c >"! 8 "} regin crtica unilateral derecha RC = { t c / t c >"! 8 "} regin crtica unilateral izquierda

123

Note que en ambos casos la regin crtica bilateral es el complemento del intervalo de confianza, pues corresponde a la parte externa de ste. Ejemplo 3.6. Un productor de pollos Broiler afirma que los pollos que produce cumplen con una norma sanitaria que establece que la cantidad de hormonas que estos contengan no debe superar los 19 nanogramos. Un inspector sanitario decide probar tal afirmacin sobre la base de 10 pollos. El siguiente es el planteamiento de la prueba a realizar por el inspector, puesto que ste debe probar, hiptesis H" , que el productor no cumple la norma. 1) H! . 19 versus H" : . 19 2) El inspector decide fijar un nivel de significacin del 5% ( ! = 0,05 ) 3) El estadgrafo de prueba, bajo la hiptesis H! , es t poblacional es desconocida y asumiendo que normales.
q X.! S# "!

>*, pues la varianza

los contenidos de hormonas se distribuyen

4) La regin crtica es unilateral izquierda como la hiptesis alternativa , por lo tanto RC = { t c / t c >0,95 * " )$$" } 5) Para verificar la afirmacin del productor el inspector sanitario toma una muestra aleatoria de 10 pollos del productor, obteniendo los siguientes contenidos de hormona en nanogramos, en cada pollo: 18 ; 22 ; 21 ; 19 , 18 ; 17 ; 19 ; 20 ; 22 ; 20. De estos valores se obtiene que q 19,619 X = 19,6, S# = 2,94 y t- = = 1,10 , que al no pertenecer a la RC implica la decisin de #*4"! aceptar H! , o sea, no rechazarla. 6) La conclusin que obtiene el inspector es que la evidencia muestral no permite establecer que el productor no cumpla la norma. Observaciones. Con la decisin tomada por el inspector, el error susceptible de haberse cometido es el error tipo II, cuyo nivel no est explcito, pero est directamente vinculado al tamao de la muestra y como la muestra es relativamente pequea puede corresponder a una alta probabilidad. El valor de " puede calcularse a posteriori y en l se podra buscar una explicacin de por qu la prueba no fue capaz de rechazar H! . En este caso es irrelevante informar del valor !.

Prueba de hiptesis para las medias de dos poblaciones normales.


# Sean las poblaciones X" R ." 5" , de la cual se toma una m.a.s. tamao n" # X 2 R .2 52 , de la cual se toma una m.a.s. tamao n2 . .2 .1 hiptesis bilateral 1 Las hiptesis son: H ! .2 .1 versus H ": .2 .1 hiptesis unilateral derecha .2 .1 hiptesis unilateral izquierda

124
Es fcil deducir que las hiptesis anteriores se pueden replantear as: .2 .1 ! H! .2 .1 ! versus H" : .2 .1 ! , con tres casos a considerar .2 .1 !
# # Caso 1. Varianza poblacionales 5" y 5# conocidas.

Este es un caso poco usual, pero se tratar porque servir de apoyo en la explicacin de los casos 2 y 3. Las hiptesis nula y alternativa son comunes a los tres casos.
# # 3 A partir de muestras aleatorias independientes de X" R .", 5" ) y X2 R .2, 52 ) q q de tamao 8" y 8# respectivamente, el estimador de (.# - ." ) es X# X" ) cuya

distribucin es N.# - ." ,

# # 5" 8" 5# 8#

q q X# X" ).# ."


# 8 5 # 8 5" " # #

R ! ", segn lo

establecido en la construccin del Intervalo de confianza para la diferencia de dos medias poblacionales. En consecuencia como bajo H! .# ." !, el estadgrafo de prueba es: q q X# X" Z R ! " . # #
5" 8" 5# 8#

4 Las regiones crticas asociadas son las mismas d el Caso 1, para la media de una poblacin normal con varianza conocida, esto es RC = { z c / z c z"!# o z c z"!# } regin crtica bilateral RC = { z c / z c z"! } regin crtica unilateral derecha RC = { z c / z c z"! } regin crtica unilateral izquierda
# # Caso 2. Varianzas poblacionales 5" y 5# desconocidas e iguales.

3Este es el caso ms usual, en donde 5 #, es la vari anza comn a ambas poblaciones, correspondiente al supuesto de homogeneidad de varianzas u homocedasticidad y el estadgrafo a utilizar es t
X# X" # "/8 "8 ) Sp " # q q q q X# X" ).# ."
# "/8 "8 ) Sp " #

>(8" +8# -#), tal como se utiliz anteriormente para


# 8 "W # 8" "W" # # . 8" 8# #

construir el Intervalo de Confianza para la diferencia de dos medias y que bajo H! adopta la forma t =

>(8" +8# -#), donde se recordar que S# p

4 Las regiones crticas asociada son: RC = { t c / t c ->"!# (8" +8# -#) o t c >"!# (8" +8# -#) regin bilateral RC = { t c / > c >"! (8" +8# -#) } regin unilateral derecha RC = { t c / t c >"! (8" +8# -#) } regin unilateral izquierda Ejemplo 3.7. Para determinar si el parasitismo disminuye la capacidad fsica de caballos para competencias, se evala el rendimiento de 20 caballos sin desparasitar, obteniendo un rendimiento promedio de 29,9 y una varianza de 15. A su vez se evala el rendimiento de 12 caballos desparasitados, obteniendo que su rendimiento promedio es de 32,4 con una varianza de 10. El rendimiento se mide en una escala cuyo mximo es 40. Es posible

125
establecer, al nivel del 5 %, que el parasitismo afecta la capacidad fsica de caballos para competencias ? El planteamiento de la prueba se efecta en los pasos 1 a 4, para lo cual es necesario hacer algunos alcances. El rendimiento de ambas poblaciones se asume normal y se establece en trminos de la media ., as la poblacin 1 ser la de caballos desparasitados ( con tratamiento) y la poblacin 2 la de caballos sin desparasitar (sin tratamiento). Entonces lo que se quiere probar es que el rendimiento promedio de la poblacin 2 es menor que el de la poblacin 1. 1) En consecuencia las hiptesis sern H! .2 .1 versus H" : .2 .1 2) Se utilizar ! = 0,05 3) Como se trata de dos poblaciones con varianzas no conocidas, ya que la informacin del promedio y la varianza proviene de muestras, el estadgrafo de prueba es t=
X# X" S# p "/8" "8# ) q q

>(8" +8# -#) con

S# p

# # 8" "W" 8# "W# 8" 8# #

4) La regin crtica es RC = { t c / t c >!*& $! " '*($} , unilateral izquierda 5) Segn el enunciado los valores de la media y varianza muestrales son: q q con tratamiento X" = $# % , S# X2 = #* * , S# " = "! , n" = "# ; sin tratamiento 2 = "& , n2 = #**$#4 """!"*"& # #!, de donde Sp "$ # y tc "$#""#"#! - " )) RC rechazar H! $!

6) Se puede concluir, a un nivel del 5%, que en base a la evidencia muestral el parasitismo disminuye la capacidad fsica de caballos para competencias. Una forma ms general de la prueba para comparar dos medias consiste en plantearse las hiptesis de que las diferencias entre las dos medias es una cantidad d, no necesariamente igual a 0. Replanteando las hiptesis y el estadgrafo, queda en los siguientes trminos: .2 .1 d 1 H! .2 .1 d versus H" : .2 .1 d , d d .2 .1 d 3 t
q q X# X" ).# ."
# "/8 "8 ) Sp " #

>(8" +8# -#), que bajo H! queda t

# "/8 "8 ) Sp " #

q q ( X# X" )d

>(8" +8# -#).

4 En el resto se procede igual al caso 2.


# # Caso 3. Varianzas poblacionales 5" y 5# desconocidas y distintas.

Corresponde al caso de heterogeneidad de varianza y es un caso en el cual no existe un estadgrafo de prueba con distribucin exacta conocida y en consecuencia se debe recurrir a aproximaciones, alguna de las cuales se incluyen en los programas estadsticos computacionales. Uno de las aproximaciones ms conocidas es el procedimiento de Smithq q (1) X# X" Satterthwaite. Otro procedimiento consiste en calcular >w tal que: # #
S" 8" S# 8#

(1) Mtodos Estadsticos, Snedecor,G. y Cochran,W.; CECSA, 4 impresin, 1977.

126
i) >w tiene distribucin aproximada t 8 ", si 8" = 8# o ii) se compara >w con el valor crtico " t" w# t# # # > ww , donde t" = t 8" -") y t# = t 8# -", con ponderadores w" = W" /8" y w# = W# /8# , si " w# 8" 8# . Prueba de hiptesis para la igualdad de dos varianzas poblacionales. Corresponde a la prueba para la homogeneidad o igualdad de dos varianzas.
# # 1 Las hiptesis son L! 5" 5#

versus

# # L" 5" 5# .

2 Se elige ! de 5% o de 10%, segn se cuente con un a tabla que tenga o no el percentil " !#. 3 El estadgrafo a utilizar es J
# # distribuciones muestrales, el que bajo la hiptesis H! , pues al ser iguales 5" y 5# se # # cancelan, toma la forma J S" S# 8" " 8# ", donde (n" -") y (n# -1) son los # grados de libertad de S# " y S# respectivamente. Generalmente las tablas de la distribucin estn resumidas para los valores percentiles superiores, razn por la cual la prueba es conveniente realizarla en los siguientes trminos: S# Se calcula la razn F W7 # 7 8 ubicando en el numerador la varianza muestral 8 mayor y en el denominador la menor, de modo que la razn sea mayor que 1.
# W"# 5" # W## 5#

7 " 8 " , deducido en la un idad de

4 La regin crtica es RC { Fc Fc "!# 7 8 } , siendo Fc el valor muest ral del estadgrafo que resulta de sustituir los valores respectivos de S# . Ejemplo 3.8. Una situacin que se debe establecer previamente cuando las varianzas poblacionales son desconocidas es si estas son homogneas, para de esa manera discriminar si la prueba se refiere al caso 2 o al caso 3. Esta prueba debe realizarse a-priori a la comparacin de medias, pero en beneficio del desarrollo conceptual de la unidad se efectuar en este caso a-posteriori # con los datos del ejemplo 3.7 en cuyo enunciado se establece que S# " "! y S# "&. El desarrollo es el siguiente: # # # # 1) L! 5" 5# versus L" 5" 5# 2) ! = 0,10 , pues se utilizar una tabla del 95% de la distribucin . 3) el estadgrafo es F porque es la mayor. 4) La regin crtica es bilateral, pero RC { F- F- 0,95 "* "" = # '' }, por limitaciones de la tabla utilizada. 5) Jc "&"! " & RC aceptar H!
S# 2 S# 1

19 , 11. La varianza de la muestra 2 va en el numerador,

6) Se concluye que las varianzas poblacionales son homogneas, al nivel del 10%.

127
6.4 Comentarios sobre intervalos de confianza y pruebas de hiptesis. En esta seccin se analizarn algunas situaciones complementarias en relacin a la estimacin mediante intervalos de confianza, respecto a las pruebas de hiptesis y en particular al planteamiento de la hiptesis alternativa cuando se docima la media de una poblacin, debido a que a veces se deben tener en cuenta ciertas consideraciones en relacin al error tipo I. Precisin , confianza y tamao de muestra en intervalos de confianza. Se llama error de muestreo a la diferencia d entre el valor muestral de un estimador y el del parmetro al cual estima. En trminos estadstico: d l s ) ) |. El error de muestreo es funcin del tamao muestral, de la varianza y del valor percentil de la distribucin de s ) . En el # caso del intervalo de confianza para . con varianza conocida d = z"!# 5 8 y cuando la varianza poblacional no es conocida d = >"!# 8 "S# 8. En otros trminos el error de muestreo es igual a la mitad de la amplitud del intervalo de confianza. Se llama precisin de una estimacin, al grado de aproximacin del valor muestral del estimador respecto al valor poblacional. Se mide en trminos del error de muestreo, de modo que a menor tamao del error de muestreo existe mayor precisin. Precisin no se debe confundir con exactitud, que cuando sta se refiere a un clculo depende del nmero de decimales o del instrumento de clculo, o cuando se trata de una medicin depende del instrumento con que se realiza la medicin, ya que tiene que ver con la aproximacin del valor calculado respecto a su valor real. La precisin es un trmino ms estadstico y la exactitud es ms ingenieril. La precisin y el grado de confianza de un intervalo estn relacionados a travs del tamao de la muestra, pues para una misma muestra a mayor grado de confianza se tiene una menor precisin y viceversa. La nica forma de mantener la precisin aumentando el nivel de confianza o viceversa, consiste en aumentar el tamao de la muestra. Algunos ejemplos ayudarn a conceptualizarlos.

Ejemplo 4.1. En el ejemplo 2.1 se necesitaba estimar la media de una poblacin normal de varianza 144 a partir de una muestra tamao 15, resultando un promedio de 82,15 qq/ha y un intervalo del 95% de confianza para . con lmites 76,1 y 88,2 qq/ha. En este caso la precisin es de 6,05 qq/ha. Si con la misma muestra se construye un intervalo al 90% de confianza el error de muestreo es d = 1,64514415 5,1 qq/ha. Se puede observar que se disminuy el grado de confianza, pero aument la precisin. Si se aumenta la confianza al 99%, entonces d = 2,57514415 = 8,0 qq/ha. Deduzca que pasara si se tratara de aumentar la confianza al 100%. La forma cientfica de enfocar el problema consiste en determinar el tamao de muestra necesario para una determinada precisin y nivel de confianza. Entonces, el planteamiento en el caso anterior debe ser, por ejemplo, "calcular el tamao de muestra necesario para estimar la media poblacional con una confianza del 95% y una precisin de 3 qq/ha". Ahora se conoce

128
que d = 3, D!*(& = 1,96, luego, 3 = 1,96144n , despejando 8 se obtiene 61,47, pero como n tiene que ser un nmero natural se aproxima siempre hacia arriba, lo que implica n = 62. La poblacin, el parmetro, las hiptesis a contrastar y el tamao de muestra en una prueba de hiptesis para una poblacin. Cuando se desea realizar una inferencia es importante tener claridad cual es la poblacin y el o los parmetro de ella que se est investigando a partir de muestras aleatorias. Es frecuente que el concepto que se tiene de la poblacin sea algo difuso y resulta que es un aspecto muy importante, porque las conclusiones se refieren a ella y slo a ella y la muestra tiene que ser un subconjunto que la represente, luego la poblacin debe estar definida en trminos bien precisos. Respecto a las hiptesis, un error frecuente es plantearlas para los estadgrafos en circunstancias que estos son variables aleatorias y por lo tanto la probabilidad de que ocurra un valor puntual es cero. Las hiptesis siempre se plantean para los parmetros y la hiptesis nula siempre es una hiptesis simple, pues el valor del parmetro especificado en sta determina la distribucin del estadgrafo de prueba que debe ser exacta. El planteamiento de la hiptesis alternativa para un parmetro algunas veces puede generar dudas, pues depende de a cual decisin errnea se le quiere dar mayor proteccin, es decir, el planteamiento formal de una hiptesis est influida por la estructura de la probabilidad de una conclusin errada. El anlisis de ciertos casos ayudarn a desarrollar esta idea. Caso 1. Si un investigador desea probar que tomar caf aumenta el riesgo de cncer gstrico, las hiptesis a contrastar son: tomar caf aumenta el riesgo de cncer gstrico versus tomar caf no aumenta el riesgo de cncer gstrico. El punto es cul debe ser la hiptesis nula y cul la alternativa. Si se considera que lo conservador es considerar que tomar caf no produce dao gstrico, entonces H! : tomar caf no aumenta el riesgo de cncer gstrico H" : tomar caf aumenta el riesgo de cncer gstrico Se evaluar la consecuencia de tomar cada una de las posibles decisiones errneas: i) si se acepta H! cuando la hiptesis alternativa es la verdadera, se est cometiendo el error tipo II, de probabilidad " y como la conclusin ser que no hay riesgo al tomar caf, la consecuencia del error es grave, porque se est poniendo en riesgo la salud en trminos de un error que por lo general tiene valores de probabilidad ms alto que el tipo I. Es decir al elegir plantear as las hiptesis, el error ms grave que es el riesgo de contraer cncer, no est siendo controlado adecuadamente. ii) si se rechaza H! cuando sta es verdadera, se est cometiendo el error tipo I, de probabilidad !. La conclusin ser que tomar caf es riesgoso para la salud y la decisin ser abstenerse de beber caf. El costo es perderse la oportunidad de tomar caf, especialmente si se es adicto al caf, pero no hay riesgo para la salud. Si se permutan las dos hiptesis anteriores, ambos tipos de errores, tambin se permutan, verificndose que el riesgo para la salud queda protegido con el nivel de significacin, como debe ser. Recuerde que el error de peores consecuencias es el tipo I. Caso 2. Una Compaa Tabacalera afirma que la cantidad de nicotina que en promedio contiene, uno de sus tipos de cigarrillos, no excede de 2,5 mg. Un investigador que desea verificar tal aseveracin debe optar por establecer sus hiptesis nula y alternativa. El investigador toma la opcin que H! . # & versus H" : . # & y va a realizar la prueba

129
con un tamao muestral suficiente para tener un nivel de significacin del 1% y un error tipo II de probabilidad " 0,15. Se analizar cual es la consecuencia de cada una de las dos decisiones errneas. i) si se acepta H! cuando la hiptesis alternativa es la correcta, se est cometiendo el error tipo II cuya probabilidad es del 15% y decidiendo que la evidencia muestral no es suficiente para contradecir la afirmacin de la Compaa, luego se estaran aceptando cigarrillos con exceso de nicotina, lo que sera muy perjudicial para la salud de los fumadores y con un alto nivel de riesgo. ii) si se rechaza H! siendo H! verdadera, es decir, H" falsa, se est cometiendo el error tipo I cuya probabilidad es del 1% y decidiendo errneamente que los cigarrillos exceden los 2,5 mg de nicotina. En esta situacin se est perjudicando a la Compaa con un nivel de riesgo del 1% muy inferior al 15% de riesgo que corre la salud de los fumadores. Como evidentemente la salud de las personas es mucho ms importante que el dao econmico de la Compaa, el error tipo I debe proteger al consumidor y en consecuencia las hiptesis deben ser H! . # & versus H" : . # &. Ahora el fabricante se ver perjudicado con una probabilidad del 15% al aceptar H! , pero la Compaa tiene una solucin para esta situacin, la cual consiste en financiar un anlisis de los contenidos de nicotina en los cigarrillos en una muestra mucho mayor, con lo cual se consigue disminuir el valor de " . Caso 3. Una agroindustria establece como norma de calidad que la fruta que envien los productores debe contener un porcentaje de frutos con daos por insectos de a lo ms 6%. Si la partida contiene un porcentaje mayor ser rechazada. La decisin se tomar en base a una muestra de tamao suficiente para tener ! &% y " "&%, siendo el valor del parmetro a probar una proporcin o porcentaje P. La hiptesis alternativa a plantearse tiene dos posibilidades, proteger preferentemente a la agroindustria o proteger al productor. Si se considera como norma que se debe proteger al ms dbil las hiptesis deben ser H! : P ! !' versus H" : P ! !'. De esta manera al rechazar H! cuando H" es falsa, se est cometiendo el error tipo I, que conduce a rechazar la partida cuando sta cumple la norma, pero la probabilidad de este error es de slo 5%. Por el contrario si la hiptesis alternativa fuera H" : P ! !', al aceptar H! cuando sta es falsa el error cometido es el tipo II, luego hay una probabilidad del 15% de rechazar una partida que cumple la norma, en vez del 5% anterior. En este caso la atencin hay que ponerla en si la hiptesis alternativa debe plantear la aceptacin o el rechazo de la partida de fruta, segn cul decisin errnea sea ms grave. Tamao de muestra. Se tomar el caso de la Compaa Tabacalera para explicar el procedimiento del clculo del tamao de muestra necesario para cumplir con valores pre establecidos para los errores tipo I y tipo II. Se optar por las hiptesis que protegen la salud de los fumadores, es decir, H! . # & versus H" : . # 5. Pero para resolver el problema se debe tener informacin de la variabilidad del contenido de nicotina en los cigarrillos, as que supngase que la desviacin tpica es de 0,5 mg y como la hiptesis alternativa debe ser una hiptesis simple se asumir que H" : . # $. Entonces el tamao de muestra para ! ! !" y " ! "& se obtiene a partir del siguiente planteamiento. q ! T rech L! L! verdadera 0,01 T (\ O . # & (1) q " T aceptar L! L! falsa 0,15 T (\ O . # $ (2) que con el supuesto que el contenido de nicotina en los cigarrillos tiene distribucin normal

130
\#& (1) T !& 8 q O#& !& 8 O#3 !& 8 O#& ! !" 9 !& 8 ! !" O#3

O#& 8 !&

! !" $ ! )& %

(2) T !&8 $
O#& 8 !& O#$ 8

q \#3

! "& " 9 !&8 ! "& 9


O#& 8 !& O#$ 8

O#$ 8 !&

9 " ! !"

# $$ &

% 9 " ! )& " !% ' !& !& El sistema de ecuaciones (5) y (6) tiene dos incgnitas que son K y n. Para eliminar n, se O#& divide miembro a miembro (5)/(6), se obtenindose O#$ # #% , luego O 2,36.
#$'#$ 8

Sustituyendo K en (6) " !% ! "#8 " !% 8 ('. En consecuencia !& se debe analizar una muestra de 76 cigarrillos o ms. Observacin. El tamao de muestra depende de las condiciones: de variabilidad poblacional reflejada en el valor de la desviacin tpica; del nivel de significacin requerido; del valor de la potencia (" " deseada y de la diferencia, d ." .! , que se establece a partir de los valores de las medias en las hiptesis alternativa y nula respectivamente. Para esta ltima condicin es necesario que la hiptesis alternativa sea una hiptesis simple y como en general las hiptesis alternativas son compuestas hay un tamao de muestra asociado a cada valor de la diferencia d.

131

7. TEOREMA CENTRAL DEL LIMITE E INFERENCIAS PARA PROPORCIONES.


7.1 Muestras de tamao pequeo. Para muestras de tamao pequeo las inferencias deben realizarse con la distribucin exacta del estadgrafo de prueba, esto es, si la distribucin poblacional es normal utilizando la distribucin normal de la media muestral, si la distribucin poblacional es binomial con la distribucin binomial del estadgrafo, si la distribucin poblacional es Poisson con la distribucin Poisson del estadgrafo y as en otros casos. En la unidad anterior la metodologa para las inferencias se basan en el supuesto de normalidad poblacional, para de esta manera obtener estadgrafos o variables pivotales con distribucin normal o > de Student o ;# . Hay muchos casos en los cuales la normalidad poblacional no se cumple y en consecuencia se debe proceder con la distribucin exacta, lo que trae algn grado de complicacin por que las tablas de esas distribuciones son menos completas que la de la distribucin normal tpica. El siguiente es un ejemplo de este tipo. Se sabe que un tipo de vacuna contra el distemper es alrgica en un 40% de los casos. Un laboratorio promueve una nueva vacuna tan efectiva como la anterior, aunque algo ms cara, que es menos alrgica que la en uso. Para tal efecto se inoculan 20 perros para decidir sobre la afirmacin del laboratorio. Las hiptesis son H! T ! %! versus H" : T ! %! y sea \ nmero de caninos de la muestra que presentan alergia producida por la vacuna, cuyos valores posibles son ! " # "* #!, en consecuencia la distribucin es \ F38#! ! %!, luego la regla de decisin debe disearse para una RC {X X K}, donde K es un nmero natural . La cuestin es cmo se determina el valor de K ?. La respuesta est en la distribucin acumulativa de la binomial anterior, donde se observa que T \ $ ! !"'! y T \ % ! !&"!, de modo que para un nivel de significacin del 5%, la ltima probabilidad da aproximadamente ese valor y en consecuencia K = & , pues recurdese que ! Prob \ & P ! %!= 0,051. Para establecer el valor de " es necesario fijar un valor alternativo simple para P Supongamos que H" : P ! #!, entonces: " Prob\ & P ! #! 1 Prob\ %P ! #! 1 0,6296 0,3704, es decir, el error tipo II es aproximadamente del 37%. 7.2 Teorema del Lmite Central. No obstante lo anterior, es posible validar la distribucin normal como parte de la metodologa estadstica, tomando muestras de tamao grande, situacin que establece el Teorema Central del Lmite, el que se puede enunciar as. Sea X variable aleatoria con cualquier distribucin, tal que I\ . q Z \ 5 # y X la media de una muestra tamao n, entonces q X N(., 5 # 8 cuando 8 _. y

132
Consecuencias. Del Teorema anterior se deduce que: q X. 1) 5 # n R ! " cuando n _. se puede hacer uso de que
q X. 5 # n

2) Cuando n es suficientemente grande, lo que para la mayora de los casos ocurre si n $!, R ! ". Esta es una consecuencia importante, porque

establece que basta tener muestras de tamao mayor a 30 para que la distribucin de la media muestral sea prcticamente normal, independientemente de cual sea la distribucin poblacional. 7.3 Proporcin Poblacional. Sea E una caracterstica de inters a estudiar en la poblacin, la que inducir una particin de sta en dos subconjuntos: el de los individuos que poseen la caracterstica y el de los individuos que no la poseen. As en una poblacin finita de tamao N la proporcin T de A individuos que la poseen queda determinado por T # N Segn la ley de los grandes A nmeros lim T lim # N :, que conceptualmente es la probabilidad de A, P(A). Esta
R N_ N_

probabilidad : T E se denominar en adelante proporcin poblacional en poblaciones infinitas y se designar simplemente por T . s X , que corresponde a la proporcin El estimador de la proporcin T se define como T n muestral, donde X es el nmero de individuos en la muestra que presentan la caracterstica A cuya probabilidad de ocurrencia es p, en consecuencia la distribucin de la variable aleatoria X s. es Binn p, y a partir de sta se puede deducir la distribucin del estadgrafo T s. Distribucin del estadgrafo P s I \ IT 8 s) Z \ Z (T
8 " " s 8 I\ 8 8: : T , en consecuencia T es un estimador :": U " " T8 , donde U " T . 8# Z \ 8# 8:" : 8

insesgado de T .

s es Binomial de media T y varianza T U8. Luego la distribucin de T s. Aproximacin a la normal de la distribucin de T

Se recordar que una variable aleatoria binomial es generada mediante una suma de n variables Bernoulli, luego X ! Y3
8 3"

y dado que

s T

X n

3"

! ]3
8

] , se establece que la

proporcin muestral es la media de variables Bernoulli y como consecuencia por el Teorema s R T T Un cuando n _. Se deduce, entonces, que cuando n es del Lmite Central T s T s R T T Un T suficientemente grande T R ! ". En el caso de una proporcin se considera que n es suficientemente grande si satisface la relacin nPQ 4, lo que indica que el valor de n depende del valor de T , como por ejemplo para " T ! & n " # # % 8 "', o sea en este caso se necesita un n de "( o ms. Para " * T ""! n "! "! % n %!!*, es decir, se necesitara un n de %& o ms. Las figuras 3.1 , 3.2 y 3.3 ilustran como una distribucin Bin n ! "! se aproxima a una distribucin R ! "n ! !*n Ver tambin la figura 6.2 de la unidad 4.
T Un

133

Lmite.

En lo que sigue se desarrollar la inferencia para proporciones basada en muestras tamao s T grande, utilizando T R ! " aproximacin establecida por el Teorema Central del T Un

134
7.4 Intervalos de Confianza para Proporciones. El desarrollo sigue un esquema similar al utilizado para intervalos de confianza para la media de distribuciones normales. Intervalo de confianza para una proporcin. El estadgrafo Z
s T T T U8

R ! ", se utilizar como variable pivotal y dado que Prob D"!#


s T T T Un

Prob D"!# ^ D"!# ) " !

D"!# ) " ! , pero

ahora la probabilidad del intervalo es slo aproximada. Despejando T en la desigualdad s D"!# T Un T T s D"!# T Un) " ! . Sin anterior se establece que ProbT s T Un no es conocida, por lo cual embargo, como es T lo que se est estimando la Z T s T s n , pero aunque T s T s T s " T s n T s U se debe utilizar su estimador Z debera tener
s n s U T

aproximadamente una distribucin > de Student por estar utilizando una varianza estimada, resulta que si n es grande >8 " R ! " , luego por doble aproximacin s nT T s n ) " ! , de donde s D"!# T s U s D"!# T s U ProbT s s s D"!# T s U8 s D"!# T s U8 T T T )
Intervalo del 100(1 !% aproximado de confianza para T

Ejemplo 4.1 Un organismo de defensa al consumidor examin 100 latas de atn envasadas por cierta industria encontrando que 9 de ellas estaban en mal estado. En un intervalo de confianza del 95%, cul es la proporcin de latas en mal estado de la produccin total de la industria? !!*!*" s s * ! !* ; T s U8 Para el intervalo de confianza se requiere T ! !#*
"!! "!!

y z!*(& " *' ! !* " *'! !#* T ! !* " *'! !#* ! !$$ T ! "%( al 95% aproximado de confianza. Puede apreciarse que el rango estimado va entre 3,3% y 14,7% de latas en mal estado, que es una estimacin con poca precisin. Mejor, entonces, es plantearse que si se desea tener una estimacin con una precisin o error de muestreo menor al 3% y una confianza del 95% cul debera ser el tamao muestral requerido ? Como n resultar bastante mayor que 100, que es el tamao de muestra ya utilizado, para una precisin de un & (%, semi longitud del intervalo anterior, y recordando que el error de s n se tiene que s U muestreo en una distribucin normal est dado por D"!# T

s s U8 D"!# T 0,03 " *'! !*! *"8 ! !$ 8 " *'! !*! *"! !$ 8 ") '*( 8 $%* ', luego n 350. Es decir, para ese nivel de precisin se necesitara examinar por lo menos 350 latas seleccionadas al azar. Con ese tamao de muestra se tendra una estimacin de la verdadera proporcin T de latas en mal estado, en un rango de T 0,03, es decir, una estimacin con un 3% de error y una confianza del 95%.

135
Intervalo de confianza para la diferencia entre la proporcin de dos poblaciones. La estimacin se obtendr a partir de muestras aleatorias independientes tamao n" y n# s# - T s" cuyos de cada poblacin respectivamente, y se desea estimar (T# - T" ), mediante T valores caractersticos son: s# T s" I T s# I T s" T# T" i) IT s# T s" Z T s# Z T s" T# U# T" U" , cuyo estimador est dado por ii) Z T n# n" s(T s# T s" V

s U s s s T # # T " U" n# n"

s# s #U T n# s# T s" T# T" T

s" s "U T n" .

Si los tamaos muestrales n" y n# son grandes, entonces

R ! ". El estadgrafo anterior corresponde a la variable pivotal a utilizar

para obtener el intervalo de confianza para la diferencia de dos proporciones. El intervalo de probabilidad (1 ! al sustituir la variable pivotal es como antes Prob D"!#
s# T s" T# T" T
s U s s s T # # T " U" n# n"

D"!# ) " ! , que al despeja< T# T" se obtiene

s# T s " D"-!# (T

s# s #U T 8#

s" s "U T 8"

s# T s " D"-!# T# T" T

s# s #U T 8#

s" s "U T 8" )

Intervalo del 100(1 !% aproximado de confianza para T# T"

Ejemplo 4.2 Una industria de alimentos desea promover por TV un nuevo cereal. Una agencia de publicidad le asegura que un cierto comercial ser igualmente efectivo en el estrato ABC1 como en los estratos C2 y C3, sin embargo la industria cree que por las caractersticas del comercial ser menos efectivo en el C2-C3. Para verificar la hiptesis de la empresa se decide pasar por TV el comercial durante dos semanas en el horario de una teleserie de moda, al cabo de las cuales se tomarn muestras de espectadores fanticos de la teleserie de ambos estratos socio-econmicos, para verificar la retencin del mensaje en cada uno. Terminado el periodo de prueba el resultado del muestreo indic que recordaban el mensaje 90 personas de un total de 120 del estrato ABC1 y tambin otras 90 de un total de 150 del estrato C2-C3 cul es la diferencia entre la proporcin de personas de cada estrato que recuerdan el comercial, en un rango del 95% de confianza ? s " *! ! (& y T# el Sea T" el parmetro del estrato ABC1, cuyo estimador es T "#! s 2 *! ! '!. Para construir el intervalo se parmetro del estrato C2-C1, cuyo estimador es T "&! requieren los valores s# T s " - ! "& , T
# n #

s# s U T

" n "

s" s U T

!'!!%! "&!

!(&!#& 0,056 "#!

z!*(& " *', luego -! "& " *'! !&' T# T" - ! "& " *'! !&' implica que - ! #'! T# T" - ! !%! al 95% aproximado de confianza. El intervalo obtenido establece que el porcentaje de retencin es entre un 4% a un 26% superior en el estrato ABC1, dado que la diferencia es negativa y por lo tanto superior para P1 .

136
7.5 Contraste de hiptesis para proporciones. El esquema es similar al de las pruebas de hiptesis para las medias poblacionales. Prueba de hiptesis para la proporcin de una poblacin. Es el caso en el cual la caracterstica A produce dos subpoblaciones y se requiere probar que porcentaje representa la subpoblacin con la caracterstica E respecto al total T T hiptesis bilateral ! 1 Las hiptesis son H ! T T! vs. H ": T T! hiptesis unilateral derecha , ! T! " T T! hiptesis unilateral izquierda 2 el nivel de significacin se determina con los criterios habituales 3 en esta situacin, con n sufientemente grande, el estadgrafo de prueba, bajo la hiptesis H! , es Z
s T! T T! U! 8

R ! ".

4 la regin crtica corresponde a la de una distri bucin normal tpica, con un zc que resulta s en el estadgrafo indicado en el paso anterior. de los clculos al sustituir T RC = { z c / z c z"!# o z c z"!# } regin crtica bilateral RC = { z c / z c z"! } regin crtica unilateral derecha RC = { z c / z c z"! } regin crtica unilateral izquierda Ejemplo 5.1. Se desea verificar si la multiplicacin por estacas de cierta planta medicinal es viable, para lo cual debe enraizar a lo menos el 40% de las estacas, para lo cual se sometern a enraizamiento 140 estacas. El siguiente es el planteamiento para esta situacin. 1) Las hiptesis son: H! T 0,40 versus H" : T 0,40 , pues el parmetro a probar es una proporcin y la multiplicacin por estacas slo sera viable si la proporcin de estacas que enraizan es mayor al 40%. 2) Se fijar un nivel de significacin del 5% 3) El estadgrafo de prueba es Z grande.
s T! T T! U! n

R ! " , porque n "%! es sufientemente

4) Corresponde utilizar R.C = { z c / z c z0,95 = 1,645 } . 5) Para probar las hiptesis anteriores se establecen 140 estacas en un medio para enraizamiento, verificndose, despus de un tiempo, que de estas enraizan 60. Se calcula s '! ! %#* y z c !%#*!%! !!#* ! (! RC aceptar H! . T !%!'"%! "%! !!%"% 6) La evidencia muestral no es concluyente para establecer que la multiplicacin por estaca es viable.

137
Observaciones. 1) Una cuestin a plantearse es calcular el valor de la potencia de la prueba anterior que no permite rechazar H! . El siguiente planteamiento resuelve esta situacin: s K P ! % 9 K!% ! *& ! Probrech H! / H! verdadera ) ! !& Prob(T !!%"% "
K!% !!%"%

" '%& K ! %'). H! / H! falsa )


K!%#* s K P ! %#* 9 ProbT !%#*!&(""%! , !!$*

Probaceptar

!%')!%#* sustituyendo el valor de K se obtiene " 9( !%#*!&(""%! 9 !!%") 9! *$ ! )#$) ,

luego " " ! "('#, es decir, la potencia es 17,6%, lo que es un valor muy bajo. 2) La otra forma de enfocar el problema, como se ha planteado antes, consiste en calcular el tamao n suficiente para ! del 5% y una potencia del 80%. El planteamiento implica s K P ! % ! Probrech L! L! verdadera ! !& Prob(T (1) s " Probaceptar L! L! falsa ! #! ProbT K P ! %& (2) , asumiendo ! %& como valor alternativo para T (1) T !%!'8 (2) $ %
O!% 8 !%* s !%& O!%& 8 T O!%& T !%*(8 !%*( !%*( 8 ! #! 9 O!% 8 O!% 8 9 " ! *& " '%& !%* !%* O!%& 8 O!%& 8 9 " ! #! ! )% !%*( !%*( s !% T O0,4 !%* 8

! !& 9

! *& $ ! #! % & '

Resolviendo el sistema de ecuaciones (5) y (6), se obtiene K = ! %$$ que sustituyndolo en (5) resulta n = &*(, muy superior a la muestra de 140 estacas. Este tamao se puede disminuir si se utiliza como proporcin alternativa 0,42 o 0,43. Prueba de hiptesis para las proporciones de dos poblaciones. Sean X" X2 T" y T# dos poblaciones y las respectivas proporciones en que est presente una misma caracterstica. T T hiptesis bilateral
2 1

1 las hiptesis son: H ! T2 T1 versus H ": T2 T1 hiptesis unilateral derecha T2 T1 hiptesis unilateral izquierda las que se pueden replantear as: T T ! 2 1 H! T2 T1 ! versus H" : T2 T1 ! T2 T1 ! 3 A partir de muestras aleatorias independientes de X" y X2 de ta mao n" y n# s# T s" con respectivamente, suficientemente grandes, el estimador de (T# - T" ) es T T U T U # # " " s# T s" Z T s# Z T s" Z T T2 T1 T , en 8# 8" . Pero bajo H! se tiene que s s consecuencia T 1 y T2 son estimadores de la proporcin comn, por lo cual se utiliza como s " T s 8" T" 8# T# y de U a U s . Sustituyendo estimador de T la media ponderada T s " s# T s" T s U estos estimadores en la varianza anterior, se obtiene que Z T 8"
8" 8# " 8# ,

138
obtenindose como estadgrafo de prueba porque bajo H! T# - T" !. 4) Las regiones crticas asociadas son las mismas de los casos anteriores de distribuciones normales. RC = { z c / z c z"!# o z c z"!# } regin crtica bilateral RC = { z c / z c z"! } regin crtica unilateral derecha RC = { z c / z c z"! } regin crtica unilateral izquierda Ejemplo 5.2 Resultados observados con un nuevo medicamento utilizado para aliviar la tensin nerviosa llevan a pensar que ste es mejor que el que se prescribe comnmente. Para probar la efectividad del nuevo medicamento, a un grupo de 100 adultos se les administra el medicamento tradicional y a otros 100 adultos se les administra el nuevo medicamento, sin que ellos sepan cual estn recibiendo. Los resultados establecen que del primer grupo 59 sienten alivio, mientras que en los del segundo grupo 71 experimentan alivio. Con la informacin obtenida a travs de los pacientes, puede concluirse al nivel del 1%, que el nuevo medicamento tiene mejor efecto que el tradicional ? Se seguir el esquema de 6 pasos, para lo cual P" es la proporcin de pacientes que se alivian con el medicamento tradicional y P# la proporcin de pacientes que se alivian con el nuevo. 1) H! T2 T1 versus H" :T2 T1 , pues el nuevo medicamento ser recomendado si cumple con que la proporcin de pacientes que son aliviados es mayor que con el tradicional. 2) ! = 0,01 , porque una decisin errnea es muy riesgosa. 3) Como n" y n# son suficientemente grande, el estadgrafo ser Z = 4) RC = { z c / z c z0,99 = # $$ } s1 &* ! &* , T s2 (" ! (" y el estimador comn &) Los estimadores son T "!! "!! !("!&* s &*(" ! '&, luego zc = T " () RC aceptar H! #!! " "
!'&!$& "!! "!! s# T s" T " s s T U 8 8"
" #

s# T s" T# T" T
s T s "" U 8" 8#

s "" s U T 8" 8#

s# T s" T

R ! " ,

R ! ".

6) Con la evidencia entregada por la muestra no puede establecerse, con un nivel de significacin del 1%, que el nuevo medicamento sea ms efectivo que el tradicional para aliviar la tensin nerviosa. Si las hiptesis se hubieran planteado con un nivel de significacin del 5%, la conclusin sera distinta. Observaciones. 1) El orden de los estimadores en el estadgrafo de prueba debe ser el mismo que el de los parmetros en las hiptesis, ya que si su orden se invierte, el valor zc cambiar de signo, lo cual no ser consecuente con la RC lo que podra llevar a una decisin equivocada. Si en el ejemplo anterior, para las mismas hiptesis, se planteara el estadgrafo Z =
s1 T s2 T " " s s T U 8 8
" #

zc = - 1,78 RC, al nivel del 1%, decisin que coincide con la que corresponde, pero con

139
un valor mucho ms alejado del valor crtico. Sin embargo al nivel del 5% lo que corresponde es rechazar H! , pero en esta forma errnea an se aceptara H! . 2) Es posible que las hiptesis se planteen correctamente cambiando el orden de los parmetros, en cuyo caso el orden de los estimadores en el estadigrafo tambin debe ser cambiado, pues en este caso la RC cambia. Si en el ejemplo, las hiptesis se plantearan equivalentemente H! : T1 T2 vs. H" : T1 T2 , en el cual el signo de la desigualdad debe cambiarse, el estadgrafo ahora debe ser como en la observacin anterior y la regin crtica ser RC = { z c / z c - z0,99 = - # $$ } del tipo unilateral izquierda. El valor calculado correcto ser zc = - 1,78 RC, al nivel del 1%, pero al 5% si pertenecera a la regin crtica, tal como sucede con el planteamiento original. Esta situacin es totalmente simtrica a la desarrollada en el ejemplo. 3) En el caso de una hiptesis alternativa bilateral las dos observaciones anteriores no tienen efecto. 4) Estas observaciones tambin son vlidas para la prueba de hiptesis para dos medias. 7.6 Contraste de hiptesis para dos o ms proporciones. Hay dos casos a tratar y ambas con pruebas basadas en la distribucin ji cuadrada. Una es la prueba de concordancia y la otra es la prueba de asociacin o de independencia. Prueba de Concordancia para dos o ms proporciones. Esta es una generalizacin de la prueba para una proporcin, cuya distribucin es binomial, y se asocia a una distribucin multinomial. Se puede considerar en el contexto de una particin de la poblacin en k clases cada una de las cuales representa una proporcin T3 de la poblacin, de modo que ! T3 ". Se trata de probar si la proporcin de cada clase tiene o no
5 3"

ciertos valores reales especficos T3! . Esta prueba tiene importantes aplicaciones en gentica en relacin a las leyes de Mendel. El esquema de prueba es el que sigue. 1 Las hiptesis son
3"

! T3! ".
5

H ! T" T"!, T2 T#! , , T5 T5! versus H ": b T3 T3! , co n

2 El nivel de significacin ! ser el seleccionado por el investigador. 3 Esta prueba se realiza con las frecuencias observadas o 3 de cada clase, o btenidas a partir de una muestra aleatoria tamao n de la poblacin. Para este propsito se debe calcular la frecuencia esperada e3 de cada clase, bajo lo que establece la hiptesis nula. Es necesario resaltar que la proporcin de cada clase respecto al resto sigue una distribucin binomial de parmetros n y T3 , luego el valor esperado de cada clase, bajo la hiptesis nula es e3 nT3! . Es decir, lo que se espera es que la muestra se distribuya proporcionalmente en
5 5 3" 3"

cada clase como establece H! Se deben cumplir las siguientes relaciones ! o3 ! e3 n.

140
El estadgrafo de prueba, para valores de n suficientemente grande y valores de o3 %,
#

es D !
5

libertad, cuya notacin es ;# 5 ". 4 La regin crtica es del tipo unilateral derecha , lo que es usual para pruebas basadas en la distribucin ji cuadrada, pues se rechazar si las diferencias entre lo observado y lo esperado son grandes, luego RC D# D# ;# "! 5 " . Ejemplos 6.1 a) Se asegura que una mezcla de semillas para csped contiene tres variedades de pasto, lolium perenne, lawn grass y festuca rubra en proporciones de 20% , 50% y 30% respectivamente. Se desea corroborar tal informacin para lo cual se hace el siguiente planteamiento: 1) H! T" ! #! , T2 ! &! , T$ ! $! versus H" : b T3 T3! , donde la clase 1 es lolium, la clase 2 es lawn grass y la 3 corresponde a festuca. #) Se usar != 0,05 3) el estadgrafo de prueba a utilizar es D !
#

3"

o3 e3 # e3

, cuya distribucin es aproximadamente ji cuadrada con ( k - 1 ) grados de

4) La regin crtica es RC D# D# ;# !*& # & **". 5) Con el objeto de corroborar o rechazar la hiptesis nula se ponen a germinar 300 semillas de la mezcla. Das despus se identifica la especie de cada brote y se cuenta por especie, obtenindose la siguiente distribucin: 70 brotes de lolium, 120 de lawn grass y 110 de festuca, que corresponden a las frecuencias observadas (o3 . Se deben calcular las respectivas frecuencias esperadas e3 $!!T3 , todo lo cual se resume en la siguiente tabla, a partir de la que se obtiene D# : (! '!# "#! "&! # ""! *! # var l.p l.g f.r Total D# + + "# " RC '! "&! *!
o3 e3 70 60 120 150 110 90 300 300

3"

o3 e3 # e3

;# #.

rechazar H! . 6) Los datos obtenidos en la muestra de 300 semillas establecen que es muy improbable que sea verdadera la afirmacin de que la proporcin de las especies sea la especificada en la hiptesis nula, al nivel del 5%. b) En gentica en un cruce dihbrido entre dos plantas heterocigticas de guisantes, cada una con el genotipo RrAa y genes independientes, pueden producir uno de los tipos de gametos RA Ra rA ra , donde R representa el alelo dominante de la forma redondeada, r el alelo recesivo rugoso, A el alelo dominante de color amarillo y a el alelo recesivo de color verde. Segn la Ley de Mendel, la segregacin de caracteres independientes, RA , Ra , rA y ra se dan en la proporcin 9:3:3:1. Para corroborar la ley anterior se analizaron 480 casos encontrndose la siguiente segregacin fenotpica: 282 del tipo RA , 80 del tipo Ra , 95 del tipo rA y 23 del tipo ra. Los datos muestrales obtenidos entregan evidencia suficiente para contradecir la Ley de Mendel ?

141
1)Las hiptesis H! T" *"', T2 $"' , T$ $"' , T% ""' versus H" : b T3 T3! , donde las clases 1 , 2, 3 y 4 representan respectivamente a los tipos RA , Ra , rA y ra. 2) Se proceder con != 0,05. 3) El estadgrafo es D !
#

4) La regin crtica es RC D# D# ;# !*& $ ( )"&. 5) La tabla resume la informacin D# $ &' RC aceptar H! 6) Los datos muestrales obtenidos no entregan evidencia suficiente que permitan refutar la Ley de Mendel. c) Para establecer si existen o no diferencias entre productores lecheros respecto a su preferencia por 5 marcas de insumos, se realiza una encuesta cuyo resultado se resume en el siguiente cuadro Marca M" M# M$ M% M5
Npreferencias 28 25 35 39 28 Fenotipo o3 e3 RA #)# #(! Ra )! *! rA *& *! ra #$ $! Total %)! %)!

3"

o3 e3 # e3

;# $.

1) Las hiptesis son H! P" = P# = P$ = P% = P& = "& versus H" : b P3 "&. 2) Se elige ! = 0,05. 3) El estadgrafo de prueba es D !
#

&

3"

o3 e3 # e3

;# %.

4) La regin crtica es RC D# D# ;# !*& % * %)). 5) La


M" 28 31

tabla
M# 25 31 M$ 35 31

indica
M% 39 31 M5 28 31

los
Total 155 155

Marca o3 e3

valores observados y los esperados # de donde resulta que D % $ RC aceptar H! .

6) La evidencia muestral no es suficiente para establecer que las preferencias de los productores lecheros se incline por alguna de las marcas. Observaciones. 1) En las tablas de clasificacin simple con k categoras, como las que se utilizan en las pruebas de concordancia, el valor esperado slo es necesario calcularlo para (k - 1) de las categoras, pues la ltima resulta por diferencia, lo que explica los (k - 1) grados de libertad de la distribucin ji cuadrada del estadgrafo de prueba. 2) La prueba de hiptesis para una proporcin H! T T! versus la hiptesis bilateral H" : T T! , es equivalente a una prueba de concordancia para dos proporciones, cuyas hiptesis son H! T" T"! , T2 T#! versus H" : T" T"! y T# T#! , donde T# " T" U" .

142
Prueba de Independencia. Consiste en determinar si existe o no asociacin entre las categoras de dos variables cualitativas A y B, cuya estructura corresponde a una clasificacin cruzada, denominada tabla de contingencia, con a categoras de A y b categoras de B lo que involucra a x b celdas o casillas. En esta tabla se distinguen dos distribuciones, las de filas o categoras de A y las de columnas o categoras de B, probabilidades estimadas por los valores muestrales y que por ubicarse en los mrgenes se llaman distribuciones marginales.

EF F" F# . F4 .. Distr.filas E" p" E# p# E3 p34 p3 Distr.columnas p" p# p4 . 1,0 Tabla 6.1 Distribucin conjunta y marginales de probabilidad

La suma, tanto de la distribucin de filas como la de columnas, es igual a 1,0 por corresponder al total. Cada casilla contiene, en esta tabla, la probabilidad de ocurrencia conjunta de la categora i de A y la categora j de B. Adems, se cumplen las siguientes igualdades !! p34 1,0;
3"4" a b

! p3 1,0
3"

; ! p4 1,0
4"

; ! p34 p3
4"

! p34 p4 . Cuando la
3"

distribucin marginal de E y de F son independientes, entonces p34 p3 p4 , es decir, la probabilidad conjunta es el producto de las marginales, como ocurre con la distribucin de vectores aleatorios discretos. El esquema a seguir en la prueba es 1 Las hiptesis son: H! Existe independencia entre las categoras de E y de F versus H" : Existe asociacin entre las categoras de A y de B # Se fija el nivel ! de la prueba 3 Al igual que en la prueba anterior sta se reali za con las frecuencias observadas y esperadas por cada celda. Las frecuencias conjuntas observadas o34 , son las que se obtienen con la muestra aleatoria de la poblacin, donde a cada individuo se les mide dos caractersticas, por ejemplo sexo y estado civil o condicin del sellado de tarros de alimentos y turno en que se produjeron los tarros. La frecuencia esperada se obtiene con las probabilidades marginales como se muestra en la tabla 6.1. Sin embargo tales probabilidades son desconocidas, razn por la cual deben ser estimadas con los datos muestrales. Sea n el tamao muestral, f3 y c4 las frecuencias marginales de filas y columnas respectivamente. s s Luego p p 3 f3 n y .4 c4 n son los estimadores de las frecuencias marginales. Las frecuencias conjuntas esperadas e34 son obtenidas bajo la hiptesis H! de independencia, lo que implica que: f3 c4 s s s e34 n p 34 n p 3 p .4 n n n f3 c4 n. El estadgrafo de prueba a utilizar es D# !!
3=1 4=1 a b (o34 e 34 )2 e34

cuya distribucin, cuando n

suficientemente grande y o34 4, es aproximadamente ji cuadrada con a 1b 1 grados de libertad, denotada por ;# (a "(b 1). 4 La regin crtica es RC D# D# ;# (a - 1 ( b - 1) "!

143

Ejemplo 6.2 En una encuesta a 500 productores de trigo se les consult sobre su superficie sembrada y la tecnologa empleada en su predio. Posteriormente fueron clasificados en tres categoras de tamao y tres niveles de tecnologa , dando origen a la siguiente informacin:
Tamao\Nivel tecnolgico Pequeo Mediano Grande Bajo 110 70 20 Mediano 60 60 40 Alto 30 50 60

la informacin obtenida permite establecer, al nivel del 5%, que existe asociacin entre el tamao del predio y el nivel tecnolgico de ste ? 1) Se plantean H! Existe independencia entre el tamao del predio y su nivel tecnolgico y H" : Existe asociacin entre el tamao del predio y su nivel tecnolgico. #) Se fija el nivel ! = 0,05. 3) El estadgrafo a utilizar es D# !!
3 3 3=1 4=1 (o34 e 34 )2 e34

; # 4 .

4) La regin crtica es RC D# D# ;# !*& % * %)) . 5) La tabla muestra las frecuencias observadas , esperadas(1) y los totales marginales.
Tamao\Niv. tec. tipo frecuencia Pequeo (1) Mediano (2) Grande (3) Total columna -4 Bajo (1) obs esp 110 80 70 72 20 48 200
""!)!2

Mediano (2) obs esp 60 64 60 57.6 40 38.4 160


'!'%2 $!&'2

Alto (3) obs esp 30 56 50 50.4 60 33.6 140


(!(#2

Total fila f3 200 180 120 500


'!$$'2

El valor de D# + '% + &' + (# ++ $$' '! *, pertenece )! claramente a la regin critica, lo que lleva a rechazar la hiptesis nula. 6) Con la informacin aportada por la muestra se debe concluir que el nivel tecnolgico est asociado al tamao del predio, al nivel del 5%. Ntese que con los 4 valores esperados calculados (en el pie de pgina) basta, porque los restantes salen por diferencia con las frecuencias marginales que estn determinadas por las frecuencias observadas obtenidas en la muestra. Este argumento explica los 4 grados de libertad de la distribucin. Observaciones. 1) Si las dos variables categricas son de dos niveles cada una, lo que da origen a una tabla de contingencia 2 x 2, su distribucin es ji cuadrada con 1 grado de libertad. En este caso se debe realizar una correccin denominada de Yates por continuidad para variables discretas y
(1)El clculo de las frecuencias esperadas se realiza segn la frmula e f c n, 34 3 4

por la cual e"" #!!#!!&!! )! ; e"2 #!!"'!&!! '% ; e2" ")!#!!&!! (# ; e22 ")!"'!&!! &( '

144
D# !!
2 2 I o34 e 34 I !&2 e34

que consiste en que el estadgrafo sea

;# " . Esta correcin

3=1 4=1

es conservadora, pues el valor calculado corregido es menor que el sin corregir, lo que trae como consecuencia que en los casos en que el valor sin corregir est rechazando al lmite la hiptesis nula, con el valor corregido puede que sta no se rechace. 2) Cuando en una tabla de contingencia la muestra se toma determinando a-priori la frecuencia marginal de filas o columnas, a diferencia de lo que sucede si es la muestra la que determina estas frecuencias, el desarrollo de la prueba se sigue realizando en los trminos ya explicados, pero algunos autores sugieren un cambio, sutil, en el planteamiento de las hiptesis y la denominan Prueba de Homogeneidad, pues la hiptesis nula establecera que " la proporcin de individuos en cada columna (fila) es igual para cada fila (columna)", es decir, que la distribucin porcentual es la misma en todas las columnas (filas), dependiendo si son los totales marginales de filas (columnas) los que se establecen a-priori. De esta manera se dice que se est estableciendo si las categoras de A (B) son homogneas en relacin a las categoras de B (A). Como ilustracin se utilizar el ejemplo 6.2. en el que a-priori se determina que la encuesta se le aplicar a 100 productores grandes (G), 150 medianos (M) y 250 pequeos (P), entonces la proporcin G : M : P es 100 : 150 : 250, o sea, 2 : 3 : 5 y se plantea si esta proporcin se da en los tres niveles tecnolgicos. Si as fuera, se concluye que las tres categoras de tamao de productores es homognea en relacin a su nivel tecnolgico. 3) Puede establecerse que la prueba de hiptesis para dos proporciones H! T" T# versus la hiptesis alternativa bilateral H" T" T# , es totalmente equivalente a una prueba ji cuadrada de una tabla de contingencia 2 x 2, para el mismo nivel de significacin.

145

EJERCICIOS Y PROBLEMAS A RESOLVER


I. ESTADISTICA DESCRIPTIVA

1. Represente grficamente de dos maneras diferentes la informacin del nmero de cajas exportadas de las siguientes especies y concluya cul grfico es ms ilustrativo.
Especie Uva blanca Uva negra y rosada Pmaceas Carozos N de cajas(miles) 185 157 215 139

2. Las causas ms frecuentes de atencin en caninos en una clnica veterinaria de la comuna de Santiago en dos pocas del ao se presenta a continuacin:
Causa Neumona Gastritis Enteritis Parasitismo Distemper Dermatitis Traumatismos N atenciones Verano 15 55 50 60 24 8 20 N atenciones Invierno 48 58 41 52 56 4 20

a) Construya un grfico de sectores circulares por cada poca de atencin b) Construya un grfico para comparar las causas de atencin, sin considerar la poca, que sirva para destacar la moda. c) Construya un grfico en que resalte las causas ms importantes en verano y en invierno. d) Construya otro grfico en que se puedan comparar las pocas por causa en el cual se destaque la poca en la cual es ms crtico el distemper, as como la gastritis. 3. En una encuesta a dueas de casa de uoa y de San Miguel sobre las tres frutas ms consumidas en su hogar durante el ao, se obtuvo la siguiente informacin:
Fruta Uva de mesa Duraznos Manzanas Peras Naranjas Kiwis Guindas uoa 20 22 17 12 10 27 12 San Miguel 16 12 24 12 18 10 8

a) Interprete correctamente y en forma precisa el significado de los nmeros 10 y 18 en naranjas. b) Represente estos datos en un grfico adecuado que destaque las preferencias en cada comuna

146
c) Construya otro grfico que permita la comparacin adecuada entre las comunas y responda en cul comuna se consume ms uva y en cul se consume ms pera ?. No se deje guiar por los valores absolutos. 4. En una encuesta a 600 productores de trigo se les consult sobre la superficie sembrada y la tecnologa empleada en su predio. Posteriormente fueron clasificados en tres categoras de tamao y tres niveles de tecnologa , dando origen a la siguiente informacin:
Tamao\Nivel tecnolgico Pequeo Mediano Grande Bajo 182 68 20 Mediano 85 60 41 Alto 33 72 39

a) Construya un grfico que permita comparar adecuadamente nivel tecnolgico segn tamao. Qu conclusin es posible obtener y por qu? b) Construya un grfico adecuado para comparar tamao segn nivel tecnolgico Qu conclusin se obtiene? 5. La tabla muestra la distribucin de 340 plantas enfermas que fueron sometidas a uno de los cuatro tratamientos curativos A , B , C y D, de acuerdo a su condicin despus de finalizado el tratamiento:
Tratam.\Condicin A B C D Mejor 13 34 22 35 Igual 43 28 18 31 Peor 14 38 10 54

Construya grficos en que se puedan comparar los resultados por tratamiento: a) En valores absolutos b) En valores porcentuales c) Cul grfico resulta ms adecuado para la comparacin y por qu? d) Cmo conclusin cul tratamiento resulta ms efectivo? Justifique. 6. La informacin de la tabla corresponde a la produccin de carne de ganado bovino(en miles de ton.), por categora, durante 5 aos en un matadero de Santiago:
Ao 97 98 99 2000 2001 Novillos 90 97 94 114 123 Vacas 67 74 81 85 90 Bueyes 13 14 17 20 21 Vaquillas 60 64 70 73 77 Terneros(as) 12 9 7 6 8

a) Construya un grfico lineal que muestre la produccin de carne por categora b) Muestre la informacin anterior mediante un grfico de barras agrupadas por categora. c) Cul de los dos grficos resulta ms ilustrativo y fcil de interpretar para efecto de comparar entre los aos?

147

7. Los embarques de frambuesas frescas a Europa y USA , durante 8 semanas, en miles de cajas, se resume en la tabla a continuacin:
Destino \ Semana USA EUROPA 1 34 10 2 80 14 3 48 20 4 59 27 5 49 25 6 83 30 7 47 13 8 62 8

Construya un grfico adecuado: a) Que muestre las cajas totales embarcadas b) Que muestre comparativamente los embarques semanales por destino 8. La tabla especifica la natalidad y mortalidad por cada 1000 habitantes entre 1950 y 1995:
Ao Natalidad Mortalidad 1950 25.0 13.2 1955 23.7 13.0 1960 21.3 11.7 1965 18.9 11.3 1970 16.9 10.6 1975 17.9 10.8 1980 19.5 10.6 1985 23.6 9.6 1990 24.6 9.3 1995 25.0 8.5

a) Represente los datos mediante grficos adecuados, de tres formas diferentes, uno de tipo lineal. Cul es ms clarificador ? b) Cmo ha sido comparativamente la evolucin de la natalidad y de la mortalidad en el tiempo? c) Qu conclusin puede obtenerse respecto al crecimiento poblacional? 9. Identifique y clasifique las siguientes variables segn sean nominales , ordinales , discretas o continuas: (Ind. Piense en como graficara cada una de ellas. Lo que se pone en el eje X es la variable). a) Procedencia de los vacunos llegados al matadero de Lo Valledor b) Produccin total agropecuaria total durante 2001 por regiones c) Nmero de lechones por raza en un criadero de cerdos d) Nmero de atenciones diarias por distemper en una clnica veterinaria durante un ao calendario e) Ingreso per cpita de los pases de America Latina en el ao 2000 f) Nmero de alumnos por asignatura del ciclo bsico g) Nmero de asignaturas inscritas por los alumnos de Agronoma durante un semestre acadmico h) Temperaturas registradas en una estacin meteorolgica durante las 24 horas i) Proporcin de manzanas producidas en un huerto por calibre j) Dimetro de las manzanas cosechadas en un huerto k) Cantidad de alumnos ingresados a la carrera de Agronoma con puntajes superiores a 700 puntos en los aos 1997 , 1998 , 1999 , 2000 y 2001 l) Proporcin de plantas sanas y enfermas en un vivero por especie m) Produccin de salmones por pases durante 2010 10. En una encuesta a 750 familias se obtuvo la informacin del nmero de hijos de cada una de ellas, resumida en la siguiente tabla:
n hijos n familias 0 40 1 140 2 220 3 160 4 85 5 45 6 25 7 20 8 15

148

a) Cuntas familias tienen 4 hijos? b) Qu % de familias tiene 3 hijos? c) Cuntas familias tienen a lo ms 3 hijos? d) Qu % de familias tiene ms de 4 hijos? e) Qu % de familias tiene 1 2 hijos? f) Calcule e interprete la media, mediana, moda y desviacin estndar del nmero de hijos por familia. g) Cules de las medidas anteriores resulta ms comparativa? 11. Se cuenta el nmero de araitas rojas en 50 hojas de un manzano seleccionadas aleatoriamente, obtenindose los siguientes datos: 8 6 5 3 3 4 0 2 4 5 0 6 5 2 4 6 7 1 4 37 6 5 3 0 4 6 2 1 0 3 5 5 4 3 1 1 2 0 6 4 1 3 2 84 5 6 2 3 Clasifique los datos en una tabla de frecuencias de variable discreta y resuelva los siguientes puntos: a) Qu porcentaje de hojas estn sanas? b) Cuntas hojas tuvieron 4 araitas? qu % representa? c) Qu % de hojas tuvo a lo ms 4 araitas? d) Qu % de hojas tuvo ms de 5 araitas? e) Calcule e interprete las siguientes medidas: rango ; promedio ; moda ; mediana ; desviacin estndar. f) Justifique que medidas permiten una mejor descripcin de los datos anteriores. g) Represente grficamente los datos, utilizando grfico de varas y otro de "tallo y hoja" cul resulta ms ilustrativo? 12. El nmero de preguntas correctamente respondidas por 140 alumnos en una prueba de diagnstico de Estadstica fueron: 42 68 61 46 55 13 57 32 84 65 38 80 18 78 13 75 75 89 63 23 68 18 82 87 21 57 44 62 23 68 74 75 78 41 76 44 90 62 35 68 18 31 41 62 95 60 62 15 39 18 88 78 79 76 25 42 15 76 63 23 53 66 27 25 93 72 31 74 78 97 35 73 66 39 66 82 78 28 79 78 42 67 75 46 17 88 82 27 73 94 38 28 73 75 97 81 77 89 42 60 94 78 52 69 21 51 93 77 85 63 74 75 50 71 69 76 76 89 35 21 59 74 65 75 21 41 27 85 68 71 85 75 18 36 75 60 55 47 35 15

a) Por qu conviene clasificar estos datos en intervalos, siendo la variable discreta? Clasifquelos usando 7 intervalos de igual amplitud y a base de la tabulacin responda las preguntas a continuacin. Compare contando los datos. b) Cuntos estudiantes obtuvieron menos de 61 ptos? c) Cuntos estudiantes obtuvieron ms de 75 puntos? d) Qu % de estudiantes obtuvo entre 50 y 70 puntos? e) Calcule, interprete y compare la media , la mediana g) Calcule e interprete Q" , Q$ y P95 h) Calcule la varianza y la desviacin estndar de los puntajes obtenidos Qu tipo de informacin entregan estas dos medidas? i) Confeccione con estos datos un diagrama de "tallo y hoja" y un "boxplot"

149

13. La tabla corresponde a la clasificacin de los pesos de 250 manzanas Granny seleccionadas al azar de la produccin de un huerto:
Peso(gr) 120 X 135 135 X 150 150 X 165 165 X 180 180 X 195 195 X 210 210 X 225 TOTAL fi 15 33 40 45 50 42 25 250

a) Calcule la media y mediana de los pesos e interprete estos valores b) Calcule e interprete la varianza , desviacin estndar y C.V de los pesos c) Construya el histograma y el polgono de frecuencias d) Calcule e interprete P10 y P75 e) Que % de las manzanas pesa menos de 140 gr? f) Cuntas de las 250 manzanas pesan ms de 200 gr? g) Qu % de las manzanas tienen pesos entre . 5 ? h) Entre qu pesos est comprendido el 90% central de las manzanas? 14. La informacin corresponde al peso en kg de 400 lechones destetados a las 3 semanas de edad.
Peso(kg) 4,1 X 4,5 4,5 X 4,9 4,9 X 5,3 5,3 X 5,7 5,7 X 6,1 6,1 X 6,5 6,5 X 6,9 6,9 X 7,3 7,3 X 7,7 TOTAL fi 55 40 35 30 25 45 50 55 65 400

a) Represente grficamente y con las medidas adecuadas la informacin y justifique la eleccin de las medidas b) Qu puede decir de la variabilidad de los pesos al destete de estos lechones? c) Si los lechones que pesan menos de 5 kg deben ser sometidos a dieta especial qu porcentaje de ellos estn en esta condicin? d) Cuntos de los 400 lechones pesarn entre 5,5 y 7,0 kg? e) Si se deben seleccionar los 150 lechones de mayor peso a partir de qu peso deben ser elegidos? f) Cuntas de las 250 manzanas pesan ms de 200 gr? g) Es posible suponer con esta muestra que la poblacin tiene distribucin normal? 15. Calcule el promedio ponderado de un alumno que obtuvo en un ramo las siguientes calificaciones con sus correspondientes ponderaciones:

150
Notas 4,5 3,2 5,4 5,0 Ponderacin 1 2 3 2

16. Un inversionista posee tres tipos de acciones A , B y C en proporcin $ ( & cul es su ganancia promedio por accin si la ganancia de las acciones tipo A , B y C son $250 , $380 y $170 respectivamente ? 17. Un grupo de 90 estudiantes , cuyo peso promedio es de 66,47 kg , viaja distribuido en dos buses A y B. Se sabe que el peso promedio de los estudiantes del bus A es 67,70 kg y el peso promedio de los del bus B es 65,40 kg cuntos estudiantes viajan en cada bus ? 18. En una empresa el sueldo promedio de sus empleados es de $225.000. La empresa decide mejorar sus sueldos reajustndolos en un 12% ms una bonificacin fija por trabajador de $ 22.500 cul es el nuevo sueldo promedio de los trabajadores de la empresa ? 19. En un predio se determin el porcentaje de animales enfermos y el nmero de cabezas por raza , los que se resumen en la tabla:
Raza Hereford Angus Charolais % de enfermos 2,5% 3,4% 5,0% n de cabezas 1200 800 2400

a) Calcule el nmero de animales enfermos por raza b) Calcule el promedio simple del porcentaje de animales enfermos en el predio c) Calcule el porcentaje total de animales enfermos en el predio. d) Cul de los dos porcentajes es el real ? 20. Durante un mes los siguientes ingredientes de una racin tuvieron la variacin de precios que se indican:
Ingredientes Maz Cebada Heno Afrechillo Harina pescado Otros % variacin 10 -6 -8 5 7 12 costo ingrediente 15 5 4 6 9 3

a) Calcule la variacin promedio en el mes, sin considerar el costo de los ingredientes b) Calcule la variacin promedio en el mes , considerando el costo de los ingredientes c) Cul de los valores representa bien la variacin en el costo de la racin ? 21. Un enfermo obtuvo los siguientes resultados en 3 exmenes :A= 50,35; B= 5,48; C= 0,03 Se sabe que estas pruebas en individuos sanos se caracteriza por los siguientes valores:
Examen A B C Promedio 45,20 5,31 0,02 Desv. est. 3,432 0,574 0,003

En cul de los tres exmenes tiene peor resultado el enfermo, si valores altos son malos?

151

22. Se deben reponer pantallas de monitores de computador para lo cual se consulta a dos fabricantes. El primero produce pantallas con una duracin media de 18250 horas y una desviacin estndar de 450 horas ; el segundo produce pantallas con una duracin media de 18780 horas y una desviacin y una desviacin estndar de 1950 horas. Si el costo de ella es similar cul marca de pantalla recomendara y por qu ? 23. Se midi el peso de los huevos de 300 gallinas ponedoras Leghorn alimentadas con una dieta X, mientras que otras 200 se alimentaron con la misma dieta ms un aditivo vitamnico, todas de la misma edad, obtenindose la siguiente informacin resumida: Dieta X : 56 12 Dieta X + vitamina: 59 8 a) Le parece adecuada como est expresada la informacin? b) Qu comentario le merece la comparacin del efecto de ambas dietas en el peso de los huevos? 24 Tres atletas E F y G a ser seleccionados para el Inter-Universitario marcaron los siguientes tiempos en 5 ensayos de los 100 metros planos. E: 11,1 ; 11,0 ; 11,8 ; 15,8 ; 11,1 F : 11,3 ; 11,4 ; 11,5 ; 11,6 ; 11,4 G : 10,9 ; 11,0 ; 11,8 ; 11,7 ; 11,6 a) Basndose en medidas de posicin y dispersin, a cul atleta seleccionara y por qu ? b) Confeccione un boxplot con esta informacin la conclusin es la misma? 25. Qu porcentaje de las observaciones de una poblacin queda comprendida entre la percentila 32 y la percentila 68 ? 26. La produccin diaria de leche, en litros , obtenida por 7 productores son 1.000, 500, 800, 2.000, 1.350, 950, 23.500. Calcule la produccin promedio diaria del conjunto de los productores y explique por qu no es representativa. Cul medida sera ms representativa ? 27. Si Ud. tuviera que decidir la compra de slo un tipo de hamburguesa de vacuno , cerdo , pollo o pavo para una "hamburguesa party" con un grupo de 30 amigos en qu medida estadstica se basara para tomar la decisin de que tipo comprar, si el precio no es relevante ? 28. Ud. como Jefe de Produccin de una empresa agroindustrial est estudiando producir un nuevo concentrado de fruta donde tiene 3 posibilidades de saborizante : "suave" , "medio" , "intenso". Para ello prepara muestras de las tres situaciones y la da a degustar en Supermercados. En qu medida estadstica basara su decisin de cual saborizante utilizar en el concentrado? 29. Si la produccin agropecuaria en una cierta regin creci en 30% entre 1995 y 1998 y disminuy en el mismo porcentaje entre 1998 y 2001 son iguales la produccin agropecuaria en 2001 y 1995 ? Explique porcentualmente. 30. De la tabla de frecuencia del problema 4 , cul es el : a) % de predios tamao mediano? b) % de predios con nivel tecnolgico alto? c) % de predios de nivel tecnolgico alto y de tamao pequeo?

152
d) % de predios con nivel tecnolgico alto de tamao pequeo? 31. El siguiente cuadro corresponde a la distribucin de edades de los padres en un colegio.
Mujeres Hombres

20-25 25-30 30-35 35-40 40-45 45-50

20-25 5 8 2 0 0 0

25-30 3 10 7 8 0 0

30-35 0 2 12 18 4 3

35-40 0 0 4 12 3 5

40-45 0 0 0 2 6 7

45-50 0 0 0 0 7 15

a) qu porcentaje de las madres tienen entre 30 y 35 aos? b) qu porcentaje de los hombres tienen edades entre 40 y 50 aos? c) calcule los promedios de edades de hombres y mujeres y comente cual es la diferencia de edades entre los padres y las madres. 32. Si las 250 manzanas del problema 13 es una "muestra representativa" de la produccin del huerto y ste produce 75 ton. , obtenga una estimacin del nmero de cajas exportable de 20 kg de este huerto , si se sabe que el peso de las manzanas de exportacin pesan entre 160 gr. y 200 gr. y que se produce un 8% de descarte por diferentes motivos. Problemas rea de la salud 1.. El cuadro resume la frecuencia de 260 pacientes aquejados de un tipo de gripe, que fueron sometidos a uno de los tratamientos A, B o C, y su condicin despus del tratamiento.
Trat\ Condicin A B C Mejor 42 33 32 Igual 54 15 28 Peor 24 12 20 Total 120 60 80

a) Represente grficamente la informacin anterior con el objeto de mostrar cul de los tratamientos produce una mayor mejora. Tenga en cuenta la diferencia de frecuencia en cada tratamiento. b) Concluya cul de los tratamientos es ms efectivo para aliviar la gripe. 2. En un estudio sobre las condiciones de salud en dos comunas marginales del Norte y del Sur de la RM, se inspeccionaron 500 y 400 nios de entre 5 y 10 aos respectivamente en cada poblacin, en relacin al nmero de quistes de Giardosis en fecas, cuyos datos se resume en la tabla a continuacin.
Nmero quistes 0 1 2 3 4 5 6 TOTAL frec.N 35 70 105 135 80 55 20 500 frec.S 75 120 60 45 40 35 25 400

153
a) interprete correctamente el significado de la frecuencia 120 de S. b) construya un grfico que muestre comparativamente la situacin de ambas comunas. c) basndose en medidas estadsticas y el grfico, discuta cul es la situacin comparativa entre ambas comunas. d) Calcule la mediana y los valores percentiles 5 (5%) y 90 (90%) de cada distribucin e) A qu porcentaje de los nios se les detect ms de tres parsitos?. 3.. En dos poblaciones A y B los pesos promedios de guaguas al nacer y su correspondiente desviacin estndar son 2515 40 gr para la poblacin A y 2630 380 gr para la poblacin B. a) En cul poblacin los pesos al nacer son ms homogneos y por qu ? b) En cul de las dos poblaciones es ms probable encontrar una guagua que pese al nacer menos de 2130 gr ? Suponga que los pesos al nacer distribuyen normal. 4..Con el fin de constatar el sobrepeso en mujeres de estatura media como factor de riesgo del cncer de mama, a 420 mujeres a las que se les detect la patologa se les registr su peso, lo que se resume en la siguiente tabla.
Peso(kg) 41 X 46 46 X 51 51 X 56 56 X 61 61 X 66 66 X 71 71 X 76 76 X 81 81 X 86 TOTAL fi 8 22 35 38 45 53 66 85 68 420

a) Represente grficamente y obtenga el peso promedio de las mujeres con cncer de mama b) Qu puede decir de la variabilidad de los pesos de las mujeres con cncer de mama? c) Si las mujeres que pesan menos de 53 kg son de peso normal, las que pesan entre 53 y 68 kg tienen sobre peso y las de peso superior a 68 son obesas cul es la proporcin de mujeres en cada una de las categoras? d) Es posible concluir con esta muestra que la poblacin de pesos de mujeres con cncer de mama tiene distribucin normal? e) Concluya una posible relacin de la obesidad en mujeres como factor de riesgo del cncer de mama.
II. PROBABILIDADES

1. Determine el espacio muestral S ms reducido para los siguientes experimentos: a) lanzar una moneda y observar todos los resultados posibles b) examinar sucesivamente tres plantas y observar todos los resultados posibles en cuanto a su condicin de sana c)examinar sucesivamente tres plantas y observar el nmero de plantas sanas d) lanzar un par de dados y observar los puntos obtenidos e) observar la temperatura a las 14 hras. , todos los das de un ao f) en la cosecha de un manzano Granny medir el peso de cada manzana g) medir el dimetro polar de un kiwi

154

2. Para cada una de los espacios de probabilidad (W T , determine si T es una probabilidad bien definida: a) W + , - . , tal que T + = "' T ,="& T -="$ y T .=$"! b) W " # $ , tal que T " # = 2/5 y T $) = 3/5 c) W " # $ % & , tal que T " = 3/20 ; T # $ = 1/4 ; T $ = 1/10 ; T " $ % = 3/5 3. Sea S = { 2 ,3 , 5 , 8 } y sea P una funcin de probabilidad bien definida en S. Encuentre: a) P(3) si P(2) = 1/3 , P(5) = 1/6 , P(8) = 1/9 b) P(2) y P(3) si P(5) = P(8) = y P(2) = 2 P(3) c) P(5) si P({2,3}) = 2/3 , P({2 , 8}) = 1/2 y P(2) = 1/3 4. Sean A , B eventos de un espacio muestral S , tal que P(A) = 3/8 ; P(B) = 2/5 ; P(A B) = 1/4. Calcule la probabilidad: a) P(A B) b) P(A') c) P(A' B) d) P(A' B') e) P(A B') f) que ocurra A y B g) que ocurra A o B o ambos h) que ocurra A pero no ocurra B i) que ocurra A o B pero no ambos 5. En cierto lugar hay 16 plantas de las cuales10 estn en buen estado, 4 en regular estado y 2 en mal estado. i) Al seleccionar aleatoriamente una planta cul es la probabilidad que sta: a) est en buen estado b) no est en mal estado c)no est en buen estado ii) al seleccionar aleatoriamente 2 plantas cul es la probabilidad que : a) ambas estn en buen estado? b) ambas estn en mal estado? c) al menos una est en buen estado? d) a lo ms una est en mal estado? e) exactamente una est en mal estado? f) ninguna est en mal estado? g) ninguna est en buen estado? h) las dos estn en igual estado? 6. De 15 semillas se sabe que hay 10 que producen flores rojas y 5 flores blancas. Se seleccionan 5 semillas al azar y se ponen a germinar cul es la probabilidad que : a) ninguna sea de flores blancas? b) una exactamente sea de flor blanca? c) sean 3 rojas y 2 blancas? d) las 5 sean del mismo color? e) al menos una sea de flor roja? f) a lo ms dos sean de color blanco? 7. Se lanzan dos dados cul es la probabilidad de obtener: a) un par de seis b) slo un seis c) al menos un seis d) doce puntos e) cinco puntos f) siete puntos 8. De un conjunto de 9 cartas numeradas del 1 al 9 se eligen al azar dos simultneamente cul es la probabilidad que: a) una sea par y la otra impar? b) la suma de los puntos sea par? 9. En un grupo hay 15 hombres de los cuales 8 tienen 21 aos cumplidos y 10 mujeres de las cuales 6 son menores de 21 aos. Se eligen dos personas al azar cul es la probabilidad que: a) ambas tengan 21 aos cumplidos? b) ambos sean del mismo sexo? c) sean de distinto sexo y menores de 21 aos?

155
10. En un departamento universitario de 20 acadmicos 7 tienen postgrado y ganan a lo menos $1300000, 11 ganan menos de $1300000 y 8 no tienen postgrado y ganan menos de $1300000. Se seleccionan dos acadmicos al azar para una comisin, cul es la probabilidad de que : a) ambos tengan postgrado ? b) ambos no tengan postgrado y ganen menos de $1300000 ? c) ambos ganen menos de $1300000 y uno tenga postgrado pero el otro no? d) ambos no tengan postgrado, si ambos ganan menos de $1300000? 11. Un club formado por 30 parejas de casados va a elegir un presidente y luego un secretario cul es la probabilidad que: a) ambos sean hombres? b) sean de sexo opuesto? c) sea elegido un matrimonio? 12. Para ensayo se requieren ubicar al azar, en 9 parcelas dispuestas en hileras, 3 tratamientos ( A , B , C ) , cada uno repetido 3 veces Cul es la probabilidad que: a) queden ubicados en el orden A,B,C,A,B,C,A,B,C ? b) queden los tres tratamientos con sus tres repeticiones en parcelas adyacentes? 13. Una lnea de embalaje est alimentada por dos subsistemas A y B. Se ha determinado que P(A falle) = 0,2 ; P(slo B falle) = 0,15 ; P(A y B fallen juntos) = 0,08. Calcule la probabilidad: a) que slo A falle b) que A falle si B ha fallado 14. En una universidad el 25% de los estudiantes falla en Clculo , el 30% falla en Qumica y el 10% falla en ambas asignaturas. Cul es la probabilidad que un alumno cualquiera: a) falle en Clculo si ya reprob Qumica b) falle en Qumica si reprob Clculo c) falle en Clculo o en Qumica d) no repruebe ninguna 15. Los 16 huertos de una localidad se clasificaron en trminos del sistema de riego en tecnificado (T) o surco (S) y de su tamao en mediano (M) o pequeo (P). Se encontraron que 10 huertos son de tamao pequeo; 8 riega por surco ; 3 de tamao pequeo y riego tecnificado. (IND. Con los datos confeccione una tabla de 2x2) Se necesita realizar una encuesta en la localidad para lo cual se deben seleccionar 3 huertos al azar Cul es la probabilidad de que los 3 huertos seleccionados: a) sean de tamao mediano y tengan riego tecnificado ? b) sean de tamao pequeo si riegan por surco ? 16. De una caja que contiene 3 fichas azules , 5 blancas y 4 rojas. i) si se extraen sucesivamente , sin remplazo, 2 fichas. Calcule la probabilidad que: a) las dos sean rojas b) sean blanca y roja c) se elijan en el orden roja-blanca ii) si se extraen sucesivamente , sin remplazo, 3 fichas. Calcule la probabilidad que se: a) extraigan en el orden roja-blanca-azul b) elija una de cada color sin importar orden 17. De los dgitos 2 , 3 , 5 , 6 , 7 , 9 se seleccionan aleatoriamente tres en forma sucesiva,sin sustitucin cul es la probabilidad que: a) el nmero obtenido sea menor que 400? b) el nmero obtenido sea mltiplo de 5? c) el nmero obtenido sea par menor que 400 ?

156
18. En un laboratorio se encuentran 10 plantas de las cuales 6 estn sanas. Se examinan las plantas una a una. i) Cul es la probabilidad que al examinar las dos primeras: a) ambas estn sanas? b) ambas estn enfermas? c) una est sana y la otra enferma? d) la 2a est sana si la 1a estaba sana? ii) Si las plantas son examinadas hasta ubicar la 4a planta enferma , cul es la probabilidad que la cuarta planta enferma se detecte al examinar: a) la cuarta planta? b) la quinta planta? c) la dcima planta? 19. Probar que P(A/B) P(A) P(B/A) P(B) 20. Sean dos sucesos tales que P(A) = 0,4 y P(A B) = 0,7 . Determine P(B) de modo que los sucesos A y B sean : a) mutuamente excluyentes b) independientes 21. Al lanzar un par de dados , uno de color blanco y el otro de color rojo. Sea X el resultado del dado blanco e Y el resultado del dado rojo. Sean los sucesos A B CB C & y F B CB C Calcule la probabilidad de que suceda: a) E y F b) E F c) E si sucedi F d) F , si sucedi E 22. La probabilidad que en un packing una manzana tenga defectos por golpe de sol es 1/20 y la probabilidad que tenga machucones es 1/8. Cul es la probabilidad que una manzana tenga: a) ambos defectos? b) defectos? c) slo uno de los defectos?

23. La probabilidad que un durazno presente el desorden fisiolgico A es 2/5 , que presente el desorden fisiolgico B es 1/2 y que presente el desorden fisiolgico C es 1/3. Si los desrdenes A,B y C se presentan en forma independiente, cul es la probabilidad que un durazno seleccionado aleatoriamente: a) presente los tres tipos de desrdenes fisiolgicos? b) presente al menos uno de estos desrdenes fisiolgicos? c) presente slo uno de los desrdenes anteriores? 24. En un procesamiento agroindustrial la probabilidad que un producto se contamine con una bacteria A es 0,1 y la probabilidad que se contamine con otra bacteria B es 0,05. Cul es la probabilidad que en uno de estos procesos el producto se contamine? 25. Si en la elaboracin de concentrado de tomate ste se contamina con una bacteria \ con probabilidad del 2%, con otra bacteria ] con probabilidad del 5% y con al menos una de las dos bacterias con probabilidad del 5,5% , cul es la probabilidad que el concentrado: a) no est contaminado? b) est contaminado con ambas bacterias? c) est contaminado slo con ] ? d) se contamine con la bacteria \ , si est contaminado con la bacteria ] ? e) segn la informacin anterior la contaminacin con \ e ] son independientes?

157
26. Una bolsa A contiene dos fichas rojas numeradas 1 y 2 , respectivamente , y dos fichas blancas numeradas 3 y 4. Otra bolsa B contiene 3 fichas blancas numeradas 5 , 6 y 7 , respectivamente y tres fichas azules numeradas 8 , 9 y 0. Se extraen aleatoriamente dos fichas de cada bolsa , cul es la probabilidad que: a) las cuatro sean de igual color? b) la suma de puntos de cada bolsa sea igual? 27. Demuestre que si A y B son sucesos independientes , entonces tambin lo son A' y B' y A y B'. 28. Una especie produce semillas de flores de color rojo , blanco y amarillo en porcentajes del 60% , 30% y 10% respectivamente. Los porcentajes de no germinacin se sabe que son del 7% , 2% y 4% respectivamente.Cul es : a) el porcentaje de germinacin de esta especie? b) la proporcin de plantas de cada color que se obtendr en un almcigo? 29. En un vivero un 4% de las plantas de una procedencia A y un 1% de las plantas de otra procedencia B supera los 60 cm. y se sabe que un 60% de las plantas proviene de B. Se selecciona una planta al azar y se verifica que mide 73 cm cul es la probabilidad que provenga de B? 30. En un viedo se plantan vides de tres procedencias A , B y C en proporciones del 25% , 50% y 25% respectivamente. La probabilidad que estas vides estn produciendo a los 2 aos son respectivamente 0,1 ; 0,2 y 0,4 respectivamente. a) Cul es la proporcin de vides que estarn produciendo a los 2 aos ? b) Si una planta elegida al azar no est produciendo a los 2 aos ,cul es la probabilidad que provenga de C ? 31. En un vivero una planta puede estar sana o tener una enfermedad A con probabilidad 0,25 u otra enfermedad B con probabilidad 0,35. Al estar sana la probabilidad que no presente marchitez en las hojas es 0,9 , al tener la enfermedad A presenta marchitez en las hojas con probabilidad 0,70 y al tener la enfermedad B presenta marchitez con probabilidad 0,60. Cul es la probabilidad : a) que al examinar 5 plantas al azar estn todas sanas? b) que al examinar 5 plantas al azar haya al menos una tenga la enfermedad A? c) que una planta cualquiera no presente marchitez en las hojas? d) que una planta est sana , si presenta marchitez en las hojas? 32. 400 predios agrcolas de la VII regin se clasificaron segn su Nivel Tecnolgico (Alto (A), Medio (M), Bajo (B)) y Tamao (pequeo (p) y mediano (m)) . La siguiente tabla indica el nmero de predios en cada categora.
Nivel \ Tamao Alto Medio Bajo Total pequeo mediano Total

30 50

50 150 170

Complete la tabla y calcule la probabilidad de que al elegir un predio al azar ste sea : a) de Nivel (A) b) de Tamao (m) c) de Nivel (M) y Tamao (p) d) de Nivel (B) o de Tamao (m) e) no tenga Nivel (B) f) de Tamao (p) y no tenga Nivel (B)

158

33. En una ciudad se publican tres peridicos A, B y C. Una encuesta indic las probabilidades de que los ejecutivos de una empresa de esa ciudad lean alguno de tales peridicos: P(A) = 0,25, P(B) = 0,3, P(C) = 0,20, P(A B) = 0,1, P(A C) = 0,12, P(B C) = 0,08 y P(A B C) = 0,06 Cul es la probabilidad de que un ejecutivo cualquiera: a) no lea ningn peridico? b) lea slo uno de los peridicos? c) lea el peridico A o el B? d) lea a lo ms uno de los peridicos? 34. En cierta comunidad, la probabilidad de que una familia tenga televisor es 0,64, una mquina lavadora es 0,55 y que tenga ambos artefactos es 0,35. Se selecciona una familia al azar, cul es la probabilidad de que : a) no tenga mquina lavadora? b) solamente tenga televisor? c) no tenga televisor o no tenga mquina lavadora. d) no tenga televisor ni mquina lavadora. e) solamente tenga televisor o solamente tenga mquina lavadora. 35. La probabilidad de que un vendedor de tractores, venda por lo menos tres tractores en un da es 0,2. Cul es la probabilidad de que venda 0, 1 o 2 tractores en un da? 36. En una caja de manzanas de exportacin la probabilidad de que haya al menos una manzana mala es 0.05 y de que haya al menos dos malas es 0.01. Cul es la probabilidad de que la caja contenga : a) ninguna manzana mala ? b) exactamente una manzana mala ? c) a lo ms una manzana mala ? 37. Un estudio determin que la probabilidad de que un hombre casado vea un cierto programa de televisin es 0,4 , de que su mujer lo vea es 0,5 y la probabilidad de que el hombre vea el programa, dado que su esposa lo ve es 0,7. Cul es la probabilidad de que : a) una pareja de casados vea el programa ? b) una mujer casada vea el programa, sabiendo que su esposo lo ve ? c) solamente uno de ellos vea el programa ? d) ninguno de los cnyuges vea el programa ? 38. En una empresa el 25% de los empleados son profesionales, el 15% de los empleados llega atrasado y el 10% es profesional y llega atrasado. Confeccione una tabla de doble entrada con los datos anteriores (IND. Una categora tiene que ver con si es profesional y la otra con la puntualidad). Si se selecciona un empleado al azar, cul es la probabilidad de que ste: a) llegue atrasado o sea profesional ? b) sea profesional y no llegue atrasado ? c) llegue atrasado, si resulta ser profesional ? d) no sea profesional, si no llega atrasado ? 39. Sean los sucesos A y B tales que P ( A ) = 0,25, P ( A / B ) = 0,5 y P ( B / A ) = 0,25. Cules de las siguientes proposiciones son verdaderas? i) A y B son sucesos mutuamente excluyentes ii) P ( A' / B ) = 0.75 iii) P ( A / B ) + P ( A / B' ) = 1

159
40. La probabilidad de que en cierta ciudad llueva un da del ao seleccionado aleatoriamente, es 0,25. El pronstico local del tiempo atmosfrico es correcto el 60% de las veces en que el pronstico es de lluvia, y el 80% de las veces que se hace otro pronstico. a) Determine la probabilidad de que el pronstico sea correcto en un da seleccionado al azar. b) Si en un da determinado el pronstico es correcto, determine la probabilidad de que ese da sea lluvioso.
Respuestas: 4. 21/40 ; 5/8 ; 3/20 ; 19/40 ; 17/20 ; 1/4 ; 21/40 ; 1/8 ; 11/40 5 i) 5/8 ; 7/8 ; 3/8 ; ii) 3/8 ; 1/120 ; 7/8 ; 119/120 ; 7/30 ; 91/120 ; 1/8 ; 13/30 6. 84/1001 ; 350/1001 ; 400/1001 ; 253/3003 ; 3002/3003 ; 834/1001 7. 1/36 ; 5/18 ; 11/36 ; 1/36 ; 1/9 ; 1/6 8. 5/9 ; 4/9 9. 11/50 ; 1/2 ; 7/50 11. 29/118 ; 30/59 ; 1/59 13. 0,12 ; 8/23 14. 1/3 ; 2/5 ; 9/20 ; 11/20 16. i) 1/11 ; 10/33 ; 5/33 ii) 1/22 ; 3/11 17. 1/3 ; 1/6 ; 1/10 18. i) 1/3 ; 2/15 ; 8/15 ; 5/9 ii) 1/210 ; 2/105 ; 2/5 20. 0,3 ; 0,5 21. 1/18 ; 17/36 ; 2/15 ; 1/2 22. 1/160 ; 17/160 ; 13/80 24. 0,145 26. 1/30 ; 2/45 28. 94,8% ; 58,9% , 31,0% y 10,1% 29. 3/11 30. 0,225 ; 6/31 32. 1/8 ; 17/40 ; 3/8 ; 4/5 ; 5/8 ; 9/20 33. 0,49 ; 0,33 ; 0,45 ; 0,82 34. 0,45 ; 0,29 ; 0,65 ; 0,16 ; 0,49 36. 0,95 ; 0,04 ; 0,99 37. 0,35 ; 7/8 ; 0,20 ; 0,45 38. 0,30 ; 0,15 ; 2/5 ; 14/17 39. ninguna 40. 0,75 ; 0,20

III. DISTRIBUCIONES DE PROBABILIDAD

1. Una variable aleatoria @+ discreta \ tiene por funcin de cuanta , p(xi ): 1/8 si x 5 i p(xi ) 3/8 si xi 8 1/2 si xi "! b) P(\ 3)

Calcule: c) P(\ 8 d) P(\ 8)

a) P(\ &

2. Para la variable aleatoria nmero de hijos varones en una familia de 5 hijos , obtenga la funcin de distribucin p(xi ) y mediante ella calcule la probabilidad que una familia tenga: a) exactamente 2 hijos varones b) ningn hijo varn c) ms de 3 hijos varones d) a lo ms 3 hijos varones e) al menos un hijo varn. 3. En un conjunto de semillas de una especie floral hay 5 que corresponden a flores rojas, 3 a flores blancas y 4 a flores amarillas. Sea \ la v.a. que especifica el nmero de semillas rojas obtenidas al seleccionar al azar 5 semillas: a) obtenga la distribucin de probabilidad de \ b) calcule P(\ 3) c) calcule P(" X 4 d) calcule P(1 \ 4) e) calcule P(1 \ 4) f) calcule P(1 \ 4) g) calcule P(\ 3) h) calcule P(\ 2) 4. Una caja contiene 4 fichas rojas y 6 blancas. Veinte fichas son elegidas con remplazo. Si \ es el nmero de fichas rojas elegidas , obtenga la distribucin de \ y calcule la probabilidad de obtener: a) exactamente 8 fichas rojas b) ninguna ficha roja c) al menos una ficha roja 5. Una planta de kiwi de un vivero tiene una probabilidad de 0,8 de estar sana. Se seleccionan 10 plantas al azar , obtenga la distribucin del nmero de plantas sanas y calcule la probabilidad de seleccionar: a) 8 sanas b) ninguna sana c) todas sanas d) al menos una sana.

160
6. Para cada una de las variables discretas de los problemas anteriores calcule su esperanza matemtica y su varianza. 7. Para cada una de las variables discretas de los problemas anteriores obtenga su funcin de distribucin acumulativa (0 .+) y recalcule las probabilidades pedidas a partir de ella. 8. La v.a. continua \ : altura de un quillay en un bosque juvenil, tiene una f.d.p. dada por:
" 8 B si 0 B 4 0 para otros valores 1) de acuerdo a esta distribucin son ms frecuentes rboles altos o bajos en este bosque? 2) Calcule la probabilidad que un quillay de este bosque tenga altura: a) entre 1 y 2 metros b) mayor que 3 metros c) menor o igual que 1,5 m d) mayor que " m y menor o igual a 2,5 m #

f(x) #

"

9. La v.a. \ : rendimiento de un cultivo,en qq. por cada 1000m# , tiene: " $' B# si 3 B 6 f.d.p 0 B %& 0 p.o.v a) cul es la probabilidad que el cultivo rinda entre 4 y 5 qq. ? b) cul es la probabilidad que el cultivo rinda ms de 4,5 qq ? c) cul es el rendimiento promedio de este cultivo ? d) qu tan homogneo es el rendimiento de este cultivo ? 10. Una v.a. continua \ : longitud de raz principal de plntulas de nectarines toma valores entre 2 y 8 y tiene una f.d.p. de la forma +B $ , donde + es una constante a determinar . Calcule : a) el valor de + b) P(3 \ 5) c) P(\ 4) d) P(| \ 5| 0,5) 11. Una v.a. continua \ toma valores entre 2 y " tiene f.d.p. de la forma +B# . Calcule: a) el valor de + b) P(\ 0) c) P(\ " d) P(-1 \ 1 #) 2) 12. Una v.a. \ tiene una funcin de distribucin acumulativa (0 .+ =3 B ! " $ # B B =3 ! B # calcule : J B $ % % " =3 B # 3 b) P( " \ ) c) P( \ " d) P(\ 3 # 2 #) 2) !

a) P(\ 1)

13. Para cada una de las variables continuas de los problemas anteriores calcule su esperanza matemtica y su varianza. 14. Para cada una de las distribuciones de los problemas anteriores obtenga la 0 .+ J B y recalcule las probabilidades pedidas. 15. Sea \ v.a con distribucin uniforme [-2 , 3]. a) obtenga la f.d.p , 0 B b) obtenga la f.d.a ,J B 5 c) calcule P(-1 \ 3 2 ) y P(0 \ 2 ). Compare y explique el por qu de la coincidencia.

161
16. Encuentre el valor esperado y la varianza para cada una de las siguientes variables aleatorias a) \ : nmero de caras obtenidas al lanzar 5 monedas b) \ : suma de puntos obtenidos al lanzar 2 dados c) \ , con 0 .: 0 B = 6B(1 B) si 0 B 1 17. Reconozca la distribucin, los parmetros y especifique la funcin de cuanta :B3 de las siguientes v.a. , justificando cada vez, y calcule para cada una de ellas I\ y Z \ : a) \" : n de plantas enfermas encontradas al examinar 25 plantas si la probabilidad de enferma es "& b) \# n de lesiones en hoja de tabaco, causadas por un virus que provoca en promedio 2 lesiones por hoja c) \$ : n de manzanas rojas obtenidas al seleccionar al azar 20 manzanas, con sustitucin, de una caja que contiene 6 manzanas rojas, 4 manzanas jaspeadas y 2 manzanas verdes. 18. Para cada una de las variables , discretas o continuas, anteriores, calcule: a) I#\ " Z #\ " definidas en los problemas

b) I$ \ Z $ \

19. Si un da no llueve un contratista gana 5 UF y si llueve en el da pierde 1,5 UF . Cul es su ganancia esperada en los meses de Otoo-Invierno si la probabilidad de lluvia un da cualquiera es de 0,3 ? 20. En un juego se puede ganar $ 50.000 con probabilidad 0,2 , ganar $ 20.000 con probabilidad 0,4 y en caso contrario perder una cierta cantidad de dinero. cul es la cantidad de dinero que se debe perder para que el juego sea justo ? 21. La funcin :B3 representa la probabilidad de un productor de obtener repollos segn calidad: "' primera "# segunda :B3 "% tercera ""# desecho Si la ganancia por unidad es $ 150 para primera , $ 105 para segunda , $ 75 para tercera y $ 9 para desecho , calcule la gana8cia esperada por el productor por unidad producida. 22. La hoja de la planta de tabaco pierde valor en la medida que el nmero de lesiones en su hoja sea mayor. Por experiencia se sabe que \ : nmero de lesiones por hoja , tiene distribucin : B3 :B3 0 "$ 1 "% 2 "' 3 "' 4 ""#

La ganancia por hoja de un agricultor depende del nmero de lesiones B3 , segn la funcin 1B %) "%B B# . Calcule la ganancia promedio por hoja del agricultor.

162
23. En un rbol se determinan las variables \ n de i nsectos/hoja ; ] n depredadores/hoja . La tabla define la distribucin de probabilidad conjunta :B3 C4
] \ 0 1 2 0 0,03 0,11 0,19 1 0,09 0,09 0,01 2 0,08 0,06 0,00 3 0,30 0,04 0,00

a) obtenga las probabilidades marginales :B3 :C4 e interprtelas b) cul es la probabilidad que con 2 predadores haya 3 insectos/hoja? c) cules son los dos sucesos que tienen mayor probabilidad de ocurrir? d) cul es la probabilidad que una hoja est sana? e) calcule una medida de asociacin entre n de ins ectos y n de depredadores e interprtela f) son el n de insectos/hoja y el n de depredado res v.a. independientes? Justifique 24. En un packing se trabaja en dos turnos. Sea \ n de veces que falla semanalmente la correa transportadora en turno 1 e ] n de veces que falla semanalmente la correa transportadora en turno 2. \ / ] son variables aleatorias independientes y las siguientes son las distribuciones marginales de \ / ] ! &! =3 B 0 ! #! =3 yj 0 3 p(xi ) ! #! =3 B3 1 p(yj ) ! (! =3 yj 1 ! $! =3 B3 2 ! "! =3 yj 2 a) cul es la probabilidad que la correa transportadora durante una semana cualquiera falle al menos una vez en ambos turnos? b) en cul de los dos turnos falla ms en promedio la correa transportadora ? 25. Las siguientes tablas corresponden a la distribucion de X e Y , nmero de fallas de dos correas transportadoras en un packing, y se sabe que ambas funcionan independientemente. ! %! si B3 ! ! $! si B3 " :B3 ! #! si B3 # ! "! si B3 $ ! $! ! $& :C4 ! #0 ! "5 si si si si C4 ! C4 " C4 # C4 $

a) cul es la probabilidad que, durante un mes, ambas correas transportadora fallen una vez? b) cul es la probabilidad que durante un mes ambas correas no fallen? c) cul es la probabilidad que durante un mes una de las correas no falle y la otra falle al menos una vez ? d) cul es la probabilidad que durante un mes al menos una de las correas falle? e) cul de las dos correas falla ms en promedio? f) determine la Z [ \ ] ] g) aplicando correctamente las propiedades calcule I [ 2\ $] &] y Z [#\ $] &]
B3 &!B3 26. Sean \ e ] v.a independientes con :B3 &! B3 ! " # &! B3 ! $ ! (

y :C4 / C4"# , C4 ! " # $ respectivamente. Calcule : x a) I$\ #] $ b) Z $\ #] $

"#

C4

163

27. Sean \ e ] v.a. continuas con una funcin de densidad conjunta de probabilidad: BC # si 0 B # 0 C $ ! :9@ a) calcule P(\ $# ] # b) calcule P(\ ] ) c) obtenga las funciones de distribucin marginales 1B 2C d) calcule I\ y I] e) calcule G 9@\ ] f) son \ e ] v.a. independientes? 0 B C 18 28. Un aserradero que procesa madera de Pino y Eucaliptus estableci la siguiente funcin de densidad conjunta para la proporcin de madera con nudos de Pino (\ y de Eucaliptus (] ): B #C si ! B " ! C " ! :9@ a) obtenga las funciones de densidad marginales de \ e ] y explique su significado de acuerdo al enunciado b) calcule la probabilidad de obtener menos del 25% de madera de Pino con nudo y ms del 70% de madera de Eucaliptus sin nudo c) calcule la probabilidad de obtener a lo menos el 50% de madera de Pino y de Eucaliptus sin nudo. d) calcule la probabilidad de obtener entre el 20% y el 80% de madera de Pino con nudo e) cual es el % esperado de madera de Pino con nudo ? f) cul es el % esperado de madera de Eucaliptus sin nudo ? g) son X e Y v.a. independientes? Justifique matemticamente 29. Dos variables aleatorias independientes \ e ] tienen distribuciones dadas por 0 B C 0 C respectivamente. # $ B # si ! B " #C C# si ! C # 0 B & 0 C % para otros valores para otros valores ! ! a) cul es la probabilidad que ] tenga valores mayores que 1 ? b) es homogneo el comportamiento de \ ? " c) cul es la T \ " # e ] # ? d) calcule I \ # #\ & e) calcule Z ( $\ #] Respuestas:
1. 1/8 ; 0 ; 1/2 ; 7/8 2. 0,3125 ; 0,03125 ; 0,1875 ; 0,8125 ; 0,96875 3. 35/132 ; 770/792 ; 595/792 ; 735/792 ; 560/792 ; 546/792 ; 596/792 4. 0,17971 ; 0,00004 ; 0,99996 5. 0,30199 ; 0 ; 0,10737 ; aprox. 1 8. 5/16 ; 1/16 ; 39/64 ; 5/8 10. a = 1/48 ; 7/24 ; 3/4 ; 1/6 11. a =1/3 ; 8/9 ; 7/72 ; 1/8 12. 1/2 ; 11/16 ; 31/32 ; 5/32 16. a) 5/2 ; 5/4 b) 7 ; 103/18 c) 1/2 ; 1/20 19. UF 3,95 20. $ 45.000 21. $ 97 23. e) Cov(X,Y) = -0,693 , 3 = -0,704 27. 1/6 ; 8/45 ; g(x) = " #x , # h(y) = 1 y ; E(X) = 4/3 , E(Y) = 9/4 , Cov(X,Y) = 0 ; si. 28. b) 77/800 ; c) 1/8 ; d) 3/5 ; e) 55,6% ; f) 38,9% 9
1

0 B C $

164
IV. DISTRIBUCION NORMAL

1. Sea ^ R ! " , calcule: a) T (^ -" &) b) T (^ " )' d) T -" ## ^ -! (# e) T ^ ! *$ 2. Calcule + tal que: a) T ^ + ! #$$# c) T ^ + ! '*"$

c) T -0,63 ^ ! )% f) P(Z 0,55)

b) T ^ + ! (%%) d) T ^ + ! !&

3. En la asignatura de Estadstica las notas tuvieron una media de 4,5 y una desviacin estndar de 0,4 , mientras que en Botnica las notas tuvieron una media de 5,8 y una desviacin estndar de 0,8. El alumno Veas obtuvo 4,8 en Estadstica y 6,0 en Botnica en cul de las dos asignaturas el alumno Veas tuvo un rendimiento ms destacado? 4. Sea la @+ \ R "# % , calcule: a) T \ "& b) T \ "" e) T * \ "!,5 f) T "! \ 14)

c) T \ "% d) T "$ \ "% & g) T \ "! & h) T \ "#

5. Sea una @+ \ R "! #& , calcule el valor de + si: a) T \ + ! !$"% b) T \ + ! ()#! c) T \ + ! %((# d) T \ + ! '&#) 6. Se establece que las calificaciones en un examen de portulacin tiene distribucin normal con media 73 y desviacin estndar 8 cul es la probabilidad que un alumno seleccionado al azar haya obtenido: a) a lo ms 60 puntos? b) entre 65 y 89 puntos? c) ms de 80 puntos? 7. Si el nmero de alumnos que rinde el examen de postulacin anterior es 640 cuntos tendrn: a) menos de 55 puntos? b) entre 65 y 81 puntos? c) ms de 90 puntos? 8. Se asume que la distribucin de pesos de manzanas Granny (en gr) , en un huerto , tiene distribucin R "'! '#&. i) Qu proporcin de las manzanas del huerto pesa: a) entre 145 y 190 gr? b) menos de 120gr?

c) ms de 200 gr?

ii)Cul es el peso: a) mximo del 10% de las manzanas ms pequeas del huerto? b) mnimo del 20% de las manzanas de mayor calibre de este huerto? iii) Si se cosechan al azar 1200 de estas manzanas cuntas pesarn: a) entre 150 y 200 gr? b) menos de 100 gr? c) ms de 180 gr? 9. Sea \ R &! "!! , encuentre: a) los valores + y , que limitan el 90% central de las observaciones b) c tal que P(\ c ! #! c) d tal que T \ d ! "!

165
10. Si el 15% de las manzanas de menor tamao del huerto anterior se destinan a produccin de pulpa , el 30% de las manzanas de mayor tamao va a exportacin y el resto a consumo interno cules son los rangos de pesos de las manzanas segn su destino? 11. Si \ R #! 5 # , encuentre el valor de 5 # si T \ #) ! !##) 12. En una agroindustria se envasa un producto en tarros cuyo contenido neto tiene distribucin normal, con desviacin estndar de 5 gr. Si el 2,5% de los tarros tiene un peso mayor de 259,8 gr cul es el peso promedio de su contenido? 13. En un huerto de kiwi de la VI regin se obtuvo que la distribucin del dimetro polar, en mm, en la temporada 2001 fue R &) "') y en la temporada 2002 fue R '! $': a) en un mismo grfico comparativo muestre la situacin de ambas temporadas (indique puntos importantes en el grfico) b) en cul de las dos temporadas hubo mayor porcentaje de frutos con dimetro polar menor a 54 mm. ? Justifique numricamente. 14. Sea una poblacin \ R . "%%, calcule a) T \ $\ %% si . "! b) . si T \ $) ! !'')
Respuestas: 1. 0,0571 ; 0,9686 ; 0,5352 ; 0,1246 ; 0,1762 ; 0,7088 2. -0,73 ; 0,66 ; -0,50; 1,645 3. En Estadstica 4. 0,9332 ; 0,3085 ; 0,1587 ; 0,2029 ; 0,1309 ; 0,6826 ; 0,7734 ; 0,5000 5. 0,7 ; 13,9 ; 10,3 ; 8,05 6. 0,0526 ; 0,8185 ; 0,1922 7. 8 alumnos ; 437 alumnos ; 11 alumnos 8. 61,06% ; 5,48% ; 5,48% ; 128 gr, 181 gr ;721 manz ; 10 manz ; 254 manz 9. 33,6 y 66,4 ; 41,6 ; 62,8 12. 250 gr. 14. 0,1587, 20.

11. 16

V. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD

1. Reconozca la distribucin , los parmetros y especifique la funcin de cuanta :B3 de las siguientes @+ \ , justificando cada vez , y calcule para cada una de ellas I\ y Z \ a) \ n de caras obtenidas al lanzar 15 veces una mon eda no cargada b) \ : n de caras obtenidas al lanzar 15 veces una m oneda cargada tal que la probabilidad de cara es 0,10. c) \ : n de aciertos a un blanco en una serie de 25 disparos, si la probabilidad de acierto es $% d) \ : n de fichas rojas obtenidas al realizar 20 ex tracciones , con sustitucin, de una caja que contiene 6 fichas rojas y 4 fichas blancas e) \ : n de lesiones en hoja de tabaco , por un viru s que causa en promedio 3 lesiones por hoja f) \ : n de bacterias en un cc de un medio de cultiv o , cuyo promedio es 24 2. Sea la @+ \ n de caras obtenidas al lanzar 15 veces una moneda no cargada. Calcule: a) T \ & b) T \ "! c) T $ \ ) d) T $ \ ) e) T $ \ ) f) T $ \ ) 3. Sea la v.a. \ : n de plantas sanas al examinar 2 5 plantas en un vivero, si la probabilidad de que una planta est sana es 0,75. Calcule: a) T \ ") b) T \ "& c) T \ 20 d) T ") \ ##

166
4. En una oficina trabajan 50 personas. Se ha establecido que mensualmente existe una probabilidad de 0,10 que a una persona se le hagan descuentos indebidos en sus sueldos. Cul es la probabilidad que en un mes determinado se tengan: a) ms de 5 personas con descuentos indebidos? b) slo 3 personas con descuentos indebidos? c) a lo ms 2 personas con descuentos indebidos? 5. El nmero de camiones que llega a un centro de acopio es una variable de Poisson. Si el nmero promedio es de 10 camiones en el da , entre las 7 A.M y las 5 P.M .Cul es la probabilidad de que: a) en el da lleguen a lo menos 7 camiones ? b) en el lapso de una hora no lleguen camiones? c) en un lapso de media hora llegue al menos un camin ? 6. Supongse que en una planta agroindustrial ocurren de manera aleatoria e independiente 2 accidentes por semana. Cul es la probabilidad de que: a) en una semana no ocurran accidentes? b) en una semana ocurran 2 accidentes ? c) que en una semana ocurra 1 accidente y en la siguiente ocurran 3 ? d) en dos semanas sucesivas ocurran accidentes ? 7. Estudios sobre un nuevo insecticida biolgico ha establecido que la probabilidad de sobrevivencia de la mosca de la fruta a este insecticida es de 0,0002, Se aplica este insecticida en un huerto con una poblacin de 1000 moscas de la fruta. Cul es la probabilidad de que: a) no sobreviva ninguna mosca ? b) sobreviva al menos una mosca ? c) sobrevivan 2 moscas ?
Respuestas: 1. Bin (15 ; 0,5) ; Bin (15 ; 0,9) ; Bin (25 ; 0,75) ; Bin (20 ; 0,6) ; P (3) ; P (24) 2. 0,15088 ; 0,15088 ; 0,69269 ; 0,6788 ; 0,49631 ; 0,48242 3. 0,16541 ; 0,14944 ; 0,21374 ; 0,6944 4. 0,38388 ; 0,13856 ; 0,11173 5. 0,86986 ; 0,36788 ; 0,39347 6. 0,13534 ; 0,27067 ; 0,04884 ; 0,74764 7. 0,81873 ; 0,18127 ; 0,01637

VI. DISTRIBUCIONES EN MUESTRAS ALEATORIAS Y ESTIMACIONES

1. La distribucin de los pesos de una poblacin de adultos hombres es \ R '4 $'). Se eligen aleatoriamente muestras de 9 individuos de tal poblacin. Calcule: q q q a) T '" \ '' b) T \ &* c) T \ '( & 2. En un proceso de seleccin los estudiantes obtuvieron un promedio de 570 puntos con una desviacin tpica de 40. Se sabe que los puntajes se distribuyen normales. Se toma una muestra aleatoria de 25 estudiantes cul es la probabilidad de obtener un puntaje promedio de la muestra: a) entre 560 y 585 ptos. b) menor a 565 ptos. c) mayor a 590 ptos. 3. La distribucin de las alturas de personas de una poblacin E es normal con media 173 cm y desviacin tpica 12 cm. y en otra poblacin F es normal de media 175 cm y una desviacin tpica de 8 cm. De ambas poblaciones se toma una muestra aleatoria de 16 personas en cul de las dos muestras hay una mayor probabilidad de obtener una altura promedio mayor a 180 cm.? Justifique.

167
4. Se sabe que en un criadero el peso , en kg , de un cerdo tiene distribucin normal con media 80 y varianza 16. Se toma una m.a.s. de 25 cerdos del criadero. i) Cul es la probabilidad de obtener un peso promedio de los 25 cerdos : a) entre 79,0 y 81,5 kg ? b) mayor que 82,3 kg? c) menor que 78,5 kg? ii) Calcule el valor de: q a) a y b equidistante de . tal que T a \ b ! *& q q b) c tal que T \ c ! "& c) d tal que T \ d ! !& 5. Sea \ el rendimiento por hectrea de una variedad de trigo cuya distribucin se sabe que es \ R 72 36 Se siembran con la variedad 9 parcelas de 5 x 10 m , distribuidas al azar, en un sector A de un fundo y en otro sector B , tambin distribuidas al azar, se siembran 16 parcelas iguales a las anteriores , y se les mide el rendimiento , proyectado a la ha. ( es decir el rendimiento de la parcela amplificado por 200. por qu?). q En un mismo grfico muestre comparativamente la distribucin de la media X del sector A respecto a la del sector B. 6. Si se toman dos muestras aleatorias de una misma poblacin \ R (. , 5 # ) q tamao 10 y la segunda de tamao 20, obtenindose los promedios X" = 34 y q q promedio X" o X# es estimador de la media poblacional ? Cul de los estimador de ., es decir , tiene la menor varianza ? , la primera de q X# = 37 cul dos es mejor

7. La distribucin de los pesos de recin nacidos en un hospital A es normal con media de 2260 gr y desviacin tpica 200 gr.. En otro hospital B la distribucin de los pesos es tambin normal con media 2300 gr y desviacin tpica 120 gr. De ambos hospitales se toma una m.a.s. de 16 recin nacidos.En cul de las dos muestras hay mayor probabilidad de obtener un peso promedio de recin nacidos mayor a 2370 gr? Justifique estadsticamente. 8. Con el fin de generar una referencia para detectar malformaciones craneanas en guaguas de 12 meses de edad de se midi la variable \ : permetro craneano de guaguas normales a los 12 meses de edad y se asume que \ distribuye normal. La medicin en 15 guaguas di los siguientes valores en centmetros: 45; 47; 48; 46; 42; 49; 44; 47; 50; 46; 43; 48; 45; 49; 44 a) estime en forma puntual la media y la varianza poblacional del permetro craneano b) obtenga estimaciones para . mediante intervalos del 90% ; 95% y 99% respectivamente, si se conoce que \ R . ! #& c) obtenga estimaciones para . mediante intervalos del 90% ; 95% y 99% respectivamente, si en este caso no se conoce el valor de la varianza poblacional 5# d) compare los intervalos del 90%, 95% y 99% obtenidos en b) y c) y obtenga conclusiones respecto a la precisin y confianza. 9. Se sabe que los pesos de cerdos de una poblacin tiene distribucin normal de media . y varianza 5 # . i) Se elige una m.a.s. de 9 cerdos : q a) determine . si se sabe que 5 # = 36 y que P(X 92) = 0,0668 q b) determine 5 si se sabe que . = 91 y que P(X 92) = 0,2266

168
ii) Si se sabe que \ R *& $' q a) calcule P(X 97) , para la muestra tamao 9. q b)cul debe ser el tamao de la muestra para que se cumpla que P(X 97) 0,05 ? 10. Una mquina envasadora de pulpa de manzana est ajustada para que envase en promedio 240 gr con una desviacin estndar de 5 gr. Periodicamente se seleccionan 16 tarros al azar para verificar si la mquina est funcionando correctamente. La mquina se somete a ajustes si el promedio de la muestra resulta inferior a 237 gr. Si la mquina est envasando correctamente, cul es la probabilidad que sea sometida a ajuste errneamente? 11. Se sabe que el rendimiento (en qq/ha) de una nueva variedad de trigo tiene distribucin \ R . "%%. q a) Se toma una m.a.s. tamao 16 de \ . Calcule T X . $. b) Cul debera ser el tamao de la m.a.s para que con una probabilidad del 95% la media muestral difiera del rendimiento promedio real en menos de 4 qq/ha ? 12. Sea la v.a. t con distribucin t de Student con los gl indicados. Determine: a) a tal que P(> a ! !&, > con 14 g.l b) b tal que P(> b ! !!&, > con #! g.l c) c tal que P(> c ! !#&, > con 8 g.l d) t tal que P(-t > t ! *&, > con 18 g.l 13. Se sabe que el estadgrafo = tiene distribucin t de Student con 15 g.l . Calcule: a) P(s ! '*"# b) P(s 2,6025) c) P(-" $%!' s # "$"& 14. Sea la v.a. D con distribucin chi cuadrado (;# ) , con los g.l indicados .Determine: a) a tal que P(D a ! !&, D con 12 g.l b) b tal que P(D b ! !!&, D con #3 g.l c) c tal que P(D c ! !#& , D con 9 g.l d) d y e tal que P(d D e ! *& central, D con 15 g.l 15. Se sabe que el estadgrafo D tiene distribucin ;# con 10 g.l . Calcule: a) P(D 3,247 b) P(D 6,737) c) P(4,865 D 18,307 16. El rendimiento \ de una variedad de maz se conoce que tiene distribucin \ R . 5 # . Con el fin de estimar . se siembran 10 parcelas con la variedad de maz , obtenindose los siguientes rendimientos a la cosecha: 48 , 50 , 62 , 36 , 45 , 70 , 56 , 40 , 52 , 44 a) obtenga un rango del 95 % de confianza para el verdadero valor de la media b) obtenga una estimacin para 5 con una confianza del 90 %. 17. Un investigador desea estimar el contenido de Ca en frutos de nectarines , para lo cual selecciona aleatoriamente una muestra de estos obteniendo los siguientes valores: 10 ; 8,9 ; 9,7 ; 10,8 ; 11,0 ; 10,9 ; 9,5 ; 10,7 ; 8,3 ; 9,0 . a) construya un intervalo del 95% de confianza para la media del contenido de Ca en los nectarines b) construya un intervalo del 95% de confianza para la varianza del contenido de Ca en los nectarines 18. Se sabe que los aumentos en peso de corderos durante un periodo de 25 das tiene distribucin R . 5 # ). Una muestra aleatoria de corderos tuvo las siguientes ganancias de peso a los 25 das: 9 ; 11 ; 12 ; 14 ; 15 ; 16 ; 19 ; 21 ; 24 ; 29 ; 17 ; 20

169
a) construya un intervalo de confianza del 95% para la varianza de las ganancias de pesos b) basado en los resultados de la muestra, con una confianza del 95%, puede establecerse que la poblacin de corderos gana en promedio 20 kg a los 25 das? 19. La variable aleatoria \ representa el peso (en kg) de pollos broiler en un criadero, cuya distribucin est dada por: $ 3B B# si " B $ 0 B 10 , ! :9@ Si de la poblacin de pollos del problema anterior se toman muestras aleatorias tamao 4 y se calcula el peso promedio de los cuatro pollos cul es la media y la varianza de esta media muestral ? 20. Se sabe que la cantidad residual de hormonas \ en pollos Broiler tiene distribucin normal con media 20 ppm y desviacin tpica de 4 ppm. a) Cul es la probabilidad de que un pollo cualquiera contenga ms de 25 ppm de hormonas? b) Cul es la cantidad mxima residual de hormonas del 20% de pollos que contienen menos? c) Cul es la probabilidad de que en una muestra aleatoria de 9 pollos se obtenga una media de entre 19 ppm y 21 ppm de hormonas? d) Cul debera ser el nuevo tamao de la muestra si se necesita una probabilidad de a lo ms 5% de que la media obtenida sea menor a 19 ppm?
Respuestas: 4. i) 0,8643 ; 0,0020 ; 0,0301 ii) + = 78,43 , , = 81,57 ; - = 79,17 ; . = 81,31 9. i) 95 ; 4 ii) 0,1587 ; n 24 10. 0,0082 11. 0,1587 ; n 35 12. -1,7613 ; 2,8453 ; -2,306 ; 2,1009 13. 0,75 ; 0,01 ; 0,875 14. 5,226 ; 44,181 ; 2,700 ; 6,262 ; 27,488 15. 0,025 ; 0,75 ; 0,85 18. 9/5, 3/50

VII. PRUEBAS DE HIPOTESIS PARA LA MEDIA DE DISTRIBUCIONES NORMALES

1. Explique en que consiste, ayudndose con un grfico, los errores tipo I y II de una prueba de hiptesis. 2. El contenido de protenas de un alimento para ganado debe ser de a lo menos 200 g. por kg. Ante la sospecha de que la mquina dosificadora no est funcionando adecuadamente se lleva a cabo una inspeccin. En relacin al planteamiento anterior, explique como el inspector puede cometer: a) un error tipo I y cmo es posible controlar este error b) un error tipo II y cmo es posible controlar este error. 3. Cul es la relacin entre el nivel de significancia de una prueba y el error de tipo I ? 4. Formule las hiptesis nula y alternativa para probar la tesis mdica que tomar ms de 2 tazas de caf al da aumenta el riesgo de cncer gstrico. Discuta en trminos de las probabilidades de errores tipo I y tipo II con cul de las posibles hiptesis alternativas se corre mayor riesgo respecto a la salud de los bebedores de caf, si el valor de " es bastante mayor que !.

170
5. Un alimento para ganado debe contener 200 g de proteina en promedio, con una desviacin tpica de 24 g por kg. Ante la sospecha que la mquina est dosificando menos del promedio es necesario realizar una inspeccin para lo cual se seleccionan 16 envases de 5 kg y a cada uno se les mide la cantidad de proteina por kg. Al nivel del 5% calcule la probabilidad de que el inspector cometa el error tipo II , si la mquina est envasando un promedio de 185 g por kg. 6. En cada uno los siguientes casos establezca la distribucin a utilizar, la Regin Crtica , efecte la prueba de hiptesis y obtenga conclusiones, si el supuesto es que la poblacin tiene distribucin \ R . 5 # : q a) L0 : . #( vs L" . #( ; X $! , S % , n #& q b) L0 : . *) ' vs L" . *) ' ; X ** " , 5 1,5 , n $! q c) L0 : . $ & vs L" . $ & ; X # ) , S ! ' , n ") q d) L0 : . $)# vs L" . $)# ; X $&) , 5 &) , n "# q e) L0 : . &( vs L" . &( ; X '" , S "# , n $' 7. Formule las hiptesis nula y alternativa para probar: a) si un nuevo sistema de embalaje reduce el tiempo de este proceso, que actualmente es de 12,5 minutos, en al menos 2 minutos. b) que una nueva tecnologa de fabricacin, produce ampolletas cuya duracin promedio es por lo menos 6000 horas mayor que las tradicionales. 8. Para una poblacin \ R . "' se necesita probar las hiptesis simples H! . #! vs H" : . "). a) cul es el valor del error tipo II para un un error tipo I de un 5%, si se seleccion una muestra tamao 25 para probar las hiptesis anteriores ? b) en una figura muestre las distribuciones de las variables asociadas a la situacin planteada, indique correctamente , con un decimal si es necesario, los valores de posicin de las distribuciones, el valor K que limita la Regin Crtica y marque claramente en la figura el error Tipo I y II. 9. Sea \ R . "' y las siguientes hiptesis L! . 70 @= L" . 68 . a) Se toma una muestra aleatoria de X, cuyos valores resultan ser: 73, 62, 75, 64, 72, 67, 74, 65. q q Qu conclusin se obtiene con la VG \\ ') & ? b) Identifique y marque claramente en un grfico los dos tipos de errores posibles de q q cometerse con VG \\ ') & c) cul sera el tamao de muestra mnimo y el valor de " para ! = 0,05, si la Regin Crtica q q es VG \\ ') & ? 10. Asmase que la residualidad (persistencia) de un insecticida tiene distribucin normal con desviacin tpica 5 = 2,5. Se sabe que el insecticida en uso tiene una residualidad media de 30 das. Otro laboratorio promueve otro insecticida con las mismas caractersticas, pero dicen que tiene una mayor residualidad . En un ensayo con el objetivo de verificar tal afirmacin , una m.a.s. tamao 12 dio como resultado un promedio de 32 das como duracin del efecto del insecticida. Puede establecerse , al nivel del 5% , que el nuevo insecticida tiene un efecto residual de mayor duracin?

171
11. En el envasado de concentrado de tomate una mquina funcionando correctamente debe envasar en promedio 245 gr. , con una desviacin tpica de 6 gr por tarro. Un tcnico con el fin de verificar si la mquina est funcionando correctamente toma una muestra aleatoria de tarros de la lnea de envasado y mide su contenido. Los valores que obtuvo fueron: 232 ; 235 ; 249 ; 241 ; 233 ; 247 ; 244 ; 246 ; 241 ; 248 ; 245 ; 243 a) los resultados de la muestra anterior son suficiente, al nivel del 5%, para que se detenga el funcionamiento de la mquina y sea sta sometida a reparaciones, si se considera ms grave detener errneamente el funcionamiento de la mquina ? b) Cul debera ser el tamao de muestra mnimo necesario, para un nivel de significacin del 5% y un error tipo II del 15%, para una hiptesis alternativa simple . 242 gr? 12. Supngase que una planta procesadora de alimentos establece que el nivel residual de insectida que estos contengan al llegar a la industria no debe superar los 5 ppm. Una partida de tomates es inspeccionada para ver si cumple la norma , tomndose una muestra al azar de 8 tomates , obtenindose la siguiente informacin : !Xi = 37,6 !X# = 178 Xi : contenido insecticida tomate "i" i Los resultados de la muestra permiten concluir que la partida no cumple la norma, al nivel del 5%, si se considera ms grave perjudicar al productor? 13. El gerente de produccin de una exportadora frutcola desea saber si una nueva lnea de embalaje reduce los tiempos actuales , que en promedio es de 14 minutos. El gerente deicde comprar la nueva lnea si esta reduce los tiempos en al menos un 15% respecto a la lnea actualmente en uso. Para decidir la compra solicita los tiempos logrados en 20 procesos de embalaje con la nueva lnea. Los datos obtenidos y enviados al gerente son: 9,8 , 10,4 , 10,6 , 9,6 , 9,7 , 9,9 , 10,9 , 11,1 , 9,6 , 10,2 , 10,3 ,9,6 , 9,9 , 11,2 , 10,6 , 9,8 , 10,5 , 10,1 , 10,5 , 9,7. Con los datos obtenidos, cul es la decisin que debe tomar el gerente? 14. Se sostiene que con una nueva dieta para cerdos, cuyo objetivo es disminuir la grasa en cerdos, la cantidad promedio por kg de carne es a lo ms de 100 gr. Se decide realizar un ensayo en el cual se alimentarn 10 cerdos con la nueva dieta. a) Cul es la variable asociada al problema y el parmetro de inters ? b) Especifique las hiptesis, justifique la hiptesis H1 planteada, plantee correctamente el estgrafo de prueba con su distribucin y la regin crtica correspondiente. c) Una vez terminado el proceso de engorda, se faenan los cerdos obtenindose los siguientes contenidos de grasa (en gr) por cada kg : 98 , 90 , 96 , 105 , 97 , 89 , 107 , 93 , 95 , 102. es posible establecer que con la nueva dieta se logra reducir la cantidad de grasa en cerdos, al nivel del 5% ? d) qu error es susceptible de estarse cometiendo en la decisin tomada en c) y cul es su magnitud? e) construya un intervalo de confianza del 95% para el promedio de grasa por kg con la nueva dieta f) construya un intervalo de confianza del 95 % para la desviacin tpica del contenido de grasa.

172
15. Para controlar araita roja en paltos se utiliza un acaricida el cual debe aplicarse solamente cuando el promedio de araitas por hoja supera a 3,0. Con el fin de tomar una decisin de si es el momento de aplicar, un Agrnomo se propone realizar una Prueba de Hiptesis. Por registros histricos se sabe que la desviacin tpica de araitas por hoja es 0,64. a) Explique cul es la poblacin en estudio en este problema, la variable asociada y el(los) parmetro(s) de inters ? b) Especifique las hiptesis a plantear, justificando la hiptesis H1 a probar, especifique correctamente el estadgrafo de prueba con su distribucin y la regin crtica correspondiente. c) Para efecto del fin anterior el Agrnomo toma hojas de 10 rboles seleccionados al azar obteniendo los siguientes valores por hoja en cada rbol: 2,5 ; 3,9 ; 2,9 ; 3,9 ; 4,1 ; 4,0 ; 2,7 ; 4,2 ; 2,6 ; 2,8 de acuerdo a la informacin obtenida en la muestra, qu decisin debe tomar el Agrnomo? d) explique y justifique en cual de los errores es posible estar incurriendo en la decisin obtenida por el Agrnomo. 16. Para satisfacer los requirimientos de exportacin de uva de mesa la cantidad residual de sulfuroso no debe exceder el valor 0,69 en promedio. Se afirma que un nuevo tipo de generador de sulfuroso para cajas de exportacin permite satisfacer este requerimiento. Se aplica el generador a 10 cajas de uva de exportacin y al final del periodo de almacenamiento se les mide la cantidad residual de sulfuroso , obtenindose los siguientes valores: 0,8 ; 0,5 ; 0,8 ; 0,4 ; 0,6 ; 0,4 ; 0,7 ; 0,5 ; 0,4 ; 0,7 Qu conclusin es posible obtener respecto a si el nuevo generador satisface los requerimientos de exportacin? 17. Un fabricante de cigarrillos sostiene que el contenido promedio de nicotina de los cigarrillos marca VC no excede los 2,5 mg., con una desviacin estndar de 0,6 mg Si una muestra aleatoria de 15 cigarrillos de la marca VC dio un promedio de 2,8 mg qu puede concluirse de la aseveracin del fabricante, al nivel del 5%, si se debe proteger la salud de las personas? 18. Se cree que una nueva tecnologa en crianza de cerdos produce a los 5 meses de edad ejemplares de peso promedio mayor a 85 kg. Se toma una muestra aleatoria de 8 cerdos de 5 meses producidos segn la nueva tecnologa , cuyos pesos resultan ser: 88 ; 89 ; 83 ; 86 ; 91 ; 82 ; 92 ; 89 Es posible concluir con los datos de la muestra , al nivel del 5 %, que con la nueva tecnologa se obtienen cerdos de 5 meses con peso promedio mayor a 85 kg ? 19. Se desea evaluar un programa de capacitacin en raleo de ciruelos a temporeros de la VI regin. Para tal efecto se seleccionaron aleatoriamente 12 temporeros, a los cuales se les registr el tiempo empleado en el raleo antes y despus de la capacitacin. Los tiempos obtenidos se indican en la siguiente tabla:
Temporero Antes Despus 1 6,2 6,0 2 7,0 7,2 3 7,5 7,0 4 8,0 7,6 5 6,3 5,9 6 7,4 6,9 7 6,5 6,5 8 6,8 6,4 9 6,9 6,7 10 7,6 7,1 11 7,2 7,2 12 6,4 6,2

Qu conclusin se obtiene en relacin a la efectividad del programa de capacitacin?

173
20. Para evaluar el efecto de un nuevo mtodo de procesamiento para arreglo de racimo durante el embalaje, se somete a la labor a un grupo de 10 mujeres y posteriormente se las entrena en el nuevo mtodo. Al final se las evala nuevamente en la labor de arreglo de racimo. Los resultados obtenidos (en escala de 0 - 100) antes y despus del entrenamiento son:
Operaria Nota antes Nota despus 1 40 50 2 65 70 3 30 45 4 57 65 5 60 64 6 70 67 7 25 40 8 45 50 9 38 60 10 65 66

a) Puede afirmarse que el nuevo mtodo fue efectivo en mejorar la labor de arreglo de racimo? b) Es posible afirmar que con el nuevo mtodo se incrementa el resultado en ms de 5 puntos en promedio? Asuma que los puntajes obtenidos distribuyen Normal, y concluya con un nivel de significacin del 5%. 21. Un jefe de produccin desea comparar los porcentajes de descarte en uva de mesa en dos turnos E y F . Para tal efecto selecciona una muestra de descarte, en diez oportunidades al azar, en ambos turnos. Los datos obtenidos son los siguientes: Turno E: 5,1 1,4 1,6 5,7 9,7 9,1 11,2 8,2 8,9 5,8 Turno F : 2,8 7,3 9,8 7,0 9,5 5,5 5,6 4,7 10,8 6,5 a) Cul es la conclusin basado en la muestra obtenida? b) Construya un intervalo de confianza, del 95%, para la diferencia de medias de descarte entre el turno E y F 22. Se prueba un nuevo tipo de fertilizante W en frejol, con el fin de probar si W mejora el rendimiento respecto al fertilizante tradicional X . a) Indique las poblaciones en estudio, interprete claramente el parmetro a probar y establezca hiptesis , nivel de significacin, variable pivotal a utilizar con su distribucin y regin crtica con su grfico. b) Se siembran y fertlizan 12 parcelas con W y 10 parcelas con X . Realizada a la cosecha se obtuvo la siguiente informacin de los rendimientos en kg: Fertilizante W ! \3 $*) ! \3# "$$##
"# "# "0 "0

Fertlizante X : ! \3 $00 ! \3# 9188 qu puede concluirse del fertilizante W respecto al X , al nivel del 5% ? c) cules son las condiciones (supuestos) necesarias para la validez del desarrollo realizado en la pregunta b)? d) Construya un intervalo del 95% de confianza para la diferencia de rendimiento entre ambos fertilizantes e) Realice una Prueba de Hiptesis para verificar el supuesto sobre las varianzas. 23. Para probar si una dieta F produce mayor ganancia de peso en terneros, en kg, respecto a otro tipo de dieta E se alimentan 15 terneros con la dieta E y otros 15 terneros con la dieta F , seleccionados al azar,.Durante el tiempo del ensayo se enfermaron 5 terneros de la dieta E, los que tuvieron que eliminarse del ensayo. a) Explique claramente cuales son las poblaciones en estudio, las variables y los parmetros a probar.

174
b) establezca hiptesis, especificndolas con precisin, nivel de significacin, variable pivotal a utilizar con su distribucin y regin crtica con su grfico. c) Del procesamiento de los datos result la siguiente informacin semi procesada: Dieta E:
3" 1&

! \3 700 ; ! \3# 49227


10 10 3" 1&

Dieta F : ! \3 1110 ;
3"

3"

! \3# 82803

\3 : ganancia de peso ternero 3

Cul es la conclusin respecto al efecto comparativo de ambas dietas? d) Qu error es posible haber cometido en la decisin tomada en c) ? Explique. e) Qu supuestos son necesarios para el desarrollo de la pregunta c) ? Explquelos. f) Cul ser una estimacin de la verdadera ganancia de peso obtenida con la dieta F , en un rango del 95% ? 24. Para probar si una hormona CP induce mayor crecimiento de bayas en uva sultanina que la hormona AG , se aplica cada hormona a 15 parras cada una. Los resultados del largo de bayas por parra son los siguientes: q Hormona AG : X " = 22,0 S# " = 20 q Hormona CP : X# = 23,9 S# # = 32 a) Puede concluirse , al nivel del 5 % , que con la hormona CP se logra mayor largo de bayas en uva sultanina que con AG ? # # b) Puede establecerse estadsticamente que las varianzas 5" y 5# son distintas ? c) Qu error ! " es susceptible de estarse cometiendo en la conclusin obtenida en a) y en la obtenida en b) ? 25. Para comparar el efecto de dos dietas en la cantidad de materia grasa en la leche de vacas lecheras , se alimentan 15 vacas con la dieta A y 18 vacas con la dieta B. Los siguientes son los resultados obtenidos: q Dieta A : X = 22,0 SA = 2,8 qA Dieta B : XB = 23,9 SB = 3,2 a) Es posible establecer , al nivel del 5 % , que con la dieta A se obtiene menor contenido de grasa en la leche que con la dieta B? # # b) Son homogneas las varianzas 5A y 5B ? Plantee hiptesis y docmelas. c) Construya un intervalo de confianza del 95 % para el contenido de materia grasa en la leche obtenido con la dieta B. Interprete conceptualmente el intervalo obtenido. 26. Para determinar si un nuevo suero es eficaz para prolongar la sobrevivencia por leucemia en ratas, se seleccionan 20 ratas que han contrado la enfermedad y estn en una etapa avanzada de ella , de las cuales 12 reciben el suero. Los tiempos de supervivencia, en meses, desde que comenz el tratamiento dio los siguientes resultados: !Xi = 42 !X# = 157,78 Con tratamiento: i Sin tratamiento : !Xi = 19,2 !X# = 52,10 i

i) Puede concluirse, al nivel !, que el suero es eficaz para aumentar la sobrevivencia en ratas: a) para ! = 0,05 ? b) para ! = 0,01 ? ii) Con cul de los dos niveles de significacin concluira Ud. y por qu?
Resp. 8. 0,1949 9. a) aceptar H! c) n =20, " = 0,2977 11. b) n 29

175
VIII. INTERVALO DE CONFIANZA Y PRUEBAS DE HIPOTESIS PARA PROPORCIONES

1. Para estimar la proporcin de pequeos agricultores que cuentan con riego tecnificado se toma una muestra aleatoria de 150 pequeos agricultores verificndose que 38 tienen este tipo de riego. Construya un intervalo del 95 % de confianza para la proporcin de pequeos agricultores con riego tecnificado. 2. Se desea tener una estimacin, mediante un intervalo del 95 % de confianza, de la proporcin de enraizamiento de rosas multiplicadas mediante estacas tratadas con una hormona W , para lo cual se tratan 120 estacas con la hormona W y se plantan. Al cabo de 6 meses se verifica que 36 estacas no echaron races. a) Entre qu valores se encuentra el % de estacas enraizadas? Cul es el valor del error de muestreo con este tamao de muestra? b) cul deber ser el tamao de muestra para disminuir el error de muestreo a 6%? 3. Un municipio determina iniciar una drstica campaa antirrbica si comprueba que la problacin de perros vagos que presentan la enfermedad supera el 5 %. Una m.a.s. de 190 perros mostr que 13 presentaban la enfermedad. Qu decisin respecto a la campaa debe tomar la municipalidad con base en la muestra obtenida, a un nivel del 5 %? 4. Se piensa que a lo ms el 8 % de los cerdos de un criadero tiene triquina. En una muestra de 60 cerdos se detectan 4 que tienen triquina. a) El tamao de la muestra es suficiente para utilizar la aproximacin normal? b) Cul es la conclusin obtenida, al nivel del 5 % , basado en la informacin muestral? c) Qu tipo de error es susceptible de haberse cometido en la conclusin anterior? d) Entre qu valores est el verdadero porcentaje de cerdos del criadero que tienen triquina, a un nivel de confianza del 5%? e) Si se desea estimar la proporcin de cerdos del criadero que tienen triquina, con un nivel de confianza del 95% y un error no superior a un 4 %, Cuntos cerdos habra que examinar?. 5. Un laboratorio afirma que una hormona X , producida por ellos, aplicada a estacas de rosa induce un enraizamiento de stas superior al 75%. a) Especifique con precisin la poblacin a investigar, la variable asociada al problema y el parmetro de inters? b) Especifique las hiptesis y justifique su hiptesis H1 . c) Para verificar tal aseveracin se aplica la hormona X a 120 estacas de rosa de las que posteriormente se determina que enraizan 95 qu puede concluirse respecto a la afirmacin del laboratorio, a un nivel del 5% ? d) En un rango del 95% establezca la verdadera proporcin de enraizamiento lograda con la hormona X . 6. Un productor de semillas certificada asegura que al menos el 90% de sus semillas germinan. Para probar tal afirmacin se siembran 120 semillas, de las cuales al cabo de unos das 98 germinan. Con este resultado que conclusin debe obtenerse, al nivel del 5 %, respecto a la afirmacin del productor? 7. Una empresa agroindustrial est interesada en lanzar un nuevo producto al mercado si al menos un 45% de las personas que concurren a supermercados del sector socio-econmico

176
ABC1 aprueban el producto. Se consulta a 50 personas en cada uno de cuatro supermercados que cumplen con la condicin, resultando que 102 personas en total aprueban el producto. Cul es la decisin que deber tomar la industria respecto al producto? 8. Para probar si el fungicida A es mejor que el fungicida B en el control de Botritis en peras Winter Nellis , se aplica cada fungicida independientemente a 150 peras previamente inoculadas con el hongo. De las 150 peras tratadas con A presentaron posteriormente pudricin 21, mientras que de las tratadas con B presentaron pudricin 33. a) Puede concluirse , al nivel del 5 %, que el fungicida A controla mejor Botritis en peras que el fungicida B ? b) Entre qu valores est la proporcin de peras sanas tratadas con el fungicida A ? D un rango del 95 % de confianza 9. Un laboratorio afirma tener un nuevo producto WY menos txico y ms efectivo que el producto BM en el control del tizn del peral. Para confirmar o rechazar tal afirmacin se aplic el producto WY y BM a 120 y 80 rboles respectivamente. Al cabo de un tiempo se detectaron 7 rboles enfermos de los tratados con BM y 6 de los tratados con WY. Puede concluirse, al nivel del 5 %, que WY es mejor que BM en el control de la enfermedad? 10. Para estimar la proporcin de plantas enfermas en un vivero se toma una muestra de 180 plantas elegidas aleatoriamente entre las cuales se encontraron 32 plantas enfermas. Posteriormente a todas las plantas del vivero se les efecta un tratamiento con el objeto de sanarlas. Despus de algunas semanas, para determinar si hubo mejora, se toma otra muestra de 120 plantas, encontrndose slo 12 plantas enfermas. a) explique el(los) parmetro(s) a contrastar y su interpretacin b) plantee la hiptesis alternativa y justifique en palabras su eleccin c) al nivel del 5% el tratamiento result efectivo para reducir la enfermedad? d) cul es la proporcin de plantas sanas en el vivero antes del tratamiento, en un rango del 95% de confianza? 11. Se necesita probar si un producto natural D tiene efecto para curar plantas enfermas en un vivero. Se toma una muestra aleatoria de plantas antes de aplicar el producto detectndose en la muestra 30 plantas enfermas y 90 plantas sanas. a) en un rango del 95% cul es el porcentaje de plantas sanas del vivero? b) das despus de aplicado el producto se toma otra muestra aleatoria en el vivero y en el examen de las plantas seleccionadas se determina que hay 36 plantas enfermas y 114 plantas sanas. Qu conclusin se obtiene respecto al efecto del producto para curar las plantas enfermas, al nivel del 5%? 12. Al alimento de gallinas ponedoras se le agrega vitamina C con el fin de probar si ella contribuye a disminuir la cantidad de huevos trizados. Para tal efecto a un conjunto de gallinas se les suministra la vitamina con el alimento. Despus de varios das de aplicacin de la vitamina se seleccionan al azar 150 huevos de gallinas alimentadas con la vitamina, encontrndose 6 trizados y otros 150 huevos de gallinas alimentadas sin la vitamina , entre los cuales se cuentan 12 huevos trizados. Al nivel del 5 %, es posible concluir que conviene agregar vitamina C al alimento para disminuir la proporcin de huevos trizados ?

177
13. Se desea probar si el acaricida B es mejor que otro acaricida A en el control de la araita roja. Para este efecto a un rbol se le aplica el producto A , determinndose que en un conjunto de hojas hay 110 araitas muertas y 40 vivas , mientras que en las hojas de otro rbol donde se aplic el producto B se encontraron 100 araitas muertas y 20 vivas. Puede establecerse, al nivel del 5 %, que el producto B controla mejor que el A la araita roja?
Respuestas. 2. b) n = 225 4. d) entre 0,4% y 13,0% e) n 177

IX. PRUEBAS DE CONCORDANCIA Y DE ASOCIACION

1. Para probar si la proporcin de plantas con virus en un vivero corresponde al 10 % , se examinan 75 plantas determinndose que 66 estn libres de virus. Plantee hiptesis y obtenga conclusiones mediante la prueba de concordancia , a un nivel del 5 % , y compare esta prueba con la prueba para una proporcin vista en la gua anterior. 2. Segn la ley de Mendel la segregacin fenotpica de dos pares de caracteres debe estar en la proporcin 9:3:3:1. Para comprobar experimentalmente el cumplimiento de esta ley se analizaron 800 individuos provenientes de la cruza , encontrndose la siguiente segregacin:
Segregacin n individuos AB 445 Ab 155 aB 152 ab 48

Los resultados experimentales anteriores son concordante con lo establecido por la Ley de Mendel , al nivel del 5 % ? 3. Se piensa que las tres causas A , B y C de muerte al nacer de cerdos estn en la proporcin 1:3:4. Para verificar la hiptesis anterior se analiza la causa de muerte de 80 cerditos , encontrndose que 14 corresponden a la causa A , 28 a la causa B y el resto a la causa C. Puede establecerse , al nivel del 5 % , que estos resultados contradicen la proporcin indicada ? 4. Se desea determinar si existen diferencias entre las preferencias de productores lecheros respecto de 5 marcas de insumos. Una encuesta da las siguientes preferencias para cada una de las marcas:
Marca Npreferencias M" 28 M# 25 M$ 35 M% 39 M5 28

Plantee hiptesis y docmelas , al nivel del 5 %. 5. En el procesamiento agroindustrial de tomates en conserva , el anlisis de una muestra de 450 tarros rechazados por defectos da como resultado que fueron rechazados por abolladuras (A) 162 , por mal etiquetado (E) 145 , por oxidacin (O) 103 y por sellado (S) 40. Los resultados de esta muestra son concordante con la hiptesis de que las fallas por (A) son 6 veces ms frecuentes que por (S) , las fallas por (E) 5 veces ms frecuentes que (S) y las fallas por (O) 3 veces ms frecuentes que (S) ?

178
6. Se asevera que en una variedad de frejol el 10 % de las semillas no germina , el 30 % produce plantas anormales y el resto son normales. Se siembran 180 semillas de esta variedad, germinando 155 de las cuales 105 resultan ser plantas normales. Qu puede concluirse , al nivel del 5 % , de la aseveracin para esta variedad de frejol ? 7. Se vacunan contra cierta enfermedad 120 animales sanos. Despus de un tiempo se encuentra que 12 adquirieron la enfermedad. De un examen de 140 animales no vacunados se encuentran que 50 adquirieron la enfermedad. Plantee hiptesis que permitan establecer si existe asociacin entre la vacunacin y la incidencia de la enfermedad y docmelas. 8. Se desea establecer si tres mezclas qumicas P , Q y R aplicadas a semilla de tomate producen diferencias en la germinacin de stas. Se tratan tres grupos de 200 semillas con cada una de las tres mezclas , determinndose que germinan 190 , 165 y 180 con P , Q y R respectivamente. Qu puede concluirse respecto a la diferencia en la germinacin de las semillas de las tres mezclas , al nivel del 5 % ? 9. De una encuesta , 600 productores lecheros fueron clasificados de acuerdo al tamao de su plantel y a su nivel tecnolgico para determinar si hay asociacin entre ambas variables categricas. La clasificacin con sus frecuencias la muestra la siguiente tabla de doble entrada:
Tamao \Nivel tecnol. pequeo mediano grande bajo 182 68 20 mediano 85 60 41 alto 33 72 39

Puede establecerse que la proporcin de productores en los niveles tecnolgicos es independiente de su tamao ? 10.. Se desea probar si existe diferencia entre 4 pequeos productores, A,B,C,D de uva sultanina en relacin a la calidad de exportacin. Para tal efecto se seleccion una muestra al azar de racimos de cada productor, contabilizndose el nmero de racimos aceptados para exportacin. La informacin se muestra en la siguiente tabla:
Condic.\Productor Aceptados Rechazados A 86 14 B 230 20 C 285 15 D 132 18

Basado en la informacin anterior, es posible establecer que la calidad de exportacin es diferente entre los productores? 11. Una empresa de marketing desea establecer si la preferencia por tres marcas de cereales (X, Y, Z) est asociado al nivel socioeconmico (A, B, C1 y C2). En una encuesta realizada en supermercados entreg la siguiente informacin:
Marca\Nivel X Y Z A 25 80 95 B 10 65 90 C1 10 45 45 C2 5 10 20

Cul es la conclusin obtenida en base a la muestra anterior?

179
12. Con el fin de determinar el hbito de consumo de palta por grupos de edad se realiz una encuesta que dio los siguientes resultados:
Consumo \ Edad bajo medio alto 20 65 42 93 20-29 66 30 54 30-60 40 33 27 60 34 42 24

Puede establecerse , al nivel del 5 % , que el nivel de consumo de palta est asociada a la edad de las personas?

180

181

BIBLIOGRAFIA
1 Berenson, M.L y Levine, D.M. 1996. Estadstica bsica en Administracin: conceptos y aplicaciones. Prentice-Hall. 6 ed. Mxico. 2. Canavos, G. 1992. Probabilidad y Estadstica: Aplicaciones y Mtodos. McGraw-Hill.Mxico 3. Chao, L.L. 1993. Estadstica para las ciencias administrativas. McGraw-Hill. 3 ed. Mxico. 4. D'Ottone, H. 1991. Estadstica Elemental. Coopecultura Ltda. Santiago, Chile. 5. Levin, R. 2006. Estadstica para administradores. Prentice-Hall. Mxico. 6. Levin, R. y Rubin, D. 1996. Estadstica para Administracin. Prentice-Hall. 6 ed. Mxico. 7. Meyer. P.L. 1992. Probabilidad y Aplicaciones Estadsticas. Addison- Wesley Iberoamericana. Wilmington, Delaware, E.U.A 8. Ostle, B. 1983. Estadstica Aplicada. Limusa Wiley. Mxico. 9. Ross, Sh. 2002. Probabilidad y Estadstica para Ingenieros. McGraw-Hill, Interamericana Editores. 2 ed. Mxico. 10. Royo, A. 1985. Curso de Estadstica. Facultad de Ciencias Agrarias, Veterinarias y Forestales. Universidad de Chile. 11. Rustom, A. 1990. Elementos de Probabilidad y su aplicacin a la Agronoma. Publicacin Docente N 1. Direccin Escuela de Agronoma, Facultad de Ciencias Agrarias y Forestales, Universidad de Chile. 12. Snedecor, G.W y Cochran,W. 1977. Mtodos Estadsticos. C.E.C.S.A. Mxico. 13. Spiegel, M.R. Teora y Problemas de Estadstica. Libros McGraw-Hill. Serie de Compendios Schaum. 14. Walpole, R.E. y Myers, R.H. 1992. Probabilidad y estadstica. McGraw-Hill, 4 ed. Espaa. 15. Walpole, R.E., Myers, R.H.y Myers, S.L, 1999. Probabilidad y estadstica para ingenieros. Prentice-Hall Hispanoamericana. 16. Zuwaylif, F.H. 1971. Estadstica General aplicada. Fondo Educativo Interamericano. Mxico.

182

183

Anexo 1

184

185

Anexo 2

186

187

Anexo 3

188

189

Anexo 4

190

191

Anexo 5

192

193

Anexo 6

194

195

196