ESTADISTICA

por Marco Antonio Alfaro Sironvalle
Ingeniero Civil de Minas, Universidad de Chile

Doctor en Geoestadística, Escuela de Minas de París. Profesor de Estadística, Probabilidades y Procesos Estocásticos, Universidad De Chile Profesor de Evaluación de Yacimientos en la Universidad de Santiago de Chile

Junio, 2000

ANDRES BELLO 2777 PISO 13, SANTIAGO CHILE FONO 562 3651290 FAX 562 3651299 E-MAIL: malfaro@mmssa.cl

1

0.

INTRODUCCIÓN A LA ESTADÍSTICA.

La palabra Estadística se usa para caracterizar hechos numéricos reunidos sistemáticamente en cualquier campo, ya sea de observación o experimental. La Estadística se puede dividir en tres grandes capítulos: Se ocupa del estudio de datos, los cuales se disponen en a) Estadística Descriptiva : la forma más conveniente para su análisis o inspección. Se ocupa del estudio de un modelo matemático, que b) Teoría de Probabilidades : formaliza ciertos elementos de regularidad que sugieren leyes. Estas leyes se expresan en forma de axiomas lógicos, desarrollando las consecuencias de los axiomas, produciendo así un conjunto de teoremas o proposiciones. c) Inferencia Estadística : Se ocupa de las relaciones entre el modelo matemático y la practica, constituyendo, en cierta forma, la rama aplicada de la estadística.

2

I. I.1.

ESTADÍSTICA DESCRIPTIVA. DEFINICIONES.

a) Fenómenos Aleatorios : Desde hace algunos años se ha comenzado a estudiar, de manera científica, los fenómenos aleatorios, que son aquellos en que las mismas causas dan lugar resultados diferentes. b) Experimentos Aleatorios : Se llama experimento aleatorio a una experiencia cuyo resultado depende del azar, es decir, puede variar cuando esta se repite en condiciones supuestas idénticas, ejemplos. - tirar un dado y ver el número que aparece. - medir las horas de duración de una ampolleta. c) Resultado : Es la información aportada por la realización de una experiencia. el conjunto de todos los resultados posibles de un experimento se llama espacio muestral y se designa por la letra Ω, ejemplos: - Ω = { 1, 2, 3, 4, 5, 6 }, para el lanzamiento de un dado. - Ω = { x : x ≥ 0 }, si se mide la estatura de un individuo. I.2. PRESENTACIÓN DE RESULTADOS EXPERIMENTALES

a) Variable estadística asociada a un experimento : Si a cada resultado se le asocia un número perteneciente a un cierto conjunto, se dice que este número es una variable estadística. Se utilizan letras mayúsculas para representar las variables estadísticas, ejemplos: - X = estatura de un individuo. - X= resultado de tirar un dado. - X = temperatura a las 12 horas en un punto dado. b) Muestra de n resultados : Es el conjunto de valores tomados por una variable estadística durante n experimentos, ejemplo: - M = { 6, 2, 3, 3, 4, 5, 6, 3, 1, 1 } si se tira 10 veces un dado. - M = { 0.96; 1.02; 0.50; 030; 0.89 } si se analizan 5 muestras por cobre dentro de un yacimiento. En general : M = { x1, x2, ..., xn }. I.3. CASO DE UNA VARIABLE DISCRETA.

Una Variable estadística es Discreta, si el conjunto de valores posibles se puede poner en la forma R = { a1, a2, ... , ak } en que k es el número de valores diferentes que puede tomar la muestra. Sea una muestra de tamaño n y sea ri el número de repeticiones del valor ai en la serie de n experimentos. Se tiene la relación å ri = n En donde ri es la frecuencia absoluta del valor ai. Se define la frecuencia relativa del valor ai como:

k

i =1

3

Ejemplo : Leyes de Cu de un conjunto de testigos.. 1.. 2. análogamente : ri = numero de datos de la muestra que caen en la clase ci fi = frecuencia relativa de la clase ci ( ci = ri / n) ci = magnitud de la clase ci La representación gráfica de la tabla anterior se llama histograma ( k = número de clases ) 4 ..... 1... es decir.. .1 X ri fi ci 0 ≤ x < 0... 2 } .. ..... r3 = 3 ........ r4 = 1 f1 = 1/8 ...... .... f2 = 3/8 ..3 r3 f3 c3 . que son intervalos disjuntos que cubren el dominio de definición de la variable. eligiendo clases iguales de magnitud 0.... se definen clases. Una variable estadística es continua si toma sus valores en un conjunto continuo... 2... 3. .. CASO DE UNA VARIABLE CONTINUA. a3 = 2 . a2 = 1 .4.......... Se define.2 r2 f2 c2 0...1 r1 f1 c1 0. n=8 a1 = 0 .. k = 4 r1 = 1 .. ak rk fk y dibujar un diagrama de frecuencias: f2 f1 fk a1 a2 ak I....fi = se tiene entonces la relación : k ri n å fi = 1 i =1 Ejemplo: Sea la muestra M = { 0.. ...... f4 = 1/8 En el caso general se puede construir la siguiente tabla: X ri fi a1 r1 f1 a2 r2 f2 . un intervalo del eje real............ x2..2 ≤ x < 0. Para reducir una muestra M = { x1.. r2 = 3 ............. .. 1. . a4 = 3 . f3 = 3/8 .1 ≤ x < 0. xn } de una variable continua.

3 0.20 0.10 0.30 0. un mínimo de 8 clases. en Estadística. En el caso continuo también son válidas las relaciones: å ri = n i =1 k .2 0.6 0.0 0.6 c1 c2 ci 0. se recomienda.4 0.5.1 0.2 0.8 0. La figura 2 nos muestra como se construye el diagrama acumulado a partir del histograma.5 0.10 0.20 0.9 ck Fig.2 0.65 0.1 Para construir un histograma. åf i =1 k i =1 I.05 0 F(x) 1 2 3 4 5 6 7 x 1.05 0. 0.85 Fig.fi Histograma f2 f1 fk 0 0.8 0.05 0.4 0.7 0.35 0 1 2 3 4 5 6 7 x 5 . EL DIAGRAMA ACUMULADO Para caracterizar una variable estadística se utiliza también el diagrama acumulado F(x) que representa la frecuencia relativa acumulada en el histograma hasta el punto x.15 0. para lo cual se requiere un mínimo también de 30 datos.

60 valor muy afectado por el dato 4... xn } la medida típica más comúnmente utilizada es la media....02 .En términos intuitivos F(x) representa el porcentaje de valores de la muestra que la muestra que son inferiores a x. Además del histograma y del diagrama acumulado. 1. La mediana esta menos afectada por valores extremadamente altos ( o extremadamente pequeños ) que la media. se define la mediana por : M = y n +1 • Si n es impar : 2 • Si n es par : é y n + y n+2 ù 2 ú M=ê 2 ê ú 2 ê ú ë û Ejemplo : Se dispone de la muestra. existen varios parámetros que caracterizan el comportamiento de una muestra.02 .. Según lo anterior la mediana es el valor xM para el cual se cumple la relación F(xM) = 0.. 0. 0. se tendrá lo siguiente: • Si la variable es discreta.95 . xn } ha sido ordenada de menor a mayor obteniéndose la muestra ordenada M´ = { y1. y2... 1.03} = {y1.10 . definida simplemente por: x= x1 + x 2 + .5 6 .90 .6. y4.≤ yn . . es decir M divide la muestra en dos partes iguales. yn } con y1 ≤ y2 ≤. se calcula. 1.. 4. x2. + x n 1 n = ⋅ å xi n n i=1 En el caso en que los datos se han agrupado en un diagrama de frecuencias o un histograma.95 . 1.. se calcula por : x = å a i ⋅ fi i =1 k k • Si la variable es continua. I. en el ejemplo anterior la media es : x = 1.. 4. y2.10 } Þ M´ = {0. a) Parámetros de Tendencia Central : Los parámetros de tendencia más importantes son la media y la mediana. aproximadamente por : x = å x i ⋅ fi i =1 en que xi es el punto medio de la clase ci.. La mediana tiene la propiedad siguiente : el 50 % de los datos es menor que M y el 50% de los datos es mayor que M. con datos de leyes de Cu siguientes : M = { 0. . y3.02. . x2.. ii) La Mediana : Supongamos que la muestra M = { x1. y5} luego la mediana es M = y3 = 1..90 . i) La Media Aritmética : Sea la muestra M = { x1..03 .. PARÁMETROS DE UNA DISTRIBUCIÓN ESTADÍSTICA.03 La mediana se puede determinar gráficamente utilizando el diagrama acumulado F(x).

Debido a que la varianza es una suma de cuadrados. Para encontrar un indicador de la variación. .3 0.. (x 2 − x). + x n − x .50 Fig... es aquel de una muestra del tipo M = { a .. xn} a : .... (x2 − x) 2 ... La variación de los datos con respecto a la media esta caracterizada por las diferencias : (x1 − x). x2. pero n x + x + .8 0... Por esta razón se define la desviación típica σ como : σ = σ2 7 ...2 XM X b) Parámetros de dispersión : Además de poder encontrar la media de una muestra.. σ2 = o bien : ( x1 − x )2 +( x2 − x )2 +L+( xn − x )2 n σ2 = 1 å (x i − x)2 n i =1 n La varianza constituye una medida de dispersión con respecto a la media y es un número ≥ 0.. (x n − x).. a } con a = cte. (xn − x ) 2 ... es decir una muestra sin variación. la unidad de σ2 es igual a la unidad de la muestra elevada al cuadrado. σ2 se mide en (% de Cu)2.. es decir si X se mide en % de Cu..0 0. resulta importante medir la variación de los datos con respecto a este valor central.. en el único caso en que σ2 = 0 ... Para definir una medida de la variación se toman entonces las diferencias elevadas al cuadrado : ( x1 − x ) 2 Tenemos entonces la definición siguiente : Se llama Varianza de la muestra M = { x1. + x n ε = 1 2 −x = 0 n ε = Luego la desviación promedio es siempre nula..4 0. se pueden promediar estas diferencias : x1 − x + x 2 − x + ... a ..6 0.F(x) 1. Esto proviene del hecho que las desviaciones positivas se cancelan con las desviaciones negativas..

F(x) 1.8 x0.α )% de los valores es mayor que xα. Se llama percentil de orden α ( 0 < α < 1 ). también constituye una medida de dispersión.4 0 Percentil de orden 0. Este valor se puede obtener gráficamente utilizando la función F(x). X0.75 → se llama tercer cuartil.25 La magnitud de R nos da una medida de la dispersión de la muestra ( ver figura 5 ) 8 .8 x El percentil xα divide la muestra de datos en dos partes : el α % de los valores es menor que xα y el ( 1 .25 → se llama primer cuartil.50 → se llama segundo cuartil ( y es la mediana ). definido por : R = x0.75 – x0.La desviación típica está expresada en las mismas unidades de la variable estadística. Como medida de dispersión de la muestra se utiliza el recorrido intercuartílico.0 0.8 Fig. X0. al valor xα tal que f(xα) = α . c) Otras Medidas de Dispersión. Existen tres percentiles importantes llamados cuartiles : X0. Existen otras medidas de dispersión basadas en los cuartiles o percentiles de orden α.

El coeficiente de simetría .75 x 0.25 R Recorrido pequeño 0 R Recorrido mayor x Fig.90 – x0.75 F(x) 1 0.10 Otras medidas que se utilizan para caracterizar el comportamiento de una muestra son el Coeficiente de Simetría y el Coeficiente de Kurtosis. sirve para caracterizar comportamientos tales como : γ>0 γ γ γ<0 γ=0 a) Asimetría Negativa b) Asimetría Positiva c) Simetría Fig.25 0 x 0.6 El Coeficiente de Simetría se define por : γ = En que : µ3 σ3 µ3 = 1 n å (x i =1 n i − x)3 9 . d) El Coeficiente de Simetría .5 Observación : otros autores utilizan como medida de dispersión el recorrido siguiente : R’ = x0.Histograma con poca dispersión Histograma con mayor dispersión x F(x) 1 0.

γ = 0 Þ asimetría nula (simetría). e) El Coeficiente de Exceso o de Kurtosis E. E = 0 Þ Histograma sin “achatamiento” E < 0 Þ Histograma mas “achatado” que la ley de Gauss. el cual tiene por ecuación : Donde : f ( x) = 1 1 æ x −m ö − ç ÷ ⋅ e 2è σ ø 2 σ = varianza de la muestra. El coeficiente de Kurtosis E es una medida del grado de “achatamiento” de un histograma con respecto al modelo teórico de Gauss.7 Al comparar un cierto histograma con la función f(x). se pueden presentar los casos siguientes : El Coeficiente de Kurtosis se define se por: E= µ4 1 n − 3 en que µ 4 = å (x i − x) 4 σ4 n i =1 Se puede demostrar que : .E > 0 Þ Histograma mas “puntiagudo” que la ley de Gauss. γ > 0 Þ asimetría positiva. m = media de la muestra = x .Se puede demostrar que : γ < 0 Þ asimetría negativa. 10 . 2 σ 2π E>0 Gauss E<0 Gauss E=0 Gauss a) Histograma más “puntiagudo” que la ley de Gauss b) Histograma más “achatado” que la ley de Gauss c) Histograma sin achatamiento Fig.

en que X = ley de Pb . y2).. (x2 ... yn) } La agrupación de la muestra se hace mediante una tabla del tipo tabla de contingencia : Y a0 ≤ y < a1 a1 ≤ y < a2 M ap-1 ≤ y < ap X b0 ≤ x < b1 r11 r21 M rp1 b1 ≤ x < b2 r12 r22 M rp2 ..II..8 y x y un histograma en el espacio seria de la forma : Un método más simple para ilustrar los datos bidimencionales es el Diagrama de Dispersión o Nube de Puntos.. .... ... A menudo se realizan experimentos cuyos resultados dan lugar a un par de números o a una serie de números. yn) } Constituye entonces una nube de puntos....... ..... VARIABLES ESTADISTICAS BIDIMENSIONALES.... una muestra de n observaciones es de la forma : M = { (x1 .. (xn . Y = ley de Zn . en que X = ley de Cu . 11 .. Ejemplo : ( X . . Y ... yi ) se consideran como un par ordenado. y1). M . y2). bk-1 ≤ x < bk r1k r2k M rpk Fig... (xn . Y ) . Las dos medidas ( xi .... que puede representarse como un punto en el sistema de coordenadas rectangulares.... Z ) ... y1). (x2 . O bien : ( X .. Y = ley de S. la muestra : M = { (x1 .... y Z = ley de Au En el caso bidimensional.

agregando una columna de productos xi*yi : 12 . (xn . del yacimiento Saelices (España)...9 La figura 9 muestra la nube de correlación ley de U3O8 – radiactividad para 74 muestras. II.. (x2 . . Supongamos que nuestra muestra. M = { (x1 .Fig.10 Existen herramientas para cuantificar los comportamientos anteriores y son la Covarianza y el Coeficiente de Correlación. y2). La figura 10 resume los casos que se podrían encontrar al estudiar dos variables estadísticas X e Y: Fig. y1). yn) } la escribimos en columnas.1 LA COVARIANZA.

(2.75 – 2*2. σ y = å (y i − y) 2 å n i =1 n i =1 ρ es un número sin dimensión que verifica las propiedades siguientes : i) –1 ≤ ρ ≤ 1 ii) Si la correlación es positiva : 0 < ρ ≤ 1 iii) Si la correlación es negativa : -1 ≤ ρ < 0 13 .5 = 0. (2.3) .5 X*Y 1 4 6 12 x y = 5. debido a lo anterior se prefiere usar una cantidad adimencional.4) } X 1 2 2 3 x=2 Y 1 2 3 4 y = 2 .75 Cxy = 5.75 > 0 La unidad de la covarianza es (unidad de x)*(unidad de y). que es el Coeficiente de Correlación. (3.1) . definido por : C ρ = xy σ xσ y en que : σ x = 2 1 n 1 n 2 (x i − x) 2 .2) .X x1 x2 M xn Promedio X Se define la Covarianza entre x e y por : Y y1 y2 M yn Promedio Y X*Y x1*y1 x2*y2 M xn*yn Promedio X*Y c xy = xy − x ⋅ y Lo cual se puede escribir también como : c Se puede demostrar que : i) Si la correlación es positiva : Cxy > 0 ii) Si la correlación es negativa : Cxy < 0 iii) Si la correlación es nula : Cxy = 0 n n n æ öæ ö = 1 å x y − ç 1 å x ÷ç 1 å y ÷ xy n i i çn i ÷ç n i÷ i =1 è i = 1 øè i = 1 ø Ejemplo : calcular Cxy en el caso de la muestra M = { (1.

11 En general m(x) es una función de x. 11) : Fig. Si esta función es una recta se dice que la regresión es lineal (ver fig.1. entonces y = . (ver fig.5 0 0. El valor numérico de m(x0) se puede hallar gráficamente al promediar todos los valores que caen en una franja cercana a x0 (fig. se puede considerar que la correlación (positiva o negativa) es significativa : Correlación significativa . la curva de regresión es una constante.iv) v) vi) Si la correlación es nula : ρ=0 Si ρ = 1.0 .0. La curva de regresión y = m(x) representan el promedio de la variable y para un valor dado de x.0 II. Cuando no existe correlación entre x e y. entonces y = α x + β .5 Correlación debil 1.12a ). con α > 0 Cuando ρ cae en el intervalo achurado.1 LA CURVA DE REGRESIÓN.α x + β . con α > 0 Si ρ = -1. 12b ) (a) Fig.12 (b) 14 .

b) Suceso Imposible : Es aquel que nunca ocurre. 4. Ejemplo: Si al tirar un dado A = { 2. Ejemplos : (i) al tirar un dado Ω = { 1. 2. Escribamos C = A I B. B = { 2. Es fácil ver que suceso seguro y espacio muestral son lo mismo. Lo representaremos por la letra φ .III. e) Sucesos iIncompatible : Dos sucesos A y B se dicen incompatibles si no pueden ocurrir simultáneamente. Se hace necesario introducir un modelo matemático. 2. Se tiene las siguientes relaciones lógicas : A= A . f) Suceso Unión : Sean A y B sucesos. Se designa por la letra Ω. 4. 6 } Sea ε un experimento aleatorio y sea A un suceso. 6 }. 3. 5. si ocurre cuando no ocurre A. entonces A = { 1. 3. Por ejemplo al tirar un dado φ = “sacar el número 7 ” c) Suceso Contrario : A es el suceso contrario de A. La exposición axiomática moderna es el único método riguroso para construir la teoría del cálculo de probabilidades. 4. según la definición : A I B = ∅. 4. En los párrafos anteriores hemos estudiado las situaciones aleatorias desde un punto de vista descriptivo. 2 } . se define la intersección de A y B como el suceso C que ocurre cuando A y B ocurren simultáneamente. En este caso. 6 }. 3. De acuerdo a lo anterior se definen otros tipos de sucesos : a) Suceso Seguro : Es aquel que siempre ocurre. entonces A I B = { 2 }. Se escribe D = A U B. 5. 6 } (ii) al tirar una moneda Ω ={ cara. 15 . 3. sello } Se llama suceso a cualquier subconjunto del espacio muestral Ejemplo : A = “tirar un dado y sacar un número impar” = { 1. CALCULO DE PROBABILIDADES. se define la unión de A y B como el suceso D que ocurre cuando A ó B ó ambos a la vez. φ =Ω d) Suceso Intersección : Sean A y B sucesos. Lo designaremos con la letra Ω. es un suceso ya que es subconjunto de Ω = { 1. Ejemplo: Si A = { 1. Ω =φ . 5 }. 5 }. entonces al hacer un experimento solo caben dos alternativas : • Ocurre el suceso A. Antes de enunciar los axiomas de las probabilidades necesitamos introducir el concepto de sucesos o eventos aleatorios : Sucesos : Sea ε un experimento aleatorio. Se llama espacio muestral al conjunto de todos los resultados posibles. • No ocurre el suceso A.

la probabilidad S 16 .1 DEFINICION AXIOMATICA DE LA PROBABILIDAD Se llama probabilidad de un suceso A a un numero real P(A) que satisface los axiomas siguientes: Axioma 1 : P(A) ≥ 0 Axioma 2 : Axioma 3 : entonces : P(Ω) = 1 Si A y B son sucesos incompatibles. 2 } . no nos dice como se calcula una probabilidad. 6 } entonces A U B = { 1. Ejemplo: Si se tira en S un s punto al azar ( es decir sin apuntar ). 4. se calcula P(A) como una razón de longitudes. de áreas o de volúmenes. de modo que se puede adoptar la definición de probabilidad al fenómeno que se quiere estudiar. 2. es decir A I B = ∅. 6 }. 4. P(A U B) = P(A) + P(B) A B Observación : El sistema de axiomas anteriores es incompleto. A7 A = Ω Se tiene la relacione lógica : Los conceptos anteriores pueden visualizarse mediante los diagramas de Venn de la teoría de conjuntos : Ω A A A A B A1B A7B B A B A A A1B=∅ Fig. iii) En los casos de probabilidades geométricas.Ejemplo: Si A = { 1. Dependiendo de las condiciones del problema.13 III. se calculara la probabilidad de un suceso A por : i) P ( A) = k = Nº de casos favorables a A / Nº de casos totales n ii) nA P ( A) = lim n→∞ n En que nA es el numero de veces que ocurre A en una serie de n repeticiones del experimento. B = { 2.

.3 PROBABILIDAD CONDICIONAL (AIB≠∅) Sea B un suceso del cual sabemos que ha ocurrido. con tres sucesos A. III. A2 = La segunda es un as 17 (4) (5) .Propiedad 2 : P ( A ) = 1 – P( A ) .Propiedad 1 : P( ∅ ) = 0 ......2 CONSECUENCIAS DE LOS AXIOMAS Las propiedades siguientes resultan como consecuencia inmediata de los axiomas : .0045 La formula (3) se puede generalizar para más sucesos. La probabilidad condicional De B dado A se define por : P ( B A) = P( A 1 B ) P ( A) (2) Regla de la multiplicación : De (1) y (2) se deduce que : P ( A 1 B ) = P ( A) ⋅ P ( B A) = P( B ) ⋅ P ( A B ) (3) Ejemplo : Se sacan 2 cartas consecutivamente ( sin devolución ) de una baraja. La probabilidad condicional de un suceso A dado que ha ocurrido B. An : P(A1IA2I.Propiedad 3 : P( A U B ) = P( A ) + P( B ) – P( A I B ) .. se define por : P( A B ) = P( A 1 B ) P( B ) (1) A B Y se llama probabilidad condicional de A dado B.I An-1) Ejemplo : Se sacan 4 cartas consecutivamente ( sin devolución ) de una baraja. A2. por ejemplo... C : P( A I B I C ) = P( A )*P( B çA )*P( C çA I B ) Y para n sucesos A1.de que impacte en s es : P(A) = s / S Las tres maneras de calcular una probabilidad que hemos visto satisface los axiomas. escrita P( A çB )... B..*P(An ç A1I A2I.. Sean : A1 = La primera es un as .IAn) = P(A1)*P(A2 ç A1)*P(A3 ç A1I A2)*. Sean : A = La primera carta es un as B = La segunda carta es un as P( A I B ) = P( A )*P( B çA ) = (4 / 52)*(3 / 51) = 0.. III...

CAB } T = { ACB. ACB.A3 = La tercera es un as . CAB } Luego : P( S ) = 3/6 = 1/2 = P( T ) P(S I T ) = 2/6 = 1/3 P( S çT ) = P(S I T ) / P( T ) = (1/3) / (1/2) = 2 / 3 Luego S y T no son independientes porque P( S çT ) ≠ P( S ). ¿ Son independientes S y T ? Solución : Ω = { ABC. CAB. ACB. En términos formales tendremos la definición siguiente : Definición :Dos sucesos A y B son independientes si : P( A çB ) = P( A ) (6) Al introducir la ecuación (6) en la ecuación (3). CBA } S = { ABC. B y C. se tiene que si A y B son independientes. se tiene : P( B çA ) = P( B ) Ejemplo : Se ponen al azar en una fila 3 personas A. entonces: P( A I B ) = P( A )*P( B ) (7) Al introducir (7) en (2). P( T ). BAC. Sean los sucesos : S = “ A esta a la izquierda de B ” T = “ C esta a la izquierda de B ” Encontrar P( S ). CBA } S I T = { ACB.0000037 III. A4 = La cuarta es un as : P(A1IA2IA3IA4) = (4 / 52)*(3 / 51)*(2 / 50)*(1 / 49) = 0. 18 . P(S I T ). BCA. P( S çT ).4 SUCESOS INDEPENDIENTES En términos intuitivos dos sucesos A y B son independientes si la ocurrencia de B no afecta la ocurrencia de A. CAB.

Se puede observar que una variable aleatoria es la transposición teórica de una variable estadística. 8. 4. Sea X = “ numero de caras ”. a cada valor posible xi le asociamos un valor p(xi) = P( X = xi ). 5. 1.. xn } b) x x1 x2 xi Variable Aleatoria Continua : es aquella en la cual el rango R es de la forma : R = {x:a ≤ x ≤ b} x a b ( a y b pueden ser eventualmente . Ejemplos: a) X = resultado de tirar un dado b) Y = estatura de un individuo elegido al azar c) Z = resultado de tirar una moneda. llamado probabilidad de xi el cual satisface : a) p( xi ) ≥ 0 b) p(x 1 ) + p(x 2 ) + . 2....∞ y +∞ )... 5. VARIABLES ALEATORIAS Se llama variable aleatoria al resultado de un experimento aleatorio cuando este resultado se puede expresar por un numero. 3. Encontrar R y p(xi).. 6 } b) X = terminación de la lotería Þ R = { 0. 9 } c) X = duración de una ampolleta Þ R = { t : t ≥ 0 } Tipos de Variables Aleatorias : Existen dos tipos de variables aleatorias : a) Variable Aleatoria Discreta : es aquella en la cual el rango R es de la forma : R = { x1.. Z no es una variable aleatoria porque su resultado (C ó S) no es un numero. x3. Ejemplo: a) X = resultado de tirar un dado Þ R = { 1. Se utilizan letras mayúsculas para describir las variables aleatorias. IV. x2. 7..IV.1 DESCRIPCION PROBABILISTICA DE UNA VARIABLE ALEATORIA Definición 1 : Sea X una variable aleatoria discreta.. 6. + p(x i ) + .. 3.. Rango de una Variable Aleatoria : Se llama rango R de una variable aleatoria X al conjunto de todos los valores que puede tomar X. 2. = 1 ⇔ ( p(xi) se llama función de probabilidad ) Ejemplo :Se tiran 3 monedas diferentes al aire. 4. å p(x ) = 1 i i 19 ..

Solución : Los casos posibles del experimento son : Ω = { SSS. se tiene : a P ( X = a) = a es decir la probabilidad del suceso X = a es nula sin embargo esto no significa que el suceso X = a es imposible. CCC } X=0 Luego X=1 X=2 X=3 R = { 0. 3 } p( 0 ) = P( X = 0 ) = 1 / 8 p( 1 ) = P (X = 1 ) = 3 / 8 p( 2 ) = P (X = 2 ) = 3 / 8 p( 3 ) = P (X = 3 ) = 1 / 8 ( Observamos que p(x1) + p(x2) + p(x3) + p(x4) = 1 ) Definición 2 : Sea X una variable continua. ò f (x)dx = 0 Ejemplo : Sea X el ángulo que forma un lápiz con una recta fija. SCS. 2. CSS. CSC. la cual satisface : a) b) f( x ) f(x) ≥ 0 ∞ −∞ b ò f(x)dx = 1 1 x P( a ≤ X ≤ b ) c) ò f(x)dx = P(a ≤ X ≤ b) a a b x Observación :en el caso de una variable Aleatoria X continua. CCS. SSC. X es una variable aleatoria continua con función de densidad f(x) como muestra la figura : X L 20 . SCC. entonces existe una función f( x ) llamada densidad de probabilidad. 1.

−∞ x lo que implica : f(x) = dF(x) dx Propiedades de F( x ) : F( x ) satisface las propiedades siguientes : a) b) c) F( . Otra herramienta que sirve para caracterizar probabilisticamente a una variable aleatoria X es la función de distribución de probabilidades. 21 .calculamos P( π/4 ≤ X ≤ π/2 ) : f(x) 1/2π 0 x P(π ≤ X ≤π ) = 4 2 π /2 ò π 1 1 dx = 2π 8 /4 2π La función de Distribución de Probabilidades. La significación intuitiva de la esperanza matemática de una variable aleatoria X es la siguiente : es un valor medio de la variable X. Si X es continua. entonces F( a ) ≤ F( b ) F(x) Fig. según la formula ( c ) de la pagina 22.∞ ) = P( X ≤ . se tiene : F(x) = ò f(x)dx . en que todos los valores que X puede tomar están ponderados por su probabilidad respectiva. Se utiliza la notación E(X) para representar la esperanza matemática.∞ ) = P( ∅ ) = 0 F( + ∞ ) = P( X ≤ + ∞ ) = P( Ω ) = 1 F( x ) es una función que no decrece.2 EL VALOR ESPERADO O ESPERANZA MATEMATICA DE UNA VARIABLE ALEATORIA. definida por F( x ) = P( X ≤ x ) Observación : F( x ) es la transposición teórica del diagrama acumulado ( ver pagina 4 ).14 1 0 x IV. es decir : si a ≤ b.

se define la esperanza matemática de X como : E(X ) = å x i ⋅ p( x i ) i p(xi) Fig.17 E(X) = ò x ⋅ f(x)dx −∞ x Observación : si la variable aleatoria X es continua. 2 }. E(X) = 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6*1/6 E(X) = 3.Ejemplo : Sea X = resultado de tirar un dado.16 x1 x2 xi x b) Sea X una variable aleatoria continua..5 1/6 1 2 3 Fig. 22 . en la cual p( xi ) = P( X = xi ). se define la esperanza matemática de X como : ∞ f(x) Fig. 3. 5.. La definición formal de esperanza matemática de una variable aleatoria es la siguiente : Definición : a) Sea X una variable aleatoria discreta.+ 2 = 3. por ejemplo : M = { 6... con función de densidad f(x).18 E(x) = xG Ejemplo : sea f( x ) como en la figura.. .. se obtendrá..15 4 E(X) 5 6 x La significación de este resultado es la siguiente : si se repite un numero n grande de veces el experimento de tirar un dado y se registran las observaciones de X en una muestra.5 n O sea que la esperanza matemática es un promedio teórico de la variable X. E( X ) representa la abscisa del centro de gravedad de la masa ubicada bajo la curva f( x ) : ∞ xG = Centro de Gravedad f(x) G −∞ ∞ ò x ⋅ f(x)dx −∞ = E(X) ò f(x)dx es igual a 1 Fig. y en condiciones ideales debería tenerse : x = 6 + 3 + 5 + 5 + .. 5...

Entonces :

1 1 E(X) = ò x ⋅ dx = ⋅ xdx b−a b−a ò a a
E(X) = 1 éx ù b −a b+a = ⋅ê ú = b − a ë 2 û a 2(b − a) 2
2 2 2 b

b

b

Fig.19
f(x) 1/(b-a) a E(x) b

Esperanza Matemática de una Función de X Sea H( X ) una función de X, se define la esperanza de H( X ) por : a) b) Si X es discreta Si X es continua : :

E[H(X)] = å H(x i ) ⋅ p(x i )
i

E[H(X)] = ò H(x) ⋅ f(x)dx
−∞

Ejemplo : En el caso anterior encontrar E( X2 ), ( H( X ) = X2 )

E(X 2 ) = ò x 2 ⋅
a

b

1 1 dx = ⋅ x 2dx b−a b−a ò a

b

E( X 2) =

b 3 − 3 (b − a) ⋅ ( b2 + ab + a 2) ( b 2 + ab + a 2) 1 é x3 ù ⋅ê ú = b a = = 3 3 ⋅ (b − a) b − a ë 3 û a 3 ⋅ (b − a)

Propiedades de la Esperanza Matemática. Las siguientes son las propiedades de la esperanza matemática, las cuales se pueden probar apartir de la definición : • Propiedad 1 : E( C ) = C
• •

Propiedad 2 : Propiedad 3 :

E( X + C ) = E( X ) + C E( X * C ) = C * E( X )

Las propiedades 2 y 3 se generalizan de la siguiente forma :

E(α ⋅ X + β ) = α ⋅ E(X ) + β ( α y β = cte. )
La Esperanza matemática constituye una medida de tendencia central de una distribución teórica de probabilidades. Por analogía de lo que vimos en Estadística Descriptiva, definiremos una medida de dispersión teórica : La Varianza. IV.3 LA VARIANZA DE UNA VARIABLE ALEATORIA.

Definición : Se llama varianza de una variable aleatoria X a la cantidad :
23

V(X) = E(X − m ) 2 V(X) = E(X 2 ) − m 2

(1) (2)

Donde m = E( X ). Se puede demostrar, al desarrollar (X − m) 2 = X 2 − 2mX + m 2 que :

Ejemplo : en el ejemplo de la pagina 22, encontrar V( X ). Solución : utilizando la ecuación ( 2 ) y las expresiones de m y E( X2 ), se tiene :

b2 + ab + a 2 æ b + a ö (b − a) 2 V(X) = −ç ÷ = 3 12 è 2 ø

2

( ver figura 20 )

f1(x)
X X’

f2(x´)
a b V( X ) = (b – a)2 / 12 a’ b’ V( X' ) = (b' – a')2 / 12

V( X ) < V( X' )

Menor dispersión

Mayor dispersión

Fig.20 : Comparación de varianzas para 2 variables X y X'
La varianza es una medida de la dispersión de los valores que toma la variable aleatoria, con respecto a la esperanza matemática. Observación : a) El numero positivo V( X ) se expresa en unidades cuadradas de X. Por esta razón se define la desviación típica de X como :

σ x = V(X)
σx constituye también una medida de dispersión.

b)

Se utilizan otros símbolos para designar la varianza, tales como σx2, D2(X), Var(X), µ2,...

Propiedades de la Varianza. Las siguientes son las propiedades de la varianza, las cuales se pueden probar apartir de la definición :

24

• •

Propiedad 1 : V( C ) = 0 ,en que C es una constante ( en otras palabras, una constante no tiene dispersión ) Propiedad 2 : V( X + C ) = V( X ) ( al sumar una constante la varianza no

Densidad de X

Densidad de Y = X + 2

0

E(X)

1

2

E(X+2)

3

x

Fig.21

varia , ver figura 21 )

Propiedad 3 :

V( C*X ) = C2 * V( X )
Ley de X

( ver figura 22 )
Ley de Y = 4*X

1 0.25 0 V( X ) = 1/12 Fig.22 1 0 4

V( Y ) = 16*V( X ) = 16/12 = 4/3

Las propiedades 2 y 3 se generalizan en la siguiente forma :

V(α ⋅ X + β ) = α 2 ⋅ V(X)

( α y β = ctes. )

25

IV.4 VARIABLES ALEATORIAS MULTIDIMENSIONALES Estudiaremos principalmente el caso bidimensional. y )dxdy = 1 D  iii) P((X. yj ) le asociamos un valor : p( xi . yj ) yj y xi x a) Sea ( X . y)dxdy 26 . la generalización a n dimensiones es inmediata.23 i j åå p(x . Y ) tendremos la definición siguiente : Definición : a) Sea ( X . Y ) una variable aleatoria bidimensional continua (es decir ambas son continuas). yj ) = P( X = xi . Para describir probabilisticamente una variable aleatoria bidimencional ( X . y ) = 1 i j p( xi . Y = yj ) el cual satisface : Fig. y) llamada densidad de probabilidad conjunta que satisface las condiciones : i)  ii) f(x. y) ≥ 0 ∞ ∞ −∞ −∞ ò ò f(x. entonces existe una función f(x . Y ) una variable bidimensional discreta ( es decir ambas son discretas ). a cada resultado posible ( xi . Y ) ∈ D) = òò f(x.

1) . Sea X = “ numero de caras ”. (2.1) p(1.y) f ( x. (c) òò f (x.f ( x. CSC.3) p(0.3) = 1/8 p(2. Y = ÷Nº cara – Nº sellos÷. . SCS. Encontrar p( xi . Cada una decide no esperar más de 10 minutos a la otra. CCS. CSS. (b) D probabilidad de que el resultado caiga en una zona D del plano. CCC } (0. y)dxdy representa la Fig.1) = 3/8 p(3.3) Luego : (1. SCC.3) = 1/8 (3. yj ).y ) Volumen 0 D x y x y Volumen bajo la función f(x. SSC.1) = 3/8 x1 3/8 3/8 1 2 3 x 1/8 0 1 X Y 0 0 1/8 x2 1 3/8 0 x3 2 3/8 0 x4 3 0 1/8 ⇔ 1/8 3 y y1 y2 1 3 Fig.y) es igual a 1.25 Ejemplo 2 : Dos personas deciden juntarse entre las 0 hrs y 1 hrs.24 Ejemplo 1: Se tiran 3 monedas. 27 . Solución : los casos totales y su par ( xi . yj ) asociado son : Ω = { SSS. Si estas personas llegan al azar entre las 0 h y 1 h ¿ cual es la probabilidad de que se encuentren ?.

Y ) es f (x. Porque la personas llegan al azar : f (x .27 estas desigualdades determinan la zona D en la cual se encuentran las personas ( figura 27 ) : 3600 − 2500 11 Probabilidad = Area de D * 1/3600 = = 3600 36 28 . y) = 1 / 360 La altura h vale 1/3600 porque el volumen bajo f ( x .y) D y 60 Fig. y ) es 1. Fig.10 1/3600 10 0 10 60 x volumen 60 D f(x.26 h 60 60 x Conjunto de resultados posibles y Los casos favorables son aquellos definidos por la desigualdades : x – y ≤ 10 y y – x ≤ 10 y = x + 10 60 y = x .Solución : Sea X = instante en que llega la 1ª persona Y = instante en que llega la 2ª persona Variación de X : Variación de Y : 0 ≤ x ≤ 60´ 0 ≤ y ≤ 60´ La densidad de la variable ( X .y) = cte.

. y) f(x. y 2 ) + . Se tiene : ( X = xi ) = ( X = xi .. y )dy −∞ Þ densidad marginal de X.IV..1. yi ) y deseamos conocer p(xi) = P( X = xi ).Y ) una variable aleatoria bidimensional discreta. y j ) i se llama función de probabilidad marginal de Y.... VARIABLES ALEATORIAS INDEPENDIENTES En términos intuitivos. y j ) j p( x i ) = å p(x i .. tendremos la definición siguiente ( ver pagina 17 formula 7 ) : a) Se dice que las variables aleatorias discretas X e Y son independientes si se tiene (para todo xi . y) = f(x) ⋅ g(y) Ejemplo : estudiar si las variables X e Y del ejemplo 1 de la pagina 26 son independientes : Solución : Veamos el cuadro : 29 . en este caso se definen las densidades marginales por : ∞ f(x) = ò f(x.. Y = y2) 7. y1) + p( xi .. Supongamos que conocemos p(xi . a) LEYES MARGINALES DE PROBABILIDAD Sea ( X . En términos formales. = å p(x i ..Y ) continua. tomando probabilidades : p( xi ) = p( xi . IV.. y )dx −∞ ∞ Þ densidad marginal de Y. Y = yj) = P( X = xi )*P( Y = yj ) ⇔ p(xi . Y = y1) 7 ( X = xi . Análogamente : q( y j) = P(Y = y j) = å p(x i . yi) : P( X = xi ... yj) = p(xi)*q(yj) b) Se dice que las variables aleatorias continuas X e Y son independientes si se tiene (para todo x . y j ) j se llama función de probabilidad marginal de X. dos variables aleatorias son independientes si el resultado de una no influye sobre el resultado de la otra.2. b) Sea ( X . g(y ) = ò f(x.

y ) ⋅ f(x .4. Y)] = ∞ ∞ −∞ −∞ ò ò H(x . Y = 1 ) IV. y )dxdy i j i j Utilizando esta definición se pueden establecer los dos teoremas siguientes : • • Teorema 1 : Teorema 2 : E(X + Y) = E(X) + E(Y) Si las variables aleatorias X e Y son independientes. Sea H( X. y j) ⋅ p(x i .Y ) una función de X y de Y. Y ) es continua E[H(X.Y ) por : E[H(X. P( Y = 1 ) = 6/8 = 3/4 Como P( X = 1 . Y)] = åå H( x i . Y = 1 ) = 3/8 P( X = 1 ) = 1/8 . una medida de la dependencia entre dos variables aleatorias X e Y. −∞ ò x ⋅ f(x)dx ⋅ ò y ⋅ g(y)dy = E(X) ⋅ E(Y) −∞ ∞ LA COVARIANZA DE DOS VARIABLES ALEATORIAS x e y Definiremos a continuación una nueva cantidad que nos dará. ESPERANZA MATEMATICA DE UNA FUNCION DE DOS VARIABLES X e Y. Se define la esperanza matemática de H( X . ≠ P( X = 1 ) * P( Y = 1 ).Y ) es continua : ∞ ∞ ∞ ∞ E(X ⋅ Y) = −∞ −∞ ò ò x ⋅ y ⋅ f(x.x y y1 1 y2 3 p(xi) x1 0 0 1 8 1 8 x2 1 3 8 0 3 8 x3 2 3 8 0 3 8 x4 3 0 1 8 1 8 q(yj) 6 8 2 8 Se tiene : P( X = 1 . y)dxdy = ò ò x ⋅ y ⋅ f(x) ⋅ g(y )dxdy −∞ −∞ ∞ E(X ⋅ Y) = IV.3. en cierto sentido. entonces X e Y no son independientes. entonces : E(X ⋅ Y) = E(X) ⋅ E(Y) Como un ejemplo veamos la demostración del teorema 2 en el caso que ( X . Definición : se llama covarianza de X e Y a la cantidad : 30 . Y ) es discreta si ( X . y j ) i j si ( X .

a) Como consecuencia inmediata del teorema 2.. cuando X = Y C xx = E(X 2 ) − [E(X)] = V(X) 2 ( ver formula 2. Fig.C xy = E(XY) − E(X) ⋅ E(Y) ( a veces se utilizan otras notaciones para la covarianza... . σxy..+ Xn ) = V( X1 ) + V( X2 ) +.. luego : V( X + Y ) = V( X ) + V( Y ) (2) La propiedad (2) se puede generalizar para n variables X1.. entonces Cxy = 0... Y también crece. pag.. µxy. Y decrece. 23 ) c) Se puede demostrar que si ( en promedio ) X crece.+ V( Xn ) 31 (3) ....28 Varianza de una suma de variables aleatorias Deseamos encontrar una expresión para la varianza de la suma de variables aleatorias : Z = X+Y: V(Z) = V(X + Y) = E(X + Y) 2 − [E(X + Y)] 2 2 2 = E(X 2 ) − [E(X)] + E(Y 2 ) − [E(Y)] + 2 ⋅ [E(XY) − E(X) ⋅ E(Y)] V(X + Y) = V(X) + V(Y) + 2 ⋅ C xy (1) lo que implica que : Si X e Y son independientes.. X2..y).. entonces : Cxy = 0 b) Se tiene la relación siguiente.. pagina 29. tales como : cov(x... Xn independientes entre ellas: V( X1 + X2 +. entonces Cxy > 0 y que si ( en promedio ) al crecer X.. entonces Cxy < 0. se tiene que : Si X e Y son independientes. kxy ) Propiedades de la Covarianza.

Propiedades de ρxy : • Propiedad 1 : Si X e Y son independientes. entonces : ρxy = 0 • Propiedad 2 : Se tiene la desigualdad siguiente : -1 ≤ ρxy ≤ 1 • Propiedad 3 : Si ρxy = 1. El coeficiente de correlación constituye otra medida de la dependencia entre dos variables aleatorias X e Y.El coeficiente de correlación entre dos variables aleatorias X e Y. entonces Y = α*X + β con α > 0 Si ρxy = -1. Definición : Se llama coeficiente de correlación lineal al cuociente : ρ xy = Cxy V(X) ⋅ V(Y) Se puede observar que ρxy esta íntimamente relacionado con la covarianza. sin embargo ρxy es un numero sin dimensión. entonces Y = .α*X + β con α > 0 y y ρxy = 1 x ρxy = -1 x Fig.29 En la figura 30 se pueden observar distintas situaciones y el ρxy asociado : 32 .

30 33 .Fig.

.V... Sea X = “ numero de repeticiones necesarias ”. BBBA . Poisson.31 1-p a b x respectivamente 1 – p y p ( 0 ≤ p ≤ 1 ) : Se puede probar que : E(X) = a ⋅ (1 − p) + b ⋅ p V(X) = (b − a) 2 ⋅ p ⋅ (1 − p) Ejemplo : se tira una moneda y sea X = 0 si sale cara.. El conjunto de resultados posibles es : Ω = { A .. Comenzaremos por el estudio de los modelos de variables aleatorias discretas : A.. Modelos de variables aleatorias discretas. Variable aleatoria de Bernulli... Variable aleatoria geométrica.. } X=1 X=2 X=3 X = 4 . La variable aleatoria de Bernulli es una de las mas simples. BA . exponencial. El experimento se detiene cuando ocurre por primera vez el suceso A. MODELOS PROBABILISTICOS.. Ocurre un suceso con probabilidad 1 – p. A... 34 .. con probabilidades p Fig.1. etc. El experimento que conduce a una variable aleatoria geométrica es el siguiente : Supongamos un experimento que se repite de manera independiente un numero indefinido de veces.32 0 A. Estudiaremos a continuación una serie de modelos de variables aleatorias unidimensionales : binomiales.2. X = 1 si sale sello : 1/2 1/2 1 x Fig. En cada repetición solo caben dos alternativas : i) ii) Ocurre un suceso A con probabilidad p. BBA . Gauss... Por definición X es una variable de Bernulli ( ó X sigue la ley de Bernulli ) si X toma solamente dos valores a y b.

1/2 1/4 1/8 1/16 1 2 3 4 1/32 5 x Fig. En particular E( X ) = 2.33 0 1 2 3 4 x Se puede demostrar que : E(X) = 1 p V(X) = 1− p 2 p Ejemplo : se tira una moneda hasta que aparezca por primera vez cara. M P(X = k) = (1 − p) k −1 ⋅ p p(1 – p) p(1 – p) 2 Fig.3 La variable aleatoria Binomial. Entonces X = “ numero de lanzamientos necesarios ” sigue una ley geométrica con parámetros p = ½ .Las probabilidades asociadas son : P( X = 1 ) = P( A ) = p P( X = 2 ) = P( BA ) = P( B ) * P( A ) = (1 – p)*p ( por la independencia ) P( X = 3 ) = P( BBA ) = P( B ) * P( B ) * P( A ) = (1 – p)2*p.34 A. El experimento que conduce a una variable binomial es el siguiente : Supongamos un experimento que se repite de manera independiente n veces.p 35 . En cada repetición solo caben dos alternativas : i) ii) Ocurre un suceso A con probabilidad p Ocurre un suceso B con probabilidad 1.

.. BAB...p)2 P( X = 1 ) = P( AB... BAA.. A } X=0 X=1 P( X = 0 ) = 1 – p P( X = 1) = p ii) n = 2 Þ Los términos corresponden al desarrollo de [ (1 – p) + p ]1 Ω = { BB... 3 : i) n = 1 Þ Ω = { B. deducida del teorema del binomio : ænö = P(X = k) = ç ÷ ⋅ p k ⋅ (1 − p) n − k Pk ç ÷ èkø k = 0.B... AA } X=0 X=1 X=2 Los términos corresponden al desarrollo de [(1 – p) + p]2 P( X = 0 ) = P( BB ) = P(B)*P(B) = (1 .... ABB..A } n n n n X=0 X=1 X=1 X=n Sea X = “ numero de veces que aparece A en las n repeticiones ”... BA ) = P(AB)*P(BA) = 2p*(1 .. AAA } X=0 X=1 Los términos corresponden al desarrollo de [(1 – p) + p]3 X=2 X=3 P( X P( X P( X P( X iii) = = = = 0) 1) 2) 3) = = = = (1 – p)3 3p(1 – p)2 3p2(1 – p) p3 Para un valor de n más general. AB. AAB.p) P( X = 2 ) = P( AA ) = p2 iii) n = 3 Þ Ω = { BBB. se tiene la formula siguiente. ABA.. BAB. BBA. Para deducir una formula general estudiemos los casos n = 1. 1. BA... entonces : 36 .... n en particular : P0 = P( X = 0 ) = (1 – p)n Pn = P( X = n ) = pn Se puede probar que si X sigue una ley binomial con parámetros n y p... ABB.B. . 2.AAA..B.El espacio muestral asociado al experimento es : Ω = { BB.

1)5 ⋅ (0.99) 200 − r è r ø Este valor se puede calcular de manera exacta o bien se puede calcular de manera aproximada utilizando el siguiente teorema : n λk ⋅ e − λ lim æ ö pk ⋅ (1 − p) n − k = ç ÷ n →∞ k k! np=λ è ø 37 . el valor de ç ÷ se calcula por : ç ÷ èkø èkø n! ænö ç ÷= è k ø k!(n − k)! con : k! = 1 ⋅ 2 ⋅ 3 ⋅ . Por ejemplo.5)4 = 1 / 16 La esperanza matemática de X es : E(X) = n*p = 4*1/2 = 2. Si la empresa dispone de 30 camiones ¿ cual es la probabilidad de que haya exactamente 5 camiones averiados ? Sea X = “ numero de camiones averiados ” æ 30 ö P( X = 5) = ç ÷ ⋅ (0.01) r ⋅ (0. entonces X = “ numero de hijos varones ” es una variable binomial de parámetros n = 4 .102 è5ø ( Observar que E(X) = n*p = 3 ) A. resultado que corresponde a la intuición.... Además : P( X = 4) = (0. æ ö ænö En la formula P k = P(X = k) = ç ÷ ⋅ p k ⋅ (1 − p) n − k .1. p = 0.4. La variable aleatoria de Poisson. ⋅ k n y 0! = 1 ( por definición ) Ejemplo : Se sabe que la probabilidad de que un camión este averiado a la entrada de un turno es p = 0.9) 25 = 0. se ha determinado que la probabilidad de que aparezca una pieza defectuosa es p = 0.01 y se reúnen las piezas en cajas de 200 piezas.E(X) = n ⋅ p V(X) = n ⋅ p ⋅ (1 − p) Ejemplo : Sea una familia de n = 4 hijos..5. la probabilidad de que en la caja existan r piezas defectuosas es : æ 200 ö P(X = r) = ç ÷ ⋅ (0. Es frecuente encontrar en la practica situaciones en que se aplica la Ley Binomial con p muy pequeño y n muy grande.

de las cuales D = p*N son defectuosas (luego N – D = N – p*N =N(1.35 0 1 2 3 x Lo anterior significa que la Ley de Poisson aproxima bien a la binomial cuando n es grande y p pequeño. 2.. El experimento que conduce a la ley hipergeometrica es el siguiente : Sea un lote de N piezas. Estas probabilidades Pk. 1.99)197 = 0. una a una y sin devolver al lote.1805 3! Esperanza matemática y varianza : Se puede demostrar que la esperanza matemática y la varianza de la Ley de Poisson están dadas por : E( X ) = λ V( X ) = λ A. con λ = n ⋅ p = 200 ⋅ 0. Ejemplo : en el caso anterior de las piezas defectuosas : æ 200 ö P(X = 3) = ç ÷ ⋅ (0. Se tiene entonces : Pk = P(X = k ) = λk ⋅ e − λ k! k = 0... limites de las probabilidades binomiales cuando n→∞ y n*p = λ = constante.El limite anterior significa que n tiende a infinito manteniendo constante e igual a λ el producto n*p ( esto implica que p debe ser pequeño ). n piezas : 38 .01) 3 ⋅ (0.1813 è 3ø utilizando Poisson. La Ley Hipergeometrica.1 y si n*p < 5.01 = 2 : P(X = 3) ≅ 23 ⋅ e −2 = 0.. constituyen la llamada Ley de Poisson. P2 P1 P0 Fig.. se considera que la aproximación es buena si p < 0.5.p) son aceptables) Se sacan al azar.

Sea X una variable aleatoria continua. Solución : N = 20 .24 P(X = 5) = æ 20 ö æ 20 ö ç ÷ ç ÷ è 10 ø ç ÷ è 10 ø ( En este caso E(X) = n*p = 10 * 0.36 Sea X = “ numero de piezas defectuosas en la muestra de n piezas ”. B.8 . p = 0. n = 10 . Se dice que X sigue una ley uniforme si su densidad f(x) esta dada por : 39 .1. D = 8 . La variable Aleatoria Uniforme.4 = 4 ) B.p*N defectuosas N – p*N no defectuosas Muestreo sin reemplazamiento ? (n≤N) N piezas n piezas Fig. calcular la probabilidad de que existan 5 peces coloreados. Se pescan 10 peces. Modelos de variables aleatorias continuas. Los valores que toma X son los que define la desigualdad : Máximo entre 0 y D – N + n ≤ x ≤ Mínimo entre n y D Se puede demostrar que : a) æ Dö æ N − Dö ç ÷⋅ç ÷ ÷ ç ÷ ç P(X = k) = è k ø è n − k ø æNö ç ÷ ç ÷ ènø E(X) = n ⋅ p V(X) = n ⋅ p(1 − p) ⋅ (N − n) N −1 b) c) Ejemplo : en un estanque hay 20 peces de los cuales 8 son coloreados. X = “ numero de peces coloreados ” æ 8 ö æ 20 − 8 ö ç ÷⋅ç ÷ æ 8 ö æ 12 ö ç ÷ ç ÷ ç ÷⋅ç ÷ è 5 ø è 10 − 5 ø = è 5 ø è 5 ø = 0.

2π].2.37 x Ejemplo : Sea X el ángulo que forma un lápiz arrojado al azar con una recta fija ( ver pagina 19 ) entonces X sigue una ley uniforme en el intervalo [0 . b] si x ∉ [a .38 0 x Se puede demostrar que : 1 λ 1 V(X ) = 2 λ E(X) = 40 . b] 0 1 b−a a E(x) b f(x) Fig. Se puede demostrar que si X sigue una ley uniforme : b+a 2 (b − a )2 V(X) = 12 E(X) = B. La Ley Exponencial con parámetros λ ( λ > 0 ).f(x) = 1 b−a si x ∈ [a . Se dice que X sigue una ley exponencial con parámetros λ si su densidad esta dada por : λ ⋅ e − λ ⋅x f(x) = 0 si x > 0 si x ≤ 0 λ f(x) Fig.

B.3. La variable aleatoria Gamma. a > 0 ). siendo p un entero > 0 : Γ( p ) = ( p – 1 )! Se dice que una variable aleatoria X sigue una ley Gamma con parámetros a y p si su densidad es : f(x) = a p ⋅ e − ax ⋅ y p −1 Γ ( p) 0 si x > 0 ( p > 0 .39 0 x Se puede demostrar que : 41 . Se define en Matemáticas la función gamma Γ( p ) como la integral : Γ( p) = ò e − x ⋅ x p −1dx 0 ∞ la cual presenta la propiedad. si x ≤ 0 Gráfico de f(x) para p > 2 Fig.

su variación conduce a un desplazamiento de la curva a lo largo del eje x. p (p + q) ⋅ (p + q + 1) 2 La variable aleatoria normal o gaussiana.q) como : B(p. al variar σ se altera la forma de la curva . Se define en Matemáticas la función Beta B(p. q) 0 si 0 < x < 1 si x ≤ 0 ó x ≥ 1 (p>0 .4. es fácil de ver que el máximo de f(x) es igual a : 1 σ ⋅ 2π 42 . La variable aleatoria Beta. Definición: se da el nombre de variable aleatoria normal ( o gaussiana ) a toda variable definida en el eje ( -∞ .5. q) = Γ ( p ) ⋅ Γ( q ) = ò x p−1 (1 − x) q −1 dx Γ(p + q ) 0 1 Se dice que una variable aleatoria X sigue una ley Beta con parámetros p y q si su densidad es : f(x) = x p−1 ⋅ (1 − x) q−1 B(p. en efecto. en el punto x = m . +∞ ) y que tiene la densidad : f(x ) = Se puede demostrar que : 1 σ ⋅ 2π ⋅e 1 æ x −m ö − ç ÷ 2è σ ø 2 E(X) = m V(X) = σ2 El parámetro m no influye en la forma de la curva f(x). En cambio. q>0) Se puede demostrar que : E(X) = p p+q V(X) = B.p a p V(X) = 2 a E(X) = B.

68 P( m-2σ ≤ X ≤ m+2σ ) = 0. Un método mecánico para generar una variable aleatoria gaussiana consiste en la maquina de Galton.7 % m -3σ m + 3σ Fig.95 P( m-3σ ≤ X ≤ m+3σ ) = 0. aumenta el máximo de f(x) : Conviene recordar las siguientes áreas bajo la curva de la ley de Gauss ( Fig.5 Fig. si X sigue una ley de Gauss.2σ m + 2σ 99.σ = 0. Por ejemplo los errores de mediciones siguen como regla una variable aleatoria normal. depositándose en los recipientes inferiores ( Fig.40 σ = 1.41 En símbolos. compuesta por un conjunto de bolillas que son desviadas en su trayectoria por una serie de clavos. con parámetros m y σ : P( m-σ ≤ X ≤ m+σ ) = 0.0 m x o sea que si disminuye σ.41 ) : 68 % 95 % m-σ m+σ m .997 Las variables aleatorias normales aparecen con gran frecuencia en Estadística.42 ) 43 .

Fig.42 B.6. A partir de esta definición se puede demostrar que la función de densidad tiene por expresión : − ç 1 f(x ) = ⋅ e 2è σ ⋅ x 2π 1 æ lnx − m ö 2 ÷ ø si x > 0 si x ≤ 0 f(x ) = 0 44 . Definición : Se dice que una variable aleatoria X sigue una Ley Lognormal si su logaritmo (neperiano. La variable aleatoria Lognormal. en base e) sigue una ley normal.

Fig.43 f(x) x 0 La ley lognormal se presenta con frecuencia en el estudio de histogramas asociados con leyes de muestras provenientes de yacimientos mineros. Se puede demostrar que : M = E ( X ) = e m +σ 2 2 æ 2 ö å 2 = V ( X ) = M 2 ⋅ ç e σ − 1÷ è ø 45 .

VI.....0.....44: Densidades de X1 .0 → n è ø o sea que si n es grande. se tiene : æ X + X 2 + .. X2.... la variable aleatoria : Z = X1 + X2 +....+ mn y con varianza V( Z ) = σ21 + σ22 +. entonces cuando n tiende a infinito.... A) La ley de Los grandes números. En la figura 43 hemos representado el caso en que todos Los Xi siguen una ley uniforme en el intervalo [ 0 .... 1 ]. Xn una sucesión de variables aleatorias independientes tales que E(X1) = E(X2) = .. también hemos dibujado la densidad de la ley normal de igual esperanza y varianza.. si n es grande..... Xn de variables aleatorias independientes tales que cada Xi sigue la ley de probabilidad siguiente : 46 ...=E(Xn) = m.. LA LEY DE LOS GRANDES NUMEROS Y EL TEOREMA DEL LIMITE CENTRAL La ley de Los grandes números y el teorema del limite central constituyen uno de los resultados más importantes del calculo de probabilidades.... la probabilidad de que el promedio de las variables sea igual a la esperanza matemática m es muy próxima a 1. Xn una sucesión de variables aleatorias independientes tales que : E(Xi) = mi . X2... V(Xi) = σ2i Entonces.+ σ2n El grado de aproximación entre la variable Z y la ley de Gauss depende evidentemente de n y de la ley de probabilidad de Los Xi. X1+X2 y X1+X2+X3 Ejemplo : Supongamos que se tiene una sucesión X1.. + X n ö Pç 1 = m ÷  1.+ Xn sigue aproximadamente una ley de Gauss con esperanza matemática E( Z ) = m1 + m2 +.. Este teorema pone de manifiesto la importancia que la ley de Gauss : Teorema : Sea X1... B) El teorema del limite central.. Sea X1. n=1 n=1 n=2 n=2 n=3 n=3 0 1 2 3 x Fig.. X2.

ya que expresa que la suma de variables aleatorias.. 1. n El gráfico de pk para n = 10 es : Fig. tienden hacia la ley de Gauss. explica que la ley de Gauss aparezca naturalmente para la representación de tales errores..+ Xn toma los valores 0. al suponerse que el error total resulta de la suma de un gran numero de errores.... 2..45 200 10 2 100 10 2 1 2 3 4 5 6 7 8 9 0 10 Como puede observarse el Teorema del Limite Central explica porqué en tantas aplicaciones aparecen distribuciones normales..½ 0 ½ 1 Es fácil de ver que la variable aleatoria Z = X1 + X2 +. El Teorema del Limite Central explica también porqué en la máquina de Galton las bolillas se depositan según una ley de Gauss. en condiciones muy generales. en que. El ejemplo más clásico e importante es el de Los errores de medida... 1. n con probabilidades : æ n ö æ 1 ön p k = P( X = k ) = ç ÷ ⋅ ç ÷ ç ÷ è2ø èk ø k = 0. 47 .. 2.....

. hechas básicamente bajo las mismas condiciones (para garantizar la independencia).. Teoría de Muestras Para utilizar Los modelos probabilístico que hemos presentado en Los capítulos anteriores es necesario entrar en el mundo empírico y hacer algunas mediciones. lognormal........ en muchos casos es apropiado hacer hipótesis acerca de una variable aleatoria X..VII.... Por ejemplo sea Xi = resultado de un dado ( X1. Xn ... luego debemos obtener algunos valores experimentales de X y después utilizar estos valores de alguna manera apropiada para estimar estos parámetros. X2..... Observaciones : en términos intuitivos una muestra aleatoria de tamaño n de una variable X corresponde a n mediciones repetidas de X. 2.. lo que conduce a un tipo determinado de distribución : normal. LA INFERENCIA ESTADÍSTICA. X2. Formalicemos ahora la noción importante de muestra aleatoria : Definición : Sea X una variable aleatoria con una ley de probabilidad.. X2. Sean X1.. Xn son independientes de manera que el resultado Xi no influya sobre el resultado Xj ( en caso contrario el muestreo de la variable estaría dirigido )... La muestra aleatoria es un conjunto de variables aleatorias ( X1.. Xn ) ( 6...... Las variables X1. En otras palabras la muestra aleatoria es un ente teórico que se considera antes de hacer las mediciones para obtener Los datos.... Xn ) y no es un conjunto de números o datos. X2. n variables aleatorias independientes en que cada una de ellas tiene la misma ley de probabilidad que X. Llamaremos a ( X1. Por ejemplo.. Xn ) una muestra aleatoria de tamaño n de la variable aleatoria X.. gamma.......Sabemos que cada una de estas leyes de probabilidad depende de uno o más parámetros desconocidos.. 5 ) Experimento : “ Tirar n veces el dado ” Muestra numérica de tamaño n o realización de la muestra aleatoria Muestra aleatoria de tamaño n TEORIA Antes de realizar las mediciones PRACTICA Después de realizar las mediciones 48 . X2..

.. valor más grande. Xn ) k = Mín( x1.....). etc.... Xn ) se denotarán por (x1........... Xn ) de la muestra aleatoria X1... los utilizaremos de alguna manera para hacer alguna inferencia acerca de la variable aleatoria X. X2. x2. xn).. + x n x= 1 n n b) S2 = 1 ⋅ n å i =1 (X i − X )2 s2 = 1 ⋅ n å ( x − x) i i =1 2 c) d) K = Mín( X1... En general conviene estudiar Z y no z dado que este último es un número.. x2.... X2...En general.. x2.. X2... X2. Xn .. Se llama estadístico a una función H( X1.... Xn Observación : Un estadístico es una función de X1. X2.... xn de la muestra........... xn ) m = Máx( x1........ por consiguiente : Z = H( X1....... mientras que Z es una variable aleatoria que puede tomar muchos valores y tiene en particular una esperanza matemática E(Z) y una varianza V(Z). xn) una vez realizado el experimento....... xn ) TEORIA : VARIABLES ALEATORIAS PRACTICA : NUMEROS 49 . Los valores numéricos tomados por la muestra ( X1..... + X n n n x + x 2 + . X2..... Xn ) es una variable aleatoria que toma el valor z = H(x1.. En la práctica se trata de resumir este conjunto de valores por características más simples ( por ejemplo su promedio aritmético. valor más pequeño.... X2. x2. x2.. Estadísticos : una vez definidos Los valores x1... Xn ) M = Máx( X1.... Como ejemplo de estadísticos tenemos los siguientes : Experimento mediciones a) X= X 1 + X 2 + ...

M valor más grande o máximo.X se llama promedio muestral. S2 varianza muestral. K valor más pequeño observado o mínimo. 50 .

= V(Xn) = σ2 : i) ii) E( X ) = m V (X ) = σ2 n X −m iv) Para n grande.. la variable Z = 1.. X2.. V(X1) = V(X2) =. a) ESTUDIO DE ALGUNOS ESTADISTICOS.. Xn) tal que E(X1) = E(X2) =. definido por : 51 . Esta propiedad expresa que la esperanza matemática de S2n no es igual a σ2 sino que es igual a n −1 n ⋅σ 2 .VIII. b) El estadístico S2n n Se define la varianza muestral S2n por : 1 S 2n = ⋅ n å(X i =1 2 i − X) Las propiedades más importantes de S2n son : i) E (S 2 n ) = n −1 2 ⋅σ n ii) 1 S 2n = ⋅ n å(X i =1 n 2 2 i − m) − ( X − m ) Observación : La propiedad ( i ) se obtiene al tomar esperanza matemática en ( ii ). en este caso de una muestra aleatoria (X1.. El estadístico X n Se define la media muestral por : 1 X= ⋅ n åX i =1 i Las propiedades más importantes de X son las siguientes. σ n sigue una ley de Gauss de esperanza 0 y varianza Las relaciones ( i ) y ( ii ) resultan de las propiedades de la esperanza matemática y de la varianza..= E(Xn) = m . Por esta razón se prefiere utilizar el estadístico S2n-1... La relación ( iii ) se deduce por aplicación directa del teorema del limite central....

n −1 52 . Sin embargo cuando n es grande n (n≥100): ≅ 1 y da lo mismo utilizar S2n ó S2n-1 .S2 1 n ⋅ S 2n = ⋅ n −1 = n −1 n −1 å(X i =1 n 2 i − X) este estadístico presenta la propiedad : E ( S 2 n −1 ) = σ 2 .

.. Supongamos que la ley de probabilidad de X depende del parámetro desconocido θ.. Por otra parte parece intuitivo que el estimador ( i ) es mejor que el estimador ( ii ) porque el segundo no utiliza toda la información. Parece evidente que el estimador ( iv ) es un mal estimador. + X n ˆ Observaciones : a) Es evidente que al proponer m como estimador del valor verdadero m.IX. 2.. 5... Recordemos que m es una variable aleatoria y por lo tanto ˆ ˆ puede tomar muchos valores. Por ejemplo.. a partir de una muestra aleatoria de X... en el sentido de que siempre proporciona un valor numérico alejado del valor verdadero m. 2.. Veamos los valores numéricos que toman estos cuatro estimadores en una muestra de tamaño 12 obtenida al tirar un dado no cargado : ( X1. Queremos utilizar de alguna manera la muestra ( X1. 4. LA ESTIMACION PUNTUAL. X2. Se pueden definir muchos estimadores del valor de m desconocido : 1 m= ⋅ ˆ n i) åX i =1 n i ii) m= ˆ m= ˆ 1 ⋅ ( X1 + X n ) 2 1 (M + K ) 2 iii) iv) ( M y K son el valor máximo y el mínimo de la muestra ) m = X 1 + X 2 + .5 ˆ 2 mo = ˆ b) c) (1.5 12 1 mo = ⋅ (1 + 2) = 1. supongamos que queremos estimar la esperanza matemática m de una variable X. no esperamos que ˆ m sea exactamente igual a m... 1. En este párrafo consideraremos el problema de estimar uno o más parámetros desconocidos asociados con una ley de probabilidad de una variable aleatoria X.ii). X12 ) i).. 2) 53 .. 2.. Xn ) con el objeto de estimar el valor de θ.. 3. 1. luego m tendrá una cierta distribución de probabilidades y ˆ en particular una esperanza y una varianza. X2. 1.30 = 2. 6.

sin embargo el lector puede repetir muchas veces el experimento ( tirar 12 veces un dado ) y comprobar que en promedio.- 1 ⋅ (6 + 1) = 3.iv).5. definido por : m = X1 + X2 +. un estimador es insesgado si al repetir un numero N grande de veces el experimento de obtener los valores ( x1...+ Xn ˆ no es insesgado ( se dice que es sesgado )... 54 . el estimador de la esperanza matemática m. CRITERIOS PARA LOS ESTIMADORES Definición: Sea X una variable aleatoria con una distribución de probabilidades la cual depende de un parámetro desconocido θ. IX. el estimador que más se acerca al valor verdadero es mo = (M + K )/2.... ˆ d) • • • El ejemplo anterior de origen a las siguientes e importantes preguntas : ¿ Qué características queremos que posea un “ buen ” estimador ? ¿ Cómo decidimos que un estimador es mejor que otro ? Dado un parámetro desconocido θ ¿ Cuál es el estimador óptimo ? En adelante trataremos de precisar los conceptos que hemos discutido y resolver estas interrogantes. debido a que el valor teórico es m = 3. vemos que un estimador es un estadístico.. xn . pero este resultado podría deberse al azar. el promedio de las estimaciones obtenidas es muy próximo al valor desconocido θ....... Xn) una muestra aleatoria de X y sean (x1. o sin desviación sistemática ) si : ˆ E( θ ) = θ Ejemplo: en el ejemplo de la pagina 55. Sea (X1. x2. x2. x2.+ E(Xn) = n*m ≠ m ˆ En términos intuitivos.. Entonces diremos que θ es insesgado ( o centrado..... En efecto : E( m ) = E(X1) + E(X2) +.. luego es una variable aleatoria.. x2. xn) Según esta definición. .1.. Xn) y llamaremos estimación de θ al valor numérico de esta función para los valores x1.... Llamaremos estimador de θ a una función θ de la muestra : θˆ = H(X1.5 2 mo = 30 ˆ mo = ˆ En este ejemplo particular. X2... xn ). el mejor estimador de la esperanza resulta ser (M + K)/2. ˆ xn) los valores muestrales correspondientes. es decir : θˆo = H(x1. X2.. ˆ ˆ Definición: Sea θ un estimador de un parámetro desconocido θ...iii)..

se tiene : ˆ ˆ V( θ * ) ≤ V( θ ) ˆ es decir.47 Observación : Sabemos que la varianza de una variable aleatoria mide su variabilidad respecto a su valor esperado. preferimos θ * a θ porque V( θ * ) < V( θ ). θ ˆ E( θ1 ) = θ θ β ˆ E( θ 2 ) = β ≠ θ Fig.θˆ 1 Ley de probabilidad de un estimador insesgado. θˆ 2 Ley de probabilidad de un estimador sesgado. ˆ ˆ Definición : Sea θ * un estimador insesgado del parámetro θ. Por lo tanto es intuitivamente atractivo exigir que un estimador insesgado tenga varianza pequeña porque de esta manera la variable aleatoria tiende a aproximarse a su ˆ ˆ valor esperado θ. Diremos que θ * es un estimador ˆ insesgado de varianza mínima si para cualquier otro estimador insesgado θ . ˆ ˆ E( θ * ) = E( θ ) = θ θˆ * θˆ θ ˆ valores de θ * ˆ valores que toma θ ˆ V( θˆ * ) < V( θ ) Fig.46 Tenemos entonces un primer criterio para los estimadores : restringirse a estimadores insesgados. θ * es aquel que tiene varianza mínima. entre todos los estimadores insesgados. Luego si θ * y θ son dos estimadores insesgados con funciones de densidad ˆ ˆ ˆ ˆ como la figura 47. 55 .

ˆ ˆ V( θ1 ) < V( θ 2 ) θˆ1 ˆ θ2 θ Fig. porque 2 V(m2 ) = ˆ σ2 . Se puede demostrar que un estimador es convergente si : ˆ LimV(θ ) = 0 n→∞ Ejemplo : a) 1 La media muestral m1 = ⋅ ˆ n i =1 σ2 matemática m. porque V(m1 ) = . valor que no tiende hacia 0 cuando n → ∞. cuando n → ∞ : P (θˆ = θ ) → 1 ˆ esta definición establece que un estimador θ es convergente si al aumentar el tamaño n de la ˆ muestra. sus valores serían más ˆ próximos a θ que los valores que proporciona θ 2 .48 ˆ La decisión no seria tan evidente en el caso de la figura 48 en que θ 2 es insesgado mientras que θˆ1 no lo es. valor que tiende hacia 0 cuando n → ∞. ˆ n åX n i es un estimador convergente de la esperanza b) b) El estimador m2 = ˆ ( X1 + X n ) no es un estimador convergente de m. Estimadores Convergentes Otro criterio para definir estimadores se basa en la siguiente definición : ˆ Definición : Un estimador insesgado θ es convergente si se cumple. θ converge en sentido probabilístico hacia θ. En este caso se preferiría θˆ1 porque a pesar de ser sesgado. 2 56 .

Sin embargo no disponemos de un método que proporcione estimadores. Sea A el suceso que ocurrió : A = “ La primera es blanca y la segunda es negra ”. La probabilidad de A varía con p. Supongamos que hacemos dos extracciones con devolución y que obtenemos la primera blanca y la segunda negra. es decir dado un estimador podemos verificar si es insesgado. uno de ellos es el método de los momentos que consiste en estimar el parámetro desconocido por el momento muestral asociado. bajo condiciones generales.2 METODOS PARA CONSTRUIR ESTIMADORES Hasta ahora solo hemos considerado criterios con los cuales podemos juzgar un estimador.IX. El método de la máxima verosimilitud. Ejemplo: i) Esperanza matemática : m = E(X) ii) Varianza : σ = V(X) 2 1 m= ⋅ ˆ n åX i =1 n i =1 n n i 1 σ2 = ⋅ ˆ n å(X åX i =1 i 2 i − X) iii) Momento de orden k : µk = E(X ) k 1 µk = ⋅ ˆ n k Se puede demostrar que el método de los momentos proporciona estimadores convergentes que no siempre son insesgado y que no siempre son óptimos. Existen varios procedimientos para obtener estimadores. Antes de explicar este método estudiaremos un ejemplo introductorio : Ejemplo : En una urna hay 4 fichas que pueden ser blancas o negras pero se desconoce la proporción : no se conoce el parámetro p = ( número de fichas blancas )/4. convergente. Con estos datos estimar el valor de p. Uno de los métodos más utilizados en Estadística es el método de la máxima verosimilitud el cual proporciona. calcular su varianza y comparar con otros estimadores. estimadores óptimos. El cuadro siguiente resume las diferentes alternativas : Proporción p Probabilidad del suceso que ocurrió : P(A) p = 0 0 B 4 N 0 p = ¼ 1 B 3 N ¼*¾= 3/16 p = ½ 2 B 2 N 2/4 * 2/4 = 4/16 p = ¾ 3 B 1 N ¾*¼= 3/16 p = 1 4 B 0 N 0 57 .

1 porque este valor maximiza la probabilidad del suceso que 2 ocurrió...... + = p(x1) * p(x2) *....... se toma como estimación de θ la solución de la ecuación embargo resulta más simple ( lo cual es equivalente ) de resolver la ecuación : ∂Ln(+ ) =0 ∂θ ∂+ = 0 ... La probabilidad del suceso que ocurrió es ( suponiendo que la variable es discreta ) : + = P( X1 = x1...... ⋅ x n ! x1! x2 ! Ln + = −nλ + (å xi )Lnλ − Ln( x1!⋅ x 2 !⋅... ⋅ = xn ! x1!⋅ x 2 !⋅.. Tendremos así la definición siguiente : ˆ Definición : Se llama estimador de máxima verosimilitud a aquel valor θ que máximiza la función + siguiente.*p(xn) Estimaremos el valor de p por p o = ˆ en que p(xi) = P( Xi = xi ).*f(xn) si Xi es continua en términos matemáticos.. ⋅ x n !) å xi ∂Ln(+ ) Þ = −n + =0 ∂θ λ Þ i =1 −λx estimar el parámetro λ : Ejemplo 2 : En la ley exponencial : f ( x) = λ ⋅ e + =λ ⋅e 1 ˆ λo = ⋅ n åx n i Þ ˆ λ=X − λx1 ⋅ λ ⋅ e − λx 2 ⋅ . sin ∂θ Ejemplo 1 : En la ley de Poisson : p( x) = λ x ⋅ e −λ estimar el parámetro λ : x! λ x1 ⋅ e − λ λ x 2 ⋅ e − λ λ x n ⋅ e − λ e − nλ ⋅ λå xi += ⋅ ⋅ . xn ). ⋅ λ ⋅ e − λx n = λn ⋅ e − λ å xi Ln + = n ⋅ Lnλ − λ ⋅ å xi Þ ∂Ln + n = − å xi = 0 ∂λ λ 58 . X2.. x2. En el caso general supongamos una muestra aleatoria ( X1... esto equivale a admitir que lo que ocurrió era lo más probable.*p(xn) si Xi es discreta f(x1) * f(x2) *. llamada función de verosimilitud.... Xn ) la cual una vez realizado el experimento toma el valor ( x1.... Xn = xn ) + = p(x1) * p(x2) *. X2 = x2.....

.. X n ) c... entonces g( θ ) es el estimador de máxima verosimilitud de g(θ).- sin embargo estos estimadores son sesgados.- d.- e. entonces si n es grande... la ˆ ˆ ley de probabilidad de θ es aproximadamente gaussiana con esperanza θ y varianza V( θ ). Conviene utilizar los estimadores insesgados siguientes : a`= ˆ n ⋅a ˆ n +1 . X 2 . Propiedad 2 : Los estimadores de máxima verosimilitud en el caso de ser insesgado son los mejores estimadores posibles del parámetro θ. • • • Propiedad 1 : Los estimadores de máxima verosimilitud son convergentes.Variable aleatoria de Bernulli : p=x ˆ Variable aleatoria geométrica : p= 1 ˆ x Variable aleatoria binomial con parámetros N y p : æNö p k = ç ÷ ⋅ p k ⋅ (1 − p ) N − k p=x Þ ˆ N ç ÷ kø è Variable aleatoria de Poisson : ˆ λ=x Variable aleatoria uniforme en [a . b] : a = Mín( X 1 . ˆ n +1 ⋅b ˆ b`= n 59 .. • Ejemplos de estimadores máximo verosímiles Los ejemplos que se dan a continuación corresponden a los modelos de variables aleatorias estudiados anteriormente ( ver páginas 38 – 51 ) a. X n ) ˆ . ˆ ˆ Propiedad 4 : Si θ es un estimador de máxima verosimilitud de θ.Þ ˆ λo = n n å xi i =1 Þ ˆ 1 λ= X Propiedades de los estimadores de máxima verosimilitud.b.. X 2 ... ˆ b = Máx( X 1 . ˆ Propiedad 3 : Si θ es un estimador de máxima verosimilitud de θ.

σ ( xi − x ) 2 ˆ ˆ n i =1 g.- Ley exponencial con parámetro λ : ˆ λ=1 x Ley de Gauss con parámetros m y σ : n 2=1⋅ m=x . si n es pequeño conviene utilizar : ˆ σ 12 = ˆ 1 ⋅ n −1 å (x − x) i i =1 n 2 . σ1 (ln X i − m) 2 ˆ ˆ n −1 i =1 h. Ley lognormal con parámetros m y σ : n n 1 2=1⋅ m= ⋅ ln X i . σ (ln X i − m) 2 ˆ ˆ ˆ n n i =1 i =1 n 2 2= 1 ⋅ y un estimador insesgado para σ es .- å å å 60 .- å sin embargo σ 2 es sesgado.f. que es insesgado.

. A.49 d d θˆo θˆo + d ˆ ˆ Es decir la estimación se acompaña de un intervalo [ θ o . por ejemplo E o = 32 años y luego hacemos afirmaciones del tipo : a) b) c) Creo que E verifica : Estoy seguro que : Estoy casi seguro que : Confianza o Seguridad 31 ≤ E ≤ 33 27 ≤ E ≤ 37 22 ≤ E ≤ 42 Intervalo d=1 d=5 d = 10 Error Cada afirmación tiene una medida de la seguridad de que E esté comprendido en el intervalo. sin embargo. θ o + d ] junto a una medida de la probabilidad de que el parámetro verdadero θ sea interior a dicho intervalo... es decir ˆ la obtención de un valor θ o que estime de manera razonable el valor desconocido θ a partir de un ˆ conjunto de valores ( x1. Precisemos estas ideas con un ejemplo intuitivo : Ejemplo :Supongamos que nos preguntan la edad E de una persona. En particular nos preguntamos si es posible encontrar una magnitud d tal que se pueda afirmar con “ certeza ” ( es decir con una probabilidad cercana a la unidad ) que se verifica la desigualdad : θˆo . Para que nuestra afirmación sea buena... a medida que 1-α crece. 61 .X. Xn una muestra aleatoria de una variable X que sigue una ley normal de esperanza m desconocida y varianza σ2 conocida. Hasta ahora nos hemos ocupado de la estimación puntual de un parámetro desconocido θ..xn )... Intervalo de confianza para la esperanza matemática m de una ley de Gauss con σ conocido Sea X1.d Fig. X2..d ≤ θ ≤ θˆo + d θˆo .95. Somos conscientes de que en realidad θ o es una aproximación y aparece la pregunta siguiente : ¿ en qué medida el valor aproximado puede desviarse del valor verdadero θ ?. ESTIMACIÓN POR INTERVALOS DE CONFIANZA.d . Primero hacemos una ˆ estimación puntual. ˆ Al escribir 27 ≤ E ≤ 37 ( E = 32 ± 5 ) con seguridad 1-α diremos que E o = 32 es el valor estimado de E y que d = 5 es el error asociado al nivel de seguridad 1-α.. Los estadísticos han convenido en aceptar una probabilidad de confianza de 1-α = 0. 1-α debe ser grande ( próximo a 1 ). la magnitud del error ( d ) crece. x2.

50 -2 0 2 z Por propiedad de la ley de Gauss ( ver página 46 ) se tiene : P( −2 ≤ Z ≤ 2) = 0.95* P( −2 ≤ X−m ≤ 2) = 0. X2.9. A tal probabilidad la llamaremos probabilidad de confianza del intervalo. Otros intervalos de confianza.64σ ë é ù ê X − 3σ n .9 ). 0.64σ n .6.96 ≤ Z ≤ 1.4.2 + 1 4 ú = ê− 0. X + σ n ú ë û é ê X − 1. X + 1. X + 3σ n ú ë û Intervalo del 68 % de confianza ù nú û Intervalo del 90 % de confianza Intervalo del 99.95 Ley de Z Fig.95 62 .95 n n La ultima relación nos dice que la probabilidad de que el intervalo êX − 2σ é ë n . -0.7 ú ú ê ú ê ë û ë û = Intervalo del 68 % de confianza.95 σ n mediante una transformación algebraica. X4 ) proveniente de una ley de Gauss con m=0 ( que se supone desconocido ) y σ2=1 ( que se supone conocido ). para otros niveles son : ù nú û é ù êX − σ n . 0. X3.95. Encontrar el intervalo del 68 % de confianza y el del 95 % de confianza. 0.3 .96 ) = 0. 0.2 − 1 4 . * Observación : En forma más exacta. llegamos a : P(X − 2σ 2σ ≤m≤X+ ) = 0.7 % de confianza Ejemplo : Se tiene una muestra aleatoria ( X1. X +σ ù nú û ù é ù é ê0.Se puede probar que la variable aleatoria : X−m Z= σ n sigue una ley de Gauss con esperanza 0 y varianza 1. Los valores numéricos resultantes fueron : ( 0. -0. X + 2σ contenga el valor desconocido m es 0. é êX − σ ë n . esta ecuación se escribe :P( -1.

Para encontrar el intervalo de confianza para m en una ley de Gauss con m y σ ( ó σ2 ) desconocidos.2 + 2 4 ú = ê − 0.47 ] [ -0. -0. 0.8. 0.8. se debería obtener que 95 intervalos ( del 95 % de confianza ) contienen el valor desconocido.0. El intervalo de confianza que acabamos de estudiar está restringido al conocimiento de la varianza σ2. será necesario estudiar una nueva ley de probabilidad : La Ley de Student.8 .60 . X2.95 ( -1. X3. -0.02 ] [ -0.2ú ú ê ú ê ë û ë û = Intervalo del 95 % de confianza. este valor también es desconocido.9 ) [ -1. 1. 0.7 ) ( -0. Sin embargo. 0.40 ] [ -0.47 .2 − 2 4 . La Ley de Student. 1.87 ] [ -1. 0. -1. 1.0. en la práctica. Xn . n +1 variables aleatorias gaussianas e independientes tales que E(Xi) = 0 . X + 2σ ù nú û ù é ù é ê0.α = 0.4 ) ( 0. -0.6.. -0.3. 0.52 . X4 ) y obtengamos los intervalos asociados : MUESTRA INTERVALO 1. 1. Repitamos unas veces más el experimento ( generación numérica de X1.. 1.α = 0.51 En términos frecuenciales.8. Sean X0.02 .é ê X − 2σ ë n .62 .68 INTERVALO 1. mientras que 5 intervalos no lo contendrían. 0.4. 1.37 ] I1 I2 I3 I4 Representemos en un gráfico los intervalos obtenidos en las cuatro repeticiones del experimento : Valor desconocido -2 -1 68 % 0 1 2 I1 95 % I2 I3 I4 Fig.1.. 0.9.0.12 . 2.90 ] [ 0.. X1.1 ) ( 0.02 ..5. 1. V(Xi) = σ2 . 0. B.47 ] [ -0. si se repite el experimento 100 veces.97 ] [ -0.10 . Se dice que la variable aleatoria : 63 .

tα ≤ T ≤ tα ) = 1. en tablas figura el valor tα tal que : P( . 64 . σ = 1. La ley de Student se encuentra tabulada.52 Student 0 t El gráfico de f(t) es cercano a la ley de Gauss con parámetros m = 0 .95. que si n > 2 : E(T) = 0 . a partir de esta densidad. Se demuestra que la densidad de T es : æ n +1ö − n +1 Γç ÷ 2 è 2 ø ⋅ æ1 + t ö 2 .α = 0. Si n ≥ 120 la ley de Student coincide con la ley de Gauss. V(T) = n/n-2 Gauss Fig.α Εn la página siguiente se tiene un extracto de una tabla de la ley de Student para 1.T= Xo 1 n 2 ⋅ å Xi n i =1 sigue una Ley de Student con parámetros n ( o con n grados de libertad ). -∞ < t < ∞ ç ÷ f(t ) = n÷ ænö ç è ø nπ ⋅ Γç ÷ è2ø Se obtiene.

064 2.571 2.069 2.303 3.179 2.145 2.776 2.95 n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 n > 120 tα 12.447 2.048 2.074 2.160 2.131 2.060 2.365 2.262 2.021 2.960 65 .306 2.95 P( -tα ≤ T ≤ tα ) = 0.980 1.101 2.093 2.Tabla de la Ley de Student 0.056 2.086 2.228 2.201 2.045 2.95 -tα 0 tα 1-α = 0.042 2.000 1.182 2.110 2.080 2.052 2.706 4.120 2.

de 5 ejemplares de cuerda son : 280. Intervalo de confianza para la esperanza matemática de una ley de Gauss en que σ es desconocido. Estimar la resistencia media m utilizando un intervalo confidencial del 95 % ( suponiendo ley de Gauss ).95 n nø è σ σ ù é ˆ ˆ êX − t ⋅ n .95 Þ P( .64 4 66 . Ejemplo 1 : La resistencia a la rotura.776 ( página 64 ). X + t ⋅ n ú ë û es el intervalo del 95 % de confianza para m.t ⋅ ≤ m ≤ X + tα ⋅ ÷ = 0.tα ≤ X−m ≤ tα ) = 0. Solución : n = 5 Þ de las tablas de la ley de Student con 4 grados de libertad encontramos tα = 2. 285.tα ≤ T ≤ tα ) = 0. expresada en kilos. 270.95 σ ˆ n después de una transformación en las desigualdades.C. ver página 59 ) n −1 sigue una ley de Student con n -1 grados de libertad. 240. 270. Se demuestra que la variable aleatoria : T= X−m å (X i =1 n = i − X)2 X−m σ ˆ n n ⋅ (n − 1) ( en que σ es el estimador : σ = ˆ ˆ å (X i =1 n i − X) 2 . En las tablas de la ley de Student con n -1 grados de libertad encontramos el valor tα tal que ( ver página 64 ) : P( . En este caso m y σ son desconocidos. x= 280 + 240 + 270 + 285 + 270 = 269 5 σ= ˆ (280 − 269) 2 + (240 − 269) 2 + (270 − 269) 2 + (285 − 269) 2 + (270 − 269) 2 = 17. se tiene : σ σ ö æ Pç X .

53 + 2. z2. 1. Ejemplo 3 : La tabla siguiente muestra los resultados de análisis de oro ( en gr/ton ) para 10 muestras enviadas a dos laboratorios químicos diferentes : 67 .57 : σ = 1. 269 + El intervalo es ê269 − ê ú 5 5 ë û es decir [ 247.00 .253 ˆ 29 i =1 De las tablas de la ley de Student con n . con un error relativo : ε = 100*21... .53 0..1 269 A veces se escribe lo anterior como : m = 269 ± 21.1 % Ejemplo 2 : Dos examinadores A y B efectuaron una corrección doble sobre 30 pruebas.. luego el intervalo de confianza para m = E(Z) es : é ù 1.é 2..53 − 2.045 ⋅ ú = ê − 1. Solución : A partir de los datos encontramos los valores numéricos de Z : (-1. − 0.776 ⋅17.9/269 = 8. Þ z = −0.1 = 29 grados de libertad encontramos tα = 2.045.95.25 1.64 ù ú .α = 0.045 ⋅ 30 30 ú ê ê ú ë û ë û 0.. -1) = ( z1. 0. -1. -1.1 .0 -0.9 ( con 95 % de confianza ).53 .. 290.. σ 2 = ˆ 1 30 ⋅ å ( z i − z ) 2 = 1.47 -0.25 ù é ê− 0.776 ⋅ 17... z30 ).06 Debido a que el valor 0 no pertenece al intervalo de confianza.9 247. usando 1 .9 ] 21.9 21. Las notas figuran en la tabla siguiente : A 13 15 12 16 18 15 14 18 17 20 B 14 16 13 16 17 15 15 17 16 17 A 15 16 15 17 16 13 15 11 14 15 B 17 17 15 18 16 14 16 12 14 18 A 17 15 16 18 14 16 15 17 14 15 B 16 15 18 20 15 15 15 19 16 16 Encontrar el intervalo de confianza para la esperanza matemática de la variable Z = Nota de A Nota de B.9 290. − 0.64 2..06ú . podemos afirmar que el examinador A es más severo que el examinador B.47 -1.

1 5.21 .1 5.262 y el intervalo é ù 0.0 0. Se dice que una variable aleatoria : Z = X12 + X22 +.0 0.6 Encontrar si estas diferencias son significativas. 0. es necesario introducir otra ley de probabilidad.262 ⋅ 10 10 ú ê ê ú ë û ë û 0. La ley de Chi-cuadrado.434 ù é ê0.3 6.1 6..6 6. Sea X1. 0.434 0.7 0.8 0..262 ⋅ ú = ê0.3 6.Laboratorio CIMM Laboratorio Bondar Diferencia Z 6. Solución : Se tiene : es : z = 0. Los métodos de calculo de probabilidad permiten demostrar que Z tiene la densidad siguiente : (1) f(z) = z 2 ⋅ e −z 2 ænö 2 n 2 ⋅ Γç ÷ è2ø 0 n −1 si z > 0 si z ≤ 0 68 .1 5..52 .4 1.+ Xn2 sigue una ley de chi-cuadrado con parámetro n ( o con n grados de libertad ).6 6.6 5..2 6.52 + 2.Xn una sucesión de variables aleatorias independientes tales que cada Xi sigue una ley de Gauss con esperanza E(Xi) = 0 y varianza V(Xi) = 1. Para encontrar el intervalo de confianza para la varianza σ2 de una ley de Gauss.3 5.83 Debido a que el valor 0 no pertenece al intervalo.52 − 2.52 0.4 0.434 ˆ ˆ . podemos concluir que el laboratorio CIMM proporciona leyes significativamente más altas que las que proporciona el laboratorio Bondar. σ = 0..2 6..4 6.31 0.4 1.6 5.5 5.0 5. X2.8 6.83ú .3 0.7 0.1 5.8 -0..8 5.21 0.. σ 2 = 0.188 . tα = 2..31 0. D.

n=1 n=2 n=3 n=4 Gráfico de f(z) n=5 0 z Fig.95 ÷ ø 69 . A veces se utiliza la notación χ2n para indicar la ley de chi-cuadrado con parámetro n.54 después de una transformación simple se llega al intervalo del 95 % de confianza para σ2 : 2 æ å (X i − X) 2 å (X i − X) ö ÷ = 0. V(Z) = 2n Las áreas bajo la curva f(z) se encuentran tabuladas.53 Utilizando (1) se obtiene : E(Z) = n . Intervalo de confianza para la varianza σ2 de una ley de Gauss o con n – 1 grados de libertad ).95 Pç ≤ σ2 ≤ ç ÷ b a è ø y el intervalo del 95 % de confianza para σ es : æ å (X i − X) 2 Pç ≤ σ ≤ ç b è å (X i − X) a 2 ö ÷ = 0.95 (fig.95 σ2 Fig.025 0 a 0. n 2 å ( X − X) i La variable aleatoria T = i = 1 sigue una ley de Chi-cuadrado con parámetro n – 1 ( σ2 Para encontrar el intervalo del 95 % de confianza para σ2 determinamos dos números a y b en la ley χ2n-1 tales que : P( a ≤ T ≤ b ) = 0.54) b Þ å (X i − X) P(a ≤ ≤ b) = 0.025 0. D.95 2 Para encontrar el intervalo de confianza para σ2 se utiliza el resultado siguiente : 0.

33 .3778 9.700 3.920 23. -0.72.736 26.33 2.449 16.70 ] = [ 0.12. å (x i =1 10 i − x ) 2 = 6. b = 19.0506 0.337 24.013 17. -1.832 14.34 Hasta ahora todos los intervalo de confianza que hemos estudiado corresponden a parámetros de una ley de Gauss. En el caso de una variable no gaussiana.483 21.02.86.247 3.06. 1.327/19. n = 10 .22. Encontrar el intervalo del 95 % de confianza para σ2 : M = ( 0.237 1.535 19.690 2.327/2.025 0 a n 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 a 0.122 .816 4.845 La tabla adjunta proporciona los valores de a y b. 0.327 = 0.404 5. 70 .348 11.05.831 1.180 2. la solución es aproximada tal como veremos a continuación.25.484 0.95 ) Þ x = 0.703 9 En la tabla anterior.488 28.629 6. -0.025 0 95 0. 1. 2.02 .Ley de χ2n Valores de a y b para el intervalo de confianza para σ2 0.34 ] 0. σ = ˆ 6.143 12. 0.908 b b 7.262 6.119 27.216 0.74. el intervalo es : [ 6.327 . Ejemplo :Los valores siguientes provienen de una ley de Gauss.009 5.70 .13.023 20. con n – 1 = 9 encontramos : a = 2. 6. -0. 0.

deducimos que la variable aleatoria Z : Z= X−m σ n Sigue una ley de Gauss con esperanza 0 y varianza 1 cuando n → ∞.95 Sigue una ley de Gauss con esperanza 0 y varianza 1. se puede aplicar (1) cuando n ≥ 30. Entonces cuando n es grande. Si σ es desconocido. podemos afirmar que ( ver página 61 ) σ σ ö æ Pç X .95 n nø è (1) La diferencia con los casos anteriores es que los intervalos de confianza eran exactos mientras que en (1) se tiene una igualdad aproximada. F. se estima su valor por σ = ˆ puede aplicar (1) cuando n ≥ 100. Sea X una variable de Bernulli. ˆ ˆ 1-p 0 p 1 V(p) = ˆ p(1 − p) x(1 − x) p(1 − p) ˆ ˆ ˆ ˆ Þ V(p) = = n n n 71 . b) æ n ö ç å ( X − X ) 2 ÷ ( n − 1) y se ç ÷ i èi = 1 ø ˆ Sea θ el estimador de máxima verosimilitud de θ entonces cuando n es grande. Intervalo de confianza para la esperanza matemática de una variable aleatoria no necesariamente gaussiana. V(X) = p(1 – p) El estimador máximo verosímil de p es : p = X ( ver página 62 ) el cual verifica : E( p) = p . Ejemplo : En la variable aleatoria de Bernulli. luego : ˆ Aproximación válida cuando n ≥ 100. la variable aleatoria : Z= θˆ − θ ˆ V(θ ) ˆ ˆ P (θˆ − 2 ⋅ V (θˆ) ≤ θ ≤ θ + 2 ⋅ V (θ ) ) ≅ 0.E. Según el teorema del límite central. Intervalo de confianza para parámetros estimados por el método de máxima verosimilitud.2 ⋅ ≤ m ≤ X + 2⋅ ÷ ≅ 0. estimar el parámetro p mediante un intervalo del 95% de confianza. Entonces E(X) = p . Cuando V (θ ) depende de parámetros desconocidos se ˆ ˆ utiliza V (θ ) . luego el intervalo es : . a) Si σ es conocido y si la ley de X no es demasiado asimétrica.

Entonces p=x= ˆ 501 = 0.533] . el intervalo es : 1000 é 0.469.x) x(1 .æ x(1 . 0.501 ⋅ 0.2 ⋅ ≤ p ≤ x + 2⋅ ç n n ÷ ø è Ejemplo numérico : en la propaganda televisiva se entrevistaron n = 1000 personas y 501 personas prefirieron Pepsi.501 ⋅ 0.501 .533 O sea que la probabilidad p = probabilidad de que una persona prefiera Pepsi bien podría ser inferior a 0.469 0.5 ! 72 .499 0.0.501 − 2 ⋅ ú = [0.499 ù ê0.x) ö ÷ ≅ 0.95 Pç x .501 + 2 ⋅ 1000 1000 ê ú ë û 0.

Parece natural no admitir lo primero. ii) O bien la hipótesis es falsa y debemos rechazarla.05 ).XI. Justificación de la regla Debemos concluír una de las dos alternativas siguientes : i) O bien la hipótesis H0 es cierta y se ha producido un suceso S1 de probabilidad muy pequeña ( 0. Las estadísticas de la Polla chilena desde 1934 a la fecha dan los resultados siguientes para las terminaciones ( n = 820 sorteos ) : 97 Fig. S1 Ω P(S1) = α = nivel de significación Entonces si al aplicar el conjunto de experimentos se produce el suceso S1 rechazamos H0 y en consecuencia aceptamos H1. b) Se aplica un cierto número de experimentos ( en el ejemplo : obtención de 819 datos ) y se define un cierto suceso S1 del cual sabemos que si H0 es cierta. Ejemplos introductorios de hipótesis estadísticas a) b) Una fábrica de ampolletas eléctricas debe decidir cuál de dos métodos A ó B da una vida mayor a las lámparas. Ejemplo : Un fabricante asegura que sus ampolletas tienen una vida media mo = 2400 horas.05 ). ¿ Se puede considerar este resultado compatible con la hipótesis que la vida de las lámparas tenga un valor medio mo = 2400 horas ? i) Se fija un nivel de significación α = 0. En caso contrario aceptamos H0. Se supone que σ es conocido y vale σ = 300 horas y que la duración de una ampolleta es gaussiana. luego se admite lo segundo y se rechaza la hipótesis. TEST DE HIPÓTESIS ESTADÍSTICAS.05. 73 . Se toma una muestra de n = 200 ampolletas y esta muestra ha dado x = 2320 horas.55 87 71 83 84 78 80 80 88 72 0 salió 71 veces 1 salió 87 veces 9 salió 88 veces 9 0 1 2 3 4 5 6 7 8 ¿ Se puede afirmar que estos números son equiprobables ? El estadístico aborda este tipo de problemas de la manera siguiente : a) Considera una hipótesis Ho ( en el último ejemplo : H0 = “los números son equiprobables” ) y una hipótesis alternativa H1 ( en el ejemplo : H1 = “los números no son equiprobables” ). S1 tiene una probabilidad muy pequeña ( por ejemplo 0.

Se desea comprobar la hipótesis H0 : m = mo siendo H1 : m ≠ mo.ii) página 61 ) : Se supone que H0 : m = mo = 2400 es verdadera.95 n nø è Utilizando los datos mo = 2400 . por consiguiente se rechaza la hipótesis.2380] . X+ ê n nú ë û 2260 2320 2380 y debemos rechazar la hipótesis porque el valor mo = 2400 no pertenece al intervalo.95 n nø è la cual es equivalente a : σ σ ö æ Pç m o − 2 ⋅ ≤ X ≤ mo + 2 ⋅ ÷ = 0. n = 100.95 2340 Zona de rechazo 2400 Zona de aceptación Fig. σ = 300 . luego se cumple la relación (ver σ σ ö æ Pç X − 2 ⋅ ≤ mo ≤ X + 2 ⋅ ÷ = 0. se tiene : P( 2340 ≤ X ≤ 2460) = 095 Pero resultó x = 2320 . (I) Elegir el nivel de significación α pequeño ( 0. Ley de X cuando H0 es verdadera 0.05 ) (II) Si H0 es cierta. El test de hipótesis que acabamos de estudiar se puede resumir en la receta siguiente : Test de hipótesis sobre la esperanza m de una ley de gauss con σ conocido.2320 + 60] = [2260.56 2460 Zona de rechazo Estudiemos el problema desde el punto de vista de los intervalos de confianza : el intervalo del 95 % para el valor m desconocido es : 2σ 2σ ù é X− → [2320 − 60. se elige un intervalo de P m o − 2σ ( n ≤ X ≤ m o + 2σ n = 0.95 I ) aceptación I tal que : 74 .

Supongamos el caso del test anterior : comprobar la hipótesis H0 : m = mo. ii) A menudo se elige un riesgo α = 0. X2..05.. Si x ∈ I se acepta la hipótesis H0 Si x ∉ I se rechaza la hipótesis H0 Observación : i) No se deben invertir los pasos II y III. Se llama potencia del test a la probabilidad de rechazar la hipótesis H0 cuando el valor del parámetro es m. π ( m) = P( X ∉ I m) 75 . disminuir la probabilidad de un tipo de error implica necesariamente un aumento en la probabilidad del otro tipo de error. es decir el intervalo de aceptación debe ser fijado antes de hacer el experimento. X. Potencia de un test de hipótesis. Xn ) anotando el valor de x . En la práctica un tipo de error puede ser más serio que el otro : el problema específico dispondrá cuál necesita un control más estricto. El único medio para reducir ambos es aumentando n... tal como muestra la tabla siguiente : Decisión → Hipótesis Verdadera Hipótesis Falsa Aceptar Decisión Correcta Error Tipo II Rechazar Error Tipo I Decisión Correcta Observación : En general.m o − 2σ (III) (IV) Se procede a realización de Conclusión : a) b) n mo + 2σ n la extracción de la muestra ( X1. para un valor dado de n.. iii) La decisión de un test de hipótesis no es nunca definitiva y puede ser puesta en tela de juicio luego de otra experiencia. iv) Al hacer un test de hipótesis se pueden cometer dos tipos de errores.. v) La hipótesis H0 se llama hipótesis nula y H1 se llama hipótesis alternativa.

b) rechazar la hipótesis H0 acertadamente.0 Fig. Si I es el intervalo de aceptación de la receta y si m´ ∉ I.57 π(m) Se llama curva de potencial al gráfico π(m) versus m.58 α mo m Observar que si m es muy diferente de mo la probabilidad de rechazar H0 es 1. la probabilidad para que la receta anterior conduzca al rechazo de la hipótesis H0 : m = mo cuando el verdadero valor del parámetro es m. para cada valor de m. En este caso π(m´) π(m´) es la probabilidad de indica de una cierta manera la 76 . En el caso anterior la curva de potencial sería : π(m) 1.0. Observaciones : a) La curva de potencia indica.Ley de X cuando m = mo α/2 1-α mo α/2 I Ley de X cuando m = m I m Fig.

x2.60 m o + 1. 77 .. una vez obtenida la muestra ( x1. el intervalo : [ t1 ... xn ).. lo cual proponemos como ejercicio al lector... t2 ] no cubre el valor del parámetro θo. X2. dada una variable aleatoria X cuya ley de probabilidad depende de un parámetro θ.. En general...64 ⋅ σ n Fig.05 m o − 1.. Luego la curva de potencia ideal sería: 1. Xn .64 ⋅ σ n El caso (a) se utiliza en los siguientes test : i) H0 : m = mo versus H1 : m < mo ii) H0 : m ≥ mo versus H1 : m < mo El caso (b) se utiliza en los siguientes test : i) H0 : m = mo versus H1 : m > mo ii) H0 : m ≤ mo versus H1 : m > mo Relación entre los intervalos de confianza y los test de hipótesis El ejemplo anterior nos muestra que existe una íntima relación entre el intervalo de confianza para un parámetro y el test de una hipótesis relativa al mismo. Esto último permite obtener test de hipótesis a partir de los intervalos de confianza ya estudiados..α Entonces si al hacer la hipótesis H0 : θ = θο..05 mo mo caso (b) 0. debemos rechazar la hipótesis al nivel de significación α.59 Existen otros intervalos de aceptación ( dependiendo del problema ) : caso (a) 0. encontramos dos funciones T1 y T2 ( las cuales dependen de X1. ver páginas 61 – 70 ) tales que : P( T1 ≤ θ ≤ T2 ) = 1 .potencia que tiene el test para descubrir la falsedad de la hipótesis H0.0 mo I c) α m Fig.

La información que proporciona un intervalo de confianza tiene una analogía perfecta con la que da un test, como se ve en el siguiente cuadro :
INTERVALO DE CONFIANZA

a) No cubre al parámetro b) Cubre valores erróneos c) Extensión de la muestra para reducir la longitud del intervalo

TEST DE HIPOTESIS a) Error tipo I b) Error tipo II c) Extensión de la muestra para aumentar la potencia del test

Existen otros test de hipótesis que no se refieren a parámetros de una ley de probabilidad, que son los test de bondad del ajuste, los cuales estudiaremos a continuación XI.1. TEST DE BONDAD DEL AJUSTE

Los test de bondad del ajuste se refieren a la comparación de una observación de datos con una ley de probabilidad teórica. El ejemplo (b) de la página 61 referente a 820 terminaciones de la Polla nos proporciona un caso: supongamos que queremos comparar las frecuencias observadas con las frecuencias teóricas correspondientes al modelo siguiente : P0 P1 P9 n = 829 P0 = P1 =.....= 0.1

0

1

2

3

4

5

6

7

8

9

Fig.61 np0 = np1 =.....= np9 = 82 es la frecuencia teórica de cada valor Se tiene así el cuadro siguiente : Valor 0 1 2 3 4 5 6 7 8 9 Total Frecuencia observada 71 87 83 84 78 80 97 80 72 88 820 Frecuencia teórica 82 82 82 82 82 82 82 82 82 82 820

La hipótesis a comprobar sería : H0 . “ Los valores son equiprobables ”. Existen dos test para comprobar este tipo de hipótesis que son el test de chi-cuadrado y el test de Kolmogorov-Smirnov.
78

El test de Chi - cuadrado : χ2 Sean x1, x2,...., xn los resultados de n observaciones de una variable aleatoria X. Los datos se han agrupado de la manera siguiente : Valor a1 a2 M ak Total Frecuencia observada o1 o2 M ok n Clase c1 c2 M ck Total Frecuencia observada o1 o2 M ok n

Variable discreta

Variable continua

de la observación de esta agrupación y considerando otra información disponible sobre la variable en estudio, se infiere una ley de probabilidad para la variable aleatoria X ( si X es discreta se utiliza p(xi) = P(X = xi ) y si X es continua se utiliza su densidad f(x) ). Esta ley de probabilidad depende de parámetros desconocidos θ1, θ2,.....,θ los cuales se estiman por el método de la máxima verosimilitud. Una vez calculados los parámetros, se calculan las frecuencias teóricas asociadas : Ei = n ⋅ p(a i ) Ei = n ⋅ f(x)dx
ci

i = 1, 2,...., k i = 1, 2,...., k

caso discreto caso continuo

ò

El test de χ2 se basa en la comparación entre los valores observados oi y los valores teóricos Ei, utilizando el resultado siguiente : Teorema : La variable aleatoria k (Oi − Ei) 2 (1) D= Ei i=1

å

χ Fig.62
0 95

2

k-l–1

= Ley de D

0

DMáx

d

sigue una ley de Chi - cuadrado con k - - 1 grados de libertad : χ2 k - - 1 * D varía entre 0 y DMáximo con un 1 - α = 0.95 de probabilidad. Esto nos induce la siguiente regla de decisión :

79

* Este teorema es valido si X sigue la ley inferida, es decir si la hipótesis a comprobar es verdadera; es el número de parámetros desconocidos. Sea Do el valor numérico calculado según la formula (1), entonces : i) ii) Si 0 ≤ Do ≤ Dmáx , entonces se acepta la hipótesis que la variable aleatoria X sigue la ley de probabilidad p(xi) ó f(x). Si Do ≥ DMáx , entonces se rechaza la hipótesis.
k - - 1.

El valor de DMáximo se calcula según las tablas de la ley χ2 este valor para 1 - α = 0.95. Ley χ2n

La tabla siguiente proporciona

Fig.63

0
1 - α = 0.95 n 1 2 3 4 5 6 7 8 9 10 Dmáx

DMáx

3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307

Ejemplo 1 : Comprobar si las terminaciones de la Polla son equiprobables : Solución : El número de parámetros desconocidos es = 0, porque la hipótesis H0 nos proporciona el valor del parámetro p = 0.1. Además k = 10. En la tabla de χ2 10 - 0 - 1 = χ29 encontramos DMáx = 16.919. Ahora calculamos Do ( ver página 77 )
D0 = (71 − 82) 2 (87 − 82) 2 (88 − 82) 2 + + ....... + = 6.537 82 82 82

80

y 1 cuadrado recibió exactamente 5 impactos.... en teoría.05..929 p(1) = P( X = 1 ) = 0.929 p(2) = P( X = 2 ) = (0. Se estudió la variable aleatoria X = “ número de impactos por cuadrado”. Observada 229 211 93 35 7 7 576 Lo anterior significa que de los n = 576 cuadrados : 229 recibieron 0 impactos. 1.P( X < 5 ) = 0.. la suma 227 + 211 + 98 +.. 211 recibieron exactamente 1 impacto. se acepta la hipótesis que las terminaciones de la Polla son equiprobables.929 Calculamos ahora las probabilidades y las frecuencias teóricas : p(0) = P( X = 0 ) = e-0.... el cual se estima por el promedio de los datos : λ = x ( ver página 58 ) : λ o = (0 × 229 + 1× 211 + 2 × 93 + 3 × 35 + 4 × 7 + 5 ×1) 576 = 0.. 2.. p(k) = P(X = k) = k! Existe un parámetro desconocido que es λ.003 → → → → → → np(0) = 227 np(1) = 211 np(2) = 98 np(3) = 31 np(4) = 7 np = 2 Como la ley de Poisson puede tomar. Solución : La ley de Poisson toma los valores 0.170 3 -0.929) e /2 = 0. 1. tal como muestra el ejemplo siguiente.Conclusión : como D0 ≤ DMáx .929 = 0. Se tiene así el cuadro : 81 . En algunos casos en que el dominio de la variable aleatoria X es infinito.. k = 0. obteniéndose el cuadro : Nº Impactos 0 1 2 3 4 5 Total Frec...929e = 0.012 p = P( X ≥ 5 ) = 1 .. La zona ha sido dividida en 576 cuadrados de 500m x 500m. sería inferior a n = 576 ).367 2 -0. 2.. Ejemplo : Un barrio de Londres sufrió durante los bombardeos de la segunda guerra mundial 537 impactos.con probabilidades : λ k ⋅ e −λ .929 p(3) = P( X = 3 ) = (0.929) e /6 = 0.395 -0. se debe tomar un intervalo de agrupación extremo también infinito. Se pide comprobar si X sigue una ley de Poisson. al nivel de significación α = 0.929 p(4) = P( X = 4 ) = (0.929) e /24 = 0. valores mayores que 5 hemos tomado un intervalo infinito al final ( de no ser así.053 4 -0.

es decir a : D = Máx ç F*(x) .. sigue una ley de Poisson.488. Al aceptar nuestra hipótesis concluimos que los bombardeos no apuntaban a zonas específicas dentro del barrio. En la tabla χ26-1-1 = χ24 encontramos DMáx = 9.F(x) ç 82 ..4 y 15 .. Se puede demostrar la propiedad siguiente de la ley de Poisson : si los impactos son al azar ( es decir sin apuntar ). El test de Kolmogorov .16 ) : F*(x) = porcentaje de valores de la muestra que son ≤ x F (x) = P( X ≤ x ) F*(x) = función de distribución empírica F (x) = función de distribución teórica El test toma como medida de disconformidad de las distribuciones empíricas F*(x) al módulo de la mayor diferencia observada entre F*(x) y F(x) ( ver figura 64 ). = 1.Smirnov. El test de Kolmogorov .Nº Impactos 0 1 2 3 4 5 ó más Total Frec.. al nivel α = 0. + = 1. entonces la variable X = “ número de impactos por cuadrado ”. El test se basa en la comparación de las funciones de distribución teórica y empírica ( ver páginas 3 .Smirnov sirve para comprobar la hipótesis de que una variable aleatoria X sigue una ley de probabilidad especificada. Observada 229 211 93 35 7 1 576 Frec.289 D0 = 2 Ei 227 211 i =1 å Conclusión : Se acepta la hipótesis que los datos provienen de una ley de Poisson.05 porque D0 ≤ DMáx . Ahora calculamos D0 : k (1 − 2) 2 (Oi − Ei) 2 (229 − 227) 2 (211 − 211) 2 = + + . Teórica 227 211 98 31 7 2 576 Por otra parte k = 6 ..

65 0.Aceptar la hipótesis si D0 ≤ DMáx ii).Fig.64 Se demuestra que si los datos observados corresponden a una variable aleatoria con función de distribución F(x).Rechazar la hipótesis si D0 > DMáx La tabla siguiente nos proporciona el valor de DMáx para el nivel de confianza 1 .α = 0.95 : 83 ...95 0 DMáx d Lo anterior nos induce la siguiente regla de decisión : i). entonces D sigue una ley de Kolmogorov Kn : Ley de D Fig.

Valor crítico para el test de Kolmogorov .24 0.007 0.500 0.805 0. Teórica 82 82 82 82 82 82 82 82 82 82 820 F*(x) 0.087 0.589 0.Smirnov 1 .29 0.36 820 = 0.000 çF*(x) .600 0.Smirnov a las terminaciones de la Polla.400 0.700 0.013 0.893 1.007 0.56 0. Observada 71 87 83 84 78 80 97 80 72 88 820 Frec.293 0.200 0. Aplicación del test de Chi .900 1.007 0.0475 Conclusión : como D0 ≤ Dmáx.000 ← D0 Se tiene entonces que D0 = 0. Ejemplo : En el año 1897 se produce una peste. 3 contrajeron la peste.005 0.34 0.100 0. aceptamos la hipótesis que los números son equiprobables.F(x)ç 0.α = 0. 10 contrajeron la peste.011 0.491 0.300 0.800 0. A veces un conjunto de datos se clasifica de acuerdo a características en un cuadro llamado tabla de contingencia.41 0.000 F(x) 0.009 0.707 0.013. Solución : Se tiene el cuadro siguiente : Valor 0 1 2 3 4 5 6 7 8 9 Total Frec.396 0. Sobre 147 personas vacunadas.193 0.36 n Ejemplo : Aplicar el test de Kolmogorov . De 127 personas no vacunadas.cuadrado a las tablas de contingencia.26 0.004 0.007 0. En la tabla anterior encontramos D Máx = 1.95 Numero de datos n 5 10 15 20 25 30 40 n > 40 DMáx 0.21 1. Estos datos se pueden clasificar en la tabla siguiente : 84 .

n*P(B)*P(C). P(B) = 1 − P(A) = 261/274 * ˆ ˆ ˆ P(C) = 127/274 . n*P(A ∩ D).C No Vacunad.03 .03 Tenemos entonces las tablas siguientes : * Observación : Solo se han estimado dos parámetros desconocidos : P(A) y P(C). 10 3 13 B No Contam. n*P(B ∩ D) y según la hipótesis será : n*P(A)*P(C). D Vacunadas Total A Contaminad.97 ˆ ˆ n ⋅ P(B) ⋅ P(C) = 120. P( A ∩ D ) = P(A)*P(D) versus P( B ∩ C ) = P(B)*P(C) . P( B ∩ D ) = P(B)*P(D) H1 : Las relaciones anteriores no son verdaderas El número esperado de observaciones en las celdas es : n*P(A ∩ C). n*P(A)*P(D).97 . 117 144 261 Total 127 147 274 n = 274 que es una tabla de contingencia de 2 x 2. n*P(B ∩ C). deben ser estimadas a partir de los datos : ˆ ˆ ˆ P(A) = 13/274 . La hipótesis a comprobar sería : versus H0 : A y B son independientes de C y D H1 : A y B no son independientes de C y D Estas hipótesis se pueden escribir como : H0 : P( A ∩ C ) = P(A)*P(C) . Cuando se consideran estas características es interesante comprobar si son o no independientes. n*P(B)*P(D). ˆ ˆ n ⋅ P(B) ⋅ P(D) = 140. P(D) = 1 − P(C) = 147/274 la estimación de los números esperados en las celdas es ˆ ˆ n ⋅ P(A) ⋅ P(C) = 6. Como ninguna de estas probabilidades es conocida. ˆ ˆ n ⋅ P(A) ⋅ P(D) = 6. 85 . Las otras : P(B) y P(D) fueron calculadas a partir de P(A) y P(C).

66 0 95 2 1 1 ..03 261 Total 127 147 274 Tabla Observada Tabla Teórica Para comprobar la hipótesis H0... Total A Cont. D Vac.12 6.α = 0.841 d Se tiene entonces ( ver página 79 ) : P( D ≤ 3.1 = 1.03) 2 (117 − 120.C No Vac.841 ii).Aceptar H0 ( A y B son independientes de C y D ) si : D0 ≤ DMáx = 3.03 6. 10 3 13 B No Cont.97) 2 (3 − 6.97 140. = número de parámetros desconocidos = 2 ). se utiliza la variable aleatoria : D= (O AC − E AC ) 2 (O AD − E AD ) 2 (O BC − E BC ) 2 (O BD − E BD ) 2 + + + E AC E AD E BC E BD la cual sigue una ley de chi-cuadrado con k .97 140. se tiene : Do = (10 − 6. 120.97) 2 (144 − 140. Total A Cont.841 En el ejemplo anterior.03 120.97 6. 117 144 261 Total 127 147 274 C No Vac.03) 2 + + + = 5.03 Conclusión : Como D0 > DMáx se rechaza la hipótesis H0.97 13 B No Cont.95 0 DMáx = 3.Rechazar H0 si : D0 > DMáx = 3. 6. D Vac. Ley χ Fig. grado de libertad ( porque : k = 4 .841 ) = 0. lo que equivale a aceptar que A y B dependen de C y D.95 . Generalización : El esquema anterior se generaliza al caso de una tabla de contingencia q x r : 86 . es decir la vacuna produce resultados significativos. lo que nos induce la regla de decisión siguiente : i).

. D= åå i =1 j =1 r q (Oij − Eij) 2 Eij sigue una ley χ2k... .. Se tiene la regla de decisión siguiente : i). P(Aq-1) y P(B1). Aq E1q E2q ¦ Erq n•1 n•q n•q Total n1• n2• ¦ nr• n Tabla Observada Tabla Teórica En este caso k = q x r = q .. P(Br-1) porque P(Aq) y P(Bq) se calculan mediante 1 .Rechazar H0 si D0 > Dmáx..... P(B2)... Br ) si D0 ≤ DMáx ii)............. 87 .suma de probabilidades ).. ...= χ2qr-q-r+1 = χ2(q-1)(r-1) En las tablas de la ley de chi-cuadrado con (q-1)(r-1) grados de libertad ( página 80 ) encontramos el valor DMáx... ¦ . P(A2).........B1 B2 ¦ Br Total A1 O11 O21 ¦ Or1 A2 O12 O22 ¦ Or2 . A2.1 = q + r . . B2........ .. ..Aceptar H0 ( A1.2 = número de parámetros desconocidos ( los parámetros desconocidos son : P(A1). Aq O1q O2q ¦ Orq n•1 n•q n•q Total n1• n2• ¦ nr• n B1 B2 ¦ Br Total A1 E11 E21 ¦ Er1 A2 E12 E22 ¦ Er2 ... Aq son independientes de B1..... ¦ .1 + r . .

ANALISIS DE LA VARIANZA.... Mr x1r x2r M xnrr x•r N = n1 + n2 +......+ nr x= n 1 ⋅ x •1 + . El análisis de la varianza se ocupa de las técnicas estadísticas para estudiar inferencias respecto de medias de dos o más muestras....= mr H1 : no todas las esperanzas son iguales Notaciones ........ Sea xij el dato I de la muestra Mj........ Fig. 4... . + n r Ejemplo : En una parte de un yacimiento con tres tipos de rocas R1. R3 se han tomado 3. 5 muestras respectivamente... Las r muestras aleatorias se pueden ordenar en la tabla siguiente: Muestras M1 x11 x21 M xn11 Promedios M2 x12 x22 M xn22 x •2 x •1 ..XII. M . . .67 las leyes se dan en el cuadro siguiente : 88 . Supongamos que tenemos r muestras aleatorias y queremos comprobar la hipótesis : versus H0 : m1 = m2 =.. R2..... + n r ⋅ x •2 n 1 + .

53 0.66 N = 12 Se tiene además : numero total de datos : N = 12 Promedio de todas las observaciones : x = 0. Ley de D = F(r-1 .61 0.71 n3 = 5 x = 0.1) (1) 2 ij . N-r) grados de libertad.73 0.67 0. N-r) 1 .Leyes de Cobre R1 0.77 0.56 0.68 Tenemos entonces la siguiente regla de decisión : DMáx d 89 . N-r) llamada ley de F de Snedecor con (r-1 .95 0 Fig.r) sigue una ley F(r-1 . entonces la variable aleatoria : D= åå (x åå (x j =1 i =1 j =1 i =1 r nj r nj 2 • j .71 n2 = 4 x • 3 = 0.x) (r .59 n1 = 3 x•2 = 0.62 R3 0.68 r=3 x •1 = 0.α = 0.66 En este ejemplo estaríamos interesados en comprobar : H0 : m1 = m2 = m3 versus H1 : “no todas las esperanzas son iguales” Para comprobar este tipo de hipótesis se utiliza el resultado siguiente : si las r muestras son muestras aleatorias de una misma variable X gaussiana.70 0.68 Tipo de Roca R2 0.74 0.x • j ) (N .63 0.95 0.

14 4.97 3. En el caso de ser falsa la hipótesis.00 9.63 3.26.68 – 0.94 5. 9) = F(n1 .76 4.74 – 0.71 6. comprobar la hipótesis : H0 : m1 = m2 = m3 Calculemos primero DMáx.68 – 0. n2) 0.α =0.71 4 225 19.05 4.74 4.73 – 0. F(n1 .51 10.12 6.13 7.71)² + (0.12 4.= mr ) si D0 ≤ DMáx. n2) para 1 .71)² + (0.95 0 DMáx d Fig.28 6.69 3.65)² + (0.10 3 216 19.19 4. ≅ x• r ≅ x luego el numerador de la expresión (1) sería pequeño.00336 90 .95 ) Ley de F de Snedecor n2 1 2 3 4 5 6 7 8 9 10 n1 1 161 18.86 3.95.48 3. Esta regla se justifica porque si la Hipótesis es verdadera.77 – 0.41 4.59)² + (0.33 Ejemplo : En el caso anterior. Debemos utilizar la tabla anterior : F(r–1 .65)² + (0..65)² + (0.48 5 230 19. Calculemos D0 según la fórmula (1).35 4.26 4.61 5.07 3.i). n2) Þ DMáx = 4.Aceptar H0 ( m1 = m2 =. ii).16 9.59)² + (0.55 6.63 –0.30 9.65)² + (0.67 – 0.46 4.56 – 0..99 5. Encontremos el denominador : r nj (x ij − x • j ) 2 (N − r) Denominador = åå j =1 i =1 = [ (0.96 2 200 19.25 9.32 5.71)² ]/9 = 0..62 – 0. entonces debería tenerse que x•1 ≅ x• 2 ≅ .53 4..59)² + (0.79 5. el numerador sería grande.26 5.59 5..84 3.71)² + (0.39 3.53 – 0.12 3..59 5.01 6.71)² + (0. N–r) = F(2 ... La tabla siguiente proporciona los valores de DMáximo en función de n1 y n2 correspondientes a la ley F(n1 .70 – 0.Rechazar H0 si D0 > DMáx.α =0..61 – 0..39 5.69 Valores de DMáximo ( 1 .

59 – 0.71 – 0.66)² + (0.1) = [ (0.01380 ∴ D0 = 4.Numerador = åå (x j =1 i =1 r nj 2 • j .66)² + (0. Luego tenemos que : SST = SSA + SSW åå (x j =1 i =1 •j Luego la ecuación (1) se puede escribir como : D= SSA (r − 1) SSW (N − r) 91 . El termino åå ( x j =1 i =1 r nj r nj ij − x • j ) 2 se llama suma de cuadrados entre grupos ( abreviado : SSW ).59 – 0.59 – 0.66)² + (0. El término − x ) 2 se llama suma de cuadrados entre grupos.65 .x) (r .71 – 0.66)² ]/2 = 0.65 – 0.0.71 –0.66)² + (0.66)² + (0.11 Conclusión : Debemos aceptar H0 porque resultó D0 ≤ DMáx sin embargo el valor de D0 es muy próximo a DMáx.65 – 0.66)² + (0.66)² + (0.66)² + (0.71 – 0. Consideremos ahora la cantidad : = = åå ( x j =1 i =1 2 nj r nj ij − x)2 åå [( x r j =1 i =1 r nj nj ij − x • j ) + (x • j − x ) ] 2 r åå (x j =1 i =1 nj ij − x • j ) + åå ( x • j − x ) + 2 ⋅ åå ( xi j − x • j ) ⋅ (x • j − x ) 2 j =1 i =1 j =1 i =1 r nj es fácil de ver que : 2 El término åå ( xi j =1 i =1 r nj j − x • j ) ⋅ ( x • j − x) = 0 åå ( x j =1 i =1 r ij − x) 2 se llama suma total de cuadrados ( abreviado : SST ).71 – 0.66)² + (0.65 – 0.66)² + (0.66)² + (0.

. el valor que predice la recta para y es a + bxi.. 2. LA REGRESIÓN.. A menudo estamos interesados en una posible relación entre dos o más variables. Estos errores son desconocidos y se asume que son variables aleatorias independientes. x2. Supongamos que se ha graficado la recta y = a + bx.xn son los valores de la variable x que han sido tomados para el estudio.XIII.e1. Podemos sospechar que cuando una de las variables cambia. Es importante expresar tal relación mediante una ecuación matemática que relacione las variables.. se puede proceder a la estimación de los parámetros α y β. la otra también cambia de manera previsible.Los parámetros α y β son desconocidos.x1. La discrepancia es di = yi –a –bxi.. (c). El método de los mínimos cuadrados constituye un método eficiente para estimar los parámetros de la regresión. (b). Al considerar todas las discrepancias.... con esperanza nula y varianza desconocida σ2. Esta ecuación nos servirá para predecir el valor de una variable partiendo del valor de la(s) otra(s) variable(s). El Método de los Mínimos Cuadrados : Si asumimos en forma tentativa que la formulación del modelo es correcta.n å i =1 å i =1 92 . En el punto xi. e3 son los errores aleatorios de la relación lineal.... Si la relación que existe entre la variable x y la variable y es una línea recta.... mientras que el valor observado es yi.. De acuerdo a lo anterior podemos formular el siguiente modelo estadístico : Modelo estadístico : Se asume que Yi está relacionado con Xi por : Yi = α + βXi + ei en que : (a). gaussianas. Regresión Lineal Simple. las variables están relacionadas por : y = αx + β En una situación no determinística es razonable postular que esta relación está afectada por errores experimentales o perturbaciones aleatorias.. i = 1. e2.. se toma : n n 2= D= di (y i − a − bx i ) 2 (1) ..

El principio del método de los mínimos cuadrados es entonces : determinar los parámetros desconocidos de ˆ manera de minimizar D. ˆ Fig. D debería ser pequeño. S 2 = y å (y i − y) 2 = åy 2 i − ny 2 å (x i − x)(y i − y ) = åx ⋅ yi − x ⋅ y ⋅ n Escribiendo D en la forma : D= å (y − a − bx ) = å ((y − y) − b(x − x) + (y − a − bx)) i 2 i i 2 2 2 2 después de una transformación algebraica se llega a : S xy ö æ 2 S 2 ö æ ÷ + ç S y − xy ÷ D = n ⋅ (y − a − bx ) + ç b ⋅ S x − ç Sx ÷ ç S2 ÷ è ø è x ø S xy Lo cual es mínimo si : y − a − bx = 0 . y= 1 n åy i i å (x i − x) 2 = S xy = åx i − nx 2 . y = Costo de producción. Hallar la recta de regresión : 93 . Los valores encontrados se denotan α y β . α = y − β ⋅x ˆ (2) Ejemplo : en una empresa minera se dispone de los datos siguientes : x = Producción en toneladas .70 ˆ Antes de encontrar las expresiones para α y β veamos las notaciones que utilizaremos : ˆ x= S2 = x 1 n 2 i åx i .como medida de la discrepancia global. bS x − =0 Sx (1) Luego : ˆ β= S xy S2 x . Si el ajuste es bueno.

La primera etapa lógica es dibujar los datos.Producción x 1.51 S 2 = 10.9 4.5 4.51 − 0.95 .4 3.5 3. Fig.2 4.23 .8 2.91 Þ ˆ 7. se tiene : x = 2.77 β= 10.0 2.0 Nota : Tanto la producción como el costo han sido multiplicados por constantes.5 Costo y 2.5 3.3 3.8 3.77 ⋅ 2.23 α = 3.24 ˆ ∴ y = 1. Este gráfico nos indicara si el modelo lineal es adecuado.1 4.0 1.0 4.24 + 0. El valor mínimo de D es : D Min = ˆ y utilizando la expresión (2) para β : ˆ D Min = S 2 − β 2 ⋅ S 2 y x S2 y − S2 xy S2 x 94 .91 = 0. S 2 = 6.0 3.1 3.5 3.71 Al hacer los cálculos.0 4.77 ⋅ x ˆ Volvamos a las ecuaciones de la página anterior.85 x y S xy = 7.5 2. y = 3.9501.

deducido de la propiedad (C) es : S ˆ β ± tα ⋅ Sx en que tα se obtiene de las tablas de la ley de Student con parámetro n – 2 ( ver página 64 ).54 0.20 S2 = 0.23 Þ 0. Ejemplo : En el ejemplo anterior. S = 0.785 Propiedades de los estimadores de mínimos cuadrados ˆ ˆ A) los estimadores α y β son óptimos. S α −α ˆ D) T= sigue una ley de Student con n – 2 grados de libertad.se llama suma de cuadrados debida al error a : ˆ SSE = S y − β 2 ⋅ S 2 = x 2 å( y i =1 n i − α − βx i ) 2 ˆ ˆ En el ejemplo anterior : SSE = 6.785/8 = 0. SSE S2 = B) es un estimador insesgado de σ2. Solución : Encontremos el intervalo de confianza para β : ˆ β = 0.77 ± 0.306 (página 64).85 − (0. ii) Inferencias respecto de α. S x = 10.77 1. luego el intervalo es : 0. deducido de la propiedad (D) es : 95 . E( β ) = β y ˆ ˆ tienen varianza mínima. i) Inferencia respecto de la pendiente β ii) El intervalo del 95 % de confianza para β.(α + βx) ˆ ˆ sigue una ley de Student con n – 2 grados de libertad.77) 2 ⋅10.77 . n−2 ˆ S (β − β ) C) Z= x sigue una ley de Student con n – 2 grados de libertad. es decir son insesgados : E(α ) = α . comprobar la hipótesis H0 : β = 0.313 En la tabla de la ley de Student con n – 2 = 8 grados de libertad encontramos tα = 2.098 . æ 1 x2 ö S⋅ ç + 2 ÷ çn S ÷ x ø è E) W= α + βx ∗ .23 = 0. El intervalo del 95 % de confianza para α.00 Conclusión : se rechaza H0.23 = 3. æ 1 (x ∗ − x) 2 ö ÷ S⋅ ç + çn ÷ S2 x è ø Estas propiedades nos sirven para establecer algunas inferencias respecto del modelo lineal.

26 ÷ ø 3.24 . x = 2.5 − 2.68 3.24 1.20 Observación Importante : Se debe tener mucho cuidado al utilizar el modelo lineal para valores x* que están fuera del rango de valores x observados.77 ⋅ x . α = 1.24 + 0.94 ± 0.313 . la estimación para x* = 3. Ejemplo : En el caso anterior y = 1. t α = 2.306 .24 ± 0.23 è ö ÷ → 3. deducido de la propiedad (E) : æ 1 (x * − x) 2 ö ˆ ÷ α + β ⋅ x * ± t ⋅S ç + ˆ çn ÷ S2 x è ø en que tα se obtiene de las tablas de la ley de Student con parámetros n – 2.94 4.95) 2 394 ± 2. Ejemplo : En el caso anterior encontrar el intervalo del 95 % de confianza para α.54 1.94 iii) Predicción de la respuesta media para x = x* El objetivo más importante en un estudio de regresión es el de estimar el valor esperado de Y para un valor específico x = x* : para estimar E(Yú x*) = α + βx* se utiliza el estimador α + β ⋅ x * con ˆ ˆ el siguiente intervalo de confianza. Solución : S 2 = 10. n = 10 . luego el ˆ x Þ intervalo es : 1.70 0.95 .23 .94 y el ˆ ˆ intervalo del 95 % de confianza es : æ 1 (3.313 ç + ç 10 10. S = 0.5 es y = 3. La figura 72 ilustra esta situación : 96 .306 ⋅ 0.æ 1 x2 ö α ± tα ⋅ S ⋅ ç + 2 ÷ ˆ çn S ÷ x ø è en que tα se obtiene de las tablas de la ley de Student con parámetro n – 2.

0 3. Estudio de Residuos. Para validar el modelo sería necesario hacer un test sobre la normalidad de los e i .35 -0.5 3.17 97 . Una de las técnicas más importantes para criticar el modelo es el estudio de los residuos. Sin embargo resulta más simple estudiar el gráfico ˆ residuo – valor de predicción.30 -0. c) Varianza constante.5 3.40 3.1 VALIDACION DEL MODELO LINEAL Recordemos las hipótesis del modelo lineal : a) La relación subyacente es lineal.y y =α + β ⋅x ˆ ˆ Fig. 2. es decir e i versus y i .3 3. el cual.72 Relación verdadera 0 1 Dominio de validez del modelo 5 8 x XIII..55 4.4 3.55 2. xi 1.n.1 4.0 1.25 0. en el ejemplo.94 3..08 0. es el que aparece en la ˆ ˆ figura 73.0 2.. ˆ ˆ Ejemplo : En el caso anterior..8 2.17 -0. b) Independencia de los errores.42 -0.2 4.0 yi ˆ ei ˆ 2.1 3.5 4.71 4. se tiene el cuadro siguiente.5 yi 2.09 0.0 4.8 3.40 2.0 4.5 3.32 3.78 3.32 4. d) Distribución normal.9 4.36 0.10 -0.32 -0. definidos por : ei = yi − yi i = 1.5 2.

como la figura 73.74 Si el ancho de la franja crece (o decrece) con y . 98 . es interesante estudiar el gráfico residuos versus orden en el tiempo.73 Si los puntos forman una franja horizontal con respecto a cero. como en la figura 74. En algunos casos. como en la figura 75. entonces hay que considerar un modelo cuadrático u otro de tipo no lineal.Fig.75 Si se observa un comportamiento sistemático. entonces el modelo es aceptable. entonces la varianza σ2 no ˆ es constante. Fig. en los cuales se conoce el oreden de medición. Fig.

los residuos son nulos y la ecuación α + βx i toma totalmente en cuenta los valores de y : se dice que la relación lineal ˆ ˆ explica los valores de y. Se puede escribir entonces : ˆ x S2 = β 2S2 + SSE y Suma total de cuadrados de y Suma de cuadrados Explicados por la relación lineal (1) Suma de cuadrados De los residuos (no explicada) ˆ x El termino β 2S2 se llama suma de cuadrados debida a la regresión lineal.Fig. Si la recta proporciona un buen ajuste. Otras Comprobaciones en el Modelo Lineal Se puede considerar que el valor observado yi es la suma de dos componentes : y i = (α + βx i ) + ( y i − α − βx i ) ˆ ˆ ˆ ˆ Valor observado de y Valor explicado por la relación lineal Residuo o desviación respecto de la relación lineal En una situación ideal en la cual los puntos están exactamente en una recta. entonces este término comprende la mayor parte de S2y y deja solo una pequeña parte para SSE. SSE es cero. Como medida global de la discrepancia respecto de la linealidad se utiliza la suma de cuadrados debida al error (ver página 94) : SSE = å (y i =1 n i ˆ x − α − βx i ) 2 = S2 − β 2S2 ˆ ˆ y en que : S2 = y å (y i =1 n i − y) 2 es una suma de cuadrados que representa la variación total de los valores y. Como índice del ajuste lineal se utiliza la cantidad : 99 . En la situación ideal en que los puntos están en una recta.76 El gráfico de la figura 76 indica que los residuos consecutivos están correlacionedos.

Esta cantidad está relacionada con el coeficiente de correlación muestral entre x e y (ver página 12).91)2 = 62. El coeficiente de determinación r2 sirve como medida de la linealidad de la regresión.77b) Fig. se debe concluir que la relación lineal no constituye un buen ajuste para los datos.85 Esto significa que el 89 % de la variación de y es explicada por la relación lineal.77 100 . Al introducir r2 la relación (1) queda : S2 = r2 S2 + SSE Þ y y SSE = S2 (1 – r2) y Ejemplo : Encontrar r2 en el ejemplo anterior. Esto puede deberse a dos causas : i) Hay muy poca relación entre las variables (Fig. S2 = 6.89 10. Cuando el valor de r2 es pequeño. S2 = 10.r2 = ˆ x S2 β 2S 2 xy = 2 2 2 Sy Sx ⋅ S y (se utilizó fórmula (2) página 92) llamada Coeficiente de Determinación.57 = 0.77a) ii) La relación subyacente no es lineal (Fig.23 . S2 Solución : r 2 = 2 xy 2 Sx ⋅ Sy S2 = (7. lo cual hace satisfactorio al modelo en este aspecto.57 .23 ⋅ 6. En efecto : r = ρ.85 x xy y Þ r2 = 62.

Para comprobar la falta de ajuste (por ejemplo la situación (b) de la figura 77)..78 En este caso los datos se ordenan según la tabla siguiente.. se utiliza el test F el cual requiere disponer de varios valores de y para un mismo valor de x (ver figura 78). Ley de D Fig... M yknk M yk Se define la suma de cuadrados de errores SSP por : SSP = åå ( y i =1 j =1 k ni ij − yi )2 Se demuestra entonces que la variable aleatoria D= (SSE − SSP) (k − 2) SSP (n − k) (*) sigue una ley F de Snedecor con (k – 2 . 101 . similar a la tabla del análisis de la varianza : Valores Valores Promedios diferentes de x repetidos de y x1 y11 y12 ... D debe ser pequeño..95 0 DMáx d * Observación : si el ajuste es razonable. Fig..79 0. y1n1 y1 x2 ... n – k) grados de libertad...... y2n2 y2 M xk M yk1 M yk2 .El Test F.

Ejemplo : En el conjunto de datos siguientes.Regla de decisión : i) Se acepta el ajuste si D0 ≤ DMáx. 18 13.76 Conclusión : se rechaza el ajuste lineal.786 . ii) Se rechaza el ajuste si D0 > DMáx. x y 2 4 2 3 2 8 3 18 3 22 4 24 5 24 5 18 6 13 6 10 6 16 Reordenando los datos tenemos : x 2 3 4 5 6 y 4.406 . 16 y 5 20 24 21 13 k=5 SS 14 8 0 18 18 SSP = 14 + 8 + 0 + 18 + 18 = 58 Por otra parte : x = 4 .156 .55 . y = 14. En este ejemplo una relación cuadrática resulta mejor que una relación lineal (Fig. S 2 = 571 .62 SSP (n − k) 58 6 En las tablas de la ley F(k –2 . S xy = 50 x y ˆ ˆ x Þ β = 1. 3. xy x y que es un valor muy pequeño. 6) encontramos (ver página 89) : DMáx = 4. S 2 = 28 . n – k) = F(3 . α = 7. 22 24 24. k = 5 ˆ y D0 = (SSE − SSP) (k − 2) ( 482 − 58) 3 = = 14. Hay que considerar además que r 2 = S2 S2 ⋅ S2 = 0. n = 11 . 10. Fig. SSE = S 2 − β 2 S 2 = 482 .). efectuar el test F.8 18.80.80 102 .

17 60 6. En el caso no lineal.47 120 14.97 60 7.7 100 104. y’ = x = x’ y’ = y 40 4. Se obtuvo : Velocidad x Distancia y 40 16. esto puede detectarse por el gráfico de los valores observados y por el cálculo de un r2 pequeño.04 40 5.92 80 8.2 Lo cual proporciona el gráfico siguiente : Fig.3 40 26. Ejemplo : En 10 autos se midieron las variables siguientes : x : velocidad .4 80 65.82 Por otra parte : 103 .74 Fig.26 60 7.5 60 51.6 120 217.81 La observación de la figura 81 nos sugiere utilizar las variables x’ = x . los métodos estadísticos de ajuste son más complicados. el modelo lineal debe aplicarse entonces sobre las variables transformadas.3 80 98.2. Sin embargo.2 60 63.XIII.7 60 39.20 100 12.1 100 155.11 y : 100 10. RELACIONES NO LINEALES En la práctica existen muchos casos en los cuales no es posible ajustar una recta.16 80 9. y : distancia necesaria para detenerse al frenar. en algunos casos es posible transformar las variables de manera de obtener una relación aproximadamente lineal.

x' = x y' = 1 y' = 1 y y . Los conceptos estudiados es este capítulo pueden ser extendidos a situaciones en las cuales existe más de una variable independiente. x' = x y' = lny . Se asume que los errores ei son variables aleatorias gaussianas independientes. siendo yi la respuesta correspondiente.. S 2 = 6440 . Para estimar los parámetros α. que la variable y depende de las variables x’. S 2 ' = 98. Por analogía con el modelo lineal simple.119 . β 1. minimizando la cantidad : D= å(y i =1 n i − α − β 1x i '− β 2 x i "− β 3 x i ' ' ' ) 2 Al derivar parcialmente D con respecto a α. x’’’ ( la generalización a p variables es inmediata). este modelo se llama regresión lineal múltiple. β 1. r 2 = 0..206 + 0. xi”.926 ˆ x y Þ y' = −0.119 ⋅ x ˆ Þ y = ( −0.. Debido a la presencia de más de dos variables. β 3 se utiliza el método de los mínimos cuadrados. x' = x 1 b =a+ y 1+ x y =a + b⋅ x . x' = x La Regresión Multivariable.60 . de esperanza nula y varianza σ2 desconocida. x' = lnx y' = 1 y . y' = 8. β 2.206 + 0.119 ⋅ x) 2 ˆ La tabla siguiente nos muestra algunos modelos no lineales y las transformaciones para obtener una relación lineal : Modelo no Lineal y = a ⋅ e bx y = a ⋅ xb 1 a + bx 1 y= (a + bx) 2 y= Transformación y' = lny . β 2.ˆ x = 74 . 2. llamado sistema normal : 104 . α = −0. β 2. x' = 1 1+ x y' = y . x”. β 1.. xi’’’ son los valores de las variables independientes en el experimento i. S xy' = 766 .n En que xi’. β 3 se llega al sistema de ecuaciones siguiente.41 .206 . se puede formular el modelo siguiente : Yi = α + β 1xi’ + β 2xi” + β 3xi’’’ + ei i = 1. β = 0. Las constantes α. Supongamos. β 3 son desconocidas.

6 4.7 3.10 39.1 59.0 3.51 77. β1 = 0. el sistema normal de ecuaciones proporciona la solución : ˆ ˆ ˆ α = 70.44 77. x’ = Temperatura del proceso.03 39.2 63. Ejemplo : En la Oficina Salitrera de Pedro de Valdivia se observan durante 10 meses las variables siguientes.84 77.1 3.7 3. β 3 = −7.70 40. Los residuos y i − y i = y i − α − β1 x i '− β 2 x i "− β 3 x i ' ' ' son los que figuran en la tabla siguiente : ˆ 105 .40 Granulometría x’’’ 3.1 En este caso. en la planta de concentración : y = Recuperación de la planta en %.41 77.742 ˆ y la ecuación : y = 70.23 + 0.172 ⋅ x"−7.03 40. β 2 = −0.2 55.9 64. Los datos figuran en la tabla siguiente : Recuperación y 60.37 35.867 . Se pusieron calderas y se comprobó que la recuperación subió significativamente. x’’’= Porcentaje de material con granulometría > 0.22 77.1 62.17 39.4 Temperatura x’ 35.172 . x” = Porcentaje de caliche vaciado.6 64.867 ⋅ x'−0.99 77.98 77.7 3.1 4.77 40.23 .0 56.2 60.1 59.5 pulgadas.33 34.742 ⋅ x' ' ' ˆ La ecuación de regresión nos indica que la única variable (de las consideradas) que hace subir la recuperación de la planta es la temperatura.04 77.6 4.ˆ ˆ ˆ β1S 2 + β 2S x'x" + β 3S x'x''' = S x' y x' ˆ ˆ ˆ β1S x'x" + β 2S 2 + β 3S x"x''' = S x"y x" ˆ ˆ ˆ β1S x'x''' + β 2S x"x''' + β 3S 2 = S x'''y x''' ˆ ˆ ˆ α = y − β 1 x' − β 2 x" − β 3 x' ' ' ˆ en que : S2 = x' å i =1 n n ( x i ' − x' ) 2 = i å (x ' ) i i =1 n 2 − nx ' 2 n S x'x" = å (x '− x' )(x "− x" ) = å x '⋅x " − nx' x" i i i i =1 i =1 etc.53 40.87 % Caliche x” 76.9 4.32 76.

58 . Solución : S 2 = 91.313 S2 = SSE/(10-4) = 2. Si llamamos : SSE = å i =1 n ( y i − α − β1 x i '− β 2 x i "− β 3 x i ' ' '−. el estudio de los residuos sirve para validar el modelo.2 60. concluimos en este caso que el modelo lineal múltiple es satisfactorio.52 55. ρ = 0.10 -1. se utiliza el coeficiente de determinación r2.2 55. ρ. (p = número de variables independientes) n − p −1 S se llama desviación standard de estimación y representa..54 -1. SSE. como índice del ajuste lineal..4 yi ˆ 59.6 64. y que : S 2 = Ejemplo : Calcular r2.66 62.85 -1.51 De manera análoga a la regresión simple. − β p x i ) 2 = SSE = S 2 (1 − r 2 ) y (p) å (y i =1 n i − yi )2 ˆ entonces se puede demostrar que : SSE es un estimador insesgado de σ2.37 1.598 Del análisis de los residuos ei y del valor de r2. En el caso multivariable.22 -0. S2 y S en el caso de los datos de salitre.51)2 = 15.913 SSE = (1.10)2 + (-1.73 0.0 56. 106 . Ver páginas 99 – 101.552 .35 64. S yy = y ˆ y ˆ ˆ åy y i i =1 n i − n ⋅ y i ⋅ y i = 76..1 59.833 . definido por : S2 yy 2 r = 2 ˆ2 Sy ⋅ S y ˆ y se llama coeficiente de correlación múltiple a ρ = r.52)2 +.91 ei 1.44 62.+(-0...87 63.1 59.86 ˆ Utilizando la tabla anterior : Þ r2 = 0. la magnitud de los errores ei.yi 60.10 56.52 0.2 63.32 60.1 62.01 59.. S 2 = 77.45 . en cierto sentido. S = 1.73 60.54 1.91 -0.9 64.

. Por ejemplo.La Regresión Polinómica. x” = x2 .... si se desea ajustar la parábola α + β 1x + β 2x2... con : x’ = x . D= å (y i =1 n i − α − β 1x i − β 2 x i ) 2 2 lo cual es mínimo si se cumple el sistema : 2 ˆ ˆ α å x i + β1 å x i + β 2 å x i 3 = å x i y i ˆ 2 3 2 ˆ ˆ α å x i + β1 å x i + β 2 å x i 4 = å x i y i ˆ ˆ ˆ α ⋅ n + β1 å x i + β 2 å x i 2 = å y i ˆ 107 ..+β pxip + ei que es un caso particular del modelo lineal múltiple. x(p) = xp... En el caso en el cual se dispone de una variable independiente se puede suponer un modelo polinómico del tipo : Yi = α + β 1xi + β 2xi2 +..

4 7 6. el investigador podrá realizar cálculos posteriores con una muestra más grande.1 3 4.1 12 Luego se tiene : Wo = 1+2+3+4+7 = 17 c) Regla de decisión : Si la primera muestra presenta una desviación sistemática hacia los “grandes valores”.9 ) Datos Formación 2 : M2 = ( 7. Si la respuesta es positiva. xn1(1) ) M2 = ( x1(2). b) Se calcula la suma de los rangos ri de los elementos de la muestra m1 : W = r1 + r2 +. 4. suponiendo que n1 ≤ n2 a) Se construye la muestra M = M1 7 M2 compuesta de n1 + n2 valores. 15.7. 3. En esta muestra solo nos interesa el orden (rango) de los elementos de cada serie. en general. A. de aquí el término Estadística no Parámetrica.. 6....1. 6. Si la muestra M1 presenta una desviación sistemática hacia los “pequeños valores”..8 10 11.6..4. ESTADISTICA NO PARAMETRICA. ordenados en orden creciente.9... Sean : M1 = ( x1(1). 4. los métodos no parámetricos tienen menor eficacia que los correspondientes métodos paramétricos. Criterio de Wilcoxon de verificación de la Homogeneidad de Dos Muestras.. Sin embargo como regla. 3.1. xn2(2) ) dos muestras. 6.9 5 6. Se obtuvieron los datos siguientes : Datos Formación 1 : M1 = ( 4.1 ) Se construye ahora la muestra ordenada M1 7 M2.. Aplicaremos los métodos no parámetricos en las ocasiones en las cuales no tenemos motivos para suponer que las variables son normales. entonces los valores xi(1) de la muestra M1 estarán al final de la serie M1 7 M2 y el valor de W será anormalmente grande. 9.. El criterio de Wilcoxon solo se aplica a variables continuas.9 2 4.8.1.8 8 7... considerándola como una muestra homogénea ?..XIV. Estos métodos requieren. identificando los valores que pertenecen a M1 y M2 : Datos de M1 M1 7 M2 Rango 3. Ahora consideremos situaciones en las cuales no podemos hacer suposiciones referentes a los parámetros de las variables. Casi todos los métodos estadísticos que hemos estudiado suponen que las variables que interesan son gaussianas. el conocimiento de dos parámetros : la esperanza matemática y la varianza.7 1 3.6 9 9.1 6 6.7 4 4. entonces los valores de la muestra M1 estarán al comienzo de la serie M1 7 M2 y el 108 .. Existen una versión equivalente de este criterio. El criterio de Wilcoxon trata de responder la siguiente pregunta : ¿ se puede unir dos o más “porciones” de datos estadísticos para formar una muestra común. desarrollada por Mann y Whitney (1947).+rn1 Ejemplo : Dos formaciones geológicas se comparan según la ley de oro en gr/ton.8.7.1 11 15. 11. x2(1). x2(2).

109 . En resumen la regla de decisión al nivel 1 .valor de W será anormalmente pequeño.α es : i) Aceptar la hipótesis de homogeneidad si : WMín < Wo < WMáx ii) Rechazar la hipótesis en caso contrario La tabla siguiente proporciona los valores de WMín y WMáx para el nivel 1 .95. n1 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 n2 5 6 7 8 9 10 11 12 13 14 15 5 6 7 8 9 10 11 12 13 14 15 5 6 7 8 9 10 11 12 13 14 15 WMín 6 7 7 8 8 9 9 10 10 11 11 11 12 13 14 14 15 16 17 18 19 20 17 18 20 21 22 23 24 26 27 28 29 WMáx 21 23 26 28 31 33 36 38 38 43 46 29 32 35 38 42 45 48 51 54 57 60 38 42 45 49 53 57 61 64 68 72 76 Ejemplo : Comprobar si los datos de las formaciones geológicas evidencian que la formación 2 es más rica que la formación 1. En estos dos casos la hipótesis de homogeneidad de las muestras debe ser rechazada.α = 0.

Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Turno A 8 6 5 0 5 2 4 3 9 6 11 8 5 8 10 3 Turno B 7 7 7 2 3 3 4 5 8 8 12 7 6 9 7 5 Diferencia A–B + + + + + - Se tiene entonces que de las 15 diferencias. los cuales deberían estar distribuidos uniformemente : P( + ) = P( . por lo menos se necesitan 10 parejas de números para que la comprobación sea razonablemente sensitiva. l = 0 Ei 110 . B. entonces se debe rechazar la hipótesis de que las muestras son homogéneas.5 serían ( + ) y 7.) : Diferencias Observado Oi + 5 10 D= Teórico Ei 7. La hipótesis a comprobar es H0 : “Las dos muestras corresponden a la misma variable aleatoria”. Este test requiere disponer de dos muestras M1 y M2 de igual extensión y tomadas de a pares. El Test de los Signos.) = ½ Como regla de decisión se puede utilizar el test de χ2. Ejemplo : La tabla siguiente muestra al número de obreros ausentes en dos turnos de una empresa durante 16 días.5 å i =1 k (Oi − Ei ) 2 sigue una ley χ21 : k = 2 . Tenemos 15 parejas de datos : no consideramos el día 7 porque los dos valores coinciden. Un test no parámetrico excepcionalmente simple e intuitivo es el test de los signos.Solución : n1 = 5 . n2 = 7 Þ WMín = 20 . en teoría 7. WMáx = 45 (según tabla adjunta) y como Wo = 17.5 serían ( . Se comprueba que no existe diferencia entre ambas muestras al examinar los signos de las diferencias entre las parejas. luego la formación geológica 2 es más rica que la formación 1.5 7.

Los resultados de la clasificación se presentan como sigue : Alumno Profesor 1 Profesor 2 di A 2 3 1 B 1 2 1 C 3 1 -2 D 4 4 0 E 6 6 0 F 5 7 2 G 8 5 -3 H 7 9 2 I 10 10 0 J 9 8 -1 (lo anterior significa por ejemplo : para el profesor 1 el alumno A es el segundo en capacidad. B.5 Conclusión : Los datos no justifican la inferencia de que existe una diferencia en el ausentismo de los dos turnos.. El Coeficiente de Correlación de Rangos de Spearman.67 7 . τ vale 1.85 10. C..J clasificados por 2 profesores por orden de capacidad.5 7 . 10 Se tiene que d i 2 = 12 + 12 + (−2) 2 + . En este párrafo nos hacemos la pregunta siguiente : ¿cómo verificar la significancia del coeficiente de correlación τ? Para responder esta pregunta se puede encontrar el intervalo del 95 % de confianza para τ el cual se determina según el ábaco del anexo. Se define el coeficiente de correlación de rangos de Spearman por : n 6 ⋅ å di 2 τ =1− i =1 n(n 2 − 1) Ejemplo : Supongamos que tenemos 10 alumnos A.95 que DMáx = 3.. Test de Hipótesis Respecto del Coeficiente de Correlación.5) 2 + = 1. mientras que para el profesor 2 es el tercero en capacidad).99 El coeficiente de correlación de rangos ha sido elaborado de manera que. + (−1) 2 = 24 . Sea di = diferencia de rangos del individuo i en ambas clasificaciones. τ vale -1.0 (comprobarlo numéricamente en el ejemplo).. 111 .0 y. Por otra parte : D0 = (5 − 7. en el caso de clasificaciones idénticas (di = 0).. n = 10 å i =1 Þ τ =1− 6.de la tabla de la página 84 deducimos al nivel 0.24 = 0... en el caso de la clasificación más discordante posible (las clasificaciones son inversas). C. Supongamos n individuos ordenados con respecto a dos caracteres A y B.5) 2 (10 − 7...841.

Podemos concluír que el grado de acuerdo entre los dos profesores es significativo. 112 .855 y en las curvas para n = 10 se determinan los puntos A y A’ los cuales proporcionan el intervalo del 95 % de confianza para τ : 0.95. Fig.855.Ejemplo : En el ejemplo anterior. con n = 10 encontrar τ0 = 0. Encontrar el intervalo de confianza.45 ≤ τ ≤ 0. Observación : El ábaco del anexo también es aplicable al coeficiente de correlación ρ. se entra con el valor 0.83 En el ábaco del anexo.

Anexo : Abaco para determinar el intervalo de confianza para el coeficiente de correlación 113 .

Mc. : Statistics and data Analysis in Geology. Graw Hill.3. Aïvazian J. Bhattacharyya A.5. : Introducción a la Estadística. : Étude Statistique des Dépendances. 114 . : Statistical Concepts and Methods.Sixto Ríos G. 1972.1967. Davis : Métodos Estadísticos. CECSA. 1977.4. Wiley.Bibliografía 1. Rickmers S. MIR. 1971.2. Wiley. 1970.

Sign up to vote on this title
UsefulNot useful