Professional Documents
Culture Documents
del
tamao , es una estimacin puntual del parmetro poblacional . De manera similar, = / es una estimacin puntual de la verdadera proporcin p para un experimento bionomal. No se separa que un estimador realice la estimacin del parmetro poblacional sin error. No esperamos que estime exactamente, sino que en realidad esperemos que no est muy alejado. Para una muestra particular es posible obtener un estimador ms cercano de mediante
el uso de la mediana de la de la muestra como un estimador. Considere, por ejemplo, una muestra que consiste en los valores 2, 5 y 11 de una poblacin cuya media es4 pero supuestamente se le desconoce. Estimaramos a como = 6, como el uso de la media muestral como nuestra estimacin, o = 5, con el uso de la mediana muestral como nuestra estimacin. En este caso el estimador
ahora es el mejor estimador. Al no conocer el valor real de , debemos decidir de antemano si se utiliza como nuestro estimador.
entonces = 5 y = 6, por lo que Los Intervalos de confianza, en donde se estima un parmetro usando un intervalo centrado en un estimado del parmetro y de longitud igual a dos veces el error de estimacin. El error de estimacin depende del nivel de confianza deseado, usualmente, 90, 95 99 por ciento
El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del estimador. Ejemplo Tratamos de obtener un intervalo de confianza para la media de una poblacin normal.
Sabemos que si X sigue una normal de media y varianza entonces la media muestral sigue una normal de la misma media y de varianza la varianza poblacional partida por n, tamao de la muestra. Vamos a determinar a y b tales que P [a< <b]=095.
En realidad hay infinitos pares de nmeros para los que se cumple la ecuacin anterior. De stos vamos a escoger el par de nmeros que se hallan situados simtricamente respecto de cero en la distribucin normal. Llegamos a que
yb=
O lo que es lo mismo
A partir de los datos muestrales podemos determinar el valor de y obtenemos as un intervalo numrico. El valor 196 se debe a que pedamos una probabilidad de 095. Para indicar el intervalo para cualquier valor de probabilidad podemos utilizar la expresin
Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede incluido en dicho intervalo. El nivel de confianza de un intervalo es una probabilidad (expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parmetro .
y desviacin estndar
y la segunda con media 2 y desviacin estndar 2. Ms an, se elige una muestra aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao n2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las diferencias entre medias o la distribucin muestral del estadstico
La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras.
Distribucin Muestral de Diferencia de Proporciones Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes.
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribucin muestral de diferencia de proporciones es aproximadamente normal para tamaos de muestra grande (n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, as que su diferencia p1-p2 tambin tiene una distribucin muestral aproximadamente normal.
y que
La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de proporciones es:
) (
El tamao que debe tener la muestra depende del nivel de confianza propuesto, as como del mximo error que estemos dispuestos a admitir entre el valor estimado y el valor real del parmetro que corresponde al error de estimacin. Veamos cmo se determinara el tamao de la muestra a partir de la consideracin del nivel de confianza y del error de estimacin cuando hacemos muestreo con repeticin o en poblaciones infinitas. Supongamos que d es el error de estimacin (precisin) y el nivel de confianza es 100(1) para la estimacin de la media de una poblacin normal con
De esta ecuacin, elevando al cuadrado obtenemos d2=Z2 despejamos nd2=Z2 por lo tanto= .
de esta ecuacin
Esta frmula nos permite obtener el tamao de la muestra cuando tratamos de estimar un intervalo de confianza para la media con error de estimacin y nivel de confianza dados. El tamao de la muestra depende de dos elementos bsicos (supuesta dada la varianza) que hay que sopesar cuando se va a tomar una decisin al respecto; se trata del nivel de confianza y del error de estimacin y tenemos: 1. El tamao de la muestra aumenta a medida que aumenta el nivel de confianza para un error de estimacin y una varianza dados. 2. El tamao de la muestra aumenta a medida que disminuye el error de estimacin para un nivel de confianza y varianza dados. Si la poblacin es finita y el tamao de sta debe ser tenida en cuenta, el tamao
muestral viene dado por: En las dos frmulas anteriores aparece la varianza, por lo tanto es necesario conocerla. Si es desconocida debe ser estimada por cualquiera de los medios siguientes: 1. Se toma una muestra preliminar llamada muestra piloto y estimamos la varianza mediante S2. Si el tamao de la muestra piloto es inferior a 30 se recomienda emplear el valor t en lugar del valor normal. 2. Se utilizan estimaciones previas que se hayan hecho acerca de la varianza en estudios anteriores. 3. Si existe evidencia de que la poblacin estudiada tiene distribucin normal, estimaremos mediante A/4 donde A es la amplitud o rango de la poblacin. Este mtodo requiere el conocimiento del valor mximo y mnimo de la varianza investigada.
Estudiemos el caso de la proporcin poblacional. En este caso el tamao de la muestra esta dado por:
n= Cuando no se da estimacin alguna para la proporcin, utilizaremos la frmula anterior tomando mayor de la indicada. =05. Esto arroja por lo general una muestra mucho
Si el tamao de la poblacin debe ser tenido en cuenta el tamao de muestra esta dado por:
n=
La forma general de una prueba, es la siguiente: Prueba de hiptesis con muestra grande n30, acerca de una media de la poblacin para una prueba de la forma: H0:0 H1: <0 Estadstico de prueba: conocida z= x-0n Estadstico de prueba: desconocida z=x-0sn Regla de rechazo a un nivel de significancia ) Rechazar H0 si z<-z) Una segunda prueba unilateral rechaza la hiptesis nula cuando el estadstico se encuentra en el extremo o cola superior de la distribucin muestral. Prueba de hiptesis para una prueba grande n30, acerca de un promedio de poblacin para una prueba unilateral de la forma: H0: 0 H1: >H0 Estadstico de prueba: conocida z=x-0n Estadstico de prueba: desconocida z=x-0sn Regla de rechazo a un nivel de significancia Rechazar H0 si z>z0
La pruebas bilaterales difieren de las unilaterales en que la regin de rechazo esta simultneamente en las colas o extremos inferior o superior, de la distribucin muestral. Debe rechazar H0 para valores del estadstico que caigan en la cola inferior o en la cola superior de la distribucin de la muestra. A esto se le llama prueba bilateral de hiptesis. Pruebas bilaterales sobre la media de una poblacin. La forma general de la prueba bilateral de hiptesis respecto a una media de poblacin es la siguiente: Sea 0 el valor de la media en las hiptesis. Prueba de hiptesis con muestra grande n30 respecto a una media de poblacin para una prueba bilateral de la forma:
H0: = 0 H1:0 Estadstico de prueba: conocida z= x-0n Estadstico de prueba: desconocida z= x-0sn Regla de rechazo a un nivel de significancia Rechazar H0 si z<-z2 o si z>z2 La prueba de hiptesis por intervalos Para llevar a cabo la prueba de hiptesis, en el caso de la media de poblacin, la prueba bilateral de hiptesis tiene la forma H0: = 0 H1:0 En donde 0 es el valor supuesto de la media de poblacin. Al aplicar la regla de rechazo originada con la ecuacin vemos que la regin donde no rechaza H0 comprende todos los valores de la media x que estn entre los errores estndar -z2 y+z2 de 0. En consecuencia, la regin de no rechazo para la media de la muestra x en una prueba bilateral de hiptesis con nivel de significancia se expresa por 0z2n Cuando se conoce 0z2sn Cuando se desconoce.
Con frecuencia se utilizan pruebas de dos muestras para comparar dos mtodos de enseanza, dos marcas, dos ciudades, dos distritos escolares y otras cosas semejantes. La hiptesis nula puede establecer que las dos poblaciones tienen medias iguales:
Para tamaos ms pequeos de muestra, Z estar distribuida normalmente slo si las dos poblaciones que se muestrean tambin lo estn.
Prueba medias de una muestra Se utiliza una prueba de una muestra para probar una afirmacin con respecto a una media de una poblacin nica.
Nota: Se considera prctico utilizar la distribucin t solamente cuando se requiera que el tamao de la muestra sea menor de 30, ya que para muestras ms grandes los valores t y z son aproximadamente iguales, y es posible emplear la distribucin normal en lugar de la distribucin t.
las ambas radica en la forma corno se obtiene la desviacin estndar de la distribucin de muestreo. Esta prueba comprende el clculo del valor estadstico de prueba Z
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significacin seleccionado. Como ocurri con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.
La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.
Esta frmula est basada en n-1 grados de libertad. Esta terminologa resulta del hecho de que si bien s2 est basada en n cantidades , stas suman cero, as que especificar los valores de cualquier n-1 de las cantidades determina el valor restante.
distribucin
Supngase que la varianza de la poblacin es desconocida. Qu sucede con la distribucin de esta estadstica si se reemplaza por s? La distribucin t proporciona la respuesta a esta pregunta. La media y la varianza de la distribucin t son = 0 y para , respectivamente.
La siguiente figura presenta la grfica de varias distribuciones t. La apariencia general de la distribucin t es similar a la de la distribucin normal estndar: ambas son simtricas y un modales, y el valor mximo de la ordenada se alcanza en la media = 0. Sin embargo, la distribucin t tiene colas ms amplias que la normal; esto es, la probabilidad de las colas es mayor que en la distribucin normal. A medida que el nmero de grados de libertad tiende a infinito, la forma lmite de la distribucin t es la distribucin normal estndar.
Propiedades de las distribuciones t 1. Cada curva t tiene forma de campana con centro en 0.
2. Cada curva t, est ms dispersa que la curva normal estndar z. 3. A medida que n aumenta, la dispersin de la curva t correspondiente disminuye. 4. A medida que
Se distribuye como una Ji-Cuadrado ( 2) con n-1 grados de libertad. La distribucin JiCuadrado no es simtrica, pero a medida que los grados de libertad aumentan se va observando ms simetra. En la figura 7.13 se muestra la grfica de una c2 con 9 grados de libertad. Se puede mostrar que el cuadrado de una normal estandarizada es una Ji-Cuadrado con un grado de libertad y que si se suma dos variables Ji-Cuadrado independientemente distribuidas, entonces se obtiene otra Ji-Cuadrado cuyos grados de libertad es igual a la suma de los grados de libertad de los otros dos.
, se obtiene que
Se acostumbra usar la notacin 2 (m)para representar a una distribucin Ji-Cuadrado con m grados de libertad. Usos de la Ji-Cuadrado a) Para hacer inferencias acerca de la varianza poblacional. Es decir, para calcular Intervalos de Confianza y Prueba de hiptesis para la varianza poblacional. b) Para hacer pruebas de Bondad de Ajuste. O sea para probar si un conjunto de datos sigue una distribucin pre-determinada. c) Para hacer anlisis de tablas de contingencia.
De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictorae Yi la variable respuesta que le corresponde, entonces
Ei es el error o desviacin aleatoria de Yi. Regresin Curvilnea: Cuando las variables X e Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y =a+bX+cX2 donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de las ecuaciones normales de Gauss. Las ecuaciones normales son: Y = na + b X + C X2 (1) X Y = a X + b X2 + C X3 (2) X2 Y = a X2 + b X3 + C X4 (3) Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes. Para encontrar los valores de las constantes utilizaremos matrices. Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser nmeros ordenados en filas y columnas. Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz tambin se denomina dimensin o tamao, siendo m y n nmeros naturales. Las matrices se denotan con letras maysculas: A, B, C,... y los elementos de las mismas con letras minsculas y subndices que indican el lugar ocupado: a, b, c,... Un elemento genrico que ocupe la fila i y la columna j se escribe aij. Si el elemento genrico aparece entre parntesis tambin representa a toda la matriz: A = (aij). Regresin lineal mltiple. Para este caso de k variable independientes la media de est dada por el modelo de regresin lineal mltiple Y la respuesta estimada se obtiene de la ecuacin de regresin de la muestra De cada coeficiente de regresin se estima por b1 de los datos de la muestra con el uso de los mtodos de mnimos cuadrado. Como en el caso de una solo variable independiente, el modelo de regresin lineal mltiple a menudo puede ser una representacin adecuada de una estructura ms complicada dentro de ciertos rangos de las variables independientes.
Las tcnicas del mnimo cuadrado similar tambin se pueden utilizarse al estimar los coeficientes cuando el modelo lineal involucrado, potencias, productos de las variables independientes. Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias no caen en una lnea recta pero que se describen de la forma mas apropiada con el modelo de regresin polinomial
Y la respuesta estimada se obtiene de la ecuacin de regresin polinomial En ocasiones surge confusin cuando hablamos de un modelo polinomial como de un modelo lineal. Sin embargo, los estadsticos por lo general se refieren a un modelo lineal como uno en el cual los parmetros ocurren linealmente, sin importar como entren las variables independientes al modelo. Un ejemplo de un modelo no lineal es la relacin exponencial . Que se estima con la ecuacin de regresin .
5.2 Correlacin
El anlisis de correlacin trata de medir el grado de tales relaciones entre dos variables por medio de un simple nmero, denominado coeficiente de correlacin. En teora, se asume a menudo que la distribucin condicional ( ) de Y, para valores fijos de X, es normal con media Y|= + x y variancia 2y|x =2, y que X est distribuida de manera normal con media ( ) ( y variancia 2x. La densidad conjunta de X y Y est, dada por ) ( )
( )
* ( )+ [(
Para
) ]+,
Variable aleatoria Y en la forma Donde X es ahora una variable aleatoria independiente del error aleatoria E. Ya que la media de error aleatorio E es cero, se sigue que
) se obtiene la distribucin
*
Para
[(
donde
)(
) ]+
La correlacin trata de establecer la relacin o dependencia q u e e x i s t e e n t r e l a s d o s va r i a b l e s q u e i n t e r v i e n e n e n una distribucin bidimensional . Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos q u e l a s va r i a b l e s e s t n c o r r e l a c i o n a d a s o q u e h a y correlacin entre ellas. Tipos de correlacin 1 Correlacin directa La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.
2 C o r r e l a c i n i n ve r s a L a c o r r e l a c i n i n ve r s a s e d a c u a n d o a l a u m e n t a r u n a d e l a s variables la otra disminuye. La recta correspondiente a la nube de puntos de la distri bucin es una recta decreciente.
3 Correlacin nula La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables.
Dado que la correlacin de Spearman siempre utiliza la misma escala para los rangos de las observaciones de X e Y (1, 2, 3, 4, etc.), el anlisis se puede hacer mediante la siguiente frmula:
Donde: rS = coeficiente de correlacin de Spearman D2 = Cuadrado de las diferencias entre X e Y N = nmero de parejas
Esta frmula es una definicin alternativa, muy cmoda, de la correlacin de Spearman. El coeficiente de correlacin de Spearman suele designarse con la letra griega Rho. Si se introducen los valores de la Tabla 1 en la frmula (1), sta queda de la siguiente forma:
Y resolviendo obtenemos:
Como se observa la frmula obtiene el mismo valor de r que la regresin lineal. sta es la base de la correlacin por rangos. Cuando existen empates, que se refiere a diferencias entre X e Y iguales a cero, se deben realizar algunas modificaciones para obtener el r, las cuales no revisaremos en este artculo. En este ltimo caso, tampoco es posible utilizar la frmula 1. Ntese que si cambiramos el Valor X=55 por X=75 o el valor Y=50 por Y=60, o hiciramos ambos cambios, el valor de los rangos no se altera y, por lo tanto, el valor de rS sigue siendo 0,657. Es decir, la estadstica correlacin por rangos de Spearman no es influenciada por valores extremos de X o de Y, al revs de lo que ocurre con la correlacin lineal o de Pearson. Por eso es muy adecuado usar rS cuando X e Y son cuantitativas, pero no normales.