You are on page 1of 22

Probabilidad y Estadstica

Investigacin de la Unidad 4. Inferencia Estadstica y Unidad 5. Anlisis de Regresin y Correlacin.


Equipo 7: Karina Guadalupe Gmez de la cruz ngela Deyanira Villanueva Cepeda Juan Antonio Cervantes Bolaos Agustn Herrera Gmez

Unidad4.- Inferencia Estadstica.


La Inferencia Estadstica comprende los mtodos que son usados para sacar conclusiones de la poblacin en base a una muestra tomada de ella. Incluye los mtodos de estimacin de parmetros y las pruebas de hiptesis. En la estimacin de puntos la idea es hallar un estimado del parmetro poblacional basado en la muestra aleatoria tomada de la poblacin. Uno espera que el estimado este lo ms cerca posible del parmetro. Por ejemplo la media poblacional m. es estimada por la media muestral x. La Estimacin de parmetros comprende a su vez la Estimacin Puntual, en donde se estudian los diversos mtodos de encontrar estimadores y las propiedades ptimas que deben tener stos, y la Estimacin por Intervalos de Confianza, en donde se estima un parmetro usando un intervalo centrado en un estimado del parmetro y de longitud igual a dos veces el error de estimacin. El Error de estimacin depende del nivel de confianza deseado, usualmente, 90, 95 99 por ciento.

4.1 Estimacin puntual y por intervalos de confianza.


estadstica . Por ejemplo, el valor de la estadstica Una estimacin puntual de algn parmetro de la poblacin es un valor de una

, que se calcula a partir de muestra

del

tamao , es una estimacin puntual del parmetro poblacional . De manera similar, = / es una estimacin puntual de la verdadera proporcin p para un experimento bionomal. No se separa que un estimador realice la estimacin del parmetro poblacional sin error. No esperamos que estime exactamente, sino que en realidad esperemos que no est muy alejado. Para una muestra particular es posible obtener un estimador ms cercano de mediante

el uso de la mediana de la de la muestra como un estimador. Considere, por ejemplo, una muestra que consiste en los valores 2, 5 y 11 de una poblacin cuya media es4 pero supuestamente se le desconoce. Estimaramos a como = 6, como el uso de la media muestral como nuestra estimacin, o = 5, con el uso de la mediana muestral como nuestra estimacin. En este caso el estimador

ahora es el mejor estimador. Al no conocer el valor real de , debemos decidir de antemano si se utiliza como nuestro estimador.
entonces = 5 y = 6, por lo que Los Intervalos de confianza, en donde se estima un parmetro usando un intervalo centrado en un estimado del parmetro y de longitud igual a dos veces el error de estimacin. El error de estimacin depende del nivel de confianza deseado, usualmente, 90, 95 99 por ciento

. Por otro lado, si nuestro muestra aleatoria contiene los valores 2, 6 y 7,

El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del estimador. Ejemplo Tratamos de obtener un intervalo de confianza para la media de una poblacin normal.

Sabemos que si X sigue una normal de media y varianza entonces la media muestral sigue una normal de la misma media y de varianza la varianza poblacional partida por n, tamao de la muestra. Vamos a determinar a y b tales que P [a< <b]=095.

Para calcular estos valores es necesario estandarizar X:

= 095. Por lo tanto = 095.

En realidad hay infinitos pares de nmeros para los que se cumple la ecuacin anterior. De stos vamos a escoger el par de nmeros que se hallan situados simtricamente respecto de cero en la distribucin normal. Llegamos a que

A partir de estas ecuaciones obtenemos a =

yb=

Con lo que obtendramos

O lo que es lo mismo

El intervalo confianza para .

se llama intervalo (aleatorio) de

A partir de los datos muestrales podemos determinar el valor de y obtenemos as un intervalo numrico. El valor 196 se debe a que pedamos una probabilidad de 095. Para indicar el intervalo para cualquier valor de probabilidad podemos utilizar la expresin

. Expresin que puede simplificarse

, se llama longitud del intervalo.

Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede incluido en dicho intervalo. El nivel de confianza de un intervalo es una probabilidad (expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parmetro .

4.2 Estimacin de la media de la diferencia de medias, de la proporcin y de la diferencia de proporciones.


Distribucin Muestral de Diferencia de Medias Suponga que se tienen dos poblaciones distintas, la primera con media
1, 1

y desviacin estndar

y la segunda con media 2 y desviacin estndar 2. Ms an, se elige una muestra aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao n2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las diferencias entre medias o la distribucin muestral del estadstico

La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras.

Distribucin Muestral de Diferencia de Proporciones Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcentajes.

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones muestrales, la distribucin muestral de diferencia de proporciones es aproximadamente normal para tamaos de muestra grande (n1p1 5, n1q1 5, n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones muestrales aproximadamente normales, as que su diferencia p1-p2 tambin tiene una distribucin muestral aproximadamente normal.

Cuando se estudi a la distribucin muestral de proporciones se comprob que Que

, por lo que no es difcil deducir que

y que

La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de proporciones es:

) (

4.3 Determinacin del tamao de la muestra.


El tamao de la muestra que debemos escoger para hacer una estimacin del parmetro con las caractersticas especificadas (de nivel de confianza y error de estimacin.) es un problema de gran importancia ya que: 1. Si tomamos una muestra ms grande de la indicada para alcanzar los resultados propuestos, constituye un desperdicio de recursos (tiempo, dinero, etc.); mientras que una muestra demasiado pequea conduce a menudo a resultados poco confiables. 2. cuando elegimos una muestra de tamao n slo revisamos una fraccin o parte de la poblacin y con base en ella tomamos decisiones que afectan a toda la poblacin. Es evidente que por este procedimiento se abre la posibilidad de que nos equivoquemos en nuestras decisiones, pero esta posibilidad depende en gran medida del tamao de muestra o fraccin de poblacin que se haya analizado.

El tamao que debe tener la muestra depende del nivel de confianza propuesto, as como del mximo error que estemos dispuestos a admitir entre el valor estimado y el valor real del parmetro que corresponde al error de estimacin. Veamos cmo se determinara el tamao de la muestra a partir de la consideracin del nivel de confianza y del error de estimacin cuando hacemos muestreo con repeticin o en poblaciones infinitas. Supongamos que d es el error de estimacin (precisin) y el nivel de confianza es 100(1) para la estimacin de la media de una poblacin normal con

varianza conocida, con estos datos formamos la ecuacin d=

De esta ecuacin, elevando al cuadrado obtenemos d2=Z2 despejamos nd2=Z2 por lo tanto= .

de esta ecuacin

Esta frmula nos permite obtener el tamao de la muestra cuando tratamos de estimar un intervalo de confianza para la media con error de estimacin y nivel de confianza dados. El tamao de la muestra depende de dos elementos bsicos (supuesta dada la varianza) que hay que sopesar cuando se va a tomar una decisin al respecto; se trata del nivel de confianza y del error de estimacin y tenemos: 1. El tamao de la muestra aumenta a medida que aumenta el nivel de confianza para un error de estimacin y una varianza dados. 2. El tamao de la muestra aumenta a medida que disminuye el error de estimacin para un nivel de confianza y varianza dados. Si la poblacin es finita y el tamao de sta debe ser tenida en cuenta, el tamao

muestral viene dado por: En las dos frmulas anteriores aparece la varianza, por lo tanto es necesario conocerla. Si es desconocida debe ser estimada por cualquiera de los medios siguientes: 1. Se toma una muestra preliminar llamada muestra piloto y estimamos la varianza mediante S2. Si el tamao de la muestra piloto es inferior a 30 se recomienda emplear el valor t en lugar del valor normal. 2. Se utilizan estimaciones previas que se hayan hecho acerca de la varianza en estudios anteriores. 3. Si existe evidencia de que la poblacin estudiada tiene distribucin normal, estimaremos mediante A/4 donde A es la amplitud o rango de la poblacin. Este mtodo requiere el conocimiento del valor mximo y mnimo de la varianza investigada.

Estudiemos el caso de la proporcin poblacional. En este caso el tamao de la muestra esta dado por:

n= Cuando no se da estimacin alguna para la proporcin, utilizaremos la frmula anterior tomando mayor de la indicada. =05. Esto arroja por lo general una muestra mucho

Si el tamao de la poblacin debe ser tenido en cuenta el tamao de muestra esta dado por:

n=

4.4 Prueba de hiptesis.


Este es uno de los aspectos ms tiles de la inferencia estadstica, puesto que muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el mundo de la ingeniera, pueden formularse como problemas de prueba de hiptesis. Una hiptesis estadstica es una proposicin o supuesto sobre los parmetros de una o ms poblaciones.

4.4.1Pruebas unilaterales y bilaterales.


Prueba unilaterales. Prueba de hiptesis con muestra grande n30, acerca de una media de la poblacin para una prueba unilateral de la forma: H0:0 H1: <0 Estadstico de prueba: Z=x-0n Estadstico de prueba: desconocida z= x-0sn Una prueba de una cola o unilateral para la media poblacional tiene una de las dos formas siguientes. conocida.

Prueba de la cola inferior (o izquierda) H0:0 H1:<0

Prueba de la cola superior (o derecha) H0:0 H1:>o

La forma general de una prueba, es la siguiente: Prueba de hiptesis con muestra grande n30, acerca de una media de la poblacin para una prueba de la forma: H0:0 H1: <0 Estadstico de prueba: conocida z= x-0n Estadstico de prueba: desconocida z=x-0sn Regla de rechazo a un nivel de significancia ) Rechazar H0 si z<-z) Una segunda prueba unilateral rechaza la hiptesis nula cuando el estadstico se encuentra en el extremo o cola superior de la distribucin muestral. Prueba de hiptesis para una prueba grande n30, acerca de un promedio de poblacin para una prueba unilateral de la forma: H0: 0 H1: >H0 Estadstico de prueba: conocida z=x-0n Estadstico de prueba: desconocida z=x-0sn Regla de rechazo a un nivel de significancia Rechazar H0 si z>z0

La pruebas bilaterales difieren de las unilaterales en que la regin de rechazo esta simultneamente en las colas o extremos inferior o superior, de la distribucin muestral. Debe rechazar H0 para valores del estadstico que caigan en la cola inferior o en la cola superior de la distribucin de la muestra. A esto se le llama prueba bilateral de hiptesis. Pruebas bilaterales sobre la media de una poblacin. La forma general de la prueba bilateral de hiptesis respecto a una media de poblacin es la siguiente: Sea 0 el valor de la media en las hiptesis. Prueba de hiptesis con muestra grande n30 respecto a una media de poblacin para una prueba bilateral de la forma:

H0: = 0 H1:0 Estadstico de prueba: conocida z= x-0n Estadstico de prueba: desconocida z= x-0sn Regla de rechazo a un nivel de significancia Rechazar H0 si z<-z2 o si z>z2 La prueba de hiptesis por intervalos Para llevar a cabo la prueba de hiptesis, en el caso de la media de poblacin, la prueba bilateral de hiptesis tiene la forma H0: = 0 H1:0 En donde 0 es el valor supuesto de la media de poblacin. Al aplicar la regla de rechazo originada con la ecuacin vemos que la regin donde no rechaza H0 comprende todos los valores de la media x que estn entre los errores estndar -z2 y+z2 de 0. En consecuencia, la regin de no rechazo para la media de la muestra x en una prueba bilateral de hiptesis con nivel de significancia se expresa por 0z2n Cuando se conoce 0z2sn Cuando se desconoce.

4.4.2 Pruebas para media y para diferencia de medias.

Prueba medias de dos muestras


Las pruebas de dos muestras se utilizan para decidir si las medias de dos poblaciones son iguales. Se requieren dos muestras independientes, una de cada una de las dos poblaciones. Considrese, por ejemplo, una compaa investigadora que experimentan con dos diferentes mezclas de pintura, para ver si se puede modificar el tiempo de secado de una pintura para uso domstico. Cada mezcla es probada un determinado nmero de veces, y comparados posteriormente los tiempos medios de secado de las dos muestras. Una parece ser superior, ya que su tiempo medio de secado (muestra) es 30 minutos menor que el de la otra muestra. Pero, son realmente diferentes los tiempos medios de secado de las dos pinturas, o esta diferencia muestral es nada ms la variacin aleatoria que se espera, aun cuando las dos frmulas presentan idnticos tiempos medios de secado? Una vez ms, las diferencias casuales se deben distinguir de las diferencias reales.

Con frecuencia se utilizan pruebas de dos muestras para comparar dos mtodos de enseanza, dos marcas, dos ciudades, dos distritos escolares y otras cosas semejantes. La hiptesis nula puede establecer que las dos poblaciones tienen medias iguales:

Para tamaos ms pequeos de muestra, Z estar distribuida normalmente slo si las dos poblaciones que se muestrean tambin lo estn.

Prueba medias de una muestra Se utiliza una prueba de una muestra para probar una afirmacin con respecto a una media de una poblacin nica.

Nota: Se considera prctico utilizar la distribucin t solamente cuando se requiera que el tamao de la muestra sea menor de 30, ya que para muestras ms grandes los valores t y z son aproximadamente iguales, y es posible emplear la distribucin normal en lugar de la distribucin t.

4.4.3 Pruebas para proporcin y diferencia de proporciones.


Prueba de proporciones de una muestra Cuando el objetivo del muestreo es evaluar la validez de una afirmacin con respecto a la proporcin de una poblacin, es adecuado utilizar una prueba de una muestra. La metodologa de prueba depende de si el nmero de observaciones de la muestra es grande o pequeo. Como se habr observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este modo, los valores estadsticos de prueba miden la desviacin de un valor estadstico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribucin normal estndar para valores crticos. Quiz la nica diferencia real entre

las ambas radica en la forma corno se obtiene la desviacin estndar de la distribucin de muestreo. Esta prueba comprende el clculo del valor estadstico de prueba Z

Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significacin seleccionado. Como ocurri con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.

4.5 Muestras pequeas.


En esta unidad se podrn utilizar muestras pequeas siempre y cuando la distribucin de donde proviene la muestra tenga un comportamiento normal. Esta es una condicin para utilizar las tres distribuciones que se manejarn en esta unidad; t de student, X2 ji-cuadrada. A la teora de pequeas muestras tambin se le llama teora exacta del muestreo, ya que tambin la podemos utilizar con muestras aleatorias de tamao grande.

grados de libertad Para definir grados de libertad se har referencia a la


varianza muestral:

Esta frmula est basada en n-1 grados de libertad. Esta terminologa resulta del hecho de que si bien s2 est basada en n cantidades , stas suman cero, as que especificar los valores de cualquier n-1 de las cantidades determina el valor restante.

4.5.1 Distribucin t de Student.


Si Supngase que se toma una muestra de una poblacin normal con media y varianza 2. es el promedio de lan observaciones que contiene la muestra aleatoria, entonces la

distribucin

es una distribucin normal estndar.

Supngase que la varianza de la poblacin es desconocida. Qu sucede con la distribucin de esta estadstica si se reemplaza por s? La distribucin t proporciona la respuesta a esta pregunta. La media y la varianza de la distribucin t son = 0 y para , respectivamente.

La siguiente figura presenta la grfica de varias distribuciones t. La apariencia general de la distribucin t es similar a la de la distribucin normal estndar: ambas son simtricas y un modales, y el valor mximo de la ordenada se alcanza en la media = 0. Sin embargo, la distribucin t tiene colas ms amplias que la normal; esto es, la probabilidad de las colas es mayor que en la distribucin normal. A medida que el nmero de grados de libertad tiende a infinito, la forma lmite de la distribucin t es la distribucin normal estndar.

Propiedades de las distribuciones t 1. Cada curva t tiene forma de campana con centro en 0.

2. Cada curva t, est ms dispersa que la curva normal estndar z. 3. A medida que n aumenta, la dispersin de la curva t correspondiente disminuye. 4. A medida que

, la secuencia de curvas t se aproxima a la curva normal estndar, por lo

que la curva z recibe a veces el nombre de curva t con gl =

La distribucin de la variable aleatoria t est dada por:

Esta se conoce como la distribucin t con n grados de libertad.

4.5.2 Distribucin de Ji-cuadrado.


Sean X1, X2,.....Xn observaciones de una muestra de tamao n de una poblacin normal N (m, 2). Entonces:

Se distribuye como una Ji-Cuadrado ( 2) con n-1 grados de libertad. La distribucin JiCuadrado no es simtrica, pero a medida que los grados de libertad aumentan se va observando ms simetra. En la figura 7.13 se muestra la grfica de una c2 con 9 grados de libertad. Se puede mostrar que el cuadrado de una normal estandarizada es una Ji-Cuadrado con un grado de libertad y que si se suma dos variables Ji-Cuadrado independientemente distribuidas, entonces se obtiene otra Ji-Cuadrado cuyos grados de libertad es igual a la suma de los grados de libertad de los otros dos.

Recordando que la frmula de la varianza muestral es

, se obtiene que

Se acostumbra usar la notacin 2 (m)para representar a una distribucin Ji-Cuadrado con m grados de libertad. Usos de la Ji-Cuadrado a) Para hacer inferencias acerca de la varianza poblacional. Es decir, para calcular Intervalos de Confianza y Prueba de hiptesis para la varianza poblacional. b) Para hacer pruebas de Bondad de Ajuste. O sea para probar si un conjunto de datos sigue una distribucin pre-determinada. c) Para hacer anlisis de tablas de contingencia.

Unidad 5.- Anlisis de Regresin y Correlacin.


El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas). El anlisis de correlacin estudia el grado de asociacin de dos o ms variables. Anlisis de Regresin Una relacin funcional matemticamente hablando, est dada por: Y = f(x1,..., xn; 1,..., m) Donde: Y: Variable respuesta (o dependiente) xi: La i-sima variable independiente (i=1,..,n) j: El j-sima parmetro en la funcin (j=1,.., m) f: La funcin Para elegir una relacin funcional particular como la representativa de la poblacin bajo investigacin, usualmente se procede: 1) Una consideracin analtica del fenmeno que nos ocupa, y 2) Un examen de diagramas de dispersin.

5.1 Regresin lineal simple, curvilnea y mltiple.


Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictorae Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviacin aleatoria de Yi. Regresin Curvilnea: Cuando las variables X e Y se relacionan segn una lnea curva, se habla de regresin no lineal o curvilnea. Es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de segundo grado es: Y =a+bX+cX2 donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Se seguir para ello, un razonamiento y la utilizacin de las ecuaciones normales de Gauss. Las ecuaciones normales son: Y = na + b X + C X2 (1) X Y = a X + b X2 + C X3 (2) X2 Y = a X2 + b X3 + C X4 (3) Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes. Para encontrar los valores de las constantes utilizaremos matrices. Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser nmeros ordenados en filas y columnas. Se llama matriz de orden "m n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz tambin se denomina dimensin o tamao, siendo m y n nmeros naturales. Las matrices se denotan con letras maysculas: A, B, C,... y los elementos de las mismas con letras minsculas y subndices que indican el lugar ocupado: a, b, c,... Un elemento genrico que ocupe la fila i y la columna j se escribe aij. Si el elemento genrico aparece entre parntesis tambin representa a toda la matriz: A = (aij). Regresin lineal mltiple. Para este caso de k variable independientes la media de est dada por el modelo de regresin lineal mltiple Y la respuesta estimada se obtiene de la ecuacin de regresin de la muestra De cada coeficiente de regresin se estima por b1 de los datos de la muestra con el uso de los mtodos de mnimos cuadrado. Como en el caso de una solo variable independiente, el modelo de regresin lineal mltiple a menudo puede ser una representacin adecuada de una estructura ms complicada dentro de ciertos rangos de las variables independientes.

Las tcnicas del mnimo cuadrado similar tambin se pueden utilizarse al estimar los coeficientes cuando el modelo lineal involucrado, potencias, productos de las variables independientes. Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias no caen en una lnea recta pero que se describen de la forma mas apropiada con el modelo de regresin polinomial

Y la respuesta estimada se obtiene de la ecuacin de regresin polinomial En ocasiones surge confusin cuando hablamos de un modelo polinomial como de un modelo lineal. Sin embargo, los estadsticos por lo general se refieren a un modelo lineal como uno en el cual los parmetros ocurren linealmente, sin importar como entren las variables independientes al modelo. Un ejemplo de un modelo no lineal es la relacin exponencial . Que se estima con la ecuacin de regresin .

5.2 Correlacin
El anlisis de correlacin trata de medir el grado de tales relaciones entre dos variables por medio de un simple nmero, denominado coeficiente de correlacin. En teora, se asume a menudo que la distribucin condicional ( ) de Y, para valores fijos de X, es normal con media Y|= + x y variancia 2y|x =2, y que X est distribuida de manera normal con media ( ) ( y variancia 2x. La densidad conjunta de X y Y est, dada por ) ( )
( )

* ( )+ [(
Para

) ]+,

Variable aleatoria Y en la forma Donde X es ahora una variable aleatoria independiente del error aleatoria E. Ya que la media de error aleatorio E es cero, se sigue que

Sustituyendo y 2 en donde la expresin anterior para ( normal Bivariado

) se obtiene la distribucin

*
Para

[(
donde

)(

) ]+

La correlacin trata de establecer la relacin o dependencia q u e e x i s t e e n t r e l a s d o s va r i a b l e s q u e i n t e r v i e n e n e n una distribucin bidimensional . Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos q u e l a s va r i a b l e s e s t n c o r r e l a c i o n a d a s o q u e h a y correlacin entre ellas. Tipos de correlacin 1 Correlacin directa La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.

2 C o r r e l a c i n i n ve r s a L a c o r r e l a c i n i n ve r s a s e d a c u a n d o a l a u m e n t a r u n a d e l a s variables la otra disminuye. La recta correspondiente a la nube de puntos de la distri bucin es una recta decreciente.

3 Correlacin nula La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables.

E n e s t e c a s o s e d i c e q u e l a s va r i a b l e s s o n i n c o r r e l a d a s y l a nube de puntos tiene una forma redondeada.

5.3 Regresin y correlacin para datos agrupados.

5.4 Correlacin por rangos.


La correlacin de Spearman, o por rangos, se basa en reemplazar los valores originales, de ambas variables, por nmeros enteros positivos, comenzando del 1 en adelante, que correspondan a su ordenamiento de menor a mayor magnitud (RANGOS). Para ello, los valores reales de cada una de las variables son ordenados de menor a mayor, por separado y reemplazados por los rangos. (Guilford y Fruchter 1984).Supongamos 6 pares de valores (X, Y) presentados en la Tabla 1junto con los valores de sus rangos:

Dado que la correlacin de Spearman siempre utiliza la misma escala para los rangos de las observaciones de X e Y (1, 2, 3, 4, etc.), el anlisis se puede hacer mediante la siguiente frmula:

Donde: rS = coeficiente de correlacin de Spearman D2 = Cuadrado de las diferencias entre X e Y N = nmero de parejas

Esta frmula es una definicin alternativa, muy cmoda, de la correlacin de Spearman. El coeficiente de correlacin de Spearman suele designarse con la letra griega Rho. Si se introducen los valores de la Tabla 1 en la frmula (1), sta queda de la siguiente forma:

Y resolviendo obtenemos:

Como se observa la frmula obtiene el mismo valor de r que la regresin lineal. sta es la base de la correlacin por rangos. Cuando existen empates, que se refiere a diferencias entre X e Y iguales a cero, se deben realizar algunas modificaciones para obtener el r, las cuales no revisaremos en este artculo. En este ltimo caso, tampoco es posible utilizar la frmula 1. Ntese que si cambiramos el Valor X=55 por X=75 o el valor Y=50 por Y=60, o hiciramos ambos cambios, el valor de los rangos no se altera y, por lo tanto, el valor de rS sigue siendo 0,657. Es decir, la estadstica correlacin por rangos de Spearman no es influenciada por valores extremos de X o de Y, al revs de lo que ocurre con la correlacin lineal o de Pearson. Por eso es muy adecuado usar rS cuando X e Y son cuantitativas, pero no normales.

5.5 Coeficiente de correlacin para datos nominales.


Coeficiente de Correlacin. El coeficiente de correlacin ms utilizado es el de Pesaron, este es un ndice estadstico que mide la relacin lineal entre dos variables cuantitativas, es una forma de medir la intensidad de la relacin lineal entre dos variables. El valor del coeficiente de correlacin puede tomar valores desde menos uno hasta uno, 1 < r < 1, indicando que mientras ms cercano a uno sea el valor del coeficiente de correlacin, en cualquier direccin, ms fuerte ser la asociacin lineal entre las dos variables. El coeficiente de correlacin de clculo r es un estimador muestral del coeficiente poblacional Rho, . Mientras ms cercano a cero sea el coeficiente de correlacin, este indicar que ms dbil es la asociacin entre ambas variables. Si es igual a cero se concluir que no existe relacin lineal alguna entre ambas variables. Hay varias maneras de equivalentes de calcular r, a continuacin se muestran tres formas. Coeficiente Correlacin Frmula por Covarianzas y Desviaciones Tpicas Siendo: SXY la covarianza de (X,Y) y SX, SY las desviaciones tpicas de las distribuciones de las variables independiente y dependiente respectivamente. Coeficiente Correlacin Frmula Clsica. Poco usada para clculo. Coeficiente Correlacin, Frmula por suma de cuadrados. Se usa cuando se dispone de calculadoras de mano que hacen sumatorias y no correlacin.

You might also like