You are on page 1of 32

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MDICAS REA DE ESTADSTICA GUATEMALA, 2011 MEDIDAS DE TENDENCIA CENTRAL

Introduccin Son medidas estadsticas que se usan para describir como se puede resumir la localizacin de los datos. Ubican e identifican el punto alrededor del cual se centran los datos. Las medidas de tendencia central nos indican hacia donde se inclinan o se agrupan los datos. Las medidas ms utilizadas son: la media, la mediana y la moda. El propsito de las medidas de tendencia central es: Mostrar en qu lugar se ubica el elemento promedio o tpico del grupo. Sirve como un mtodo para comparar o interpretar cualquier valor en relacin con el puntaje central o tpico. 3. Sirve como un mtodo para comparar el valor adquirido por una misma variable en dos diferentes ocasiones. 4. Sirve como un mtodo para comparar los resultados medios obtenidos por dos o ms grupos. _ La Media (X) La media o media aritmtica, usualmente llamada promedio, se obtiene sumando todos los valores de los datos y divide el resultado entre la cantidad de datos. Si los datos proceden de una muestra la media se representa con una X y si provienen de la poblacin se representan con la letra griega miu (). Media aritmtica para datos no agrupados muestrales 1. 2.

Media aritmtica para datos no agrupados poblacionales

Media aritmtica para datos agrupados

Donde X: promedio muestral (estadstico) : promedio poblacional (parmetro) : signo de sumatoria N = numero de datos de la poblacin n: numero de datos de la muestra fi: frecuencia absoluta Xc: Marca de clase o punto medio

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Ejemplo para datos no agrupados: A continuacin se presenta una muestra de las puntuaciones en un examen del curso de estadstica: 70 90 95 74 58 70 98 72 75 85 95 74 80 85 90 65 90 75 90 69 Calcular el valor promedio de la puntuacin del curso de estadstica Primero, sumamos todos los valores de los datos y el resultado se divide entre el total de datos o tamao de la muestra. Al sumar todas las puntuaciones en el ejemplo anterior obtendrs un total de 1600, que dividido por 20 (total de datos), es igual a 80. Si empleamos la frmula obtenemos:

El valor promedio de la nota es de 80 puntos del curso de estadstica.

La media para datos agrupados Ejemplo: Determinar el promedio aritmtico del cuadro No. 1 Cuadro No.1
NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 - 194 59 195 - 224 12 225 - 254 5 255 - 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

fi * Xc
626.5 4899.5 13006.5 10590.5 2514.0 1197.5 539.0 33373.5

Total 33 373.5 El promedio aritmtico se establece: _ X = 33 373.5/ 213 = 156.68 El promedio del nivel de colesterol es de 156.68 mg/dl. Propiedad de la Media: La suma de las desviaciones de los valores o datos de una variable X, respecto a su media aritmtica es cero. Ventajas e inconvenientes: - La media aritmtica viene expresada en las mismas unidades que la variable. - En su clculo intervienen todos los valores de la distribucin. - Es el centro de gravedad de toda la distribucin, representando a todos los valores observados. - Es nica. - Su principal inconveniente es que se ve afectada por los valores extremos grandes o pequeos de la distribucin. 2

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

La Mediana (Me) Es el valor de la observacin central de los datos ordenados de menor a mayor (o viceversa) tienen la caracterstica que deja el mismo nmero de valores a su izquierda que a su derecha (50%) de cada lado. La Mediana (Me) para datos no agrupados: 1. Primero se ordenan los datos. 2. Luego se calcula la posicin de la mediana con la siguiente formula: (n+1)/ 2 de donde: n es el nmero de datos. Por ejemplo, se tiene una muestra de tamao 5 con los siguientes valores: 46, 54, 42, 48 y 32. Calcular el valor de la mediana. Primer paso, ordenar los datos: 32 42 46 48 54 Como la cantidad de datos es impar (5 datos), la mediana es el valor del dato que se encuentra ubicado en la posicin (5+1)/2=3, el valor de la mediana es: Me = 46. Por ejemplo: Se ha obtenido una muestra con los valores de datos: 27, 25, 27, 30, 20 y 26. Determine el valor que representa el 50% de los datos. Primer paso, ordenar los datos de forma ascendente: 20 25 26 27 27 30 Como el nmero de datos es par (6), la mediana es el promedio de los datos que se encuentran en las posiciones (6+1) 1 = 3.5 Me = (26 + 27) / 2 = 26.5 El valor que representa el 50% por arriba y por abajo es de 26.5

Donde: Li: Limite inferior real de la clase que contiene la mediana. n: tamao de la muestra. Fi -1 : Frecuencia acumulada anterior a la clase que contiene la mediana. fi: frecuencia de clase absoluta de la clase mediana. Para identificar la clase mediana se divide n/2 y la primera clase que contenga una frecuencia acumulada mayor que n/2.

Ejemplo: informacin cuadro No. 1 Cuadro No.1


NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 194 59 195 224 12 225 254 5 255 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

Fa
7 48 135 194 206 211 213

LRI
74.5 104.5 134.5 164.5 194.5 224.5 254.5

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Con la informacin de cuadro determinar el valor del nivel de colesterol que representa el 50% por arriba o por abajo (mediano) Pasos a seguir: 1) Calculamos N/2 = 106.5 para determinar el intervalo donde se encuentra la mediana, en este caso se encuentra en el tercer intervalo pues all hay 135 datos acumulados. 2) Determinar los valores Lri = 134.5 i = 30 fi = 87 Fa= 48 Se aplica la formula Me = 134.5 + [(213/ 2 48) / 87] * 30 Me = 154.67 El valor mediano de los niveles de colesterol es de 154.67 mg/dl.

Ventajas e inconvenientes: - Es fcil de calcular. - En la mediana solo influyen los valores centrales y es insensible a los valores extremos. - En su determinacin no intervienen todos los valores de la variable. La Moda (Mo) Es el dato que ms se repite o el dato que ocurre con mayor frecuencia. Un grupo de datos puede no tener moda, tener una moda (unimodal), dos modas (bimodal) o ms de dos modas (multimodal). Ejemplos datos simples: a) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26 y 30. Mo = 25 es unimodal b) Se tiene una muestra con valores 20, 20, 23, 24, 25, 25, 26 y 30. Mo= 20 y 25, se dice que es bimodal. c) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26, 30 y 30. Mo= 20, 25 y 30, se dice que es multimodal. Ejemplo datos agrupados:

Donde d1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inferior d2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase superior

Cuadro No.1
NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 - 194 59 195 - 224 12 225 - 254 5 255 - 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

Fa
7 48 135 194 206 211 213

LRI
74.5 104.5 134.5 164.5 194.5 224.5 254.5

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Calculo de la moda: Para calcular la moda debemos primero ubicar el intervalo de mayor frecuencia observamos la frecuencia mxima es 87, que corresponde al tercer intervalo. De all observamos los datos restantes para aplicar directamente la formula. Lri = 134.5 d1 = 46 d2 = 28 i = 30 Mo = 134.5 + (46 /(46 + 28)) * 30 Mo = 153.15 El valor ms frecuente de los niveles de colesterol es de 153.15 mg/dl Ventajas e inconvenientes: - Su clculo es sencillo. - Es de fcil interpretacin. - Es la nica medida de posicin central que puede obtenerse en las variables de tipo cualitativo. - En su determinacin no intervienen todos lo valores de la distribucin.

FRACTILOS O CUANTILOS Estos permiten identificar valores ubicados en diferentes posiciones. Se denomina fractilo a la localizacin del valor que corresponde al final de cada parte en que se ha dividido la distribucin de datos. Cuartiles (Qj) Los cuartiles dividen los datos en cuatro partes iguales. Cada una de las partes representa una cuarta parte, o el 25% de las observaciones. Los cuartiles (primero, segundo, tercero y cuarto) sealan el valor que est al 25, 50, 75 y 100 % de la totalidad de datos, el segundo cuartil equivale a la mediana.

Deciles (DJ) Una fraccin de datos que divide en 10 partes iguales. El quinto decil corresponde a la mediana. De denota por Dj donde j indica a que dcima parte corresponde. Percentiles o Centiles (PJ / CJ ) Son los valores de la variable al final de cada una de las centsima parte de la distribucin de datos se posee. Ntese las siguientes equivalencias La mediana es igual al cuartil segundo, decil quinto y centil 50 Me = Q2 = D5 = C50 El cuartil primero es igual al centil 25 Q1 = C25 El cuartil tercero es igual al centil 75 Q3= C75 El Decil primero es igual al centil decimo,etc. D1 = C10

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Ejemplo: a continuacin se presenta un conjunto de datos 10, 5, 12, 8, 14, 11, 15, 20, 18, 30 y 25. Pasos: 1) Se ordenan los valores en forma ascendente o descendente 5 8 11 12 14 15 18 20 25 30 2) Se determina (j = 1) Calcular posicin de los Cuartiles Q1 = primer cuartil, o percentil 25

Q1 = (10+1)/4 = (11)/4 = 2.75 posicin 3 Como (j) no es un nmero entero, se redondea al prximo entero mayor 3. Al referirnos a los datos vemos que el primer cuartil est ubicado en la posicin 3 de los datos que este caso el valor que ocupa la tercera posicin tiene el valor de Q1 = 11 Tercer cuartil: Q3 = tercer cuartil, o percentil 75 j = 3(10+1)/4 = 3(11)/4 = 33/4 = 8.25 Como (j) no es un nmero entero, se trunca al entero anterior que 8.25, o sea 8. Al referirnos a los datos, vemos que el tercer cuartil est ubicado en posicin 8 de los datos que en este caso es Q3=20 Cuartiles para datos Agrupados.

con frecuencia acumulada mayor que n/4 , esa es la clase del primer cuartil y (3*n)/4 para el tercer cuartil. Luego se aplica la formula. Lir es el limite inferior real de la clase cuartilica. n es el tamao de la muestra. fi es la frecuencia de clase cuartilica. fi-1 es la frecuencia de clase anterior a la clase cuartilica. i es el tamao del intervalo. Usos de los cuartiles: 1. Para indicar el porcentaje igual o menor que el valor de un cuartil. 2. Para describir el 50% central de las observaciones

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ MEDIDAS DE DISPERSIN

Introduccin Miden la variabilidad de un conjunto de datos. Las medidas mas utilizadas son: rango, varianza, desviacin estndar y coeficiente de variacin,

Rango ( R) Es la diferencia entre el valor ms grande y el ms pequeo del conjunto de los datos. Rango para datos no agrupados Rango = Valor mximo - Valor mnimo R = 64 12 = 52 Rango para datos agrupados R = lmite superior de la ltima clase - lmite inferior de la primera clase R = 10.5 5.2 = 5.3

Varianza (s) Es la medida que cuantifica la variabilidad de los datos respecto al valor de la media. La varianza para la muestra se representa mediante una s. Usos de la Varianza - En inferencia estadstica. - Para calcular la desviacin estndar. - Para calcular el tamao de muestra. La formula para datos no agrupados es:

Ejemplo: Para los datos siguientes calcular la varianza. 22 38 35 56 45 33 28 36 45 55 20 38 46 27 45 23 64 21 34 22 29 36 12 54 45 37 53 26 35 32 21 43 39 28 28 Se debe calcular primero la media. _ X = (22 + 38 + 35 + 56 + 45 + 33 + 28 + 36 + 45 + 55 + 20 + 38 + 46 + 27 + 45 + 23+ 64 + 21 + 34 + 22 + 29 + 36 + 12 + 54 + 45 + 37 + 53 + 26 + 35 + 32 + 21 + 43 + 39 + 28 + 28) / 35 _ X = 1250.99 / 35 _ X = 35.74 S = ((22 35.74) + (38 35.74)+ (35 35.74) + (56 35.74) + (45 35.74) + (33 35.74) + (28 35.74) + (36 35.74) + (45 35.74) + (55 35.74) + (20 35.74)+ (38 35.74) + (46 35.74) + (27 35.74) + (45 35.74) + (23 35.74) + (64 35.74) + (21 35.74) + (34 35.74) + (22 35.74) + (29 35.74) + (36 35.74) + (12 35.74) + (54 35.74) + (45 35.74) + (37 7

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

35.74) + (53 35.74) + (26 35.74) + (35 35.74) + (32 35.74) + (21 35.74) + (43 35.74) + (39 35.74) + (28 35.74) + (28 35.74) ) / (35 1) S = 145 La varianza es de 145.

Desviacin Estndar (s) Es la raz cuadrada positiva de la varianza. Mide la variabilidad de los datos en las unidades en que se midieron originalmente. Los smbolos son: s, si es una muestra; si es una poblacin. s = s2 s = 145 s = 12.04

El valor de desviacin estndar es 12.04

Caractersticas de la desviacin estndar: 1. Siempre es un valor positivo. 2. Est influenciada por todos los valores de la muestra o poblacin. 3. Mayor influencia ejercen los valores extremos debido a que son elevados al cuadrado en el clculo. 4. Sirve para definir la dispersin de los datos alrededor de la media. La desviacin estndar para datos agrupados _ s = (fi * (Xi - X)) / n 1 Proceso: 1) Se eleva La diferencia del punto medio menos el valor de la media al cuadrado y luego se multiplica por la frecuencia absoluta de clase. 2) Se obtiene la sumatoria de la diferencia multiplicada por la frecuencia absoluta, este resultado se divide entre n 1. Para obtener la varianza se eleva la desviacin estndar al cuadrado. Ejemplo: CUADRO No. 2 PESO DE ESTUDIANTES DE DE 1er. INGRESO FACULTAD DE CIENCIAS MDICAS, USAC OCTUBRE 2009 PESO (Lbs) 95 104 105 - 114 115 -124 125 - 134 135 - 144 145 154 fi 26 89 101 48 23 15 302 Mc 99.5 109.5 119.5 129.5 139.5 149.5 fi * Mc 2587.0 9745.5 12069.5 6216.0 3208.5 2242.5 36069.0 fi * (Mc 119.43) 10327.33 8775.84 0.49 4867.44 9264.51 13563.07 46798.68

_ X = 36069 / 302 = 119.43 El valor promedio de los pesos 119.43 Lbs. S = 46798.68/ (302- 1) S = 155.48 S = 12.47 El valor de la desviacin estndar de acuerdo a los pesos es de 12.47 Lbs. El valor de la varianza es de 155.48 lbs

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Coeficiente de variabilidad Medida de variabilidad relativa: Se usa para comparar la variabilidad entre dos o ms muestras medidas en las mismas unidades o no. Los datos que se expresan en porcentaje en la cual se compara la desviacin estndar con el respectivo valor del promedio de los datos

EJEMPLO: Entre dos personas que llevan una dieta reductiva, la primera pertenece a un grupo de edad de la cual el peso medio es de 146 libras con una desviacin estndar de 14 libras y la segunda pertenece a un grupo de edad de la que el peso medio es de 160 libras con una desviacin estndar de 17 libras. Cul de los grupos lleva una dieta relativamente consistente. Los coeficientes de variacin son: V1 = (14/ 146) * 100 = 9.6 % V2 = (17/160) * 100 = 10.6 % Por lo tanto, el segundo tiene una dieta relativamente menos consistente ya que su variacin es mayor, lo que significa que hay ms probabilidad de ganar o perder peso.

Medidas Asimetra O Sesgo Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto a su valor promedio tomado como centro. El coeficiente de asimetra de Pearson es:

Medida de forma: Curtosis

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Se puede calcular el coeficiente a partir de los momentos 4 K4 = (m4 / s ) - 3

EJEMPLO: CUADRO No. 2 PESO DE ESTUDIANTES DE DE 1er. INGRESO FACULTAD DE CIENCIAS MDICAS, USAC OCTUBRE 2009
PESO (Lbs) 95 104 105 114 115 -124 125 134 135 144 145 154 Fi 26 89 101 48 23 15 302 Mc 99.5 109.5 119.5 129.5 139.5 149.5 fi * Mc 2587.0 9745.5 12069.5 6216.0 3208.5 2242.5 36069.0 fi * (Mc 119.43) 10327.33 8775.84 0.49 4867.44 9264.51 13563.07 46798.68 Fa 26 115 216 264 287 302 f * ( Mc 119.43) 4 4102065.05 865.340.44 0.02 402614.11 3731791.11 12263797.52 20501133.59

DEL CUADRO No. 2 Se establece que el valor de la media es de: _ X = 119.43 Lbs. S = 12.47 Lbs. Me = 114.5 + (302/2 -115)/ 101 ) * 10 = 118.06 A1 = 3 *( 119.43 -118.06)/12.47 = 0.32 Interpretacin: Como el valor de la media es mayor que el valor de la mediana y el valor de A1, es positivo y su valor es 0.32 podemos concluir que tiene un sesgo a derecha , el cual puede ser comprobado con el polgono de frecuencias. Para calcular la curtosis Se establece el momento cuarto M 4 = 20201133.59 / 302 = 66891.17 K 4 = 6691.17/ 12.47 4 ) 3 = - 0.23 Como el valor es menor que 0.263 Podemos concluir que es platicurtica.

10

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

ANLISIS DE CORRELACIN Y REGRESION

Introduccin En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos variables aleatorias. A travs de este anlisis se trata de determinar el grado de relacin o correspondencia entre dos conjuntos de valores denominados variables. Cuando la relacin tiene un valor positivo significa que a valores altos en una variable corresponden valores altos en la otra variable. Y la relacin con signo negativo significa que las variables estn relacionadas de manera inversa de modo que cuando el valor aumenta en una, disminuye en la otra. Las variables estudiadas asumen los nombres de: variable dependiente representada por Y y la variable independiente representada por X. Conceptos: Anlisis de correlacin: se usa un gupo de tcnicas estadsticas para medir la fuerza de la relacin (correlacin) entre dos variables. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de inters. Variable dependiente: la variable que se pronostica o estima. Variable independiente: la variable que proporciona la base para la estimacin. Es la variable predictora. El coeficiente de determinacin, r es la proporcin de la variacin total en la variable dependiente Y que est explicada por o se debe a la variacin en la variable independiente X. El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma valores de 0 a 1. El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables), y puede tomar valores entre -1.00 y 1.00.

11

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Valores de -1.00 o 1.00 indican correlacin fuerte y perfecta. Los valores cercanos a 0.0 indican correlacin dbil. Valores negativos indican una relacin inversa y valores positivos indican una relacin directa.

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa. Es importante notar que la existencia de correlacin entre variables no implica causalidad. Si no hay correlacin de ningn tipo entre dos variables, entonces tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable:

Definicin y caractersticas del concepto de Regresin Lineal En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de mnimos cuadrados). Uno de los principales usos de dicha recta ser el de predecir o estimar los valores de Y que obtendramos para distintos valores de X. Estos conceptos quedarn representados en lo que llamamos diagrama de dispersin. Anlisis de regresin Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin; determinar la ecuacin de regresin. La ecuacin de regresin: Y= a + bX, donde: Y es el valor promedio pronosticado de Y para cualquier valor de X. a es la intercepcin en Y, o el valor estimado de Y cuando X = 0, es decir, el valor del punto en que la recta cruza, corta el eje de las coordenadas (y). x es cualquier valor de x que desee utilizarse para predecir su correspondiente valor en y.

12

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

b es la pendiente de la recta, o cambio promedio en Y por cada cambio de una unidad en X se usa el principio de mnimos cuadrados para obtener a y b y=aN+bx x y = a x + x Definicin del Coeficiente de Determinacin Denominamos coeficiente de determinacin r como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y. Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r). R = r Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.

Procedimiento para el anlisis de correlacin y regresin Lineal 1. Identificar la variable dependiente y la variable independiente. 2. Construir el diagrama de dispersin. Los datos de la variable independiente x se colocan en el eje de las X y los de la variable dependiente en el eje de las Y. 3. Calcular el coeficiente de correlacin lineal. 4. Calcular la ecuacin de mejor ajuste de los mnimos cuadrados. 5. Trazar la lnea de mejor ajuste. Ejemplo: el siguiente conjunto de datos: Se llev a cabo un proyecto de investigacin para determinar si existe alguna relacin entre los aos de servicio en un hospital y la eficiencia de las enfermeras. Se recogieron los datos siguientes. Se desea predecir la eficiencia del empleado. Enfermera 1 2 3 4 5 6 7 8 Aos de servicio 1 20 6 8 2 1 15 8 Tasa de eficiencia % 43 97 59 66 44 42 89 65

1. Primero identificamos la variable dependiente y la independiente. Se puede decir que la variable dependiente es la tasa de eficiencia por que depende de los aos de servicio (experiencia). Por lo tanto la variable independiente son los aos de experiencia.

2. Se traza el diagrama de dispersin. Para ello los valores de la variable dependiente se colocan en el eje de las Y y los valores de la variable independiente en el eje de las X. Luego se coloca un punto de interseccin entre los valores de los datos ordenados, al grafico de resultado se le conoce como diagrama de dispersin.

13

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

FUENTE: Datos hipotticos

Rr

r = 7995/8041.357 r = 0.994235 Lo que indica que existe una correlacin positiva inversa R = r * r R = 0.994235 * 0.994235 R = 0.98850* 100% R = 98.50 %

14

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

El porcentaje de variacin de Y (tasa de eficiencia) que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X (aos de servicio 1 - R 1 0.9885 = 0.0115 * 100 = 1.15 % Esto nos indica que porcentaje de las variaciones no se explica a travs del modelo de regresin

4.

Calcular la ecuacin de mejor ajuste de los mnimos cuadrados: b = [ 8 *(4850) ( 61) * (505) ] / [ (8 * 795) (61)] b = 7995/ 2639 b = 3.0295567 a = [505 / 8]- [ 3.0295567 * (61/ 8)] a = 63.125 -23.10037 a = 40.02463 La ecuacin de regresin: Y = a + b x Y = 40.02463 + 3.0295567 donde

5 Trazar la lnea de mejor ajuste, para ello se debe hacer un pronstico de los valores de x en la ecuacin.

Aos de servicio (X) 0 1 20 6 8 2 1 15 8 61

Pronstico Y=a+ bx 40.025 43.054 100.616 58.202 64.261 46.084 43.054 4585.466 64.261

15

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

El error estndar de estimacin mide la dispersin alrededor de la lnea de regresin S = [ (43 -43.05) + (97 100.62) + (59 -58.2) + (66 64.26 ) + (44 46.08) +( 42 43.05) + (89 85.47) + ( 65 64.26) ] / ( 8 -2) S = 35.4595 / 6 S = 5.909917 S = 2.431032 este es el valor de dispersin de los datos con respecto a la lnea de mayor ajuste.

BIBLIOGRAFIA: DANIEL, Wayne W. Bioestadistica, Linusa Wiley, 4 edicin

16

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS MDICAS REA DE ESTADSTICA GUATEMALA, 2011 MEDIDAS DE TENDENCIA CENTRAL

Introduccin Son medidas estadsticas que se usan para describir como se puede resumir la localizacin de los datos. Ubican e identifican el punto alrededor del cual se centran los datos. Las medidas de tendencia central nos indican hacia donde se inclinan o se agrupan los datos. Las medidas ms utilizadas son: la media, la mediana y la moda. El propsito de las medidas de tendencia central es: Mostrar en qu lugar se ubica el elemento promedio o tpico del grupo. Sirve como un mtodo para comparar o interpretar cualquier valor en relacin con el puntaje central o tpico. 3. Sirve como un mtodo para comparar el valor adquirido por una misma variable en dos diferentes ocasiones. 4. Sirve como un mtodo para comparar los resultados medios obtenidos por dos o ms grupos. _ La Media (X) La media o media aritmtica, usualmente llamada promedio, se obtiene sumando todos los valores de los datos y divide el resultado entre la cantidad de datos. Si los datos proceden de una muestra la media se representa con una X y si provienen de la poblacin se representan con la letra griega miu (). Media aritmtica para datos no agrupados muestrales 1. 2.

Media aritmtica para datos no agrupados poblacionales

Media aritmtica para datos agrupados

Donde X: promedio muestral (estadstico) : promedio poblacional (parmetro) : signo de sumatoria N = numero de datos de la poblacin n: numero de datos de la muestra fi: frecuencia absoluta Xc: Marca de clase o punto medio

17

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Ejemplo para datos no agrupados: A continuacin se presenta una muestra de las puntuaciones en un examen del curso de estadstica: 70 90 95 74 58 70 98 72 75 85 95 74 80 85 90 65 90 75 90 69 Calcular el valor promedio de la puntuacin del curso de estadstica Primero, sumamos todos los valores de los datos y el resultado se divide entre el total de datos o tamao de la muestra. Al sumar todas las puntuaciones en el ejemplo anterior obtendrs un total de 1600, que dividido por 20 (total de datos), es igual a 80. Si empleamos la frmula obtenemos:

El valor promedio de la nota es de 80 puntos del curso de estadstica.

La media para datos agrupados Ejemplo: Determinar el promedio aritmtico del cuadro No. 1 Cuadro No.1
NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 - 194 59 195 - 224 12 225 - 254 5 255 - 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

fi * Xc
626.5 4899.5 13006.5 10590.5 2514.0 1197.5 539.0 33373.5

Total 33 373.5 El promedio aritmtico se establece: _ X = 33 373.5/ 213 = 156.68 El promedio del nivel de colesterol es de 156.68 mg/dl. Propiedad de la Media: La suma de las desviaciones de los valores o datos de una variable X, respecto a su media aritmtica es cero. Ventajas e inconvenientes: - La media aritmtica viene expresada en las mismas unidades que la variable. - En su clculo intervienen todos los valores de la distribucin. - Es el centro de gravedad de toda la distribucin, representando a todos los valores observados. - Es nica. - Su principal inconveniente es que se ve afectada por los valores extremos grandes o pequeos de la distribucin. 18

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

La Mediana (Me) Es el valor de la observacin central de los datos ordenados de menor a mayor (o viceversa) tienen la caracterstica que deja el mismo nmero de valores a su izquierda que a su derecha (50%) de cada lado. La Mediana (Me) para datos no agrupados: 1. Primero se ordenan los datos. 2. Luego se calcula la posicin de la mediana con la siguiente formula: (n+1)/ 2 de donde: n es el nmero de datos. Por ejemplo, se tiene una muestra de tamao 5 con los siguientes valores: 46, 54, 42, 48 y 32. Calcular el valor de la mediana. Primer paso, ordenar los datos: 32 42 46 48 54 Como la cantidad de datos es impar (5 datos), la mediana es el valor del dato que se encuentra ubicado en la posicin (5+1)/2=3, el valor de la mediana es: Me = 46. Por ejemplo: Se ha obtenido una muestra con los valores de datos: 27, 25, 27, 30, 20 y 26. Determine el valor que representa el 50% de los datos. Primer paso, ordenar los datos de forma ascendente: 20 25 26 27 27 30 Como el nmero de datos es par (6), la mediana es el promedio de los datos que se encuentran en las posiciones (6+1) 1 = 3.5 Me = (26 + 27) / 2 = 26.5 El valor que representa el 50% por arriba y por abajo es de 26.5

Donde: Li: Limite inferior real de la clase que contiene la mediana. n: tamao de la muestra. Fi -1 : Frecuencia acumulada anterior a la clase que contiene la mediana. fi: frecuencia de clase absoluta de la clase mediana. Para identificar la clase mediana se divide n/2 y la primera clase que contenga una frecuencia acumulada mayor que n/2.

Ejemplo: informacin cuadro No. 1 Cuadro No.1


NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 194 59 195 224 12 225 254 5 255 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

Fa
7 48 135 194 206 211 213

LRI
74.5 104.5 134.5 164.5 194.5 224.5 254.5

19

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Con la informacin de cuadro determinar el valor del nivel de colesterol que representa el 50% por arriba o por abajo (mediano) Pasos a seguir: 1) Calculamos N/2 = 106.5 para determinar el intervalo donde se encuentra la mediana, en este caso se encuentra en el tercer intervalo pues all hay 135 datos acumulados. 3) Determinar los valores Lri = 134.5 i = 30 fi = 87 Fa= 48 Se aplica la formula Me = 134.5 + [(213/ 2 48) / 87] * 30 Me = 154.67 El valor mediano de los niveles de colesterol es de 154.67 mg/dl.

Ventajas e inconvenientes: - Es fcil de calcular. - En la mediana solo influyen los valores centrales y es insensible a los valores extremos. - En su determinacin no intervienen todos los valores de la variable. La Moda (Mo) Es el dato que ms se repite o el dato que ocurre con mayor frecuencia. Un grupo de datos puede no tener moda, tener una moda (unimodal), dos modas (bimodal) o ms de dos modas (multimodal). Ejemplos datos simples: a) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26 y 30. Mo = 25 es unimodal b) Se tiene una muestra con valores 20, 20, 23, 24, 25, 25, 26 y 30. Mo= 20 y 25, se dice que es bimodal. c) Se tiene una muestra con valores 20, 23, 24, 25, 25, 26, 30 y 30. Mo= 20, 25 y 30, se dice que es multimodal. Ejemplo datos agrupados:

Donde d1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase inferior d2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la clase superior

Cuadro No.1
NIVELES DE COLESTEROL EN LA SANGRE (mg/dl) DE PACIENTES ATENDIDOS EN LA CLINICA LA ESPERANZA, ENERO DE 2009
NIVELES DE fi COLESTEROL 75 -104 7 105 -134 41 135 -164 87 165 - 194 59 195 - 224 12 225 - 254 5 255 - 285 2 TOTAL 213 Fuente: datos hipotticos

Xc
89.5 119.5 149.5 179.5 209.5 239.5 269.5

Fa
7 48 135 194 206 211 213

LRI
74.5 104.5 134.5 164.5 194.5 224.5 254.5

20

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Calculo de la moda: Para calcular la moda debemos primero ubicar el intervalo de mayor frecuencia observamos la frecuencia mxima es 87, que corresponde al tercer intervalo. De all observamos los datos restantes para aplicar directamente la formula. Lri = 134.5 d1 = 46 d2 = 28 i = 30 Mo = 134.5 + (46 /(46 + 28)) * 30 Mo = 153.15 El valor ms frecuente de los niveles de colesterol es de 153.15 mg/dl Ventajas e inconvenientes: - Su clculo es sencillo. - Es de fcil interpretacin. - Es la nica medida de posicin central que puede obtenerse en las variables de tipo cualitativo. - En su determinacin no intervienen todos lo valores de la distribucin.

FRACTILOS O CUANTILOS Estos permiten identificar valores ubicados en diferentes posiciones. Se denomina fractilo a la localizacin del valor que corresponde al final de cada parte en que se ha dividido la distribucin de datos. Cuartiles (Qj) Los cuartiles dividen los datos en cuatro partes iguales. Cada una de las partes representa una cuarta parte, o el 25% de las observaciones. Los cuartiles (primero, segundo, tercero y cuarto) sealan el valor que est al 25, 50, 75 y 100 % de la totalidad de datos, el segundo cuartil equivale a la mediana.

Deciles (DJ) Una fraccin de datos que divide en 10 partes iguales. El quinto decil corresponde a la mediana. De denota por Dj donde j indica a que dcima parte corresponde. Percentiles o Centiles (PJ / CJ ) Son los valores de la variable al final de cada una de las centsima parte de la distribucin de datos se posee. Ntese las siguientes equivalencias La mediana es igual al cuartil segundo, decil quinto y centil 50 Me = Q2 = D5 = C50 El cuartil primero es igual al centil 25 Q1 = C25 El cuartil tercero es igual al centil 75 Q3= C75 El Decil primero es igual al centil decimo,etc. D1 = C10

21

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Ejemplo: a continuacin se presenta un conjunto de datos 10, 5, 12, 8, 14, 11, 15, 20, 18, 30 y 25. Pasos: 1) Se ordenan los valores en forma ascendente o descendente 5 8 11 12 14 15 18 20 25 30 2) Se determina (j = 1) Calcular posicin de los Cuartiles Q1 = primer cuartil, o percentil 25

Q1 = (10+1)/4 = (11)/4 = 2.75 posicin 3 Como (j) no es un nmero entero, se redondea al prximo entero mayor 3. Al referirnos a los datos vemos que el primer cuartil est ubicado en la posicin 3 de los datos que este caso el valor que ocupa la tercera posicin tiene el valor de Q1 = 11 Tercer cuartil: Q3 = tercer cuartil, o percentil 75 j = 3(10+1)/4 = 3(11)/4 = 33/4 = 8.25 Como (j) no es un nmero entero, se trunca al entero anterior que 8.25, o sea 8. Al referirnos a los datos, vemos que el tercer cuartil est ubicado en posicin 8 de los datos que en este caso es Q3=20 Cuartiles para datos Agrupados.

con frecuencia acumulada mayor que n/4 , esa es la clase del primer cuartil y (3*n)/4 para el tercer cuartil. Luego se aplica la formula. Lir es el limite inferior real de la clase cuartilica. n es el tamao de la muestra. fi es la frecuencia de clase cuartilica. fi-1 es la frecuencia de clase anterior a la clase cuartilica. i es el tamao del intervalo. Usos de los cuartiles: 1. Para indicar el porcentaje igual o menor que el valor de un cuartil. 2. Para describir el 50% central de las observaciones

22

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ MEDIDAS DE DISPERSIN

Introduccin Miden la variabilidad de un conjunto de datos. Las medidas mas utilizadas son: rango, varianza, desviacin estndar y coeficiente de variacin,

Rango ( R) Es la diferencia entre el valor ms grande y el ms pequeo del conjunto de los datos. Rango para datos no agrupados Rango = Valor mximo - Valor mnimo R = 64 12 = 52 Rango para datos agrupados R = lmite superior de la ltima clase - lmite inferior de la primera clase R = 10.5 5.2 = 5.3

Varianza (s) Es la medida que cuantifica la variabilidad de los datos respecto al valor de la media. La varianza para la muestra se representa mediante una s. Usos de la Varianza - En inferencia estadstica. - Para calcular la desviacin estndar. - Para calcular el tamao de muestra. La formula para datos no agrupados es:

Ejemplo: Para los datos siguientes calcular la varianza. 22 38 35 56 45 33 28 36 45 55 20 38 46 27 45 23 64 21 34 22 29 36 12 54 45 37 53 26 35 32 21 43 39 28 28 Se debe calcular primero la media. _ X = (22 + 38 + 35 + 56 + 45 + 33 + 28 + 36 + 45 + 55 + 20 + 38 + 46 + 27 + 45 + 23+ 64 + 21 + 34 + 22 + 29 + 36 + 12 + 54 + 45 + 37 + 53 + 26 + 35 + 32 + 21 + 43 + 39 + 28 + 28) / 35 _ X = 1250.99 / 35 _ X = 35.74 S = ((22 35.74) + (38 35.74)+ (35 35.74) + (56 35.74) + (45 35.74) + (33 35.74) + (28 35.74) + (36 35.74) + (45 35.74) + (55 35.74) + (20 35.74)+ (38 35.74) + (46 35.74) + (27 35.74) + (45 35.74) + (23 35.74) + (64 35.74) + (21 35.74) + (34 35.74) + (22 35.74) + (29 35.74) + (36 35.74) + (12 35.74) + (54 35.74) + (45 35.74) + (37 23

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

35.74) + (53 35.74) + (26 35.74) + (35 35.74) + (32 35.74) + (21 35.74) + (43 35.74) + (39 35.74) + (28 35.74) + (28 35.74) ) / (35 1) S = 145 La varianza es de 145.

Desviacin Estndar (s) Es la raz cuadrada positiva de la varianza. Mide la variabilidad de los datos en las unidades en que se midieron originalmente. Los smbolos son: s, si es una muestra; si es una poblacin. s = s2 s = 145 s = 12.04

El valor de desviacin estndar es 12.04

Caractersticas de la desviacin estndar: 1. Siempre es un valor positivo. 2. Est influenciada por todos los valores de la muestra o poblacin. 3. Mayor influencia ejercen los valores extremos debido a que son elevados al cuadrado en el clculo. 4. Sirve para definir la dispersin de los datos alrededor de la media. La desviacin estndar para datos agrupados _ s = (fi * (Xi - X)) / n 1 Proceso: 1) Se eleva La diferencia del punto medio menos el valor de la media al cuadrado y luego se multiplica por la frecuencia absoluta de clase. 2) Se obtiene la sumatoria de la diferencia multiplicada por la frecuencia absoluta, este resultado se divide entre n 1. Para obtener la varianza se eleva la desviacin estndar al cuadrado. Ejemplo: CUADRO No. 2 PESO DE ESTUDIANTES DE DE 1er. INGRESO FACULTAD DE CIENCIAS MDICAS, USAC OCTUBRE 2009 PESO (Lbs) 95 104 105 - 114 115 -124 125 - 134 135 - 144 145 154 fi 26 89 101 48 23 15 302 Mc 99.5 109.5 119.5 129.5 139.5 149.5 fi * Mc 2587.0 9745.5 12069.5 6216.0 3208.5 2242.5 36069.0 fi * (Mc 119.43) 10327.33 8775.84 0.49 4867.44 9264.51 13563.07 46798.68

_ X = 36069 / 302 = 119.43 El valor promedio de los pesos 119.43 Lbs. S = 46798.68/ (302- 1) S = 155.48 S = 12.47 El valor de la desviacin estndar de acuerdo a los pesos es de 12.47 Lbs. El valor de la varianza es de 155.48 lbs

24

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Coeficiente de variabilidad Medida de variabilidad relativa: Se usa para comparar la variabilidad entre dos o ms muestras medidas en las mismas unidades o no. Los datos que se expresan en porcentaje en la cual se compara la desviacin estndar con el respectivo valor del promedio de los datos

EJEMPLO: Entre dos personas que llevan una dieta reductiva, la primera pertenece a un grupo de edad de la cual el peso medio es de 146 libras con una desviacin estndar de 14 libras y la segunda pertenece a un grupo de edad de la que el peso medio es de 160 libras con una desviacin estndar de 17 libras. Cul de los grupos lleva una dieta relativamente consistente. Los coeficientes de variacin son: V1 = (14/ 146) * 100 = 9.6 % V2 = (17/160) * 100 = 10.6 % Por lo tanto, el segundo tiene una dieta relativamente menos consistente ya que su variacin es mayor, lo que significa que hay ms probabilidad de ganar o perder peso.

Medidas Asimetra O Sesgo Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto a su valor promedio tomado como centro. El coeficiente de asimetra de Pearson es:

Medida de forma: Curtosis

25

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Se puede calcular el coeficiente a partir de los momentos 4 K4 = (m4 / s ) - 3

EJEMPLO: CUADRO No. 2 PESO DE ESTUDIANTES DE DE 1er. INGRESO FACULTAD DE CIENCIAS MDICAS, USAC OCTUBRE 2009
PESO (Lbs) 95 104 105 114 115 -124 125 134 135 144 145 154 Fi 26 89 101 48 23 15 302 Mc 99.5 109.5 119.5 129.5 139.5 149.5 fi * Mc 2587.0 9745.5 12069.5 6216.0 3208.5 2242.5 36069.0 fi * (Mc 119.43) 10327.33 8775.84 0.49 4867.44 9264.51 13563.07 46798.68 Fa 26 115 216 264 287 302 f * ( Mc 119.43) 4 4102065.05 865.340.44 0.02 402614.11 3731791.11 12263797.52 20501133.59

DEL CUADRO No. 2 Se establece que el valor de la media es de: _ X = 119.43 Lbs. S = 12.47 Lbs. Me = 114.5 + (302/2 -115)/ 101 ) * 10 = 118.06 A1 = 3 *( 119.43 -118.06)/12.47 = 0.32 Interpretacin: Como el valor de la media es mayor que el valor de la mediana y el valor de A1, es positivo y su valor es 0.32 podemos concluir que tiene un sesgo a derecha , el cual puede ser comprobado con el polgono de frecuencias. Para calcular la curtosis Se establece el momento cuarto M 4 = 20201133.59 / 302 = 66891.17 K 4 = 6691.17/ 12.47 4 ) 3 = - 0.23 Como el valor es menor que 0.263 Podemos concluir que es platicurtica.

26

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

ANLISIS DE CORRELACIN Y REGRESION

Introduccin En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos variables aleatorias. A travs de este anlisis se trata de determinar el grado de relacin o correspondencia entre dos conjuntos de valores denominados variables. Cuando la relacin tiene un valor positivo significa que a valores altos en una variable corresponden valores altos en la otra variable. Y la relacin con signo negativo significa que las variables estn relacionadas de manera inversa de modo que cuando el valor aumenta en una, disminuye en la otra. Las variables estudiadas asumen los nombres de: variable dependiente representada por Y y la variable independiente representada por X. Conceptos: Anlisis de correlacin: se usa un gupo de tcnicas estadsticas para medir la fuerza de la relacin (correlacin) entre dos variables. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de inters. Variable dependiente: la variable que se pronostica o estima. Variable independiente: la variable que proporciona la base para la estimacin. Es la variable predictora. El coeficiente de determinacin, r es la proporcin de la variacin total en la variable dependiente Y que est explicada por o se debe a la variacin en la variable independiente X. El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma valores de 0 a 1. El coeficiente de correlacin (r) es una medida de la intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de razn (variables), y puede tomar valores entre -1.00 y 1.00.

27

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

Valores de -1.00 o 1.00 indican correlacin fuerte y perfecta. Los valores cercanos a 0.0 indican correlacin dbil. Valores negativos indican una relacin inversa y valores positivos indican una relacin directa.

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1 cuando la correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa. Es importante notar que la existencia de correlacin entre variables no implica causalidad. Si no hay correlacin de ningn tipo entre dos variables, entonces tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable:

Definicin y caractersticas del concepto de Regresin Lineal En aquellos casos en que el coeficiente de regresin lineal sea cercano a +1 o a 1, tiene sentido considerar la ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de mnimos cuadrados). Uno de los principales usos de dicha recta ser el de predecir o estimar los valores de Y que obtendramos para distintos valores de X. Estos conceptos quedarn representados en lo que llamamos diagrama de dispersin. Anlisis de regresin Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la variable dependiente (Y) basado en la variable independiente (X). Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin; determinar la ecuacin de regresin. La ecuacin de regresin: Y= a + bX, donde: Y es el valor promedio pronosticado de Y para cualquier valor de X. a es la intercepcin en Y, o el valor estimado de Y cuando X = 0, es decir, el valor del punto en que la recta cruza, corta el eje de las coordenadas (y). x es cualquier valor de x que desee utilizarse para predecir su correspondiente valor en y.

28

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

b es la pendiente de la recta, o cambio promedio en Y por cada cambio de una unidad en X se usa el principio de mnimos cuadrados para obtener a y b y=aN+bx x y = a x + x Definicin del Coeficiente de Determinacin Denominamos coeficiente de determinacin r como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variacin de Y que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y. Tambin se puede entender este coeficiente de determinacin como el porcentaje de varianza explicada por la recta de regresin y su valor siempre estar entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlacin (r). R = r Es una medida de la proximidad o de ajuste de la recta de regresin a la nube de puntos.

Procedimiento para el anlisis de correlacin y regresin Lineal 1. Identificar la variable dependiente y la variable independiente. 2. Construir el diagrama de dispersin. Los datos de la variable independiente x se colocan en el eje de las X y los de la variable dependiente en el eje de las Y. 3. Calcular el coeficiente de correlacin lineal. 4. Calcular la ecuacin de mejor ajuste de los mnimos cuadrados. 5. Trazar la lnea de mejor ajuste. Ejemplo: el siguiente conjunto de datos: Se llev a cabo un proyecto de investigacin para determinar si existe alguna relacin entre los aos de servicio en un hospital y la eficiencia de las enfermeras. Se recogieron los datos siguientes. Se desea predecir la eficiencia del empleado. Enfermera 1 2 3 4 5 6 7 8 Aos de servicio 1 20 6 8 2 1 15 8 Tasa de eficiencia % 43 97 59 66 44 42 89 65

2. Primero identificamos la variable dependiente y la independiente. Se puede decir que la variable dependiente es la tasa de eficiencia por que depende de los aos de servicio (experiencia). Por lo tanto la variable independiente son los aos de experiencia.

2. Se traza el diagrama de dispersin. Para ello los valores de la variable dependiente se colocan en el eje de las Y y los valores de la variable independiente en el eje de las X. Luego se coloca un punto de interseccin entre los valores de los datos ordenados, al grafico de resultado se le conoce como diagrama de dispersin.

29

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

FUENTE: Datos hipotticos

Rr

r = 7995/8041.357 r = 0.994235 Lo que indica que existe una correlacin positiva inversa R = r * r R = 0.994235 * 0.994235 R = 0.98850* 100% R = 98.50 %

30

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

El porcentaje de variacin de Y (tasa de eficiencia) que se explica a travs del modelo lineal que se ha estimado, es decir a travs del comportamiento de X (aos de servicio 2 - R 1 0.9885 = 0.0115 * 100 = 1.15 % Esto nos indica que porcentaje de las variaciones no se explica a travs del modelo de regresin

5.

Calcular la ecuacin de mejor ajuste de los mnimos cuadrados: b = [ 8 *(4850) ( 61) * (505) ] / [ (8 * 795) (61)] b = 7995/ 2639 b = 3.0295567 a = [505 / 8]- [ 3.0295567 * (61/ 8)] a = 63.125 -23.10037 a = 40.02463 La ecuacin de regresin: Y = a + b x Y = 40.02463 + 3.0295567 donde

5 Trazar la lnea de mejor ajuste, para ello se debe hacer un pronstico de los valores de x en la ecuacin.

Aos de servicio (X) 0 1 20 6 8 2 1 15 8 61

Pronstico Y=a+ bx 40.025 43.054 100.616 58.202 64.261 46.084 43.054 4585.466 64.261

31

ESTADSTICA

INGA. PATRICIA JUAREZ JIMENEZ

El error estndar de estimacin mide la dispersin alrededor de la lnea de regresin S = [ (43 -43.05) + (97 100.62) + (59 -58.2) + (66 64.26 ) + (44 46.08) +( 42 43.05) + (89 85.47) + ( 65 64.26) ] / ( 8 -2) S = 35.4595 / 6 S = 5.909917 S = 2.431032 este es el valor de dispersin de los datos con respecto a la lnea de mayor ajuste.

BIBLIOGRAFIA: DANIEL, Wayne W. Bioestadistica, Linusa Wiley, 4 edicin

32

You might also like