Professional Documents
Culture Documents
ISSN 1870-557X
Introduccin
Estadstica, ciencia que estudia las probabilidades, en base a la recoleccin, anlisis
e interpretacin de datos, ya sea para ayudar en la resolucin de la toma de decisiones o
para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de
ocurrencia en forma aleatoria o condicional. Segn Sokal & Rholf (2006), la bioestadstica
se puede definir como el estudio cientfico de datos numricos basados en fenmenos
naturales.
La regresin y la correlacin son dos tcnicas estrechamente relacionadas y
comprenden una forma de estimacin. En forma ms especifica el anlisis de correlacin y
regresin comprende el estudio de los datos muestreales para saber qu es y cmo se
relacionan entre s dos o ms variables en una poblacin. El anlisis de correlacin produce
un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de
regresin da lugar a una ecuacin matemtica que explica y predice dicha relacin.
El anlisis de correlacin generalmente resulta til para un trabajo de exploracin
cuando un investigador trata de determinar que variables son potenciales importantes, el
inters radica bsicamente en el grado de la relacin y la regresin da lugar a una ecuacin
que describe, explica y predice dicha relacin en trminos matemticos
Segn Badii et al. (2007), en la prctica se ha notado que cuando en un individuo,
un carcter (variable) se presenta en mayor intensidad, otro se afecta en alguna proporcin.
Ejemplos de estos podrn ser la altura y el peso en ganado, edad y vigor de rebrote en
rboles, etc.; en el primer ejemplo se puede ver que esta relacin es positiva, es decir, al
aumentar una variable tiende a aumentar el otro, en cambio, en el segundo ejemplo esta
relacin es negativa, pues al aumentar la edad, el vigor tiende a disminuir. Por lo tanto, los
datos necesarios para anlisis de regresin y correlacin provienen de observaciones de
variables relacionadas.
67
Objetivos generales
1. Calcular el coeficiente de la correlacin entre dos variables.
2. Graficar un diagrama de dispersin.
3. Representar la recta que define la relacin lineal entre dos variables.
4. Estimar la recta de regresin por el mtodo de mnimos cuadrados.
5. Usar el mtodo de Ji 2 para estimar el ajuste entre datos observados y datos estimados
6. Realizar una prueba de significancia (hiptesis) para determinar si el coeficiente de
correlacin (r), coeficiente de regresin (b) y si la interseccin con la ordenada (a) difieren
de cero, es decir la significancia de r, b y a.
Desarrollo
Cuando solamente dos variables estn involucradas en el anlisis de Regresin y
Correlacin, se dice que la tcnica es una Regresin o Correlacin Simple.
Cuando estn implicadas tres o ms variables, se tratar de una Regresin o
Correlacin Mltiple.
Coeficiente de Regresin: la tcnica de Regresin se refiere al procedimiento de obtener
una ecuacin con fines de estimacin o prediccin.
Variable Dependiente: o variable respuesta es la variable a estimar o predecir.
Variable Independiente: o variable predictora aquella variable que proporciona la base
para la estimacin.
Regresin Simple: existe solamente una variable independiente y una variable
dependiente.
Regresin Mltiple: implica dos o ms variables independientes y una variable
dependiente.
Coeficiente de correlacin
Se ocupa de la medicin de la cercana de la relacin entre las dos variables involucradas.
Es la asociacin de estas, ms no de la dependencia, por lo tanto y no olvidar que los
cambios de valores de una variable no es la causa del cambio de la otra. Denominado r
(ecuacin siguiente), medida usual del grado de correlacin basndose en una muestra de n
pares de observaciones.
(xy)
(xy) n
r=
(x)2
(y)2
2
2
(x )
(y )
n
n
68
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
69
70
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
(Ye - Yi)2
Donde,
Ye = = valor esperado de Y
Yi = valor calculado de Y utilizando la ecuacin de mnimos cuadrados con el valor
correspondientes X para Yi.
Los valores de a y b para la recta = a + bX se calculan de tal forma que minimiza la suma
de los cuadrados de la desviaciones ecuaciones normales.
a=y
b
x
b=
(xy)
xy
n
SCx
X Altura en Cm
50
55
60
65
70
75
80
100
121
145
71
Y Peso en Kg
3
3.9
5.8
8.0
11.0
11.3
12.4
16.7
32.0
46.2
Altura (X)
X = 82.1
X = 821
X = 75.941
XY = 16083
2
r=
3743 .37
= 0.98
3812 .50
Peso (Y)
Y = 15.03
Y = 150.3
= 3961.63
Existe un 98 % de asociacin o correlacin positiva entre las variables peso y altura, por lo
tanto, a medida que aumenta la altura tambin aumenta el peso a una tasa de 98% o 98 en
100 veces.
Grado de dependencia o coeficiente de regresin (b).
b=
xy
(xy) n
SC
x
1
6
0
8
3
b
=
8
2
1
1
5
0.
3
1
0
8
5
3
6 .
9
(X)
S
C
x =
X2
72
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
b = 0.438 (43.8%). Es decir, la b mide el grado del cambio o aumento de Y en funcin del
cambio unitario de X. Por lo tanto, a medida que una persona crece 1 cm, esperamos que
el peso aumente 43.8% de 1 Kg lo que sera 438 gr por cada cm de altura, con un 98% de
asociacin o correlacin entre las dos variables.
Lnea de regresin para pronosticar. Se quiere estimar los valores de Y esperada o
estimado () para poder calcular el error estimado de nuestro modelo y as saber cuan
errneo es (Spiegel & Stephens, 2001). Para el clculo del error estimado primero se
necesita tener la ecuacin siguiente de (Y estimado). La ecuacin funcional valores de y
los errores de mnimos cuadrados se indican en la Tabla 2. La relaci
= a + bX
a=ybx
a = 15.03 (0.438 x 82.1) = -20.92
( Y)
1
50
3
.98
-2.02
2
55
3.9
3.17
-0.73
3
60
5.8
5.36
-0.44
4
65
8.0
7.55
-0.45
5
70
11.0
9.74
-1.26
6
75
11.3
11.93
0.63
7
80
12.4
14.12
1.72
8
100
16.7
22.88
6.18
9
121
32.0
32.07
0.07
10
145
46.2
42.59
-3.61
( Y) = 0.09 0 por el redondeo. Como se ve los errores son mnimos lo cual es una
caracterstica de la regresin lineal (Figura 3).
73
74
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
respuesta no difiere entre los grupos y que, por lo tanto, la variable independiente no tiene
un efecto sobre la variable de respuesta. A continuacin se demuestran las pares de
hiptesis para cada parmetro.
Hiptesis de coeficiente de correlacin (r)
Ho: r = 0
Ha: r 0
75
bc 0
tb=
b
2. t-student para el
coeficiente de correlacin
(r):
tr =
tc 0
t
E
b = V
ScX
ANOVA para la regresin
Fuente de
Gl
Suma de
Cuadrados
variacin
cuadrados
medios o
(SC)
varianzas
Regresin
1
bSCX
VReg = SCReg./gl
Error
SCTotal VError= SCError /gl
SCReg.
2
Total
n1
___
(y)
r= 1r n2
2
ta=
a
c 0
a
1 m2x
a= V
E +
cX
n S
76
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
XY = 514.8
xy
(xy) n
SC
x
Cada da que crecen las mariposas, las alas les aumentan un 27%, lo que
correspondera a 2.7 mm por da. Con estos resultados podemos predecir cunto tiempo se
puede demorar en crecer una mariposa y en cuanto tiempo va a llegar a ser adulta en
trmino de largo de alas.
Para poder determinar una lnea de prediccin de crecimiento de las alas, desde el
primer da de nacimiento (si las alas comienzan a aparecer una vez que nace la mariposa o
si ya nace con una determinada longitud de alas) mediante la ecuacin de regresin:
a=y
b
x a = 0.7
ANOVA DE REGRESIN
Fuente de
gl
Suma de Cuadrado medios
variacin
cuadrados (CM = Varianza)
(SC)
Regresin
1
19.099
19.099
Error
11
0.558
0.0558
Total
12
19.66
n total = 13
SCx = 262
SCY = SCTotal = 19.66
b = 0.27
tb
18.54
tb=
0.27 0
0.0558
262
tT
>
= 0.05
gl = 11 (n 2)
2.201
Debido a que el valor calculado de t-student es menor que el valor tabulado (tT) con
11 gl, se rechaza Ho. Lo que significa que el crecimiento de las alas depende de forma
significativa y positiva en la edad de la mariposa.
r= 1r n2
2
0.9
8
7 0
tr =
0.0
4
8
6
tc
tr =
8
7
r= 10.9
1
32
tr=19.9272
tT
= 0.05
78
rc 0
r
2
r=0.0486
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
19.92
>
2.201
gl = 11 (n - 2)
El valor calculado es menor que tabulado y por tanto, se rechaza Ho, es decir existe
una asociacin significativa entre la edad y el largo de las alas.
3.- Verificacin si la lnea de regresin sale del origen.
ac 0
a
1 1
0
0
a= 0.0558 +
1
3 2
6
4
ta =
0.710
ta=
0.159
tc
4.465
>
1 m2x
cX
n S
a= V
E +
a=
0.159
ta=4.465
tT
2.201
= 0.05
gl = 11 (n 2)
79
=
0
.
2
7
0
.
1
4
1
2
.
2
0
1
=
0
.
2
7
+
0
.
0
3
1
0
0.3012
=
0
.2
7
0
.0
3
1
0.2392
=
b
b
Con un 95% de confianza ( = 0.05) el
parmetro flota entre los extremos de 0.30 y
0.23, lo que significa que el crecimiento
diaria de ala estar dentro de ste rango.
80
Daena: International Journal of Good Conscience. 7(3) 67-81. Noviembre 2012. ISSN 1870-557X
r=
r
r
=
0
.
9
8
7
6
2
.
2
0
1
0
.
0
4
9
5
r
=
0
.
9
8
7
6+
0
.
1
0
6
9
1.0935 (+1)
r
=
0
.
9
8
7
6
0
.
1
0
6
9
0.8797 (-1)
a
=
a
a
a
=
0
.
7
1
8
2
.
2
0
1
0
.
1
5
5
5
a
=
0
.
7
1
8
+
0
.
3
4
2
2
1.0502
a
=
0
.
7
1
8
0
.
3
4
2
2
0.3658
81
82