You are on page 1of 28

Estadística General Lic. MBA Juan Luis Guzmán H.

Tema Nº 4

AJUSTE DE CURVAS, REGRESIÓN Y CORRELACIÓN

En la práctica se encuentra a menudo que se dan relaciones entre dos o más


variables. Por ejemplo los pesos de las personas dependen en cierta manera
de sus alturas, las circunferencias de los círculos dependen de los radios y la
presión de una masa de gas depende de su volumen y de su temperatura.

Para esto es deseable expresar esta relación de variables en forma


matemática, determinando una ecuación que relacione a las variables.

DIAGRAMA DE DISPERSIÓN.-

Se llama así a los datos de una tabla en cuyas columnas se presentan datos de
variables relacionadas entre si, expresados como puntos en el plano
coordenado.

Estos puntos están representados en sistema de ejes coordenados: un eje


horizontal denominado también eje de abscisas y el eje vertical o Eje de
ordenadas.

Todo punto en el plano se expresa como (X,Y). En forma general un punto


conocido se designa por (Xi,Yi).

Al conjunto de puntos en el plano se llama también Nube de puntos.

La relación que presentan estas variables es de dependencia, es decir la


ocurrencia de la una depende de la otra.

Ejemplo.- La siguiente tabla muestra la producción de cereales en toneladas


métricas en los últimos 5 años:

Tiempo - Producción
Años Ton. M3
X Y
1 14
2 33
3 20
4 41
5 52

1
Estadística General Lic. MBA Juan Luis Guzmán H.

Gráfico de dispersión

25
Toneladas M3

20
15
10
5
0
0 1 2 3 4 5 6 7 8 9
Tiempo - años

En este ejemplo la variable tiempo X es independiente y la variable Y es una


variable dependiente. Es decir, la variable Y = Producción esta sujeta o
depende del tiempo. Buenos tiempos, buena producción y en malos tiempos,
mala producción.

AJUSTE DE CURVAS.-

Para hallar una ecuación que relacione las variables, el primer paso es recoger
datos que muestren valores correspondientes de las variables. El siguiente
paso es marcar los puntos (X1,Y1), (X2Y2, (X3Y3,…., (XnYn), sobre un sistema de
coordenadas rectangulares.

A partir del diagrama de dispersión es posible con frecuencia visualizar una


curva suave que aproxima los datos. Tal curva se llama una curva
aproximante. En el gráfico anterior los datos parecen aproximarse a una curva
no lineal más que a una línea recta.

El problema de hallar ecuaciones de curvas aproximantes que se ajusten a un


conjunto de datos se llama Ajuste de Curvas.

ECUACIONES DE CURVAS APROXIMANTES.-

Varios tipos de curvas aproximantes y sus ecuaciones se presentan en la lista


adjunta para facilitar posteriores referencias. Todas las letras excepto X e Y
representan constantes. Las variables X e Y se llaman variable independiente y
dependiente, respectivamente. Aunque estos papeles se pueden intercambiar.

1. Línea recta Y = a + bX
2. Parábola o curva
Cuadrática Y = a + bX + cX2
3. Curva cúbica Y = a + bX + cX2 + dX3
4. Curva Cuártica Y = a + bX + cX2 + dX3 + eX4
5. Curva de grado n Y = a + bX + cX2 + ……+nXn

2
Estadística General Lic. MBA Juan Luis Guzmán H.

La parte derecha de las ecuaciones anteriores se llaman polinomios de grado


uno, dos, tres, cuatro y n, respectivamente. Las funciones definidas por las
cuatro primeras ecuaciones se llaman a veces funciones lineal, cuadrática,
cúbica y cuártica, respectivamente.

También presentamos otras curvas de las muchas ecuaciones que se utilizan


frecuentemente:

6. Hipérbola Y= 1 .
a + bX

7. Curva exponencial Y = abX


8. Curva geométrica Y = aXb
9. Curva exponencial
Modificada Y = abX + g
10. Curva geométrica
Modificada Y = aXb + g
11. Curva de Gompertz Y = pqbX
12. Curva de Gompertz
Modificada Y = pqbX + h

13. Curva logística Y= 1 .


abX +g

ó Y = a + b(log X) + c(log X)2

Para decidir que curva utilizar es útil obtener diagramas de dispersión de


variables transformadas. Por ejemplo si un diagrama de dispersión de log Y
versus X indica una relación lineal, la ecuación tiene la forma 7, mientras que si
log Y versus log X es lineal, la ecuación tiene la forma (8).

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano,


pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica,
Exponencial, Cuadrática, entre otras.

AJUSTE DE CURVAS A MANO.-

A menudo puede recurrirse a la intuición personal a la hora de dibujar una


curva que ajuste un conjunto de datos. Esto se conoce como Método de Ajuste

3
Estadística General Lic. MBA Juan Luis Guzmán H.

de Curvas a Mano. Si el tipo de ecuación de esa curva es conocido, es posible


conocer las constantes de esa ecuación, eligiendo tantos puntos de la curva
como constantes haya en la ecuación. Por ejemplo, si la curva es una recta,
son necesarios dos puntos, si es una parábola son precisos tres puntos. El
método tiene la desventaja de que diferentes observadores obtendrán
distintas curvas y ecuaciones.

CURVA AJUSTADA “A MANO”

25
Toneladas M3

20
15
10
5
0
0 1 2 3 4 5 6 7 8 9
Tiempo - años

REGRESIÓN LINEAL SIMPLE.-

La regresión es una técnica estadística utilizada para simular la relación


existente entre dos o más variables. Por lo tanto se puede emplear para
construir un modelo que permita predecir el comportamiento de una variable
dada.

Cuando los puntos de un Diagrama de dispersión tratan de expresar la


tendencia de una recta, se llama Regresión Lineal Simple.

En base a la ecuación de la recta se puede pronosticar el comportamiento de


las variables a futuro.

La Ecuación de la recta se la expresa de la siguiente manera:

Y = a + bX

Donde:

X = Variable independiente
Y = Variable dependiente
a = Ordenada en el origen
b = Pendiente de la recta

El parámetro a, nos indica cuánto vale Y cuando X = 0. El


parámetro b, nos indica cuánto aumenta Y por cada aumento de una
unidad en X.

4
Estadística General Lic. MBA Juan Luis Guzmán H.

Nuestro problema consiste en obtener estimaciones de estos


coeficientes a partir de una serie de observaciones sobre de las
variables Y y X.

Estas estimaciones se obtienen por medio de métodos que los iremos


conociendo a continuación.

MÉTODO DE LOS DOS PUNTOS.-

Este método es bastante sencillo y consiste en tomar dos pares de


valores de una serie de datos y luego reemplazarlos en la ecuación de
la recta obteniendo por el método de igualación o sustitución los
valores de a y b.

Ejemplo.- Dada la siguiente tabla de valores:

X Y
4 2
5 6
9 12
10 14
12 16

Tomando los valores (4,2) y (5,6), tendríamos:

2 = a + 4b (-1)
6 = a + 5b
-2 = -a – 4b
6 = a + 5b
4=b

Reemplazando en la ecuación el valor de b:

2 = a + 4(4)
2 = a + 16
a = - 14

Luego la ecuación de la recta sería:

Y = - 14 + 4X

Estimando valores:

Para X = 4 Para X = 5
Yest = -14 + 4*4 Yest = -14 + 4*5
Yest = -14 +16 Yest = -14 + 20
Yest = 2 Yest = 6

5
Estadística General Lic. MBA Juan Luis Guzmán H.

Tomando los valores (4,2) y (12,16), tendríamos:

2 = a + 4b (-1)
16 = a + 12b
-2 = -a – 4b
16 = a + 12b
14 = 8b
b = 14/8 = 7/4 = 1,75

Reemplazando en la ecuación el valor de b:

2 = a + 4(1,75)
2= a+7
a = -5

Luego la ecuación de la recta sería:

Y = - 5 + 1,75X

Estimando valores:

Para X = 4 Para X = 5
Yest = -5 + 1,75*4 Yest = -5 + 1,75*5
Yest = -5 + 7 Yest = -5 + 8,75
Yest = 2 Yest = 3,75

TIPOS DE REGRESIÓN:

REGRESIÓN LINEAL SIMPLE

Cuando a los puntos de un Diagrama de dispersión se trata de expresarlos


por una Recta, se llama Regresión Lineal Simple.

De acuerdo al Diagrama de dispersión, donde se ubicaron todos los puntos


conocidos, se aprecia que es posible insertar una Recta que estará
razonablemente cercana a todos los puntos.
Es decir que es posible representar a todos los puntos por la Ecuación de una
Recta.
Cuando se presenta un Diagrama de dispersión de este tipo se dice que hay
una Relación Lineal.
Su ecuación debe ser de la forma: Y = a + bX
Y su gráfica será:

6
Estadística General Lic. MBA Juan Luis Guzmán H.

REGRESIÓN LINEAL MÚLTIPLE

Si las variables son tres o más y se trata de expresarlas por una Ecuación
lineal de varias variables, se llama Regresión Lineal Múltiple.

En el caso de tres variables, de acuerdo al Diagrama de dispersión en el


espacio, se trata de hallar la ecuación de un Plano, como se muestra en la
gráfica. La ecuación a obtenerse en este caso debe ser de la forma:

Y = a + bX1 + c X2

Y su gráfica:

REGRESIÓN NO LINEAL

Cuando a los puntos de un Diagrama de dispersión se trata de expresarlos por


una ecuación de una curva cualquiera, se efectúa él análisis de Regresión No
Lineal.

Por ejemplo si un conjunto de pares de datos muestran un Diagrama de


dispersión como el indicado en la siguiente gráfica:

La Recta (L), no está muy cercana a todos los puntos, siendo preferible

7
Estadística General Lic. MBA Juan Luis Guzmán H.

insertar una Curva (C) como mejor aproximación a todos los puntos.

Cuando se presenta un Diagrama de dispersión de este tipo se dice que hay


una Relación No Lineal.

Su ecuación será la siguiente:

Y = a + bX1 + cX22

MÉTODO DE LOS MÍNIMOS CUADRADOS.-

Con la finalidad de evitar juicios individuales en la estimación de


rectas, curvas, parábolas u otras curvas de aproximación, es
necesario hacer un ajuste en la serie de datos para obtener mejores
definiciones de los modelos (ecuaciones) que representen a estos
datos.

Cuando se tiene un Diagrama de dispersión, es decir un conjunto de puntos


en el Plano, se entiende por ajustar los puntos a una Curva o Recta, el
obtener la ecuación de la Curva o Recta que más se aproxime a todos los
puntos.

El caso ideal sería el de hallar una ecuación que contenga a todos los puntos
del Diagrama de dispersión. Lo que en la práctica es prácticamente
imposible.

Para ajustar un Diagrama de dispersión a una Recta o Curva de manera que


esta represente en lo posible a todo el conjunto de datos, se emplea el método
matemático llamado de Mínimos Cuadrados.

Suponiendo que un Diagrama de dispersión es el indicado en la gráfica y que


se lo está ajustando a la curva insertada.

Los puntos del Diagrama de dispersión en forma general se expresan por:


(X¡,Y¡).

Para cierto valor de X por ejemplo X1 entre su valor correspondiente Y1 con


respecto al valor de la curva ya obtenida existirá una diferencia D1.

8
Estadística General Lic. MBA Juan Luis Guzmán H.

En algunos casos las diferencias serán positivas (D1, D3), en otros casos
negativa (D2).

Una medida de la separación entre puntos y curva obtenida será:

S = D12 + D22 + D32 + ..... + DN2

Los cuadrados hacen que todas las diferencias sean positivas.

Se debe procurar que S sea lo más pequeña posible ya que ello significará una
mejor aproximación. Obviamente si S. es grande significará menor
aproximación.

Una curva que se ajuste de acuerdo al criterio de que S se mas pequeña, se


llama curva de Mínimos cuadrados, porque se está considerando el mínimos del
cuadrado de la desviación S.

Si se ajusta una Recta con el criterio de que S se más pequeña, se llama Recta
de Mínimos cuadrados.

De esta manera la recta posee una mejor aproximación a todos los puntos del
diagrama de dispersión.

REGRESIÓN LINEAL SIMPLE.-

La recta Y = a + bX que posee el mínimo valor de S, con respecto a los puntos


de un diagrama de dispersión, es aquella de constantes a, b que provienen de
un sistema llamado Sistema Normal de Ecuaciones:

∑ Y =aN +b∑X
∑XY = a ∑ X + b ∑ X2

Usando conceptos del Cálculo Infinitesimal al minimizar S se obtiene las


Ecuaciones del Sistema Normal de Ecuaciones.

En la práctica pueden utilizarse las siguientes expresiones derivadas de las


anteriores ecuaciones, para la obtención de la ecuación de la recta:

a = ∑Y ∑X2 - ∑X ∑XY
N ∑X2 – (∑X2)

b = N ∑XY - ∑X ∑Y
N ∑X2 – (∑X2)

Ejercicio Regresión Lineal Simple.- Estimar la Ecuación de regresión de los


siguientes datos referidos a los años (X) y al número de proyectos de un

9
Estadística General Lic. MBA Juan Luis Guzmán H.

Ingeniero Comercial a lo largo de su primeros 5 años. Calcular cuantos


proyectos el año 3.5 y el año 6.

X Y
1 14
2 33
3 20
4 41
5 52
15 160

En base a estos datos y siguiendo el método de las ecuaciones normales (I y II)


ó el método simplificado, precisamos calcular los valores de XY y X2.

X Y XY X2
1 14 14 1
2 33 66 4
3 20 60 9
4 41 164 16
5 52 260 25
15 160 564 55

Por el método de las ecuaciones normales:

160 = a5 + b15
564 = a15 + b55

160,00 = 5a + b15 Mult. -3 (1)


564,00 = 15a + 55b (2)
-480,00 = -15a - 45b
564,00 = 15a + 55b
84,00 = 10b
b = 84 / 10
b = 8,40
Reemplazando el valor de b en la Ecuación Normal (1)

160 = 5a + 8,40 * 15
160 = 5a + 126
a = 34 / 5
a = 6,8
Luego la ecuación de la recta sería:

Y = 6,8 + 8,4X

Resumiendo:

a = 6,80
b = 8,40

10
Estadística General Lic. MBA Juan Luis Guzmán H.

Por el método abreviado:

a = (160*55) – (15*564) = 6,80


(5*55) – (15)2

b = (5*564) – (15*160) = 8,40


(5*55) – (15)2

Por el método gráfico, usando Excel:

Regresion Lineal

60,00

40,00
Y

20,00

0,00
0 2 4 6
X
y = 8,4x + 6,8 Línea de Tendencia

Calculando el valor de Y para el año 3.5 (Interpolación):

Y = 6,8 + 8,4 * 3.5

Y = 36,20

Calculando el valor de Y para el año 6 (Extrapolación):

Y = 6,8 + 8,4 * 6

Y = 57,20

REGRESIÓN LINEAL MÚLTIPLE.-

Para el caso en que precise establecer una relación entre más de dos variables,
se debe aplicar el procedimiento llamado regresión múltiple.

Si la relación es lineal se llamará regresión lineal múltiple.

Si se establece una expresión de regresión lineal múltiple de la variable


dependiente Y en términos de las variables independientes X1, X2,…,Xn, se
obtendrá la ecuación:

Y = a + bX1 + c X2 + ……. + nXn

11
Estadística General Lic. MBA Juan Luis Guzmán H.

Para obtener el valor de los coeficientes de: a, b, …., n, se emplean las


ecuaciones normales que serán equivalentes a las ecuaciones normales
empleadas para el caso de regresión lineal simple.

Por ejemplo si se trata de establecer una regresión de la variable dependiente Y


en términos de dos variables independientes X1 y X2. La ecuación de regresión
y sus ecuaciones normales son:

Y = a + bX1 + cX2 Ecuación de regresión

∑ Y = a N + b ∑X1 + c ∑X2 Ecuaciones


∑X1Y = a ∑X1 + b ∑ X12 + c ∑X1X2 Normales
∑X2Y = a ∑X2 + b ∑ X1X2 + c ∑X22

Ejercicio Regresión Lineal Múltiple.- Estimar la Ecuación de regresión de los


siguientes datos expresados en la tabla:

Y X1 X2
16 0 1
34 2 3
38 4 5
32 6 5
72 7 7
66 8 9

El problema consiste en determinar el valor de los parámetros a, b


y c.

Para ello encontraremos los valores de: X12, X22, X1X2, X1Y y X2Y.

2 2
Y X1 X2 X1 Y X1 X1X2 X2 Y X2
16 0 1 0 0 0 16 1
34 2 3 68 4 6 102 9
38 4 5 152 16 20 190 25
32 6 5 192 36 30 160 25
72 7 7 504 49 49 504 49
66 8 9 528 64 72 594 81
258 27 30 1444 169 177 1566 190

Las ecuaciones normales serían:

258 = a6 + b27 + c30


1444 = a27 + b169 + c177
1566 = a30 + b177 + c190

Resolviendo el sistema (por sumas y restas o álgebra matricial), tendríamos:

12
Estadística General Lic. MBA Juan Luis Guzmán H.

a= 7
b = -2
c= 9

La ecuación de regresión:

Y = 7 – 2X1 + 9X2

Regresión No Lineal.-

Si la relación entre las variables dependientes e independientes es no lineal, se


llamará regresión no lineal. Existen varias de este tipo.

Regresión Cuadrática.-

Para logar la correlación de una curva de segundo grado, debe obtenerse la


ecuación de regresión:

Y = a + bX + cX2

En este tipo de regresión, el problema consiste en determinar el valor


de los parámetros a, b y c.

Para ello utilizamos las ecuaciones normales:

∑ Y = a N + b ∑X + c ∑X2 Ecuaciones
∑XY = a ∑X + b ∑X2 + c ∑X3 Normales
∑X2Y = a ∑X2 + b ∑ X3 + c ∑X4

Ejercicio Regresión Cuadrática.- Estimar la Ecuación de regresión de los


siguientes datos expresados en la tabla:

Y X
5 1
3 2
2 3
4 4
6 5
10 6
18 7

Para ello encontraremos los valores de: X2, X3, X4, XY y X2Y.

Y X X2 X3 X4 XY X2Y
5 1 1 1 1 5 5
3 2 4 8 16 6 12
2 3 9 27 81 6 18

13
Estadística General Lic. MBA Juan Luis Guzmán H.

4 4 16 64 256 16 64
6 5 25 125 625 30 150
10 6 36 216 1.296 60 360
18 7 49 343 2.401 126 882
48 28 140 784 4.676 249 1.491

Las ecuaciones normales serían:

40 = a7 + b28 + c140
249 = a28 + b140 + c784
1491 = a140 + b784 + c4676

Resolviendo el sistema, tendríamos:

a = 9,4286
b = -5,1071
c = 0,8929

La ecuación de regresión:

Y = 9,4286 – 5,1071X + 0,8929X2

Por el método gráfico, usando Excel:

Regresión Cuadrática

20
15
10
Y

5
0
0 2 4 6 8
X
y = 0,8929x 2 - 5,1071x + 9,4286

Regresión Exponencial.-

Para logar la correlación exponencial, debe obtenerse la ecuación de regresión:

Y = a e bX

En este tipo de regresión, el problema consiste en determinar el valor


de los parámetros a y b. Para ello se aplica Logaritmos naturales o
neperianos (por la presencia del número e, base de los logaritmos
neperianos).

Aplicando propiedades de los logaritmos:

14
Estadística General Lic. MBA Juan Luis Guzmán H.

Y = a e bX Ecuación de ajuste exponencial


Ln Y = Ln(aebx) Aplicando logaritmos naturales en ambos miembros
Ln Y = Ln a + Ln(ebx) Aplicando propiedad de logaritmo de un producto
Ln Y = Ln a + bxLne Aplicando propiedad de logaritmo de una potencia
Ln Y = Ln a + bx Considerando que Lne = 1
V = A + bX Realizando cambios en las variables :
V = LnY y A = Lna
Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = A + bX,


donde V es la variable independiente. Ahora ya es posible aplicar los mismos
procedimientos anteriores (de regresión lineal simple).

Ecuaciones normales – regresión lineal simple:

∑ Y = aN + b ∑X
∑XY = a∑X + b∑X2

Ecuaciones normales – regresión exponencial:

∑ V = AN + b ∑X
∑XV = A∑X + b∑X2

Es preciso tomar en cuenta la diferencia entre “a” y “A”.

Ejercicio Regresión Exponencial.- Estimar la Ecuación de regresión de los


siguientes datos expresados en la tabla:

Y X
8,5 1
10,2 2
12,8 3
15,6 4
19,1 5

Para ello encontraremos los valores de: V = Ln Y, X2 y XV.

Y X1 V = Ln Y X2 XV
8,5 1 2,1401 1 2,1401
10,2 2 2,3224 4 4,6448
12,8 3 2,5494 9 7,6483
15,6 4 2,7473 16 10,9891

15
Estadística General Lic. MBA Juan Luis Guzmán H.

19,1 5 2,9497 25 14,7484


66,2 15 12,7089 55 40,1707

Por el método de las ecuaciones normales:

12,7089 = A5 + b15
40,1707 = A15 + b55

Resolviendo el sistema mediante sumas:

A = 1,9285
b = 0,2044

Por el método abreviado:

A = (12,7089*55) – (15*40,1707) = 1,9285


(5*55) – (15)2

b = (5*40,1707) – (15*12,7089) = 0,2044


(5*55) – (15)2

Una vez conocidos los valores de A y b, se obtiene la ecuación de la recta, pero


luego es imprescindible llevar a la forma exponencial:

V = A + bX Ecuación de la recta
V = 1,9285 + 0,2044X
Luego: si V = Ln Y
A = Ln a  a = eA entonces:
e1,9285 = 6,8794
Ln Y = Ln 6,8794 + 0,2044X La expresión 0,2044X, puede escribirse como
Ln(e0,2044X)
Ln Y = Ln 6,8794 + Ln(e0,2044X) Por propiedad de la suma de Ln.
Ln Y = Ln[6,8794 *(e0,2044X)] Simplificando logaritmos

Y = 6,8794 e0,2044X

Por el método gráfico, usando Excel:

16
Estadística General Lic. MBA Juan Luis Guzmán H.

Regresión Exponencial

25
20
y 15
10
5
0
0 2 4 6
y = 6,8794e0,2044x x

Regresión Potencial.

Para logar la correlación exponencial, debe obtenerse la ecuación de regresión:

Y=aXb

En este tipo de regresión, el problema consiste en determinar el valor


de los parámetros a y b. Para ello se aplica Logaritmos decimales o
naturales, en nuestro caso utilizaremos los decimales.

Aplicando propiedades de los logaritmos:

Y=aXb Ecuación de ajuste potencial


Log Y = Log(aXb) Aplicando logaritmos decimales en ambos miembros
Log Y = Log a + Log(Xb) Aplicando propiedad de logaritmo de un producto
Log Y = Log a + b Log X Aplicando propiedad de logaritmo de una potencia
Realizando cambios en las variables :
V = Log Y ; U = Log X y A = Log a
V = A + bU Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = A + bU,


donde V es la variable dependiente. Ahora ya es posible aplicar los mismos
procedimientos anteriores (de regresión lineal simple).

Ecuaciones normales – regresión lineal simple:

∑ Y = aN + b ∑X
∑XY = a∑X + b∑X2

Ecuaciones normales – regresión potencial:

∑ V = AN + b ∑U
∑UV = A∑U + b∑U2

Es preciso tomar en cuenta la diferencia entre “a” y “A”.

Ejercicio Regresión Potencial.- Estimar la Ecuación de regresión de los


siguientes datos expresados en la tabla:

17
Estadística General Lic. MBA Juan Luis Guzmán H.

Y X1
19 1
12 2
360 3
980 4
1100 5

Para ello encontraremos los valores de: V = Log Y, U = Log X, U2 y UV.

U = Log V = Log
Y X X Y U2 UV
19 1 0,0000 1,2788 0,0000 0,0000
12 2 0,3010 1,0792 0,0906 0,3249
360 3 0,4771 2,5563 0,2276 1,2197
980 4 0,6021 2,9912 0,3625 1,8009
1100 5 0,6990 3,0414 0,4886 2,1258
2471 15 2,0792 10,9469 1,1693 5,4713

Por el método de las ecuaciones normales:

10,9469 = A5 + b2.0792
5,4713 = A2.0792 + b1.1693

Resolviendo el sistema mediante sumas:

A = 0,9349
b = 3,0167

Por el método abreviado:

A = (10,9468*1,1693) – (2,0792*5,4713) = 0,9349


(5*1,1693) – (2,0792)2

b = (5*5,4713) – (2,0792*10,9468) = 3,0167


(5*1,1693) – (2,0792)2

Una vez conocidos los valores de A y b, se obtiene la ecuación de la recta, pero


luego es imprescindible llevar a la forma potencial:

V = A + bU Ecuación de la recta
V = 0,9349 + 3,0167U
Luego: si V = Log Y
U = Log X
A = Log a  a = 10A entonces:
100,9349 = 8,6085

Log Y = Log 8,6085 + 3,0167 Log X La expresión 3,0167X, puede escribirse como

18
Estadística General Lic. MBA Juan Luis Guzmán H.

Log(X3,0167)
3,0167
Log Y = Log 8,6085 + Log(X ) Por propiedad de la suma de Log.
Log Y = Log[8,6085 *(X3,0167) Simplificando logaritmos

Y = 8,6085 X3,0167

Por el método gráfico, usando Excel:

Regresió Potencial

1500

1000
y

500

0
0 2 4 6
x
y = 8,6088x3,0166

Regresión Hiperbólica.-

Para logar la correlación hiperbólica, debe obtenerse la ecuación de regresión:

Y= 1 .
a + bX

En este tipo de regresión, el problema consiste en determinar el valor


de los parámetros a y b. Para ello se aplicaremos un artificio
matemático de sustitución de variables:

Y= 1 . Ecuación de ajuste potencial


a + bX

a + bX = 1 . Realizando cambios de variables:


Y V=1/Y
V=a+bX Ecuación Lineal

De esta manera queda una ecuación lineal de la forma V = a + bX,


donde V es la variable dependiente. Ahora ya es posible aplicar los mismos
procedimientos anteriores (de regresión lineal simple).

Ecuaciones normales – regresión lineal simple:

∑ Y = aN + b ∑X

19
Estadística General Lic. MBA Juan Luis Guzmán H.

∑XY = a∑X + b∑X2

Ecuaciones normales – regresión hiperbólica:

∑ V = AN + b ∑X
∑XV = A∑X + b∑X2

Ejercicio Regresión Hiperbólica.- Estimar la Ecuación de regresión de los


siguientes datos expresados en la tabla:

Y X
0,50 0,02
0,40 0,04
0,40 0,06
0,33 0,08
0,25 0,10
0,20 0,12
2,08 0,42

Para ello encontraremos los valores de: V = 1 / Y, X2 y XV.

Y X V = 1/Y X2 XV
0,50 0,02 2,0000 0,0004 0,0400
0,40 0,04 2,5000 0,0016 0,1000
0,40 0,06 2,5000 0,0036 0,1500
0,33 0,08 3,0303 0,0064 0,2424
0,25 0,10 4,0000 0,0100 0,4000
0,20 0,12 5,0000 0,0144 0,6000
2,08 0,42 19,0303 0,0364 1,5324

Por el método de las ecuaciones normales:

19,0303 = a6 + b0,42
1,5324 = a0,42 + b0,034

Resolviendo el sistema mediante sumas:

a = 1,1689
b = 28,6113

Por el método abreviado:

a = (19,0303*0,0364) – (0,42*1,5324) = 1,1689


(6*0,0364) – 0,1764

b = (6*1,5324) – (0,42*19,0303) = 28,6113


(6*0,0364) – 0,1764

Una vez conocidos los valores de a y b, se obtiene la ecuación de la recta, pero

20
Estadística General Lic. MBA Juan Luis Guzmán H.

luego es imprescindible sustituir la variable V:

V = a + bX Ecuación de la recta
V = 1,1689 + 28,6113X
Luego: si V = 1 / Y
1 / Y = 1,1689 + 28,6113X

Y= 1 .
1,1689 + 28,6113X

Por el método gráfico, usando Excel:

REGRESION HIPERBÓLICA

0,60

0,50

0,40

0,30

0,20

0,10

0,00
0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14

CORRELACIÓN

El análisis de correlación trata de establecer el grado de relación entre dos


variables, es decir se trata de medir cuan dependiente es una variable de la
otra.

Se entiende que existe correlación entre dos variables, cuando es evidente que
al variar una de ellas, también se produce una variación de la otra.

Cuando se trata de la relación entre dos variables se llama correlación simple. A


la relación entre tres o más variables se llama correlación múltiple.

Cuando la relación entre dos variables se la representa por una recta se llama
correlación lineal. Si la relación se la representa por una curva cualquiera (No
una recta), se tiene la correlación no lineal.

21
Estadística General Lic. MBA Juan Luis Guzmán H.

Para entender mejor el concepto de correlación se verá previamente el


coeficiente de estimación, el que se onceptualiza de la manera siguiente:

COEFICIENTE DE ESTIMACIÓN.-

Calcula el error típico de Y. En otras palabras mide lamagnitud del error


cometido al calcular un valor para Y respecto de un valor de X de acuerdo a
una ecuación de Regresión.

Al coeficiente de estimación se lo denomina también Error típico XY o error


típico de estimación.

Siendo Y la variable dependiente de una ecuación de regresión, el coeficiente


de estimación simple se define como:

SYX = √ ∑(Y – Yest)2


N-2

Donde: Y es la variable dependiente (inicial).


Yest es el valor obtenido de Y partiendo de su ecuación.
N el número de datos

Con este coeficiente podemos advertir que valores más altos, significan una
mayor lejanía de los puntos de regresión respecto a la recta.

Una variante del coeficiente de estimación es el coeficiente de estimación


poblacional, que se define como:

SPYX = √ ∑(Y – Yest)2


N

Ejemplo.- Calcular los coeficiente de estimación de la siguiente tabla, SYX y


Szx, comparando los resultados de ambos estimaciones y graficando las
mismas.

X Y Z
2 40 35
4 80 85
6 75 75
8 135 140
10 120 115
30 450 450

Las ecuaciones de regresión estimadas serían:

22
Estadística General Lic. MBA Juan Luis Guzmán H.

Y = 25,5 + 10,75X
Z = 25,5 + 10,75X

Y los datos completos:

(Z - (Z -
X Y Z Yest (Y - Yest) (Y - Yest)2 Zest Zest) Zest)2
2 40 35 47,0 -7,00 49,00 47 -12 144,00
4 80 85 68,5 11,50 132,25 69 17 272,25
6 75 75 90,0 -15,00 225,00 90 -15 225,00
8 135 140 111,5 23,50 552,25 112 29 812,25
10 120 115 133,0 -13,00 169,00 133 -18 324,00
30 450 450 450,0 0,00 1.127,50 450 0 1.777,50

Sus gráficas:

Estim ación Y Estimación Z

150 150

100 100
Y

50 50

0 0
0 5 10 15 0 + 25,5
y = 10,75x 5 10 15
X X
y = 10,75x + 25,5

Sus coeficientes estimados:

S YX = 19,39

S YX = 24,34

Lo que significa que los datos de Z respecto de X tienen mayor lejanía que los
puntos de regresión de Y respecto a la recta.

23
Estadística General Lic. MBA Juan Luis Guzmán H.

Tipos de correlación.-
CORRELACIÓN NEGATIVA PERFECTA

10
9
8
7
6
5
Y 4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X

CORRELACIÓN POSITIVA PERFECTA

10
9
8
7
6
5
Y 4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X

24
Lic. MBA Juan Luis Guzmán H. - ESTADÍSTICA I - 25 -

AUSENCIA DE CORRELACIÓN

10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X

CORRELACIÓN FUERTE Y POSITIVA

- 25 -
Lic. MBA Juan Luis Guzmán H. - ESTADÍSTICA I - 26 -

10
9
8
7
6
Y 5
4
3
2
1
0

0 1 2 3 4 5 6 7 8 9 10
X

9999

En la primera gráfica se muestra una relación inversa entre las variables X e Y.


La variable Y depende del valor que tome X. Cuando el valor de X es alto Y vale
muy poco y a la inversa cuando X tiene un valor muy bajo Y tiene un alto valor.
En este caso la recta que se ajusta al gráfico tendrá pendiente negativa.

En la segunda gráfica se muestra una relación directa entre las variables X e Y.


La variable Y depende del valor que tome X. Cuando el valor de X es alto Y vale
también muy alto y a la inversa cuando X tiene un valor muy bajo Y tiene un
valor también bajo. En este caso la recta que se ajusta al gráfico tendrá
pendiente positiva.

En la tercera gráfica se advierte que no hay una tendencia definida a ninguna


recta o curva. Por lo tanto no existe correlación.

En la última grafica se advierte una muy fuerte correlación directa entre X e Y.

COEFICIENTE DE CORRELACIÓN.-

- 26 -
Lic. MBA Juan Luis Guzmán H. - ESTADÍSTICA I - 27 -

Se usa para medir el grado de correlación entre variables.

Si entre las variables X e Y, logra establecerse una relación funcional de la


forma Y = f(X). Considerando que Y es el valor inicial y conocido de la variables
dependiente, siendo Y su media aritmética. Yest es el valor que se calcula de
acuerdo a la relación funcional. Entonces se llama Coeficiente de de correlación
a:

COEFICIENTE DE CORRELACIÓN LINEAL.-

r = +- √ Variación explicada = +- √ ∑(Yest – Y)2 = COVxy


Variación total ∑(Yest – Y)2 σx σy
r = COVxy = (∑ (X – X) (Y – Y))/N) .
σx σy √(∑(X-X) )/N √(∑(X-X) )/N
2 2

El coeficiente de correlación lineal varía en el intervalo de -1


hasta 1, es decir -1 ≤ r ≤ 1.

 Un coeficiente muy cercano a 1 o a -1 indica que hay una alta


correlación.
 Un coeficiente positivo significa que a medida que crece la
variable, también crece la otra.
 Un coeficiente negativo significa que a medida que crece una
de las variables, decrece la otra.
 Un coeficiente de cero o muy cercano a cero significa ausencia
de correlación.

Usualmente se aplica la siguiente escala de r, para estimar una


correlación.

-1 -0,7 0 0,7 1

Correlación Correlación
Alta Alta
Negativa Correlación baja Positiva

- 27 -
Lic. MBA Juan Luis Guzmán H. - ESTADÍSTICA I - 28 -

Ejemplo.- Calcular el coeficiente de correlación lineal de la


siguiente tabla:

X Y

14 140
16 160
18 170
20 175
22 175
90 820

Para esto será necesario conocer los siguientes valores:

COVxy = (∑ (X – X) (Y – Y))
N

- 28 -

You might also like