You are on page 1of 16

UNIDAD IV ANLISIS DE DATOS EXPERIMENTALES (II PARTE)

4.10 AJUSTE DE CURVAS

Uno de los objetivos en el anlisis de resultados es la de llegar a establecer una relacin cuantitativa entre dos
o ms variables y mediante esta relacin poder efectuar predicciones. Por lo general la relacin consiste en
una ecuacin que expresa cmo la variable dependiente ( cuyo valor se desea predecir ) es afectada por una o
ms variables independientes.

En este curso se tratar la forma de establecer la posible relacin de una variable dependiente con una sola
variable independiente. El primer paso es disponer de una coleccin de datos obtenidos experimentalmente.
Por ejemplo, si se representan por X y Y las variables independientes y dependientes respectivamente y sus
valores particulares por x1, y1, x2, y2, etc. En una tabla se representaran as:

X X1 X2 X3 ....... Xn
Y Y1 Y2 Y3 ....... Yn

El siguiente paso es representar los puntos (X1 , Y1), (X2, Y2) . . ., ( Xn, Yn) en un sistema de coordenadas
rectangulares. El sistema de puntos resultantes se llama a veces diagrama de dispersin.

Con el diagrama de dispersin es posible representar una curva que se aproxime a los datos. Tal curva se
llama curva de aproximacin. En la figura 4.15 a), por ejemplo, se ve que los datos se aproximan bien a una
lnea recta y se dice que entre las variables existe una relacin lineal. En b) existe una relacin no lineal.
Y
Y

X X
Figura 4.15 a) Relacin lineal Figura 4.15 b) Relacin no lineal
Las curvas mostradas en la fig. 4.15 a) y b) se denominan curvas de aproximacin y describen la tendencia
de los puntos en el diagrama de dispersin.

El problema general de hallar la ecuacin de la curva de aproximacin que se ajuste al conjunto de datos con
los que se obtuvo el diagrama de dispersin se denomina determinacin de la CURVA DE AJUSTE.

Una curva de aproximacin como el de la Fig. 4.15 (a) sugiere una ecuacin lineal ( ecuacin de la recta) y =
a + bx; mientras que la Fig. 4.15 (b) sugiere una ecuacin cuadrtica ( parablica) de la forma Y = a + bx +
cx2.

Hecho con OpenOffice.org Writer http://es.openoffice.org 1


La dispersin de los puntos se debe a los errores que afectan en el proceso de medicin tanto a la variable
dependiente como a la independiente. En muchos problemas puede despreciarse el error en la variable
independiente al compararse con el error ( o variacin aleatoria) de la variable dependiente. Esto depender
de la situacin particular de las causas al realizar el experimento.

4.10.1 ANLISIS DE REGRESIN


Uno de los propsitos principales de la curva de ajuste es estimar una de las variables a partir de la otra. El
proceso de estimacin se conoce como regresin. Si Y se va a estimar a partir de X por medio de alguna
ecuacin la llamamos ecuacin de regresin de Y sobre X y a la curva correspondiente curva de regresin de
Y sobre X.
A continuacin aparecen ejemplos de diversas relaciones, denominadas funciones o ecuaciones de
prediccin;
Y c =abx ( Lnea Recta)
2
Y c =abxcx ( ecuacin de 2do. Grado o cuadrtica)
n
Y c =KX ( ecuacin potencial)
x
Y c = AD ( ecuacin exponencial)
Existen varios mtodos para determinar la ecuacin de regresin; aqu utilizamos el mtodo de mnimos
cuadrados por ser matemticamente ms exacto.
Como se mencion anteriormente, los errores afectan tanto a la variable independiente como a la variable
dependiente, sin embargo en muy diversos casos la variable independiente puede considerarse sin error y
considerar que la dispersin es debido nicamente a la variable dependiente. En este caso se considera que
para un valor puntual de X ( sin error) el valor experimental de Y se aparta del valor que predice la curva de
regresin. Por esta razn en la determinacin de la mejor curva de ajuste, como se ver ms adelante, exige
un previo anlisis de correlacin.

4.10.2 MTODO DE MNIMOS CUADRADOS


Generalmente ms de una curva de un tipo dado parece ajustarse a un conjunto de datos. Para evitar el juicio
individual en la construccin de rectas, parbolas y otras curvas de aproximacin, es necesario obtener una
definicin de la mejor curva de ajuste, mejor parbola de ajuste, etc.
Considrese la Fig. 4.16 en la cual los puntos de un conjunto de datos se expresan por (x1 , y1), ( x2, y2) . . . . .
. ( xn, yn).

Hecho con OpenOffice.org Writer http://es.openoffice.org 2


Y
(xn, yn)
Dn

(x1, y1)
D1

(x2, y2)
D2

X
Figura 4.16

Para un valor de X, por ejemplo X1 habr una diferencia entre el valor de Y1 y el valor correspondiente de la
curva C.

Denotamos sta diferencia por D1 que algunas veces se conoce como desviacin, error o residuo y puede ser
positivo, negativo o cero. Anlogamente, correspondiente a los valores X 2 , X 3 .... , X n , obtenemos las

desviaciones D 2 , D3 .... , D n .
Una medida de la bondad de ajuste de la curva C al conjunto de datos la suministra la cantidad

D21 D22 . ..D2n . Si la suma es pequea el ajuste es bueno, si es grande el ajuste es malo.
Definicin:
De todas las curvas de aproximacin correspondientes a un conjunto de puntos dados, la curva que tenga la
2 2 2
propiedad de que D1 D2 . ..Dn es mnimo, se conoce como la mejor curva de ajuste.

Una curva con esta propiedad se dice que ajusta los datos por mnimos cuadrados y se llama curva de
regresin de mnimos cuadrados o simplemente curva de mnimos cuadrados.
Una recta con esta propiedad se llama recta de mnimos cuadrados, una parbola con esta propiedad se llama
parbola de mnimos cuadrados, etc.

4.10.3REGRESIN LINEAL
Con el siguiente ejemplo se ilustra como puede tratarse un caso de regresin lineal. En la tabla siguiente se
dan los resultados de 12 mediciones, las cargas en miles de libras X y las Y son las deflexiones
correspondientes en milsimas de pulgada, en la calibracin de un anillo tensor.

Hecho con OpenOffice.org Writer http://es.openoffice.org 3


X 1 2 3 4 5 6 7 8 9 10 11 12
Y 16 35 45 64 86 96 106 124 134 156 164 182

Primero se construye el diagrama de dispersin, a partir de aqu, y segn la tendencia de los puntos, se traza
la curva de aproximacin, que resulta en la forma que se ilustra en la fig. 4.17.
Y
Deflexin
(milsimas
de 200 --
pulgadas) 180 --

160 --
140 --
120 --
100 --
80 --
60 --
40 --
20 --
10 --
X
1 2 3 4 5 6 7 8 9 10 11 12 Carga (en miles de libras)
Figura 4.17

Es razonable suponer que la relacin (curva de regresin) es lineal.

Se aplicar el mtodo de mnimos cuadrados para determinar la ecuacin de regresin. Para una relacin
lineal en general Yc = a + bx; Yc representa el valor terico de Yi el valor estimado de Y que corresponde a
un valor particular de x.
El criterio de mnimos cuadrados requiere la determinacin de los valores de a y b tal que yi y c 2
sea un mnimo ( es decir, que tienda a cero). Las constantes a y b se denominan coeficientes de
regresin; a es la interseccin con el eje de las ordenadas Y y b es la pendiente de la lnea que mejor se
ajusta.
Sea Z = y i y c 2 y sustituyendo yc = a + bx
2
Z = y i abx
La condicin para la mejor eleccin de a y b debe cumplir que:
z z
=0 y =0
a b

Hecho con OpenOffice.org Writer http://es.openoffice.org 4


Derivando respecto a a se tiene:
z
=2 y 1abx 1=0
a
2 y iabx =0
Desarrollando la sumatoria para cada trmino, se tiene:
2 y i2 an2b x=0 dividiendo toda la expresin entre 2, tenemos:

yianb x=0 ordenndola, tenemos:

y i=nab x (1)
Derivando respecto a b se tiene:
z
=2 y iabx x =0
a
Desarrollando la sumatoria para cada trmino , se tiene:
2 xy i2 a x2b x 2=0 dividiendo toda la expresin entre 2

xyi a xb x =0 re acomodando, tenemos:


2

xy i=a xb x 2 (2)
Finalmente, simultneamente (1) y (2) encontramos los valores de a y b

y=nab x (1)
ECUACIONES NORMALES
xy=a x b x 2 (2)

Para resolver estas ecuaciones se requiere obtener x , y , xy , y x2


Para el ejemplo del anillo tensor se tiene:
Xi Yi XY X2
1 16 16 1
2 35 70 4
3 45 135 9
4 64 256 16
5 86 430 25
6 96 576 36
7 106 742 49
8 124 992 64
9 134 1206 81
10 156 1560 100
11 164 1804 121
12 182 2184 144
=78 1208 9971 650

Hecho con OpenOffice.org Writer http://es.openoffice.org 5


Sustituyendo en las ecuaciones normales.
y=nab x
1208=12 a78 b

xy=a x b x 2
9971=78 a650b
Resolviendo el sistema por el mtodo de suma y resta, vamos a eliminar la constante a multiplicando la
primera ecuacin por 78 y la segunda por 12:
1208=12 a78 b 78
9971=78 a650b 12

94224=936 a6084 b
119652=936 a7800 b

25428=01716 b despejando b, tenemos:


25428
b= b=14.82
1716
Para encontrar el valor de a sustituimos el valor de b en cualquiera de las dos ecuaciones originales; en
este caso, sustituyendo b = 14.82 en (1):
1208=12 a7814.82
1208=12 a1156
12081156=12 a
52=12 a
52
a= a=4.3
12
Finalmente, la ecuacin de regresin queda as:
y c =abx
Y c=4.314.82X
La lnea recta aparece cruzando el diagrama de dispersin se traz calculando dos puntos: P 1 (0 , 4.3) y P2 ( 8,
122.9) con esta ecuacin, y uniendo seguidamente dichos puntos (basta con dos puntos, ya que dos puntos
determinan una recta).

NOTA: Si el lector no recuerda los mtodos de solucin de un sistema de ecuaciones (lo ideal sera que

Hecho con OpenOffice.org Writer http://es.openoffice.org 6


consultar un texto de matemtica) tiene otro camino para encontrar los valores de a y b, utilizando
correctamente las siguientes frmulas ( exclusivas para este tipo de regresin):

a=
X 2 Y X XY
2 2
n X X
n XY Y X
b=
n X 2 X 2
Le queda al lector comprobar estas frmulas, deber llegar a la misma ecuacin de regresin; Yc = 4.3 +
14.82 X. Anteriormente habamos dicho que el valor de a era el intercepto con el eje de las ordenadas Y; al
observar la grfica notamos que, efectivamente, la recta terica corta al eje Y en la divisin 4.3 que es el
valor que ha tomado a el valor de b = 14.82 milsimas de pulgadas de aumento en la deflexin del anillo
cuando la carga x aumenta en 1000 libras.

Con la ecuacin calculada, podemos hacer estimaciones de Y ( deflexin), y haciendo variar el valor de X
(carga). Por ejemplo, si deseamos estimar la deflexin del anillo para un valor de X = 3.5 (3500 libras); la
respuesta es:
Y c =4.314.82X
Y c =4.314.82 3.5
Y c=56.17 milsimas de pulgada

Conviene aclarar que con la ecuacin de regresin slo se pueden hacer interpolaciones, ya que la ecuacin
expresa funcionalmente la relacin de las variables, pero para pares de valores comprendidos en el rango
(dominio) donde se ha experimentado. En nuestro ejemplo se ha experimentado en el intervalo 1 a 12; si con
la ecuacin que hemos determinado, quisiramos estimar la deflexin para una carga de 20,000 libras; X =
20, el resultado es:
Y c =4.314.82 20 Y c=300.7 (milsimas de pulgada). Este resultado es un tanto dudoso, pues lo ms

probable es que al aplicar una carga mayor de la que se ha experimentado el anillo tensor se deforme o hasta
se rompa.

4.10.4 REGRESIN CURVILNEA


A. FUNCIN POTENCIAL O CURVA GEOMTRICA Y c =ax b
b
Aplicando logaritmo a la funcin Y c =ax , tenemos log Y c =log ab log X . Tal como hemos dicho

Hecho con OpenOffice.org Writer http://es.openoffice.org 7


anteriormente, la expresin log Y i log Y c 2 es un mnimo; sustituyendo en esta expresin log Y c por

su valor, tenemos log Y i log a b logX 2 es un mnimo. Al derivar con respecto a a y respecto a b
e igualar a cero las derivadas, obtenemos las ecuaciones normales siguientes:

log y=n log ab log x (1)


ECUACIONES NORMALES
log x log y=log a log xb log x 2 (2)

Ahora ajustemos una funcin potencial a la siguiente informacin, correspondiente al perodo de oscilacin
de un sistema resorte masa:
m(Kg) (X) 0.20 0.40 0.60 0.80 1.00 1.20 1.40
T(s) (Y) 0.34 0.47 0.58 0.66 0.74 0.84 0.90

Se obtiene el diagrama de dispersin y su respectiva curva de aproximacin, tal como se ilustra en la fig. 4.18
Perodo, T (s)Y

1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3

0.2

0.1
X Masa, m (Kg)
0.20 0.40 0.60 0.80 1.00 1.20 1.40

Figura 4.18

El diagrama de dispersin sugiere una relacin de la forma T =Km n ; en este caso, con
0n1 . La ecuacin se puede escribir como T =am b
Aplicando logaritmo a esta expresin:
log T =log ab log m

Hecho con OpenOffice.org Writer http://es.openoffice.org 8


Las ecuaciones normales toman la forma siguiente:
logT =n logab log m (1)
log m log T =log a log mb log m 2 (2)
La siguiente tabla contiene los valores logartmicos necesarios para resolver las ecuaciones normales.
mi Ti Log m LogT log m logT (log m)2 T
0.20 0.34 -0.69897 -0.46852 0.32748 0.48856 0.335
0.40 0.47 -0.39794 -0.32790 0.13049 0.15836
0.60 0.58 -0.22185 -0.23657 0.05248 0.04922
0.80 0.66 -0.09691 -0.18045 0.01749 0.00939
1.00 0.74 0 -0.13077 0 0
1.20 0.84 0.07918 -0.07572 -0.00599 0.00627
1.40 0.90 0.14613 -0.04576 -0.00669 0.02135
-------- = -1.19036 -1.46569 0.51525 0.73315 -------

Sustituyendo en las ecuaciones normales se tiene.


1.46569=7 log a1.19036 b (1)
0.51525=1.19036 loga0.73315 b (2)

Multiplicando la ecuacin (1 ) por 1.19036 y la ecuacin (2) por 7


1.46569=7 log a1.19036 b 1.19036
0.51525=1.19036 log a0.73315 b 7

1.74470=8.33252 log a1.41696 b


3.60675=8.33252 loga5.13205 b

1.86205=3.71509 b
1.86205
b= b=0.50
3.71509
Sustituyendo en valor de b en ecuacin (1) para calcular el valor de a tenemos:
1.46569=7 log a1.19036 b
1.465691.19036 b=7 log a
1.465691.19036 b
log a=
7
1.465691.19036 0.50
log a=
7

Hecho con OpenOffice.org Writer http://es.openoffice.org 9


log a=0.12436 a=log10.12436 a=0.75
La ecuacin de regresin es:
log T =log ab log m
log T =0.124360.50 log m
Y de acuerdo a esta se puede escribir como :
Y =ax b
T=0.75m 0.50
Para obtener los valores tericos de T se utiliza esta ltima expresin y stos se representan en la ltima
columna de la tabla anterior:
Ejemplo: T =0.750.200.50 T=0.335 (Ver ltima columna)
De igual manera complete los restante datos tericos para T.

x
B. CASO EXPONENCIAL Y c =ab
El caso exponencial se utiliza cuando se desea calcular especialmente tasas de crecimiento. Esto implica
tomar en cuenta la variable tiempo como variable independiente; sin embargo, puede considerarse cualquier
otra variable y ajustar la funcin sin hacer referencia a tasas de crecimiento. Veamos un ejemplo. La
siguiente informacin corresponde al nmero de palabras Y que un grupo de secretarias, escogidas al azar,
puede escribir ( en mquina elctrica) de acuerdo al nmero de meses X de entrenamiento:

X1 ( No. de Meses) 1 2 3 4 5 6 7 8
Y1 ( No. De palabras) 15 18 25 30 35 45 53 70

x
A esta informacin le ajustamos una funcin exponencial Y c =ab . Aplicando logaritmo a la funcin:
x
Y c =ab tenemos : log Y c =log ax log b

Como en los casos anteriores, interesa minimizar la expresin


Z = logY ilog a x logb
2

Al derivar con respecto a a y b e igualar a cero las derivadas llegamos a las siguientes ecuaciones
normales:

log y=n log alog b x (1) ECUACIONES NORMALES

x log y =log a x log b x 2 (2)

Hecho con OpenOffice.org Writer http://es.openoffice.org 10


A continuacin hacemos los clculos pertinentes en la siguiente tabla:
X Y Log Y Xlog Y X2 Yc
1 15 1.1760913 1.1760913 1 15.19
2 18 1.2552725 2.5105450 4
3 25 1.3979400 4.1938200 9
4 30 1.4771213 5.9084850 16
5 35 1.5440680 7.7203400 25
6 45 1.6532125 9.9192751 36
7 53 1.7242759 12.0699311 49
8 70 1.8450980 14.7607840 64
= 36 = 291 =12.07308 = 58.25927 = 204 ----------

Sustituyendo en las ecuaciones normales (1) y (2) para este caso:


12.07308=8 log a36 log b (1)
58.25927=36 log a204 log b (2)

Multiplicando toda la ecuacin ( 1) por -9 y la ecuacin (2) por 2, para eliminar a log a

108.65772=72 log a324 log b


116.51854=72 log a408 log b

7.86082=84 logb

7.86082
log b=
84

log b=0.0935811

b=log 1 0.0935811

b=1.24

Sustituyendo este valor de b en ecuacin (1)

12.07308=8 log a36 log b

12.0730836 logb=8 log a

12.0730836 logb
log a= sustituyendo log b=0.0935811 , tenemos:
8

12.0730836 0.0935811
log a=
8

Hecho con OpenOffice.org Writer http://es.openoffice.org 11


log a=1.08802

a=log1 1.08802

a=12.25

Sustituyendo los valores de a y b en la expresin general para este caso exponencial, se tiene:
x
y=ab

y=12.251.24 x

Si se quiere calcular un valor terico de Y c para un valor de x=1 sera:

1
Y c=12.251.24 Y c=15.19 ver ltima columna en la tabla anterior para este caso.

Completar los restante valores tericos para Y c evaluando los valores de x=2 hasta x=8

4.11. CORRELACIN

La correlacin estudia si existe algn tipo de relacin entre dos o ms variables. Se busca dar respuesta a
preguntas como las siguientes:
Existe alguna relacin entre las estaturas y los pesos de las personas?
Hay alguna relacin entre el tiempo dedicado al estudio y las notas obtenidas en los exmenes?
El dimetro del tronco est relacionado con la altura del rbol?
La cantidad de maz que produce una mazorca est relacionada con las cantidades de agua y sol que recibe
la planta?

La correlacin puede ser de dos tipos:


CORRELACIN SIMPLE:
Es la que estudia si existe relacin entre dos variables.
CORRELACIN MLTIPLE:
Es la que estudia si existe relacin entre ms de dos variables.

En el presente texto solamente estudiaremos la Correlacin simple.

CORRELACIN RECTILNEA:
Cuando dos variables estn relacionadas y sta relacin entre ellas sigue la tendencia de una linea recta,

Hecho con OpenOffice.org Writer http://es.openoffice.org 12


entonces se dice que entre dichas variables existe correlacin rectilnea.

Si al aumentar una de las variables, aumenta tambin la otra, entonces se dice que la correlacin entre ellas es
positiva; mientras que si al aumentar una de las variables la otra disminuye, entonces la correlacin es
negativa.

Para investigar si existe correlacin rectilnea entre las variables X, Y puede hacerse de dos maneras:
a) Haciendo uso de un diagrama de dispersin.
b) Por medio del coeficiente de correlacin rectilnea.

Investigar, por medio de un diagrama de dispersin, si existe correlacin rectilnea, requiere bastante
prctica. Y en todo caso, los resultados que se obtienen son algo imprecisos, ya que dependen de la
percepcin del investigador.

COEFICIENTE DE CORRELACIN RECTILNEA:


El coeficiente de correlacin rectilnea es una medida que indica cuantitativamente el grado de correlacin
rectilnea que existe entre dos variables X, Y.
El coeficiente de correlacin rectilnea se representa por r.
r es un valor numrico que se encuentra comprendido siempre entre -1 y 1, es decir que 1r 1
Cuando al graficar los puntos x 1 , y1 , x 2 , y 2 ,..... , x n , y n estos quedan colocados exactamente sobre una
linea recta, entonces se dice que entre las variables x, y y existe correlacin rectilnea perfecta. En este caso
r =1, r=1 .
Si r = 1, entonces existe correlacin rectilnea perfecta y sta correlacin es positiva.
Si r = -1, entonces la correlacin rectilnea perfecta es negativa.
Cuando r = 0, se concluye que entre las variables x, y no existe correlacin rectilnea.

Hecho con OpenOffice.org Writer http://es.openoffice.org 13


y y
(x1, y1)
(xn, yn)

(x1, y1) (xn, yn)


x x
r=1 r = -1
Correlacin rectilnea positiva y Correlacin rectilnea negativa y
perfecta. Un aumento en x perfecta. Un aumento en x
conlleva un aumento en y. conlleva una disminucin en y.

x
r=0
No existe correlacin rectilnea

Valores positivos de r indican correlacin positiva.


Valores negativos de r indican correlacin negativa.
r se conoce tambin con el nombre de Coeficiente de Correlacin de Pearson.

CLCULO DE r:
Para calcular el coeficiente de correlacin rectilnea, de los puntos x 1 , y1 , x 2 , y 2 ,..... , x n , y n ; se hace
uso de la siguiente frmula:

n n n
n x i y i x i yi
i=1 i=1 i=1
r=


n n n n
2 2
[n x i2 x i ][n y 2i y i ]
i=1 i=1 i=1 i=1

Tambin se puede calcular r haciendo uso de una calculadora de bolsillo. Algunas de stas tienen una tecla

Hecho con OpenOffice.org Writer http://es.openoffice.org 14


asignada el valor de r, se facilitan los clculos de la frmula anterior, ya que dan de una sola vez los valores
de las distintas sumatorias.

Ejemplo: Cinco aspirantes a ingresar en la Universidad se sometieron a un examen de admisin, en el rea de


Fsica. Tres meses despus, siendo ya estudiantes universitarios, realizaron su primer examen de Cinemtica.
Las notas que stos obtuvieron en ambos exmenes fueron las siguientes:
Examen de admisin 6.0 6.5 6.7 7.0 9.5
Examen de Cinemtica 1.5 1.2 4.8 6.2 9.4

Encontrar el coeficiente r, verificar si existe correlacin rectilnea y de que tipo.


SOLUCIN:
Haremos uso de la frmula planteada anteriormente; pero primero calcularemos todas las sumatorias
implcitas en ella, para despus sustituir y calcular.
Designaremos las notas del examen de admisin por medio de la variable X y las notas del examen de
Cinemtica por Y.

Examen de admisin(X) 6.0 6.5 6.7 7.0 9.5


Examen de Cinemtica(Y) 1.5 1.2 4.8 6.2 9.4

Xi Yi Xi 2 Yi2 XiYi
6.0 1.5 36.00 2.25 9.00
6.5 1.2 42.25 1.44 7.80
6.7 4.8 44.89 23.04 32.16
7.0 6.2 49.00 38.44 43.40
9.5 9.4 90.25 88.36 89.30
x i =35.70 y i=23.10 2
x =262.39
i
2
y =153.53
i x i y i=181.66
Al sustituir, estos valores, en la frmula obtenemos:
5 5 5
5 x i y i x i yi
i =1 i=1 i=1
r=


5 5 5 5
2 2
x x i ][5 y y i ]
2 2
[5 i i
i =1 i=1 i=1 i=1

Hecho con OpenOffice.org Writer http://es.openoffice.org 15


5181.6635.7023.10
r=
[5262.3935.702 ][5153.5323.10 2 ]
r=0.89

Como este valor est bastante cercano a 1, concluimos que entre los dos conjuntos de datos, existe
efectivamente correlacin rectilnea positiva.

Hecho con OpenOffice.org Writer http://es.openoffice.org 16

You might also like