You are on page 1of 52
PTS.1 AJUSTE DE CURVAS MOTIVACION Bs comin que los datos se dan como valores discretos a lo largo de un continuo, Sin em- bargo, quizés usted requiera Ia estimacién de un punto entre valores discretos. Esta parte Gel libro describe las técnicas para ajustar curvas a estos datos para obtener estimaciones intermedias, Ademés, usted puede necesitar Ia versién simplificada de una funcién com- plicada. Una manera de hacerlo es calcular valores de la funcién en un ntimero discreto de valores en el intervalo de interés. Después, se obtiene una funcién més simple para ajustar dichos valores. Bstas dos aplicaciones se conocen como ajuste de curvas. Existen dos métodos generales para el ajuste de curvas que se distinguen entre sf al considerar la cantidad de error asociado con los datos. Primera, silos datos exhiben un grado significativo de error 0 “ruido”, Ia estrategia ser4 obtener una sola curva que re- presente la tendencia general de los datos. Como cualquier dato individual puede ser Incorrecto, no se busca intersecar todos los puntos. En lugar de esto, se construye una ccurva que siga la tendencia de los puntos tomados como un grupo, Un procedimiento de este tipo se llama regresisn por minimos cuadrados (figura PTS.1a) ‘Segundo, si se sabe que los datos son muy precisos, cl procedimiento bésico seré colocar una curva o una serie de curvas que pasen por cada tno de los puntos en forma directa, Usualmente tales datos provienen de tablas. Como ejemplos se tienen los valo- res de la densidad del agua o la capacidad calorifica de los gases en funcién de la tem- peratura, La estimacién de valores entre puntos discretos bien conocidos se lama interpolacidn (Gguras PTS.1b y PTS.) PT5.1.1 Métodos sin computadera para el ajuste de curvas El método ms simple para ajustar una curva alos datos consiste en ubiar los punts y después trazar una curva que visualmente se acerque alos dates. Aunque ésta es una operacién vlida cuando se requiere una estimacién rpida, los resultados dependen del punto de vista subjetivo de la persona que dibuja la curva Por ejemplo, en la figura PTS.1 se muestran curvas trazadas a partir del mismo conjunto de datos por tres ingeniers. 1 primero no itent6 unit los puntos, sino, més bien, caracteriar la tendencia general ascendente de los datos con una Linea recta igu- ra PTS.10), El segundo ingeniero us6 segmentes de lina recta 0 interpolacién lineal para unit los puntos (figura PTS. 10) sta es una prictica comin en la ngeniera. Silos valores se encuentran cercanos a ser lineales 0 estén cercanamente espaciades, tal apcoximacién ofreceestimaciones que son adecuadas en muchos célculs de ingenieria. No abstante, sila elacién es altamente cuvilinen los datos estan muy espaciados, es posible inroduci erores mediante esa interpolacin lineal El terceringeniero utiliza curvassuaves para rata de capturarclserpenteadosugerido por los datos (figura PTS). Un cuarto o quintoingeniero podria, de igual forma, desarrollaraustes alternatives. Obviamente, nuestra meta agut es desarrollar métodos sstemsticosy objeives con el propésito de obtener tales curvas 452 AJUSTE DE CURVAS FIGURA PTS.1 Ties intents para olustar una “mer curva con cinco puctos dados. of Regresién por minimos cvacrades, 6] inerpolacién neal y a intespolocion cuvlinea PTS.1.2 Ajuste de curvas y practica en ingenieria Su primer encuentro con el ajuste de curvas podria haber sido detetminar valores inter- medios a partir de datos tabulados (por ejemplo, tablas de interés para ingenierfa eco- némica, o tablas de vapor en termodindmica), En lo que testa de su carrera, usted tendra frecuentes oportunidades para estimar valores intermedios a partir de tablas.. ‘Aungue se han (abulado muchas propiedades ampliamente ulilizadas en Ia inge- nierfa, existen olras que no estén disponibles en esta forma conveniente. Los casos es- ppeciales y nuevos contextos de problemas requieren que usted recolecte sus propios Gatos y desarrolle sus propias relaciones predictivas. Se han encontrado dos tipos de aplicaciones en el ajuste de datos experimentales: anélisis de Ia tendencia y prueba e hipétesis EL anilisis de la tendencia representa el proceso de utilizar el comportamiento de los datos para realizar predicciones. En casos donde los datos son medidas de alta pre~ PTS.2_ANTECEDENTES MATEMATICOS: as3 PTS.2 cisién, se usan polinomios de interpolacién. Los datos imprecisos se analizan mediante ‘una regresién por minimos cuadrades. El andlisis de la rendencia sirve para predecit 0 pronosticar valores de la variable dependiente. Esto puede implicar una extrapolacién més alld de los limites de los datos observados o una interpolacién dentro de intervalo de los datos. Por lo comin, en todos Jos campos de la ingenierfa se presentan problemas de este tipo. ‘Una segunda aplicacién del ajuste de curvas experimental en ingenieria es la prue- ba de hipétesis, Aqui, un modelo matemético existente se compara con los datos obte- nidos. Si se desconocen los coelicientes del modelo, ser4 necesario determinar los valores que mejor se ajusten a los datos observados. Por otto lado, si ya se dispone de la estimacién de los coeticientes del modelo seria conveniente comparat los valores predi- chos del modelo con los observados para probar qué tan adecuado es el modelo. Con frecuencia, se comparan modelos alternatives y se elige “el mejor” considerando las observaciones hechas en forma empitica. ‘Ademas de las aplicaciones mencionadas en la ingenierfa, el ajuste de curvas es inpportante para implementar otros métodos numéricos, tales como la integracién y la solucién aproximada de ecuaciones diferenciales, Por wtimo, las técnicas de ajuste de ccurvas son tiles para obtener funciones simples con la finalidad de aproximar funciones complicadas, ANTECEDENTES MATEMATICOS Los fundamentor mateméticos de la interpolacién se encuentran en el conocimiento sobre las expansiones de la serie de Taylor y las diferencias finitas divididas que se presentaron en el capitulo 4. La regresién por minimos cuadrados requiere ademis de lninformacién en el campo de la estadistica. Si usted conoce los conceptos de la media, desviacién estindar, suma residual de los cuadrados, distribucién normal e intervalos de confianza, puede omitir el estudio de las siguientes piginas y pasar directamente a la secci6n PTS.3. Sino recuerda muy bien estos conceptos o necesita de un repaso, el estudio del siguiente material le serviré como introduccién a esos temas PTS.2.1 Estadistica ple Suponga que en el curso de un estudio de ingenier‘a se ealizaron varias mediciones de ‘una cantidad especifica, Por ejemplo, la tabla PTS. contiene 24 lecturas del coeficiente dde expansiGn térmica del acero. Tomades asi, los datos ofrecen una informacién limita- dda (es devi, que los valores tienen un minimo de 6.395 y un maximo de 6.775). Se ob- ‘dene una mayor comprensi6n al analizar los datos mediante uno o més estadisticos, bien seleccionados, que den tanta informacién como sea posible acerca de las caracterfsticas especificas del conjunto de datos. Es0s estadisticos descriptives se seleccionan para TABLA PTS.1 Mediciones del coeficiente de expansion térmica del acevo be 10+ in/lin °F. 0.495 0.595 ols 6035 0485 0.535 66s 6.505 e435 6625 e715 e055 0.735 6.625 o7is 6575 6655 6.565. e515 6.555 6395 675 eas. 454 ‘JUSTE DE CURVAS representar 1. la posicién del centro de la distribucién de los datos y 2. el grado de dis persign de los datos. El estadistico de posicién més comnia es Ia media aritmética, La media aritmética () de una muestra se define como la suma de los datos (y,) dividida entze el nimero de datos (0), 0 yh 75.1) donde la sumatoria (y todas las sumatorias que siguen en esta introduccién) va desde i= 1 hasta n La medida de dispersién més comin para una muestra es la desviacién estdndar (6,) respecto de Ia media, [= sa donde $,¢s la suma total de los cusdrados de las diferencias entre los datos y la media, 0 $,=20,-57° Ts.) sf, silas mediciones se encuentran muy dispersas alrededor de la media, 5, (y, en con- secuencia, s,) serd grande, Si estin agrupadas cerca de ella, la desviacién estandar sera pequefia. La dispersién también se puede representar por el cuadrado de la desviacién estdndar, llamada la varianca Ts.) Observe que el denominador en amibas ecuaciones (PTS.2) y (PTS.4) es n— 1. Lacanti- dad n 1 se conoce como los grados de libertad. Por lo tanto, se dice que S,y 5, consi- eran n— 1 grados de libertad. Bsta nomenclatura se abtiene del hecho de que la suma de las camtidades sobre las cuales se basa S, (es decit, J~ yj, F~ Yas.» F—,) €8 cero En consecuencia, si se conoce Vy se especifican los valores de n~ 1, el valor retante aqueda determinado. Asi, solo n~ I de los valores se dice que se determinan libremente. (Ota justificaci6n para dividir entre n ~ Les el hecho de que no tiene sent hablar de Ja dispersin de un solo dato. Cuando n = I, las ecuaciones (PTS.2) y (PTS 4) dan un resultado sin sentido: infinita Se debers observar que hay otra formula alternativa ms convenient, para calcular Ja desviacinestindar, By - yin ra Esta versién no requiere el cdlculo previo de Fy se obtiene el mismo resultado que con Ia ecuacién (PTS.4), PTS.2_ANTECEDENTES MATEMATICOS: ass EJEMPLO PTS.1 Un estadistico final que tiene utilidad para cuantificar la dispersién de los datos es el coeficiente de variacién (c-v.). Tal estadistico es el cociente de la desviacién esténdar centre la media, De esta manera, proporciona una medicién normalizada de la dispersion, Con frecuencia se multplica por 100 para expresarlo como porcentaje: ew. 100% e958) 7 Observe que el cocficiente de variacién tiene un cardcter similar al del extor relative pporcentual (g) analizado en la seccién 3.3. Es decir, ést es larazén de una medicién de error (s,)respecto a un estimado del valor verdadero (3) Estadistica simple de una muestra Planieamiento del problema, Caleule la media, la varianza, la desviacién estindar y el coeficiente de variacién para los datos de la tabla PTS.1 TABLA PTS.2 Célevlos para estadistcos con las lecturas del coeficien'e de expansign térmica. las krecvenciasy los limites se caleulan para constuir el histograma que se muestra en la figure PTS.2. Intervale Limite x On Frecvenc superi T rey aZ7075 i ae 60 2 6435 0.027225 1 6.40 64a 5 6485, 0.013225, 2 6495 0.01 1025 5 6505 ,009025, 4 6 652 6 655 0.007225 ? 6555 0.002025, 2 082 656 8 6555 0.002025, 9 6565 0.001225, 10 6575 0.000625 3 6.56 660 1 6595 o,009075, 12 6.605 0.000025 a 665 14 6625 5 660 660 15 6.625 1.000625, 16 6635 0.001225 7 6.655 9.003025, 8 6.655 0.003025 3 ea 668 19 6665 04225, 20 6685 0.007225 2 6715 0013225, 3 os 672 22 675 0.015225 ca 6755 074025, 1 072 676 24 6775 0.090625 1 67 680 y 158.4 0.217000, 456 ‘JUSTE DE CURVAS Solucién. Sesuman los datos tabla PTS.2) y lo resultados sirven para calcular [ecua- cid (PTS.D] Como se observa en Ia tabla PTS.2, 1a suma de los euadrados de las diferencias es (0.217000, tos cuales se usan para calcular la desviaci6n estindar [ecuacin (PTS.2)] = 0.097133 (0.217000 VT la varianza [ecuacién (PTS.4)] 2 =0,009435 y elcoeficiente de variacién [ecuacién (PTS.5)} 1, _ 0.097133 66 008 AT% PTS.2.2 La distribucién normal (Owa caracteristica ttl en el presente anilisis es la distribucién de datos (es decir, la forma en que los datos se distribuyen alrededor de la media). Un hisrograma proporcio- sna una representacién visual simple de la distibuci6n, Como se observa en la tabla PTS 2, el histograma se construye al ordenar las mediciones en intervalos. Las unidades de medicién se grafican en las abscisas; y a frecuencia de ocustencia de cada intervalo, en las ordenadas, Asi, cinco de las mediciones se encuentran entre 6.60 y 6.64, Como se advierte en la figura PTS.2, el histograma indica que la mayorfa de los datos se agrupa cerca del valor de Ia media de 6.6. Si se tiene un conjunto muy grande de datos, el histograma se puede aproximar mediante una curva suave. La curva siméuica, en forma de campana que se sobrepone en la figura PTS.2, es una de estas formas caracteristicas (la distribucién normal). Da- das suficientes mediciones, en este caso particular el histograma se aproximard a la distribucion normal. Los conceptos de media, desviacién esténdar, suma residual de los cuadrados y distribucién normal tienen una gran impostancia en la préctica de la ingenierfa. Ua ejem- plo muy simple es su uso para cuantificar laconfianza que se puede tener en una medicién cn particular. Si una cantidad esté normalmente distzibuida, el intervalo limitado por ¥ =s,y 9+ 4, abarcaré en forma aproximada el 68% de las mediciones totales. De manera similar, el intervalo limitado por 2s, y ¥+ 2s, abarcard alrededor del 95% Por ejemplo, para los datos de la tabla PTS.1 (= 6.6 y s, = 0.097133), se afirma que aproximadamente el 95% de las ecturas deberdin estar entre 6.405734 y 6.794266, Si alguien nos dijera que tomé una lectura de 7.35, entonces sospecharfamos que la medicién result exrénea. En la siguiente secci6a se estudiaran dichas evaluaciones. PTS.2_ANTECEDENTES MATEMATICOS: as7 Frecuenci 34 6 co FIGURA PTS.2 Hotograme usade para dustar Ia detibueié forma el nimero de datos ‘aumenta, el hislegoma se apreximard @ una curve suave, la euiva en forma de campana, llomace ks eistibucién rormal datos PTS.2.3 Estimacién de los intervalos de confianza Como resultar claro de lo expuesto en la secci6n anterior, uno de los principales obje- Livos de Ia estadistica es estimar las propiedades de una poblacidn basindose en una ‘muestra limitada que se toma de esa poblacién. Es evidente que es imposible medir el coeficiente de expansién térmica de cada pieza producida de acero, En consecuencia, como se muestra en las tablas PTS.1 y PTS.2, es posible realizar un nsimero de medicio- nes en forma aleatoria y, con base en la muestra, intentar caracterizar las propiedades de toda la poblacién. Debido a que se “infieren” propiedades de Ia poblacién desconocida a partir de una ‘muestra limitada, el procedimiento se denomina inferencia estadistica. Ya que los re- sullados a menudo se reportan como estimaciones de los pardmetros de la poblacién, el proceso también se conoce como estimacion. ‘Ya se mostr6 cémo estimar la tendencia central (media de la muestra, 3) y la dis persiGn (desviacién estindar y varianza de Ia muestra) de una muestra limitads. Ahora, se describird en forma breve cémo realizar aseveraciones probabilisticas respecto de la calidad de esas estimaciones. En particular, se analizara cémo definir un inlervalo de confianza alrededor de un estimado de la media, Se ha escogido este tpico en particu- Ir debido a su relevancia directa para los modelos de regresién que se describiran en el capitulo 17 En el siguiente anslisis observe que la nomenclatura Vy s, serefieren ala media de a muestra y a su desviacién estandar, respectivamente, La nomenclatura My ose refie~ ren ala media y la desviaciGn estandar de Ia poblaci6n. Las primeras son algunas veces referidas como la media y desviaci6n estindar “estimadas”; mientras que las Gitimas se Taman Ta media y la desviaci6n estindar “verdaderas”. 458. ‘JUSTE DE CURVAS Distribucion de ks mediae de,5. a » FIGURA PTS.3 niersale de corfianze bilateral. La escala de la abscisa en al se escribe en las unidades originales de la vorasle aleatoria y.b) Es una versié» rormalizade de las abscisas que tiene le media wb cada o7 el orgen #2 escala el ee de tal marare que la desviacién esténdar conesponda a une unidad Un estimador de intervalo proporciona el rango de valores dentro del que se espera gue esté el parémetro, con una probabilidad dada. Tales intervalos se describen como unilateral y bilateral. Como su nombre lo indica, un intervalo unilateral expresa nuestra confianza en que el parimetro estimado sea menor que o mayor que el valor real. En cambio, el intervalo bilateral tiene que ver con la proposicién més general en que la estimacién concuerda con la verdad. sin considerar el signo de la discrepancia, Como ste es més general, nos ocuparemos del intervalo bilateral. Un intervalo bilateral se describe con la relacion, PILSUSU}=1-a aque se lee: “La probabilidad de que la media real de y, 1, ext6 dentro de los Ifmites de aUes 1a” La cantidad or se conoce como el nivel de significancia. De esta forma, el problema de definir un intervalo de confianza se reduce a estimar Ly U. Aunque no es absolutamente necesario, es costumbre visualizar el intervalo bilateral con la probabi- lidad @, distribuida de manera uniforme, con @/2 en cada cola de la distribucién, como se muestra en la figura PTS.3, Si se conoce la varianza real dela distribucién de y, 0° (Io cual no es frecuente) la (eorfa estadistica establece que la media de Ia muestra F proviene de una distribucién normal con media jy varianza o°/n (cuadro PTS.1). En el caso ilustrado en la figura PTS,3, no se conace realmente J. Por lo tanto, no se sabe dénde se ubica con exactitud PT5.2_ANTECEDENTES MATEMATICOS 459 Cuadro PTS. Un poco de estadistica [La mayor de os ingeniers oman vaio cursos de extadtica Como std ll vez ain no ha tomado ago se mencionsnin algunas nociones que han qe esta seccién ea més ceberete. Como se ha mencionade el “juego” de a estdiica infe- rencialsupone que la variable alatria que Wsted muestea,», tiene media Us) y vaianca (0?) verdaderas. dems, en este snlisis se supondri que dene wna distsbucidn parila: la isibuciés normal. La vavianza de esiaststbucign noel ene un Valor fito que especies a “dispersion” de a disibucién normal, Sila varionza es grande, Ie distibacign es arplia En cambio, si a vasianza es pegucss, la isuibucién es esuecha ‘An 1a vaianza teal cuanii Ia incesidumbveinitsaca de la vaable aleatoria Enel juego de Ia estudistica, se toma un ame imitado de sediciones de una caida, ala qucse le lisa mueara, De esta ‘esta s¢ caleulan una media) yuna varianza(estimadas. CCaantas mis mesicones se omen, mej seria as etimaciones para que se aproximen alos valores verdadeos. sto e, cuando noe3 oye oe Suponga qu se tomman m muesteasy ge calcula una media estimada j, Después se toman otras n muestra y secaleula ar, 5» Se pede peti este proceso hasta ques haya generado na suesta de medi Ji donde es grande, Entonces se constrye un histograma de esas medias y se determina una ‘stibucién de las medias, asi como una “media de Tas me iss” yuna"desviecign estinda de las medio Ahora surge pregunta: (Esta nuova dstbucign de medias y sus eaadistices $e coraprian en us forma peedecible? Existeun torema may importante conocido como cl teorema del limite central que responde en forma diecla a esta pregunta y se enuncia como sigue Seay, yy. gna muestra aleatoria de tamario m tomada de una distribucién con media py varianca o*. Entonces, para nt grandes, yes aproximadamente mormal con a media jy la varianza o/m. Ademés, para» grande, a variable aleatoria G-WMoHn) es aproximadamente normal estindar Asi, el teorema establece el resultado interesante de que la Aistribucién de las medias siempre estar normalmeate distibui- da, jsinimporarla dstribucién de las variables aleatrias de que sc trate! Esto tambign da el resultado esperado, de gue dada una rmucsra suicentemente grande la media de las medias deberd converger hacia la verdadera media dela poblacin ‘Ademis, el tcorema indica que conforme erezca el tamafo de la muestra, [a vartanza de las medias se aproximaré a cero. Eto tiene sentido, yaque sin es pequeta, ls estimacionesindividuales de la media serén pobre, y as vavianzas de las medias, grandes En tanto n sumente, la estimacién de la media mejor y, por lo tanto, disminuiré su dispersién, Hi teorema de! limite central claramente define, en forma exacta, cémo esta disminuciGn ests felacionada tanta con la varianza teal como con el tarnao de Ia muestra; es decir; como on or dime, el teorema estehlece el importante resultado que se ha dado en la ecuacién (PTS.6). Como se muestra en esta seccidn, este teorema es Ia base para consruir intervalos de confianza para la media, la curva normal con respecto a. Para evitar este dilema, se calcula una nueva cantidad, clestimado normal estandar H on 75.6) gue representa Ia distancia normalizada entre V y 1. De acuerdo con la teorfa estadisti- 2, esta cantidad debera estar distribuida normalmente con media Oy varianza 1. Ademiés, la probabilidad de que Z esté dentro de la regién no sombreada de la figura PTS.3 sera 1 =a. Por lo tanto, se establece que re. orn con una probabilidad de ct ‘JUSTE DE CURVAS Lacantidad za, 8 una variable aleatoria normal esténdar sta es la distancia medi- da ao larg del efe ormalizado ariba y debaj dela media, que correspond la proba- bilidad 1 =e (figura PTS 36). Los valores de za estén tabulados en libros de estaistica (por ejemplo, Milton y Arnold, 1995) ‘Tambien pueden calularse usando funciones de pauetesybibiotecas de software como Excel e IMSL. Como un ejemplo, para ct = 0.05 (en otras palabra, definiendo un intervalo que comprenda 95%), zay es aproxima- damente igual a 1.96. Esto significa que un intervao alrededor de a media con un ancho 41.96 veces la desviacién estindarabarcard en forma aproximada,e1 95% de la dist bucion sos resultados se eordenan para obtener Leusu con una probabilidad de 1 ~ a, donde L=5-2 uas4 ers ‘Abora, aunque lo anterior oftece una estimacién de L y U, esté basado en el cono- cimiento de la verdadera varianza a. ¥ en nuestro caso, conocemos solamente la varian- za estimada s,. Una allernativa inmediata serfa una versién de la ecuacién (PTS.6) basada en 3, ess) ‘Aun cuando la muestra se tome de una distribucisn normal, esta fraccidn no estard normalmente distribuida, en particular cuando n sea pequesa, W. S. Gossett encontis aque la variable aleatoria definida por la ecuaciéa (PTS 8) sigue la Hamada distibucién de Student o, simplemente, dstribucidn f. Bn este caso, (T5.9) donde faa.» 66 1a variable aleatoria estndar de la distribucién 1 para una probabili- dad de 2/2. Como en el caso de Zq2, los valores estén tabulados en libros de estadisti- ca, y también se calculan mediante paquetes y bibliotecas de software, Por ejemplo, si = 0.08 y n= 20, fats n= = 2.086, Ladistribucién puede emtenderse como una modificacién de la distribucién normal gue toma en cuenta el hecho de que sc tiene una estimacién imperfecta de Ia desviacién estdndar. Cuando n es pequeiia, tiende a ser més plana que Ia normal (figura PTS), Entonces, para pocas mediciones, se obtienen intervalos de confianza ms amplios y, por lo tanto, mas conservadores, Conforme n se vuelve més grande, la distribucién £ converge a la normal, PT5.2_ANTECEDENTES MATEMATICOS 461 Normal ta=6), FIGURA PTS.4 Cemparacién de la disnbueién normal con la distibueién tpare n= 3 yn es mas plane ccéme ke aistibucién ren gens EJEMPLO PTS.2 Intervalo de confianza alrededor de la media Planjecriento del problema, Determine la media y el correspondiente intervalo de confianza del 95% para los datos de la tabla PTS.1, Realice 3 estimaciones baséndose en a) las primeras 8 mediciones, b) las primeras 16 medlciones y c) las 24 mediciones Solucién. a) La media y la desviaci6n estindar con los primeros 8 valores es 52.72 3 3474814 G27) y 8-1 = 0.089921 Blestadistico r se calcula como: Toosinsct = fons = 2.364623 gue se utiliza para calcular el intervalo 0.089921 0.089921 L=659 2.364623 = 6.5148 = 6.594 2.364623 = 6.6652 6.5148 <1 < 6.6652 Asi, considerando las primeras ocho mediciones, concluimos que existe un 95% de probabilidad de que la media real esté en el intervalo de 6.5148 a 6.6652. ‘JUSTE DE CURVAS 650 655 6.60 665 670 Coeficiente de expansién térmica [x 10" infin = Fl FIGURA PTS.5 Estimactones de fa media ¢ inlrvalos de con de ka musa el 95% pare dife Los otros dos casos, #) con 16 valores y c) con 24 valores, se caleulan en forma similar y los resultados se tabulan junto con los del inciso a) como sigue a x fy teat L v 3 63900 0.08992) 2.364623 65148 ees le 65794 2191251 65783 e304 26 66000 2.068685 6.5590 eeaio Estos resultados, que también se resumen en la figura PTS.5, indican el resultado espe- ado de que el intervalo de confianza se vuelve més pequelio conforme n aumenta, Asi, cuantas mas mediciones se tomen, nuestra estimacién del valor verdadero seré més to- finado. PTS.3 Lo anterior es sélo un simple ejemplo de cémo se emplea la estadistica para tomar ecisiones respecto de datos inciertos. Esos conceptos también serén de relevancia en nuestro anlisis de los modelos de regresién, Usted puede consultar cualquier libro ba sco de estadistica (por ejemplo, Milton y Arnold, 1995) para obtener més informacién sobre este tema, ORIENTACION Antes de proceder con los métodos numéricos para el ajuste de curvas, Ia siguiente orientacién podria ser de utilidad. Bste apartado se presenta como una visién general el material que se estudia en la parte cinco, Ademés, se formulan algunos objetivos para ayudar a enfocar su atencién al analizar el tera, PT5.3_ ORIENTACION 463 PTS.3.1 Alcance y presentacién preliminar La figura PTS.6 proporciona una visi general del material que se estudiars en la pat- (e cinco. Bl capitulo 17 se dedica a la regresién por minimas cuadrados. Se aprender’ ‘primero edmo ajustar la “mejor” iaea recta a través de un conjunto de datos inciertos. Esta técnica se conoce como regresién lineal. Ademés de analizar emo caleular la ppendiente y la intersecciéin, con el eje y; de esta Linea recta, se presentarin también éiodos visuales y cuantitativos para evaluat la validez de los resultados. ‘Ademés de ajustar a una linea recta, se mostrar también una técnica general para ajustar aun “mejor” polinomio. Asi, usted aprenders a obtener un polinomio parabélico, ciibico o de un orden superior, que se ajuste en forma éptima a datos inciertas, La regre- sign lineal es un subconjunto de este procedimiento mas general, llamado regresin polinomial El siguiente tema que se analiza en el capitulo 17 es la regresién lineal miliple Esta disefiada para el caso donde la variable dependiente y es una funcién lineal de dos ‘o mas variables independientes x, x3... 4q- Este procedimiento tiene especial ulilidad pars evaluar datos experimentales donde Ia variable de interés es dependiente de varios factores, Después de la regresién multiple, lustwamos emo tanto la regresién polinomial como la miitiple son subconjuntos de un modelo lineal general de minimos cuadrados. Entze otras cuestiones, esto nos permitiré introducir una representacién matricial con- cisa de la regresi6n y analizar sus propiedades estadisticas generales Por timo, las timas seeciones del capitulo 17 se dedican ala regresién no lineal Este procedimiento esté disefado para calcular un ajuste por minimos cusdrados de una cecuacién no lineal a datos. En el capitulo 18 se describe la (Genica alternativa para el ajuste de curvas llamada interpolacién, Como se analizé antes, Ia interpolaci6n se uliliza para estimar valores intermedios entre datos precisos. En el capitulo 18 se obtienen polinomios con este propésito. Se introduce el concepto bisico de interpolacién polinomial usando lineas reclas y pardbolas para unir Ios puntos. Después, se desarrolla un procedimiento gene~ ralizado para ajustar un polinomio de grado n. Se presentan dos métodos para expresar tales polinomios en forma de ecuacién. El primero, llamado interpolacién polinomial de Newton, es preferible cuando se desconoce el grado apropiado del polinomio. Bl se- gundo, lamado interpolacién polinomial de Lagrange, tiene ventajas cuando de ante- ‘mano se conoce el grado apropiado La tltima seccién del capitulo 18 presenta una técnica alternativa para ajustar datos precisos, Bsta, llamada interpolacisn mediante rrazadores o splines, ajusta polinomios & datos, pero en forma de trozos. Como tal, ¢s particularmente adecuada para ajustar da- tos que en general son suaves pero que muestren abruptos cambios locales. El capitulo 19 tiene que ver con el método de la transformada de Fourier para el ajuste de curvas, donde funciones periddicas se ajustan a datos, Nuestro énfasis en esta secci6n residiré en la rransformada répida de Fourier. Al final se incluye también una revision de algunos paquetes y bibliotecas de software que se utilizan para el ajuste de ccurvas; ent ellos se encuentran Excel, MATLAB e IMSL. El capftulo 20 se dediea a aplicaciones en la ingenier‘a que ilustran la ulilidad de los métodos numéricos en el contexto de los problemas de ingenier‘a. Los ejemplos se toman de las cuatro reas principales de la ingenierfa: quimica, civil, eléctriea y mecsnica, 464 ‘JUSTE DE CURVAS PARTES ‘juste docurves capiruLo 17 Regresién uadradae capiTuLo 20 Aolicaciones fen ingenieria capiTuLo 18 Inerpolacién capiTuLo 19 Aproximacion ie Fourier Reprosentacis + del material en la parle cinco: Aste oe curvas Ademés, algunas de las aplicaciones ilustran eémo se emplean los paquetes de software ‘para resolver problemas de ingenier‘a, Por tiltimo, se incluye un epilogo al final de la parte cinco. Contiene un resumen de las férmulas y los conceptos importantes relacionados con el ajuste de curvas, lun andlisis de las ventajas y desventajas de las téenicas, y sugerencias para futuros es- tudios. PTS.3_ ORIENTACION 465 PTS.3.2 Metas y objetives Objelivos de esiudio. Después de estudiar la parte cinco, usted habré mejorado su capacidad para ajustar curvas alos datos. En general, usted dominaré las téenicas, habs aprendido a valorar la confiabilidad de los resultados y seré capaz de seleccionar el rétodo (0 métodos) para cualquier problema especifico. Ademés de estas metas gene- rales, los conveptos particulates de la tabla PTS.3 deberdn asimilarse y dominarse. Objelivos compulacionales. Se lehan proporcionado algoritmos de eémputo simples para implementar las téenicas analizadas en la parte cinco, También usted puede tener acceso a los paquetes y bibliotecas de software. Todo esto tiene utilidad como herra- rmientas de aprendizaje ‘Se proporcionan algoritmos en seudocédigo para la mayorfa de los métodos en Ta parte cinco, Esta informacién le permitiré expandir sus bibliotecas de software para inclu técnicas mas alld de la regresién polinomial. Por ejemplo, usted puede encontrar Stil, desde un punto de vista profesional, tener software para laregresidn lineal raitiple, 1a interpolacién polinomial de Newton, la interpolacién con trazadores etbicos y Ia ‘ransformada répida de Fourie. ‘Ademés, una de las metas ms importantes deberd ser dominar varios de los pague- tes de software de uilidad general que estén disponibles. En particular, usted deber‘a acostumbrarse a usar esas herramientas para implementar métodos numéricos en la solucin de problemas en ingenierfa, TABLA PTS.3. Objetivos especificos de estudio de la parte cinco 1. Conprnde bs dferca fundomensal ante erestne nerplocn, dr erdines pode lever oson prota 2. Camu le dace ls ogreson Ince 01 minis cua cord del cote eine orcons ters y cmt Seber co Inaice does redinie vogmaciés 7 otcccnes dene son ropes be geste pons, mfp ye boc “le econcce’ otek neces canta, ete Ip loc mac gee oe nos cre edes eck, scbe iocade als de cefon pore part. 6 Enende ue fay yo un pinom de gado no menr gue peso exaoaren'oPeves oe nt pasos 7. Saber timo ctone’el polnomic de inepplaién de Newon de primer ras. 8 Recoroee bencloga en el polnorie de Newton ye erpanien Geese de elo, y emo teiehena dare detuesmare 9. Comprnde ques ecrocenes de Newton Lagrang on sms frm lion icin polncmol,y event sur etocien veo y deen 10. Pees de qu, pe b gree ov oben tendder was cir s ke doce was ora ‘nerpolcn ens © reno cantor: ycoeanos el pu decor. 11, Das een gu deo Boer ea igual npc ron ondn per pool gel utor cologonge 12, Ssoer por au son les fs Sres de nopcecén con igual expacon one 13. Reconscer Is dese: yor eigo ena can kr exraplec n 14, oder por gu bate apd ern se poe sco eos bales de cari cbepe 15. Recona 16, Enon lod enc ene vera da que ser capaz de evelar le ro se usa la sro de Fourier pora clus daios 9 funcones perédlcas nos de Fecuerca y de rempo 17.1 CAPITULO 17 Regresién por minimos cuadrados Cuando los datos tienen erzores sustanciales, la interpolacién polinomial es inapropiada y puede dar resultados poco satisactorios cuando se utiliza para predecir valores inter- ‘medios. Con frecuencia los datos experimentales son de este tipo. Por ejemplo, en la figura 17.la se muestran sicte datos obtenidos experimentslmente que presentan una variabilidad significativa, Una inspeccién visual de esos datos sugiere una posible rela- cig entre y y x. Bs decir, la tendencia general indica que valores altos de y estén aso- ciados con valores altos dex. Ahora, si un polinomio de interpolacisn de sexto grado se ajusta & estos datos (figura 17.1), pasard exactamente a través de todos los puntos. Sin embargo, a causa dc la variabilidad en los datos, la curva oscila mucho en el intervalo entre los puntos. En particular, los valores interpolados para x = 1.5 y x= 6.5 parccen estar bastante més allé del rango sugerido por los datos. Una estrategia més apropiada en tales casos consiste en obtener una funcién de aproximacién que se ajuste ala forma o a a tendencia general de los datos, sin coincidir necesariamente en todos los puntos. La figura 17. ilustra cémo se utiliza una linea recta para caracterizar de manera general la tendencia de los datos sin pasar a través de algiin punto especifico ‘Una manera para determinar Ia linea de la figura 17.1c es inspeccionar en forma visual los datos graficados y después trazar una “mejor” linea a través de los puntos ‘Aunque tales procedimientos “a ojo” apelan al sentido comiin y son vélidos para céleu- Jos “superficiales”, resultan deficientes por ser arbitrarios. Es decir, a menos que los ppntos definan una linea recta perfecta (en cuyo caso Ia interpolacién resultarfa apro- Pind), diferentes analistas dibujarian lineas distntas Para dejar a un lado dicha subjetividad se debe encontrar algin criterio para esta- blecer una base para cl ajuste. Una forma de hacerlo es obtener una curva que minimice Ia discrepancia entre los puntos y la curva. Una técnica para lograr tal objetivo, lamada regresin por minimos cuadrados, se analizard en este capitulo, REGRESION LINEAL El ejemplo més simple de una aproximacién por minimos cuadrados es ajular una linea recla a un conjunto de observaciones definidas por puntos: (81, 91), 8a Yams On Ya) La expresién matemitica para la linea recta es yrataxse am) 17.1_REGRESION UNEAL 467, FIGURA 17.1 €@} Datos que mueston un enor sgoifeatve. ‘Aste pol nomial osclordo ms als del rongo de los datos, | Resshodos més sarisfacioios mediarie el ojuste por minimos cvotkades donde ay y a, son coeficientes que representan la interseecién con el eje yy la pendien- Ce, respectivamente, ¢ es el error, o diferencia, entre el modelo y las observaciones, el cual se representa al reordenar la ecuaci6a (17.1) como ay = aye Asf,el error o residuo es la diserepancia entre el valor verdadero de y y el valor aproxi- mado, ay + a,x, que predijo la ecuaciGn lineal. REGRESION POR MINIMOS CUADRADOS 17.1.1 Criterio para un “mejor” ajuste Una estrategia para ajustar una “mejor” Iinea a través de los datos ser minimizar la suma de los errores residuales de todos los datos disponibles, como sigue: Y O.-a- aa) 72) donde n= nimero total de puntos. Sin embargo, ést es un crterioinadecuado, como lo ‘muestra la figura 17.2a, la cul presenta el syste de una linea recta de dos puntos. Ob- viamente el mejor ajuste es Ia linea que une los puntos. Sin embargo, cualquier linea FIGURA 17.2 Ejemolo de algunos crterios oar “el mejor ajusie® que son inadecuados pava la egresin 4} minimizar la sume de ls resvos, b minimizer la sume de los vores absolve: de los residues y c) mirimizar ol ertor maximo de evalquior pur individual 17.1_REGRESION UNEAL 469 recta que pase a través del punto medio que une la nea (excepto una linea perfectamen- {e vertical) da como resultado un valor minimo de la ecuacién (17.2) igual a cero, debi- do a que los extores se cancelan, Por lo tanto, otto criterio légico podria ser minimizar la suma de los valores abso- lutos de las discrepancias, DY bimena La figura 17.2 muestra por qué este criterio también es inadecuado, Para los cuatro puntos dados, cualquier linea recta que esté dentro de las Iineas punteadas minimizars el valor absoluto de la suma, Asi este criterio tampoco dard un tinico mejor ajuste ‘Una tercera estrategia para ajustar una mejor linea es el criterio minima, En esta {éenica, la linea se elige de manera que minimice la méxima distancia a que un punto se encuentra de Ia linea, Como se ilustra en la figura 17.2c, tal estrategia es inadecuada para la egresi6n, ya que da excesiva influencia a puntos fuera del conjunto; es decir, a tun solo punto con un gran error, Debera observarse que el principio minimax es, en algunas ocasiones, adecuado para ajustar una [uncién simple a una funcién complicada (Carnahan, Luther y Wilkes, 1968). La estrategia que supera las deficiencias de los procedimientos mencionadas con~ siste en minimizar la suma de los cuadrados de los residuos entre Ia y medida y lay calculada con el modelo lineal > > 6, Yo. Bate criterio tiene varias ventajas, entre ellas el hecho de que se obtiene uns Iinea Gniew para cierto conjunto de datos. Antes de analizar tales propiedades, presentaremos una (éenica para determinar los valores de ay y 4, que minimizan la ecuaci6n (17.3). I a3, 73) 17.1.2 Ajuste de una linea recta por minimos cuadrades Para determinar los valores de ag y a, 1s ecuacién (17.3) se deriva con respecto a cada uno de los coeficientes 5, a, as, 3a, Observe que hemos simplificado los simbolos de la sumatoria; a menos que se indique otra cosa, todas las sumatorias van desde i= 1 hastan, Al igualar estas derivadas a cero, se dara como resultado un $, minimo, Si se hace esto, las ecuaciones se expresan 0D -Da-Y an HY v-¥ on -¥ ont 470 EJEMPLO 17.1 REGRESION POR MINIMOS CUADRADOS Ahora, si observamos que Yay = nay, expresamos las ecuaciones como un conjunto de ddos ecuaciones lineales simulténeas, con dos incégnitas (ayy 4) na. +(Sa)a= Do. (Zs)a+(Lat}a= Daw Bstas se Maman ecuaciones normales,y a6 resuelven en forma simlénes nZay,-Bx Ey, ale Oa! Este resultado se utiliza conjuntamente com la ecuaci6n (174) para obtener =F ak donde ¥ y ¥son las medias de y y x, espectivamente, Regresién lineal 74) a7) a6) a7) Planieamiento del problema. Ajuste a una Linea recta los valores x y y en las dos primeras columnas de la tabla 17. Solucin. Se ealoulan las siguientes cantidades: = 3.428571 7 Mediante las ecuaciones (17.6) y (177) 7(119.5) -28(24) ~~7040)=(28" ag = 3428571 —0,8392857(4) = 0.07142857 08392857 TABLA 17.1 Célevlos para el anélisi de error en el ajuse lineal x (y= 20 erat 01687 2 0.5625 3 03473 4 0.3265 5 05896 6 07972 ? 4.2008 0.1999 z 22.7143 299) 17.1_REGRESION UNEAL an Por lo tanto, el ajuste por minimos cuadrados es y= 0.07142857 + 0.8392857x La linea, junto con los datos, se muestran en Ia figura 17.1. 17.1.3 Cuantificacién del error en la regresién lineal Cualquier otra nea diferente a la calculada en el ejemplo 17.1 dara como resultado una suma mayor de los cuadrados de los residuos. As, a Iinea es dnica y, en términos de nuestro criteria elegido, es la “mejor” nea a través de los puntos. Varias propiedades de este ajuste se observan al examinar més de cexca la forma en que se calcularon los residuos. Recuerde que la suma de los cuadrados se define como [ecuacién (17.3) 5, = x o- Observe la similitud entre las ecuaciones (PTS3) y (178). Hn el primer caso, el ccuadrado del residuo representa el cuadrado de la discrepancia entre el dato y una esti- ‘macign de la medida de tendencia central: la media, En la ecuaci6n (178), el euadrado del residuo representa el cuadrado de la distancia vertical entre el dato y otta medida de endencia central: la linea recta (Figura 17.3), Laanalogia se puede extender ain més en casos donde 1. la dispersisn de los puntos alrededor de la Kinea es de magnitud similar en todo el rango de los datos, y 2. la distri- bbucién de estos puntos cerea de la linea es normal. Es posible demostrar que si estos eriterios se cumplen, la regresiGn por mfnimos cuadrados proporcionaré la mejor (es decir, Ia mis adecuada) estimacidn de ay y a, (Draper y Smith, 1981). Esto se eonoce en ax) a7) FIGURA 17.3 Elresidvo er la regresién nec represents lo distoncia vertical enre un davo y la tne recta, Medicién 472 REGRESION POR MINIMOS CUADRADOS estadistica como el principio de maxima verosimilitud. Ademés, si estos exiterios se satisfacen, una “desviaci6n estindar” pata la inca de regresién se determina come sigue ‘compare con la ecuacién (PTS.2)] Su Vay a7) donde a s,, se le Hama error estdndar del estimado, Bl subindice “y/x” designa que el error es para un valor predicho de y correspondiente a un valor particular de x. También, observe que ahora dividimos entre n - 2 debido a que sc usaron dos datos estimados (a y aj), para calcular S,; asi, se han perdido dos grados de libertad, Como lo hicimos en ‘nuestro andlisis para la desviacién estindar en PTS.2.1, otra justificacién para dividir entre n ~ 2 es que no existe algo como “datos dispersos” alrededor de wna linea recta gue une dos puntos. De esta manera, en el caso donde n = 2, la ecuacién (17.9) da un resultado sin sentido, infinito, ‘Asi como en el caso de la desviacién esténdar, el error estndar del estimado cuan- tifica la dispersion de los datos. Aunque, s,), euantifica la dispersion alrededor de la linea de regresi6n, como se muestra en la figura 17.4, a diferencia de la desviacién estdndar original s, que cuantifica la dispersién alrededor de la media (figura 17.4a). Los conceptos anteriores se uilizan para cuamtificar la “bondad” de muestra ajuste Esto es en particular til para comparar diferentes regresiones (figura 17.5). Paralhacer- Jo, regresamos a los datos originales y determinamos la suma total de los euadrados alrededor de la media para la variable dependiente (en nuestro caso, y).Como en el caso de la ecuacién (PTS.3), esta cantidad se designa por S, Esta es la magnitud del error residual asociado con la variable dependiente antes de la regresién, Después de realizar laregresién, calculamos S,, es decir, la suma de los cuadrados de los residuos alrededor de la linea de regresién. Esto caracteriza el error residual que queda después de la regre- FIGURA 17.4 Datos de reg 69 que mueste dispessibn de los davos alrededor las canvas en forma de cle devecha, rp dloies akededor de la media de la variable dependien'e b) kx lor ojusl. La reuccin en ls disoessi6n al ir de o} a B, como lo indican sien line 17.1_REGRESION UNEAL a73 FIGURA 17.5 Ejemolos de regresién lineal con ertores residuales a} pequetios y b) grandes sin, Es por lo que, algunas veces, se le Hama la suma inexplicable de los cuadrados. La diferencia entre estas dos cantidades, S,— 5,, cuantifica la mejora o reduccién del error ‘por describir los datos en términos de una linea recta en vez de un valor promedio. Como Ja magnitud de esta cantidad depende de la escala, la diferencia se normaliza a S, para obtener oe | “™ donde r* se conoce como el coeficiente de determinacisn y res el coeficiente de corre- lacién (= VF ). Bn un ajuste perfecto, $, =0¥ significa que la Linea explica 1 100% de la varibilidad de los datos. Si r= r?= 0, $, = 8, el ajuste no representa al- guna mejora, Una representacién alternativa para r que es més conveniente para imple- ‘mentarse en una computadora es mE = 474 REGRESION POR MINIMOS CUADRADOS EJEMPLO 17.2 Estimacién de errores en el ajuste lineal por minimos cuadrados Planieamiento del problema. Caleule la desviacién estndar total, el error estindar del estimado y el coeficiente de correlacién para los datos del ejemplo 171. Solucién. Las sumatorias se ealizan y se presentan en la tabla 171. La desviaci6n estindar es [ecuaci6n (PTS.2)] ape [27 _ 457 y el error estandar del estimado es [ecuacisn (179)] =0.7735 Como 54, <5,, 61 modelo de regresién lineal es adecuado, La mejora se puede cuantifi- car mediante [ecuaci6n (17.10) 22.7143-2,9911 22.7143 =0.868 932 Los resultados indican que el modelo lineal explicé el 86.8% de la incertidumbre original. Antes de implementar el programa compatacional para a regresién lineal, debemos tomar en cuenta algunas consideraciones. Aunque el coeficiente de correlaci6n oftece ‘una manera facil de medir la bondad del ajuste, se deberd tener cuidado de no darle més significado del que ya tiene. El salo hecho de que r sea “cercana'” a 1 no necesariamen- te significa que el ajuste sea “bueno”. Por ejemplo, es posible obtener un valor relativa- mente alto de r cuando Ia relacién entre y y x no es lineal. Draper y Smith (1981) proporcionan guias y material adicional respecto a la evaluacién de resultados en Ia regresién lineal, Ademés, como minimo, usted deberd inspeccionar siempre una gritica de los datos junto con su curva de regresién. Como se describe en la siguiente seccisn, los paquetes de software tienen estas capacidades. 17.1.4 Programa computacional para la regresién lineal is relativamente fil desarrollar un seudocédigo para la regresién lineal (Ligura 17.6). copeidn de graticar resulta benético para el uso electivo y la interpretacign de la regresisn, Tales capacidades se incluyen en paguetes de software ‘populares como Excel y MATLAB, Si su lenguaje de computacisn tiene capacidad para ‘gtaficar, recomendamos que expanda su programa para incluir una de y contra 1x, que muestze tanto los datos como la linea de regresi6n. La inclusig de la capacidad ‘aumentaré mucho la utilidad del programa en los contextos de solucién de problemas. Como se mencioné antes, EJEMPLO 17.3 17.1_REGRESION UNEAL ays SUB Regressix, y, 9, al, a0, syx, 72) suny = sury + 9; Sumy = sumy = x,4y, ND 00 y= suayin al = (n*sumy ~ sunx*sumy}! (n*sumx2 ~ sunx*sum) m~ altm DoFOR i = 1, stn st + Oy, — ym)? sr = sr + (y, ~ atx, ~ 20)" END 00 syn = (508 (9 ~ 2385 r2 > (st ~ seiist END Regress FIGURA 17.6 Algorime pare Ie regresibn neal Regresién lineal usando la computadora Planjeomiento del problema Se utiliza el software basado en la figura 176 para resolver un problema de prucba de hipé.sisrelacionado con la cada del paracaidista aque se analiz6 en el capiulo 1, Un modelo teérico matemético para la velocidad del paracaidista se dio como sigue [ecuacién (1.10)]; etm) donde v = velocidad (o/s), ¢ = constante gravitacional (9.8 m/s"), m= masa del para caidista igual a 68.1 kg y c= cocficiente de arrasire de 12.5 kg/s. El modelo predice la velocidad del paracaidista en funcién del tiempo, como se describe en el ejemplo 1. ‘Un modelo empirico alternativo para la velocidad del paracaidista esta dado por ' ‘Suponga que usted quiere probar y comparar la veracidad de esos dos modelos matemiticos, Esto se podria hacer al medirla velocidad real del paracaidista con valores conocidos de tiempo y al comparar estos resultados con las velocidades predichas de acuerdo con cada modelo, 476 REGRESION POR MINIMOS CUADRADOS TABLA 17.2 Velocidades medidas y calevladas para la caida del poracciaista vealeulada vcaleulada vv medida, con el modelo, con el modelo, m/s ifs (ee. (1-10}] m/s (ee. (E17.3.1)] Tiempo, $ ) 4) a 1 10.00 3958 17.200 2 1630 16 405 18570 3 23.00 2.607 23.729 4 27.50 27789 27 556 5 31.00 82.065 30.509 6 45.60 45641 32 ass 7 39.00 38.617 34 708 a 4) 50 41.095, 5605) 9 4290 43.156 57287 10 4500 42.872 38.829 n 46.00 46.301 5986 2 4550 47 290 20678 13 46.00 48.479 4437 “4 4900 49 303 22.190 15 50.00 49.988 42772 ‘Se implement6 un programa para la recolectién de datos experimentales, y los re sultados se enlistan en la columna a) de la tabla 17.2. Las velocidades calculadas con cada modelo se enlistan en las columnas b) y ¢). Solvcién La veracidad de los modelos se prucha al graficar la velocidad calculada por el modelo contra la velocidad medida, Se puede usar la regresién lineal para calcu- lar Ia pendiente y ta interseccisn con el eje y de la grética, Esta linea tendré una pen diente de 1, una inlerseccién de 0 y 7? = 1 siel modelo concuerda perfectamente con los datos, Una desviacién significativa de estos valores sirve coma una indicacién de Io inadecuado del model. Las figuras 17.7a y b muestran graficas de la Iinea y los datos para Ias regresiones de Tas columnas b) y c),respectivamente, contra la columna a). Para el primer modelo [ecuacién (1.10) como se ilustra en la figura 17.74] Vande =-0.859 + LO82 pen y para el segundo modelo (ecuaciéa (17.3.1) como se ilustza en la figura 17.76), Veade = 5.776 + 0.752 sas grificas indican que la regresién lineal entre los datos y cada uno de los modelos es allamente signiicativa, Ambos modelos ajustan los datos con un coeticiente de co- rrelacién mayor a 0.99, No obstante, el modelo descrito por Ia ecuacién (10) se ajusta mejor a nuestro criterio de prueba de hip6tesis que el descrito por la ecuacién (EI73.1), ya que la pen- diente y la interseccién con el eje y son més cercanos a | y 0. Asf, aunque cada grafica ‘queda bien descrita por una linea recta, Iaecuacién (1,10) parece ser un mejor modelo que 1a (E173. 17.1_REGRESION UNEAL a77 a 30 55 x 55 yw a 5 5 30 3 x FIGURA 17.7 {9} Resukados con regres én Ineal pore com «las presicciones caleulodas con el modelo teSries [ecvoe cone valores medidos.£) Resultados con regresién Ineal para compara ico [acuaeién 17 3.1] conta volores medides La prueba y la seleccién del modelo son actividades comunes y muy importantes en todas las ramas de la ingenier‘a, El material que se presenté antes en este capitulo, junto con su software, le ayudarén a resolver muchos problemas pricticos de este tipo. El anilisis en el ejemplo 17,3 tiene un defecto: el ejemplo no fue ambiguo, ya que el modelo empirico fecuacién (E173.1)] fue claramente inferior al de la ecuacién (1.10), La pendiente y la interseccién en el modelo empirico fueron mucho més cercanos a los resultados deseados 1 y 0, por lo que resulté obvio cusl era el mejor modelo, Sin embargo, suponga que la pendiente fuera de 0.85 y que la intersecci6n con el cje-y fuera de 2, Obviamente esto levaria a la conclusién de que la pendiente y lainter- 473 REGRESION POR MINIMOS CUADRADOS seccién fueran 1 y Orespectivamente. Por fo anterior, es claro que, més que apoyarse en un juicio subjetivo, es preferible basar tal conclusién sobre un eriterio cuantitativo Esto se logra a calcular intervalos de contianza para los parémetros del modelo, de Ja misma forma que desarrollamos intervalos de contianza para la media en la secci6n PTS.2.3, Regresaremos a este punto al final del capitulo 17.1.5 Linealizacién de relaciones no lineales La regresién lineal ofrece una poderosa técnica para ajustar una mejor lines alos datos, ‘Sin embargo, se considera el hecho de que Ia relacién entre Tas variables dependiente © independiente es lineal, Este no es siempre el caso, y el primer paso en cualquier andli- sis de regresién debera ser graficar e inspeccionar los datos en forma visual, para ase- gurarnos que sea posible usar un modelo lineal, Por ejemplo, la figura 17.8 muestra algunos datos que obviamente son curvilineos, En algunos casos, las téenicas como la regresién polinomial, que se describen en la seccién 17.2, son apropiadas. En otros, se pueden utilizar transformaciones para expresar los datos en una forma que sea compa- ible con la regresi6n lineal Un ejemplo es el modelo exponencial ya eet 72) FIGURA 17.8 cades pate la ‘agiesién lineal por minimos cuadtador, bj Indicacié ble ura verdad 17.1_REGRESION UNEAL 479 I, bl la ecuacién de potencias y ¢} la ecvacién de tazén dele donde cy fi son constantes. Este modelo se emplea en muchos campos de la ingenieria para caracterizar cantidades que aumentan (fj positive) 0 disminuyen (8, negativo), a tuna velocidad que es directamente proporcional a sus propias magnitudes. Por ejemplo, el crecimiento poblacional o el decaimiento radiactivo tienen este comportamiento, Come se ilustia en la figura 179, la ecuacién representa una relacién no lineal (para fi, # 0) enue yy x ‘Otro ejemplo de modelo no lineal es la ecuacién de potencias 713) donde c, y fy son cocficientes constantes, Este modelo tiene muchas aplicaciones en todos los campos de Ia ingenieria, Como se ilustra en la figura 179b, la ecuacién (para B,#00 Nes no lineal Les incisos eh, oly # son vesiones Inealzados de esas ecuacicnes ave resulan de ransfarmacones simples y= aah a Cinealizacién Pendie Inersecelén = In » ° Cinealizacibn logy wy Pondiente =f, Inersecelén = Ve, o log Ve Interseecién = log a, % pn 480 REGRESION POR MINIMOS CUADRADOS EJEMPLO 17.4 Un terver ejemplo de un modelo no lineal es la ecuacién de razén del crecimiento recuerde la ecuaci6a (E17.3.)] yeaa ana donde c% y fA son coeticientes constantes. Este modelo particularmente es adecuado para caracterizar la razén de crecimiento poblacional bajo condiciones limitantes, tam- bign representa una relaciéa no lineal entre y x (Figura 17 9¢) que se iguala o "satura", conforme x aumenta, Hay téenicas de regresiéa no lineal disponibles para ajustar estas ecuaciones de ‘manera directa a datos experimentales. (Observe que analizaremos la zegresién no lineal en la seccién 17.5) Sin embargo, una allernativa simple consiste en usar manipulaciones ‘mateméticas para transformar las ecuaciones en una forma lineal. Después, se uiliza la regresisn lineal simple para ajustar las ecuaciones a los datos Por ejemplo, la ecuacién (17.12) se linealiza al aplicar el logaritmo natural se obtiene Iny=Ing, +fyxlne Pero como In ¢ =I, Iny=ln@, + Bx ans, Asi, una grafica de In y contra x dard una linea recta con una pendiente fy una inter- seccién con el eje de las ordenadas igual aIn ey (figura 17.94), La ecuacidn (17.13) es lincalizada al aplicar el logaritmo de base 10 se obtiene logy De este modo, una gréfica de log y contra log x dard una linea recta con pendiente fy ¢ jn log x + log et 18) imterseccién con el ¢je de las ordenadas log ct, (figura 17.9), La ecuacién (17.14) es lincalizada al invertirla para dar JLAi any) y Ox ay De esta forma, una gréfica de 1/y contra 1/x seré lineal, con pendiente f,/cr, y una in- {erseccién con el eje de las ordenadas 1/cy (figura 17.9). En sus formas transformadas, estos modelos pueden usar la regresién lineal para poder evaluar los coeficientes constantes. Después, regresarse a su estado original y uusarse pata fines predictivos. El ejemplo 174 ilusira este procedimiento con la ecuacién (17.3). Ademés, Ia seccién 20.1 proporciona un ejemplo de ingenieria de la misma clase de calculo, Linealizacién de una ecvacién de potencias Planieomiento del problema. Ajuste la ecuacién (1713) alos datos de Ia tabla 173 mediante wna ransformacién logaritmica de los datos. Solucidn. La figura 17.10a es una gréfica de los datos originales en su estado no trans~ formado. La figura 17.10b muestra la grfica de los datos transformados. Una regresién lineal de esta transformacién mediante logoritmos dan el siguiente resultado, log y = 175 log x- 0.300 17.1_REGRESION UNEAL TABLA 17.3 Datos que se ajustardn con la ecvaci x x T oS 2 17, a 3a 4 37 5 Ba FIGURA 17.10 4) Gréfica de dotos no ransformados con la ecuocién de potencis que se ojusta los log x ° 9.301 0477 9.602 0.699 de potencias. logy 0.301 0.226 53a 0753 0977 481 datos, bj Gréica de datos vansformados para determinar los coeficieies de Ia ecuacion de potercias 482 REGRESION POR MINIMOS CUADRADOS As{, la imerseeci6n con el eje de las ordenadas es log @, igual a ~0.300 y, por lo tanto, al tomar el antilogaritmo, @, = 10-°! = 0.5. La pendiente es f= 1.75. Ba consecuencia, In ecuacién de potencias es ost Esta curva, como se grafica en la figura 17.10a, indica un buen ajuste 17.2 17.1.6 Comentarios generales sobre la regresién lineal Antes de plantear la regresién curvilinea y lineal miltiple, debemos enfatizar la natura- Jeza introductoria del material anterior sobre regresi6n lineal. Nos hemos concentrado en la obtencién y el uso préctico de ecuaciones para ajustarse a dates. Debers estar cons- ciente del hecho de que hay aspectos teéricos de regresién que son de importancia préc- tica, pero que van més allé del alcance de este libro. Por ejemplo, algunas suposiciones estadisticas, imherentes a los procedimientos lincales por minimos cuadrados, son 1. Cada x tiene un valor fijo; no es aleatorio y se conoce sin extor. 2. Los valores de y son variables aleatorias independientes y todas tienen la mista 3. Los valores de y para una x dada deben estar dstsibuides normalmente, ‘Tales suposiciones son relevantes para la obtencién adecuada y el uso dela regresién, Por ejemplo, la primers suposicién significa que 1, los valores x deben estar libres de errores, y 2, la regresién de y contra x no es la misma que la de x contra y (vea el proble~ ‘ma 174 al final del capitulo). Usted debe consultar otras referencias tales como Draper y Smith (1981) para apreciar los aspects y detalles de Ia regresiGn que estin més all del alcance de este libro, REGRESION POLINOMIAL En la seccidn 171 se desarroll6 un procedimiento para obtener la ecuacién de una linea recta por medio del eriterio de minimos cuadrados. En la ingenier‘a, aunque algunos datos exhiben un patrén marcado, como el que se advierte en la figura 178, son pobre~ ‘mente representados por una linea recta, entonces, una curva podré ser més adecuada ‘para ajustarse alos datos. Como se analiz6 en la secci6n anterior, un método para lograr este objetivo es utilizar transformaciones, Otra alternativa es ajustar polinomios a los datos mediante regresin polinomial El procedimiento de minimos cuadrados se puede extender ficilmente al juste de datos con un polinomio de grado superior. Por ejemplo, suponga que ajustamos un po- linomio de segundo grado 0 cuadritico: ay tae baste En este caso, la suma de los cuadrados de los residuos es [compare con la ecuacisn (17.3) s-Lo, ay = a3, 2,337 78) 17.2_REGRESION POUNOMIAL 483 Al seguir el procedimiento de la seccién anterior, obtenemos la derivada de la ecuacién (17,8) con respecto a cada uno de los coeficientes desconocidos del polinomio, Estas ecuaciones se igualan a cero y se reordenan para desarrollar el siguiente conjunto de ecuaciones normales ona (Zs) (Be) D (EJ «)a+(D vja+(Y vlad x «7.19 Fa JaH(E o)a¥ aeD ory donde todas Jas sumatorias van desde i = 1 hasta n. Observe que las tres ecuaciones anteriores son lineales y tienen tes incSgnitas: ap, a, y @;. Los coeficientes de las in- ceégnitas se evalian de manera directa, a partir de los datos observados. En este caso, observamos que el problema de determinar un polinomio de segundo grado por minimos cuadrados es equivalente a resolver un sistema de tres ecuacio- nes lineales simulténeas. En la parte tes se estudiaron las téenicas para resolver tales El caso bidimensional se extiende con facilidad a un polinomio de m-ésimo grado como sigue Bl anilisis anterior se puede extender facilmente a este caso més general. Asi, se reco- rnoce que la determinacién de los coeficientes de un polinomio de m-ésimo grado es cequivalente aresolver un sistema de m-+ I ecusciones lineales simultaneas. En este caso, cl error estandar se formula como sigue: 5, Su 720) Esta cantidad se dividide entre n ~ (m + 1), ya que (mm + 1) cveficientes obtenidos de los datos, ag, 4, iy, Se uilizaron para calcular S,; hemos perdido m + 1 grados de liber- tad, Ademas del error estndar, también se calcula un coeficiente de determinacién para la regresisn polinomial con la ecuacién (17.10). EJEMPLO 17.5 REGRESION POR MINIMOS CUADRADOS Regresién polinomial Planieamienlo del problema, Ajustar a un polinomio de segundo grado los datos dados en las dos primeras columnas de Ia tabla 17.4 Solucién. A partir de los datos dados, TABLA 17.4 Célevlos para un andlsis de error del ajuste cuadrético por minimos cuadrodos. x no7F = a0 eixim eux?) ° 54442 014337 3147 028% 2 4008 858 3 a2 0.8089 2 239.22 08195: 5 12721 o.09439 E P51SS TESST FIGURA 17.11 ‘Aste do un polnomie de segurde grado y Pardbola ‘de minimos cuadrados 17.2_REGRESION POUNOMIAL 485 Entonces, las ecuaciones lineales simulténeas son, 6 15 S8]fa) [1526 1s 55. 225]Ja, b=! 5856 ss 225 979]|a,] [2488] Resolviendo estas ecuaciones con una técnica como la eliminacién de Gauss se tiene ‘ay = 2.47857, a = 2.35929 y a, = 1.86071. Por lo tanto, la ecuacién cuadrstica por mi- rnimos cuadrados en este caso es AT8ST + 2,35929x + 1860717 El error estindar del estimado con base en Ia regresién polinomial es [ecuacién 720)] Bl coeficiente de determinacién es » _251339-3.74657 251839 99851 y el coeficiente de correlacién es r= 0.99925. Estos resultados indican que con el modelo se explicé el 99.851% de la incertidum- bre original, Este resultado apoya la conclusién de que la ecuacién cuadrética represen ‘aun excelente ajuste, como también es evidente en la figura 17.11 17.2.1 Algoritmo para la regresién polinomi Un algoritmo para la regresin polinomial se expone en la figura 17.12. Observe que la principal tareaes la generaciGn de los coeficientes de las ecuaciones normales [ecuacién (17.19)]. (Bl seudocédigo para esto se presenta en la figura 17.13) Las téonicas de la parte tres sirven para resolver estas ecuaciones simultsneas que determinan los coefi- cientes. FIGURA 17.12 Algotime pare implemeria fs regresién oelinomialy Ineal mitiple Paro 1: del polnomio sete a alte, m Paso 2: le dots, 0 Paso 3: Sin xe END 00 #0 00 17.3 ‘Un problema potencial en Ja implementacién de a regresién polinomial en la compu- tadora es que las ecuaciones normales algunas veces estin mal condicionadas. Esto se presenta especialmente cuando se plantean polinomios de grado superior. Bn tales casos, los coeficientes calculados pueden ser altamente susceptibles al ertor de redondeo y, en consecuencia, los resultados serfan inexactos. Entre otras cuestiones, este problema se selaciona con la estructura de las ecuaciones normales y con el hecho de que con poli- nomios de grado superior las ecuaciones normales pueden tener coeficientes muy gran- des y muy pequelios. Lo anterior se debe a que los coeficientes son sumas de datos elevados a potencias. ‘Aunque las estrategias para disminuir el error de redondeo analizadas en Ja parte tres, como el pivoteo, pueden ayudar a resolver parcialmeate dicho problema, una alternativa ms simple consiste en usar una computadora con alta precisién, Por fortuna, la mayoria de los problemas précticos estan imitados a polinomios de grado inferior, en los cuales el ertor de redondeo generalmente es insignificante, En situaciones donde se requieren ver- siones de grado superior, se dispone de otras alternativas para ciertastipos de datos. Sin embargo, esas técnicas (como polinomios ortogonales) estén més alld del alcance de este libro. Elector deberd consultar textos sobre regresién, como el de Draper y Smith (1981), para mayor informacién respecto al problema y sus posibles alternativas. REGRESION LINEAL MULTIPLE Una extensién itil de la regresién lineal es el caso en el que y es una funcién lineal de ddos o més variables independientes. Por ejemplo, y podria ser una funcién lineal de x yp, como en yraptay tay te En particular tal ecuacidn es til cuando se ajustan datos experimentales donde la va~ riable sujeta a estudio es una funcién de otras dos variables. En este caso bidimensional, Ia “linea” de regresién se convierte en un “plano” (figura 17.14). 17.3 _REGRESION UNEAL MULTIPLE as7 FIGURA 17.14 Descripcion gies de una regesién lineal mihiple donde y es una funeién Teal de ai y 30 ‘Como en los casos anteriores, Ios “mejores” valores para los coeticientes se deter- ‘minan al realizar la sua de los cuadrados de los residuos, S.=) O,- 4-44, -.22)? 72) y derivando con respecto a cada uno de los coeficientes desconocidas, YS, 0,4) -a4.4, 45) DL 101-46 = 4% 45%) YY .0)- =m, 45) Los coeficientes que dan la suma mfnima de los cuadrados de los residuos se obtienen al igualaraceto las drivadas parciales y expresando el resulta en forma matricial: no Ex Bay |faa) [Ey Ex, Ex Ex, [ja p=yLao; 722) Bay Bay Ex Im) Ea, EJEMPLO 17.6 Regresién lineal méhiiple Planjeomiento del probleme. Los siguientes dats se caleularon con Ia ecuacién 5 + 4n,— ty REGRESION POR MINIMOS CUADRADOS woow-olx Yeoeso|s Utilice la regresi6n lineal miitiple para ajustar estos datos. Solucién. Las sumatorias requeridas para la ecuacién (17.22) se calculan en Is tabla 1755. El resultado es 6 165 14) fa) [54 ves teas as|foe floes teak stl Fin gue se resuelve mediante un método como el de eliminacién de Gauss, obleniéndose a5 a4 aque es consistente con la ecuaci6n original, de la cual se obtienen los datos. TABLA 17.5 Célevlos requeridos para deserrolla las ecuaciones normales para el ejemplo 17.6 y x aoa Am yy 5 0 oO ° 0 ° 0 10 z 14 2 20 © 9 25 2 625 5 25 6 ° 5 8 3 ° ° 3 4 6 so 24 2 8 3 o8 4 7e05 5448 243.5100 El caso bidimensional anterior ffcilmente se extiende a m dimensiones asi YE dy tay Haat Ht tg be donde el error estindar se formula como is fe VD y el cocficiente de determinacién se calcula como en la ecuacién (17.10), En la figura 1715 se da un algoritmo para establecer Ias ecuaciones normales, 17.4 MINIMOS CUADRADOS LINEALES EN GENERAL 489 17.4 DoroR f= 1, order + 1 DoFOR J = 1, i sum = 0 DOFOR e = 1, END 00 ~ Eo bo boFOR = 3, 0 sum = sum + E90 Bo en bo FIGURA 17.15 Seudocédigo para esiablecer ls elemenos de las ecvociones normale en la regresion mille, Observe que ademas de quardor ls var ables naenendianlae nx caidas 1 en x, pare que lncione ate algerino. dabor - Aunque puede haber ciertos casos donde una variable esté linealmente relacionada «con dos o mas variables, la regresidn lineal mltiple tiene ademés wilidad cn la obtencién de ccuaciones de potencias de la forma general Y= ont? age Tales ecuaciones son extremadamente stiles cuando se ajustan datos experimentales. Para usar regresién lineal mihiple, la ecuacin se transforma al aplicar logaritmos: log y = log dy + a, log x; + a; Log xy + + ay log Sy Esta transformacién es similar a la que se usé en la seccién 171.5 y en el ejemplo 17.4 para ajustar una ecuacién de potencias cuando y era una funcién de una sola varia- ble x. Laseccién 20.4 muestra un ejemplo de una de estas aplicaciones para dos variables independientes, MINIMOS CUADRADOS LINEALES EN GENERAL Hasta agul nos hemos concentrado en la mecéinica para obtener ajustes por minimos cuadrados de algunas funciones sencillas para datos dados. Antes de ocuparnos de la regresi6n no Lineal, hay varios puntos que nos gustaria analizar para enriquecer nuestra comprensién del material precedente. 490 REGRESION POR MINIMOS CUADRADOS 17.4.1 Formulacién general de una matriz para minimos cvadrados lineales En las pginas anteriores presentamos tres tipos de regresiGn: Lineal simple, polinomial y lineal miltiple. De hecho, las tes pertenecen al siguiente modelo lineal general de ‘minimos cuadrados: Y= dao + dey + aydy tos dy te a2 donde zp, <1... %q Son m + 1 funciones diferentes. Se observa con facilidad cémo la zegresin lincal simple y malple se encuentran dentro de este modelo: es decir, z= 1. 2) 44 £7 Yy n= Yue Ademés, la regresién polinomial se incluye también sila 2 son monomios simples como zp =2°= 1, 2)=%,2)= 2... 2q=2™ ‘Observe que la terminologia “lineal” se refiere sélo a la dependencia del modelo sobre sus pardmettos (es decit. las a). Como en el caso de Ia regresién polinomial, las mismas funciones egan a ser altamente no lincales. Por ejemplo, las z pueden ser se- noidales, como en = ay + a, c0s (aot) +a; sen (wt) Esta forma es la base del andlisis de Fourier que se describe en el capstulo 19. Por otto lado, un modelo de apariencia simple como JO) =a, (1) cs no lineal porque no es posible levarlo ala forma de la ecuacién (17.23). Regresaremos tales modelos al final de este capitulo. ‘Mientras tanto, la ecuacién (17.23) se expresa en notacién matricial como {Y) =[ZI{A} + (EB) an donde (2: es una matriz de los valores calculados de las funciones z en los valores me- didos de las variables independientes, (= donde m es el nimero de variables en el modelo y n es el nbmero de datos. Como n > m + 1, usted reconoceré que, la mayoria de las veces, [Z) no es una matriz.cuadrada, El vector columna {Y} contiene los valores observados de la variable dependiente areal om oy, 17.4 MINIMOS CUADRADOS LINEALES EN GENERAL 491 1 vector columna (A} contiene los coeficientes desconocidos tayralay a s+ ag] y el vector columna (E} contiene los residuos tBT=Le ed ‘Como se dio a lo largo de este capitulo, la suma de los cuadrados de los residuos en este modelo se definen como Esta cantidad se minimiza tomando las derivadas parciales con respecto a cada uno de los cocficientes ¢ igualando a cero la ecuacidn resultante. El resultado de este proceso son las ecuaciones normales, que se expresan en forma matricial como lzy1zZna) = (Zz) 728) Es posible mostrar que la ecuacién (17.25) es, de hecho, equivalente a las ecuaciones nor- ‘males desarrolladas antes para a regresién lineal simple, la polinomaial y la miéltple ‘Nuestra principal motivacién para lo anterior fue ilustrar la unidad entre los tres procedimientos y mostrar cémo se pueden expresar de manera simple en Ja misma no- {acién matricial. También sienta las bases para el estudio de la siguiente seccién, donde doblendremos un mejor conocimiento sobre las estrategias preferidas para resolver Ia ecuacién (17.28). La notacién matricial también tendré relevancia cuando volvamos I regresién no lineal en Ia dltima seecién del presente capitulo 17.4.2 Técnicas de solucién En Jos andlisis anteriores en este capitulo tatamos el asunto de las técnicas muméricas especificas para resolver las ecuaciones normales. Ahora que hemos establecido la uni- dad de los diversos modelos, podemos explorar esta cuestién con mayor detalle, Primero, debers quedar claro que el método de Gauss-Seidel no puede utilizarse aqui ddebido a que las ecuaciones normales no son diagonalmente dominantes. De esta manera, nos quedan solamente los métodos de eliminacién, Para los propésitos actuales, podemos dividir esas téenicas en tes categorias: 1. métodos de descomposicién LU, incluyendo eliminacién de Gauss, 2. método de Cholesky y 3. método de la matriz inversa, En efecto, hay imterrelaciones en esta clasificacién, Por ejemplo, el método de Cholesky es, de hecho, ‘una descomposicién LU. y todos los procedimientos se pueden formular de tal manera que ‘generen la matriz inversa. Sin embargo, el mérito de esta clasificacién es que cada catego- ia oltece Ventajas respecto a la solucién de ecuaciones normales. Descomposicion LU. Si usted esté interesado s6lo en aplicar un ajuste por minimos cuadradas en un caso donde el modelo adecuado se conoce de antemano, cualquiera de los procedimientos de descomposicién LU, descritos en el capitulo 9, son perfectamen- 492 REGRESION POR MINIMOS CUADRADOS te aceptables. De hecho, también es posible emplear la frmulacién dela descompos- cién LU de laeliminacién de Gauss. Esta es una tarea de programacion relativamente sencilla para incorporarcualguita de estos procedimientos en n algoritmo de minimos cuadsados lineales En realidad, si se ha seguido un enfogue modula, esto resulta casi trivial. Método de Cholesky. BL algoritmo de descomposicién de Cholesky tiene varias ventajas para la solucién del problema general de regresién lineal, Primero, esté expre- samente disefiado para resolver matrices simétricas como las ecuaciones normales. Ast que es rapido y se requiere de menos espacio de almacenamiento para resolver tales sistemas. Segundo, es ideal en casos donde el grado del modelo [es decir, el valor de m en la ecuacién (17.23) no se conoce de antemano (véase Ralston y Rabinowitz, 1978) Uno de estos casos serfa la regresién polinomial. En ella, no podemos saber a priori si ‘un polinomio lineal, cuadrético, cibico o de grado superior es el “mejor” modelo para escribir nuestros datos. Debido tanto a la forma en la que se construyen las ecuaciones normales como a la manera en la que se lleva a cabo el algoritmo de Cholesky (figura 11,3), podemos desarrollar modelos sucesivos de grado superior de manera muy eficien- te. Encada paso es facible examinar la suma residual de los cuadrados del error (iy una sgréfical), para examinar sila inclusién de términos de grado superior mejora el ajuste de manera significativa En la regresin lineal miiltiple la situacién andloga se presenta cuando se agregan, ‘una por una, variables independientes al modelo. Suponga que la variable dependiente de interés es funcida de varias variables independientes: por ejemplo, temperatura contenido de lumedad, presién, etc. Primero realizarfamos una regresién lineal con la, temperatura y calcularfamos un error residual. En seguida, se podria incluir el conteni- ddo de humedad para llevar a cabo una regresién miltiple de dos variables y observar si Ja variable adicional resulta en una mejora del ajuste. El método de Cholesky vuelve eficiente el proceso, ya que la descomposicién del modelo lineal tan sélo se completaré al incorporar una nueva variable. Método de la matriz inverso. De la ecuacién (PT3.6), recuerde que la matrz inver- sa se emplea para resolver la ecuacién (17.25), como se muestra a continuaci6n: ta) = (IV 1zIr zy) 01728) Cada uno de los métodos de eliminacién se puede utilizar para determinar Ia inversay, asi, servir para implementar la ecuacién (17.26), Sin embargo, como aprendimos en la parte tres, éste ¢s un método ineficiente para resolver un conjunto de ecuaciones simul {éneas. Asi, si estuvigramos solamente interesados en determinar los coeficientes de regresi6n, seria preferible utilizar el método de descomposicién LU sin inversién. No bstante, desde una perspectiva estadistica, existen varias razones por las cuales esta- rfamos interesados en obtener la inversa y examinar sus coeficientes. Tales razones se analizardn més adelante 17. imos cuadrados Aspectos estadistices de la teoria de mit Bin Ia sccuién PTS.21,revisamos diversos estadisticos descriptivos que se utlzan para desribr una muestra stos son: la media aitmética, la desviacin estindarylavarianza 17.4 MINIMOS CUADRADOS LINEALES EN GENERAL EJEMPLO 17.17 ‘Ademés de dar una solucién para ls coeficientes de regresin, la formulacién ma- trcial de la ecuacién (1726) proporciona estimaciones de sus estadisticos. Es posible demostrar (Draper y Smith, 1981) que los érminos en la diagonal y fuera de la diagonal de a maiz [12]? [2]]~ dan, respeotivamente as varianzas y las covarianzas' de la a Si os elementos de la diagonal de (Z| (Z)]~ se designa por z), entonces 727) c0v(4.1, G1) = Zhe 728) Dichos estaisticos poseen varias aplicaciones importantes. Para nuestros actuales propésitos, ilustraremos cémo se utilizan para desarrollarintervalos de confianza para Is interseceidn con el ejey y la pendiente, Con un procedimiento similar al examinado en la secein PTS.2.3, se demuestra gue los limites inferior y superior para la intersecci6n con el eje y se pueden encontrar (véase Millon y Arnold, 1995, para mis detalles) de la siguiente manera: io eingato)— U = ay + ban a8( Qs) a7 donde s(q,) = el error esténdar del coeficiente a, = Warla). De manera similar, los le ‘mites inferior y superior para la pendiente se caleulan: La a)—fanrp rst) U= ay + fang 28a) 4730) El ejemplo 1717 ilustza cémo se emplean esos intervalos para realizar inferencias cuan- ‘utativas respecto a la regresién lineal, Intervalos de confianza para la regresién lineal Planieamiento del problema, En el ejemplo 173 utilizamos la regresién para desa- srollar la siguiente relacin entre mediciones y predicciones del modelo, y=~0.859 + 1.032r donde y = las predicciones del modelo y x = las mediciones. Concluimos que habia una bbuena concordancia entre las dos, puesto que la interseccisn con el eje y era aproxima- ddamente igual a0, y la pendiente aproximadamente igual a 1. Vuelva a caleular la e- aresién, pero ahora use el método matricial para estimar los errores estindar de los parmetzos, Después emplee tales ertores para desartollar los intervalos de confianza y \selos para realizar un planteamiento probabilistico respecto a la bondad del ajuste. SoluciSn. Los datos se escriben en forma matricial para una regresisn lineal simple de la siguiente manera: La coveranzas un estaditio que mide la dependenciade una vail tespect de ota Ast, cova.) indica ladependeneia dex yy Por emo, cov, 9) = Oindeaia que ry son tamente independents REGRESION POR MINIMOS CUADRADOS 1 10 3953 1 163 16.405 123 22.607 1 50 49.988} Después se usan la wansposicién y 1a muliplicacién matriciales para generar las ecua- ciones normales: (izFiz ta) =(1zFon) fas, S483] fas) _f sso sag3 2219121! Jaf |22421.43| ‘emplea la inversién matricial para obtener la pendiente y la interseecién con el eje y (y= (aar {Izy} _fowssaie -ooryor) { 552.781 | _ [-08se72 “|-o.or7e: o.o0o4es] {22 421.43/~ [1.031592 De esta manera, la iterseccién con el ee yy la pendiente quedan como a)=—0.85872 y 4 = 1.031592, respectivamente. Estos valores, a su vez, sitven para calcular el error es- Lindar del estimado, s,,= 0.863403, Este valor puede wiilizarse, junto con los elementos diagonales de la matriz inversa, para calcular los errores estindar de los coeficientes, sta,)= ah, = YO.688414(0.863403" = 0.716372 s(a,) = 83, = ¥0:000865(0 863403 = 0.018625 El estadistico f,-1 Nevesario para un intervalo de confianza del 95% con n —2 15-2= 13 grados de libertad se obtiene con una tabla estadistica 0 mediante software Usemos una funcién de Excel, TINY, para obtener el valor adecuado de la siguiente = TINV(0.05, 13) que da un valor de 2.160368. Las ecuaciones (17.29) y (17.30) entonces se usan para calcular los intervalos de confianza: 14, = ~0,85872 = 2,160368(0.716372) = =0,85872 + 1.547627 = [-2.40634, 0,688912) 1.031592 + 2.160368(0.018625) = 1.031592 + 0.040237 = (0.991355, 1.071828] 17.5 _REGRESION NO NEAL 495 ‘Observe que los valores deseados (0 parala interseccién, y 1 parala pendiente) caen dentro de los intervalos. Considerando este anélisis podremos formular las siguientes declaraciones sobre la pendiente: tenemos fundamentos s6lidos para creer que la pen- diente de la Linea de regresion real esta dentro del intervalo de 0.991355 a 1.071828, Debido a que 1 esté dentro de este intervalo, también tenemos fundamentos sélidos para creer que el resultado apoya la concordancia entre las mediciones y el modelo. Como cero esté dentro del interval de la interseccién, se puede hacer una declaracién similar respecto a la intersecci6n. 75 Lo anterior constituye una breve introducci6n al amplio tema de la inferencia esta- distica y de su relacién con la regresién, Hay muchos més temas de interés que estin fuera del alcance de este libro, Nuestra principal intencién es demostrar el poder del cenfoque matricial para los minimos cuadrados lineales en general. Usted debers consul- tar algunos de los excelentes libros sobre el tema (por ejemplo, Draper y Smith, 1981) para obtener mayor informacién, Ademés, habré que observar que los paquetes y las bibliotecas de software pueden generar ajustes de regresiéa por minimos cuadrados, junto con informacién relevante para la estadistica inferencial. Exploraremos algunas de estas capacidades cuando describamos dichos paquetes al final del capitulo 19. REGRESION NO LINEAL Hay muchos casos en la ingenieria donde los modelos no lineales deben ajustarse datos. En cl presente contexto, tales modelos se definen como aquellos que tienen de~ pendencia no lineal de sus parametros. Por ejemplo, fo) = a1) be aay sta ecuacién no puede ser manipulada para ser llevada ala forma general de a ecuacién (1723) ‘Como en el caso de los minimos cuadrados lineales, la regresién no lineal se basa en Ia delerminacién de los valores de los pardmetros que minimizan la suma de Tos ccuadrados de los residues. Sin embargo, en el caso no lineal, la solucién debe realizarse en una forma iterativa El método de Gauss-Newton es un algoritmo para minimizar la suma de los cus Grados de los residuos entre los datos y las ecuaciones no lineales. Bl concepto clave ddtrés de esta éenica es que se utiliza una expansién en serie de Taylor para expresar la cecuacién no lineal original en una forma lineal aproximada. Entonces, es posible aplicar Ia teorfa de minimos cuadrados para obtener nuevas estimaciones de los parémetros que se mueven en la direccién que minimiza el residuo Para ilustrar cémo se logra esto, primero se expresa de manera general la relacién entre Ia ecuacién no lineal y los datos, de la manera siguiente Y= MR do dy. Oy) 6, donde y, =un valor medido de la variable dependiente, f(x; gue es una funcién de la variable independiente x, y una funcién no lineal de los pard- yy dy) = Ta ecuacion 496 REGRESION POR MINIMOS CUADRADOS IMetEOS do, dy, -.., dps Y €,= Un error aleatorio. Por conveniencia, este modelo se expre~ sa-en forma abreviada al omitir los parémetros, fos) +e 732) El modelo no lineal puede expandirse en una serie de Taylor alrededor de los valo- res de los parémetros y cortarse después de las primeras derivadas. Por ejemplo, para tun caso con dos parémetros, Spa = flap, + LO pa, + LO) hay 3s) a as 2 el valor inicial, j +1 =la prediceidn, Aay = dy 4) a5 ¥ Ad = 441 — a4, De hemos linealizado el modelo original con respecto a los parimetros. La in (17.32) para dar cecuacisn (17.33) se sustituye en la ecua Hd, ,, Hed aa, Ba, LO), Aa +e, ‘en forma matricial [compérela con la ecuacién (17.24)), {D) ZMAA} + (E) a7 donde [Z)] es la matriz de las derivadas parciales de la funcién evaluadas en el valor Inicial j afiaa, af Aa, Afaa, af Pa, l= a.faa, Aafia, donde n = el nimero de datos y 2f/@a, = la derivada parcial de la funcién con respecto al késimo pardmetro evaluado en el -ésimo dato. El vector (D} contiene las diferencias entre las mediciones y los valores de la funcién, nS) ps Fa2)| {D}= Yn F)| 17.5 _REGRESION NO NEAL 497 y el vecter {AA} contiene los cambios en los valores de los pardmeteos (aayay > Si se aplica la teorfa de los minimos cuadrados lineales a la ecuacién (17.34) se obtienen las siguientes ecuaciones normales [recuerde la ecuaci6n (17.25)] [IZ ZTCMA) = (1ZD)AY 1738) Asi, el procedimiento consiste en resolver de la ecuaciéa (17.35) para {AA}, que se uti- liza para calcular valores mejorados de los parametros, como en 3 = day + Ady Ayjan = yj+ Bay Bate procedimi nto se repite hasta que la soluciéa converge, es decir, hasta que 100% 730) std por debajo de un criterio de terminacién aceptable. EJEMPLO 17.9 Método de Gauss-Newton Planteamiento del probleme, Ajuste la funcisn f(x a, a jl — 4) alos datos: 025 9075 1 S 028 057 O68 O74 O79 Emplee a= LOy a; = 1.0 como valores iniviales para los pardmetzos. Observe que para estos valores la suma inicial de los cuadrados de los residuos es 0.0248, Solucién. Las derivadas p te 2a, ales de la funcisn con especto a los parémetzos son Ine" e179.) 1792) 498. REGRESION POR MINIMOS CUADRADOS Las ecuaciones (£1791) y (EI7.9.2) se utilizan para evaluar la matriz 0.2212 0.1947 05276 0.3543 [Z]=] 0.7135 0.3581 0.8262 0.3041 0.8946 0.2371 Esta matriz multiplicada por su transpuesta nos da IZ, 2.3193 0.9489 0.9489 0.4408 Ia cual, a su vez, se invierte con el siguiente resultado. (21 210" =| 3.6397 7.8421 78421 19.1678 El vector (D} consiste en las diferencias enue las mediciones y las predicciones del modelo, 1028-02212] [0.0588 os7-0.5276) Jo.oa24 {D}=40.68~0.7135} =} 0.0335 0.74-0,8262) | -o.0862 0.79-0,8946] _[-0.1046 iste se multplica por (Z" para dar 01153 0.0365 | [ZF (D}= El vector {AA}, entonces, se calcula al resolver la ecuacién (17.35) 02714] 0.5019 aque se suma a los valores iniciales de los pardmetros: jac] _ JLo] f-0.2714) _fo.7286] ja,[~ |Lof~ Josors f~]1.sor9 sf, los estimados mejorados de los pardmetros son a = 0.7286 y a = 1.5019. Los nue~ vos parimetros dan una suma de los cuadrados de Ios residuos igual a 0.0242, La ecua- PROBLEMAS: 499 ci6n (17.36) se utiliza para obtener que tp y €; son iguales a 37 y 33%, respectivamente. El célculo se repetiria hasta que esos valores estén abajo del crterio de terminacién establecido. Bl resultado final es ay = 0.79186 y a, = 1.6751. Tales coeficientes dan una suma de los cuadrados de los residuos de 0.000662. Un problema potencial con el método de Gauss-Newton, como se ha desarrollado hhasta ahora, es que las derivadas parciales de la funci6n pueden ser difciles de evaluar. En consecuencia, muchos programas computacionales usan diferentes ecuaciones para aproximar las derivadas parciales. Un método es ann onde 6 = una perturbacién fraccional pequetia, EI método de Gauss-Newton tiene también algunas desventajas 1. Puede converger con lentitud, 2, Puede oscilar ampliamente; es decir, eambia de direct 3. Puede no converger én continuamente, Se han desarrollado modificaciones del método (Booth y Peterson, 1958; Hartley, 1961) para disminuir las desventajas. ‘Ademés, aunque hay varios procedimientos expresamente disefiados para regresién, ‘un método més general es usar rutinas de optimizacién no lineal como las descritas en la parte cuatro, Para hacer esto, se dan valores iniciales alos parametros y se calcula la suma de los cuadrados de los residuos. Por ejemplo, para la ecuacién (17.31) esto se podria calcular como DY bi-qa-e"oF 0738) Los pardmetros, entonces, se ajustarfan de manera sistemstica para minimizar S, me- diante técnicas de bisqueda como las descritas previamente en el capitulo 14, Tlustrare- ‘mos el modo para hacer esto cuando describamos las aplicaciones de software, al final el capitulo 19. PROBLEMAS 17. Dados los datos ss 9S 98 94 101 92 100 10479 989589. ol 9596 Determine a la media, b) la desviacia esténdar, ) la vatianza, el coeficiente de variacin, y ¢) el inervala de contianza del 94 100 eee 95% para la media. 10498 417.2 Constraya un histograma de los datos del problema 17.L 88 106 Use un rango de 75a 11.5 con intervales de 0:5 10289 10.3 Dados los datos 500 REGRESION POR MINIMOS CUADRADOS 2865 2655 2665 2765 2735 2835 2685 17.7 Emplee la egresin por minimos cuadrados para ajustar 2865 29.65 2785 27.05 28.25 2855 25.75 unalinearectaa 2765 2845 2865 2845 31.65 26.35 27.75 20.25 2765 2865 2765 28552755 Determine a la mea, b) la desviacién estindar,c) la varianza, 4 el coeficiente de vatiaci, y ¢) el itervalo de confianza del 90% para la media, ) Construya un histogram Use un rango de 26 a 32 con inerementos de 0.5, g) Si se supone que la dsti= bucién es normal y que la estimacin de la desviacién esténdar ce vida, calcule el zango (es dec, los valores infect yeupesior) ‘que agrups al 68% de los datos, Determines estaes una extima- cin valida par los datos del problema 17-4 Uolice laregresén por minimos cuadrados parajustaruna x[o 2 4 6 9 nN WB wa vls @ 7 6 9 8 7 0 12 ‘Adem de In pendent y Ia inerseccign, calcule el error estén= ddr de la estimacién y el coeficiene de correlacién. Haga una trifica de los datos y la Knea de regresién, Despuss repita el problema, pero ahora efecie la regresin de x versus yes deci, inlercambie las variables, Interprete sus resulta, 4175 Use la regresién por minimos cuadrados para ajustar una inca recta a xle 7 1517 2) v2 2) 2 14 21 15 2329 29 97 5 71 Ademis de la pendiente y la intersecci, calcule el error estin- dar de la estimacién y el coeficiente de correlacién. Haga una artic de los datos y la linea de zegrsisn, (Si otra persona hi cera una medicin adicional de x= 10, y= 10, usted pensaria, con bage en una evaluacién visual y el error esindss, que la redicin era valida o invdida? Justifigue su conclusi6a, 17.6 Con el mismo enfoque que se emples para obtener las ecuaciones (17.15) y (17.16), obtenga el ajuste por minimos cuadrados del modelo siguiente Bs decir, determine la penufiente que resulta en el ajuste por nimos cuadrados para una linea recta con inersecvién en et ‘ovigen. Ajuste los datos siguientes con dicho modelo eiluste ef resultado con una grfica 42) Ademis de la pendiente y a interseccién, calele el error cestindar de la estimaci6a y el coetiiente de corelacién Grafigue los datos y la linea recta, Eval el ajuste, by Vuolva a hacer el eslelo del inciso a), pero use regresién polinomial para ajustar una parsbola alos datos. Compare log resultados con los de inciso a). 117.8 Ajuste los datos siguientes con a) un modelo de tata de a de saturacidn, b) una ecuacién de potencias. y c) ‘una parsbota, En cada caso, haga una gréfiea de los datos y la Use Ia ecuacién de potencias resutante para hacer el pronstico de yen x=9. x| 02 y | 800 08 12 751500 afique los datos y laccuacié en semilogartico. 17-11 Bn verde usar el modelo exponencial de base e ecuaci6n 17.22), una alterativa comin consiste en utilizar un modelo de base 10 Se10 ‘Cuando seusa para ajustarcurvas esta ecuaci6n leva aresultados \Aoticos que los dela versi6n con base e, pera cl valor del paré- delexponente (2) diiere del esimmado conn ecuacidn 17.22 (Bp. Use la vers con base 10 para resolver el problema 17.10, ‘Ademés,desarolle una foemacién para relacionas B con B 117.12. Ademss de los ejemplos de la figura 17-10, exsten otros nodelos que se pueden hacer lineales con el empleo de transfor ones, Por ejemplo, Saaeto PROBLEMAS: 501 Haga lineal este modelo y slo para estimar ay yf, conbase en Jos datos siguientes. Elabore una grfica del ajuste junto con los datos {17.18 Uninvestigadorreponta os dates tbuladosacontinuacién, dde un experimento para determinar la tase de crecimiento de bacterias k (nerd), como funcin dela concentracién de oxigeno «c(mgfL), Se sabe que dichos datos pueden modelarse por medio de a ecuscién siguiente: donde ¢, y kyie om parkmeteos. Use una transformaciéa para hacer lineal esta eovacién, Después ulilice regzesin lineal pa raestimarc,y kag ¥ ponosique a tas de crecimiento para c= 2mgil. os 08 15 25 F 2453 76 89 17.14 Dados los datos 2 25 4 35 40 45 3 «7 «40 40 AD tse regresim por miimos cusdrados para ajustar a) wna Mines recta, B) una ecuaciéa de potescias,c) una ecuacin de tasa de crecimiento de saturaci6n y ) una pardbola,Grafiqu los datos junto con todas las curvas. ;Alguna de las curvas es superior @ is dems? Si asi fuera, jusiiguelo, 7S Ajuste un ecuacién edbica aloe datos siguientes: x[a 4 y[ie #6 44 a4 22 ze 9) 28 38 Ademés de los coefcientes, determine Fy yy, 7.16 Uilice regresién lineal miple para austar 17.17 Ue regres lineal mille para ajustar © o 2 a 2 4 2 Caleule los coeficientes, ol error esténdar dela estimacin y el cotliciente de correlacién, 17.18 Emplee regresi6nno lineal para ajustar una parabola alos datos siguientes 2200 2 117.19 Use regresin no lineal para ajustar una ecuacién de asa de crecimiento de saturacin# los datos del problema 17.14 17.20 Vuelvaa alcularlosajustes de regresién delos problemas 4) 174, 6) 17.15, con el enfoque matical. Estime los errores estindar y desarolle inervalos de confianza del 90% para les coeticientes, 17.21 Desarolle, depure y prucbe un programa en cualquier Tengvaje de alto nivel o de macros que elia. para implantar el andlsis de regresin lineal. Batre otras cosas) incluya comen- tarios para documenta el eéigo, yb) determine e error estindar yl coefciente de determinaciéa. 117.22 Se hace la prueba a un material para estudiar I alla por fatiga celica, en aque se apliea un esfuerzo,en MPa, al material y se mide el nero de ciclos que se necesita para hacer que {alle Los resultados se presentan en la aba siguiente. Alhacer- seuna grfica log-log, de estuezo versur los cielos, aendenc de los datos presenta una relacin lineal. Use regresin por mi rimos cuadrados para determinar la ecuacién de mejor ajuste para dichos datos. 17.23 Los datos siguientes muestran arelacién entre vscosidad del aceite SAE 70 y su temperatura. Después de obtener el loga- ritmo de los datos, us regresin lineal para encontar a ecuaci6n de areca que se ajuste mejor als dats yal valor de nfo 22 a4 ml 0 z 212 wore | meer on ane _ 5s SETS TT SE TOS TST OT ASA TOT Wonk Ne | 100s 00 a0mnrs Caleue los coeficientes, el erorestindar de Ia estimacin y et coeticente de correlacién, 17.24 Los datos siguientes representan el crecimiento bacterial en un cultivo iquido durante cierto mero de dias. REGRESION POR MINIMOS CUADRADOS 502 Sia 48 20 ‘Conidad x 10" a8 a9 18 Bncuente Ia ecuacién de mejor ajuste ata tendencia de los datos Prasbe vais posiilidades lineal, arabica y exponencal Uice cl paquete de software desu elecin para cbtenr la mejor ecuacion para pronosticar la cansdad de bacteria despts de 40 das 1.25 Después de una tormenta, e vigil la concentracin de Ia bacteria col enun érea de natacin: 4 8 2 6 2 2 390 18201000 900 650 560 CrU/T00m Bl tiempo se mide en horas iranscuridas después de finalizar la tormenta y la unidad CFU es una “unidad de formacién de eo lonia”, Use los datos para estimar a) la concentracién al final de fa tormenta (¢= 0), ¥ B) el tiempo en el que la concentracién alcanzard 200 CFU / 100 mL. Observe que la eleccién del mo- Uelo debe ser consstente con el hecho de que las concenteaciones| negativas son imposibles y de que la concenteacién de bacteias| siempre disminaye con el tempo, 17.26 Un objeto se suspends en un tinel de viento y se mide la fuerza para varios niveles de velocidad del vient, Acontinuaciéa estan tabulados los resultados, Use la regeesién por minimos cadradas para ajustar na linea recta & estos dato, 607080 [Emploe rpresién por miaimos cuadrados para ajustar estos datos on a) una linea recta, b) una eeuacién de potencias basada en teansformaciones logariimicas, y ) un modelo de potencias con base en represicn no lineal. Must ls resultados gricamente 17.27 Ajuste un modelo de potencias a los datos de! problema 17.26, pero emplee logaritmos naturales para hacer las transfor 17.28 Con el mismo enfoque que se emples pars obtener las ecuaciones (17.15) y (17.16), obtenga el ajuste por minimes cuadrados del modelo siguiente Es decir, determine los coeficientes que generan el juste por inimos cuadrados de un polinomio de segundo onien con in- terseccign en el origen, Pruebe el enfoque con el ajuste de los datos del problema 17.26, 17.29 Enel problema 17.12, en el que se wsaron transformacio- res para hacer lineal y ajustr el modelo siguiente exe lee regresién no lineal para estimar cy fi con base en Jos datos siguientes. Haga una grética del ajuste junto con los datos 1220 830 e10 450

You might also like