Hans C. M¨ ller S.C.

u

Una Introducci´n o al An´lisis Num´rico a e

i

Hans C. M¨ ller S.C. u

Una Introducci´n o al An´lisis Num´rico a e
Con 55 figuras

ii

Hans C. M¨ller Santa Cruz u Departamento de Matem´ticas a Facultad de Ciencias y Tecnolog´ ıa Universidad Mayor de San Sim´n o Casilla 992, Cochabamba, Bolivia e-mail hans@mat.umss.bo

Pr´logo o

La Facultad de Ciencias y Tecnolog´ tiene 17 a˜os de vida, per´ ıa n ıodo que ha sido fruct´ ıfero en el ´mbito universitario, porque se han creado carreras a tecnol´gicas, como cient´ o ıficas, haciendo ´nfasis a una investigaci´n cient´ e o ıfica seria como un mecanismo de garantizar una excelencia acad´mica. La e Carrera de Matem´ticas, una de nuestras Carreras de reciente creaci´n, est´ a o a inscrita dentro este marco. Ahora bien, la Universidad Mayor de San Sim´n consciente de esta o situaci´n, ha conseguido convenios de cooperaci´n internacional, como es o o el caso del Programa MEMI, Programa de Mejoramiento de la Ense˜anza n de la Matem´tica y la Inform´tica. De los objetivos principales de este a a programa es fortalecer el ´rea de las matem´ticas, incentivar la difusi´n de a a o las diferentes ramas de las matem´ticas en el medio universitario y fuera de a ´ste. La Universidad y sus autoridades, dentro de sus pol´ e ıticas acad´micas y e de investigaci´n, han tenido la visi´n de conseguir los servicios de los mejores o o profesionales en esta disciplina y Hans M¨ller es uno de ellos. u El autor del libro, Hans M¨ller Santa Cruz, es un joven matem´tico bou a liviano que ha regresado a su pa´ para compartir los conocimientos adquiriıs dos en en la Universidad de Ginebra, Suiza. Actualmente es el Coordinador del Programa Magister en Matem´ticas, programa implementado de manera a conjunta entre la Universidad Mayor de San Sim´n y la Universidad Cat´lica o o del Norte, Chile. Ha dictado un curso de Elementos Finitos, destinado a los docentes en nuestra superior Casa de Estudios; en La Paz, bajo invitaci´n ha o impartido cursos tutoriales en la Academia de Ciencias en temas relacionados a las matem´ticas aplicadas. El y otros profesionales de su ar´a, est´n a e a transformando la manera de hacer matem´ticas en la Facultad de Ciencias a y Tecnolog´ ıa. Los t´picos tratados en este libro est´n muy relacionados con los camo a bios estructurales que ha ocasionado la introducci´n masiva de sistemas ino form´ticos. En efecto, la utilizaci´n m´siva del computador ha permitido al a o a Hombre efectuar c´lculos que en otra ´poca hubiese sido impensable realizara e los. En la actualidad es muy corriente simular num´ricamente experiencias, e que en laboratorio son muy complicadas, costosas o peligrosas, o simplemente imposible de experimentarlas. Los problemas de optimizaci´n son abordables o gracias a la utilizaci´n del ordenador y no faltan situaciones en las cuales o el uso de estos dispositivos de c´lculo, no solamente son de gran ayuda, a sino indispensables. El An´lisis Num´rico es la rama de las Matem´ticas, a e a cuyo campo de acci´n es el estudio y an´lisis de los diferentes algoritmos o a

iv

´ Prologo

y m´todos num´ricos que se utilizan para resolver los problemas mediante e e computadoras. El libro “Una Intruducci´n al An´lisis Num´rico” presenta o a e los temas b´sicos del An´lisis Num´rico de una manera rigurosa, permitiendo a a e que el lector pueda adquirir los conocimientos matem´ticos necesarios para a profundizar en t´picos m´s especializados o simplemente pueda concebir e o a implementar m´todos num´ricos de una manera correcta y ´ptima. e e o Finalmente, mi esperanza es que este libro sea el inicio de una larga serie de otras publicaciones de alto nivel que ofrezca el autor y su unidad acad´mica. e

Cochabamba, septiembre de 1996 Ing. Alberto Rodr´ ıguez M´ndez e Rector de la Universidad Mayor de San Sim´n o

Prefacio

Este libro nace ante el vacio existente de una bibliograf´ en espa˜ol que ıa n trate los temas capitales del An´lisis Num´rico. El nombre que lleva, “Una a e Introducci´n al An´lisis Num´rico”, se debe esencialmente al car´cter que o a e a deseo que tenga este libro. El An´lisis Num´rico es una disciplina de las Matem´ticas en gran a e a crecimiento gracias a la utilizaci´n masiva de medios inform´ticos. D´ que o a ıa pasa es m´s corriente el tratamiento num´rico en las Ciencias, como en a e la Tecnolog´ el modelaje, la simulaci´n num´rica son moneda corriente. ıa; o e Ahora bien, toda persona que pretenda tener como herramienta de trabajo, los m´todos num´ricos, debe conocer los t´picos introductorios del e e o An´lisis Num´rico que son: Sistemas Lineales, Interpolaci´n, Resoluci´n de a e o o Ecuaciones no Lineales, C´lculo de Valores Propios y Soluci´n Num´rica de a o e Ecuaciones Diferenciales, porque tarde o temprano se topar´ con alguno de a estos temas. Siguiendo la l´ ınea trazada por este libro, ´ste contiene siete cap´ e ıtulos: el primero de car´cter introductorio, donde se da los conceptos b´sicos de error a a y estabilidad, seguido de un ejemplo mostrando que la aritm´tica del punto e flotante no es un impedimento para efectuar c´lculos de precisi´n arbitraria; a o el segundo cap´ ıtulo trata sobre los problemas lineales mas comunes y los m´todos de soluci´n de estos; el tercer cap´ e o ıtulo aborda el tema de interpolaci´n num´rica y extrapolaci´n, introduciendo el estudio de los o e o splines c´bicos; el cap´ u ıtulo IV analiza los problemas no lineales y los m´todos e mas eficientes de resoluci´n de estos; en el cap´ o ıtulo V se estudia el problema de valores propios y la implementaci´n de m´todos num´ricos para el c´lculo o e e a de valores propios; el cap´ ıtulo sexto trata de la integraci´n num´rica y la o e transformada r´pida de Fourier y finalmente el cap´ a ıtulo VII estudia los problemas diferenciales y los m´todos num´ricos de resoluci´n mas usuales e e o de estos problemas. Pr´cticamente el contenido de este libro ven los estudiantes de segundo a a˜o de las Carreras de M´tematicas e Inform´tica de la Universidad de n a a Ginebra, Suiza, Universidad en la cual he sido formado. El pre-requisito para un buen aprovechamiento de este libro es conocer bien los principios b´sicos del An´lisis Real y Complejo, como tambi´n tener una buena base a a e de Algebra Lineal. Por consiguiente, este libro est´ destinado a estudiantes a universitarios que siguen la asignatura de An´lisis Num´rico, como as´ mismo a e ı toda persona interesada en An´lisis Num´rico que tenga los pre-requisitos a e y que desea cimentar sus conocimientos en esta disciplina. Este libro puede

vi

Prefacio

ser utilizado como texto base o bien como complemento bibliogr´fico. a Debo agredecer a mis profesores de la Universidad de Ginebra, E. Hairer y G. Wanner cuyos cursos han servido de base para la elaboraci´n de este o libro. Por otro lado, sin el apoyo en material de trabajo del Programa MEMI, Programa de Mejoramiento de la Ense˜anza de las Matem´ticas e n a Inform´tica, de la Universidad Mayor de San Sim´n este libro no habr´ a o ıa existido. As´ mismo agradezco a mi familia, mis colegas y amigos que ı seguieron con inter´ la elaboraci´n de este libro. s o El libro ha sido transcrito en TEX y las gr´ficas realidas en las suba rutinas gr´ficas FORTRAN que G. Wanner me las cedi´ muy gentilmente. La a o transcripci´n, como la ejecuci´n de los programas en sido realizados sobre o o una WorkStation HP-9000. Posiblemente este libro contenga muchos errores, me gustar´ que los ıa hagan conocer, para que en una segunda edici´n estos sean corregidos. o Octubre, 1995 Hans C. M¨ller S.C. u

Contenido

I. Preliminares
I.1 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 I.2 Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 I.3 Un ejemplo: C´lculo de PI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 a

II. Sistemas Lineales
II.1 Condici´n del Problema Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . 25 o Normas de Vectores y Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 La Condici´n de una Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 II.2 M´todos Directos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 e El Algoritmo de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 El Algoritmo de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 II.3 M´todos Iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 e M´todos de Jacobi y Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . 48 e El Teorema de Perron-Frobenius . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 M´todo de Sobrerelajaci´n SOR . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 e o Estudio de un Problema Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 II.4 M´todos Minimizantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 e M´todo del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 e M´todo del Gradiente Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 69 e Polinomios de Chebichef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 M´todo del Gradiente Conjugado Precondicionado . . . . . . . . . 75 e Resultados Num´ricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 II.5 M´ ınimos Cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 La descomposici´n QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 o La Pseudo-Inversa de una Matriz . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Error del M´todo de los M´ e ınimos Cuadrados . . . . . . . . . . . . . . . 96 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

viii

Contenido

III. Interpolaci´n o
III.1 Interpolaci´n de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Bases Te´ricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Construcci´n del Polinomio de Interpolaci´n . . . . . . . . . . . . . . o o El Error de Interpolaci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Polinomios de Chebichef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estudio de los Errores de Redondeo . . . . . . . . . . . . . . . . . . . . . . Convergencia de la Interpolaci´n . . . . . . . . . . . . . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.2 Splines C´bicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Construcci´n del Spline Interpolante . . . . . . . . . . . . . . . . . . . . . . o El Error de la Aproximaci´n Spline . . . . . . . . . . . . . . . . . . . . . . . o Aplicaci´n de Spline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.3 Extrapolaci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 104 106 111 113 115 119 129 131 133 136 142 143 145 150

IV. Ecuaciones No Lineales
IV.1 Ecuaciones Polinomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ecuaciones Resolubles por Radicales . . . . . . . . . . . . . . . . . . . . . . Ecuaciones No Resolubles por Radicales . . . . . . . . . . . . . . . . . . Localizaci´n de Ceros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o M´todo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Sucesiones de Sturm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.2 M´todos Iterativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Posici´n del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o M´todo de la Falsa Posici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e o Sistema de Ecuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Un M´todo Iterativo Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.3 M´todo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e El Teorema de Newton-Misovski . . . . . . . . . . . . . . . . . . . . . . . . . . M´todo de Newton Simplificado . . . . . . . . . . . . . . . . . . . . . . . . . . e M´todo de Newton con Relajaci´n . . . . . . . . . . . . . . . . . . . . . . . . e o Aproximaci´n de Broyden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV.4 M´todo de Gauss Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Convergencia del M´todo de Gauss-Newton . . . . . . . . . . . . . . . e Modificaciones del M´todo de Gauss-Newton . . . . . . . . . . . . . e El M´todo de Levenber-Marquandt . . . . . . . . . . . . . . . . . . . . . . . e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 152 155 155 157 159 161 163 163 165 168 169 173 174 179 184 193 197 199 203 204 207 210 211

Contenido

ix

V. C´lculo de Valores Propios a
V.1 Teor´ Cl´sica y Condici´n del Problema ıa a o .......... La Condici´n del Problema a Valores Propios . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V.2 Determinaci´n de Valores Propios . . . . . . . . . . . . . . . . . . . o El M´todo de la Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Formas Tridiagonales y Formas de Hessenberg . . . . . . . . . . . . Teorema de Sturm y el Algoritmo de la Bisecci´n . . . . . . . . . o Generalizaci´n del M´todo de la Potencia . . . . . . . . . . . . . . . . . o e El M´todo QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 217 221 223 223 227 229 233 237 241

VI. Integraci´n Num´rica o e
VI.1 Bases Te´ricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o F´rmulas de Cuadratura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o El Orden de una F´rmula de Cuadratura . . . . . . . . . . . . . . . . . o Estimaci´n del Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Ejercicios ............................................... VI.2 Cuadraturas de Orden Elevado . . . . . . . . . . . . . . . . . . . . . . Polinomios Ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Los Polinomios de Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Las F´rmulas de Cuadratura de Gauss . . . . . . . . . . . . . . . . . . . o Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VI.3 Implementaci´n Num´rica . . . . . . . . . . . . . . . . . . . . . . . . . . . . o e Tratamiento de Singularidades . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VI.4 Transformaci´n de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . o Estudio del Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interpolaci´n Trigonom´trica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o e Transformaci´n R´pida de Fourier FFT . . . . . . . . . . . . . . . . . . o a Aplicaciones de FFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 248 249 250 256 258 259 263 264 267 269 273 282 284 287 288 290 292 293

VII. Ecuaciones Diferenciales
VII.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teoremas de Existencia y Unicidad . . . . . . . . . . . . . . . . . . . . . . . Problemas con Valores en la Frontera . . . . . . . . . . . . . . . . . . . . . Diferenciabilidad respecto a los Valores Iniciales . . . . . . . . . . Simple Shooting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Shooting M´ltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . u Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 297 300 300 303 307 311

x

Contenido 313 317 319 321 322 323 327 330 333 335 338 340 341 341 343 344 345 346 348 350 353 355 359 361

VII.2 M´todo de Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Efectos de los Errores de Redondeo . . . . . . . . . . . . . . . . . . . . . . . Estabilidad del M´todo de Euler . . . . . . . . . . . . . . . . . . . . . . . . . e M´todo de Euler Imp´ e ıcito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.3 M´todos de Runge-Kutta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Construcci´n de un M´todo de Orden 4 . . . . . . . . . . . . . . . . . . o e M´todos Encajonados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Soluciones Continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Convergencia de los M´todos de Runge-Kutta . . . . . . . . . . . . e Experiencias Num´ricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII.3 M´todos Multipasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e M´todos de Adams Expl´ e ıcitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . M´todos de Adams Impl´ e ıcitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . M´todos Predictor-Corrector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e M´todos BDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e Estudio del Error Local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Convergencia de los M´todos Multipaso . . . . . . . . . . . . . . . . . . e Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliograf´ ıa ..................................................... ............................................. ...............................................

Indice de S´ ımbolos Indice Alfab´tico e

Cap´ ıtulo I Preliminares

Con la utilizaci´n masiva de sistemas inform´ticos en la resoluci´n de o a o problemas a todo nivel, el An´lisis Num´rico ha tenido un gran desarrollo en a e las ultimas d´cadas, como una rama integrante de las Matem´ticas. En este ´ e a primer cap´ ıtulo se expondr´ las nociones de base que sustentan el An´lisis a a Num´rico, para ser utilizadas en los cap´ e ıtulos posteriores. La primera secci´n estar´ dedicada a estudiar los algoritmos como o a una composici´n de operaciones elementales, partiendo de un dispositivo o ideal de c´lculo. Se analizar´ las nociones de eficiencia y error de un a a algoritmo. En la segunda secci´n se analizar´ el problema algor´ o a ıtmico a partir de los dispositivos materiales con que se cuenta en la actualidad, es decir ordenadores o computadoras. En esta secci´n se estudiar´ la representaci´n o a o en punto flotante de un n´mero real y su redondeo en la computadora. Se u introducir´ la noci´n de precisi´n de una computadora y la relaci´n de ´sta a o o o e con el concepto de estabilidad, en sus diferentes versiones, de un algoritmo. En la tercera y ultima secci´n de este cap´ ´ o ıtulo, se ver´ que las lia mitaciones impuestas por la representaci´n en punto flotante, no es una reso tricci´n para calcular con la precisi´n que se requiera. Prueba de esto, π ser´ o o a calculado, como un ejemplo ilustrativo, con 10000 decimales de precisi´n. o

I.1 Algoritmos

En esta secci´n se supondr´ que se cuenta con un dispositivo ideal de c´lculo, o a a es decir una computadora de precisi´n exacta, situaci´n que no sucede en la o o realidad. El cuerpo de base ser´ R, a menos que se especifique lo contrario. a Este dispositivo est´ provisto de ciertas operaciones cuya acci´n se efectua a o en un tiempo finito, por ejemplo es capaz de realizar las 4 operaciones aritm´ticas elementales, m´s algunas como la radicaci´n, la exponenciaci´n e a o o y las otras funciones elementales que se estudian en un curso de C´lculo I. a Por consiguiente, se tiene la primera definici´n. o Definici´n I.1.1.- Una operaci´n elemental es una operaci´n matem´tica o o o a o funci´n cuya acci´n se la efectua en un tiempo finito y que adem´s el o o a dispositivo ideal la puede realizar. Inicialmente se supondr´ que las cuatro operaciones aritm´ticas a e como: la adici´n, la multiplicaci´n, la sustracci´n y la divisi´n son posibles o o o o en este dispositivo de c´lculo. De esta manera es posible evaluar toda a funci´n polinomial, toda funci´n racional, en una cantidad finita de pasos o o o composici´n de operaciones elementales. o Definici´n I.1.2.- Un algoritmo es una sucesi´n finita de operaciones o o elementales. Si se denota por fi una operaci´n elemental, un algoritmo es la o composici´n de n operaciones elementales, es decir o f = fn ◦ fn−1 ◦ · · · ◦ f2 ◦ f1 . (I.1.1)

Por otro lado, el dispositivo de c´lculo con el que se cuenta tiene la a finalidad de evaluar la o las soluciones de un problema matem´tico, siempre a que sea posible hacerlo. Ahora bien, lo que cuenta en este estudio es el resultado, de donde la: Definici´n I.1.3.- Un problema es darse un dato x ∈ Rn y obtener un o resultado P(x) ∈ R. En consecuencia, son problemas todas las funciones cuyo dominio es un espacio vectorial real de dimensi´n finita, cuya imagen est´ incluida o a en la recta real. Una funci´n cuya imagen est´ incluida en un espacio de o a dimensi´n m´s grande que 1, puede ser interpretada como un conjunto de o a problemas, donde cada problema es la funci´n proyecci´n correspondiente. o o Las ecuaciones pueden ser vistas como problemas, pero antes aclarando cual de las soluciones se est´ tomando. a

I.1 Algoritmos

3

Es necesario recalcar que problema y algoritmo son conceptos diferentes, aunque de alguna manera ligados. Consid´rese el problema siguiente, e P(x) = an xn + an−1 xn−1 + · · · + a1 x + a0 . (I.1.2)

P(x) puede ser obtenido de muchas maneras, en particular utilzando los 2 siguientes algoritmos: El primero consiste en evaluar el polinomio (I.1.2) tal como est´ definido, con la convenci´n que: a o x1 = x; xn = x · xn−1 , para n ≥ 2. (I.1.3)

La segunda manera de evaluar el polinomio consiste en utilizar el algoritmo de H¨rner, el cual est´ dado por: o a q0 (x) = an , q1 (x) = q0 (x)x + an−1 , q2 (x) = q1 (x)x + an−2 , . . . qn (x) = qn−1 (x)x + a0 .

(I.1.4)

Como puede observarse ambos algoritmos eval´an el polinomio P(x), sin u embargo en el primero se requiere: 1 + · · · + n − 1 multiplicaciones para evaluar las potencias, n multiplicaciones para evaluar los t´rminos de la e forma ai xi y finalmente n adiciones, lo cual hace un total de n(n + 3) operaciones elementales. 2 (I.1.5)

El algoritmo de H¨rner requiere a cada paso de una multiplicaci´n y una o o adici´n lo cual es igual a o 2n operaciones elementales. (I.2.6)

Por lo tanto, puede observarse claramente que el algoritmo de H¨rner es o m´s eficiente que el primero, pues la implementaci´n de ´ste efectua menos a o e operaciones elementales. El concepto de eficiencia de un algoritmo est´ ligado por consia guiente al costo en operaciones elementales que se requiere para ejecutar un algoritmo. Ahora bien, en la realidad una computadora requiere menos tiempo para evaluar una adici´n que para una multiplicaci´n. Cada opeo o raci´n elemental toma cierto tiempo en efectuarse, que en general depende o de la computadora y el lenguaje en el que est´ escrito el programa. Es a

4

I Preliminares

por eso, que es m´s conveniente medir la eficiencia en t´rminos de tiempo a e ejecutado, en lugar del n´mero de operaciones elementales ejecutadas. Con u lo argumentado se puede formular una primera definici´n de eficiencia. o Definici´n I.1.4.- El costo del algoritmo fn ◦ · · · ◦ fn , est´ dado por o a C = m1 + m2 + . . . + mn , (I.1.7)

donde mi es el tiempo de ejecuci´n de fi . Si C1 y C2 son los costos en tiempo o de dos algoritmos que resuelven el mismo problema, se dir´ que el primer a algoritmo es m´s eficiente que el segundo si C1 ≤ C2 . a Tal como se dijo al inicio de esta secci´n, el dispositivo ideal con o el que se cuenta, puede efectuar una cantidad finita de operaciones elementales. Suponiendo nuevamente, que solamente se cuenta con las cuatro operaciones aritm´ticas, las unicas funciones que pueden evaluarse utilizando e ´ un algoritmo son las funciones polinomiales y racionales. Ahora bien, existe una cantidad ilimitada de funciones y se puede mostrar que no existe ning´n u algoritmo que sea la composici´n de adiciones, multiplicaciones, sustraco ciones o divisiones, que permita calcular una raiz cuadrada; evaluar funciones trigonom´tricas, exponenciales o logar´ e ıtmicas. Sin embargo, existen procedimientos matem´ticos que permiten aproximar estas funciones de manera a arbitraria. Los m´s com´nmente utilizados: son las series de Taylor, las fraca u ciones continuas y algunos m´todos iterativos. Todos estos m´todos est´n e e a sustentados en las nociones de l´ ımite, de continuidad, derivabilidad dados en los cursos de C´lculo y An´lisis. a a A continuaci´n se ver´ un ejemplo ilustrativo, donde se introducir´ o a a la noci´n del error de truncaci´n. Consid´rese la funci´n exponencial, cuyo o o e o desarrollo en serie de Taylor est´ dada por a

ex =
k=0

xk . k!

(I.1.8)

Es evidente que ex no puede evaluarse en un n´mero finito de pasos, para u un x dado, sin embargo en lugar de evaluar ex , uno se puede contentar evaluando una cantidad finita de t´rminos de la serie de Taylor, es decir e
n

p(x) =
k=0

xk , k!

(I.1.9)

para un n fijado de antemano. La diferencia entre ex y p(x) es el error de truncaci´n de ex respecto a p(x). Este error de truncaci´n es del orden o o O(xn+1 ) cuando x tiende a 0. El nombre de truncaci´n proviene del hecho o que para evaluar ex se ha despreciado una parte de la serie. Por consiguiente, el error de truncaci´n puede definirse como: o

I.1 Algoritmos

5

Definici´n I.1.5.- Sean P(x), P ′ (x) dos problemas. El error de truncaci´n o o de P(x), respecto de P ′ (x) est´ dado por a P(x) − P ′ (x). (I.1.10) El nombre que tiene este error, como se dijo m´s arriba, es debido a a que la la serie de Taylor es truncada a un n´mero finito de t´rminos. u e No obstante, existe una gran diversidad de m´todos que aproximan a la e soluci´n del problema utilizando otro tipo de argumentos, en este caso es o m´s conveniente utilizar el nombre de error de aproximaci´n o error del a o m´todo; de todas formas es cuesti´n de gusto. e o El concepto de eficiencia ha sido definido para aquellos problemas donde se puede encontrar la soluci´n mediante un algoritmo. Para aquellos o problemas, donde no es posible encontrar un algoritmo que de la soluci´n y o suponiendo que es posible aproximar la soluci´n de manera arbitraria meo diante un m´todo algor´ e ıtmico, la eficiencia est´ ligada al costo en operaa ciones, como tambi´n al error del m´todo. En esta situaci´n la eficiencia es e e o un concepto m´s subjetivo que depende de alguna manera del usuario, pues a existen problemas donde el error de aproximaci´n debe ser lo m´s peque˜o o a n posible, y otros problemas donde la exactitud no es un requisito primordial. Ejemplos 1.- Consid´rese el problema, determinar π. Utilizando la identidad e π arctan 1 = 4 y que la serie de Taylor en el origen est´ dada por a

arctan x =
k=0

(−1)k 2k+1 x , 2k + 1

(I.1.11)

se puede obtener un m´todo que aproxime π, pero el problema de este e m´todo es su convergencia demasiado lenta; es mas, para x = 1 la serie e (I.1.11) no es absolutamente convergente. Otro m´todo que permitir´ aproximar π, consiste en utilizar el hecho e ıa que π arccos(1/2) = 3 y desarrollando arccos en serie de Taylor, se obtiene un m´todo cuya e convergencia es mucho m´s r´pida. a a √ 2.- Consid´rese el problema, determinar 2. La primera manera de determi√ e nar 2 es tomar un intervalo cuya extremidad inferior tenga un cuadrado inferior a 2 y la extremidad superior tenga un cuadrado m´s grande a 2. a Se subdivide el intervalo en dos subintervalos de igual longitud, se elige aquel cuyas extremidades al cuadrado contengan 2. En la tabla siguiente se da algunas de las iteraciones de este m´todo. e

6
Iteraci´n o 0 1 2 3 4 5 16 17 18 19 20 Ext. Inferior 1.0 1.25 1.375 1.375 1.40625 1.40625 1.41420745849609 1.41421127319336 1.41421318054199 1.41421318054199 1.41421318054199 Ext. Superior 1.5 1.5 1.5 1.4375 1.4375 1.421875 1.41421508789063 1.41421508789063 1.41421508789063 1.41421413421631 1.41421365737915

I Preliminares

La segunda posibilidad es utilizar la sucesi´n definida recursivamente o por: a0 = 1, 1 1 an+1 = an + . 2 an Esta sucesi´n es convergente √ se deja al lector la demostraci´n para o y o que verifique que el l´ ımite es 2. En la tabla siguiente se tiene los seis primeros t´rminos de la sucesi´n. Efectuando unas cuantas iteraciones e o se obtiene:
Iteraci´n o an 0 1.0 1 1.5 2 1.41666666666667 3 1.41421568627451 4 1.41421356237469 5 1.4142135623731

Puede observarse inmediatamente, que el segundo m´todo para determinar e √ 2 es m´s eficiente que el primer algoritmo. a

Ejercicios
1.- Sup´ngase que, el dispositivo de c´lculo, con el que se cuenta, puede o a efectuar la divisi´n con resto; es decir, para a, b enteros no negativos, o con b = 0, el dispositivo calcula p, q satisfaciendo: a = pb + r y 0 ≤ r < b.

a) Implementar un algoritmo que calcule el maximo com´n divisor de a u y b. b) Utilizando el inciso precedente, implementar otro algoritmo que permita calcular m, n ∈ Z, tales que mcd(a, b) = ma + nb.

I.1 Algoritmos

7

c) Estudiar la situaci´n m´s desfavorable, aqu´lla donde el costo en o a e operaciones es el m´s alto. Deducir una estimaci´n de la eficiencia del a o algoritmo. 2.- Suponiendo que, el dispositivo de c´lculo puede efectuar la divisi´n con a o resto, con la particularidad siguiente: a = pb + r y − |b| |b| <r≤ . 2 2

a) Mostrar que el algoritmo implementado en el ejercicio 1a), puede implementarse para esta nueva divisi´n con resto. o b) Verificar que, el nuevo algoritmo es m´s eficiente que aqu´l con dia e visi´n con resto normal. Encontrar una estimaci´n de costo del algoritmo. o o 3.- Para el polinomio p(x) = a0 + a1 x + · · · + an xn , el algoritmo de H¨rner o (I.1.9) est´ definido por: a bn = an ; bi = ai + x0 bi+1 ,

i = n − 1, . . . , 1, 0.

Se plantea q(x) = b1 + xb2 + · · · + xn−1 bn . a) Mostrar que p′ (x0 ) = q(x0 ). Verificar que p(x) = b0 + (x − x0 )q(x). b) Generalizar el algoritmo de H¨rner, de tal forma que se pueda calcular o p(x0 ) y p′ (x0 ) al mismo tiempo. 4.- Una regla y comp´s constituyen un dispositivo de c´lculo. Sup´ngase a a o que se conocen dos puntos O y P tales que OP sea de longitud 1. a) Mostrar que, adem´s de las 4 operaciones aritm´ticas elementales, la a e radicaci´n puede obtenerse a partir de un n´mero finito de manipulao u ciones de regla y comp´s. a √ b) Construir 1 + √ 10. c) Intentar construir 3 2. ¿Es posible?

I.2 Estabilidad

En esta secci´n, a diferencia de la precedente, se analizar´ el problema de los o a algoritmos y m´todos num´ricos desde el punto de vista de un dispositivo e e material real, m´s conocido como computadora. Para comenzar existen a esencialmente dos tipos de n´meros en la aritm´tica de un ordenador: el tipo u e entero cuya aritm´tica es igual a la de los num´ros enteros, con la diferencia e e que el tipo entero de un ordenador es un conjunto finito, motivo por el cual se tiene que tener cuidado con los overflows en las operaciones aritm´ticas; el e segundo tipo de n´mero es el real, en sus diferentes versiones, la idea de este u tipo de n´mero es la representaci´n de un n´mero real en punto flotante, es u o u decir todo n´mero real no nulo x se puede escribir de manera unica como u ´ x = a · 10b , donde |a| < 1, b ∈ Z; (I.2.1)

a se llama mantisa y b el exponente. Los n´meros reales solo tienen una u representaci´n parcial en el tipo real de un ordenador por limitaciones f´ o ısicas del dispositivo, por consiguiente un n´mero real estar´ en una clase de u a equivalencia de tipo de n´mero real. Esta representaci´n de n´mero real u o u est´ dada por la precisi´n de la computadora. a o Cuando se trabaja sobre un computador, se tiene a disposici´n o un n´mero finito de cifras, por ejemplo l, para la mantisa, Si a denota el u ¯ redondeado de a, se trabaja en realidad con arr(x) = a · 10b ¯ (I.2.2)

√ en lugar de x. De esta manera, el n´mero 2 = 1.414213562 . . . est´ u a representado por √ arr( 2) = 0.141421356 · 101 , si se calcula con l = 8 cifras en base 10. Como se dijo m´s arriba, el redondeo est´ determinado por la a a precisi´n de la computadora. Esta precisi´n est´ dada por un n´mero dado o o a u por la: Definici´n I.2.1.- Se denota por eps, el n´mero positivo m´s peque˜o tal o u a n que arr(1 + eps) > 1. (I.2.3) Este n´mero eps llamado precisi´n de la computadora est´ dado por u o a los siguientes hechos: si los c´lculos se hacen en base 10 y con l cifras en la a

I.2 Estabilidad mantisa, se tiene arr(0. 10 . . . 0 49 . . . · 101 ) = 1,
l

9

arr(0. 10 . . . 0 50 . . . · 101 ) = . 10 . . . 1 ·101 > 1,
l l

deduciendose, por consiguiente eps = 5.10−l ; (I.2.4)

si se realiza el mismo c´lculo en base 2, como todas las computadoras lo a hacen, se obtiene eps = 2−l . (I.2.5) Para el FORTRAN sobre una HP-9000, se tiene: REAL∗4, REAL∗8, REAL∗16, eps = 2−24 ≈ 5.96 · 10−8 ; eps = 2−55 ≈ 1.39 · 10−17 ; eps = 2−113 ≈ 9.63 · 10−35 .

Ahora bien, un n´mero real y su representaci´n en punto flotante u o en una computadora est´n relacionados por el: a Teorema I.2.2.- Para x = 0, se tiene |arr(x) − x| ≤ eps. |x| (I.2.6)

Demostraci´n.- Sea x = a · 10b y arr(x) = a · 10b . Si se redondea a l cifras o ¯ significativas se tiene |¯ − a| ≤ 5 · 10−l−1 , a de donde |arr(x) − x| 5.10−l−1 |¯ − a| · 10b a ≤ = 5 · 10−l = eps = b |x| 10−1 |a| · 10 por que |a| ≥ 1/10. La estimaci´n dada por (I.2.6) puede ser escrita bajo la forma o arr(x) = x(1 + ǫ), donde |ǫ| ≤ eps. (I.2.7)

Como se ver´ m´s adelante, la relaci´n (I.2.7) es la base fundamental para a a o todo estudio de los errores de redondeo.

10

I Preliminares

Cuando se trabaja en un computador, se tiene que ser cuidadoso en la soluci´n de los problemas, pues ya no se resuelve con los datos exactos, si o no con los datos redondeados. Consid´rese la ecuaci´n de segundo grado e o √ x2 − 2 2x + 2 = 0, √ cuya soluci´n x = 2 es un cero de multiplicidad 2. Resolviendo en simple o precisi´n, la computadora da un mensaje de error, debido a que o √ arr( 2) = 0.141421 · 10, √ arr(arr( 2)2 − 2) = −0.119209 · 10−6 . Como puede observarse, la manipulaci´n de ciertos problemas utilizando la o aritm´tica del punto flotante puede ocasionar grandes dificultades, como en e el ejemplo anterior. Es por eso necesario introducir el concepto de condici´n o de un problema, el cual est´ dado en la: a Definici´n I.2.3.- Sea P(x) un problema dado por P : Rn → R. La o condici´n κ del problema P es el n´mero mas peque˜o positivo κ, tal que o u n |¯i − xi | x ≤ eps |xi | ⇒ |P(¯) − P(x)| x ≤ κ eps. |P(x)| (I.2.8)

Se dice que el problema P es bien condicionado si κ no es demasiado grande, sino el problema es mal condicionado. En la definici´n, eps representa un n´mero peque˜o. Si eps es la o u n precisi´n de la computadora entonces xi puede ser interpretado como el o ¯ redondeo de xi . Por otro lado, es necesario resaltar que κ depende solamente del problema, de x y no as´ del algoritmo con el que se calcula P(x). Para ı comprender m´s sobre la condici´n de un problema se analizar´ los siguientes a o a dos ejemplos. Ejemplos 1.- Multiplicaci´n de dos n´meros reales. Sean x1 y x2 reales, consid´rese el o u e problema calcular P(x1 , x2 ) = x1 · x2 . Para los dos valores perturbados x1 = x1 (1 + ǫ1 ), ¯ x2 = x2 (1 + ǫ2 ), ¯ |ǫi | ≤ eps; (I.2.9) se obtiene x 1 · x 2 − x1 · x2 ¯ ¯ = (1 + ǫ1 )(1 + ǫ2 ) − 1 = ǫ1 + ǫ2 + ǫ1 · ǫ2 . x1 · x2

Puesto que eps es un n´mero peque˜o, el producto ǫ1 . · ǫ2 es despreciable u n respecto a |ǫ1 | + |ǫ2 |, de donde x 1 · x2 − x 1 · x 2 ¯ ¯ ≤ 2 · eps. x 1 · x2 (I.2.10)

I.2 Estabilidad

11

Por consiguiente, κ = 2. El problema es bien condicionado. 2.- Adici´n de numeros reales. Para el problema P(x1 , x2 ) = x1 + x2 , por o analog´ al ejemplo precedente, se obtiene ıa (¯1 + x2 ) − (x1 + x2 ) x ¯ x1 ǫ1 − x2 ǫ2 |x1 | + |x1 | eps. = ≤ x1 + x2 x1 + x2 |x1 + x2 | (I.2.11)

Si x1 y x2 son de signos iguales, se tiene κ = 1, de donde el problema es bien condicionado. |x1 | + |x1 | Pero, si x1 ≈ −x2 , la condici´n κ = o se convierte en |x1 + x2 | una cantidad muy grande. Motivo por el cual el problema est´ mal a condicionado. Para mejor ilustrar el efecto de condici´n muy grande, o consid´rese el siguiente ejemplo num´rico. e e x1 = 1 , 51 x2 = − 1 , 52 para el cual κ ≈ 2/50 = 100. (1/50)2

Realizando el c´lculo con 3 cifras significativas en base 10, se obtiene a x1 = .196 · 10−1 , x2 = −.192 · 10−1 y x1 + x2 = .400 · 10−1 . Como las ¯ ¯ ¯ ¯ dos primeras cifras son las mismas para x1 y x2 , la adici´n las ha hecho ¯ o desaparecer y no hay m´s que una cifra que es significativa. El resultado a exacto es 1/(51 · 52) = 0.377 · 10−3 . Respecto a la definici´n de condici´n, se debe observar dos situao o ciones. La primera, si uno de los xi = 0, entonces se tiene xi = 0; la segunda ¯ sucede cuando P(x) = 0, la condici´n se la calcula pasando al l´ o ımite. Una vez definida la condici´n de un problema, el siguiente paso es o ver la incidencia que tienen los errores de redondeo en la implementaci´n de o un algoritmo para resolver un problema dado. Tal como se dijo en la secci´n o precedente, un algoritmo es una sucesi´n finita de operaciones elementales, o es decir P(x) = fn (fn−1 (. . . f2 (f1 (x)) . . .)). (I.2.12) La amplificaci´n del error, efectuando la operaci´n fi , est´ dada por la o o a condici´n κ(fi ). Por consiguiente: o Proposici´n I.2.4.- El algoritmo que resuelve el problema dado por o (I.2.12), tiene la estimaci´n siguiente o κ(P) ≤ κ(f1 ) · κ(f2 ) · · · κ(fn ). (I.2.13)

Demostraci´n.- Por inducci´n sobre n. Para n = 1, el resultado es trivial. o o Sup´ngase, que es cierto para n, por lo tanto, si el problema es de la forma o P(x) = fn+1 (fn (fn−1 (. . . f2 (f1 (x)) . . .))),

12 puede escribirse como P(x) = fn+1 (P ′ (x)), utilizando la definici´n de condici´n se tiene o o

I Preliminares

|P ′ (x) − P ′ (¯)| x ≤ κ(P ′ )eps ′ |P (x)| |fn+1 (P ′ (x)) − fn+1 (P ′ (¯))| x ≤ κ(fn+1 )κ(P ′ )eps. ⇒ |fn+1 (P ′ (x))| Finalmente utilizando la hip´tesis de inducci´n, se tiene (I.2.13). o o Definici´n I.2.5.- Un algoritmo es num´ricamente estable, en el sentido de o e forward analysis, si κ(f1 ) · κ(f2 ) · · · κ(fn ) ≤ Const · κ(P) donde Const no es demasiado grande. La f´rmula (I.2.14) expresa el hecho de que la influencia de los o errores de redondeo durante el c´lculo de P(x) no es mucho m´s grande a a que la influencia de los errores en los datos, lo que en realidad es inevitable. Ejemplo Sea x = 104 y consid´rese el problema de calcular 1/(x(1 + x)). Se e examinar´ los dos algoritmos siguientes: El primero definido por a ր ց x ց ր 1 . x(x + 1) (I.2.14)

x

x(x + 1) −→

x+1

Las operaciones efectuadas son muy bien condicionadas, por consiguiente, este algoritmo es num´ricamente estable. e El segundo algoritmo definido por ր ց 1/x ց ր

x

1 1 1 − = . x x+1 x(x + 1)

x + 1 −→ 1/(x + 1)

En este algoritmo, solamente las tres primeras operaciones son bien condicionadas. Sin embargo la ultima operaci´n, la sustracci´n, es muy ´ o o

I.2 Estabilidad

13

mal condicionada, porque 1/x ≈ 1/(x + 1). Entonces, este algoritmo es num´ricamente inestable. e La verificaci´n, si un algoritmo es estable en el sentido de forward o analysis, sobre todo si el n´mero de operaciones es elevado, es a menudo u muy compleja y dificil. Por esta razon, Wilkinson introduj´ otra definici´n o o de la estabilidad de un algoritmo. Definici´n I.2.6.- Un algoritmo para resolver el problema P(x) es num´rio e camente estable en el sentido de backward analysis si el resultado num´rico y e ¯ puede ser interpretado como un resultado exacto para los datos perturbados x, es decir y = P(¯), y si ¯ ¯ x |¯i − xi | x ≤ Const · eps, |xi | (I.2.15)

donde Const no es demasiado grande y eps es la precisi´n de la computadora. o De la definici´n I.2.6 y (I.2.15) se deduce que, en el estudio de este tipo o de estabilidad no se requiere conocer de antemano la condici´n del problema. o Ejemplo Consid´rese el problema de calcular el producto escalar x1 · x2 + x3 · x4 . e Para calcular ´ste, se utiliza el algoritmo e ր ց x1 · x2 x1 · x2 ց ր

(x1 , x2 , x3 , x4 )

x 1 · x 2 + x3 · x 4 .

(I.2.16)

El resultado num´rico bajo la influencia de los errores de redondeo es e x1 (1 + ǫ1 ) · x2 (1 + ǫ2 )(1 + η1 ) + x3 (1 + ǫ3 ) · x4 (1 + ǫ4 )(1 + η2 ) (1 + η3 ), donde |ǫi | , |ηj | ≤ eps. Este resultado es igual a x1 · x2 + x3 · x4 , si se ¯ ¯ ¯ ¯ plantea x1 = x1 (1 + ǫ1 )(1 + η1 ), ¯ x2 = x2 (1 + ǫ2 )(1 + η3 ), ¯ x3 = x3 (1 + ǫ3 )(1 + η2 ), ¯ x4 = x4 (1 + ǫ4 )(1 + η3 ). ¯

Despreciando los productos de la forma ηi · ǫj , la relaci´n (I.2.15) es o satisfecha con Const = 2. Por lo tanto, el algoritmo (I.2.16) siempre es num´ricamente estable en el sentido de backward analysis. e El ejemplo precedente muestra que un algoritmo puede ser estable, incluso si el problema est´ mal condicionado. En consecuencia, es necesario a bien distinguir las nociones de estabilidad y condici´n. o

14

I Preliminares

Ejercicios
1.- ¿Cual es la condici´n de la sustracci´n de dos n´meros? o o u 2.- Determinar la condici´n del problema P(x1 , x2 ) = x1 /x2 con x2 = 0. o 3.- Hallar la condici´n del c´lculo del producto escalar o a
n

x, y =
i=1

xi yi .

4.- Mostrar que el sistema lineal ax + by = 1 , cx + dy = 0 con ad = bc

es num´ricamente estable en el sentido de backward analysis. e 5.- Las raices del polinomio x2 − 2px − q = 0 son: λ1 = p + p2 + q, λ2 = p − p2 + q.

Mostrar que para p > 0, grande, y q ≥ 0, muy peque˜o, este algoritmo n es num´ricamente inestable. Utilizando la relaci´n λ1 λ2 = q, encontrar e o un algoritmo que es num´ricamente estable en el sentido de backward e analysis.

I.3 Un ejemplo: C´lculo de Pi a

En las secci´n precedente se ha visto que el dispositivo material que efectua o los c´lculos num´ricos tiene en general dos tipos de n´meros: los enteros a e u que se asemejan mucho a los enteros matem´ticos y el tipo real que es a una representaci´n del n´mero real. Tal como se mostr´, ambos tipos de o u o n´mero presentan ciertas particularidades, por ejemplo son en cantidad u finita, para el tipo real existe el redondeo de los n´meros. Por consiguiente u si se utiliza el tipo real para determinar π, se tendr´ una precisi´n de a o 8 decimales; para doble precisi´n se obtendra 16 decimales de precisi´n; o o para cuadruple precisi´n, que algunos lenguajes de programaci´n cuentan, o o se obtendr´ 32 decimales de precisi´n. Por lo tanto, la precisi´n para obtener a o o π est´ determinada por el lenguaje de programaci´n y en algunos casos por a o el tipo de computadora con que se cuenta. En esta secci´n se pretende mostrar que estas limitaciones no constituyen o necesariamente un impedimento para determinar un n´mero, en particular u π, con la precisi´n que se desee. o Una de las maneras m´s usuales de determinar π es utilizar el desarrollo a en serie de Taylor en el origen de arctan x, el cual est´ dado por a

arctan x =
k=0

(−1)k 2k+1 x . 2k + 1

(1.3.1)

De (I.3.1) se deduce, para x = 1, que

π=4
k=0

(−1)k . 2k + 1

(I.3.2)

Como se recalc´ en la secci´n I.2, utilizar la serie (I.3.2) no es conveniente, o o por que la convergencia de esta serie es muy lenta. Utilizando la relaci´n o tan(α + β) = una verificaci´n inmediata conduce a o π 1 1 1 = 12 arctan + 8 arctan − 5 arctan . 4 18 57 239 Remplazando (I.3.1) en (I.3.3), da como resultado (I.3.3) tan α + tan β , 1 − tan α tan β

16

I Preliminares

π = 48
k=0

(−1)k 1 2k+1 ( ) 2k + 1 18
A ∞

+ 32
k=0

(−1)k 1 2k+1 − 20 ( ) 2k + 1 57
B

k=0

(−1)k 1 2k+1 . ( ) 2k + 1 239
C

(I.3.4)

Ahora bien, se desea obtener una representaci´n de π en notaci´n decimal o o con N decimales de precisi´n. Si cada serie del lado derecho de (I.3.4) es o calculada con una precisi´n de 10−(N +1) se tiene largamente la precisi´n o o ˆ ˆ deseada. Denotando por A, el valor calculado de A; B, el valor calculado de ˆ B y C, el valor calculado de C, se tiene:
MA

ˆ A = 48
k=0 MB

(−1)k 1 2k+1 ( ) , 2k + 1 18 (−1)k 1 2k+1 ( ) , 2k + 1 57 (−1)k 1 2k+1 ( ) . 2k + 1 239

ˆ B = 32
k=0 MC

ˆ C = 20
k=0

De donde:

ˆ A − A = 48 ˆ B − B = 32 ˆ C − C = 20

k=MA +1 ∞

(−1)k 1 2k+1 (1/18)2MA +3 ( ) ≤ 48 , 2k + 1 18 1 − (1/18)2 (−1)k 1 2k+1 (1/57)2MB +3 , ( ) ≤ 32 2k + 1 57 1 − (1/57)2 (−1)k 1 2k+1 (1/239)2MC +3 . ( ) ≤ 20 2k + 1 239 1 − (1/239)2

k=MB +1 ∞

k=MC +1

ˆ Por hip´tesis, se tiene por ejemplo que A − A ≤ 10−(N +1) , por lo tanto o para asegurar esta precisi´n es suficiente que o 48 (1/18)2MA +3 ≤ 10−(N +1) , 1 − (1/18)2 (1/18)2MA +3 = 10−(N +1) , 1 − (1/18)2

remplazando el signo ≤ por =, se tiene 48 (I.3.5)

´ I.3 Un ejemplo: Calculo de Pi obteniendo de esta manera log10 (48) − (2MA + 3) log10 (18) − log10 (1 − (1/18)2 ) = −(N + 1). Despejando MA , se obtiene MA = N + 1 + log10 (48) − 3 log10 (18) + (1/18)2 . 2 log10 (18)

17

(I.3.6)

Del mismo modo se llega a: MB = N + 1 + log10 (32) − 3 log10 (57) + (1/57)2 , 2 log10 (57) N + 1 + log10 (20) − 3 log10 (239) + (1/239)2 MC = . 2 log10 (239) (I.3.7) (I.3.8)

Una vez determinada la cantidad de t´rminos en cada serie para calcular e ˆ ˆ ˆ A, B y C, es necesario definir una representaci´n de los n´meros reales y o u ˆ ˆ ˆ su respectiva aritm´tica que permita calcular A, B y C con la precisi´n e o requerida. Sea b > 1, entonces todo n´mero positivo x se escribe de manera unica u ´ como ∞ 1 (I.3.9) x= ak k , b k=0 donde 0 ≤ ak < b para k ≥ 1. Suponiendo que b = 10m , para obtener una representaci´n de x con N decimales de precisi´n, es suficiente conocer ak o o para 0 ≤ k ≤ N/m + 2. Se suma 2 a la cota anterior por seguridad. Por lo tanto, para todo n´mero positivo x,el redondeado x con N cifras decimales u ˆ de precisi´n puede escribirse como o
N/m+2

x= ˆ
k=0

ak /10m k , ¯

(I.3.10)

con 0 ≤ ak < 10m para k ≥ 1. Comparando (I.3.9) con (I.3.10) se tiene ¯ que ak = ak para 0 ≤ k ≤ N/m + 1 y |ak − ak | ≤ 1 para k = N/m + 2, ¯ ¯ deduciendose de esta manera la: Proposici´n I.3.1.- Sea x un n´mero no negativo y x su representaci´n o u ¯ o dada por (I.3.10), entonces |ˆ − x| ≤ 10−(N +2m) . x (I.3.11)

18

I Preliminares

Con los elementos presentados, se est´ en la capacidad de formular un a ˆ ˆ ˆ algoritmo que permita calcular A, B, y C; por razones obvias el algoritmo ser´ el mismo. Por consiguiente, es suficiente dar el m´todo que permita a e ˆ calcular A con la precisi´n requerida. De la f´rmula (I.3.4) se puede observar o o que las operaciones efectuadas son adiciones o sustracciones, divisiones por expresiones de la forma (2k + 1) y divisiones por 18 o 182 . La aritm´tica ser´ e a consiguientemente definida en tres pasos o ´tapas. e El primer paso ser´ definir la division por un entero p. Sea x un real a positivo, su redondeo se escribe como en (I.3.10), por consiguiente x/q redondeado se escribe x = bk /10m k , (I.3.12) q k=0 donde los bk se los define de manera recursiva, utilizando la divisi´n o euclidiana, as´ ı: a0 = b0 q + r0 , a1 + r0 · 10m = b1 q + r1 , (I.3.13) . . . aN/m+2 + rN/m+1 · 10m = bN/m+2 + rN/m+2 . El segundo paso ser´ definir la adici´n y la sustracci´n para dos reales a o o positivos x y y. Si se denota los redondeados por x y y , sus representaciones ˆ ˆ en punto fijo est´n dadas por: a
N/m+2 N/m+2 N/m+2

x= ˆ
k=0

ak /10m k ,

y= ˆ
k=0

bk /10m k .

La suma redondeada se escribe por lo tanto
N/m+2

x±y = ˆ ˆ

ck /10m k ,
k=0

(I.3.14)

donde los ck est´n definidos recursivamente, utilizando la divisi´n eua o clidiana, por: cN/m+2 + dN/m+2 10m = aN/m+2 ± bN/m+2 ,

cN/m+1 + dN/m+1 10m = aN/m+1 ± bN/m+1 + dN/m+2 , (I.3.15) . . . c0 = a0 ± b0 + d1 . El tercer paso ser´ definir la multiplicaci´n de un real positivo con un a o entero q. Sea el productovskip-3pt
N/m+2

qx = ˆ
k=0

bk /10m k ,

(I.3.16)

´ I.3 Un ejemplo: Calculo de Pi

19

donde x est´ dado por (I.3.10), los coeficientes bk est´n definidos recursivaˆ a a mente, utilizando la divisi´n euclidiana, de la manera siguiente: o qaN/m+2 = bN/m+2 + dN/m+2 10m , qaN/m+1 + dN/m+2 = bN/m+1 + dN/m+1 10m , . . . b0 = qa0 + d1 . (I.3.17)

Habiendo definido las operaciones requeridas para calcular π con la precisi´n requerida, se puede definir el algoritmo que calcular´ A, y por o a ˆ consiguiente π . ˆ Algoritmo 1.- Se define x := 1/18, a = x, k = 0. 2.- Hacer para k = 1 hasta k = MA : x := x/182 , y := x/(2k + 1), a; = a + (−1)k y. 3.- a := 48 · a.

Finalmente, se debe hacer un an´lisis de la propagaci´n de errores de a o ˆ redondeo, cometidos en el c´lculo de A, para asegurar que el resultado que a de la computadora corresponde con lo esperado. Este estudio se lo efectuar´ a en tres partes. Sea x2k+1 el resultado realizado por el algoritmo al calcular ˆ x2k+1 para x = 1/18. Utilizando la proposici´n I.3.1, se tiene, o x = x + ǫ, ˆ deduciendose inmediatamente: x3 = (x + ǫ)/182 + η, ˆ x5 = x3 /182 + δ, ˆ ˆ . . . (I.3.19) |ǫ| ≤ 10−N −2m : (I.3.18)

La segunda operaci´n, que aparece en el algoritmo, es la divisi´n por los o o enteros de la forma 2k + 1. Por el mismo procedimiento que antes, se llega a x2k+1 /(2k + 1) − x2k+1 /(2k + 1) ≤ 2 · 10−N −2m . (I.3.21)

Utilizando desigualdades triangulares y considerando series geom´tricas, se e obtiene 1 x2k+1 − x2k+1 ≤ ˆ 10−N −2m . (I.3.20) 1 − (1/18)2

20

I Preliminares

ˆ Por ultimo para obtener A, se tiene una suma de MA + 1 t´rminos y un e producto por 48. En cada suma se comete un error menor a 2 · 10−N −2m , de donde se tiene como estimaci´n del error acumulado o ˆ A − A ≤ 192(MA + 1)10−N −2m (I.3.22)

Ahora bien, si 192(MA + 1) es m´s peque˜o que 102m−1 , entonces el objetivo a n es satisfecho largamente. Como ilustraci´n de lo expuesto, se ha calculado π con 10000 decimales o de precisi´n, utilizando una HP-9000. o π con 10000 decimales
3.1415926535 5820974944 8214808651 4811174502 4428810975 4564856692 7245870066 7892590360 3305727036 0744623799 9833673362 6094370277 0005681271 1468440901 4201995611 5187072113 5024459455 7101000313 5982534904 1857780532 3809525720 0353018529 5574857242 8175463746 8583616035 9448255379 9331367702 2533824300 6782354781 5570674983 3211653449 6369807426 8164706001 1613611573 4547762416 5688767179 8279679766 7392984896 0674427862 4677646575 9465764078 2671947826 4962524517 5709858387 6868386894 8459872736 4390451244 4169486855 0168427394 6456596116 1507606947 2287489405 9009714909 2265880485 8979323846 5923078164 3282306647 8410270193 6659334461 3460348610 0631558817 0113305305 5759591953 6274956735 4406566430 0539217176 4526356082 2249534301 2129021960 4999999837 3469083026 7838752886 2875546873 1712268066 1065485863 6899577362 4541506959 4939319255 6370766010 7747268471 8989152104 3558764024 6360093417 8505494588 8720275596 5425278625 6145249192 5255213347 8625189835 0494601653 8145410095 0841284886 2039194945 7396241389 9512694683 8482601476 4939965143 4105978859 2774155991 4469584865 1365497627 5848406353 5226746767 3548862305 9451096596 6010150330 6759852613 7564014270 2643383279 0628620899 0938446095 8521105559 2847564823 4543266482 4881520920 4882046652 0921861173 1885752724 8602139494 2931767523 7785771342 4654958537 8640344181 2978049951 4252230825 5875332083 1159562863 1300192787 2788659361 2599413891 5082953311 0604009277 4710181942 0404753464 7521620569 7496473263 2164121992 5869269956 0236480665 5181841757 1732172147 5741849468 6948556209 4668049886 3883786360 2694560424 0471237137 0865832645 9835259570 9909026401 1429809190 5977297549 8559252459 3836736222 8079771569 4220722258 8895252138 7745649803 0940252288 8617928680 6554978189 4775551323 5028841971 8628034825 5058223172 6446229489 3786783165 1339360726 9628292540 1384146951 8193261179 8912279381 6395224737 8467481846 7577896091 1050792279 5981362977 0597317328 3344685035 8142061717 8823537875 6611195909 5338182796 2497217752 6861727855 0167113900 9555961989 6208046684 6602405803 9141992726 4586315030 9092721079 4991198818 4672890977 7235014144 4385233239 9219222184 2723279178 9506800642 1965285022 8696095636 9958133904 9825822620 3639443745 6592509372 8930161753 5395943104 6260991246 1435997700 2848864815 5225499546 5593634568 7971089314 9208747609 3129784821 7964145152 6939937510 3421170679 5359408128 5493038196 2712019091 0249141273 9171536436 9415116094 3105118548 8301194912 1907021798 7669405132 7363717872 6892589235 4771309960 1609631859 2619311881 7669147303 9375195778 2164201989 8230301952 8347913151 8890750983 9848824012 4676783744 2590694912 8150193511 0426992279 2861829745 7509302955 3479775356 7727938000 1973568548 0739414333 2725502542 6085784383 2512520511 2106611863 4371917287 7802759009 5224894077 5305068203 2169646151 9284681382 9972524680 0805124388 1296160894 8456028506 6672782398 1743241125 5669136867 1782493858 6829989487 3746234364 E-00050 E-00100 E-00150 E-00200 E-00250 E-00300 E-00350 E-00400 E-00450 E-00500 E-00550 E-00600 E-00650 E-00700 E-00750 E-00800 E-00850 E-00900 E-00950 E-01000 E-01050 E-01100 E-01150 E-01200 E-01250 E-01300 E-01350 E-01400 E-01450 E-01500 E-01550 E-01600 E-01650 E-01700 E-01750 E-01800 E-01850 E-01900 E-01950 E-02000 E-02050 E-02100 E-02150 E-02200 E-02250 E-02300 E-02350 E-02400 E-02450 E-02500 E-02550 E-02600 E-02650 E-02700

´ I.3 Un ejemplo: Calculo de Pi
5428584447 2135969536 0374200731 8687519435 8191197939 9839101591 5679452080 6638937787 0306803844 6660021324 1005508106 4011097120 2305587631 7321579198 7229109816 5725121083 6711136990 3515565088 8932261854 6549859461 2332609729 5836041428 1809377344 4492932151 2131449576 2807318915 6655730925 4769312570 3348850346 8455296541 7002378776 1127000407 6343285878 2021149557 0990796547 2996148903 9389713111 0480109412 8530614228 7716692547 9769265672 8888007869 6171196377 4252308177 6222247715 7805419341 5695162396 4786724229 4037014163 2168895738 5578297352 9906655418 3162499341 3220777092 3166636528 7723554710 9456127531 3114771199 0408591337 7152807317 8350493163 4781643788 9562586586 8584783163 4803048029 2742042083 2901618766 9914037340 2540790914 8798531887 2784768472 3503895170 1960121228 9526586782 2314429524 0578539062 0643021845 9520614196 9561814675 9514655022 0830390697 7734549202 3408819071 6587969981 6280439039 7635942187 4148488291 9091528017 5791513698 8658516398 4909989859 8963213293 6371802709 9712084433 1388303203 4030707469 6084244485 8572624334 4411010446 4711055785 5863566201 1136576867 2665408530 5913440171 8547332699 5698305235 6158140025 3761255176 0463994713 7904297828 1472213179 8137585043 4873898665 1463853067 2560290228 9213375751 0367515906 8915049530 4473774418 5864573021 2465436680 1496589794 3798623001 3344604281 7639792933 9131814809 1201905166 6193266863 5859548702 8134078330 2606381334 4641442822 6790770715 1284042512 5185290928 5570552690 0577775606 0058760758 2085661190 7952406163 4328752628 5135711136 7058429725 6860849003 2989392233 5993716231 1051141354 8493718711 1983874478 3191048481 6342875444 1426912397 5231603881 9207734672 6054146659 0486331734 6357473638 7595156771 3125147120 6447060957 3506712748 8209144421 3150197016 9823873455 3089857064 8199430992 5732654893 8249037589 2112019130 9637669838 4189303968 8232527162 3763466820 8558100729 5324944166 6143444318 2749470420 3908145466 8089330657 0126228594 5675135751 2962107340 5647503203 4764777262 0633217518 4949450114 3609657120 4721040317 1495950156 7350235072 9844489333 4263129860 6315981931 0980676928 0924323789 5937764716 5126272037 4419521541 2777710386 0962804909 3606273567 7908143562 3362542327 6776879695 7726346594 7213444730 1925651798 5452011658 4965209858 8887644624 2510474709 6254543372 4252257719 8896399587 9410911939 9167781314 3770242429 4517220138 3017114448 7357395231 0145765403 0847848968 0053706146 0643745123 4894090718 9301420937 2182562599 2520149744 6496514539 4052571459 5770042033 5329281918 5270695722 5832228718 0067510334 5151168517 2833163550 2046752590 4488957571 8239119325 8524374417 2033038019 9522868478 6426243410 0105265227 6531098965 3606598764 8039626579 5867697514 5622305389 4645880797 5740679545 1302164715 7829666454 4375189573 1986915140 2414254854 2979866223 6540628433 9180763832 2118608204 6049631862 8354056704 0963408780 8099888687 9516735381 2382806899 6907069779 5122893578 3431465319 3418994854 3877343177 2636019759 6303544776 4014517180 8394497538 9703098339 7047458784 6057007334 0694113528 3934196562 0338507224 8246857926 1643961362 1315359584 5429162991 9475729174 3251910760 9699009019 1651300500 1280696501 4640903890 1342716610 5902799344 3321445713 8067491927 7181921799 6494231961 6213785595 6615014215 2850732518 0579626856 1028970641 7869936007 2618612586 0917567116 3520935396 6711031412 1437657618 7647918535 7091548141 2828905923 9746366730 0291327656 7621101100 3123552658 7732269780 2111660396 2691862056 8611791045 7877185560 5661406800 9456131407 2708266830 7163775254 5097925923 7791745011 5961458901 2870808599 5403321571 7172159160 6639379003 7166416274 1900042296 9472654736 0386743513 7693259939 4132604721 2974167729 6400482435 4223625082 6015881617 7777416031 4473456738 2075456545 8828161332 2803504507 6246436267 2437205835 1307710987 7787201927 9243693113 0131470130 1349143415 2648293972 0395352773 6760449256 5068772460 9306455377 6426357455 2082520261 2116971737 5168323364 1784408745 6449544400 E-02750 E-02800 E-02850 E-02900 E-02950 E-03000 E-03050 E-03100 E-03150 E-03200 E-03250 E-03300 E-03350 E-03400 E-03450 E-03500 E-03550 E-03600 E-03650 E-03700 E-03750 E-03800 E-03850 E-03900 E-03950 E-04000 E-04050 E-04100 E-04150 E-04200 E-04250 E-04300 E-04350 E-04400 E-04450 E-04500 E-04550 E-04600 E-04650 E-04700 E-04750 E-04800 E-04850 E-04900 E-04950 E-05000 E-05050 E-05100 E-05150 E-05200 E-05250 E-05300 E-05350 E-05400 E-05450 E-05500 E-05550 E-05600 E-05650 E-05700 E-05750 E-05800 E-05850 E-05900 E-05950 E-06000 E-06050 E-06100 E-06150 E-06200 E-06250 E-06300 E-06350

21

22
6198690754 2283345085 8282949304 4611996653 2827892125 2183564622 3685406643 9567302292 1920419947 2711172364 8856986705 0516553790 8757141595 4460477464 1465741268 3634655379 9113679386 0126901475 1965362132 2772190055 3610642506 2276930624 0861533150 3776700961 5189757664 9164219399 3338945257 1266830240 8475651699 9104140792 7180653556 9598470356 8788202734 5771028402 6407655904 5178609040 7367812301 6161528813 7634757481 9203767192 4366199104 8244625759 1509682887 3408005355 5848358845 4043523117 9748442360 7267507981 3025494780 7429958180 2673430282 9289647669 2609275249 9588970695 4525564056 6909411303 9695946995 6922210327 9279068212 2248261177 0037279839 2543709069 2314593571 5510500801 2339086639 1596131854 7360411237 3084076118 7065874882 5020141020 2162484391 2645600162 4610126483 8516026327 0486082503 1377655279 8581538420 0771262946 0134967151 1939509790 1913933918 4553859381 3435439478 4315470696 6866273337 7811196358 9159950549 0492564879 4986419270 2708943879 4668476535 3926406160 6148425551 3904975008 7435363256 4452127473 2071512491 5216413767 4907236234 4239950829 2929525220 9811614101 8862150784 7252532567 2226293486 2092222453 7998066365 2909945681 7086671149 4587687126 8437909904 1935670911 2033229094 0337511173 1633303910 4782656995 9849175417 3142775687 6006651012 8007193045 2554709589 2490114195 7247162591 4418604142 7583183271 6035799646 3653494060 4482465151 1509526179 5657612186 4889218654 0738837781 1858963814 4004152970 7939612257 9849225284 9086996033 3833952942 3475464955 3599843452 3013052793 2569815793 6723585020 4035998953 3742880210 6999892256 5052983491 9302133219 3975175461 5685338621 3229563989 8819097303 1906996395 5680344903 0234395544 2218185286 5747458550 9958511562 3300594087 7374256269 8556145372 5638729317 9362016295 7616477379 1363581559 8792530343 6562710953 9160781547 9245449454 4043027253 9690314950 6468441173 6591228508 1187267675 0029960783 2451670908 5328612910 0034158722 3985626476 8254889264 5065265305 6558343434 6034891390 2317473363 0137751721 3346768514 5471918550 7225383742 9957449066 3818839994 9002909517 4120065975 7618932349 0455635792 2123828153 6685451333 6363954800 3142517029 9256504936 3402166544 8754711962 3780029741 5619673378 3648022967 4233562823 0918390367 0287830766 1429894671 7160504922 0276347870 5786905076 6978103829 2516105070 2054274628 6789766974 0724522563 5394590944 9276457931 9596881592 8740786680 7155184306 3953984683 8672523340 8989358211 8119800497 5245300545 9820595510 9597783779 2408514006 3323233421 5784322988 3068121602 0104903778 3478673303 4872332083 1541337142 4675200490 0742202020 5139844253 5919465897 8181152843 2368288606 8607648236 1910857598 9403265918 5558215725 6220415420 8690929160 7000699282 4248776182 9805349896 6914905562 8802545661 3718294127 7693385781 9562009939 9480457593 0080315590 2214477379 4644902636 1821408835 1758344137 4697486762 0283529716 5851276178 2292796501 1221033346 0911407907 1239480494 0448002670 6923488962 8183609003 3755890045 1844396582 2076651479 6236256125 8070576561 6089632080 3672220888 7094447456 5435784687 1242470141 8108175450 4310063835 3097164651 2705623526 6540360367 2205750596 2651341055 0704691209 0657922955 0560010165

I Preliminares
8818338510 3545500766 3936383047 2830871123 6745627010 3407239610 0580685501 0226353536 0237421617 6604433258 0730154594 2737231989 8764962867 1986835938 9046883834 7601123029 4892830722 7571555278 3187277605 2234157623 5141310348 6679570611 1340841486 3414334623 4423919862 4044378051 0310712570 5161841634 3028840026 1206604183 5829765157 5022629174 8425039127 0172967026 0336931378 7113864558 3610310291 1493140529 2485309066 3937517034 5512816228 0865739177 5223970968 6551658276 3445621296 5838292041 9875187212 6974992356 3860251522 7079119153 4962482017 7668440323 2380929345 6328822505 5337543885 3942590298 2163208628 5144632046 6822246801 3215137556 0134556417 8861444581 2147805734 1193071412 1983438934 4384070070 6012764848 4532865105 8344086973 9240190274 1409387001 2498872758 5256375678 E-06400 E-06450 E-06500 E-06550 E-06600 E-06650 E-06700 E-06750 E-06800 E-06850 E-06900 E-06950 E-07000 E-07050 E-07100 E-07150 E-07200 E-07250 E-07300 E-07350 E-07400 E-07450 E-07500 E-07550 E-07600 E-07650 E-07700 E-07750 E-07800 E-07850 E-07900 E-07950 E-08000 E-08050 E-08100 E-08150 E-08200 E-08250 E-08300 E-08350 E-08400 E-08450 E-08500 E-08550 E-08600 E-08650 E-08700 E-08750 E-08800 E-08850 E-08900 E-08950 E-09000 E-09050 E-09100 E-09150 E-09200 E-09250 E-09300 E-09350 E-09400 E-09450 E-09500 E-09550 E-09600 E-09650 E-09700 E-09750 E-09800 E-09850 E-09900 E-09950 E-10000

Cap´ ıtulo II Sistemas Lineales

Una gran cantidad de problemas implica la resoluci´n de sistemas lineales o de la forma Ax = b, donde a11  . . A= .  ···  a1n .  . , .  b1 .  b= . .  bn

an1

· · · ann

con coeficientes reales o complejos. Por esta necesidad es importante la construcci´n de algoritmos que permitan su resoluci´n en un tiempo razonable y o o con el menor error posible. Cada problema tiene su particularidad, motivo por el cual no existe un m´todo general mediante el cual se pueda resolver efie cazmente todos los problemas. Es verdad que existen m´todos casi generales, e que con peque˜as modificaciones pueden servir para encontrar la soluci´n n o de un problema particular. A lo largo de este cap´ ıtulo se expondr´n estos a m´todos, dando criterios de estabilidad y estimaciones de error. e En la primera secci´n se tratar´ la condici´n del problema lineal, para o a o este efecto ser´ necesario introducir elementos de la teor´ de normas en a ıa las matrices, para luego introducir las nociones relativas a la condici´n del o problema lineal. En la segunda secci´n se abordar´ los m´todos de resoluci´n como son: o a e o el Algoritmo de Eliminaci´n de Gauss, la Descomposici´n de Cholesky y o o algunas modificaciones de estos m´todos. En esta secci´n se estudiar´ la e o a implementaci´n de tales m´todos, como tambi´n la estabilidad de estos. o e e La tercera secci´n tratar´, la teor´ e implementaci´n de los m´todos iteo a ıa o e rativos lineales como: Jacobi, Gauss-Seidel y SOR. As´ mismo se analizar´n ı a algunos problemas tipos y se har´n comparaciones de tales metodos. a En la cuarta secci´n, se ver´ los m´todos de tipo gradiente cuyo enfoque o a e es diferente a los m´todos de las dos secciones precedentes, en efecto, son e m´todos que encuentran la soluci´n a partir de problemas de minimizaci´n. e o o Se resolver´n ejemplos tipos y se comparar´ la eficiencia de ´stos con otros a a e m´todos. e

24

II Sistemas Lineales

La ultima secci´n describir´ el M´todo de los M´ ´ o a e ınimos Cuadrados, como una generalizaci´n de lo anteriormente expuesto, introduciendo como coroo lario la noci´n de Pseudo-Inversa. As´ mismo se analizar´ la implementaci´n o ı a o del m´todo QR, incluyendo una estimaci´n del error de tal m´todo. e o e

II.1 Condici´n del Problema lineal o

Normas de Vectores y Matrices
La noci´n de norma y espacio normado es un instrumento matem´tico muy o a util en el estudio de las magnitudes que se manipulan, como tambi´n un e instrumento en el estudio de la convergencia y los l´ ımites. Se empezar´ a definiendo el concepto de norma en espacios Rn , para luego definir en el a ´lgebra de las matrices a coeficientes reales. Definici´n II.1.1.- Una norma sobre Rn es una aplicaci´n o o : Rn −→ R, con las siguientes propiedades: i) ii) iii) x ≥ 0, x = 0 ⇐⇒ x = 0; αx = |α| x , donde α ∈ R; x + y =≤ x + y .

La primera condici´n implica que una norma siempre es positiva y es o nula siempre y cuando el vector sea el vector nulo. La segunda propiedad es la homogeneidad de la norma y la tercera condici´n es m´s conocida como o a desigualdad del tri´ngulo. Las normas m´s usuales en Rn son las siguientes: a a
n

x

1

=
i=1

|xi | ,
1 2

norma ciudad-bloque;
2

n

x

2

=
i=1 n

|xi |

,
1 p

norma euclidiana;

x x

p

=
i=1

|xi |2

,

p > 1; norma de la convergencia uniforme.

= max |xi | ,
i=1,...,n

Estas normas, que son las usualmente utilizadas, tienen algunas propiedades en com´n. La m´s importante es que, si se aumenta en valor absoluto una u a de las componentes, la norma se incrementa. Es necesario formalizar este hecho, motivo por el cual, se tiene la:

26

II Sistemas Lineales

Definici´n II.1.2.- Si x = (x1 , . . . , xn ) ∈ Rn , se define el valor absoluto de o x como |x| = (|x1 | , . . . , |xn |). Se dice que |x| ≤ |y|, si |xi | ≤ |yi | para todo i = 1, . . . , n. Una norma sobre Rn se dice que es: (a) Mon´tona, si |x| ≤ |y| implica que x ≤ y para todo o x, y ∈ Rn . (b) Absoluta, si x = |x| para todo x ∈ Rn . Proposici´n II.1.3.- Una norma o si es absoluta. sobre Rn es mon´tona, si y solamente o

Demostraci´n.- Si la norma o es mon´tona, sea x ∈ Rn , llamenos y = |x|. o Como |x| ≤ |y|, y |y| ≤ |x| se tiene inmediatamente, porque la norma es mon´tona, que x = y . o Si la norma es absoluta, sea x ∈ Rn , consid´rese e x = (x1 , . . . , xk−1 , αxk , xk+1 , . . . , xn ), con α ∈ [0, 1]. Utilizando el hecho ¯ que la norma sea absoluta, desigualdad del tri´ngulo y efectuando c´lculos a a algebraicos se tiene: x = ¯ 1 1 (1 − α)(x1 , . . . , xk−1 , −xk , xk+1 , . . . , xn ) + (1 − α)x + αx 2 2 1 1 ≤ (1 − α) (x1 , . . . , xk−1 , −xk , xk+1 , . . . , xn ) + (1 − α) x + αx 2 2 1 1 = (1 − α) x + (1 − α) x + α x = x . 2 2

Ahora bien, si x = (x1 , . . . , xk , . . . , xn ) y y = (x1 , . . . , xk1 , yk , xk+1 , . . . , xn ), con |yk | ≥ |xk |, utilizando la desigualdad anterior se tiene x ≤ y . Para demostrar que |x| ≤ |y| implica que x ≤ y , se repite el anterior paso n veces, es decir una vez por cada componente. Una matriz de orden m×n puede ser vista como un vector que pertenece al espacio Rmn , de esta manera definir la norma de una matriz como la de un vector, pero se perder´ as´ muchas de las propiedades que tiene una ıa ı aplicaci´n lineal. Es por eso la: o Definici´n II.1.4.- Sea A una matriz de m × n, se define su norma como o A = sup
x=0

Ax = sup Ax . x x =1

(II.1.1)

La definici´n de la norma de una matriz depende evidentemente de las o normas elegidas para x y Ax . Sin embargo puede ser verificado sin ning´n problema, que la norma de una matriz, verifica las condiciones de u norma de un vector. La demostraci´n es una simple verificaci´n de estas o o condiciones, utilizando la definici´n de supremo. Adem´s si las norma de los o a espacios Rn y Rm son mon´tonas o absolutas, es facil verificar que la norma o

´ II.1 Condicion del Problema lineal

27

de matriz inducida por ´stas, es todav´ mon´tona; es suficiente utilizar e ıa o la definici´n para probar esta afirmaci´n. Por otro lado A es el n´mero o o u positivo m´s peque˜o α que satisface Ax ≤ α x , por lo tanto a n Ax ≤ A x , ∀x ∈ Rn . (II.1.2)

Una norma sobre el espacio de matrices verifica las siguientes propiedades, dada por la: Proposici´n II.1.5.- Cualquier norma sobre el espacio de las matrices o Mm (R) satisface las propiedades adicionales siguientes: I = 1, AB ≤ A (II.1.3) (II.1.4)

B .

Demostraci´n.- La relaci´n (II.1.3) de la proposici´n es consecuencia o o o inmediata de la definici´n de la norma de una matriz. o La relaci´n (II.1.4) es consecuencia de las observaciones hechas despu´s de o e la definici´n, en efecto o ABx ≤ A Bx ≤ A B ABx ≤ A B , x AB ≤ A B . x ,

Se ha dado las propiedades esenciales de la norma de matrices, pero es necesario conocer algunas de ´stas por su utilizaci´n frecuente. Utilizando e o la misma notaci´n que en las normas de los vectores definidas al inicio de o la secci´n, se puede utilizar la misma notaci´n en los ´ o o ındices de las normas de las matrices, con la convenci´n que las normas de los vectores tienen los o mismos ´ ındices. Teorema II.1.6.- Sea A una matriz de n × m, entonces:
n

A A A

1

= max =

j=1,...,m

i=1

|aij | ,

(II.1.5) (II.1.6) (II.1.7)

2

valor propio m´s grande de At A, a
m i=1,...,n

= max

j=1

|aij | .

28 Demostraci´n.- Se comenzar´ por A 1 , se tiene: o a
n m n m

II Sistemas Lineales

Ax

1

=
i=1 j=1 m n

aij xj ≤

i=1 j=1

|aij | |xj |
n

≤ por lo tanto A
1

j=1

i=1

|aij | |xj | ≤
n

j=1,...,m

max

i=1

|aij |

x

1

,

≤ max

j=1,...,m

i=1

|aij | .

Se mostrar´, que la igualdad se cumple, en efecto, sea jo tal que: a
n i=1 n

|aijo | = max

j=1,...,m

de esta manera Para la

2

se tiene:

 a1jo  .  A¯ =  .  x . amjo  Ax
2 2

i=1

|aij | ; y

x tal que xjo = 1, xi = 0 si i = jo ; ¯ ¯
n

=
i=1 1

|aijo | x ¯

1

.

= Ax, Ax = xt At Ax,

ahora bien At A es una matriz sim´trica definida positiva, de donde los e valores propios son reales no negativos, adem´s es posible formar una base de a vectores propios ortonormales. Sea {e1 , . . . , em } una base de vectores propios
m m

ortonormales, entonces x =
i=1 m

αi ei y Ax =
i=1 m

λi αi ei , donde los λi ≥ 0 son

los valores propios de A. Por lo tanto, se tiene Ax
2 2

=
i=1

2 λ2 αi ≤ max λi i i=1,...,m

2 αi = max λi x i=1 i=1,...,m

2

.

Para obtener la igualdad, es suficiente tomar x = ejo , donde λjo es el autovalor m´s grande. a Para la ∞ se tiene:  
m m

Ax

= max

i=1,...,n

≤ max 
i=1...,n

j=1 m

aij xj ≤ max 
i=1,...,n j=1,...,m

j=1 m

|aij | max |xj | ≤  max

j=1

|aij | |xj |
i=1,...,n

m

j=1

|aij | x

,

as´ ı

A

≤ max

j=1,...,m

j=1

|aij | .

´ II.1 Condicion del Problema lineal

29

Para obtener la igualdad es suficiente tomar x = ½, donde ½ = (1, . . . , 1)t .

La Condici´n de una Matriz o
La resoluci´n de un sistema lineal de ecuaciones debe hacer meditar sobre o muchos aspectos relacionados, como ser la existencia de la soluci´n, si el o problema a resolver est´ bien condicionado, conocer una estimaci´n del error a o cometido en la soluci´n num´rica, etc. Se tiene inicialmente el sistema de o e ecuaciones Ax = b, donde A ∈ Mn (R), y b ∈ Rn ; (II.1.8) el problema es encontrar x ∈ R que sea soluci´n del sistema (II.1.8), esta o situaci´n puede escribirse formalmente como o P(A, b) = x. De esta manera la condici´n del problema est´ dada por o a ¯ b) P(A, b) − P(A, ¯ ≤ cond · eps, |P(A, b)| donde: aij = aij (1 + ǫij ), ¯ ¯i = bi (1 + ǫi ), b |ǫij | ≤ eps; |ǫi | ≤ eps. (II.1.10) (II.1.10′ ) (II.1.9)

x−x ¯ ¯ b) ¯ Si se plantea P(A, ¯ = x, se tiene ≤ cond · eps. Por otro lado, x considerando que solamente normas mon´notas son utilizadas, se tiene: o  de esta manera ¯ A − A ≤ eps A y ¯ − b ≤ eps b . b (II.1.11) a11 ǫ11  . . .  a1n ǫn1 .  ≤ eps A , . . · · · ann ǫnn ··· . . .

an1 ǫn1

Suponiendo que la matriz sea inversible, se puede enunciar el siguiente teorema, pero antes una definici´n es necesaria. o Definici´n II.1.7.- La condici´n de una matriz A inversible se define como o o cond(A) = A A−1 . (II.1.12)

30

II Sistemas Lineales

Teorema II.1.8.- Sea A una matriz con det A = 0, sup´ngase que o ¯ b A − A ≤ A ǫA , ¯ − b ≤ b ǫb . Si ǫA cond(A) < 1, entonces x−x ¯ cond(A) ≤ (ǫA + ǫb ). x 1 − ǫA cond(A) (II.1.13)

1 Si adem´s se tiene ǫA cond(A) < 2 , entonces la condici´n del problema a o resolver Ax = b es ≤ 2cond(A). ¯x b, Demostraci´n.- Se tiene Ax = b y A¯ = ¯ de donde: o

¯x ¯x Ax − A¯ = b − ¯ y Ax − A¯ + Ax − A¯ = b − ¯ b x ¯ b, −1 ¯ ¯ − A)¯ + (b − ¯ A(x − x) = (A ¯ x b), x − x = A (A − A)¯ + A−1 (b − ¯ ¯ x b), introduciendo las desigualdades en las normas se obtiene: ¯ b ¯ x − x ≤ A−1 A − A x + A−1 ¯ − b ¯ ¯ ≤ A−1 ( A ǫA ( x + x − x ) + b ǫb ) ¯ ≤ A−1 A (ǫA ( x + x − x ) + x ǫb ) , x−x ¯ cond(A) ≤ (ǫA + ǫb ). x 1 − ǫA cond(A)

de esta manera

Como la condici´n del problema lineal est´ ´ o a ıntimamente ligada a la condici´n de la matriz, es importante conocer algunas de sus propiedades, o dadas por la: Proposici´n II.1.9.- La condici´n de una matriz satisface las siguientes o o propiedades: cond(A) ≥ 1; cond(I) = 1; cond(αA) = cond(A), Demostraci´n.- Verificaci´n inmediata. o o Ejemplos 1.- Q ortogonal, es decir Qt Q = I, la condici´n respecto a la norma o 2 esta dada por cond2 (Q) = 1. (II.1.17) 2.- Sea la matriz A dada por   (II.1.14) (II.1.15) (II.1.16)

α ∈ R.

4 1  1 4 1  . ..  . . A=  . h .  . ··· . ··· ···

0 1 .. . 1

··· 0 ··· 0 . . . . . . 4 1 1 4

   ,  

´ II.1 Condicion del Problema lineal entonces A

31 (I + N ) donde

= 0

h

6

, adem´s A = a 4 0 .. . ···
1

h

4

Se deduce que

1 4 N = .  . .

0 4 .. . 0
1

0

 ··· 0 ··· 0  . , . ··· . 1 4 0

N

=

1 < 1. 2

A−1 = A−1

h h (I + N )−1 = (I − N + N 2 − N 3 + · · ·), 4 4 h ≤ (1 + N + N 2 + · · ·) 4 1 h ≤ 4 1− N h ≤ , 2

3.- El siguiente ejemplo muestra la existencia de una matriz mal condicionada. Sea H la matriz de n × n, llamada matriz de Hilbert, definida por hij = 1 , i+j−1 i, j = 1, . . . , n.

entonces cond∞ (A) ≤ 3, por lo tanto, la matriz es bien condicionada.

H es una matriz sim´trica definida positiva, motivo por el cual la e condici´n respecto a la norma euclidiana est´ dada por o a cond2 H = λmax , λmin (II.1.18)

donde los λ son valores propios de H. Se puede mostrar que cond2 H ∼ cen .

Se puede observar claramente que las matrices de Hilbert son mal condicionadas, inclusive para n bastante peque˜o. n 4.- Finalmente, este ejemplo muestra la existencia de otra matriz mal condicionada, como ser las matrices de Vandermonde. Sea V la matriz de n × n definida por   1 1 ··· 1 c2 ··· cn   c1 V = . . . ,  . . .  . . ··· .
n−1 c1 n−1 c2 n−1 · · · cn

32

II Sistemas Lineales donde los ci son diferentes. Se puede mostrar que la cond2 V ∼ bn , donde b > 1.

≤ 2cond(A)eps puede ser demasiada x pesimista, para ver esto, consid´rese el siguiente ejemplo, e Ahora bien, la estimaci´n o 1 1 0 108 x y = 2 1 .

x−x ¯

Si se llama A a la matriz del sistema, se tiene A 2 = 108 y A−1 ≈ 1. El sistema con los errores de redondeo incorporados, est´ dado por: a 1 + ǫ1 0 1 + ǫ2 108 (1 + ǫ3 ) y = 108 ¯ de donde = x ¯ y ¯ = ( 2(1 + ǫ4 ) 1 + ǫ5 ) ,

1 + ǫ5 ≃ 10−8 (1 + ǫ5 − ǫ3 ), 1 + ǫ3

|y − y | ¯ ≤ 2eps. |y| Calculando x, se tiene ¯ 2(1 + ǫ4 ) − (1 + ǫ2 )¯ y x= ¯ 1 + ǫ1 = = 2 − 10−8 + 2ǫ4 − 10−8 (ǫ2 + ǫ5 − ǫ3 ) 1 + ǫ1 x + 2ǫ1 − 10−8 (ǫ2 + ǫ5 − ǫ3 ) 1 + ǫ1

por lo tanto,

≃ x(1 + 4eps), |x − x| ¯ ≤ 4eps. |x|

El problema es bien condicionado, aunque la matriz A tenga una gran condici´n. Si se multiplica el sistema de ecuaciones por una matriz diagonal o D se obtiene, el nuevo problema dado por DAx = Db, por el teorema II.1.8, se tiene x−x ¯ ≤ 2cond(DA)eps, x En el ejemplo anterior, se plantea D= 1 0 0 10−8 , as´ DA = ı 1 1 0 1 , si cond(DA)eps < 1 . 2

´ II.1 Condicion del Problema lineal obteniendo el:

33

Corolario II.1.10.- Con las misma hip´tesis del teorema II.1.8, y adem´s o a 1 si cond(DA)eps < 2 , se tiene La condici´n del problema ≤ 2 o
D

inf
diagonal

cond(DA).

(II.1.19)

Ejercicios
1.- a) Sea definida en Rn . La bola unitaria cerrada se define como ¯ B = x ∈ Rn x ≤1 ,

2.- ¿Es la funci´n f (x) = |x1 − x2 | + |x2 | una norma sobre R2 ? Si lo es, ¿es o mon´tona? Dibujar la bola unitaria. o

mostrar que la bola unitaria es un conjunto convexo. b) Sea D un conjunto convexo acotado, en cuyo interior est´ 0. Si se supone a que D es equilibrado, es decir si x ∈ D implica que −x ∈ D. Mostrar que se puede definir una norma cuya bola unitaria cerrada sea precisamente D.

3.- Dar las condiciones para que una norma sea mon´tona, observando su o bola unitaria cerrada. 4.- Para una matriz A se define la norma de Frobenius como
n n

A

F

=
i=1 j=1

|aij | .

2

a) Mostrar que A F es una norma sobre Rn·n . b) Verificar la desigualdad A 5.- Verificar la desigualdad max |aij | ≤ A
i,j 2 2

≤ A

F

√ n A

2

.

≤ n. max |aij | .
i,j

6.- Sea A una matriz con det A = 0. Mostrar que A−1 = min Ax
x =1

.

34

II Sistemas Lineales

7.- Sea R una matriz triangular inversible. Mostrar que: |rii | ≤ R Deducir que condp (R) ≥ max
i,k p

,

|rii |−1 ≤ R−1

p

;

para p = 1, 2, ∞.

|rii | . |rkk |       

8.- Sea    A=    2 h0
1

+
1

h1 2

1

0
1 + 1 h1 h2 .. . ···

··· h2 .. . 0
1

··· ··· .. .
1 hn−2

0 0 . . . 1 2 h +h1 n−2 n−1

h1 0 0

la matriz, que se encuentra en la interpolaci´n spline. Mostrar: o a) cond∞ (A) puede ser arbitrariamente grande. (Si max hi / min hi −→ ∞). b) Existe una matriz diagonal D tal que cond∞ (DA) ≤ 3.

II.2 M´todos Directos e

En esta secci´n se desarrollar´ los algoritmos de resoluci´n directa de o a o sistemas lineales m´s comunes en la actualidad. El problema a resolver es a Ax = b, (II.2.1)

donde A ∈ Mn (R), x, b ∈ Rn . Por los resultados obtenidos en la teor´ del ıa Algebra Lineal, este sistema de ecuaciones lineales tiene una sola soluci´n, o si y solamente si det A = 0. Para mostrar la importancia de contar con algoritmos cuyo costo en operaciones sea m´ ınimo, vale la pena dar el siguiente ejemplo de resoluci´n de este sistema de ecuaciones lineales. El ejemplo o consiste en la utilizaci´n de la regla de Cramer, que en si misma constituye o uno de los resultados te´ricos m´s hermosos que se ha obtenido. Para ilustrar o a el m´todo de Cramer, se debe hacer algunas convenciones sobre la notaci´n. e o Para comenzar una matriz A de n × n se puede escribir como A = (A1 , . . . , An ) donde Ai es la i-esima columna de la matriz A. Dada una matriz A y un vector b ∈ Rn , se denota por A(j) = (A1 , . . . , Aj−1 , b, Aj+1 , . . . , An , la matriz obtenida remplazando la j-esima columna por el vector b. Ahora bien, la soluci´n del sistema (II.2.1) est´ dada por o a xi = det A(i) , det A

donde x = (x1 , . . . , xn ). Por lo tanto, la resoluci´n del sistema implica el o c´lculo de n+1 determinantes. Si para encontrar el valor de los determinantes a se utiliza la siguiente relaci´n o
n

signo(σ)
σ∈Sn i=1

aiσ(i) ,

donde Sn es el grupo de permutaciones de n elementos, se debe efectuar n! sumas. Si se desea resolver un sistema de 69 ecuaciones con el mismo n´mero u de incognitas, suponiendo que cada suma se efectua en 10−9 segundos, se tardar´ aproximadamente 6.75 × 1049 a˜os en llegar a la soluci´n del ıa n o

36

II Sistemas Lineales

problema. Como conclusi´n se puede decir que existen m´todos cuyo valor o e te´rico es importante, pero su ejecuci´n num´rica es desastrosa, raz´n por o o e o la cual es imprescindible implementar algoritmos cuyo costo no sea muy elevado.

El Algoritmo de Gauss
Uno de los algoritmos m´s utilizados, precisamente por su relativo bajo a costo, es el Algoritmo de Eliminaci´n de Gauss. Consid´rese el sistema de o e ecuaciones dado por   a11 x1   a21 x1 .  .  .  an1 x1 + + a12 x2 a22 x2 + + + ··· ··· +a1n xn +a2n xn = = . . . b1 b2

.

+ an2 x2

· · · +ann xn

= bn

El Algoritmo de Gauss consiste en: ai1 Primer paso Si a11 = 0, li1 = a11 , para i = 2, . . . , n. Se calcula lineai − li1 ∗ linea1 , para i = 2, . . . , n. Si a11 = 0 se intercambia lineas. Obteniendose el sistema equivalente dado por   a11 x1      + a12 x2 (1) a22 x2 . . . an2 x2
(1)

+ ··· + + ··· + + ··· +
(1)

a1n xn (1) a2n xn ann xn
(1)

= b1 (1) = b2 . . . . = bn
(1)

Paso 2 Si a22 = 0,

ai2 (1) , para i = 3, . . . , n. a22 Se calcula lineai − li2 ∗ linea2 , para i = 3, . . . , n. Si a22 = 0 se intercambia lineas.
(1)

li1 =

Se repite el procedimiento hasta obtener un sistema triangular de ecuaciones como el siguiente   r11 x1      + ··· + r1,n−1 xn−1 . . . rn−1,n−1 xn−1 + r1n xn = c1 . . . = cn−1 = cn

+ rn−1,n xn rnn xn

.

´ II.2 Metodos Directos De donde se tiene: cn , rnn cn−1 − rn−1,n xn xn−1 = , rn1 ,n−1 . . . c1 − r12 x2 − · · · − r1n xn x1 = . r11 xn =

37

(II.2.2)

Si se utiliza la notaci´n matricial, se obtiene el siguiente esquema del o algoritmo de Gauss, con las matrices aumentadas: (A, b)  ∗ ∗ ∗ ··· ∗ ∗ ∗ ···  .  . .  ∗ ∗ ∗ ··· ∗ ∗ ∗ ···    ∗ ∗  → 0 ∗        0 ∗ ∗ 0 ∗ ∗ ∗ ∗ A(1) , b(1) A(2) , b(2)  ∗ ∗  ∗   ∗

A(n−1) , b(n−1)

  ∗ ∗ ∗ ··· ∗ ··· ∗ ∗ ··· ∗ → 0 ∗ ∗ ···   . 0 0 ∗ ···  . . .  . .  . . . ∗ ··· ∗ 0 0 ∗ ··· ∗ ··· ∗

 ∗ ∗ ∗ ··· ∗ · · · −→  0 ∗ ∗ · · · ∗    0 0 ∗ ··· ∗.  . . .  . . .. ... . . 0 0 ··· 0 ∗ Teorema II.2.1.- Sea det A = 0. El algoritmo de Gauss da la descomposici´n siguiente: o P A = LR, (II.2.3) donde:  r11 0 ··· .. .  r1n .  . , .  l21 L= .  . . ln1  1 1 ln2 . ··· 1 .. 0   , 

R=

(II.2.4)

rnn

y P es una matriz de permutaci´n. o

Demostraci´n.- Sup´ngase, que las permutaciones necesarias han sido o o efectuadas al principio, es decir se aplica el Algoritmo de Gauss a la matriz

38

II Sistemas Lineales

P A. Para no complicar la notaci´n se escribe A, en vez de P A. Utilizando o el mismo esquema dado m´s arriba, se obtiene: a A −→ A(1) −→ · · · −→ A(n−1) = R, 1  −l21  =  −l31  .  . .  0 1 0 . . . 0 0 1 .. .  ··· 0 ··· 0  0 · · · 0  = L1 A,  ..  . 1  0 0  0  = L2 A,  

donde:

A(1)

A(2)

por lo tanto

−ln1 0 · · · 0  1 0 0 ··· 1 0 ··· 0   0 −l32 1 0 · · · = . .. . . . . . . 0 −ln2 0 · · ·

1

R = Ln−1 Ln−2 · · · L2 L1 A. Lo unico que falta mostrar, es que ´ L−1 = Ln−1 Ln−2 · · · L2 L1 , y para eso, se tiene:      Vi =       0 0 .. . 0 li+1,i . . . lni 0 . . . 0       .    

Li = I − Vi ,

donde

. 0 ··· 0

..

Se puede verificar facilmente que Vi Vj = 0 para i = 1, . . . , n, de donde se obtiene finalemente: L−1 = I + Vi , i L = I + V1 + V2 + · · · + Vn−1 . Muchas veces, es necesario calcular sistemas de la forma: Ax1 = b1 , Ax2 = b2 . (II.2.5)

´ II.2 Metodos Directos

39

Se calcula una vez la descomposici´n LR y se resuelve de la manera siguiente: o Ly = b, Rx = y. Teorema II.2.2.- La descomposici´n LR da el siguiente resultado, o det A = ±r11 r22 · · · rnn , donde los rii son coeficientes de la diagonal de R. Demostraci´n.- Utilizando identidades en los determinantes se tiene o det P det A = det L det R. (II.2.7) (II.2.6)

El costo de la descomposici´n LR. o Para evaluar cuantas operaciones son necesarias para llegar a la descomposici´n LR de una matriz A ∈ Mn (R), se procede de la manera siguiente: o C´lculo de los li1 : n − 1 divisiones a Para cada fila i, es necesario efectuar n − 1 multiplicaciones mas adiciones, lo que hace un total de (n − 1)2 multiplicaciones y adiciones.

A −→ A(1)

Por lo tanto, contando el n´mero de operaciones en cada ´tapa del algoritmo, u e se tiene # operaciones ≈ (n − 1)2 + (n − 2)2 + · · · + 22 + 12
n−1 i=1 n

= ≈ =

i2 x2 dx (II.2.8)

n . 3

0 3

2 La resoluci´n de LRx = b, implica aproximadamente n multiplicaciones o 2 m´s adiciones en la soluci´n de Ly = b. Igual n´mero de operaciones se a o u tiene para la resoluci´n de Rx = y, lo que hace un total aproximado de n2 o operaciones.

40 La elecci´n del pivote o

II Sistemas Lineales

Definici´n II.2.3.- Sea A una matriz, se llama pivote de la matriz A al o coeficiente a11 . Para ilustrar la necesidad en elegir un buen pivote, consid´rese el e siguiente ejemplo. La precisi´n de los c´lculos tienen tres cifras significativas o a en base 10. Sea el sistema de ecuaciones dado por 10−4 x1 x1 + x2 + x2 = 1 . = 2 (II.2.9)

La soluci´n exacta de este sistema de ecuaciones est´ dada por: o a x1 = 1, 000100010001000 · · · , (II.2.10)

x2 = 0, 999899989998999 · · · .

Ahora bien, aplicando el algoritmo de Gauss con 10−4 como pivote, se tiene: a21 = 0, 100 · 105 , a11 La segunda linea del sistema se convierte en −0, 100 · 105 x2 = −0, 100 · 105 , de donde x2 = 0, 100 · 101 , l21 =

resolviendo x1 se tiene 0, 100 · 10−3 x1 = 0, 100 · 101 − 0, 100 · 101 , por lo tanto x1 = 0.

(II.2.11)

Ahora, apl´ ıquese el algoritmo de Gauss con 1 como pivote, es decir intercambiando la primera ecuaci´n con la segunda, se tiene: o a21 = 0, 100 · 10−5 , a11 La segunda linea del sistema se convierte en −0, 100 · 101 x2 = 0, 100 · 101 , de donde x2 = 0, 100 · 101 , resolviendo x1 , se tiene 0, 100 · 101 x1 = 0, 200 · 101 − 0, 100 · 101 , por lo tanto l21 = x1 = 0.100 · 101 . (II.2.12)

´ II.2 Metodos Directos

41

La explicaci´n de este fen´meno consiste en que la sustracci´n es o o o una operaci´n mal condicionada, cuando las cantidades a restar son muy o parecidas; en efecto, consid´rese el siguiente sistema e a11 x1 a21 x1 + a12 x2 + a22 x2 = b1 , = b2 (II.2.13)

al aplicar el algoritmo de Gauss se obtiene: a21 a11 a22 = a22 − l21 a12 , a22 x2 = b2 . Si |l21 | ≫ 1 se tiene: a22 ≈ −l21 a12 , x2 ≈ x1 =
(1) (1) (1)

l21 =

b2 = b2 − l21 b1 ,
(1)

(1)

b1 , a12

b2 ≈ −l21 b1 ,

(1)

1 1 (b1 − a12 x2 ) ≈ (b1 − b1 ) . a11 a11

Para solucionar este problema, se realiza una b´squeda de pivote parcial, u que consiste en: Se escoge el pivote ai1 tal que |ai1 | ≥ |aj1 | j = 1, . . . , n.

Se procede de la misma manera para cada paso del algoritmo de Gauss. La Estabilidad del Algoritmo de Gauss Sea A una matriz cuyo determinante es diferente de 0. Se desea saber cual es el error cometido por el algoritmo de Gauss para encontrar la descomposici´n o A = LR. No se considera las permutaciones, puesto que no se comete error de redondeo. ˆ ˆ a Si se aplica el algoritmo de Gauss, se obtiene las matrices L y R, ll´mese ˆ ˆˆ A = LR, ˆ la descomposici´n exacta de A. o

Para saber, si el algoritmo es num´ricamente estable, se utiliza la noci´n de e o baackward analysis dada en cap´ ıtulo I. Es decir encontrar una constante que verifique: |ˆij − aij | a ≤ C · eps. (II.2.14) |aij |

42

II Sistemas Lineales

ˆ Por consiguiente, es necesario estimar la diferencia A − A elemento por elemento. Se tiene el siguiente: ˆ ˆ Teorema II.2.4.- Wilkinson. Sea det A = 0; L, R el resultado num´rico de e la descomposici´n LR con b´squeda de pivote |lij | ≤ 1. Entonces o u 0 1  1 ˆ R ≤ 2a eps  ˆ A−L 1 . . . donde a = max aij
i,j,k (k)

0 1 2 2 3 . . . . . . 1 2 3

··· ··· ··· ···

0 1 2 3

··· n − 1

   ,   

(II.2.15)

y

A(0) −→ A(1) −→ · · · −→ A(n−1) . Como resultado de este teorema, el algoritmo de Gauss es num´ricamente e estable, siempre y cuando n no sea demasiado grande. La experiencia num´rica indica que es aconsejable utilizar la descomposici´n de Gauss para e o sistemas no mayores a 1000 ecuaciones. Demostraci´n.- Al efectuar la descomposici´n LR, considerando los errores o o de redondeo, se tiene el siguiente esquema: ˆ ˆ ˆ ˆ A(0) −→ A(1) −→ · · · −→ A(n−1) = R Sin considerar los errores de redondeo se tiene L1 A = A(1) , de donde 1 l  −ˆ21  l ˆ 1 =  −ˆ31 L  .  . . −ˆn1 l  1 0 1 0  . . . 1   ,  

es la matriz L1 con los errores de redondeo.

Por otro lado, se tiene obteniendo

ˆ ˆ ˆ −1 L = L−1 L2 · · · L−1 , n−1 1

ˆˆ ˆ ˆ ˆ ˆ ˆ −1 ˆ ˆ ˆ A − LR =L−1 L1 A − A(1) + L−1 L2 L2 A(1) − A(2) 1 1 ˆ + · · · L−1 L−1 · · · L−1 2 n−1 1 ˆ ˆ ˆ Ln−1 A(n−2) − A(n−1) .

´ II.2 Metodos Directos

43

Ahora bien, los coeficientes de la matriz obtenida en el primer paso, est´n a dadas por (1) l aij = aij − ˆi1 a1j (1 + ǫ1 ) (1 + ǫ2 ), i ≥ 1, ˆ que da como consecuencia ˆ ˆ L1 A − A(1)
ij

=ˆi1 a1j − aij l ˆ =ˆi1 a1j − aij − ˆi1 a1j (1 + ǫ1 ) (1 + ǫ2 ) l l
(1) = − aij ǫ2 + ˆi1 a1j ǫ1 + ˆi1 a1j ǫ1 ǫ2 , ˆ l l

= − aij ǫ2 + ˆi1 a1j ǫ2 + ˆi1 a1j ǫ1 + ˆi1 a1j ǫ1 ǫ2 l l l

obteniendo as´ ı:
(k) ˆ ˆ L1 A − A(1) ≤ 2a eps donde a = max aij , i ≥ 2. i,j,k

resultados similares tambien se obtienen para los dem´s pasos del algoritmo a de Gauss con lo que se obtiene le resultado deseado.

Continuando con el mismo procedimiento en  0 0  ˆ ˆ ˆ L2 A(1) − A(2) ≤ 2a eps  0 . . .

Bajo forma matricial, el resultado anterior est´ dado por a   0 ··· 0 1 ··· 1 ˆ ˆ L1 A − A(1) ≤ 2a eps  . . . . . . . 1 ··· 1

la demostraci´n, se obtiene o  0 ··· 0 0 ··· 0  1 ··· 1, . . . . . . 0 1 ··· 1

El Algoritmo de Cholesky
Un caso particular de sistema de ecuaciones lineales, es donde la matriz A es: Definici´n II.2.5.- Una matriz A ∈ Mn (R) es sim´trica y definida positiva, o e si cumple las siguientes dos condiciones: (II.2.16) (II.2.17) At = A; xt Ax > 0, ∀x ∈ Rn , x = 0.

44

II Sistemas Lineales

Teorema II.2.6.- Sea A sim´trica y definida positiva, entonces: e a) El algoritmo de Gauss es posible sin b´squeda de pivote. u b) La descomposici´n A = LR satisface o R = DLt , con D = diag(r11 , r22 , · · · , rnn ). (II.2.17)

Demostraci´n.- Sea A sim´trica y definida positiva, dada por o e a11  . . A= .  ···  a1n .  . . .

an1

· · · ann

El coeficiente a11 de la matriz A es diferente de 0, porque la matriz A es definida positiva y a11 = et Ae1 donde et = (1, 0, · · · , 0). Despu´s del primer e 1 1 paso del algoritmo de Gauss, se obtiene: a11  0 = .  . . 0
(1)

A(1)

a12

· · · a1n C
(1)

 , 

li1 =

ai1 , a11

de donde se tiene cij = aij − li1 a1j = aij − ai1 a1j . a11

Por lo tanto es suficiente mostrar que C (1) es sim´trica y definida positiva. e En efecto, expresando la matriz A como a11 z se tiene C (1) = C − Hay que mostrar que y t C (1) y = y t Cy − 1 yt z a1 1
2

zt C

,

1 zz t . a11

> 0,

∀y = 0.

Por hip´tesis la matriz A es definida positiva, de donde o ( x1 yt ) a11 z zt C x1 y = a11 x2 + x1 z t y + y t zx1 + y t Cy > 0, 1

´ II.2 Metodos Directos para x1 ∈ R y y ∈ Rn−1 los dos no nulos al mismo tiempo. yt z Planteando x1 = − a11 , se tiene (y t z) 2 (z t y) − + y t Cy > 0, a11 a11 por consiguiente y t Cy − 1 yt z a11
2 2 2

45

> 0.

La descomposici´n LR es unica, si ´sta existe, en efecto, si o ´ e A = L1 R1 = L2 R2 , dos descomposiciones de A. Se tiene
−1 L−1 L1 = R2 R1 ; 2

las matrices del tipo L, como aqu´llas de tipo R forman subgrupos dentro e el grupo de las matrices inversibles, deduciendose que L−1 L1 = I, 2 por lo tanto L1 = L2 y R1 = R2 . Para demostrar la parte b) del teorema, se define la matriz L1 , como Lt = D−1 R, 1 donde D = diag(r11 , · · · , rnn ), hay verificar que L1 = L. Las siguientes identidades se cumplen: A = LR = LDLt , 1 At = L1 DLt , como A es sim´trica y por la unicidad de la descomposici´n LR, se deduce e o L = L1 . . Definici´n II.2.7.- Sea D una matriz diagonal a coeficientes no negativos, o entonces: 1 D 2 = diag d11 , · · · , dnn . (II.2.18)
1 ¯ Si se define L = LD 2 , se tiene

¯¯ A = LLt , que es la descomposici´n de Cholesky de la matriz A sim´trica y definida o e ¯ positiva. Para simplificar notaci´n, se escribe L, en lugar de L. Entonces los o

46

II Sistemas Lineales

coeficientes de la matriz L de la descomposici´n de Cholesky de A, est´n o a dados por: para k = 1, . . . , n:

lkk =

2 2 2 akk − lk1 − lk2 − · · · − lk,k−1 ;

(II.2.19) lik aik − li1 lk1 − · · · − li,k−1 lk,k−1 = , lkk i = 1, . . . , k − 1.

El costo en operaciones, despreciando el c´lculo de las raices cuadradas, a para obtener la descomposici´n de Cholesky, est´ dado por o a
n n

k=1

k(n − k) ≈

0

x(n − x)dx =

n3 . 6

(II.2.20)

La resoluci´n de la ecuaci´n Ax = b, donde A es una matriz sim´trica y o o e definida positiva, se puede efectuar en dos pasos utilizando la descomposici´n o de Cholesky: Ly = b, Lt x = y, los cuales necesitan un total aproximado, lo mismo que en el algoritmo de Gauss, n2 operaciones. La estabilidad de la descomposici´n de Cholesky est´ dada por el o a siguiente: ˆ Teorema II.2.8.- Sea A una matriz sim´trica y definida positiva. L el e resultado num´rico de la descomposici´n de Cholesky, entonces e o  1 1 1 ··· 1 1 2 2 ··· 2    ˆ Lt ≤ a eps  1 2 3 · · · 3  , ˆ A−L  . . .  . . . . . . 1 2 3 ··· n  donde a = max |aij |.
ij

(II.2.21)

Demostraci´n.- Se demuesta de la misma manera que el teorema II.2.4 o referente a la estabilidad de la descomposici´n LR. o

´ II.2 Metodos Directos

47

Ejercicios
1.- Escribir una subrutina DEC(N,NDIM,A,B,IP,IER) que calcule la descomposici´n LR, tomando en cuenta la b´squeda parcial de pivote. o u Luego escribir una subrutina SOL(N,NDIM,A,B,IP) que permita resolver Ax = b utilizando la descomposicion obtenida por DEC. a) Resolver     9 5 2 −1 3 3 4   28   1 20 . x =   32 0 1 1 30 −11 2 8 −25 4 b) Calcular la inversa de la matriz de Hilbert dada por H= 1 i+j
n

para n = 2, 3, 4, 5.
i,j=1

2.- a) Calcular la descomposici´n de Cholesky LLt para la matriz de Hilbert o H= 1 i+j
n

,
i,j=1

n = 15.

b) Comparar el resultado num´rico con los valores exactos, e √ 2k − 1 · (j − 1)! · (j − 1)! ljk = . (j − k)!(j + k − 1)! ¿Cu´ntas cifras son exactas? a ˆ c) Si L es el resultado num´rico, calcular el residuo e ˆˆ A − LLt ,

(II.2.22)

calcular tambi´n el residuo A − LLt para la matriz L dada por (II.2.22). e 3.- Calcular cond∞ (An ) para las matrices: a) de Hilbert para n = 1, 2, 3, . . . , 15. Calcular tambi´n n log10 (cond∞ (An )) y encone 1 trar una f´rmula que aproxime cond∞ (An ). o 4.- Sea A una matriz-banda, sim´trica y definida positiva, p el grosor de e la banda. Mostrar que, L de la descomposici´n de Cholesky es tambi´n o e una matriz-banda. Si n es el orden de la matriz, sabiendo que n ≫ p, ¿Cuantas multiplicaciones son necesarias para calcular L?
j−1 i , i, j = 1 · · · n con ci = n , b) de Vandermonde (aij ) = ci

II.3 M´todos Iterativos e

En la secci´n II.2, se analiz´ dos m´todos para resolver directamente sistemas o o e de ecuaciones lineales. Un m´todo directo de resoluci´n de un sistema de e o ecuaciones deber´ dar el resultado num´rico igual a la soluci´n exacta, si ıa e o no se considerase los errores de redondeo, es decir, si se contase con un dispositivo de c´lculo con una precisi´n infinita, desgraciadamente ´ste no a o e es el caso. Si bien, un m´todo directo da una soluci´n que se aproxima a e o la exacta, la principal desventaja de utilizarlos, reside en el hecho en que cuando se debe resolver grandes sistemas lineales, la propagaci´n del error o de redondeo es muy grande, desvirtuando su valor; adem´s, en muchos casos a no se toma en cuenta muchas de las particularidades que pudiese tener la matriz del sistema lineal, o finalmente no es necesario obtener una soluci´n o exacta, si no una aproximaci´n de ´sta. Los m´todos que ser´n estudiados o e e a en esta secci´n, son iterativos en el sentido en que se utilizan las soluciones o anteriores para obtener la siguiente. Entre los m´todos que ser´n analizados e a se tiene: Jacobi, Gauss-Seidel, SOR.

M´todos de Jacobi y Gauss-Seidel e
Estos m´todos son utilizados para resolver el sistema de ecuaciones, dado e por u = Au + b. (II.3.1) El m´todo de Jacobi consiste en la utilizaci´n de la soluci´n anterior para e o o calcular la nueva soluci´n, es decir o u(k+1) = Au(k) + b. (II.3.2)

Obviamente las soluciones obtenidas por el m´todo de Jacobi no son exactas, e pero son aproximaciones de ´stas. e Para la formulaci´n del m´todo de Gauss-Seidel, consid´rese la matriz o e e A como A = L + U, (II.3.3) donde: 0  a21 L= .  . .  0 ··· ··· .. .  0 0 . , . . 0 a11  0 U = .  . . 0  a12 a22 ··· ··· ··· .. . 0  a1n a2n  . . .  .

an1

· · · an,n−1

ann

´ II.3 Metodos Iterativos El m´todo de Gauss-Seidel est´ dado por: e a u(k+1) = Lu(k+1) + U u(k) + b, cuya formulaci´n equivalente es o u(k+1) = (I − L)−1 U u(k) + (I − L)−1 b.

49

(II.3.4)

(II.3.5)

Una vez formulados estos m´todos, es importante, saber que condiciones e tiene que cumplir la matriz A, para que estos sean convergentes. Si se denota por u∗ la soluci´n exacta de (II.3.1), se define o e(k) = u(k) − u∗ , (IV.3.6)

el error cometido en la k-esima iteraci´n. Por consiguiente, e(k) son los o resultados obtenidos en las iteraciones de uno de los m´todos definidos m´s e a arriba del problema e = Ae, (IV.3.7) de donde el m´todo ser´ convergente, siempre y cuando e a
n→∞

lim e(n) = 0.

(IV.3.8)

Existe una clase de matrices, para las cuales estos m´todos son convere gentes. Una de sus caracter´ ısticas est´ dada por la: a Definici´n II.3.1.- Una matriz A es irreducible si para cada (i, j), existe o una sucesi´n l0 = i, l1 , · · · , lm = j tal que o alk ,lk+1 = 0. Gr´ficamente se puede visualizar mediante la noci´n de grafo dirigido, a o en Grimaldi se puede encontrar una explicaci´n bastante detallada sobre o las aplicaciones de la teor´ de grafos. Consid´rese el grafo G compuesto del ıa e conjunto de v´rtices V y el conjunto de aristas A, definido por: e i) V = {1, 2, . . . , n}, ii) (i, j) ∈ A ⇐⇒ aij = 0. Para comprender esta definici´n, consid´rese los dos siguientes ejemplos, o e sean:   0 0 1   2 0
1 2

0 1 A = 0  0

2 0 0 0

1

2 0 0 2
1

1

3

4

GA

50

II Sistemas Lineales

1

2

0 1 B= 0 0

1 0 1 0

0 1 0 1

0 0  1 0


3 4

GB Se puede observar facilmente, que la matriz A no es irreducible, mientras que la matriz B si es irreducible. Con la definici´n anterior se puede formular el siguiente teorema que da o una condici´n suficiente, para que los m´todos de Jacobi, como de Gausso e Seidel, sean convergentes. Teorema II.3.2.- Sea A una matriz no-negativa (aij ≥ 0), con las siguientes propiedades:
n

i)
j=1

aij ≤ 1,

i = 1, . . . , n;
n

ii) Existe io , tal que
j=1

aio j < 1;

iii) A es irreducible; entonces los m´todos de Jacobi y Gauus-Seidel convergen hacia una soluci´n e o unica, adem´s existe ρ < 1, tal que ´ a e(k) ≤ Cρk−1 e(0) . (II.3.9)

Demostraci´n.- Se mostrar´ para el m´todo de Jacobi. Se tiene o a e e(k+1) = Ae(k) , sea ǫ = max ei
(0)

, de donde ei
(1)

aij ej
j

(0)

≤ ǫ,

≤ǫ

con desigualdad estricta para i = io .

´ II.3 Metodos Iterativos

51

Puesto que la matriz A es irreducible, entonces los coeficientes de An son todos no nulos, en efecto (An )ij =
k1

···

kn−1

aik1 ak1 k2 · · · akn−1 j

n−1

veces

tiene un t´rmino no nulo. Adem´s para l fijo, se tiene e a (A2 )lk =
k k j

alj ajk alj
j k

= ≤

ajk

j

alj ≤ 1.

Por inducci´n matem´tica, se deduce la desigualdad anterior para todas las o a potencias de A, e incluso (An+1 )lk =
k k j

alj (An )jk alj
j k

= <
j

(An )jk

alj ≤ 1.

Por otro lado, utilizando la desigualdad (II.1.2), se tiene: Ae(0) e(k)
∞ ∞

≤ A

e(0)

≤ ǫ,

= Ae(k−1)

≤ ǫ.

Estas desigualdades se vuelven estrictas para No bastante grande, por ejemplo No = n + 1, por lo tanto e(No ) planteando 

≤ ρ e(0) 

,

ρ=

e(No ) e
(0)

No

1

∞

,

52

II Sistemas Lineales

se tiene que ρ < 1, de donde la convergencia. El mismo procedimiento se sigue para mostrar el m´todo de Gauss-Seidel. e

El Teorema de Perron-Frobenius
Indudablemente por las consecuencias que implica el teorema de PerronFrobenius, es que vale la pena estudiarlo como un tema aparte. Es un teorema cuya demostraci´n ha llevado mucho esfuerzo de parte de muchos o matem´ticos. Se enunciar´ este teorema sin dar una demostraci´n rigurosa, a a o sino los pasos de ´sta. e Teorema II.3.3.- Sea A una matriz no negativa irreducible, entonces: i) Existe un vector propio u, con ui > 0 respecto a un valor propio r > 0. ii) Todos los otros valores propios λ de A son |λ| < r. Sola i2π excepci´n posible λ = re n valor propio simple. o iii) r depende de manera estrictamente mon´tona de todos los o elementos de A. Demostraci´n.- Se comenzar´ por el punto i). Sea u ∈ Rn , tal que ui > 0; o a entonces v = Au, definiendo ri = v1 , ui

si los ri son todos iguales, el punto i) est´ demostrado; sino es posible variar a el vector u de manera que [rmin , rmax ] ⊂ [rmin , rmax ], nuevo
=

antiguo

obteniendo una sucesi´n de intervalos estrictamente encajonados, siendo el o l´ ımite r. No hay otro vector propio con ui > 0. Sea el cono K = {(u1 , . . . , un )|ui ≥ 0} . Como la matriz A es no negativa, se tiene A(K) ⊂ K. No es posible tener: Au = λu, Av = µv, u ∈ K; v ∈ K; con λ = µ.

´ II.3 Metodos Iterativos

53

En efecto, sup´ngase que λ < µ y sea w = −u + tv, tal que t sea lo m´s o a peque˜o posible, de manera que w ∈ K, entonces n Aw = −λu + tµv ∈ K, por consiguiente, no puede haber m´s de un valor propio cuyo vector propio a est´ en el interior del cono. e Adem´s, r es un valor propio simple, ya que si no lo fuera, una peque˜a a n perturbaci´n en la matriz A llevar´ al caso de los valores propios simples, o ıa caso que ha sido ya estudiado m´s arriba. a Por otro lado, no hay vectores propios en el borde del cono K. Efectivamente, sea u ∈ ∂K, vector propio. Por hip´tesis, algunos de las componentes o de u son nulos, pero al menos una de las componentes es diferente de 0. De donde u + Au + · · · + An u = (1 + λ + · · · + λn )u. Como A es irreducible, existe No ≤ n con aNo > 0, ij por lo tanto (An u)j > 0, ∀j; conduciendo a una contradicci´n. o ii) Sean λ otro valor propio de A, v su vector propio respectivo, sup´ngase o que λ ∈ R, se define w = u + tv, donde u ∈ K vector propio, t sea lo m´s grande posible de manera que w ∈ K, a ver la figura IV.3.1. ∀i, j;

w

Κ

v u

Figura IV.3.1. Demostraci´n, Teorema Perron-Frobenius. o

54 Si |λ| > r, Aw sale de K, lo que es imposible. Para λ complejo se tiene Av = (α + iβ)v,

II Sistemas Lineales

donde λ = α + iβ, v = v1 + iv2 siendo los vj a coeficientes reales. Por lo tanto: Av1 = αv1 − βv2 , Av2 = βv1 + αv2 , el mismo an´lisis que para el caso real, da el mismo resultado. a iii) La monoton´ de r se muestra, despu´s de hacer un an´lisis sobre el ıa e a polinomio caracter´ ıstico. Las consecuencias del teorema de Perron-Frobenius son muchas, entre las cuales, la de mayor utilidad para el tema expuesto, reside sobre el teorema II.3.2. En efecto, como la matriz A es no negativa e irreducible existe una valor propio r > 0 m´s grande en modulo que los otros. Si la suma de las a lineas de la matriz A fuese igual a 1 se tendr´ que r = 1, pero existe una ıa fila cuya suma es inferior a 1, de donde por el punto iii) del teorema de Perron-Frobenius, se tiene r < 1. Por consiguiente, todos los valores propios en valor absoluto son inferiores a 1, dando la consiguiente convergencia de los m´todos de Jacobi y Gauss-Seidel. e Continuando el estudio de los m´todos de Jacobi y Gauss-Seidel se tiene e otro resultado importante como el: Teorema II.3.4.- Sea λ el valor propio de A mas grande en m´dulo y µ el o valor propio m´s grande en m´dulo de a o (I − L) Demostraci´n.- Se tiene o (I − L)
−1 −1

U.

(II.3.10)

Si λ < 1, entonces µ < λ, para toda matriz A irreducible no negativa. = I + L + L2 + · · · + Lm ,

de donde (I − L)−1 U es una matriz no negativa. Sup´ngase que x es vector propio respecto a µ, por consiguiente o (I − L)−1 U x = µx, U x = µx − Lµx, (µL + U ) = µx, por el teorema de Perron-Frobenius, µ ≥ 0; si µ = 0 no hay nada que demostrar, si no U L+ x = x. µ

´ II.3 Metodos Iterativos

55

Utilizando nuevamente el teorema de Perron-Frobenius, es necesario que a µ < 1, por que de lo contrario algunos coeficientes de L + U ser´n mas µ peque˜os que de L + U y por lo tanto 1 < λ n Nuevamente por el teorema de Perron-Frobenius, se tiene que el valor propio maximal de µL + U es estrictamente menor al valor propio maximal de L + U . Como consecuencia de este teorema se tiene que el m´todo de Gausse Seidel converge m´s r´pidamente a la soluci´n que el m´todo de Jacobi, si la a a o e matriz A es no negativa, irreducible y con valor propio maximal m´s peque˜o a n que 1. Una propiedad muy importante de algunas matrices, est´ dada por la: a Definici´n II.3.5.- Una matriz A = L + U , como en (II.3.3), posee la o property A de Young, si los valores propios de la matriz definida por αL + son independientes de α. Ejemplos 1.- La matriz A definida por A= 0 C B 0 , 1 U= α αU
1

αL

(II.3.11)

donde B y C son matrices cuadradas del mismo orden. A posee la x property A. En efecto, si es un vector propio de A se tiene: y B C αC αB
1

x y x αy

=λ =λ

x y x αy

, .

2.- La matriz tridiagonal con coeficientes diagonales nulos, dada por  0 a b 0   d  .. .   

c 0 .. .

e

56

II Sistemas Lineales posee la property A. Pues, se tiene:      x x 0 a y y  b 0 c   = λ ,  z z   d 0 e . . .. .. . . . . . .      1 0 αa x x 1  αb 0   αy   αy  αc 1      α2 z  = λ  α2 z  . αd 0 e    α   . . .. .. . . . . . .

Teorema II.3.6.- Sea A una matriz no negativa, irreducible, con valor propio maximal λ < 1 y con la property A, entonces µ = λ2 , (II.3.12)

donde µ es le valor propio m´s grande de la matriz inducida por el m´todo a e de Gauss-Seidel. Demostraci´n.- Sea x el vector propio respecto a µ, de donde o (µL + U )x = µx, √ dividiendo esta expresi´n por µ y aplicando la property A, se tiene o 1 √ µL + √ U µ de donde x= √ µx,

√ µ es el valor propio maximal de A.

Si la matriz A es irreducible, no negativa, con valor propio maximal menor a 1 y adem´s con la property A, se tiene: a — M´todo de Gauss-Seidel converge 2 veces m´s rapido que el de Jacobi. e a — M´todo de Gauss-Seidel ocupa la mitad de sitio de memoria. e — M´todo de Gauss-Seidel ocupa la mitad de plaza de c´lculo. e a — Pero Jacobi puede ser paralelizado, en cambio Gauss-Seidel no.

M´todo de Sobrerelajaci´n SOR e o
Las siglas SOR significan en ingl´s Successive over relaxations. Es una e modificaci´n del m´todo de Gauss-Seidel. Consiste en utilizar un factor de o e sobrerelajaci´n ω. Primero se efectua una iteraci´n de Gauss-Seidel para o o luego corregir con ω, en s´ ıntesis el m´todo SOR est´ dado por: e a u(k+ 2 ) = Lu(k+1) + U u(k) + b, u(k+1) = u(k) + ω u(k+ 2 ) − u(k) , ω > 1.
1 1

(II.3.13)

´ II.3 Metodos Iterativos Haciendo el c´lculo de u, componente por componente, se tiene: a uauxi =
j<i

57

aij uj
(k)

(k+1)

+
j≥i

aij uj
(k)

(k)

+ bi , (II.3.14)

ui

(k+1)

= ui

+ ω uauxi − ui

.

Para ver la velocidad de convergencia de este m´todo, es necesario hacer un e estudio sobre la convergencia. Una iteraci´n de SOR puede ser escrita como o u(k+1) = u(k) + ωLu(k+1) + (ωU − ωI) u(k) + ωb, es decir u(k+1) = ωLu(k+1) + (ωU + (1 − ω)I) u(k) + ωb, (II.3.15)

por lo tanto u(k+1) = (I − ωL)−1 (ωU + (1 − ω)I) u(k) + ωb . Sea µ un valor propio de u vector propio asociado, entonces:
(k+1)

= (I − ωL)

−1

(ωU + (1 − ω)I) y x el

(I − ωL)−1 (ωU + (1 − ω)I) x = µx, (ωU + (1 − ω)I) x = µ (I − ωL) x, ωU x + (1 − ω)x = µx − µωLx, ωU x = (µ − 1 + ω)x − µωLx, µ−1+ω (µL + U ) x = x, ω √ dividiendo por µ se obtiene 1 √ µL + √ U µ x= µ−1+ω x, √ ω µ

de donde, se ha mostrado el siguiente: Teorema II.3.7.- Sea A una matriz irreducible, no negativa y con la property A. Si µ es un valor propio de la matriz obtenida por SOR, entonces λ= µ−1+ω √ ω µ (II.3.16)

es valor propio de la matriz A. El problema ahora, es determinar ω, de manera que los valores propios µ sean lo m´s peque˜os posibles. Se tiene: a n √ µ − 1 + ω = λω µ, (II.3.17) 2 (µ + (ω − 1)) = λ2 ω 2 µ,

58 dando la ecuaci´n de segundo grado o

II Sistemas Lineales

µ2 + 2(ω − 1) − λ2 ω 2 µ + (ω − 1)2 = 0.

(II.3.18)

Por lo tanto, condici´n necesaria para la convergencia es o −1 < ω < 2.

Si µ1 , µ2 , las dos raices de esta ecuaci´n, son complejas; entonces ambas son o conjugadas, de donde |µ| = |ω − 1| . (II.3.19)

Si µ1 , µ2 son raices reales de (II.3.18), se tiene que uno de los raices es m´s a grande que la otra, a menos que µ1 = µ2 . Esto sucede cuando la par´bola a √ λω µ corta tangencialmente con la recta µ − 1 + ω. Ver figura II.3.2, por consiguiente, el discriminante de la ecuaci´n (II.3.18) es nulo, es decir: o 2(ω − 1) − λ2 ω 2
2

λ2 ω 2 − 4ω + 4 = 0. De donde, se ha demostrado el:

λ2 ω 2 = 4(ω − 1),

= 4(ω − 1)2 ,

Teorema II.3.8.- El ω optimal est´ dado por a w= 2 1+ 1 − λ2 , (II.3.20)

y el radio espectral de la matriz SOR correspondiente es √ 1 − 1 − λ2 . µmax = w − 1 = 1 + 1 − λ2

(II.3.21)

λ1

λ2

λ3 µ

µ2 µ

µ1
raices conjugadas.

Figura IV.3.2 Determinaci´n de w optimal. o

´ II.3 Metodos Iterativos

59

Estudio de un problema modelo
Una de las aplicaciones m´s importantes de la utilizaci´n de m´todos itera o e ativos para resolver sistemas lineales, consiste en la resoluci´n num´rica de o e ecuaciones con derivadas parciales de tipo el´ ıptico. Consid´rese el siguiente e problema tipo: −△u = f, sobre Ω = [0, 1] × [0, 1]; (II.3.22) f |∂Ω = 0. Utilizando el m´todo de diferencias finitas, se discretiza la ecuaci´n de e o derivadas parciales con un esquema de diferencias centradas. El cuadrado Ω es dividido en una malla uniforme de tama˜o n h= se plantea: xi = ih, yj = jh, denotando uij = u(xi , yj ), fij = f (xi , yj ). (II.3.25) Discretizando la ecuaci´n para esta malla, se obtiene las siguientes ecuao ciones: − ui,j+1 + ui,j−1 + ui+1,j + ui−1,j − 4ui,j = fij , h2 u0j = 0, un+1,j = 0, ui0 = 0, ui,n+1 = 0, j = 0, . . . , n + 1; j = 0, . . . , n + 1; i = 0, . . . , n + 1; i = 0, . . . , n + 1. i = 1, . . . , n, j = 1, . . . , n; i = 0, . . . , n + 1; j = 0, . . . , n + 1; (II.3.24) 1 , n+1 (II.3.23)

Cambiando la forma de las ecuaciones, se tiene uij = 1 ui,j+1 + ui,j−1 + ui+1,j + ui−1,j + h2 fij , 4 i = 1, . . . , n, j = 1, . . . , n;

que en notaci´n matricial, tiene la forma o 1 u = Au + h2 f, 4 (II.3.26)

60 donde: u = (u11 , . . . , u1n , u21 , . . . , u2n , . . . , un1 , . . . , unn )t , f = (f11 , . . . , f1n , f21 , . . . , f2n , . . . , fn1 , . . . , fnn )t ,   B I  I B I  1 .. .. .. , A=  . . .   4 I B I I B     0 1 1 . .   .. . I= B =  1 .. ..  , . .. 1 . 0

II Sistemas Lineales

de orden nl × mk.

Definici´n II.3.9.- El producto tensorial de dos matrices P de orden n × m o y Q de orden l × k se define como la matriz   p11 Q · · · p1m Q  . . , .  P ⊗Q= . (II.3.27) . . pn1 Q · · · pnm Q Por lo tanto, la matriz A del problema se escribe como A= 1 (B ⊗ I + I ⊗ B) . 4

Para hacer estimaciones del costo de operaciones, al encontrar la soluci´n o con un error fijado de antemano, es necesario determinar la condici´n de o la matriz A, como as´ mismo el radio espectral de A para determinar la ı velocidad de convergencia de los m´todos de Jacobi, Gauss-Seidel y SOR. e Para tal efecto, se tiene la: Proposici´n II.3.10.- El producto tensorial de matrices verifica la siguiente o propiedad (B ⊗ C) (D ⊗ E) = BD ⊗ CE. (II.3.28) Demostraci´n.- Se deja como ejercicio o Sean, yk y νk el vector y el escalar respectivamente, definidos por: yk = sin( kiπ ) , n + 1 i=1 kπ ), νk = 2 cos( n+1
n

(II.3.29)

´ II.3 Metodos Iterativos

61

puede verificarse como ejercicio que yk es un vector propio de B asociado al valor propio νk . Se tiene, utilizando (II.3.28) 1 A(yk ⊗ yl ) = ((B ⊗ I)(yk ⊗ yl ) + (I ⊗ B)(yk ⊗ yl )) 4 1 = (νk + νl )(yk ⊗ yl ), 4 de donde se ha demostrado el: Teorema II.3.11.- Los valores propios de A est´n dados por: a 1 1 (νk + νl ) = 4 2 cos( kπ lπ ) + cos( ) . n+1 n+1 (II.3.30)

La matriz B es tridiagonal con los coeficientes de la diagonal nulos, por consiguiente tiene la property A, verificar el segundo ejemplo sobre esta propiedad. Como la matriz A es igual a la suma de dos productos tensoriales entre B y I, ´sta tambi´n verifica la property A. Conociendo los valores e e propios de A, se est´ en la posibilidad de aplicar los teoremas relativos a la a convergencia de los m´todos de Jacobi, Gauss-Seidel y SOR. e Utilizando el anterior teorema, se tiene que el valor propio maximal de A es igual a π ). (II.3.31) λmax = cos( n+1 Recordando el m´todo de Jacobi se tiene: e u(k+1) = Au(k) + f, U ∗ = AU ∗ + f, e(k+1) = Ae(k) , e(k) = u∗ − u(k) ,

donde u∗ es la soluci´n exacta del problema lineal, e(k) el error en k-esima o iteraci´n. o Existe una base de vectores propios de la matriz A, para la cual el primer vector est´ asociado a λmax , de donde se tiene a ei donde ei
(k) (k+1)

= λi ei ,

(k)

i = 1, . . . , n2 ;

es la i-esima componente respecto a la base. Por consiguiente e1
(N )

= λN ei , i

(0)

62

II Sistemas Lineales

obteniendose as´ el n´mero de iteraciones necesarias para conseguir una ı u precisi´n relativa de 10−m . Por las siguientes relaciones: o λn ≤ 10−m , 1 N ln λmax ≤ −m ln 10,

N ln 1 −

π2 ≤ −m ln 10, 2(n + 1)2 π2 −N ≤ −m · 2.3, 2(n + 1)2

1 2m · 2.3 (n + 1)2 ≈ mn2 . (II.3.32) 2 2 π Ahora bien, una iteraci´n equivale m´s o menos 4n2 operaciones, de donde o a el trabajo necesario es 2mn4 operaciones. Considerando, que el m´todo de Gauss-Seidel se realiza en la mitad de e operaciones respecto al de Jacobi, y por el teorema II.3.6, el n´mero de u iteraciones para llegar a una precisi´n relativa de 10−m es la mitad de Jacobi. o Las siguiente tabla indica el n´mero de operaciones, tiempo para diferentes u precisiones requeridas. N= Tabla II.3.1. Valores para el m´todo de Jacobi. e n 10 100 1000 Precisi´n o 10−2 10−4 10−6 # operaciones 105 109 1013 Tiempo de C´lculo a 0.1sec 103 sec ≈ 20min 107 sec ≈ 7, 7a˜os n

por lo tanto

Para el m´todo de Gauss-Seidel los valores, se obtienen de la tabla II.3.1, e dividiendo por 4 los valores para n´mero de operaciones y tiempo de c´lculo. u a En este tipo de problema es donde se ve la verdadera potencia del m´todo e SOR, respecto a los m´todos de Jacobi y Gauss-Seidel. Para estimar el e tiempo de c´lculo, como el n´mero de operaciones es necesario estimar ω a u optimal, como tambi´n µmax del teorema II.3.8. Utilizando desarrollos de e Taylor para la raiz cuadrada, como para el cociente, se obtiene: 2π umax ≈ 1 − , n+1 (II.3.33) π . ωop ≈ 2 1 − n+1

´ II.3 Metodos Iterativos

63

Por lo tanto, el n´mero de iteraciones para obtener una precisi´n relativa de u o 10−m es approximadamente igual a N ≈ 0.4mn. Para una precisi´n de 10−6 se tiene la siguiente tabla: o Tabla II.3.2. Valores para el m´todo SOR. e n 10 100 1000 # Operaciones 104 107 1010 Tiempo de C´lculo a 10−2 sec 10sec 104 sec ≈ 3horas ωop 1, 42 1, 93 1, 9937 (II.3.34)

Para el problema con f= 1, sobre [1/4, 3/4] × [1/4, 3/4] ; (II.3.34)

−1, sino;

se obtiene utilizando SOR, los valores de u graficados en figura II.3.3.

Figura II.3.3. Gr´fica de la soluci´n del problema (II.3.34). a o

64

II Sistemas Lineales

Ejercicios
1.- Para resolver iterativamente el problema Ax = b, se considera la iteraci´n o M x(k+1) = N xk + b, con A = M − N. Determinar M y N para los m´todos de Jacobi y Gauss-Seidel. e Programar los dos m´todos y aplicarlos al problema e  4  −1  0 −1    −1 0 −1 3 4 −1 0   −3  x =  , −1 4 −1 7 0 −1 4 1

la soluci´n exacta es x∗ = ( 1 0 2 1 ). Estudiar la velocidad de o convergencia x(k+1) − x∗ x(k) − x∗ para los dos m´todos. e 2.- (Estudio de la demostraci´n del Teorema de Perron-Frobenius). Sea o  0 1/2   1/2 0 1/2 A= . 1/2 0 1/2 1 0  Para un vector positivo u dado, se calcula v = Au y se define ri = vi /ui . Para el vector u = (1, 1, 1, 1)t se obtiene de esta manera r1 = 1/2, r2 = r3 = r4 = 1. Modificar este vector con peque˜as perturbaciones, para llegar a n 1 < ri < 1 para todo i. 2 3.- (Un teorema de la teor´ de grafos). Se da un grafo conexo de n nudos ıa y se define una matriz A por aij = 1 si i = j y el nudo i est´ ligado al nudo j, a 0 si i = j o el nudo i no est´ ligado al nudo j, a

´ II.3 Metodos Iterativos Ejemplo:
1 2

65

6

3 4

1 1  1 1  ⇐⇒ A =  1   1
5

1

1

  1  1 

Demostrar: Sea r el valor propio maximal de A, entonces se tiene siempre √ r > 3, excepto en los casos: r=1, √ r= 2, √ r=(1 + 5/2), √ r= 3, 4.- Demostrar que la matriz bloque  verifica la property A. para para para para un un un dos grafo; grafo; grafo; grafos.

0 A = C

B 0 E

D 0

5.- (Producto de Kronecker). Sea B = (bij ) una matriz de n × n y C = (cij ) una matriz m × m. Se define A = B ⊗ C, una matriz nm × nm, por   b11 C · · · b1n C . .  . . A=B⊗C = . . . bn1 C · · · bnn C a) Mostrar: si x es un vector propio de dimensi´n n e y es un vector de o dimensi´n m, entonces o (Bx) ⊗ (Cy) = (B ⊗ C)(x ⊗ y) donde x ⊗ y est´ definido similarmente. a b) Deducir que: si x es vector propio de B, con valor propio µ; y es vector propio de C, con valor propio ν; entonces x ⊗ y es vector propio de B ⊗ C, con valor propio µ · ν.

II.4 M´todos Minimizantes e

Otra clase de m´todos com´nmente utilizados en la resoluci´n de grandes e u o sistemas lineales, son los m´todos de tipo gradiente que consisten en la e resoluci´n un problema de minimizaci´n equivalente. Esta clase de m´todos o o e se aplica a la resoluci´n de o Ax = b, (II.4.1) donde A es una matriz sim´trica definida positiva. e La equivalencia con el problema de minimizaci´n, est´ dada por la o a siguiente: Proposici´n II.4.1.- Si A es sim´trica y definida positiva, los dos problemas o e siguientes son equivalentes: f (x) = Ax = b. 1 t x Ax − xt b + c → min, 2 (II.4.2) (II.4.2)

Demostraci´n.- El primer problema puede ser escrito como o 1 2 xi aij xj − xj bj + c → min . (II.4.4)

i,j

j

El procedimiento para encontrar el m´ ınimo, consiste en derivar f , de donde ∂f 1 = ∂xk 2 akj xj +
j

1 2

i

xi aik − bk = 0.

Puesto que A es sim´trica, se tiene e akj xj − bk = 0.

j

Si x es soluci´n de (II.4.2), se tiene que x es soluci´n del problema (II.4.3). o o Ahora bien, si x es soluci´n de (II.4.3), es un punto cr´ o ıtico de la funci´n o f , pero como A es definida positiva, se tiene que f posee x como un m´ ınimo.

´ II.4 Metodos Minimizantes

67

M´todo del Gradiente e
El gradiente de f , utilizando la demostraci´n de la anterior proposici´n, o o est´ dado por a ∇f (x) = Ax − b. (II.4.5) Sea xo un punto de partida, se tiene: 1 f (x) = f (xo ) + ∇f (xo ), x − xo + (x − xo )t A(x − xo ), 2 1 = f (xo ) + x − x0 ∇f (xo ) cos θ + (x − xo )t A(x − xo ), 2 donde θ es el ´ngulo entre ∇f (xo ) y x − x0 . Como se busca que f (x) sea a m´ ınimo, ∇f (xo ) y x − xo deben tener la misma direcci´n y el mismo sentido. o Sup´ngase que se ha encontrado este x, que se lo denota por x1 , se o puede plantear para k ≥ 0, obteniendo as´ el m´todo del gradiente ı, e xk+1 = xk − τk g k , (II.4.6)

donde g k = ∇f (xk ). El problema, por consiguiente, es determinar τk teniendo en cuenta las observaciones anteriores, se define la funci´n G(τ ) o por 1 (II.4.7) G(τ ) = (xk − τ g k )t A(xk − τ g k ) − (xk − τ g k )tb, 2 de donde, el m´ ınimo de G est´ en τk , dado por a τk = gk gk g k Ag k
t t

.

(II.4.8)

Una ilustraci´n de las iteraciones del m´todo del gradiente est´ dada en la o e a figura II.4.1.

x 3ó x
2

x1

x

o

Figura II.4.1 Ilustraci´n m´todo del gradiente. o e

68

II Sistemas Lineales

Planteando hk = Ag k , se tiene la versi´n algor´ o ıtmica del m´todo del e gradiente: 1 x := xo ; 2 g := Ax − b; 3 Si |g| ≤ T OL, entonces FIN; 4 h := Ag; g, g 5 τ := ; g, h 6 x := x − τ g; 7 retornar al paso 2. La velocidad de convergencia del m´todo del gradiente, est´ dada por e a el teorema siguiente, que ser´ enunciado sin demostraci´n. a o Teorema II.4.2.- Sean, A sim´trica y definida positiva, λmax el valor propio e m´s grande, λmin el valor propio m´s peque˜o de A, por lo tanto a a n κ= entonces x k − x∗ ≤ donde x∗ es la soluci´n exacta. o Adem´s, se tiene el: a Teorema II.4.3.- Existe, x0 tal que x k − x∗ = κ−1 κ+1
k

λmax = cond2 A; λmin κ−1 κ+1
k

x 0 − x∗ ,

(II.4.9)

x 0 − x∗ .

(II.4.10)

Demostraci´n.- En un referencial con un origen adecuado y una base de o vectores propios de A, el problema (II.4.2) puede formularse como 1 t¯ x Aˆ − c → min, ˆ x 2 es decir ¯x Aˆ = 0, (II.4.11)

¯ donde A = diag(λmin , . . . , λmax ). Dividiendo (II.4.11) por λmax , se obtiene el sistema equivalente ˆx Aˆ =   1 ..   x = 0. ˆ

. κ

(II.4.12)

´ II.4 Metodos Minimizantes ˆ Por lo tanto, se puede suponer que A tiene la forma de A. Planteando x0 = 0, i el problema se reduce a resolver 1 0 0 κ x y = 0 0 . para i = 2, . . . , n − 1;

69

(II.4.13)

Ahora bien, una iteraci´n del m´todo del gradiente da: o e g0 = x1 y1 de donde: = x0 κy 0 x0 y0 , −τ x0 κy 0 =

El siguiente paso, es encontrar (x0 , y 0 )t , que al aplicar el m´todo del e gradiente, se tenga x1 qx0 = . 1 y −qy 0

(1 − τ )x0 (1 − κτ )y 0 )

,

despejando q, se obtiene

q = 1 − τ, −q = 1 − κτ ; q=

κ−1 . κ+1 Puesto que la oscilaci´n encontrada no depende del punto inicial, las iterao ciones siguientes presentar´n el mismo fen´meno. Con lo que se ha mostrado a o el teorema.

M´todo del Gradiente Conjugado e
La ultima demostraci´n muestra que en determinadas ocasiones el m´todo ´ o e del gradiente conduce a una oscilaci´n en torno a la soluci´n, haciendo o o que la convergencia no sea tan r´pida como se espera, pudiendo mejorar a esta situaci´n, tomando aparte de la direcci´n del gradiente otra direcci´n o o o alternativa. El m´todo del gradiente conjugado consiste en tomar tambi´n e e la direcci´n conjugada al gradiente. Para poder enunciar tal m´todo es o e necesario dar los elementos te´ricos para su comprensi´n. o o
1 Proposici´n II.4.4.- Sea f (x) = 2 xt Ax − xt b, donde A es una matriz o sim´trica y definida positiva. Sea d una direcci´n, entonces los m´ e o ınimos de f (x) sobre las rectas paralelas a d se encuentran en el hiperplano

dt (Ax − b) = 0.

(II.4.14)

70

II Sistemas Lineales

Demostraci´n.- Si x pertenece a una recta de direcci´n d, es de la forma o o x = a + λd, donde λ ∈ R.

Se define la funci´n g, como g(t) = f (a + td), por lo tanto esta funci´n tiene o o un m´ ınimo en t0 , si g ′ (to ) = dt f ′ (a + to d) = 0, es decir, si se cumple dt (A(a + to d) − b) = 0. Definici´n II.4.5.- Dos direcciones d1 y d2 son conjugadas respecto a A si o d1 Ad2 = 0.
t

(II.4.15)

Con lo enunciado anteriormente, se puede formular el m´todo del gradiente e conjugado. Sea x0 un punto de partida, el gradiente inicial est´ dado por a g 0 = Ax0 − b, se define Sup´ngase, que se ha efectuado k iteraciones, es decir, se conoce dk , g k y xk ; o entonces se define: τk = − g
k+1 k+1

d0 = −g 0 .

dk , g k dk , Adk
k+1

, (II.4.16)
k k

xk+1 = xk + τk dk , = Ax = −g d
k+1

+ βk dk .

− b = g + τk Ad ,

Para determinar βk , se impone la condici´n que dk+1 y dk sean conjugados, o por consiguiente t t g k+1 Adk = βk dk Adk , de donde β= g k+1 , Adk dk , Adk . (II.4.17)

´ II.4 Metodos Minimizantes La versi´n algor´ o ıtmica est´ dada por: a 1 2 3 4 5 6 7 8 9 10 11 x := punto de partida; g := Ax − b; d := −g; h := Ad; d, g τ := ; d, h x := x + τ d; g := g + τ h; si |g| ≤ 10−6 , entonces fin algoritmo; g, h β; = ; d, h d := −g + βd; Retornar al paso 4. dk , Adl = 0, g ,g
k l

71

Teorema II.4.6.- Con el algoritmo del Gradiente Conjugado se tiene: l < k; l < k. = 0, (II.4.18)

Demostraci´n.- Por inducci´n sobre k. o o Para k = 1 se tiene d0 , Ad1 = 0 por construcci´n del m´todo, o e g 1 , g 0 = g 0 , g 0 − τ0 Ag 0 , g 0 = 0. Sup´ngase cierto para k, por la construcci´n de g k+1 , se tiene g k+1 , dk = 0, o o entonces: g k+1 , g k = g k+1 , dk +βk−1 g k+1 , dk−1
0

= βk−1 g k , dk−1 +τk βk−1 Adk , dk−1 ;
0 0

hip. ind

g k+1 , g l = g k , g l +τk Adk , dl
0

= 0; dk+1 , Adl = c1 g k+1 , Adl + c2 dk , Adl
0

hip. ind

= c1 g k+1 , g l = 0.

72 En el ejercicio 4, se tiene otras f´rmulas para τk , βk o

II Sistemas Lineales

Definici´n II.4.7.- Se define la norma natural del problema por o √ x A = xt Ax. (II.4.19) Teorema II.4.8.- El error del m´todo del Gradiente Conjugado, despu´s e e de l iteraciones satisface x∗ − xl donde M = inf
µi ∈R λ A

≤ M x ∗ − x0

A

,

(II.4.20)

sup v.p.

A

1 + µ1 λ + µ2 λ2 + · · · + µl λl

.

(II.4.21)

Corolario II.4.9.- Si A tiene solamente l valores propios diferentes, entonces el m´todo del Gradiente Conjugado da la soluci´n exacta despu´s de e o e l iteraciones. Demostraci´n del teorema.- Se puede suponer por traslaci´n, que b = 0, o o de donde la soluci´n exacta es x∗ = 0, por lo tanto el error cometidos es o el = xl . Se tiene d0 = −g 0 , definiendo E1 por: E1 = x = x0 + τ1 d0 = x = x0 + γ1 Ax0 = x = (I + γ1 A)x0 .
1 x1 es el punto de E1 que minimiza f (x) = 2 xt Ax. E2 = x|x = x0 + τ1 d0 + τ2 d1

= x|x = (I + γ1 A + γ2 A2 )x0 . x2 minimiza f (x) en E2 . Continuando se llega a xl minimiza f (x) en El . Sean v1 , . . . , vn vectores propios normalizados de A, por lo tanto forman una base. Por consiguiente:
n

El = x|x = (I + γ1 A + · · · + γl Al )x0 ,

x0 =
i=1

αi vi ,
t αi vi Avj αj i,j 2 αi λi i

x0 Ax0 = = = x0

t

A

.

´ II.4 Metodos Minimizantes Por otro lado, se tiene
n

73

xk = (I + γ1 A + · · · + γl Al )
n

αi vi
i=1

=
i=1 n

αi (1 + γ1 λi + · · · + γl λl )vi , i
2 αi λi (1 + γ1 λi + · · · + γl λl ), i

xl Axl =
i=1

de donde xl
2 A

≤ max

λ1 ,...,λn

1 + γ1 λi + · · · + γl λl i

2

x0

2 A

.

Polinomios de Chebichef
Sup´ngase, que se conoce los valores propios de la matriz A sim´trica y o e definida positiva, es decir: El polinomio que minimiza el polinomio del teorema II.4.8 tiene la propiedad siguiente: — es igual a ǫ en λmin , — admite los valores −ǫ, +ǫ como valores maximos en el int´rvalo e [λmin , λmax ] exactamente l + 1 veces, — es igual a ±ǫ en λmax . La raz´n puede apreciarse en la figura II.4.2, para el caso l = 2. o
1

0 < λmin ≤ λi ≤ λmax .

ε λ min −ε λ max

Figura II.4.2 Polinomio minimizante para l = 2.

74

II Sistemas Lineales

Definici´n II.4.10.- El n-simo polinomio de Chebichef, es el polinomio de o grado n, Tn (x) tal que: Tn (1) = 1, Tn (−1) = (−1)n , Todos los m´ ınimos y m´ximos relativos son ±1 y pertenecen a (−, 1, 1). a Teorema II.4.11.- Chebichef. Tn (x) est´ dado por a Tn (x) = 1 2 x+ x2 − 1
n n

+ x−

x2 − 1

.

(II.4.22)

Demostraci´n.- Este teorema ser´ abordado en el Cap´ o a ıtulo IV, motivo por el cual la demostraci´n no es necesaria por el momento. Lo unico que puede o ´ decirse, es que la definici´n moderna de los polinomios de Chebichef est´ o a dada por Tn (x) = cos nθ, donde x = cos θ. (II.4.23)

Teorema II.4.12.- La constante M del teorema II.4.8, est´ dada por a M= Tl 1
λmax +λmin λmax −λmin

.

(II.4.24)

Demostraci´n.- Se utiliza la transformaci´n af´ dada por o o ın x = αλ + β, donde: 2 , λmax − λmin λmax + λmin β=− . λmax − λmin

α=

por consiguiente tomando 1/M = Tl (β) se tiene el resultado deseado. Teorema II.4.13.- Para el m´todo del Gradiente Conjugado, se tiene la e estimaci´n o √ l κ−1 x0 − x∗ A , (II.4.25) xl − x∗ A ≤ 2 √ κ+1 donde κ = cond2 (A), x∗ la soluci´n exacta. o

´ II.4 Metodos Minimizantes Demostraci´n.- Para x ≥ 1, se tiene o |Tl (x)| ≥ de donde M≤ particularmente para x= λmax + λmin κ+1 = , λmax − λmin κ−1 x+ 1 x+ 2 2 x2 − 1
l

75

x2 − 1 ,

l

,

para x ≥ 1;

(II.4.26)

remplazando en (II.4.26), se obtiene (II.4.25). Con los resultados obtenidos respecto a los errores de convergencia, tanto para el m´todo del gradiente, como para el m´todo del gradiente cone e jugado, se puede estimar el n´mero de iteraciones necesarias para conseguir u una precisi´n relativa de 10−b . Para el m´todo del gradiente por (II.4.6), se o e tiene: κ−1 , κ+1 −2.3b ≈ l ln(1 − 1/κ) − l ln(1 + 1/κ), −2.3b ≈ −2l/κ, l ≈ bκ. 10−b ≈

(II.4.27)

Con el mismo procedimiento que para el m´todo del gradiente, el m´todo e e del gradiente conjugado necesita aproximadamente l iteraciones, de donde √ l ≈ b κ. (II.4.28)

M´todo del Gradiente Conjugado Precondicionado e
El corolario II.4.9 indica claramente, que el m´todo del Gradiente Conjugado e converge a la soluci´n exacta despues de l iteraciones, siendo l el n´mero de o u valores propios diferentes de la matriz A. Se puede mejorar la velocidad de convergencia, haciendo un cambio de variables en el problema original f (x) = Se define x como ˆ x = E t x, ˆ 1 t x Ax − xt b. 2

76

II Sistemas Lineales

donde E es una matriz inversible con ciertas condiciones a cumplir que ser´n a dadas m´s adelante. Para no recargar la notaci´n, se denota a o Et
−1

= E −t .

Por consiguiente, el problema se convierte en f (ˆ) = x 1 t −1 x E AE −t x − xE −1 b. ˆ ˆ ˆ 2 (II.4.29)

El problema es encontrar E, de manera EE t ≈ µA, µ > 0 con el menor gasto de operaciones posibles. Si EE t = µA, aplicando el m´todo del e gradiente conjugado a (II.4.29) se tiene la soluci´n exacta despu´s de una o e sola iteraci´n, en este caso, la matriz E es la descomposici´n de Cholesky o o de µA. Ahora bien, realizar la descomposici´n de Cholesky significa que se o puede calcular directamente la soluci´n, lo que implica un gran n´mero de o u operaciones a ejecutar. La determinaci´n de E se la realiza utilizando dos o m´todos que ser´n analizados m´s adelante. e a a El algoritmo del gradiente conjugado para el problema condicionado est´ dado por: a 1 2 3 4 5 6 7 8 9 10 11 x := punto de partida; ˆ g := E −1 AE −t x − E −1 b; ˆ ˆ ˆ d := −ˆ; g ˆ ˆ h := E −1 AE −t d; ˆˆ d, g τ := ˆ ; ˆˆ d, h x := x + τ d; ˆ ˆ ˆˆ g := g + τ h; ˆ ˆ ˆˆ si |ˆ| ≤ 10−6 , entonces fin algoritmo; g g, h ˆ ˆ ˆ β; = ; ˆˆ d, h ˆ d := −ˆ + β d; g ˆˆ Retornar al paso 4.

La implementaci´n del m´todo del gradiente conjugado al problema o e condicionado (II.4.29), tiene dos incovenientes: El primero que se debe conocer explicitamente la matriz E y el segundo que se efectuan muchas operaciones con la matriz E. Planteando C = EE t , se puede formular el algoritmo, comparando con el m´todo del gradiente conjugado para el problema condicionado y e utilizando las identidades para τk y βk dadas en el ejercicio 4, uno se

´ II.4 Metodos Minimizantes

77

dar´ cuenta de las sutilezas empleadas. Por consiguiente, la formulaci´n a o algor´ ıtmica est´ dada por: a 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x := punto de partida; g := Ax − b; χ := C −1 g; δo := g, χ ; d := −χ; h := Ad; τ := δ0 / d, h ; x := x + τ d; g := g + τ h; si |g| ≤ 10−6 , entonces fin algoritmo; χ := C −1 g; δ1 := g, χ ; β; = δ1 /δ0 ; d := −χ + βd; δ0 := d, g ; Retornar al paso 6.

Esta formulaci´n presenta algunas novedades respecto a la formulaci´n o o del m´todo del gradiente conjugado. La m´s importante es la aparici´n e a o del vector χ. El gasto en memoria es practicamente el mismo, pues se puede utilizar el mismo lugar de memoria para h y χ. Por las observaciones anteriores la matriz C debe ser lo m´s parecida a la matriz A o a un m´ltiplo a u de ´sta. Adem´s, se debe resolver la ecuaci´n e a o Cχ = g, motivo por el cual la matriz C debe ser la m´s simple posible. Actualmente a existen dos m´todos muy utilizados para determinar C, dependiendo sobre e todo de las caracter´ ısticas de A. Estos son: 1.- Factorizaci´n Incompleta de Cholesky o La descomposici´n de Cholesky incompleta de la matriz A, est´ dada por o a EE t . Los coeficientes de E son nulos en el lugar donde los coeficientes de A son nulos; para los otros coeficientes, los valores est´n dados por las f´rmulas a o obtenidas para la descomposici´n de Cholesky dada en la seccion II.2, es o decir:
i−1

eii =  eki =

aii − aki −

e2 , ji
j=1 k−1 j=1

(II.4.30a)  . (II.4.30b)

eii

ekj eji 

78 Luego se resuelve: Eˆ = g; g E tχ = g. ˆ

II Sistemas Lineales

2.- SSOR precondicionado (Axelsson, 1973) La matriz A puede ser descompuesta en tres partes, la diagonal, la parte inferior y la parte superior. El m´todo SSOR consiste en definir la matriz e E, como una matriz triangular inferior, cuyos coeficientes de la diagonal son iguales a la raiz cuadrada de los coeficientes de la diagonal de A. Los coeficientes de la parte inferior de la matriz E son iguales a los coeficientes de la parte inferior de la matriz A multiplicados por un factor de relajaci´n o positivo ω, es decir: √ eii = aii ; (II.4.31a) eki = ωaki , ω ≥ 0. (II.4.31b) Luego se resulve: Eˆ = g, g t E χ = g. ˆ La determinaci´n del ω optimal se realiza al tanteo, dependiendo del proo blema a resolver, pues por el momento no existe un criterio an´litico para a determinar este valor optimal.

Resultados Num´ricos e
El estudio te´rico y la formulaci´n de m´todos de resoluci´n de sistemas o o e o lineales por si solo constituye un hermoso ejercicio mental. Un m´todo no es e bueno, hasta que ha sido probado num´ricamente en problemas concretos, e por eso es importante poder comparar la eficiencia de los diferentes m´todos e formulados en esta secci´n, en diferentes tipos de problemas. o Al igual que la secci´n II.3, se considerar´ una ecuaci´n a derivadas o a o parciales de tipo el´ ıptico, pues este tipo de problema, se presta mucho a la resoluci´n de grandes sistemas lineales. Sea, o △u = −1, u|∂Ω = 0. sobre Ω = [0, 1] × [0, 1]; (II.4.32)

De la misma manera, que la secci´n precedente, se subdivide el dominio Ω o en una malla uniforme de longitud 1/n + 1, planteando: xi = ih yj = jh , h= 1 ; n+1 (II.4.33)

´ II.4 Metodos Minimizantes se obtiene el sistema de ecuaciones dado por: ui,j+1 + ui,j−1 + ui+1,j + ui−1,j − 4uij = −h2 , i, j = 1, . . . , n; ukj = uil = 0, k = 0 o k = n + 1, l = 0 o l = n + 1.

79

Planteando u = (u11 , . . . , u1n , u21 , . . . , u2n , . . . , un,1 . . . , unn )t , el sistema lineal se escribe como (II.4.34) Au = h2 ½, donde A = 4I +B ⊗In +I ⊗B, con ⊗ producto tensorial de matrices definido en la anterior secci´n, In la matriz identidad de orden n × n y o   0 1 . .   B =  1 .. ..  . .. . 0

A es una matriz definida positiva y sim´trica de orden n2 × n2 . e El problema (II.4.34) ser´ resuelto tomando valores aleatorios para u1 . a Se ver´ el costo en iteraciones para diferentes valores de n. Una vez efectuados a los experimentos num´ricos, las gr´ficas de las iteraciones del m´todo del e a e gradiente conjugado precondicionado SSOR, pueden ser observadas en la figura II.4.3.

iter=0

iter=1

iter=2

iter=3

iter=4

iter=5

iter=6

iter=7

iter=8 iter=9 iter=10 Figura II.4.3. Soluci´n del problema (II.4.34). o

iter=18

80

II Sistemas Lineales

En la figura II.4.4 se observa en una gr´fica el costo en iteraciones para a alcanzar una precisi´n de 10−6 para los diferentes m´todos de tipo gradiente. o e
104

iter

103

102

Gradiante. Gradiante Conjugado. Grad. Conj. Chols. Incom.

101

Gradiante Conjugado SSOR.

100 1 10

102

n

Figura II.4.4. N´mero de iteraciones vs n. u Finalmente la tabla II.4.1, da el n´mero de iteraciones para alcanzar u una precisi´n de 10−6 utilizando el m´todo del gradiante conjugado preo e condicionado para diferentes valores de n y el factor de relajaci´n ω. En la o ultima columna se agrega, ω optimal en funci´n de n. ´ o Tabla II.4.1. Determinaci´n de ω optimal. o

n\ω 10 20 50 100 180

0.6 10 12 27 43 72

.65 9 12 24 35 59

.7 8 11 22 37 55

.75 7 10 18 31 46

.8 8 9 17 27 40

.85 9 10 15 24 41

.9 11 11 14 20 33

.95 12 14 16 18 27

ωop .75 .8 .9 .95 .95

´ II.4 Metodos Minimizantes

81

Ejercicios
1.- Mostrar que una matriz sim´trica A es definida positiva si y solamente e si a11  . . k = 1, 2, . . . , n donde Ak = . ak1  ···  a1k .  . .

det(Ak ) > 0

· · · akk

son los menores principales. Indicaci´n: Intentar con la descomposici´n de Cholesky. o o 2.- Calcular el m´ ınimo de f (x) = 1 (x1 , x2 ) 50 93 24 24 107 x1 x2 1 − (42, 21) 5 x1 x2

por el m´todo del gradiente conjugado partiendo del valor inicial x0 = 0. e Hacer un buen gr´fico de los puntos x0 , x1 , x2 , de los vectores g 0 , g 1 , a d0 , d1 , y de las curvas de nivel de la funci´n f (x). o 3.- Aplicar el m´todo del gradiente conjugado al sistema lineal e    3 2 1 1 1 2 1x = 2 3 1 1 2  partiendo de x0 = 0. El m´todo converge en 2 pasos. ¿Por qu´? e e 4.- Mostrar, utilizando las f´rmulas y las relaciones de ortogonalidad del o teorema II.4.6, las expresiones siguientes para βk y τk : βk = g k+1 , g k+1 gk , gk , τk = gk , gk dk , Adk .

5.- Demostrar que la funci´n de la forma o f (x) = xn + α1 xn−1 + α2 xn−2 + · · · + αn se separa lo menos posible de cero entre los l´ ımites x = −1 y x = +1, est´ dada por a Tn (x) f (x) = . 2n

82 6.- Demostrar las relaciones de ortogonalidad
+1 −1

II Sistemas Lineales

7.- (Modificaci´n del m´todo del gradiante conjugado para matrices no o e sim´tricas o no definidas positivas). Sea e Ax = b (II.4.35)

  0 si n = m,  π Tn (x)Tm (x) si n = m = 0, dx = 2  1 − x2  π si n = m = 0.

un sistema lineal, donde A es una matriz arbitraria inversible. El sistema At Ax = At b (II.4.36)

tiene las mismas soluciones que (II.4.35), pero la matriz C = At A es sim´trica y definida positiva. Aplicar el m´todo del gradiente conjugado e e al sistema (II.4.36) y rescribir el algoritmo obtenido de manera que el producto At A no aparezca mas. Cual es la desventaja del nuevo algoritmo si, por mala suerte, se aplica al sistema (II.4.35) que inicialmente era sim´trico y definido positivo. e

II.5 M´ ınimos Cuadrados

Hasta la secci´n precedente, se estudiaron problemas inherentes a la resoo luci´n de sistemas de ecuaciones lineales donde la soluci´n existe y es unica. o o ´ En esta secci´n se estudiar´n problemas m´s generales, donde la existencia o a a y unicidad no juegan un rol tan preponderante. El problema que se estudiar´ consiste b´sicamente en el siguiente. Se a a tiene como datos: (tj , yj ), j = 1, . . . , m, (m grande), (II.5.1)

donde tj ∈ R, yj ∈ R; y una funci´n de modelo o y = ϕ ((t, x1 , . . . , xn )) , n ≤ m, (II.5.2) donde t ∈ R, y ∈ R y xi ∈ R. Un ejemplo de funci´n de modelo, es la siguiente funci´n: o o ϕ ((t, x1 , x2 )) = x1 + tx2 + t2 x1 . El problema consiste en encontrar x1 , . . . , xn , tales que ϕ ((t, x1 , . . . , xn )) ≈ yj , j = 1, . . . , m. (II.5.3)

*

* *
*

*
*

*

*

*

*

*

t1

t2

tm

Figura II.5.1 Problema de los m´ ınimos cuadrados. Sup´ngase que, ϕ es lineal respecto a los xi , es decir o
n

ϕ ((t, x1 , x2 )) =
i=1

ci (t)xi ,

(II.5.4)

84

II Sistemas Lineales

de donde el problema se reduce a resolver el siguiente sistema lineal    c (t ) c (t ) · · · c (t )  y1   1 1 2 1 n 1 x1  y2   c1 (t2 ) c2 (t2 ) · · · cn (t2 )  .  . (II.5.5) .   .  ≈  . , .  .   . .  . . . xn ym c1 (tm ) c2 (tm ) · · · cn (tm ) x b A por consiguiente, resolver Ax ≈ b. Planteando: ej = ϕ(tj , x) − yj , j = 1, . . . , m; (II.5.7) la soluci´n del problema (II.5.6), mediante el m´todo de los m´ o e ınimos cuadrados, ser´ aqu´lla en la que a e
m i=1

(II.5.6)

em −→ min, i

(II.5.8)

es decir Ax − b −→ min . (II.5.9) La justificaci´n del m´todo de los m´ o e ınimos cuadrados, est´ dada por a dos interpretaciones. La primera: Interpretaci´n estad´ o ıstica Las componentes yi del vector b en (II.5.5), pueden ser vistas como medidas experimentales. Ahora bien, toda medida experimental lleva consigo un error, por lo tanto es completamente razonable considerar ´stas como e variables aleatorias. Puesto que, la mayor parte de las medidas experimentales siguen leyes normales, se tiene las dos hip´tesis siguientes, para determinar la soluci´n o o del problema (II.5.6): H1: El valor yi de (II.5.5) es la realizaci´n de un suceso para la variable o aleatoria Yi , i = 1, . . . , m. Se supone que los Yi son independientes y que obedecen la ley normal de esperanza µi y varianza σi . Para simplificar el problema, se supondr´ que los σi son iguales y conocidos de antemano. a H2: El sistema sobredeterminado (II.5.6) posee una soluci´n unica, si se o ´ remplaza los yi por los n´meros µi ; es decir, que existe ξ ∈ Rn unico tal u ´ que Aξ = µ donde µ = (µ1 , . . . , µm )t . La funci´n de distribuci´n de Yi , en Yi = yi , es igual a o o 1 1 yi − µi 2 fi (yi ) = √ exp − ( ) . 2 σ 2πσ

II.5 M´ ınimos Cuadrados

85

Como los Yi son independientes, el vector aleatorio Y = (Y1 , . . . , Ym )t tiene la funci´n de distribuci´n o o f (y) = 1 yi − µi 2 1 √ ) , exp − ( 2 σ 2πσ i=1
m

donde y = (y1 , . . . , ym )t . Efectuando c´lculos, se obtiene a f (y) = C exp − 1 2
m i=1

yi − µi σ

2

.

Aplicando el principio de m´xima presunci´n, la probabilidad de medir yi a o en lugar de µi , para i = 1, . . . , m; est´ dada por a f (y) → max . Por lo tanto, (II.5.10) sucede si
m i=1

(II.5.10)

yi − µi σ
n j=1

2

→ min, 2

(II.5.11)

es decir
m i=1

con lo que se ha justificado (II.5.7). Interpretaci´n geom´trica o e

yi −

ai jxj  → min .

(II.5.12)

Se define el subespacio vectorial de Rm de dimensi´n n dado por o la soluci´n de (II.5.9) est´ dada por el vector x0 , tal que Ax0 − b es o a m´ ınima, es decir Ax0 es el vector m´s proximo perteneciente a E al vector a b, de donde el vector Ax0 − b es ortogonal al espacio E, ver figura II.5.2.
b

E = {Ax|x ∈ Rn } ⊂ Rm ,

E

Figura II.5.2 Interpretaci´n geom´trica. o e

86

II Sistemas Lineales

Teorema II.5.1.- Sea A una matriz de orden m × n, b ∈ Rm , entonces: Ax − b
2

→ min ⇐⇒ At Ax = At b.

(II.5.13)

Las ecuaciones de la parte derecha de la equivalencia, son las ecuaciones normales del problema de m´ ınimos cuadrados. Demostraci´n.- Utilizando la interpretaci´n geom´trica del m´todo de o o e e m´ ınimos cuadrados se tiene: Ax − b 2 −→ min ⇐⇒ b − Ax ⊥ Ay, ∀y ∈ Rn ⇐⇒ Ay, b − Ax = 0, ∀y ∈ Rn ⇐⇒ y t At (b − Ax) = 0, ∀y ∈ Rn ⇐⇒ At (b − Ax) = 0 ⇐⇒ At Ax = At b. Se remarca inmediatamente que la matriz At A es sim´trica y semie definida positiva, es decir xt At Ax ≥ 0. La matriz At A ser´ definida positiva a si y solamente las columnas de A son linealmente independientes. Si ´ste es e el caso, se puede utilizar la descomposici´n de Cholesky para resolver o At Ax = At b, pero en la mayor´ de los casos At A es una matriz mal condicionada. Como ıa ejemplo vale la pena citar el siguiente ejemplo: Se tiene, la funci´n de modelo dada por o
n

ϕ(t) =
i=1

= xi ti−1 ,

es decir, se trata de determinar el polinomio de grado n que mejor ajusta a los puntos (ti , yi ), i = 1, . . . , m y 0 = t1 ≤ t2 ≤ · · · ≤ tn = 1. Por consiguiente, se debe encontrar x ∈ Rn , tal que Ax − b donde: 1 t1 t2
2

−→ min,  y1  y2  b =  . .  .  . ym 

1 A=. . . 1 tm

n−1 · · · tm

n−1 · · · t1  n−1 · · · t2  . , .  .

II.5 M´ ınimos Cuadrados Por lo tanto  At A =     m ti . . . ti t2 i tn i ··· ··· ··· 1/m 1/m
n−1 ti tn i . . .

87

   
n−1 1/m ti 1/m tn i . . .

n−1 ti

1 1  1/m ti  = . . m . n−1 1/m ti  1 1/2 1/2  1/2 ≈ m .  . . 1/n
1 0

t2n−1 i ti · · · t2 · · · i

   

1/m tn · · · 1/m i ··· 1/n  · · · 1/(n + 1)  , .  . . 1/(n + 1) · · · 1/2n tk dt ≈ 1 m tk . i

t2n−1 i

puesto que

De donde, la matriz At A se aproxima a una matriz de tipo Hilbert, la cual es una matriz mal condicionada, resultado visto en la primera secci´n de este o cap´ ıtulo. Por lo tanto se debe formular un algoritmo donde la matriz At A no aparezca directamente.

La descomposici´n QR o
Dada una matriz A de orden m × n, se busca las matrices: Q de orden m × m y la matriz R de orden m × n, tales que la matriz Q sea ortogonal, es decir Qt Q = I; y la matriz R triangular superior, es decir       · · · r1n    ..  .  m, rnn      O   
n

r11  R=   0 con

m ≥ n;

A = QR.

(II.5.14)

88

II Sistemas Lineales Puesto que la matriz Q es ortogonal, para todo vector c ∈ Rm , se tiene Qt c
2

= c ,

de donde Ax − b
2

= Qt (Ax − b) = Rx − Qt b
2

2

−→ min . c1 c2

(II.5.15)

Por otro lado, la matriz R y el vector Qt b pueden escribirse como: R= R1 0 , Qt b = ,

donde R1 es una matriz triangular de orden n×n y c1 ∈ Rn . Por consiguiente, resolver el problema (II.5.6) es resolver la ecuaci´n o R1 x = c1 . (II.5.16)

Ahora bien, el principal problema es encontrar un algoritmo simple y rapido que permita descomponer la matriz A en un producto de la forma QR. Precisamente uno de estos m´todos consiste en la utilizaci´n de matrices e o de Householder. Matrices de Householder (1958) Sea u ∈ Rm , con u
2

= 1. Se define la matriz Q por Q = I − 2uut , (II.5.17)

matriz que es sim´trica y ortogonal. En efecto: e Qt = I − 2uut Qt Q = I − 2uut
t

= I − 2uut ,
t

= I − 2uut − 2uut + 4uut uut = I.

I − 2uut

La manera como act´a Q sobre Rm es la siguiente, sea x ∈ Rm , u Qx = x − 2uut x, si ut x = 0, se tiene inmediatamente que Qx = x, de donde Q es una simetr´ ıa respecto al hiperplano {x|ut x = 0}, en efecto Qu = I − 2uut u = −u.

II.5 M´ ınimos Cuadrados

89

En base a estas matrices se construir´ un m´todo que permita descomponer a e la matriz A en QR en n − 1 pasos a lo m´ximo. a Se busca una matriz Q1 = I − 2u1 ut con u1 2 = 1, tal que 1   α1 ∗ · · · ∗  0 ∗ ··· ∗ Q1 A =  . . . .  . . . . . . 0 ∗ ··· ∗

Denotando por e1 a (1, 0, . . . , 0)t y A1 la primera columna de la matriz A, hay que determinar Q1 , tal que Q1 A1 = α1 e1 , α1 = ± A1 α ∈ R.
2

(II.5.18)

Por las propiedades de norma se tiene |α1 | = A1 2 , por consiguiente , (II.5.19) Q1 es una matriz de Householder, por lo tanto: 2u1 (ut A1 ) = A1 − α1 e1 , 1
∈R

A1 − 2u1 ut A1 = α1 e1 , 1

de donde u1 tiene la misma direcci´n que A1 − α1 e1 . En consecuencia, o u1 = A1 − α1 e1 . A1 − α1 e1 2 (II.5.20)

Sabiendo que la sustracci´n es una operaci´n mal condicionada cuando las o o cantidades a restar son cercanas, se plantea α1 = −signo(a11 ) A1
2

.

(II.5.21)

El siguiente paso es determinar Q1 Aj , donde Aj es la j-esima columna de la matriz A, definiendo v1 = A1 − α1 e1 , se tiene:
t v1 v1 1 = (At − α1 et )(A1 − α1 e1 ) 1 2 2 1 1 2 2 = A1 2 −α1 a11 − α1 a11 + α1 2 α2 1

= α1 (α1 − a11 ), Q1 Aj = Aj − 2u1 ut Aj 1 = Aj − 2 t v1 v1 Aj t v1 v1 1 t = Aj − v1 v1 Aj . α1 (α1 − a11 )

(II.5.22)

90

II Sistemas Lineales

¯ El segundo paso es determinar Q2 matriz de Householder, como en el primer paso, de manera que     α1 ∗ ∗ · · · ∗ α1 ∗ · · · ∗     0 α2 ∗ · · · ∗   0 , = 0  . 0 Q2 Q1 A =  . ¯ ¯  Q2 A(1)   . . . ¯   . . A(2) . . 0 0 0 donde  1 0 Q2 =  .  . . 0 0 ··· 0 ¯ Q2 

Despu´s del primer paso de la descomposici´n QR, se ha obtenido e o   α1 ∗ · · · ∗   0 . Q1 A =  . ¯(1)   . A . 0

 . 

Costo de la descomposici´n QR o La descomposici´n se la realiza en n − 1 ´tapas, o e Qn−1 · · · Q2 Q1 A = R, Qt para el primer paso contando el producto escalar se efectuan: m + (n − 1)2m operaciones, por lo tanto, el costo es aproximadamente igual 2(mn + (m − 1)(n − 1) + · · · (m − n + 1),
2 si n ≈ m se tiene ≈ 3 n3 operaciones; si n ≪ m se tiene ≈ mn2 operaciones.

Programaci´n o La descomposici´n QR presenta la ventaja que se puede utilizar las plazas o ocupadas por los coeficientes de la matriz A, con los coeficientes de la matriz

II.5 M´ ınimos Cuadrados

91

R y los vectores v1 . En lo que se sigue, se tiene un esquema del m´todo de e descomposici´n QR. o R A → v1 ¯ A(1) v1 v2 R → ¯ A(2)

α1

α1 α2

Al final de la descomposici´n se obtiene la siguiente matriz o R v1 v2 .. . vn α1 α2 · · · αn

Hay que observar que QR es aplicable, si las columnas de A son linealmente independientes. Si no fuesen linealmente independientes se llegar´ a la ıa situaci´n de obtener un αi = 0, y la descomposici´n en este caso ser´ o o ıa num´ricamente inestable. Para evitar esta situaci´n, se puede modificar la e o descomposici´n QR de la manera siguiente. Sea A la matriz a descomponer, o se considera (II.5.23) Ajo 2 = max Aj 2 , 2 2
j=1,...,n

se intercambia la primera columna A1 con Ajo y se procede el primer paso de la descomposici´n QR, para el segundo paso se procede de la misma manera o y as´ sucesivamente. Por consiguiente, con esta modificaci´n se obtiene la ı o sucesi´n decreciente, o α1 ≥ α2 ≥ · · · ≥ αk > 0. (II.5.24) Si hay vectores linealmente dependientes se llega por lo tanto al siguiente resultado   α1 · · · r1n R1 R2 .  .. . con R1 =  R= . (II.5.25) . . 0 0 αk k = rangA

92

II Sistemas Lineales

La descomposici´n QR es un instrumento num´rico que permite determinar o e el rango de la matriz A. Ahora bien, debido a los errores de redondeo, el principal problema consiste en decidir cuando un αj es nulo en la sucesi´n o decreciente (II.5.24) . Se remarca inmediatamente que, si αk+1 = 0, entonces αk+i = 0 para i > 2. ˆ Se define la matriz R el resultado num´rico obtenido despues de k pasos e como   α1 ..  ˆ R2  . . ˆ R= (II.5.26)   αk 0 0 Planteando ˆ ˆ A = QR, se tiene la: Definici´n II.5.2.- αk+1 es despreciable, si y solamente si o ˆ A−A Se tiene, por consiguiente: ˆ ˆ A − A = Q(R − R), A 2 = R 2, ˆ A−A de donde αk+1 despreciable ⇐⇒ ˆ R−R
2 2 2

(II.5.27)

2

≤ eps A

2

.

(II.5.28)

ˆ = R−R

2

,

≤ eps R

2

,

maci´n de R 2 , obteniedo el siguiente resultado o αk+1 despreciable ⇐⇒ αk+1 ≤ eps α1 . (II.5.29)

ˆ αk+1 es una buena aproximaci´n de R − R o

, y α1 es una buena aproxi-

La pseudo-inversa de una matriz
El problema (II.5.6) tiene una soluci´n unica, si el rango de la matriz A es o ´ igual a n y est´ dada por a x = (At A)−1 At b. (II.5.30)

II.5 M´ ınimos Cuadrados La matriz

93 A+ = (At A)−1 At ,

(II.5.31)

ser´ la matriz inversa para el problema (II.5.6). a Para el problema m´s general, donde le rango de A es ≤ n, la descoma posici´n QR da el siguiente resultado o   α1 · · · r1k R1 R2 .. ; , con R1 =  R= . 0 0 0 αk planteando x = (x1 , x2 )t , con x1 ∈ Rk , se tiene Ax − b
2 2

= Rx − Qt b

2 2

R1 x1 + R2 x2 − c1 −c2 de donde el: R1 x1 + R2 x2 − c1 2 2

2 2

+ c2

2 2

, −→ min, si y (II.5.32)

Teorema II.5.3.- x = (x1 , x2 )t es soluci´n de Ax − b o solamente si R1 x1 + R2 x2 = c1 .

2

Si el rango de A es igual a n, la soluci´n es unica; si no las soluci´nes del o ´ o problema (II.5.6) constituyen un espacio af´ Sea por consiguiente ın. F = {x|x es soluci´n de (II.5.6)} , o de donde, para obtener una soluci´n unica, el problema (II.5.6) se convierte o ´ en Ax − b 2 −→ min , (II.5.33) x 2 −→ min Definici´n II.5.4.- La pseudo-inversa de la matrix A de orden m × n es la o matriz A+ de orden n × m, que expresa la soluci´n x∗ para todo b ∈ Rm del o problema (II.5.33) como x∗ = A+ b. (II.5.34) Si la matriz A es de rango n, entonces la pseudo inversa est´ dada por la a f´rmula (II.5.31). Para el caso m´s general se tiene los siguientes resultados: o a F= x
2 2

x1 x2
2 2

= x1

+ x2

x2 arbitrario −1 x1 = R1 (c1 − R2 x2 )
2 2 2 2

,

−1 = R1 (c1 − R2 x2 )

+ x2

2 2

−→ min .

(II.5.35)

94 Derivando (II.5.35), se obtiene

II Sistemas Lineales

−1 t −t t −t −1 I + (R2 R1 )R1 R2 x2 = R2 R1 R1 c1 .

(II.3.36)

sim´trica y definida positiva e Se ha definido la pseudo-inversa de la matriz A, su existencia est´ asegurada a por el hecho que el problema (II.5.33) tiene soluci´n unica, en lo que sigue o ´ se determinar´ de manera expl´ a ıcita esta pseudo-inversa con algunas de sus propiedades m´s interesantes. a Teorema II.5.5.- Sea A una matriz de m × n, entonces existe dos matrices ortogonales U y V tales que    t U AV =      σ1 ..    σn      con:

.

0

σ1 ≥ · · · ≥ σk > 0, σk+1 = · · · = σn = 0.

(II.3.37)

(II.3.37) se llama la descomposici´n a valores singulares de la matriz A y o σ1 , . . . , σn son los valores singulares de la matriz A. Demostraci´n.- La matriz At A es sim´trica y semi definida positiva, por o e consiguiente existe una matriz V ortogonal tal que  2  σ1   .. V t At AV =  , .
2 σn

con σ1 ≥ · · · ≥ σn ≥ 0. Se busca una matriz U ortogonal tal que    AV = U      σ1 .. .    σn  ,    

0

suponiendo σk > 0 y σk+1 = 0, se define D la matriz diagonal de k × k con coeficientes σi , i = 1, . . . , k; por consiguiente si AV = ( U1 U2 ) D 0 0 0 = ( U1 D 0),

II.5 M´ ınimos Cuadrados donde U1 est´ constituida por las primeras k columnas de U . Sean a (AV )1 (AV )2 las primeras k columnas de AV, las otras n − k columnas de AV,
k

95

ˆ ˆ (AV )2 = 0, en efecto, sea x = (0, . . . , 0, x)t , donde x ∈ Rn−k , obteniendo: 
2 σ1

 xt V t At AV x = xt  AV x
2 2

..
2 2

.
2 σn

= (AV )2 x ˆ

,

∀ˆ. x

  x = 0;

Se define U1 por

U1 = (AV )1 D−1 ,
t U1 U1 = D−1 (AV )t (AV )1 D−1 = I 1

obteniendo columnas ortonormales, ya que

Finalmente se construye U2 , de manera que U sea ortogonal. Teorema II.5.6.- Sea A una matriz de m × n, siendo   σ1 ..  0 . , U t AV = Σ =    σk 0

(II.5.38)

la descomposici´n en valores singulares. Entonces la pseudo-inversa de A o est´ dada por a   −1 σ1 ..  0 t . U . (II.5.39) A+ = V    −1 σk 0 Demostraci´n.- Se tiene o Ax − b
2 2

= U ΣV t x − b
t

2 2 2 t 2 2

= U (ΣV x − U b) = Σy − c
2 2

= Σ V
y

t

−U b
c 2 2 2

t

=
2 2

Dy1 0 + c2
2 2

− .

c1 c2

= Dy1 − c1

96

II Sistemas Lineales

Para que la expresi´n sea minimal es necesario que y1 = D−1 c1 . Por otro o lado se tiene que y = V t x, de donde y 2 = x 2 , de manera, que para que x sea minimal es necesario que y2 = 0. De donde x =V =V =V D−1 c1 0 D−1 0 D−1 0 0 0 0 0 ∀b. c1 c2 V tb

=A+ b,

Finalmente se tiene: Teorema II.5.7.- La pseudo-inversa de una matriz verifica las siguientes propiedades: a) b) c) d) (A+ A)t = A+ A, (AA+ )t = AA+ , A+ AA+ = A+ , AA+ A = A,

llamados axiomas de Moore-Penrose, adem´s la pseudo-inversa est´ unicaa a ´ mente determinada por estos axiomas. Demostraci´n.- Verificaci´n inmediata utilizando (II.5.39). o o

Error del M´todo de los M´ e ınimos Cuadrados
Retomando la interpretaci´n estad´ o ıstica del m´todo de los m´ e ınimos cuadrados. Se han dado dos hip´tesis de partida, para determinar la soluci´n: la o o primera sobre los yi de la ecuaci´n (II.5.5); la segunda concerniente a la o compatibilidad de la funci´n modelo (II.5.2) con los datos (II.5.1). o Suponiendo v´lidas estas dos hip´tesis, se tiene a o Aξ = µ, (II.5.40)

donde µ = (µ1 , . . . , µm )t es la esperanza del vector aleatorio Y . Ahora bien, el m´todo de los m´ e ınimos cuadrados da como soluci´n (x1 , . . . , xn )t , que por o (II.5.30), es igual a x = (At A)−1 At b.

II.5 M´ ınimos Cuadrados Por lo tanto
m

97

x − ξ = (At A)−1 At (b − µ) o

xi − ξ i =

j=1

αij (bj − µj ),

(II.5.41)

donde αij es el elemento (i, j) de la matriz (At A)−1 At . Se supondr´, por lo tanto, que xi es una realizaci´n de una variable a o aleatoria Xi definida por
m

X i − ξi =

j=1

αij (Yj − µj ).

(II.5.42)

Teorema II.5.8.- Sean X1 , X2 , . . . , Xm variables aleatorias independientes, con esperanza µi y varianza σi = 1. Entonces, la variable aleatoria Xi , definida por (II.5.42), satisface E(xi ) = ξi y V ar(Xi ) = ǫii , (II.5.43)

donde ǫii es el i-esimo elemento de la diagonal de (At A)−1 . Los otros elementos de (At A)−1 son las covarianzas de Xi . Demostraci´n.- Se tiene, utilizando la linearidad de la esperanza, o
m

E(Xi ) =
j=1

αij E(Yj − µj ) + ξi

= ξi . Para calcular la varianza de Xi , se utiliza el hecho que V ar(Z1 + Z2 ) = V ar(Z1 ) + V ar(Z2 ), si Z1 y Z2 son independientes. De donde, con ei el i-esimo vector de la base can´nica, se tiene o V ar(Xi ) = V ar(Xi − ξi )
m

=
j=1 m

2 αij V ar(Yj − µj ) 2 αij

=
j=1

= (At A)−1 At ei = = =

2 2 t −1 t 2 t ei (A A) A 2 t ei (At A)−1 At A(At A)−1 ei et (At A)−1 ei = ǫii . i

98

II Sistemas Lineales

Por consiguiente, si los yi son realizaciones de una variable aleatoria Yi que sigue N (0, 1), suponiendo que una soluci´n exacta ξ existe, entonces se o tiene una probabilidad de 95% que ξi = xi ± 2σXi . (II.5.44)

La f´rmula (II.5.43) da los valores de σXi , sin embargo se ha visto que o la determinaci´n de At A puede representar una cantidad grande de c´lculo. o a Utilizando la descomposici´n QR, se tiene o At A = Rt Qt QR = Rt R. (II.5.45)

Como las ultimas filas de ceros no incide en el c´lculo del producto Rt R, se ´ a puede considerar R como una matriz de n × n, obteniendo as´ la descomı posici´n de Choleski de (At A). o Una vez determinados los par´metros x de la funci´n modelo (II.5.2) a o corresponde saber, si los (II.5.1) son compatibles con tal modelo. Por la descomposici´n QR, el problema (II.5.6) se convierte, ver (II.5.15), en o R 0 x= C1 C2 , donde C1 C2 = Qt b. (II.5.46)

Denotando los elementos de Qt por qij , los elementos del vector C, satisfacen
m

ci =
j=1

qij bj ,

y las componentes del vector C2 satisfacen tambi´n e
m

ci =
j=1

qij (bj − µj ).

Es razonable considerar las variables aleatorias
m

Zi =
j=1

qij (Yj − µj ),

i = n + 1, . . . , m.

(II.5.47)

A continuaci´n, se da la proposici´n siguiente, sin demostraci´n. o o o Proposici´n II.5.9.- Sean Y1 , . . . , Ym variables aleatorias independientes o siguiendo N (0, 1). Entonces las variables aleatorias Zn+1 , . . . , Zm , definidas por (II.5.47) son independientes y siguen tambi´n una ley normal N (0, 1). e El error cometido, por el m´todo de los m´ e ınimos cuadrados, es equiva2 lente a estudiar C2 2 de donde el teorema, sin demostraci´n: o

II.5 M´ ınimos Cuadrados

99

Teorema II.5.10.- Pearson. Sean Z1 , Z2 , . . . , Zn variables aleatorias independientes siguiendo la ley normal N (0, 1). Entonces, la distribuci´n de la o variable aleatoria 2 2 Z1 + · · · + Zn , (II.5.48) est´ dada por a fn (x) = 1 2n/2 Γ(n/2) xn/2−1 e−x/2 , x > 0; (II.5.49)

y por fn (x) = 0 para x ≤ 0. Es la ley χ2 con n grados de libertad. La experanza de esta variable es n y su varianza es 2n. Ejemplo A partir de la funci´n f (t) = t + 0.5 sin(πt/2), se ha elaborado la tabla o II.5.1, que tiene como elementos (i, bi ) con 0 ≤ i ≤ 9, donde bi = f (i)+ǫi . ǫi es la realizaci´n de una variablea aleatoria siguiendo una ley normal o N (0, σ) con σ = 0.1. Tabla II.5.1. Valores de bi en funci´n de i. o i bi i bi

0 0.11158 5 5.5158 1 1.2972 6 6.0119 2 2.07201 7 6.6802 3 2.4744 8 7.9294 4 3.963 9 9.4129

Se considera, la funci´n de modelo o ϕ(t) = xt + y sin(πt/2). Obteniendo por la descomposici´n QR: o x = 1.00074, y = 0.413516. El siguiente paso ser´ estimar el intervalo de confianza para x y y. Para a tal efecto, se considera el problema x t sin(πt/4) bi +y = , σ σ σ i = 0, . . . , 9; (II.5.50)

100

II Sistemas Lineales pues, los bi /σ deben ser realizaciones de una variable normal con varianza igual a 1. De donde la matriz de covarianza est´ dada por a
2 σx σxy

σxy 2 σy

=

3.57143 · 10−5 −3.57143 · 10−5

−3.57143 · 10−5 2.03571 · 10−3

.

Por consiguiente: x = 1.00074 ± 0.012, y = 0.41352 ± 0.09. El m´todo QR, con la notaci´n precedente da e o C2
2

= 0.0693103;

corrigiendo, para el problema normalizado, se tiene C2 σ2
2 2

= 6.93103.

Se tiene 10 − 2 grados de libertad. Viendo en una tabla de la distribuci´n o χ2 , se deduce que este valor es lo suficientemente peque˜o para ser n probable. Ahora bien, si se hubiese considerado la funci´n de modelo o ϕ(t) = xt + y, se hubiera encontrado C2 σ2
2 2

(II.5.51)

= 90.5225,

valor demasiado grande para ser probable. La conclusi´n es que, para los valores de la tabla II.5.1, la ley (II.5.50) o es m´s probable que la ley (II.5.51). a En la figura II.5.3, puede observarse en linea continua la gr´fica de la a funci´n modelo dada por (II.5.50) y con lineas segmentadas la gr´fica de o a la funci´n modelo (II.5.1). o

II.5 M´ ınimos Cuadrados

101

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9

Figura II.5.3. Resultados del m´todo de los m´ e ınimos cuadrados.

Ejercicios
1.- Sea A una matriz inversible de n × n. Mostrar que la descomposici´n o QR es unica, si se supone que rjj > 0 para j = 1, . . . , n. ´ 2.- Aplicar el algoritmo de Golub-Householder a la matrice de rotaci´n o A= cos α − sin α sin α cos α .

102 Dar una interpretaci´n geom´trica. o e

II Sistemas Lineales

3.- Sea Q una matriz ortogonal de n × n. Mostrar que Q puede escribirse como el producto de n matrices de Householder, de donde cada transformaci´n ortogonal de Rn es una sucesi´n de al menos n reflexiones. o o 4.- Escribir una subrutina DECQR(N,M,MDIM,A,ALPH), (A(MDIM,N),ALPH(N)), que calcula la descomposici´n QR de una mao triz m × n, m ≥ n. Escribir tambi´n una subrutina SOLQR(N,M,MDIM,A,ALPH,B) que cale cula la soluci´n del problema o AX − b
2

−→ min .

Determinar la parabola x1 + x2 t + x2 t2 , que ajusta lo mejor posible: ti 0 0, 2 0, 4 0, 6 0, 8 1.0 yi 0, 10 0, 15 0, 23 0, 58 0, 45 0, 60

5.- Sea A una matriz m × n. Mostrar que At A + ρI es no singular para ρ>0y A+ = lim (At A + ρI)−1 At .
ρ→0+

Cap´ ıtulo III Interpolaci´n o

Uno de los mayores problemas con que se tropieza, radica en la evaluaci´n o de las funciones en determinados puntos. Las causas principales de estas dificultades est´n esencialmente en la dificil manipulaci´n de estas funciones; a o una funci´n tan inocente como la logaritmo presenta dificultades en su evao luaci´n y se debe recurrir a utiles mat´maticos como series, etc. Por otro lado, o ´ e la sola informaci´n que se conoce de esta funci´n, son determinados puntos, o o e incluso suponiendo que ´sta es lo bastante regular, la evaluaci´n en otros e o puntos es de gran dificultad. De donde un m´todo de facil manipulaci´n e o consiste en la aproximaci´n de las funciones a evaluar por polinomios. o Existen dos enfoques diferentes, el primero radica en la aproximaci´n meo diante polinomios de interpolaci´n y el otro mediante la mejor aproximaci´n o o polinomial respecto a una norma. Este cap´ ıtulo abordar´ sobre todo la aproximaci´n mediante polinomios. a o La primera parte tratar´ sobre la interpolaci´n de Lagrange y Hermite, la a o formulaci´n de algoritmos para calcular estos polinomios ser´ hecha, las o a estimaciones de error cometido ser´n tambi´n estudiadas a fondo, como as´ a e ı mismo los problemas de estabilidad inherentes a la interpolaci´n de Lagrange o ser´n abordados con resultados y ejemplos, como elementos te´ricos los a o polinomios de Chebichef ser´n vistos dando como consecuencia resultados a interesantes sobre la elecci´n de los puntos de interpolaci´n. Un segundo o o t´pico a ver ser´ los splines, polinomios que operan como serchas, por su facil o a manipulaci´n, como por su gran utilidad ser´n estudiados en la formulaci´n o a o de los m´todos, el c´lculo de error y sus diferentes aplicaciones. Un tercer e a tema de gran inter´s por las grandes utilidades que puede dar, consiste en e los m´todos de extrapolaci´n tanto como en su valor te´rico, como tambi´n e o o e por su propiedad de acelerar la convergencia de muchas sucesiones.

III.1 Interpolaci´n de Lagrange o

En la introducci´n del cap´ o ıtulo, se mencion´ la interpolaci´n como un o o instrumento de aproximaci´n de una funci´n determinada. Sea f una funci´n o o o de la que se conoce las im´genes en una cantidad finita de puntos, es decir a f (xi ) = yi i = 1, . . . , n;

la funci´n interpolante p ser´ por definici´n igual a f (xi ) para i = 1, . . . , n. o a o Se hablar´ de interpolaci´n cuando se eval´a en el punto x con a o u x ∈ [min xi , max xi ], y de extrapolaci´n si no. Por su facil manipulaci´n, pues solo se efectua o o multiplicaciones y adiciones, es conveniente que la funci´n interpolante p sea o un polinomio. Definici´n III.1.1.- Dados (k +1) puntos diferentes: x0 , x1 , . . . , xk de [a, b], o los enteros no negativos α0 , . . . αk y los reales yili con 0 ≤ i ≤ k y 0 ≤ li ≤ αi . El Polinomio de Hermite pn de grado n = k + α0 + · · · + αk , respecto a los xi , αi y los yili verifica (l pn i ) (xi ) = yili . (III.1.1) Si los αi = 0 para i = 0, . . . , k, pn se llama Polinomio de Lagrange. Definici´n III.1.2.- Cuando los puntos yili satisfacen o
(l yili = fn i ) (xi ),

(III.1.2)

para una determinada funci´n f , pn es el polinomio de interpolaci´n de o o Hermite, y si los αi son nulos, se hablar´ del polinomio de interpolaci´n de a o Lagrange. Estas dos definiciones dan las condiciones que deben cumplir los polinomios de interpolaci´n, sin embargo la existencia, como la unicidad no est´n o a dadas, podr´ suceder que no existiesen en alg´n caso. Por eso es necesario ıa u insistir en la base te´rica que asegure la existencia y la unicidad de estos, o adem´s, para que la construcci´n de estos pueda ser relativamente facil. a o

Bases Te´ricas o
Sin querer dar un tratado sobre la teor´ de los polinomios, existen resultados ıa que deben formularse para la mejor comprensi´n de la interpolaci´n polinoo o mial. Aunque en Algebra se hace distinci´n entre polinomio y su funci´n o o

´ III.1 Interpolacion de Lagrange

105

polinomial asociada, no se har´ distinci´n entre estos, por que son polia o nomios a coeficientes reales o complejos los que se utilizan en la mayor parte de los problemas a resolverse num´ricamente. e Definici´n III.1.3.- Sea p(x) ∈ R[x], a es un cero de multiplicidad m de o p(x), si p(k) (a) = 0 m = 0, . . . , m − 1, y p(m) = 0. Proposici´n III.1.4.- a es un cero de multiplicidad m de p(x), si y o solamente si, existe un polinomio q(x) con q(a) = 0 tal que p(x) = (x − a)m q(x). Demostraci´n.-Ver en cualquier libro de Algebra. o Corolario III.1.5.- Un polinomio pn (x) de grado n tiene a lo m´s n ceros a contando con su multiplicidad. Teorema III.1.6.- Existe a lo sumo un polinomio de Hermite de grado n respecto x0 , . . . , xk , α0 , . . . , αk , con k + α0 + · · · + αk = n, tal que
(l pn i ) (xi ) = yili ,

donde yili ∈ R, 0 ≤ li ≤ αi . Demostraci´n.- Sean pn y qn dos polinomios de Hermite que satisfacen o las hip´tesis del teorema. pn − qn es un polinomio nulo o de grado ≤ n. o Ahora bien, pn − qn tiene ceros de al menos multiplicidad αi + 1 en xi para i = 0, . . . , k. Por la proposici´n anterior se tiene o
k

pn − qn =

i=0

(x − xi )αi +1

r(x),

sumando los grados, la unica posibilidad es que r(x) = 0. ´ Teorema III.1.7.- Existe al menos un polinomio de Hermite de grado n respecto x0 , . . . , xk , α0 , . . . , αk , con k + α0 + · · · + αk = n, tal que
(l pn i ) (xi ) = yili ,

donde yili ∈ R, 0 ≤ li ≤ αi . Demostraci´n.- Es suficiente mostrar que existe un polinomio de Hermite o de grado n tal que para i ∈ {0, . . . , k} y l ∈ {0, . . . , αi } se tenga: p(l) (xi ) = 1, p(m) (xj ) = 0 para m = l oj = i,

106

´ III Interpolacion

den´tese por pi,l este polinomio. xj para j = i es un cero de multiplicidad o αj + 1, de donde: pi,l = r(x)   (x − xj )αj +1 ) , 
j=i

j=i

pi,αi = Ci,αi (x − xi )αi 

(x − xj )αj +1 ) ,
(α )

i la constante Ci,αi es escogida de manera que pi,αi (xi ) = 1. Los polinomios pi,l se los define recursivamente de la siguiente manera

pi,l = Ci,l (x − xi )αi 
(l)

j=i

(x − xj )αj +1 ) −

m>l

ci pi,m  , l,m
(m)

donde las constantes ci son escogidas de manera que pi,l (xi ) = 0 para l,m m > l y Ci,l de manera que pi,l = 1. Para construir el polinomio de interpolaci´n no debe utilizarse los o polinomios definidos en la demostraci´n, uno porque el costo en operaciones o es demasiado elevado y otro por la sensibilidad de estos polinomios as´ ı definidos a los errores de redondeo.

Construcci´n del Polinomio de Interpolaci´n o o
Inicialmente se considerar´ polinomios de interpolaci´n del tipo de Lagrange. a o Por lo tanto, dados los puntos x0 , . . . , xn todos diferentes, y los valores y0 , . . . , yn , el problema se reduce a encontrar un polinomio de grado n que satisfaga p(xi ) = yi 0 ≤ i ≤ n. (III.1.3) Indudablemente el caso m´s sencillo es para n = 1 y luego para n = 2. a Para n = 1 la recta de interpolaci´n est´ dada por o a p(x) = y0 + y1 − y0 x1 − x0 (x − x0 ),

para n = 2 la par´bola de interpolaci´n est´ dada por a o a p(x) = y0 + y1 − y0 x1 − x0 (x − x0 ) + a(x − x0 )(x − x1 ),

´ III.1 Interpolacion de Lagrange

107

Para n = 3 se puede continuar con el mismo esquema, pero antes es necesario dar la noci´n de diferencias divididas. o

este ultimo polinomio verifica p(x0 ) = y0 y p(x1 ) = y1 , por consiguiente es ´ necesario determinar a de manera que p(x2 ) = y2 . Unos simples c´lculos a algebraicos dan y2 − y1 y1 − y0 1 . − a= x 2 − x0 x 2 − x1 x1 − x2

Definici´n III.1.8.- (Diferencias Divididas) Sean (x0 , y0 ), . . . , (xn , yn ), los o xi diferentes entre si. Entonces las diferencias divididas de orden k se definen de manera recursiva por: y[xi ] = yi , yj − yi y[xi , xj ] = , xj − xi y[xi1 , . . . , xik ] − y[xi0 , . . . , xik−1 ] . y[xi0 , . . . , xik ] = xi k − xi 0 (III.1.4a) (III.1.4b) (III.1.4c)

Teorema III.1.9.- (F´rmula de Newton). El polinomio de interpolaci´n de o o grado n que pasa por (xi , yi ), i = 0, . . . , n, est´ dado por a
n i−1

p(x) =
i=0 −1

y[x0 , . . . , xi ]

k=0

(x − xk ),

(III.1.5)

con la convenci´n o

k=0

(x − xk ) = 1.

Demostraci´n.- Por inducci´n sobre n. Para n = 1 y n = 2 la f´rmula de o o o Newton es correcta, ver m´s arriba. Se supone que la f´rmula sea correcta a o para n − 1. Sea, p(x) el polinomio de grado n que pasa por (xi , yi ), i = 0, . . . , n; de donde p(x) = p1 (x) + a(x − x0 )(x − x1 ) · · · (x − xn−1 ), con p1 (x) el polinomio de interpolaci´n de grado n − 1 que pasa por (xi , yi ) o i = 0, . . . , n − 1. Por hip´tesis de inducci´n se tiene o o
n−1 i−1

p1 (x) =
i=0

y[x0 , . . . , xi ]

k=0

(x − xk ),

por lo tanto hay que demostrar que a = y[x0 , x1 , . . . , xn ].

108

´ III Interpolacion

Sea, p2 (x) el polinomio de interpolaci´n de grado n − 1 que pasa por (xi , yi ), o i = 1, . . . , n; definiendo el polinomio q(x) por q(x) = p2 (x) (x − x0 ) (xn − x) + p1 (x) , (xn − x0 ) (xn − x0 )

q(x) es un polinomio de grado a lo sumo n, adem´s q(xi ) = yi , i = 0, . . . , n. a Por la unicidad del polinomio de interpolaci´n se tiene que p(x) = q(x). o Comparando los coeficientes del t´rmino de grado n se obtiene e a= y[x1 , . . . , xn ] − y[x0 , . . . , xn−1 = y[x0 , . . . , xn ] x n − x0

La f´rmula de Newton es muy simple y facil de implementar en un o programa para determinar el polinomio de interpolaci´n de tipo Lagrange, o ver la figura III.1.1 donde se muestra un esquema del algoritmo de Newton.

x0 y[x0 ]

ց ր ց ր ց ր ց

y[x0 , x1 ]

x1 y[x1 ]

ց ր ց ր ց

y[x0 , x1 , x2 ]

y[x1 , x2 ]

ց ր ց

y[x0 , . . . , x3 ]

x2 y[x2 ]

y[x1 , x2 , x3 ]

ց

y[x2 , x3 ]

x3 y[x3 ]

x4 y[x4 ] . .. . . . . . .

ր y[x3., x4 ] . .. . ր .

y[x2 , x3 , x4 ] . . . .. .

ր y[x1 , ... . , x4 ] . . .. ր .

y[x0 , ... . , x4 ] . . .. .

Figura III.1.1. Esquema de la F´rmula de Newton. o La programaci´n del polinomio de interpolaci´n es muy facil, adem´s o o a que se puede utilizar la plaza ocupada por yi . En efecto la primera columna del esquema es utilizada por los yi , se remarca inmediatamente que yn aparece una vez en los calculos, por consiguiente las ultimas n − 1 lugares de ´ la columna son utilizados por los n − 1 valores de las diferencias divididas que aparecen en la segunda columna, quedando el primer valor de y0 , y se continua de esta manera hasta obtener y[x0 , . . . , xn ].

´ III.1 Interpolacion de Lagrange

109

Un caso particular en la determinaci´n del polinomio de interpolaci´n o o ocurre cuando la subdivisi´n de los puntos es uniforme, es decir o xi = x0 + ih, i = 0, . . . , n; (III.1.6)

donde h = (xn − x0 )/n. Para poder implementar el algoritmo de Newton con esta subdivisi´n es necesario, las siguientes dos definiciones. o Definici´n III.1.10.- (Diferencias Finitas Progresivas) Sea y0 , y1 , . . . , una o sucesi´n de n´meros reales, se define el operador de diferencias finitas o u progresivas de orden k de manera recursiva como sigue: ∇0 yi = yi , ∇yi = yi+1 − yi , ∇k+1 yi = ∇k yi+1 − ∇k yi . (III.1.7a) (III.1.7b) (III.1.7b)

Definici´n III.1.11.- (Diferencias Finitas Retr´gradas) Sea y0 , y1 , . . . , una o o sucesi´n de n´meros reales, se define el operador de diferencias finitas o u retr´grada de orden k de manera recursiva como sigue: o ¯ ∇0 yi = yi , ¯ ∇yi = yi − yi−1 , ¯ k+1 yi = ∇k yi − ∇k yi−1 . ¯ ¯ ∇ (III.1.8a) (III.1.8b) (III.1.8b)

Ahora bien, tomando una subdivisi´n uniforme x0 < . . . < xn se o tiene los dos resultados equivalentes para el polinomio de interpolaci´n de o Lagrange que pasa por los puntos (xi , yi ). Utilizando las diferencias finitas progresivas se tiene
n

p(x) =
i=0

∇i y0 i!hi

i−1

k=0

(x − xk ),
−1

(III.1.9)

donde h = (xn − x0 )/n y con la convenci´n o diferencias retr´gradas se tiene o
n i−1

k=0

(x − xk ) = 1. Utilizando las

p(x) =
i=0 −1

¯ ∇i yn i!hi

k=0

(x − xn−k ),

(III.1.10)

con la convenci´n o

el caso general, con la unica diferencia que no se efect´an divisiones. Por ´ u

k=0

(x − xn−k ) = 1. La programaci´n es la misma que para o

110

´ III Interpolacion

consiguiente, se tiene el mismo esquema de resoluci´n para una subdivisi´n o o uniforme. En la figura III.1.2 se observa los esquemas para las diferencias finitas progresivas y las diferencias finitas retr´gradas. o
¯ xn ∇0 yn ց ր ∇y0

x0 ∇0 y0

ց ր ց ր ց ր ց ր

¯ ∇yn

x1

x2

x3

x4

. . .. . . . . .

ց ∇0 y1 ∇2 y0 ց ր ց ∇y1 ∇3 y0 ր ց ր ց ∇0 y2 ∇2 y1 ∇4 y0 ց ր ց ր 3 ∇y2 ∇ y1 ր ց ր ∇0 y3 ∇2 y2 ց ր ∇y3 ր ∇0 y4

xn−1 ∇ yn−1

¯0

ց ր

¯ ∇2 yn

¯ ∇yn−1

ց

xn−2 ∇ yn−2

¯0

¯ ∇yn−2

ց ր ¯ ∇2 yn−1 1 ր ց ց ր ¯ ∇2 yn−2 ր

¯ ∇3 yn

¯ ∇3 yn−1

ց ¯ ∇4 yn ր

¯ xn−3 ∇0 yn−3

¯ ∇yn−3

¯ xn−4 ∇0 yn−4

. . .

. . .

..

.

Figura III.1.2. Esquemas para Diferencias Finitas La evaluaci´n del polinomio de interpolaci´n en un punto x ∈ [x0 , xn ] se o o la realiza utilizando el algoritmo de Horner, ver ejemplo secci´n I.1. Para ver o la simplicidad de la determinaci´n del polinomio de interpolaci´n utilizando o o diferencias divididas, y si la subdivisi´n es uniforme, diferencias finitas; se o tiene el siguiente: Ejemplo Se desea evaluar la raiz cuadrada de un n´mero positivo, por ejemplo u 1, 4. Para mostrar le eficacia y simplicidad, se va construir un polinomio de interpolaci´n de grado 3, y con tal efecto se utiliza los puntos donde o la raiz cuadrada es exacta como una expresi´n decimal. o xi 1, 00 1, 21 1, 44 1, 69 yi 1, 00 1, 10 1, 20 1, 30 Por consiguiente, el esquema de diferencias divididas para el polinomio de interpolaci´n, est´ dado por o a
1,00 1,00 1,21 1,10 1,44 1,20 1,69 1,30 ց ,4762 ր ց ց ր ,4348 ր ց ց ր ,400 ր

−,0941 −,0725

ց ,0313 ր

´ III.1 Interpolacion de Lagrange de donde el polinomio de interpolaci´n es igual a o p(x) =1 + 0, 476(x − 1) − 0, 094(x − 1)(x − 1, 21) + 0, 031(x − 1)(x − 1, 21)(x − 1, 44), y p(1, 4) = 1, 183.

111

El Error de Interpolaci´n o
Sea f (x) una funci´n que cumple ciertas condiciones, se supone que se o hace pasar un polinomio de interpolaci´n por los puntos (xi , f (xi )), la o pregunta natural es saber que error se comete con el c´lculo del polinomio a de interpolaci´n, es decir p(x) − f (x) vale cuanto, para un x determinado. o Es por esta raz´n que los siguientes teoremas ser´n enunciados para tener o a una idea del error cometido. Teorema III.1.12.- Sea f (x) n-veces continuamente diferenciable y yi = f (xi ), i = 0, . . . , n; los xi todos diferentes. Entonces existe ξ ∈ (min xi , max xi ) tal que y[x0 , x1 , . . . , xn ] = f (n) (ξ) . n! (III.1.11)

Demostraci´n.- Se define la funci´n r(x) por o o r(x) = f (x) − p(x), donde p(x) es el polinomio de interpolaci´n que pasa por (xi , f (xi )), o i = 0, . . . , n. Se observa inmediatamente que r(xi ) = 0 para i = 0, . . . , n; por el teorema de Rolle se deduce que r ′ (x) se anula al menos una vez en cada subintervalo [xi , xi+1 ], es decir existe ξi1 ∈ (xi , xi+1 ), para i = 0, . . . , n. Aplicando una vez m´s Rolle se deduce que r ′′ (x) tiene n − 1 ceros en el a intervalo [x0 , xn ], finalmente aplicando el teorema de Rolle las veces que sean necesarias se llega a la conclusi´n que r (n) tiene al menos un cero en el o intervalo requerido. Por otro lado r (n) (x) = f (n) (x) − n!y[x0 , . . . , xn ]. Teorema III.1.13.- Sea, f n+1 veces continuamente diferenciable y p(x) el polinomio de interpolaci´n de grado n definido por (xi , f (xi )), i = 0, . . . , n y o xi = xj si i = j. Entonces ∀x, ∃ξ ∈ (min(x0 , . . . , xn , x), max(x0 , . . . , xn , x)), tal que f (x) − p(x) = (x − x0 )(x − x1 ) · · · (x − xn ) f (n+1) (ξ) . (n + 1)! (III.1.12)

112

´ III Interpolacion

Demostraci´n.- Se deja x fijo, se plantea xn+1 = x. Sea p(x) el polinomio o ¯ de interpolaci´n de grado n + 1 que pasa por (xi , f (xi )), i = 0, . . . , n + 1. o Por consiguiente
n

p(x) = p(x) + ¯ por el teorema anterior, se tiene

k=0

(x − xk )y[x0 , . . . , xn+1 ],

n

p(x) = p(x) + ¯

k=0

(x − xk )

f (n+1) (ξ) , (n + 1)!

p(x) = f (x), de donde el teorema queda demostrado. ¯ Ejemplo Para el ejemplo de la implementaci´n del m´todo de diferencias divididas o e √ √ o para calcular el valor 1, 4, la funci´n interpolada es x. El intervalo de estudio del polinomio de interpolaci´n de grado 3 est´ dado por [1; 1, 69], o a x0 = 1, x1 = 1, 21, x2 = 1, 44 y x3 = 1, 69. Por lo tanto √ x, 1 1 f ′ (x) = − x− 2 , 2 1 −3 ′′ f (x) = x 2 , 4 3 5 (3) f (x) = − x− 2 , 8 15 − 7 (4) f (x) = x 2, 16 f (x) = por consiguiente f (4) (x) ≤ 15 para x ∈ [1; 1, 69], lo cual implica que el 16 √ error cometido en el c´lculo de x est´ dado por: a a √ x − p(x) ≤ 15 |(x − 1)(x − 1, 21)(x − 1, 44)(x − 1, 69)| , 16 · 4!

1, 4 − p(1, 4) ≤ 3, 45.10−5 .

El teorema II.1.13 da un resultado sobre el error cometido durante el proceso de interpolaci´n. Este error depende de la derivada n´mero n + 1 o u de la funci´n f , ´ste depende por lo tanto de la funci´n a interpolar y est´ o e o a

´ III.1 Interpolacion de Lagrange

113

fuera de alcanze. Pero tambi´n el error depende de la subdivisi´n x0 , . . . , xn , e o por lo tanto en cierta manera es controlable. De ah´ una pregunta natural ı surge: Sea [a, b] un intervalo. ¿C´mo escoger x0 , x1 , . . . , xn , tales que o
x∈[a,b]

max |(x − x0 )(x − x1 ) · · · (x − xn )| −→ min ?

(III.1.13)

Polinomios de Chebichef
La respuesta de la anterior interrogante, est´ en el estudio de los polinomios a de Chebichef, que ya fueron tratados en la secci´n II.4. o Definici´n III.1.14.- El n-simo polinomio de Chebichef est´ definido en el o a intevalo [−1, 1] por la siguiente relaci´n o Tn (x) = cos(n arccos x). Por lo tanto T0 (x) = 1, T1 (x) = x, etc. Los polinomios de Chebichef tienen las siguientes propiedades, que vale la pena enunciarlas en la siguiente proposici´n. o Proposici´n III.1.15.- Los polinomios de Chebichef satisfacen: o a) T0 (x) = 1, T1 (x) = x y Tn+1 (x) = 2xTn (x) − Tn−1 (x). b) Se tiene para n entero no negativo: |Tn (x)| ≤ 1, para x ∈ [−1, 1]; kπ = (−1)k ; Tn cos n 2k + 1 cos π = 0; 2n (III.1.16) (III.1.17) (III.1.18) (III.1.15) (III.1.14)

Tn

para k = 0, 1, . . . , n − 1. Demostraci´n.- El inciso a) se demuestra utilizando el hecho que o cos((n + 1)ϕ) = 2cosϕ cos(nϕ) − cos((n − 1)ϕ). La primera parte del inciso b) es consecuencia de la definici´n del n-sio mo polinomio de Chebichef. Las dos ultimas relaciones provienen de las ´ ecuaciones cos nϕ = 0 y |cos nϕ| = 1.

114

´ III Interpolacion

Finalmente, es facil observar que el coeficiente del t´rmino dominante e de Tn para n > 0 es igual a 2n−1 . Los polinomios de Chebichef T0 , T1 , T2 y T3 pueden observarse en la figura III.1.3.

T0 (x)

T1 (x)

T2 (x)

T3 (x)

Figura III.1.3. Los cuatro primeros polinomios de Chebichef. Teorema III.1.16.- Sea q(x) un polinomio de grado n con coeficiente dominante 2n−1 para n ≥ 1 y q(x) diferente a Tn (x). Entonces
x∈[−1,1]

max |q(x)| > max |Tn (x)| = 1.
x∈[−1,1]

(III.1.19)

Demostraci´n.- La demostraci´n se la realiza por el absurdo. Se supone o o que existe un polinomio q(x) de grado n, tal que |q(x)| ≤ 1 para |x| ≤ 1,

´ III.1 Interpolacion de Lagrange

115

de donde r(x) = q(x)−Tn (x) polinomio no nulo de grado al menos n−1, pero r(x) posee al menos n raices, lo que contradice que r(x) sea una polinomio de grado menor o igual n − 1. Teorema III.1.17.- Si xk = cos (2k + 1)π , entonces 2(n + 1)

x∈[−1,1]

max |(x − x0 ) · · · (x − xn )|

es minimal respecto a todas las divisiones x0 < x1 < . . . < xn con xi ∈ [−1, 1]. Demostraci´n.- Se tiene: o (x − x0 ) · · · (x − xn ) = Tn+1 (x)2−n , (x − x0 ) · · · (¯ − xn ) = q(x)2−n . ¯ x Para construir una divisi´n ´ptima para cualquier intervalo [a, b], se o o toma los puntos xk definidos por ˆ xk = ˆ a+b b−a + xk , 2 2 (III.1.20)

donde los xk son los ceros del n + 1-simo polinomio de Chebichef.

Estudio de los Errores de Redondeo
En esta subsecci´n, se estudiar´ la incidencia de los errores de redondeo o a en la determinaci´n del polinomio de interpolaci´n, m´s precisamente en o o a los polinomios de interpolaci´n de tipo Lagrange. Hay que recalcar que o los errores de redondeo en el c´lculo del polinomio interpolante est´ muy a a relacionado con el concepto de estabilidad del algoritmo de determinaci´n o del polinomio de interpolaci´n. o El problema es el siguiente: Dada una subdivisi´n x0 , . . . , xn , determinar o p(x) de grado n tal que p(xi ) = yi , i = 0, . . . , n. En el c´lculo se cometen a errores de redondeo por un lado, y por otro lado los datos iniciales tienen una parte de error de redondeo. Para simplificar el estudio de la estabilidad del polinomio de interpolaci´n, los errores de redondeo a considerar son aquellos o presentes en los yi , y se supone que no se comete errores de redondeo en los c´lculos propiamente dichos y que los xi son considerados por su valor a exacto. El teorema III.1.7 afirma la existencia de un polinomio de interpolaci´n o de grado n de tipo Lagrange para (xi , yi ), i = 0, . . . , n y los xi diferentes,

116

´ III Interpolacion

durante la demostraci´n de este teorema se vio de manera expl´ o ıcita la forma que deb´ tener este polinomio, recordando se enuncia el siguiente teorema: ıa Teorema III.1.18.- Sean (xi , yi ), i = 0, 1, . . . , n, los xi diferentes entre si, p(x) el polinomio de grado n que satisface p(xi ) = yi . Entonces
n

p(x) =
i=0 n

yi li (x), (x − xj ) . (xi − xj )

(III.1.21) (III.1.22)

donde

li (x) =
j=0 j=i

Como se dijo al inicio de esta subsecci´n, se considerar´ los errores de o a redondeo cometidos en los yi , es decir yi = yi (1 + ǫi ), ¯ donde |ǫi | ≤ eps.

Definiendo el polinomio p(x) por p(xi ) = yi , i = 0, . . . , n. Realizando c´lculos ¯ ¯ ¯ a y mayoraciones se obtiene:
n

p(x) − p(x) = ¯ |p(x) − p(x)| ≤ ¯

i=0 n i=0

(yi − yi )li (x), ¯
−ǫi yi

|ǫi | |yi | |li (x)|
n

≤ eps |y|max
n

i=0

|li (x)| ,

|p(x) − p(x)| ¯ ≤ eps |li (x)| . |y|max i=0 Definici´n III.1.19.- La constante de Lebesgue asociada a la subdivisi´n o o x0 < x1 < · · · < xn , est´ dada por a
n

Λn = max Ejemplos

[x0 ,xn ]

i=0

|li (x)| .

(III.1.23)

2j a) Para la divisi´n equidistante xj = −1 + n , j = 0, . . . , n. Se puede o mostrar que la constante de Lebesgue se comporta asint´ticamente, o cuando n −→ ∞, como 2n+1 Λn ∼ , (III.1.24) en log n

´ III.1 Interpolacion de Lagrange

117

En el ejercicio 7 de esta secci´n, se indica c´mo se calcula num´ricamente o o e estas constantes, en la tabla III.1.1 est´n los resultados de estos c´lculos. a a 2j + 1 b) Para la divisi´n con puntos de Chebichef xj = − cos o π , se 2n + 2 puede mostrar que la constante de Lebesgue se comporta asint´ticao mente, cuando n −→ ∞, como Λn ∼ 2 log n. π (III.1.25)

Tabla III.1.1. Constantes de Lebesgue Divisi´n o Equidistante 29.900 10987. 6.6011 · 10 3.6398 · 10 2.9788 · 10 2.2026 · 10 1.9575 · 10
6

n 10 20 30 40 50 60 70 80 90 100

Divisi´n o de Chebichef 2.0687 2.4792 2.7267 2.9044 3.0432 3.1571 3.2537 3.3375 3.4115 3.4779

4.6925 · 109

12 15

2.5281 · 1018
21 24

1.7668 · 1027

Por los valores dados en la tabla, no se debe utilizar polinomios de interpolaci´n de grado superior a 20, si la divisi´n utilizada es equidistante. o o Tratar en lo posible de utilizar los puntos de Chebichef para interpolaci´n. o En la figura III.1.4 se tienen las graficas de l11 para n = 18 para las divisiones equidistantes y de Chebichef. En la figura III.1.5, se ve claramente los errores cometidos por redondeo utilizando puntos equidistantes al interpolar la funci´n sin(πx). o

118

´ III Interpolacion

5

0

−1

0

1

−1

0

1

−5

puntos equidistantes

puntos Chebichef

Figura III.1.4. Gr´fica de un Polinomio de Lagrange. a

1 n=15 n=20

1

−1

0 0

1

−1

0

0

1

−1

−1

1 n=30 n=40

1

−1

0 0

1

−1

0

0

1

−1

−1

Figura III.1.5. Interpolaci´n de sin(πx). o

´ III.1 Interpolacion de Lagrange

119

Convergencia de la Interpolaci´n o
En esta subsecci´n, se analizar´ el problema de la convergencia de la o a interpolaci´n. Sea f : [a, b] −→ R, para cada entero natural se considera o una subdivisi´n de [a, b] dada por o x0
(n)

< x2

(n)

< · · · < x(n) , n

pn (x) el polinomio de interpolaci´n respecto a esta subdivisi´n. Se desear´ o o ıa saber que sucede cuando n −→ ∞, es decir |f (x) − p(x)| − − − ?. − −→ Teorema III.1.20.- Sea f ∈ C ∞ [a, b] tal que f (n) (x) ≤ M para todo x ∈ [a, b] y para todo n ∈ N, sea x0 subdivisiones de [a, b]. Entonces
x∈[a,b] (n) n→∞

< x2

(n)

< · · · < xn

(n)

una sucesi´n de o

max |f (x) − pn (x)| − − − 0, − −→

n→∞

(III.1.25)

donde pn (x) es el polinomio de interpolaci´n de grado n, respecto a las o subdivisiones dadas. Demostraci´n.- Utilizando el teorema III.1.13 y la hip´tesis que las o o derivadas de cualquier orden son acotadas se tiene |f (x) − pn (x)| = (x − x0 ) · · · (x − x(n) ) n ≤M (b − a)n+1 n→∞ − − − 0. − −→ (n + 1)!
(n)

f (n+1) (ξ) (n + 1)!

Las funciones exponencial , senos y cosenos son acotadas y sus derivadas lo son tambi´n, motivo por el cual estas funciones pueden ser aproximadas e por polinomios de interpolaci´n teniendo asegurada la convergencia de la o interpolaci´n. El teorema III.1.20 da condiciones suficientes para asegurar o la convergencia, no obstante existen muchas otras funciones cuyas derivadas de orden superior no est´n acotadas por una sola constante M , por ejemplo a funciones racionales. Por lo tanto es necesario poder enunciar otras condiciones para asegurar convergencia, o de lo contrario para decidir que sucede divergencia en el proceso de interpolaci´n. o Para poder comprender m´s aspectos de la convergencia o divergencia a de la interpolaci´n es necesario introducir algunas definiciones y resultados o importantes en el estudio de la aproximaci´n de funciones por polinomios. o

120

´ III Interpolacion

Consid´rese la aplicaci´n Ln que a la funci´n f asocia su polinomio e o o de interpolaci´n en los puntos x0 , x1 , . . . , xn : Ln (f ) = pn . Se remarca o inmediatamente que esta aplicaci´n es lineal, ademas si Pn es el espacio o de los polinomios de grado igual o menor a n se tiene ∀q ∈ Pn , Se puede mostrar, ver ejercicios, que Λn = max 0 Ln (g) ∞ , g ∞ Ln (q) = q.

g∈C [a,b] g=0

de manera que la constante Λn representa la norma del operador Ln respecto a la norma de la convergencia uniforme en C 0 [a, b]. Por otro lado se obtiene el siguiente teorema de mayoraci´n sobre el error de interpolaci´n. o o Teorema III.1.21.- Dados una funci´n f ∈ C 0 [a, b] y su polinomio de o interpolaci´n de Lagrange en los puntos x0 , . . . , xn , se tiene o f − pn donde En (f ) = inf
q∈Pn ∞

≤ (1 + Λn )En (f ),

(III.1.26)

f −q

∞.

Demostraci´n.- Para todo q ∈ Pn , se tiene o f − pn = (f − q) − (pn − q) = (f − q) − Ln (f − q), por consiguiente f − pn ∞ ≤ f − q ∞ + Ln (f − q) ∞ ≤ (1 + Λn ) f − q el resultado se obtiene tomando la cota inferior sobre los q ∈ Pn .

,

Definici´n III.1.22.- La cantidad En (f ) se llama el grado de aproximaci´n o o de la funci´n f por los polinomios de grado≤ n, respecto a la norma de la o convergencia uniforme. Examinando los diferentes factores de la mayoraci´n dada por el anterior o teorema, la cantidad Λn depende solamente de la subdivisi´n tomada del o intervalo [a, b], mientras que En (f ) depende solamente de la funci´n f . En el o estudio de la estabilidad se vio Λn para dos tipos de subdivisi´n, los puntos o de Chebichef y los equidistantes, se ha podido demostrar que Λn es minimal cuando se toman los puntos de Chebichef, pero en todos las sucesiones de subdivisiones dadas al principio de este paragrafo, se tiene
n→∞

lim Λn = ∞.

´ III.1 Interpolacion de Lagrange

121

Como Λn es la norma del operador Ln , consecuencia del teorema de Banach-Steinhauss, se tiene que, cualquiera sea la sucesi´n de subdivisiones o (n) (n) x0 , . . . , xn , existe una funci´n continua f , tal que Ln (f ) no converge unio formente hacia f cuando n → ∞. El siguiene paso es estudiar el comportamiento de En (f ), cuando n → ∞; esto est´ intimamente ligado a la regularidad de la funci´n f y m´s a o a particularmente a su m´dulo de continuidad, denotado por ω(f, h), definido o por ω(f, h) = max |f (t) − f (t′ )| . (III.1.27) ′
t,t ∈[a,b] |t−t′ |≤h

Se verifica facilmente las propiedades siguientes del m´dulo de continuidad: o i) la funci´n h → ω(f, h) definida sobre R+ es positiva, creciente y o subaditiva, es decir: ∀h1 , h2 ≥ 0, ω(f, h1 + h2 ) ≤ ω(f, h1 ) + ω(f, h2 ), ii) si n ∈ N, ω(f, nh) ≤ nω(f, h); si λ ∈ R+ , ω(f, λh) ≤ (1 + λ)ω(f, h), iii) si f ∈ C 0 [a, b], lim ω(f, h) = 0 y la funci´n h → ω(f, h) es continua o sobre R+ , iv) si f ∈ C 1 [a, b], ω(f, h) ≤ h f ′
h→0 ∞.

Teorema III.1.23.- Existe un real M , independientemente de n, a y b, tal que para todo n ≥ 1 y toda f ∈ C 0 [a, b], se tiene En (f ) ≤ M ω f, b−a n . (III.1.28)

Demostraci´n. El cambio de variable s = (x − a)/(b − a) permite de o trasladarse al caso en que a = 0, b = 1, f ∈ C 0 [0, 1], lo que se supondr´ a a continuaci´n. o Consid´rese primero el caso en que n = 2p es par, y planteando e 4 sin (p+1)t  1  1 2 jn (t) =  =  t αn αn sin 2  donde αn es escogido de manera que puede escribirse bajo la forma
n

k=0

(p − 2k)t cos 2

4

,

π j (t)dt −π n

= 1, es evidente que jn

jn (t) = a0n + a1n cos t + · · · + ann cos nt.

(III.1.29)

Planteando g(t) = f (|cos t|), est´ claro que g es una funci´n par, continua a o sobre R y peri´dica de periodo π, adem´s ω(g, h) ≤ ω(f, h) porque |t − t′ | ≤ o a

122

´ III Interpolacion

h ⇒ ||cos t| − |cos t|| ≤ h. Continuando con la demostraci´n se introduce la o funci´n o π π ϕn (s) =
−π

g(t)jn (s − t)dt =
π

−π

g(s − t)jn (t)dt,

se tiene g(s) − ϕn (s) = de donde
π

−π

(g(s) − g(s − t))jn (t)dt,

|g(s) − ϕn (s)| ≤ ≤ ≤2

−π π −π

|(g(s) − g(s − t))| jn (t)dt
π

ω(g, |t|)jn (t)dt = 2
π

ω(g, t)gn (t)dt
0

0

(1 + nt)jn (t)dt · ω(g, 1/n), por la propiedad ii. 2 sin x ≤ ≤ 1 para x ∈ [0, π/2], se obtiene π x
π 0

Utilizando las mayoraciones

tjn (t)dt ≤

C , n

ver ejercicio 12, por lo tanto se tiene |g(s) − ϕn (s)| ≤ 2(1 + C)ω(g, Se remarca que
π −π π π

1 ). n

g(t) cos(k(s − t))dt = cos ks = cos ks

g(t) cos(kt)dt + sin ks
−π π

g(t) sin(kt)dt
−π

g(t) cos(kt)dt,
−π

puesto que g es una funci´n par. o Resulta de (III.1.29) y de la definici´n de ϕn que existe pn ∈ Pn tal que o para todo s ∈ R, ϕn (s) = pn (cos s), por consiguiente se tiene
x∈[0,1]

max |f (x) − pn (x)| ≤ max |f (|cos s|) − pn (cos s)| = max |g(s) − ϕn (s)|
s∈R s∈R

≤ 2(1 + C)ω(g, 1/n) ≤ 2(1 + C)ω(f, 1/n). El caso en que n = 2p + 1 es impar se deduce del precedente remarcando que E2p+1 (f ) ≤ E2p (f ) y que ω(f, (b − a)/n) ≤ 2ω(f, (b − a)/(n + 1)).

´ III.1 Interpolacion de Lagrange

123

Corolario III.1.24.- Teorema de Weirstrass. Sea [a, b] un intervalo cerrado y acotado de R, entonces el conjunto de las funciones polinomiales es denso en C 0 [a, b] para la topolog´ de la convergencia uniforme ıa Demostraci´n.- En efecto, por la propiedad iii) del m´dulo de continuidad, o o se tiene que b−a lim ω f, = 0, n→∞ n por consiguiente lim En (f ) = 0. para toda funci´n f ∈ C 0 [a, b]. o
n→∞

Corolario III.1.25.- Se supone que f ∈ C p [a, b], p ≥ 0, entonces para todo n > p se tiene En (f ) ≤ M p+1 (b − a)p b−a ω f (p) , n(n − 1) · · · (n − p + 1) n−p . (III.1.30)

Demostraci´n.- Por el teorema III.1.23, el corolario es cierto para p = 0, o sup´ngase cierto el enunciado del corolorio para p y sea f ∈ C p+1 [a, b], se o tiene por lo tanto f ′ ∈ C p [a, b], de donde ∀n > p + 1 En−1 (f ′ ) ≤ M p+1 b−a (b − a) ω f (p+1) , (n − 1) · · · (n − p) n−1−p .

Se puede mostrar, ver Crouzeix, Cap´ ıtulo I.3, que existe q ∈ Pn−1 tal x que f ′ − q ∞ = En−1 (f ′ ). Planteando por lo tanto p(x) = a q(t)dt y ϕ(x) = f (x) − p(x), se tiene p ∈ Pn , entonces En (f ) = En (ϕ), adem´s a ϕ′ ∞ = f ′ − q ∞ = En−1 (f ′ ). Aplicando el teorema III.1.23 a la funci´n o ϕ y la propiedad iv) del m´dulo de continuidad, se obtiene o En (f ) = En (ϕ) ≤ M ω ϕ, de donde En (f ) ≤ M p+2 b−a (b − a)p+1 ω f (p+1) , n(n − 1) · · · (n − p) n−p−1 . b−a n ≤M b−a ′ ϕ n

,

Utilizando las estimaciones dadas para las constantes de Lebesgue y el teorema III.1.21, se obtiene las mayoraciones siguientes del error de interpolaci´n de Lagrange si f ∈ C p [a, b]: o a) En el caso que los xi son equidistantes, f − pn

≤ Cp

(b − a)p 2n b−a ω f (p) , p+1 n−p n log n

,

124

´ III Interpolacion

b) En el caso de los puntos de interpolaci´n de Chebichef o f − pn

≤ Cp (b − a)p

b−a log n ω f (p) , np n−p

,

este resultado con p = 0, da el resultado de Bernstein que dice que el interpolante de Lagrange con los puntos de Chebichef converge hacia f del momento en que lim ω(f, h) log h = 0, que es el caso si f ∈ C 1 [a, b].
h→0

Teorema III.1.26.- Si la funcion f ∈ C 1 [a, b], si los puntos utilizados durante el proceso de interpolaci´n son puntos de Chebichef, entonces o
n→∞

lim pn = f.

La utilizaci´n de los puntos de Chebichef en la aproximaci´n de una o o funci´n continuamente diferenciable en un intervalo [a, b], no implica neceo sariamente convergencia num´rica, pues el c´lculo del polinomio interpolante e a por medio de computadoras est´ imbuido de errores de redondeo. Por lo a tanto hay que tener mucho cuidado cuando se utilizan muchos puntos de interpolaci´n. o Fen´meno de Runge o Hasta ahora, se ha visto condiciones suficientes para asegurar la convergencia de la interpolaci´n de una funci´n por polinomios. Tambi´n se ha mostrado o o e que la utilizaci´n de puntos de Chebichef en la interpolaci´n de una funci´n o o o continuamente derivable permit´ la convergencia. En esta parte, se ver´ ıa a que tener una funci´n continuamente derivable y una divisi´n equidistante o o no es una condici´n suficiente de convergencia. Con el siguiente ejemplo o se ilustrar´ el conocido fen´meno de Runge. En la figura III.1.6, puede a o apreciarse que la interpolaci´n de Lagrange diverge cuando la divisi´n es o o equidistante. Mientras, que en la figura III.1.7. utilizando subdivisiones de Chebichef se tiene convergencia. En lineas punteadas se tiene la gr´fica de a la funci´n a interpolar. o

1

1

1

1

−1

0 0 n=5

1 −1

0 0 n=10

1 −1

0 0 n=15

1 −1

0

0

1

n=20

Figura III.1.6. Interpolaci´n con puntos equidistantes. o

´ III.1 Interpolacion de Lagrange

125

1

1

1

1

−1

0 0 n=5

1 −1

0 0 n=10

1 −1

0 0 n=15

1 −1

0

0

1

n=20

Figura III.1.7. Interpolaci´n con puntos de Chebichef. o Sea f : [−1, 1] −→ R, definida por f (x) = 1 , 1 + 25x2
(n) (n)

funci´n que es indefinidamente derivable. Sean x0 , . . . , xn la divisi´n o o equidistante de [−1, 1], pn (x) el polinomio de interpolaci´n de grado n de la o funci´n f respecto a la subdivisi´n dada anteriormente. Prolongando f (x) al o o 1 1 plano complejo, se tiene que f (z) tiene polos simples en z = i y en z = − i. 5 5 Se considera un camino cerrado simple C tal que [−1, 1] ⊂ interior de C, y los polos est´n en el exterior de C. Por consiguiente se puede aplicar la f´rmula e o de Cauchy para integrales complejas, de donde

c
1 f (x) = 2iπ
C

f (z) dz. z−x

−1

1

Se define el polinomio Πn (x) de grado n por Πn (x) = (x − x(n) )(x − x(n) ) · · · (x − x(n) ),   n Por otro lado se comprueba facilmente que la expresi´n o (Πn (z) − Πn (x))/(z − x) es un polinomio de grado n respecto a x, definiendo el polinomio de grado n, q(x) por q(x) = 1 2iπ f (z) (Πn (z) − Πn (x)) dz, z−x Πn (z)
(n)

(III.1.31)

C

se verifica que q(xi ) = f (xi ), de donde se ha mostrado el teorema siguiente.

(n)

126

´ III Interpolacion

Teorema III.1.27.- Si f es una funci´n racional con polos fuera de C. o Entonces el error de interpolaci´n est´ dado por o a f (x) − pn (x) = 1 2iπ f (z) Πn (x) dz, z − x Πn (z) (III.1.32)

C

donde pn es el polinomio de interpolaci´n. o Introduciendo valores absolutos, se obtiene |f (x) − pn (x)| ≤ 1 2π |f (z)| Πn (x) |dz| , |z − x| Πn (z)

C

por consiguiente se debe analizar el comportamiento cuando n −→ ∞ de la expresiones que aparecen en la integral precedente. Se tiene convergencia si Πn (x) < κn , Πn (z) con κ < 1, de lo contrario cuando n −→ ∞ |f (x) − pn (x)| diverge. Por consiguiente hay convergencia en x ∈ [−1, 1] si y solamente si
n→∞

lim

n

Πn (x) < 1. Πn (z)

(III.1.33)

En lugar de la expresi´n (III.1.33), se puede utilizar o ln
n

|Πn (z)| =

1 ln (|Πn (z)|) n n 2 ln |z − xj | , = 2n j=0

como los xj son equidistantes, cuando n −→ ∞ se tiene
n→∞

lim ln

n

|Πn (z)| = =

1 2

1 −1

ln |z − t| dt

1 1 ℜ log(z − t)dt 2 −1 1 = ℜ {(z + 1) log(z + 1) + (1 − z) log(z − 1)} − 1. 2

Definiendo G(z) por G(z) = exp 1 ℜ {(z + 1) log(z + 1) + (1 − z) log(z − 1)} − 1 , (III.1.34) 2

´ III.1 Interpolacion de Lagrange se obtiene que
n→∞

127

lim

n

|Πn (z)| = G(z).

Si x ∈ R, la funci´n G es igual a o G(x) = exp = 1 1 ln(x + 1)(x+1) + ln(1 − x)(1−x) − 1 2 2

(1 + x)1+x (1 − x)1−x /e.

Para decidir si la interpolaci´n converge para un x dado se debe tener o necesariamente G(z)/G(x) < 1, esto sucede solamente si |x| < 0, 72668. La figura III.1.8 muestra una grafica de G(x) y en la figura III.1.7 est´n a dadas las curvas de nivel para G(z).
y

2/e 1/e
1ó x G(z)=2/e

−1

0

1

Fig. III.1.8. Gr´fica de G(x). a

Fig. III.1.9. Curvas de nivel de G(z).

Ejercicios
1.- Demostrar por inducci´n o
n

y[x0 , . . . , xn ] =
j=0 n

yj
i=j

1 , x j − xi yj (−1)n−j .

△n y0 =

j=0

n j

2.- Sup´ngase conocidos los valores de la funci´n de Bessel o o J0 (x) = 1 π
π

cos(x sin t)dt.
0

128

´ III Interpolacion para los puntos equidistantes xi = x + 0 + ih, i ∈ Z. a) ¿Para que h, el error de la interpolaci´n lineal es menor a 10−11 ? o b) La misma pregunta para la interpolaci´n cuadr´tica. o a

3.- Calcular el polinomio de interpolaci´n de grado n = 10 y n = 20, que o pasa por (xi , f (xi )), i = 0, 1, . . . , n, donde f (x) = 1/(1 + 25x2 ). 2i a) xi = −1 + . n 2i + 1 π). b) xi = cos( 2n + 2 Hacer gr´ficas, estudiar los errores. a 4.- Sea p(x) el polinomio de interpolaci´n de grado 1 de una funci´n f dos o o veces continuamente derivable. Mostrar que el error satisface
x1

f (x) − p(x) = con

G(x, t)f ′′ (t)dt

(∗)

x0

Dibujar la funci´n G(x, ·). Deducir de (∗) el resultado del teorema o III.1.13.
n

  1 (x − x )(t − x )   0 1 h G(x, t) = 1  (t − x )(x − x )  0 1 h

si x ≤ t si x ≥ t

.

5.- Sean x0 < x1 < · · · < xn y li (x) = Verificar que la funci´n o

j=0 j=i

(x − xj ) . (xi − xj )

n

λn (x) =
i=0

|li (x)|
n

tiene un solo m´ximo local sobre cada [xi−1 , xi ] a Indicaci´n: Sobre [xj−1 , xj ] se tiene a λn (x) = o

i=0

ǫi li (x) con ǫ = ±1.

6.- Si la funci´n f : [x0 , x1 ] −→ R tiene solamente un m´ximo local y si o a x0 < a < b < x1 , entonces f (a) ≤ f (b) =⇒ x∗ ∈ [a, x1 ], f (a) ≥ f (b) =⇒ x∗ ∈ [x0 , b], donde f (x∗ ) =
x∈[x0 ,x1 ]

max f (x).

´ III.1 Interpolacion de Lagrange 7.- Calcular las constantes de Lebesque
n

129

Λn = max

x∈[−1,1]

i=0

|li (x)| ,

n = 10, 20, . . . , 100,

a) para la divisi´n equidistante xi = −1 + 2i/n, i = 0, 1, . . . , n; o b) para los puntos de Chebichef.
n

Calcular el maximo de f (x) = de Fibonacci: x1 = xj ,
i=0

|li (x)| sobre [xj−1 , xj ] con la b´squeda u √ γ = ( 5 − 1)/2;

x0 = xj−1 ,

10

d = γ(x1 − x0 ); a = x1 − d, b = x0 + d; d = γd; si (f (a) ≤ f (b)) entonces x0 = a, a = b, b = x0 + d si no x1 = b, b = a, a = x1 − d; si (x1 − x0 ≥ 10−14 ) vaya a 10 si no, final.

x0

a

b

x1

x0

a

b

x1

x0

a

b

x1

′ 8.- Sean dados (xi , yi , yi ), i = 0, 1, . . . , n, los xi distintos entre si. Mostrar que existe un unico polinomio q(x) de grado 2n + 1 tal que ´

q(xi ) = yi ,

′ q(xi ) = yi

(i = 0, . . . , n).

′ Utilizar la f´rmula de Newton con (x0 , y0 ), (x0 +ǫ, y0 +ǫy0 ), . . . y estudiar o su l´ ımite cuando ǫ → 0. ′ ¿Qu´ f´rmula se obtiene para n = 2?, utilizar y[xi , xi ] = yi , Generalizar e o el ejercicio para cualquier polinomio de Hermite y obtener un esquema de c´lculo semejante a la figura III.1.1. a

9.- Se considera la funci´n f (s) = |s(s − 1) · · · (s − n)| definida para s ∈ o [0, n]. a) Mostrar que f alcanza su maximo en un punto sn ∈ (0, 1/2) y que 1 sn ∼ cuando n → ∞. ln n b) Mostrar que lim [f (1/ ln n)(ln n/n!)] = 1/e, deducir que existe n→∞ c1 n! . c1 > 0 tal que ∀n > 1, f (sn ) ≥ ln n

130

´ III Interpolacion Sean {x0 , x1 , . . . , xn } n + 1 puntos equidistantes sobre el intervalo [a, b] con x0 = a y xn = b. Mostrar que existe una constante C2 tal que ∀n > 1.
x∈[a,b]

max

C2 e−n (x − xi ) ≤ √ (b − a)(n+1) . n ln n i=0

n

10.- Conservando las notaciones, construir una funci´n f ∈ C 0 [a, b] tal que o Ln (f ) ∞ = Λ f ∞ y f − Ln (f ) ∞ = (1 + Λn ) f ∞ . 11.- Se considera el conjunto {x0 , . . . , xn } de n + 1 puntos diferentes del intervalo [a, b] y Λn la constante de Lebesgue correspondiente a la interpolaci´n de Lagrange en estos puntos. Se plantea o
n

ˆi (θ) = l
j=0 j=i

cos θ − cos θj cos θi − cos θj

con θi = arccos((2xi − (a + b))/(b − a)),

i = 0, . . . , n. a) Mostrar que:
n

Λn = max
θ∈R n i=o

ˆi (θ) l

;

cos k(θ − ϕ) + cos k(θ + ϕ) = 0 ≤ k ≤ n. b) Planteando ϕn (θ) =
i=0 n n

i=0

[cos k(θi − ϕ) + cos k(θi + ϕ)] ˆi (θ), l

ˆi (θ + θi ) + ˆi (θ − θi ) − ˆi (θ) , mostrar que: l l l sin((n + 1/2)θ) ; sin(θ/2)

ϕn (θ) = 1 + 2 1 si F (θ) = 2π
k=1 π −π ∞

cos kθ =

signo(ϕn (θ − s))ϕn (s)ds, entonces = 1 π
π −π

3Λn ≥ F γn − γn−1 γn ∼

|ϕn (s)| dθ ≤

2 π

(n+1/2)π 0

|θ| dθ = γn , θ

4 = +O nπ 2

1 n3

cuando n → ∞,

4 ln n cuando n → ∞. π2 12.- Sea jn la funci´n definida en la demostraci´n del teorema III.1.23. con o o n = 2p. Mostrar que ∀p ≥ 1,
π 0

tk jn (t)dt ≤ ck /nk ,

para k = 1 y 2.

III.2 Splines C´ bicos u

En la secci´n precedente, se ha visto c´mo determinar el polinomio de o o interpolaci´n. Existen dos problemas de gran magnitud cuando se requiere o encontrar un polinomio de interpolaci´n dado un conjunto (xi , yi ), i = o 0, . . . , n; el primero consiste en la inestabilidad de la interpolaci´n de o Lagrange cuando n es grande, por ejemplo para n ≥ 20 no es aconsejable tomar puntos equidistantes. El segundo problema es que aun obteniendo el polinomio de interpolaci´n, ´ste no refleja la verdadera forma de la funci´n o e o a interpolar, por ejemplo, para una funci´n racional, se desear´ que el o ıa interpolante tenga la menor curvatura promedio, tal como se grafica con una sercha. Por consiguiente, dados los puntos a = x0 < x1 < · · · < xn = b y los reales yi con i = 0, . . . , n se busca una funci´n spline s, tal que: o

(i) (ii) (iii)

s(xi ) = yi i = 0, . . . , n s ∈ C 2 ([a, b]), s de curvatura peque˜a. n

La curvatura de s est´ dada por a

κ(x) =

(s′′ (x) (1 + (s′ (x))2 ) 2
3

,

suponiendo que s′ (x) es despreciable, se obtiene s′′ (x) = κ(x), por consiguiente la condici´n, se expresa de la siguiente forma o

xn x0

(s′′ (x))2 dx −→ min .

(III.2.1)

En la figura III.2.1 se observa dos gr´ficas: la de la izquierda es de un a polinomio de interpolaci´n de tipo Lagrange; mientras que en la derecha o

132

´ III Interpolacion

es la gr´fica del spline interpolante que pasa por los mismos puntos. a

Figura III.2.1. Spline de Interpolaci´n o Definici´n III.2.1.- Un spline c´bico es una funci´n s : [a, b] −→ R con o u o a = x0 < x1 < · · · < xn = b, que satisface: s ∈ C 2 [a, b], s|[xj−1 ,xj ] polinomio de grado 3.

(III.2.2a) (III.2.2b)

entonces

Teorema III.2.2.- Dados (xi , yi ), i = 0, . . . , n, con a = x0 < x1 < · · · < xn = b. Sean: s : [a, b] −→ R un spline con s(xi ) = yi , f : [a, b] −→ R una funci´n con f (xi ) = yi , o si s′′ (b)[f ′ (b) − s′ (b)] = s′′ (a)[f ′ (a) − s′ (a)], (III.2.3)
b a

[s′′ (x)]2 dx ≤

b a

[f ′′ (x)]2 dx.

La condici´n (III.2.3) es satisfecha si por ejemplo s′′ (a) = s′′ (b) = 0, o o por ejemplo si f ′ (a) = s′ (a) y f ′ (b) = s′ (b). Definici´n III.2.3.- Si s′′ (a) = s′′ (b) = 0, el spline se llama spline natural. o Si f ′ (a) = s′ (a) y f ′ (b) = s′ (b) el spline se dice fijo en los bordes. Demostraci´n.- Calculando las integrales, se obtiene o
b a b a b a

[f ′′ (x)]2 dx −

[s′′ (x)]2 dx =

[f ′′ (x) − s′′ (x)]2 dx
b

≥0 s′′ (x)[f ′′ (x) − s′′ (x)]dx.

+2
a

´ III.2 Splines Cubicos

133

Para demostrar la afirmaci´n del teorema, es suficiente mostrar que la o segunda integral del miembro derecho de la ecuaci´n es nula. En efecto, o integrando por partes, se tiene
b a

s′′ (x)[f ′′ (x) − s′′ (x)]dx = s′′ (x)[f ′ (x) − s′ (x)]|a = 0 por (III.2.2)
b

b

− =− =−

a n j=1 n j=1

s′′′ (x)[f ′ (x) − s′ (x)]dx
xj

κj
xj−1

[f ′ (x) − s′ (x)]dx
x

κj [f (x) − s(x)]|xj = 0. j−1

Construccion del Spline Interpolante
En este paragrafo, se determinar´ expl´ a ıcitamente el spline interpolante. Para tal efecto sea a = x0 < x1 < · · · < xn = b una divisi´n cualquiera del intero valo [a, b]; y sean y0 , y1 , . . . , yn n´meros reales. Se desea construir s : [a, b] −→ u R, el spline tal que s(xi ) = yi . Llamando si = s|[ xi−1 , xi ] : [xi−1 , xi ] −→ R. Por consiguiente se busca una representaci´n de si , utilizando los siguientes o datos: yi−1 , yi , pi−1 = s′ (xi−1 ), i pi = s′ (xi ). i (III.2.4)

Por lo tanto, si (x) es igual a si (x) =yi−1 + y[xi−1 , xi ](x − xi−1 ) + (x − xi−1 )(x − xi ) a(x − xi−1 ) + b(x − xi ) , (III.2.5)

faltando determinar los valores de a y b. Planteando hi = xi − xi−1 y derivando (III.2.5) en los puntos xi−1 y xi , se obtiene: pi−1 = s′ (xi−1 ) = y[xi−1 , xi ] + h2 b, i pi = s′ (xi ) = y[xi−1 , xi ] + h2 b, i de donde si (x) =yi−1 + y[xi−1 , xi ](x − xi−1 ) (x − xi−1 )(x − xi ) + (pi − y[xi−1 , xi ])(x − xi−1 ) h2 i + (pi−1 − y[xi−1 , xi ])(x − xi ) . (III.2.6) (III.2.7)

(III.2.8)

134

´ III Interpolacion

Ahora bien, se debe determinar los pi , i = 0, . . . , n de manera que s ∈ C 2 [a, b]. Por consiguiente: s′′ (xi ) = s′′ (xi ) i = 1, . . . , n − 1, i i+1 Utilizando la regla de Leibnitz (f g)′′ (x) = f ′′ (x)g(x) + 2f ′ (x)g ′ (x) + f (x)g ′′ (x), se obtiene: d2 (x − xi−1 )2 (x − xi ) dx2 d2 (x − xi−1 )(x − xi )2 dx2 de donde: 1 4(pi − y[xi−1 , xi ]) + 2(pi−1 − y[xi−1 , xi ]) , hi 1 s′′ (xi ) = 2(pi+1 − y[xi , xi+1 ]) + 4(pi − y[xi , xi+1 ]) i+1 hi+1 s′′ (xi ) = i por lo tanto, pi−1 + 2pi hi 1 1 + hi hi+1 + pi+1 y[xi−1 , xi ] y[xi , xi+1 ] , (III.2.9) =3 + hi+1 hi hi+1

= 4hi ,
x=xi

= 2hi ,
x=xi

para i = 1, . . . , n−1. Es as´ que se ha obtenido n−1 ecuaciones, teniendo n+1 ı ecuaciones, las dos ecuaciones que faltan para obtener un sistema completo, se obtienen de las condiciones de borde para x0 y xn . Si el spline es natural, se tiene s′′ (a) = s′′ (b) = 0, obteniendo: p0 p1 y[x0 , x1 ] + =3 h1 h1 h0 pn−1 pn y[xn−1 , xn ] 2 + =3 hn hn hn 2 (III.2.10a) (III.2.10b)

Si el spline est´ fijado en los bordes, se tiene s′ (a) = f ′ (a) y s′ (b) = f ′ (b), a obteniendo: p0 = f ′ (a), pn = f ′ (b). (III.2.11a) (III.2.11b)

Existen muchos otros tipos de spline, como por ejemplo peri´dicos, de o Bezier, etc. Las condiciones de borde son diferentes, pero las ecuaciones dadas

´ III.2 Splines Cubicos

135

por (III.2.9) son esencialmente las mismas, estos aspectos ser´n desarrollados a con m´s detalle posteriormente o en la parte de los ejercicios. a Por otro lado, las ecuaciones que determinan los pi pueden escribirse de manera matricial. A continuaci´n, se dar´n las notaciones matriciales para o a los splines natural y fijo.      3 0 h1 h1 y[x0 ,x1 ]  p0        1 2( 1 + 1 ) 1 3 3 h2 h1 y[x0 ,x1 ]+ h2 y[x1 ,x2 ]    p1   h1 h1 h2       3 1 1 1 1 3 2( h + h )    p2   0 h2 h3 h2 y[x1 ,x2 ]+ h3 y[x2 ,x3 ] 2 3       =    . .. .. ..  .      .    . . . .  .   .    1 1 1  1    3 y[xn−2 ,xn−1 ]+ h3 y[xn−1 ,xn  2( h + hn ) hn ] hn−1 n n−1 pn−1 hn−1 2
1 h1 1 hn 2 hn

pn

3 hn

y[xn−1 ,xn ]

Matriz del spline natural.     p  1  p    2       .  =   .   .. .   .    1 ) pn−1

     

1 1 2( h + h ) 1 2 1 h2

1 h2 1 1 2( h + h ) 2 3 1 h3

3 h1

3 y[x0 ,x1 ]+ h y[x1 ,x2 ]− h0 2 3 h2 3 y[x1 ,x2 ]+ h y[x2 ,x3 ] 3

p

1

     

..

.

..
1 hn−1

.
2( h
1 n−1

. . .

+ hn

3 hn−1

p y[xn−2 ,xn−1 ]+ h3 y[xn−1 ,xn ]− hn n n

Matriz del spline fijo en los bordes. Denotando A, la matriz del spline natural como fijo en los bordes, se tiene el siguiente teorema. Teorema III.2.4.- La matriz A es inversible, es decir det A = 0.

Demostraci´n.- Se mostrar´ que la siguiente implicaci´n es cierta o a o Ap = 0 =⇒ p = 0. Sup´ngase que Ap = 0, entonces o pi−1 1 1 pi+1 + 2pi ( + )+ = 0, hi hi hi+1 hi+1

136 se denota por pio a |pio | = max |pi | ,
i

´ III Interpolacion

por consiguiente 2 |pio | ( de donde 2 |pio | ≤ |pio | . En uno de los ejercicios de la secci´n II.1, se muestra que el problema de o encontrar los pi es un problema bien condicionado. Por otra lado la resoluci´n o de este sistema se procede facilmente con el algoritmo de Eliminaci´n de o Gauss, si n no es muy grande; en el caso contrario con un m´todo iterativo e utilizando el hecho que A es sim´trica y definida positiva. e 1 1 |pio | |pi | + )≤ o + , h io hio +1 h io hio +1

El Error de la Aproximaci´n Spline o
Se ha visto en el paragrafo anterior, que la construcci´n del spline intero polante es muy simple, solo se requiere resolver un sistema tridiagonal de ecuaciones lineales. En esta parte, se insistir´ en las estimaciones del error a cometido en el proceso de interpolaci´n spline. o Sean f : [a, b] −→ R una funci´n, a = x0 < x1 < · · · < xn = b una o subdivisi´n del intervalo [a, b] y finalmente s(x) el spline fijo en los bordes o que interpola f , es decir s(xi ) = f (xi ), i = 0, . . . , n; s′ (x0 ) = f ′ (x0 ); s′ (xn ) = f ′ (xn ); se desear´ saber que error se comete, en otras palabras ıa |f (x) − s(x)| ≤ ? Teorema III.2.5.- Si f ∈ C 4 [a, b], a = x0 < x1 . . . < xn = b una subdivisi´n, hi = xi − xi−1 , los pi derivadas en los nudos del spline fijo o en los bordes. Entonces |f ′ (xi ) − pi | ≤ h3 (4) f 24 , (III.2.12)

´ III.2 Splines Cubicos donde h = max hi . Si adem´s, la divisi´n es equidistante, se tiene a o |f ′ (xi ) − pi | ≤ h4 (5) f 60 .

137

(III.2.13)

Adem´s del inter´s del resultado del teorema que servir´ para la a e a estimaci´n del error, se tiene un medio simple para calcular las derivadas o de f en los puntos xi . Demostraci´n.- La demostraci´n del caso general es muy similar a la o o del caso de los puntos equidistantes, aqu´ se mostrar´ el caso equidistante, ı a dejando al lector el caso general. La construcci´n del spline est´ dada por o a las ecuaciones 1 3 (pi−1 + 4pi + pi+1 ) − 2 (f (xi+1 ) − f (xi−1 )) = 0. h h Se define qi , i = 1, . . . , n − 1, por qi = 1 ′ 3 f (xi−1 ) + 4f ′ (xi ) + f ′ (xi+1 ) − 2 f (xi+1 ) − f (xi−1 ) (III.2.15) h h (III.2.14)

Por otra lado, utilizando el teorema de Taylor con resto en el punto xi se tiene: h2 ′′ h3 f (xi ) + f (3) (xi ) 2! 3! 1 h4 (4) (1 − t)4 (5) + f (xi ) + h5 f (xi + th)dt, 4! 4! 0 h3 h2 f ′ (xi+1 ) = f ′ (xi ) + hf ′′ (xi ) + f (3) (xi ) + f (4) (xi ) 2! 3! 1 3 (1 − t) (5) + h4 f (xi + th)dt, 3! 0 f (xi+1 ) = f (xi ) + hf ′ (xi ) + de donde, introduciendo en (III.2.15), se obtiene
1

qi =h3
0

(1 − t)4 (5) (1 − t)3 f (xi + th)dt −3 3! 4!
1 0

+ h3

(1 − t)3 (1 − t)4 (5) f (xi − th)dt. −3 3! 4!

Utilizando el teorema del valor medio y calculando la integral
1 0

1 (1 − t)4 (1 − t)3 dt = −3 , 3! 4! 60

138 se obtiene finalmente que qi = 1 3 (5) h f (ξi ) + f (5) (ηi ) , 60

´ III Interpolacion

con ξi ∈ [xi−1 , xi ] y ηi ∈ [xi , xi+1 ], por consiguiente qi ≤ h3 (5) f 20

.

(III.2.16)

Restando (III.2.14) con (III.2.15), se tiene ei = f ′ (xi ) − pi , que es soluci´n del sistema de ecuaciones o 1 [ei−1 + 4ei + ei+1 ] = qi , h Sea io tal que |eio | = max |ei | ,
i=1,...,n

i = 1, . . . , n − 1.

en consecuencia, se tiene: 4eio = hqio − eio −1 − eio +1 , 4 |eio | ≤ h |qio | + |eio −1 | + |eio +1 | ≤ h |qio | + |eio | + |eio | , de donde finalmente |ei | ≤ |eio | ≤ h |qi | . 2 o

Antes de poder estimar el error cometido por el polinomio de interpolaci´n spline, es necesario el siguiente teorema. o Teorema III.2.6.- Si xi = x0 + ih, con h = (b − a)/n, f ∈ C 5 [a, b], s(x) el spline fijo en los bordes, y p(x) el polinomio de interpolaci´n de Hermite o sobre el intervalo [xi−1 , xi ], tal que p(xj ) = s(xj ), Entonces |p(x) − s(x)| ≤ h5 f (5) 240 para x ∈ [xi−1 , xi ]. (III.2.17) p′ (xj ) = f ′ (xj ), j = i − 1, i.

´ III.2 Splines Cubicos

139

Demostraci´n.- El polinomio de Hermite, utilizando (III.2.8), est´ dado o a por p(x) =yi−1 + y[xi−1 , xi ](x − xi−1 ) (x − xi−1 )(x − xi ) (f ′ (xi ) − y[xi−1 , xi ])(x − xi−1 ) + h2 i + (f ′ (xi−1 ) − y[xi−1 , xi ])(x − xi ) , (III.2.18) restando (III.2.18) con (III.2.8), se obtiene p(x) − s(x) = (x − xi−1 )(x − xi ) (f ′ (xi ) − pi )(x − xi−1 ) h2 i + (f ′ (xi−1 ) − pi−1 )(x − xi ) ,

por lo tanto |p(x) − s(x)| ≤ |x − xi−1 | |x − xi | ≤ h f (5) 240
5 ∞

h4 f (5) 60

[|x − xi | + |x − xi−1 |]

.

Ahora bien, para tener una estimaci´n del error de la interpolaci´n o o spline, solo falta conocer el error cometido por el polinomio de interpolaci´n o de Hermite, estimaci´n que est´ dada en el siguiente teorema. o a Teorema III.2.7.- Sean, f ∈ [x0 , x1 ], h = x1 − x0 , p(x) el polinomio de interpolaci´n de Hermite que satisface: o p(xi ) = f (xi ), p′ (xi ) = f ′ (xi ), entonces |f (x) − p(x)| ≤ i = 0, 1; i = 0, 1; h4 f (4) 384

.

(III.2.19)

Demostraci´n.- Sean ǫ > 0 suficientemente peque˜o, pǫ (x) el polinomio de o n interpolaci´n que satisface: o pǫ (x0 ) = f (x0 ), pǫ (x1 ) = f (x1 ), pǫ (x0 + ǫ) = f (x0 + ǫ), pǫ (x1 − ǫ) = f (x1 − ǫ).

140 Por el teorema (III.1.13), se tiene para todo ǫ.

´ III Interpolacion

|f (x) − pǫ (x)| ≤ |(x − x0 )(x − x0 − ǫ)(x − x1 = ǫ)(x − x1 )| haciendo tender ǫ hacia 0, se obtiene |f (x) − p(x)| ≤ (x − x0 )2 (x − x1 )2 ≤ h4 f (4) . 384 f (4) 4!

f (4) , 4!

Finalmente, con los anteriores teoremas se puede dar la siguiente estimaci´n del error del spline fijo en los bordes. o Teorema III.2.8.- Sean, f ∈ C 5 [a, b], xi = x0 + ih, i = 0, . . . , n, con h = (b − a)/n, s(x) el spline fijo en los bordes de la funci´n f respecto a la o subdivisi´n equidistante, entonces o |f (x) − s(x)| ≤ h5 h4 f (4) (x) + f (5) max 384 x∈[xi−1 ,xi ] 240

.

(III.2.20)

Demostraci´n.- Suficiente utilizar la desigualdad del tri´ngulo en los dos o a anteriores teoremas, es decir |f (x) − s(x)| ≤ |f (x) − p(x)| + |p(x) − s(x)| . Los resultados obtenidos en los teoremas de esta subsecci´n han sido o demostrados para el caso de divisiones equidistantes, no obstante modificando las demostraciones para divisiones m´s generales se puede obtener a resultados similares en la mayoraci´n del error de la interpolaci´n spline, no o o hay que sorprenderse que las mayoraciones sean muy parecidas al del caso equidistante, con la diferencia que h est´ elevado a una potencia de un grado e menor. Por otro lado, los teoremas enunciados consideran el caso del spline fijo en los bordes, para los otros tipos de spline, las mayoraciones del error de interpolaci´n se deben efectuar utilizando los resultados anteriores m´s un o a error debido al cambio de tipo de spline. Teorema III.2.9.- Sean, f ∈ C 5 [a, b], xi = x0 + ih, i = 0, . . . , n; con h = (b − a)/n, s(x) el spline fijo en los bordes, s(x) es el spline natural. ˆ Entonces |ˆ(x) − s(x)| ≤ s h2 h5 f (5) max |f ′′ (x)| + 8 x∈I1 ∪In 240

,

(III.2.21)

´ III.2 Splines Cubicos donde I1 = [x0 , xn ] y In = [xn−1 , xn ].

141

Demostraci´n.- Sustrayendo los sistemas lineales que determinan pi y pi o ˆ en la construcci´n de los splines fijo en los bordes y natural, se obtiene: o (ˆi−1 − pi−1 ) + 4(ˆi − pi ) + (ˆi+1 − pi+1 ) = 0 i = 0, . . . , n − 1; p p p 2(ˆ0 − p0 ) + (ˆ1 − p1 ) = C0 ; p p 2(ˆn − pn ) + (ˆn−1 − pn−1 = Cn ; p p donde: C0 = 3y[x0 , x1 ] − 2ˆ0 − p1 , p ˆ Sea io ∈ {0, 1, . . . , n}, tal que |ˆio − pio | = max |ˆi − pi |. p p
i

Cn = 3y[xn−1 , xn ] − 2ˆn − pn−1 . p ˆ

Ahora bien,io = 0, o bien io = n, por que de lo contrario se tendr´ ıa 4 |ˆio − pio | ≤ |ˆio −1 − pio −1 | + |ˆio +1 − pio +1 | ≤ 2 |ˆio − pio | . p p p p Suponiendo que io = 0, se tiene la siguiente mayoraci´n o |ˆi − pi | ≤ |ˆ0 − p0 | ≤ C0 ; p p en el otro caso, se obtiene |ˆi − pi | ≤ |ˆn − pn | ≤ Cn . p p Utilizando la f´rmula de Taylor, con resto en forma de integral, se obtiene o para la funci´n f en el punto x0 , los siguientes resultados: o f (x1 ) − f (x0 ) = hf ′ (x0 ) + h2 f ′ (x1 ) = f ′ (x0 ) + h
0 1 t 0

(1 − t)f ′′ (x0 + th)dt, (III.3.22) (III.3.23)

f ′′ (x0 + th)dt;

y en el punto xn los siguientes resultados: f (xn−1 ) − f (xn ) = −hf ′ (xn ) + h2 f ′ (xn−1 ) = f ′ (xn ) − h
1 0 t 0

(1 − t)f ′′ (xn − th)dt,

f ′′ (xn − th)dt.

142

´ III Interpolacion

La f´rmula (III.3.13) del teorema III.3.5, conduce a las estimaciones: o h4 (5) f 60 h4 (5) f = f ′ (xn−1 ) + ǫ′ 60 p1 = f ′ (x1 ) + ǫ ˆ , , con |ǫ| ≤ 1; con |ǫ′ | ≤ 1. (III.3.24)

pn−1 ˆ

Suponiendo que io = 0, introduciendo (III.3.22-24) en C0 , se obtiene C0 = 3f ′ (x0 ) + h
0 1 1

(1 − t)f ′′ (x0 + th)dt − 2f ′ (x0 ) − f ′ (x0 ) h4 (5) f 60

−h
1

0

f ′′ (x0 + th)dt − ǫ

= −h de donde

0

h4 (5) f tf ′′ (x0 + th)dt − ǫ 60

,

|C0 | ≤

1 h4 (5) f h max |f ′′ (x)| + 2 x∈I1 60

.

Si io = n, se obtiene similarmente |Cn | ≤ 1 h4 (5) f h max |f ′′ (x)| + 2 x∈In 60 .

La diferencia de ambos splines est´ mayorada por lo tanto por a (x − xi−1 )(x − xi ) [(ˆi − pi )(x − xi−1 ) + (ˆi−1 − pi−1 )(x − xi )] p p h2 h 1 h5 (5) (|x − x − xi−1 | + |x − xi |) f max |f ′′ (x)| + 4 2 x∈I1 ∪In 60 ∞ h2 h5 ≤ f (5) . max |f ′′ (x)| + 8 x∈I1 ∪In 240 ∞

|ˆ(x) − p(x)| = p

El spline fijo en los bordes es m´s preciso que el natural, siempre y a cuando se conozca los valores de la derivada de la funci´n interpolada en o los bordes. En la demostraci´n del ultimo teorema puede observarse que la o ´ diferencias de los pi verifican una ecuaci´n de diferencias finitas con valores o en la frontera, resolviendo esta ecuaci´n puede observarse que la diferencia o entre los pi es mucho menor en los nudos centrales, que en aquellos que est´n a cerca de los bordes. Por consiguiente la estimaci´n del teorema (III.2.9) es o muy pesimista, en la pr´ctica la diferencia de los errores es menor. a

´ III.2 Splines Cubicos

143

Aplicaci´n de spline o
Al inicio de esta secci´n, los splines fuer´n abordados como un instrumento o o num´rico de aproximaci´n, como una alternativa a la interpolaci´n polie o o nomial de tipo Lagrange. Esto debido a sus propiedades de no presentar problemas de inestabilidad num´rica, por sus cualidades de convergencia y e por la poca curvatura que presentan.

Figura III.2.1. Aplicaci´n gr´fica de los splines o a Ahora bien, los splines son utilizados tambi´n como un instrumento e gr´fico. Una gran cantidad de los algoritmos desarrollados en grafismo a asistido por computadora, utilizan ampliamente los splines en sus diferentes versiones. En la figura III.2.2, se observa con claridad la potencia de la interpolaci´n spline. En el dibujo de la izquierda, se tiene los puntos unidos o por segmentos rectilinios, mientras que en el dibujo de la derecha unidos por splines.

Ejercicios
1.- Considerar puntos equidistantes xi = x0 +ih, h > 0. Mostrar que existe un unico spline llamado B-spline, tal que para un j fijo se tiene: ´ s(xj ) = 1, s(x) = 0 si |x − xj | ≥ 2h. Dibujar.

144

´ III Interpolacion

2.- Desarrollar una f´rmula para los splines peri´dicos. o o Mostrar la existencia y la unicidad del spline que pasa por (xi , yi ), i = 0, . . . , n, tal que s′ (x0 ) = s′ (xn ), s′′ (x0 ) = s′′ (xn ).

4.- Escribir una funcion SPLIVA(N,X,Y,DY,A,B,T) que calcula el valor del spline en el punto T. Examinarla sobre varias funciones de su elecci´n. o 5.- Sea xi = x0 +ih, i = 0, . . . , n, una divisi´n equidistante y lj (x) el spline o de tipo Lagrange que satisface 1, si i = j; 0, sino;
′ ′ y lj (x0 ) = 0, lj (xn ) = 0. Para las pendientes pi = lj (xi ) mostrar:

3.- Escribir una subrutina SPLICO(N,X,Y,DY,P,A,B). Los datos son N, X(0:N), Y(0:N) y P(0), P(N). La subrutina debe dar como valores DY(0:N-1) diferencias divididas, P(0:N) los pi , A(0:N-1) los (pi − y[xi−1 , xi ]) y B(0:N-1) los (pi−1 − y[xi−1 , xi ]).

2 3 < pj < ; h h . . . , pj−3 > 0, pj−2 < 0, pj−1 > 0, pj+1 < 0, pj+2 > 0, . . . . − 6.- Los splines lj (x) del anterior ejercicio no cambian de signo en ning´n u intervalo [xi−1 , xi ]. 7.- Sobre el intervalo [xi−1 , xi ]
n i=0

|lj (x)| = ti (x)

es el spline que satisface 1 si j = i + 2k o j = i − 2k − 1 con k = 0, 1, . . . , −1 sino. 8.- Utilizando SPLICO y SPLIVA de los ejercicios 3 y 4. Calcular para xi = i/n, n = 20: a) el spline l7 (x),
n

b) la funci´n o
i=0

|li (x)|,

hacer dibujos. Verificar las propiedades de los ejercicios 5, 6 y 7.

III.3 Extrapolaci´n o

En las dos primeras secciones, se ha abordado la interpolaci´n polinomial y o la interpolaci´n spline como un medio de aproximaci´n dentro un intervalo o o cerrado y acotado [a,b]. Sin embargo estos procedimientos no sirven cuando se trata de determinar el valor de una funci´n o el l´ o ımite de una funci´n o definida en un intervalo abierto (a, b) o mas aun si la funci´n est´ definida o a en un intervalo no compacto. En esta secci´n, se estudiar´ la extrapolaci´n por medio de funciones o a o polinomiales, como una consecuencia natural de los resultados obtenidos en la primera secci´n de este cap´ o ıtulo. Por otro lado, se ver´ que la extrapolaci´n a o polinomial, no es solamente un instrumento para determinar valores fuera de cierto rango, si no tambi´n como un medio para acelerar la convergencia e de suceciones convergentes. Sea f : (0, 1] −→ R, se desea determinar
x→0+

lim f (x),

(III.3.1)

sabiendo que se puede determinar sin ning´n problema f (h) para h > 0. u Los otros casos de determinaci´n de l´ o ımite se convierten el primer caso por traslaci´n af´ o planteando h = 1/x si se desea determinar el l´ o ın, ımite cuando x → ∞. Por consiguiente se supondr´ que f tiene un desarrollo asimt´tico a o por derecha de la forma f (h) = a0 + a1 h + · · · + an hn + O(hn+1 ), h > 0. (III.3.2)

Sea 1 ≥ h0 > h1 > · · · > hn > 0 una subdivisi´n decreciente del intervalo o (0, 1], por lo tanto lim f (x) ≈ p(0), (III.3.3)
x→0+

donde p(x) es el polinomio de interpolaci´n que pasa por (hi , f (hi )), o i = 0, . . . , n. Escogiendo adecuadamente estos hi se puede obtener un algoritmo facil y sencillo de implementar, para este efecto es necesario la siguiente proposici´n. o Proposici´n III.3.1.- Sean (xi , yi ), i = 0, 1, . . . , n, los xi diferentes entre o si, p1 (x) el polinomio de interpolaci´n de grado n − 1 que pasa por (xi , yi ), o i = 0, . . . , n − 1, y p2 (x) el polinomio de interpolaci´n de grado n − 1 que o pasa por (xi , yi ), i = 1, . . . , n: entonces el polinomio p(x) de grado n que pasa por (xi , yi ), i = 0, . . . , n; est´ dado por a p(x) = p1 (x) xn − x x − x0 + p2 (x) . xn − x0 xn − x0 (III.3.4)

146

´ III Interpolacion

Demostraci´n.- Se puede ver facilmente que p(x) es un polinomio de grado o menor o igual a n, En los nudos, excepto para i = 0 o i = n, se tiene p(xi ) = xi − x0 x n − xi p1 (xi ) + x n − x0 xn − x0 x n − xi x i − x0 = yi , + x n − x0 x n − x0

para i = 0 y i = n verificaci´n inmediata. o Corolario III.3.2.- Con las mismas hip´tesis del teorema precedente, se o tiene p1 (0)xn − p2 (0)x0 p(0) = xn − x0 (III.3.5) p1 (0) − p2 (0) = p1 (0) + . xn /x0 − 1 Demostraci´n.- Verificaci´n inmediata. o o Ahora bien, volviendo al problema de extrapolaci´n, sea f : (0, 1] −→ R; o 1 ≥ h0 > h1 > · · · > hn > 0 una subdivisi´n decreciente del intervalo (0, 1]. o Suponiendo que f admite el desarrollo asint´tico por derecha, dado por o f (h) = a0 + a1 h + · · · + an hn + O(hn+1 ), p(x) el polinomio de interpolaci´n que pasa por (xi , f (xi )), i = 0, . . . , n; o entonces se puede suponer
h→0+

lim f (x) ≈ p(0).

Definiendo pj,k el polinomio de interpolaci´n de grado ≤ k que pasa por o (hi , f (hi )), j − k, j; se tiene por consiguiente p(x) = pn,n (x). (III.3.6)

Utilizando la proposici´n III.3.1 y el corolario III.3.2 se tiene las siguientes o relaciones recursivas para determinar p(0): pj0 (0) =f (hj ), pj,k (0) − pj−1,k (0) . pj,k+1 (0) =pj,k (0) + hj−k−1 /hj − 1 (III.3.7a) (III.3.7b)

´ III.3 Extrapolacion

147

De donde estas relaciones recursivas pueden expresarse en un tablero, con la convenci´n de llamar pj,k = Tj,k . o Tabla III.3.1. Tablero de Extrapolaci´n. o h0 h1 h2 h3 h4 T00 T10 T20 T30 T40 . . .

T11 T21 T31 T41 . . .

T22 T32 T42 . . .

T33 T43 . . .

T44 . . .

..

.

Los cocientes hj−k−1 /hj se deducen facilmente del tablero, se toma como numerador el hi que se encuentra en la misma diagonal a Tk,l y como denominador el hi que se encuentra en la misma fila que Tk,l . Ejemplo Un procedimiento para calcular π, es considerar la serie

π=4

(−1)k
k=0

1 . 2k + 1

Lastimosamente esta serie converge muy lentamente para obtener una precisi´n deseada de π, pero se puede acelerar la convergencia de o esta serie utilizando el procedimiento de extrapolaci´n de Richardson, o formulado anterioremente. Se define hk = 1/(2k + 1),
k

f (hk ) = 4
j=0

(−1)j

1 , 2j + 1

obteniendo as´ el tablero siguiente ı
2.6667 2.8952 3.2381 2.9760 3.1781 3.1030 3.0171 3.1607 3.1302 3.1619 3.0418 3.1533 3.1367 3.1465 3.1292 3.0584 3.1495 3.1391 3.1434 3.1391 3.1500 3.0703 3.1473 3.1401 3.1424 3.1408 3.1431 3.1356 3.0792 3.1459 3.1407 3.1420 3.1413 3.1420 3.1407 3.1461 3.0861 3.1450 3.1410 3.1418 3.1414 3.1417 3.1414 3.1422 3.1381 3.0916 3.1443 3.1411 3.1417 3.1415 3.1417 3.1415 3.1417 3.1412 3.1444 3.0962 3.1438 3.1413 3.1417 3.1416 3.1416 3.1416 3.1416 3.1415 3.1419 3.1393

148

´ III Interpolacion

La pr´ctica en la extrapolaci´n num´rica muestra que es pr´ctico y a o e a conveniente utilizar sucesiones de la forma hj = 1/nj , donde {nj }∞ es una j=0 sucesi´n creciente de n´meros naturales, por consiguiente la f´rmula (III.3.7) o u o se convierte en pj0 (0) = f (hj ), pj,k+1 (0) = pj,k (0) + pj,k (0) − pj−1,k (0) . nj−k−1 /nj − 1 (III.3.8)

Teorema III.3.3.- Sea f : (0, 1] −→ R, sup´ngase que f tiene el desarrollo o asint´tico por derecha en x = 0, para k = 0, 1, 2, . . . , ko ; dado por o f (x) = a0 + a1 x + · · · + ak xk + Rk+1 (x), con |Rk+1 (x)| ≤ Ck+1 xk+1 , para x > 0. Sea hj = 1/nj , con nj una sucesi´n o creciente de naturales, entonces el procedimiento de extrapolaci´n definido o por (III.3.8) verifica la siguiente propiedad: Si para todo j > 0 se tiene hj+1 /hj ≤ r < 1, entonces ∀k con 0 ≤ k ≤ ko , Tm,k = a0 + O(hk+1 ). m−k (III.3.9)

Las tres sucesiones de enteros positivos crecientes son: i) Arm´nica: 1, 2, 3, 4, 5 . . .; o ii) Romberg: 1, 2, 4, 8, 16, . . .; iii) Bulirsch: 1, 2, 3, 4, 6, 8, , 12, 16, . . ., es decir los enteros de la forma 2i y 3 · 2i .

Demostraci´n.- Escribiendo el polinomio de interpolaci´n de grado ≤ k, o o se tiene f (x) = pmk (x) + Rk+1 (x), de donde
m

pmk (x) − f (x) =
m

Rk+1 (hi )lm,k,i (x),
i=m−k

(III.3.10)

con lm,k,i (h) =
j=m−k j=i

h − hj . Para x = 0, se deduce que hi − hj
m m

Tmk − a0 =

i=m−k

j=m−k j=i

hj /hi Rk+1 (hi ). hj /hi − 1

´ III.3 Extrapolacion Si j < i, se mayora

149

hj /hi 1 , mientras que por hj /hi − 1 1 − r i−j hj /hi r j−i si i < j, se mayora , finalmente |Rk+1 (hi )| por por hj /hi − 1 1 − r j−i k+1 Ck+1 r i−m+k hm−k , deduciendo |Tm,k − a0 | ≤ C(k, r)Ck+1 hk+1 m−k donde C(k, r) es una constante independiente de m. La convergencia hacia a0 es obtenida en cada una de las columnas del tablero, para la primera columna la convergencia es O(hm ), para la segunda columna la velocidad de convergencia est´ dada por O(h2 ), y para la a m−1 k-esima columna la velocidad de convergencia es igual a O(hk+1 ). Por m−k+1 consiguiente, si a1 = 0 la convergencia de la k-esima columna es k veces mas rapida que de la primera columna. Las sucesiones de Romberg y Bulirsch satisfacen las condiciones del teorema III.3.3 con r = 1/2 y r = 3/4. Sin embargo la otra sucesi´n utilizada o ampliamente en las extrapolaciones num´ricas como ser la arm´nica no e o cumple el requisito que hj+1 /hj ≤ r < 1. No obstante se tiene a disposici´n o el siguiente teorema. Teorema III.3.4.- Mismas hip´tesis del teorema III.3.3 para la funci´n f , o o se define hn = 1/n. Entonces se tiene: ∀k con 0 ≤ 2k ≤ ko Tmk = a0 + O(hk+1 ). m (III.3.11)

Demostraci´n.- Se tiene o Rk+1 (h) = qk (h) + R2k+1 (h) con qk (h) = ak+1 hk+1 + · · · + a2k h2k . Utilizando (III.3.10), se deduce
m

Tmk − a0 =

qk (hi )lm,k,i (0) + R2k+1 (hi )lm,k,i (0) .
i=m−k

Por el teorema III.1.13, se tiene
m

qk (0) −

qk (hi )lm,k,i (0) =
i=m−k

1 (k + 1)!

m

(−hj )qk
j=m−k

(k+1)

(ξ),

150 lo que muestra que
m

´ III Interpolacion

i=m−k

qk (hi )lm,k,i (0) = O(hk+1 ). m

Por otro lado
m

lm,k,i (0) =
j=m−k j=i

hj = hj − hi

m

j=m−k j=i

i , i−j

k k+1 de donde |R2k+1 (hi )lm,k,i (0)| ≤ C2k+1 h2k+1 ik ≤ C2k+1 y0 yi , i deduciendo facilmente el teorema.

Debido al error de redondeo que se comete en el c´lculo del polinomio a de interpolaci´n, y por consiguiente en el proceso de extrapolaci´n, se debe o o evitar la utilizaci´n de polinomios de interpolaci´n de grado muy elevado, la o o pr´ctica aconseja no pasar de 10. a Por otro lado, la extrapolaci´n num´rica es muy utilizada en la conso e trucci´n de m´todos de integraci´n, como tambi´n en la construcci´n de o e o e o m´todos de resoluci´n de ecuaciones diferenciales. e o

Ejercicios
1.- Sea f : (0, 1] −→ R una funci´n cuyo desarrollo asint´tico por derecha o o en x = 0 est´ dado por a f (x) = a0 + a1 x2 + · · · + ak x2k + O(x2k+2 ). Modificar el algoritmo de Aitken-Naville, es decir el proceso de extrapolaci´n, de manera que el n´mero de operaciones se redusca ostensio u blemente. 2.- En esta secci´n, se da un ejemplo de c´mo acelerar la convergencia de o o una sucesi´n para calcular π. Suponiendo que el desarrollo asint´tico o o es par, como en el ejercicio 1, recalcule y compare. 3.- Utilizando el procedimiento de la secci´n III.1 para determinar la o influencia de los errores de redondeo en la determinaci´n del polinomio o de interpolaci´n. Estudie la influencia de los errores de redondeo en o la extrapolaci´n, suponiendo que los unicos errores de redondeo que o ´ se comete son aquellos relativos a la evaluaci´n de la funci´n f a ser o o extrapolada. √ 2, procedimiento √ extrapolaci´√ por ejemplo de on, 4.- √ Calcule √ utilizando un√ 1 = 1, 1, 21 = 1, 1, 1, 44 = 1, 2, 1, 69 = 1, 3; 1, 96 = 1, 4; √ 1, 9881 = 1, 41, . . ..

Cap´ ıtulo IV Ecuaciones No Lineales

En el cap´ ıtulo II, se vio diferentes m´todos para resolver problemas lineales, e pero tambi´n existen problemas no lineales, como por ejemplo ecuaciones e cuadr´ticas, polinomiales, trigonom´tricas y muchas otras m´s. La Historia a e a de las Matem´ticas muestra que los problemas lineales fueron estudiados y a resueltos en tiempos inmemoriables, pero luego el hombre confront´ otros o tipos de problemas cuya caracter´ ıstica no era precisamente lineal. En el caso lineal la soluci´n de un problema puede darse de manera expl´ o ıcita, es suficiente determinar la inversa de la matriz del sistema y multiplicar para obtener la soluci´n de este problema. En el caso no lineal se continu´ con o o esta ´ptica, lo cual es siempre posible bajo ciertas condiciones, como ejemplo o se tiene el teorema de la funci´n inversa, pero lastimosamente en la mayor o parte de los casos esta funci´n inversa no puede ser expresada como una o combinaci´n de funciones elementales, entendiendose como funci´n elemental o o aquellas que uno estudia en colegio y los primeros semestres de universidad. En este cap´ ıtulo, se intentar´ de cierta manera seguir este desarrollo a hist´rico, dejando sobrentendido que el estudio de los problemas lineales en o todas sus variantes es conocido por el lector. Por consiguiente, una primera parte ser´ dedicada al estudio de las soluciones de ecuaciones polinomiaa les, teniendo como ep´ ılogo el Teorema de Galois. Despu´s se abordar´ los e a m´todos iterativos para encontrar la soluci´n o soluciones de una ecuaci´n, e o o dando condiciones para asegurar la existencia, la unicidad local y la convergencia de tales m´todos. Como una clase de m´todo iterativo, se estudiar´ e e a el M´todo de Newton, enunciando: teoremas de convergencia, existencia y e unicidad de soluciones, algunos problemas frecuentes que se encuentran en la implementaci´n de tal m´todo; como tambi´n modificaciones para simplificar o e e su utilizaci´n en determinadas situaciones. Finalmente, se ver´ el equivalente o a del M´todo de los M´ e ınimos Cuadrados, en los problemas no lineales, que es el M´todo de Gauss-Newton. e

IV.1 Ecuaciones Polinomiales

Una de la clase de ecuaciones que se confronta a diario son las ecuaciones polinomiales, que son de la forma xn + a1 xn−1 + · · · + an−1 x + an = 0, (IV.1.1)

donde los ai son n´meros reales o complejos. u Como C es una extensi´n del cuerpo R, se puede suponer que el o problema consiste en determinar las raices o ceros de un polinomio p(x) ∈ C[x]. La existencia de las soluciones de una ecuaci´n polinomial est´ dada o a por el Teorema Fundamental del Algebra que se lo enuncia sin demostraci´n. o Teorema IV.1.1.- Fundamental del Algebra. Sea p(x) ∈ C[x] de grado n, entonces p(x) tiene exactamente n ceros contando con su multiplicidad. Comentando este teorema, se puede agregar que un polinomio a coefientes reales puede no tener ceros reales; pero por el teorema Fundamental del Algebra, ´ste tiene exactamente n raices contando con su multiplicidad. e Por otro lado, p(x) puede ser visto como una funci´n de C en C, ahora o bien toda funci´n polinomial es holomorfa, y si el polinomio es no nulo, o entonces los ceros forman un conjunto discreto, es decir que para todo cero x0 , existe un r > 0 tal que p(x) = 0 para todo x ∈ C tal que 0 < |x| < r. Adem´s, la utilizaci´n del teorema de Rouch´ permite de determinar los a o e discos donde se encuentran los ceros y complementando esta informaci´n el o n´mero exacto de ceros. u

Ecuaciones Resolubles por Radicales
Tal como se dijo en la introducci´n de este cap´ o ıtulo, se ha buscado inicialmente la manera de expresar la soluci´n de una ecuaci´n por medio de funo o ciones elementales. En esta subsecci´n, se ver´ precisamente esta manera de o a expresar las soluciones. Se comenzar´ con el caso mas simple, las ecuaciones a cuadr´ticas. a Ecuaciones cuadr´ticas a Una ecuaci´n cuadr´tica o ecuaci´n polinomial de segundo grado es de la o a o forma ax2 + bx + c = 0, con a = 0; ecuaci´n que es equivalente a o x2 + ¯ + c = 0, bx ¯ (IV.1.2)

IV.1 Ecuaciones Polinomiales completando cuadrados se tiene x+ obteniendo, as´ dos raices: ı ¯ b x1 = − + 2
¯2

153

¯ b 2

2

+c− ¯

¯2 b = 0, 4

¯2 b − c, ¯ 4

¯ b x2 = − − 2

¯2 b − c. ¯ 4

(IV.1.3)

¯ o Si b − c ≥ 0, se utiliza la determinaci´n usual de la raiz cuadrada. En 4 caso contrario, una determinaci´n donde las raices cuadradas de n´meros o u negativos est´ definida. e Ecuaciones C´bicas u Las ecuaciones c´bicas o ecuaciones polinomiales de tercer grado son de la u forma ax3 + bx2 + cx + d = 0, con a = 0; (IV.1.4) esta ecuaci´n dividiendo por a se reduce a una ecuaci´n de la forma o o x3 + ax2 + ¯ + c = 0, ¯ bx ¯ (IV.1.5)

planteando x = x + a/3, la ecuaci´n se convierte en una ecuaci´n de la forma ¯ o o x3 − 3p¯ − 2q = 0. ¯ x Ahora bien, si se plantea x = u + v, se obtiene ¯ u3 + 3u2 v + 3uv 2 + v 3 − 3p(u + v) − 2q = 0, de donde u3 + v 3 + (u + v)(3uv − 3p) − 2q = 0, deduciendose, dos ecuaciones para u y v: uv = p, u + v 3 = 2q; por consiguiente u3 v 3 = p3 , mostrando as´ que u3 , v 3 son las raices del ı polinomio de segundo grado λ2 − 2qλ + p3 , (IV.1.7)
3

(IV.1.6)

154 por lo tanto: u3 = q + q 2 − p3 ,

IV Ecuaciones No Lineales

v3 = q −

q 2 − p3 ;

para obtener finalmente la f´rmula de Cardano o x= ¯
3

q+

q 2 − p3 +

3

q−

q 2 − p3 .

(IV.1.8)

teniendo cuidado de verificar uv = p. Ecuaciones polinomiales de grado cuarto Son ecuaciones que pueden escribirse de la forma x4 + ax3 + bx2 + cx + d = 0, (IV.1.9)

planteando x = x + a/4, esta ecuaci´n se convierte en una ecuaci´n de la ¯ o o forma x4 − p¯2 − 2q x − r = 0, ¯ x ¯ (IV.1.10) introduciendo z ∈ C en la anterior ecuaci´n, se obtiene la siguiente ecuaci´n o o equivalente (¯2 + z)2 = (2z + p)¯2 + 2q x + z 2 + r, x x ¯ se elige z de manera que el segundo miembro de la ecuaci´n precedente sea o una cuadrado perfecto, y eso ocurrre, si y solamente si (2z + p)(z 2 + r) − q 2 = 0, (IV.1.11)

de donde z es raiz de una ecuaci´n de tercer grado, que ya ha sido resuelta o anteriormente. Habiendo determinado z, se tiene: (¯2 + z)2 = (α¯ + β)2 , x x con α = 2z + p, β = (¯2 + α¯ + z + β)(¯2 − α¯ + z − β) = 0, x x x x z 2 + r;

por consiguiente, las cuatro raices de la ecuaci´n est´n dadas por: o a x1 = x2 = x3 = x4 = −α + −α − −α + −α − α2 − 4(z + β) , 2 α2 − 4(z + β) , 2 α2 − 4(z − β) , 2 α2 − 4(z − β) . 2 (IV.1.12a) (IV.1.12b) (IV.1.12c) (IV.1.12d)

IV.1 Ecuaciones Polinomiales

155

Ecuaciones no Resolubles por Radicales
Se ha visto que las ecuaciones polinomiales de grado igual o menor a 4 tienen soluciones que pueden ser expresadas como una composici´n de radicales. o Las f´rmulas desarrolladas en el anterior paragrafo fuer´n estudiadas y o o comprendidas hasta mediados del siglo XVI, posteriormente se atac´ al o problema de las ecuaciones de grado superior, en particular a las ecuaciones de grado quinto. Todos los intentos iban en la direcci´n de encontrar una o f´rmula general que estuviese expresada con radicales. Pero a principios del o siglo pasado Galois mostr´ su famoso teorema que trastorno en cierta manera o el mundo matem´tico de aquella ´poca. Se enunciar´ este teorema sin dar a e a la demostraci´n. o Teorema IV.1.2.- Galois. No existe una f´rmula general en forma de o radicales para las ecuaciones polinomiales de grado superior o igual a 5. Este resultado lejos de descorazonar el estudio de las ecuaciones polinomiales constituy´ un aporte, ya que se atac´ el problema utilizando m´todos o o e anal´ ıticos que estaban emergiendo con gran fuerza a principios y mediados del siglo pasado. Por otro lado se abandon´ la idea de encontrar una f´rmula o o general, para insistir sobre la posible ubicaci´n de los ceros de un polinomio. o Se desarrollaron m´todos iterativos para la soluci´n de estos problemas cuyo e o alcanze es mas vasto que el de las ecuaciones polinomiales.

Localizaci´n de Ceros o
Como se dijo anteriormente, al no poder calcular expl´ ıcitamente las raices de un polinomio, es importante determinar en que regi´n se encuentran estas o raices de manera de poder aplicar un m´todo iterativo. e Sea, p(x) un polinomio a coeficientes complejos de grado n, es decir p(x) = a0 xn + a1 xn−1 + · · · + an , si x es una raiz, se tiene xn = − a1 n−1 a2 n−2 an x − x + ··· − . a0 a0 a0

Introduciendo la matriz de Frobenius de esta ecuaci´n, se tiene o  a1  − a0 xn−1  1 n−2   x x .  =   .   .x  1 
a − a2 0 a · · · − an 0

1

..

. 1 0

F matriz de Frobenius

 n−1  x    xn−2   . ,  .  .x  1

156

IV Ecuaciones No Lineales

de donde p(x) = 0, si y solamente si x es un valor propio de F . Por lo tanto la localizaci´n de ceros de p(x) es equivalente a localizar los valores propios o de la matriz F . A continuaci´n se da un teorema cuya demostraci´n ser´ o o a hecha en el cap´ ıtulo 5. Teorema IV.1.3.- Gerschgorin. Sean A una matriz, λ un valor propio de A, entonces existe i tal que |λ − aii | ≤ |aij | . (IV.1.13)

j=i

Aplicando este teorema a la matrix F se tiene la siguiente estimaci´n: o Corolario IV.1.4.- La raices del polinomio p(x) = a0 xn + · · · + an , con a0 = 0 verifican n ai |x| ≤ max 1, . (IV.1.14) a0 i=1 Uno de los resultados pr´cticos e importantes en el ´lgebra de valores a a propios, es que la propiedad de valor propio es invariante por trasposici´n, o por consiguiente, el: Corolario IV.1.5.- Las mismas hip´tesis del corolario precedente, dan la o estimaci´n siguiente o ai . (IV.1.15) |x| ≤ max 1 + 0≤i≤n a0 Utilizando el teorema de Rouch´ y otros, se puede encontrar mas e estimaciones sobre la localizaci´n de los ceros de un polinomio. Por ejemplo, o en los ejercicios se debe mostrar la siguiente estimaci´n o |x| ≤ 2 max
i

1≤i≤n−1

ai , a0

n

an 2a0

.

(IV.1.16)

Con el siguiente ejemplo se ver´ que existen mejores estimaciones que otras, a esto depende sobre todo del tipo de polinomio que se tiene. Ejemplo Se consider´ la ecuaci´n a o la primera estimaci´n, como la segunda dan |x| ≤ 2n , mientras que, la o tercera da |x| ≤ 2. Debido a la aritm´tica de los ordenadores, el tipo REAL es un conjunto e finito, que se asemeja mucho mas a los n´meros racionales que los reales, u xn − 2 = 0,

IV.1 Ecuaciones Polinomiales

157

por eso que se puede suponer que p(x) ∈ Q[x]. Por otro lado, cuando los polinomios tienen raices de multipliciad mayor a 1, la mayor parte de los algoritmos no funcionan, debido a la inestabilidades que se pueden presentar, o a las caracter´ ısticas propias de los m´todos empleados. e Sea p(x) ∈ Q[x], p′ (x) su derivada, se define el polinomio q(x) utilizando el algoritmo de Euclides, por q(x) = mcd(p, p′ ), (IV.1.17)

de donde el polinomio r(x) = p(x)/q(x) tiene las mismas raices que p(x) pero todas simples. Por consiguiente, se ha visto un procedimiento simple para reducir un polinomio p(x) a otro polinimio simple. En lo que sigue, se puede suponer que los polinomios considerados tienen raices simples.

M´todo de Newton e
Uno de los m´todos com´nmente utilizados en la determinaci´n de raices de e u o un polinomio, consiste en el uso del m´todo de Newton. Aqu´ se formular´ e ı a este m´todo, sin estudiar la convergencia y el c´lculo de error, dejando ´sto e a e para el siguiente paragrafo. Por lo tanto, el m´todo est´ dado por la relaci´n e a o recursiva siguiente — — x0 arbitrario, proximo a una soluci´n. o p(xk ) xk+1 = xk − ′ , donde p(x) es el polinomio a determinar p (xk ) sus raices.

El problema consiste en determinar todas las raices reales de p(x) = 0, suponiendo que se ha encontrado la primera raiz, se podr´ utilizar ıa nuevamente el m´todo de Newton utilizando otra valor, pero existe la e posibilidad de encontrar nuevamente la primera soluci´n. Para evitar esta o situaci´n se puede proceder b´sicamente de dos maneras. La primera, una o a vez que se ha encontrado la raiz ξ1 , se define el polinomio q(x) = p(x) , x − ξ1 (IV.1.18)

aplicando Newton sobre q(x). El principal inconveniente de este procedimiento radica en el hecho que ξ puede no ser racional, motivo por el cual r(x) ya no es exacto y la propagaci´n de errores de redondeo puede dar resultados o completamente alejados de la realidad. El segundo procedimiento consiste en aplicar el m´todo de Newton a q(x), pero sin calcular los coeficientes de q(x). e Sea p(x) el polinomio a determinar sus raices, suponiendo que se conoce de antemano ξ1 , . . . , ξk raices de p(x), de donde q(x) = p(x) . (x − ξ1 ) · · · (x − ξk ) (IV.1.19)

158

IV Ecuaciones No Lineales

Introduciendo el logaritmo y derivando se obtiene:
k

log q(x) = log p(x) − q ′ (x) p′ (x) = − q(x) p(x)
k

i=1

log(x − ξi ), (IV.1.20)

i=1

1 . (x − ξi )

Aplicando el m´todo de Newton a (IV.1.19), utilizando (IV.1.20), se obtiene e como m-sima iteraci´n. o xm+1 = xm − p(xm )
k

. 1 (xm − ξi )

(IV.1.21)

p′ (xm ) − p(xm )

i=1

Este ultimo procedimiento se conoce como el m´todo de Maehly. Este m´todo ´ e e es num´ricamente estable, en efecto considerando el siguiente ejemplo dado e por Stoer. Ejemplo Se considera el polinomio p(x) definido por
12

p(x) =

j=0

(x − 2−j ) = x13 + a1 x12 + · · · + a12 .

Calculando los coeficientes en simple precisi´n e utilizando el m´todo de o e Newton en sus dos variantes se obtiene la tabla IV.1.1. As´ mismo, el m´todo de Newton permite encontrar las raices compleı e jas, mas precisamente las raices no reales, de una ecuaci´n polinomial. Para o tal efecto, el punto de partida debe ser un n´mero complejo no real, pues u puede observarse que partiendo de un punto real, los valores obtenidos por el m´todo de Newton son reales, ya sea con la primera variante, o con la mejora e de Maschley. Puede suceder que una vez encontradas todas las raices reales del polinomio, siendo ´stas no todas las raices; si no se tiene cuidado, se e producir´ un fen´meno de oscilaci´n con el m´todo de Newton. Por lo tanto a o o e hay que agregar al algoritmo que a partir de un n´mero determinado de itu eraciones, si no se ha alcanzado la convergencia hacia una raiz, se detenga el proceso, quedando por lo tanto dos alternativas: la primera verificar si todas las raices reales han sido calculadas, para luego comenzar con un n´mero u complejo no real; la segunda alternativa consiste en cambiar simplemente de punto inicial.

IV.1 Ecuaciones Polinomiales

159

Tabla IV.1.1. Error en el c´lculo de raices para un caso extremo. a METODO DIVISION SOL EXAC 1/1 1/2 1/22 1/23 1/24 1/25 1/26 1/27 1/28 1/29 1/210 1/211 1/212 SOL NUM 1.00 0.500 −0.15 −0.426 0.560 −0.132 0.266 0.157 −0.237 · 10−1 −0.740 0.865 0.140 ERROR 0.0 0.950 · 10 0.400 0.551 0.498 0.163 0.250 0.149 0.028 0.742 0.864 0.140
−4

METODO MAEHLY SOL NUM 1.000 0.5000 0.2500 0.1250 ERROR 0.0 0.894 · 10−7 0.894 · 10−7 0.820 · 10−7

0.6250 · 10−1 0.138 · 10−6 0.1562 · 10−1 0.419 · 10−8 0.7813 · 10−2 0.168 · 10−7 0.1953 · 10−2 0.168 · 10−7 0.3906 · 10−2 0.291 · 10−9 0.4883 · 10−3 .146 · 10−10 0.671 · 10−7 0.140 · 10−7

0.9766 · 10−3 0.291 · 10−10

−0.179 · 10−1 0.181 · 10−1 0.2441 · 10−3 0.728 · 10−10

Sucesiones de Sturm
La utilizaci´n de sucesiones de Sturm en la resoluci´n de ecuaciones polinoo o miales permite determinar las raices reales y no as´ las raices no reales. En ı la mayor parte de los problemas, es solo importante conocer los ceros reales, motivo por el cual los procedimientos que utilizan sucesiones de Sturm son muy comunes en la resoluci´n de ecuaciones polinomiales o Definici´n IV.1.6.- Una sucesi´n {f0 , f1 , . . . , fn } de funciones definidas en o o R con valores reales, continuamente derivables es una sucesi´n de Sturm, si: o ′ a) f0 (x∗ )f1 (x∗ ) < 0 si f0 (x∗ ) = 0, x∗ ∈ R. b) fj−1 (x∗ )fj+1 (x∗ ) < 0 si fj (x∗ ) = 0, 1 ≤ j ≤ n − 1. c) fn (x) no cambia de signo sobre R y es positiva Teorema IV.1.7.- Sea {f0 , f1 , . . . , fn } una sucesi´n de Sturm, w(x) se o denota al n´mero de cambios de signo de {f0 (x), f1 (x), . . . , fn (x)}. u Entonces la funci´n f0 (x) tiene exactamente w(b) − w(a) ceros en el o intervalo [a, b].

160

IV Ecuaciones No Lineales

Demostraci´n.- w(x) puede cambiar de valor solamente si uno de los o fj (x) = 0. Por consiguiente, sea x∗ un tal n´mero y sup´ngase que u o 1 ≤ j ≤ n − 1. Estudiando en un vecindario de x∗ , la funci´n w estar´ o a determinada por los valores de las siguientes tablas: x∗ − ǫ fj−1 fj fj+1 + ± − x∗ + 0 − x∗ + ǫ + ± − x∗ − ǫ fn−1 fn ± + x∗ ± 0 fj−1 fj fj+1 x∗ − ǫ − ± + x∗ − 0 + x∗ + ǫ − ± +

x∗ + ǫ ± +

de donde w(x∗ + ǫ) = w(x∗ − ǫ) cuando fj (x∗ ) = 0 para 1 ≤ j ≤ n. Ahora bien, si f0 (x∗ ) = 0, estudiando alrededor de un vecindario de x∗ se tiene las tablas: x∗ − ǫ f0 f1 + − x∗ 0 − x∗ + ǫ − − f0 f1 x∗ − ǫ − + x∗ 0 + x∗ + ǫ + + ,

de donde w(x∗ + ǫ) = w(x∗ − ǫ) + 1. Volviendo al problema original de encontrar los ceros reales de un polinomio p(x) con raices simples, a coeficientes reales (racionales), el objetivo es construir una sucesi´n de Sturm de tal manera que f0 = p. o Se define la siguiente sucesi´n de polinomios de manera recursiva utilizando o la divisi´n con resto, por o   f0 (x) := p(x),     f1 (x) := −p′ (x),      f0 (x) = g1 (x)f1 (x) − γ 2 f2 (x),  1 (IV.1.22) 2 f1 (x) = g2 (x)f2 (x) − γ2 f3 (x),      .  .  .     fn−1 (x) = gn (x)fn (x). La definici´n de la sucesi´n (IV.1.22) es el algoritmo de Euclides para o o determinar el mcd(p(x), p′ (x)). Se tiene el siguiente teorema.

IV.1 Ecuaciones Polinomiales

161

Teorema IV.1.8.- Sup´ngase que p(x) solamente tiene raices simples, o entonces la sucesi´n definida por (IV.1.22) es una sucesi´n de Sturm. o o Demostraci´n.- Puesto que p(x) tiene raices simples, si p′ (x∗ ) = 0, se tiene o p(x∗ ) = 0, de donde la condici´n a) es satisfecha, o ′ ′ a) f0 (x∗ )f1 (x∗ ) = −(f0 (x∗ ))2 < 0.. b) Se cumple esta condici´n por construcci´n de la sucesi´n. o o o c) fn = mcd(p, p′ ) = C. Algoritmo Con el algoritmo de bisecci´n se separa las raices realles de p(x), es decir o se divide en la mitad un intervalo original [a, b] y se continua hasta tener todas las raices localizadas en subintervalos [ai , bi ]. Se puede continuar con el algoritmo de bisecci´n hasta lograr la precisi´n deseada, o si no se mejora o o el resultado utilizando el m´todo de Newton. e

Ejercicios
1.- El polinomio x4 − 8x3 + 24x2 − 32x + a0 , a0 = 16 posee una raiz de multiplicidad 4 en el punto x = 2. ¿C´mo cambian las raices del o polinomio si se remplaza a0 por a0 = a0 (1 + ǫ) con |ǫ| ≤ eps? Calcular ¯ las raices de este polinomio, ¿es un problema bien condicionado? 2.- Sea p(x) un polinomio de grado n a coeficientes reales. Sup´ngase que o todas las raices α1 ≥ α2 ≥ · · · ≥ αn sean reales. a) Mostrar que el m´todo de Newton converge hacia α1 , si x0 > α1 . e Indicaci´n.- Para x > α1 los valores de p(x), p′ (x), p′′ (x) tienen o el mismo signo que lim p(x). Mostrar que {xk } es una sucesi´n o x→∞ mon´tona. o b) Si x0 es mucho mas grande que α1 , entonces el m´todo de Newton e converge muy lentamente. (xk+1 ∼ xk (1 − 1/h)) 3.- Consid´rese el polinomio e f (x) = x6 − 3x5 + 6x3 − 3x2 − 3x + 2. Sin calcular las raices de este polinomio, determinar el n´mero de raices u distintas de f (x). 4.- Encontrar un algoritmo que, para un polinomio arbitrario f ∈ Q[x], permita calcular la factorizaci´n o f (x) = f1 (x) · (f2 (x)
2

· (f3 (x)

3

· · · (fk (x) ,

k

162

IV Ecuaciones No Lineales donde f1 , . . . , fk son primos entre si y donde cada polinomio fj (x) solo tiene raices simples.

5.- Para un polinomio con coeficientes en C, mostrar que todas las raices ξ satisfacen la estimaci´n o |ξ| ≤ 2 max a1 , a0 a1 ,..., a0
n−1

f (x) = a0 xn + a1 xn−1 + · · · an−1 x + an ,

a0 = 0;

an−1 , a0

n

an 2a0

.

(IV.1.23)

Encontrar, para cada n, un polinomio tal que se tenga igualdad en (IV.1.23) 6.- Consid´rese el polinomio e f (x) = x5 − 5x4 + 3x3 + 3x2 + 2x + 8. a) Determinar el n´mero de raices reales. u b) ¿Cuantas raices son complejas? c)¿Cuantas raices son reales y positivas? Indicaci´n.- Utilizar una sucesi´n de Sturm. o o 7.- Sea f (p + 1) veces continuamente diferenciable en un vecindario de ξ ∈ R y sea ξ una raiz de multiplicidad p. Mostrar que la sucesi´n o {xk }, definida por f (xk ) , xk+1 = xk − p ′ f (xk ) converge hacia ξ, si x0 es suficientemente proximo de ξ, y que se tiene xk+1 − ξ f (p+1) (ξ) −→ . (xk − ξ)2 p(p + 1)f (p+2) (ξ) 8.- El m´todo de Newton, aplicado a z 3 − 1 = 0, da la iteraci´n e o zk+1 = Φ(zk ), con Φ(z) = z − z3 − 1 2z 3 + 1 = . 3z 2 3z 2

Den´tese por Aj = z0 ∈ C; zk → e2iπj/3 , j = 0, 1, 2; los canales de o atracci´n. Mostrar: o a)A0 ∩ R = R − {ξ0 , ξ1 , . . .} donde ξ0 = 0 y ξk−1 = Φ(ξk ), b)Aj+1 = e2πi/3 Aj , c)Calcular Φ−1 (0) y Φ−2 (0) con la f´rmula de Cardano. Esto muestra o que el sector {z ∈ C| |arg(z)| < π/3} contiene puntos que no convergen hacia 1. d) Sup´ngase que Φk (¯) = 0 para un k ∈ N. Mostrar que U ∩ Aj = ∅ o z (j = 0, 1, 2) para cada vecindario U de z . ¯

IV.2 M´todos Iterativos e

En la secci´n precedente, se ha visto que la mayor parte de las ecuaciones a o resolver no pueden ser resueltas de manera expl´ ıcita, es decir mediante una f´rmula m´gica. Es por esta raz´n, que el estudio de los m´todos iterativos es o a o e una necesidad imperiosa para poder encontrar las soluciones de una ecuaci´n. o Para tal efecto es tambi´n importante conocer el tipo de funciones con las e que se est´ trabajando. En lo que sigue, se estudiar´ varios aspectos que son a a fundamentales para la comprensi´n del tema. o

Posici´n del Problema o
Uno de los problemas m´s comunes, se trata del siguiente. Sup´ngase, a o que se tiene la funci´n o f : I −→ R, donde I ⊂ R intervalo. El problema, se trata de obtener con una aproximaci´n arbitraria las raices de la ecuaci´n o o f (x) = 0. (IV.2.1)

Est´ claro, que ser´ rid´ a ıa ıculo esperar obtener, en general, f´rmulas de o resoluci´n de (IV.2.1), del tipo de f´rmulas cl´sicas resolviendo las ecuaciones o o a de segundo grado. Se ha visto que, es imposible en el caso en que f es un polinomio de grado ≥ 5. Incluso para el problema m´s razonable planteado a aqu´ , no existe un m´todo general conduciendo al resultado buscado, los ı e procedimientos te´ricos de aproximaci´n pueden conducir, sin hip´tesis o o o adecuadas para la funci´n f a c´lculos num´ricos inextricables, incluso para o a e los ordenadores m´s potentes que existen en la actualidad. a Por otro lado, incluso si el intervalo I es acotado, puede suceder que la ecuaci´n (IV.2.1) tenga una infinidad de raices, por ejemplo, cuando f es o identicamente nula en un subintervalo. El ejemplo 1 f (x) = x3 sin , x (IV.2.2)

muestra que puede existir una infinidad de raices, aun cuando f no sea identicamente nula en un subintervalo. Por consiguiente, un primer paso consiste en descomponer el intervalo I, por un n´mero finito o infinito de puntos de subdivisi´n, en subintervalos u o en cada uno de los cuales se sepa que, la ecuaci´n no tiene raiz, o la ecuaci´n o o tenga una y una sola soluci´n. Se estar´ seguro, que es as´ cuando la funci´n o a ı o

164

IV Ecuaciones No Lineales

es mon´tona para el primer caso si f (x) no cambia de signo y en el segundo o caso si f (x) cambia de signo. Para asegurar la existencia en el segundo caso, se exige como hip´tesis suplementaria la continuidad en tal subintervalo. o Ejemplo La funci´n o f (x) =

donde a1 < a2 < · · · < an y los bj son todos diferentes a 0 y del mismo signo, est´ definida en cada uno de los subintervalos abiertos a ]∞, a1 [, ]a1 , a2 [, . . . , ]an−1 , an [, ]an , +∞[; en cada uno de estos subintervalos es mon´tona, ya que su derivada tiene el signo opuesto de los bj . o Por otro lado cuando x tiende por derecha a uno de los aj , f (x) tiende en valor absoluto a ∞ y cuando x tiende por izquierda a uno de los aj , f (x) tiende en valor absoluto a ∞, pero con signo opuesto que el l´ ımite por derecha. Por lo tanto, se concluye que la funci´n f tiene exactamente o una raiz en cada subintervalo. Para obtener una descomposici´n de I en intervalos del tipo considerado o anteriormente, es decir para separar las raices, se necesitar´ te´ricamente ıa o estudiar el sentido de variaci´n de la funci´n f , agregando otra hip´tesis o o o suplementaria respecto a f , como que f sea continuamente derivable, esto significar´ estudiar el signo de f ′ (x), por consiguiente se estar´ obligado ıa ıa a encontrar las raices de la ecuaci´n f ′ (x) = 0, que salvo algunos casos, su o resoluci´n presenta las mismas dificultades que la ecuaci´n original. o o Por lo expuesto m´s arriba, se est´ en la capacidad de enunciar el a a siguiente teorema de existencia y unicidad de la soluci´n de una ecuaci´n o o con su algoritmo de resoluci´n incluido. o Teorema IV.2.1.- Sea f : I −→ R continua y mon´tona, entonces o la ecuaci´n f (x) = 0 tiene ⇐⇒ existen a < b ∈ I, tales o que f (a)f (b) < 0. una y una sola soluci´n o Adem´s si existiese la soluci´n, ´sta puede ser aproximada de manera a o e arbitraria con el algoritmo de la bisecci´n. o La primera observaci´n que se puede hacer al algoritmo de la bisecci´n o o consiste en que este algoritmo construye subintervalos encajonados reduciendo la longitud de cada subintervalo de la mitad en cada iteraci´n. o Pero una de las interrogantes que uno se plantea, es cuando detener el algoritmo. En general, esto sucede cuando el valor absoluto de la funci´n f o evaluada en las extremidades es menor a un valor de tolerancia prefijado con anterioridad. Ahora bien, si solamente se exige que f sea mon´nota y o continua puede pasar situaciones, como las del siguiente ejemplo.

b1 b2 bn + + ··· + , x − a1 x − a2 x − an

(IV.2.3)

´ IV.2 Metodos Iterativos Ejemplo Sea f : (−1, 1) −→ R definida por

165

f (x) = x100 g(x),

(IV.2.4)

donde g es una funci´n continua que no se anula en (−1, 1). Es evidente o que, x = 0 es una raiz de la ecuaci´n f (x) = 0. Aplicando el algoritmo o de la bisecci´n con una tolerancia de 10−6 y tomando como puntos de o partida a = −0, 9 y b = 0.9 puede suceder que |f (x)| < T OL, dejando una gran elecci´n para escoger la raiz de f (x). o Por lo tanto, si no se tiene la hip´tesis que f (x) sea derivable y que o f ′ (x) = 0 para x raiz de la ecuaci´n f (x) = 0, se debe tener mucho cuidado o en la determinaci´n de la soluci´n num´rica del problema, para no cometer o o e grandes errores.

M´todo de la Falsa Posici´n e o
En este paragrafo, se supondr´ que a es dos veces continuamente derivable, que f ′ (x) no se anula en el intervalo ]a, b[ y adem´s f (a)f (b) < 0. a La idea para obtener una valor aproximado de la raiz ξ0 de la ecuaci´n o f (x) = 0 en el intervalo I =]a, b[, consiste en remplazar f por un polinomio que toma los valores de f en determinados puntos de I. Como se ha visto en la primera secci´n de este cap´ o ıtulo, las ecuaciones polinomiales m´s simples a de resolver son las ecuaciones de primer grado y las ecuaciones cuadr´ticas. a Por razones de simplicidad en la formulaci´n, el m´todo de la falsa posici´n o e o ser´ estudiado tomando como polinomio, uno de primer grado. Sea L(x) el a polinomio de interpolaci´n de primer grado, tal que: o L(a) = f (a), ver en la figura IV.2.1. L(b) = f (b), (IV.2.5) f : [a, b] −→ R

y=L(x) ξ ξ0

a

y=f(x)

b

Figura IV.2.1 M´todo de la Falsa Posici´n. e o

166

IV Ecuaciones No Lineales

Las hip´tesis implican que L(x) se anula en un punto ξ ∈ I, que se o toma como valor aproximado de ξ0 . Por consiguiente se trata de mayorar el error cometido |ξ − ξ0 |; para tal efecto se recordar´ el teorema III.1.13 que a da el siguiente resultado f (x) − L(x) = 1 ′′ f (ζ)(x − x0 )(x − x1 ) 2 (IV.2.6)

Proposici´n IV.2.2.- Si f ′ no se anula en el intervalo I, y si f (ξ0 ) = 0, o L(ξ) = 0 para ξ, ξ0 ∈ I, entonces se tiene ξ − ξ0 = 1 f ′′ (ζ) (ξ − a)(ξ − b), 2 f ′ (ζ ′ ) (IV.2.7)

con ζ ∈ I, deduciendo la siguiente proposici´n. o

donde ζ y ζ ′ son n´meros que pertenecen a I. u Demostraci´n.- Por (IV.2.6), se tiene o f (ξ) = 1 ′′ f (ζ)(ξ − a)(ξ − b), 2

por el teorema del valor medio se tiene f (ξ) = f ′ (ζ ′ )(ξ − ξ0 ) con ζ ′ que pertenece al intervalo cuyas extremidades son ξ0 y ξ. Combinando ambos resultados se obtiene el resultado de la proposici´n. o Corolario IV.2.3.- Mismas hip´tesis de la proposici´n precedente, y o o adem´s |f ′ (x)| ≥ m > 0, y |f ′′ (x)| ≤ M para todo x ∈ I, entonces a |ξ − ξ0 | ≤ M (b − a)2 . 8m (IV.2.8)

Si el error |ξ − ξ0 | evaluado por la estimaci´n (IV.2.8) no es lo sufio cientemente peque˜o, se puede repetir el procedimiento: se calcula f (ξ) y n dependiendo de su signo, la raiz ξ0 se encuentra en el intervalo [a, ξ] o [ξ, b], al cual se aplica el mismo m´todo obteniendo as´ un segundo valor aproxie ı mado ξ ′ . Te´ricamente, se puede aplicar indefinidamente este procedimiento, o y se muestra facilmente que la sucesi´n de los n´meros obtenidos converge o u hacia ξ, ver ejercicios. Como se dijo al abordar el m´todo de la falsa posici´n, se puede e o aproximar la raiz de la ecuaci´n f (x) = 0 con un polinomio de segundo grado. o Con la misma notaci´n que antes ξ0 es la raiz de la ecuaci´n, suponiendo o o

´ IV.2 Metodos Iterativos

167

ademas que f (x) es tres veces continuamente diferenciable sobre el intervalo I. Se denota por c el punto medio del intervalo I. Puesto que f ′ (x) no cambia de signo en este intervalo, f (c) es positivo o negativo. Sea L(x) el polinomio de interpolaci´n de grado 2, tal que o L(a) = f (a) L(c) = f (c) L(b) = f (b); (IV.2.9)

utilizando la f´rmula de Newton del cap´ o ıtulo III, se tiene L(x) = f (a) + f (c) − f (a) (x − a) c−a f (b) − 2f (c) + f (a) (x − a)(x − c), +2 (b − a)2

IV.2.10)

resolviendo esta ecuaci´n, sea ξ ∈ I la raiz del polinomio de segundo grado, la o cual puede ser determinada utilizando el m´todo de resoluci´n de ecuaciones e o de segundo grado, teniendo el cuidado de escoger la raiz que se encuentra en [a, b]. Suponiendo que sobre el intervalo [a, b], f es tres veces continuamente derivable, el teorema III.1.13 da la siguiente estimaci´n o f (x) − L(x) = 1 ′′′ f (ζ)(x − a)(x − c)(x − b), 6 (IV.2.11)

donde ζ ∈ [a, b]. deduciendo la siguiente proposici´n. o Proposici´n IV.2.4.- Si f ′ no se anula en el intervalo I, y si f (ξ0 ) = 0, o L(ξ) = 0 para ξ, ξ0 ∈ [a, b], entonces se tiene ξ − ξ0 = 1 f ′′′ (ζ) (ξ − a)(ξ − c)(ξ − b) 6 f ′ (ζ ′ ) (IV.2.12)

donde ζ y ζ ′ son n´meros que pertenecen a [a, b]. u Demostraci´n.- Por (IV.2.11), se tiene o f (ξ) = 1 ′′ f (ζ)(ξ − a)(ξ − c)(ξ − b), 6

por el teorema del valor medio, se tiene f (ξ) = f ′ (ζ ′ )(ξ − ξ0 ), con ζ ′ que pertenece al intervalo cuyas extremidades son ξ0 y ξ. Combinando ambos resultados se obtiene el resultado de la proposici´n. o

168

IV Ecuaciones No Lineales

Corolario IV.2.5.- Mismas hip´tesis de la proposici´n precedente, y o o adem´s |f ′ (x)| ≥ m > 0, y |f ′′′ (x)| ≤ M para todo x ∈ [a, b], entonces a |ξ − ξ0 | ≤ M (b − a)3 . 24m (IV.2.13)

Si el error |ξ − ξ0 | evaluado por la estimaci´n (IV.2.13) no es lo o suficientemente peque˜o, se puede repetir el procedimiento: se calcula f (ξ) n y dependiendo de su signo, la raiz ξ0 se encuentra en el intervalo [a, ξ] o [ξ, c], etc, al cual se aplica el mismo m´todo obteniendo as´ un segundo e ı valor aproximado ξ ′ . Te´ricamente, se puede aplicar indefinidamente este o procedimiento, y se muestra facilmente que la sucesi´n de los n´meros o u obtenidos converge hacia ξ0 , ver ejercicios. El m´todo de la Falsa Posici´n es un claro ejemplo de un m´todo e o e iterativo, pues utiliza soluciones anteriormente obtenidas para calcular una nueva soluci´n. En general, se dir´ que un m´todo iterativo es de orden k o o a e de k pasos, si la iteraci´n puede expresarse de la forma: o xn+1 = Φ(xn , xn−1 , . . . , xn−k+1 ). (IV.2.14)

Por lo tanto, los m´todos descritos anteriormente son m´todos iterativos de e e dos pasos, pues se sirven de 2 valores para calcular el valor de la iteraci´n o siguiente.

Sistemas de Ecuaciones
Los problemas que han sido estudiados m´s arriba estaban relacionados a a funciones de una sola variable con valores reales. Ahora bien, existe una gran variedad de problemas donde se deben resolver sistemas de ecuaciones, que en general no son lineales. La posici´n del problema es por consiguiente: o Dada f : U ⊂ Rn −→ Rn , encontrar ξ ∈ U tal que f (ξ) = 0. (IV.2.15)

Reiterando lo que se dijo al inicio de esta secci´n no se puede esperar de o obtener una f´rmula milagrosa para determinar ξ, lo que se debe buscar o es por consiguiente una aproximaci´n de esta soluci´n con la precisi´n que o o o se desee. La continuidad no es una condici´n suficiente para determinar la o existencia de ceros, hip´tesis primordial en el caso de una variable; en el caso o de varias variables, en la mayor parte de los casos no se puede demostrar la existencia de ceros, contentandose con la unicidad de ´stos a nivel local. Un e teorema muy importante, es el de la inversi´n local que ser´ enunciado sin o a demostraci´n, para el lector interesado, puede encontrarla en cualquier libro o de An´lisis, por ejemplo en Rudin. a

´ IV.2 Metodos Iterativos

169

Teorema IV.2.6.- Sean D ⊂ Rn abierto, f : D −→ Rn continuamente diferenciable. Si: a) f (x∗ ) = 0, ′ b) fx∗ es inversible, entonces, existe dos vecindarios, U de x∗ y V de 0, tales que para todo v ∈ V existe un unico x ∈ U, tal que f (x) = v y la aplicaci´n ´ o g :V −→ U v −→ x(v)
′ es continuamente diferenciable y adem´s gv = (fx ) a ′ −1

.

Consecuencias de este teorema son: la unicidad local de la soluci´n; si o x es soluci´n n´merica obtenida mediante un metodo cualquiera se tiene la ˆ o u siguiente estimaci´n del error o
′ x − x∗ = (fx∗ ) ˆ ′ de donde si (fx∗ ) f (ˆ) es peque˜o. x n −1 −1

f (ˆ) + O( f (ˆ) ), x x

2

es casi singular, x − x∗ puede ser muy grande, aun si ˆ

Un m´todo Iterativo simple e
Existe otra clase de ecuaciones que pueden ser escritas de la forma f (x) = x, (IV.2.17)

donde f es una funci´n de varias variables con las condiciones dadas al o inicio de este paragrafo. Cabe remarcar que la ecuaci´n (IV.2.15) puede ser o expresada como x = g(x) con g(x) = x−Af (x), donde A es generalmente una matriz. La existencia y unicidad de las ecuaciones de la forma (IV.2.17) son resueltas utilizando el teorema del punto fijo en espacios m´tricos. Para saber e m´s sobre espacios m´tricos ver Schawartz. A continuaci´n, se enunciar´ el a e o a teorema del punto fijo. Teorema IV.2.7.- Sean X un espacio m´trico completo, f : X −→ X una e aplicaci´n verificando o d(f (x), f (y)) ≤ Cd(x, y), C < 1;

donde d denota la distancia en X. Entonces la ecuaci´n f (x) = x admite o una y una sola soluci´n. o Demostraci´n.- Sea x0 ∈ X un punto arbitrario, se define la sucesi´n {xk } o o de manera recursiva por xk+1 = f (xk ),

170

IV Ecuaciones No Lineales

esta sucesi´n es de Cauchy, en efecto, si n ≥ m, se tiene: o d(xn , xm ) ≤ d(xn , xn−1 ) + · · · + d(xm+1 , xxm ), d(xm+1 , xm ) ≤ C m d(x1 , x0 ), Cm , 1−C que tiende a cero, cuando n, m tienden a ∞. Sea x∗ = lim xn , se deduce d(xn , xm ) ≤
n→∞

por lo tanto

que f (x∗ ) = x∗ . Con esto se ha demostrado la existencia de la soluci´n. Para o la unicidad se considera x, y son soluciones del problema, por lo tanto d(x, y) = d(f (x), f (y)) ≤ Cd(x, y),

y la unica posibilidad que suceda esto es que x = y. ´ Se puede dar condiciones menos fuertes sobre el espacio X o sobre f , por ejemplo que f sea localmente una contracci´n, con solamente esta o hip´tesis se mantiene la unicidad, pero est´ vez localmente, la existencia no o a est´ asegurada. a Por lo expuesto, se puede formular el m´todo iterativo dado en la e demostraci´n del teorema precedente para el siguiente problema: o Sea Φ : Rn −→ Rn continua, determinar x ∈ Rn tal que Φ(x) = x. El m´todo e iterativo est´ dado por: a x0 , arbitrario; (IV.2.18) xn = Φ(xn−1 ). Teorema IV.2.8.- Si {xn } converge hacia x∗ , y Φ es continua en x∗ , entonces x∗ es soluci´n de x = Φ(x) o Demostraci´n.- Se deja al lector. o El anterior teorema se˜ala claramente que si la funci´n Φ es continua, n o y la sucesi´n definida por (IV.2.18) es convergente, entonces el l´ o ımite de esta sucesi´n es la soluci´n del problema Φ(x) = x. Por consiguiente, la pregunta o o natural que uno puede plantearse es cuando existen condiciones suficientes para tener convergencia. Definiendo el error en como en = xn − x∗ , donde x∗ es la soluci´n exacta, y xn la n-sima iteraci´n, se obtiene: o o en+1 = xn+1 − x∗ = Φ(xn ) − Φ(x∗ ) en+1 ≈ Φ (x )en .
′ ∗

= Φ′ (x∗ )(xn − x∗ ) + O

xn − x∗

2

, (IV.2.19)

´ IV.2 Metodos Iterativos

171

Si en+1 ≤ q en para q < 1, entonces en → 0 cuando n → ∞. Por consiguiente la sucesi´n es convergente, si existe una norma tal que o Φ′ (x∗ ) = q < 1. Teorema IV.2.9.- a) Sea Φ(x) = Ax + b, con A matriz, entonces el m´todo e iterativo (IV.2.18) converge para todo x, si y solamente si ρ(A) < 1, donde b) Si Φ(x) es no lineal y dos veces continuamente diferenciable, entonces se tiene convergencia si: ρ(Φ′ (x∗ )) < 1, x0 − x∗ es suficientemente peque˜o. n Demostraci´n.- Se mostrar´ solamente el inciso a), dejando al lector el o a inciso b) con las observaciones hechas antes de enunciar el teorema. ⇒ Se supone que el m´todo converge ∀x0 ∈ Rn . Sea λ un valor propio de A, e y e0 un vector propio respecto a este valor propio, entonces en = An e0 , λn e0 −→ 0, ρ(A) = max |λ| | λ es un valor propio de A .

posible solamente si |λ| < 1. ⇐ Se supone que ρ(A) < 1, sea e0 ∈ Rn arbitrario, de donde en = An e0 . Por el teorema de Jordan, existe una matriz T no singular tal que   . λ1 . .   .. 0   . 1     λ1     .. . T −1 AT =  . λ2     .. 0   . 1     λ2   .. . Sea D = diag(1, ǫ, ǫ2 , . . . , ǫn−1 ),  λ  1      D−1 T −1 AT D =        por consiguiente .. . .. 0 . ǫ λ1 . λ2 . . .. 0 .         = J,      

ǫ λ2 .. .

172 si ǫ es suficientemente peque˜o, se tiene J n convergente.

IV Ecuaciones No Lineales

< 1, de donde el m´todo es e

Para el problema f (x) = 0, se vio antes que se puede convertir en problema de punto fijo, planteando Φ(x) = x − Af (x), (IV.2.20)

donde A es una matriz constante A, inversible. Ahora bien, para cumplir las condiciones del teorema precedente ρ(Φ′ (x∗ )) < 1, motivo por el cual es suficiente A ≈ (f ′ (x∗ ))−1 para que Φ′ (x∗ ) ≈ 0. Ejemplo Consid´rese la ecuaci´n siguiente e o x2 + y 2 − 1 = 0 1, sin x + sin y = 2 se desea determinar las soluciones de esta ecuaci´n. Convirtiendo en un o problema de punto fijo se tiene Φ(x, y) = x y −A x2 + y 2 − 1 1 sin x + sin y − 2

donde la A es una matriz de 2 × 2. La derivada de f en el punto (x, y), est´ dada por a 2x 2y ′ f(x,y) = , cos x cos y la inversa de la derivada de f , esta dada por
′ (f(x,y) )−1 =

1 2(x cos y − y cos x)

cos y −2y − cos x 2x

.

Recorriendo a travez de la circunferencia de radio 1 dada por la primera ecuaci´n se escogen los valores de x, y para los cuales remplazando en la o segunda ecuaci´n se tiene valores muy cerca a 1/2. Una vez determinados o estos valores se consigue una aproximaci´n de la matriz A para poder o aplicar el m´todo iterativo. Las soluciones obtenidas con una precisi´n e o del orden de 10−10 son: x = 0.3176821764792814, x = −0.948197255188055, y = −0, 948197255188055; y = 0, 3176821764792814.

´ IV.2 Metodos Iterativos

173

Ejercicios
1.- Sea A una matriz que es diagonal dominante, es decir |aii | > |aij | , i = 1, . . . , n;

j=i

entonces el m´todo de Jacobi, formulado en el cap´ e ıtulo II, para resolver Ax = b es convergente. 2.- Consid´rese la ecuaci´n integral e o
b

y(x) = f (x) +
a

K(x, s, y(s))ds,

(∗)

donde a, b, f, K est´n dados, se busca y(x). Mostrar, si el nucleo K es a degenerado, es decir
n

K(x, s, y) =
i=1

ai (x)bi (s, y),

entonces la soluci´n de (∗) est´ dada por o a
n

y(x) = f (x) +
i=1

ci ai (x)

donde las constantes c1 , . . . , cn satisfacen
b n

ci =
a

bi (s, f (s) +
j=1

cj aj (s))ds i = 1, . . . , n.

3.- Calcular la soluci´n de o
π

y(x) = 1 + λ
0

(2 sin x sin s + sin 2x sin 2s)ey(s) ds,

λ=

1 . 10

Resolver el sistema no lineal para c1 , c2 con el m´todo iterativo. e 4.- Sean J = [a, b] un intervalo de R en el cual la funci´n dos veces o continuamente diferenciable f verifica las relaciones |f ′ (x)| ≥ m, M |f ′′ (x)| ≤ M , f (a)f (b) < 0. Mostrar que si (b − a) = q < 1 se 4m puede, por n aplicaciones sucesivas del m´todo de la falsa posici´n, e o encontrar un intervalo de extremidades an , bn conteniendo la unica ´ raiz de f (x) = 0 en [a, b], con |bn − an | ≤ 4m 2n q . M

IV.3 M´todo de Newton e

En lo que va este cap´ ıtulo, se ha visto dos enfoques para resolver sistemas de ecuaciones, el primero mediante una f´rmula que de el resultado de manera o expl´ ıcita en funci´n de los datos del problema. El segundo enfoque consiste o en utilizar m´todos iterativos que permitan aproximar a la soluci´n de una e o manera arbitraria. En la secci´n precedente se vio en los diferentes teoremas o de convergencia que la velocidad de convergencia es lineal, lo que puede constituir una desventaja, desde el momento en que se requiera resolver grandes y muchos sistemas de ecuaciones. Lo deseable ser´ cambiar el orden ıa de convergencia, por ejemplo a una reducci´n cuadr´tica del error. o a Recordando el m´todo de la Falsa Pendiente, en lugar de tomar una e secante para determinar una aproximaci´n del cero de la funci´n estudiada, o o se podr´ tomar la tangente en un punto de la curva inducida por la funci´n. ıa o El m´todo iterativo formulado en la secci´n precedente estaba basado en el e o teorema del punto fijo y el problema a resolver era de la forma Φ(x) = x, para el caso de las ecuaciones de la forma f (x) = 0, era suficiente considerar la funci´n Φ(x) = x − Af (x), donde A es una matriz constante, ahora o bien suponiendo que f ′ (x) es inversible en un vecindario de una de las soluciones de la ecuaci´n, en lugar de tomar A constante, se puede plantear o A = (f ′ (x))−1 . Las motivaciones est´n dadas para formular un nuevo m´todo, cuya a e velocidad de convergencia sea superior a los m´todos anteriormente formue lados. Para tal efecto, consider´se la funci´n f : U ⊂ Rn −→ Rn , U un e o abierto de Rn , se supone adem´s que f es continuamente derivable, y la a derivada en todo punto es inversible. Por consiguiente, se tiene el problema f (x) = 0, (IV.3.1)

cuyas soluciones, si ´stas existen son localmente unicas, por el teorema de e ´ las funciones inversas, dado en la secci´n precedente. Sup´ngase que este o o problema tiene al menos una soluci´n, denotandola por x∗ . Sea x ∈ U o bastante pr´ximo de x∗ , aplicando la definici´n de la derivada en el punto x o o se obtiene f (x∗ ) = f (x) + f ′ (x)(x∗ − x) + O( x∗ − x 2 ), de donde despreciando el t´rmino que contiene O se obtiene la ecuaci´n lineal e o dada por f ′ (x)(x∗ − x) = −f (x), que por hip´tesis tiene soluci´n y es unica. De donde, el m´todo de Newton o o ´ e tiene la formulaci´n siguiente, sea x0 un punto bastante pr´ximo de la o o

´ IV.3 Metodo de Newton soluci´n buscada x∗ , xm se define recursivamente, por las ecuaciones o f ′ (xm−1 )(xm − xm−1 ) = −f (xm−1 ). Ejemplos 1.- Consid´rese la ecuaci´n de una sola variable dada por e o f (x) = 2x − tan x, para aplicar el m´todo de Newton la derivada est´ dada por e a f ′ (x) = 2 − 1 , cos2 x

175

(IV.3.2)

partiendo del punto inicial x0 = 1, 2 se obtiene los siguientes valores mediante el m´todo de Newton. e Tabla IV.3.1. Valores obtenidos por el m´todo de Newton. e k 0 xk 1, 2 f (xk ) −1.69993 × 10−2 −0.172152 e2 /ek−1 k

1 1.16934

2 1.16561 −0.213431 × 10−3 −3.97664 3 1.16556 −0.347355 × 10−07 −3.44610 4 1.16556 −.133227 × 10−14 −3.38337

2.- Consid´rese el sistema de ecuaciones dado por e x2 + y 2 − 4 = 0 . xy − 4 = 0 Las soluciones de este sistema de ecuaciones est´n dadas por la intera secci´n de una circunferencia de radio 2 y centro en el origen y una o hip´rbola inclinada. Realizando un gr´fico se puede observar que una e a de las raices est´ pr´xima al punto (0.5, 2) que ser´ tomado como punto a o a inicial. La matriz derivada es igual a f ′ (x, y) = 2x 2y y x ,

utilizando el m´todo de eliminaci´n de Gauss para calcular los valores e o de (xk , yk ) se obtiene la siguiente tabla con las primeras 23 iteraciones del m´todo de Newton. e

176

IV Ecuaciones No Lineales

Tabla IV.3.2. Valores obtenidos por el m´todo de Newton. e k 0 1 xk 0.5 yk 2. f (xk ) 0.25 0.134722 14.3688 28.3211 446885. 732995.
−1

2

ek

2 2

/ ek−1

2

.516666 1.96666

2 0.526332 1.94921 0.764322 × 10−1 22 0.540690 1.92553 0.345530 × 10−5 23 0.540690 1.92553 0.210661 × 10
−5

3 0.532042 1.93948 0.446506 × 10

En las tablas IV.3.1 y IV.3.2, se observa que el m´todo de Newton e converge cuadr´ticamente. Es importante poder confirmar te´ricamente este a o resultado. Analizando el caso de una variable, se supone que f : I −→ R es dos veces continuamente derivable, x∗ una soluci´n del problema f (x) = 0, o adem´s f ′ (x∗ ) = 0. Sea xk el valor de la k-esima iteraci´n obtenida del a o m´todo de Newton. El desarrollo de Taylor en xk de la funci´n f y el m´todo e o e de Newton para obtener xk+1 est´n dados por: a 1 0 = f (xk ) + f ′ (xk )(x∗ − xk ) + f ′′ (xk ) (x∗ − xk )2 +O((x∗ − xk )3 ), 2 e2 k 0 = f (xk ) + f ′ (xk )(xk+1 − xk ), sustrayendo ambas cantidades se obtiene 1 0 = f ′ (xk ) (xk+1 − x∗ ) − f ′′ (xk )e2 + O((ek )3 ), k 2 e2 k+1 de donde ek+1 = 1 f ′′ (xk ) 2 e + O((ek )3 ), 2 f ′ (xk ) k

mostrando as´ el teorema siguiente: ı Teorema IV.3.1.- Sea f : I −→ R, tres veces continuamente diferenciable, x∗ una soluci´n de la ecuaci´n f (x) = 0. Si f ′ (x) = 0 en un vecindario de o o x∗ , x0 bastante pr´ximo de x∗ , entonces o ek+1 = 1 f ′′ (xk ) 2 e + O((ek )3 ), 2 f ′ (xk ) k (IV.3.3)

´ IV.3 Metodo de Newton donde ek = x∗ − xk .

177

donde f1 , . . . , fn son las componentes de la funci´n f ; la segunda derivada o de f en el punto x ∈ U es una aplicaci´n bilineal sim´trica, que respecto a o e la base can´nica, est´ dada por o a f ′′ (x)(h, k) =
i,j

donde U es un abierto de Rn , f es una funci´n tres veces continuamente o derivable, cuya derivada es inversible para todo x ∈ U. La derivada de f en el punto x ∈ U es una aplicaci´n lineal, cuya matriz respecto a la base o can´nica est´ dada por o a  ∂f1  · · · ∂f1 ∂x1 ∂xn  . , .  f ′ (x) =  . . .   . ∂x1
∂fn

Para el caso de una funci´n de varias variables, la situaci´n es bastante o o similar, en efecto sea f : U ⊂ Rn −→ Rn ,

···

∂xn

∂fn

∂2f (x)hi , kj , ∂xi ∂xj

donde h, k ∈ Rn y los hi , kj son las componentes de h y k respecto a las bases naturales. Para m´s detalle ver Cartan. El desarrollo de Taylor en x a est´ dado por a 1 3 f (x + h) = f (x) + f ′ (x)h + f ′′ (x)(h, h) + O( h ). 2 Teorema IV.3.2.- Sean f : U ⊂ Rn −→ Rn tres veces diferenciable, con derivada inversible y x∗ ∈ U con f (x∗ ) = 0. Si {xk } es la sucesi´n definida o por el m´todo de Newton, entonces el error ek = xk − x∗ satisface e ek+1 = 1 ′ f (xk ) 2
−1 ′′

f (xk )(ek , ek ) + O( h ).

3

(IV.3.4)

Demostraci´n.- Similar a la del caso de una sola variable. o C´lculo de la Derivada a Al implementar el m´todo de Newton, se debe c´lcular la derivada de f en e a cada punto. La primera forma de determinar la matriz f ′ (xk ) es de manera anal´ ıtica, construyendo as´ una subrutina para evaluar los coeficientes de ı la matriz jacobiana en cada iteraci´n. Pero lastimosamente, no siempre o

178

IV Ecuaciones No Lineales

es posible calcular las derivadas parciales de manera anal´ ıtica por varias razones: funciones muy complicadas para derivar, c´lculos muy largos, a etc. Otra manera de evaluar los coeficientes de f ′ (xk ) consiste en hacerlo num´ricamente. Utilizando un esquema de primer orden para evaluar la e derivada parcial de fj respecto a xi , se tiene ∂fj fj (x + tei ) − fj (x) (x) = lim , t→0 ∂xi t donde t ∈ R, ei es el i-esimo vector de la base can´nica. Ahora bien, se o plantea g(t) = fj (x + tei ) dejando fijo x, se tiene ∂fj (x) = g ′ (0). ∂xi De donde, el problema consiste en calcular g ′ (0); con un esquema de primer orden se obtiene g(t) − g(0) g ′ (0) ≈ . (IV.3.5) t Cabe recalcar, que se puede aproximar g ′ (0) con una mejor aproximaci´n, o para eso se puede utilizar los polinomios de interpolaci´n. Una pregunta o natural surge, ¿cu´l t escoger?, para obtener la mejor aproximaci´n de g ′ (0). a o El error de aproximaci´n est´ dado por o a 1 g(t) − g(0) = g ′ (0) + g ′′ (0)t + O(t2 ), t 2 mientras que los errores de redondeo, suponiendo que g es una funci´n o bien condicionada, est´ dado por los siguientes resultados, suponiendo que a g ′ (t) ≈ g ′ (0): g(t(1 + ǫ1 ))(1 + ǫ2 ) − g(0)(1 + ǫ3 ) g(t) − g(0) − t t 1 ≈ g(t) + g ′ (0)ǫ1 t(1 + ǫ2 ) − g(0)(1 + ǫ3 ) − g(t) + g(0) t 1 ≈ ǫ2 g(t) + g ′ (0)ǫ1 t − ǫ3 g(0) , t donde |ǫi | ≤ eps, por consiguiente error de redondeo ≤ 1 2 |g(0)| + |g ′ (0)t| eps. |t| (IV.3.6)

´ IV.3 Metodo de Newton

179

Lo ideal ser´, por lo tanto escoger un valor de t de manera que los errores a de aproximaci´n y de redondeo se aproximen, ver figura IV.3.1. o

Err de aprox

Err de redon.

Figura IV.3.1. Error de Aproximaci´n vs Error de Redondeo. o Observando la figura, se tiene que el error de aproximaci´n es del orden o de t, mientras que el error de redondeo es proporcional a eps/t, de donde equilibrando ambos errores se obtiene t= C eps, (IV.3.7)

donde C es una constante elegida de acuerdo a la funci´n f . o

El Teorema de Newton-Misovski
Se ha formulado el m´todo de Newton de una manera general, dando e inclusive una estimaci´n del error cometido, deduciendo que si el m´todo o e converge, la convergencia es cuadr´tica. Pero sin embargo, no se enunci´ las a o condiciones suficientes para obtener convergencia de este m´todo. El siguiene te teorema dar´ las condiciones suficientes para asegurar la convergencia del a m´todo, cuando la funci´n f cumple ciertas condiciones. e o Teorema IV.3.3.- Newton-Misovski. Sean D ⊂ Rn abierto y convexo, f : D −→ Rn continuamente diferenciable, f ′ (x) inversible para todo x ∈ D, x0 ∈ D satisfaciendo las siguientes condiciones: a) △x0 ≤ α, 2 b) (f ′ (y)−1 f ′ x + t(x − y) − f ′ (x) (y − x) ≤ ωt y − x , ∀x, y ∈ D, t ∈ [0, 1]; 1 c) η := αω < 1; 2 α < 1; d) ρ := 1−η ¯ e) B(x0 , ρ) = {x ∈ Rn | x − x0 ≤ ρ}.

180

IV Ecuaciones No Lineales

Entonces: i) La sucesi´n {xk } definida por el m´todo de Newton se queda dentro o e B(x0 , ρ) y converge hacia una soluci´n x∗ de f (x) = 0. o ii) Se tiene la estimaci´n △xk ≤ ω △xk−1 2 . o 2 ω 2 iii) xk − x∗ ≤ △xk−1 . k 2 2(1 − η )

Demostraci´n.- Es claro por la definici´n del m´todo de Newton que si o o e {xk } es convergente, entonces el l´ ımite de la sucesi´n es igual a x∗ , donde o f (x∗ ) = 0. Se mostrar´s la conclusiones por inducci´n. Se supone que a o xk , xk−1 ∈ D, para k ≥ 1, entonces △xk ≤ ω △xk−1 2
2

,

en efecto △xk = (f ′ (xk ))−1 f (xk ) = f ′ (xk )
0 1 1

= (f ′ (xk ))−1 f (xk ) − f (xk−1 ) − f ′ (xk1 )△xk−1 f ′ (xk−1 + t△xk−1 ) − f ′ (xk−1 ) △xk−1 dt

≤ ≤

0 1 0

f ′ (xk ) f ′ (xk−1 + t△xk−1 ) − f ′ (xk−1 ) △xk−1 dt ωt △xk−1
2

dt =

ω △xk−1 2

2

.

Se define ηk recursivamente por
2 ηk = ηk−1 ,

η0 =

ω α = η. 2

Si x0 , x1 , . . . , xk ∈ D, entonces ω △xk ≤ ηk ; 2 es cierto para k = 0, sup´ngase cierto para k − 1, por consiguiente o ω ω △xk ≤ △xk−1 2 2
k

2

2 ≤ ηk−1 = ηk .

como η0 = η, se tiene ηk = η 2 , puesto que η < 1,
k→∞

lim ηk = 0.

´ IV.3 Metodo de Newton

181

El siguiente paso es mostrar que {xk } es una sucesi´n de Cauchy y que o satisface el punto i). Se supone nuevamente, que x0 , . . . , xk ∈ D, 0 ≤ l ≤ k, obteniendo xk+1 − xl ≤ xk+1 − xk + · · · + xk+1 − xl 2 ηk ω 2 4 2 (1 + ηl + ηl + · · ·) ω 2 2 ηl ≤ 2. ω 1 − ηl ≤ Para l = 0, se tiene xk+1 − x0 ≤ donde xk+1 ∈ B(x0 , ρ). Por otro lado, xk+1 − xl ≤ 2 η α 2 η2 < = = ρ, de ω 1 − η2 ω1−η 1−α 2 ηl ω

2 2 ηl 2 −→ 0, ω 1 − ηl

cuando k ≥ l → ∞.

de donde la sucesi´n {xk } es una sucesi´n de Cauchy, y por lo tanto o o convergente. Es as´ que se ha mostrado el punto i) y el punto ii) del teorema ı quedando pendiente el ultimo punto. Se tiene ´ xl+1 − xk ≤ xl+1 − xl + · · · + xk+1 − xk , se plantea: ηk−1 = ˆ ω △xk−1 , 2
k

ηl = ηl−1 ; ˆ ˆ2

de donde ηk−1 ≤ ηk−1 y ηk ≤ ηk − η 2 , adem´s ˆ ˆ a ω △xl ≤ ηl ˆ 2 De donde xl+1 − xk ≤ para l ≥ l − 1. ω △xk−1 , 2 1 − η 2k
2

haciendo tender l al infinito queda demostrado el punto iii) Es necesario remarcar el siguiente hecho concerniente a la hip´tesis b) o del teorema que se acaba de demostrar. Si f es 3 veces derivable, utilizando la f´rmula de Taylor se tiene o [f ′ x + t(x − y)) − f ′ (x) ](y − x) = f ′′ (x)(t(y − x), y − x) + O( y − x ),
3

182 por consiguiente

IV Ecuaciones No Lineales

(f ′ (y))−1 [f ′ x + t(x − y)) − f ′ (x) ](y − x) = t(f ′ (y))−1 f ′′ (x)(y − x, y − x)+ O( y − x ),
3 3

si D es bastante peque˜o, entonces se puede despreciar O( y − x ), de n donde (f ′ (y))−1 [f ′ x + t(x − y)) − f ′ (x) ](y − x) ≤ t (f ′ (y))−1 f ′′ (x) y − x por consiguiente ω ≈ sup
x,y∈D 2

,

(f ′ (y))−1 f ′′ (x)

(IV.3.8)

Para comprender el teorema, puede ser util estudiar en un ejemplo tipo, las hip´tesis del teorema y deducir las conclusiones que conducen estas o hip´tesis o Ejemplo Sea, f : R2 −→ R2 definida por f (x) = x2 + x2 − 1 1 2 x2 − x2 1 ,

la soluci´n del problema f (x) = 0 est´ dada por la intersecci´n de una o a o circunferencia de centro en el origen y radio 1 y una par´bola cuyo v´rtice a e se encuentra tambi´n en el origen. Este problema puede ser resuelto e graficamente, substituyendo x2 , pero el proposito del ejemplo es estudiar el teorema de Misovski. La derivada de f ′ est´ dada por la matriz jacobiana a f ′ (x) = cuya inversa es igual a (f ′ (x))−1 = 1 2x1 (1 + 2x2 ) 1 2x1 −2x2 2x1 . 2x1 −2x1 2x2 1 ,

Observando una gr´fica del problema se escoge como dominio D a a D = (x1 , x2 )| 1 < x1 , x2 < 2 . 2

Analizando las condiciones del teorema se tiene:

´ IV.3 Metodo de Newton a) Se escoge como valor inicial (1, 1) ∈ D, obteniendo △x0 = (−1/6, −1/3), de donde √ 5 ≈ 0, 37 = α. △x0 = 6 b) El estudio de la segunda condici´n da: o (f ′ (y))−1 f ′ (x + t(x − y)) − f ′ (x) (y − x) = 1 2y1 (1 + 2y2 ) 1 2y1 = −2y2 2y1 2t(y1 − x1 ) −2t(y1 − x1 ) 2t(y2 − x2 ) 0

183

t 2y1 (1 + 2y2 )

Se observa inmediatamente que las componentes son positivas, mayorando respecto a y, se obtiene (f ′ (y))−1 f ′ (x + t(x − y)) − f ′ (x) (y − x) ≤ t 3(y1 − x1 )2 + (y2 − x2 )2 , 4(y2 − x2 )2 2 ≤ 2t y − x inf ty 2 ,

(1 + y2 )(y1 − x1 )2 + (y2 − x2 )2 2y1 (y2 − x2 )2

y1 − x1 y2 − x2 .

pasando a la norma de la convergencia uniforme, se obtiene (f ′ (y))−1 f ′ (x + t(x − y)) − f ′ (x) (y − x)

de donde

de donde: b) ω = 2. c) η = 0, 37 < 1. 0, 37 1 ¯ d) ρ = ≈ . Ahora bien, B(x0 , ρ) ⊂ D, de donde no se puede 1 − 0, 37 2 garantizar las conclusiones del teorema. Sin embargo, tomando como x0 el valor de la primera iteraci´n a partir del valor inicial del ejemplo se o tiene t 5 2 x0 = , , 6 3 obteniendo −19/213 , △x0 = 0, 066 = α, △x0 = −1/21 η = 0, 066, ρ = 0, 07, ¯ B(x0 , ρ) ⊂ D.

Por lo tanto, las tres condiciones del teorema son verificadas, teniendo garantizada de esta manera la convergencia del m´todo de Newton. e El teorema de Newton-Misovski da las ventajas de utilizar el m´todo e de Newton para resolver el problema f (x) = 0, sin embargo:

184

IV Ecuaciones No Lineales

Desventajas del m´todo de Newton e — Cada iteraci´n del m´todo es costosa en operaciones. En efecto el o e c´lculo de f ′ (x) y la resoluci´n del sistema lineal adyacente cuestan a o mucho si la dimensi´n del sistema es grande. Resolver el sistema LR o cuesta aproximadamente n3 /3 operaciones. — Convergencia local. El m´todo converge solamente si x0 est´ suficiene a temente pr´ximo de la soluci´n x∗ . o o

M´todo de Newton Simplificado e
Una de las mayores desventajas que tiene el m´todo de Newton, consiste en e el hecho de calcular en cada iteraci´n la matriz derivada y el sistema lineal o asociado. Se puede simplificar el m´todo de Newton de la siguiente manera: e x0 arbitrario,
−1

xk+1 = xk + △xk . Por consiguiente se debe calcular una sola vez f ′ (x0 ) y calcular una vez la descomposici´n LR. Por lo tanto, la primera iteraci´n consume aproximadao o mente n3 /3 en el c´lculo de la descomposici´n, y las dem´s iteraciones necea o a sitan aproximadamente n2 operaciones. La desventaja de utilizar el m´todo e de Newton simplificado reside en el hecho en que se pierde la convergencia cuadr´tica, obteniendo una convergencia lineal. En efecto, considerando este a m´todo como un m´todo iterativo simple, dado en la secci´n precedente se e e o tiene: xk+1 = Φ(xk ),

△xk = − f ′ (x0 )

f (xk ),

(IV.3.9)

donde βΦ(x) = x − f ′ (x0 )
′ −1 ′

−1

f (x);

Φ (x) = I − f (x0 )
−1 ′

f (x).

Ahora bien, se tiene convergencia local, si y solamente si ρ(I − f ′ (x0 ) f (x)) < 1,

por el teorema IV.2.9 y la convergencia lineal es consecuencia directa del teorema citado. Tanto el m´todo de Newton, como su versi´n simplificada, definen e o iteraciones de la forma △xk = −(M (xk ))−1 f (xk ), xk+1 = xk + △xk , (IV.3.10)

donde M (x), es una matriz que depende de x. Para el m´todo de Newton e se tiene M (x) = f ′ (x) y para la versi´n simplificada M (x) = f ′ (x0 ). En o

´ IV.3 Metodo de Newton

185

el primer caso la matriz M es la derivada, en el segundo caso M es la derivada en un punto arbitrario. Existen muchos problemas, en los cuales la matriz derivada tiene ciertas particularidades que constituyen en ventajas y desventajas al mismo tiempo, que puede solucionarse convenientemente si se escoge una matriz M apropiada; por ejemplo f ′ (x) puede tener una estructura de matriz banda, con algunos elementos no nulos fuera de la banda, es decir   ∗ ∗ ∗  ∗ ∗ ∗ , f ′ (x) =  .. ..   . . ∗ ∗ ∗ planteando M (x) la matriz cuyos elementos est´n dados por la banda a principal de f ′ (x) se tiene una buena aproximaci´n de f ′ (x), disminuyendo o de esta manera el costo en operaciones. Las bases te´ricas de utilizar la o matriz M en lugar de f ′ (x), est´n dadas por el siguiente teorema. a

Teorema IV.3.4.- Newton-Kantorovich. Sean D ⊂ Rn abierto y convexo, f : D −→ Rn continuamente diferenciables, M (x0 ) inversible y x0 ∈ D. Ademas: a) M (x0 )−1 f (x0 ) ≤ α; b) M (x0 )−1 (f ′ (y) − f ′ (x)) ≤ ω y − x , ∀x, y ∈ D; c) M (x0 )−1 (f ′ (x) − M (x)) ≤ δ0 + δ − 1 x − x0 , M (x0 )−1 (M (x) − M (x0 ) ≤ µ x − x0 ; d) δ0 < 1, σ := max(ω, µ + δ1 ) y h= e) B(x0 , ρ) ⊂ D, con ρ= ασ 1 2 ≤ 2; (1 − δ0 ) √ 1 − 2h α ; h 1 − δ0

1−

entonces: i) M (x) es inversible para x ∈ B(x0 , ρ), ii) La sucesi´n {xk } definida por (IV.3.10) se queda en B(x0 , ρ) y converge o hacia una soluci´n x∗ de f (x) = 0, o αω ω ¯ iii) Se define h = = h, σ (1 − δ0 )2 ρ± = 1± ¯ 1 − 2h α , ¯ 1 − δ0 h

entonces x∗ ∈ B(x0 , ρ− ) y no hay otra soluci´n de f (x) = 0 en o B(x0 , ρ+ ) ∩ D.

186

IV Ecuaciones No Lineales

¯ Antes de demostrar el teorema hay que remarcar que h ≤ h cuya verificaci´n es inmediata y tambi´n ρ− ≤ ρ; en efecto considerando los o e desarrollos en serie de Taylor se tiene: √ 1−x= 1/2 j (−x)j = 1 − x − c 2 x2 − c 3 x3 − · · · , 2

j≥0

con los cj ≥ 0, 1− √ 1 − 2h = 1 + 4c2 h + 8c2 h2 + 16c4 h3 + · · · , h

de donde ρ− ≤ ρ. Ver la figura IV.3.2.

ρ _ ρ+ x0 ρ

D

Figura IV.3.2. Resultado del Teorema de Newton-Kantorovich. Demostraci´n.- Demostrando el punto i), se tiene: o M (x) = M (x0 ) I + M (x0 )−1 (M (x) − M (x0 )) , √ µ 1 − 1 − 2h α (1 − δ0 )62 ≤ (1 − δ0 ) ≤ 1, µρ = µ hαωσ 1 − δ0 σ de donde B < 1, por lo tanto (I + B) es inversible y su inversa est´ dada a por

B B ≤ µ x − x0 < µρ,

(I + B)−1 =

(−1)k B k ,
k=0

´ IV.3 Metodo de Newton la norma de (I + B)−1 , est´ mayorada por a (I + B)−1 ≤ por consiguiente M (x)−1 M (x0 ) ≤ 1 1 − µ x − x0 x − x0 < ρ. 1 1− B ≤ 1 , 1 − µ x − x0

187

(IV.3.11)

La demostraci´n del punto ii) se efectua por inducci´n. Si xk−1 , xk ∈ o o B(x0 , ρ), entonces xk+1 existe, se tiene: xk+1 − xk = M (xk )−1 f (xk )

≤ M (xk )−1 f (xk ) − f (xk−1 ) − f ′ (xk−1 )(xk − xk1 ) + M (xk )−1 f ′ (xk−1 − M (xk−1 ) (xk − xk−1 )

≤ M (xk )−1 f (xk ) − f (xk−1 ) − f ′ (xk−1 )(xk − xk1 ) 1 + δ0 + δ1 xk−1 − x0 xk − x0 1 − µ xk − x0 ≤ M (xk )−1 +
1 0

f ′ (xk−1 +t(xk −xk−1 )) − f ′ (xk − 1) dt(xk − xk−1 ) xk − x0

1 δ0 + δ1 xk−1 − x0 1 − µ xk − x0 1 ω 2 ≤ xk − xk−1 1 − µ xk − x 0 2 1 δ0 + δ1 xk−1 − x0 + 1 − µ xk − x0 De donde xk+1 − xk ≤ 1 1 − µ xk − x 0

xk − x0 .

σ xk − xk−1 2

2

+ (δ0 + (σ − µ xk−1 − x0 ) xk − xk−1

.

Para resolver esta desigualdad, se remplaza xk+1 − xk por tk+1 − tk y xk − x0 por tk , el s´ ımbolo de desigualdad por el de igualdad, definiendo as´ una sucesi´n {tk } ⊂ R, que verifica: ı o t0 = 0, t1 = α, tk+1 − tk = 1 σ(tk − tk−1 )2 + (δ0 + (σ − µ)tk−1 )(tk − tk−1 ) , 1 − µtk

188

IV Ecuaciones No Lineales

Se demuestra facilmente, por inducci´n que: o xk+1 − xk ≤ tk+1 − tk , x k − x0 ≤ t k ; en efecto, para k = 0 se cumple, sup´ngase cierto para k−1, por consiguiente o xk − x0 ≤ xk − xk−1 + · · · + x1 − x0 ≤ tk − tk−1 + · · · + t0 = tk ; 1 σ xk+1 − xk ≤ (tk − tk−1 )2 + δ0 + (σ − µ)tk−1 (tk − tk − tk−1 ) 1 − µtk 2 = tk+1 − tk . El siguiente paso es estudiar la sucesi´n {tk }, se tiene o σ (1 − µtk )(tk+1 − tk ) = (t2 − 2tk tk−1 + t2 ) + δ0 (tk − tk−1 ) k−1 2 k + σtk−1 (tk − tk−1 ) − µtk−1 (tk − tk−1 ), efectuando algunos arreglos y simplicaciones se obtiene la siguiente igualdad (1 − µtk )(tk+1 − tk ) − σ 2 t + (1 − δ0 )tk 2 k

= (1 − µtk−1 )(tk − tk−1 ) −

σ 2 t + (1 − δ0 )tk−1 = α, 2 k−1

expresi´n que es constante por que no depende de k. Expresando o tk+1 = tk +
σ 2 2 tk

− (1 − δ0 )tk + α u(tk ) = tk + = Φ(tk ), 1 − µtk v(tk )

donde las funciones u y v est´n dadas por a u(t) = σ 2 t − (1 − δ0 )t + α, 2 v(t) = 1 − µt.

Se debe mostrar por consiguiente que tk converge y eso sucede si y solamente si Φ tiene un punto fijo, y el radio expectral de Φ′ en las proximidades del punto fijo es estrictamente menor a 1. Se tiene: Φ(t) = t ⇐⇒ u(t) = 0 ⇐⇒ t = ρ1,2 = 1 − δ0 ± σ 1 − δ0 σ
2

2α , σ

´ IV.3 Metodo de Newton

189

puesto que h ≤ 1/2, las dos raices de u son positivas, siendo ρ1 la raiz m´s a peque˜a, se tiene: n ρ1 ≤ ρ2 , ρ1 = ρ. Por otro lado, ambas raices son acotadas, en efecto ρ1 + ρ2 1 α 1 − δ0 1 = = ≤ . 2 h 1 − δ0 σ µ Estudiando la funci´n Φ(t) se tiene tres casos, que se observan en la figura o IV.3.3.

donde ρ1,2 son las raices de u(t). Expresando ambas raices en funci´n de h, o se obtiene √ 1 ± 1 − 2h α , ρ1,2 = h 1 − δ0

α ρ 1 ρ2 1/µ

α 1/µ

α 1/µ

ρ1 ≤ ρ2 ≤

1 µ

ρ1 <

1 < ρ2 µ

ρ2 =

1 µ

Figura IV.3.3. Gr´ficas de la funci´n Φ. a o Para 0 < t < ρ1 , se tiene que Φ′ (t) > 0, en efecto: Φ(t) = t + Φ′ (t) = u(t) , v(t)

v(t) + u′ (t) v ′ (t) + u(t) 2 , v(t) v (t)

>0 v(t) + u′ (t) = 1 − µt + σt − (1 − δ0 ) = δ0 + (σ − µ)t ≥ 0. Por consiguiente, Φ es creciente sobre el intervalo (0, ρ1 ), y adem´s tk < ρ1 ; a para k = 0 es cierto, sup´ngase cierto para k, entonces o tk+1 = Φ(tk ) < Φ(ρ1 ) = ρ1 ,

190

IV Ecuaciones No Lineales

La sucesi´n {tk } es creciente y mayorada, por lo tanto es convergente y o converge al primer punto fijo de Φ, el cual es ρ1 . De aqu´ se deduce que ı, xk ∈ B(x0 , ρ1 ). Ahora se est´ en condiciones de mostrar que {xk } es una sucesi´n cona o vergente, para tal motivo se debe demostrar antes que es una sucesi´n de o Cauchy. Se tiene: xk+1 − xl ≤ xk+1 − xk + · · · + xl+1 − xl ≤ tk+1 − tk + · · · + tl+1 − tl < ρ1 − tl −→ 0 cuando k ≥ l −→ ∞. De donde lim = x∗ y como M (xk ) es acotada se deduce inmediatak→∞ mente f (x∗ ) = 0, mostrando as´ el punto ii). ı Para la demostraci´n del punto iii) son necesarias algunas convenciones o sobre la escritura de los s´ ımbolos utilizados. La sucesi´n {xk } est´ definida o a por −1 xk+1 = xk − M (x0 ) f (xk ), ¯ M (x) = M (x0 ), Por otro lado, M (x0 )
−1 −1 ¯ (f ′ (x) − M (x)) ≤ M (x0 ) (f ′ (x) − M (x))

planteando:

α = α, ¯

ω = ω, µ = 0. ¯ ¯

¯ + M (x0 )−1 (M (x) − M (x)) ≤δ0 + δ1 x − x0 + µ x − x0 ¯ ¯ =δ0 + δ1 x − x0

−1 ¯ ¯ con δ0 = δ0 , δ1 = δ1 + µ y σ = σ. Definiendo G(x) = x − M (x0 ) f (x), se ¯ tiene:

G(y) − G(xk−1 ) ≤ G(y) − G(xk−1 ) − G′ (xk−1 )(y − xk−1 ) + + G′ (x0 )(y − xk−1 ) G′ (xk−1 ) − G′ (x0 ) (y − xk−1 )

G′ (x) =I − M (x0 )−1 f ′ (x),

≤ M (x0 )−1 − f (y) + f (xk−1 ) + f ′ (xk−1 )(x − yk−1 ) + M (x0 )−1 (f ′ (xk−1 ) − f ′ (x0 ))(y − xk−1 ) + M (x0 )−1 (M (x0 ) − f ′ (x0 ))(y − xk−1 )

´ IV.3 Metodo de Newton utilizando una integral como en el punto ii), se obtiene G(y) − G(xk−1 ≤ ω y − xk−1 2 +ω xk−1 − x0

191

y − xk−1 + δ0 y − xk−1 ,

Sea y ∗ ∈ D ∩ B(x0 , ρ+ ), remplazando y por y ∗ en la ultima desigualdad, se ´ obtiene y ∗ − xk−1 ≤ ω ∗ y − xk−1 2 +ω xk−1 − x0 y planteando tambi´n y = xk , se obtiene e xk − xk−1 ≤ ω xk − xk−1 2 +ω xk−1 − x0

y ∗ − xk−1 + δ0 y ∗ − xk−1 ,

xk − xk−1 + δ0 xk − xk−1 ,

Como en el punto ii) se remplazan xk − x0 por tk − t0 con t0 = 0 y y ∗ − xk por sk − tk , el s´ ımbolo ≤ por la igualdad, obteniendo as´ ı: tk+1 − tk = s k − tk = ω (tk − tk−1 )2 + ωtk−1 (tk − tk−1 ) + δ0 (tk − tk−1 ), 2 t0 = 0, t1 = α;

ω (sk−1 − tk−1 )2 + ωtk−1 (sk−1 − tk−1 ) + δ0 (sk−1 − tk−1 ), 2 s 0 = y ∗ − x0 < ρ + .

Se demuestra por inducci´n que: o xk+1 − xk ≤ tk+1 − tk , x k − x0 ≤ t k , y ∗ − xk ≤ s k − t k El siguiente paso en la demostraci´n consiste en estudiar las sucesiones {tk } o y sk . Se tiene: tk+1 − tk = ω 2 (t − 2tk tk−1 + t2 ) + ωtk−1 (tk − tk−1 ) + δ0 (tk − tk−1 ), k+1 2 k ω 2 ω tk+1 − tk − δ0 tk = tk − t2 − δ0 tk−1 = α, 2 2 k−1

s k − tk =

ω 2 (s − 2sk−1 tk−1 + t2 ) + ωtk−1 (sk−1 − tk−1 ) + δ0 (sk−1 − tk−1 ) k−1 2 k−1 ω 2 ω sk − sk−1 − δ0 sk−1 = tk − t2 − δ0 tk−1 = α. 2 2 k−1

192 Definiendo la funci´n Ψ(t) por o Ψ(t) =

IV Ecuaciones No Lineales

ω 2 t + δ0 t + α, 2

entonces se obtiene, los resultados siguientes para sk y tk : tk+1 = Ψ(tk ), sk = Ψ(sk−1 ), t0 = 0; s 0 = y − x0 < ρ + .

Se tiene que, Ψ′ (t) = ωt + δ0 ≥ 0, si t ≥ 0, para estudiar la convergencia de las sucesiones, se debe determinar los puntos fijos de Ψ, es decir resolver la ecuaci´n o ω 2 t + (δ0 − 1)t + α = 0, 2 las raices de ´sta, est´n dadas por: e a ρ± = ¯ 1± ¯ 1 − 2h , ¯ h

se puede observar, que la sucesi´n tk es creciente y tiende hacia ρ− , por otro o lado la sucesi´n sk es decrecientre y tiende hacia ρ− . Ver la figura IV.3.4 o

Ψ (t)

α ρ− ρ + t

Figura IV.3.4. Gr´fica de la funci´n Ψ. a o Como en el punto ii) se muestra que la sucesi´n {xk } es de Cauchy, por o consiguiente xk −→ x∗ y f (x∗ ) = 0, adem´s se tiene a x ∗ − x0 ≤ ρ − , y ∗ −x∗ ≤ sk − tk −→ 0, y ∗ = x∗ .

´ IV.3 Metodo de Newton

193

Para ilustrar la utilizaci´n del teorema de Newton-Kantorovich, se tiene o el: Ejemplo Consid´rese, la funci´n f dada por e o f (x) = x2 + x2 − 1 1 2 x2 − x2 1 ,

partiendo del punto (1, 1) y tomando como dominio D = R2 , M (x) = f ′ (x), es decir el m´todo de Newton en su versi´n no modificada, se e o tiene: α = 0, 37; µ = ω; ω = 1, 2; δ0 = 0; σ = 1, 2. δ1 = 0;

Verificando y efectuando c´lculos se obtiene: a h = 0, 444 ≤ 1/2, ρ = ρ− = 0, 554; ρ+ = 0, 981.

M´todo de Newton con Relajaci´n e o
Una de las principales desventajas del m´todo de Newton, tanto en su versi´n e o original, como en su versi´n simplificada, es que es necesario estar cerca de o la soluci´n del problema. Lamentablemente, en una gran mayor´ de casos o ıa eso no es posible. Por lo tanto, es necesario modificar el m´todo de manera e a que la convergencia sea una preocupaci´n menor. El m´todo de Newton o e est´ dado, por las iteraciones a xk+1 = xk − (f ′ (xk ))
−1

f (xk ),

se tiene convergencia si x1 − x0 ≤ α suficientemente peque˜o, sin embargo n esta condici´n no se cumple en general. Una soluci´n alternativa ser´ o o ıa modificar el m´todo de la manera siguiente: e pk = −(f ′ (xk )) f (xk ), xk+1 = xk + λk pk ; con 0 < λ ≤ 1. La base te´rica de esta modificaci´n est´ dada por la: o o a
−1

Proposici´n IV.3.5.- Sean D ⊂ Rn , f : D → Rn continuamente difereno −1 ciable, x0 ∈ D, f (x0 ) = 0 y p0 = −(f ′ (x0 )) f (x0 ). Entonces para toda matriz A inversible, existe λ0 > 0 tal que para todo λ, 0 < λ < λ0 , se tiene Af (x0 + λp0 ) < λ Af (x0 ) .

194

IV Ecuaciones No Lineales

Demostraci´n.- Se define la funci´n g : R −→ R para una matriz A fija e o o inversible, como g(λ) = Af (x0 + λp0 )
t 2 2

= f (x0 + λp0 ) At Af (x0 + λp0 ), calculando la derivada de g, se obtiene: g ′ (λ) = 2f (x0 + λp0 ) At Af ′ (x0 + λp0 )p0 , g ′ (0) = −2f (x0 )t At Af ′ (x0 )(f ′ (x0 )) = −2 Af (x0 )
2 2 −1 t

f (x0 )

< 0,

por consiguiente, existe λ0 con las conclusiones requeridas por la proposici´n. o Otra de las motivaciones para modificar el m´todo de Newton consiste e en el siguiente hecho. Sean D ⊂ Rn , f : D −→ Rn continuamente diferenciable con derivada inversible para todo x ∈ D. Llamando p(x) = −1 −(f ′ (x)) f (x) la direcci´n de Newton para la funci´n f , se obtiene la o o siguiente ecuaci´n diferencial o x′ = p(x). (IV.3.12)

Una manera de resolver num´ricamente esta ecuaci´n, ver Cap´ e o ıtulo VII, consiste en aproximar la soluci´n mediante segmentos poligonales, es decir, o definir una sucesi´n de v´rtices, dados por o e xk+1 = xk − λk p(xk ), (IV.3.13)

este m´todo de resoluci´n de ecuaciones diferenciales es conocido como el e o m´todo de Euler. e El m´todo modificado se lo conococe como λ-estrategia y su formulaci´n e o es la siguiente: −1 ∆xk = −(f ′ (xk )) f (xk ), (IV.3.14) xk+1 = xk + λk ∆xk . Si λk = 1 para todo k, se tiene el m´todo de Newton usual. La otra situaci´n e o es escoger λk , tal que g(λ) = Af (xk + λk ∆xk ) −→ min, presentandose dos interrogantes: ¿C´mo escoger la matriz A? o (IV.3.15)

´ IV.3 Metodo de Newton

195

¿C´mo calcular el m´ o ınimo de g(λ)? La elecci´n de A, se la realiza considerando los siguientes hechos. Se o desea que xk + λk ∆xk − x∗ −→ min, donde x∗ es la soluci´n de f (x) = 0. No se conoce por el momento x∗ , pero o se sabe f (x∗ ) = 0. Se tiene, las siguientes aproximaciones: f (x) − f (x∗ ) ≈ f ′ (x∗ )(x − x∗ ) ≈ f ′ (xk )(x − x∗ ) con x = xk + λk ∆xk , de donde xk + λk ∆xk − x∗ = (f ′ (xk )) escogiendo, de esta manera A = (f ′ (xk ))
−1 −1

f (xk + λ∆xk ),

;
−1

(IV.3.16)

Por lo tanto (IV.3.15), se convierte en g(λ) = (f ′ (xk )) f (xk + λ∆xk ) y el problema radica en determinar λ, para que g(λ) sea m´ ınimo. A continuaci´n o se da un algoritmo simple que permite determinar este λ: Sup´ngase que se conoce xk y una aproximaci´n λk de λk . Se tiene dos o o ˆ casos: ˆ ˆ a) g(λk ) ≥ 0, es decir xk + λk es peor que xk . Se busca el m´s peque˜o de los j > 1, tal que a n ˆ g(λk 2−j ) < g(0), ˆ se plantea λk = λk 2−j . ˆ b) g(λk ) < 0. Se busca el j > 0 m´s peque˜o tal que a n ˆ ˆ g(2j+1 λk ) > g(2j λk ) ˆ y se plantea λk = 2j λk . En ambos casos λk no debe ser m´s grande que 1. a ˆ Finalmente surge la ultima interrogante, ¿Como determinar λk ? Uti´ lizando un desarrollo de Taylor se tiene: (f ′ (xk ))−1 f (xk + λ∆xk )) = (f ′ (xk ))−1 f (xk ) + λf ′ (xk )∆xk + λ2 ′′ f (xk )(∆xk , ∆xk ) + O(λ3 ) 2

196

IV Ecuaciones No Lineales

Por otro lado f (xk ) + λf ′ (xk )∆xk = (1 − λ)∆xk y (f ′ (xk ))−1 f (xk ) = ∆xk , de donde utilizando el desarrollo de Taylor, la desigualdad del tri´ngulo y a las observaciones anteriores, se tiene g(λ) ≤ ∆xk (1 − λ + λ2 hk + O(λ3 )) 2

donde hk = (f ′ (xk ))−1 f ′′ (xk )(∆xk , ∆xk ) / ∆xk . Despreciando el t´re mino O(λ3 ), se obtiene un polinomio de grado 2, cuyo m´ ınimo se encuentra en 1 ˆ λk = , (IV.3.17) hk faltando determinar hk . Como es pr´cticamente imposible determinar con a exactitud hk solo se requiere encontrar una buena aproximaci´n de hk . Para o tal efecto, se supone que se ha efectuado k − 1 iteraciones, teniendo: ∆xk = −(f ′ (xk−1 ))−1 f (xk ), ∆xk = −(f ′ (xk ))−1 f (xk ),

∆xk − ∆xk = (f ′ (xk−1 ))−1 (f ′ (xk ) − f ′ (xk−1 ))∆xk Pasando a las normas se obtiene la siguiente relaci´n: o ∆xk − ∆xk ≈ de donde ˆ λk = min 1, λk−1  ∆xk−1 ∆xk − ∆xk ∆xk ∆xk  . hk λk−1 ∆xk−1 ∆xk ∆xk ,

≈ (f ′ (xk−1 ))−1 f ′′ (xk )(xk − xk−1 , ∆xk ).

(IV.3.18)

Ejemplo Consid´rese, la funci´n f definida por e o f (x) = −13x1 + x2 ((5 − x2 ) − 2) −29 + x1 + x2 ((1 + x2 )x2 − 14)

Tomando como valor inicial x1 = 0, 5 y x2 = 2, 24, se resolver´ el a problema f (x) = 0, utilizando la λ-estrategia, el m´todo de Newton en e su version original. A continuaci´n se presentan los resultados obtenidos o para ambos:

´ IV.3 Metodo de Newton

197

Tabla IV.3.3. Resultados con λ-estrategia. Iteraci´n o 1 2 3 4 5 x1 4.989738 x2 4.0012650 4.000000 4.0 ∆x 1183.1361 13.574766 5.08213 × 10 0.0
−6

λ 7.8125 × 10−3 1.0 1.0 1.0 1.0

−8.5849058 3.94357758 4.9999949 4.9999999 5.0

4.0000006 1.03345 × 10−2

Tabla IV.3.4. Resultados sin λ-estrategia. Iteraci´n o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x1 −47637.0 x2 147.095 98.296 ∆x 1183.1 46474.7 26601.42 11779.45 5206.34 2294.57 1006.82 438.7011 188.934 79.6434 32.05875 11.4307 2.8516 0.27378 3.149 × 10−3 4.566 × 10−7 0.0

−1162.367 220.297 −21035.69

−9256.28 65.77062 −4049.98 44.09533 −1755.45 −748.669 −121.126 29.658 20.056 13.688 9.5002 6.8016 5.16002 4.3114 4.03167 4.0003 4.0000 4.0 4.0

−310.0149 −41.5288 −9.51218 1.887 4.7248 4.9968 4.9999 4.9999 5.0

198

IV Ecuaciones No Lineales

Aproximaci´n de Broyden o
Uno de los principales problemas en la implementaci´n del m´todo de o e Newton, tanto en su versi´n con relajaci´n, como en su versi´n original, es o o o el c´lculo de la matriz jacobiana f ′ (xk ) en cada iteraci´n y por consiguiente a o mediante el algoritmo de eliminaci´n de Gauss determinar la descomposici´n o o LR de esta matriz. Existen muchas alternativas para evitar el c´lculo de la a matriz jacobiana y su descomposici´n LR en cada iteraci´n. El siguiente o o an´lisis permitir´ encontrar algunas de estas alternativas. Utilizando las a a relaciones dadas por (IV.3.17) y (IV.3.18) respecto a la determinaci´n de los o coeficientes de relajaci´n, la experiencia num´rica indica que, si λk hk ≤ 10−1 o e se puede tomar en el lugar de f ′ (xk+1 ) f ′ (xk ). En este caso se tiene la versi´n simplificada del m´todo de Newton. Sin embargo, existe otra o e alternativa descubierta por Broyden en 1965. Se supone, que se conoce una aproximaci´n Jk de f ′ (xk ), es decir o Jk ≈ f ′ (xk ) de donde el m´todo de Newton est´ dado por e a ∆xk = −Jk −1 f (xk ), xk+1 = xk + ∆xk el objetivo es por consiguiente, encontrar Jk+1 una aproximaci´n simple de o calcular de f ′ (xk+1 ). Para tal efecto, la matriz Jk debe permanecer igual en las direcciones ortogonales a ∆xk , es decir: Jk+1 p = Jk p ∀p⊥∆xk ; Jk+1 ∆xk = Jk ∆xk + q; por lo tanto q = Jk+1 ∆xk − Jk ∆xk = f (xk ) + Jk+1 ∆xk ≈ f ′ (xk+1 )∆xk f (xk+1 ) + O ∆x de donde Jk+1 ∆xk = Jk ∆xk + f (xk+1 ). (IV.3.20) ¯ Proposici´n IV.3.6.- Si Jk es inversible y ∆xk+1 < ∆xk , donde o
−1 ∆xk = −Jk f (xk ) −1 ¯ ∆xk+1 = −Jk f (xk+1 ), 2

(IV.3.19)

(IV.3.20)

,

´ IV.3 Metodo de Newton entonces Jk+1 es inversible.

199

Demostraci´n.- Sean, α ∈ R y p⊥∆xk , se va mostrar que ker Jk+1 = {0}. o En efecto: 0 = Jk+1 (α∆x + p) = α(Jk ∆xk + f (xk+1 ) + Jk p = Jk (α∆xk + p) + αf (xk+1 ) ¯ = α∆xk + p − α∆xk+1 , introduciendo el producto escalar, multiplicando por ∆xk , se obtiene: α ∆xk
2

¯ − α ∆xk+1 , ∆xk = 0,

por la desigualdad de Cauchy-Schwartz, se tiene ¯ ∆xk+1 , ∆xk ¯ ≤ ∆xk+1 ∆xk < ∆xk
2

,

de donde α = 0 y por consiguiente p = 0. ¯ La determinaci´n de ∆xk+1 y ∆xk se propone en los ejercicios. o

Ejercicios
1.- Utilizando el teorema de Newton-Kantorovich encontrar ρ > 0 tal que la iteraci´n o zk+1 = zk − f (zk ) f ′ (zk ) f (z) = z 3 − 1

2.- Sea D ⊂ Rn y f : D → Rn continuamente diferenciable. Para x0 ∈ D sup´ngase que f (x0 ) = 0 y que f ′ (x0 ) sea inversible. Mostrar que o p0 = −f ′ (x0 )−1 f (x0 ) es la unica direcci´n que tiene la propiedad siguiente: ´ o para toda matriz inversible A existe λ0 > 0 tal que para 0 < λ < λ0 Af (x0 + λp0 )
2

converge hacia 1, si z0 ∈ C satisface |z0 − 1| < ρ.

< Af (x0 )

2

.

3.- En el art´ ıculo R.S. Dembo, S.C. Eisenstat & T. Steighaug(1982): Inexact Newton methods. SIAM J. Numer. Anal., vol. 19,400-408.

200

IV Ecuaciones No Lineales los autores consideran la modificaci´n siguiente del m´todo de Newton: o e f ′ (xk )∆xk = −f (xk ) + τk xk+1 = x + l + ∆xk . (IV.3.22)

Las perturbaciones τk pueden ser interpretadas como la influencia de los errores de redondeo, como el error debido a una aproximaci´n de o f ′ (xk ),... Sup´ngase que τk = τ (xk ) y que o τ (x) ≤ η f (x) (IV.3.23)

con η < 1. a) Mostrar el resultado: Sea D ⊂ Rn abierto, f : D → Rn y τ : D → Rn continuamente diferenciables en D. Si la condici´n (IV.3.23) es satisfecha con η < 1 o y si ∆x0 es suficientemente peque˜o, entonces la iteraci´n (IV.3.21) n o converge hacia una soluci´n de f (x) = 0. o b) El teorema precedente no es cierto, en general, si se remplaza η < 1 por η ≤ 1. Mostrarlo. Indicaci´n. Encontrar una matriz M (x) tal que la iteraci´n (IV.3.21) se o o vuelva equivalente a M (xk )∆xk = −f (xk ), y aplicar el teorema de Newton-Kantorovich. Utilizar la norma u
J

= f ′ (x0 )u .

4.- (U. Ascher & Osborne 1987). Considerar una funci´n f : R2 → R2 que o satisfaga √ 1 1 0 4 √ −3 3 f (0) = − f ′ (0) = , 0 1 10 −4 3 − 3 √ √ 1 1/ 3 −1/ 3 4 ′ , f (u) = f (u) = 1 1 5 −3 donde u = −f (0). Aplicar el m´todo de Newton con el valor inicial e x0 = 0. Para la sucesi´n {xk } obtenida de esta manera mostrar: o a) xk+2 = xk para todo k ≥ 0; b) el test de monotonocidad (f ′ (xk ))
−1

f (xk+1 )

2

< (f ′ (xk ))

−1

f (xk )

2

´ IV.3 Metodo de Newton es satisfecho en cada iteraci´n. o 5.- Sea f : Rn → Rn dos veces diferenciable. Mostrar que f ′′ (x)(h, k) donde M = max
i j l ∞

201

≤M h

k

∂ 2 fi (x) . ∂xj ∂xl x1 x2 , | − 1 < x1 , x2 < 3 , x0 = 0.125 0.125 .

6.- Sea f : D → R2 dada por D = f (x) = x1 − x2 (x1 − 8)x2

Calcular los valores α y ω del teorema de Newton-Misovski. Mostrar que el metodo de Newton converge hacia una soluci´n de f (x) = 0. o 7.- Sean f : D → Rn 3 veces continuamente diferenciable, Jk una aproximaci´n de la matriz f ′ (xk ) y p ∈ Rn , p = 0. Para la aproximacion de o Broyden pt Jk+1 = Jk + γ(f (xk + p) − f (xk ) − Jk p). t pp se tiene: a) (Jk+1 − f ′ (x0 + p))p = (1 − γ)(Jk − f ′ (xk ))p γ 3 +( − 1)f ′′ (xk )(p, p) + O( p ). 2 b) para γ ∈ [0, 2] Jk+1 − f ′ (x0 + p)
2

≤ Jk − f ′ (xk )

2

+ f ′′ (xk )(p, .)

2

+ O( p ).

2

8.- Sup´ngase que se conoce una aproximaci´n J0 de f ′ (x0 ), y su descomo o posici´n LR. Consid´re la iteraci´n o e o Jk ∆xk − = f (xk ) xk+1 = xk + ∆xk donde Jk+1 (aproximaci´n de Broyden), est´ definido por o a Jk+1 ∆xk = Jk ∆xk + f (xk+1 ); Jk+1 p = Jk p, si pt ∆xk = 0. Sin calcular explicitamente J1 y J2 , encontrar f´rmulas para ∆x1 y ∆x2 . o

202

IV Ecuaciones No Lineales

9.- Consid´rese una funci´n f : Rn → Rm donde m < n. El conjunto e o E = {x|g(x) = 0} representa una superficie en Rn . Dado x ∈ Rn . Proponer un algoritmo para calcular el punto de E el m´s ˆ a pr´ximo de x. Estudiar las hip´tesis para que el algoritmo converga. o ˆ o 10.- Consid´rese la ecuaci´n integrale de Fredholm (cf. Ejercicio 3 secci´n e o o IV.3) λy(x) = 2 π
π 0

(3 sin x sin t + 2 sin(2x) sin(2t))(y(t) + (y(t))3 )dt

(IV.3.24) y(x) = 0 es soluci´n de (IV.3.24) para todo λ ∈ R. Con las ideas del o ejercicio 3 de la anterior secci´n se puede escribir (IV.3.24) bajo la forma o G(c1 , c2 , λ) = 0. Calcular los λ, donde det ∂G (C, 0) = 0. ∂C Interpretar estos puntos con el teorema de las funciones implicitas. (Soluciones: λ1 = 2, λ2 = 3) 11.- Mostrar num´ricamente que para λ1 = λ1 + ǫ (ǫ > 0) el problema e (IV.3.24) posee al menos 3 soluciones, para λ1 > λ2 al menos 5 soluciones. Calcular tambi´n todas las soluciones de (IV.3.24) para λ = 10, (hay e 13).

IV.4 M´todo de Gauss Newton e

El estudio de las ecuaciones realizados en las secciones precedentes, consist´ ıan en problemas de la forma f (x) = 0 o su variante del punto fijo x = f (x), donde f : D ⊂ Rn → Rn . Sin embargo, existen muchos problemas donde intervienen ecuaciones no lineales, que se encuentrar en una diversidad de problemas, sobre todo en la determinaci´n de param´tros en el an´lisis de o e a datos. El problema puede formularse de la siguiente manera. Sea f : D ⊂ Rn → Rm con n ≤ m,

el problema consiste en encontrar x ∈ D, tal que f (x)
2

−→ min .

(IV.4.1)

En el cap´ ıtulo II.5, se abord´ el problema bajo su forma lineal, se o formul´ el m´todo QR para resolver este problema, y as´ mismo se introduj´ o e ı o la noci´n de pseudo-inversa de una matriz. Para el problema no lineal, se o sigue el mismo esquema. Pero antes de continuar en esa direcci´n, existe o una alternativa de soluci´n. Se define la funci´n g : D → Rn de la manera o o siguiente 2 g(x) = f (x) 2 , (IV.4.2) de donde g ′ (x) = 2(f ′ (x)) f (x),
t t

(IV.4.3)

se busca, por consiguiente, los x ∈ D tales que (f ′ (x)) f (x) = 0. En principio se podr´ utilizar el m´todo de Newton para resolver este problema, pero la ıa e principal desventaja, consiste en calcular la segunda derivada de f . Este algoritmo da los m´ ınimos locales. La otra alternativa de soluci´n de este problema, se la di´ m´s arriba, o o a es el m´todo de Gauss-Newton. Al igual que en el m´todo de Newton, la e e idea principal de este m´todo consiste en linearizar el problema. Sea x0 ∈ D e un valor inicial. Utilizando un desarrollo de Taylor en x0 se obtiene f (x)
2 2

= f (x0 ) + f ′ (x0 )(x − x0 ) + · · ·

2 2

,

considerando los t´rminos lineales del segundo miembro de la ecuaci´n se e o obtiene, al igual que en el cap´ ıtulo II.5, x − x0 = −f ′ (x0 ) f (x0 ), donde f ′ (x0 ) es la pseudo inversa de f ′ (x).
+ +

(IV.4.4)

204

IV Ecuaciones No Lineales Por lo tanto, se puede formular el m´todo de Gauss-Newton, como: e ∆xk = −f ′ (xk ) f (xk ),
+

xk+1 = xk + ∆xk .

(IV.4.5)

El c´lculo de ∆xk se lo realiza, utilizando la descomposici´n QR dada en a o el cap´ ıtulo II.5. Como se puede observar, la implementaci´n del m´todo de o e Gauss-Newton es muy simple, y al igual que el m´todo de Newton existen e muchas variantes o modificaciones de ´ste. e

Convergencia del M´todo de Gauss-Newton e
Sea, {xk } la sucesi´n definida por el m´todo de Gauss-Newton, si esta o e sucesi´n es convergente cuando k → ∞, se tiene o ∆xk −→ 0,
k→∞ +

f ′ (x) f (xk ) −→ 0,

+

sup´ngase que lim xk = x∗ , que el rango de f ′ (x) es constante en un o vecindario de x∗ , por que si no f ′ (x) no ser´ continua, ver teorema II.5.6, ıa entonces + f ′ (x∗ ) f (x∗ ) = 0. (IV.4.6) Por otro lado, si x ∈ D es un m´ ınimo local de g(x) = f (x) 2 , se tiene ∂ ∂xj de donde
m m 2

fi (x)2
i=1

=2
i=1

∂fi (x) · fi (x) = 0, ∂xj

∀j;

f ′ (x) f (x) = 0.

t

(IV.4.7)

Los resultados (IV.4.6) y (IV.4.7) est´n relacionados por el siguiente: a Proposici´n IV.4.1.- Se tiene o f ′ (x) f (x) = 0 ⇐⇒ f ′ (x) f (x).
+ t

(IV.4.8)

Demostraci´n.- Por el teorema II.5.5 existen dos matrices ortogonales U o y V , tales que   σ1 ..  0 t . V , f ′ (x) = U    σk 0 0

´ IV.4 Metodo de Gauss Newton remplazando, se tiene  t f ′ (x) = V    σ1 .. 0 t  U = 0,  0 

205

. σk

0

si y solamente si las primeras k componentes de U t f son nulas, si y solamente si   −1 σ1 .. +  0 t .  U = 0. f ′ (x) V    −1 σk 0 0 A la diferencia del m´todo de Newton, el m´todo de Gauss-Newton e e ofrece solamente convergencia de tipo lineal, situaci´n que ser´ mostrada a o a continuaci´n. Como antes, se define g(x) = (f ′ (x))t f (x), si x∗ es soluci´n o o del problema de minimizaci´n de la norma euclidiana, se tiene g(x∗ ) = 0. o El desarrollo en serie de Taylor en punto x de la funci´n g, da el siguiente o resultado 2 0 = g(x) + g ′ (x)(x∗ − x) + O( x∗ − x 2 ), por otra lado, la funci´n g y sus derivadas parciales satisfacen: o
m

gj (x) = ∂gj (x) = ∂xk de donde
i=1 m i=1

∂fi (x) fi (x), ∂xj ∂ 2 fi (x) ∂fi ∂fi fi (x) + (x) (x), ∂xj ∂xk ∂xj ∂xk i=1
t m

g ′ (x) = B(x)(f (x), ) + f ′ (x) f ′ (x),

con B(x) una forma bilineal sim´trica. Por consiguiente el desarrollo de e Taylor de g en xk , el k-esimo valor obtenido en la iteraci´n del m´todo de o e Gauss-Newton, es igual a 0 = f ′ (xk ) f (xk ) + f ′ (xk ) f ′ (xk )(x∗ − xk ) + B(xk )(f (xk ), x∗ − xk ) y por el m´todo de Gauss Newton, se tiene e xk+1 − xk = −f ′ (xk ) f (xk ),
+ t t

+O( x∗ − xk

2 2 ),

206

IV Ecuaciones No Lineales
t

multiplicando esta ultima expresi´n por f ′ (xk ) f ′ (xk ) se obtiene ´ o 0 = f ′ (xk ) f ′ (xk )f ′ (xk ) f (xk ) + f ′ (xk ) f ′ (xk )(xk+1 − xk ), y utilizando el teorema II.5.7, el inciso d), se tiene finalmente f ′ (xk ) f (xk ) + f ′ (xk ) f ′ (xk )(xk+1 − xk ); sustrayendo esta ultima expresi´n con aqu´lla concerniente al desarrollo de ´ o e Taylor, se obtiene 0 = f ′ (xk ) f ′ (xk )(xk+1 − x∗ ) + B(xk )(f (xk ), x∗ − xk ) + O( x∗ − xk
t 2 2 ). t t t + t

Ahora bien, sup´ngase adem´s que rang f ′ (xk ) = n, es decir que el rango o a sea maximal. De donde se tiene xk+1 − x∗ = − f ′ (xk ) f ′ (xk )
t −1

B(xk )(f (xk ), x∗ − xk ) + O( x∗ − xk

2 2 ),

por consiguiente, el m´todo de Gauss-Newton converge linealmente si e ρ y diverge si ρ f ′ (xk ) f ′ (xk )
t −1

f ′ (xk ) f ′ (xk )

t

−1

B(xk )(f (xk ), )

< 1;

B(xk )(f (xk ), )

> 1.

Debe observarse que si f (x∗ )=0, el m´todo de Gauss-Newton converge e cuadr´ticamente, en este caso se tiene un problema compatible. Por otro a lado, el problema inicial era buscar x tal que f (x) = 0, motivo por el cual se debe esperar que la soluci´n encontrada por el m´todo de Gauss-Newton de o e f (x∗ ) bastante peque˜o, de manera que el radio espectral sea m´s peque˜o n a n que 1. Al igual que en el m´todo de Newton, el c´lculo de f ′ (x) se lo reale a iza en muchas ocaciones num´ricamente, o en los casos en que se pueda e anal´ ıticamente. Es indudable que la matriz f ′ (x) en las iteraciones del m´todo de Gauss-Newton tienen un componente de error, utilizando las e √ relaciones (IV.3.5) y (IV.3.6), este error es del orden de eps, donde eps es la precisi´n del computador. Por consiguiente la k-esima iteraci´n del o o m´todo de Gauss-Newton, considerando que el error cometido por redondeo e se encuentra solamente en el c´lculo de f ′ (x), est´ dada por a a ∆xk = −(f ′ (xk ) + E) f (xk ),
+

´ IV.4 Metodo de Gauss Newton

207

√ con E 2 = eps. Efectuando operaciones con la pseudo inversa, dadas en el teorema II.5.7 se obtiene: ∆xk = − (f ′ (xk ) + E) (f ′ (xk ) + E)
t t t −1

(f ′ (xk ) + E) f (xk ),
t

t

(f ′ (xk ) + E) (f ′ (xk ) + E) ∆xk = −(f ′ (xk ) + E) f (xk ), (f ′ (xk ) + E) (f ′ (xk ) + E) ∆xk + (f ′ (xk ) + E) f (xk ) = 0, despreciando E en el primer t´rmino de la ultima ecuaci´n, se obtiene e ´ o f ′ (xk ) f ′ (xk ) ∆xk + f ′ (xk ) f (xk ) + E t f (xk ) = 0, introduciendo en la serie de Taylor, como se hizo m´s arriba, se obtiene a −E t f (xk ) = f ′ (xk ) f ′ (xk )(xk+1 − x∗ ) + B(xk )(f (xk ), x∗ − xk )
t t t t

+O( x∗ − xk

2 2 ),

mostrando as´ que si f (x∗ ) = 0, es inutil buscar una precisi´n superior a ı o √ eps.

Modificaciones del M´todo de Gauss-Newton e
Similarmente al m´todo de Newton, existen varias modificaciones del m´todo e e original de Gauss-Newton. Una de las mayores dificultades en la implementaci´n de este m´todo consiste en calcular f ′ (xk ) en cada iteraci´n. o e o Por consiguiente, una primera modificaci´n consiste en utilizar el m´todo o e de Gauss-Newton simplificado, el cual est´ dado por: a x0 bastante pr´ximo de la soluci´n, o o ∆xk = −f ′ (x0 ) f ′ (xk ), La principal ventaja de utilizar el m´todo de Gauss-Newton simplificado e consiste en calcular por una vez f ′ (x0 ) y luego efectuar la descomposici´n o QR. Sin embargo existe una desventaja, que no se puede llegar a la soluci´n o x∗ , si f (x∗ ) = 0, esto se ha observado al finalizar la anterior subsecci´n. o Otra modificaci´n corrientemente utilizada en el m´todo de Gausso e Newton consiste en utilizar coeficientes de relajaci´n o m´s conocido como la o a λ-estrategia. Sobre todo, se utiliza la relajaci´n cuando los valores iniciales o utilizados para activar el m´todo no est´n muy cerca de la soluci´n buscada, e a o adem´s como un medio de aceleraci´n de convergencia. Por lo tanto el a o m´todo de Gauss-Newton con λ-estrategia, est´ dado por e a  o o  x0 bastante pr´ximo de la soluci´n;  + ′ ∆xk = −f ′ (x0 ) f (xk ),   xk+1 = xk + λk ∆xk , 0 < λk ≤ 1.
+

208

IV Ecuaciones No Lineales

El valor λk se determina de la misma manera, que para el m´todo de Newton, e con la unica variaci´n de utilizar la pseudo-inversa en el lugar de la inversa. ´ o Ejemplos 1.- Este ejemplo est´ relacionado con la subsecci´n concerniente a la a o convergencia del m´todo de Gauss-Newton. Se busca x ∈ R tal que e g(t) = ext ajuste lo mejor posible m puntos (ti , yi ), i = 1, . . . , m; con m ≥ 1. Por consiguiente, el problema consiste en determinar x tal que
m i=1

(yi − exti ) −→ min,

de donde, dentro las caracter´ ısticas de la aplicaci´n del m´todo de o e Gauss-Newton se tiene:  xt    e 1 − y1 t1 ext1   . . , . . f ′ (x) =  f (x) =  , . . xtm xtm tm e e − ym continuando con los c´lculos se tiene: a f ′ (x) f ′ (x) =
i=1 m t m

(ti exti )2 , t2 exti (exti − yi ). i

B(x)(f (x), ) =
i=1

Sea por otro lado ρ tal que exti − yi ≤ ρexti obteniendo, la mayoraci´n siguiente o
m i=1

i = 1, . . . , m;

t2 exti (exti − yi ) i
m

(ti e
i=1

xti 2

)

≤ ρ,

se tiene convergencia si ρ < 1. 2.- Este ejemplo es una ilustraci´n num´rica de la implementaci´n del o e o m´todo de Gauss-Newton con relajaci´n. El problema consiste en e o determinar la circunferencia que pasa lo m´s cerca posible de los a

´ IV.4 Metodo de Gauss Newton

209

siguientes puntos: (2, 3), (2, 1), (1, 2), (3, 2) y (2.5, 2.5). Ahora bien la ecuaci´n de una circunferencia de centro (h, k) y radio r est´ dada por o a

(x − h)2 + (x − k)2 − r 2 = 0,

por consiguiente el problema consiste en determinar h, k y r de manera que se obtenga la circunferencia m´s pr´xima a estos puntos. Para la a o implementaci´n del m´todo de Gauss-Newton, se tiene que o e

 (h − 2)2 + (k − 3)2 − r 2  (h − 2)2 + (k − 1)2 − r 2    f (h, k, r) =  (h − 1)2 + (k − 2)2 − r 2    (h − 3)2 + (k − 2)2 − r 2 (h − 2.5)2 + (k − 2.5)2 − r 2 

Despu´s de un simple gr´fico, se puede tomar como valores iniciales e a h = 2, k = 2 y r = 1, utilizando el m´todo de Gauss-Newton con e relajaci´n despues de 5 iteraciones, se obtiene los siguientes valores: o

h =1.95833333333295, k =1.95833333333295, r =0.959239125904873

En la figura IV.4.1, se tiene la gr´fica de la circunferencia resultante a

210 del m´todo de Gauss-Newton. e
4.0 3.5 3.0 2.5 2.0 1.5 1.0 .5 .0 .0

IV Ecuaciones No Lineales

.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Figura IV.4.1. Circunferencia del m´todo de Gauss-Newton. e

´ IV.4 Metodo de Gauss Newton

211

El M´todo de Levenberg-Marquandt e
El problema abordado en esta secci´n, es resolver f (x) → min, donde o f : Rn → Rm , con n ≤ m. El m´todo propuesto en el anterior paragrafo e fue el m´todo de Gauss-Newton. Como se ha visto, uno de los mayores e incovenientes es que para iniciar las iteraciones se debe partir de un punto inicial bastante pr´ximo de la soluci´n, por otro lado los an´lisis hechos se o o a basan en el supuesto que f ′ (x) es de rango igual a n, es decir de rango maximal, adem´s si f (x) no es lo suficientemente peque˜o el m´todo de Gaussa n e Newton diverge. Por las razones expuestas es necesario formular un m´todo e alternativo que permita evitar las situaciones enumeradas anteriormente. El m´todo de Levenberg-Marquandt que constituye un m´todo alternae e tivo para resolver el problema de encontrar x con f (x) m´ ınima, se basa en las siguientes ideas. Al formular el m´todo de Gauss-Newton, se consider´ e o la serie de Taylor de f (x) en el punto xk , resultado de la k − 1 iteraci´n y o se plante´ o f (x) = f (xk ) + f ′ (xk )(x − xk ) + O( x − xk ) −→ min, suponiendo que x − xk es lo suficientemente peque˜o, se obten´ como n ıa formulaci´n del m´todo de Gauss-Newton o e f (xk ) + f ′ (xk )(x − xk ) −→ min, y como condici´n suplementaria deseable o x − xk −→ min, La idea de Levenberg fue de considerar el problema siguiente para determinar el valor de xk+1 f (xk ) + f ′ (xk )(x − xk )
2 2

+ p x − xk

2 2

−→ min,

(IV.4.9)

donde p > 0 es un param´tro fijo. Si se deriva una vez la expresi´n (IV.4.9), e o se obtiene: 2f ′ (xk ) (f (xk ) + f ′ (xk )(x − xk )) + 2p(x − xk ) = 0,
t t t

f ′ (xk ) f ′ (xk ) + pI (xk+1 − xk ) = −f ′ (xk ) f (xk ).

(IV.4.10)

Dependiendo de la elecci´n del param´tro p, el m´todo de Levenbergo e e Marquandt, tiene los siguientes comportamientos: Si p −→ 0, se tiene el m´todo de Gauss-Newton, para ver realmente lo e que sucede ver el cap´ ıtulo II, secci´n 5, ejercicio 5. o

212 Si p es muy grande, entonces

IV Ecuaciones No Lineales

1 t ∆xk ≈= − f ′ (xk ) f (xk ), p de esta manera, se tiene la direcci´n de la pendiente m´s grande, o o a llamada tambi´n del gradiente, pero en este caso la convergencia podr´ e ıa ser muy lenta. La elecci´n de p puede ser variable, en el sentido siguiente, comenzar con p o grande hasta que ∆xk sea bastante peque˜o y luego hacer decrecer p hasta n obtener el m´todo de Gauss-Newton. e

Ejercicios
1.- Encontrar una elipse, una hip´rbola, que pasa lo mejor posible por los e puntos (xi , yi )i=1,...,m . Por ejemplo m = 10; (−1/2, 1), (−1/2, −0.1), (2.5, −1), (1.5, 1.5), (0.3, −1.5), (0.5, −2), (3, 0.1), (3, −0.3), (2.5, 1), (0.5, 3.5). Indicaciones.- Plantear f (x, y) = ax2 + 2bxy + cy 2 + dx + ey + g y encontrar a, b, c, d, e, g tales que
m

f (xi , yi )
i=1

2

−→ min

bajo la condici´n ac − b2 = 1 para la elipse, y ac − b2 = −1 para la o hip´rbola. e 2.- Consid´rese el problema de localizar un barco en el oceano. Para e volver el c´lculo m´s simple, se supondr´ que la curvatura terrestre a a a es despreciable y que todos los puntos est´n situados en el sistema a de coordenadas rectangulares (x, y). Sobre el barco, se mide el ´ngulo a entre el eje x y las varias estaciones emisoras, cuyas coordenadas son conocidas. i xi yi αi 1 2 3 8 −4 1 6 5 −3 42 158 248

´ IV.4 Metodo de Gauss Newton Te´ricamente, la posici´n (x, y) del barco satisface la relaci´n o o o arctan y − yi x − xi = αi ∀i.

213

Encontrar la posici´n probable de ´ste. Las coordenadas aproximadas o e del barco son x0 = 3, y0 = 2. Atenci´n.- Hacer los c´lculos en radianes y utilizar siempre la misma o a rama de la funci´n arctan. o

Cap´ ıtulo V C´lculo de Valores Propios a

La determinaci´n de valores propios o autovalores de una matriz A es o muy corriente en la resoluci´n de m´ltiples problemas. Sus aplicaciones van o u desde problemas de minimizaci´n y maximizaci´n, soluci´n de sistemas de o o o ecuaciones diferenciales, ecuaciones con derivadas parciales, etc. El c´lculo a de valores propios y la determinaci´n de vectores propios para matriz de o un orden inferior o igual a 3 no presenta mayor problema, puesto que su soluci´n depende del polinomio caracter´ o ıstico cuyo grado en este caso es inferior o igual a 3. Sin embargo, aqu´llos problemas, donde se requiere saber e los valores y vectores propios, provienen de matrices cuyo orden es mucho mas grande que 3 Es por eso, necesario e imprecindible formular m´todos y e algoritmos, lo mas eficientes posibles, teniendo en cuenta las particularidades de las matrices que son estudiadas. Ahora bien, la mayor parte de los m´todos e consevidos sirven para matrices sim´tricas o matrices normales, pues son e ´stas, las que se encuentran en la mayor parte de los problemas. e En este cap´ ıtulo, se estudiar´n y formular´n tales m´todos, pero se a a e comenzar´ haciendo una introducci´n te´rica del problema de la detera o o minaci´n de autovalores y vectores propios. Como segunda parte de este o cap´ ıtulo, se tendr´ la formulaci´n de estos m´todos. a o e

V.1 Teor´ Cl´sica y Condici´n del Problema ıa a o

En esta secci´n, se tratar´ los aspectos te´ricos indispensables para la o a o comprensi´n del problema de la evaluaci´n de valores propios de una matriz o o A de orden n. Definici´n V.1.1.- Sea A una matriz de n × n a coeficientes complejos o o reales. λ ∈ C es un valor propio, si existe x ∈ Cn no nulo, tal que Ax = λx. Si este es el caso, x es un vector propio asociado al valor propio λ. Proposici´n V.1.2.- Sea A ∈ Mn (C), λ ∈ C es un valor propio, si y o solamente si ker(A − λI) = {0}. Demostraci´n.- Resultado inmediato de la definici´n. o o Consecuencia de la anterior proposici´n, se tiene que λ es un valor propio o si y solamente si det(A − λI) = 0, (IV.1.2) de donde, se tiene la: Definici´n V.1.3.- El polinomio caracter´ o ıstico de la matriz A ∈ Mn (Cn ) est´ dado por a χA (λ) = det(A − λI). (IV.1.3) Por consiguiente, se deduce facilmente que λ es un valor propio de A si y solamente si λ es una raiz de χA (λ). Por otro lado, este polinomio es a coeficientes complejos, de donde existen n valores propios, contando su multiplicidad, de la matriz A ∈ Mn (C). Proposici´n V.1.4.- Valor propio es una propiedad invariante por similao ridad, es decir si B = T −1 AT , con T inversible, entonces A y B tienen los mismos valores propios. Demostraci´n.- En efecto, sea λ valor propio de A, entonces existe un o vector propio asociado a λ que se lo denota por v, se tiene BT −1 v = T −1 AT T −1 v = T −1 Av = λT −1 v, de donde λ es un valor propio de B con T −1 v valor propio asociado. (V.1.1)

´ ´ V.1 Teor´ Clasica y Condicion del Problema ıa Definici´n V.1.5.- Sea A ∈ Mn (C), se define la adjunta de A por o A∗ = aji . ¯ ij Definici´n V.1.6.- Se dice que una matriz U es unitaria si o U ∗ U = I.

215

Vale la pena recalcar, que una matriz ortogonal a coeficientes reales es unitaria, y rec´ ıprocamente una matriz unitaria a coeficientes reales es ortogonal, en el caso en que existieran coeficientes complejos no reales la situaci´n cambia. Por otro lado, es facil ver que el conjunto de las matrices o unitarias forman un grupo para la multiplicaci´n de matrices. o Teorema V.1.7.- Schur. Para cada matriz A ∈ Mn (C), existe una matriz Q unitaria, tal que λ1  0 Q∗ AQ =   0  ∗ λ2 ··· .. .  ∗ ∗  . 

λn

Demostraci´n.- Sea A una matriz cualquiera, entonces existe λ1 que es o raiz de det(A − λI), de donde existe v1 vector propio asociado a λ1 , se puede suponer, sin perder generalidad, que v1 2 = 1. Se plantea Q1 = (v1 , v2 , . . . , vn ), con v2 , . . . , vn elegidos de manera que Q1 sea unitaria. Esta elecci´n es o posible con el procedimiento de Gramm-Schmidt en el caso complejo. Se observa inmediatamente, que   λ1 ∗ . . . ∗   0 . AQ1 = Q1  . (1)   . A . 0 ¯ De la misma manera se encuentra una matriz Q2 de orden n − 1, tal que   λ2 ∗ . . . ∗   0 , ¯ A(1) Q2 = Q2  .   . A(2) . 0

216 y planteando Q2 = se tiene 

´ V Calculo de Valores Propios

1 0 ¯ 0 Q2 ∗ λ2 0 . . . 0

, 

repetiendo el procedimiento las veces que sea necesario, se tiene el resultado deseado. Cabe recalcar que este procedimiento da la descomposicion requerida en a lo m´s n pasos. a Teorema V.1.8.- Si A es normal, es decir A∗ A = AA∗ , entonces existe una matriz unitaria Q tal que Q∗ AQ =   λ1 0 0 .. . λn  

λ1  0  AQ1 Q2 = Q2 Q1   

∗ ··· ∗ A(2)

  .  

Demostraci´n.- Si la matriz A es normal y Q es unitaria, entonces Q∗ AQ o es normal. En efecto (Q∗ AQ) (Q∗ AQ) = Q∗ A∗ QQ∗ AQ = Q∗ AA∗ Q ∗ = (Q∗ AQ) (Q∗ AQ) . queda por demostrar, que si λ1  0 B=  0 es triangular y normal, entonces B= Puesto que BB ∗ = B ∗ B, se tiene  λ1 0 . . . 0 λn  .  ∗ λ2 ··· .. .  ∗ ∗   

λn

´ ´ V.1 Teor´ Clasica y Condicion del Problema ıa

217

¯ λ1  ∗   ∗

0 ¯ λ2

··· .. .

λ1 0  0   ¯ 0 λn



∗ λ2

··· .. .

λ1  0 =  0
2

λn ∗ ··· λ2 .. .

 ∗ ∗   

λn
2

¯ ∗ λ1 ∗  ∗   ∗
2

0 ¯ λ2

··· .. .

0  ,  ¯ λn

de donde

|λ1 | = |λ1 | + |∗| + · · · + |∗| , dando como resultado que la primera fila fuera del coeficiente de la diagonal es nulo. Se continua con el mismo procedimiento hasta mostrar que B es diagonal.

2

La condici´n del Problema a Valores Propios o
Sea, A una matriz cualquiera a coeficientes complejos de orden n. Al igual que en cap´ ıtulo II, es importante conocer la condici´n del problema planteado, o ¯ es decir la determinaci´n de valores propios. Para tal efecto sea A la matriz o con errores de redondeo de A, repasando la secci´n II.1, se tiene que los o ¯ coeficientes de A satisfacen aij = aij (1 + ǫij ) ¯ |ǫij | ≤ eps,

¯ donde aij son los coeficientes de A, aij los coeficientes de A y eps la precisi´n ¯ o ¯ de la computadora. Por consiguiente, el estudio de los valores propios de A ǫij de pueden estudiarse de manera, m´s general, para A + ǫC, con cij = a eps donde |cij | ≤ |aij |. Definiendo f (ǫ, λ) = det(A + ǫC − λI), se tiene inmediatamente que f (0, λ) = χA (λ). Sup´ngase que λ1 es una raiz simple de χA (λ), entonces se tiene o f (0, λ1 ) = 0, ∂f (0, λ1 ) = 0. ∂λ

218

´ V Calculo de Valores Propios

Por el teorema de las funciones impl´ ıcitas, se deduce que existe un vecindario de (0, λ1 ) en el cual existe una funci´n λ(ǫ), tal que o f (ǫ, λ(ǫ)) = 0, con λ(ǫ) = λ1 + ǫλ′ + O(ǫ2 ). 1

Por consiguiente, se tiene el siguiente: Teorema V.1.9.- Sea λ1 una raiz simple de χA (λ), entonces para ǫ → 0, existe un valor propio λ(ǫ) de A + ǫC, tal que λ(ǫ) = λ1 + ǫ u∗ Cv1 1 + O(ǫ2 ) u∗ v1 1 (V.1.4)

donde Av1 = λ1 v1 y u∗ A = λ1 u∗ , u y v no nulos. 1 1 Demostraci´n.- Por el teorema, de las funciones impl´ o ıcitas se tiene (A + ǫC)v(ǫ) = λ(ǫ)v(ǫ), mas precisamente
′ (A + ǫC)(v1 + ǫv1 + O(ǫ2 )) = (λ1 + ǫλ′ + O(ǫ2 ))v1 , 1

comparando los t´rminos de igual grado en cada miembro de la ecuaci´n e o anterior, se tiene: ǫ0 : ǫ : de donde
1

Av1 = λ1 v1 ,
′ ′ Av1 + Cv1 = λ1 v1 + λ′ v1 , 1

multiplicando ´sta ultima por u∗ , se obtiene e ´ 1

′ (A − λ1 I) v1 = −Cv1 + λ′ v1 , 1

0 = −u∗ Cv1 + λ′ u∗ v1 . 1 1 1

Corolario V.1.10.- Si A es normal con valores propios diferentes, entonces u∗ Cv1 1 ≤ C , u∗ v1 1 es decir, el problema est´ bien condicionado. a

´ ´ V.1 Teor´ Clasica y Condicion del Problema ıa

219

Demostraci´n.- A es normal, por consiguiente existe una matriz Q unitaria o tal que   λ1 0 .. , Q∗ AQ =  . 0 λn

una verificaci´n inmediata muestra que v1 es la primera columna de Q, as´ o ı mismo u∗ es la primera fila de Q∗ , de donde v1 = v1 , por lo tanto, se obtiene 1 |u∗ Cv1 | u∗ Cv1 1 ≤ 1 2 ∗ u1 v1 v1 v1 ≤ C . ≤ v1 Cv1
2

Ejemplos 1.- Se considera la matriz A definida por A= 1 α 0 2 .

Es muy simple darse cuenta, que λ = 1 es un valor propio de A, por consiguiente por simple inspecci´n, se obtiene: o v1 = u1 = de donde u∗ v1 = 1 1 0 1 1 + α2 1 1 + α2 , 1 −α . ,

La matriz A es mal condicionada para el c´lculo de los valores propios a cuando α → ∞, ya que u∗ v1 → 0. 1 2.- El teorema de descomposici´n de Jordan indica que toda matriz A o es similar a una matriz de tipo Jordan, es decir existe una matriz T inversible tal que T −1 AT = J,

220

´ V Calculo de Valores Propios donde J es una matriz diagonal por bloques,  J =  J(n1 , λ1 ) .. . J(nk , λk )  λi 1 .. .    ,

y

Ahora bien, sup´ngase que A es similar a la matriz de tipo Jordan, dada o por   1 1 0 0 0 1 1 0 ,  0 0 1 1 0 0 0 1 entonces se tiene que det(A + ǫC − λI) = (1 − λ)4 + ǫ + O(ǫ2 ), donde C es una perturbaci´n de A. o Calculando los valores propios de A + ǫC, ver figura V.1.1, es facil ver que el problema de determinar valores propios de A es un problema mal condicionado

J(ni , λi ) = 

..  . . λi

1

Figura IV.1.1. Determinaci´n de los valores propios de A + ǫC o

´ ´ V.1 Teor´ Clasica y Condicion del Problema ıa

221

Ejercicios
1.- Una matriz A es de tipo Frobenius, si es de la forma 0  . . A= .  0 a) Verificar que det(A − λI) = (−1)n λn + an−1 λn−1 + · · · + a1 λ + a0 . b) Calcular los vectores propios de A. 2.- Calcular los valores propios de la matriz tridiagonal a b  A=   0  c a c b a b     0    n. c   ···    .. .  1 0 ··· −a1 ··· .. . 0 · · · −an−2 0 0 . . . 1 −an−1 

−a0

 . 

Las componentes del vector propio (v1 , v2 , · · · , vn )t satisfacen una ecuaci´n de diferencias finitas con v0 = vn+1 = 0. o j j Verificar que vj = Const(α1 − α2 ) donde α1 + α2 = a−λ , c b α1 α2 = , c α1 α2
n+1

= 1.

3.- Mostrar que los valores propios de una matriz A satisfacen
n i=1 n

|λi | ≤

2

i,j=1

|aij | .

2

Se tiene igualdad, si y solamente si, A es diagonalizable con una matriz unitaria.
n

Indicaci´n.o
i,j=1

|aij | es la traza de A∗ A que es invariante respecto a

2

la transformaci´n A → Q∗ AQ. o

222

´ V Calculo de Valores Propios

4.- Sup´ngase que los valores propios de A con aij ∈ R son: α + iβ, α − iβ, o λ3 , . . . , λn con β = 0, λ3 , . . . , λn diferentes. Mostrar que existe una matriz T inversible con coeficientes reales tal que α β  −β α  T −1 AT =    0  0 λ3 .. . λn    .  

Dar una relaci´n entre las columnas de T y los vectores propios de A. o 5.- Sea A una matriz sim´trica y B una matriz cualquiera. Para cada valor e propio λB de B existe un valor propio de λA de A tal que |λA − λB | ≤ A − B
2

.

Indicaci´n.- Mostrar primero para un cierto v o v = (A − λB I)−1 (A − B)v, deducir que 1 ≤ (A − λB I)−1 (A − B) ≤ A − B (A − λB I)−1 .

6.- Sea A una matriz sim´trica. Para cada ´ e ındice i existe un valor propio λ de A tal que |λ − aii | ≤
j=i

|aij |2 .

Indicaci´n.- Utilizar el ejercicio 5 con una matriz B conveniente. o

V.2 Determinaci´n de Valores Propios o

En la actualidad, existen muchos m´todos num´ricos para el c´lculo de valoe e a res propios de una matriz. Sin embargo, la mayor parte de las aplicaciones en f´ ısica y otras disciplinas requieren en la mayor´ de los casos, la utilizaci´n ıa o de matrices normales. Motivo por el cual, existen m´todos espec´ e ıficos a este tipo de matrices. Se comenzar´, esta secci´n formulando el m´todo de la a o e Potencia.

El M´todo de la Potencia e
Sea, A una matriz de n × n con coeficientes reales o complejos, el objetivo es determinar el valor propio m´s grande en valor absoluto. Sea y0 ∈ Rn (Cn ) a arbitrario, se define la sucesi´n {yn } ⊂ Rn de manera recursiva, como o yn+1 = Ayn , (V.2.1) es evidente que yn = An y0 . Esta sucesi´n tiene propiedades interesantes para o la determinaci´n del valor propio m´s grande, que est´n dadas en el: o a a Teorema V.2.1.- Sea A diagonalizable, es decir que existe una matriz T inversible tal que   λ1 0 .. , T −1 AT =  . 0 λn sup´ngase que los valores propios satisfacen o |λ1 | > |λ2 | ≥ |λ3 | ≥ · · · ≥ |λn | o y e∗ T −1 y0 = 0. Entonces la sucesi´n {yk } definida por yk+1 = Ayk satisface: 1 k λ2 a) yk = λk a1 v1 + O , 1 λ1 donde Av1 = λ1 v1 , Avj = λj vj , y0 = a1 v1 + a2 v2 + · · · + an vn , y T = (v1 , · · · , vn ). b) Se tiene el cociente de Rayleigh, dado por
∗ yk Ayk = λ1 + O ∗ yk yk

λ2 λ1

k

,

(V.2.2)

si adem´s, la matriz A es normal, entonces a
∗ yk Ayk = λ1 + O ∗ yk yk

λ2 λ1

2k

.

(V.2.3)

224

´ V Calculo de Valores Propios

Demostraci´n.- Los vectores v1 , · · · , vn forman una base del espacio Cn , o de donde y0 = a1 v1 + a2 v2 + · · · + an vn , deduciendose yk = a1 λk v1 + a2 λk v2 + · · · + an λk vn , 1 2 n por consiguiente yk = a1 v1 + a2 λk 1 λ2 λ1
k

v2 + · · · + an

λn λ1

k

vn ,

con lo queda demostrado el punto a). Para la demostraci´n del punto b), se o tiene: yk = λk a1 v1 + λk a2 v2 + · · · + λk vn , 1 2 n Ayk = λk+1 a1 v1 + λk+1 a2 v2 + · · · + λk+1 vn , n 1 2 ¯ ¯¯ λk λk v ∗ vj ai aj , y ∗ yk =
k i j i i,j ∗ yk Ayk = i,j ∗ ¯ ¯¯ λk λk+1 vi vj ai aj , i j

obteniendo el cociente de Rayleigh, dado por
∗ yk Ayk = λ1 + O ∗ yk yk

λ1 λ2

2

,

∗ ahora bien si A es normal, se tiene que vi vj = 0, si i = j; obteniendo para ∗ yk Ayk = i ∗ yk yk ∗ λi |λi |2k vi vi , ∗ |λi |2k vi vi .

=
i

Ejemplo Consid´rese, la matriz A definida por e 2 1  A = 0  0 0  1 2 1 0 0 0 1 2 1 0 0 0 1 2 1  0 0  0,  1 2

´ V.2 Determinacion de Valores Propios

225

utilizando el ejercicio 2 de la secci´n V.1, se obtiene que el valor propio o mas grande est´ dado por a √ 3 ) ≈ 3, 73205, λ1 = 2(1 + 2 Tomando y0 = (1, 1, 1, 1, 1)t , se obtiene los valores de λ1 dadas en la tabla V.2.1. Tabla V.2.1. Valores de λ1 . Iter. 1 3 5 7 9 11 13 λ1 3.6 3.721854 3.731205 3.731981 3.732045 3.732050 3.732051 Iter. 2 4 6 8 10 12 14 λ1 3.696969 3.729110 3.731808 3.732031 3.732049 3.732051 3.732051

Uno de los inconvenientes de utilizar el m´todo de la potencia es que e la convergencia puede ser muy lenta si |λ1 /λ2 | ≈ 1. Sin embargo, existe una modificaci´n del m´todo de la potencia para acelerar la convergencia. Este o e m´todo es m´s conocido como el: e a M´todo de la Potencia Inversa e La modificaci´n consiste en aplicar el m´todo de la potencia a o e (µI − A)−1 , donde µ es una aproximaci´n del valor propio λ buscado de la matriz A. La o justificaci´n te´rica est´ dada por la siguiente proposici´n: o o a o Proposici´n V.2.2.- λ es valor propio de A, si y solamente si, o 1 µ−λ (V.2.4)

Las componentes del valor propio respecto a λ1 est´n dados por a   1.07735026  1.86602540    v =  2.1547005  .   1.866025 1.07735026

226 es valor propio de (µI − A)−1 .

´ V Calculo de Valores Propios

Demostraci´n.- λ es valor propio de A, si y solamente si existe v = 0 tal o que Av = λv, si y solamente si (µI − A)v = (µ − λ)v, 1 (µI − A)−1 v = v. µ−λ Por otro lado aplicando, el teorema V.2.1 se tiene que la convergencia es del orden k µ − λ1 O . µ − λ2 ¯ Sea λ el valor propio m´s grande de (µI − A)−1 , entonces se tiene que a 1 λ1 = µ − ¯ . λ (V.2.5)

El m´todo de la potencia da una relaci´n recursiva para los yk , que est´ dada e o a por yk+1 = (µI − A)−1 yk , pero en lugar de calcular la inversa de la matriz, se puede resolver la ecuaci´n o (µI − A)yk+1 = yk , (V.2.6)

utilizando para tal efecto el algoritmo de eliminaci´n de Gauss. o En el anterior ejemplo se tenia como valor de λ1 = 3.697 despu´s de e 2 iteraciones del m´todo de la potencia inversa. Aplicando el m´todo de la e e potencia inversa con µ = 3.697, se obtiene despues de dos iteraciones: ¯ λ = −232.83, λ1 = 3.7334052. Puede suceder que la matriz A sea a coeficientes reales, sin embargo, el valor propio buscado no sea real si no que contenga una parte imaginaria. Sup´ngase que µ = α + βi sea una aproximaci´n del valor propio buscado. o o Entonces aplicando el m´todo de la potencia inversa, se tiene e (α + βi)I − A yk+1 = yk , (V.2.7)

´ V.2 Determinacion de Valores Propios

227

por otro lado los vectores yk pueden ser descompuestos en un vector real y otro imaginario, de la manera siguiente yk = uk + ivk , uk , vk ∈ Rn ,

de donde, se obtiene una nueva formulaci´n para el m´todo de la potencia o e inversa, dada por αI − A −βI βI αI − A y el cociente de Rayleigh est´ dado por a
∗ t yk yk+1 (ut − ivk )(uk+1 + ivk+1 ) = k ∗ t t yk yk uk uk + vk vk t t (ut uk+1 + vk vk+1 + i(ut vk+1 − vk uk+1 ) k . = k t t uk uk + vk vk

uk+1 vk+1

=

uk vk

,

(V.2.8)

Formas Tridiagonales y Matrices de Hessenberg
El m´todo de la potencia y su version de la potencia inversa son m´todos e e aplicables a matrices, donde el valor propio m´s grande en valor absoluto a lo es estrictamente. Por otro lado es necesario darse un vector inicial cuya proyecci´n sobre el espacio propio, respecto a este valor propio sea no nula, o es decir se debe tener una idea clara de la posible ubicaci´n de los vectores o propios. Ahora bien, en muchos casos es necesario conocer los diferentes valores propios, situaci´n que no es posible con las dos versiones del m´todo o e de la potencia estudiados m´s arriba. a Una gran clase de m´todos de c´lculo de valores propios est´n dise˜ados e a a n para operar con matrices tridiagonales, sobre todo si ´stas son sim´tricas. e e El objetivo de este paragrafo es construir algoritmos que permitan tridiagonalizar una matriz arbitraria, conservando las propiedades originales en los casos en que sea posible. Sea, A una matriz arbitraria de orden n × n, se busca una transformaci´n, T tal que o ∗ ··· ∗ . . ∗ .  .  .. −1 . . T AT = H =  . .  . ..  . . . ∗ ∗ H es conocida bajo el nombre de matriz de Hessenberg. A continuaci´n, se o propone como algoritmo de reducci´n a la forma de Hessenberg, utilizando o matrices de tipo L, del algoritmo de eliminaci´n de Gauss. o

228 Algoritmo 1. 1.- Sea A una matriz arbitraria, se busca |ak1 | = max |aj1 |,
j=2,...,n

´ V Calculo de Valores Propios

se intercambia las filas k y 2 y tambi´n las columnas k y 2, e se define la matriz L2 por   1 0 1 0    ai1 , , i = 2, . . . , n; L2 =  0 −l32 1 li2 =   . a21 ..   . . . 0 −ln2 1 se obtiene   L2 AL−1 =  2    ∗ ∗ 0 . . . 0 ∗ ··· ∗ A(1)    .  

2.- Se aplica el paso 1 a la matriz A(1) , y se continua hasta obtener una matriz de Hessenberg. La principal desventaja de utilizar este primer algoritmo propuesto es que, si A es una matriz sim´trica, H no lo es en general. Recordando el e cap´ ıtulo II.5, existe el algoritmo QR para reducir una matriz A a la forma triangular. Es facil verificar que H = Qt AQ es sim´trica, si Q es ortogonal e y A es sim´trica. Por consiguiente, el segundo algoritmo propuesto utiliza e matrices de Householder para convertir una matriz A en una matriz de Hessenberg. Algoritmo 2. 1.- Sea A una matriz arbitraria, que puede escribirse, como A= por consiguiente A′ ∈ Rn−1 . k Se define Q2 por Q2 = a11 A′ 1 · · · a1n · · · A′ n 1 0 0 Q′ 2 ,

,

donde Q′ = I − 2u2 ut , u2 est´ determinado por la condici´n, ver a o 2 2 Cap´ ıtulo V.2,   α2  0  Q′ A′ =  .  , α2 = signo a21 A′ 2 ; 1 2 1  .  . 0

´ V.2 Determinacion de Valores Propios obteniendo Q2 AQ−1 2  ∗ ∗ 0 . . . 0 ∗ ··· ∗ A(1) 

229

  =  

  .  

2.- Se procede como en 1, hasta obtener la forma de Hessenberg.

Teorema de Sturm y M´todo de la Bisecci´n e o
Al utilizar el algoritmo 2, de la anterior subsecci´n, a una matriz A sim´trica o e se obtiene una matriz tridiagonal sim´trica, que se la denota nuevamente por e A, para no cargar la notaci´n. Por consiguiente, A es de la forma o d1  e2   A=    e2 d2 e3 e3 .. . .. .    .  en  dn 

.. ..

.

(V.2.9)

. en

Se define, el polinomio p0 (x) por p0 (x) = 1, y los polinomios pi (x) i = 1, . . . , n, como pi (x) = det(Ai − xI), donde A= Ai 0 0 ∗ , (V.2.11) (V.2.10)

Ai es la matriz formada por las primeras i filas y columnas de A. Por lo tanto, se tiene Pn (x) = det(A − xI). (V.2.12) Por otro lado, los determinantes que definen estos polinomios cumplen la siguiente relaci´n recursiva o det(Ai − xI) = (di − x) det(Ai−1 − xI) − e2 det(Ai−2 − xI), i de donde pi (x) = (di − x)pi−1 (x) − e2 pi−2 (x), i i = 2, 3, . . . , n. (V.2.13) i = 2, 3, . . . , n;

230

´ V Calculo de Valores Propios

Teorema V.2.3.- Sea A una matriz tridiagonal y sim´trica con los coefie cientes ei = 0 para i = 2, . . . , n. Entonces: a) Las raices de pn (x) = χA (x) son simples, b) p′ (λi ) · pn−1 (λi ) < 0 si λi es una raiz de pn (x), n c) pj (x∗ ) = 0 (1 ≤ j ≤ n − 1, x∗ ∈ R) ⇒ pj−1 (x∗ )pj+1 (x∗ ) < 0, d) p0 (x) ≥ 0 para todo x ∈ R. Demostraci´n.- El punto d) se verifica inmediatamente puesto que p0 (x) = o 1 por definici´n. o La demostraci´n del punto c) se la realiza por el absurdo, en efecto, o si se tuviera pj (x∗ ) = 0 y pj+1 (x∗ ) = 0, utilizando (V.2.13), se tendr´ ıa p0 (x∗ ) = 0 lo cual contradice el hecho que p0 (x∗ ) = 1. Ahora bien, utilizando nuevamente (V.2.13) se tiene en el caso en que pj (x∗ ) = 0
∗ pj−1 (x∗ ) = −e2 n−j+1 pj+1 (x ).

El punto b) implica el punto a), ya que p′ (λi ) = 0 conduce a que λi sea n raiz simple. S´lo queda el punto b) por demostrar. o Se define, los polinomios: qi (x) = (−1)i pi (x) q0 (x) = p0 (x); 1 , e2 e3 · · · ei+1 i = 1, . . . , n;

donde en+1 = 1. Efectuando c´lculos sobre los polinomios qj (x), se tiene a (−1)i qi (x)e2 · · · ei+1 =(di − x)(−1)i−1 qi−1 (x)e2 · · · ei de donde − e2 (−1)i−2 qi−2 (x)e2 · · · ei−1 , i

ei+1 qi (x) + (di − x)qi−1 (x) + ei qi−2 (x) = 0,   en dn − x

i = 2, . . . , n.

Esta ultima relaci´n puede escribirse de manera matricial, como ´ o d1 − x e2 d2 − x e3  e2  ..  . e3    ...  q (x)    0 0  .   q1 (x)    .  .  =  .   0 . .  .  −qn (x) qn−1 (x) q(x) = 0

.. ..

.

. en

A − xI

Si λi es valor propio de A, entonces q(λi ) es un vector propio, derivando la relaci´n matricial, se obtiene o

´ V.2 Determinacion de Valores Propios  

231 0 . . . 0 ′ −qn (x)

multiplicando por la traspuesta de q(x), se tiene  de donde

 −q(x) + (A − xI)q ′ (x) =  

 , 

 0 .   . .  −q t (x)q(x) + q t (x)(A − xI)q ′ (x) = q t (x)   0 , ′ = 0 si x = λi −qn (x)
′ −qn (λi )qn−1 (λi ) = − q(λi ) 2

< 0,

dando por consiguiente p′ (λi )pn−1 (λi ) < 0. n Cabe remarcar que los polinomios pi (x) i = 0, . . . , n; forman una sucesi´n de Sturm, cuyo estudio y c´lculo de raices est´n dados en la o a a primera secci´n del cap´ o ıtulo IV concerniente a la resoluci´n de ecuaciones o polinomiales. Por consiguiente el n´mero de valores propios de la matriz A u en el intervalo [a, b], est´ dado por a w(b) − w(a),

donde w(x) indica los cambios de signo de los polinomios pi (x). La determinaci´n exacta de los valores propios se efectua mediante el algoritmo o de la bisecci´n, ya estudiado en la secci´n IV.1. Ahora bien, el problema o o consiste en encontrar un algoritmo simple que permita evaluar w(x). Algoritmo para calcular w(x) Se define la sucesi´n fi (x), i = 1, . . . , n; por o fi (x) = pi (x) , pi−1 (x) (V.2.14)

obteniendo de inmediato, la siguiente relaci´n recursiva para fi (x): o f1 (x) = (d1 − x); fi (x) = (di − x) − e2 i

1 , fi−1 (x)

i = 2, . . . , n.

(V.2.15)

232

´ V Calculo de Valores Propios

Ahora bien, si por azar, existe x ∈ R, i = 2, . . . , n con fi (x) = 0, (V.2.15) puede ser modificado para evitar la divisi´n por 0, de la manera siguiente: o  1  (di − x) − e2  , si fi−1 (x) = 0; i  fi−1 (x) (V.2.16) fi (x) =   (d − x) − |ei | ,  i si fi−1 = 0. eps La justificaci´n de utilizar la sucesi´n fi (x) est´ en la siguiente proposici´n. o o a o Proposici´n V.2.4.- w(x) es igual al n´mero de elementos negativos de o u f1 (x), f2 (x), . . . , fn (x) Demostraci´n.- La demostraci´n tiene sus bases te´ricas en el Teorema o o o de Sylvester, que indica que si A es una matriz, T una matriz no singular, entonces la matriz B = T t AT tiene el mismo n´mero de valores propios u negativos que la matriz A. Aplicando este teorema a la proposici´n a o demostrar, se tiene 1  e2 /f1 (x) A − xI = .  ..  1 en /fn−1  f (x) 1 f2 (x)   ..  .  fn (x)    

de donde A − xI tiene el mismo n´mero de valores propios negativos que el u conjunto {f1 (x), f2 (x), . . . , fn (x)}. Por otro lado este n´mero est´ dado por u a w(x), quedando demostrada la proposici´n. o Para poder aplicar el algoritmo de la bisecci´n es necesario conocer los o intervalos, donde pueden estar localizados los valores propios, para evitar busquedas inutiles. El siguiente teorema es muy util para determinar las regiones donde se encuentran estos. Teorema V.2.5.- Gerschgorin. Sea λ un valor propio de A matriz, Entonces existe i tal que |aij | . (V.2.17) |λ − aii | ≤
j=i

1  1 e /f (x) 2 1 ..  .  

1 en /fn−1 (x) 1

 , 

Demostraci´n.- Sea x = 0, el vector propio asociado a λ, por consiguiente o x = (x1 , x2 , . . . , xn )t . Sea i, tal que |xi | ≥ |xj | ∀j,

´ V.2 Determinacion de Valores Propios

233

puesto que x = 0, se tiene necesariamente que xi = 0. Efectuando c´lculos a se obtiene: n aij xj = λxi ,
j=1

j=i

aij xj = (λ − aii )xi ,

pasando a valores absolutos se tiene: |λ − aii | |xi | ≤ |λ − aii | ≤ |aij | |xj | , |aij | .

j=i

j=i

Generalizaci´n del M´todo de la Potencia o e
Al formular el m´todo de la potencia, se buscaba el valor propio, cuyo e valor absoluto era m´ximo, de una matriz A. Ahora bien, existen muchos a problemas en los cuales se requiere conocer no solamente el valor propio m´s a grande en valor absoluto, sino tambi´n los otros valores propios. El prop´sito e o de esta subsecci´n es formular un m´todo que permita calcular los dos valores o e propios m´s grandes en m´dulo. Para tal efecto, es necesario suponer que a o λ1 ,λ2 , . . . , λn valores propios de A satisfacen |λ1 | > |λ2 | > |λ3 | ≥ · · · |λn | . Recordando el m´todo de la potencia, se tiene la sucesi´n de los {yk } e o definida por yj+1 = Ayj , si y0 cumple ciertas condiciones, se tiene yj = λj [a1 v1 + O 1 λ2 λ1
j

,

donde v1 es el vector propio asociado a λ1 y a1 la componente de y0 respecto a v1 . Para evitar explosiones en los c´lculos de los yj se puede a mejorar el algoritmo de la potencia exigiendo que yj 2 = 1, y adem´s para a evitar oscilaciones en los yj , se plantea por consiguiente yj+1 = Ayj signo Ayj 2 (Ayj )1 (yj )1 , (V.2.18)

donde (yj )1 es la primera componente de yj . Puesto que los yj son de norma igual a 1, haciendo referencia a vectores ortonormales, se cambia la notaci´n de yj por qj , dando por consiguiente la siguiente definici´n recursiva o o para los qj :

234

´ V Calculo de Valores Propios

q0 arbitrario, tal que q0 qj 2 = 1;
(j+1) λ1 qj+1

2

= 1; (V.2.19)

= Aqj .

Por el teorema V.2.1, se tiene que:
j→∞ j→∞

lim qj = v1 ,
(j)

lim λ1 = λ1 ,

con v1 valor propio de norma unitaria respecto a λ1 . Por otro lado la velocidad de convergencia de (V.2.19), est´ dada por O (λ2 /λ1 )j . a Por consiguiente, el problema consiste en calcular λ1 y λ2 , si es posible al mismo tiempo. Sup´ngase que conoce de antemano λ1 y v1 . Considerando o el subespacio vectorial V de Cn definido por V = u ∈ Cn |u∗ v1 = 0 , espacio de dimensi´n n − 1. La matriz A induce una aplicaci´n lineal que se o o la denota por la letra A tambien, la cual est´ definida por a A : Cn −→ Cn ,

y −→ Ay

definiendo la aplicaci´n lineal f : V −→ V como f = p ◦ A|V donde p es o la proyecci´n ortogonal de Cn en V , y A|V es la restricci´n de A sobre el o o espacio V se tiene el: Teorema V.2.6.- Los valores propios de f son: λ2 , . . . , λn , m´s precisaa mente se tiene   λ1 0 0 λ2 r22 · · · r2n  ∗   U v, f (v) = U  ..   . λn donde v ∈ V y   U ∗ AU =    λ1 r12 .. . · · · r1n .. . λn     

es la descomposici´n de Schur dada en teorema V.1.7. o

´ V.2 Determinacion de Valores Propios

235

Demostraci´n.- Sea U = (u1 , u2 , . . . , un ) matriz unitaria con u1 = v1 , o entonces cualquier elemento v ∈ V se escribe, como
n

v=
i=2

αi ui ,

por consiguiente v = U α,

de donde f (v) = AU α. Ahora bien, si U es la matriz unitaria de la descomposici´n de Schur de o A, se tiene   λ1 r12 · · · r1n ..   .  ∗  f (v) = U   U U α, ..   . λn como U α = v, se tiene despu´s de una simple verificaci´n que e o  f (v) = U    λ1 0 λ2 r22 .. .  0 · · · r2n  ∗  U v.  λn

 0  α2  con α =  .  ;  .  .  αn

El teorema precedente proporciona un medio te´rico para calcular λ2 , o el cual es el m´todo de la potencia a f . Por lo tanto, si se tiene determinado e λ1 y v1 el algoritmo de la potencia, se lo formula de la siguiente manera:
∗ r0 , tal que v1 r0 = 0 y ∗ αj = v1 Arj ; rj 2 = 1;

r0

2

= 1; (V.2.20)

Arj − αj v1 = λ2 Es facil verificar que
j→∞

(j+1)

rj+1 .

lim λ2 = λ2 ,
j→∞

(j)

lim rj = u2 ;

236

´ V Calculo de Valores Propios

donde v2 es el vector propio de norma unitaria respecto a λ2 . Ser´ interesante poder calcular λ1 y λ2 al mismo tiempo, sin necesidad ıa de determinar primero λ1 y luego λ2 , esto es posible mediante el siguiente algoritmo. Se da, como vectores iniciales: q0 y r0 , tales que: q0 = 1, Se supone, que se ha calculado qj , con qj = 1;
∗ rj , con rj = 1 y rj qj = 0;

r0 = 1,

∗ y r0 q0 = 0.

(V.2.21)

entonces se aplica el algoritmo de la potencia de la siguiente manera Aqj = λ1 qj+1 , qj+1 = 1;
(j+1) ∗ αj+1 = qj+1 Arj ,

Arj − αj+1 qj+1 = λj+1 rj+1 , 2 rj+1 = 1.

(V.2.22)

Se puede demostrar que tambi´n e
j→∞

lim λ2 = λ2 ,
j→∞

(j)

lim rj = u2 ,

donde u2 es la segunda columna de la matriz U de la descomposici´n de o Schur de A. Vale la pena recalcar, el siguiente hecho A (qj , rj ) = (qj+1 , rj+1 )
Uj Uj+1

λ1

(j+1)

0

α(j+1) (j+1) , λ2

Rj+1

∗ de donde planteando U0 = (q0 , r0 ) con U0 U0 =

1 0 , el algoritmo de la 0 1 potencia generalizada, se expresa de manera matricial como AUj = Uj+1 Rj+1 ,

donde el segundo miembro no es nada m´s que la descomposici´n QR, pero a o esta vez utilizando matrices unitarias. Si la matriz A tiene sus n valores propios diferentes, y adem´s que a verifican |λi | > |λ2 | > · · · > |λn | ,

´ V.2 Determinacion de Valores Propios

237

el m´todo de la potencia puede ser aplicado para calcular de manera e simult´nea los n autovalores. Se toma U0 una matriz unitaria arbitraria a que puede ser por ejemplo U0 = I. Sup´ngase que se ha calculado Rj y Uj , o entonces se tiene AUj = Uj+1 Rj+1 . (V.2.23) Se puede demostrar que: Rj −→ R =  Uj −→ U,  λ1 ··· .. . ∗ λn  ,

cuando j → ∞, donde AU = U R es la descomposici´n de Schur. o

El M´todo QR e
Al finalizar la ultima subsecci´n, se dio una generalizaci´n del m´todo de la ´ o o e potencia. Por razones de presentaci´n, se ver´ en esta secci´n un algoritmo o a o equivalente a este ultimo, conocido como el m´todo QR. ´ e La versi´n simple del algoritmo QR es aplicable a matrices, cuyos valores o propios son reales y diferentes en valor absoluto, se lo define recursivamente de la siguiente manera: Aj+1 A1 = A = Q1 R1 , = Rj Qj = Qj+1 Rj+1 , (V.2.24)

donde Qj es una matriz ortogonal, y R es una matriz triangular superior. De donde, este algoritmo es equivalente al m´todo de la potencia generalizada. e En efecto, planteando Uj = Q1 · · · Qj , se tiene Uj+1 Rj+1 = Q1 Q2 · · · Qj Qj+1 Rj+1 ,
Rj Qj

llegando finalmente a Uj+1 Rj+1 = Q1 R1 Q1 Q2 · · · Qj .
A Uj

Puesto que el m´todo QR y el algoritmo de la potencia son equivalentes, es e facil ver que   λ1 · · · ∗ .. , Rj −→ R =  . λn Qj −→ I.

238

´ V Calculo de Valores Propios

Por otro lado, las matrices Aj+1 y Aj tienen los mismos valores propios, pues Aj+1 = Q∗ Aj Qj j Indudablemente, el m´todo QR es aplicable a toda matriz cuyos valores e propios son diferentes en m´dulo, sin embargo es conveniente reducir la o matriz A a una de tipo Hessenberg, ya que si A es una matriz de Hessenberg, las matrices Ak construidas a partir del algoritmo QR lo son tambi´n, ver e ejercicio 5, adem´s el costo de operaciones es menor. a El siguiente resultado, enunciado sin demostraci´n, indica la velocidad o de convergencia del m´todo QR donde A es una matriz de tipo Hessenberg. e Esta relaci´n esta dada por o an,n−1
(j) an,n−1 (j+1)

λn λn−1

,

(V.2.25)

es decir an,n−1 = O
(j)

λn λn−1

j

.

(V.2.26)

Uno de los problemas con que se confronta es que la convergencia puede ser demasiado lenta, sobre todo si |λn | ≈ |λn−1 |; pero este inconveniente puede superarse aplicando el algoritmo QR, en lugar de la matriz A, a A − pI, (V.2.27)

donde p ≈ λn . p se lo conoce con el nombre de shift. En este caso la velocidad de convergencia est´ dada por a an,n−1 = O
(j)

λn − p λn1 − p

j

.

(V.2.28)

El algoritmo QR con shift Antes de comenzar el algoritmo QR, se supone que la matriz A est´ a expresada bajo la forma de una matriz de Hessenberg. El algoritmo QR con shift, se lo define de manera recursiva como: A1 = A, Qj Rj = Aj − pj I, Aj+1 = Rj Qj + pj I. Las dos maneras m´s corrientes de elegir el shift pk son: a

(V.2.29)

´ V.2 Determinacion de Valores Propios
(k)

239

1.- Se plantea pk = an,n . Este procedimiento funciona bien, si todos los valores propios de la matriz A son reales. 2.- Se toma pk , al valor propio de la matriz an−1,n−1 an,n−1
(k) (k) (k)

an−1,n an,n
(k)

(k)

,

que es m´s pr´ximo al coeficiente an,n . a o Una interrogante muy importante surge, cuando detener el algoritmo QR. Uno de los criterios m´s usados es el siguiente. Si a an,n−1 ≤ eps se plantea
(k) λn = ann . (k) (k) ann + an−1,n−1 (k)

,

(V.2.30)

(V.2.31)

Luego se continua con la matriz A(k) de dimension n − 1 resultante, hasta obtener todos los valores propios de la matriz A. La experiencia n´merica muestra que el algoritmo QR converge linealu mente, mientras que el algoritmo QR con shift tiene convergencia cuadr´tica. a Ejemplos 1.- Consid´rese, la matriz A definida por e   10 7 6 A =  0.1 5 3  0 0.1 1

matriz de tipo Hessenberg. Por lo tanto lista, para ser aplicado el m´todo e QR y el m´todo QR con shift. A continuaci´n, se mostrar´ las iteraciones e o a resultantes del m´todo QR sin shift e 10.070493 A2 = .49305211 − 001 .00000000 10.105227 A3 = .24258892 − 001 .00000000 10.122222 A4 = .11880000 − 001 .00000000 7.0701525 4.9895287 .19067451 − 001 7.0677632 4.9656988 .35752960 − 002 7.0596308 4.9507267 .66976513 − 003 5.8875209 2.8589253 .93997833 5.8742925 2.8145741 .92907381 5.8759333 2.7975584 .92705007

240

´ V Calculo de Valores Propios Puede observarse que la convergencia es lineal y adem´s se tiene a a21
(k+1) (k) a21 (k+1) a32 (k) a32

∼ ∼

1 , 2 1 , 5

por consiguiente se necesitan por lo menos 10 iteraciones para obtener (k) (k) a32 ∼ 10−8 y por lo menos 23 iteraciones para tener a21 ∼ 10−8 . Para poder observar la verdadera potencia de aplicar el m´todo QR con e shift, a continuaci´n se muestran las 6 iteraciones que son necesarias, o para obtener los valores propios de la matriz A. p1 = 1.0 10.078261 7.0950933 A2 = .43358029 − 001 4.9964769 .00000000 −.19045643 − 002 p2 = .92526107 10.112141 7.0679606 A3 = .19226871 − 001 4.9612733 .00000000 −.62453559 − 006 p3 = .92526107 10.126953 7.0571468 A4 = .84142592 − 002 4.9464609 .00000000 −.67414063 − 013 p4 = .84142592 − 002 10.138415 7.0571468 A5 = −.18617346 − 004 4.9349986 p5 = −.18617346 − 004 10.138390 7.0497319 A6 = −.90446847 − 010 4.9350238 λ1 = 10.138390, λ2 = 4.9350238, λ3 = 0.92658424. 2.- Puede observarse en el ejemplo anterior que la convergencia del m´todo e QR con shift es cuadr´tica, para ilustrar este hecho, consid´rese a e A= 2 a ǫ 1 , 5.8540158 2.8312527 .92526107 5.8707690 2.8312527 .92526107 5.8766286 2.7929532 .92658424

obteniendo, as´ los siguientes valores propios: ı

´ V.2 Determinacion de Valores Propios

241

con ǫ bastante peque˜o. Aplicando el m´todo QR con shift se tiene p1 = 1 n e y 1 a , A − p1 I = ǫ 0 obteniendo Q1 R1 = lo que da A1 = ∗ −ǫ2 /1 + ǫ2 ∗ ∗ , √ 1/√ 1 + ǫ2 ǫ/ 1 + ǫ2 √ −ǫ/ 1 + ǫ2 √ 1/ 1 + ǫ2 √ 1 + ǫ2 0 √ a/ √ + ǫ2 1 −ǫa/ 1 + ǫ2

,

de donde la convergencia es cuadr´tica, si a es arbitrario. Si la matriz a es sim´trica, se puede observar que la convergencia ser´ c´bica en este e ıa u ejemplo, tomar a = ǫ.

Ejercicios
1.- Calcular los valores propios y vectores propios de   2 1   1 2 12 A= , 0 1 2 1 1 2 2.- Sea 

utilizando el m´todo de la potencia inversa de Wielandt. e

La matriz A define un m´todo de Runge-Kutta. e

√ √ √  88 − 7 6 296 − 169 6 −2 + 3 6 360 √ 1800 225 √   √  88 + 7 6 −2 − 3 6  . A =  296 + 169 6  1800 360 225   √ √ 16 − 6 16 + 6 1 36 36 9 Calcular α, β, λ y una matriz T a coeficientes reales, tal que   α β 0 T −1 =  −β α 0  . 0 0 λ

3.- Sea A una matriz de orden s que es diagonalizable, y sea J una matriz de orden n. Se define el producto tensorial A ⊗ J por   a11 J · · · a1s J . .  . . A⊗J = . . . as1 J · · · ass J

242

´ V Calculo de Valores Propios Encontrar un algoritmo eficaz para resolver un sistema lineal con la matriz I − A ⊗ J. Indicaciones: a) Mostrar que (A ⊗ B)(C ⊗ C) = (AC) ⊗ (BD). b) Sup´ngase que o  λ1 ..  

T −1 AT = Λ =  y utilizar la descomposici´n o

. λs

I − A ⊗ J = (T ⊗ I)(I − Λ ⊗ J)(T −1 ⊗ I)

(V2.32)

c) estimar el n´mero de multiplicaciones necesarias, si: u — se calcula la descomposici´n LR de I − A ⊗ J, o — se utiliza (V.2.32); el trabajo principal es el c´lculo de la descoma posic´n LR de I − Λ ⊗ J. o 4.- Calcular todos los valores propios de 1 −1  −1 2 −1  .. .. A=  . .   −1        ..  n .   2 −1    −1 3

para n = 10 y n = 20. Utilizar el m´todo de la bisecci´n. e o 5.- Mostrar que si la matriz A = A1 es una matriz de Hessenberg, las matrices Ak , k = 2, construidas en el m´todo QR son igualmente e matrices de Hessenberg.

Cap´ ıtulo VI Integraci´n Num´rica o e

En muchos problemas aparecen integrales, ya sean ´stas simples, m´ltiples e u y de otras clases. En los cursos elementales de C´lculo, la determinaci´n de a o primitivas es un t´pico de bastante importancia. Por consiguiente, existen los o elementos te´ricos para evaluar primitivas. Sin embargo la mayor parte de las o aplicaciones n´mericas donde interviene la integraci´n, presenta integrales u o cuyo c´lculo de primitivas es imposible en t´rminos de funciones elementales, a e o por las caracter´ ısticas propias de los problemas solo se requiere una c´mputo aproximado de ´stas. o e En este cap´ ıtulo se tratar´ las base te´ricas de la integral de Riemann, a o luego se abordar´ la noci´n de f´rmula de cuadratura y como consecuencia a o o l´gica se definir´ el orden de una f´rmula de cuadratura. El segundo o a o tema que ser´ estudiado, como parte integrante del An´lisis Num´rico, a a e est´ relacionado con la estimaci´n del error cometido por la utilizaci´n de a o o m´todos num´ricos de integraci´n. Se comparar´, diferentes f´rmulas de e e o a o cuadratura haciendo hincapi´ en aqu´llas de orden elevado. Las f´rmulas e e o de cuadratura de Gauss ser´n estudiadas como un caso de f´rmulas de orden a o elevado y para comprenderlas mejor se introducir´ la noci´n de polinomios a o ortogonales. Despu´s, se formular´ un m´todo adaptativo para determinar e a e integrales y como corolario se har´ un tratamiento de singularidades, es decir a se implementar´ m´todos para resolver integrales impropias. Como ultimo a e ´ t´pico, se vera la interpolaci´n trigonom´trica, es decir se har´ un estudio o o e a de las Transformadas de Fourier discretas, como tambi´n la Transformada e de Fourier R´pida, mas conocida como FTP. a

VI.1 Bases Te´ricas o

En esta secci´n, se ver´n las bases te´ricas de la teor´ de la integraci´n, o a o ıa o pero ´sta limitada a la integral de Riemann. Por otro lado, tambi´n ser´n e e a abordados las motivaciones para tener la integral como un instrumento matem´tico de C´lculo. a a Uno de los problemas con el cual el hombre ha confortado desde ´pocas e lejanas, ha sido el c´lculo de areas, volumenes y otros, tanto por la necesidad a cotidiana, como tambi´n dentro el esp´ e ıritu de reflexi´n e investigaci´n que o o lo ha caracterizado siempre. La integral m´s utilizada, desde el punto de vista de c´lculo y pr´ctico, a a a es la integral de Riemann, cuya definici´n permiti´ que el c´lculo integral o o a tuviese bases te´ricas cimentadas. En lo que sigue, se har´ una presentaci´n o a o te´rica de esta importante noci´n. o o Definici´n VI.1.1.- Sea, [a, b] un intervalo compacto de la recta real. Se o llama subdivisi´n del intervalo [a, b] un conjunto S ⊂ [a, b] finito. o Por consiguiente S puede ser ordenado, como una sucesi´n finita de o puntos de [a, b] expresada de la manera siguiente S = x0 < x1 < · · · < xn ⊂ [a, b]. Definici´n VI.1.2.- Sea S una subdivisi´n de [a, b], se llama paso de la o o subdivisi´n S a o δ(S) = max |xi − xi−1 | .
i=1,...,n

Ahora bien, la noci´n de integral est´ definida para funciones cuyo o a dominio son intervalos compactos, adem´s se exige que la funci´n sea a o acotada. Como no es proposito del libro hacer una exposici´n sobre la teor´ o ıa de la integraci´n, se dar´ una de las definiciones de una funci´n integrable o a o en el sentido de Riemann. Definici´n VI.1.3.- Sea f : [a, b] → R una funci´n acotada sobre un o o intervalo compacto. Se dira que f es Riemann integrable si
n δ(S)→0

lim

i=1

f (ξi )(xi − xi−1 ) existe,

con ξi ∈ [xi−1 , xi ], independientemente de S y de los ξi . Si ´ste es el caso, e este l´ ımite se lo denota por
b

f (x)dx.
a

´ VI.1 Bases Teoricas

245

Se puede demostrar que las funciones mon´tonas, continuas y en escalera o son Riemann integrables. El c´lculo de la integral como un l´ a ımite puede ser bastante tedioso, motivo por el cual, los cursos de C´lculo en los niveles a b´sicos universitarios y ultimos cursos de colegio, dan un ´nfasis al c´lculo a e a de primitivas, que para recordar es: Definici´n VI.1.4.- Dada una funci´n ϕ sobre un intervalo I de R. Se dice o o que una funci´n φ : I → R es una primitiva de ϕ si, en todo punto x de I, o la funci´n φ es derivable y si φ′ (x) = ϕ(x). o Sea f : [a, b] → R una funci´n integrable en el sentido de Riemann, se o define para todo x ∈ [a, b]
x

F (x) =
a

f (t)dt.

Proposici´n VI.1.5.- La funci´n F es continua, adem´s si la funci´n o o a o f es continua en un punto x de [a, b], la funci´n F es derivable en x y o F ′ (x) = f (x). Corolario VI.1.6.- Una funci´n continua sobre un intervalo compacto o admite una primitiva. Las demostraciones de la proposici´n y el corolario precedentes se las o puede encontrar en cualquier libro de An´lisis. A continuaci´n, se enuncia a o uno de los teoremas fundamentales del c´lculo. a Teorema VI.1.7.- Sea f : [a, b] → R una funci´n integrable en el sentido o de Riemann que, adem´s admite una primitiva G. Para todo x ∈ [a, b], se a tiene: x G(x) − G(a) = f (t)dt.
a

Ahora bien, desde el punto de vista num´rico, el c´lculo de primitivas e a no tiene mayor utilidad pr´ctica, pu´s en la mayor parte de los casos a e la determinaci´n anal´ o ıtica de ´stas es costosa en tiempo. El tratamiento e num´rico que se realiza en el c´lculo de integrales est´ basado en la misma e a a definici´n de integral. Por consiguiente utilizando la definici´n, se tiene que o o ∀ǫ > 0, existe S ⊂ [a, b] y ξi ∈ [xi−1 , xi ] tal que
n i=1 b

f (ξi )(xi − xi−1 ) −

f (x)dx < ǫ,
a

de donde el enfoque num´rico consiste en aproximar la integral utilizando, e sumas finitas de Riemann. Por otro lado, una de las tareas del An´lisis a Num´rico en lo que respecta el c´lculo de integrales, est´ dada en la conse a a trucci´n de f´rmulas de cuadratura con un costo razonable en operaciones, o o y una precisi´n aceptable en la determinaci´n de la integral. o o

246

´ ´ VI Integracion Numerica

A continuaci´n, se mostrar´ las f´rmulas de cuadratura o de integraci´n o a o o mas rudimentarias. a) Regla del Punto Medio Consiste en utilizar la suma de Riemann con ξi = consiguiente
n

xi−1 + xi , por 2

f
i=1

xi−1 + xi 2

b

(xi − xi−1 ) ≈

f (x)dx.
a

La regla del punto medio, da resultados exactos cuando f es un polinomio de grado menor o igual a 1. Ver figura VI.1.1.

x0

x1

x2

x3

xn-1 xn

Figura VI.1.1. Regla del Punto Medio.

b) Regla del Trapecio Consiste en aproximar f (ξi )(xi−1 − xi ) con el area de un trapecio de alturas f (xi−1 ) y f (xi ). Por consiguiente
n i=1

f (xi−1 ) + f (xi ) (xi − xi−1 ) ≈ 2

b

f (x)dx,
a

de donde, esta suma puede expresarse de manera m´s simple, como a
b a

f (x)dx ≈ f (x0 )

x2 − x0 x 1 − x0 + f (x1 ) + ··· 2 2 xn − xn−2 xn − xn−1 · · · + f (xn−1 ) + f (xn ) . 2 2

´ VI.1 Bases Teoricas

247

x0

x1

x2

x3

xn-1 xn

Figura VI.1.2. Regla del Trapecio. Esta f´rmula es exacta para polinomios de grado igual o inferior a 1. o Ver figura VI.1.2. c) Regla de Simpson Consiste en aproximar f (ξi )(xi−1 − xi ), con el area de la superficie cuyo lado superior, ver figura VI.1.3, esta dada por la par´bola que pasa por a xi−1 + xi xi−1 + xi , f( )) y (xi , f (xi )). Para los puntos (xi−1 , f (xi−1 ), ( 2 2 simplificar los c´lculos se toma para x0 , y x1 , obteniendo como polinomio a de interpolaci´n o f (x0 ) + f ((x0 + x1 )/2) (x − x0 ) x1 − x0 f (x0 ) − 2f ((x0 + x1 )/2) + f (x1 ) (x − (x0 + x1 )/2)(x − x1 ). +2 (x1 − x0 )2

p(x) = f (x0 ) + 2

Ahora bien, integrando este polinomio de segundo grado entre x0 y x1 , se obtiene
x1 x0

f (x)dx ≈

4 1 f (x0 ) + f 6 6

x0 + x1 2

1 + f (x1 ) h1 , 6

para finalmente tener
b a n

f (x)dx ≈

i=1

1 4 f (xi−1 ) + f 6 6

xi−1 +

hi 2

1 + f (xi ) hi . 6

La f´rmula de Simpson es exacta para polinomios de grado igual o o

248 inferior a 3.

´ ´ VI Integracion Numerica

x0
Figura VI.1.3. Regla de Simpson.

x1

d) Regla de Newton Consiste en aproximar f (ξi )(xi−1 − xi ), con el area de la superficie cuyo lado superior, ver figura VI.1.4, esta dada por la par´bola c´bica que a u 2xi−1 + xi 2xi−1 + xi , f( )), pasa por los puntos (xi−1 , f (xi−1 ), ( 3 3 xi−1 + 2xi xi−1 + 2xi , f( )) y (xi , f (xi )). De la misma manera que en la ( 3 3 regla de Simpson, se calcula esta par´bola c´bica utilizando por ejemplo a u la f´rmula de Newton para determinar polinomios de interpolaci´n, o o luego se integra para obtener
x1 x0

f (x)dx ≈

1 3 1 3 h1 2h1 + f x0 + + f (x1 ) h1 . f (x0 )+ f x0 + 8 8 3 8 3 8

La regla de Newton es exacta para polinomios de grado menor o igual a 3.

x0
Figura VI.1.4. Regla de Newton.

x1

F´rmulas de Cuadratura o

´ VI.1 Bases Teoricas

249

En los cuatro ejemplos precedentes de la anterior subsecci´n, puede obsero varse claramente que las reglas de integraci´n formuladas tienen la misma o estructura, la cual define t´citamente una f´rmula de cuadratura. La mayor a o parte de los m´todos num´ricos est´n basados en este principio. e e a Se desea integrar la funci´n f : [a, b] → R, donde f es Riemann o integrable. Para tal efecto se considera una subdivisi´n o S = {a = x0 < x1 < · < xn = b} . La integral puede ser aproximada mediante la f´rmula de cuadratura sio guiente
n j=1 s

bi f (xj−1 + ci hj ) ,
i=1

(VI.1.1)

los ci se llaman nudos de la f´rmula de cuadratura y los bi son los coeficientes o de la f´rmula de cuadratura. o Para la regla del Trapecio, se tiene s = 2, b1 = b2 = 1/2 y c1 = 0, c2 = 1. As´ mismo, para la regla de Simpson se tiene s = 3, b1 = b3 = |1/6, b = 4/6 ı y c1 = 0, c2 = 1/2, c3 = 1. Dada una f´rmula de cuadratura, uno de los objetivos principales es o medir la precisi´n de ´sta. Por razones de simplicidad, es preferible estudiar o e la f´rmula de cuadratura en una funci´n f : [0, 1] → R y considerar h1 = 1, es o o decir integrar num´ricamente con un paso de integraci´n. Por consiguiente, e o se analizar´ el problema a
s i=0 1

bi f (ci ) ≈

f (x)dx.
0

El Orden de una F´rmula de Cuadratura o
Definici´n VI.1.8.- Una f´rmula de cuadratura tiene orden p, si y solao o mente si, p es el entero m´s grande, tal que a
s 1

bi f (ci ) =
i=0 0

f (x)dx,

(VI.1.2)

donde f es un polinomio de grado ≤ p − 1. Proposici´n VI.1.9.- Una f´rmula de cuadratura es de orden p, si y o o solamente si s 1 bi cq−1 = , q = 1, . . . , p. (VI.1.3) i q i=0

250

´ ´ VI Integracion Numerica

Demostraci´n. La integraci´n es una operaci´n lineal, por lo tanto es o o o suficiente mostrar que (VI.1.2) se cumple para f (x) = xq−1 , donde q = 1, . . . , p − 1. Ahora bien,
1 0

xp−1 dx =

1 . q

Por simple verificaci´n, puede comprobarse que la f´rmula de cuadratura o o de la regla del Trapecio es p = 2, la de la regla de Simpson es p = 4. Definici´n VI.1.10.- Una f´rmula de cuadratura se dice sim´trica, si: o o e ci = 1 − cs+1−i , bi = bs+1−i , i = 1, . . . , s. (IV.1.3)

Teorema VI.1.11.- Una f´rmula de cuadratura sim´trica tiene un orden o e par. Demostraci´n.- Sup´ngase que la f´rmula de cuadratura sea exacta para o o o f (x) polinomio de grado ≤ 2k. Por consiguiente se debe demostrar que la f´rmula de cuadratura es exacta para los polinomios de grado igual a 2k + 1. o Sea f (x) un polinomio de grado igual a 2k + 1. Ahora bien, f (x) puede expresarse de la siguiente manera f (x) = c x − 1 2
2k+1

+ g(x),

donde g(x) es un polinomio de grado a lo m´s 2k. Por otro lado a
1 0

c x−

1 2

2k+1

dx = 0.

Por consiguiente, es suficiente mostrar que
s i=1

bi ci −

1 2

2k+1

= 0,

esto es cierto debido a la simetr´ de la f´rmula de cuadratura. ıa o

Estimacion del Error
Dada una funci´n f : [a, b] → R, se quiere tener una estimaci´n del error o o cometido por la utilizaci´n de una f´rmula de cuadratura. Sea c1 , . . . , cs y o o

´ VI.1 Bases Teoricas

251

b1 , . . . , bs los coeficientes y los nudos respectivamente, de una f´rmula de o cuadratura dada. Por consiguiente, se tiene
b n s

f (x)dx =
a j=1

hj
i=1

bi f (xj + ci hj ) =
n xj s

h
j=1

xj−1

f (x)dx − hj

bi f (xj + ci hj ) .
i=1

Para poder determinar el error, es decir la diferencia entre la integral y la f´rmula de cuadratura que aproxima la integral, se define o
x0 +h s

E(f ) =
x0

f (x)dx − h

bi f (x0 + ci h).
i=1

(VI.1.4)

Habiendo definido E(f ), se puede determinar su valor, el cual est´ dado en a el siguiente: Teorema VI.1.12.- Sea f ∈ C k [a, b], es decir f k veces continuamente derivable. Entonces, se tiene
k−1

E(f ) =
j=0

hj+1 j!

1 bi cj + hk+1 − j + 1 i=1 i

s

1 0

Pk (t)f (k) (x0 + th)dt (VI.1.5)

donde Pk (t) = E
k−1 (x − t)+ (k − 1)!

,

k−1 α+

=

αk−1 0

α≥0 α<0

.

Demostraci´n.- Se tiene, efectuando un cambio de variable en la integral, o que
1 s

E(f ) = h
0

f (x0 + th)dt − h

bi f (x0 + ci h),
i=1

por otro lado, el desarrollo en serie de Taylor de f (x0 + τ h) con resto en forma de integral est´ dado por a
k−1

f (x0 + h) =
j=0

hj (j) f (x0 ) + hk j! hj (j) f (x0 )tj + hk j!

1 0

(1 − τ )k−1 (k) f (x0 + τ h)dτ, (k − 1)!
t

por lo tanto
k−1

f (x0 + th) =
j=0

0

(t − τ )k−1 (k) f (x0 + τ h)dτ, (k − 1)!

252 introduciendo esta serie en E(f ), se obtiene
k−1

´ ´ VI Integracion Numerica

E(f ) =
j=0

hj+1 (j) f (x0 ) j!
1 t 0

1 0

s

tj dt −

bi cj i
i=1

1 j+1

+ hk+1
0

(t − τ )k+1 (k) + f (x0 + τ h)dτ dt (k − 1)!
s ci

bi
i=1 0

k−1 (ci − τ )+ f (k) (x0 + τ h)dτ (k − 1)!

remplazando en el l´ ımite de integraci´n t por 1, se tiene que el ultimo t´rmino o ´ e del lado derecho de la anterior relaci´n, est´ dado por o a hk+1
0 1 0 1

(t − τ )k+1 + dt − (k − 1)!

s

bi
i=1

k−1 (ci − τ )+ f (k) (x0 + τ h)dτ. (k − 1)!

La funci´n Pk (t) definida en el teorema, es conocida por el nombre de o Nucleo de Peano de la f´rmula de cuadratura c1 , . . . , cs ; b1 , . . . , bs . o Teorema VI.1.13.- El nucleo de Peano de una f´rmula de cuadratura dada, o tiene las siguientes propiedades: a); b) c) d) Pk (τ ) = (1 − τ )k − k!
s i=1 k−1 (ci − τ )+ (k − 1)!

′ Pk (τ ) = −Pk−1 (τ ), para k ≥ 2; Pk (1) = 0, para k ≥ 2, si ci ≤ 1; Pk (0) = 0, para 2 ≤ k ≤ p, si ci ≥ 0 y p orden de la f.q.; s

e) Si la f´rmula de cuadratura es 0 ≤ c1 < . . . < cs ≤ 1 y o

bi = 1,
i=1

entonces P1 (τ ) es lineal por trozos, con las siguientes propiedades: P1 (0) = 0, P1 |(ci−1 ,ci ) (x) = −x + di , donde di es una constante, adem´s P1 (ci+ ) − a P1 (ci− ) = bi , ver figura VI.1.4.

0

c1

c2

cs

1

Figura VI.1.5. Gr´fica de P1 (τ ) a

´ VI.1 Bases Teoricas Demostraci´n.- Para el punto a), se tiene que o
1

253

Pk (τ ) =
0 1

k−1 k−1 (x − τ )+ (x − τ )+ bi dx − (k − 1)! (k − 1)! i=1 k−1 (x − τ )+ (x − τ )k−1 bi dx − (k − 1)! (k − 1)! i=1 s s

s

=
τ

=

(1 − τ )k − k!

bi
i=1

k−1 (x − τ )+ . (k − 1)!

El punto b), se obtiene del punto a), derivando para k ≥ 2. El punto c) es verificaci´n inmediata, remplazando en τ = 1, siempre que los ci ≤ 1. o La demostraci´n del punto d) se basa en que la f´rmula de cuadratura, o o es exacta para los polinomios de grado inferior a p y Pk (0) = = 1 ck−1 bi i − k! i=1 (k − 1)! 1 1 bi ck−1 . − (k − 1)! k i=1 i
s s

El punto e) es una verificaci´n sencilla que se deja al lector. o Ejemplo La regla de Simpson es una f´rmula de cuadratura, dada por o c1 = 0, c2 = 1/2, c3 = 1; b1 = 1, /6 b2 = 4, /6 b3 = 1/6. Utilizando las propiedades dadas en el teorema precedente, se tiene:   1 − τ, 0 ≤ τ ≤ 1 ;  2 P1 (τ ) = 6   (1 − τ ) − 1 , 1 ≤ τ ≤ 1. 6 2

P2 (τ ) se obtiene integrando P1 (τ ) por el punto b) del teorema precedente. Por consiguiente  2   − τ + τ , 0 ≤ τ ≤ 1;  6 2 2 P2 (τ ) =  (1 − τ )2 (1 − τ ) 1   − , < τ ≤ 1. 2 6 2

254

´ ´ VI Integracion Numerica De la misma manera, se obtiene P3 (τ ) de P2 (τ ), dando como resultado:  2 3  τ − τ , 0 ≤ τ ≤ 1;   12 6 2 P3 (τ ) = 3 2    − (1 − τ ) − (1 − τ ) , 1 < τ ≤ 1; 6 12 2  τ3 τ4 1  − + , 0≤τ ≤ ;  36 24 2 P4 (τ ) =  (1 − τ )3 1  (1 − τ )4  − , < τ ≤ 1. 24 36 2 Ver los gr´ficos en la figura IV.1.6. a Consecuencia inmediata del teorema VI.1.12, se tiene el siguiente:

Teorema VI.1.14.- Sean, f ∈ C k [a, b], c1 , . . . , cs ; b1 , . . . , bs una f´rmula de o cuadratura cuyo orden p ≥ k, entonces |E(f )| ≤ hk+1
1 0

|Pk (τ )| dτ

x∈[x0 ,x0 +h]

max

f (k) (x) .

(VI.1.6)

.6 .4 .2 .0 −.2 −.4 −.6 .01 .0 .5 1.0

P1

.1

P2

.0

.0

.5

1.0

−.1

P3

.004 .003 .002 .001

P4

.00

.0

.5

1.0

.000 −.001 −.002 −.003 −.004

.0

.5

1.0

−.01

´ VI.1 Bases Teoricas

255

Figura VI.1.6. Nucleos de Peano, para la f´rmula de Simpson. o Para el ejemplo precedente, se tiene que la f´rmula de Simpson es una o f´rmula de cuadratura de orden 4, por consiguiente o
1 0 1/2

|P4 (τ )| dτ = −2

P4 (τ )dτ =
0

1 , 2880

de donde, si f es cuatro veces continuamente derivable, se tiene que el error verifica h5 |E(f )| ≤ f (4) (x) . max 2880 x∈[x0 ,x0 +h] Teorema VI.1.15.- Si f ∈ C k [a, b], k ≤ p , donde p es el orden de la f´rmula o de cuadratura, entonces
b a n s

f (x)dx −

hj
j=1 i=1

bi f (xj−1 + ci hj )
1 0

≤ hk (b − a) donde h = max hi . Demostraci´n.- Se tiene o
b a n s

|Pk (τ )| dτ max f (k) (x) ,
x∈[a,b]

(VI.6.7)

f (x)dx −

hj
j=1 i=1

bi f (xj−1 + ci hj ) =
n xj xj−1 1 0 s

=
j=1

f (x)dx − hj

bi f (xj−1 + ci hj )
i=1

≤ hk+1 j por otro lado, se tiene
n n

|Pk (τ )| dτ max f (k) (x) ,
x∈[a,b]

hk+1 = j
i=1 i=1

hj hk ≤ (b − a)hk . j

256

´ ´ VI Integracion Numerica

Por lo tanto, la Regla de Simpson da la siguiente estimaci´n para el error o global |error| ≤ h4 (b − a) max f (4) (x) . 2880 x∈[a,b]

Los teoremas VI.1.13 a VI.1.15 dan estimaciones te´ricas del error o cometido, cuando se utiliza una f´rmula de cuadratura. Sin embargo, es imo portante comprobar estas estimaciones te´ricas con experimentos num´ricos. o e Suponiendo que la subdivisi´n del intervalo [a, b] es uniforme, de la f´rmula o o (VI.1.7), suponiendo f suficientemente derivable, se deduce,
b n s

f (x)dx =
a j=1

h
i=1

bi f (xj−1 + ci h) + Chp + O(hp+1 ),

(VI.1.8)

donde C depende solamente de a, b y f (x). Por consiguiente, el error satisface Error ≈ Chp . Introduciendo logaritmos, se tiene log10 (Error) = log10 C + p log h, denotando fe, la cantidad de evaluaciones de la funci´n f (x), en el proceso o de integraci´n num´rica, se tiene o e fe = C′ , h (VI.1.9)

donde C ′ es una constante, Por lo tanto, se obtiene − log10 (Error) = C + p log10 fe. (VI.1.10)

De esta ultima relaci´n, se deduce que − log10 (Error) y log10 fe tienen ´ o una relaci´n lineal de pendiente p, donde p es el orden de la f´rmula de o o cuadratura. En la figura VI.1.7, se comprueba este hecho, utilizando como integral test
1 0

cos(πex )ex dx =

1 sin(πe). π

´ VI.1 Bases Teoricas
106

257

fe

105

104

103

102

101

100 0 10

err glob
10−1 10−2 10−3 10−4 10−5 10−6 10−7 10−8 10−9 10−10

Metodo de Euler Metodo de Runge Metodo de Heun Metodo de Kutta Metodo 3/8
Figura VI.1.7. Gr´fica del Error vs fe. a

Ejercicios
1.- Calcular el orden de la regla de Newton: 1 2 (ci ) = (0, , , 1), 3 3 1 3 3 1 (bi ) = ( , , , ). 8 8 8 8

2.- Sean 0 ≤ c1 < c2 < · · · < cs ≤ 1 dados. Mostrar que existe una f´rmula o de cuadratura unica con nudos ci y con un orden ≥ s. ´

258

´ ´ VI Integracion Numerica

3.- Mostrar que si la f´rmula de cuadratura satisface o y si es de orden ≥ s, entonces se tiene tambi´n e bi = bs+1−i . 4.- ¿C´mo se debe elegir c1 , c2 ? para que la f´rmula de cuadratura o o b1 f (c1 ) + b2 f (c2 ) tenga un orden maximal. ¿C´al es el orden?, ¿La f´rmula de cuadratura u o es sim´trica? e 2 dx 5.- Calcular = ln 2 mediante la regla del trapecio, la regla de Simpson 1 x y la regla de Newton. ¿C´al f´rmula es la mejor? Hacer un gr´fico u o a logar´ ıtmico para el n´mero de evaluaciones de la funci´n f respecto u o al error. 6.- Lo mismo que el ejercicio 5, pero para

ci = 1 − cs+1−i ,

exp(sin x)dx.
0

7.- Calcular π utilizando 1 dx y π=4 π=4 2 0 1+x ¿Por qu´ el segundo resultado es menos bueno? e

1 0

1 − x2 dx.

8.- Mostrar que el resultado obtenido por la regla del trapecio, o por la regla de Simpson, es una suma de Riemann. 9.- Sean h = (b − a)/n, xi = a + ih y T (h) = h 1 1 f (x0 ) + f (x1 ) + · · · + f (xn−1 ) + f (xn ) . 2 2 Demostrar que para f suficientemente derivable
b a

f (x)dx − T (h) = −

h2 ′ (f (b) − f ′ (a)) + O(h3 ). 12

10.- Calcular los nucleos de Peano para la f´rmula del ejercicio 4 y hacer sus o gr´ficas. a 11.- Calcular la expresi´n o , h2 para f (x) = 1/x, a = 1, b = 10; con varios valores de h. Verificar la f´rmula del ejercicio 9. o
b a

f (x)dx − T (h)

VI.2 Cuadraturas de Orden Elevado

En esta secci´n, se dar´n las herramientas te´ricas, para construir f´rmulas o a o o de cuadratura de orden elevado. El inter´s que se tiene para utilizar f´rmulas e o de cuadratura del mayor orden posible, reside sustancialmente en el hecho de aumentar la precisi´n en el c´lculo de integrales definidas, como tambi´n o a e de disminuir el n´mero de evaluaciones de la funci´n a integrar, ver la figura u o VI.1.7. Mediante el ejercicio 2, de la secci´n precedente, se demuestra que si o c1 , . . . , cs dados, existe una unica formula de cuadratura que es de orden ´ ≥ s, es decir s 1 bi cq−1 = , (VI.2.1) i q i=1 para q = 1, . . . , s. Sea m un entero no negativo, la f´rmula de cuadratura c1 , . . . , cs ; o b1 , . . . , bs ; es de orden ≤ s + m, si y solamente si, la f´rmula de cuadratura o es exacta para polinomios de grado ≤ s + m − 1. Ahora bien, se define el polinomio M (x) de grado s, por M (x) = (x − c1 )(x − c2 ) · · · (x − cs ), (VI.2.2)

donde los ci son los nudos de la f´rmula de cuadratura estudiada. Sea f (x) o un polinomio de grado ≤ s + m − 1, por la divisi´n con resto se tiene que o f (x) = q(x)M (x) + r(x), donde q(x) y r(x) son polinomios con deg q ≤ m − 1 y deg r ≤ s − 1. Por consiguiente
1 1 1

f (x)dx =
0 0

q(x)M (x)dx +
0

r(x)dx.

Utilizando la f´rmula de cuadratura en la anterior expresi´n, se obtiene o o
s s s

bi f (ci ) =
i=1 i=1

bi q(ci )M (ci ) +
i=1

bi r(ci ),

=0 suponiendo que el orden de la f´rmula de cuadratura sea ≥ s, se acaba de o demostrar el:

VI.2 Cuadraturas de Orden Elevado

259

Teorema VI.2.1.- Sea (bi , ci ), i = 1, . . . , s; una f´rmula de cuadratura con o orden ≥ s. Entonces     
1

q(x)M (x)dx = 0,
0

el orden de la f´rmula de o cuadratura es ≥ s + m

⇐⇒

para todo polinomio q(x)    con deg q ≤ m − 1.

Ejemplo El ejercicio 4 de la secci´n precedente demanda la construcci´n de una o o f´rmula de cuadratura del orden m´s elevado posible. En consecuencia, o a se define M (x) = (x − c1 )(x − c2 ). Se tiene que la f´rmula de cuadratura es de orden ≥ 3 si y solamente si o
1

M (x)dx = 0,
0

1 1 − (c1 + c2 ) + c1 c2 = 0, 3 2 la f´rmula de cuadratura es de orden m´s grande o igual a 4, si adem´s o a a
0

xM (x)dx = 0,
1

1 1 1 − (c1 + c2 ) + c1 c2 = 0, 4 3 2 obteniendo as´ un sistema de dos ecuaciones y dos incognitas. Una vez ı determinados los ci , el siguiente paso es determinar los bi .

Polinomios Ortogonales
Uno de los mayores inconvenientes en la construcci´n de f´rmulas de o o cuadratura de orden elevado utilizando el teorema VI.2.1, consiste en el hecho siguiente: se deben resolver sistemas de ecuaciones no lineales para determinar los nudos de la f´rmula de cuadratura. Est´ claro que para f´rmulas de o a o cuadratura con una cantidad no muy grande de nudos esto es posible, sin embargo para s ya m´s grande esto presenta una desventaja. En esta suba secci´n se estudiar´n polinomios ortogonales, cuyas raices son precisamente o a los nudos.

260

´ ´ VI Integracion Numerica

Se iniciar´ esta subsecci´n, definiendo un conjunto de funci´nes particua o o lares. Sea ω : (a, b) → R una funci´n, llamada funci´n de peso. Sea o o
b

E=

f : (a, b) → R|

a

ω(x) |f (x)| dx < ∞ .

2

(VI.2.3)

Puede mostrarse que E es un espacio vectorial para la adici´n de funciones y o la multiplicaci´n por escalares reales. Para las aplicaciones en general, puede o suponerse que f es una funci´n continua. o Suponiendo que ω(x) > 0, puede definirse un producto escalar sobre E, de la siguiente manera,
b

f, g =
a

ω(x)f (x)g(x)dx.

(VI.2.4)

Hay que remarcar dos hechos importantes; el primero E es en realidad un conjunto de clases de equivalencia de funciones, donde la relaci´n de o equivalencia est´ definida por a f ∼ g ⇐⇒ f (x) = g(x) en un conjunto de medida nula. La segunda observaci´n es consecuencia de la primera, se puede suponer o por lo tanto que E est´ constituida por funciones continuas, a lo sumo por a funciones continuas por trozos, y con ciertas condiciones impuestas a ω(x) puede demostrarse que f, f = 0 ⇐⇒ f = 0. Definici´n VI.2.2.- f es ortogonal a g, que se denota por f ⊥ g, si o f, g = 0. (VI.2.5)

El objetivo central ser´, por consiguiente, encontrar M (x) ⊥ q(x) si a deg q ≤ m − 1. Teorema VI.2.3.- Sea ω(x) dado, entonces existe una sucesi´n de polio nomios p0 (x), p1 (x), p2 (x), . . ., tal que: deg pj = j; pk , q = 0,

∀q polinomio de grado ≤ k − 1.

Si se supone que pk (x) = xk + r(x) con deg r(x) ≤ k − 1, los polinomios son unicos. ´

VI.2 Cuadraturas de Orden Elevado Los polinomios satisfacen la siguiente relaci´n recursiva: o p−1 (x) := 0, p0 (x) = 1, 2 pk+1 = (x − δk+1 )pk (x) − γk+1 pk−1 (x), donde δk+1 = xpk , pk , pk , pk
2 γk+1 =

261

(VI.2.6a) (VI.2.6b)

pk , pk . pk−1 , pk−1

(VI.2.6c)

Demostraci´n.- El primer punto del teorema, se obtiene a partir del o proceso de ortogonalizaci´n de Gramm-Schmidt. Las relaciones entre los difeo rentes polinomios ortogonales se demuestra por inducci´n. Por consiguiente, o se supone cierto para los polinomios p0 , p1 , . . . , pk . Ahora bien, se tiene
k

pk+1 (x) = xpk (x) +
j=0

cj pj (x),

por que el coeficiente dominante de pk es 1. Aplicando el producto escalar se tiene 0 = pk+1 , pk
k

= xpk , pk +
j=0

cj p j , p k

= xpk , pk + ck pk , pk , de donde ck = − xpk , pk . pk , pk

Por otro lado, aplicando nuevamente el producto escalar se tiene 0 = pk+1 , pk−1
k

= xpk , pk−1 +
j=0

cj pj , pk−1

= xpk , pk−1 + ck−1 pk−1 , pk−1 Ahora bien, se verifica facilmente, utilizando la definici´n del producto o escalar definido en E, que xpk , pk−1 = pk , xpk−1 ,

262

´ ´ VI Integracion Numerica

con la hip´tesis de inducci´n, se verifica inmediatamente que o o pk , xpk−1 = pk , pk , de donde ck−1 = pk , pk . pk−1 , pk−1

Los restantes cj , son nulos, utilizando la hip´tesis de inducci´n sobre la o o ortogonalidad. Consecuencia de este teorema, es que si los nudos de una f´rmula de o cuadratura son las raices del polinomio ps , definido en el teorema precedente, se tiene M (x) = ps (x) y por el teorema VI.2.1 el orden de la f´rmula de o cuadratura es igual o mayor a 2s. Teorema VI.2.4.- Sean los pk , como en el teorema VI.2.3, entonces las raices de pk (x) son reales, simples y est´n localizadas en el intervalo (a, b). a Demostraci´n.- Se donota por τ1 , . . . , τT las raices distintas de pk donde o la funci´n pk (x) cambia de signo. Se define el polinomio g(x) por o g(x) = (x − τ1 ) · · · (x − τT ), por consiguiente, se tiene que g(x)pk (x) no cambia de signo, de donde g(x), pk (x) = 0, por lo tanto deg g ≥ k, y por la hip´tesis inicial se tiene necesariamente que o T = k. En la tabla VI.2.1, se tienen los diferentes tipos de polinomios ortonormales para diferentes tipos de funci´n de peso ω(x). o Tabla VI.2.1. Ejemplos de Polinomios Ortonormales ω(x) 1 1 (1 − x)α (1 + x)β xα e−x e
−x2

(a, b) (−1, 1) (−1, 1) (−1, 1) (0, ∞) (−∞, ∞)

Notaci´n o Pk (x) Tk (x) Pk
(α,β)

Nombre Polinomios de Legendre Polinomios de Chebichef Jacobi, α, β > −1 Pol. de Laguerre, α > −1 Polinomios de Hermite

1 − x2

(x)

(α) Lk (x)

Hk (x)

VI.2 Cuadraturas de Orden Elevado

263

Teorema VI.2.5.- F´rmula de Rodriguez. Sea ω(x) una funci´n de peso o o definida como antes. Entonces pk (x) = Ck 1 dk ω(x)(x − a)k (b − x)k . ω(x) dxk (VI.2.7)

Demostraci´n.- Una verificaci´n simple sobre pk (x), muestra que se tratan o o efectivamente de polinomios. Para la relaci´n de ortogonalidad con k dado, o es suficiente mostrar que si q(x) es un polinomio de grado ≤ k − 1 entonces q ⊥ pk . En efecto
b b

ω(x)pk (x)q(x)dx =
a a

dk ω(x)(x − a)k (b − x)k q(x)dx dxk
b a

=

dk−1 ω(x)x − a)k (b − x)k q(x) dxk−1
b

− . . .
b

a

=0 dk−1 ω(x)x − a)k (b − x)k q ′ (x)dx dxk−1

=± = 0.

a

ω(x)x − a)k (b − x)k q (k) dx

La mayor parte de los c´lculos de integrales definidas, tienen como funci´n de a o peso ω(x) = 1. A continuaci´n se estudiar´ con mayor detalle los polinomios o a de Legendre.

Los Polinomios de Legendre
Los polinomios de Legendre son los polinomios ortogonales para la funci´n o de peso ω(x) = 1 definida en el intervalo (−1, 1), ver la tabla VI.2.1. Por otro lado, utilizando la f´rmula de Rodriguez se puede elegir los Ck de manera o que Pk (1) = 1. Por consiguiente, se tiene 1 = Pk (1) = Ck de donde Ck = dk (1 − x)k (1 + x)k dxk (−1)k , 2k k! = Ck (−2)k k!,
x=1

264 por lo tanto Pk (x) =

´ ´ VI Integracion Numerica

(−1)k dk (1 − x2 )k . 2k k! dxk

(VI.2.8)

Los polinomios de Legendre pueden ser calculados mediante la f´rmula o de Rodriguez, o mediante una relaci´n recursiva, ver ejercicio 1. En la tabla o VI.2.2, se da los cuatro primeros polinomios de Legendre. Tabla VI.2.2. Polinomios de Legengre k 0 1 2 3 Pk (x) 1 x 3 2 x − 2 5 3 x − 2 1 2 3 x 2

Puede observarse que si k es par, entonces Pk (x) = Q(x2 ) donde Q es un polinomio; de la misma manera si k es impar, se tiene que Pk (x) = xQ(x2 ).

Las F´rmulas de Cuadratura de Gauss o
La verificaci´n del orden de una f´rmula de cuadratura, se la realiza en el o o intervalo [0, 1]. Efectuando una transformaci´n af´ se tiene que M (x) del o ın, teorema VI.2.1, es igual a M (x) = (x − c1 ) · · · (x − cs ) = Ps (2x − 1) (VI.2.9)

con Ps el s-simo polinomio de Legendre, si se desea que orden de la f´rmula o cuadratura sea al menos s. El siguiente teorema, tiene una importancia en lo concerniente al orden de una f´rmula de cuadratura. o Teorema VI.2.6.- El orden de una f´rmula de cuadratura dada por (bi , ci ), o i = 1, . . . , s; es menor o igual a 2s. Demostraci´n.- Por el absurdo. Sup´ngase que existe una f´rmula de o o o cuadratura de orden superior o igual a 2s + 1, de donde para todo polinomio l(x) de grado s, se tiene
1

l(x)M (x)dx,
0

VI.2 Cuadraturas de Orden Elevado sin embargo, tomando l(x) = M (x) se tiene
1 0

265

M 2 (x)dx = 0,

lo que conduce a una contradicci´n o El objetivo, ser´ por consiguiente, encontrar una f´rmula de cuadratura a o de orden m´ximo, es decir 2s. Por la observaci´n hecha al inicio de esta a o ultima subsecci´n, los nudos ci de la f´rmula de cuadratura de orden s son ´ o o las raices de Ps (2x − 1) polinomio de Legendre. Como consecuencia de lo anteriormente expuesto se tiene el siguiente teorema formulado por Gauss en 1814. Teorema VI.2.7.- Una f´rmula de cuadratura (ci , bi ), i = 1, . . . , s; es de o orden 2s si y solamente si c1 , . . . , cs son las raices de Ps (2x − 1), Ps (t) polinomio de Legendre y los bi est´n determinados por a
s

bi cq−1 = i
i=1

1 , q

q = 1, . . . , s.

(VI.2.10)

Por otro lado, debe observarse que los coeficientes de una f´rmula de o cuadratura de Gauss son extrictamente positivos, en efecto, se define
s

li (x) =
j=1 j=i

x − cj ci − cj

el i-esimo polinomio de Lagrange para la subdivsi´n c1 < · · · < cs . El grado o de este polinomio es igual a s − 1 y verifica li (cj ) = Ahora bien, se tiene
s 1

0, 1,

j = i; j = i.

bi =
j=1

bj (li (cj ))2 =
0

(li (x))2 dx > 0,

2 ya que, deg li = 2s − 2 < 2s. El c´lculo de los coeficientes bi de una f´rmula de cuadratura de Gauss, a o pueden ser resueltos mediante el sistema lineal dado por (VI.2.10). Sin embargo este procedimiento no es el mejor, debido a la acumulaci´n de los o

266

´ ´ VI Integracion Numerica

errores de redondeo. Existe un procedimiento que determina los bi de una manera sencilla, el est´ dado en el: a Teorema VI.2.8.- Para la formula de cuadratura de Gauss de orden 2s, se tiene 1 bi = , i = 1, . . . , s; (VI.2.11) ′ (1 − x2 )Ps (xi )2 i donde xi = 2ci − 1. Demostraci´n.- Se tiene, o
s 1

bi =
j=1

bj li (cj ) =
0

li (t)dt,

realizando la transformaci´n x = 2t − 1, se obtiene o bi = por otro lado, se tiene li x+1 2 =C Ps (x) , x − xi 1 2
1

li
−1

x+1 2

dx,

de donde pasando al l´ ımite, se obtiene lim C Ps (x) ′ = CPs (xi ) = 1, x − xi

x→xi

despejando C, bi est´ dado por a bi = Adem´s, a
s

1 2

1 −1

Ps (x) dx. ′ (x − xi )Ps (xi )

(VI.2.12)

bi =
j=1

bj li (cj ) =

1 2

1 −1

Ps (x) ′ (x − xi )Ps (xi )

2

dx,

(VI.2.13)

esta integral se la resulve por partes, obteniendo as´ ı bi = 1 ′ 2(Ps (xi ))2
1

(Ps (x))2
−1

1 dx (x − xi )2

VI.2 Cuadraturas de Orden Elevado = 1
′ 2(Ps (xi ))2

267
′ Ps (x) ′ Ps (xi )

−1 1 + + 1 − xi −1 − xi

1 −1

Ps (x) ′ (x − xi )Ps (xi ) = li x+1 2

dx

= =

1 P ′ (xj ) −1 li bj s′ ′ 2 2 + Ps (xi ) 2(Ps (xi )) 1 − xi j=1 −1 1 + 2bi ′ 2(Ps (xi ))2 1 − x2 i

s

xj + 1 2

En el ejercicio 1 de esta secci´n, se mostrar´ que los polinomios de o a Legendre verifican la siguiente relaci´n recursiva o
′ (1 − x2 )Ps (x) = −sxPs (x) + sPs−1 (x),

de donde obteniendo

′ (1 − x2 )Ps (xi ) = sPs−1 (xi ), i

bi =

1 − x2 i . s2 (Ps−1 (xi ))2

(VI.2.14)

En la tabla VI.6.3, se dan las primeras f´rmulas de cuadratura de Gauss. o Tabla VI.6.3. Primeras F´rmulas de Cuadratura de Gauss. o s 1 2 3 c1 1 2 c2 c3 b1 1 √ 1 3 + 2 6 1 2 1 2 5 18 1 2 8 18 5 18 b2 b3

√ 1 3 − 2 6 √ 1 15 − 2 10

√ 1 15 + 2 10

Ejercicios
1.- Para los polinomios de Legendre, demostrar que: (k + 1)Pk+1 (x) = (2k + 1)xPk (x) − kPk−1 (x);
′ (1 − x2 )Pk (x) = −kxPk (x) + kPk−1 (x).

268

´ ´ VI Integracion Numerica

2.- Los polinomios de Chebychef est´n definidos por a Tk (x) = cos(k arccos x). Verificar que: T0 (x) = 1; T1 (x) = x; Tk+1 (x) = 2xTk (x) − Tk−1 (x);
1

1

−1

1 − x2

Tk (x)Tj (x),

para i = j.

3.- Calcular las raices de P8 (x) con un m´todo iterativo, como por ejemplo e el m´todo de la bisecci´n. e o 4.- Mostrar que el nucleo de Peano Pk (t) de una f´rmula de cuadratura o satisface s 1 1 − bi ck . Pk (t)dt = k + 1 i=1 i 0 5.- Sea p el orden de una f´rmula de cuadratura y sup´ngase que el nucleo o o de Peano Pp (t) no cambia de signo sobre [0, 1]. Mostrar que
x0 +h x0 s

f (x)dx − h

bi f (x0 + ci h) = hp+1
i=1

1 bi cp −h i p+1 i=1

s

f (p) (ξ),

con ξ ∈ (x0 , x0 + h). Indicaci´n.- Utilizar el teorema VI.1.15 con k = p. o 6.- Mostrar que para las f´rmulas de cuadratura de Gauss de orden 2s, el o nucleo de Peano P2s (t) no cambia de signo.

VI.3 Implementaci´n Num´rica o e

El c´lculo num´rico de integrales definidas, requiere la implementaci´n de a e o las f´rmulas de cuadratura en forma de programas o subrutinas. Dada una o funci´n f : [a, b] → R, el c´lculo de o a
b

f (x)dx,
a

(VI.3.1)

se lo realiza teniendo en cuenta el error que se desea cometer. Generalmente se da una tolerancia que se la denota por TOL, por consiguiente se busca una aproximaci´n I, tal que o
b a b

f (x)dx − I ≤ TOL

a

|f (x)| dx.

(VI.3.2)

Ahora bien, una manera de conseguir (VI.3.2), es subdividir el intervalo [a, b] en subintervalos y aplicar el teorema VI.1.16 de manera de obtener un h ´ptimo. Sin embargo este procedimiento presenta dos incovenientes: o es necesario conocer de antemano este h ´ptimo; adem´s de conocer las o a propiedades de la funci´n f a integrar. La segunda manera de resolver o (VI.3.2) es de concevir un algoritmo, donde el c´lculo del error se haga de a manera autom´tica es decir utilizando un m´todo adaptativo. a e Lo primero que se debe tener en la implementaci´n de un programa que o permita evaluar la integral de una funci´n f , es una estimaci´n del error. Sea o o (bi , ci ) i = 1, . . . , s, una f´rmula de cuadratura y a = x0 < x1 < · · · < xn = b, o una subdivisi´n de [a, b]; se define el error en cada subintervalo [xi , xi+1 ] a o
xi+1 s j=1

E(f, xi , xi+1 ) =
xi

f (x)dx − (xi+1 − xi )

bj f (xi + cj (xi+1 − xi )).

(VI.3.3) Por lo tanto, el programa que va calcular num´ricamente la integral debe e tener en cuenta dos aspectos: 1.- Estimaci´n del error. o 2.- Elecci´n de la subdivisi´n de [a, b], x0 < x1 < · · · < xn ; tal que o o
n j=0 b

|E(f, xj , xj+1 )| ≤ TOL

a

|f (x)| dx.

270 Por consiguiente, denotando por:
b

´ ´ VI Integracion Numerica

b

res[a,b] = I,

resabs[a,b] =
a

|f (x)| dx,

err[a,b] =
a

f (x)dx − I ,

se tiene el siguiente algoritmo. Algoritmo — Calcular: res[a,b] , resabs[a,b] y err[a,b] . err[a,b] ≤ TOL resabs[a,b] : si es cierto se ha terminado, si no continuar el siguiente paso. a+b — Plantear c = c = y calcular: 2 res[a,c] , res[c,b] , err[a,c] , err[c,b] , resabs[a,c] , resabs[c,b] ;

err[a,c] + err[c,b] ≤ TOL resabs[a,c] + resabs[c,b] : si es cierto se ha terminado, si no dividir el subintervalo con error maximal y continuar con el siguiente paso. — Continuar hasta que err[aj ,cj ] ≤ TOL resabs[aj ,cj ] .

Una vez planteado el algoritmo, el principal problema consiste en estimar el error cometido en el c´lculo de la integral, en cada subintervalo [xi , xi+1 ]. a El teorema VI.1.12 da una estimaci´n cuando la f´rmula de cuadratura tiene o o un orden p, la cual est´ dada por a E(f, x0 , x1 ) = hp+1
0 1

Pp (t)f (p) (x0 + th)dt,

donde Pp (t) es el k-simo nucleo de Peano, para la f´rmula de cuadratura. El o principal inconveniente de utilizar esta estimaci´n radica en que el c´lculo o a de la derivada de orden p de f puede ser tan complicado, como encontrar una primitiva de f , y por otro lado, determinar el nucleo de Peano no es una tarea nada simple, motivos por los cuales, la estimaci´n del teorema VI.1.12 o no es nada pr´ctica desde el punto de vista computacional. a Ahora bien, existen dos m´todos num´ricos que permiten encontrar una e e estimaci´n del error cometido en cada subintervalo, sin necesidad de conocer o las propiedades del nucleo de Peano y de las derivadas de la funci´n a o

´ ´ VI.3 Implementacion Numerica

271

integrar. Por consiguiente sea (ci , bi ), una f´rmula de cuadratura dada de o orden p, se desea estimar
x1 s

E(f, x0 , x1 ) =
x0

f (x)dx − (x1 − x0 )

i=1

bi (f (x0 + ci (x1 − x0 )).

El primer m´todo para estimar E es conocido como QUADPACK, algoritmo e implementado en algunas bibliotecas de programas. La idea central de este m´todo es tomar una segunda f´rmula de cuadratura (ˆi , ˆi ) con un orden e o c b p > p y estimar E(f, x0 , x1 ), como ˆ
s ˆ s

E(f, x0 , x1 ) = (x1 −x0 )

i=1

ˆi f (x0 + ci (x1 − x0 )− b ˆ

i=1

bi f (x0 + ci (x1 − x0 )) ,

(VI.3.4) Para evitar demasiadas evaluaciones de la funci´n f , es deseable que o {c1 , . . . , cs } ⊂ {ˆ1 , . . . , cs } , c ˆˆ es decir {ˆ1 , . . . , cs } = {c1 , . . . , cs } ∪ {cs+1 , . . . , cs+m } , c ˆˆ con s + m = s. Sin embargo m debe ser m´s grande que s, si la f´rmula de ˆ a o cuadratura (ci , bi ) es una de tipo Gauss; en efecto, si m ≤ s, se tiene:
s+m i=1 s i=1

ˆi cj−1 = 1 , b i j 1 , j

j = 1, . . . , s + m; j = 1, . . . , 2s;

j−1 bi ci =

lo cual conduce a que ˆi = b bi , i = 1, . . . , s; 0, i = s + 1, . . . , s + m;

obteniendo as´ la misma f´rmula de cuadratura. Por consiguiente es neceı, o sario elegir m > s, por ejemplo m = s + 1. Por otro lado, se pueden elegir los ci restantes de manera que la f´rmula o de cuadratura (ˆi , ˆi ), i = 1, . . . , 2s + 1; tenga un orden igual a 3s + 2. c b Esta f´rmula de cuadratura lleva el nombre de Konrad, en honor a su o descubridor. El m´todo QUADPACK, toma como resultado de la integral al e resultado num´rico proporcionado por la f´rmula de cuadratura de Konrad, e o es decir
2s+1 i=1

res = (x1 − x0 )

ˆi f (x0 + ci (x1 − x0 )), b

(VI.3.5)

272

´ ´ VI Integracion Numerica

la estimaci´n del error cometido es de la f´rmula de cuadratura de Gauss y o o no as´ de la de Konrad. No obstante, se puede obtener una estimaci´n de ı o este error. En efecto los errores de las f´rmulas de cuadratura est´n dados o a por: errGauss = Ch2s+1 + . . . , ˆ errKonrad = Ch3s+3 + . . . . ˆ Para simplificar los c´lculos se puede suponer que tanto C, como C son a iguales y valen 1, obteniendo as´ cuando h tiende a 0 ı, h2s+1
3/2

de donde la estimaci´n del error de la f´rmula de cuadratura multiplicada o o por una constante de seguridad est´ dada por: a
2s+1 s 3/2

≈ h3s+3 ,

err = (x1 − x0 ) finalmente se tiene

i=1

ˆi f (x0 + ci h) − b

bi f (x0 + ci h)
i=1

· 100, (VI.3.6)

2s+1

resabs = (x1 − x0 )

i=1

ˆi |f (x0 + ci (x1 − x0 ))| . b

(VI.3.7)

El segundo m´todo es conocido como GAUINT,GAUSS. Al igual que en el e m´todo QUADPACK, se considera una formula de cuadratura de tipo Gauss e (ci , bi ), i = 1, . . . , s; pero s impar, de manera que uno de los nudos sea igual a 1/2. Luego se considera la f´rmula de cuadratura de orden al menos s − 1 o obtenida de la f´rmula original, cuyos nudos est´n dados por o a Con los mismos argumentos desarrollados para el m´todo QUADPACK, pero e esta vez tomando el resultado num´rico proporcionado por la f´rmula de e o cuadratura de Gauss, se obtiene:
s

{ˆ1 , . . . , cs−1 } = {c1 , . . . , cs } \ {1/2} . c ˆ

res = (x1 − x0 )

bi f (x0 + ci h),
i=1 s s 2

(VI.3.8) ˆi f (x0 + ci h) b ˆ
i=1

err = (x1 − x0 ) resabs = (x1 − x0 )

i=1 s i=1

bi f (x0 + ci h) −

· 100, (VI.3.9) (VI.3.10)

bi |f (x0 + ci h)| .

Las experiencias num´ricas muestran que en la mayor´ de los casos las e ıa estimaciones del error cometido son demasiado pesimistas, ver en la tabla VI.3.1, las experiencias num´ricas han sido realizadas por el m´todo GAUINT. e e El programa GAUINT, para estas experiencias num´ricas, utiliza una f´rmula e o de cuadratura de Gauss de orden 30.

´ ´ VI.3 Implementacion Numerica

273

Tabla VI.3.1 Error exacto vs Error estimado. f (x) 1 x 4 + x2 + 1 25e−25x √ x [a, b] [0, 2] [0, 1] [0, 1/2] Error exacto 0.23 × 10−10 0, 14 × 10−11 0, 98 × 10−5 err 0, 90 × 10−10 0.23 × 10−5 0.14 × 10−8

Puede observase que la tercera funci´n a ser integrada es una excepci´n de la o o √ regla anteriormente formulada, eso se debe a que x no es lo suficientemente derivable, y el algoritmo ha sido concebido para funciones lo suficientemente lisas.

Tratamiento de singularidades
Los m´todos desarrollados en la anterior subsecci´n, tal como se puede e o observar en la tabla precedente, son utilizables para funciones lo suficientemente derivables. Por lo tanto, no son muy eficientes para resolver integrales definidas de funciones no muy lisas, adem´s existen integrales impropias cuyo a c´lculo es frecuente en diversas aplicaciones, como por ejemplo integrales de a los tipos: 1 1 f (x) √ dx, (log x)f (x)dx. x 0 0 Ejemplo Consid´rese, la funci´n e o f (x) = −
1

4x log x , x4 + 100

se desea calcular 0 f (x)dx. Esta integral es impropia, no obstante que una f´rmula de cuadratura de tipo Gauss proporciona resultados que o se aproximan al valor exacto de esta integral. Esto se debe a que los nudos de la f´rmula utilizada son diferentes de 0 y que la funci´n f (x) o o es singular en x = 0. Ahora bien, el error exacto al integrar sobre el intervalo [0, 1] es del orden de 0.18 × 10−4 , el cual est´ cerca del 5% del a

274

´ ´ VI Integracion Numerica valor exacto, valor muy grande. Un procedimiento para obtener un error que este en el orden de TOL, es definir la sucesi´n Sk dada por o
k bj

Sk =
j=0 aj

f (x)dx,

donde bj = 2j−k y aj = bj /2, para j > 0. Con este procedimiento, solamente se debe calcular la integral en el intervalo m´s peque˜o. a n Para poder comparar los resultados obtenidos con el m´todo num´rico, e e el valor exacto de la integral, calculada mediante series, es igual a
1 0

4x log x dx = x4 + 100 = =

1 0

1 −4x log x dx 100 1 + x4 /100
1 ∞

1 100 −4 100

(−4x log x)
0

(−1)k
k=0

x4k dx 100k

(−1) 100k k=0
k

k 0

1

x4k+1 log xdx

1 100

(−1) 1 , k (2k + 1)2 100 k=0

lo que es igual con 16 cifras de precisi´n a o
1 0

4x log x dx = 9.9889286860336184 × 10−03 . x4 + 100

Aplicando el procedimiento mencionado m´s arriba, se obtiene la tabla a VI.3.2. Tabla VI.3.2. C´lculo Integral. a Sk S0 S1 S2 S3 S4 S5 S6 Error Exacto 1.748733098830973E − 07 4.371832748595316E − 08 1.092958187148829E − 08 2.732395467872073E − 09 6.830988674016991E − 10 1.707747172841056E − 10 4.269368018838815E − 11 Sk S7 S8 S9 S10 S11 S12 S13 Error Exacto 1.067342048077790E − 11 2.668355120194476E − 12 6.670896474103571E − 13 1.667728455334582E − 13 4.169407874510255E − 14 1.042395336714463E − 14 2.605554660917164E − 15

´ ´ VI.3 Implementacion Numerica

275

Se puede observar inmediatamente, que la convergencia para calcular la integral es muy lenta, es necesario, efectuar 13 subdivisiones para obtener un error igual o inferior a 2.61 × 10−15 . Cada utilizaci´n del programa o GAUINT requiere 15 evaluaciones de la funci´n f , por consiguiente para o obtener el error mencionado, es necesario por lo menos 14 × 15 evaluaciones de la funci´n f . o Para evitar tantas evaluaciones de la funci´n f , es necesario construir o un algoritmo que permita acelerar la convergencia. Una forma de hacerlo es utilizar procedimientos de extrapolaci´n al l´ o ımite dado en el cap´ ıtulo III.3. Ahora bien, el m´todo que ser´ estudiado para acelerar la convergencia en e a el c´lculo de estas integrales ser´ tratado con un procedimiento equivalente, a a el cual consiste en utilizar diferencias finitas. A partir de la tabla precedente puede observarse, el siguiente hecho: Den´tese por S el valor exacto de la integral, entonces o Sn+1 − S ≈ es decir Sn+1 − S ≈ ρ(Sn − S). (VI.3.11) Sup´ngase, que se conoce tres valores consecutivos de la sucesi´n {Sk }, por o o decir: Sn , Sn+1 y Sn+1 , utilizando la notaci´n de diferencias finitas dada en o el cap´ ıtulo III.1, se tiene el siguiente sistema lineal Sn+1 − S = ρ(Sn − S) , Sn+2 − S = ρ(Sn+1 − S) de donde sustrayendo ambas ecuaciones, se obtiene ∆Sn+1 = ρ∆Sn , por consiguiente ρ= ∆Sn+1 . ∆Sn (VI.3.12) 1 (Sn − S), 4

(VI.3.13)

Despejando S de la segunda ecuaci´n de (VI.3.12), se tiene o S =Sn+1 − 1 ∆Sn+1 ρ−1 ∆Sn ∆Sn+1 , =Sn+1 − ∆Sn+1 − ∆Sn ∆Sn ∆Sn+1 . ∆2 Sn (VI.3.14)

obteniendo as´ ı
′ Sn = Sn+1 −

276

´ ´ VI Integracion Numerica

El m´todo que acaba de ser formulado por (VI.3.14), es conocido por el e procedimiento ∆2 de Aitken. En la tabla VI.3.3, se dan los valores obtenidos por este procedimiento, para el ejemplo precedente. Tabla VI.3.3. Procedimiento ∆ de Aitken.
′ Sk ′ S0 ′ S1 ′ S2

Valor integral 9.988928686033609E − 03 9.988928686033618E − 03 9.988928686033618E − 03

Error Exacto 0.35E − 14 0.26E − 14 0.26E − 14

Con la finalidad de comparar la eficiencia, del procedimiento ∆2 de Aitken, para obtener un error del orden de 0.26 × 10−14 solo se necesitan 3 evaluaciones de integrales de f , mientras que, sin el procedimiento de aceleraci´n o es necesario 14 evaluaciones de integral. El siguiente paso en lograr una convergencia m´s rapida en el c´lculo de a a integrales, consiste en generalizar el procedimiento ∆2 de Aitken, para tal efecto se supuso que Sn+1 − S = ρ(Sn − S), por consiguiente Sn − S = Cρn . Ahora bien, para ser m´s precisos se puede suponer que a S n − S = C 1 ρ1 + C 2 ρ2 + · · · C k ρk , (VI.3.15)

con los ρi diferentes dos a dos, de donde la diferencia µn = Sn − S satisface una ecuaci´n de diferencias finitas o relaci´n recursiva de la forma o o µn+k + a1 µn+k−1 + · · · + ak µn = 0. (VI.3.16)

La teor´ de ecuaciones de diferencias finitas, tiene como resultado central, ıa que los ρi , i = 1, . . . , k; son raices del polinomio caracter´ ıstico de (VI.3.16) dado por λk + a1 λk−1 + · · · + ak . (VI.3.17) Se tiene un problema inverso, pues no se conocen los valores de los ak , pero si los valores de µn , los cuales pueden servir para determinar los valores de los ak a partir del sistema lineal   Sn − S · · · Sn+k − S  ak   .   . . . . . = 0. (VI.3.18)   . . . Sn+k − S · · · Sn+2k − S a1

´ ´ VI.3 Implementacion Numerica

277

Este sistema tiene soluciones no triviales para el sistema lineal homogeneo, por lo tanto el determinante de la matriz es nulo. Efectuando sustracciones sobre las filas de la matriz, se obtiene  S −S S − S ··· S −S
n n+1 n+k

luego, se tiene

 det  

∆Sn . . .

∆Sn+1 ···

···

∆Sn+k−1

··· Sn+k ∆Sn+k . . .

∆Sn−k−1

∆Sn+k   = 0, .  . .

Sn ∆Sn . . . ∆Sn+k−1

Sn+1 ∆Sn+1 ···

··· ···

= ··· ···

· · · ∆Sn−k−1 1 ∆Sn =S . . . ∆Sn+k−1

1 ∆Sn+1 ···

1 ∆Sn+k . . .

,

· · · ∆Sn−k−1

efectuando sustracciones sobre la columna de la matriz del lado derecho de la ecuaci´n, se obtiene finalmente o Sn ∆Sn . . . S= Sn+1 ∆Sn+1 ··· ··· Sn+k ∆Sn+k . . . (VI.3.19)

∆Sn+k−1 ··· · · · ∆Sn−k−1 ∆2 Sn · · · ∆2 Sn+k−1 . . . . . . ∆2 Sn+k−1 · · · ∆2 Sn+k−2

Por ultimo la relaci´n (VI.3.19), puede mejorarse si al determinante del o numerador se agrega la primera linea a la segunda linea, la segunda linea a la tercera y as´ sucesivamente, convirtiendose en ı Sn Sn+1 . . . S (k) = Sn+1 Sn+1 ··· Sn+k · · · Sn+k+1 . . . (VI.3.20)

Sn+k · · · · · · Sn−k ∆2 Sn · · · ∆2 Sn+k−1 . . . . . . . ∆2 Sn+k−1 · · · ∆2 Sn+k−2

278

´ ´ VI Integracion Numerica

Este resultado constituye una joya desde el punto de vista te´rico, pero es una o cat´strofe, si se quiere implementar num´ricamente, las razones son obvias. a e Por lo tanto es necesario construir un algoritmo que permita determinar S (k) , sin necesidad de calcular expl´ ıcitamente los determinantes encontrados en la ultima expresi´n. El m´todo que ser´ explicado constituye el algoritmo ´ o e a epsilon o m´s simplemente ǫ-algoritmo. a Algoritmo Epsilon El siguiente teorema formulado por Wynn en 1956, permite calcular S (k) . Teorema VI.3.1.- Dados S0 , S1 , S2 , . . . , se define la sucesi´n ǫk o −1, 0, . . . ; n = 0, 1, . . . , de manera recursiva, como ǫ−1 = 0, ǫ0
(n) (n) (n)

k =

= Sn , =
(n+1) ǫk−1

(n) ǫk+1

+

1 ǫk
(n+1)

(VI.3.21)
(n)

entonces ǫ2
(n) ′ = Sn ,

− ǫk

;

ǫ4

(n)

′′ = Sn ,

ǫ6

(n)

(3) = Sn , . . .

(VI.3.22)

Demostraci´n.- Una demostraci´n completa y una explicaci´n detallada o o o puede encontrarse en Brezinski. La sucesi´n definida por el teorema precedente permite formular el ǫo algoritmo en forma de una tablero, ver la figura VI.3.1.

ǫ(0) −1

ց ǫ(1) − − − → ǫ(0) −1 − − − 1 ր ց (1) −−− ǫ0 − − − → ǫ(0) 2 ց ց (1) ր (2) −−− −−− ǫ−1 − − − → ǫ1 − − − → ǫ(0) 3 ր ց ց (1) ր −−− −−− ǫ(2) − − − → ǫ2 − − − → ǫ(0) 4 0 ց (2) ր ց (1) ր ց (3) ǫ−1 − − − → ǫ1 − − − → ǫ3 − − − → ǫ(0) −−− −−− −−− 5 ր ր ց ց (1) ր ց (2) (3) −−− 6 −−− −−− ǫ0 − − − → ǫ2 − − − → ǫ4 − − − →ǫ(0) ր ր ր Figura VI.3.1. Esquema ǫ-algoritmo.

ǫ(0) 0

´ ´ VI.3 Implementacion Numerica

279

En la figura VI.3.4, podr´ apreciarse la verdadera potencia del ǫa algoritmo. La sucesi´n definida por o
n

Sn = 4
k=0

(−1)k , 2k + 1

(VI.3.23)

converge hacia π, sin embargo la convergencia de esta sucesi´n es muy o lenta. Para obtener una precisi´n de 10−35 , son necesarias por lo menos 1035 o evaluaciones de esta sucesi´n, lo cual es imposible: por el tiempo de c´lculo o a y por el error de redondeo. Aplicando el epsilon-algoritmo, se obtiene la (n) precisi´n requerida, los errores de ǫk son dados en la figura VI.3.4. o
100 10−2

k=0

k=2
10−4 10−6 10−8 10−10 10−12 10−14 10−16 10−18 10−20 0

k=4 k=6 k=8 k=10

k=24
1 2 3

k=22
4 5 6 7 8 9 10 (n) ǫk 11 12 13 14 15

Figura VI.3.4. Error de

en funci´n de n. o

Otro medio para acelerar la convergencia en el c´lculo de integrales a impropias, consiste en efectuar un cambio de variable conveniente. A continuaci´n se presentar´ algunos ejemplos donde el c´lculo de la integral o a a converge con mas rapidez o mayor lentitud dependiendo del cambio de variable elegido. Ejemplos

280 a) Consid´rese, la integral impropia e
1 0

´ ´ VI Integracion Numerica

log x dx. x2 + 100

Se observa inmediatamente que f (x) no est´ acotada en las proximidades a del origen. Aplicando la funci´n GAUINT con una tolerancia igual a o TOL = 10−14 . Si se desea obtener el valor exacto de esta integral con un error exacto inferior a 10−13 son necesarias 69 × 15 evaluaciones de la funci´n f . o Efectuando el cambio de variable x = t2 , se obtiene la integral
1 0

4t log t dt, t4 + 100

integral que ha sido ya evaluada, ver la tabla VI.3.2. La funci´n a integrar o es acotada, y son necesarias 27 × 15 evaluaciones de la funci´n integrada. o Si nuevamente se realiza otro cambio de variable, como por ejemplo, t = s2 , se obtiene la integral
1 0

16s3 log s ds, s8 + 100

denotando por h(s) a la funci´n integrada, se puede mostrar que h(s) o es dos veces continuamente diferenciable. Resolviendo por la funci´n o GAUINT son necesarias 7 × 15 evaluaciones de h. b) Las integrales de la forma
1 0

f (x) √ dx, x

pueden ser calculadas con menos evaluaciones, si se hace el cambio de variable x = t2 , obteniendo as´ ı
1

2
0

f (t2 )dt.

c) Las integrales impropias del tipo

f (x)dx,
1

mediante el cambio de variable x = 1/t se convierten en
1

f (1/t)
0

1 dt. t2

´ ´ VI.3 Implementacion Numerica

281

Por lo tanto, para acelerar la convergencia, puede utilizarse de manera combinada el ǫ-algoritmo, con un cambio de variable adecuado. Vale la pena recalcar que el objetivo principal del cambio de variable es volver la funci´n o integrada m´s lisa, es decir que sea lo suficientemente derivable para poder a aplicar la subrutina GAUINT en el m´ximo de su eficiencia. Sin embargo el a cambio de variable puede volver m´s complicada la funci´n a integrar, motivo a o por el cual la ganancia obtenida en una disminuci´n de evaluaciones de la o funci´n integrada puede perderse con las mismas evaluaciones de la funci´n. o o Uno de los tipos de integral donde mejor se ajusta los m´todos de e aceleraci´n propuestos, como el cambio de variable conveniente o el algoritmo o epsilon consiste en: Funciones con Oscilaciones Escapando un poco a la rutina del libro de presentar las bases te´ricas de o la soluci´n de un problema, para luego tratar algunos ejemplos, se analizar´ o a este tipo de evaluaci´n de integral impropia con un ejemplo. o Consid´rese la integral de Fresnel, dada por e
∞ 0

sin(x2 )dx =

1 2

π . 2

La funci´n sin(x2 ) se anula en x2 = kπ con k ∈ N, definiendo as´ una sucesi´n o ı o de n´meros positivos {xk }, dada por u xk = Planteando Ik =
xk xk+1

√ kπ.

sin(x2 )dx,

k = 0, 1, 2, . . . ;

donde Ik pueden ser calculadas por GAUINT se define la sucesi´n {Sk }, por o
k

Sk =
j=0

Ij ,

teniendo como resultado

sin(x2 )dx = lim Sk .
0 k→∞

Ahora bien la convergencia de Sk es muy lenta, utilizando ǫ-algoritmo la velocidad de la convergencia hacia la integral, se aumenta de manera ostensible. Ver la tabla VI.3.4.

282

´ ´ VI Integracion Numerica

Tabla VI.3.4. C´lculo de la integral de Fresnel a k Sk
′ Sk ′′ Sk

S (3)

S (4)

S (5)

0 .89483147 .63252334 .62682808 .62666213 .62665722 .62665721 1 .43040772 .62447449 .62660885 .62665582 .62665582 2 .78825896 .62773451 .62667509 .62665746 .62665746 3 .48624702 .62603581 .62664903 .62665692 4 .75244267 .62705261 .62666112 .62665713 5 .51172983 .62638728 .62665483 6 .73311637 .62685063 .62665838 7 .52703834 .62651269 8 .72060138 .62676812 9 .53751806 10 .71165881

Ejercicios
1.- Para una sucesi´n {Sn }n≥0 , el ǫ-algoritmo est´ definido por: o a ǫ−1 = 0, ǫ0
(n) (n) (n)

= Sn ,
(n+1)

ǫk+1 = ǫk−1 +

1
(n+1) ǫk

− ǫk

(n)

.

ˆ Si la aplicaci´n del ǫ-algoritmo a {Sn }n≥0 y a {Sn }n≥0 = {aSn + b} o (n) (n) proporciona respectivamente las cantidades ǫk y ǫk . Mostrar que ˆ ǫ2l = aǫ2l + b, ˆ
(n) (n)

ǫ2l+1 = ˆ

(n)

1 (n) ǫ . a 2l+1

.

2.- Utilizar el ǫ-algoritmo para el c´lculo de las integrales: a a) 1 100
1 0

x−0.99 dx,

1

b)
0

log x √ dx. x

´ ´ VI.3 Implementacion Numerica 3.- Sup´ngase que la sucesi´n {Sn } satisface o o Sn+1 − S = (ρ + αn )(Sn − S)

283

con |ρ| < 1, lim αn = 0 y consid´rese el procedimiento ∆2 de Aitken e
n→∞ ′ Sn = Sn+1 −

∆Sn ∆Sn+1 , ∆2 Sn

n = 0, 1, . . . .

′ a a Demostrar que la sucesi´n {Sn } converge m´s r´pidamente hacia S que o la sucesi´n {Sn }; es decir o ′ Sn − S = 0. n→∞ Sn − S

lim

Indicaci´n.- Verificar que ∆Sn = (ρ − 1 + αn )(Sn − S) y encontrar una o f´rmula similar para ∆2 Sn o

VI.4 Transformaci´n de Fourier o

En est´ secci´n ser´ abordado el c´lculo num´rico de las transformadas de a o a a e Fourier, es decir los coeficientes de las series de Fourier para una determinada funci´n. Se iniciar´ un repaso te´rico sobre las series de Fourier, luego se o a o introducir´ la transformada discreta de Fourier, cuya abreviaci´n usual es a o T DF , para finalmente ver la transformaci´n r´pida de Fourier m´s conocida o a a como F F T . Las motivaciones de la utilizaci´n de series de Fourier est´n dadas por o a sus diferentes aplicaciones en numerosas ´reas de la ciencia, como de la a tecnolog´ para citar algunas de ellas, se tiene el tratamiento de se˜ales, la ıa; n resoluci´n de ecuaciones diferenciales, la construcci´n de m´todos espectrales o o e en la resoluci´n de ecuaciones a derivadas parciales, etc. o La teor´ de la transformaci´n de Fourier est´ ´ ıa o a ıntimamente ligada a las funciones 2π-peri´dicas e integrables. En este libro se supondr´ que las o a funciones son integrables en el sentido de Riemann, y no se considerar´ el a caso m´s general. Recordando la: a Definici´n VI.4.1.- La serie de Fourier de una funci´n 2π- peri´dica e o o o integrable, est´ dada de manera formal por a f (x) ∼ ˆ f (k)eikx ,
k∈Z

(VI.4.1)

donde los coeficientes de Fourier est´n definidos por a 1 ˆ f (k) = 2π
2π 0

f (x)e−ikx dx.

(VI.4.2)

Denotando por E, el espacio de las funciones 2π-peri´dicas, tales que o
2π 0

f (x)f (x)dx < ∞,

∀f ∈ E,

se tiene que E es un espacio vectorial provisto del producto sesquilinial, dado por

f, g =
0

f (x)g(x)dx.

(VI.4.3)

Una simple verificaci´n muestra que las funciones definidas por o ϕk (x) = eikx , (VI.4.4)

´ VI.4 Transformacion de Fourier constituyen una familia ortogonal de funciones, es decir ϕk , ϕj = 0, si j = k.

285

Para conocer m´s respecto a las propiedades de espacios de Hilbert, familias a ortonormales y series de Fourier existe una ambundante bibliograf´ por ıa, ejemplo Rudin. La definici´n VII.4.1 es una definici´n formal, es decir la serie de Fourier o o de una funci´n dada, no necesariamente debe converger hacia la funci´n. o o Sin embargo existen condiciones suficientes sobre la funci´n f , para que o la serie de Fourier converga hacia f o por lo menos en casi todos los puntos. A continuaci´n se enunciar´ estas condiciones suficientes y el tipo o a de convergencia que uno puede esperar obtener. Teorema VI.4.2.- Dirichlet. Sea f : R → C una funci´n de clase C 1 por o trozos y peri´dica de periodo 2π. La serie de Fourier de f es convergente en o todo punto de R. En un punto x donde la funci´n es continua, el l´ o ımite de la serie es f (x). En un punto x donde f no es continua, la suma de la serie es 1 (f (x− ) + f (x+ )). (VI.4.5) 2 Adem´s, la convergencia de la serie de Fourier de f es uniforme en todo a intervalo compacto que no contiene ning´n punto de discontinuidad de f . u Demostraci´n.- Una demostraci´n de este teorema puede encontrarse en o o Gramain. Con la formulaci´n de este teorema, se conoce la clase de funciones o de las cuales la serie de Fourier es igual a la funci´n, en todo caso en los o puntos donde la funci´n es continua. Es prop´sito de esta secci´n estudiar o o o los m´todos num´ricos que permitan calcular los coeficientes de Fourier, y e e por ende la serie de Fourier asociada. Una primera alternativa de c´lculo de a estos coeficientes consiste en utilizar un m´todo de integraci´n propuesto en e o las secciones precedentes de este cap´ ıtulo. Sin embargo existen alternativas menos costosas y m´s simples que dan excelentes resultados. a Sea f : [0, 2π] → C, sup´ngase que la funci´n f (x) es conocida para los o o x dados por la subdivisi´n equidistante o xl = 2πl , N l = 0, 1, . . . , N. (VI.4.6)

Como f (xN ) = f (x0 ) por hip´tesis, el c´lculo de (VI.4.2) puede realizarse o a ˆ mediante la regla del trapecio, obteniendo como aproximaci´n de f (k) o 1 ˆ fN (k) = N
N −1

f (xl )e−ikxl .
l=0

(VI.4.7)

286

´ ´ VI Integracion Numerica

Ahora bien, (VI.4.7) induce las definiciones siguientes. Consid´rese, el espacio de las sucesiones N -peri´dicas e o PN = {(yk )k∈Z |yk ∈ C, yk+N = yk }. (VI.4.8)

Definici´n VI.4.3.- La transformada discreta de Fourier (DFT) de y ∈ PN o es la sucesi´n (zk )k∈Z , donde o 1 zk = N
N −1

yl e
l=0

−ikxl

1 = N

N −1

yl ω −kl ,
l=0

con

ω = e2iπ/N .

Se la denota z = FN y. Proposici´n VI.4.4.- La transformada discreta de Fourier satisface las o siguientes propiedades: a) Para y ∈ PN , se tiene que FN y ∈ PN . b) La aplicaci´n Fn : PN → PN es lineal y biyectiva. o c) La aplicaci´n inversa de FN est´ dada por o a
−1 ¯ FN = N · FN ,

(VI.4.9)

donde 1 ¯ ¯ (FN z)k := (FN z )k = N

N −1

zl ω kl .
l=0

(VI.4.10)

Demostraci´n.- Utilizando el hecho que ω N = e2πi = 1 y ω −lN = o (ω N )−l = 1, se obtiene zk+N = 1 N
N −1

yl ω −(k+N )l =
l=0

1 N

N −1

yl ω −kl = zk ,
l=0

mostrando as´ la periocidad de zk . La linearidad de FN resulta de una ı verificaci´n inmediata. Para mostrar la biyectividad y al mismo tiempo la o f´rmula (VI.4.10), se calcula o 1 ¯ (FN FN y)j = N =
N −1

(FN y)k ω kj
k=0 N −1 N −1

1 N2 1 N2

yl ω −kl ω kj
k=0 l=0 N −1

=

yl
l=0

1 N

N −1

ω k(j−l)
k=0

1 = yj . N

´ VI.4 Transformacion de Fourier La ultima igualdad de este c´lculo, es consecuencia de ´ a
N −1 N −1

287

ω km =
k=0 k=0

(ω m )k =

ω mN −1 ω m −1

N =0

si m = 0modN si no.

Hay que remarcar que ω m = 1 si m = 0modN .

Estudio del Error
Sup´ngase que o yl = f (xl ), xl = 2πl , N l = 0, 1, . . . , N ;

para una funci´n f : R → C que es 2π-peri´dica. La f´rmula siguiente deso o o cribe c´mo la transformada de Fourier discreta dada por (VI.4.7) aproxima o los coeficientes de Fourier dados por (VI.4.2). Teorema VI.4.5.- Si la serie tonces
k∈Z

ˆ f (k) es absolutamente convergente, enˆ f (k + jN ).
j∈Z j=0

ˆ ˆ fn (k) − f (k) =

(VI.4.11)

Demostraci´n.- La hip´tesis sobre los coeficientes de Fourier implica que o o se tenga igualdad en la f´rmula (VI.4.1), ver Gramain. Por lo tanto, se tiene o 1 ˆ fN (k) = N
N −1

ˆ f (n)einxl
l=0 n∈Z

ω −kl =
n∈Z

ˆ f (n)

1 N

N −1

ω (n−k)l
l=0

= =
j∈Z

1 si n = k((mod)N 0 si no

ˆ f (k + jN )

Corolario VI.4.6.- Sea f : R → C, p veces continuamente derivable (p ≥ 2) y 2π-peri´dica. Entonces, o ˆ ˆ fN (k) − f (k) = O(N −p ), para |k| ≤ N . 2 (VI.4.12)

288 En particular, con h = 2π/N , se tiene h 2π
N −1 j=0

´ ´ VI Integracion Numerica

f (xj ) −

1 2π

2π 0

f (x)dx = O(hp ),

(VI.4.13)

lo que significa que, para funciones lisas y peri´dicas, la f´rmula del trapecio o o es muy precisa. Demostraci´n.- Se mostrar´ primero que los coeficientes de Fourier satiso a facen ˆ (VI.4.14) f (k) ≤ C.k−p . En efecto, varias integraciones por partes dan 1 ˆ f (k) = 2π = f (x)
2π 0

f (x)e−ikx dx

e−ikx −ik
0

+
0

(iπ)−1 2π

2π 0

f ′ (x)e−ikx dx

. . . = (ik)−p 2π
2π 0

f (p) (x)e−ikx dx

2π 1 f (p) (x) dx. 2π 0 Para |k| ≤ N/2 y j = 0 se tiene que |k + jN | ≥ (|j| − 1/2)N , utilizando (VI.4.11), se obtiene

teniendo as´ (VI.4.14) con C = ı,

ˆ ˆ fN (k) − f (k) ≤

j≥1

C(j − 1/2)−p N −p = C1 · N −p .

Obs´rvese que la serie en esta f´rmula converge para p > 1. e o ˆ o o Es muy importante remarcar que fn (k) es una sucesi´n N -peri´dica, ˆ propiedad de la transformada discreta de Fourier, y que por otro lado f (k) converge muy rapidamente hacia 0 por (VI.4.14). Por consiguiente para k ˆ ˆ grande, por ejemplo k ≈ N , fN es una mala aproximaci´n de f (k); mientras o que para |k| ≤ N/2 la aproximaci´n es en general muy buena. o

Interpolaci´n Trigonom´trica o e
Para la divisi´n equidistante (VI.4.6) del intervalo [0, 2π] y para o y0 , y1 , . . . , yN −1 dados, se busca un polinomio trigonom´trico, es decir una e

´ VI.4 Transformacion de Fourier

289

combinaci´n lineal finita de funciones eikx , que pase por (xl , yl ), para o l = 0, 1, . . . , N − 1. La existencia de tal polinomio trigonom´trico est´ e a asegurada por el siguiente: Teorema VI.4.7.- Sea y ∈ PN y z = FN y su transformada discreta de Fourier. Entonces, el polinomio trigonom´trico e
N/2 ′

pN (x) =
k=−N/2

zk eikx :=

1 z−N/2 e−iN x/2 + zN/2 eiN x/2 + 2

zk eikx ,
|k|<N/2

(VI.4.15) satisface pn (xl ) = yl para l = 0, 1, . . . , N − 1. Hay que remarcar que si los yk son reales, {zk } es una sucesi´n herm´ o ıtica, es decir z−k = zk y por lo tanto el polinomio pN (x) es un polinomio a ¯ coeficientes reales. Demostraci´n.- Para l fijo, la sucesi´n {zk eikxl } es N -peri´dica, por o o o consiguiente
N −1

pN (xl ) =
k=0

¯ ¯ zk eikxl = N · (FN z)l = N (FN FN y)l = yl .

El siguiente teorema a ser enunciado provee una estimaci´n del error o de la interpolaci´n trigonom´trica con consecuencias importantes, que ser´n o e a explicadas posteriormente. Teorema VI.4.8.- Sea f : R → C una funci´n 2π-peri´dica tal que o o ˆ f (k)
k∈Z

sea absolutamente convergente. Entonces, el polinomio trigonom´trico dado e por (VI.4.15), para yl = f (xl ) satisface para todo x ∈ R |pN (x) − f (x)| ≤ 2pN (x) =
′ |k|≥N/2

ˆ f (k) .

(VI.4.16)

Demostraci´n.- Restando (VI.4.1) de (VI.4.15) se obtiene o
N/2

pN (x) − f (x) =

′ k=−N/2

ˆ ˆ fN (k) − f (k) eikx −

′ |k|≥N/2

ˆ f (k)eikx .

La aserci´n es pues consecuencia de (VI.4.11) y de la desigualdad del o tri´ngulo a

290

´ ´ VI Integracion Numerica

Este teorema permite una interpretaci´n interesante. Consid´rese una o e ˆ funci´n 2π-peri´dica de frecuencia maximal M , es decir f (k) = 0 para o o |k| > M . Entonces, el polinomio trigonom´trico da el resultado exacto e pN (x) = f (x) para todo x, si N > 2M. (VI.4.17)

Este resultado, el Teorema del Muestreo, da una f´rmula para el n´mero de o u muestras necesarias para obtener una representaci´n exacta de una funci´n. o o La evaluaci´n de FN requiere N 2 multiplicaciones y adiciones, si se o la realiza directamente. Sin embargo existe un procedimiento que permite descender el costo en operaciones a N log2 N . Este procedimiento ser´ visto a en la siguiente subsecci´n. o

Transformaci´n R´pida de Fourier (FFT) o a
El algoritmo que ser´ estudiado, se debe a Cooley & Tukey en 1965, se basa a sobre las ideas de Runge 1925. Para poder formular ´ste, es necesario la e siguiente: Proposici´n VI.4.9.- Sean u = (u0 , u1 , . . . , uN −1 ) ∈ PN , o v = (v0 , v1 , . . . , vN −1 ) ∈ PN y def´ ınase y = (u0 , v0 , u1 , v1 . . . . , uN −1 , vN −1 ) ∈ P2N . (VI.4.18)

Entonces, para k = 0, 1, . . . , N − 1, se tiene (ω2N = e2iπ/2N = eπi/N )
−k 2N (F2N y)k = N (FN u)k + ω2N N (FN v)k , −k 2N (F2N y)k+N = N (FN u)k − ω2N N (FN v)k .

(VI.4.18)

2 Demostraci´n.- Utilizando el hecho que ω2N = ωN , un c´lculo directo da o a para k arbitrario 2N −1

2N (F2N y)k =
j=0 2N −1

yj e−2πijk/2n
−jk yj ω2N j=0 N −1 N −1 −2lk y2l ω2N + l=0 ul
−lk ωN

=

=

y2l+1 ω2N
l=0 vl

−(2l+1)k

−k −lk ω2N ···ωN

= N (FN u)k +

−k ω2N N (FN v)k.

´ VI.4 Transformacion de Fourier
−N La segunda f´rmula de (VI.4.18) resulta de ω2N = −1. o

291

La f´rmula (VI.4.18) permite calcular, con N multiplicaciones y 2N o adiciones, la transformada discreta de Fourier de y ∈ P2N a partir de FN u y FN v. El mismo procedimiento puede ser aplicado recursivamente a las sucesiones u y v, si ´stas tienen una longitud par. e Si se supone que N = 2m , se obtiene el algoritmo presentado en el esquema siguiente (para N = 8 = 23 ). FN/4 FN/2  y0  y2    y4 y6  y0 y4 y2 y6 FN/8 y0 = y0 FN/8 y4 = y4 FN/8 y2 = y2 FN/8 y6 = y6 FN/8 y1 = y1 FN/8 y5 = y5 FN/8 y3 = y3 FN/8 y7 = y7 (VI.4.19)

y0  y1     y2    y  FN  3   y4     y5    y6 y7

FN/4

FN/4 FN/2  y1  y3    y5 y7 

y1 y5 y3 y7

FN/4

Figura VI.4.1. Esquema para C´lculo de FFT. a La programaci´n de este algoritmo se la realiza en dos ´tapas. La o e primera, se ordena los yi en el orden exigido por (VI.4.19), es decir es necesario invertir los bits en la representaci´n binaria de los indices: o 0=(0, 0, 0) 1=(0, 0, 1) 2=(0, 1, 0) 3=(0, 1, 1) 4=(1, 0, 0) 5=(1, 0, 1) 6=(1, 1, 0) 7=(1, 1, 1) 0=(0,0,0) 4=(1,0,0) 2=(0,1,0) 6=(1,1,0 1=(0,0,1) 5=(1,0,1) 3=(0,1,1) 7=(1,1,1)

←→

Despu´s, se efectua las operaciones de (VI.4.18) de la manera como indica e el esquema (VI.4.19).

292

´ ´ VI Integracion Numerica

Para pasar de una columna a otra en el esquema (VI.4.19) son necesarias N/2 multiplicaciones complejas y de otras N adiciones o sustracciones. Como m = log2 N pasajes son necesarios, entonces se tiene el: Teorema VI.4.10.- Para N = 2m , el c´lculo de FN y puede ser realizado a con: N log2 N multiplicaciones complejas y 2 N log2 N adiciones complejas. Para ilustrar mejor la importancia de este algoritmo, ver la tabla VI.4.1 para comparar el c´lculo de FN y con o sin FFT. a Tabla VI.4.1. Comparaci´n de FFT con DFT. o N 25 = 32 2 2
10 20

N2
3 6

N log2 N cociente 160 ≈ 2 · 10 ≈ 10
4 7 6

≈ 10 ≈ 10

≈ 103 ≈ 10 ≈ 10

≈ 6.4 100 5· ≈ 104

12

Aplicaciones de la FFT
La transformada r´pida de Fourier, tiene una gran cantidad de aplicaciones, a desde el c´lculo de espectrogramas, resoluci´n de ecuaciones diferenciales a o ordinarias o a derivadas parciales, hasta la soluci´n de sistemas lineales. o Definiendo el producto de convoluci´n de dos sucesiones N -peri´dicas o o y ∈ PN y z ∈ Pn , por
N −1

(y ∗ z)k =

yk−l zl .
l=0

(VI.4.20)

Se tiene la siguiente propiedad, ver ejercicio 1, FN (y ∗ z) = N · FN y · FN z, (VI.4.21)

de donde (VI.4.20) puede ser calculado mediante O(N log2 N ) operaciones. La resoluci´n de un sistema lineal con una matriz de Toeplitz circular o puede ser resuelto utilizando FFT. En efecto, un tal sistema es de la forma       a0 a1 a2 . . . aN −1 aN −1 a0 a1 . . . aN −2 aN −2 aN −1 a0 . . . aN −3  x0 · · · a1 · · · a 2   x1  · · · a 3   x2 .  . . ··· .  . . · · · a0      =      b0 b1 b2 . . . bN −1    .  

(VI.4.22)

xN −1

´ VI.4 Transformacion de Fourier

293

Evidentemente, el sistema lineal (VI.4.22) es equivalente a a ∗ x = b, si se considera (ai ), (xi ) y (bi ) como sucesiones de PN . La multiplicaci´n de una matriz de Toeplitz arbitraria con un vector o  a 0  a1   a2  .  . . a−1 a0 a1 . . . aN −2 a−2 a−1 a0 . . . aN −3 · · · a−N +1   x0   b0  · · · a−N +2   x1   b1      · · · aN +3   x2  =  b2  , (VI.4.23)  .   .  .  .   .  . . . ··· . bN −1 xN −1 ··· a0

aN −1

puede ser resuelta utilizando FFT, considerando las sucesiones en P2N a = (a0 , a1 , . . . , aN −1 , 0, a−N +1 , a−N +2 , . . . , a−1 ), x = (x0 , x1 , . . . , xN −1 , 0, 0, . . . , 0). Se puede verificar facilmente que el resultado del producto (VI.4.23) es la primera mitad del producto de convoluci´n a ∗ x. Por consiguiente, el c´lculo o a con FFT da un algoritmo r´pido para efectuar el producto (VI.4.23). a

Ejercicios
1.- Mostrar que Fn (y ∗ z) = N · FN y · FN z, para el producto de convoluci´n o
N −1

(y ∗ z)k =

yk−l zl ,
l=0

de dos suceciones N -peri´dicas. Deducir que o
−1 y ∗ z = N · FN (FN y · FN z).

2.- Resolver la ecuaci´n diferencial con valores en la frontera o u′′ (x) = −1 graficar la soluci´n. o u(0) = u(2π) = 0,

Cap´ ıtulo VII Ecuaciones Diferenciales

El estudio de una gran cantidad de fen´menos de las m´s diversas cao a racter´ ısticas se traducen en ecuaciones diferenciales. La descripci´n de un o fen´meno mediante ecuaciones diferenciales tiene un proposito primordial o que es la predecibilidad. Por otro lado, permite obtener conclusiones de car´cter local, que ser´n extrapoladas para tener informaciones globales a a del modelo estudiado. El ´nfasis que se hace a la resoluci´n anal´ e o ıtica de las ecuaciones diferenciales en los cursos de Ecuaciones Diferenciales que se dictan en los primeros niveles de las universidades, tienen el objetivo de encontrar soluciones generales a los diversos problemas diferenciales que se encuentran en el transcurso de los estudios universitarios, como tambi´n en e el ejercicio profecional. Este hecho se debe fundamentalmente que hasta hace no mucho, no se contaban con los medios tecn´logicos que permitan resolver o ecuaciones diferenciales con la precisi´n que se requer´ Por consiguiente, el o ıa. objetivo de estos cursos eran esencialemte obtener las soluciones en forma de f´rmulas, perdiendose as´ el car´cter esencial de las ecuaciones diferenciales o ı a que es el estudio local de los fen´menos. Adem´s cuestiones como existencia o a y unicidad no son abordadas por falta de tiempo. Este cap´ ıtulo tiene como objetivo principal la formulaci´n de m´todos o e num´ricos de resoluci´n de problemas diferenciales a valores iniciales o e o problemas de Cauchy. La primera parte tratar´ sobre cuestiones de existencia a y unicidad de las ecuaciones diferenciales. Luego se abordar´ los m´todos a a e un paso y como expresi´n de estos; los m´todos de Runge-Kutta, desde la o e construcci´n de estos, estimaciones de error y como corolario los metodos o encajonados del tipo Dormand & Prince. La tercera parte de este cap´ ıtulo tratar´ los m´todos num´ricos a paso m´ltiple, se ver´ la construcci´n de a e e u a o estos, cuestiones de estabilidad y convergencia.

VII.1 Generalidades

En este cap´ ıtulo I, I0 designan intervalos abiertos de R no reducidos a un punto y t0 un punto fijo de I0 ; se da una funci´n f definida y continua sobre o I0 × Rm con valores en Rm , un elemento y0 ∈ Rm , y se desea encontrar una funci´n y continua y derivable sobre el intervalo I0 , con valores en Rm , tal o que: y ′ (t) = f (t, y(t)), y(t0 ) = y0 . ∀t ∈ I0 ; (VII.1.1) (VII.1.2)

Las ecuaciones del sistema VII.1.3 son de primer orden, pues en ´stas, el e orden de derivaci´n m´s alto que aparece es el primero. Consid´rese ahora o a e un problema diferencial de orden p, de la forma y (p) (t) = f (t, y(t), y ′ (t), . . . , y (p−1) ), (VII.1.4)

Este problema se lo conoce con el nombre de problema de Cauchy para el sistema diferencial (VII.1.1); la condici´n (VII.1.2) se llama una condici´n o o de Cauchy. Una funci´n y que satisface el sistema (VII.1.1) es llamada una o integral del sistema (VII.1.1). En numerosos ejemplos f´ ısicos, la variable t representa el tiempo, el instante t0 , es por consiguiente, llamado instante inicial y la condici´n (VII.1.2) llamada condici´n inicial. o o Se puede remarcar que si se denota por y1 , y2 , . . . , ym las componentes de y, por f1 (t, y1 , . . . , ym ), . . . , fm (t, y1 , . . . , ym ) las componentes de f (t, y) la ecuaci´n (VII.1.1) es equivalente al sistema o  ′  y1 (t) = f1 (t, y1 (t), . . . , ym (t))   ′  y (t) = f2 (t, y1 (t), . . . , ym (t))  2 . (VII.1.3) .  .  .    ′ ym (t) = fm (t, y1 (t), . . . , ym (t))

el cual puede convertirse en problema de la forma (VII.1.1), planteando z1 (t) = y(t), z2 (t) = y ′ (t), . . . , zp (t) = y (p−1) (t);

el problema diferencial (VII.1.4), por consiguiente es equivalente al sistema  ′  z1 (t) = z2 (t)     .  . . .  z ′ (t) = z (t)  p−1 p     ′ zp (t) = f (t, z1 (t), . . . , zp (t))

VII.1 Generalidades de donde planteando z = (z1 , z2 , . . . , zp )t se tiene y F (t, z) = (z2 , . . . , zp , f (t, z1 , . . . , zp ))t ,

297

z ′ (t) = F (t, z(t)).

(VII.1.5)

La condici´n de Cauchy para el problema (VII.1.5) est´ dada por o a y(t0 ), y ′ (t0 ), . . . , y (p−1) (t0 ). Ahora bien, en este cap´ ıtulo no ser´ tratado el problema diferencial a general de orden p, dado por F (t, y(t), y ′ (t), . . . , y (n) (t)) = 0, ∀t ∈ I0 . (VII.1.6)

Cuando se puede aplicar el teorema de las funciones implicitas, (VII.1.6) es localmente equivalente a la ecuaci´n de la forma (VII.1.4) y la teor´ que o ıa ser´ desarrollada en este cap´ a ıtulo podr´ ser aplicada a este tipo de problema a sin inconvenientes. Si el teorema de las funciones implicitas no es aplicable, serias dificultades matem´ticas y num´ricas pueden aparecer, en este caso se a e habla de ecuaciones diferenciales algebraicas, para saber m´s sobre este tipo a de ecuaciones referirse a Hairer & Wanner. Finalmente es necesario remarcar que, si bien I0 es un intervalo abierto, el estudio de las soluciones de los problemas diferenciales permite considerar los intervalos de la forma [t0 , t0 + T ) y (t0 − T, t0 ], obteniendo el intervalo abierto por recolamiento de ambos subintervalos semiabiertos.

Teoremas de Existencia y Unicidad
En esta subsecci´n se supondr´ que la terminolog´ b´sica es conocida por o a ıa a el lector. No obstante, se enunciar´ dos teoremas muy importantes en lo que a concierne el an´lisis num´rico de ecuaciones diferenciales. El primer teorema a e a enunciarse da condici´nes suficientes para asegurar la existencia y unicidad o de las soluciones de los problemas a valores iniciales. El segundo teorema est´ relacionado con la condici´n misma del problema, pues cuando se trata a o num´ricamente un problema es de suponer que se trabaja con una soluci´n e o aproximada del problema. Teorema VII.1.1.- Cauchy-Lipschitz. Sup´ngase que f es continua sobre o I0 × Rm y que satisface una condici´n de Lipschitz, es decir que existe un o real L tal que f (t, z) − f (t, y) ≤ L z − y ∀(t, y) y (t, z) ∈ I0 × Rm ; (VII.1.7)

entonces el problema (VII.1.1,2) admite una soluci´n y una sola. o Demostraci´n.- Se dar´ una demostraci´n directa que tiene la ventaja de o a o ser valida cuando se remplaza Rn por un espacio de Banach.

298

VII Ecuaciones Diferenciales

Paa fijar las ideas, sup´ngase que I0 = [t0 , t + t0 ] y consid´rese la o e aplicaci´n Φ que a y ∈ C 0 ([t0 , t + t0 ]) asocia Φ(y) ∈ C 0 ([t0 , t + t0 ]) definida o por
t

Φ(y)(t) = y0 +
t0

f (s, y(s))ds.

Introduciendo la norma y
L

= max(e−2L(s−t0 ) y(s) )
s∈I0

que dota C 0 (I0 ) de una estructura de espacio de Banach. Se tiene (Φ(y) − Φ(y ∗ ))(t) ≤ ≤ ≤ deduciendose
t t0 t t0

f (s, y(s)) − f (s, y ∗ (s)) ds Le2L(s−t0 ) ds y − y ∗
L L

1 2L(t−t0 ) e y − y∗ 2
L

,

1 y − y∗ L . 2 El teorema del punto fijo implica que Φ tiene un solo punto fijo en C 0 (I0 ), de donde se tiene el resultado. Φ(y) − Φ(y ∗ ) ≤ Teorema VII.1.2.- Sea f : V → Rn continua, donde V ⊂ Rn+1 abierto. Sup´ngase que: y(x) es una soluci´n de y ′ = f (x, y) sobre [x0 , x], tal que o o ¯ y(x0 ) = y0 ; v(x) una soluci´n aproximada de la ecuaci´n diferencial sobre o o [x0 , x0 ] tal que ¯ v ′ (x) − f (x, v(x)) l ≤ δ (VII.1.8) y f satisface una condici´n de Lipschitz sobre un conjunto que contenga o {(x, y(x)), (x, z(x))}, es decir f (x, y) − f (x, z) ≤ L y − z . Entonces y(x) − v(x) ≤ y0 − v(x0 ) eL(x−x0 ) + Demostraci´n.- Se tiene: o
x

(VII.1.9)

δ L(x−x0 ) e −1 . L

(VII.1.10)

y(x) − v(x) = y(x0 ) − v(x0 ) +
x

x0

(y ′ (s) − v ′ (s))ds

= y(x0 ) − v(x0 ) +

x0

(f (s, y(s)) − f (s, v(s)) + f (s, v(s)) − v ′ (s)) ds,

VII.1 Generalidades

299

pasando a las normas y aplicando las hip´tesis (VII.1.8) y (VII.1.9), se o obtiene
x

y(x) − v(x) ≤ y0 − v(x0 ) + Planteando
x

x0

(L y(s) − v(s) + δ) ds.

u(x) = y0 − v(x0 ) + se deduce

x0

(L y(s) − v(s) + δ) ds,

u′ (x) = L y(x) − v(x) + δ ≤ Lu(x) + δ, u′ (x) ≤ Lu(x) + δ u(x0 ) = y0 − v(x0 ) .

de esta manera se obtiene la desigualdad diferencial (VII.1.11)

Para resolver este desigualdad, se considera la familia de ecuaciones:
′ wn (x) = Lwn (x) + δ,

wn (x0 ) = u(x0 ) +

1 , n

(VII.1.12)

cuyas soluciones est´n dadas por: a wn (x) = wn (x0 )eL(x−x0 ) + δ L(x−x0 ) e − 1) . L

El siguiente paso en la demostraci´n es mostrar que o u(x) ≤ wn (x). (VII.1.13)

Sup´ngase lo contrario, es decir que existe un n y s > x0 , tales que o u(s) > wn (s). Consid´rese el conjunto e A = {x > x0 |u(x) > wn (x)} y sea x1 = inf A. Por continuidad se tiene u(x1 ) = wn (x1 ). De donde:
x1

wn (x1 ) − wn (x0 ) = ≥

x0 x1 x0

′ wn (s)ds =

x1

(Lwn (s) + δ)ds
x0 x1

(Lu(s) + δ)ds ≥

u′ (s)ds

x0

= u(x1 ) − u(x0 ),

300 por lo tanto

VII Ecuaciones Diferenciales

w(x0 ) ≤ u(x0 ), llegando a una contradicci´n con −1/n ≥ 0. o

Problemas con Valores en la Frontera
La teor´ de existencia y unicidad de ecuaciones diferenciales son generalıa mente formuladas para problemas de Cauchy o problemas a valores iniciales, sin embargo existe una gran variedad de problemas diferenciales de otras caracter´ ısticas que ser´n tratados en esta subsecci´n. a o Toda ecuaci´n diferencial puede expresarse como un sistema de ecuao ciones diferenciales de primer orden de la manera siguiente y ′ = f (x, y), (VII.1.14)

donde f : R × Rn → Rn . Un problema diferencial con valores en la frontera es darse una ecuaci´n o diferencial del tipo (VII.1.14) con n condiciones para y(a) y y(b), donde a, b ∈ R. Existe una gama de problemas diferenciales con valores en la frontera. A continuaci´n se mostrar´ los ejemplos m´s representativos. o a a Ejemplos a) Problemas a valores iniciales. Son de la forma y ′ = f (x, y), y(x0 ) = y0 . Este tipo de problema tiene soluci´n unica si f es continua y verifica las o ´ condiciones de Lipschitz. b) Consid´rese el problema e y ′′ = y; y(a) = A, y(b) = B.

La ecuacion diferencial de segundo orden puede reducirse al siguiente sistema de primer orden ′ y1 = y2 , ′ y2 = y1 ; con condiciones de borde dadas por y1 (a) = A y y1 (b) = B. Este problema siempre tiene soluci´n unica cuando a = b. o ´

VII.1 Generalidades

301

c) Encontrar una soluci´n T peri´dica de una ecuaci´n diferencial, por o o o ejemplo y ′ = y + cos x. Es muy facil deducir que T = 2πk, con k entero. El problema es encontrar una soluci´n de la ecuaci´n diferencial que satisfaga o o y(x) = y(x + T ). d) Determinar el par´metro λ ∈ Rp de la ecuaci´n a o y ′ = f (x, y, λ), donde la soluci´n buscada verifica y(a) = ya y g(y(a)) con g : Rn → Rp . o Ahora bien, este problema puede expresarse como el problema diferencial equivalente y ′ = f (x, y, λ), λ′ = 0, con condiciones de frontera y(a) = ya , g(y(b)) = 0. e) Problemas a frontera libre, son de la forma y ′′ = f (x, y, y ′ ); y(0) = A, y(l) = B, y ′ (l) = 0;

con l desconocido. Este problema mediante una transformaci´n af´ de o ın x, puede expresarse de la siguiente forma z ′′ = l2 f l′ = 0, con condiciones de borde dadas por z(0) = A, z(1) = B, z ′ (1) = 0. lt, z, z′ l ,

En base a los ejemplos expuestos m´s arriba, el problema diferencial con a valores en la frontera puede expresarse como y ′ = f (x, y), r(y(a), y(b)), (VII.1.15)

302

VII Ecuaciones Diferenciales

donde f : R × Rn → R y r : Rn × Rn → Rn . Por consiguiente la funci´n r en los diferentes ejemplos, ser´ igual a: o a r(y(a), y(b)) = y(a) − ya y1 (a) y1 (b) y1 (a) − A r , = y2 (a) y2 (b) y1 (b) − B r(y(x0 ), y(x0 + T )) = y(x0 ) − y(x0 + T ) Introduciendo la notaci´n siguiente o y(x, a, ya ) (VII.1.16) ejemplo a), ejemplo b), ejemplo c),

para expresar la soluci´n y(x) que satisface y(a) = ya , el problema diferencial o con condiciones en la frontera consiste en encontrar ya , tal que r(ya , y(b, a, ya )) = 0. Definiendo la funci´n F : Rn → Rn por o F (ya ) = r(ya , y(b, a, ya )), (VII.1.18) (VII1.17)

resumiendose el problema diferencial con valores en la frontera a encontrar ya tal que y ′ = f (x, y), (VII.1.19) F (ya ) = 0.
∗ Sup´ngase que y ∗ (x) sea una soluci´n de (VII.1.19), es decir ya = y ∗ (a), o o ′ ∗ adem´s que F (ya ) sea inversible, por el teorema de la inversi´n local la a o ´ e soluci´n ya es localmente unica y por consiguiente y ∗ (x) lo es tambi´n. o ∗ La ecuaci´n F (ya ) se resuelve generalmente por un m´todo iterativo, o e si F no es lineal, se utiliza por ejemplo el m´todo de Newton. Para poder e aplicar el m´todo de Newton es necesario conocer F ′ (ya ). Ahora bien, se e tiene

F ′ (ya ) =

∂r ∂r ∂y (ya , y(b, a, ya )) + (ya , y(b, a, ya )) (b, a, ya ). (VII.1.20) ∂ya ∂yb ∂ya

Diferenciabilidad respecto a los Valores Iniciales
En la expresi´n (VII.1.20) puede observarse que existe una expresi´n que es o o derivada respecto al valor inicial ya . Retomando la notaci´n de la secci´n o o precedente se tiene y(x, x0 , y0 ) es la soluci´n que pasa por (x0 , y0 ) de la o

VII.1 Generalidades

303

ecuaci´n diferencial y ′ = f (x, y), donde f : R × Rn → Rn . El problema o consiste en determinar ∂y (x, x0 , y0 ). (VII.1.21) ∂y0 En el caso lineal, se tiene que la ecuaci´n diferencial es de la forma o y ′ = A(x)y (VII.1.22)

donde A(x) es una matriz de coeficientes (aij (x) continuos. La soluci´n o general de (VII.1.22) est´ dada por a
n

y(x, x0 , y0 ) =
i=1

y(x, x0 , ei )y0i = R(x, x0 )y0

(VII.1.23)

donde los ei son los vectores de la base can´nica de Rn . La matriz R(x, x0 ) o se llama el nucleo resolvente o la resolvente de la ecuacion (VII.1.22). Es facil de verificar que ∂y (x, x0 , y0 ) = R(x, x0 ) (VII.1.24) ∂y0 Para el caso no lineal la situaci´n es un poco m´s complicada. Se tiene o a ∂y (x, x0 , y0 ) = f (x, y(x, x0 , y0 )) ∂x (VII.1.25)

suponiendo que ∂y/∂y0 existe y el orden de derivaci´n conmuta, se obtiene o ∂ ∂x con ∂y (x, x0 , y0 ) ∂y0 = ∂f ∂y (x, y(x, x0 , y0 )) (x, x0 , y0 ) ∂y ∂y0

∂y (x0 , x0 , y0 ) = I, ∂y0 ∂y (x, x0 , y0 ) es la resolvente de la ecuaci´n diferencial lineal o ∂y0 Ψ′ = ∂f (x, y(x, x0 , y0 ))Ψ. ∂y (VII.1.26)

de donde

Shooting Simple
Retomando el problema con valores en la frontera formulado bajo la forma de las ecuaciones (VII.1.18) y (VII.1.19) puede ser resuelto utilizando el m´todo conocido como shooting simple, que en s´ e ıntesis es utilizar un m´todo e

304

VII Ecuaciones Diferenciales

n´merico para resolver (VII.1.19). Este m´todo puede ser Newton u otro u e m´todo num´rico adaptado al problema. Sin pretender dar una teor´ que e e ıa justifique tal m´todo, para tal efecto referirse a Stoer, se mostrar´ este e a m´todo implementado en ejemplos. e Ejemplos a) Consid´rese el problema con valores en la frontera dado por: e y(0) = 1, (VII.1.27) 1 y(1) = . 2 Utilizando la notaci´n de la subsecci´n precedente, se plantea o o y(x, α), la soluci´n del problema diferencial a valores iniciales o y(0) = 1, y ′ (0) = α. y ′′ = −ey , (VII.1.27b) y ′′ = −ey ,

El problema (VII.1.27) se traduce en encontrar α, tal que 1 . 2 En la figura VII.1.1, puede observarse en la gr´fica los valores de y(1) en a funci´n de α. o y(1, α) =
2

y(1)

1

0 0

2

4

6

8

10 α

−1

Figura VII.1.1. Valores de y(1) en funci´n de α. o

VII.1 Generalidades

305

Observando la gr´fica, se puede deducir que el problema (VII.1.27) tiene a dos soluciones. El siguiente paso es aplicar el m´todo del shooting simple, e obteniendo de esta manera dos soluciones. La primera con α = 0.9708369956661049, la segunda soluci´n con o α = 7.93719815816973. Puede apreciarse las graficas de las dos soluciones, en la figura (VII.1.2)
5 5

4

4

3

3

2

2

1

1

0

0

0

1

Figura VII.1.2. Soluciones del Problema (VII.1.26). b) En este ejemplo se analizar´ un problema de soluciones peri´dicas. a o Consid´rese la ecuaci´n diferencial de Van der Pol, dada por e o y ′′ = (1 − y 2 )y ′ − y. (VII.1.28)

El problema consiste en determinar si existe una soluci´n peri´dica y o o sobre todo c´mo es ´sta. Ahora bien, (VII.1.28) puede escribirse como o e el sistema de ecuaciones diferenciales
′ y1 = y2 , ′ 2 y2 = (1 − y1 )y2 − y1 .

(VII.1.29)

Planteando y(x) = (y1 (x), y2 (x)), el problema se resume en encontrar T > 0, tal que y(T ) = y(0), que puede formularse de la siguiente manera F (T, y0 ) = y(T, 0, y0 ) − y0 = 0. (VII.1.30)

306

VII Ecuaciones Diferenciales Sup´ngase que T, y0 sean una aproximaci´n de la soluci´n del problema o o o (VII.1.30), de donde F (T + ∆T, y0 + ∆y0 ) = 0, con ∆T , ∆y0 escogidos convenientemente. Desarrollando en serie de Taylor, se deduce: ∂F ∂F (T, y0 )∆T + (T, y0 )∆y0 = 0, ∂T ∂y0 ∂y y(T, 0, y0 ) − y0 + f (y(T, 0, y0 ))∆T + (T, 0, y0 ) − I ∆y0 = 0. ∂y0 F (T, y0 ) + Por consiguiente, se tiene n ecuaciones lineales, con n + 1 incognitas, agregando la condici´n suplementaria o ∆y0 ⊥ f (y(T, 0, y0 )), se obtiene
∂y (T, 0, y0 ) − I ∂y0 t f (y(T, 0, y0 ))

(VII.1.31)

f (y(T, 0, y0 )) 0

∆y0 ∆T

=−

y(T, 0, y0 ) − y0 . 0 (VII.1.32)

Partiendo de los valores iniciales y1 (0) = 1., y2 (0) = 2., T = 7.; luego de 14 iteraciones se obtiene con una precisi´n del orden de 10−13 , o los valores iniciales y el periodo y1 (0) = 2.00861986087296, y2 (0) = 0., T = 6.66328685933633. La soluci´n peri´dica de la ecuaci´n Van der Pol puede apreciarse en la o o o

VII.1 Generalidades figura VII.1.3
3

307

2

1

−3

−2

−1

0 0

1

2

3

−1

−2

−3

Figura VII.1.3. Soluciones Periodica de Van der Pol.

Shooting M´ ltiple u
La soluci´n del problema con valores en la frontera o y ′ = f (x, y), r(y(a), y(b)) = 0,

requiere que para todo punto x de la regi´n donde est´ definida la soluci´n y o a o se tenga una aproximaci´n num´rica de y(x). En el m´todo shooting descrito o e e en la anterior subsecci´n, solamente el valor inicial y(a) = ya es determinado. o ˆ En muchos problemas es suficiente conocer este valor, sin embargo en una gran variedad de problemas con valores en la frontera conocer este valor no es nada fiable. Para ilustrar esto, consid´rese la ecuaci´n diferencial. e o y ′′ − y ′ + 110y = 0, cuya soluci´n general est´ dada por o a y(x) = C1 e−10x + C2 e11x , (VII.1.34) (VII.1.33)

308

VII Ecuaciones Diferenciales

donde C1 y C2 son constantes reales arbitrarias. El problema a valor inicial ′ y(0) = y0 y y ′ (0) = y0 tiene como soluci´n o y(x) =
′ ′ 11y0 − y0 −10x y0 + 10y0 11x e + e . 21 21

(VII.1.35)

Ahora bien, consid´rese el problema con valores en la frontera dado por e y(0) = 1, y(10) = 1;

′ o la soluci´n de este problema consiste en determinar y0 de la f´rmula o (VII.1.35). Por consiguiente, resolviendo la ecuaci´n lineal o ′ ′ 11 − y0 −100 10 + y0 110 e + e = 1; 21 21

se obtiene
′ y0 =

Debido a la aritm´tica de punto flotante que las computadoras poseen, en e ′ lugar de y0 , se manipula la cantidad y0 = −10(1 + ǫ), con |ǫ| ≤ eps. ¯′ (VII.1.36)

21 − 10e110 − 11e−100 . e110 − e100

Suponiendo que los c´lculos se hacen en doble precisi´n, se puede tomar por a o ′ ejemplo ǫ = 10−16 . Remplazando y0 en (VII.1.35), se obtiene y(100) ≈ 10−15 110 e ≈ 2.8 × 1031 . 21

Otra de las dificultades mayores en la implementaci´n del m´todo o e shooting en su versi´n simple, es la necesidad de contar con una buena o aproximaci´n de ya , lo que en general no sucede. Por otra lado, los valores o que pueden tomar los ya , en muchas situaciones, est´n confinados a regiones a demasiado peque˜as; por ejemplo considerese el problema n y ′′ = y 3 , y(0) = 1, y(100) = 2;

(VII.1.37)

los valores que puede tomar y ′ (0), para que y(x) est´ definida en el intervalo e [0, 100], est´n restringidos a un intervalo de longitudo no mayor a 10−6 . Por a este motivo puede deducirse la dificultad de implementar el m´todo shooting e simple.

VII.1 Generalidades

309

El remedio a estas dificultades enumeradas m´s arriba est´ en la ima a plementaci´n del m´todo shooting m´ltiple, que consiste en subdividir el o e u intervalo [a, b] en subintervalos de extremidades xi , es decir tomar una subdivisi´n a = x0 < x1 · · · < xn = b. Luego, se denota por yi = y(xi ). De esta o manera se obtiene el sistema de ecuaciones   y(x1 , x0 , y0 ) − y1 = 0    y(x , x , y ) − y = 0   2 1 1 2   . . (VII.1.38) .     y(xn , xn−1 , yn−1 ) = 0     r(y0 , yn ) = 0. La soluci´n de (VII.1.38) se la encuentra utilizando un m´todo iterativo, o e que puede ser Newton si el problema no es lineal. Como ilustraci´n de este o M´todo se tiene los siguientes dos ejemplos. e Ejemplos a) Consid´rese el problema (VII.1.37). Para su resoluci´n se ha subdivie o dido equidistantemente en 100 subintervalos. La soluci´n del sistema o (VII.1.38) se la hecho utilizando el m´todo de Newton. Las iteraciones e y las gr´ficas pueden apreciarse en la figura VII.1.4. a

310

VII Ecuaciones Diferenciales

3 2 1 0 3 2 1 0 3 2 1 0 3 2 1 0 3 2 1 0 3 2 1 0

iter=0

0

20

40

60

80

100

iter=1

0

20

40

60

80

100

iter=2

0

20

40

60

80

100

iter=3

0

20

40

60

80

100

iter=4

0

20

40

60

80

100

iter=11

0

20

40

60

80

100

Figura VII.1.4. Implementaci´n M´ltiple Shooting. o u b) Este ejemplo est´ relacionado con un problema ingen´ a ıeril. Un granjero desea un silo cuya base sea un c´ ırculo de radio 5 m, de altura 10 m y el techo sea un c´ ırculo de radio 2.5 m, la capacidad del silo debe ser exactamente de 550 m3 . Suponiendo que el costo es proporcional al ´rea a del silo. ¿C´al es la forma de ´ste? u e Matem´ticamente el problema puede ser formulado como: a area lateral −→ min, v´lumen = 550. o Por la simetr´ del problema, se puede deducir que el silo es una superficie ıa de revoluci´n, por lo tanto el problema puede expresarse de la manera o

VII.1 Generalidades siguiente: Encontrar una funci´n y(x), tal que o

311

10

y
0

1 + y ′2 dx −→ min,
10

π
0

y 2 dx = 550, y(0) = 5, y(10) = 2.5.

Planteando L(λ, y, y ′ ) = y 1 + y ′2 − λ y 2 − 55 π ,

el problema es equivalente, por los Multiplicadores de Lagrange a

10 0

L(λ, y, y ′ )dx → min .

Este problema es de tipo variacional. Aplicando las ecuaciones de EulerLagrange se convierte en el problema diferencial siguiente

d dx

∂ ∂y ′

y

1 + y ′2 − λ(y 2 −

55 π

− ∂ ∂y y 1 + y ′2 − λ(y 2 − 55 ) π = 0.

La soluci´n de este problema ha sido efectuada utilizando el m´to de o e shooting m´ltiple. Como soluci´n inicial se ha utilizado una par´bola u o a que satisfaga las condiciones de contorno y la condici´n de v´lumen. El o o intervalo [0, 10] ha sido subdivido en 10 subintervalos de igual longitud. Despues de 5 iteraciones se llega a una precisi´n de 10−10 . Las iteraciones o

312

VII Ecuaciones Diferenciales del m´todo pueden apreciarse en la figura VII.1.5. e
8 7 6 5 4 3 2 1 0 0 8 7 6 5 4 3 2 1 0 0 8 7 6 5 4 3 2 1 0 0

iter=0

10

iter=2

10

iter=4

10

8 7 6 5 4 3 2 1 0 0 8 7 6 5 4 3 2 1 0 0 8 7 6 5 4 3 2 1 0 0

iter=1

10

iter=3

10

iter=5

10

Figura VII.1.4. Determinaci´n del Silo ´ptimo. o o A continuaci´n se presenta una serie de ejercicios, cuya finalidad es o recordar las nociones b´sicas sobre las ecuaciones diferenciales. a

Ejercicios
1.- Resolver: y ′ = −x signo(y) |x|, y ′ = exp(y) sin(x), y ′ = (x − y + 3)2 . Dibujar los campos de vectores. 2.- Dibujar el campo de vectores de la ecuaci´n o xy ′ = x2 − y 2 + y.

VII.1 Generalidades Encontrar una f´rmula explicita para las soluciones. o 3.- La ecuaci´n de un cuerpo en caida libre est´ dada por o a r ′′ = − γM , r2 r(0) = R, r ′ (0) = v0 .

313

(VII.1.39)

Plantear r ′ = p(r), deducir una ecuaci´n diferencial para p y resolverla. o Encontrar una condici´n para v0 , tal que r(t) → ∞ si t → ∞. Calcular las o soluciones de (VII.1.39) que tienen la forma a(b ± x)α . 4.- Transformar la ecuaci´n de Bernoulli o y′ + y + (1 + x)y 4 = 0, 1+x

en una ecuaci´n lineal. Plantear y(x) = z(x)q con q conveniente. o 5.- Resolver la ecuaci´n de Riccati o y ′ = y 2 + 1 − x2 . (VII.1.40)

Dibujar el campo de vectores considerando las curvas donde y ′ = cons, las isoclinas. Deducir una soluci´n particular φ(x) de (VII.1.40). Calcular o las otras soluciones mediante la transformaci´n z(x) = y(x) − φ(x). o 6.- Encontrar la soluci´n de o y ′′ − 3y ′ − 4y = g(x), que satisface y(0) = y ′ (0) = 0. 7.- Resolver las ecuaciones lineales y′ = 3 6 −2 −3 y, y′ = 1 4 −1 −3 . g(x) = cos x, 0, 0 ≤ x ≤ π/2; π/2 ≤ x;

VII.2 M´todo de Euler e

En esta secci´n ser´ estudiado el m´todo m´s sencillo de resoluci´n de o a e a o ecuaciones diferenciales con valores iniciales. Se considera el problema a valor inicial o problema de Cauchy dado por y ′ = f (x, y), y(t0 ) = y0 , (VII.2.1)

donde f : V → Rn continua, con V ⊂ R × Rn . Se desea determinar y(t0 + T ), para eso se considera la subdivisi´n del intervalo [t0 , t0 + T ] dada por o t0 < t1 < t2 < · · · < tn = t0 + T, definiendo La idea fundamental del m´todo de Euler consiste en aproximar la soluci´n e o exacta en x1 , utilizando una tangente que pase por (x0 , y0 ), es decir y1 = y0 + h0 f (x0 , y0 ). De manera general xi+1 = xi + hi , yi+1 = yi + hi f (xi , yi ). (VII.2.4) (VII.2.3) hi = xi+1 − xi , i = 0, . . . , n − 1. (VII.2.2)

La soluci´n num´rica proporcionada por el m´todo de Euler es, por consio e e guiente una funci´n poligonal, ver figura VI.2.1, denotada por yh (x), llamada o pol´ ıgono de Euler; esta funci´n esta definida por: o h = (h0 , . . . , hn ), x ∈ [xk , xk+1 ], yh (x) = yk + (x − xk )f (xk , yk ).
y1 y0 y2 y3 y4 y 5 y6 y(x)

(VII.2.5)

x1

x2 x3

x4

x5

x6

Figura VII.2.1. El Pol´ ıgono de Euler

´ VII.2 Metodo de Euler

315

Una pregunta muy natural, que uno puede plantearse, consiste en determinar bajo que condiciones el m´todo de Euler converge hacia la soluci´n exacta e o del problema diferencial de Cauchy, cuando n → ∞. Consid´rese el problema e y ′ = f (x, y), y(x0 ) = y0 , donde f : U → Rn , con U ⊂ R × Rn abierto. Se define |h| =
i=0,...,n−1

(VII.2.6)

max

hi .

(VII.2.7)

Proposici´n VII.2.1.- Sea D = {(x, y)|x ∈ [x0 , x0 + a], y − y0 ≤ b} ⊂ U. o Sup´ngase que f |{D continua, A = max f (x, y) , α = min(a, b/A). o
(x,y)∈D

Entonces para cada divisi´n h del intervalo [x0 , x0 + α] se tiene: o a) yh (x) − yh (¯) ≤ A x − x ; x, x ∈ [x0 , x0 + α]. x ¯ ¯ b) si f (x, y) − f (x0 , y0 ) ≤ ǫ sobre D, entonces yh (x) − (y0 + (x − x0 )f (x0 , y0 )) ≤ ǫ |x − x0 | . Demostraci´n.-El punto a) es trivial, ya que es consecuencia de la o definici´n de yh , A y la desigualdad del tri´ngulo aplicada una cantidad o a finita de veces. La demostraci´n del punto b) es la siguiente. Sea x ∈ [x0 , x0 + α], por o consiguiente x ∈ [xk−1 , xk ], de donde yh (x) = yk + (x − xk−1 )f (xk−1 , yk−1 ) = y0 + h0 f (x0 , y0 ) + h1 f (x1 , y1 ) + · · · + hk−2 f (xk−2 , yk−2 ) + (x − xk−1 )f (xk−1 , yk−1 ). Ahora bien, y0 + (x − x0 )f (x0 , y0 ) = y0 + h0 f (x0 , y0 ) + . . . hk−2 f (x0 , y0 ) + (x − xk−1 )f (xk−1 , yk−1 ), obteniendo finalmente b). Proposici´n VII.2.2.- Sea h una divisi´n del intervalo I. Sean yh (x) el o o pol´ ıgono de Euler para (x0 , y0 ) y zk (x) el pol´ ıgono de Euler para (x0 , z0 ). Si f (x, y) − f (x, z) ≤ L y − z , entonces yh (x) − zh (x) ≤ x0 − z0 eL(x−x0 ) . (VII.2.9) ∀(x, y), (x, z) ∈ D; (VII.2.8)

316

VII Ecuaciones Diferenciales

Antes de demostrar esta proposici´n vale la pena recalcar que si f o satisface una condici´n de Lipschitz, es decir (VII.2.8), el pol´ o ıgono de Euler es unico paa h dado. ´ Demostraci´n.- Se tiene: o y1 = y0 + h0 f (x0 , y0 ), z1 = z0 + h0 f (x0 , z0 ), obteniendo como desigualdad y1 − z1 ≤ y0 − z0 + h0 L y0 − z0 ≤ (1 + h0 L) y0 − z0 ≤ eh0 L , procediendo de manera recursiva, se obtiene yk − zk ≤ eLhk−1 yk−1 − zk−1 ≤ eL(x−x0 ) y0 − z0 .

Teorema VII.2.3.- Cauchy. Sea D = {(x, y)|x0 ≤ x ≤ x0 + a, y − y0 } ⊂ U; sup´ngase: o i) f |D continua, A = max f (x, y) , α = min(a, b/A),
(x,y)∈D

ii) f (x, y) − f (x, z) ≤ L y − z si (x, y), (x, z) ∈ D; entonces: a) Si |h| → 0, entonces los pol´ ıgonos de Euler yh (x) convergen uniformemente sobre [x0 , x0 + α] hacia una funci´n ϕ(x). o b) ϕ(x) es soluci´n de y ′ = f (x, y), y(x0 ) = y0 . o c) La soluci´n es unica sobre [x0 , x0 + α]. o ´ Demostraci´n.- Inicialmente se mostrar´, que si hk es una sucesi´n de subo a o divisiones de [x0 , x0 + α] con |hk | → 0, entonces la sucesi´n de poligonos de o Euler asociada, es una sucesi´n de Cauchy para la norma de la convergencia o uniforme. Para tal efecto, se mostrar´ que a ˆ ∀ǫ > 0∃δ > 0 tal que |h| < δ, h < δ =⇒ ∀x ∈ [x0 , x0 + α] se tiene yh (x) − yh (x) < ǫ. ˆ

ˆ donde h es una divisi´n con |h| < δ y h una divisi´n m´s fina que h. o o a

´ VII.2 Metodo de Euler

317

Sea ǫ > 0 dado, entonces existe δ > 0 tal que si |x − x| ≤ δ y ¯ y − y ≤ Aδ implica que f (x, y) − f (¯, y ) ≤ ǫ. Esto es cierto por que ¯ x ¯ f es uniformemente continua sobre D. Por la proposici´n VII.2.1, se tiene o yh (x) − {y0 + (x − x0 )f (x0 , y0 )} ≤ ǫ |x − x0 | , de donde yh (x) − yh (x) ≤ ǫ (x1 − x0 )eL(x−x1 ) + · · · + (x − xk )eL(x−xk ) ˆ
x

eL(x−s) ds = ǫ
x0

eL(x−x0 ) − 1 L

eLα − 1 , ≤ǫ L por consiguiente, {yh (x)} es una sucesi´n de Cauchy, con δ que no depende o de x. Como consecuencia inmediata, se tiene que la sucesi´n converge hacia o una funci´n ϕ(x) que adem´s es continua. o a La demostraci´n del punto b) se basa en los siguientes hechos: yh (x0 ) = o y0 implica que ϕ(x0 ) = y0 , se considera el m´dulo de continuidad de f , o definido por ǫ(δ) = sup{ f (x, y) − f (¯, y ) | |x − x| ≤ δ, y − y ≤ Aδ}, x ¯ ¯ ¯ se observa inmediatamente, que ǫ(δ) → 0 si δ → 0. Utilizando la proposici´n o VII.2.2, se obtiene yh (x + δ) − yh (x) − δf (x, yh (x)) ≤ δǫ(δ), de donde, se tiene ϕ(x + δ) − ϕ(x) − δf (x, ϕ(x)) ≤ δǫ(δ), efectuando el pasaje al l´ ımite, se obtiene ϕ′ (x) = f (x, ϕ(x)). La unicidad del punto c) ha sido ya demostrada en el corolario VII.1.12 Corolario VII.2.4.- f : U → Rn (U ⊂ ×Rn ) continuamente diferenciable. D = {(x, y)|x0 ≤ x ≤ x0 + α, y − y0 ≤ b} ⊂ U.

318 Sobre D se tiene f (x, y) ≤ A, Entonces y(x) − yh (x) ≤

VII Ecuaciones Diferenciales ∂f (x, y) ≤ L, ∂y ∂f (x, y) ≤ M . ∂x

M + AL L(x−x0 ) e − 1 |h| , L

(VII.2.10)

donde y(x) es soluci´n de y ′ = f (x, y), y(x0 ) = y0 . o Demostraci´n.- Remontando la demostraci´n del teorema precedente, se o o tiene eL(x−x0 ) − 1 yh (x) − y(x) ≤ ǫ . L Puesto que f es diferenciable, se tiene f (x, y) − f (¯, y ) ≤ L y − y + M |x − x| x ¯ ¯ ¯ ≤ A |h| + |h| , de donde planteando ǫ = (LA + M ) |h| se tiene (VII.2.10).

Efectos de los Errores de Redondeo
Generalmente no se puede calcular la soluci´n exacta del esquema (VII.2.4); o se calcula solamente la soluci´n del esquema perturbado dado por o
∗ ∗ ∗ yn+1 = yn + hn f (tn , yn ) + hn µn + ̺n

(VII.2.11)

donde µn designa el error con el cual es calculado la funci´n f y ̺n los errores o de redondeo cometidos por la computadora. Se supondr´ que |µn | ≤ µ y a |̺n | ≤ ̺. Con la hip´tesis suplementaria que f es continuamente diferenciable, o ∗ como en en el corolario VII.2.4, se tiene planteando en = yn − yn y sustrayendo (VII.2.11) con (VII.2.4),
∗ e∗ = e∗ + hn [f (tn , yn ) − f (tn , yn )] + hn µn + ̺n . n+1 n

(VII.2.12)

Puesto que f es diferenciable, se obtiene de (VII.2.12) el siguiente esquema e∗ = e∗ + hn [ n+1 n ∂f 2 (tn , yn )e∗ ] + hn µn + ̺n + O( e∗ ). n n ∂y
2

(VII.2.13)

Planteando zn = hn e∗ , despreciando O( e∗ ) y suponiendo que hn = h n n constante, se obtiene el siguiente esquema para zn , con zn+1 = zn + h[ ∂f (tn , yn )zn ] + h(hµn + ̺n ), ∂y (VII.2.14)

´ VII.2 Metodo de Euler

319

de donde zn es la soluci´n num´rica exacta obtenida a partir del m´todo de o e e Euler de la ecuaci´n o z ′ (t) = [ ∂f (t, y(t))]z(t) + (hµ(t) + ̺(t)). ∂y (VII.2.15)

En lugar de estudiar la soluci´n num´rica de (VII.2.15), se estudiar´ la o e a soluci´n de este problema cuando h tiende a 0. Qualquier soluci´n de o o la ecuaci´n diferencial (VII.2.15) no puede ser identicamente nula por o la existencia del t´rmino no homogeneo no nulo, para h suficientemente e peque˜o este t´rmino no homogeneo es no nulo. Sea C = max z(t) cuando n e h = 0, por otro lado denotando zh (t) la soluci´n de (VII.2.15) para un h fijo, o se tiene que zh (t) converge uniformente hacia z0 (t) cuando h tiende a 0. Por lo tanto, existe un intervalo cerrado J ⊂ [t0 , t0 + T ] y h0 para los cuales zh (t) ≥ C 2 ∀t ∈ J, ∀h ≤ h0 .

Puesto que e∗ ≈ z(tn )/h, se tiene que n
h→0

lim e∗ = ∞. n

Acaba de observarse que cuando la longitud de paso hn tiende a 0, el error debido al redondeo toma un lugar preponderante, distorsionando completamente cualquier resultado num´rico. En la figura VII.2.2 puede e verse un comportamiento aproximado del error de redondeo en funci´n de o h.
Error

h

Figura VII.2.2. Error de Redondeo en el M´todo de Euler. e La pregunta natural que surge es: ¿C´al es el h m´ u ınimo que se puede tomar sin que el error de redondeo sea preponderante? La respuesta a esta

320

VII Ecuaciones Diferenciales

pregunta tiene dos fuentes, la primera que radica en la pr´ctica num´rica, a e y la segunda en un an´lisis sobre el origen de los otros errores que ocurren a durante la implementaci´n del m´todo. Ambos estudios llegan a la conclusi´n o e o de √ hmin ≥ C eps, (VII.2.16) donde eps es la precisi´n de la computadora. o Las mayoraciones que se acaban de dar son por lo general demasiado pesimistas, por ser rigurosos matem´ticamente, uno se situa en la situaci´n a o m´s desfavorable posible. Por otro lado si se toma h muy peque˜o, inferior a n a eps, el algoritmo se mantiene estacionario.

Estabilidad del M´todo de Euler e
En la anterior subsecci´n se pudo observar la incidencia directa del error de o redondeo. En esta parte se analizar´ la propagaci´n del error de redondeo a o en la soluci´n num´rica. Consid´rese el problema siguiente o e e y ′ = λy, y(0) = y0 . (VII.2.17)

El m´todo de Euler con paso constante, da el siguiente esquema e yn+1 = yn + hλyn , (VII.2.18)

sup´ngase que en lugar de y0 , se introduce una aproximaci´n y0 , planteando o o ¯ en = yn − yn donde yn es la soluci´n num´rica de la ecuci´n (VII.2.17) con ¯ ¯ o e o valor inicial y0 . Los en verifican la siguiente relaci´n: ¯ o en+1 = en + hλen , de donde en = (λh + 1)n e0 . (VII.2.19) Por consiguiente, el esquema (VII.2.17) ser´ estable siempre y cuando a
n→∞

e0 = (¯0 − y0 ), y

lim en = 0,

situaci´n que sucede cuando |λh + 1| < 1. Por consiguiente, para obtener un o m´todo estable es necesario que e hmax = 2 . |λ| (VII.2.20)

Por lo expuesto en la anterior subsecci´n y en ´sta, se tiene necesariamente o e que la longitud de paso est´ acotada inferiormente e superiormente. La a cota inferior impide que el error de redondeo distorsione completamente

´ VII.2 Metodo de Euler

321

la soluci´n num´rica del problema, mientras que la cota superior en los o e problemas lineales impide que el m´todo diverga. La idea de estabilidad e puede generalizarse a problemas diferenciales lineales de mayor dimensi´n. o Por ejemplo, consid´rese el problema e y ′ = Ay, y(0) = y0 .

Con el procedimiento utilizado anterioremente e introduciendo normas en los lugares apropiados es facil mostrar que el m´todo de Euler es estable si e ρ(A + I)h < 1, (VII.2.21)

donde ρ(A + I) es el radio espectral de la matriz A + I. Planteando z = λh, se tiene estabilidad en el m´todo, si y solamente si |z + 1| < 1. De donde, se e tiene definida una regi´n de estabilidad, dada en la figura VII.2.3, la parte o achurada del c´ ırculo corresponde a la regi´n donde el m´todo es estable. o e

i

−1

1

−i

Figura VII.2.3. Regi´n de Estabilidad del M´todo de Euler o e El siguiente ejemplo ilustra, que el m´todo de Euler no es un m´todo e e muy apropiado para resolver ciertos problemas diferenciales a valor inicial. Consid´rese, el problema e y ′ (x) = −100y(x) + cos x, y(0) = 0. La soluci´n de este problema, est´ dada por o a y(x) = 1 100 cos x + sin x + Ce−100x , 10001 10001 (VII.2.22)

con C una constante determinada por la condici´n inicial. Puede observarse o que para x = π, se tiene y(π) ≈ − 100 ≈ −0, 01. 10001 (VII.2.23)

322

VII Ecuaciones Diferenciales

Aplicando el m´todo de Euler con paso constante se tiene: e π → yh (π) = −9.999 × 10−3 , 165 π → yh (π) = −60.101. h2 = 155 h1 = No obstante que h2 − h1 ≈ 1.2 × 10−3 , la diferencia de los resultados es abismal. La explicaci´n de este fen´meno de inestabilidad ha sido explicado o o m´s arriba. a El problema dado por (VII.2.22) est´ dentro una categor´ de problemas a ıa diferenciales conocidos con el nombre de ecuaciones diferenciales rigidas, ver Hairer & Wanner. Para evitar aberraciones en los resultados num´ricos en e la resoluci´n num´rica de esta clase de problemas, el m´todo de Euler puede o e e modificarse, obteniendo as´ el: ı

M´todo de Euler Impl´ e ıcito
En lugar de utilizar el esquema dado por (VII.2.4); el m´todo de Euler e impl´ ıcito, est´ dado por el esquema a yk+1 = yk + hk f (xk+1 , yk+1 ). (VII.2.24)

Puede observarse inmediatamente, que para determinar yk+1 se debe resolver una ecuaci´n, que en lo general no es lineal. Comparando con la versi´n o o expl´ ıcita del m´todo de Euler, ´sto constituye una dificultad adicional, pues e e para evaluar yk+1 debe utilizarse un m´todo de resoluci´n de ecuaciones, e o como ser el m´todo de Newton. Puede mostrarse, ver Hairer & Wanner, e que si hk es lo suficientemente peque˜o, la convergencia del m´todo de n e Newton, o de otro m´todo de resoluci´n est´ asegurada. Se ha expuesto e o a la desventaja principal del m´todo de Euler impl´ e ıcito, respecto al m´todo e de Euler expl´ ıcito. A continuaci´n se expondr´ la principal motivaci´n o a o de utilizar la versi´n impl´ o ıcita en determinadas situaciones. La principal desventaja del m´todo de Euler expl´ e ıcito en radica en la falta de estabilidad cuando h no es los suficientemente peque˜o, ver el ejemplo en el cual para n 2 pasos muy proximos, las soluciones numericas del problema (VII.2.22) difieren de manera significativa. El an´lisis de estabilidad del m´todo de a e Euler impl´ ıcito es muy similar a la del m´todo de Euler expl´ e ıcito, en efecto considerando el problema (VII.2.18), se tiene que el m´todo impl´ e ıcito satisface la siguiente relaci´n recursiva para el error o en+1 = en + λhen+1 , de donde, se obtiene de manera expl´ ıcita en+1 = 1 en , 1 − λh (VII.2.26) (VII.2.25)

´ VII.2 Metodo de Euler

323

teniendo de esta manera estabilidad en la propagaci´n de los errores de o redondeo, si y solamente si Para los problemas de la forma y = Ay, (VII.2.27) y remplazando z = λh, se obtiene el dominio de estabilidad dado por el cual est´ dado en la figura VII.2.3. a |z − 1| > 1, (VII.2.28) |1 − λh| > 1.

(VII.2.27)

1

Figura VII.2.3. Regi´n de Estabilidad del M´todo de Euler Impl´ o e ıcito.

Ejercicios
1.- Aplicar el m´todo de Euler al problema e y′ = y2 , y(0) = 1. Evaluar y(1/4). Utilizar pasos constantes, (por ejemplo h=1/6). Estimar el error con el corolario VII.2.4. Comparar esta estimaci´n con el error exacto. o 2.- Demostrar el resultado siguiente: Si el problema y ′ = f (x, y),
n n

y(x0 ) = y0 ,

con f : U → R continua, U ⊂ ×R abierto y (x0 , y0 ) ∈ U posee una y una sola soluci´n sobre el intervalo I, entonces los pol´ o ıgonos de Euler yh (x) convergen uniformemente sobre I hacia esta soluci´n. o 3.- Aplicar el m´todo de Euler al sistema e ′ y1 = −y2 , y1 (0) = 1, ′ y2 (0) = 0. y2 = y1 , Utilizar pasos constantes para encontrar una aproximaci´n de la soluci´n o o en el punto x = 0.4. Estimar el error como en el ejercicio 1 y compararla con el error exacto. La soluci´n exacta es y1 (x) = cos x, y2 (x) = − sin x. o

VII.3 M´todos de Runge-Kutta e

En la anterior secci´n se formul´ el m´todo de Euler en su versi´n expl´ o o e o ıcita como en su versi´n impl´ o ıcita. Uno de los grandes problemas con el cual se debe confrontar en la utilizaci´n de este m´todo, consiste en la falta o e de precisi´n de ´ste, ver el corolario VII.2.4, motivo por el cual, los pasos o e de integraci´n deben ser demasiado peque˜os, induciendo de esta manera o n grandes perturbaciones debido al error de redondeo. En esta secci´n se pretende construir m´todos cuya precisi´n sea m´s o e o a elevada, permitiendo as´ menos evaluaciones y una menor incidencia del ı error de redondeo en los c´lculos. Se estudiar´ los m´todos conocidos como a a e m´todos a un paso, en contraposici´n a los m´todos multipasos que ser´n e o e a tratados en la siguiente secci´n. o Se pretende calcular una aproximaci´n de la soluci´n de o o y ′ = f (x, y), y(x0 ) = y0 , (VII.3.1)

sobre el intervalo [x0 , xe ]. Se procede como sigue: De la misma manera que en el m´todo de Euler, se particiona [x0 , xe ] en subintevalos x0 < x1 < · · · < e xN = xe , se denota hn = xn+1 − xn y se calcula yn ≈ y(xn ) por una f´rmula o de la forma yn+1 = yn + hn Φ(hn , xn , yn ). (VII.3.2) Una tal f´rmula se llama m´todo a un paso, por que el c´lculo de yn+1 utiliza o e a los valores de hn , xn , yn de un paso solamente. Puede observarse facilmente que el m´todo de Euler corresponde bien a e esta categor´ de m´todos a un paso. Vale la pena recalcar que los m´todos ıa e e de la forma (VII.3.2) no solamente son m´todos a un paso, si no que tambi´n e e expl´ ıcitos. Para saber m´s referirse a Hairer & Wanner. Para simplificar la a notaci´n, solamente se considerar´ el primer paso, es decir cuando n = 0 en o a (VII.3.2) y escribir h en lugar de h0 . Para obtener otros m´todos num´ricos se integra (VII.3.1) de x0 a x0 +h. e e La expresi´n que se obtiene, est´ dada por o a
x0 +h

y(x0 + h) = y0 +
x0

f (t, y(t))dt.

(VII.3.3)

La idea central consiste en remplazar la integral de (VII.3.3) por una expresi´n que la aproxime. Por ejemplo, si se utiliza h(f (x0 , y0 )) como o aproximaci´n se tiene el m´todo de Euler Expl´ o e ıcito. Por consiguiente, la idea ser´ utilizar f´rmulas de cuadratura que tienen un orden m´s elevado. a o a

´ VII.3 Metodos de Runge-Kutta

325

Como ejemplo de la utilizaci´n de este ingenioso argumento, se tiene el o m´todo de Runge. Se toma la f´rmula del punto medio que es una f´rmula e o o de cuadratura de orden 2. Obteniendo as´ ı y(x0 + h) ≈ y0 + hf x0 + h h , y(x0 + ) , 2 2 (VII.3.4)

obteniendo posteriormente el valor desconocido y(x0 + h/2) mediante el m´todo de Euler. Esto da e y1 = y0 + hf x0 + h h , y0 + f (x0 , y0 ) . 2 2 (VII.3.5)

La interpretaci´n geom´trica del m´todo de Runge, ver figura VII.3.1, o e e consiste en hacer pasar una recta tangente por el punto m´dio de las curvas e integrales de la ecuaci´n diferencial, obteniendo este punto medio mediante o una tangente que sale de (x0 , y0 ). Ver la figura VII.3.1.

x0

x0 +h/2

x 0 +h

Figura VII.3.1 M´todo de Runge e Kutta en 1901, generaliz´ la idea de Runge, conduciendo a la definici´n o o siguiente de los m´todos que llevan sus nombres. e Definici´n VII.3.1.- Un m´todo de Runge-Kutta a s pisos, est´ dada por: o e a k1 = f (x0 , y0 ), k2 = f (x0 + c2 h, y0 + ha21 k1 ), k3 = f (x0 + c3 h, y0 + h(a31 k1 + a32 k2 )), . . . ks = f (x0 + cs h, y0 + h(as1 k1 + · · · + as,s−1 ks−1 )); y1 = y0 + h(b1 k1 + · · · + bs ks );

(VII.3.6)

326

VII Ecuaciones Diferenciales

donde los ci , aij , bj son coeficientes. El m´todo se representa por el esquema e c1 = 0 c2 c3 . . . cs a21 a31 . . . as1 b1 a32 . . . as2 b2 .. (VII.3.7)

.

· · · as,s−1 ··· bs−1 bs

Los m´todos de Euler, como tambi´n los m´todos de Runge y Heun est´n e e e a dados en la tabla III.3.1 Tabla III.3.1. Primeros m´todos de Runge-Kutta e 0 0 0 1 Euler 1/2 1/2 0 Runge 1 1/3 2/3 1/3 0 1/4 2/3 0 3/4

Heun

Por razones de cuadratura, se supondr´ siempre que los ci satisfacen siempre a
i−1

c1 = 0,

ci =
j=1

aij , i = 2, . . . , s.

(VII.3.8)

La definici´n de orden de cuadratura para las f´rmulas de cuadratura, o o puede extenderse a los m´todos de Runge-Kutta de la siguiente manera. e Definici´n VII.3.2.- Se dice que el m´todo de Runge-Kutta dado por o e (VII.3.6) tiene el orden p si, para cada problema y ′ = f (x, y), y(x0 ) = y0 con f suficientemente derivable, el error despu´s de un paso satisface e y1 − y(x0 + h) = O(hp+1 ), cuando h → 0. (VII.3.9)

La diferencia (VII.3.9) se llama error local del m´todo. e El m´todo de Euler es un m´todo de orden 1, por que e e y(x0 + h) = y0 + hy ′ (x0 ) + O(h2 ) = y0 + hf (x0 , y0 ) + O(h2 ) = y1 + O(h2 ).

´ VII.3 Metodos de Runge-Kutta

327

El m´todo de Runge est´ basado sobre la f´rmula del punto medio que es e a o una f´rmula de cuadratura de orden 2: o y(x0 + h) = y0 + hf (x0 + h/2, y(x0 + h/2)) + O(h3 ). Remplazando y(x0 + h/2) por el valor y0 + (h/2)f (x0 , y0 ) del m´todo de e Euler, se agrega un t´rmino de tama˜o O(h3 ). Entonces, este m´todo tiene e n e orden p = 2. El m´todo de Heun, ver tabla VII.3.1, se obtiene a partir de la f´rmula e o de cuadratura y(x0 + h) = y0 + h 4 f (x0 , y0 ) + 3f x0 + 2h 2h , y(x0 + ) 3 3 + O(h4 ),

si se remplaza y(x0 + 2h/3) por la aproximaci´n del m´todo de Runge. De o e donde el m´todo de Heun tiene el orden p = 3. e Utilizando la suposici´n (VII.3,8) que es una condici´n simplificadora, o o se tiene la siguiente proposici´n. o Proposici´n VII.3.3.- La condici´n (VII.3.8) implica que es suficiente o o considerar problemas aut´nomos de la forma y ′ = f (y) para verificar la o condici´n de orden. o Demostraci´n.- Se supone que (VII.3.9) es satisfecha para los problemas o autonomos de la forma y ′ = F (y), y(x0 ) = y0 . Consid´rese un problema de la forma y ′ = f (x, y), y(x0 ) = y0 , el cual es e equivalente al problema y = f (x, y), ˙ x = 1, ˙ obteniendo as´ ı Y ′ = F (Y ), donde Y = x y , F (Y ) = 1 f (x, y), (VII.3.10) y(0) = y0 , x(0) = 0,

con valor inicial Y0 = (x0 , y0 )t . La aplicaci´n del m´todo de Runge-Kutta al o e problema (VII.3.10) da   s i−1 1 x1 , Y1 = Y0 + h bi Ki = , aij Kj  = Ki = F Y0 + h ki y1
j=1 i=1

lo que es equivalente a (VII.3.6), por que
i−1

Y0 + h
j=1

aij Kj =

x0 y0

i−1

+h
j=1

aij

1 kj

=

x0 + c i h i−1 y0 + h j=1 aij kj

.

328

VII Ecuaciones Diferenciales

El siguiente paso, es de estudiar un procedimiento que permita determinar m´todos de Runge-Kutta de ordenes m´s elevados. Un buen ejercicio e a ser´ construir el m´todo de Kutta que es de orden 4. a e

Construcci´n de un m´todo de orden 4 o e
La idea principal de la construcci´n del m´todo de Runge, es considerar los o e desarrollos en serie de Taylor de la soluci´n exacta y(x0 +h), como tambi´n de o e la soluci´n num´rica obtenida a partir del m´todo, que se la denota por y1 (h). o e e Luego comparar las series, para obtener condiciones sobre los coeficientes del m´todo. e Serie de Taylor de la soluci´n exacta o Consid´rese el problema de Cauchy e y ′ = f (y), y(x0 ) = y0 . (VII.3.11)

derivando la ecuaci´n (VII.3.11), se obtiene para la soluci´n exacta o o
′ ′ y ′′ =fy y ′ = fy f (y) ′′ ′ ′ ′′ ′ ′ y ′′′ =fy (y ′ , f (y)) + fy fy y ′ = fy (f (y), f (y)) + fy fy f (y) ′ ′′ ′′ ′ ′′′ y (4) =fy (f (y), f (y), f (y)) + 3fy (fy f (y), f (y) + fy fy (f (y), f (y)) ′ ′ ′ + fy fy fy f (y),

de donde la serie de Taylor de la soluci´n exacta est´ dada por o a y(x0 + h) = y0 + hf (y0 ) + + + h2 ′ f f (y0 ) 2! y (VII.3.12)

h3 ′′ ′ ′ f (f (y0 ), f (y0 )) + fy fy f (y0 ) 3! y
′′′ fy (f (y), f (y), f (y)) + ′′ ′ 3fy (fy f (y), f (y)

′ ′′ ′ ′ ′ + fy fy (f (y), f (y)) + fy fy fy f (y) + O(h5 ).

Serie de Taylor de la soluci´n num´rica o e Para calcular la serie de Taylor de y1 , es suficiente determinar las series de los
i−1

ki = f (x0 + h
j=1

aij kj ).

(VII.3.13)

Ahora bien, se puede considerar (VII.3.13) como una ecuaci´n a punto fijo, o pudiendo as´ aproximar los ki por el m´todo de las aproximaciones sucesivas. ı e Comenzando la primera aproximaci´n de ki , se tiene o ki = f (y0 ) + O(h),

´ VII.3 Metodos de Runge-Kutta utilizando (VII.3.8), se obtiene ki = f (y0 ) + ci hfy f (y0 ) + O(h2 ). La segunda iteraci´n da como resultado o ki = f (y0 + hci f (y0 ) + h2
j

329

aij cj fy f (y0 ) + O(h3 )) aij cj fy fy f (y0 ) +
j

= f (y0 ) + ci hfy f (y0 ) + h2 + O(h ).
3

h2 2 ′′ c f (f (y0 ), f (y0 )) 2 i y

Efectuando todav´ una vez m´s una iteraci´n, e introduciendo los valores ıa a o obtenidos en la definici´n (VII.3.5) de yi , se obtiene o y1 = y0 + h
i

bi

f0 +

h2 2

2
i

bi ci

(f ′ f )0

(VII.3.14)

    h3  bi aij cj  (f ′ f ′ f )0  bi c2 (f ′′ (f, f ))0 + 6 3 + i 3! ij i    h4  + bi ci aij cj  (f ′′ (f ′ f ′ f ))0 bi c3 (f ′′′ (f, f, f ))0 + 8 i 4! ij i    donde el sub´ ındice 0 indica que las evaluaciones deben ser hechas en el punto y0 . Comparando los coeficientes de (VII.3.12) y (VII.3.14), se encuentran las condiciones que deben satisfacer los coeficientes ci , bi y aij para contar con un m´todo de orden 4. Estas condiciones se las enuncia en el: e Teorema VII.3.4.- Condiciones de Orden. El m´todo de Runge-Kutta e (VII.3.6) tiene el orden 4 si los coeficientes satisfacen (VII.3.8) y bi = 1,
i

+ 24

ijk

bi aij ajk ck  (f ′ f ′ f ′ f )0  + O(h5 ),

(VII.3.15a) (VII.3.15b) (VII.3.15c)

bi ci =
i

1 , 2 1 , 3

bi c2 = i
i

330

VII Ecuaciones Diferenciales bi aij =
ij

1 , 6 1 , 4 1 , 8 1 , 12 1 . 24

(VII.3.15d) (VII.3.15e) (VII.3.15f ) (VII.3.15g) (VII.3.15h)

bi c3 = i
i

bi ci aij cj =
ij

bi aij c2 = j
ij

bi aij ajk bk =
ijk

Es necesario remarcar que si el m´todo satisface solamente (VII.3.15a), e (VII.3.15a,b) o (VII.3.15,a,b,c) tiene el orden 1, 2 o 3 respectivamente. El siguiente paso es la resoluci´n del sistema (VII.3.15), para s = 4. o Este sistema consiste de 8 ecuaciones no lineales para 10 param´tros bi , e aij ; los ci est´n determinados por la condici´n (VII.3.8). Las condiciones a o (VII.3.15a,b,c,e) traducen el hecho que (bi , ci ) es una f´rmula de cuadratura o de orden 4. Por consiguiente los bi pueden ser determinados si los ci son conocidos. En particular, se obtiene b3 c3 (c3 − c2 )(c4 − c3 ) = − c2 c4 c2 + c3 1 + − . 2 3 4 (VII.3.16)

Por otro lado (VII.3.15g)−c2 ·(VII.3.15d) da b4 a43 c3 (c3 − c2 ) = y c4 ·(VII.3.15d)−(VII.3.15f) implica que b3 (c4 − c3 )a3 2c2 = 1 c4 − . 6 8 (VII.3.18) 1 c2 − , 12 6 (VII.3.17)

Si se multiplica (VII.3.17) con (VII.3.18), luego (VII.3.16) con (VII.3.15h), se obtiene para la misma expresi´n, las dos f´rmulas: o o b4 a43 a32 c2 · b3 c3 (c3 − c2 )(c4 − c3 ) = b4 a43 a32 c2 · b3 c3 (c3 − c2 )(c4 − c3 ) = lo que es equivalente a c2 (1 − c4 ) = 0. 1 c4 c2 1 , − − 12 6 6 8 −c2 c4 c2 + c3 1 /24, + − 2 3 4

´ VII.3 Metodos de Runge-Kutta

331

Puesto que c2 = 0, consecuencia de la condici´n (VII.3.15h), se tiene o necesariamente que c4 = 1. La soluci´n general del sistema (VII.3.16), se o la obtiene de la manera siguiente. M´todo de Resoluci´n.- Plantear c1 = 0, c4 = 1; c2 y c3 son param´tros e o e libres; calcular b1 , b2 , b3 , b4 tales que la f´rmula de cuadratura sea de orden o 4; calcular a32 utilizando (VII.3.18), a43 utilizando (VII.3.19) y a42 proviene de (V II.3.15d); finalmente calcular a21 , a31 , a41 de (VII.3.8) para i = 2, 3, 4. Entre los m´todos de orden 4, los m´s conocidos est´n dados en la tabla e a a VII.3.2. Tabla VII.3.2. M´todos de Kutta e 0 1/2 1/2 1 1/2 0 0 1/2 0 1 0 1/3 2/3 1 1/3 −1/3 1 1/8 1 −1 1 3/8 3/8 1/8

1/6 2/6 2/6 1/6 M´todo de Runge-Kutta e

Regla 3/8

M´todos Encajonados e
Para resolver un problema realista, un c´lculo a paso constante es en a general ineficiente. Existen diversas causas para esta ineficiencia: la primera es que se debe conocer a priori una estimaci´n del error local cometido, o lo cual es complicado en general ocasionando una perdida de generalidad en los programas a implementarse. La otra raz´n fundamental que existen o intervalos donde los pasos de integraci´n pueden ser de longitud mayor. El o principal problema reside en como escoger los pasos de integraci´n. La idea o que puede resolver satisfactoriamente estos problemas consiste en escoger pasos de integraci´n de manera que el error local sea en todo caso inferior o o igual a T ol dado por el utilizador. Motivo por el cual es necesario conocer una estimaci´n del error local. Inspirados en el programa GAUINT descrito o en VI.3, se construye un m´todo de Runge-Kutta con y1 como aproximaci´n e ˆ o num´rica, y se utiliza la diferencia y1 − y1 como estimaci´n del error local e ˆ o del m´todo menos preciso. e Se da un m´todo de orden p a s pisos, con coeficientes ci , aij , bj . Se busca e un m´todo de orden p < p que utiliza las mismas evaluaciones de f , es decir e ˆ y1 = y0 + h(ˆ1 k1 + · · · + ˆs ks ), ˆ b b (VII.3.19)

332

VII Ecuaciones Diferenciales

donde los ki est´n dados por (VII.3.3). Para tener m´s libertad, se agrega a a a menudo un termino que contenga f (x1 , y1 ) a la f´rmula (VII.3.19), de todas o maneras se debe calcular f (x1 , y1 ) para el paso siguiente, determinando as´ ı y1 , como ˆ y1 = y0 + h(ˆ1 k1 + · · · + ˆs ks + ˆs+1 f (x1 , y1 )). ˆ b b b (VII.3.20)

Un tal m´todo encajonado puede ser representado en forma de un esquema, e ver la tabla VII.3.3. Tabla VII.3.3. M´todos encajonados e c1 = 0 c2 c3 . . . cs (1) a21 a31 . . . as1 b1 ˆ1 b a32 . . . as2 b2 ˆ2 b ..

.

· · · as,s−1 ··· ··· bs−1 ˆs−1 b bs ˆs b (ˆs+1 ) b

El siguiente paso es la determinaci´n del h optimal. Si se aplica el m´todo o e con un valor h, la estimaci´n del error satisface o
ˆ ˆ y1 − y1 = (y1 − y(x0 + h)) + (y(x0 + h) − y1 ) = O(hp+1 ) + O(hp+1 ) ≈ Chp+1 . ˆ ˆ (VII.3.21) El h optimal, denotado por hopt , es ´quel donde esta estimaci´n es pr´xima a o o de T ol, es decir ˆ T ol ≈ Chp+1 . (VII.3.22) opt

Eliminando C de las dos ultimas f´rmulas, se obtiene ´ o hopt = 0.9 · h ·
p+1 ˆ

T ol . y1 − y1 ˆ

(VII.3.23)

El factor 0.9 se lo agrega para volver el programa m´s seguro. a Algoritmo para la selecci´n autom´tica de paso. o a Al iniciar los c´lculos, el utilizador provee una subrutina que calcule el valor a de f (x, y), los valores iniciales x0 , y0 y una primera elecci´n de h. o A) Con h, calcular y1 , err = y1 − y1 y hopt dado por (VII.3.23). ˆ B) Si err ≤ T ol, el paso es aceptado, entonces x0 := x0 + h, y0 := y1 , h := min(hopt , xend − x0 );

´ VII.3 Metodos de Runge-Kutta si no el paso es rechazado h := hopt .

333

C) Si x0 = xend se ha terminado, si no se recomienza por (A) y se calcula el paso siguiente. La pr´ctica num´rica muestra que es aconsejable remplazar (VII.3.23) a e por ˆ hopt = h · min 5, max(0.2, 0.9(T ol/err)1/p+1 . Para la norma dada en la relaci´n (VII.3.23), se utiliza en general o y1 − y1 = ˆ 1 n
n i=1

yi1 − yi1 ˆ sci

2

,

donde

sci = 1 + max(|yi0 | , |yi1 |).

(VII.3.24) En la literatura especializada, estos m´todos encajonados con control e de paso autom´tico, se los denota por RKpˆ donde RK son las iniciales a p de Runge-Kutta y p, p son los ordenes de los m´todos encajonados. En la ˆ e actualidad la utilizaci´n de tales m´todos es muy com´n. En la tabla VII.3.4 o e u se da el esquema del m´todo de Dormand-Prince RK54 ; este m´todo es e e analizado minuciosamente en Hairer & Wanner. Tabla VII.3.4. M´todo Dormand-Prince 5(4) e 0 1 5 3 10 4 5 8 9 1 1 y1 y1 ˆ 1 5 3 40 44 45 19372 6561 9017 3187 35 384 35 384 5179 57600 9 40 − − 56 15 32 9 64448 6561 46732 5247 500 1113 500 1113 7571 16695 − 212 729 − 5103 18656 2187 6784 2187 6784 11 84 11 84 187 2100 0 1 40

25360 2187 355 33 0 0 0

49 176 125 192 125 192 393 640

− − −

92097 339200

334

VII Ecuaciones Diferenciales

En el ejemplo siguiente se detallar´ la construcci´n de un m´todo a o e encajonado con selecci´n de paso autom´tico. Por razones de simplicidad, se o a considerar´ un m´todo RK32 . a e Ejemplo T´mese un m´todo de orden p = 3 a s = 3 pisos, que en este caso ser´ el o e a m´todo de Heun, ver tabla VII.1.1 y se buscar´ un m´todo encajonado de e a e orden p = 2 de la forma (VII.3.20), es decir se aumenta s de 1, agregando ˆ un (s + 1)-emo piso con los coeficientes as+1,i , para i = 1, . . . , s. De esta manera se obtiene el siguiente sistema de ecuaciones para los coeficientes ˆi , el cual est´ dado por: b a ˆ1 + ˆ2 + ˆ3 + ˆ4 = 1 b b b b 1ˆ 2ˆ 1 b2 + b3 + ˆ4 = . b 3 3 2 Puedo observarse que para que el m´todo encajonado tenga un orden e igual a 2, se requieren 2 condiciones, quedando as´ dos grados de libertad. ı Al igual que en el m´todo de Heun, puede plantearse ˆ2 = 0, ˆ4 puede e b b escogerse libremente, por ejemplo ˆ4 = 1/2 de donde por la segunda b ecuaci´n se deduce facilmente que ˆ3 = 0 y por la primera ecuaci´n o b o ˆ1 = 1/2. Por lo tanto se obtiene el esquema dado en la tabla VII.3.5. b

Tabla VII.3.5. Ejemplo de M´todo Encajonado e 0 1/3 2/3 1 1/3 0 1/4 1/2 2/3 0 0 3/4 0 1/2

Soluciones Continuas
Uno de los incovenientes mayores de los m´todos formulados en esta secci´n e o consiste en el hecho que estos dan las soluciones en un conjunto discreto de puntos. Una primera alternativa es unir estas soluciones con pol´ ıgonos, si los puntos donde el m´todo ha dado las soluciones. El resultado no es e satisfactorio desde varios puntos de vista. Si el m´todo es de orden elevado e la interpolaci´n lineal, vista en el Cap´ o ıtulo III, tiene como efecto la perdida de precisi´n. Desde el punto de vista gr´fico las soluciones dejan de ser o a

´ VII.3 Metodos de Runge-Kutta

335

lisas. Debido a estas dos razones expuestas es necesario complementar estos m´todos con alternativas que permitan dar soluciones densas. e Existen varias alternativas validas que permiten subsanar esta falencia de los m´todos de Runge-Kutta. La primera consiste en la construcci´n de los e o m´todos de Runge-Kutta Continuos. Para tal efecto, se considera un m´todo e e de Runge-Kutta dado de antemano. Se desea evaluar utilizando este esquema en el punto x∗ = x0 + θh con 0 < θ ≤ 1. Los coeficientes de este m´todo e se los denota por ci (θ), aij (θ), bj (θ). Ahora bien, el m´todo ser´ interesante e a desde el punto de vista num´rico, si los coeficientes ci (θ), aij (θ) no dependen e de θ coincidiendo de esta manera con los del m´todo dado de antemano. Sin e embargo no es nada raro que el m´todo obtenido a partir de los bi (θ) tenga e un orden inferior. Esto se debe a que los aij , ci ya est´n prescritos. Para a ilustrar esta construcci´n consid´rese el ejemplo siguiente. o e Ejemplo Se considera nuevamente el m´todo de Heun dado en la tabla VII.3.1. e Utilizando el teorema VII.3.4, remplazando y(x0 + h) por y(x0 + θh) se obtienen las siguientes condiciones de orden para los coeficientes bi (θ): b1 + b2 + b3 = θ, 1 b2 + 3 1 b2 + 9 2 θ2 b3 = , 3 2 4 θ3 b3 = , 9 3 θ3 4 b3 = . 9 6

Como puede observarse es imposible que los coeficientes bi puedan satisfacer las condiciones para obtener un m´todo de orden 3, por lo e tanto, uno debe contentarse con obtener un m´todo de orden 2 para θ e diferente de 1 y para θ = 1 un m´todo de orden 3. Tomando las dos e primeras ecuaciones y planteando b2 = 0, como en el m´todo de Heun, e 3 2 3 se tiene para b3 = θ y para b1 = θ(θ − θ). obteniendo as´ el esquema ı, 4 4 dado en la tabla VII.5.6.

Tabla VII.5.6. Ejemplo de M´todo Continuo. e 0 1/3 2/3 1/3 0 θ(θ − 4 θ)
3

2/3 0 4θ
3 2

336

VII Ecuaciones Diferenciales

La segunda estrategia para construir soluciones continuas, consiste en utilizar la interpolaci´n de Hermite con polinomios c´bicos, tomando como o u extremidades y0 , y1 y como derivadas f (x0 , y0 ) y f (x1 , y1 ). Es facil ver, que a diferencia de la primera alternativa es necesario evaluar y1 . Viendo el cap´ ıtulo III, la interpolaci´n de Hermite tiene un error del orden O(h4 ), o equivalente a un m´todo de tercen orden. e

Convergencia de los M´todos de Runge-Kutta e
En las subsecciones precedentes, se ha hecho un an´lisis del error local, a intimamente ligado al orden del m´todo. Pero no se ha analizado que sucede e con el error global de la soluci´n num´rica. Para analizar este tipo de error o e es necesario introducir alguna notaci´n adicional. o Consid´rese un m´todo a un paso e e yn=1 = yn + hn Φ(xn , yn , hn ), (VII.3.25)

aplicado a una ecuaci´n diferencial y ′ = f (x, y), con valor inicial y(x0 ) = o y0 . Es natural plantearse sobre la magnitud del tama˜o del error global n y(xn ) − yn . A continuaci´n se enunciar´ un teorema general sobre esta clase o a de error. Teorema VII.3.5.- Sea y(x) la soluci´n de y ′ = f (x, y), y(x0 ) = y0 sobre o el intervalo [x0 , xe ]. Sup´ngase que: o a) el error local satisface para x ∈ [x0 , xe ] y h ≤ hmax y(x + h) − y(x) − hΦ(x, y(x), h) ≤ C · hp+1 , b) la funci´n Φ(x, y, z) satisface una condici´n de Lipschitz o o Φ(x, y, h) − Φ(x, z, h) ≤ Λ y − z , para h ≤ hmax y (x, y), (x, z) en un vecindario de la soluci´n. o Entonces , el error global admite para xn ≤ xe la estimaci´n o y(xn ) − yn ≤ hp
i

(VII.3.26)

(VII.3.27)

C Λ(xn −x0 ) e −1 , Λ

(VII.3.28)

donde h = max hi , bajo la condici´n que h sea lo suficientemente pequ˜o. o n Demostraci´n.- La idea central de la demostraci´n es estudiar la influencia o o del error local, cometido en el paso i-esimo a la propagaci´n de yn . Enseguida, o adicionar los errores acumulados. Ver figura VII.3.2. Sean {yn } y {zn } dos soluciones num´ricas obtenidas por (VII.3.25) con e valores iniciales y0 y z0 respectivamente. Utilizando la condici´n de Lipschitz o dada por (VII.3.27), su diferencia puede ser estimada como yn+1 − zn+1 ≤ yn − zn + hn Λ yn − zn = (1 + Λhn ) yn − zn ≤ ehn Λ yn − zn .(VII.3.29)

´ VII.3 Metodos de Runge-Kutta Recursivamente, se obtiene yn − zn ≤ ehn−1 Λ ehn−2 Λ · · · ehi Λ yi − zi . y el error propagado Ei , ver figura VII.3.2, satisface Ei ≤ eΛ(xn −xi ) ei ≤ Chp+1 eΛ(xn −xi ) , i−1
y(xn ) En E n−1 E1 y

337

(VII.3.30)

y0
e1 e
2

e n−1

x0

x1

x2 x 3

xn

Figura VII.3.2. Estimaci´n del error global. o La desigualdad del tri´ngulo, as´ como (VII.3.30) da, ver la figura VII.3.3, a ı para la estimaci´n de la suma o
n n

y(xn ) − yn ≤

i=1

Ei ≤

hp+1 eΛ(xn −xi ) i−1
i=1

≤ Chp h0 eΛ(xn −x1 ) + · · · + hn−2 eΛ(xn −xn−1 ) + hn−1 xn Chp Λ(xn −x0 ) eΛ(xn −t) dt = ≤ Chp e −1 . Λ x0

e

x) Λ( x n −

x x0 x1 x2 x n−1 xn

Figura VII.3.3. Estimaci´n de la suma de Riemann. o

338

VII Ecuaciones Diferenciales

Solo queda justificar la implicaci´n de (VII.3.25) en (VII.3.27), ya que la o estimaci´n (VII.3.25) es valida solamente en un vecindario o U = {(x, y)| y − y(x) ≤ b} de la soluci´n exacta. Si se supone que h es lo o suficientemente peque˜o, m´s precisamente, si h es tal que n a Chp Λ(xe −x0 ) e − 1 ≤ b, Λ se estar´ seguro que todas las soluciones num´ricas de la figura VII.3.2 se a e quedar´n en U. a Sup´ngase que (VII.3.25) representa un m´todo de Runge-Kutta, se o e verificar´ las hip´tesis del teorema precedente. La condici´n (VII.3.26) es a o o satisfecha para un m´todo de orden p. Solo queda por verificar la condici´n e o de Lipschitz (VII.3.27), para la funci´n o
s

Φ(x, y, h) =
i=1

bi ki (y), 

(VII.3.31)

donde

ki (y) = f x + ci h, y + h

i−1 j=1

aij kj (y) .

(VII.3.32)

Proposici´n VII.3.6.- Si f (x, y) satisface una condici´n de Lipschitz o o f (x, y) − f (x, z) ≤ L y − z en un vecindario de la soluci´n de y ′ = o f (x, y), la expresi´n Φ(x, y, h) de (VII.3.31) verifica la condici´n (VII.3.27) o o con   Λ = L
i

|bi | + (hmax L

ij

|bi aij | + (hmax L)2

ijk

|bi aij ajk | + · · · .

(VII.3.33)

Demostraci´n.- La condici´n de Lipschitz para f (x, y) aplicado a o o (VII.3.32) da k1 (y) − k1 (z) = f (x, y) − f (x, z) ≤ L y − z k2 (y) − k2 (z) ≤ L y − z + ha21 (k1 (y) − k1 (z)) ≤ L(1 + hmax L |a21 |) y − z , etc. Las estimaciones (VII.3.34) introducidas en
s

(VII.3.34)

Φ(x, y, h) − Φ(x, z, h) ≤

i=1

|bi | ki (y) − ki (z) ,

´ VII.3 Metodos de Runge-Kutta implican (VII.3.27) con Λ dado por (VII.3.33).

339

Experiencias Num´ricas e
En esta subsecci´n se mostrar´ varios ejemplos donde los m´todos de Rungeo a e Kutta act´an. Se comparar´ varios m´todos. u a e 1.- Se considera la ecuaci´n diferencial, con valor inicial, o y ′ = −y + sin x, y(0) = 1; (VII.3.35)

la soluci´n de este problema, est´ dada por o a y(x) = 1 3 −x 1 e − cos x + sin x. 2 2 2 (VII.3.36)

En la figura VII.3.4, se muestra las gr´ficas de diferentes m´todos de a e Runge-Kutta. El intervalo de integraci´n es [0, 10]. Puede comprobarse, o que al igual que en los m´todos de integraci´n, existe una relaci´n lineal e o o entre − log10 (Error Global) y el n´mero de evaluaciones de la funci´n, u o fe. Esta relaci´n lineal tiene una pendiente 1/p, donde p es el orden del o m´todo. e
106

fe

105

104

103

102

101

100 0 10

err glob
10−1 10−2 10−3 10−4 10−5 10−6 10−7 10−8 10−9 10−10

Metodo de Euler Metodo de Runge Metodo de Heun Metodo de Kutta Metodo 3/8

Figura VII.3.4. Relaci´n del error global vs fe. o

340

VII Ecuaciones Diferenciales

2.- En esta experiencia num´rica, se implementa un m´todo encajonado, e e para este efecto, se toma el m´todo dado en uno de los ejemplos e precedentes. La ecuaci´n diferencial sobre la cual es examinada tal o m´todo, es una ecuaci´n diferencial de una reacci´n qu´ e o o ımica, conocida como Brusselator. Por consiguiente, se debe resolver:
′ 2 y1 = 1 + y1 y2 − 4y1 , ′ y2

= 3y1 −

2 y1 y2 ,

y1 (0) = 1.5, y2 (0)3,

(VII.3.37)

sobre el intervalo [0, 10]. Los resultados obtenidos con T ol = 10−5 son presentados en la figura VII.3.5. En la gr´fica superior, las dos a componentes de la soluci´n utilizando la soluci´n continua del m´todo o o e de Heun, ver m´todos continuos. En la gr´fica del medio, la longitud e a de los pasos, los pasos aceptados est´n ligados, mientras que los pasos a rechazados indicados por ×. En la gr´fica inferior, la estimaci´n del error a o local, como tambi´n los valores exactos del error local y global. e
6 5 4 3 2 1 0

y2

y1
5 10

100

10−1

10−2 0 10−3 10
−4

5

Error global

10

10−5 10−6 10−7 10−8 Error local exacto Error local estimado

Figura VII.3.5. Experiencia num´rica de un m´todo encajonado. e e

´ VII.3 Metodos de Runge-Kutta

341

Ejercicios
1.- Aplicar el m´todo de Runge al sistema e
′ y1 = −y2 , ′ y2 = y1 ,

y1 (0) = 1, y2 (0) = 0,

con h = 1/5. Comparar el trabajo necesario y la precisi´n del resultado o con el m´todo de Euler. e 2.- Consid´rese un m´todo de Runge-Kutta a s pisos y de orden p. Mostrar e e que s 1 bi cq−1 = para q = 1, . . . , p. i q i=1 es decir, la f´rmula de cuadratura asociada tiene al menos el orden p. o 3.- Aplicar un m´todo de Runge-Kutta de orden p = s, s es el n´mero de e u pisos, al problema y ′ = λy, donde λ es una constante compleja. Mostrar que la soluci´n num´rica est´ dada por o e a   s zj  y0 , z = λh. y1 =  j! j=0 4.- Construir todos los m´todos de Runge-Kutta de orden 3 con s = 3 pisos. e 5.- Consid´rese el problema e y′ = λ y + g(x), x y(0) = 0

con g(x) suficientemente derivable y λ ≤ 0. Mostrar que este problema admite una y una sola soluci´n. Las derivadas de la soluci´n en el punto o o x = 0 son −1 λ y (j) (0) = 1 − g (j−1) (0). j 6.- Aplicar un m´todo de Runge-Kutta al problema del ejercicio anterior, e
λ utilizar la definici´n f (x, y) = 1 − j o g(0), para x = 0. a) Mostrar que el error del primer paso satisface −1

y(h) − y1 = C2 h2 g ′ (0) + O(h3 ) donde C2 depende solamente de los coeficientes del m´todo. e c) Calcular C2 para uno de los m´todos de Kutta. e

VII.4 M´todos Multipasos e

Los m´todos a un paso calculan un valor aproximado yn+1 , en el inse tante tn+1 , utilizando unicamente el valor aproximado yn . La utilizaci´n ´ o de varios valores aproximados yn , yn−1 , . . ., permite obtener a precisi´n o igual m´todos de costo menos elevado; estos m´todos son com´nmente e e u llamados multipasos, m´s precisamente cuando los c´lculos utilizan r vaa a lores precedentes: yn , yn−1 , . . . , yn−r+1 , es decir concernientes los r pasos: hn , hn−1 , . . . , hn−r+1 , se habla de m´todos a r pasos. Entre estos m´todos, e e los m´todos de Adams son aqu´llos que parecen ser a la hora actual los m´s e e a eficaces cuando el problema diferencial es bien condicionado, ser´n estudiaa dos en esta subsecci´n. Los algoritmos modernos utilizan estos m´todos con o e un n´mero variable de pasos y un tama˜o de paso variables. La variaci´n u n o del n´mero de pasos y la longitud de los pasos permite adaptar el m´todo u e a la regularidad de la soluci´n, permite tambi´n de levantar las dificultades o e de arranque que presentan los m´todos a n´mero de pasos fijo. e u

M´todos de Adams Expl´ e ıcitos
Sea una divisi´n x0 < x1 < · · · < xn = xe del intervalo sobre el cual se o busca resolver la ecuaci´n diferencial y ′ = f (x, y) y sup´ngase que se conoce o o aproximaciones yn , yn−1 , . . . , yn−k−1 de la soluci´n para k pasos consecutivos o (yi ≈ y(xj )). De la misma forma que para la derivaci´n de los m´todos de o e Runge-Kutta, se integra la ecuaci´n diferencial, para obtener o
xn+1

y(xn+1 ) = y(xn ) +
xn

f (t, y(t))dt.

(VII.4.1)

Pero en lugar de aplicar una f´rmula de cuadratura st´ndard a la integral o a (VII.4.1), se remplaza f (t, y(t)) por el polinomiio de grado k−1, que satisfaga p(xj ) = fj , para j = n, n − 1, . . . , n − k + 1; (VII.4.2)

donde fj = f (xj , yj ). Ver la figura VII.4.1.
f n−k+1 f n−1 fn p(t)

x n−k+1

x n−1

xn

x n+1

Figura VII.4.1. M´todo de Adams. e

´ VII.4 Metodos Multipasos Por consiguiente, la aproximaci´n de y(xn+1 ) est´ definida por o a
xn+1

343

yn+1 = yn +
xn

p(t)dt.

(VII.4.3)

Si se representa el polinomio p(t) por la f´rmula de Newton, ver el teorema o III.1.9,
k−1 j−1

p(t) =
j=0 i=0

(t − xn−i ) f [xn , xn−1 , . . . , xn−j ],

(VII.4.4)

el m´todo (VII.4.3) se convierte en e
k−1 xn+1 j−1 xn i=0

yn+1 = yn +
j=0

(t − xn−i ) f [xn , xn−1 , . . . , xn−j ]. (VII.4.5)

El caso m´s simple de estas f´rmulas de Adams expl´ a o ıcitas consiste cuando la divisi´n es equidistante. En esta situaci´n se tiene xj = x0 + jh, las o o diferencias divididas pueden ser expresadas bajo la forma f [xn , xn−1 , . . . , xn−j ] = ∇j fn , j!hh (VII.4.6)

donde ∇0 fn = fn , ∇fn = fn − fn−1 , ∇2 fn = ∇(∇fn ), . . . son las diferencias finitas regresivas. La f´rmula (VII.4.5), planteando t = xn + sh, se convierte en o
k−1

yn+1 = yn + h
j=0

γj ∇j fn ,

(VII.4.7)

donde 1 γj = j!
0

1 j−1

1 0

(i + s)ds =
i=0

s+j−1 j

ds.

Los primeros coeficientes γj est´n dados en la tabla VII.4.1. a Tabla VII.4.1. Coeficientes para los m´todos de Adams Expl´ e ıcitos. j 0 1 γj 1 2 3 4 5 6 7 8

1 5 3 251 95 19087 5257 1070017 2 12 8 720 288 60480 17280 3628800

344

VII Ecuaciones Diferenciales Casos particulares de los m´todos de Adams expl´ e ıcitos son: k = 1 : yn+1 = yn + hfn , k = 2 : yn+1 = yn + h k = 3 : yn+1 = yn + h k = 4 : yn+1 = yn + h (m´todo de Euler); e 2 1 fn − fn−1 ; 3 2 16 23 fn − fn−1 + 12 12 59 55 fn − fn−1 + 24 24

5 fn−2 ; 12 37 9 fn−2 − fn−3 . 24 24

Si se quiere aplicar este m´todo, por ejemplo para k=4, a la resoluci´n e o de y ′ = f (x, y), y(x0 ) = y0 , es necesario conocer y0 , y1 , y2 y y3 . Despu´s e se puede utilizar la f´rmula de recurrencia para determinar y4 , y5 , . . .. Al o f´rmular Adams sus m´todos, el utilizaba la serie de Taylor de la soluci´n o e o en el punto inicial, sin embargo es m´s c´modo empezar con un m´todo a o e a un paso del tipo de Runge-Kutta y luego utilizar el m´todo multipaso e correspondiente. En la construcci´n del m´todo de Adams expl´ o e ıcito dado por (VII.4.5), se ha utilizado el polinomio de interpolaci´n p(t) fuera del intervalo o [xn−k+1 , xn ]. Esta situaci´n puede provocar grandes errores, ver nuevamente o III.1. Por lo tanto, este inconveniente puede modificarse considerando los:

M´todos de Adams Impl´ e ıcitos
La idea central de estos m´todos consiste en considerar el polinomio p∗ (t) e de grado k, que satisface p∗ (t) = fj para, j = n + 1, n, n − 1, . . . , n − k + 1. (VII.4.9)

A diferencia de la versi´n expl´ o ıcita fn+1 = f (xn+1 , yn+1 ) es todav´ desconoıa cido. El siguiente paso es definir la aproximaci´n num´rica por o e
xn+1

yn+1 = yn +
xn

p∗ (t)dt.

(VII.4.10)

De la misma manera que en el caso expl´ ıcito, la f´rmula de Newton da o
k j−1

p∗ (t) =
j=0 i=0

(t − xn−i+1 )dt f [xn+1 , xn , . . . , xn−j+1 ],

(VII.4.11)

de donde el m´todo est´ dado por e a
k xn+1 j−1 xn i=0

yn+1 = yn +
j=0

(t − xn−i+1 ) f [xn+1 , xn , . . . , xn−j+1 ]. (VII.4.12)

´ VII.4 Metodos Multipasos

345

El caso m´s simple de estas f´rmulas de Adams impl´ a o ıcitas consiste cuando la divisi´n es equidistante, el m´todo est´ dado por o e a
k

yn+1 = yn + h
j=0

∗ γj ∇j fn+1 ,

(VII.4.13)

donde
∗ γj =

1 j!

1 j−1 0 i=0

1 0

(i + s − 1)ds =

s+j−2 j

ds.

(VII.4.14)

∗ a Los primeros coeficientes γj est´n dados en la tabla VII.4.2.

Tabla VII.4.2. Coeficientes para los m´todos de Adams Impl´ e ıcitos. j 0 1 2 3 4 5 6 7 8

∗ γj 1 −

1 1 1 19 3 863 375 33953 − − − − − − − 2 12 24 720 160 60480 24192 3628800

Casos particulares de los m´todos de Adams impl´ e ıcitos son: k = 0 : yn+1 = yn + hfn+1 = yn + hf (xn+1 , yn+1 ); k = 1 : yn+1 = yn + h k = 2 : yn+1 = yn + h k = 2 : yn+1 = yn + h 1 1 fn+1 + fn ; 2 2 8 5 fn+1 + fn − 12 12 19 9 fn+1 + fn − 24 24

1 fn−1 ; 12 5 1 fn−1 + fn−2 . 24 24

Cada una de estas f´rmulas representa una ecuaci´n no lineal para yn+1 , que o o es de la forma yn+1 = ηn + hβf (xn+1 , yn+1 ). (VII.4.15) que puede ser resuelta por el m´todo de Newton o simplemente por el m´todo e e iterativo simple.

M´todos Predictor-Corrector e
Los m´todos de Adams impl´ e ıcitos tienen la gran ventaja sobre la versi´n o expl´ ıcita, por que las soluciones provistas son m´s realistas. Sin embargo la a gran dificultad de estos m´todos es la resoluci´n de (VII.4.15). En algunos e o casos particulares, como en el caso de los sistemas lineales, esta resoluci´n o

346

VII Ecuaciones Diferenciales

podr´ hacerse directamente, pero en el caso general la utilizaci´n de un a o m´todo iterativo para resolver el sistema no lineal es necesaria. Por otro lado, e es necesario recalcar que yn+1 es una aproximaci´n de la soluci´n exacta, o o motivo por el cual es natural pensar que un c´lculo muy preciso de yn+1 a tal vez no sea necesario. Es por eso, que una mejora de esta situaci´n puede o darse de la manera siguiente. Primero calcular una primera aproximaci´n por o un m´todo expl´ e ıcito, luego corregir este valor, una o varias veces, utilizando la f´rmula (VII.4.15). Con este algoritmo, un paso de este m´todo toma la o e forma siguiente:
k−1 P: se calcula el predictor yn+1 = yn + h j=0 γj ∇j fn por el m´todo de ˆ ˆ e Adams expl´ ıcito; yn+1 es ya una aproximaci´n de y(xn+1 ). ˆ o ˆ E: evaluaci´n de la funci´n: se calcula fn+1 = f (xn+1 , yn+1 ). o o ˆ

ˆ C: la aproximaci´n corregida est´ dada por yn+1 = ηn + hβ fn+1 . o a E: calcular fn+1 = f (xn+1 , yn+1 ). Este procedimiento, que se lo denota PECE, es el m´s utilizado. Otras a posibilidades son: efectuar varias iteraciones, por ejemplo PECECE, o de ˆ omitir la ultima evaluaci´n de f , es decir PEC, y de tomar fn+1 en el lugar ´ o de fn+1 para el paso siguiente.

Metodos BDF
Se ha visto que los m´todos de Adams, tanto en su versi´n expl´ e o ıcita, como en su versi´n impl´ o ıcita consideran polinomios de interpolaci´n que pasan o por los fj . Esta manera de abordar el problema de la aproximaci´n de las o soluciones de un problema diferencial es eficaz cuando el problema diferencial es bien condicionado, pero ´stos pueden volverse muy costosos desde el e punto de vista computacional para los problemas diferenciales r´ ıgidos. Por consiguiente, puede ser interesante de utilizar el m´todo de las diferencias e retr´gradas que ser´ descrito en esta subseccion. o a La idea central de los m´todos BDF consiste en considerar el polinomio e q(t) de grado k, ver figura VII.4.2, definido por q(xj ) = yj , para j = n + 1, n, . . . , n − k + 1; (VII.4.16)

y se determina yn+1 , de manera que q ′ (xn+1 ) = f (xn+1 , q(xn+1 )). Como en la f´rmula (VII.4.11), la f´rmula de Newton da o o
k j−1

(VII.4.17)

q(t) =
j=0 i=0

(t − xn−i+1 ) y[xn+1 , xn , . . . , xn−j+1 ].

(VII.4.18)

´ VII.4 Metodos Multipasos

347

Cada t´rmino de esta suma contiene el factor (t − xn+1 ), de donde es muy e facil calcular q ′ (xn+1 ), obteniendo as´ ı
k j=0 j−1

i=1

(xn+1 − xn−i+1 ) y[xn+1 , xn , . . . , xn−j+1 ] = f (xn+1 , yn+1 ). (VII.4.19)
yn+1

yn−k+1

q(t)

yn yn−1

x n−k+1

x n−1

xn

x n+1

Figura VII.4.2. M´todo de tipo BDF e Para el caso equidistante, (VII.4.19) utilizando (VII.4.6) se convierte en
k j=1

1 j ∇ yn+1 = hfn+1 . j

(VII.4.20)

Obteniendo de esta manera, los siguientes casos particulares: k = 1 : yn+1 − yn = hfn+1 ; 3 1 k=2: yn+1 − 2yn + yn−1 = hfn+1 ; 2 2 11 3 1 k=3: yn+1 − 3yn + yn−1 − yn−2 = hfn+1 ; 6 2 3 4 1 25 yn+1 − 4yn + 3yn−1 − yn−2 + yn−3 = hfn+1 . k=4: 12 3 4 De nuevo, cada f´rmula define impl´ o ıcitamente la aproximaci´n num´rica o e yn+1 .

Estudio del Error Local
Al igual de los m´todos a un paso, como los m´todos de Runge-Kutta, existe e e la noci´n de orden para los m´todos multipasos, el cual est´ ´ o e a ıntimamente ligado al estudio del error local.

348

VII Ecuaciones Diferenciales Los m´todos multipasos pueden expresarse bajo la forma siguiente e
k k

αi yn+i = h
i=0 i=0

βi fn+i ,

(VII.4.21)

donde αk = 0 y |α0 | + |β0 | > 0. El m´todo es expl´ e ıcito si βk = 0, si no el m´todo es impl´ e ıcito. Definici´n VII.4.1.- Sea y(x) una soluci´n de y ′ = f (x, y(x)) y sea o o yn+k el valor obtenido por el m´todo (VII.4.21) utilizando yi = y(xi ) para e i = n, . . . , n + k − 1, ver figurar VII.4.3. Entonces error local = y(xn+k ) − yn+k . (VII.4.22)

Se dice que el m´todo (VII.4.21) tiene el orden p si el error local es O(hp+1 ). e
yn+k−1 y n+1 yn yn+k y(x)

xn

xn+1

x n+k−1

x n+k

Figura VII.4.3. Definici´n del error local. o Para estudiar el error local de un m´todo multipaso, se utiliza el operador e L definido por:
k

L(y, x, h) =
i=0

(αi y(x + ih) − hβi y ′ (x + ih)) .

(VII.4.23)

Como yi = y(xi ), para i = n, . . . , n + k − 1 en la definici´n dada m´s arriba, o a se tiene que fi = f (xi , y(xi )) = y ′ (xi ) para i = n, . . . , n + k − 1 y la f´rmula o (VII.4.21) puede ser expresada bajo la forma
k i=0 k

αi y(xn + ih) + αk (yn+k − y(xn+k )) =h

βi y ′ (xn + ih)
i=0

+ hβ(fn+k − f (xn+k , y(xn+k ))), lo que es equivalente a L(y, xn , h) = αk I − hβk ∂f (. . .) (y(xn+k ) − yn+k ), ∂y (VII.4.24)

´ VII.4 Metodos Multipasos

349

el argumento de ∂f /∂y puede ser diferente para cada linea de esta matriz, ver el teorema del valor medio o incrementos finitos. La f´rmula muestra que o el error local del m´todo (VII.4.21) es O(hp+1 ) si y solamente si L(y, x, h) = e O(hp+1 ) para toda funci´n y(x) que es suficientemente derivable. o Teorema VII.4.2.- Un m´todo multipaso tiene el orden p, si y solamente e si sus coeficientes satisfacen
k k k

αi = 0 y
i=0 i=0

αi iq = q
i=0

βiq−1 para q = 1, . . . , p.

(VII.4.25)

Demostraci´n.- En la f´rmula (VII.4.23), se desarrolla las expresiones o o y(x + ih) y y ′ (x + ih) en serie de Taylor y obteniendo
k

L(y, x, h) =
i=0

αi
g≥0 k

y (q) (x)

(ih)q βi −h q! i=0 y (q) (x)
g≥1

k

y (r+1) (x)
r≥0 k i=0

(ih)r r!
k

= y(x)
i=0

αi

+

hq q!

αi iq − q

βiq−1
i=0

.

La condici´n L(y, x, h) = O(hp+1 ) da la condici´n (VII.4.25). o o Ejemplo Consid´rese el m´todo de Adams expl´ e e ıcito a k pasos. Para q ≤ k, se considera la ecuaci´n diferencial y ′ = qxq−1 cuya soluci´n es y(x) = xq . o o En esta situaci´n, el polinomio p(t) de (VII.4.2) es igual a f (t, y(t)) y el o m´todo de Adams expl´ e ıcito da el resultado exacto. Por consiguiente, se tiene L(y, x, h) = 0, ver la f´rmula (VII.4.24) lo que implica o
k i=0

αi (x + ih)q − qβi (x + ih)q−1 h = 0

y por lo tanto (VII.4.25), planteando x = 0. Entonces, el orden de este m´todo es ≥ k. Se puede mostrar que efectivamente el orden es igual a e k. De la misma manera, se muestra que el m´todo de Adams impl´ e ıcito tiene el orden p = k + 1 y el m´todo BDF el orden p = k. e

Estabilidad
A simple vista la relaci´n (VII.4.25) permite formular m´todos multipaso con o e un n´mero dado de pasos con un orden optimal. Sin embargo la experiencia u

350

VII Ecuaciones Diferenciales

num´rica mostr´ que los resultados obtenidos no siempre eran v´lidos. Es e o a por eso necesario introducir una nueva noci´n en el estudio de estos m´todos. o e Esta noci´n est´ intimamente ligada a la estabilidad del m´todo. Para o a e comprender mejor el problema que se plantea con los m´todos multipaso, e es necesario referirse al siguiente ejemplo enunciado por Dahlquist en 1956. Se plantea k = 2 y se construye un m´todo explicito, β2 = 0, α2 = 1 e con un orden maximal. Utilizando las condiciones dadas por (VII.4.25) con p = 3, se llega al siguiente esquema: Una aplicaci´n a la ecuaci´n diferencial y = y con y(0) = 1 da la f´rmula o o o de recurrencia Para resolver la ecuaci´n precedente, se calcula el polinomio caracter´ o ıstico de ´sta, obteniendo e ecuaci´n de segundo grado cuyas soluciones son o La soluci´n de (VII.4.27) tiene la forma o ζ1 = 1 + h + O(h2 ), ζ 2 + 4(1 − h)ζ − (5 + 2h) = 0, ζ2 = −5 + O(h). (VII.4.29) (VII.4.28) yn+2 + 4(1 − h)yn+1 + (5 + 2h)yn = 0. (VII.4.27) yn+2 + 4yn+1 − 5yn = h(4fn+1 + 2fn ).

(VII.4.26)

n n yn = C1 ζ1 + C2 ζ2

donde las constantes C1 y C2 est´n determinadas por y0 = 1 y y1 = eh . Para a n n grande, el t´rmino C2 ζ2 ≈ C2 (−5)n es dominante y ser´ muy dificil que e a la soluci´n num´rica converga hacia la soluci´n exacta. Ver figura VII.4.4. o e o

3.0

h=0.01

h=0.05

2.0

1.0 .0

h=0.025 .5

h=0.1 1.0

Figura VII.4.4. Inestabilidad del m´todo VII.4.26. e

´ VII.4 Metodos Multipasos

351

La raz´n de la divergencia de la soluci´n num´rica en el ejemplo precedente, o o e es que el polinomio
k

̺(ζ) =
i=0

αi ζ i ,

(VII.4.30)

tiene una raiz que es m´s grande que 1 en valor absoluto. a Para encontrar una condici´n necesaria para la convergencia, se consio derar´ el problema y ′ = 0 con valores iniciales y0 , y1 , . . . , yk−1 perturbados. a La soluci´n num´rica yn satisface: o e αk yn+k + · · · + α0 yn = 0, (VII.4.31)

y est´ dada por una combinaci´n lineal de: a o ζ n . . . . . . . . . . . . . . . . . . . . si ζ es una raiz simple de ̺(ζ) = 0, ζ n , nζ n . . . . . . . . . . . . . . . si ζ es una raiz doble de ̺(ζ) = 0, ζ n , nζ n , . . . , nl ζ l . . . . . . si ζ es una raiz de multiplicidad l. Para que la soluci´n num´rica quede acotada, es necesario que las o e condiciones de la definici´n siguiente sean satisfechas. o Definici´n VII.4.3.- Un m´todo multipaso es estable, si las raices del o e polinomio ̺(ζ) satisfacen ˆ ˆ i) si ̺(ζ) = 0 entonces ζ ≤ 1, ˆ ˆ ˆ ii) si ̺(ζ) = 0 y ζ = 1 entonces ζ es una raiz simple de ̺(ζ). Se puede mostrar facilmente que los m´todos de Adams tienen como e polinomio caracter´ ıstico ̺(ζ) = ζ k−1 (ζ − 1). Por consiguiente los m´todos de Adams son estables para la definici´n que e o acaba de ser enunciada. Por otro lado se muestra igualmente que los m´todos e BDF son estables solamente para k ≤ 6. Existe un resultado muy importante en la teor´ de la estabilidad de los ıa m´todos multipaso, cuya demostraci´n escapa a los objetivos del libro. Este e o resultado es conocido como la primera barrera de Dahlsquist. Teorema VII.4.4.- Primera barrera de Dahlsquist. Para un m´todo mule tipaso estable, el orden k satisface p ≤ k + 2 si k es par, p ≤ k + 1 si k es impar y p ≤ k si el m´todo es expl´ e ıcito.

Convergencia de los M´todos Multipaso e
Debido a la complejidad de la demostraci´n, en esta subsecci´n se o o tratar´, solamente el caso equidistante. a

352

VII Ecuaciones Diferenciales

Teorema VII.4.5.- Sup´ngase que los k valores de partida satisfagan o y(xi ) − yi ≤ C0 hp , para i = 0, 1, . . . , k − 1. Si el m´todo multipaso e (VII.4.21) es de orden p y estable, entonces el m´todo es convergente de e orden p, es decir el error global satisface y(xn ) − yn ≤ Chp , para xn − x0 = nh ≤ Const. (VII.4.34)

Demostraci´n.- El punto esencial de la demostraci´n es el siguiente: Se o o escribe formalmente el m´todo multipaso (VII.4.21) bajo la forma de un e m´todo a un paso. El m´todo multipaso es de la forma, suponiendo αk = 1 e e
k−1

yn+k = −

αi yn+i + hΨ(xn , yn , . . . , yn+k−1 , h).
i=0

(VII.4.35)

Para un m´todo expl´ e ıcito βk = 0, Ψ est´ dada por a
k−1

Ψ(xn , yn , . . . , yn+k−1 , h) =
i=0

βi f (xn+i , yn+i ),

y para un m´todo general, Ψ est´ definida impl´ e a ıcitamente por
k−1

Ψ(xn , yn , . . . , yn+k−1 , h) =
i=0

βi f (xn+i , yn+i ) + βk f xn+k , hΨ(xn , yn , . . . , yn+k−1 , h) −

(VII.4.36)
k−1

αi yn+i
i=0

.

Luego se considera los supervectores Yn = (yn+k−1 , . . . , yn+1 , yn )t , pudiendo de esta manera escribir el m´todo dado por (VII.4.35), bajo la e forma Yn+1 = AYn + hΦ(xn , Yn , h), (VII.4.37) donde  −αk−1 ½ −αk−2 ½  0 ½   A = ½   · · · −α1 ½ ··· 0 .. . .. .. . .    −α0 ½ Ψ(x, Y, h)  0    0    .  0 O , Φ(x, Y, h) =  .  .    . . . . 0 0 (VII.4.37)

½

´ VII.4 Metodos Multipasos

353

El siguiente paso en la demostraci´n es introducir el error local. Se considera o los valores yn , . . . , yn+k−1 sobre la soluci´n exacta, denotando o Y (xn ) = (y(xn+k−1 , . . . , y(xn+1 ), y(xn ))t , y aplicando una vez el m´todo multipaso. Esto da e ˆ Yn+1 = AY (xn ) + hΦ(xn , Y (xn ), h). ˆ La primera componente de Yn+1 − Y (xn+1 ) es exactamente el error local dado por (VII.4.22), mientras que las otras componentes son iguales a cero. Como el m´todo es de orden p, por hip´tesis, se tiene e o xn+1 − x0 = (n + 1)h ≤ Const. (VII.4.39) A continuaci´n se debe analizar la propagaci´n del error, es decir introducir o o la estabilidad del m´todo. Consid´rese una segunda soluci´n num´rica, e e o e definida por Zn+1 = AZn + hΦ(xn , Zn , h) para y estimar la diferencia Yn+1 − Zn+1 . Como ilustraci´n del siguiente paso o en la demostraci´n se considerar´ solamente los m´todos de Adams, pues el o a e caso general requiere de la utilizaci´n de otra norma, cuyo estudio escapa el o alcanze de este libro. Por consiguiente yn+k − zn+k   yn+k−1 − zn+k−1  .   yn+k−1 − zn+k−1   . .  =  .     . yn+1 − zn+1 . yn − zn yn+1 − zn+1   Ψ(xn , Yn , h) − Ψ(xn , Zn , h)   0 . +h  .   . .  0 Utilizando la norma infinita y condici´n de Lipschitz para Ψ que es conseo cuencia de la de f (x, y), se obtiene Yn+1 − Zn+1 ≤ (1 + hΛ) Yn − Zn . (VII.4.40) ˆ Yn+1 − Y (xn+1 ) ≤ C1 hp+1 , (VII.4.38)

Ahora se ver´ la acumulaci´n de los errores propagados. Esta parte de la a o demostraci´n es exactamente igual que para los m´todos a un paso, ver el o e

354 paragrafo VII.3 y la figura VII.4.5.

VII Ecuaciones Diferenciales

y0
e1 e
2

e n−1

y(xn ) En E n−1 E1 y

x0

x1

x2 x 3

xn

Figura VII.3.2. Estimaci´n del error global para m´todos multipaso. o e

Ejercicios
1.- Para los coeficientes del m´todo de Adams expl´ e ıcito, demostrar la f´rmula de recurrencia siguiente: o 1 1 1 γm + γm−1 + γm−2 + · · · + γ0 = 1. 2 3 m+1 Indicaci´n.-Introducir la serie o
∞ 1

G(t) =
j=0

γj tj ,

γj = (−1)j
0

−s j

ds

y demostrar que
1

G(t) =
0

(1 − t)−s ds

y

log(1 − t) 1 G(t) = , t 1−t

enseguida, desarrollar la segunda f´rmula en serie de Taylor y comparar o los coeficients de tm . 2.- Consid´rese la identidad e
xn+1

y(xn+1 ) = y(xn−1 +
xn−1

f (t, y(t))dt

para la soluci´n de la ecuaci´n diferencial y ′ = f (x, y). o o

´ VII.4 Metodos Multipasos

355

a) Remplazar en la identidad la funci´n desconocida f (t, y(t)) por el o polinomio p(t), como se ha hecho para construir el m´todo de Adams e expl´ ıcito. Deducir la f´rmula de Nystr¨n o o
k−1

yn+1 = yn−1 + h
j=0

κj ∇j fn .

b) Calcular los primeros κj . c) Verificar la identidad κj = 2γj − γj−1 , donde γj son los coeficientes del m´todo de Adams expl´ e ıcito. 3.- Mostrar que el m´todo BDF a k pasos tiene orden k. e 4.- Calcular el orden para la f´rmula de Nystr¨n, ver ejercicio 2. o o 5.- Un m´todo multipaso se dice sim´trico, si e e αj = −αk−j , βj = βk−j .

Mostrar que un m´todo sim´trico siempre tiene un orden par. e e 6.- Dado un predictor de orden p − 1
k P αi yn+1 = h i=0 i=0 k−1 P βi fn+1 ,

(P )

y un corrector de orden p
k k

αi yn+1 = h
i=0 i=0

βi fn+1 .

(C)

a) Escribir el m´todo P (EC)M E bajo la forma e Yn+1 = AYn + hΦ(xn , Yn , h). b) Mostrar que este m´todo es convergente de orden p, si el corrector es e estable, no es necesario que el predictor sea estable.

Bibliograf´ ıa

Al final de cada libro o art´ ıculo, se indica entre corchetes y car´cteres it´licos a a el cap´ ıtulo y/o secci´n al que hace referencia. o J.H Ahlberg, E.N. Nilson & J.L. Walsh (1967): The Theory of Splines and Their Applications. Academic Press, New York. [III.2] G. Arfken (1985): Mathematical Methods for Physicists. Academic Press, London. [I.3], [VI.2]. V.I. Arnol’d (1992): Ordinary Differential Equations. Springer-Textbook. [VII.1]. K.E. Atkinson (1978): An Introduction to Numerical Analysis. John Wiley & Sons. [I], [III], [VI]. O.A Axelsson (1976): A class of iterative methods for finite element equations. Comp. Math. in Appl. Mech. and Eng. 9. [II.4]. N. Bakhbalov (1976): M´thodes Num´riques. Editions Mir, Moscou. [I], e e [III], [VI]. C. de Boor (1978): A Practical Guide to Splines. Springer-Verlag, Berlin. [III.2]. C. Br´zinski (1977): Acc´l´ration de la Convergence en Analyse Num´rie ee e que. Lectures Notes in Mathematics, Nr. 584, Springer-Verlag. [III.3], [VI.3]. J.C Butcher (1987): The Numerical Analysis of Ordinary Differential Equations. John Wiley & Sons. [VII]. H. Cartan (1977): Cours de Calcul Diff´rentiel. Hermann, Paris. [IV.2], e [IV.3]. P.G Ciarlet (1982): Introduction a l’analyse num´rique matricielle et a ` e ` l’optimisation. Mason, Paris. [II]. M. Crouzeix & A.L. Mignot (1984): Analyse Num´rique des Equations e Differentielles. Mason, Paris. [III], [VI] , [VII]. G. Dahlquist & A. Bj¨rck (1974): Numerical Methods. Prentice-Hall. [I], o [III], [VI]. R. Dautray & J.L. Lions (1988): Mathematical Analysis and Numerical Methods for Science and Technology, volume 2, Functional and Variational Methods. Springer-Verlag. [VI.4]. P.J. Davis & P. Rabinowitz (1975): Methods of Numerical Integration. Academic Press, New York. [VI].

358

Bibliograf´ ıa

J. Dieudonn´ (1980): Calcul Infin´tisimal. Hermann, Paris. [IV.1], e e [IV.2], [VI.4]. J.J. Dongarra, C.B. Moler, J.R. Bunch & G.W. Stewart (1979): LINPACK Users’ Guide. SIAM, Philadelphia. [II]. A. Gramain (1988): Integration. Hermann, Paris. [VI.1], [VI.4]. R.P. Grimaldi (1989): Discrete and Combinatorial Mathematics. Addison-Wesley Publishing Company. [II.3]. E. Hairer, S.P. Nørsett & G. Wanner (1987): Solving Ordinary Differential Equations I. Nonstiff Problems. Springer Series in Comput. Math., vol. 8. it [VII]. E. Hairer & G. Wanner. Solving Ordinary Differential Equations. Stiff Problems. Springer Series in Comput. Math., vol. 11. [VII]. P. Henrici (1962): Discrete Variable Methods in Ordinary Differential Equations. John Wiley & Sons. [VII]. R.A. Horn & C.R. Johnson (1985): Matrix Analysis. Cambridge University Press. [II.1], [V.1]. G.H Golub & C.F. Van Loan (1989): Matrix Computations. The Johns Hopkins University Press, Baltimore and London. [II]. K.L. Kantorovitch & G. Akilov (1981): Analyse Fonctionnelle, Volume2. Editions Mir, Moscou. [IV.2], [IV.3] V.I. Krylov (1962): Approximate calculation of integrals. Macmillan, New Yor. [VI]. S. Lang (1987): Linear Algebra. Springer-Verlag. [II], [V]. M. Marden (1966): Geometry of Polinomials. American Mathematical Society, Providence, Rhede Island, 2nd Edition. [IV.1] J.M. Ortega & W.C. Rheinboldt (1970): Iterative Solution of Nonlinear Equations in Several Variables. Academic Press, New York. [IV]. A.M. Ostrowski (1966): Solution of Equations and Systems of Equations. Academic Press, New York, 2nd edition. [IV]. B.N. Parlett (1980): The Simmetric Eigenvalue Problem. Prentice-Hall, Englewood Cliffs, New Jersey. [V]. ¨ R. Piessens, E. de Doncker-Kapenga, C.W. Uberhuber & D.K. Kahaner (1983): QUAD-PACK. A Subroutine Package for Automatic Integration. Springer Series in Comput. Math., vol. 1. [VI]. W.H Press, B.R. Flannery, S.A Teukolsky & W.T Vetterling (1989): Numerical Recipies. The Art of Scientific Computing (Versi´n FORTRAN). o Cambridge University Press, Cambridge. [VI.4]. C.R. Rao: (1973): Linear Statistical Inference and Its Applications. John Wiley & Sons. [II.5]

Bibliograf´ ıa

359

W. Rudin (1976): Principles of Mathematical Analysis. MacGraw Hill, trird edition. [IV.2], [VI.1]. A.A Samarski & E.S. Nikolaev (1982): M´todos de soluci´n de las e o ecuaciones reticulares, Tomo I y II. Editorial Mir, Moscou. [III.3], [III.4] B.T. Smith, J.M. Boyle, Y. Ikebe, V.C. Klema & C.B Moler (1970): Matrix Eigensystem Routines: EISPACK Guide. 2nd ed., Springer-Verlag, New York. [V] J. Stoer & R. Bulirsch (1980): Introduction to Numerical Analysis. Springer-Verlag, New York. [I], [III], [VI]. G.H. Stewart (1973): Introduction to Matrix Computations. Academic Press, New York. [II]. L. Swhwartz (1970): Analyse, Topologie g´nerale et analyse fonctione nelle. Hermann, Paris. [IV.2]. R.A. De Vore & G.G. Lorentz (1991): Constructive Approximation. Springer-Verlag. [III.2]. J.H. Wilkinson (1963): The Algebraic Eigenvalue Problem. Clarendon Press, Oxfordd. [V]. J.H. Wilkinson (1965): Rounding Errors in Algebraic Process. PrenticeHall, New York. [I]. J.H. Wilkinson (1969): Rundungsfehler. Springer-Verlag, Berlin. [I], [II]. J.H. Wilkinson & C. Reinsch (1971): Handbook for Automatic Computation, Volume II, Linear Algebra. Springer-Verlag, New York. [II], [V]. FORTRAN/9000 Reference (1991): Hewlett-Packard Company. [I.2].

Indice de S´ ımbolos

Los s´ ımbolos matem´ticos que aparecen en el libro, est´n enunciados en este a a glosaria de la manera siguiente. En la primera columna el s´ ımbolo mismo, al medio el nombre de ´ste y a la derecha la pagina donde est´ definido. e a problema, 2. redondeo de x, 8. precisi´n de la computadora, 8. o norma de vector, 25. norma de matriz, 26. ½ vector 1, 29. cond(A) condici´n de la matriz A, 29. o LR descomposici´n de Gauss, 37. o diag(r1 , r2 , . . . , rn ) matriz diagonal, 45. D1/2 matriz raiz cuadrada, 45. ω coeficiente de relajaci´n, 56. o ⊗ producto tensorial de matrices, 60. x A norma natural, 72. Q matriz ortogonal, 87. A+ pseudo inversa de una matriz, 93. y[xi0 , . . . , xik ] diferencia dividida de orden k, 107. ∇k yi diferencia finita progresiva, 109. ¯ ∇k yi diferencia finita regresiva, 109. Tn (x) polinomio de Chebichef, 113. li (x) polinomio de Lagrange, 116. Λn constante de Lebesgue, 116. ′ fx aplicaci´n derivada, 168. o ρ(A) radio espectral, 171. ker nucleo de una aplicaci´n lineal, 214. o χA (λ) polinomio caracter´ ıstico, 214. A∗ matriz adjunta, 215. U matriz unitaria, 215. Pk (τ ) nucleo de Peano de orden k, 251. Pk (x) polinomio de Legendre, 262. FN transformada discreta de Fourier, 286. y∗k producto de convoluci´n, 292. o P(x) arr(x) eps

Indice Alf´betico a

acelerador de convergencia, 147, 276 Adams m´todo expl´ e ıcito, 341 m´todo impl´ e ıcito, 343 Aitken, 276 algoritmo, 2 bisecci´n, 161, 164 o Cholesky, 43 epsilon, 278 Euclides, 157 Gauss, 37 H¨rner, 3,7 o aplicaci´n de spline, 142 o aproximaci´n de Broyden, 198 o arm´nica, sucesi´n, 148 o o axiomas de Moore-Penrose, 96 BDF, m´todos, 345 e Broyden, 198 Brusselator, 339 Bulirsch, sucesi´n, 148 o busqueda de Fibonacci, 129 de pivote parcial, 41 c´lculo derivada, 177 a c´lculo variacional, 310 a Cardano, 154 Cauchy, 297 cero localizaci´n, 155 o multiplicidad, 105 Chebichef polinomio, 73, 113 puntos, 116 teorema, 74 cociente de Rayleigh, 223, 227 constante de Lebesgue, 116

condici´n o del problema a valores propios, 217 del problema lineal,30,33 de un problema, 10 de una matriz, 29,30 Lipschitz, 297,298 construcci´n o polinomio de interpolaci´n, 106 o m´todo de orden 4, 327 e spline, 133 convergencia acelerador, 147 interpolaci´n, 119 o m´todo de Gauss-Newton, 204 e m´todo de Gauss-Seidel, 49 e m´todo de Jacobi, 49 e m´todos de Runge-Kutta, 335 e m´todos multipaso, 350 e spline, 133 costo, 3 descomposici´n LR, 39 o descomposici´n QR, 90 o transformada r´pida de Fourier, 291 a Cramer, regla de, 35 Dahlsquist, primera barrera, 350 descomposici´n o Cholesky, 44, 45 Jordan, 219 LR, 37, 38, 39 QR, 87 Schur, 215, 234 valores singulares, 94 diferencias divididas, 107 finitas, 109 direcci´n o conjugada, 69, 70 Newton, 194 dispositivo ideal de c´lculo, 2 a material de c´lculo, 8 a Dormand & Prince, 332

364 ecuaciones con derivadas parciales, 59 cuadr´ticas, 152 a c´bicas, 153 u de grado cuarto, 154 diferenciales, 296 Euler-Lagrange, 310 no resolubles por radicales, 155 resolubles por radicales, 152 eficiencia, 3 ǫ-algoritmo, 278 error de aproximaci´n, 5 o de la aproximaci´n spline, 136 o de interpolaci´n, 111 o del m´todo, 5 e de truncaci´n, 4 o f´rmula de cuadratura, 250 o extrapolaci´n, 149 o m´todo gradiente, 68 e m´todo gradiente condicionado, 72 e m´todo Gauss-Newton, 205, e m´todo Multipaso, 346 e m´todo Newton, 176 e transformada discreta de Fourier, 287 errores de redondeo, 115 estabilidad algoritmo de Gauss, 41,42,43 backward analysis, 13 forward analysis, 12 m´todo de Euler, 319 e m´todo de Euler expl´ e ıcito, 322 m´todo multipaso, 348 e num´ricamente estable, 12 e Euler efecto de los errores de redondeo, 317 estabilidad, 319 m´todo, 313 e m´todo impl´ e ıcito, 321 pol´ ıgono, 313 extrapolaci´n o polinomial, 145 tablero, 147 error, 149

´ Indice Alfabetico

factorizaci´n, o incompleta de Cholesky, 77 fen´meno de Runge, 124 o FFT, 290 Fibonacci, busqueda, 129 formas tridiagonales, 227 f´rmula o de Cardano, 154 de Newton, 107 de Nystr¨m, 354 o de Rodr´ ıguez, 262 f´rmula de cuadratura, 248 o error, 250 Gauss, 264–266 orden, 249 orden elevado, 259 sim´trica, 249 e Fourier error, 287 serie de, 284 transformada, 284 transformada discreta, 286 transformada r´pida, 290 a funcion integrable, 244 modelo, 83 ortogonal, 260 peso, 259 funciones con oscilaciones, 281 Galois, teorema, 155 GAUINT, 272 Gauss, algoritmo de eliminaci´n, 36, 37 o f´rmulas de cuadratura, o 264–266 convergencia Gauss-Newton, 204 m´todo Gauss-Newton, 203 e Gerschgorin, teorema, 156, 232 grado de aproximaci´n, 120 o grafo dirigido, 49 Hermite, 104, 138 Heun, 325

´ Indice Alfabetico

365 Heun, 325 iterativos, 163–172 iterativo simple, 169 Jacobi,48–56 Levenberg-Marquandt, 210 Maehly, 158 Multipaso, 341 Newton, 157, 174–199 Newton con Relajaci´n, 193 o Newton Simplificado, 184 predictor-corrector, 344 QR, 237 QR con shift, 238 Sobrerelajaci´n SOR, 56, 58 o Runge-Kutta, ver Runge-Kutta SSOR precondicionado, 78 m´ ınicmos cuadrados, 83 interpretaci´n estad´ o ıstica, 84 interpretaci´n geom´trica, 85 o e Misovski, ver teorema Newton-Misovski modificaciones de Gauss-Newton, 207 m´dulo de continuidad, 121 o Newton direcci´n, 194 o Kantorovich, 185 m´todo, 157, 174–199 e m´todo con Relajaci´n, 193 e o m´todo simplificado, 184 e Misovski, 179 regla de, 247 norma, absoluta, 26 ciudad-bloque, 25 de la convergencia uniforme, 25 de una matriz, 26 de un vector, 25 euclidiana, 25 Frobenius, 33 mon´tona, 26 o natural, 72 Nucleo de Peano, 251–254 nucleo resolvente, 303 operaci´n elemental, 2 o orden f´rmula de cuadratura, 249 o m´todo de Runge-Kutta, 325 e construcci´n de o un m´todo de orden 4, 327 e

Interpolaci´n o convergencia, 119 de Lagrange, 104–108 de Hermite, 104 trigonom´trica, 289 e Kantorovich, ver teorema Konrad, 271 Lagrange, 104 λ-estrategia, 194 Lebesgue, 116 Levenberg-Marquandt, 210 Lipschitz, 297 mantisa, 8 matriz adjunta, 215 definida positiva, 43 Frobenius, 155, 221 Hessenberg, 227 Hilbert, 31, 87 Householder, 88, 228 irreducible, 49, 50 no-negativa, 50 normal, 216 ortogonal, 30 pseudo-inversa de una, 92 sim´trica, 43 e tridiagonal, 227 Toeplitz, 292 unitaria, 215 Vandermonde, 31 m´todo, e Adamas expl´ ıcitos, 341 Adamas impl´ ıcitos, 343 a un paso, 323 BDF, 345 de la bisecci´n, 229 o de la potencia, 223 de la potencia generalizada, 233 de la potencia inversa, 225 Dormand & Prince, 332 encajonados, 330 Euler, 313, 325 falsa posici´n, 165 o Gauss Newton, 203-205 Gauss Seidel, 48–56 Gradiente, 67 Gradiente Conjugado, 69 Gradiente Conjugado Precondicionado, 75

366

´ Indice Alfabetico

Peano, 251–254 regi´n de estabilidad, 320 o Pearson, 99 regla Perron-Frobenius, 52 del punto medio, 246 pivote, 40 del trapecio, 246 pol´ ıgono de Euler, 313 de Newton, 247 polinomio de Simpson, 247 caracter´ ıstico, 214 Cramer, 35 Chebichef, 73, 113, 262 resolvente, 303 Rodriguez, 262 Hermite, 104 interpolaci´n de Hermite, 104, 138, 262 Romberg, 148 o Runge-Kutta interpolaci´n de Lagrange, 104 o condiciones de orden, 327,328 Jacobi, 262 convergencia, 335 ortonormales, 260 error glogal, 335 Lagrange, 104, 105 error local, 325 Laguerre, 262 Dormand-Prince, 332 Legendre, 262, 263 esquema, 325 precisi´n de la computadora, 8 o Euler, 325 primitiva, 245 Heun, 325 problema, 2 Kutta, 330 a valor inicial, 296 m´todos, 324 e bien condicionado, 10 m´todos encajonados, 330 e con valores en la frontera, 300 orden, 325 de Cauchy, 296 regla 3/8, 330 de minimizaci´n, 66 o Runge, 325 mal condicionado, 10 soluciones continuas, 333 potencia inversa de Wielandt, 225 procedimienteo ∆2 de Aitken, 276 Schur, 215,234 producto serie de Fourier, 284 de Kronecker, 65 Shooting escalar de funciones, 260 m´ltiple, 307 u sesquilineal, 284 simple, 303 tensorial de matrices, 60 soluciones continuas, 333 Property A de Young, 55 SOR, 56 punto Spline flotante, 8 aplicaci´n,142 o de Chebichef, 117 construcci´n, 133 o punto fijo, 169 c´bico, 131,132 u pseudo-inversa de una matriz, 92 error, 136 fijo en los bordes, 132 QUADPACK, 271 natural, 132 SSOR precondicionado, 78 Rayleigh, 223,227 radio espectral, 58 redondeado, 8

´ Indice Alfabetico

367

ω optimal, 58 Sturm, 159 sucesiones arm´nica, 148 o Bulirsch, 148 Romberg, 148 Sturm, 159 Sylvester, 232 tablero de extrapolaci´n, 147 o teorema Cauchy-Lipschitz, 297, 315 Chebichef, 74 Dirichlet, 285 del Muestreo, 289 Fundamental del Algebra, 152 Galois, 155 Gerschgorin, 156, 232 Jordan, 219 Newton-Kantorovich, 185 Newton-Misovski, 179 Pearson, 99 Perron-Frobenius, 52 punto fijo, 169 Schur, 215 Sylvester, 232 Weirstrass, 124 Wilkinson, 42 Wynn, 278 transformada discreta de Fourier, 286 r´pida de Fourier, 290 a valor absoluto de un vector, 26 valor propio, 215 valores singulares, 94 Van der Pol, 305 vector propio, 215 Weirstrass, 124 Wilkinson, 42 Wynn, 278

368

´ Indice Alfabetico

Una Introducci´n al An´lisis Num´rico es un libro o a e que pretende dar un enfoque moderno de los t´picos o introductorios de esta disciplina. Las nociones de estabilidad y error son analizadas minuciosamente en cada tema. La formulaci´n de m´todos y algoritmos es tratada o e de una manera construccionista, evitando de esta manera las recetas y trucos que aperecen en otros libros. El libro cuenta con siete cap´ ıtulos que dan una idea de lo que constituye actualmente el An´lisis Num´rico. Estos a e son: Preliminares, Sistemas Lineales, Interpolaci´n, o Ecuaciones No Lineales, C´lculo de Valores Propios, a Integraci´n Num´rica y Ecuaciones Diferenciales. o e Por sus caracter´ ısticas, este libro puede utilizarse como texto base, o bien como un complemento bibliogr´fico. a Est´ destinado a alumnos o profesionales interesados en a el An´lisis Num´rico. Como prerequisito para una buena a e utilizaci´n de este libro, se requiere tener los conocimientos o b´sicos de an´lisis y ´lgebra lineal a a a