Estad´ ıstica B´sica a con R y R–Commander

Estad´ ıstica B´sica a con R y R–Commander
(Versi´n Febrero 2008) o Autores: A. J. Arriaza G´mez o F. Fern´ndez Palac´ a ın M. A. L´pez S´nchez o a M. Mu˜oz M´rquez n a S. P´rez Plaza e A. S´nchez Navas a

distribuir y/o a modificar este documento bajo los t´rminos de la Licencia de Documentaci´n Libre de e o GNU. Version 1. Se concede permiso para copiar. Mara˜on. o Copyright c 2008 Universidad de C´diz.es/publicaciones ISBN: Dep´sito legal: o . Versi´n 1. Una traducci´n de la licencia est´ incluida en la secci´n titulada “Licencia de o a o Documentaci´n Libre de GNU”. distribute and/or a modify this document under the terms of the GNU Free Documentation License.2 o cualquier otra versi´n posterior publicada por la Free Software Founo o dation. Permission is granted to copy.Copyright c 2008 Universidad de C´diz. A copy of the license is included in the section entitled “GNU Free Documentation License”.uca. 3 n´ 11002 C´diz a http://www.2 or any later version published by the Free Software Foundation. Edita: Servicio de Publicaciones de la Universidad de C´diz a C/ Dr.

. . La organizaci´n de la informaci´n . GNU Free Documentation License . . . . . . . . . . . . . . . VIII 3. . . o o 5 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 3. . . . . . . o 1 1 3 4 2 An´lisis Exploratorio de Datos Unidimensional . . . IX o 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejecuci´n de Rcmdr . . . . . XIX 1 Comenzando con R . . . . . . . Introducci´n . Licencia de Documentaci´n Libre de GNU . . . . . . . . . . . . . . . . . . .´ Indice general Pr´logo o 1. . . . . . . . . . . . . . . . . History (Hist´rico) o V V . . . . . . . . . . . Instalaci´n de R y R–Commander . o 2. . . . . . Introducci´n . . . . . . o 2. . a 1. . . . . . . . . . . . . 1. . . . . . . . .

. . . 13 a 5. . . . . . . . . . . . 11 a 4.II ´ Indice general 2. Generaci´n de valores aleatorios . . . . . . . . Tipos de relaciones entre caracteres . . . . . . . . . . . . . An´lisis de variables ordenadas . . 64 3. 50 4 Distribuciones de Probabilidad . Naturaleza de los caracteres: Atributos y Variables . . . . . . . . . . . . 20 3 An´lisis Exploratorio de Datos multidimensional . . . . . . An´lisis de variables de escala . . . 24 2. . . . . . . . . . . . . . . . . . . . . . . . 25 a 3. An´lisis de relaciones entre dos atributos . Conceptos fundamentales . . . . 73 o 4. . . . . . . . . . . . . . . . . . An´lisis de relaciones entre dos variables . . . . . . . . . . . . . An´lisis de atributos . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . 58 2. . . . . . . . . . . . . . Distribuciones continuas . . . . . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . 55 1. . . . . . . . . . . . . . . . . 8 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 a 1. 31 a 4. 17 a 6. . . . . . . 23 a 1. . . . . . . . . . . . Distribuciones discretas . . . . . . 75 5 Inferencia cl´sica en poblaciones Normales . . . . . . . Ejercicios . . . . . . . . . . 81 . . . .

. . . . . 97 2. . . 125 C Tabla de modelos . . Diagnosis del modelo . . . . . 113 a 2. . . . . . . . . . . . . . . Pruebas de bondad de ajuste . . . . Inferencias sobre una poblaci´n . . . . . . . . . . . . . Ejercicios . . . . . . . . . . . . . . . . . . . . . 119 e 5. 85 o 3. 88 4. . . . . . . . . . . . . . . . . . . . . . 110 7 Introducci´n al An´lisis de la Varianza . . . . . . . . . Conceptos b´sicos . . . . . . . . . . . 106 o 4. . . . . . . 121 A Ficheros de datos . . . . . . . . . . . . . Test de la F . . . . . . . . . . 127 . . . . . . Ejercicios . . . . . . 116 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3. . . . . Contrastes de localizaci´n y escala . . .III 2. . . . . . . . . 99 3. . . . . . . . . . . . . . . . . . . . . . . . . . Pruebas de aleatoriedad . . . . . . . . . Alternativa no param´trica. . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagnosis del modelo . . . . . . . . 123 B Tabla de medidas estad´ ısticas . . . . . . 97 e 1. Ejercicios . . . . . Inferencias sobre dos poblaciones . . . . . . . 93 6 Inferencia no param´trica. . . . . . . . . . . . . . . . . . . 113 o a 1. . . . . . . . . . . . . . . . . . . . Test de Kruskal Wallis . . . . .

IV .

la aprobaci´n de la Normativa para el intercambio de o informaci´n institucional el 27 de septiembre de 2004 y la utilizaci´n o o de herramientas de formato abierto en las aplicaciones de comunicaci´n o y gesti´n de la Universidad. el pluralismo. el Punto 1 del Art´ o ıculo 2 de sus Estatutos. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. M. consciente de que es la forma m´s a eficiente de lograr sus objetivos institucionales relacionados con la docencia y la investigaci´n.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. Mu˜oz M´rquez. J. que describe los fines esenciales de la instituci´n. son actuaciones que ponen de manifiesto o el decidido apoyo del Equipo de Gobierno de la UCA a las soluciones basadas en formatos abiertos.uca. transmisi´n y cr´ o o ıtica de la ciencia. En concreto. el respeto de las ideas y el esp´ ıritu cr´ ıtico. P´rez Plaza. Arriaza G´mez. o a n a e A. S. Mientras que en el Punto 6 del mismo art´ ıculo dice: “Acoger. F. la t´cnica y la cultura y su integraci´n en el patrimonio e o intelectual heredado”. L´pez S´nchez. Desde un plano mucho m´s modesto. A. Fern´ndez Palac´ o a ın. establece coo mo objetivo fundamental: “La creaci´n. tales como la libertad.es/ebrcmdr Pr´logo o 1. Introducci´n o La Universidad de C´diz es pionera en Espa˜a en la b´squeda de a n u soluciones de conocimiento abierto. bajo el auspicio del Vicea rrectorado de Tecnolog´ de la Informaci´n e Innovaci´n Docente y ıas o o a trav´s de la Oficina de Software Libre de la Universidad de e . defender y promover los valores sociales e individuales que le son propios. M. desarrollo. as´ como la b´squeda de la verdad”. ı u La creaci´n de la Oficina de Software Libre (OSLUCA) el 15 de o marzo de 2004.

¿c´mo se va a fomentar ese esp´ o ıritu con el uso de herramientas absolutamente herm´ticas?. y si alguien consiguiera e descifrarlas y manipularlas se convertir´ formalmente en un delincuente. porque limita el ejercicio e de uno de los aspectos que mejor caracterizan a nuestra instituci´n: su o esp´ ıritu anal´ ıtico y cr´ ıtico. Dicho proyecto. De ah´ el nombre del libro: “Estad´ ı ıstica b´sica con R y a Rcmdr”. la elaboraci´n de material para la docencia y la investigaci´n. en primera instancia. servir como generador de instrucciones R. cuyas l´ a ıneas principales de actuaci´n pueden consultarse en la p´gina web del proyeco a to http://knuth. no s´lo o tiene consecuencias negativas desde un punto de vista econ´mico. el docente. Es posible . entre otras acciones. Pero la creaci´n de conocimiento se o ver´ muy mermada si se emplean soluciones tecnol´gicas que se ofrecen a o como cajas negras. en el que se enmarca este manual. donde existen alternativas con igual o mejor calidad con licencia libre. pensamos que o una instituci´n como la Universidad debe preocuparse por proveer a sus o miembros de las mejores herramientas para desarrollar su tarea. contempla. y que adem´s limita fuertemente el uso que se haga de los resultados a que se consigan a partir de ellas. en aras de la mejora global del conocimiento. El uso de software propietario en ´reas como la Estad´ a ıstica. La decisi´n de elegir R fue f´cil. cuando o nos planteamos confeccionar este manual. El incorporar la interfaz gr´fica de usuario a (GUI) Rcmdr pretende.uca. es decir que no pueden ser analizadas ni modificadas. ıa Centr´ndonos en los aspectos intr´ a ınsecos de la cuesti´n.VI C´diz (OSLUCA). ning´n otro programa en la actuao a u lidad re´ne las condiciones de madurez. sino o que supone un aut´ntico “harakiri” intelectual. tuvimos claro que no quer´ ıamos ense˜ar a manejar un programa. en segundo lugar. cantidad de recursos y manejabiu lidad que posee R.es/R. facilitar el manejo de R y. adem´s de ser el que tiene una mayor implantaci´n a o en la comunidad cient´ ıfica. En la misma l´ ınea que nuestros ´rganos de gobierno. sino a hacer an´lisis estad´ n a ısticos con el apoyo de una herramienta que facilitara el c´lculo y la aplicaci´n de los a o procedimientos. siendo en el primero o o de estos aspectos. nace el Proyecto R UCA.

con un control total sobre los procedimientos que en a cada momento se van a aplicar. creando y a editando instrucciones con una evidente econom´ de recursos y. lo que ıa es m´s importante. el libro pretende abarcar las necesidades pr´cticas de un programa b´sico de estad´ a a ıstica. Inferencia Param´trica y no Param´trica y An´lisis de la Varianza de e e a un Factor. pero unos pocos y la mayor´ del personal ıa investigador. El esquema de presentaci´n de los temas incluye una breve o descripci´n de los conceptos. el resto est´ dedicado a los t´picos habituales de un curso introductorio: An´lisis a o a Exploratorio en una y dos Dimensiones.1 Introducci´n o VII que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona Rcmdr. los primeros cap´ ıtulos est´n soportados b´sicamente sobre la interfaz Rcmdr. a Esperamos que este manual sea de utilidad y. ampliaciones y adaptaciones que se deseen. cap´ ıtulo. . en parte por necesidad y en parte por motivos estrat´gicos.0. puesto que para entonces consideramos que nuestros e alumnos est´n bien familiarizados con la sintaxis de las funciones de R. Respecto a los contenidos. Distribuciones de Probabilidad. Al objeto de facilitar el uso del software. dado que se trata de la primera versi´n. la resoluci´n de una serie de ejemplos con o o la ayuda de R y la propuesta de ejercicios para evaluar los conocimientos adquiridos. una vez superado el respeto inicial a la herramienta. A partir del a a cap´ ıtulo 5 aumenta el uso de funciones construidas directamente en el indicador de mandatos. y as´ salvo el primer ı. se decantar´n por manejarse directamente con la consola de R. ponemos a o nuestro trabajo a disposici´n de la comunidad cient´ o ıfica para que se hagan las mejoras. Los autores. en cualquier caso y con m´s motivos. donde se presenta de forma muy sucinta el software.

a ı u o Una versi´n electr´nica de este documento se encuentra en: o o http://knuth. La g´nesis est´ en la creaci´n del proyecto R UCA en mayo a e a o del 2007 y su primera versi´n ve la luz en enero de ese mismo a˜o.uca. Sonia e a P´rez Plaza.es/ebrcmdr . Mar´a Auxiliadora L´pez S´nchez. History (Hist´rico) o Este libro surge como material de apoyo a un curso de estad´ ıstica b´sica con R. Los o n autores en orden alfab´tico inverso son Antonio S´nchez Navas. Manuel Mu˜oz M´rquez. e n a ı o a Fernando Fern´ndez Palac´n y Antonio Jes´s Arriaza G´mez.VIII 2.

En castellano a editor se usa para ambas cosas. sin que se le considere responsable de las modificaciones realizadas por otros. and does not legally state the distribution terms for documentation that uses the GNU FDL – only the original English text of the GNU FDL does that. Se permite la copia y distribuci´n de copias literales de este documento de licencia. que es una licencia tipo copyleft u dise˜ ada para el software libre.2. No ha sido publicao n da por la Free Software Foundation y no establece legalmente los t´rminos e de distribuci´n para trabajos que usen la GFDL (s´lo el texto de la vero o si´n original en Ingl´s de la GFDL lo hace). La o versi´n original de la GFDL esta disponible en la Free Software Foundation. u o otro documento escrito sea “libre” en el sentido de libertad: asegurar a todo el mundo la libertad efectiva de copiarlo y redistribuirlo. Sin embargo la responsabilidad o a de su interpretaci´n es de Joaqu´ Seoane.1 de Igor T´mara y Pablo Reyes. En segundo t´rmino. 2001.gnu. n Esta es la traducci´n del Copyright de la Licencia. Boston. ´ Esta es una traducci´n no oficial de la GNU Free Document License o (Versi´n 1. que es m´s bien quien prepara un texto para publicar. que es. esta Licencia proporciona al e autor y al editor2 una manera de obtener reconocimiento por su trabajo.2. o ın Copyright (C) 2000. Pre´mbulo a El prop´sito de esta Licencia es permitir que un manual. pero no se permiten o cambios1 . Inc. However. 59 Temple Place. o 2 La licencia original dice “publisher”. It was not published by the Free Software Foundation. estrictamente. o http://www. Licencia de Documentaci´n Libre de GNU o This is an unofficial translation of the GNU Free Documentation License (Version 1. diferente de editor. MA 02111-1307 USA. lo que significa que los trabajos derivados del documento deben a su vez ser libres en el mismo sentido.org/copyleft/fdl. Esta Licencia es de tipo “copyleft”. Noviembre 2002) a Espa˜ ol (Castellano).IX 3. 1´ . no es el Copyright de esta o traducci´n no autorizada. Suite 330. 2002 Free Software Foundation. libro de texto. Sin embargo. Complementa la Licencia P´ blica General de GNU. esperamos que o e esta traducci´n ayude los hispanohablantes a entender mejor la GFDL.html Esta traducci´n est´ basada en una o a de la versi´n 1. we hope that this translation will help Spanish speakers understand the GNU FDL better. de manera comercial o no. con o sin modificaciones. quien publica. Noviembre 2002) into Spanish.

a Recomendamos esta licencia principalmente para trabajos cuyo fin sea instructivo o de referencia. filos´fica. Las “Secciones Invariantes” son ciertas Secciones Secundarias cuyos t´ ıtulos son designados como Secciones Invariantes en la nota que indica que el documento es liberado bajo esta Licencia. Pero esta licencia no se limita a manuales de software. 1. o una opini´n legal. sin pago de derechos y sin l´ ımite de tiempo. u Una “Versi´n Modificada” del Documento significa cualquier trabajo o que contenga el Documento o una porci´n del mismo. no puede designarse como Invariante. es que no las tiene. que contenga una nota del propietario de los derechos de autor que indique que puede ser distribuido bajo los t´rminos de esta Licencia. Si el Documento no identifica las Secciones Invariantes. el uso de dicho trabajo seg´ n las condiciones aqu´ estipuladas. El documento puede o no tener Secciones Invariantes. Un Texto de . sin tener en cuenta su tem´tica o si se publica como libro impreso o no. Tal nota e garantiza en cualquier lugar del mundo. modifica o distribuye el trabajo de cualquier modo que requiera permiso seg´ n la ley de propiedad intelectual. ´tica o pol´ o e ıtica acerca de ellos. a Usted acepta la licencia si copia. en cualquier soporte. Cualquier persona es un licenciatario y ser´ referido como “Usted”. ya sea una copia literal o o con modificaciones y/o traducciones a otro idioma. una Secci´n a o Secundaria puede no explicar nada de matem´ticas). La relaci´n puede ser a o una conexi´n hist´rica con el tema o temas relacionados. Aplicabilidad y definiciones Esta Licencia se aplica a cualquier manual u otro trabajo.X Hemos dise˜ ado esta Licencia para usarla en manuales de software libre. Si una secci´n no entra en la definio ci´n de Secundaria. si el Documento es en parte un texto de matem´ticas. puede usarse para cualquier texto. Una “Secci´n Secundaria” es un ap´ndice con t´ o e ıtulo o una secci´n o preliminar del Documento que trata exclusivamente de la relaci´n entre los o autores o editores y el tema general del Documento (o temas relacionados) pero que no contiene nada que entre directamente en dicho tema general (por ejemplo. Los “Textos de Cubierta” son ciertos pasajes cortos de texto que se listan como Textos de Cubierta Delantera o Textos de Cubierta Trasera en la nota que indica que el documento es liberado bajo esta Licencia. o o o comercial. n ya que el software libre necesita documentaci´n libre: un programa libre debe o venir con manuales que ofrezcan la mismas libertades que el software. En u ı adelante la palabra “Documento” se referir´ a cualquiera de dichos manuales a o trabajos.

Ejemplos de formatos de imagen transparentes son PNG. “Portada” significa el texto cercano a la a aparici´n m´s prominente del t´ o a ıtulo del trabajo. u PostScript o PDF simples. “Endorsements” e “History”. XCF y JPG.XI Cubierta Delantera puede tener como mucho 5 palabras. y uno de Cubierta Trasera puede tener hasta 25 palabras. a continuaci´n e o de texto que traduce XYZ a otro idioma (aqu´ XYZ se refiere a nombres de ı secci´n espec´ o ıficos mencionados m´s abajo. Una copia hecha a en un formato definido como Transparente. Una secci´n “Titulada XYZ” significa una parte del Documento cuyo o t´ ıtulo es precisamente XYZ o contiene XYZ entre par´ntesis. y que sea u adecuado como entrada para formateadores de texto o para su traducci´n auo tom´tica a formatos adecuados para formateadores de texto. como “Agradecimientos”. Una copia “Transparente” del Documento. en un libro impreso. que sigan los est´ndares y dise˜ados para que los a n modifiquen personas. “Aprobaciones” o “Historia”. Para trabajos en formatos que no tienen p´gina de portada como tal. Un formato de imagen no es Transparente si se usa para una cantidad de texto sustancial. formato de entrada A de L TEX. PostScript o PDF generados por e algunos procesadores de palabras s´lo como salida. SGML o XML usando una DTD disponible p´ blicamente. y HTML. representada en un formato cuya especificaci´n est´ disa o a ponible al p´ blico en general. “Dedications”. pero cuyo marcaje o ausencia de ´l haya sido dise˜ ado para impedir o dificultar modificaciones posteriores por e n parte de los lectores no es Transparente. precediendo el comienzo del cuerpo del texto. ´ SGML o XML para los cu´les las DTD y/o herramientas de procesamiento a no est´n ampliamente disponibles. m´s las a p´ginas siguientes que sean necesarias para mantener legiblemente el material a que esta Licencia requiere en la portada. la p´gina de t´ a ıtulo. u o En sentido estricto esta licencia parece exigir que los t´ ıtulos sean exactamente “Acknowledgements”. Como ejemplos de formatos adecuados para copias Transparentes est´n a ASCII puro sin marcaje. Una copia que no es “Transparente” se denomina “Opaca”. o La “Portada” significa. “Dea dicatorias”. en 3 . apto para que los contenidos puedan ser vistos u y editados directamente con editores de texto gen´ricos o (para im´genes come a puestas por puntos) con programas gen´ricos de manipulaci´n de im´genes o e o a (para dibujos) con alg´ n editor de dibujos ampliamente disponible. formato de entrada de Texinfo. “Conservar el T´ ıtulo” de tal secci´n cuando se modifica el Documento significa que permanece una secci´n o o “Titulada XYZ” seg´ n esta definici´n3 . significa una copia para lectura en m´quina. y HTML. Los formatos Opacos incluyen formatos propietarios que pueden ser le´ ıdos y editados unicamente en procesadores de palabras propietarios.

Si distribuye un o n´ mero suficientemente grande de copias tambi´n deber´ seguir las condiciones u e a de la secci´n 3. y puede exhibir copias p´ blicamente. Ambas cubiertas deben identificarlo a Usted clara y legiblemente como editor de tales copias. debe colocar los primeros (tantos como sea razonable colocar) en la verdadera cubierta y situar el resto en p´ginas adyacentes. Se considera que estas Limitaciones de Garant´ est´n incluidas. u 3. 2. siempre que conserven el t´ ıtulo del Documento y satisfagan estas condiciones. siempre y cuando esta Licencia. pueden considerarse como copias literales. debe incluir una copia Transparente. Adem´s puede a˜ adir otro material en las cubiertas. La cubierta debe mostrar el t´ ıtulo completo con todas las palabras igualmente prominentes y visibles.XII El Documento puede incluir Limitaciones de Garant´ cercanas a la nota ıa donde se declara que al Documento se le aplica esta Licencia. debe incluir las copias con cubiertas que lleven en forma clara y legible todos esos Textos de Cubierta: Textos de Cubierta Delantera en la cubierta delantera y Textos de Cubierta Trasera en la cubierta trasera. o Usted tambi´n puede prestar copias. las notas de copyright y la nota que indica que esta Licencia se aplica al Documento se reproduzcan en todas las copias y que usted no a˜ ada ninguna otra condici´n a las expuestas en n o esta Licencia. Copiado en cantidad Si publica copias impresas del Documento (o copias en soportes que tengan normalmente cubiertas impresas) que sobrepasen las 100. a Si Usted publica o distribuye copias Opacas del Documento cuya cantidad exceda las 100. usted puede aceptar compensaci´n a cambio de las copias. Usted no puede usar medidas t´cnicas para obstruir o controlar la e lectura o copia posterior de las copias que usted haga o distribuya. sea en forma comercial o no. Si los textos requeridos para la cubierta son muy voluminosos para que ajusten legiblemente. por referencia. bajo las mismas condiciones estae blecidas anteriormente. que pueda ser le´ ıda ingl´s. ıa a pero s´lo en cuanto a limitaciones de garant´ cualquier otra implicaci´n que o ıa: o estas Limitaciones de Garant´ puedan tener es nula y no tiene efecto en el ıa significado de esta Licencia. Las copias con cambios a n limitados a las cubiertas. Sin embargo. e . y la nota de licencia del Documento exige Textos de Cubierta. Copia literal Usted puede copiar y distribuir el Documento en cualquier soporte. en la Licencia.

Puede usar el o mismo t´ ıtulo de versiones anteriores al original siempre y cuando quien las public´ originalmente otorgue permiso. a estar listadas en la secci´n de Historia del Documento). Mostrar en la Portada como editor el nombre del editor de la Versi´n o Modificada. Adem´s. Listar en la Portada. si hay alguna) un t´ ıtulo distinto al del Documento y de sus versiones anteriores (que deber´n. por lo tanto dando licencia de distribuci´n y modificaci´n o o de la Versi´n Modificada a quienquiera posea una copia de la misma. cuando comience la distribuci´n o a o de las copias Opacas en cantidad. o B. a una direcci´n de red donde cualquier usuario de la misma tenga acceso por o medio de protocolos p´ blicos y estandarizados a una copia Transparente del u Documento completa. aunque no es requisito. o 4. . Modificaciones Puede copiar y distribuir una Versi´n Modificada del Documento bajo las o condiciones de las secciones 2 y 3 anteriores. a menos que le eximan de tal requisito. E. e Se solicita. si hay menos de cinco). como autores. en cada copia Opaca. con cada copia Opaca. una o m´s personas o entidades a responsables de la autor´ de las modificaciones de la Versi´n Modificada. ıa o junto con por lo menos cinco de los autores principales del Documento (todos sus autores principales. D. con la Versi´n Modificada haciendo el o rol del Documento. adyacente n a las otras notas de copyright. o bien mostrar. A˜ adir una nota de copyright apropiada a sus modificaciones. Usar en la Portada (y en las cubiertas. Conservar todas las notas de copyright del Documento. sin material adicional. para darles u la oportunidad de que le proporcionen una versi´n actualizada del Documento. para asegurar que esta copia Transparente permanecer´ accesible en el sitio establecido por lo menos un a˜ o despu´s de a n e la ultima vez que distribuya una copia Opaca de esa edici´n al p´ blico (direc´ o u tamente o a trav´s de sus agentes o distribuidores). o a debe hacer lo siguiente en la Versi´n Modificada: o A. que se ponga en contacto con los autores del Documento antes de redistribuir gran n´ mero de copias. si hay alguna.XIII por una m´quina. C. Si usted hace uso de la ultima ´ opci´n. deber´ tomar las medidas necesarias. siempre que usted libere la Versi´n o Modificada bajo esta misma Licencia.

N. N´ meros de secci´n o el equivalente no son consideu o rados parte de los t´ ıtulos de la secci´n. G. Conservar todas las Limitaciones de Garant´ ıa. En cualquier secci´n Titulada “Agradecimientos” o “Dedicatorias”. Incluir. o Conservar el T´ ıtulo de la secci´n y conservar en ella toda la sustancia o y el tono de los agradecimientos y/o dedicatorias incluidas por cada contribuyente. Si o no hay una secci´n Titulada “Historia” en el Documento. o M. Conservar en esa nota de licencia el listado completo de las Secciones Invariantes y de los Textos de Cubierta que sean requeridos en la nota de Licencia del Documento original. inmediatamente despu´s de las notas de copyright. o O. No cambiar el t´ ıtulo de ninguna secci´n existente a “Aprobaciones” ni o a uno que entre en conflicto con el de alguna Secci´n Invariante. Pueden ubicarse en la secci´n “Historia”. Tales secciones no o pueden estar incluidas en las Versiones Modificadas. L. a˜ adiendo adem´s un elemento describiendo n a la Versi´n Modificada. tal como figuran en la Portada. dada en el Documento para el o acceso p´ blico a una copia Transparente del mismo. Incluir una copia sin modificaci´n de esta Licencia. el a˜ o. crear una o estableciendo el t´ ıtulo. Se o puede omitir la ubicaci´n en red de un trabajo que haya sido publicado o por lo menos cuatro a˜ os antes que el Documento mismo. una nota de e licencia dando el permiso para usar la Versi´n Modificada bajo los t´rmio e nos de esta Licencia. el a˜ o. como se estableci´ en la oraci´n anterior. sin alterar su texto ni sus t´ ıtulos. o o o J. o K. o I. como se muestra en la Adenda al final de este documento. Conservar todas las Secciones Invariantes del Documento.XIV F. tal n como figuran en su Portada. puede opcionalmente designar algunas o todas esas secciones como . Si la Versi´n Modificada incluye secciones o ap´ndices nuevos que cao e lifiquen como Secciones Secundarias y contienen material no copiado del Documento. Conservar la secci´n Titulada “Historia”. as´ como las otras u ı direcciones de red dadas en el Documento para versiones anteriores en las que estuviese basado. H. Borrar cualquier secci´n titulada “Aprobaciones”. los autores y el editor del Documento. Conservar la direcci´n en red. si la hay. conservar su T´ o ıtulo y a˜ adirle n un elemento que declare al menos el t´ ıtulo. o si el editor n original de dicha versi´n da permiso. los nuevos autores y n el editor de la Versi´n Modificada.

haga el t´ ıtulo de cada una de estas secciones unico a˜ adi´ndole ´ n e al final del mismo. bajo los t´rminos definidos en la secci´n 4 anterior para e o versiones modificadas. Haga el mismo ajuste a los o u ´ t´ ıtulos de secci´n en la lista de Secciones Invariantes de la nota de licencia del o trabajo combinado. Una entidad solo puede a˜ adir (o hacer que se a˜ ada) o n n un pasaje al Texto de Cubierta Delantera y uno al de Cubierta Trasera. o 5. siempre que incluya en la combinaci´n todas las Seco ciones Invariantes de todos los documentos originales. con permiso expl´ ıcito del editor que agreg´ el o texto anterior. pero n puede reemplazar el anterior. Con esta Licencia ni los autores ni los editores del Documento dan permiso para usar sus nombres para publicidad ni para asegurar o implicar aprobaci´n o de cualquier Versi´n Modificada. si es conocido.XV invariantes. Debe borrar todas las secciones o tituladas “Aprobaciones”. o o a Puede a˜ adir un pasaje de hasta cinco palabras como Texto de Cubierta n Delantera y un pasaje de hasta 25 palabras como Texto de Cubierta Trasera en la Versi´n Modificada. entre par´ntesis. a˜ ada sus t´ n ıtulos a la lista de Secciones Invariantes en la nota de licencia de la Versi´n Modificada. Combinaci´n de documentos o Usted puede combinar el Documento con otros documentos liberados bajo esta Licencia. Tales t´ o ıtulos deben ser distintos de cualquier otro t´ ıtulo de secci´n. o de la misma forma combine cualquier secci´n Titulada “Agradecimientos”. siempre que conn o tenga unicamente aprobaciones de su Versi´n Modificada por otras fuentes ´ o –por ejemplo. Para hacerlo. un n´ mero unico. Si hay varias Secciones Invariantes con el mismo nombre pero con contenidos diferentes. Si el Documento ya incluye textos de cubiertas a˜ adidos previamente por usted o n por la misma entidad que usted representa. As´ mismo debe incluir la Limitaci´n de Garant´ ı o ıa. o Puede a˜ adir una secci´n titulada “Aprobaciones”. observaciones de peritos o que el texto ha sido aprobado por una organizaci´n como la definici´n oficial de un est´ndar. debe combinar cualquier secci´n Titulada “Histoo o ria” de los documentos originales. o si no. y puede reemplazar varias Secciones Invariantes id´nticas por una sola e copia. En la combinaci´n. el nombre del autor o editor original de esa e secci´n. . usted no puede a˜adir otro. sin modificar. o y cualquier secci´n Titulada “Dedicatorias”. formando una secci´n Titulada “Historia”. El trabajo combinado necesita contener solamente una copia de esta Licencia. listadas todas como Secciones Invariantes del trabajo combinado en su nota de licencia.

y reemplazar las copias individuales de esta Licencia en todos los documentos por una sola copia que est´ incluida en e la colecci´n.XVI 6. los Textos de Cubierta del Documento pueden colocarse en cubiertas que enmarquen solamente el Documento dentro del agregado. . por lo que o o usted puede distribuir traducciones del Documento bajo los t´rminos de la e secci´n 4. Colecciones de documentos Puede hacer una colecci´n que conste del Documento y de otros docuo mentos liberados bajo esta Licencia. esta Licencia no se aplica a otros trabajos del agregado que no sean en s´ mismos derivados del Documento. 7. siempre que inserte una copia de esta Licencia en el documento extra´ y siga esta Licencia en todos los dem´s ıdo. de todas o las notas de licencia del documento. ı Si el requisito de la secci´n 3 sobre el Texto de Cubierta es aplicable a o estas copias del Documento y el Documento es menor que la mitad del agregado entero. a Puede extraer un solo documento de una de tales colecciones y distribuirlo individualmente bajo esta Licencia. se denomina un “agregado” si el copyright o resultante de la compilaci´n no se usa para limitar los derechos de los usuarios o de la misma m´s all´ de lo que los de los trabajos individuales permiten. En caso o a o contrario deben aparecer en cubiertas impresas enmarcando todo el agregado. pero usted puede a˜ adir n n traducciones de algunas o todas las Secciones Invariantes a las versiones originales de las mismas. Puede incluir una traducci´n de esta Licencia. Traducci´n o La Traducci´n es considerada como un tipo de modificaci´n. siempre que incluya tambi´n la versi´n en Ingl´s de esta Licencia y las vere o e siones originales de las notas de licencia y Limitaciones de Garant´ En caso ıa. a aspectos relativos a la copia literal de dicho documento. en cualquier soporte de almacenamiento o distribuci´n. El reemplazo de las Secciones Invariantes con traducciones requiere o permiso especial de los due˜ os de derecho de autor. Agregaci´n con trabajos independientes o Una recopilaci´n que conste del Documento o sus derivados y de otros o documentos o trabajos separados e independientes. 8. as´ como de las Limitaciones de Garant´ ı ıa. siempre que siga las reglas de esta Licencia para cada copia literal o de cada uno de los documentos en cualquiera de los dem´s aspectos. Cuando a a el Documento se incluye en un agregado. o el equivalente electr´nico de las cubiertas si el documento est´ en forma electr´nica.

Sin a a embargo. ADENDA: C´mo usar esta Licencia en sus documentos o Para usar esta licencia en un documento que usted haya escrito. 9. cambiar su t´ ıtulo. Cualquier otro intento de copia. puede u o escoger cualquier versi´n que haya sido publicada (no como borrador) por la o Free Software Foundation. Terminaci´n o Usted no puede copiar. sublicenciar o distribuir el Documento salvo por lo permitido expresamente por esta Licencia. o o y dar´ por terminados autom´ticamente sus derechos bajo esa Licencia. modificar. “Deo a dicatorias” o “Historia” el requisito (secci´n 4) de Conservar su T´ o ıtulo (Secci´n 1) requerir´. la nota de licencia o la limitaci´n de garant´ la versi´n original en Ingl´s o ıa. Si el Documento no especifica un n´ mero de versi´n de esta Licencia. Vea http://www. de usted bajo esta Licencia no ver´n terminadas sus licencias.XVII de desacuerdo entre la traducci´n y la versi´n original en Ingl´s de esta Liceno o e cia. modificaci´n. Revisiones futuras de esta licencia De vez en cuando la Free Software Foundation puede publicar versiones nuevas y revisadas de la Licencia de Documentaci´n Libre GNU. los terceros que hayan recibido copias. Tales versiones o nuevas ser´n similares en esp´ a ıritu a la presente versi´n.gnu. siempre que permanezcan en total a conformidad con ella. Cada versi´n de la Licencia tiene un n´ mero de versi´n que la distingue. incluya una copia de la Licencia en el documento y ponga el siguiente copyright y nota de licencia justo despu´s de la p´gina de t´ e a ıtulo: . t´ o a ıpicamente. o derechos. usted tiene la opci´n de o o seguir los t´rminos y codiciones de la versi´n especificada o cualquiera posterior e o que haya sido publicada (no como borrador) por la Free Software Foundation.org/copyleft/. 10. sublicenciamiento o distribuci´n del Documento es nulo. a Si una secci´n del Documento est´ Titulada “Agradecimientos”. o e prevalecer´. o u o Si el Documento especifica que se aplica una versi´n numerada en particular o de esta licencia o “cualquier versi´n posterior”. pero pueden diferir en o detalles para solucionar nuevos problemas o intereses.

o Si su documento contiene ejemplos de c´digo de programa no triviales. sin Secciones Invariantes ni Textos de Cubierta Delantera ni Textos de Cubierta Trasera. Se concede permiso para copiar. reemplace la frase “sin . Versi´n 1. Trasera” por esto: siendo las Secciones Invariantes LISTE SUS T´ ITULOS. distribuir y/o modificar este documento bajo los t´rminos de e la Licencia de Documentaci´n Libre de GNU. como la Licencia P´ blica General de GNU (“GNU Geu neral Public License”). y siendo sus Textos de Cubierta Trasera LISTAR. o Si tiene Secciones Invariantes. para permitir su uso en software libre.XVIII ˜ Copyright (c) ANO SU NOMBRE.2 o cualo o quier otra versi´n posterior publicada por la Free Software Foundao tion. Si tiene Secciones Invariantes sin Textos de Cubierta o cualquier otra combinaci´n de los tres... siendo los Textos de Cubierta Delantera LISTAR. Textos de Cubierta Delantera y Textos de Cubierta Trasera. mezcle ambas alternativas para adaptarse a la situao ci´n. . o recomendamos liberar estos ejemplos en paralelo bajo la licencia de software libre que usted elija. Una copia de la licencia est´ incluida a en la secci´n titulada GNU Free Documentation License.

either commercially or noncommercially. refers to any such manual or work. because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. and is addressed as “you”. textbook. But this License is not limited to software manuals. MA 02110-1301 USA Everyone is permitted to copy and distribute verbatim copies of this license document. You accept the .XIX 4. We have designed this License in order to use it for manuals for free software. below. which is a copyleft license designed for free software. royalty-free license. Any member of the public is a licensee. Such a notice grants a world-wide. 1.2002 Free Software Foundation. Inc. that contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. this License preserves for the author and publisher a way to get credit for their work. Fifth Floor. but changing it is not allowed. Boston. regardless of subject matter or whether it is published as a printed book. It complements the GNU General Public License.2. with or without modifying it. APPLICABILITY AND DEFINITIONS This License applies to any manual or other work. which means that derivative works of the document must themselves be free in the same sense.2001. while not being considered responsible for modifications made by others. November 2002 Copyright c 2000. unlimited in duration. Secondarily. to use that work under the conditions stated herein. 51 Franklin St. GNU Free Documentation License Version 1. The “Document”. in any medium. or other functional and useful document “free”in the sense of freedom: to assure everyone the effective freedom to copy and redistribute it. This License is a kind of “copyleft”. Preamble The purpose of this License is to make a manual. We recommend this License principally for works whose purpose is instruction or reference. it can be used for any textual work.

or absence of markup. commercial. or of legal. ethical or political position regarding them. modify or distribute the work in a way requiring permission under copyright law. A copy made in an otherwise Transparent file format whose markup. Opaque formats include proprie- . (Thus. SGML or XML using a publicly available DTD. a Secondary Section may not explain any mathematics. in the notice that says that the Document is released under this License. has been arranged to thwart or discourage subsequent modification by readers is not Transparent. An image format is not Transparent if used for any substantial amount of text. in the notice that says that the Document is released under this License. as being those of Invariant Sections. represented in a format whose specification is available to the general public. XCF and JPG. A “Transparent” copy of the Document means a machine-readable copy. that is suitable for revising the document straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor.) The relationship could be a matter of historical connection with the subject or with related matters. A copy that is not “Transparent”is called “Opaque”. A “Modified Version” of the Document means any work containing the Document or a portion of it. A “Secondary Section” is a named appendix or a front-matter section of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Document’s overall subject (or to related matters) and contains nothing that could fall directly within that overall subject. If a section does not fit the above definition of Secondary then it is not allowed to be designated as Invariant. Examples of suitable formats for Transparent copies include plain ASCII without markup. The “Invariant Sections” are certain Secondary Sections whose titles are designated. LaTeX input format. A Front-Cover Text may be at most 5 words. if the Document is in part a textbook of mathematics. either copied verbatim. If the Document does not identify any Invariant Sections then there are none. as Front-Cover Texts or Back-Cover Texts. The Document may contain zero Invariant Sections. philosophical.XX license if you copy. or with modifications and/or translated into another language. and standard-conforming simple HTML. Examples of transparent image formats include PNG. The “Cover Texts” are certain short passages of text that are listed. Texinfo input format. PostScript or PDF designed for human modification. and a Back-Cover Text may be at most 25 words. and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters.

You may also lend copies. such as “Acknowledgements”. The “Title Page” means. 2. but only as regards disclaiming warranties: any other implication that these Warranty Disclaimers may have is void and has no effect on the meaning of this License. for a printed book. These Warranty Disclaimers are considered to be included by reference in this License. and the Docu- . and the machine-generated HTML. plus such following pages as are needed to hold. However. and that you add no other conditions whatsoever to those of this License. under the same conditions stated above. A section “Entitled XYZ” means a named subunit of the Document whose title either is precisely XYZ or contains XYZ in parentheses following text that translates XYZ in another language. If you distribute a large enough number of copies you must also follow the conditions in section 3. “Title Page”means the text near the most prominent appearance of the work’s title. For works in formats which do not have any title page as such. and the license notice saying this License applies to the Document are reproduced in all copies. 3. or “History”. COPYING IN QUANTITY If you publish printed copies (or copies in media that commonly have printed covers) of the Document. the material this License requires to appear in the title page. preceding the beginning of the body of the text. (Here XYZ stands for a specific section name mentioned below. the title page itself. and you may publicly display copies. SGML or XML for which the DTD and/or processing tools are not generally available. PostScript or PDF produced by some word processors for output purposes only. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. provided that this License. you may accept compensation in exchange for copies.) To “Preserve the Title” of such a section when you modify the Document means that it remains a section “Entitled XYZ. numbering more than 100. “Dedications”. The Document may include Warranty Disclaimers next to the notice which states that this License applies to the Document.according to this definition. the copyright notices. legibly. either commercially or noncommercially.XXI tary formats that can be read and edited only by proprietary word processors. VERBATIM COPYING You may copy and distribute the Document in any medium. “Endorsements”.

Both covers must also clearly and legibly identify you as the publisher of these copies. Copying with changes limited to the covers. If you use the latter option. and from those of previous versions (which should. Use in the Title Page (and on the covers. free of added material. and Back-Cover Texts on the back cover. you should put the first ones listed (as many as fit reasonably) on the actual cover. to give them a chance to provide you with an updated version of the Document. you must enclose the copies in covers that carry. You may use the same title as a previous version if the original publisher of that version gives permission. can be treated as verbatim copying in other respects. . or state in or with each Opaque copy a computer-network location from which the general network-using public has access to download using public-standard network protocols a complete Transparent copy of the Document. you must do these things in the Modified Version: A. clearly and legibly. You may add other material on the covers in addition. you must take reasonably prudent steps. MODIFICATIONS You may copy and distribute a Modified Version of the Document under the conditions of sections 2 and 3 above. If the required texts for either cover are too voluminous to fit legibly. that you contact the authors of the Document well before redistributing any large number of copies. be listed in the History section of the Document). In addition. It is requested.XXII ment’s license notice requires Cover Texts. 4. if there were any. all these Cover Texts: Front-Cover Texts on the front cover. The front cover must present the full title with all words of the title equally prominent and visible. you must either include a machine-readable Transparent copy along with each Opaque copy. thus licensing distribution and modification of the Modified Version to whoever possesses a copy of it. if any) a title distinct from that of the Document. If you publish or distribute Opaque copies of the Document numbering more than 100. and continue the rest onto adjacent pages. provided that you release the Modified Version under precisely this License. when you begin distribution of Opaque copies in quantity. but not required. as long as they preserve the title of the Document and satisfy these conditions. with the Modified Version filling the role of the Document. to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of that edition to the public.

Preserve the section Entitled “History”. K. in the form shown in the Addendum below. then add an item describing the Modified Version as stated in the previous sentence. unaltered in their text and in their titles. I. F. Include an unaltered copy of this License. Preserve its Title. Add an appropriate copyright notice for your modifications adjacent to the other copyright notices. Preserve all the copyright notices of the Document. D. . E. or if the original publisher of the version it refers to gives permission. immediately after the copyright notices. year. if it has fewer than five). as authors.or “Dedications”. and likewise the network locations given in the Document for previous versions it was based on. create one stating the title. unless they release you from this requirement. one or more persons or entities responsible for authorship of the modifications in the Modified Version. Preserve in that license notice the full lists of Invariant Sections and required Cover Texts given in the Document’s license notice. J. For any section Entitled “Acknowledgements. You may omit a network location for a work that was published at least four years before the Document itself. and preserve in the section all the substance and tone of each of the contributor acknowledgements and/or dedications given therein. H. Section numbers or the equivalent are not considered part of the section titles. and publisher of the Document as given on its Title Page. given in the Document for public access to a Transparent copy of the Document. G. year. together with at least five of the principal authors of the Document (all of its principal authors. C. State on the Title page the name of the publisher of the Modified Version.XXIII B. a license notice giving the public permission to use the Modified Version under the terms of this License. if any. new authors. Preserve the network location. L. These may be placed in the “History”section. List on the Title Page. If there is no section Entitled “History”in the Document. Preserve all the Invariant Sections of the Document. and publisher of the Modified Version as given on the Title Page. Preserve the Title of the section. authors. Include. as the publisher. and add to it an item stating at least the title.

N. You may add a passage of up to five words as a Front-Cover Text. unmodified. and a passage of up to 25 words as a Back-Cover Text. O. COMBINING DOCUMENTS You may combine the Document with other documents released under this License. provided it contains nothing but endorsements of your Modified Version by various parties–for example. The author(s) and publisher(s) of the Document do not by this License give permission to use their names for publicity for or to assert or imply endorsement of any Modified Version.XXIV M. If the Document already includes a cover text for the same cover. Preserve any Warranty Disclaimers. Only one passage of Front-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) any one entity. Do not retitle any existing section to be Entitled “Endorsements. and list them all as Invariant Sections of your combined work in its license notice. You may add a section Entitled “Endorsements”. 5. The combined work need only contain one copy of this License. on explicit permission from the previous publisher that added the old one. If there are multiple Invariant Sections with the same name but different contents. previously added by you or by arrangement made by the same entity you are acting on behalf of. you may at your option designate some or all of these sections as invariant. and that you preserve all their Warranty Disclaimers. These titles must be distinct from any other section titles. you may not add another. If the Modified Version includes new front-matter sections or appendices that qualify as Secondary Sections and contain no material copied from the Document. and multiple identical Invariant Sections may be replaced with a single copy.or to conflict in title with any Invariant Section. statements of peer review or that the text has been approved by an organization as the authoritative definition of a standard. to the end of the list of Cover Texts in the Modified Version. add their titles to the list of Invariant Sections in the Modified Version’s license notice. To do this. under the terms defined in section 4 above for modified versions. provided that you include in the combination all of the Invariant Sections of all of the original documents. Delete any section Entitled “Endorsements”. Such a section may not be included in the Modified Version. but you may replace the old one. make .

and distribute it individually under this License. is called an “aggregate”if the copyright resulting from the compilation is not used to limit the legal rights of the compilation’s users beyond what the individual works permit. and follow this License in all other respects regarding verbatim copying of that document. 6. you must combine any sections Entitled “History”in the various original documents. and replace the individual copies of this License in the various documents with a single copy that is included in the collection. In the combination.XXV the title of each such section unique by adding at the end of it. Make the same adjustment to the section titles in the list of Invariant Sections in the license notice of the combined work. then if the Document is less than one half of the entire aggregate. the name of the original author or publisher of that section if known. and any sections Entitled “Dedications”. You may extract a single document from such a collection. this License does not apply to the other works in the aggregate which are not themselves derivative works of the Document. If the Cover Text requirement of section 3 is applicable to these copies of the Document. Otherwise they must appear on printed covers that bracket the whole aggregate. provided you insert a copy of this License into the extracted document. provided that you follow the rules of this License for verbatim copying of each of the documents in all other respects. the Document’s Cover Texts may be placed on covers that bracket the Document within the aggregate. in or on a volume of a storage or distribution medium. in parentheses. or the electronic equivalent of covers if the Document is in electronic form. COLLECTIONS OF DOCUMENTS You may make a collection consisting of the Document and other documents released under this License. . 7. likewise combine any sections Entitled “Acknowledgements”. You must delete all sections Entitled “Endorsements”. When the Document is included in an aggregate. or else a unique number. forming one section Entitled “History”. AGGREGATION WITH INDEPENDENT WORKS A compilation of the Document or its derivatives with other separate and independent documents or works.

Such new versions will be similar in spirit to the present version. If a section in the Document is Entitled “Acknowledgements”. sublicense. modify. However. or rights. sublicense or distribute the Document is void. and any Warranty Disclaimers. “Dedications”. but you may include translations of some or all Invariant Sections in addition to the original versions of these Invariant Sections. Any other attempt to copy. 9.org/copyleft/. the requirement (section 4) to Preserve its Title (section 1) will typically require changing the actual title. the original version will prevail. FUTURE REVISIONS OF THIS LICENSE The Free Software Foundation may publish new. In case of a disagreement between the translation and the original version of this License or a notice or disclaimer. Replacing Invariant Sections with translations requires special permission from their copyright holders. or “History”. You may include a translation of this License. . provided that you also include the original English version of this License and the original versions of those notices and disclaimers. If the Document does not specify a version number of this License. parties who have received copies.XXVI 8.applies to it. 10. See http://www.gnu. TERMINATION You may not copy. you have the option of following the terms and conditions either of that specified version or of any later version that has been published (not as a draft) by the Free Software Foundation. Each version of the License is given a distinguishing version number. and will automatically terminate your rights under this License. and all the license notices in the Document. so you may distribute translations of the Document under the terms of section 4. If the Document specifies that a particular numbered version of this License “or any later version. from you under this License will not have their licenses terminated so long as such parties remain in full compliance. modify. you may choose any version ever published (not as a draft) by the Free Software Foundation. revised versions of the GNU Free Documentation License from time to time. but may differ in detail to address new problems or concerns. TRANSLATION Translation is considered a kind of modification. or distribute the Document except as expressly provided for under this License.

no Front-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License”. and no Back-Cover Texts. If you have Invariant Sections. merge those two alternatives to suit the situation. distribute and/or modify this document under the terms of the GNU Free Documentation License. If you have Invariant Sections without Cover Texts. Version 1. such as the GNU General Public License.2 or any later version published by the Free Software Foundation. Front-Cover Texts and Back-Cover Texts. with the Front-Cover Texts being LIST.. If your document contains nontrivial examples of program code. or some other combination of the three. to permit their use in free software. . with no Invariant Sections. Permission is granted to copy.XXVII ADDENDUM: How to use this License for your documents To use this License in a document you have written. include a copy of the License in the document and put the following copyright and license notices just after the title page: Copyright c YEAR YOUR NAME.Texts.”line with this: with the Invariant Sections being LIST THEIR TITLES. and with the Back-Cover Texts being LIST.. replace the “with. we recommend releasing these examples in parallel under your choice of free software license.

XXVIII .

comience con un cap´ ıtulo dedicado al software. o a n a e A. ıa u el que existan varias soluciones inform´ticas. L´pez S´nchez. a la cantidad de t´cnicas y funciones implementadas. F. este manual seguir´ teniendo utilidad aun cuando se usara otra ıa interfaz gr´fica distinta a la que se propone o.es/ebrcmdr Cap´ ıtulo 1 Comenzando con R 1. no deber´ ıa sorprender.uca.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. deben e emplearse para su elecci´n criterios objetivos de eficiencia. aun cuando en el Pr´logo se haya dejado claro que no es un o objetivo fundamental ense˜ar a manejar un programa inform´tico. que dan soluci´n a o a una gran variedad de problemas estad´ ısticos. A. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. M. a que es libre y a e la gran comunidad cient´ ıfica que lo usa como est´ndar para el an´lisis a a de datos. De n a hecho. no quiere decir que optar a por una de ellas no tenga un inter´s determinante y. P´rez Plaza. a bastar´ en ese caso con acomodar los men´s y/o la sintaxis. No obstante. no solo de o car´cter estad´ a ıstico. Mu˜oz M´rquez. Dicha comunidad ha desarrollado y desarrolla herramientas integradas en paquetes–en la actualidad m´s de 800–. Arriaza G´mez. incluso. sieno do especialmente destacables sus bondades en lo que se refiere a calidad. otro software. sino que atiendan tambi´n a su facilidad de uso. e Para la elecci´n de R se han evaluado pues distintos aspectos. Introducci´n o El que un libro que pretende incidir sobre los aspectos pr´cticos de a la Estad´ ıstica. por tanto. S. . M. Fern´ndez Palac´ o a ın. J.

R abarca una amplia gama de t´cnicas estad´ e ısticas que van desde los modelos lineales a las m´s modernas t´cnicas de clasificaci´n pasana e o do por los test cl´sicos y el an´lisis de series temporales.r-project. o . Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estad´stica de la ı Universidad de Auckland en Nueva Zelanda.org. La p´gina principal del proyecto es a http://www. Desde o mediados de 1997 se form´ lo que se conoce como n´cleo de desarrollo de o u R. Cada objeto o pertenece a una clase. posibilitan su inclusi´n o a o en publicaciones que suelen requerir gr´ficos de alta calidad. a El c´digo de R est´ disponible como software libre bajo las condio a ciones de la licencia GNU-GPL.2 Cap´ ıtulo 1. Por ejemplo. Cualquier a expresi´n evaluada por R tiene como resultado un objeto. Adem´s est´ disponible precompilado a a para una multitud de plataformas. La calidad de los gr´ficos producidos y la posibilidad de ina cluir en ellos s´ ımbolos y f´rmulas matem´ticas. Las diferencias entre R y S e son importantes. el resultado de la funci´n print evaluada soo bre un vector da como resultado la impresi´n de todos los elementos o del vector mientras que la misma funci´n evaluada sobre una funci´n o o muestra informaci´n sobre ella. Debido a su naturaleza es f´cilmente o a a adaptable a una gran variedad de tareas. y tambi´n S. Por otra parte. De la misma manera. Proporciona a a una amplia gama de gr´ficos que adem´s son f´cilmente adaptables y a a a extensibles. pero la mayor´ del c´digo escrito para S corre bajo R ıa o sin modificaciones. R es un proyecto GNU similar a S. o desarrollado ´ste por los Laboratorios Bell. Una diferencia importante entre R. la funci´n plot o o no se comporta igual cuando su argumento es un vector que cuando es un fichero de datos o una funci´n. con el resto del e software estad´ ıstico es el uso del objeto como entidad b´sica. R actualmente es el resultado de un esfuerzo de colaboraci´n de personas del todo el mundo. Comenzando con R R es un lenguaje de programaci´n y un entorno para an´lisis eso a tad´ ıstico y la realizaci´n de gr´ficos. de forma que las funciones pueden tener comportamientos diferentes en funci´n de la clase a la que pertenece su objeto o argumento. que actualmente es el que tiene la posibilidad de modificaci´n directa o del c´digo fuente.

uca. que se dea notar´ abreviadamente como Rcmdr. Instalaci´n en Windows o La descarga de R en el equipo se efectua desde: http://cran. o r-doc-html y r-recommended. 2. Instalaci´n de R y R–Commander o Instalaci´n en GNU/Linux o Para la instalaci´n. en una consola se introduce en una sola l´ ınea: sudo apt-get install r-base-html r-cran-rcmdr r-cran-rodbc r-doc-html r-recommended Otra opci´n es utilizar el gestor de paquetes de la propia distribuo ci´n e instalar los paquetes r-base-html. A continuaci´n. Pao ra la instalaci´n de Rcmdr.es..es/R en la secci´n R Wiki. 2. Instrucciones m´s detalladas y a a actualizadas pueden encontrarse en http://knuth.uca. se selecciona Rcmdr. o es/R-basico. se arranca R desde Inicio→Todos los o programas→ R.r-project. ).1. . Los autores de este o o manual han redactado un somero documento t´cnico sobre el uso de R. distribuciones derivadas de debian (Ubuntu.org/bin/windows/base/release. siguiendo las instrucciones. existen multitud de documentos que ilustran o ´ sobre el manejo de R. Paquetes→Instalar Paquete(s) y o elegido el mirror desde el cual se quiere instalar el paquete.2 Instalaci´n de R y R–Commander 3 o A continuaci´n se dan unas breves instrucciones que permitir´n o a comenzar a usar R y su interfaz gr´fica R-Commander. o Guadalinex. por ejemplo Spain (Madrid).2. algunos de ellos pueden descargarse desde http: //knuth. . r-cran-rcmdr. e a cuyo repositorio puede accederse en la direcci´n http://knuth. Por ultimo.uca.htm Luego se procede con la ejecuci´n.1. 2. . r-cran-rodbc.es/R en la secci´n Documentaci´n.

pero a a o se instalar´n autom´ticamente la primera vez que se ejecute. la carga de la librer´ se efecıa tuar´ mediante la instrucci´n library("Rcmdr"). Comenzando con R R–Nota 1.4 Cap´ ıtulo 1. a o R–Nota 1. a a 3.1 Har´n falta m´s paquetes para la instalaci´n completa de Rcmdr. o . para volver a cargarlo se debe ejecutar la instrucci´n Commander(). Ejecuci´n de Rcmdr o En ambos sistemas operativos.2 Si se cierra Rcmdr (sin cerrar R).

M. por contra. Las conclusiones obtenidas ser´n aplicables exclusivamente a los a individuos considerados expl´ ıcitamente en el estudio. comparar los resultados con los de otros grupos. . a trav´s de una serie de medidas. J.uca.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. L´pez S´nchez. se caracterizar´ a un conjunto de individuos. se trata de un an´lisis calificable como de exploratorio. patrones o con estudios previos. S. Fern´ndez Palac´ o a ın. gr´ficos y modeo e a los descriptivos. sin que puedan hacerse extrapolaciones con validez cient´ ıfica fuera de ese contexto. Mu˜oz M´rquez. M. Los resultados del An´lisis Exploratorio de Datos (AED) s´ que podr´ a ı ıan emplearse para establecer hip´tesis sobre individuos no considerados o expl´ ıcitamente en dicho an´lisis. se podr´ definir el AED como un conjunto de t´cniıa e cas estad´ ısticas cuya finalidad es conseguir un entendimiento b´sico de a los datos y de las relaciones existentes entre las variables analizadas. en a a cualquier caso. Formalmente. A.es/ebrcmdr Cap´ ıtulo 2 An´lisis Exploratorio de Datos Unidimensional a En este m´dulo. Se podr´ considerar que este estudio es una primera entrega de ıa un estudio m´s completo o. que deber´ ser posteriormente cona ıan trastadas. aunque esta primera entrega se centrar´ en un an´lisis de tipo unidia a mensional. P´rez Plaza. F. tener un car´cter finalista. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. a y de ah´ el nombre del cap´ ı ıtulo. si procede. Arriaza G´mez. intentando a descubrir regularidades y singularidades de los mismos y. o a n a e A.

De hecho.. dene ıan sidades. . a 1. .1. observaci´n. . medici´n. aunque tambi´n se utilizar´n esos a o e a mismos t´rminos para referirse a la(s) caracter´ e ıstica(s) de esos individuos que son objeto de estudio. conteos. sobre un conjunto de n a individuos f´ ısicos. Las columnas tendr´n naturaleza homog´nea. razones. La obtenci´n y materializaci´n o o en formato anal´gico o digital de las caracter´ o ısticas consideradas constituir´ el conjunto de datos que ser´ estad´ a a ısticamente analizado. pueden generarse nuevos datos mediante transformaci´n y/o combinaci´n de las variables originales. En ocasiones se a˜ade una columna que se suele colocar en n . Se obtienen datos al realizar cualquier tipo e de prueba. . pudi´ndose establecer distintas clasificaciones en funci´n de la forma e o en que ´stos vengan dados. se obtienen una serie de k caracteres u observaciones de igual o distinta naturaleza. depeno o o diendo de la naturaleza de los mismos y del m´todo empleado para su e obtenci´n. los individuos s´lo interesan como portadores de rasgos que son suscepo tibles de marcar diferencias entre ellos.. . An´lisis Exploratorio de Datos Unidimensional a 1. va a depender a de la habilidad que se tenga a la hora de seleccionar los caracteres que se obtendr´n del conjunto de individuos seleccionados. La matriz de datos En una primera instancia se supondr´ que. . o o presencias–ausencias. . ordenaciones.6 Cap´ ıtulo 2. donde a cada fila representa a un individuo o registro y las columnas a las caracter´ ısticas observadas. . a e pudiendo tratarse de caracteres nominales. ya desde este momento. valoraci´n. desde un punto de vista estad´ ıstico. Los datos constituyen pues la materia prima de la Estad´ ıstica. Una vez obtenidos los datos por los procedimientos que se o consideren pertinentes. La organizaci´n de la informaci´n o o Al conjunto de individuos f´ ısicos considerados en un an´lisis se a le denominar´ Colectivo o Poblaci´n. Es importante tener en cuenta. que la calidad del an´lisis que se realice. . dicot´micos o polit´micos. Al conjunto de o o datos convenientemente organizados se le llamar´ modelo de datos. experimento. a Los datos obtenidos se organizar´n en una matriz n × k. tambi´n se podr´ tener variables compuestas como ratios. escalas de intervalo.

. . haber sido mal medido. . Si se consideran los individuos identificados por los t´rminos I1 . . Este es el formato que requiere el programa para aplicar la mayor´ de ıa los procedimientos estad´ ısticos. 1. La identificaci´n a o de estos elementos an´malos se realiza mediante un proceso de detecci´n o o de inconsistencias o de evaluaci´n de valores extremos. . etc. mal transcrito a la matriz de datos. A veces se sustituye el valor depurado de un . la estructura de una matriz de datos se corresponde con el esquema de una base de datos o una hoja de c´lculo. Anomal´ de la matriz de datos ıas Hay veces en que por distintos motivos la matriz de datos presenta casillas vac´ ello se debe a que no se ha podido medir un dato o a que ıas. En la figura se muestra la matriz de datos del a fichero Iris del paquete datasets de R. que determinar´ si razonablemente pueden pertenecer n a al colectivo bajo estudio. las dos dimensiones de una pantalla se acomodan perfectamente al tanden individuo–variable.frame. . C2 . la casilla xij representa el comportamiento del individuo Ii respecto al car´cter Cj . . . pertenecer a un colectivo distinto del que se est´ analizando.1 La organizaci´n de la informaci´n o o 7 primer lugar y que asigna un nombre a cada individuo. dicha columna recibe el nombre de variable etiqueta. R se refiere a este tipo de estructura de datos como data.1.2. muy grandes o o muy peque˜os. .1. En otras ocasiones un dato presente en o la matriz ha sido depurado por presentar alg´n tipo de anomal´ como u ıa. F´ ısicamente. In y los caracteres por e C1 . Ck . se ha perdido la observaci´n. I2 . Al igual que pasa a con los editores de los programas de tratamiento de datos. .

que tienen orden. el 0 representa la ausencia de la caracter´ ıstica. Por tanto. An´lisis Exploratorio de Datos Unidimensional a individuo por uno que sea congruente con el resto de caracteres del mismo. este enfoque o o est´ muy lejos de ser eficiente. modelos m´s sofisticados. ıan son cuantitativas y en el caso de las razones el cero lo es en t´rminos e absolutos. m´s adelante. lo ofrece el term´metro. de forma que cada car´cter describir´ parcialmente al a a conjunto de individuos. mientras que los m´s a ricos ser´ las escalas de intervalos y las razones. En este m´dulo se analizar´n –salvo excepciones que se indicar´n o a a con antelaci´n– de forma independiente cada uno de los caracteres de la o matriz de datos.1 El caso m´s evidente para apreciar las diferencias entre las escalas de a intervalo y las razones o escalas de cociente. es decir. a a 2.1. puesto que ni siquiera poseen orden. o Un term´metro genera una variable de escala de intervalo. Ejemplo 2. En posiciones intermedias se situar´ el resto en el orden en que se han ıan introducido en la figura 2. Los huecos e o que definitivamente queden en la matriz se referir´n como valores omia tidos o. En R estos valores se a representan con NA (Not Available). porque la o . m´s comunmente. En funci´n del tipo de an´lisis que o a se est´ realizando. entre otras cosas porque habitualmente a las variables individuales comparten informaci´n y dicha redundancia o distorsionar´ las conclusiones del estudio.8 Cap´ ıtulo 2. mediante t´cnicas que se conocen como de imputaci´n. como valores missing. La integraci´n de todos los an´lisis deber´ dar o a a una cierta visi´n general de la poblaci´n. el procedimiento desestimar´ s´lo el dato o todo el e a o registro completo. se puede considerar que los caracteres nominales son los m´s a a “pobres”. Naturaleza de los caracteres: Atributos y Variables Respecto a la cantidad de informaci´n que porta cada tipo de o car´cter. En cualquier caso. siendo en general preferible ıa decantarse por un an´lisis global en vez del secuencial. la prea tensi´n de este cap´ o ıtulo es tratar algunos conceptos b´sicos y adquirir a destreza en el manejo de medidas estad´ ısticas que ser´n empleadas maa sivamente cuando se aborden.

son razones porque. En una primera instancia. un objeto de 20 kilogramos pesa el doble que otro de 10 kilogramos. aunque en ning´n caso hay que confundir la cantia u dad de informaci´n que porta con su valor intr´ o ınseco para analizar a los individuos del colectivo. Los atributos tendr´n la misi´n de establecer clases. Es decir existe el cero absoluto.2 Naturaleza de los caracteres: Atributos y Variables 9 Figura 2. pero no se puede decir que cuando el term´metro marca 30 grados hace o el doble de calor que cuando marca 15. . a de variable podr´ mediante una operaci´n de punto de corte.1: Esquema de cantidad de informaci´n o diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados. muchas magnitudes f´ ısicas. o como atributo. un car´cter llamado a adoptar el papel ı. los primeros jugar´n en general a ı a a un rol de atributos mientras que los segundos habitualmente actuar´n a como variables. las ıas. la longitud o la intensidad de corriente. Por otra parte. la naturaleza del car´cter condicioa nar´ su tratamiento. Como ya se ha comentado. como el peso. variables caracterizar´n a dichos subgrupos e intentar´n establecer difea a rencias entre unos y otros. actuar ıa. mientras que es factible definir una medida de asociaci´n o sobre caracteres intr´ ınsecamente de clase que permita caracterizar a los individuos del colectivo en base a una serie de atributos. Pero ello es una regla general que tiene muchas e excepciones y as´ en ocasiones. a o dividiendo el colectivo global en subgrupos o categor´ por su parte. por ejemplo en el caso del peso. se distinguir´ entre los caracteres que a no est´n ordenados y los que s´ lo est´n. para lo que necesariamente se debe considerar algun tipo de m´trica.2.

recolectadas y organizadas. adultos y maduros de una comunidad de peces y adoptando por tanto la variable un rol de atributo. m´s adelante.3 El n´mero de lunares en la piel de pacientes aquejados de una cierta u patolog´ el n´mero de hijos de las familias de una comunidad o el ıa. Por el contrario. se habla de variable continua. u n´mero de meteoritos que surcan una cierta regi´n estelar en periodos de u o tiempo determinados son variables discretas. o Ejemplo 2. a a e trav´s de una serie de medidas estad´ e ısticas. las variables ser´n tratadas estad´ a ısticamente combinando un an´lisis num´rico. Cuando el conjunto soporte es finito o numerable se habla de variable discreta. La distancia por carretera entre las capitales de provincia peninsulares espa˜olas. Esta diferencia tendr´ relevancia cuando se planteen.10 Cap´ ıtulo 2. hay investigaciones m´dicas que relacionan e el tipo de patolog´ con el sexo del paciente y con el desenlace de la ıa enfermedad. Una vez identificadas. An´lisis Exploratorio de Datos Unidimensional a Ejemplo 2. aunque conviene ser selectivos y tomar aquellos e a . Si la variable continua no toma valores en puntos aislados se dice absolutamente continua. cuando el conjunto soporte es no numerable. con representaciones gr´ficas. Las variables pueden clasificarse seg´n su conjunto soporte. El sou porte de una variable es el conjunto de todos los posibles valores que toma. caracteres todos ellos intr´ ınsecamente atributos. el tiempo de n reacci´n de los corredores de una carrera de 100 metros o las longitudes o de los cabellos de una persona son variables continuas. En el extremo opuesto. estructuras de a a probabilidad para modelizar la poblaci´n bajo estudio.2 Es habitual que la edad. a El software estad´ ıstico R ofrece una amplia gama de ambos elementos: num´ricos y gr´ficos. obteni´ndose por ejemplo grupos e de alevines. que es intr´ ınsecamente una variable –medida en un soporte temporal– se emplee para dividir la poblaci´n en clases o dando cortes en el intervalo de tiempo.

para obtener los porcentajes de cada subgrupo en el colectivo global.2: Ventana de selecci´n de datos en paquetes adjuntos o que verdaderamente aportan informaci´n relevante. A tal efecto. el o a o . a a 3. cada car´cter o conjunto de ellos establece a una partici´n o cat´logo de la poblaci´n bajo estudio. De hecho.1: Medidas y gr´ficos seg´n tipo de variable a u En ultima instancia corresponde al investigador el tomar las de´ cisiones correctas en cada momento. den como resultado un an´lisis eficiente de los datos. de forma que sin transgredir los principios b´sicos. se proo ponen las siguientes opciones: Escala de Medida Atributo Ordenaci´n o Recuento Intervalo Raz´n o Medidas centrales Moda Porcentajes Mediana Percentiles Media Media Media geom´trica e Recorrido Intercuart´ ılico Desviaci´n t´ o ıpica Desviaci´n t´ o ıpica Coeficiente de variaci´n o Medidas de dispersi´n o Representaciones gr´ficas a Diagrama de sectores Diagrama de barras Diagramas de barras Histograma Histograma Diagrama de dispersi´n o Diagrama de cajas Tabla 2. An´lisis de atributos a Los atributos son susceptibles de ser tratados de forma individual o en grupo.3 An´lisis de atributos a 11 Figura 2.2. Por otra parte.

Se carga el fichero en e Rcmdr mediante la selecci´n de las opciones del men´ Datos→ o u Datos en paquetes→Leer datos desde paquete adjunto. 50 para cada una.4 Se consideran ahora los datos del ejemplo iris del paquete datasets de R que se describe en el ap´ndice A.figura 2.Table) # percentages for Species setosa versicolor virginica 33.table(iris$Species) > .12 Cap´ ıtulo 2. > . Del conjunto de variables de la matriz se considera la denominada Species. puesto que las tres clases lo son...33333 33.3: Diagrama de sectores del fichero iris tratamiento gr´fico m´s usual que se le dar´ a un atributo individual a a ıa ser´ a trav´s de un diagrama de sectores o diagrama de tarta.Table/sum(. y en el cuadro de di´logo se elige a el unico atributo.33333 33. en el cuadro de di´logo se elige el paquete datasets y dentro de ´ste el juego a e de datos iris.. Species..33333 . Se observa que los 150 individuos se repar´ ten a partes iguales entre las tres variedades de flores. Virginica y Versicolor.2. 33.. que es un atributo con los tres tipos de flores de Iris: Setosa. An´lisis Exploratorio de Datos Unidimensional a Species setosa versicolor virginica Figura 2. ıa e Ejemplo 2.Table <. y que por tanto los porcentajes son iguales a 33.Table # counts for Species setosa versicolor virginica 50 50 50 > 100*. No tiene sentido hablar de moda. An´lisis num´rico: Se selecciona Estad´sticos→Res´menes→ a e ı u Distribuciones de frecuencias.

Si se pulsa el bot´n o Aceptar el programa dibuja el gr´fico de sectores que se muestra en a la figura 2. se recurrir´ a los a a cuartiles y como medida de dispersi´n al recorrido intercuart´ o ılico.3. Por ello.5 Un caso de variable ordenada es la correspondiente a un estudio estad´ ıstico sobre el nivel acad´mico de la poblaci´n gaditana en el a˜o e o n 2001 (Fuente: Instituto Estad´ ıstico de Andaluc´ ıa). Como era de esperar. . o pensando que en general se dispondr´ de pocas clases.2. es decir los o cuantiles en sus distintas versiones.4 An´lisis de variables ordenadas a 13 An´lisis gr´fico: A continuaci´n se selecciona el diagrama de sectores a a o mediante Gr´ficas→Gr´fica de sectores. Como medidas de representaci´n. al objeto de que puedan ser tratadas por R como un data. a a Este tipo de variables ordenadas suele venir dada en forma de tabla de frecuencias. En cuanto al an´lisis gr´fico. en el ejemplo que ilustra el tratamiento de este tipo de variables. An´lisis de variables ordenadas a Las diferencias que se establecen entre variables de clase pura y ordenada se concretan desde el punto de vista del an´lisis num´rico en a e que el grupo de medidas recomendables son las de posici´n. Los valores que toma la variable son: Sin estudios.frame. bachillerato y fp grado medio) y Superiores (fp superior. se comenzar´ explicando como transformar una a tabla de frecuencias en una matriz de datos. licenciatura y doctorado). la tarta se divide en tres trozos exactamente iguales. a a Si el fichero de datos activo tiene m´s de una variable de clase a se permite seleccionar la que se quiera.. se recomienda el uso del diagrama de barras. 4. diplomatura. Ejemplo 2. Medios (secundaria. En este caso. que el programa da por defecto. la unica variable ´ elegible es Species.. Elementales (primaria).

El fichero en cuesti´n se ha guardado bajo el nombre de a o tabla freq niv estudios. Para conseguir esto se procede de la siguiente manera: >nivel<-rep(Tabla frec$nivel. conteniendo tres variables: sexo. eligiendo ahora el ar- .dat. An´lisis Exploratorio de Datos Unidimensional a Los datos se recogen en la tabla: NIVEL DE ESTUDIOS SEXO Hombre Sin estudios 79309 Elementales 107156 Medios 183488 Superiores 70594 Mujer 108051 109591 174961 64858 Debido al gran n´mero de individuos que forman esta muestra u puede ser util almacenar la variable estudiada a partir de su tabla de ´ frecuencias. data.dat.. Para cargar en Rcmdr la tabla de frecuencias se selecciona Datos→ Importar datos desde archivo de texto o portapapeles.14 Cap´ ıtulo 2. A partir de ah´ se construye el data. con el que R pueda trabajar.Tabla frec$frec) >sexo<-rep(Tabla frec$sexo. En total consta de 8 filas que se correponden con los cruces de las clases sexo y nivel.frame se encuentra entre los datos que se facilitan en este libro y se puede cargar directamente sin realizar las operaciones anteriores. transform´ndola en base de datos en el momento de realizar a los an´lisis. basta con seleccionar Datos→Importar datos→ desde archivo de texto o portapapeles. A continuaci´n se elige el archivo o tabla freq niv estudios. Este data... se crean las variables nivel y sexo a partir de la repetici´n de cada una de las clases de las respectivas variables.frame.Tabla frec$frec) >niv estudios cadiz< −data.frame ı. en este ejemplo se ha elegido el nombre Tabla frec para denominar al fichero que contendr´ los a datos de la tabla de frecuencias. tantas veces o como indique su frecuencia. nivel y frec... niv estudios cadiz con las dos variables creadas. Para ello.. como se muestra en la ventana de di´loa go.sexo) Es decir. Ahora se tendr´ que transformar esa ta tabla de frecuencias en un conjunto de datos.frame(nivel.

4 An´lisis de variables ordenadas a chivo niv estudios cadiz. Los valores Sin estudios. eligienı u u e do en la ventana emergente la variable nivel num y marcando la opci´n o de cuantiles. Para realizar el an´lisis num´rico de la variable nivel num se seleca e ciona: Estad´sticos→Res´menes→Res´menes num´ricos. . Se puede observar entre los cuartiles que la mediana recae sobre el valor 2. respectivamente.dat. o Para realizar este an´lisis a la variable nivel debe ser codificada num´ricamente. desmarcando la pesta˜a Convertir n cada nueva variable en factor. statistics=c(‘‘quantiles’’)) 0% 25 % 50 % 75 % 100 % 0 1 2 2 3 . > numSummary(Niv estudios[... como medida de posici´n.. 2 y 3. 1. En Rcmdr esto se realizar´ sea leccionando Datos→Modificar variables de los datos activos→ Recodificar variables. Elementales.‘‘niv num’’]. 15 An´lisis num´rico: En variables de tipo ordenado es aconsejable utia e lizar... que se llamar´ nivel num a y que representar´ los valores a num´ricos de la e variable nivel. e Se crear´ una a nueva variable en la base de datos. los cuartiles.2. Medios y Superiores han sido codificados mediante los valores 0.

16 Cap´ ıtulo 2. 0. En Rcmdr se selecciona: Gr´ficas→ a Gr´fica de barras.25) >Q2<-quantile(niv estudios cadiz$nivel num.5) >Q3<-quantile(niv estudios cadiz$nivel num.numeric((Q3-Q1)/Q2) >RIR [1] 0. A la nueva variable se le ha llamado nivel ord.. pero se puede implementar f´cilmente en la a ventana de instrucciones. escribi´ndo en la ventana de instrucciones: e e Datos$nivel num< −as. definido como el cociente entre la diferencia de los cuartiles tercero y primero. En este ejemplo se ha optado por modificar el . Rcmdr no proporciona directamente este estad´ ıstico. mediante las ´rdenes siguientes: o >Q1<-quantile(niv estudios cadiz$nivel num. En R existe una gran variedad de opciones que ayudan a mejorar el aspecto de los gr´ficos. se reordenan los niveles de la variable factor usando las opciones del men´ Datos→Modificar u variables del conjunto de datos activo→Reordenar niveles de factor.. para la variable num´rica e Datos$nivel num..75) >RIR<-as. 0. y se elige en la ventana de di´logo.numeric(Datos$nivel ord) siendo ya posible calcular los cuantiles. Se puede acceder a ellas escribi´ndolas en la a e ventana de instrucciones. Como medida de dispersi´n se ha recomendado el recorrido intero cuart´ ılico relativo. la variable a a nivel ord. A continuaci´n se almacena ´sta coo e mo variable de tipo num´rico. y la mediana. almacenando la variable nivel como factor de tipo ordenado. 0. An´lisis Exploratorio de Datos Unidimensional a Desde Rcmdr existe otra forma de realizar el an´lisis a num´rico de una variable ordenae da.5 An´lisis gr´fico: Para realizar el an´lisis gr´fico de la variable se a a a a utiliza el diagrama de barras.. Para ello..

Estas medidas se calculan desde Estad´sticos→Res´menes→ ı u Res´menes num´ricos. de 71 polluelos.0737 71 Aunque se est´ hablando de la desviaci´n t´ a o ıpica. seg´n el tipo u de dieta seguida durante un periodo de 6 semanas.‘‘weight’’]. del paquete datasets de R.4: Diagrama de barras de la variable nivel de estudios color.colors(5) a las opciones de barGraph (figura 2. Para ello a se considera la base de datos chickwts.. statistics=c(‘‘mean’’.4).6 Se estudiar´ ahora el tratamiento de una variable continua. seleccionando para la variable weight las u e opciones deseadas. > numSummary(chickwts[. En ella se recogen los pesos finales.2. 5. Cabe la posibilidad de que . An´lisis de variables de escala a Ejemplo 2. An´lisis num´rico: Para la variable que da el peso de los polluea e los las medidas b´sicas recomendadas son la media y la desviaci´n a o t´ ıpica.. Esto se consigue agregando a col=heat.3099 78.5 An´lisis de variables de escala a 350000 17 Frequency 0 Sin estudios 50000 150000 250000 Elementales nivel Medios Superiores Figura 2. la funci´n sd o calcula en realidad la cuasidesviaci´n t´ o ıpica.. ‘‘sd’’)) mean sd n 261. siguiendo una escala de colores c´lidos. en gramos.

Por ejemplo. se incluye ıa.18 Cap´ ıtulo 2. . El data. En el a histograma se observa un comportamiento bastante sim´trico y la e posibilidad de que existan dos modas. se construye o 100 150 200 250 300 350 400 450 el diagrama de caja (figura 2.9651994 attr(.‘‘method’’) ‘‘excess’’ > skewness(chickwts$weight) -0. si no lo est´ ya. Se podr´ concluir que la ıa distribuci´n es bastante sim´trica y algo aplastada. An´lisis Exploratorio de Datos Unidimensional a se necesiten otro tipo de medidas que completen el estudio. que a se corresponde con las diferentes dietas sumimistradas a los pollos. Y a a continuaci´n: o > kurtosis(chickwts$weight) -0. Se chickwts$weight puede observar en el gr´fico que la a variable no posee valores at´ ıpicos. tanto num´rico como o a e gr´fico.‘‘method’’) ‘‘moment’’ Ambos coeficientes est´n calculados a partir de los momentos y. se le ha restado 3. es sim´trica y est´ relativamente dise a persa. Para ello. .01136593 attr(. o e An´lisis gr´fico: Para analizar a a gr´ficamente la variable peso se a comienza con la realizaci´n del o histograma que se muestra al margen mediante las instrucciones Gr´ficas→Histograma. habr´ en primer lugar ıa ıa que instalar y cargar en R. A continuaci´n. a en el caso de la curtosis. en el ap´ndice B... como la simetr´ el apuntamiento. Feed. si se deseara calcular la simetr´ y la curtosis de la variable weight. Los valores que toma la variable Feed son: o Frequency 0 5 10 15 .5). que permita evaluar las diferencias de peso en funci´n del tia o po de alimentaci´n seguida. e una tabla de medidas estad´ ısticas. Ello permite la realizaci´n de un an´lisis por grupo. el paquete fBasics. .frame que se est´ utilizando incluye un factor.

7500 276. Es interesante la representaci´n del diagrama de caja de la variable o peso.9091 246. o Una evaluaci´n inicial.5833 160.5 An´lisis de variables de escala a 400 400 19 350 300 weight weight 250 200 150 100 150 200 250 300 350 casein horsebean linseed meatmeal feed soybean sunflower 100 Figura 2.12907 48.83638 n 12 10 12 11 14 12 .‘‘weight’’]. groups=chickwts$feed.4286 328.5: Diagramas de caja de la variable peso horsebean (habas). Se observa que los valores u o de la variable peso est´n m´s concentrados para la dieta sunflower.62584 52. a a Tambi´n ´ste es el unico grupo en el que se dan valores at´ e e ´ ıpicos. ya que los pesos que consigue est´n m´s a a concentrados en torno a uno de los valores m´s altos.2000 218.5). statistics=c(‘‘mean’’)) casein horsebeen lindseed meatmeal soybean sunflower mean 323. meatmeal (carne) y casein (case´ ına). linseed (linaza). a El an´lisis num´rico ofrece los siguientes resultados: a e > numSummary(chickwts[. soybean (soja). Por contra la mayor dispersi´n de los datos se produce con la dieta casein.43384 38.9167 sd 64. sunflower (girasoles). seg´n el tipo de alimentaci´n (figura 2. parece indicar que la dieta que produce pollos o de mayor peso es sunflower.23570 64.2.90062 54.

65. 3. 3. 3. 60 65. 49. 8. el porcentaje de o alumnos que tienen un peso menor de 65 kg y el n´mero de alumnos con u un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg. 58. Los resultados se recogen en la siguiente tabla: No de aciertos No de personas (miles) 11 52 12 820 13 572 14 215 15 41 . 3. 4. entre otras cuestiones. 58. 2. 74. 56. 2. 52. 66. 90. 3. 100. 2. 3. 57. 65 76. 96. 1. 4. por el a n´mero de hermanos que ten´ Se obtuvieron los siguientes resultados: u ıan. 62. 53. 1. 97. 3. 4. 66. 65.1 Al comenzar el curso se pas´ una encuesta a los alumnos del o primer curso de un colegio. el n´mero de premiados de quinielas seg´n la u u cantidad de aciertos. 3. 8. 3. 99. 3. 3. 4. 4.20 6. 5. 67. 67. 3. 5. 58. 63. 2 . 54 Obtenga: a) La distribuci´n de frecuencias agrupando por intervalos. o b) La mediana de la distribuci´n. 57. 74. 64. 70. 2. 55 59. 5. 101. 3. 2. 4. 3. 58. b) Calcule media. 73. 2. 2. 70. 4. 62. 54. 48. 2. 2. 5 1. 2. 4 a) Represente este conjunto de datos con un diagrama de barras. 96. o d) Analice la simetr´ de la distribuci´n. 53. 53.2 Los pesos de un colectivo de ni˜os son: n 60. 67. moda y mediana. Cap´ ıtulo 2. durante una temporada. 54. 55. 59. An´lisis Exploratorio de Datos Unidimensional a Ejercicios 2. 2.3. c) Estudie la dispersi´n de los datos. 72. 2. 73. 85. 4. 4 3. 2. 4. 55. o c) La media de la distribuci´n. 92. indicando su nivel de repreo sentatividad. 2. 55. 3. 82. ıa o 2. 80. 4. 60. 3. 6. pregunt´ndoles. 3. 2. d) Utilizando la agrupaci´n en intervalos. 73. 3.3 En el Consejo de Apuestas del Estado se han ido anotando. 3.

6 Ejercicios 21 Calcule: a) La mediana. b) El intervalo donde se encuentra el 60 % central de la distribuci´n. la moda y los cuartiles de la distribuci´n. a 0-25 5 25-50 17 50-70 30 70-100 25 100-500 3 . ıa o 2. resultando para un cierto d´ los siguientes datos: u ıa Peso(Tm.) No de barcos Se pide: a) El peso medio de los barcos que entran en el puerto diariamente. o c) El grado de apuntamiento. d) El tonelaje m´s frecuente en este puerto. o b) La simetr´ de la distribuci´n.2. indicando la representatividad de dicha medida.4 En un puerto se controla diariamente la entrada de pesqueros seg´n su tonelaje.

22 .

M. a Aunque en posteriores entregas se tratar´n t´cnicas multivariables a e muy potentes. En este caso. un a a an´lisis bidimensional. la mayor´ de los an´lisis estad´ ıa a ısticos tienen car´cter multivariable. aunque de nuevo la cuesti´n de la naturaleza de los caracteres y los o objetivos del estudio ser´n determinantes a la hora de fijar las t´cnicas a e que se emplear´n. L´pez S´nchez.es/ebrcmdr Cap´ ıtulo 3 An´lisis Exploratorio de Datos multidimensional a Una vez estudiados los distintos caracteres de la matriz de datos de forma individual. F.uca. realiz´ndose. Mu˜oz M´rquez. ema ple´ndose para ello tanto medidas de relaci´n entre caracteres como a o representaciones gr´ficas. o a n a e A. a En este cap´ ıtulo tambi´n se har´ una primera incursi´n en el tee a o ma de la modelizaci´n. Arriaza G´mez. Los motivos para adoptar este enfoque son variaa dos. por tanto. los objetivos en este cap´ ıtulo son mucho m´s modestos a y se limitar´n a un primer acercamiento de naturaleza descriptiva. resulta muy interesante realizar an´lisis conjuntos a de grupos de ellos. P´rez Plaza. M. J. Un modelo estad´ o ıstico relaciona mediante una o varias expresiones matem´ticas a un grupo de caracteres. A. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. se abordar´ un a modelo de ajuste bidimensional. Fern´ndez Palac´ o a ın. S. En la mayor´ de las ocasiones s´lo se cona ıa o templar´n dos caracteres de forma conjunta.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. de hecho. en el que se tratar´ de explicar el coma portamiento de una variable causa a partir de otra que se denomina . que ocasionala mente deben cumplir algunos requisitos.

sino que depender´ exa clusivamente del criterio del investigador. que a b´sicamente se corresponden con los que relacionan caracteres de la a misma naturaleza. propiedades mucho m´s d´biles. a e Como consecuencia de lo anterior cuando se incluyan en el mismo an´lisis caracteres de distinta naturaleza conviene.24 Cap´ ıtulo 3. Tipos de relaciones entre caracteres En principio se podr´ establecer tantos tipos de relaci´n como los ıan o que resultar´ de cruzar los diferentes caracteres definidos en el cap´ ıan ıtulo anterior. ıa 1. Siempre existe un cierto grado de tolerancia para asimilar caracteres de menor nivel de informaci´n a los de nivel superior. con a toda seguridad. u en funci´n de los caracteres considerados. que como se sabe posee buenas propiedades. aunque existe o una marca que no se debe transgredir. As´ la disimilaridad entre dos ı. individuos sobre los que se han medido dos variables de escala es habitualmente la distancia eucl´ ıdea. An´lisis Exploratorio de Datos multidimensional a efecto. Se expondr´n previamente algunas matizaciones y a precauciones que conviene tener presente. el n´mero de cruces ser´ demasiado elevado y u ıa muchos de ellos no tendr´ inter´s pr´ctico. que existe entre cada par o de individuos de la matriz de datos. por lo que se limitar´ el ıan e a a estudio a aquellos que habitualmente se encuentran en la pr´ctica. Ello se debe a que para realizar el an´lisis se debe a especificar alg´n tipo de disimilaridad que establezca la diferencia. No obstante. podr´ justificarse el tratar una variable contada como variable de escala. asignarles roles distintos. . En general funcionan mejor los cruces entre caracteres de la misma naturaleza. ıa pero nunca se podr´ asimilar un atributo a una variable ordenada. As´ o ı. que es la de la ordenaci´n. La asignaci´n de roles a variables de la misma naturaleza en ning´n o u caso se soportar´ por motivos estad´ a ısticos. mientras que si un car´cter es de clase y el a otro una variable de escala la disimilaridad que se elija tendr´. siempre que sea a posible.

2 An´lisis de relaciones entre dos atributos a A. B A1 . . . . . .3. Cuando se consideran dos atributos dicot´micos se tendr´ una o a tabla 2 × 2. nrj n·j ··· Bs n1s n1· . . Ar B1 ··· Bj n1j .. . . nrs n·s ni· . est´ fuertemente desaconsejada. .. . B) La investigaci´n combinatoria. . a Menci´n aparte merece el caso en que uno o los dos atributos son del o tipo presencia-ausencia de una cualidad. respectivamente. ··· ··· nr1 · · · Tabla 3.1 representan las distribuciones ´ marginales de A y B. . . la informaci´n a tratar quedar´ conformada por la tabla 3. . La violaci´n de este principio puede llevar a aceptar como o v´lidas asociaciones meramente esp´reas. . a aunque se trate. ni1 .. A2 . . An´lisis de relaciones entre dos atributos a Para relacionar dos atributos. ··· . es decir aquella que considera todos o los grupos posibles de variables. . . tanto dicot´micos como polit´micos. . de un an´lisis de car´cter exploa a ratorio. . nij . . nis . nr· n 25 n11 · · · . . ··· ··· . B2 .1. . . Ar y el atributo B por las clases B1 . . Bs . a A1 . . donde nij representa o ıa la frecuencia absoluta del par (Ai . Bj ). Ai . a u 2. . . es decir el n´mero de individuos u que presentan de forma conjunta la clase Ai de A y la Bj de B. . o o se construir´ la tabla de frecuencias conjunta o tabla de doble entrada. .1: Distribuciones conjuntas y marginales de (A. a As´ si se considera que el atributo A est´ conformado por las clases ı. . . . . como es el caso. que en ocasiones necesitar´ un tratamiento diferenciado. La ultima ´ columna y la ultima fila de la tabla 3.. n·1 ··· . .

adem´s se eligen Porcentajes totales y se deja marcada la opci´n a o Prueba de independencia chi-cuadrado.2 Total 67. respectivamente.26 Cap´ ıtulo 3.0 8.Test <. en la que se seleccioa nan los correspondientes atributos fila (Survived) y columna (Class).6 40. con lo que se abre la ventana de di´logo mostrada arriba.1 32.1 Crew 30.5 9.df=3.2e-16 .8 2nd 7.Table < −xtabs(∼Survived+Class.7 32. sobre la clase o que ocupaba el pasajero.Table X-squared=190.4 12.Table.9 3rd 24. Age y Survived. edad y si sobrevivi´ o no al naufragio del famoso transo atl´ntico.0 No Yes Total > . p-value < 2. data=Datos) > . Con Rcmdr esto se consigue desde Estad´sticos→ ı Tablas de contingencia→Tabla de doble entrada.Test Pearson’s Chi-squared test data: .Table Class Survived No Yes 1st 122 203 2nd 167 118 3rd 528 178 Crew 673 212 > totPercents(..4011 .dat.test(. En primer lugar se construir´ la taa bla de doble entrada con las variables seleccionadas..1 Como caso pr´ctico para analizar la relaci´n a o entre atributos se ha elegido el archivo de datos titanic.2 14. En concreto. en el que aparecen las variables Class. Table) # Percentage of Total 1st 5. Los resultados son: > .6 5. An´lisis Exploratorio de Datos multidimensional a Ejemplo 3.chisq. que aportan informaci´n.6 9..3 100. correct=FALSE) > . Sex. se intentar´ establecer a a una posible asociaci´n entre la supervivencia o y la clase en la que viajaban los pasajeros del Titanic. su sexo.

beside=TRUE. Se emplear´ en este caso el primero que viene dado a por: s χ2 C= 2+n χ donde n es el tama˜o muestral.2 An´lisis de relaciones entre dos atributos a 27 R adem´s de proporcionar las tablas de valores absolutos y de a porcentajes sobre el total. o Si se observa la tabla de doble entrada se ve que porcentualmente se salvaron m´s pasajeros de primera clase. se aprecia que ´ste ofrece una visi´n que podr´ llevar a confusi´n. En nuestro caso el coeficiente de continn gencia vale 0. a trav´s del coeficiente χ e s´lo el valor del estad´ o ıstico χ2 = 190. ‘‘Superviviente’’).colors(2)) Observando el diagrama de barras de valores absolutos (figura 3. si χ2 = 0 indicar´ una ausencia de relaci´n y a medida que ıa o χ2 crece la relaci´n va en aumento. ejecutando en la ventana de instrucciones: >Tabla <-xtabs(∼ Survived+Class. se almacena en primer lugar u la tabla de contingencia de las variables Survived frente a Class. Los m´s usuales son el u e a coeficiente de contingencia y el coeficiente de Cramer.col=cm. o o Para poder visualizar la relaci´n entre las variables puede ser muy o util la realizaci´n de un diagrama de barras de la variable supervivencia ´ o seg´n la clase de los pasajeros. por lo que se debe recurrir o a alg´n coeficiente derivado que est´ acotado. apae o ıa o rentando.1). Este estad´ ıstico indica el grado de relaci´n entre la clase que ocupaba el pasajero y si sobrevivi´ o no al o o naufragio. 1).4. 28. lo que indica una cierta relaci´n entre ambos atributos. xlab=‘‘Clase’’. a la que se ha llamado Tabla. o El estad´ ıstico no est´ acotado en un rango de valores que permia ta interpretar la intensidad de la relaci´n. M´s adelante. que el n´mero de supervivientes de primera clase u .text=c(‘‘No superviviente’’. ylab=‘‘Frecuencia’’. Para ello.3. ambos acotados en el intervalo [0. mientras que los de tercera clase y a la tripulaci´n fueron los que m´s sufrieron las consecuencias del naufrao a gio. por ejemplo. De momento se considera entre los atributos. da informaci´n sobre el grado de relaci´n o o 2 . legend. data=Datos) A continuaci´n se obtiene el diagrama de barras mediante las ´rdeo o nes R: >barplot(Tabla. se ver´ que se puede ser m´s contundente a la hora de a a a concluir la existencia de relaci´n utilizando los Contrastes de Hip´tesis.

Para representar el diagrama de barras no son necesarias las dos ultimas filas. y mientras que en primera clase viajaban 325 individuos.28 Cap´ ıtulo 3. main=‘‘Supervivientes del Titanic’’. o Ahora se est´ en condiciones de construir el diagrama de barras. por lo que se ha construido una nueva ´ tabla denominada Tablarel con la informaci´n que interesa. con to´ a a dos los atributos del fichero Titanic. en la secuencia de instrucciones usada para el diagrama de barras de valores absolutos. Igual que antes. Tabla por Tablarel (figura 3. los porcentajes totales y las frecuencias marginales. en lugar de usar las frecuencias absolutas. se ejecuta la instrucci´n: o >mosaicplot(Titanic.2.‘‘green’’)) Se han seleccionado los colores verde para los supervivientes y rojo para los no supervivientes. Ello a u o se debe a que se han comparado las frecuencias absolutas de estos dos grupos. Por ultimo. se construir´ un gr´fico de mosaico. lo que se consigue con las siguientes instrucciones R: >Tabaux <-colPercents(Tabla) >Tablarel <-Tabaux[1:2][1:4] Tabaux contiene la tabla de porcentajes.1). se debe almacenar previamente la tabla de porcentajes. los miembros de la tripulaci´n eran 885. a para ello se sustituye. . An´lisis Exploratorio de Datos multidimensional a 600 No superviviente Superviviente 500 No superviviente Superviviente Porcentajes 1st 2nd Clase 3rd Crew Frecuencia 400 300 200 100 0 0 10 20 30 40 50 60 70 1st 2nd Clase 3rd Crew Figura 3.1: Diagramas de barras de la supervivencia es pr´cticamente igual al n´mero de supervientes de la tripulaci´n. Una alternativa para apreciar la o relaci´n existente entre los dos atributos es construir el diagrama de bao rras de las frecuencias relativas. color=c(‘‘red’’. Para ello. o porcentajes de supervivencia respecto a cada clase. figura 3.

dado que en ocasiones.text=c(‘‘No superviviente’’. Como el lector o habr´ podido comprobar. legend. ylab=‘‘Frecuencia’’. ‘‘Superviviente’’). se necesita crear o editar una instrucci´n.2: Gr´fico de mosaico de los datos Titanic a R–Nota 3. data=Datos) se observa que se crea el objeto Tabla. se muestra su resultado y se descarta.col=cm. de la a . como ha ocurrido en este ejemplo. al que se le asigna (< −) el resultado de la evaluaci´n de la funci´n xtabs. o o Una expresi´n se eval´a. Concretamente. es decir un forma m´s amigable de acceder a los recursos de R. cada vez que se ha utilizado un procedimiento a de Rcmdr. si se analiza la estructura de la instrucci´n: o >Tabla <-xtabs(∼ Survived+Class. barplot. a Las instrucciones de R pueden ser una expresi´n o una asignaci´n. Una o u asignaci´n se eval´a obteniendo un nuevo objeto que se almacena con el o u nombre especificado.1 ´ Este puede ser un buen momento para analizar someramente la sintaxis de las instrucciones R. en realidad. xlab=‘‘Clase’’. beside=TRUE.3. Si ahora se fija la atenci´n en la instrucci´n: o o >barplot(Tabla.frame con nombre Datos. e Rcmdr no es otra cosa que lo que se conoce como un frontend de R. ´ste ha generado una o varias instrucciones R.2 An´lisis de relaciones entre dos atributos a Supervivientes del Titanic No 1st Adult Child 2nd Adult Child 3rd Adult Child Crew Adult Child 29 Sex Male Yes No Female Yes Class Figura 3. que genera una tabla de o o doble entrada con las variables Survived y Class del data.colors(2)) ´ Esta le indica a R que cree un gr´fico de barras.

R–Nota 3. que la leyenda de las clases.col=cm.colors(2). . se incluir´ la leyenda en la posici´n elegida con la ´ a o orden: legend(x. donde n es el n´mero de puntos de los que se quiere averiguar las coordenadas.‘‘Superviviente’’).text: a >barplot(Tablarel.30 Cap´ ıtulo 3. u en nuestro caso n= 1.c(‘‘No superviviente’’. xlab e ylab.y) del a a punto elegido. se pincha en la gr´fica anterior con a el bot´n izquierdo del rat´n en el lugar donde se desee insertar la o o leyenda y autom´ticamente aparecer´n las coordenadas (x. sea No superviviente y Superviviente. ylab=‘‘Porcentajes’’. xlab=‘‘Clase’’. beside=TRUE. y que utilice la gama de colores col=cm.y. Escribir la orden del gr´fico de barras sin legend. 4. Para localizar las coordenadas del gr´fico en las que se desea ina sertar la leyenda se emplea la orden locator(n). fill=cm. Por ultimo. legend.colors(2)) El argumento fill sirve para indicarle los colores de las barras. An´lisis Exploratorio de Datos multidimensional a tabla de doble entrada Tabla. siendo las etiquetas de los ejes.2 En los diagramas de barras anteriores se usa el argumento legend. Una vez ejecutada la orden.text. beside=TRUE. Para mejorar los resultados gr´ficos a se pueden utilizar las siguientes instrucciones: 1.colors(2)) 2. 3.text para incluir una leyenda de los datos. que el tipo de barras sea pegada. pero de esta forma la leyenda se dibuja en ocasiones sobre las barras. Clase y Frecuencia.

3. A la variable causa se le conoce tambi´n con los nombres de independiente. explicativa. La explicaci´n para plantear este enfoque es que las variables indepeno dientes suelen estar relacionadas tambi´n entre ellas. . es decir comparten e informaci´n de los individuos que se est´n estudiando. . ex´gee o na. de forma que si o a se hiciera el an´lisis dos a dos se estar´ utilizando la misma informaci´n a ıa o . . causa-efecto. . An´lisis de relaciones entre dos variables a 31 Una vez analizada la relaci´n entre dos atributos. e explicada. en la mayor´ de las ocasiones la matriz de daıa tos contiene varias variables num´ricas y el investigador desea estudiar e c´mo se explica el comportamiento de una de ellas sobre la que tiene un o especial inter´s (dependiente) a partir del conocimiento de un conjune to del resto de variables (independientes). . mientras que la variable efecto es llamada tambi´n dependiente. se aborda el eso tudio de la relaci´n entre dos variables medidas. y como suele ocurrir en muchos textos estad´ ısticos. . para cada una a a o de ellas. siendo necesario la construcci´n de un modelo de ajuste m´ltiple que relacione de forma o u conjunta la variable dependiente con el conjunto de las independientes. Es muy habitual confundir los conceptos de ajuste y de regresi´n. en el que se considerar´ la variable dependiente con cada ıa una de las independientes es claramente ineficiente. end´gena. y a usar´. Este estudio se har´ a o a trav´s de la construcci´n de una funci´n de ajuste. o y aunque no es objeto de este manual entrar en temas te´ricos en profuno didad. el an´lisis o a dos a dos.3 An´lisis de relaciones entre dos variables a 3. mientras que el concepto de regresi´n hace referencia a la o idea de predecir mediante alguna regla. un valor de la variable dependiente para cada valor de la independiente. Dicho lo cual. si habr´ que aclarar que la idea de ajuste implica la selecci´n de ıa o un modelo matem´tico que aproxime lo mejor posible la relaci´n entre a o las variables. En esta situaci´n. a Por otra parte. a partir de ahora se admitir´. . que expresa mae o o tem´ticamente c´mo una de las variables denominada causa explica el a o comportamiento de la otra variable llamada efecto. de forma indistinta ambos conceptos. Desde el punto de vista de la investigaci´n que o o se est´ realizando es fundamental la selecci´n de las variables que ene o trar´n en el an´lisis y la asignaci´n de roles.

una funci´n potencial Y = aX b . yi ). una funci´n a o exponencial Y = abX . La clase funcional hiperb´lica Y = a + o 1 una recta transformando X ′ = X . El objeto del ajuste es la obtenci´n de una o o funci´n que se adapte lo mejor posible a la nube de puntos.32 Cap´ ıtulo 3. o Y ∗ = f (X) El conocimiento previo que se puede tener de la relaci´n Y /X junto con o el an´lisis de la nube de puntos debe ofrecer las claves para la selecci´n a o de la funci´n f . dando lugar a n parejas de valores (xi . En realidad seleccionar f es elegir una clase funcional o que depender´ de unos par´metros que habr´ que estimar. y las predicciones . que establece que la suma de las distancias al cuadrado entre los valores observados de la variable Y . . Es decir. b X tambi´n se convierte en e Cuando antes se ha escrito ((la selecci´n de un modelo matem´tico o a que aproxime lo “mejor posible” la relaci´n entre las variables)) o la o ((obtenci´n de una curva que se adapte lo “mejor posible” a la nube de o puntos)). Ejemplo 3. siendo el conjunto de puntos la denominada nube de puntos o diagrama de dispersi´n. An´lisis Exploratorio de Datos multidimensional a de forma reiterada. El criterio m´s generalizado es el de los m´nimos a ı cuadrados. se a a a elige una recta Y = a+bX. una hip´rbola o e b o Y = a + X . se consideran s´lo dos variables. en realidad se estaba indicando la necesidad de establecer un criterio de ajuste que minimice las diferencias entre la curva de ajuste y la nube de puntos. logY = loga + Xlogb. es decir los yi . Desde un punto de vista gr´fico estos valores se pueden representar en a un plano. la independiente o (X) y la dependiente (Y).2 La clase funcional exponencial Y = abX aplicando una transformaci´n logar´ o ıtmica se linealiza. . Se puede apreciar que mediante alguna transformaci´n muchas de estas funciones se convierten en rectas. En lo sucesivo. . una par´bola Y = a+bX +cX 2 .

Obs´rvese que la diferencia entre los valores observados de o e ∗ Y . . La aplicaci´n de este criterio permite la estimaci´n de los o o par´metros del modelo y la determinaci´n de forma un´ a o ıvoca de la funci´n o de ajuste. yi = f (xi )∀i. yn . x2 . ∗ ∗ ∗ y1 . . se trata de sustituir en el ajuste los valores de X para obtener los correspondientes valores de Y . y sus correspondientes valores ajustados. el valor que se obtiene para Y es una predicci´n. Una de las utilidades m´s importantes del ajuste a es la de realizar predicciones de la variable explicada para distintos valores de la variable explicativa. yi . En realidad. . yi .3 An´lisis de relaciones entre dos variables a 33 ∗ que se obtienen de ´sta a partir de la funci´n de ajuste. son los errores ∗ ∗ del ajuste ei = yi − yi .3 ilustra lo dicho para el caso lineal Y = a + bX. . Cuando se sustituyen los valores de X que se han empleado para calcular la funci´n de ajuste.3: Recta de ajuste Predicciones. Y T • (xi . . . xn o se obtienen los correspondientes valores ajustados por el modelo. Los puntos ajustados (xi .3. x1 . . . yi ) pertenecen . mientras que si se asigna a X cualquier valor factible para esta variable. La figura 3. e o sea m´ ınima. yi ) T ¨ c ¨ ¨ • ¨¨ T • ¨¨ • ∗ ¨¨ yi ¨¨ ¨¨ • ∗ ei = yi − yi ¨¨ • ¨¨ • ¨ • ¨¨ ¨ • • ¨ • c E X Figura 3. y2 . donde a representa el punto de corte de la recta con el eje Y y b el incremento– decremento de Y para un incremento unitario de X.

Se verifica que r 2 = R2 . An´lisis Exploratorio de Datos multidimensional a ∗ a la recta de ajuste y los yi tienen menos varianza que los yi . El ajuste no estar´ totalmente a ıa resuelto si no viniera acompa˜ado de una medida de su bondad. a Las predicciones para valores de X distintos a los empleados en el ajuste se denominan interpolaciones cuando dichos valores se encuentran dentro del rango de valores de ajuste para X. cuando o e X crece Y crece. de un valor. La medida que sintetiza lo expresado en el p´rrafo anterior es el a 2 = SY ∗ que. se explicar´ por una parte a trav´s de una ıa e mejora de la funci´n de ajuste. que exprese en qu´ porcentaje la variable dependiente se explica por e la independiente a trav´s del ajuste realizado. coeficiente de determinaci´n. que la varianza de Y es igual a la de Y ∗ 2 2 2 m´s la varianza del error.34 Cap´ ıtulo 3. (¯. se puede demostrar para una gran cantidad de modelos. y extrapolaciones cuando se encuentran fuera de dicho rango. como puede verse. cuando X crece Y decrece. SY = SY ∗ + Se . mientras que en el extremo contrario ser´ la variable ajustada la que tendr´ ıa ıa varianza nula. La validez estad´ ıstica de las interpolaciones es mayor que las de las extrapolaciones. n es decir. o inverso. Para el caso de ajuste lineal existe un coeficiente espec´ ıfico de bondad de ajuste denominado coeficiente de correlaci´n lineal r. . por otra incorporando. a ser posible acotado en un intervalo. de hecho. o informaci´n nueva (otras variables. 1] y que adem´s de medir la a intensidad de la relaci´n indica si ´sta es de tipo directo. o que toma valores en el intervalo [−1. si es factible. R o S2 Y toma valores en [0. en particular para el lineal. Si el ajuste fuera e perfecto todos los valores observados se situar´ sobre la nube ıan de puntos y los residuos y su varianza se anular´ ıan. mientras que el resto. es decir el 100 ∗ (1 − R2 ) %. 1]. y ) . x ¯ An´lisis de bondad del ajuste. con lo que se tendr´ un modelo o ıa de regresi´n m´ltiple) y por la variabilidad intr´ o u ınseca de los datos. interpret´ndose que la variable Y se explica a en un 100 ∗ R2 % por la variable X. de hecho la calidad de la predicci´n decrece cuando o aumenta la distancia al centro de gravedad de la nube de puntos.

4: Diagramas de dispersi´n peso-altura o An´lisis de residuos del modelo.3. Mejora del modelo. Para terminar. s´lo se justifica si la mejora en t´rmia a o e nos de R2 es alta. ver ejemplo 3. entendiendo esto como aquellos a puntos que tienen un sobrepeso en la construcci´n de la funci´n o o de ajuste. Y ∗ . pues en otro caso se complica la interpretaci´n o del modelo sin apenas recompensa.3. los e a residuos que genera el ajuste.3 An´lisis de relaciones entre dos variables a 110 SEXO Mujer Varón 110 35 100 90 PESO 80 PESO 160 165 170 175 ALTURA 180 185 190 195 60 70 80 60 70 90 100 160 165 170 175 ALTURA 180 185 190 195 Figura 3. Conviene examinar. o En particular. indexados o frente a las predicciones. Y . Tambi´n es interesante e el an´lisis de puntos influyentes. Ejemplo 3.3 Para ilustrar los conceptos sobre el ajuste lineal se proceder´ a analizar a la relaci´n entre peso y altura del fichero de datos peso altura. Estos puntos van a estar localizados en los extremos de la nube de puntos. con m´s o a a par´metros y m´s compleja.dat. resulta de especial inter´s el an´lisis de los resie a duos extremos y de las gr´ficas de los residuos frente a valores de a X. es decir las diferencias entre los valores observados. en o . conviene indicar que reemplazar una funci´n de ajuste por otra m´s sofisticada. tanto a desde un punto de vista num´rico como sobre todo gr´fico. y los ajustados por la funci´n de ajuste.

1 −10 −5 0 5 66 0 10 20 30 Index 40 50 Figura 3.6: Regresi´n lineal y predicciones o 10 61 41 Datos$residuals.36 Cap´ ıtulo 3.7: Residuos indexados . An´lisis Exploratorio de Datos multidimensional a 15 Frequency Frequency 160 170 180 190 200 10 5 0 0 5 10 15 20 60 70 80 90 100 110 Datos2$ALTURA Datos2$PESO Figura 3.5: Histogramas de peso y altura Figura 3.RegModel.

para las variables mencionadas. se retocan las instrucciones R que genera Rcmdr.3). la escala de representaci´n de las variables podr´ ser un factor o ıa . Diagrama de dispersi´n. peso y altura de un grupo de personas.110. scale=‘‘frequency’’. se representa el diagrama de o a dispersi´n. o Por defecto aparece marcada la opci´n l´nea suavizada.200. aunque ello es un indicio claro de mezcla de poblaciones.5. En Rcmdr se seleccionan las opciones Gr´ficas→ o a Diagrama de dispersi´n. con lo que se obtiene las figuras en 3. breaks=seq(155. en busca de establecer la relaci´n que justifique a o el peso en funci´n de la altura. Al objeto de decidir el tipo de funo ci´n de ajuste que se utilizar´. se representar´n los histogramas de las variables peso a y altura.3 An´lisis de relaciones entre dos variables a 37 el que aparecen. cambiando en ambos casos las opciones del n´mero de intervalos u (breaks) y los colores (col) y se vuelven a ejecutar. Como se ha indicado anteriormente es necesario establecer qu´ variable ser´ la explicada y cu´l la explicativa. en un ejercicio b´sia camente did´ctico. Antes de abordar el an´lisis bidimensional propiaa mente dicho. col=heat.4 se observa la existencia de relaci´n entre o las dos variables. La l´ ınea de regresi´n suavizada y la l´ o ınea discontinua de ajuste lineal. breaks=seq(55.colors(13)) >Hist(Datos$PESO. se decide explicar el peso en funci´n de la altura. el sexo. o 2.. se continuar´ con los a siguientes pasos del ajuste con todos los datos. entre otras variables. scale=‘‘frequency’’.3. Las instrucciones retocadas son respectivamente: >Hist(Datos$ALTURA. sugieren que los ajustes m´s eficientes a son tipo lineal y posiblemente parab´lico o potencial. A la vista de la figura 3. o o 1. No obstano te. que o ı ofrece una regresi´n a los puntos y que da una idea de la clase o funcional m´s eficiente bajo el criterio de m´ a ınimos cuadrados. Dado que se trata e a a de un ejemplo y que no se cuenta con elementos adicionales para avalar la decisi´n. operando para ello tal y como se indic´ en el cap´ o ıtulo anterior. col=heat. Histogramas.5)..colors(12)) Una primera visi´n de los histogramas permite detectar una bimoo dalidad tanto en la variable peso como en la altura.. Al objeto de fijar el n´mero de clases de los histogramas u y los colores.

que las ıa o variables mantienen un grado de relaci´n lineal mayor del que realo mente existe. Si e se observa atentamente el diagrama de dispersi´n se puede entrever o la existencia de dos poblaciones. lo que indica que existe relaci´n directa entre las variables. se est´n considerando conjuntamente a los dos sexos. eligi´ndose ı u o e en el cuadro de di´logo las variables que interesan. para confirmarlo se representar´ el a diagrama de dispersi´n pero diferenciando los individuos de ambos o sexos. Datos$PESO.test(Datos$ALTURA. o En cuanto a la intensidad. hombre y mujer. cuando los patrones de relaci´n o peso–altura no tienen porqu´ coincidir y de hecho no lo hacen. e En este momento.8396.38 Cap´ ıtulo 3.8480039 El coeficiente de correlaci´n es positivo y relativamente alto. habr´ que plantearse la posibilidad de mejorar la ıa funci´n de ajuste utilizando una clase funcional que se adaptara o mejor a la nube de puntos. p-value < 2. el coeficiente de determinaci´n R2 = o 2 = 0. err´neamente. 719 implica que un 28 % de la variaci´n de Y no se explica r o por X a trav´s de la recta de ajuste.sided’’. method=‘‘pearson’’) Pearson’s product-moment correlation data: Datos$ALTURA and Datos$PESO t = 15. An´lisis Exploratorio de Datos multidimensional a distorsionador que podr´ llevar a pensar. 848.8952982 sample estimates: cor 0. Se selecciona la secuencia de opciones a o Estad´sticos→Res´menes→Test de correlaci´n. a o 3. y si no se hubiera detectado la bimodalidad en el histograma. en el diagrama de dispersi´n se ha visto o que la regresi´n suavizada suger´ la posibilidad de un crecimiento o ıa de tipo parab´lico o potencial. .2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0. r = o 0. df = 98. la bimodalidad del histograma parece indicar la confusi´n de o dos poblaciones. La salida que a ofrece Rcmdr es: > cor. Pero como ya se ha comentado o antes.7818060 0. An´lisis de la correlaci´n. alternative=‘‘two. Para confirmar la existencia de una alta correlaci´n o se calcular´ el coeficiente de correlaci´n lineal de Pearson. En efecto.

2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0. Para analizar cada grupo de sexo.. alternative=‘‘two.test(Peso Altura Mujer$ALTURA.4 es muy elocuente. Se observa como la correlaci´n para las mujeres es de o 0. al contrario de lo que ocurr´ antes. ıan > cor.9422066 sample estimates: cor 0. se elige como juego de datos activos el que interese y se calcula su coeficiente de correlaci´n o de Pearson.sided’’. respectivamente. seleccionando en la ventana de o di´logo la opci´n Gr´fica por grupos.8208994 0. Peso Altura Mujer$PESO. 861. R crea nuevos conjuntos o de datos con los nombres que se le hayan indicado en el correspondiente apartado de la opci´n de filtrado. tomando como expresi´n o de selecci´n SEXO==‘‘Mujer’’ para la muestra femenina y o SEXO==‘‘Var´n’’ para la masculina.8973532 . 804 y 0.. En Rcmdr se eligen las opciones Gr´ficas→ a a Diagrama de dispersi´n. las dos l´ o a ıneas de ajuste se acomodan mucho mejor a sus respectivos grupos y la regresi´n suavizada. 928. la variable sexo.. La a o a visualizaci´n del gr´fico 3...3. En este caso o se han denominado Peso Altura Mujer y Peso Altura Varon.4879. method=‘‘pearson’’) Pearson’s product-moment correlation data: Peso Altura Mujer$ALTURA and Peso Altura Mujer$PESO t = 13. mientras que para los hombres llega hasta 0. An´lisis por grupo. u se procede en Rcmdr desde Datos→Datos activos→ Filtrar los datos activos. df = 44.. con R2 iguales.3 An´lisis de relaciones entre dos variables a 39 4. 897. no presenta o ıa desviaciones claras de la linealidad. respectivamente a 0. p-value < 2. Por lo que procede ajustar de forma diferenciada las variables peso-altura para cada sexo.. Para dividir el conjunto de datos seg´n la variable SEXO. mucho m´s altas que las a que se ten´ para el ajuste conjunto.

213 Max 9.6. Adjusted R-squared: 0.9285171 5.. p-value: < 2.test(Peso Altura Varon$ALTURA.40 Cap´ ıtulo 3. df = 52.81 18. Error 13.41331 Std. Peso Altura Varon$PESO.03 Pr(> |t|) 2.05 ’.413306 .43e-16 *** < 2e-16 *** (Intercept) ALTURA Signif. data = Peso Altura Varon) Residuals: Min -13.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0..1 <.09760 +1.8595 F-statistic: 325. An´lisis Exploratorio de Datos multidimensional a > cor. data=Peso Altura Varon) > summary(RegModel. Una vez elegido el conjunto de datos activo correspondiente a los hombres.1 <.lm(PESO∼ ALTURA.662 Coefficients: Estimate -164..sided’’.07837 t value -11. codes: 0 ’***’ 0.01 ’*’ 0. se elige PESO como variable explicada y ALTURA como variable explicativa.41331X. concretamente se ha elegido el o subgrupo de los hombres.937 on 52 degrees of freedom Multiple R-Squared: 0. Se obtendr´ ahora una de las dos rectas de ajuste a del peso en funci´n de la altura.9580797 sample estimates: cor 0. Si s´lo se quisieran obtener los coefio cientes de la recta ´stos se pueden obtener con las ´rdenes: e o > RegModel. method=‘‘pearson’’) Pearson’s product-moment correlation data: Peso Altura Varon$ALTURA and Peso Altura Varon$PESO t = 13.89222 0. se selecciona Estad´sticos→ ı Ajuste de modelos→Regresi´n lineal.097600 1.’ 0.2 on 1 and 52 DF. alternative=‘‘two. p-value < 2. data=Peso Altura Varon) > coef(RegModel.8793910 0. Recta de ajuste.8621.09760 1.001 ’**’ 0. > RegModel.578 1Q -2.lm(PESO∼ ALTURA.491 3Q 2.091 Median -0.1 ’ ’ 1 Residual standard error: 3. y en la ventana de o la figura 3.1) (Intercept) ALTURA -164.1) Call: lm(formula = PESO ∼ ALTURA.2e − 16 A la vista de los resultados se sabe que la recta de regresi´n es o Y=-164.0335.

781456e-17 sd 9.RegModel.frame(ALTURA=c(180.3. ya que 2 = 9.RegModel. 7532 + 3.pred) Por ultimo se a˜ade la variable predicPESO al conjunto de datos ´ n pred: .1’’)].624074e+01 -3.7532 = 0.0. Seguidamente se asigna a la variable predicPESO las predicciones que genera el modelo con la orden predict para los valores de la variable ALTURA del data.RegModel. Al realizar las estad´ ısticas descriptivas de Y .8)) Se incluyen en el fichero pred los valores 180.1 PESO residuals.1 y residuals. 504 e 2 = 9..5042 Para realizar predicciones para cualquier valor de X.1 con los correspondientes valores ajustados y residuos del modelo activo. seleccionando las opciones media y desviaci´n t´ o ıpica en res´menes num´ricos.RegModel. ‘‘sd’’)) fitted.7.1’’. y se marcan las opciones deseadas.RegModel.8 cms.0 y 201. se u e tiene: > numSummary(Hombres[. Valores ajustados y predicciones.. en este caso Valores ajustados y residuos. pudi´ndose calcular el coeficiente de 10. ‘‘residuals. R a˜ade al conjunto de datos n activos dos nuevas columnas llamadas fitted. 8621.3.201.624074e+01 8.900081 n 54 54 54 2 2 2 y efectivamente se comprueba que SY = SY ∗ + Se . 184.184.RegModel.3 An´lisis de relaciones entre dos variables a 41 6. Para obtener los valores ajustados por el modelo se selecciona Modelos→ A~adir las estad´sticas de las observaciones a los n ı datos. 92 . determinaci´n como R o 10. Y ∗ y e. se necesita crear previamente un nuevo conjunto de datos. ‘‘PESO’’. que en este caso se ha llamado pred y que contendr´ una variable cuyo nombre a se hace coincidir con el nombre de la variable independiente del modelo: >pred<-data.7. statistics=c(‘‘mean’’.c(‘‘fitted.1 mean 8. 193.197.193.3.1.frame pred: > predicPESO <-predict(nombreModelo.753284 10.504150 3.1. 197.

tanto absoa lutos como estudentizados.1) y rstudent. . Para ello se suelen utilizar algunas representaciones gr´ficas.1. An´lisis de Residuos.42 Cap´ ıtulo 3. adem´s. seleccionando la variable a a residuals.. El gr´fico de los residuos indexados se obtiene desde a Gr´ficas→Gr´fica secuencial.frame(pred.. la predicci´n m´s fiable a ¯ o a corresponde al valor 180.. donde RegModel. gener´ndose por parte de R dos nuevas columnas en el fichero a de datos activos. se selecciona de nuevo Modelos→ A~adir las estad´sticas de las observaciones a los n ı datos.3 y la menos al valor 201. desde el punto de vista estad´ ıstico se dice que existe un problema de autocorrelaci´n y o la soluci´n pasa por enfocar el tema desde la ´ptica de las series o o temporales. se estar´ realizando ıan tres interpolaciones y dos extrapolaciones para los valores 197. Aunque en este cap´ ıtulo se est´ abordando la regresi´n desde un a o punto de vista descriptivo y por tanto no se exigen condiciones a los datos. . 7. 194). Puesto que el rango de valores de la altura es (167. a entre las que destacan la de Residuos indexados y la de Residuos frente a ajustados. puesto que x = 177.7 presenta una distribuci´n de residuos o . a o existencia de otras variables relevantes. Para obtener los residuos. 1. y se marcan las opciones correspondientes.8. denominadas residuals. la figura 3.RegModel.0 y 201. En o ´ o este caso.. la opci´n Identificar puntos con o el rat´n y por ultimo elegir la representaci´n por puntos. Detecta sobre todo problemas relacionados con la influencia que valores previos de la variable X ejercen sobre los posteriores.predicPESO) El nuevo conjunto de datos se puede ver en la figura 3.(RegModel.1 hace referencia al modelo usado. An´lisis Exploratorio de Datos multidimensional a >pred<-data. De su observaci´n se pueden extraer valioo sas conclusiones.6. presencia de valores at´ ıpicos. resulta interesante hacer una diagnosis de los residuos que detecte b´sicamente problemas de mala elecci´n del modelo..(RegModel. Residuos indexados.1). Ocurre sobre todo cuando la variable independiente es el tiempo. 8.

Los o a puntos influyentes ser´ aquellos que superaran el doble del coıan ciente entre el n´mero de variables regresoras m´s uno y el n´mero u a u de observaciones.9 se tienen la representaci´n indexada de los potenciao les Hat. La distancia de Cook para la observaci´n i-´sima o e calcula la diferencia entre los par´metros del modelo que se obtiene a incluyendo la observaci´n i-´sima y sin incluirla.. se genera a trav´s de Gr´ficas→ e a Gr´fica secuencial. y se puede apreciar que los valores m´s a a influyentes coinciden con las observaciones 41. realizada a partir de la misma opci´n gr´fica anterior. al igual que en el gr´fico de residuos indexados. Usando las opciones Gr´ficas→Diagrama de dispersi´n. Los potenciales se obtienen como los elementos de la diagonal principal de la matriz de Hat. H = X(X ′ X)−1 X ′ . Otra forma de ver la influencia de una observaci´n es a trav´s de su o e potencial. la presencia de valores at´ o ıpicos. 61 y 66. s´lo a o destaca la presencia de los candidatos a valores at´ ıpicos.1 como explicada. 074 y los . Uno de los criterios para detectar estos valores influyentes se basa en el c´lculo de la disa tancia de Cook.8. En este caso el valor de referencia es 0.RegModel. a o tomando fitted. informando sobre la falta de linealidad de la relaci´n. Residuos estudentizados frente a valores ajustados. Normalmente estos valores van a coincidir con valores extremos para una de las dos variables. se obtiene la figura 3.8. La figura 3..1 como variable explicativa y rstudent. Obtenci´n de valores influyentes. la existencia de terceras variables que aportar´ informaci´n relevante sobre Y. ıan o etc. En el que.3....3 An´lisis de relaciones entre dos variables a 43 sin ninguna relaci´n y no se obtiene mayor anormalidad que la o existencia de los candidatos a valores at´ ıpicos. En la figura 3. En general se deo e ben tener en cuenta aquellas observaciones cuya distancia de Cook sea mayor que 1. que estima el peso de cada observaci´n a la hora de realio zar predicciones.RegModel. Se buscan ahora valores eso pecialmente determinantes a la hora de estimar los par´metros del a modelo. Es probablemente el gr´fico que proporciona m´s informaci´n sobre la a a o calidad del ajuste realizado.

44

Cap´ ıtulo 3. An´lisis Exploratorio de Datos multidimensional a
41 0.20

61 2

66

61 1 0.15 0.10

−2

cooks.distance.RegModel.1

rstudent.RegModel.1

−1

0

−3

80

90 fitted.RegModel.1

100

110

0.00

−4

66

0.05

41

0

10

20

30 obsNumber

40

50

Figura 3.8: Residuos estundentizados frente a Y ∗ y distancias de Cook
34

41
0.12

61

0.10

hatvalues.RegModel.1

0.08

22

0.06

0.04

0.02

−3

−2

−1

0

84

100

Studentized Residuals

1

2

0

10

20

30 obsNumber

40

50

−4

66 0.02 0.04 0.06 0.08 Hat−Values 0.10 0.12

Figura 3.9: Potenciales Hat y puntos influyentes puntos que superan esta cota son el 32, el 34, el 84 y el 100. Por ultimo, la gr´fica de potenciales hat frente a residuos estudenti´ a zados, donde cada observaci´n est´ identificada por un c´ o a ırculo cuyo di´metro es proporcional a su distancia de cook, sintetiza toda la a informaci´n a tener en cuenta a la hora de identificar los puntos o influyentes. La gr´fica ha sido creada desde Modelos→Gr´ficas→ a a Gr´fica de influencia y refleja de nuevo que los valores a cona siderar son el 61 y el 66, ver figura 3.9.

3.3 An´lisis de relaciones entre dos variables a
CULTIVO acido basico neutro 250

45

200

250

VIRUS

VIRUS 0 10 20 30 TIEMPO 40 50

150

100

100 0

150

200

10

20

30 TIEMPO

40

50

Figura 3.10: Dispersi´n y dispersi´n seg´n cultivo o o u

R–Nota 3.3 Sup´ngase un conjunto de datos del cual se desea obtener un moo delo para un subconjunto de estos datos. Por ejemplo en los datos peso altura se quiere hacer un modelo para los datos femeninos, se selecciona Estad´sticos→Ajuste de modelos→Regresi´n lineal... ı o y en la ventana de di´logo aparecer´ la opci´n Expresi´n de a a o o selecci´n donde se puede elegir el subconjunto deseado, en eso te caso SEXO==’Mujer’. El problema surge si se quiere a˜adir, por n ejemplo, la columna de valores ajustados seleccionando Modelos→ A~adir estad´sticas de las observaciones a los datos..., esto n ı se debe a que el conjunto de datos activos no se corresponde con el modelo activo, para solucionar esto, s´lo se debe hacer en primer lugar o el filtrado de los datos para el subconjunto y seguidamente aplicar el modelo.

Ejemplo 3.4 Para ilustrar la realizaci´n de un ajuste de tipo polinomial, se consideo ran los datos del fichero reproduccion vir.dat en el que se muestran el n´mero de virus reproducidos en funci´n del tiempo (minutos) u o y de la temperatura (grados), seg´n el tipo de cultivo (´cido, u a

46

Cap´ ıtulo 3. An´lisis Exploratorio de Datos multidimensional a

VIRUS

100 0

150

200

10

20

30 TIEMPO

40

50

Figura 3.11: Diagrama de dispersi´n del cultivo ´cido o a b´sico o neutro). Se est´ interesado en ver como influye el tiempo en a a el n´mero de virus. u Se realiza en primer lugar el diagrama de dispersi´n de la variao ble n´mero de virus frente al tiempo. La observaci´n de la figura 3.10 u o revela para el conjunto de datos una disposici´n no lineal, aunque la o evidente variabilidad presente en cualquier rango de valores del tiempo hace presuponer que el factor tipo de cultivo deber´ tenerse en ıa cuenta (figura 3.10). Si se rehace el gr´fico para cada uno de los subgrupos que dea termina la variable cultivo, se observa que los cultivos de tipo b´sico a tienen un comportamiento aproximadamente lineal, mientras los de tipo neutro y ´cido no lo tienen. a El estudio se centrar´ en el cultivo ´cido, para ello se filtran los a a datos (se almacenan como reproduccion vir acido) y se representan de nuevo. El diagrama de dispersi´n, figura 3.11, parece sugerir un como portamiento de tipo parab´lico. o Para realizar el ajuste parab´lico se selecciona Estad´sticos→ o ı Ajuste de modelos→Modelo lineal..., tomando como f´rmula del o modelo VIRUS∼ 1+ TIEMPO+ I(TIEMPOˆ2) (figura 3.12). Los resultados obtenidos son:

Error t value Pr(> |t|) (Intercept) 115. aunque la cuesti´n es si esta mejora es lo suficienteo mente importante para justificar la mayor complejidad del modelo.2e-16 Se concluye que el tiempo explica casi el 92 % del n´mero de virus u a trav´s del ajuste parab´lico estimado. se proceder´ a realizar este ajuste por motivos a o a b´sicamente pedag´gicos.y..552345 4.13).8 on 2 and 47 DF.901809 0.9144 F-statistic: 262. e o Despu´s de representar el gr´fico de dispersi´n de la variable VIRUS e a o frente al TIEMPO (de los datos reproduccion vir acido) (figura 3.’ 0.3.642 1.901809*x + 0.1 ’ ’ 1 Residual standard error: 11..3 An´lisis de relaciones entre dos variables a > LinearModel..295 1Q -6.552345 − 2. se selecciona Estad´sticos→ ı Ajuste de modelos→Modelo lineal. se podr´ plantear si los datos se ajustar´ ıa ıan mejor a un polinomio de grado tres.11) es posible representar en la misma ventana la par´bola del modelo (fia gura 3.01 ’*’ 0.510 3Q Max 6. data=acido) summary(LinearModel. a o Al ser un modelo m´s general que el parab´lico se producir´ una a o a mejora del ajuste.101647 0.12) mediante las instrucciones: > x<. Para realizar el ajuste de grado tres. codes: 0 ’***’ 0.25e-08 *** I(TIEMPO^2) 0.89e-15 *** Signif.491 24.9179. data = acido) Residuals: Min -23.008731 11. tomando como f´rmula del o modelo VIRUS∼ 1+ TIEMPO+ I(TIEMPOˆ2)+I(TIEMPOˆ3) (figura 3.73 on 47 degrees of freedom Multiple R-Squared: 0.001 ’**’ 0.seq(0.271 47 Coefficients: Estimate Std.101647*x^2 > lines(x. p-value: < 2. Aunque no existen evidencias en el gr´fico de dispersi´n.50) > y<.col=‘‘green’’) Llegados a este punto.3 < − lm(VIRUS ∼ 1 + TIEMPO +I( TIEMPO^2).05 ’. .140 Median 1.376 7.500 < 2e-16 *** TIEMPO -2.917038 23.1) Call: lm(formula = VIRUS ∼ 1 + TIEMPO + I(TIEMPO^2).455127 -6. Adjusted R-squared: 0.115.

An´lisis Exploratorio de Datos multidimensional a VIRUS 100 0 150 200 10 20 30 TIEMPO 40 50 Figura 3.0148 Coefficients: Estimate 98. Igual que antes es posible representar el ajuste c´bico como u puede observarse en la figura 3.01 ’*’ 0.1 ’ ’ 1 Residual standard error: 9.0327 * 4. lo que no parece justificar la adopci´n de este modelo m´s o a complejo.2343 0.48 Cap´ ıtulo 3. data = Virus acido) Residuals: Min -21.05 ’.0457034 0. Error 5.2e-16 El coeficiente de determinaci´n es igual a 0. con una mejora o de un 2 %.9429.’ 0.1860 3Q Max 7.1273 21.4 Para realizar un ajuste polinomial con Rcmdr se selecciona la opci´n o .001 ’**’ 0.1938655 -0.1995 1Q Median -5. codes: 0 ’***’ 0.205 -2.1259 -0.255 1. p-value: < 2.1006612 0.892 on 46 degrees of freedom Multiple R-Squared: 0.83e-05 *** (Intercept) TIEMPO I(TIEMPO^2) I(TIEMPO^3) Signif.9429.1018701 1.13.0026659 Std.202 4.6855078 0. Adjusted R-squared: 0.9392 F-statistic: 253.485 Pr(> |t|) < 2e-16 *** 0.0005944 t value 17.9905237 0.12: Opciones y representaci´n del modelo parab´lico o o > summary(LinearModel. R–Nota 3.2 on 3 and 46 DF.2) Call: lm(formula = VIRUS ∼ 1 + TIEMPO + I(TIEMPO^2) + I(TIEMPO^3).

13: Opciones y representaci´n del modelo c´bico o u Estad´sticos→Ajustes de modelos→Modelo lineal.3.3 An´lisis de relaciones entre dos variables a 49 VIRUS 100 0 150 200 10 20 30 TIEMPO 40 50 Figura 3.. o e Si se quiere observar la notaci´n que utiliza R para formular estos moo delos.. v´ase el ap´ndice C. y en la venı tana de di´logo se escribe la expresi´n del modelo deseado: a o Para indicar un modelo lineal con t´rmino independiente se escrie ben cualquiera de las dos f´rmulas siguientes: o Y ∼X Y ∼1+X Si se desea omitir el t´rmino independiente en un modelo lineal se e utiliza una de las f´rmulas siguientes: o Y ∼ −1 + X Y ∼0+X En general para un modelo polinomial con t´rmino independiente e se escribe: Y ∼ X + I(X 2 ) + I(X 3 ) + · · · + I(X n ) o bien Y ∼ 1 + X + I(X 2 ) + I(X 3 ) + · · · + I(X n ) y con un −1 ´ 0 para un modelo sin t´rmino independiente. e e .

analice el comportamiento del peso en funci´n de la altura para el grupo de las mujeo res. Z = Producci´n en miles de Tm. o b) Indique si existe alguna tendencia. Cap´ ıtulo 3.1 Para los datos del fichero peso altura.2 muestra una serie hist´rica sobre el olivar eso pa˜ol que recoge la superficie. Y = Rendimiento en Qm/Ha. 3. An´lisis Exploratorio de Datos multidimensional a Ejercicios 3. donde: X = Superficie en miles de Ha. o a) Represente el diagrama de dispersi´n. . 3. XZ e o Y Z. durante el n o periodo 1965-1979. o Se pide: a) El diagrama de dispersi´n de las variables X e Y . o b) Las medidas m´s representativas para cada una de las a variables. c) El estudio de la relaci´n entre las variables XY . en el periodo octubre–mayo y la producci´n obtenida via ca´ ıda. c) Cuantifique y comente la relaci´n existente entre las dos o variables.2 La tabla 3. rendimiento y producci´n.50 4.3 La siguiente tabla muestra la relaci´n existente entre la lluo 2 . X Y Y Y Y Y 300 13 24 17 11 20 400 26 21 17 26 30 500 40 31 38 34 27 600 57 45 51 58 44 700 64 69 57 76 74 donde X representa la lluvia e Y la producci´n. indicando su representatividad. en l/m o en kilogramos por olivo.dat.

7 150.5 98. 08 0.8 5 11.1 6.4 113.7 8. 16 0.7 107.8 10 51 Tabla 3. 22 0.7 6 3.4 146 162.2 152. y las calificaciones .5 A un grupo de estudiantes se les pregunt´ por el tiempo que o tardan en llegar desde su hogar hasta la facultad.1 99.8 152. 05 0.1 167. el tiempo que le dedican diariamente al estudio. 3. X (minutos).3.5 102. 04 0. 13 0.6 98.7 122 127 138.8 107.9 10.1 144.5 10. moda y mediana.8 9. 11 0.5 6 8.8 62. Y (horas). c) Estudie la dependencia de las variables X e Y . b) Calcule la media de Y cuando X toma el valor 3.1 152.2 Z 8.9 7.3 165 Y 69. Calcule su meo dia.2: Datos ejercicio 3.1 145. 05 a) Obtenga la distribuci´n marginal de X.2 3.4 Dada la siguiente tabla de doble entrada con valores porcentuales: Y \X 0 1 2 2 3 4 0.5 97.1 160.9 143. 16 0.1 9.8 160.8 118 128.8 139.4 Ejercicios A˜o n 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 X 73.

(60.(7. (80. Z. 5 3 3. 4. 4. (20. 5) (10. m´s de tres). (9. (30. 5). 2). 3. 6). 3. 5. 5). 4. (8. obteni´ndose los siguientes pares de valores: e (7. 4. 6). 3). (2. (20. (45. (20. 5 2. 2). 1). (10. 1. 7) (30. (2. ¿de qu´ tipo? o e 3. 3).7 Se examinan 300 alumnos de una asignatura y durante el examen se les pregunta por el tiempo que han dedicado a su preparaci´n o (menos de una hora. (3. XZ e Y Z. 4). (7. obteni´ndose a e la siguiente tabla de calificaciones seg´n el tiempo de estudio: u Nota \ Horas Estudio Suspenso Aprobado Notable Sobresaliente <1 43 31 7 3 1−3 32 48 13 4 >3 10 81 20 8 ¿Est´n relacionadas las calificaciones con las horas de estudio? a 3. (2. 5 2 2. (5. (6. 6). 65 8. 5) a) Obtenga el diagrama de dispersi´n correspondiente al o tiempo dedicado al estudio y las calificaciones obtenidas en Estad´ ıstica. 5). 7). 4). 5. (2. 1). 5).6 Al mismo grupo del ejercicio anterior se le ha pedido que escriba un d´ ıgito al azar entre 0 y 9 as´ como el n´mero de hermanos ı u que tiene. 1). (0.8 Dada la distribuci´n: o X Y 1 1. entre una hora y tres. (20. (60. 6). (45. 5 15 25 5 32 1 1. (4. (8. obteni´ndose las siguientes e respuestas: (40. 3). (30. 5) (7. 4). 4. 3. 3. (8. 3). 5. 3. (20. 4). 5. 95 5. 3). (7. 0). (10. (30. 6). An´lisis Exploratorio de Datos multidimensional a obtenidas en la asignatura de Estad´ ıstica. 75 4. 4. 4). 5). 0). (7. (3. 4). 1. 4). 6). 1). 2. 2. 7). 4.5. 5). 3. 2) ¿Existe alguna relaci´n entre las variables?. 3). (20. 3). 2). (4. b) ¿Se aprecia alguna tendencia? c) Estudie las relaciones existentes entre XY . 4. (20. 3). 5) (20.52 Cap´ ıtulo 3. 8 . 4. (4. 3). (15. 5) (5. 6. (40.

93 0.4 Ejercicios 53 a) Elija la mejor clase funcional para ajustar Y /X y estime sus par´metros. a b) Establezca la bondad del ajuste. c) Calcule la previsi´n para Y cuando X = 7.3. 25 0. 5 12 15 a) Ajuste Y /X utilizando una funci´n del tipo aX b .11 Dada la distribuci´n: o X Y 5 6 8 10 13 18 20 1. 5 1. 5 40 62 90 20 165 a) Utilice una ecuaci´n del tipo aX b para ajustar Y /X. b) Estudie la bondad del ajuste. 5 2 3 4 5 6 7 1 1.10 Dada la distribuci´n: o X Y 1 1. 75 2.9 Dada la distribuci´n: o X Y 2. e 3. 3. 75 7. 7 0. o b) Analice la bondad del ajuste. o 3. . 46 0. 15 a) Estime los par´metros de la clase funcional ab−0. o b) D´ una medida de la bondad del ajuste. 23 0. 65 4. 5 10 12.2X para a ajustar Y /X. 7 7 9. 5 3. 75 8 14 5 23. Analice dicha o previsi´n.

54 .

El estudio de los modelos te´ricos. Intuitivamente. incluyendo la caracteo rizaci´n a trav´s de sus par´metros. la concreci´n num´rica del fen´meno mediante la asigo e o naci´n de valores con un cierto criterio. M.uca. Ese ser´ el objetivo a a del cap´ ıtulo. Los experimentos o ı ı fen´menos que poseen la caracter´ o ıstica anterior se denominan aleatorios. hace imprescindible el uso de una funci´n que o asigne niveles de certidumbre a cada uno de los desenlaces del fen´meno o y ah´ es donde aparece la teor´a de la probabilidad. tanto discretos como a o continuos. Antes de entrar en materia se describir´n una serie de fen´menos a o . P´rez Plaza. o a n a e A. ı La teor´ de la probabilidad y la variable aleatoria van a permitir ıa establecer un amplio cat´logo de modelos te´ricos. el c´lculo de probabilidades en sus o e a a distintos formatos y la generaci´n de n´meros aleatorios. donde el conocimiento de las condiciones en las que ´stos se desarrollan no dee terminan los resultados. o Una correcta proyecci´n de estos conceptos es lo que va a permitir eso tudiar grandes colectivos a partir de peque˜as partes de ellos. S. Mu˜oz M´rquez. Arriaza G´mez.es/ebrcmdr Cap´ ıtulo 4 Distribuciones de Probabilidad La existencia de fen´menos o experimentos no determin´ o ısticos. F. M. L´pez S´nchez. J. da origen a la variable aleatoria. a los cuales se van a poder asimilar muchas de las situaciones de la vida real. dando lugar a lo que se conoce como inferencia estad´stica. van a facilitar o u enormemente el an´lisis de estas situaciones reales.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. Fern´ndez Palac´ o a ın. A. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. llamadas n muestras.

¿qu´ estructura tiene su distribuci´n? a e o . ¿qu´ probabilidad tiene e el opositor de que sea elegido al menos uno de los temas que lleva preparado? Sabemos que el servicio de autobuses entre C´diz y San Fernando a tiene salidas cada media hora entre las 6 am y las 12 pm. donde cada una de ellas tiene 4 posibilidades siendo s´lo una de ellas o cierta. la estatura. ¿y como mucho una de ellas? Si se controlan el peso. el u 5.1 Si se contesta al azar un examen tipo test de 10 preguntas. ¿y al menos una de ellas?. ´ Si cada d´ se encienden unas 4 horas ¿cu´l es la probabilidad de ıa a que despu´s de un a˜o est´n funcionando las dos?. la talla de pantal´n. de los que se seleccionan al azar dos de ellos. una persona que se ha olvidado el reloj en casa llega a la estaci´n de o autobuses en C´diz ¿cu´l es la probabilidad de que espere menos a a de 10 minutos para coger el autob´s? u Se sabe que las bombillas de bajo consumo de 14 w tienen una vida media util de 10000 horas. la respuesta suele ser la unidad de dicho n´mero: el 7. Distribuciones de Probabilidad que se podr´n asimilar a las distribuciones de probabilidad que se desa cribir´n en este cap´ a ıtulo.. o las horas de estudio. .56 Cap´ ıtulo 4.. . mientras que las bombillas cl´sicas por ´ a incandescencia de 60 w tienen una vida media util de 1000 horas. la nota de selectividad. Imag´ ınese un opositor que se ha preparado 60 temas de 100. Ejemplo 4. . ¿qu´ n´mero de aciertos es m´s probable? e u a Cuando alguien pregunta por el n´mero que sali´ en el sorteo de u o la ONCE. de los 350 alumnos que est´n matriculados en 1o de Empresariales y Econ´micas en el a o campus de C´diz y Jerez. ¿c´mo se distribuyen las unidades de los premios en el sorteo o de la ONCE? En las oposiciones es frecuente que se realice un sorteo p´blico u extrayendo una serie de bolas o papeletas de una urna o bolsa.. ¿y ninguna de e n e ellas?. la edad.

. Adem´s.57 Cada una de las situaciones anteriores conlleva la realizaci´n de un o experimento aleatorio: “elegir una de las cuatro posibles respuestas en cada una de las preguntas”. o Para tener un buen manejo matem´tico de las distintas situacioa nes que se puedan plantear dada la distinta naturaleza y la diversidad de los resultados que proporcionan los experimentos. se intentar´ que la asignaci´n se realice de la forma m´s natural a o a posible. u obtener al responder las 10 preguntas “variar´” entre 0 y 10. se tiende a confundir la aplicaci´n a o X con los valores del conjunto imagen y se traslada la probabilidad de ocurrencia de un suceso al valor correspondiente de la variable aleatoria. Esta asignaci´n no es unica. por ejemplo 17. expres´ndose mediante una tabla. . o . que proporcionan resultados de distinta naturaleza. por lo tanto. tiene a un n´mero finito de posibles valores. A esta aplicaci´n se le llamar´ variable aleau o a toria y se designar´ por X. a la regla de a o a ´ correspondencia valores–probabilidades. s´lo condicionado por la precisi´n de los aparatos de medici´n. se necesita realizar una abstracci´n cuantificada del experimento. una o a gr´fica o una f´rmula. funci´n de probabilidad. o o o Esto lleva a una primera gran clasificaci´n entre modelos de probabilidad o discretos y continuos. Las probabilidades asociadas a cada uno de los valores de la variable aleatoria pueden ser organizadas como una distribuci´n de probabilidad. “sacar 2 temas entre 100”. lo que proporıa u cionar´ otra variable aleatoria. “extraer la bola del n´mero de las unidades u entre las 10 posibles”. mientras que el tiempo de espera u para coger el autob´s puede tomar infinitos valores dentro del intervalo u (0. . denomin´ndose en este ultimo caso. . pero en este caso los valores no ser´ ıa ıan f´cilmente identificables en t´rminos del experimento de partida. la a ı variable aleatoria consistir´ en asignar al suceso “responder correctaıa mente siete preguntas” el n´mero 7. Como a e norma. Para ello se asignar´ a o a cada uno de los posibles resultados del experimento aleatorio (suceso elemental) un n´mero real. por abuso de lenguaje. X : Ω → R. 30). se u o ´ le podr´ haber asignado otro n´mero. As´ en el primer ejemplo. o sea. El primer problema a resolver ser´ la elecci´n del a o modelo te´rico apropiado para cada caso en estudio. se puede hablar de la probabilidad de que la variable aleatoria tome un determinado valor. As´ el n´mero de aciertos que se puede ı.

Chi-Cuadrado. p = prob p = prob (N. adem´s. Geom´trica. o en Distribuciones→Distribuciones discretas. Uniforme. Distribuciones discretas En la tabla 4. 1. si se quiere la funci´n de densidad. Se puede a acceder a ellas en: Distribuciones→Distribuciones continuas. o tambi´n escribiendo e directamente en la ventana de instrucciones el nombre de la distribuci´n. sus par´metros (el nombre te´rico o a o y el usado en el programa) y las instrucciones correspondientes. K. por supuesto. una q para los cuantiles y una r para generar o o una muestra aleatoria de la distribuci´n. n. Log´stica. Todas estas distribuciones est´n recogidas en Rcmdr.58 Cap´ ıtulo 4.1 est´n resumidas todas las distribuciones contenia das en la versi´n actual de Rcmdr. Lognormal. de los o a argumentos necesarios en cada caso. Las principales distribuciones de probabilidad de variables discretas son: Binomial. k) En Rcmdr binom nbinom geom hyper Poisson λ = lambda pois Tabla 4. n) = (m. una p para o la funci´n de distribuci´n. Entre los modelos de variable continua destacan las distribuciones: Normal. Cauchy. Para cada una de las distribuciones discretas est´n disponibles las siguientes a opciones: . T-Student. o poniendo delante una d. Binomial Negativa. Beta. Gamma. p = prob n = size. seg´n la naturaleza de la variable aleatoria u pueden considerarse distribuciones de probabilidad discretas o continuas. Hipergeom´trica e e y de Poisson. Distribuciones de Probabilidad DISCRETAS Distribuci´n o Binomial Binomial negativa Geom´trica e Hipergeom´trica e Par´metros a n = size. Exponencial.1: Tabla de distribuciones discretas Como se ha indicado. Weibull y ı Gumbel. F-Snedecor .

o Probabilidades Acumuladas: Calcula bien el valor de P (X ≤ x) (cola de la izquierda).5 y se puede ver que P (X = 4) = 0. o En este caso se introduce Ensayos binomiales= 8 y Probabilidad de ´xito= 0. o bien. Distribuci´n Binomial o Ejemplo 4.2734375.1 Distribuciones discretas 59 Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda (seg´n se seleccione) una determinada prou babilidad.1. ıa o Muestra de la distribuci´n: Genera muestras aleatorias exo tra´ ıdas de la distribuci´n. e . P (X > x) (cola de la derecha) para cada valor x. Para calcular las probabilidades en Rcmdr a se selecciona: Distribuciones→Distribuciones discretas→ Distribuci´n binomial→Probabilidades binomiales. 1.. a) ¿Cu´l es la probabilidad de que acierte 4? a La variable X=“n´mero de aciertos” sigue una distribuci´n Binomial de u o par´metros n = 8 y p = 1/2.4.2 Si un estudiante responde al azar a un examen de 8 preguntas de verdadero o falso. Gr´fica de la distribuci´n: Genera la gr´fica de la funci´n de a o a o cuant´ o de distribuci´n.. Probabilidades: Determina la probabilidad de que la variable tome un valor dado. Con el fin de familiarse con las distribuciones y su uso desde Rcmdr. se ver´n ahora algunos ejemplos representativos de las distribuciones m´s a a usuales.

. y Ensayos binomiales= 8.3 Una cierta ´rea de Estados Unidos es afectada. o >pbinom(c(2)..5)) >rownames(.03125000 0. Distribuciones de Probabilidad >. en la ventana que aparece. en promedio.tail=TRUE) [1] 0. size= 8.60 Cap´ ıtulo 4.Table < − data. pero se˜alann do en la ventana emergente Valor de la variable= 4.0:8 >.frame(Pr=dbinom(0:8. se debe indicar Valor de la variable= 2 y Ensayos binomiales= 8.2.5. tom´ndose la opci´n Cola Derecha.3632813 1.10937500 0.00390625 b) ¿Cu´l es la probabilidad de que acierte 2 o menos? a Se calculan ahora las probabilidades acumuladas: Distribuciones→ Distribuciones discretas→Distribuci´n binomial→ o Probabilidades binomiales acumuladas.Table 0 1 2 3 4 5 6 7 8 Pr 0. lower.1445313 c) ¿Cu´l es la probabilidad de que acierte 5 o m´s? a a Para determinar la probabilidad de que acierte 5 o m´s a preguntas se realiza el mismo procedimiento.21875000 0. por 6 huraa . prob=0. prob= 0.00390625 0.tail=FALSE) [1] 0. Distribuci´n de Poisson o Ejemplo 4. prob= 0.27343750 0.03125000 0. a o >pbinom(c(4). size= 8. Para calcular la probabilidad de que acierte 2 preguntas o menos.10937500 0.Table) <.21875000 0. dejando marcada la opci´n Cola izquierda. lower.5. size=8.

tail=TRUE) [1] 0.1). Se calcular´n ahora las probabilidades: ´ a Como en el caso anterior se se˜ala Probabilidades binomiales n acumuladas.tail=TRUE) >a-b [1] 0. porque describe el n´mero de e u ´xitos por unidad de tiempo y porque son independientes del tiempo e desde el ultimo evento.4. lower. tomando ahora en la ventana emergente Valor(es) de la variable= 4.1512039 b) Entre 6 y 8 huracanes. para la opci´n Cola izquierda.. Se define la variable X =“n´mero de huracanes por a˜o” y se sabe que u n ´sta se distribuye mediante una Poisson. o P (X ≤ 8) − P (X ≤ 5). 4. lambda = 6.1: Distribuci´n de o Poisson 0.tail=TRUE) >b <.1 Distribuciones discretas 61 canes al a˜o. Como antes se realizan en primer lugar las probabilidades acumuladas y se restan los resultados obtenidos: >a <..05 0. lower.00 0.(figura 4.lambda = 6. Encuentre la probabilidad de que en un determinado a˜o n n esta ´rea sea afectada por: a a) Menos de 4 huracanes. y Media= 6. La gr´fiu n a ca se realiza en Distribuciones→ Distribuciones discretas →Distribuci´n de Poisson→Gr´fica o a de la distribuci´n de o Poisson.ppois(c(5).10 . Masa de Probabilidad Fig.4015579 Distribución de Poisson: Mean = 6 0. con la opci´n Cola izquierda.15 0 5 x 10 15 c) Represente la funci´n de probabio lidad de la variable aleatoria que mide el n´mero de huracanes por a˜o.. Para calcular la probabilidad de que ocurran entre 6 y 8 huracanes. lambda = 6. se pueden sumar las probabilidades P (X = 6) + P (X = 7) + P (X = 8) o restar las probabilidades acumuladas.. o >ppois(c(3).ppois(c(8). lower.

3. K = 2.. golpean los globos con un palo por orden hasta que cada uno consigue romper 2. ¿cu´l o a es la probabilidad de que el segundo participante consiga otro? Para el segundo participante la variable seguir´ una hipergeom´trica de a e par´metros m= 10. Los participantes en el juego. n= 3 y k= 2. con los ojos vendados. n=4..41904762.62 1. o c) Si el primer participante ha conseguido s´lo un premio. Para obtener respuesa ta a las cuestiones en Rcmdr se selecciona: Distribuciones→ Distribuciones discretas→Distribuci´n hipergeom´trica..frame(Pr=dhyper(0:2. a .. marcando la opci´n gr´fica de la funci´n e o a o de distribuci´n (figura 4. Distribuciones de Probabilidad Distribuci´n Hipergeom´trica o e Ejemplo 4. de los que 4 tienen premio. Cap´ ıtulo 4. con o e m(n´mero de bolas blancas en la urna)= 11. a) ¿Cu´l es la probabilidad de que el primer participante consiga a un premio? Para el primer participante la variable X=“n´mero de premios conu seguidos entre 2 posibles” sigue una distribuci´n Hipergeom´trica o e de par´metros m = 11. resultanu do P (X = 1) = 0.05714286 1 0. m=11. a o o ´ Esta se obtiene en Distribuciones→Distribuciones discretas→ Distribuci´n hipergeom´trica→Gr´fica de la distribuci´n o e a o hipergeom´trica.. resultando P (X = 1) = 0. n = 4.Table Pr 0 0. k=2)) >rownames(.0:2 >... o e Para calcular la probabilidad de que consiga un s´lo preo mio se elige la opci´n probabilidades hipergeom´tricas. >..Table < − data.2).41904762 2 0. n(n´mero de bolas u u negras en la urna)= 4 y k(n´mero de extracciones)= 2.4 En un juego se disponen 15 globos llenos de agua.38461538.52380952 b) Construya la gr´fica de la funci´n de distribuci´n.Table) <.

b) La probabilidad de que no venda ninguna despu´s de siete vie viendas visitadas.0 Número de aciertos Figura 4.4.5 1. Se define la variable X=“n´mero de casas que visita antes u de conseguir vender la primera alarma”.8 0. Calcula: a) La probabilidad de que en un d´ determinado consiga vender ıa la primera alarma en la sexta casa que visita..2: Distribuci´n hipergeom´trica o e 1. luego en nuestro caso se tiene P (X = 0) = 0.4782969. obteniendo de la tabla la probabilidad P (X = 5) = e 5. que sigue una distribuci´n Geom´trica con Probabilidad de ´xito= 0. Distribuci´n Binomial o e o Negativa Ejemplo 4. k=2 1.0 0.. o e e Habr´ que calcular la probabilidad de que tenga 5 fracasos antes del a primer ´xito.2 0. c) Si se plantea vender tres alarmas.1 Distribuciones discretas Distribución Hipergeométrica: m=11.5 Un vendedor de alarmas de hogar tiene ´xito en una casa de cada diez e que visita.0 63 Probabilidad acumulada 0.4 0.0 1.1..904900e−02.5 2.6 0. Distribuci´n Geom´trica. La variable X=“n´mero de alarmas vendidas en 7 viviendas” sigue una u distribuci´n Binomial con Ensayos binomiales= 8 y Probabilidad de o e ´xito= 0.1. ¿cu´l es la probabilidad de a que consiga su objetivo en la octava vivienda que visita? . Se seleco e e ciona en Rcmdr Distribuciones→Distribuciones discretas→ Distribuci´n geom´trica→Probabilidades geom´tricas.4. n=4.

64

Cap´ ıtulo 4. Distribuciones de Probabilidad CONTINUAS Distribuci´n o Normal T-Student Chi-Cuadrado F-Snedecor Exponencial Uniforme Beta Cauchy Log´ ıstica Lognormal Gamma Weibull Par´metros a µ = mean; σ = sd n = df n = df n = df 1; m = df 2 λ = rate (a, b) = (min, max) p = shape1; q = shape2 t = location; s = scale t = location; s = scale µ = meanlog;σ = sdlog p = shape; α = scale p = shape; α = scale En Rcmdr norm t chisq f exp unif beta cauchy logis lnorm gamma weibull

Gumbel p = shape; α = scale gumbel Tabla 4.2: Tabla de distribuciones continuas Para abordar esta cuesti´n, se define la variable Y= “n´meo u ro de casas que visita antes de conseguir vender la tercera alarma”. Esta variable sigue una distribuci´n Binomial Neo gativa de par´metros a N´mero de ´xitos= 3, u e Probabilidad de ´xito= 0.1. En Rcmdr se selecciona Distribuciones→ e Distribuciones discretas→Distribuci´n binomial negativa→ o Probabilidades binomiales negativas..., de donde: P (Y = 5) = 1,240029e−02.

2.

Distribuciones continuas

En la tabla 4.2 est´n resumidas todas las distribuciones continuas a contenidas en la versi´n actual de Rcmdr, sus par´metros (el nombre o a te´rico y el usado en el programa) y las correspondientes instrucciones. o Para cada una de las distribuciones continuas est´n disponibles las a

4.2 Distribuciones continuas siguientes opciones:

65

Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda (seg´n seleccionemos) una determinada probau bilidad. Probabilidades: Determina la probabilidad que queda acumulada a izquierda (o a derecha) de un valor dado. Gr´fica de la distribuci´n: Genera la gr´fica de la funci´n de a o a o densidad o de distribuci´n. o Muestra de la distribuci´n: Genera muestras aleatorias exo tra´ ıdas de la distribuci´n. o 2.1. Distribuci´n Normal o

Trabajando directamente en R, para calcular los cuantiles normales se usar´ qnorm, agregando a ´sta los argumentos necesarios. En ıa e concreto, para hallar el valor que, en una N (0, 1), deja en la cola izquierda una probabilidad de 0,25:
qnorm(c(.25), mean = 0, sd = 1, lower.tail = T RU E)

R–Nota 4.1 lower.tail = T RU E usa la cola de la izquierda, mientras que lower.tail = F ALSE usa la derecha. Los par´metros lower.tail = a T RU E, mean = 0 y sd = 1 pueden ser omitidos, pues son los valores por defecto en esta funci´n. o

Ejemplo 4.6 Una empresa est´ buscando personal para su departamento de markea ting. El perfil solicitado es el de sujetos extrovertidos y creativos. Se han presentado 50 candidatos y la empresa ha establecido como criterio

66

Cap´ ıtulo 4. Distribuciones de Probabilidad

de selecci´n el que los candidatos superen el percentil 80 en creatividad o y extroversi´n. Sabiendo que la variable extroversi´n (X) se distribuo o ye seg´n una Normal de media 5 y desviaci´n t´ u o ıpica 1, que la variable creatividad (Y ) sigue una t-Student de 10 grados de libertad y que las puntuaciones de creatividad y extroversi´n son independientes: o a) ¿Cu´ntos candidatos ser´n seleccionados? a a Al ser X e Y independientes, la probabilidad P (X ≥ P80 ∩ Y ≥ P80 ) = P (X ≥ P80 ) · P (Y ≥ P80 ) = 0,20 · 0,20 = 0,04. Como se han presentado 50 aspirantes, ser´n seleccionadas 0,04 · 50 = 2 personas. a b) ¿Qu´ puntuaciones debe superar un aspirante en creatividad y e extroversi´n para ser admitido? o Seg´n el criterio de selecci´n se debe superar el percentil 80, en ambas u o variables, para ser admitido. Se calcular´ pues el percentil P80 de la a variable X e Y , utilizando los cuantiles normales para la variable X:
> qnorm(c(.8), mean=5, sd=1, lower.tail=TRUE) [1] 5.841621

y los t-cuantiles para la variable Y :
> qt(c(.8), df=10, lower.tail=TRUE) [1] 0.8790578

c) Si se extraen al azar 16 candidatos, ¿cu´l es la probabilidad de a que su media aritm´tica en extroversi´n sea mayor que 4,5? e o Se sabe que al extraer una muestra de una poblaci´n normal de tama˜o o n ¯ n, la media de la muestra, X, sigue otra distribuci´n normal de media o σ igual que la poblacional y desviaci´n t´ o ıpica √n . Por lo que en este caso ¯ ¯ X ∼ N (5, 1 ). Como se desea calcular P (X ≥ 4,5), se selecciona Cola 4 derecha en la entrada de Probabilidades normales...
> pnorm(c(4.5),mean=5,sd=0.25,lower.tail=FALSE) [1] 0.9772499

d) Dibuje las gr´ficas de densidad de las variables Extroversi´n a o y Creatividad. Para ello se selecciona la funci´n de densidad de ambas variables en o Distribuciones→Distribuciones Continuas..., obteni´ndose las fie guras 4.3 y 4.4.

o b) Calcule la probabilidad de que la relaci´n contin´e hasta la o u siguiente cita. o > punif(c(55). marcando Funci´n de densidad (figura 4.tail=TRUE) [1] 0. o Se define la variable X=“tiempo de espera”.1 0.. dejando la opci´n Cola Izquierda. que sigue una distribuci´n o uniforme continua definida en el intervalo (0.4.2.0 0.6111111 c) Calcule la probabilidad de que la relaci´n termine en la segunda o .. lower.. En Rcmdr se selecciona Distribuciones→Distribuciones continuas→ Distribuci´n uniforme.. se indica el valor de la variable y los l´ ımites del intervalo.7 Una persona informal hace esperar a su pareja aleatoriamente entre 0 y 90 minutos. Se elige Gr´fica de la distribuci´n o a o uniforme. a o a) Represente gr´ficamente la funci´n de densidad de la variable a o que modeliza esta situaci´n. min=0. si al d´ siguiente su pareja tarda menos de 15 a ıa minutos mantiene la relaci´n.4 67 Densidad 0. mientras que si tarda m´s de 55 minutos la relaci´n termina en ese momento.3: Funci´n de densidad de la variable extroversi´n (normal) o o 2.. la persona que sufre la espera se o plantea un ultim´tum.5). Distribuci´n Uniforme Continua o Ejemplo 4.3 2 3 4 5 x 6 7 8 Figura 4. σ = 1 0.. En Probabilidades uniformes.. si la espera est´ entre 15 y 55 minutos.2 Distribuciones continuas Distribución Normal: µ = 5. Harto de esta situaci´n. 90). o a decide en la siguiente cita con los mismos criterios. max=90.2 0.

la probabilidad de que lo deje definitivamente es P (X > 55) = 0.3.1728. min=0.4445. Distribuciones de Probabilidad Distribución t: df = 10 0.6111−0. 2. lower.4: Funci´n de densidad de la variable creatividad (t-student) o cita.3888.3 −4 −2 0 t 2 4 Figura 4. max=90.2 0.0 0. o n a) ¿Cu´l es la probabilidad de que dure al menos 5 a˜os? ¿y menos a n de 3? .tail=TRUE) [1] 0.. luego multiplicando ambas probabilidades se obtiene el valor pedido 0.4 Densidad 0. b) En Probabilidades uniformes.68 Cap´ ıtulo 4. que es la probabilidad de que aplace la decisi´n para la segunda cita o y.6111111 c) Suponiendo que el tiempo de espera en una cita es independiente respecto de otras citas..1 0. en la segunda cita.1666 = 0. o > punif(c(55). dejando la opci´n Cola Izquierda. se calcula la probabilidad P (15 < X < 55) = P (X < 55)−P (X ≤ 15) = 0. Distribuci´n Exponencial o Ejemplo 4.8 La duraci´n media de un modelo de marcapasos es de 7 a˜os. se indica el valor de la variable y los l´ ımites del intervalo.

.012 0. Par´metro de la exponencial= 0. rate=0. Probabilidades= 0. lower. se tiene que 1−F (8) = e−8·λ = (e−4·λ )2 = (1 − F (4))2 . con lo que P (X ≥ 8/X ≥ 4) = (1 − F (8))/(1 − F (4)) = 1 − F (4) = 0.9. o de forma similar.014 20 40 x 60 80 Figura 4.010 0.5: Funci´n de densidad o La variable X=“tiempo de funcionamiento del marcapasos” sigue una distribuci´n exponencial con par´metro λ = 1/7. o con las opciones Probabilidades= 0. lower.5647182.4.14285 y Cola Izquierda.1428.1428. rate=0.14285 y Cola Derecha. Utio a lizando la opci´n Distribuciones→Distribuciones continuas→ o Distribuci´n exponencial→Probabilidades exponenciales.. a . max=90 69 Densidad 0.3484493 b) Si han transcurrido ya 4 a˜os desde su implantaci´n.4896815 y de igual forma P (X < 3): > pexp(c(3). ¿cu´l es n o a la probabilidad de que dure otros 4? Teniendo en cuenta que 1−F (x) = e−λ·x .2 Distribuciones continuas Distribución Uniforme: min=0..tail=TRUE) [1] 0.1.008 0 0.tail=FALSE) [1] 0.. se o obtiene P (X ≥ 5) > pexp(c(5). Par´metro de la exponencial= a 0.. c) ¿Cu´nto tiempo deber´ funcionar un marcapasos para estar a ıa entre el 10 % de los m´s duran? Hay que calcular el percentil 90 seleca cionando: Distribuciones→Distribuciones Continuas→ Distribuci´n exponencial→Cuantiles exponenciales.

.tail=TRUE) [1] 0 .9 Una variable X sigue una distribuci´n t-Student con 16 grados de libero tad. el ıa percentil 68. de forma similar...97. Distribuci´n t-Student o Ejemplo 4. Figura 4.32.1428571 Densidad 0. a) Calcular la mediana y el percentil 85.5. 2.852. df=16. n d) Calcular el valor que deben tener a y b para que P (X < a) = 0.12 a˜os.4. Probabilidades= 0.5.08 0. Habr´ que calcular Me de forma que P (t16 ≥ M e) = 0.6.00 0 0. De forma an´loga al apartado anterior. resulta que el valor de la mediana es 0. Grados de libertad= 16 y Cola Izquierda o.6: Gr´fica de la funci´n de densidad de una Exp(0. con las opciones Probabilidades= o 0. y en el segundo.5 y P (X > b) = 0.5.12 10 20 x 30 40 50 Figura 4. b = 7. e) Represente la funci´n de densidad de la variable o aleatoria asociada.04 0.70 Cap´ ıtulo 4. a = 4. lower. paıa ra ello se selecciona Distribuciones→Distribuciones Continuas→ Distribuci´n t→Cuantiles t. > qt(c(0.5).14285≈ 1/7) a o resultando 16. Grados de libertad= 16 y Cola Derecha. Distribuciones de Probabilidad Distribución Exponencial: rate = 0. en el primer a caso habr´ que calcular la mediana.

1 −4 −2 0 t 2 4 Densidad 0.147611 resultando el valor de a=1.85). df=16. df=16.3 0.00 0. Para calcular a. se descompone la probabilidad P (−1 < X < a) = P (X < a) − P (X ≤ −1).04 0.166 = 0. se despeja P (X < a). ¿Qu´ similitud a o e tiene con la normal N (0..tail=TRUE) [1] 1...2 Distribuciones continuas Distribución t: df = 16 0.4. consecuencia de tener una varianza mayor.866).02 0.tail=TRUE) [1] 1..7 + 0. o > qt(c(0. lower.7: Gr´fica de la funci´n de densidad t16 y χ28 a o El percentil 85 se calcula de forma parecida: > qt(c(0.03 0. c) Obtener la gr´fica de su funci´n de densidad.tail=TRUE) [1] 0.7 su estructura es similar a la N (0.071137 b) Encontrar el valor de a de forma que P (−1 < X < a) = 0.05 71 Distribución Chi−cuadrado: df = 28 Densidad 0.1660975 y. . lower.866.01 0.0 0. df=16. Se selecciona ahora la opci´n Cuantiles t. se calcula P (X ≤ −1) utilizando la opci´n o Probabilidades t. > pt(c(-1).2 10 20 30 χ2 40 50 60 Figura 4. lower..7.4 0.147611. 1) con la particularidad de que en la zona central la t16 se encuentra por debajo de la normal. 1)? Como se puede observar en la figura 4. resultando ser P (X < a) = 0.

tail=FALSE) [1] 0.10 La variable X sigue una distribuci´n Chi-cuadrado con 28 grados de o libertad. salvo para n ≤ 2. df=28. lower. en general. > pchisq(c(7. o .5.72 2. si se representa su funci´n de densidad. c) ¿Qu´ similitue e des hay entre las gr´ficas? a Como se aprecia en 4.. sus caracter´ ısticas son muy similares a la funci´n de densidad de la χ2 .8..7 s´lo toma valores positivos y es o asim´trica con forma campaniforme. Cap´ ıtulo 4. Grados de libertad= 28 y Cola derecha. se obtiene en Distribuciones→ Distribuciones Continuas→Distribuci´n Chi-cuadrado→ o Probabilidades Chi-cuadrado.5). ¿qu´ caracter´ o e ısticas se observan?. Otra variable Y sigue una distribuci´n F de Snedecor con n1 = 8 o y n2 = 14 grados de libertad. Su valor es 0.9999611 b) Obtenga la funci´n de densidad. Distribuci´n F-Snedecor o o Ejemplo 4.9999611. a) Calcule la probabilidad de que X sea mayor de 7. La probabilidad pedida P (χ28 > 7.5. o Como se puede observar en la figura 4. con las opciones Valor(es) de la variable= 7.5.. Distribuciones de Probabilidad Distribuci´n Chi-cuadrado.5).

sep=‘‘’’) > colnames(Muestras uniformes) < − ‘‘obs’’ Para mostrarlos en pantalla se escribe en la ventana de instrucciones el nombre que se le haya asignado a la muestra: .4.. n 15 de una distribuci´n uniforme en el intervalo [0. simular situaciones de laboratorio. max=1). Generaci´n de valores aleatorios o Hay situaciones donde es necesario generar valores aleatorios que sigan un determinado patr´n y que permitan estudiar el comportao miento de determinados modelos. ncol=1)) > rownames(Muestras uniformes) < − paste(‘‘sample’’. para cada una de las distribuciones de probabilidad que tiene implementadas. 1].. .2 0. As´ para generar una muestra de tama˜o o ı. . N´mero de muestras (filas)= 15 y ı a u N´mero de observaciones (columnas)= 1.14 o 3.. para obtener los datos en formato de coa lumna. y se introducen o los par´metros. se selecciona en o Distribuciones→Distribuciones continuas→Distribuci´n unio forme→Muestra de una distribuci´n uniforme. u > Muestras uniformes < − as.frame(matrix(runif(15∗1.. ..3 Generaci´n de valores aleatorios o Distribución F: Numerador df = 8. comparar vao o lores muestrales con los extra´ ıdos de la verdadera poblaci´n en estuo dio.data.6 2 4 f 6 8 Figura 4. min=0. Denominador df = 14 73 Densidad 0. en este caso.. se puede seleccionar la opci´n Muestra o de una distribuci´n.8: Funci´n de densidad F8. 1:15. M´nimo= 0.4 0. generar la distribuci´n de una combinaci´n de variables. En Rcmdr.0 0 0. M´ximo= 1.

95487024 sample15 0.24558711 sample13 0.60055627 sample9 0.74 Cap´ ıtulo 4.07038248 sample4 0.80651304 O tambi´n se puede pulsar el bot´n Visualizar conjunto de e o datos en Rcmdr. .70652675 sample11 0.97110556 sample12 0.04517561 sample6 0.73990437 sample7 0.52902704 sample5 0.22597988 sample2 0. Distribuciones de Probabilidad > Muestras uniformes obs sample1 0.68375576 sample14 0. De la misma forma se podr´ generar muestras aleaıan torias para el resto de las distribuciones de probabilidad.99432508 sample10 0.90452613 sample8 0.65997127 sample3 0.

. en promedio. Si se responden todas las preguntas y. Ejercicios 75 4.4. tendr´ que pedir tabaco para cona a seguir 20 unidades? 4. e c) La probabilidad de obtener 3 aciertos. b) Las gr´ficas de la funci´n de cuant´ y distribuci´n y a o ıa o com´ntelas. Imag´ ınese que un opositor se ha preparado 60 temas entre 100. e a) ¿Cu´l es la probabilidad de que consiga 1 cigarrillo en a menos de 5 intentos? b) Si pretende hacer acopio de cigarrillos para el fin de semana.1 Se responde al azar un examen tipo test de 10 preguntas donde en cada una de ellas se plantean 4 posibilidades siendo s´lo una o de ellas cierta. 0. de los que se seleccionan al azar dos temas.4 Ejercicios 4. ¿cu´ntas veces. Se pide: a) La variable aleatoria asociada. se pide: a) La variable aleatoria asociada. calcule las siguientes probao bilidades: a) P (X ≤ 8) b) P (2 < X ≤ 5) c) P (X ≥ 7) 4. e) ¿Qu´ n´mero de aciertos es m´s probable? e u a f ) ¿Cu´ntos aciertos debe tener para quedar por encima de a la mitad de la clase? g) ¿Y por encima de un tercio de la clase? 4.4 En las oposiciones es frecuente que se realice un sorteo p´bliu co extrayendo una serie de bolas o papeletas de una urna o bolsa. las preguntas con respuestas correcta suman un punto mientras que las contestadas incorrectamente restan un cuarto de punto. d) La probabilidad de aprobar.3 Un conocido fumador gorr´n ha explotado tanto a sus como pa˜eros que por t´rmino medio cada uno de ellos le da un cigarrillo de n e cada diez veces que ´ste les pide.2 Dada la distribuci´n B(10.4).

76

Cap´ ıtulo 4. Distribuciones de Probabilidad b) Las gr´ficas de la funci´n de cuant´ y distribuci´n y a o ıa o

com´ntelas. e c) La probabilidad de que le salga uno de los temas que lleva preparado. d) La probabilidad de que le salgan dos de los temas que lleva preparado. e) ¿Qu´ ocurre con la probabilidad anterior si aumenta el e n´mero de temas preparados a 80? u 4.5 A un establecimiento de apuestas deportivas llega 1 cliente cada 3 minutos por t´rmino medio. e a) ¿Cu´l es la probabilidad de que en un periodo de 5 mia nutos lleguen m´s de 5 clientes? a b) ¿Cu´l es el n´mero m´s probable de llegadas en media a u a hora? 4.6 Las compa˜´ a´reas acostumbran a reservar m´s plazas de nıas e a las existentes en sus vuelos, dado el porcentaje de anulaciones que se produce. Si el porcentaje medio de anulaciones es del 5 %, ¿cu´ntas rea servas deber´ hacer una compa˜´ para un vuelo con 200 plazas, si quiere a nıa con una probabilidad del 97 % que todos sus clientes tengan cabida en dicho vuelo? 4.7 El servicio de reclamaciones de una asociaci´n de consumio dores recibe por t´rmino medio 3 quejas a la hora. e a) Calcule la probabilidad de que en 1 hora no reciba ninguna reclamaci´n. o b) Calcule la probabilidad de que en 2 horas reciba entre 2 y 6 reclamaciones. 4.8 En una pecera hay 10 peces machos y 8 hembras, si se extraen aleatoriamente 5 peces, calcule la probabilidad de que 3 sean machos y 2 hembras. 4.9 Un jugador apuesta 5e por tirada a un n´mero de los 37 u que componen la ruleta, si acierta, gana 180e. Calcule los beneficios esperados al cabo de 100 jugadas.

4.4 Ejercicios

77

4.10 El servicio de autobuses entre C´diz y San Fernando tiene a salidas cada media hora entre las 6 am y las 12 pm, una persona que se ha olvidado el reloj en casa llega a la estaci´n de autobuses en C´diz, se o a pide: a) La variable aleatoria adecuada para esta situaci´n. o b) Las gr´ficas de la funci´n de densidad y distribuci´n y a o o com´ntelas. e c) ¿Cu´l es su media? ¿y su mediana? ¿y su moda? a d) La probabilidad de que espere menos de 10 minutos. e) La probabilidad de que espere m´s de 15 minutos, pero a menos de 20. f ) ¿Cu´l es la probabilidad de que espere exactamente 11 a minutos y medio? 4.11 Se sabe que las bombillas de bajo consumo de 14 w tienen una vida util media de 10000 horas, mientras que las bombillas cl´sicas ´ a por incandescencia de 60 w tienen una vida util media de 1000 horas.Si ´ cada d´ se encienden unas 4 horas, en esta situaci´n ıa o a) Defina la variable aleatoria asociada. b) Obtenga las gr´ficas de la funci´n de densidad y distria o buci´n y com´ntelas. o e c) ¿Cu´l es su media? ¿y su mediana? a d) ¿Cu´l es la probabilidad de que despu´s de un a˜o est´n a e n e funcionando? 4.12 ¿Cu´l es la probabilidad de que de 10 personas elegidas al a azar al menos 2 cumplan a˜os en el mes de Enero? n 4.13 Durante la Segunda Guerra Mundial los alemanes bombardearon repetidas veces Londres. Los expertos demostraron que se trataba de bombardeos indiscriminados y que ca´ en cada acci´n y por t´rmino ıan o e medio 2 bombas por cada cuadr´ ıcula de 100 metros de lado. En vista a lo anterior, calcule la probabilidad de que en una cierta cuadr´ ıcula de 50 metros de lado no haya ca´ ninguna bomba durante un bombardeo. ıdo 4.14 Dada una distribuci´n normal de media 3 y varianza 9, calo cule las siguientes probabilidades:

78

Cap´ ıtulo 4. Distribuciones de Probabilidad a) P (2 ≤ X ≤ 5) b) P (X ≥ 3) c) P (X ≤ −2)

4.15 La centralita de un programa de televisi´n que premia aqueo llos concursantes que llaman dando la respuesta correcta de un concurso, atiende 1 de cada 10 llamadas que se realizan. a) ¿Qu´ n´mero medio de llamadas se tendr´n que realizar e u a para ser atendido? b) ¿Cu´l es la probabilidad de ser atendido a la primera? a 4.16 Calcule en los siguientes casos el valor de a, sabiendo que X ∼ N (1, 5). a) P (0 ≤ X ≤ a) = 0,28 b) P (1 − a ≤ X < 1 + a) = 0,65 4.17 Se sabe que la alarma de un reloj saltar´ en cualquier moa mento entre las siete y las ocho de la ma˜ana. Si el propietario del reloj n se despierta al o´ dicha alarma y necesita, como m´ ır ınimo, veinticinco minutos para arreglarse y llegar al trabajo, a) ¿Cu´l es la probabilidad de que llegue antes de las ocho? a b) Si el due˜o del reloj sigue programando el reloj de la n misma manera durante 10 d´ calcule el n´mero m´s probable de d´ ıas, u a ıas en que llegar´ despu´s de las ocho. a e 4.18 Si se controlan el peso, la edad, la estatura, talla de pantal´n, o horas de estudio, nota de selectividad, . . . de los 350 alumnos que est´n a matriculados en 1o de Empresariales y Econ´micas en el campus de o Cadiz y Jerez. ¿Qu´ estructura tiene su distribuci´n? e o 4.19 De una tribu ind´ ıgena se sabe que los hombres tienen una estatura que se distribuye seg´n una ley normal con media 1,70 y desviau ci´n t´ o ıpica σ. Si a trav´s de estudios realizados se conoce que la probabie lidad de que su estatura sea mayor a 1,80 es 0,12, calcule la probabilidad de que un individuo elegido al azar mida entre 1,65 y 1,75. 4.20 Calcule la probabilidad de obtener m´s de 200 seises en 1200 a

represente los daa tos mediante un diagrama de barras y compare los resultados con los observados en la gr´fica de la funci´n de cuant´ de la distribuci´n bia o ıa o nomial.22 Obtenga una muestra aleatoria de tama˜o 50 para una can racter´ ıstica poblacional que sigue una distribuci´n binomial de par´meo a tros n = 12 y p = 0.5 y desviaci´n o o o t´ ıpica 2. 4. ¿Qu´ ocurre si se aumenta el tama˜o de la muestra a 500? e n . 100.21 Genere muestras de tama˜o 10.4 Ejercicios lanzamientos de un dado no trucado. 500 y 1000 de una pon blaci´n que sigue una distribuci´n normal de media 3.7. Adem´s. Estudie el comportamiento de la media y desviaci´n t´ o ıpica en las cuatro muestras.4. 79 4. Calcule su media y desviaci´n t´ o ıpica compar´ndoa las con los respectivos valores poblacionales.

80 .

como pueden ser la media. Interesa. J. . Fern´ndez Palac´ o a ın. o a n a e A.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. A. M. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. F. . El enfoque que se le va a dar a este tema se conoce como cl´sico. La alternativa a este enfoque vendr´ ıa dada por la teor´a bayesiana. por ejemplo. Desde un punto de vista intuitivo. mientras que los datos que se poseen de la poblaci´n son o considerados constantes. Arriaza G´mez. la desviaci´n t´ o ıpica. mientras que los elementos de la muestra se consideran variables aleatorias. La intenci´n de este cap´ o ıtulo es hacer una primera incursi´n en lo que se conoce como an´lisis inferencial. L´pez S´nchez.es/ebrcmdr Cap´ ıtulo 5 Inferencia cl´sica en poblaciones Normales a 1.uca. S. en el que los par´metros son variables ı a aleatorias. Mu˜oz M´rquez. a En ´l. las caracter´ e ısticas poblacionales a estudiar se consideran par´mea tros (constantes desconocidas). parece razonable que si efectivamente la muestra representa bien al colectivo. conocer aproximadamente las principales caracter´ ısticas del colectivo.. los par´metros muestrales a . M. se extraen conclusiones que afectan a todos los elementos del mismo. P´rez Plaza. Conceptos fundamentales Hasta ahora los objetivos planteados se han limitado a explorar un conjunto de datos describiendo sus caracter´ ısticas principales o las relaciones entre distintos caracteres. o a en el que a partir del estudio de una muestra peque˜a y representativa n de miembros de un gran colectivo. su estructura probabil´ ıstica.

el objetivo es dar una cierta “garant´ de la presencia del par´metro dentro de un intervaıa” a lo construido a partir de la muestra. dentro de un conjunto de valores especificados en lo que se conoce como hip´tesis nula (H0 ) o. la distribuci´n de las n o longitudes es normal. Inferencia cl´sica en poblaciones Normales a sean muy parecidos a los poblacionales y aunque ciertamente este enfoque de estimaci´n puntual es b´sicamente correcto. ya que si se eligieran otras 1000 o piezas la media ser´ distinta a la anterior. Para ilustrar n lo dicho se introduce el siguiente ejemplo: Ejemplo 5. mientras que para el caso de los contrastes. a a En una inspecci´n se toman 1000 piezas fabricadas por dicha m´quina. Tanto uno como otro tienen en cuenta el maro gen de error derivado de cierta p´rdida de informaci´n.1 Una m´quina est´ preparada para fabricar piezas de 7 cms de longitud. ıa En el caso de los intervalos de confianza. por o el contrario. o Interesa dar una mayor consistencia al an´lisis inferencial y ello se a consigue desde dos puntos de vista. se haya dentro de su alternativo especificado por la hip´tesis o alternativa (H1 ). como parece. la pretensi´n es dar respuesta a si el valor del par´metro se o a encuentra. Pero se a est´ desaprovechando informaci´n importante. adolece de ciertas o a carencias que lo convierten s´lo en una parte del proceso inferencial. En e todo caso se estar´ asumiendo un margen de error derivado del proceso a de extracci´n aleatorio de la muestra. que se produce e o al intentar explicar el comportamiento de una poblaci´n a partir del coo nocimiento de una parte muy peque˜a de sus miembros.0037 cms. que en muchas ocasiones son complementarios: la construcci´n de intervalos de confianza y la realizaci´n o o de contrastes de hip´tesis. o si. Si se tomaran a e decisiones s´lo a partir de esta estimaci´n puntual habr´ que concluir o o ıa que la m´quina se ha desajustado y actuar en consecuencia. . La utilizaci´n de dicha informaci´n va a permio o tir construir un intervalo de confianza para la media de la poblaci´n o o confirmar directamente si ´sta se puede considerar igual a 7 cms. o a comprob´ndose que la media de ´stas es de 7.82 Cap´ ıtulo 5. como si la varianza de a o los datos es alta o peque˜a. a la luz de la evidencia muestral.

5. su objetivo es intentar determinar alguna e caracter´ ıstica de la poblaci´n o de la muestra bajo estudio. o . mientras que en las ocasiones o m´s favorables. n El cuadro que sigue recoge las distintas situaciones que pueden darse a la hora de realizar un contraste en t´rmino de los errores y aciertos. contenga el valor del par´metro. existe un error asociado al α que se conoce como β y que indica la probabilidad de no rechazar la hip´tesis nula o cuando es falsa. a Para el caso de los contrastes. Esta interpretaci´n es incorrecta pues una vez obtenido el a o intervalo el valor del par´metro est´ o no est´ y no tiene sentido hablar a a a de la probabilidad de que esto ocurra. Ambos errores son contrapuestos y fijado un tama˜o muestral cuando uno de los dos crece el otro decrece. 1 − α debe interpretarse como la proporci´n te´rica de intervalos (ya construidos) que contiene al valor o o del par´metro. 1 − α. e ı En el caso de los contrastes. se tiene un conocimiento bastante aproximado de la a estructura de probabilidad de la poblaci´n analizada.1 Conceptos fundamentales 83 Se llama nivel de confianza. α es la probabilidad de rechazar la hip´tesis nula cuando ´sta es cierta y se conoce tambi´n como probabio e e lidad de error de tipo I . La interpretaci´n habitual del nivel de confianza es la probabio lidad de que el intervalo de confianza. e 1 − β se conoce como potencia del test. la inferencia es no param´trica. El objetivo en los contrastes e param´tricos es intentar obtener informaci´n sobre los par´metros dese o a conocidos de la distribuci´n de la poblaci´n bajo estudio. 1 − α tambi´n se llama aqu´ nivel de confianza. de un intervalo a la probabilidad (a priori) de que el intervalo contenga el valor del par´metro a a estimar. Cuando se hace uso o de la distribuci´n de probabilidad de la poblaci´n estudiada se dice que o o la inferencia realizada es param´trica. ya obtenido. mientras que si s´lo se hace uso de e o la muestra. e Decisi´n estad´ o ıstica No rechazar H0 Rechazar H0 Correcta Error tipo I Error tipo II Correcta Estado Real de la cuesti´n o H0 cierta H0 falsa En el peor de los casos. En el caso de o o los contrastes no param´tricos. conocido tambi´n como probabilidad de error de tipo II . a la hora de realizar un estudio inferencial se cuenta con la informaci´n muestral.

Contrastes bilaterales: en ellos se propone un valor puntual para el par´metro bajo estudio. No hay que olvidar que la varianza determina la escala de la variable y siempre es m´s f´cil comparar a a aquellas poblaciones con el mismo factor de escala. Contrastes unilaterales: en ellos se propone que el valor del par´a metro se encuentre por debajo (o por encima) de un cierto valor. Dependiendo de la estructura de sus hip´tesis. de forma que se rechazar´ bien porque a a la evidencia muestral lleve a decidir que el valor es mayor que el propuesto o bien que es menor. Formalmente: ( H0 : θ = θ0 H1 : θ = θ0 2. aunque el mismo va a depender del conocimiento o no que se tenga de su varianza o si. Las dos situaciones se plantear´ de la siguiente forma: ıan ( H0 : θ ≥ θ0 H1 : θ < θ0 ( H0 : θ ≤ θ0 H1 : θ > θ0 Se puede observar que en todos los casos el signo igual est´ incluido en a la hip´tesis nula. se distingue entre o los siguientes tipos de contrastes: 1. la Chi-cuadrado para la varianza y la F de Snedecor para la comparaci´n de varianzas. siempre e que sea posible se debe recurrir a los primeros. interesa analizar el comportamiento de la media. el motivo de ello se encuentra en el procedimiento que o se va a utilizar para realizar el contraste. Inferencia cl´sica en poblaciones Normales a Puesto que los contrastes param´tricos utilizan m´s informaci´n e a o que los no param´tricos. para el caso de dos poblaciones sus varianzas coinciden. Por ello. Las distribuciones asociadas al proceso de muestreo son la normal y la t de student para el estudio de medias. ofrecen mejores resultados. En general. . todas o ellas estudiadas en el anterior cap´ ıtulo.84 Cap´ ıtulo 5.

1). y que cuando el o ıa o tama˜o de la muestra sea grande (n ≥ 50) la distribuci´n t de student n o se puede reemplazar por la N (0.2 Inferencias sobre una poblaci´n o 85 Figura 5. En todo caso. se supondr´ que a e a a las muestras extra´ ıdas son aleatorias y que no existen valores an´malos.5. . por el contrario. Inferencias sobre una poblaci´n o En esta secci´n se abordar´ el estudio de la media de una poblao a ci´n. a expensas de poder a a comprobarlo en el pr´ximo cap´ o ıtulo. o Igual que para la normalidad. caso de que esto no fuera cierto. Adem´s. en el pr´ximo cap´ o ıtulo se comprobar´n a estos supuestos. si la evidencia muestral en contra es muy fuerte. la de rechazarla. En este cap´ ıtulo se estudiar´n problemas que involucran a una a o dos poblaciones. siendo la funci´n del contraste la de o validarla o. habr´ que replantear el ıa an´lisis desde una perspectiva no param´trica. mientras que en el cap´ ıtulo 7 se generalizar´n los a resultados a m´s de dos poblaciones. 2. de la que se dispone de una muestra aleatoria simple de tama˜o o n n. Aunque en el caso. que las poblaciones siguen distribuciones normales. hay que ver este enfoque como una regla de confirmaci´n sobre una cuesti´n que el investigador o o cree razonablemente que es cierta.1: Ventana de di´logo para el test t a Es muy importante entender que en el contraste de hip´tesis los o roles que juegan las hip´tesis nula y alternativa no son equiparables y o mucho menos intercambiables. poco frecuente. en general se emplear´ la propia t a de student. de que se conozca la varianza de la poblaci´n se podr´ utilizar la distribuci´n Normal. Se aceptar´.

A continuaci´n se obtendr´n los intero a valos de confianza del 95 % para la altura de los hombres. Las instrucciones que se generan son: a > t.1).6138. df = 53.901043 0% 159 167 25 % 167.25 50 % 75 % 170.5 175 178.2 Se considera que el fichero de datos peso altura. groups=Datos$SEXO.95(fig 5. Inferencia cl´sica en poblaciones Normales a Ejemplo 5.c(‘‘ALTURA’’. ‘‘sd’’.0000 177. o Las caracter´ ısticas muestrales se obtienen como siempre en Estad´sticos→Res´menes→Res´menes num´ricos.25 50 % 68. Dicha o muestra se utilizar´ para estudiar los valores medios del peso y la altura a de la poblaci´n.5 75 % 70 93 100 % 75 109 n 46 54 Mujer Var´n o Intervalos de confianza.676462 6..2460 179. conf.86 Cap´ ıtulo 5.00 171.0 86. alternative=’two.504150 0% 59 64 25 % 63. en a este caso la altura.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 175. mu=0. y comprobando que el nivel de confianza est´ fijado en el 0.1296 .sided’.test(Hombres$ALTURA. ‘‘quantiles’’)) Variable: ALTURA mean 171.0.95652 86.0 182 100 % 182 194 n 46 54 Mujer Var´n o Variable: PESO mean 66. seleccioı u u e nando las correspondientes variables e indicando que se haga en funci´n del sexo: o > numSummary(Datos[.0133 sample estimates: mean of x 177.00 77.1296 sd 5.dat es una muestra aleatoria simple de la poblaci´n adulta de un municipio andaluz.level=.. Para ello se filtra la base de datos por la variable sexo.95) One Sample t-test data: Hombres$ALTURA t = 188. seı leccionando en la ventana de di´logo la variable que interesa.24074 sd 4.340796 10. ‘‘PESO’’)].. p-value <2. A continuaci´n se o marca Estad´sticos→Medias→Test t para una muestra. statistics=c(‘‘mean’’.

Respecto al contraste se concluye a que puesto que el p-value= 0. La segunda opci´n o permite fijar un valor para la hip´tesis nula mu=0. α = 0.sided.1296 Se puede observar que.02745 alternative hypothesis: true mean is not equal to 175 99 percent confidence interval: 174.0.2 Inferencias sobre una poblaci´n o 87 De la salida interesa la parte que hace referencia al intervalo de confianza. Editando la l´ o ınea de instrucciones y ejecutando se tiene: > t. alternative=’two.0.01.01. que no una probabilidad. . La a primera de ellas es alternative y admite tres posibilidades: contraste bilateral two. respecto a la salida anterior al aumentar el nivel de confianza ha aumentado la amplitud del intervalo y que el resto es pr´cticamente igual.027. del 95 %. Se puede ver que en este caso el valor que H0 propone para la media se encuentra dentro del intervalo de confianza.24.level=. no hay evidencias para rechazar la hip´tesis o o nula. 95.01) con una confianza.2677. En primer lugar se desea realizar el contraste: ( H0 : µ = 175 H1 : µ = 175 con un nivel de significaci´n α = 0.99) One Sample t-test data: Hombres$ALTURA t = 2. 179. el procedimiento t. p-value = 0.sided’. Como se puede observar en las instrucciones de R generadas por Rcmdr. Contraste bilateral.6388 sample estimates: mean of x 177. df = 53. Para realizar o los distintos contrastes se va a retocar la l´ ınea de instrucciones. conf. adem´s de la variable y el nivel de a confianza. pues en ese caso 175 estaba fuera del intervalo.5.test(Hombres$ALTURA. es mayor que el nivel de significaci´n. contraste unilateral H1 : µ < µ0 less y contraste unilateral H1 : µ > µ0 greater. Esto no ocurr´ en la salida anterior donde se hab´ fijado el nivel de ıa ıa confianza en 0. mu=175.test incluye dos opciones m´s.6205 179. la media de altura de la poblaci´n de hombres se eno cuentra dentro del intervalo (175.

p-value = 0.88 Cap´ ıtulo 5. se plantean distintas situaciones. En primer lugar habr´ que determinar si se tienen muestras a independientes o pareadas (relacionadas).level=. conf. se dan dos mediciones de la misma o similar caracter´ ıstica para cada individuo o para dos individuos de id´nticas. adem´s a de comprobar las hip´tesis sobre normalidad y aleatoriedad.0.1296 ( En este caso el p-valor=0.001752 alternative hypothesis: true mean is less than 180 90 percent confidence interval: -Inf 178. A veces la dependencia no resulta tan evidente. ambas observaciones est´n relacionadas. caracter´ ısticas relevantes de la muestra.3483 sample estimates: mean of x 177. df = 53. Si se miden el peso de 50 alevines de truchas antes y despu´s de e una cierta dieta alimenticia. mu=180. La longitud de .90) One Sample t-test data: Hombres$ALTURA t = -3. alternative=’less’. que como o ya se ha comentado se ver´n en el pr´ximo cap´ a o ıtulo. Inferencia cl´sica en poblaciones Normales a Contraste unilateral.1. 3. e respecto de los restantes. Inferencias sobre dos poblaciones Para el caso de comparar las medias de dos poblaciones. La diferencia entre uno y otro caso es que en el segundo. Se plantea ahora la realizaci´n del cono traste: H0 : µ ≥ 180 H1 : µ < 180 con un nivel de significaci´n α = 0. Igualmente se o o puede comprobar que 180 no pertenece al intervalo de confianza.0565.test(Hombres$ALTURA.0017 es mucho menor que el nivel de significaci´n y por tanto se rechaza la hip´tesis nula. Se edita de nuevo la l´ o ınea de instrucciones y se ejecuta: > t. La a aplicaci´n de dos pomadas en diferentes zonas de la piel de un individuo o y la observaci´n de ambas respuestas conduce a observaciones pareao das.

registrados durante 730 horas de forma simult´nea. o ıa o Fig.dat portar este conjunto de datos. el nombre de la variable apilada. una continua que contenga las mediciones de viento y otra factor que indique la localizaci´n. velocidad.3 Inferencias sobre dos poblaciones 89 la cola de trabajo de dos impresoras pueden parecer dos observaciones independientes. y el nombre de la nueva variable factor. introdua ciendo dependencia entre ambas longitudes. para el caso de muestras indeo pendientes. 3. . si ambas impresoras presentan id´nticas e caracter´ ısticas tanto en prestaciones como en accesibilidad. o Esto se realiza desde el men´ Datos→Conjunto de datos activo→ u Apilar variables del conjunto de datos activo. al im. la elecci´n o del usuario depender´ de las longitudes de las colas existentes. Por a otra parte. a que contiene datos de la velocidad del viento.1. resulta m´s manejable a para Rcmdr si es transformada en dos variables. Aunque o R puede trabajar con esta estructura de datos. conteniendo cada una de ellas las mediciones en cada localizaci´n.parque eolico. Otra cuesti´n a tener en cuenta. parque. sin embargo.dat. la estructura de la base de datos es de dos columnas. en dos localizaciones a alternativas (Parque1 y Parque2).2) se pide el nombre de la nueva base de datos que a se ha venido a llamar eolico apilado. que el car´cter decimal viene dado en este fichero mediante una coma. En la ventana de di´logo (fig.3 Para el caso de muestras independientes se usar´ el fichero parque eolico.. cuyas clases se han denominado Parque1 y Parque2. Se tratar´ de establecer la localizaci´n m´s a o a aconsejable para la instalaci´n de un paro que de producci´n de energ´ e´lica. Muestras independientes Ejemplo 5.2: Ventana para apilar Hay que tener en cuenta. 5.. es si las varianzas de las poblaciones se pueden considerar iguales o no.5. 5.

sided’. velocidad 0 5 10 15 Parque1 Parque2 parque > tapply(eolico apilado$velocidad. datos est´n distribuidos normalmente y las varianzas son iguaa les. Una primera idea sobre la igualdad de varianzas es mediante la representaci´n simult´nea o a de los diagramas de caja de las muestras.9915968 Como p-valor= 0.8574994 1.. Siendo as´ como se supone que los ı. denom df = 729.3.9093 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0. desde tipo de parque o Estad´sticos→Varianzas→Test F para ı dos varianzas.1466647 sample estimates: ratio of variances 0.. El test F Fig. data=eolico apilado) F test to compare two variances data: velocidad by parque F = 0. y en la ventana de di´logo a emergente se selecciona como grupo la variable parque y como variable explicada la velocidad.3: Velocidad seg´n u permite constrastar dicha hip´tesis. conf. Inferencia cl´sica en poblaciones Normales a Como se ha dicho es conveniente saber si las varianzas se pueden considerar iguales o no a la hora de comparar las dos poblaciones. 9093 > 0.. Para realizar este contraste se selecciona Estad´sticos→Medias→ ı Test t para muestras independientes. marcando la opci´n bilateral con el 95 % de o nivel de confianza y suponiendo las varianzas iguales. Desde Gr´ficas→Diagrama de caja. seleccionando en este caso como factor la variable parque y como explicada la variable velocidad.9916. na. e La comparaci´n de los diagramas suo giere la igualdad de varianzas.... obteni´ndose la figura 5. .rm=TRUE) Parque1 Parque2 10. p-value = 0. los dos parques e´licos ser´n igualmente productivos cuando o a la diferencia de sus medias no se separe significativamente de 0. 05 no hay motivos para rechazar la igualdad de varianzas. eolico apilado$parque.test(velocidad ∼ parque.50574 10.95. 5.90 Cap´ ıtulo 5. se a selecciona la variable velocidad y el grupo parque. num df = 729. alternative=’two. var..59477 > var.level=.

4). var.4: Contraste unilateral de fenofibrato > t. Se efect´a el Test t en u Estad´sticos→Medias→Test t para datos relacionados.3 Inferencias sobre dos poblaciones 91 Figura 5. p-value = 0..801795 5.dat en el que se quiere analizar si el tratamiento durante un a˜o con fenofibrato reduce el fibrin´geno. 3..95.4 Para el caso de muestras pareadas se tomar´ el conjunto de daa tos fenofibrato.level=. conf.test(velocidad∼parque. reaı lizando un contraste unilateral (figura 5.1645533 0.632849 Al ser el p-valor= 0. data=eolico apilado) Two Sample t-test data: velocidad by parque t = 0. . 32 > 0. 05 no se rechaza que la diferencia de las medias sea cercana a cero.9937. Muestras pareadas Ejemplo 5. df = 1458.sided’.5024437 sample estimates: mean in group Parque1 mean in group Parque2 5. alternative=’two.3205 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.2.5..equal=TRUE. contando pan o ra ello con una muestra de 32 individuos.

level=. mu=50) Paired t-test data: Datos$FIB A and Datos$FIB D t = 2.test(Datos$FIB A. paired=TRUE. 001 se rechaza la hip´tesis nula. se deber´ tocar a ıa ligeramente la instrucci´n R incluyendo ese dato: o > t. p-value = 8.95. 001 se rechaza la hip´tesis de que µA ≤ o µD + 50 y se concluye que el medicamento produce una disminuci´n de o m´s de 50 puntos en el nivel de fenofibrato.5391.009265 alternative hypothesis: true difference in means is greater than 50 95 percent confidence interval: 57. entre los niveles iniciales y finales. alternative=’greater’.8178 Inf sample estimates: mean of the differences 74.level=. Datos$FIB D. a . Si se deseara confirmar que el tratamiento produce un descenso de m´s de 50 puntos en el nivel de fenofibrato. es positiva. conf.8178 Inf sample estimates: mean of the differences 74.59375 Al ser el p − valor < 0. Datos$FIB D. con lo que o se acepta que la diferencia.4857. alternative=’greater’.test(Datos$FIB A. p-value = 0. df = 31.92 Cap´ ıtulo 5.59375 De nuevo dado que p < 0. df = 31.95. Con ello se puede deducir que el tratamiento anual con fenofibrato reduce los niveles de fibrin´geno en el organismo y existen as´ evidencias acerca o ı de su efectividad.paired=TRUE) Paired t-test data: Datos$FIB A and Datos$FIB D t = 7. conf.48e-09 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 57. Inferencia cl´sica en poblaciones Normales a > t.

para lo cual se seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante seis meses. c) Para un nivel de confianza del 99 % contraste si la media de la altura de las mujeres es mayor o igual a 173 cms y la de los hombres menor o igual a 175 cms. Antes Despu´s e 200 190 156 145 178 160 241 240 240 240 256 255 245 230 220 200 235 210 200 195 . tras la cual se les volvi´ a medir el nivel de colesterol en mg/dl. medidas en cent´ ımetros. b) Obtenga los intervalos del 95 % para el peso de hombres y mujeres.dat realice los siguientes ejercicios: a) Obtenga el intervalo de confianza del 90 % para la altura de las mujeres. o 5. Suponiendo o normalidad.2 Para estudiar la diferencia de estaturas medias. Se supone que las estaturas siguen una distribuci´n normal.5.3 Se est´ realizando un estudio sobre la evoluci´n del nivel de a o colesterol de las personas. obteni´ndose: e C´diz a M´laga a 182 174 181 171 170 174 173 173 175 170 177 177 167 176 170 182 171 168 170 179 174 178 175 165 181 180 169 174 169 169 Obtenga el intervalo de confianza al 99 % para la diferencia de estaturas medias entre ambos colectivos de estudiantes.1 Utilizando el fichero de datos peso altura. de estudiantes varones en las facultades de ciencias de C´diz a y M´laga. Ejercicios 93 5. se toma una muestra aleatoria de 15 estudiantes en cada a facultad. obtenga un intervalo de confianza al 90 % para la diferencia de medias.4 Ejercicios 4. ¿Puede indicar la raz´n de este aparente o contrasentido? 5.

1 99. 2 100. 2 100.9 9. 1 101. ¿existen diferencias de facturaci´n entre las dos oficinas? o 5. 5.6 Una empresa le propone al director de una f´brica un nuevo a m´todo que.5 Una empresa de transporte de mercanc´ tiene dos oficinas ıas en una determinada ciudad.0 10. a) Encuentre un intervalo de confianza para la longitud media. Estudie si se produjo alg´n cambio en la longitud media de la u barras. 4 99.7 10. 5. b) Tras revisar la maquinaria. reduce el tiempo empleado en el montae je de uno de sus productos. la direcci´n de la empresa decide analizar la o productividad de cada una de ellas.1 12.3 9. 2 9.9 10.0 13.8 9.3 8. 1 13. 4 100.1 12. supuestamente. 9 101. Al objeto de asignar un nuevo trabajador a una de las dos oficinas.9 9.5 7. 5.7 10. Con el prop´sito de comparar tal m´todo o e con el empleado habitualmente. Inferencia cl´sica en poblaciones Normales a 5. 8 98. 7 97.9 Suponiendo la normalidad de ambas poblaciones. contabiliz´ndose las facturaciones a en los ultimos doce meses (miles de euros). 7 99.1 13. 7 101.2 9. 8 100. 5 100.7 11.4 Una f´brica produce barras de hierro cuya longitud sigue a una distribuci´n Normal.1 9. 7 100. seleccion´ aleatoriamente a siete de sus o empleados para que llevasen a cabo el montaje con los dos sistemas y anot´ los tiempos empleados en el montaje.8 9.7 12.9 Ofic. obteniendo los siguientes o resultados: Trabajador 1 2 3 4 5 6 7 M´todo habitual 38 32 41 35 42 32 45 e 30 32 34 37 35 26 38 M´todo nuevo e .5 9.3 7.3 11.94 Cap´ ıtulo 5. 4 99. 4 101. ´ Ofic. A partir de la muestra: o 100. se obtuvo una nueva muestra: 99. 8 101. 3 98.

¿se o puede afirmar que efectivamente el nuevo m´todo reduce el tiempo en e m´s de dos minutos? a .5.4 Ejercicios 95 Supuesto que el tiempo de montaje sigue una distribuci´n Normal.

96 .

S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. Arriaza G´mez. o bien en aire. e por ultimo. se dan alternativas no param´tricas para el caso de que las ´ e poblaciones no sean normales. 1. No obstante y como en todo contraste. Imagine por ejemplo mediciones de una cierta magnitud econ´mica a lo largo de un periodo de tiempo o niveo les de un determinado elemento qu´ ımico en estudios de contaminaci´n. A. haciendo especial ´nfasis en los de normalidad y. lo cierto es que en ocasiones los datos vienen impuestos sin que el investigador haya podido supervisar el procedimiento de extracci´n. Mu˜oz M´rquez. J. o debe tenerse en cuenta que el test s´lo desestimar´ la hip´tesis si la o a o evidencia muestral en su contra es muy fuerte. P´rez Plaza. a continuaci´n se estudian test o de bondad de ajuste. F. L´pez S´nchez. Diagnosis del modelo e En este cap´ ıtulo se aborda en primer lugar la realizaci´n de cono trastes sobre la calidad de la muestra. S.uca. M. o a n a e A. agua o tierra. Fern´ndez Palac´ o a ın. En ocasiones. Pruebas de aleatoriedad En esta secci´n se abordar´ el estudio de la calidad de la muestra o a extra´ de la poblaci´n.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A.es/ebrcmdr Cap´ ıtulo 6 Inferencia no param´trica. los elementos de la muestra se han obtenido en un marco territorial o temporal. En estas situaciones es de esperar que las mediciones tomadas en un cierto entorno tengan ciertas analog´ o preıas . M. y aunque el procedimiento de obtenci´n deber´ ıda o o ıa garantizar unos niveles m´ ınimos de calidad.

23. 14.1105 En esta ocasi´n y puesto que p > 0. 05 no se rechaza la hip´tesis de o o independencia y se descarta la autocorrelaci´n de segundo orden. 27 y 30. ıa n Para comprobarlo se aplicar´ el test de autocorrelaci´n de Ljung-Box. Parece que de´ n ber´ existir influencia del PIB de a˜os precedentes sobre los posteriores. Para estudiar este tipo de situaciones se debe acudir a modelos espec´ ıficos. es comprobar si e existen muy pocas o muchas rachas. o > x<. en otras situaciones donde no se contempla esa variable de referencia.98 Cap´ ıtulo 6.test(x.test(x. Diagnosis del modelo e senten tendencias. Si se analiza la correlaci´n de segundo orden. 21. Sin embargo. 19. 05 se rechazar´ la hip´tesis de indepedencia lineal de primer orıa o den. 30) > Box. como son las series temporales o los modelos geoespaciales. 19. lag = 1. no adoptan las medidas para garantizar la independencia de las mediciones. 18.4046. 21. 22. 18. Inferencia no param´trica. en ambos casos existe un elemento que sirve de variable de referencia o longitudinal: la fecha o el posicionamiento gps. 23. que para un α = 0. se consideran los datos del PIB en billones de euros durante los ultimos diez a˜os: 13. si ´sta viene dada en forma de variable binaria.1 Para analizar si existe autocorrelaci´n entre los elementos de una mueso tra. 14. 27. entendiendo por racha al grupo de . se fija la opci´n lag=1. dado que p = 0. lag=2.c(13. por comodidad o descuido. p-value = 0. type = c(‘‘Ljung-Box’’)) Box-Ljung test data: x X-squared = 4. a o contemplando autocorrelaciones de primer y segundo orden. type = c(‘‘Ljung-Box’’)) Box-Ljung test data: x X-squared = 4.2281. 03976. Para la de primer orden. df = 2. p-value = 0. 22.03976 Lo que indica. Ejemplo 6. lag = 2. se tiene: o > Box. 20. o Otra perspectiva desde la que analizar la aleatoriedad de la muestra. las personas encargadas de realizar el muestreo. 20. df = 1. por lo que el valor del PIB del a˜o T influye sobre la del a˜o n n T + 1.

p-value = 0. puesto que p > 0. Si realmente e . si la variable se genera a partir de la a medici´n objetiva de alguna caracter´ o ıstica.5). Previamente habr´ que cara a gar el paquete tseries de series temporales. Ejemplo 6.factor(x>median(x)) se convierte a la variable x en dicot´mica. mezclando grupos de edad. La salida del procedimiento indica. aunque las opciones de la funci´n de R o admitir´ que se especificaran contrastes de car´cter unilateral. 2.3416. . que no hay evidencias para considerar los datos no aleatorios. .1797 alternative hypothesis: two. ıan a > runs. En principio el proo cedimiento de obtenci´n de la informaci´n deber´ ofrecer pautas para o o a decidir si la poblaci´n tiene una u otra estructura probabil´ o ıstica. t´ e ıpicamente la mediana. .sided Con la orden as. Si la variable no es de tipo binario.factor(x > median(x)) Standard Normal = -1. rechaz´ndose la hip´tesis nula tanto si existen muchas a o rachas como si hay muy pocas. sexos. bien desde el men´ o con u la instrucci´n library(‘‘tseries’’).6.factor(x>median(x))) Runs Test data: as. As´ ı.2 Pruebas de bondad de ajuste 99 valores consecutivos iguales interrumpido por uno de signo distinto. Pruebas de bondad de ajuste En este ep´ ıgrafe se contrastar´ si la estructura de la poblaci´n a o analizada se ajusta a una determinada distribuci´n. en el caso que m´s nos interesa. e a la excepci´n se dar´ cuando se haya considerado un conjunto de indivio a duos no homog´neos. 05. En este caso se realizar´ un cono a traste bilateral. dando c´digos distintos en funci´n de que el valor est´ por o o o e debajo o por encima de la mediana (20.2 Para analizar la independencia de los mismos datos del PIB del ejemplo anterior se aplicar´ ahora el test de rachas.test(as. ´sta ser´ en general normal. se la puede transformar para que lo sea asignando las clases de la dicotom´ en funci´n de que el elemento muesıa o tral est´ por encima o por debajo de un determinado valor.

a o ıtulo de An´lisis de a la Varianza. necesiten alguna transformaci´n para mejoo rar la simetr´ Se analizar´ esta cuesti´n en el cap´ ıa. uno para cuando los datos son continuos. se pueden solucionar mediante transformaciones de los datos.5 0. como es el test de Shapiro-Wilk.4 0. e o a si acaso.2 0. mientras que si.6 5 10 15 20 25 A continuaci´n se presentar´ un contraste espec´ o a ıfico de normalidad. sino de una medida de su abundancia respecto a una variable ambiental. un an´lisis exploratorio arroa jar´ una estructura probabil´ a ıstica multimodal. se recomienda el uso del test de Shapiro-Wilk para muestras peque˜as n ≤ 50. por tanto una transformaci´n loo gar´ ıtmica convertir´ a la abundancia en ıa una variable normal. o Ejemplo 6.3 En problemas ecol´gicos es muy habio tual que la abundancia de una especie tenga una distribuci´n de tipo lognoro mal respecto a los par´metros ambiena tales. no se trata de una medici´n de una cao racter´ ıstica de los individuos. Inferencia no param´trica. por el contrario. el de Kolmogorov-Smirnov. o En el caso de contrastes de normalidad. la poblaci´n f´ o ısica es homog´nea.0 0 0. Como se puede ver. mientras que si las muesn tras son grandes es preferible utilizar el test de Kolmogorov-Smirnov. y otro para variables categ´ricas. la distribuci´n presentar´. el test de la χ2 . Tambi´n e puede darse la circunstancia de que distribuciones que converjan a la normal en situaciones ideales y para muestras grandes. Distribución Lognormal: Media = 0.100 Cap´ ıtulo 6. Diagnosis del modelo e se han mezclado grupos de individuos. como es el caso de la binomial o la Poisson.3 0. Por ultimo.1 0. hay que indicar que en muchas ocasiones hay ´ que realizar una operaci´n de truncamiento para adaptar la distribuci´n o o te´rica al rango de valores de los datos en estudio. y un par de test gen´ricos para evae luar la bondad del ajuste. problemas de simetr´ en algunas ocasiones estos problemas ıa. SD = 5(escala log) 0. salvo que los datos vengan dados en una distribuci´n de frecuencias por o intervalos donde se emplear´ la χ2 . a .

6.2 Pruebas de bondad de ajuste 101 Ejemplo 6.4 El archivo de datos que se utilizar´ en este ejemplo es el caracoles.dat a que incluye las mediciones de dos variables, di´metro de las cona chas (mm) y separaci´n entre las espirales (µm), para un cono junto de 20 individuos adultos de una especie de caracoles. Dado el tama˜o de la muestra, se contrastar´ la hip´tesis de norn a o malidad mediante el test de Shapiro-Wilk. Utilizando en este caso Rcmdr y marcando las opciones Estad´sticos→Res´menes→ ı u Test de normalidad de Shapiro-Wilk... se obtiene el cuadro de di´logo, donde se selecciona la variable di´metro (Diam). a a En la ventana de resultados de Rcmdr se tiene tanto la instrucci´n de R como la salida o del procedimiento. En este caso el p-valor= 0, 6869 viene a indicar que los datos se pueden considerar normales.
>shapiro.test(Datos$Diam) Shapiro-Wilk normality test data: Datos$Diam W = 0.9668, p-value = 0.6869

Ejemplo 6.5 Se estudiar´ la normalidad de la variable peso del fichero a peso altura.dat. Dado que el n´mero de individuos es grande, n = 100, u se utilizar´ el test de Kolmogorov-Smirnov. En primer lugar, con Rcmdr a se calcula la media y la desviaci´n t´ o ıpica del conjunto de datos, resultando x = 73, 37 y σ = 12, 69. A continuaci´n se computar´n las diferencias ¯ o a entre la funci´n de distribuci´n emp´ o o ırica muestral y la distribuci´n te´rio o ca N (73, 37; 12, 69). Para ello se emplear´ el procedimiento ks.test. a
> ks.test(Datos$PESO,pnorm,73.37,12.69) One-sample Kolmogorov-Smirnov test data: Datos$PESO D = 0.136, p-value = 0.04939 alternative hypothesis: two-sided

102

Cap´ ıtulo 6. Inferencia no param´trica. Diagnosis del modelo e

En este caso y para un α = 0, 05 se rechaza la hip´tesis de que los o pesos sigan una distribuci´n normal. o

El test de Kolmogorov-Smirnov tambi´n se puede utilizar para e comparar las distribuciones emp´ ıricas de dos conjuntos de datos, para ello en la instrucci´n se sustituir´ la distribuci´n a ajustar por la o ıa o segunda variable. Ejemplo 6.6 Se generan mediante instrucciones de R dos muestras aleatorias de 100 y 150 elementos procedentes de distribuciones exponenciales de par´mea tros 1 y 1, 5, respectivamente, mediante las instrucciones:
x<-rexp(100,1); y<-rexp(150,1.5)

Aplicando de nuevo el test de Kolmogorov-Smirnov para comparar las funciones de distribuci´n emp´ o ırica de ambas muestras, se tendr´ ıa:
>ks.test(x,y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.2833, p-value = 0.0001310 alternative hypothesis: two-sided

Se puede comprobar que el test rechaza la hip´tesis de igualdad o de funciones de distribuci´n emp´ o ıricas con un p-valor= 0, 00013. El an´lisis de la bondad de ajuste de una serie de datos a una disa tribuci´n de probabilidad se estudia mediante el test de la chi-cuadrado o de Pearson. B´sicamente, el estad´ a ıstico χ2 eval´a las diferencias entre u los valores observados y los valores ajustados por la ley de probabilidad. Se ver´n a continuaci´n distintas situaciones y c´mo se resuelven con R. a o o Ejemplo 6.7 Para contrastar si un dado no est´ trucado se lanza 60 veces, obteni´ndoa e se los siguientes resultados:

6.2 Pruebas de bondad de ajuste 103 xi 1 2 3 4 5 6

ni 7 12 10 11 8 12 La hip´tesis a contrastar es que pi = 1/6, ∀i, con lo que se tiene o que Ei = 60(1/6) = 10, ∀i. Para resolver el contraste con R basta introducir el vector de frecuencias, n = (7, 12, 10, 11, 8, 12), y escribir las instrucciones de R.
> n< −c(7,12,10,11,8,12) >chisq.test(n) Chi-squared test for given probabilities data: n X-squared = 2.2, df = 5, p-value = 0.8208

A la vista del p-valor no se rechaza que el dado no est´ trucado. a

El test Chi-cuadrado permite contrastar la hip´tesis de indepeno dencia entre dos atributos organizados en tabla de contingencia. Ejemplo 6.8 Se desea analizar la relaci´n entre el nivel de estudios del padre y la o orientaci´n del alumno hacia las ciencias en un determinado instituto o de bachillerato. Se cuenta para ello con la informaci´n obtenida en el o centro. Estudios padre Orientaci´n Ninguno B´sico Medio Superior o a Orientado No orientado 23 18 12 42 34 16 32 27

Para contrastar esta relaci´n se introduce la matriz de datos en o Rcmdr como se describe en el ejemplo 3.1, obteni´ndose los siguientes e resultados:
> .Test <- chisq.test(.Table, correct=FALSE) > .Test Pearson’s Chi-squared test data: .Table X-squared = 24.1629, df= 3, p-value = 2.31e-05

Table p-value = 0.test(. 05 no se rechaza.104 Cap´ ıtulo 6. aunque existe la alternativa de aplicar el test Chi-cuadrado con la correcci´n de o Yates. observados los 482 estudiantes se tiene: Hombre Aficionado No aficionado 150 123 Mujer 97 112 Se introduce la matriz de datos de la misma forma que en el ejemplo 3. o aunque con poca evidencia. o ıa en la instrucci´n de dicho test. Para aplicar esta correcci´n bastar´ especificar. Para ello.1 seleccionando la opci´n de Prueba exacta de Fisher o >fisher. o o . Inferencia no param´trica. Diagnosis del modelo e Lo que indica que se rechaza la hip´tesis de independencia y existe o una relaci´n entre los estudios de los padres y la orientaci´n hacia las o o ciencias de sus hijos. o Ejemplo 6.9 En el conservatorio de m´sica de una ciudad se pretende estudiar la u relaci´n existente entre el sexo del alumnado y su afici´n por los instruo o mentos de viento.06655 alternative hypothesis: true odds ratio is not equal to 1 Por lo que para un nivel de significaci´n α = 0.correct=TRUE.Table) Fisher’s Exact Test for Count Data data: . la hip´tesis de independencia entre el sexo o y la afici´n a los instrumentos de viento. Para el caso de tablas 2×2 se aplica el test exacto de Fisher. o Se analizar´ ahora la bondad de ajuste de unos datos a una disa tribuci´n te´rica no uniforme.

0123 5 0.3949 1 0.6.0023 6 0. 4 y P (X ≥ 5) a mediante Rcmdr.1704 3 0. 1. lo hacen de forma independiente en un soporte continuo. Al objeto de analizar si los bombardeos eran indiscriminados o se hac´ con intenci´n. 2.10 Durante la Segunda Guerra Mundial los alemanes bombardearon en diversas ocasiones Londres.0004 7 0. A continuaci´n se o calcular´n las probabilidades P (X = i).929.Table Pr 0 0.0528 4 0. se estimar´ el par´metro de la Poisson a partir a a ˆ de la media muestral. se procedi´ a dividir la ıan o o ciudad en cuadr´ ıculas y a contar el n´mero de impactos en cada una de u ellas.2 Pruebas de bondad de ajuste 105 Ejemplo 6. con i = 0. >. de ser cierto. Las probabilidades discretas se obtienen en: Distribuciones→Distribuciones discretas→Distribuci´n de o Poisson→Probabilidades de Poisson. resultando que λ = 0. en t´rminos probabil´ o ıan e ısticos.0000 La probabilidad P (X ≥ 5) se obtiene desde: Distribuciones→ Distribuciones discretas→Distribuci´n de Poisson→ o . En primer lugar. 3. indicar´ ıa que la variable que mide el n´mero de impactos por cuadr´ u ıculas debe ser Poisson. tomando media= 0. Lo que. 929. Los resultados se recogen en la siguiente tabla Impactos 0 1 2 3 4 5 N´mero cuadr´ u ıculas 229 211 93 35 7 1 Las hip´tesis podr´ ser expresadas...3669 2 0. de la siguiente manera ( H0 : X ∼ P (λ) H1 : X ∼ P (λ) puesto que si las bombas caen indiscriminadamente.

las frecuencias de los valores que toma la variable en otro vector x y se aplica el test chi-cuadrado resultando: >p< −c(0. .8) >chisq. Contrastes de localizaci´n y escala o Si se desestima la hip´tesis de normalidad de los datos. siendo necesario utilizar contrastes no param´tricos.211.929.9067 Por lo que se puede afirmar de forma contundente.0.002682857 Con objeto de comprobar si se verifica la restricci´n de que todos o los valores esperados deben ser mayores a tres. lambda=0. p-value = 0.0150) >x< −c(229. De esta forma.0. se considera el rango o la posici´n que ocupa dicho elemento en la secuencia ordenada de las o diferencias. por lo que debe procederse a una agrupaci´n o de clases y considerar ahora P (X ≥ 4).0205.35. resulta: > ppois(c(4).0. dado el valor de p. se estudia si los datos muestrales est´n por encima o por debajo de la mediana.106 Cap´ ıtulo 6.0528. 0027 = 1.3949. Inferencia no param´trica. para la cola de la derecha y media= 0..1704.test(x. tomando valor(es) de la variable= 4 ya que Rcmdr realiza P (X > 4)=P (X ≥ 5)..015 = 8. Diagnosis del modelo e Probabilidades de Poisson acumuladas. muy en especial o respecto a la mediana.tail=FALSE) [1] 0.rescale.64 > 3. Se almacenan ahora estas probabilidades en un vector p. o bien.p=p.929.. no son o aplicables los test vistos en el cap´ ıtulo anterior basados en dicha distribuci´n. 3. se estudia la distancia ordenada a la que se encuentra de la mediana. df = 4. se analiza el signo a de su diferencia con la mediana. se calcula n · P [X ≥ 5] = 576 · 0. es decir.3669. Este tipo o e de test se basan en el an´lisis de la situaci´n de los elementos de la a o muestra respecto a determinadas medidas de posici´n.0.93. es decir. lower.5552 < 3. que los bombardeos alemanes fueron indiscriminados.p=TRUE) Chi-squared test for given probabilities data: x X-squared = 1. Se obtiene que n · P [X ≥ 4] = 576 · 0.

a las que se intentar´ dar respuesta con los ejemplos que a siguen.1: Test de Wilcoxon En todo caso.2228 alternative hypothesis: true location shift is not equal to 0 Lo que implica el no rechazo de la hip´tesis nula de igualdad de o .test(velocidad∼parque. en el men´ de Rcmdr se seleccioo u nan las opciones de men´. p-value = 0.11 Se estudiar´ mediante el test de Wilcoxon para muestras indepena dientes si las dos ubicaciones del parque e´lico.3 Contrastes de localizaci´n y escala o 107 Figura 6. alternative="two. cuya informaci´n se o o encuentra en el archivo eolico apilado.sided". 3. data=Datos) Wilcoxon rank sum test with continuity correction data: velocidad by parque W = 276269. dos muestras independientes y dos muestras apareadas. a Seleccionados los unicos elementos de la base de datos. Para ello.5.6.. Estad´sticos→Test no param´tricos→ u ı e Test de Wilcoxon para dos muestras. las situaciones a analizar son las mismas del cap´ ıtulo anterior: una muestra.dat.1. Dos muestras independientes Ejemplo 6.1. con lo que abre la ventana de di´logo 6. los resultados del an´lisis son: a > wilcox.. variable y ´ factor.. tienen la misma potencialidad e´lica.

o 3. de que la separaci´n o o mediana entre las espirales (variable Separ) de los caracoles del fichero caracoles. Para acceder al test. desde esta ´ptica.dat es menor o igual a 110 µm. Diagnosis del modelo e medianas. p-value = 0. Trabajando directamente con R se tiene: > wilcox. o 3.006617 alternative hypothesis: true location is greater than 110 Por lo que se rechaza la hip´tesis nula y se concluye que la sepao raci´n mediana es superior a 110 µm.. Se aplicar´ pues el test de o a Wilcoxon para muestras pareadas. con α = 0.mu=110) Wilcoxon signed rank test with continuity correction data: Datos$Separ V = 157..12 Se desea contrastar la hip´tesis nula. En este caso se quiere probar la afirmaci´n o del fabricante de que el tratamiento durante un a˜o con fenofibrato n reduce el fibrin´geno en al menos 50 puntos. la ubicaci´n del parque o o e´lico. 05.2. Inferencia no param´trica. Se supondr´ que los datos a son aleatorios pero no normales y se utilizar´ por tanto el test de Wilcoa xon para una muestra. se ejecuta la secuencia de Rcmdr: Estad´sticos→Test no param´tricos→Test de Wilcoxon ı e para muestras pareadas. suponiendo ahora que la distribuci´n de la diferencia o de medias no es normal.test(Datos$Separ. la eficacia del tratamiento con fenofibrato.108 Cap´ ıtulo 6. siendo indistinta. Dos muestras pareadas Ejemplo 6. . Una muestra Ejemplo 6.alternative=c("greater").13 Para documentar el caso de muestras pareadas se considera el mismo ejemplo que se us´ en el cap´ o ıtulo anterior.3.

6.test(Datos$FIB A. Datos$FIB D.01934 alternative hypothesis: true location shift is greater than 50 As´ para α = 0. 05 se rechaza la hip´tesis de que medA − medD ≤ ı o 50 y se concluye que el medicamento produce una disminuci´n de m´s o a de 50 puntos en el nivel de fenofibrato. p-value = 0. paired=TRUE. mu=50) Wilcoxon signed rank test with continuity correction data: Datos$FIB A and Datos$FIB D V = 354. bastar´ con retocar m´ a ınimamente la instrucci´n a˜adiendo o n al final de la l´ ınea la opci´n mu=50. o > wilcox. alternative=’greater’. .3 Contrastes de localizaci´n y escala o 109 Aunque las opciones de la ventana no admiten que se especifiquen diferencias.

compruebe la hip´teo sis de igualdad de las funciones de distribuci´n emp´ o ırica de dos muestras de tama˜o 200. generao dos aleatoriamente mediante ordenador. 561 0. Diagnosis del modelo e Ejercicios 6.6 Contraste si los datos de la siguiente muestra organizada como distribuci´n de frecuencias proceden de una Normal. 1] con un nivel de significaci´n α = 0.05.dat. 026 0. o 0.5 En un grupo de 100 personas se estudian los atributos color del cabello (moreno.3) previamenn te generadas. procedan de una distribuci´n o Uniforme en el intervalo [0. 132 0. 6. 994 0.1 Contraste la normalidad de la variable separaci´n entre las o espirales (Separ) del fichero caracoles.dat. marr´n. 179 0.3 Compruebe la hip´tesis de normalidad de la velocidad para o cada una de las ubicaciones en el fichero parque eolico. 6. obteni´ndose la siguiente tabla de contingencia: e Cabello Ojos Negros Marrones Azules Verdes Moreno 20 16 5 10 Rubio 8 2 8 5 Casta˜o n 4 11 8 3 ¿Est´n relacionados dichos atributos? a 6. rubio y casta˜o) y color de los ojos (negro. 619 6.1. n o azul y verde).2 Mediante el test de Kolmogorov-Smirnov. o . Inferencia no param´trica. procedentes de poblaciones N(0. 948 0.1) y N(0. 497 0. 081 0.110 4. 6. 501 0. 642 0. Cap´ ıtulo 6.4 Contraste la hip´tesis de que los datos siguientes. 582 0.

si es cierto que las formas 1 y 2 miden por igual la introversi´n.7 72. compruebe mediante el test de rangos de Wilcoxon. si la siguiente muestra de tama˜o 30 procede de una Normal. de las bater´ de 7 voltios.8 Con el fin de estudiar el tiempo de vida. con un nivel de significaci´n del o 5 %.5 Proponga un modelo de distribuci´n de probabilidad y estudie su ajuste.5 48.9 15.6. utilizando el contraste χ2 de bondad de ajuste. 1 y 2. 1] (1.7 Estudie.2 28. o Individuo 1 2 3 4 5 6 7 8 9 10 11 12 Forma 1 Forma 2 12 10 18 17 21 20 10 5 15 21 27 24 31 29 6 7 15 9 13 13 8 8 10 11 6. que se supone la miden por igual. 7] 1 3 7 12 6 2 1 111 6. 5] (5. n 107 93 104 96 88 116 91 101 87 80 109 93 103 102 106 88 99 102 101 93 89 106 86 96 112 100 104 106 99 90 6. A partir de los datos de la siguiente tabla.5 62. en horas. se extrae aleatoriamente un muestra de 10 de ellas.4 Ejercicios (Li−1 . ıas obteni´ndose los siguientes resultados: e 28. 2] (2. 3] (3. 4] (4.1 54. 6] (6.10 Para estudiar cu´l de los dos tratamientos contra la artrosis a es m´s eficaz se eligen aleatoriamente dos muestras de 10 y 22 pacientes a .9 Para medir la introversi´n se aplica a 12 individuos un test o de personalidad en sus dos variantes.4 37.6 49. o 6.6 52. Li ] ni (0.

. Inferencia no param´trica. respectivamente.112 Cap´ ıtulo 6. Diagnosis del modelo e a los cuales se les somete a los tratamientos 1 y 2. La tabla siguiente refleja los o a a resultados obtenidos. Pasados tres meses se valoran ambos tratamientos de manera que el que tenga mayor puntuaci´n ser´ m´s eficaz. Tratamiento 1 Tratamiento 2 12 15 21 17 38 42 10 23 35 28 21 18 42 25 14 52 65 40 43 35 18 56 29 32 44 15 68 41 37 43 58 42 Utilice el test de Wilcoxon para evaluar si existen diferencias entre los dos tratamientos.

En concreto. propiedad esta ultima conocida como ho´ mocedasticidad. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. F. No se propondr´ pues a ning´n modelo te´rico. de la poblaci´n y a si las distintas poblaciones tienen o varianzas iguales o distintas. o a n a e A. M. desde un punto de vista puramente abstracto el ANOVA va a permitir generalizar el contraste de igualdad de medias de dos a k poblaciones. = µk . A.uca. S. o el test de la F soporta mejor las deficiencias respecto a la normalidad que las relacionadas con la homocedasticidad. . En todo caso. Eso s´ al igual o ı. se evaluar´n las hip´tesis a o previas relativas a la calidad de la muestra. tiene un cierto grado de robustez frente a un relativo incumplimiento de alguna(s) de sus hip´tesis. M. Conceptos b´sicos a Aunque en origen el An´lisis de la Varianza (ANOVA) fue introa ducido por Fisher para evaluar los efectos de los distintos niveles de un factor sobre una variable respuesta continua. . a la estructura de probabilidad. sino que el objetivo se limitar´ a usar la t´cnica u o a e para contrastar la hip´tesis H0 : µ1 = µ2 = . Y esa es la perspectiva en la que se va a centrar este ultimo cap´ ´ ıtulo.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. como todos o e los procedimientos estad´ ısticos. Mu˜oz M´rquez. normal o no. L´pez S´nchez. Fern´ndez Palac´ o a ın. que se ha hecho para una y dos poblaciones. los test son menos sensibles a las desviaciones de las hip´tesis exigidas cuando el o .es/ebrcmdr Cap´ ıtulo 7 Introducci´n al An´lisis de la Varianza o a 1. El ANOVA en su versi´n param´trica del test de la F . P´rez Plaza. J. Arriaza G´mez.

Si falla. combinaciones de las mismas. 01 y 0. se preferir´ al de Scheff´. Si la conclusi´n del test aplicado fuera el rechazo de la hip´tesis o o nula. si o la muestra no est´ contaminada y no hay desviaciones importantes de a normalidad. los a contrastes de Duncan. u Como libro de ruta se propone que. Cuando se o d´ la normalidad pero no la homocedasticidad. por ser de uso m´s extendido. se comprobar´ la hip´tesis de homocedasticidad y a la vista a o . con valores de p entre 0. bien dos a dos o a trav´s de e combinaciones entre ellas. Bonferroni. ser´ m´s aconsejable a a a el test de Tukey o el de Scheff´. Newman-Keuls. los primeros pasos a dar son los de comprobar si las muestras son aleatorias y las poblaciones normales a trav´s de los test descritos en el cap´ e ıtulo anterior. cuando se verifiquen todas las hip´tesis exigidas la alternativa preferida sea el test de la F. la robustez a del test de la F le hace seguir siendo una buena opci´n. Por ultimo. Scheff´ y HSD de e Tukey. a Existe una gran cantidad de test que realizan las comparaciones m´ltiples. a e 2. debido a la naturaleza intr´ ınseca de los test. se recomienda el uso del test de Kruskal Wallis. aunque no de forma dr´stica la normalidad. El resultado final de estas comparaciones desembocar´ en u a un mapa de relaciones que. Diagnosis del modelo Como se ha puesto de manifiesto. 05. A continuaci´n. Dependiendo de que las comparaciones sean entre parejas de medias o m´s generales. sino que habr´ que ıa ıa evaluar las relaciones entre las k poblaciones. Cabe destacar. puesto que el de Tukey proporciona intervalos de confianza de menor longitud. se recomienda el uso del e test de Welch o el test de Kruskal Wallis. tratando cada uno de ellos de adaptarse mejor a determinau das circunstancias. mediante los denominados test de comparaciones m´ltiples. no verificar´ en general el principio de transitividad. no ocurrir´ como en el caso de dos poblaciones en el que claraıa mente una de ellas tendr´ media superior a la otra. o ´ si fallara fuertemente la normalidad. En el caso de comparaciones de parejas e de medias. Introducci´n al An´lisis de la Varianza o a n´mero de observaciones de las muestras es aproximadamente el mismo.114 Cap´ ıtulo 7.

cuando se trata de validar la normalidad de los datos. una vez cargados los datos. van a tender a no rechazar la hip´tesis nula o debido a la escasez de informaci´n. En particular. el factor tipo de cebada. Para mitigar el problema se recomienda realizar una transformaci´n de o los datos. menores de 10 elementos.1147 Dado que p-valor= 0. se aconseja la transformaci´n o √ arcsen p. p. data=Datos) Bartlett test of homogeneity of variances data: prod by tipo Bartlett’s K-squared = 5. cuando se tienen los datos en forma de tanto por uno.7. En Rcmdr. 1147 no se rechaza la hip´tesis de igualdad o de varianzas para los cuatro tipos del factor. Por ello. Utilizando el test de Barlett se estudiar´ la a homocedasticidad de los datos. se selecciona: Estad´sticos→Varianzas→Test de Barlett.test(prod∼tipo. si ´stos no se han obtenido por un e procedimiento de medici´n sino por observaci´n o conteo. En muchas ocasiones las muestras que se emplean son de tama˜ o n muy peque˜o. se emplear´ el test o a de homogeneidad de varianzas de Barlett. Puesto que ya se han a visto los test de aleatoriedad y de normalidad. Entre las transformaciones m´s importantes destacan la ra´ a ız cuadrada y la arco seno. tomando ı en la ventana de di´logo.1 El archivo cebada. pues en ese caso la distribuci´n de los mismos suele ser de tipo Poisson.2 Diagnosis del modelo 115 de ambas pruebas se elegir´ el contraste adecuado. se dedicar´ este ep´ a ıgrafe a validar la hip´tesis de homocedasticidad. df = 3. y dado que los test son en gen neral muy conservativos. en Grupos. La transformaci´n ra´ cuadrada se emplea o ız cuando los datos se obtienen a partir de un conteo de elementos. y a en la variable explicada la producci´n de la misma. Ejemplo 7. tipo. o > bartlett. es bueno a o o analizar la naturaleza de los datos. p-value = 0.9371. o adem´s de la aplicaci´n del contraste para validar la hip´tesis. Por o otra parte.dat contiene informaci´n sobre la producci´n de cuao o tro variedades de cebada. prod. Para ello. en este tipo de situaciones. . los datos no o o van a ser intr´ ınsecamente normales aunque pasen el test de normalidad. es decir que proceden de una binomial.

01 ’*’ 0. El test que se a utilizar´ ser´ el de la F.. En Rcmdr. Datos$Pueblo.8 --Signif.0 1499. Pueblo 1 Pueblo 2 Pueblo 3 Pueblo 4 78 85 90 77 69 52 48 60 35 51 47 82 91 85 74 70 57 61 45 46 Los datos se han recogido en el fichero alfabeto. na.40000 52. Introducci´n al An´lisis de la Varianza o a Test de la F En este ep´ ıgrafe se estudiar´ el contraste de igualdad de medias a suponiendo que los datos son normales y homoced´sticos..7 22.. que no es sino la generalizaci´n del test de la t a a o de student a k poblaciones.Anova) Analysis of Variance Table Response: Ind Df Sum Sq Mean Sq F value Pr(> F ) Pueblo 3 4499.Anova < − lm(Ind∼Pueblo. codes: 0 ’***’ 0.80000 48. obteniendo en Rcmdr la siguiente salida: > .433 5.dat. Suponiendo que los datos son normales y que las varianzas son iguales se aplicar´ el a test de la F.’ 0. se ha pasado un test a varios habitantes de cada una de ellas con los siguientes resultados. Ejemplo 7. Cap´ ıtulo 7.05 ’.632e-06 *** Residuals 16 1069.6 66. una vez cargados los datos.001 ’**’ 0.1 ’ ’ 1 > tapply(Datos$Ind.83333 80. se selecciona Estad´sticos→Medias→ANOVA de un factor.2 Para evaluar el ´ ındice de alfabetizaci´n de cuatro municipios de una o determinada comarca. data=Datos) > anova(. mean.25000 .116 3.rm=TRUE) # means P1 P2 P3 P4 79. lo que da acceso a ı la ventana de di´logo del procedimiento donde se indicar´n las variables a a a tratar.

043631 8.rm=TRUE) # std.183316 8. Datos$Pueblo. deviations P1 P2 P3 P4 8.1: Intervalos de confianza de Tukey > tapply(Datos$Ind.Anova) Puesto que el p-valor < 0. si se rechaza la hip´tesis o o nula de igualdad de medias se debe proceder a la realizaci´n de contrastes o de medias dos a dos. na.1.443933 7. . Comparaciones m´ ltiples u Bajo las mismas hip´tesis del test de la F. 001 se rechaza la hip´tesis de igualdad o de medias en el ´ ındice de alfabetizaci´n de los cuatro municipios.na(x))) # counts P1 P2 P3 P4 5 6 5 4 > remove(. function(x) sum(!is.973916 > tapply(Datos$Ind. Datos$Pueblo.3 Test de la F 117 Intervalo de confianza del 95% P2 − P1 ( ) P3 − P1 ( ) P4 − P1 ( ) P3 − P2 ( ) P4 − P2 ( ) P4 − P3 ( −40 −20 ) 0 20 40 Figura 7.7. o 3. sd.

5500 -43. Se accede mediante la misma secuencia de men´. xlab=‘‘ ’’. main=‘‘Intervalo de confianza del 95 %’’. Estad´sticos→Medias→ANOVA de un factor. a u ı la ventana de introducci´n de datos y opciones.1295 -16.8607 Linear Hypotheses: Estimate lwr upr P2 .1926 15.P1 == 0 -30. An´lisis gr´fico: a a Por otra parte.P1 == 0 -27.5.main=‘‘blue’’.1).2399 -11.Pairs < − glht(.4038 45.Pairs) Simultaneous Confidence Intervals for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: lm(formula = Ind∼Pueblo.. linfct = mcp(Pueblo = ‘‘Tukey’’)) > confint(. Adem´s de la salida anterior Rcmdr crea dos bloques de instruca ciones.5143 P4 .axis=‘‘blue’’) > par(old. que P2 es igual a P4 y menor que P3 y que P3 es mayor que P4 .3 Con los datos del ejemplo anterior y puesto que se ha rechazado la hip´tesis de igualdad global se realizar´n las comparacioo a nes de medias dos a dos. e > .P1 == 0 0.4601 95 % family-wise confidence level El an´lisis de la salida lleva a que P1 es igual a P3 y mayor que P2 a y P4 . col= ‘‘red’’.P2 == 0 31..6000 -14.oma) > remove(.oma < − par(oma=c(0.0.3926 P4 . Introducci´n al An´lisis de la Varianza o a Ejemplo 7.7295 P4 .8399 -12. una que genera la salida num´rica de intervalos para las diferene cias de medias y otra que construye el gr´fico de dichos intervalos. data = Datos) Estimated Quantile = 2.4167 -11. col..1500 -43.P3 == 0 -28.8038 P3 .0)) > plot(confint(. marcando ahora o Comparaciones dos a dos de las medias.col.Pairs).9667 -45. > old.6810 18. a An´lisis num´rico: a e El siguiente grupo de instrucciones crea la salida num´rica. el siguiente grupo de instrucciones crea el gr´fico a de intervalos de confianza para la diferencia de medias (figura 7.118 Cap´ ıtulo 7.Anova.Pairs) .8601 P3 .5667 17.P2 == 0 3.

C. si fallan las hip´tesis de normalidad y/o o homocedasticidad se debe recurrir a una alternativa no param´trica para e realizar el test de igualdad de medias. > tapply(DatosKm. B.4 Suponga que se desea comparar el rendimiento de 5 tipos de neum´ticos. abri´ndose la coe e rrespondiente ventana de di´logo donde se seleccionan variable y factor. Los datos han sido ala macenados en el fichero neumaticos. a en este caso Km y Neum. Ejemplo 7. En Rcmdr se activa la secuencia de men´ Estad´sticos→ u ı Test no param´tricos→Test de Kruskal Wallis. Test de Kruskal Wallis e 119 Como se ha indicado. Dicho test es una prueba basada en rangos con signos y es una generalizaci´n del test de Wilcoxon al caso o de k muestras. a A.dat dentro del repositorio de datos. Rcmdr proporciona en primer lugar las medianas de cada grupo y seguidamente el estad´ ıstico de Kruskal Wallis junto con su p-valor. para lo que decide probarlos en distintos coches de similares caracter´ ısticas.4 Alternativa no param´trica. Test de Kruskal Wallis e 4.7. DatosNeum. medidas en miles de kil´metros. median. Sus vidas medias en rodaje.rm=TRUE) A B C D E 68 53 72 57 65 . vienen dadas en la siguiente tabla: o Llantas A B C D E 68 72 60 48 64 Vidas medias 72 53 82 61 65 77 63 64 57 70 42 53 75 64 68 53 48 72 50 53 Para contrastar que no hay diferencias entre los cinco tipos de neum´ticos se elige el test de Kruskal Wallis. D y E. La soluci´n m´s extendida la o a proporciona el test de Kruskal Wallis. Alternativa no param´trica. na.

Introducci´n al An´lisis de la Varianza o a > kruskal. se concluye que no hay diferencias significativas entre los rendimientos de los cinco tipos de neum´ticos. p-valor = 0.1651 A la vista de los resultados.test(Km∼Neum. p-value = 0.4949. a .120 Cap´ ıtulo 7. df = 4. 1651. data=Datos) Kruskal-Wallis rank sum test data: Km by Neum Kruskal-Wallis chi-squared = 6.

1 7. Nivel I Nivel II Nivel III 8.7. 46 4. 2 Vend. 8 2. 11 5. 9 ¿Puede considerarse que la proporci´n de fondos es igual indepeno . 69 8. o con los siguientes resultados: ´ Ambito Tipo II Tipo III Generaci´n bruta de fondos o 4.1 Estudie. 7 2.2 Una empresa tiene en un establecimiento cuatro vendedores y pretende asignar primas en funci´n de las ventas. si las medias de los tres niveles de un determinado factor son iguales. Ejercicios 121 7. 5 2. De no ser as´ elabore el ı ranking en raz´n de las ventas. 5 8. 7 Europeo 0. 37 7. 8 0. 06 7. 9 7. 45 5. 4 3. 21 5. indique si ´ los cuatro vendedores son igualmente eficaces. 9 3. 1 Vend. 13 6.3 A partir de la cuenta de resultados que presentaban 13 entidades financieras englobadas en los ´mbitos europeo. 33 5. A la vista de la o tabla de ventas en los ultimos cinco meses (miles de euros). 00 7. 8 2.5 Ejercicios 5. 7 3. 83 5. 57 8. 4 6. 2 13. 23 4. 30 6. 4 12 13. 2 9. 0 1. o Vend. 94 4. 72 5. 6 8. 79 5. 2 2. a partir de la tabla de datos porcentuales que se da. nacional y regional a se ha calculado el porcentaje destinado a la generaci´n bruta de fondos. 1 9. 89 5. 3 Vend. 60 8. 1 6. 17 4.

¿Hay evidencia estad´ ıstica suficiente para afirmar que las medias son diferentes? De ser as´ ¿existen tipos de fertilizante ı. Suponer que la distribuci´n para o o cada porcentaje son aproximadamente normales y se da la homogeneidad de las varianzas. Se sospecha que la resistencia est´ relacionada con e a el porcentaje de algod´n en la fibra.dat.122 Cap´ ıtulo 7. que no se diferencien entre s´ ı? 7. se emplean cinco niveles de porcentaje de algod´n. obteni´ndose para cada serie los resultados que aparecen en e el fichero plantas.5 Un fabricante est´ interesado en la resistencia a la tensi´n a o de una fibra sint´tica. Introducci´n al An´lisis de la Varianza o a dientemente del ´mbito de actuaci´n? a o 7. para lo cual se han medido las longitudes de cinco series de 10 plantas. Para ello. Se desea estudiar si el tipo de fertilizante influye en la longitud de la planta.4 Una cierta planta ha sido cultivada con cinco fertilizantes distintos. De 5 r´plicas aleatorias se obtienen los siguientes datos: o e Porcentaje de algod´n o 15 20 25 30 35 1 7 12 14 19 7 2 7 17 18 25 10 3 15 12 18 22 11 4 11 18 19 19 15 5 9 18 19 23 11 ¿Puede considerarse que la resistencia de las prendas es la misma independiente del porcentaje de algod´n presente en sus fibras? o .

B. M.dat Contiene informaci´n sobre la producci´n de cuatro varieo o dades de cebada A.uca. J. Fern´ndez Palac´ o a ın.dat Los datos del fichero parque eolico. Estos datos permiten u trabajar m´s c´modamente en Rcmdr. una num´rica weight: peso y un factor feed: tipo de alie mentaci´n. a o fenofibrato. antes y deso pu´s de ser tratados durante un a˜o con fenofibrato.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A.dat apilados seg´n las variables velocidad y parque. L´pez S´nchez. P´rez Plaza.es/ebrcmdr Ap´ndice A e Ficheros de datos Puede accederse a los ficheros documentados en esta secci´n en la o direcci´n http://knuth. o caracoles. Peso de 71 pollos sometidos a distintos tipos de alimentaci´n Contiene dos o variables. Arriaza G´mez.dat Niveles de fibrin´geno de 32 pacientes. cebada.uca. o eolico apilado. chickwts Datos contenidos en el paquete “datasets” de R. S. .es/ebrcmdr. con 6 niveles. e n iris Datos contenidos en el paquete “datasets” de R. C y D. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. F. o a n a e A. A. M. Mu˜oz M´rquez.dat Conjunto de datos que recoge las medidas del di´metro a y la separaci´n entre espirales (µm) de las conchas de 20 caracoles o adultos. Provienen del famoso estudio realizado por el estad´ ıstico y genetista Sir Ronald A.

dat Recoge informaci´n sobre el naufragio del buque Titanic o ´ (estatus econ´mico.dat N´mero de virus reproducidos en funci´n del tiempo (minutos) y de la temperatura (grados). neumaticos. a . Fuente: Instituto Estad´ ıstico de Andaluc´ ıa. probados en distintos o coches de similares caracter´ ısticas. peso altura. IECA o placebo). medidas en miles de kil´metros. seg´n el tipo de u cultivo (´cido. C. a B. edad y supervivientes). a e u o reproduccion vir.dat Nivel acad´mico de la poblaci´n gaditana. sexo. e o niv estudios cadiz. Las variables de estudio son la longitud y el ancho del s´palo y.dat Mediciones de la velocidad del viento (m/s) en dos localizaciones alternativas (Parque1 y Parque2) registradas de forma simult´nea durante 730 horas. D y E. versicoo lor y virginica). altura y presi´n arterial inicial y final de un grupo de 100 pacientes sometidos o a cierto f´rmaco (Ca Antagonista + diur´tico. sobre la clasificaci´n de 3 especies de iris (setosa.124 Ap´ndice A. b´sico o neutro). Ficheros de datos e Fisher.dat Vidas medias en rodaje de 5 tipos de neum´ticos A.dat Fichero en el que se proporcionan peso. a a titanic. Este es el fichero o incluido en el paquete “datasets” de R y est´ modificado para que a se cargue correctamente en Rcmdr. parque eolico. la longitud y el ancho del p´talo de las 3 especies e e mencionadas.

L´pez S´nchez.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. Mu˜oz M´rquez. > mean(datos) > median(datos) > var(datos) > sd(datos) > var(datos)* (length(datos)-1)/length(datos) Cuantiles Medidas de centralizaci´n o Media Mediana Medidas de dispersi´n o Cuasivarianza Cuasidesviaci´n t´ o ıpica Varianza . Arriaza G´mez. P´rez Plaza. F. M. J.p) con p vector de cuantiles deseados. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. o a n a e A.es/ebrcmdr Ap´ndice B e Tabla de medidas estad´ ısticas En la siguiente tabla se ofrece un resumen de las medidas m´s a usadas en estad´ ıstica descriptiva con sus correspondientes instrucciones en R Medidas de posici´n o Instrucciones en R > quantile(datos. > quantile(datos) obtenemos todos los cuartiles. M. A. S.uca. Fern´ndez Palac´ o a ın.

.126 Ap´ndice B. Tabla de medidas estad´ e ısticas Instrucciones en R >sqrt(var(datos)* (length(datos)-1)/length(datos)) >max(datos)-min(datos) >quantile(datos.75) -quantile(datos.25) >sd(datos)/abs(mean(datos)) En el paquete fBasics >kurtosis(datos) >skewness(datos) Medidas de dispersi´n o Desviaci´n t´ o ıpica Rango muestral Rango intercuart´ ılico Coeficiente de variaci´n o Medidas de forma Coeficiente de curtosis Coeficiente de asimetr´ ıa ..

Arriaza G´mez. S. A. F. J.uca.Ap´ndice C e Tabla de modelos Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. o a n a e A. Mu˜oz M´rquez. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. M.es/ebrcmdr . L´pez S´nchez. P´rez Plaza. M. Fern´ndez Palac´ o a ın.

data=Datos) Y = a + Y = data=Datos) Lineal >glm(f´rmula. e independiente data=Datos) Potencial >lm(log(Y ) ∼ log(X). Gamma. binomial. data=Datos) Ecuaci´n o Y = a+b·X Y =a·X Y = a0 + a1 · X+ + · · · + an · X n Y = a1 · X+ + · · · + an · X n Y = a′ · X b .128 Ap´ndice C. family= o (2) generalizado =familia(link). inverse. data=Datos) Exponencial >lm(log(Y ) ∼ X. (1) Los coeficientes a y b obtenidos en Rcmdr corresponden a la ecuaci´n log(Y ) = a + b · log(X). data=Datos) Y = a + b · log(X) 1 b a+ X Doble inverso >lm(I(1/Y ) ∼ I(1/X). Tabla de modelos e Modelo Lineal Instrucci´n o >lm(Y ∼ X. (1) Lineal sin t´rmino >lm(Y ∼ 0 + X. o . data=Datos) Polinomial >lm(Y ∼ 0 + X + I(X 2 )+ sin t´rmino +I(X 3 ) + · · · + I(X n ). Podemos ver las distintas opciones consultando en la ayuda de R la funci´n family (help(family) o ?family). data=Datos) Y = ea+b·X Hiperb´lico o >lm(Y ∼ I(1/X).gaussian. poisson. quasibinomial y quasipoisson. data=Datos) b X Logar´ ıtmico >lm(Y ∼ log(X). con lo que el modelo potencial ser´ o ıa Y = ea · X b . data=Datos) e independiente Polinomial >lm(Y ∼ X + I(X 2 )+ +I(X 3 ) + · · · + I(X n ). (2) familia puede tomar los valores gaussian. La funci´n de enlace (link) puede tomar distintos valores seg´n la familia seo u leccionada.

Sign up to vote on this title
UsefulNot useful