Estad´ ıstica B´sica a con R y R–Commander

Estad´ ıstica B´sica a con R y R–Commander
(Versi´n Febrero 2008) o Autores: A. J. Arriaza G´mez o F. Fern´ndez Palac´ a ın M. A. L´pez S´nchez o a M. Mu˜oz M´rquez n a S. P´rez Plaza e A. S´nchez Navas a

Una traducci´n de la licencia est´ incluida en la secci´n titulada “Licencia de o a o Documentaci´n Libre de GNU”. A copy of the license is included in the section entitled “GNU Free Documentation License”. distribute and/or a modify this document under the terms of the GNU Free Documentation License.es/publicaciones ISBN: Dep´sito legal: o .Copyright c 2008 Universidad de C´diz. Version 1. Versi´n 1. Se concede permiso para copiar. o Copyright c 2008 Universidad de C´diz.2 o cualquier otra versi´n posterior publicada por la Free Software Founo o dation.2 or any later version published by the Free Software Foundation. Mara˜on. Permission is granted to copy.uca. distribuir y/o a modificar este documento bajo los t´rminos de la Licencia de Documentaci´n Libre de e o GNU. Edita: Servicio de Publicaciones de la Universidad de C´diz a C/ Dr. 3 n´ 11002 C´diz a http://www.

. . . . . . . o 2. . . . . . . IX o 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1. . . . . . . . . . . Introducci´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Instalaci´n de R y R–Commander . . . VIII 3. Licencia de Documentaci´n Libre de GNU . . .´ Indice general Pr´logo o 1. . . . . . . . . . . . . . . . . . o o 5 6 . . . XIX 1 Comenzando con R . . . . . . . o 2. GNU Free Documentation License . . . . . . Introducci´n . . . . . . . . Ejecuci´n de Rcmdr . . . . . . . . . . . . . . . . . . . o 1 1 3 4 2 An´lisis Exploratorio de Datos Unidimensional . 1. . . . . . . . . . . . . . . . . . . . . . . History (Hist´rico) o V V . . . . . . . . La organizaci´n de la informaci´n . . . . . . . o 3.

. . . . . . . . An´lisis de variables ordenadas . . . . . . . . . . . . . . . . An´lisis de relaciones entre dos atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3 An´lisis Exploratorio de Datos multidimensional . . 24 2. . 75 5 Inferencia cl´sica en poblaciones Normales . . . . . . . Conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . Generaci´n de valores aleatorios . . . . . . . . . . . . . . . 31 a 4. . . . . . 50 4 Distribuciones de Probabilidad . . . . . . 55 1. . . 17 a 6. . . . . . . . . 8 3. 13 a 5. . . . . . . . . . . . . . . . . . Distribuciones discretas . . An´lisis de relaciones entre dos variables . Distribuciones continuas . . . . . . . . . 64 3. .II ´ Indice general 2. . . . . . . . . . . . . . 81 a 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . An´lisis de atributos . . An´lisis de variables de escala . . . . . . . . . . . . . . . . 25 a 3. 73 o 4. Ejercicios . . . . 11 a 4. . . Tipos de relaciones entre caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Naturaleza de los caracteres: Atributos y Variables . . 23 a 1. . . . . 81 . . . 58 2. . . . . . Ejercicios . . . . . . Ejercicios . . .

. Pruebas de aleatoriedad . . . . . 110 7 Introducci´n al An´lisis de la Varianza . . . . .III 2. . . 127 . . . . . . . 121 A Ficheros de datos . . . . . . . . . . . . . Conceptos b´sicos . . . . . . . . . . . . . . Test de la F . . . . . . Pruebas de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . 113 a 2. . . . . . . . . . . 99 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 e 1. . . . . . . . . . . . . . 116 4. . . . . Diagnosis del modelo . . . . . . . . . . . . . . . . 119 e 5. . . . . . . . . . . . . . . . . . . . . . . . . Test de Kruskal Wallis . . . . . . . . 93 6 Inferencia no param´trica. . . Alternativa no param´trica. . . . . . . . . . . . . . . . . . . . . 88 4. 113 o a 1. . . . . . . 106 o 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 C Tabla de modelos . . . Ejercicios . . . Inferencias sobre dos poblaciones . . . . . . . . . . Ejercicios . . . . 85 o 3. . . . . . . . . . . . . . Inferencias sobre una poblaci´n . . . . . . . . . . . . . . . . . 123 B Tabla de medidas estad´ ısticas . . . . . Diagnosis del modelo . . . 97 2. . . . . . . . . . Contrastes de localizaci´n y escala . . . . . . . . Ejercicios . . . 114 3. . . . . . . . . . .

IV .

M. Mu˜oz M´rquez. establece coo mo objetivo fundamental: “La creaci´n. En concreto. ı u La creaci´n de la Oficina de Software Libre (OSLUCA) el 15 de o marzo de 2004. defender y promover los valores sociales e individuales que le son propios. el pluralismo. S. o a n a e A. tales como la libertad. el respeto de las ideas y el esp´ ıritu cr´ ıtico. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. transmisi´n y cr´ o o ıtica de la ciencia. Desde un plano mucho m´s modesto. P´rez Plaza. as´ como la b´squeda de la verdad”.uca. F. Introducci´n o La Universidad de C´diz es pionera en Espa˜a en la b´squeda de a n u soluciones de conocimiento abierto. A. Mientras que en el Punto 6 del mismo art´ ıculo dice: “Acoger. Fern´ndez Palac´ o a ın. el Punto 1 del Art´ o ıculo 2 de sus Estatutos.es/ebrcmdr Pr´logo o 1. L´pez S´nchez. la t´cnica y la cultura y su integraci´n en el patrimonio e o intelectual heredado”. consciente de que es la forma m´s a eficiente de lograr sus objetivos institucionales relacionados con la docencia y la investigaci´n. son actuaciones que ponen de manifiesto o el decidido apoyo del Equipo de Gobierno de la UCA a las soluciones basadas en formatos abiertos. que describe los fines esenciales de la instituci´n. M. Arriaza G´mez. desarrollo. bajo el auspicio del Vicea rrectorado de Tecnolog´ de la Informaci´n e Innovaci´n Docente y ıas o o a trav´s de la Oficina de Software Libre de la Universidad de e .Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. la aprobaci´n de la Normativa para el intercambio de o informaci´n institucional el 27 de septiembre de 2004 y la utilizaci´n o o de herramientas de formato abierto en las aplicaciones de comunicaci´n o y gesti´n de la Universidad. J.

cuyas l´ a ıneas principales de actuaci´n pueden consultarse en la p´gina web del proyeco a to http://knuth. pensamos que o una instituci´n como la Universidad debe preocuparse por proveer a sus o miembros de las mejores herramientas para desarrollar su tarea. sino a hacer an´lisis estad´ n a ısticos con el apoyo de una herramienta que facilitara el c´lculo y la aplicaci´n de los a o procedimientos. el docente. tuvimos claro que no quer´ ıamos ense˜ar a manejar un programa. nace el Proyecto R UCA. Dicho proyecto. servir como generador de instrucciones R. en aras de la mejora global del conocimiento. en primera instancia. contempla. siendo en el primero o o de estos aspectos. De ah´ el nombre del libro: “Estad´ ı ıstica b´sica con R y a Rcmdr”. Es posible . en segundo lugar. La decisi´n de elegir R fue f´cil. ¿c´mo se va a fomentar ese esp´ o ıritu con el uso de herramientas absolutamente herm´ticas?. El uso de software propietario en ´reas como la Estad´ a ıstica.VI C´diz (OSLUCA). cuando o nos planteamos confeccionar este manual. no s´lo o tiene consecuencias negativas desde un punto de vista econ´mico.es/R. donde existen alternativas con igual o mejor calidad con licencia libre. En la misma l´ ınea que nuestros ´rganos de gobierno. El incorporar la interfaz gr´fica de usuario a (GUI) Rcmdr pretende. y que adem´s limita fuertemente el uso que se haga de los resultados a que se consigan a partir de ellas. Pero la creaci´n de conocimiento se o ver´ muy mermada si se emplean soluciones tecnol´gicas que se ofrecen a o como cajas negras. la elaboraci´n de material para la docencia y la investigaci´n. facilitar el manejo de R y. y si alguien consiguiera e descifrarlas y manipularlas se convertir´ formalmente en un delincuente. cantidad de recursos y manejabiu lidad que posee R. en el que se enmarca este manual. porque limita el ejercicio e de uno de los aspectos que mejor caracterizan a nuestra instituci´n: su o esp´ ıritu anal´ ıtico y cr´ ıtico. entre otras acciones. ning´n otro programa en la actuao a u lidad re´ne las condiciones de madurez. sino o que supone un aut´ntico “harakiri” intelectual.uca. ıa Centr´ndonos en los aspectos intr´ a ınsecos de la cuesti´n. adem´s de ser el que tiene una mayor implantaci´n a o en la comunidad cient´ ıfica. es decir que no pueden ser analizadas ni modificadas.

donde se presenta de forma muy sucinta el software. y as´ salvo el primer ı.0. Los autores. pero unos pocos y la mayor´ del personal ıa investigador. una vez superado el respeto inicial a la herramienta. . El esquema de presentaci´n de los temas incluye una breve o descripci´n de los conceptos. puesto que para entonces consideramos que nuestros e alumnos est´n bien familiarizados con la sintaxis de las funciones de R. Al objeto de facilitar el uso del software. en parte por necesidad y en parte por motivos estrat´gicos. la resoluci´n de una serie de ejemplos con o o la ayuda de R y la propuesta de ejercicios para evaluar los conocimientos adquiridos. Distribuciones de Probabilidad. A partir del a a cap´ ıtulo 5 aumenta el uso de funciones construidas directamente en el indicador de mandatos. ponemos a o nuestro trabajo a disposici´n de la comunidad cient´ o ıfica para que se hagan las mejoras. Inferencia Param´trica y no Param´trica y An´lisis de la Varianza de e e a un Factor. dado que se trata de la primera versi´n. a Esperamos que este manual sea de utilidad y. creando y a editando instrucciones con una evidente econom´ de recursos y. el libro pretende abarcar las necesidades pr´cticas de un programa b´sico de estad´ a a ıstica. Respecto a los contenidos.1 Introducci´n o VII que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona Rcmdr. ampliaciones y adaptaciones que se deseen. en cualquier caso y con m´s motivos. con un control total sobre los procedimientos que en a cada momento se van a aplicar. se decantar´n por manejarse directamente con la consola de R. el resto est´ dedicado a los t´picos habituales de un curso introductorio: An´lisis a o a Exploratorio en una y dos Dimensiones. lo que ıa es m´s importante. los primeros cap´ ıtulos est´n soportados b´sicamente sobre la interfaz Rcmdr. cap´ ıtulo.

e n a ı o a Fernando Fern´ndez Palac´n y Antonio Jes´s Arriaza G´mez.es/ebrcmdr . a ı u o Una versi´n electr´nica de este documento se encuentra en: o o http://knuth. Manuel Mu˜oz M´rquez. Mar´a Auxiliadora L´pez S´nchez.VIII 2. La g´nesis est´ en la creaci´n del proyecto R UCA en mayo a e a o del 2007 y su primera versi´n ve la luz en enero de ese mismo a˜o. Los o n autores en orden alfab´tico inverso son Antonio S´nchez Navas.uca. History (Hist´rico) o Este libro surge como material de apoyo a un curso de estad´ ıstica b´sica con R. Sonia e a P´rez Plaza.

1´ . n Esta es la traducci´n del Copyright de la Licencia. and does not legally state the distribution terms for documentation that uses the GNU FDL – only the original English text of the GNU FDL does that. Se permite la copia y distribuci´n de copias literales de este documento de licencia. Sin embargo. o ın Copyright (C) 2000. However. o http://www. we hope that this translation will help Spanish speakers understand the GNU FDL better. estrictamente. It was not published by the Free Software Foundation. No ha sido publicao n da por la Free Software Foundation y no establece legalmente los t´rminos e de distribuci´n para trabajos que usen la GFDL (s´lo el texto de la vero o si´n original en Ingl´s de la GFDL lo hace). En segundo t´rmino. libro de texto. que es una licencia tipo copyleft u dise˜ ada para el software libre. Licencia de Documentaci´n Libre de GNU o This is an unofficial translation of the GNU Free Documentation License (Version 1.2. no es el Copyright de esta o traducci´n no autorizada.org/copyleft/fdl. esperamos que o e esta traducci´n ayude los hispanohablantes a entender mejor la GFDL. lo que significa que los trabajos derivados del documento deben a su vez ser libres en el mismo sentido. quien publica. Sin embargo la responsabilidad o a de su interpretaci´n es de Joaqu´ Seoane. sin que se le considere responsable de las modificaciones realizadas por otros. En castellano a editor se usa para ambas cosas. Pre´mbulo a El prop´sito de esta Licencia es permitir que un manual. MA 02111-1307 USA. Esta Licencia es de tipo “copyleft”. pero no se permiten o cambios1 .2. Noviembre 2002) into Spanish. diferente de editor. 2002 Free Software Foundation.html Esta traducci´n est´ basada en una o a de la versi´n 1.1 de Igor T´mara y Pablo Reyes. Boston. o 2 La licencia original dice “publisher”. La o versi´n original de la GFDL esta disponible en la Free Software Foundation. ´ Esta es una traducci´n no oficial de la GNU Free Document License o (Versi´n 1. con o sin modificaciones. de manera comercial o no. u o otro documento escrito sea “libre” en el sentido de libertad: asegurar a todo el mundo la libertad efectiva de copiarlo y redistribuirlo. Complementa la Licencia P´ blica General de GNU. Inc. que es. Noviembre 2002) a Espa˜ ol (Castellano). 59 Temple Place. que es m´s bien quien prepara un texto para publicar. 2001.IX 3.gnu. Suite 330. esta Licencia proporciona al e autor y al editor2 una manera de obtener reconocimiento por su trabajo.

filos´fica. es que no las tiene. u Una “Versi´n Modificada” del Documento significa cualquier trabajo o que contenga el Documento o una porci´n del mismo. a Recomendamos esta licencia principalmente para trabajos cuyo fin sea instructivo o de referencia. Pero esta licencia no se limita a manuales de software. Si el Documento no identifica las Secciones Invariantes. modifica o distribuye el trabajo de cualquier modo que requiera permiso seg´ n la ley de propiedad intelectual. a Usted acepta la licencia si copia. sin tener en cuenta su tem´tica o si se publica como libro impreso o no.X Hemos dise˜ ado esta Licencia para usarla en manuales de software libre. que contenga una nota del propietario de los derechos de autor que indique que puede ser distribuido bajo los t´rminos de esta Licencia. ya sea una copia literal o o con modificaciones y/o traducciones a otro idioma. El documento puede o no tener Secciones Invariantes. o o o comercial. ´tica o pol´ o e ıtica acerca de ellos. La relaci´n puede ser a o una conexi´n hist´rica con el tema o temas relacionados. en cualquier soporte. Cualquier persona es un licenciatario y ser´ referido como “Usted”. Aplicabilidad y definiciones Esta Licencia se aplica a cualquier manual u otro trabajo. puede usarse para cualquier texto. En u ı adelante la palabra “Documento” se referir´ a cualquiera de dichos manuales a o trabajos. Tal nota e garantiza en cualquier lugar del mundo. Los “Textos de Cubierta” son ciertos pasajes cortos de texto que se listan como Textos de Cubierta Delantera o Textos de Cubierta Trasera en la nota que indica que el documento es liberado bajo esta Licencia. o una opini´n legal. si el Documento es en parte un texto de matem´ticas. Las “Secciones Invariantes” son ciertas Secciones Secundarias cuyos t´ ıtulos son designados como Secciones Invariantes en la nota que indica que el documento es liberado bajo esta Licencia. Una “Secci´n Secundaria” es un ap´ndice con t´ o e ıtulo o una secci´n o preliminar del Documento que trata exclusivamente de la relaci´n entre los o autores o editores y el tema general del Documento (o temas relacionados) pero que no contiene nada que entre directamente en dicho tema general (por ejemplo. n ya que el software libre necesita documentaci´n libre: un programa libre debe o venir con manuales que ofrezcan la mismas libertades que el software. no puede designarse como Invariante. una Secci´n a o Secundaria puede no explicar nada de matem´ticas). Si una secci´n no entra en la definio ci´n de Secundaria. sin pago de derechos y sin l´ ımite de tiempo. Un Texto de . el uso de dicho trabajo seg´ n las condiciones aqu´ estipuladas. 1.

Ejemplos de formatos de imagen transparentes son PNG. Una copia que no es “Transparente” se denomina “Opaca”. y uno de Cubierta Trasera puede tener hasta 25 palabras. como “Agradecimientos”. “Conservar el T´ ıtulo” de tal secci´n cuando se modifica el Documento significa que permanece una secci´n o o “Titulada XYZ” seg´ n esta definici´n3 . Una copia “Transparente” del Documento. “Endorsements” e “History”. y que sea u adecuado como entrada para formateadores de texto o para su traducci´n auo tom´tica a formatos adecuados para formateadores de texto. Los formatos Opacos incluyen formatos propietarios que pueden ser le´ ıdos y editados unicamente en procesadores de palabras propietarios. ´ SGML o XML para los cu´les las DTD y/o herramientas de procesamiento a no est´n ampliamente disponibles. a continuaci´n e o de texto que traduce XYZ a otro idioma (aqu´ XYZ se refiere a nombres de ı secci´n espec´ o ıficos mencionados m´s abajo. “Portada” significa el texto cercano a la a aparici´n m´s prominente del t´ o a ıtulo del trabajo. y HTML. pero cuyo marcaje o ausencia de ´l haya sido dise˜ ado para impedir o dificultar modificaciones posteriores por e n parte de los lectores no es Transparente. y HTML. Una copia hecha a en un formato definido como Transparente. representada en un formato cuya especificaci´n est´ disa o a ponible al p´ blico en general. Un formato de imagen no es Transparente si se usa para una cantidad de texto sustancial. en un libro impreso. u PostScript o PDF simples. u o En sentido estricto esta licencia parece exigir que los t´ ıtulos sean exactamente “Acknowledgements”. la p´gina de t´ a ıtulo. o La “Portada” significa. m´s las a p´ginas siguientes que sean necesarias para mantener legiblemente el material a que esta Licencia requiere en la portada. “Dedications”. Para trabajos en formatos que no tienen p´gina de portada como tal. en 3 . Como ejemplos de formatos adecuados para copias Transparentes est´n a ASCII puro sin marcaje. “Dea dicatorias”. “Aprobaciones” o “Historia”. apto para que los contenidos puedan ser vistos u y editados directamente con editores de texto gen´ricos o (para im´genes come a puestas por puntos) con programas gen´ricos de manipulaci´n de im´genes o e o a (para dibujos) con alg´ n editor de dibujos ampliamente disponible. formato de entrada de Texinfo. que sigan los est´ndares y dise˜ados para que los a n modifiquen personas. XCF y JPG. Una secci´n “Titulada XYZ” significa una parte del Documento cuyo o t´ ıtulo es precisamente XYZ o contiene XYZ entre par´ntesis. precediendo el comienzo del cuerpo del texto. PostScript o PDF generados por e algunos procesadores de palabras s´lo como salida. SGML o XML usando una DTD disponible p´ blicamente. significa una copia para lectura en m´quina.XI Cubierta Delantera puede tener como mucho 5 palabras. formato de entrada A de L TEX.

2. por referencia. pueden considerarse como copias literales. Si distribuye un o n´ mero suficientemente grande de copias tambi´n deber´ seguir las condiciones u e a de la secci´n 3. bajo las mismas condiciones estae blecidas anteriormente. Se considera que estas Limitaciones de Garant´ est´n incluidas. Si los textos requeridos para la cubierta son muy voluminosos para que ajusten legiblemente. en la Licencia. usted puede aceptar compensaci´n a cambio de las copias. Copia literal Usted puede copiar y distribuir el Documento en cualquier soporte. Copiado en cantidad Si publica copias impresas del Documento (o copias en soportes que tengan normalmente cubiertas impresas) que sobrepasen las 100.XII El Documento puede incluir Limitaciones de Garant´ cercanas a la nota ıa donde se declara que al Documento se le aplica esta Licencia. y la nota de licencia del Documento exige Textos de Cubierta. a Si Usted publica o distribuye copias Opacas del Documento cuya cantidad exceda las 100. Ambas cubiertas deben identificarlo a Usted clara y legiblemente como editor de tales copias. que pueda ser le´ ıda ingl´s. Usted no puede usar medidas t´cnicas para obstruir o controlar la e lectura o copia posterior de las copias que usted haga o distribuya. Sin embargo. debe incluir las copias con cubiertas que lleven en forma clara y legible todos esos Textos de Cubierta: Textos de Cubierta Delantera en la cubierta delantera y Textos de Cubierta Trasera en la cubierta trasera. y puede exhibir copias p´ blicamente. Adem´s puede a˜ adir otro material en las cubiertas. debe colocar los primeros (tantos como sea razonable colocar) en la verdadera cubierta y situar el resto en p´ginas adyacentes. sea en forma comercial o no. u 3. las notas de copyright y la nota que indica que esta Licencia se aplica al Documento se reproduzcan en todas las copias y que usted no a˜ ada ninguna otra condici´n a las expuestas en n o esta Licencia. e . La cubierta debe mostrar el t´ ıtulo completo con todas las palabras igualmente prominentes y visibles. siempre y cuando esta Licencia. debe incluir una copia Transparente. siempre que conserven el t´ ıtulo del Documento y satisfagan estas condiciones. ıa a pero s´lo en cuanto a limitaciones de garant´ cualquier otra implicaci´n que o ıa: o estas Limitaciones de Garant´ puedan tener es nula y no tiene efecto en el ıa significado de esta Licencia. o Usted tambi´n puede prestar copias. Las copias con cambios a n limitados a las cubiertas.

a estar listadas en la secci´n de Historia del Documento). que se ponga en contacto con los autores del Documento antes de redistribuir gran n´ mero de copias. con la Versi´n Modificada haciendo el o rol del Documento. siempre que usted libere la Versi´n o Modificada bajo esta misma Licencia. sin material adicional. para darles u la oportunidad de que le proporcionen una versi´n actualizada del Documento. o a debe hacer lo siguiente en la Versi´n Modificada: o A. Puede usar el o mismo t´ ıtulo de versiones anteriores al original siempre y cuando quien las public´ originalmente otorgue permiso. con cada copia Opaca. si hay menos de cinco). si hay alguna. . Si usted hace uso de la ultima ´ opci´n. Mostrar en la Portada como editor el nombre del editor de la Versi´n o Modificada. Adem´s. Listar en la Portada. en cada copia Opaca. Modificaciones Puede copiar y distribuir una Versi´n Modificada del Documento bajo las o condiciones de las secciones 2 y 3 anteriores. como autores. deber´ tomar las medidas necesarias. si hay alguna) un t´ ıtulo distinto al del Documento y de sus versiones anteriores (que deber´n. o B. cuando comience la distribuci´n o a o de las copias Opacas en cantidad. o bien mostrar.XIII por una m´quina. E. C. Conservar todas las notas de copyright del Documento. para asegurar que esta copia Transparente permanecer´ accesible en el sitio establecido por lo menos un a˜ o despu´s de a n e la ultima vez que distribuya una copia Opaca de esa edici´n al p´ blico (direc´ o u tamente o a trav´s de sus agentes o distribuidores). ıa o junto con por lo menos cinco de los autores principales del Documento (todos sus autores principales. a menos que le eximan de tal requisito. Usar en la Portada (y en las cubiertas. a una direcci´n de red donde cualquier usuario de la misma tenga acceso por o medio de protocolos p´ blicos y estandarizados a una copia Transparente del u Documento completa. A˜ adir una nota de copyright apropiada a sus modificaciones. aunque no es requisito. adyacente n a las otras notas de copyright. una o m´s personas o entidades a responsables de la autor´ de las modificaciones de la Versi´n Modificada. e Se solicita. por lo tanto dando licencia de distribuci´n y modificaci´n o o de la Versi´n Modificada a quienquiera posea una copia de la misma. D. o 4.

Se o puede omitir la ubicaci´n en red de un trabajo que haya sido publicado o por lo menos cuatro a˜ os antes que el Documento mismo. Si la Versi´n Modificada incluye secciones o ap´ndices nuevos que cao e lifiquen como Secciones Secundarias y contienen material no copiado del Documento. N. los autores y el editor del Documento. dada en el Documento para el o acceso p´ blico a una copia Transparente del mismo. Conservar en esa nota de licencia el listado completo de las Secciones Invariantes y de los Textos de Cubierta que sean requeridos en la nota de Licencia del Documento original. En cualquier secci´n Titulada “Agradecimientos” o “Dedicatorias”. tal n como figuran en su Portada. Tales secciones no o pueden estar incluidas en las Versiones Modificadas. Borrar cualquier secci´n titulada “Aprobaciones”. inmediatamente despu´s de las notas de copyright. Si o no hay una secci´n Titulada “Historia” en el Documento. puede opcionalmente designar algunas o todas esas secciones como . el a˜ o. o si el editor n original de dicha versi´n da permiso. o K. Incluir. tal como figuran en la Portada. N´ meros de secci´n o el equivalente no son consideu o rados parte de los t´ ıtulos de la secci´n. G. el a˜ o. los nuevos autores y n el editor de la Versi´n Modificada. o I. o M. como se estableci´ en la oraci´n anterior. crear una o estableciendo el t´ ıtulo. Conservar la direcci´n en red. a˜ adiendo adem´s un elemento describiendo n a la Versi´n Modificada. como se muestra en la Adenda al final de este documento. H. o Conservar el T´ ıtulo de la secci´n y conservar en ella toda la sustancia o y el tono de los agradecimientos y/o dedicatorias incluidas por cada contribuyente. o O. Conservar todas las Limitaciones de Garant´ ıa. si la hay. Pueden ubicarse en la secci´n “Historia”. Incluir una copia sin modificaci´n de esta Licencia. una nota de e licencia dando el permiso para usar la Versi´n Modificada bajo los t´rmio e nos de esta Licencia. No cambiar el t´ ıtulo de ninguna secci´n existente a “Aprobaciones” ni o a uno que entre en conflicto con el de alguna Secci´n Invariante. L. conservar su T´ o ıtulo y a˜ adirle n un elemento que declare al menos el t´ ıtulo. Conservar la secci´n Titulada “Historia”. sin alterar su texto ni sus t´ ıtulos. o o o J. Conservar todas las Secciones Invariantes del Documento. as´ como las otras u ı direcciones de red dadas en el Documento para versiones anteriores en las que estuviese basado.XIV F.

bajo los t´rminos definidos en la secci´n 4 anterior para e o versiones modificadas.XV invariantes. . pero n puede reemplazar el anterior. usted no puede a˜adir otro. o Puede a˜ adir una secci´n titulada “Aprobaciones”. Combinaci´n de documentos o Usted puede combinar el Documento con otros documentos liberados bajo esta Licencia. o de la misma forma combine cualquier secci´n Titulada “Agradecimientos”. listadas todas como Secciones Invariantes del trabajo combinado en su nota de licencia. El trabajo combinado necesita contener solamente una copia de esta Licencia. siempre que conn o tenga unicamente aprobaciones de su Versi´n Modificada por otras fuentes ´ o –por ejemplo. debe combinar cualquier secci´n Titulada “Histoo o ria” de los documentos originales. Si hay varias Secciones Invariantes con el mismo nombre pero con contenidos diferentes. Haga el mismo ajuste a los o u ´ t´ ıtulos de secci´n en la lista de Secciones Invariantes de la nota de licencia del o trabajo combinado. y puede reemplazar varias Secciones Invariantes id´nticas por una sola e copia. En la combinaci´n. observaciones de peritos o que el texto ha sido aprobado por una organizaci´n como la definici´n oficial de un est´ndar. si es conocido. a˜ ada sus t´ n ıtulos a la lista de Secciones Invariantes en la nota de licencia de la Versi´n Modificada. Tales t´ o ıtulos deben ser distintos de cualquier otro t´ ıtulo de secci´n. con permiso expl´ ıcito del editor que agreg´ el o texto anterior. siempre que incluya en la combinaci´n todas las Seco ciones Invariantes de todos los documentos originales. Debe borrar todas las secciones o tituladas “Aprobaciones”. o si no. Una entidad solo puede a˜ adir (o hacer que se a˜ ada) o n n un pasaje al Texto de Cubierta Delantera y uno al de Cubierta Trasera. As´ mismo debe incluir la Limitaci´n de Garant´ ı o ıa. Con esta Licencia ni los autores ni los editores del Documento dan permiso para usar sus nombres para publicidad ni para asegurar o implicar aprobaci´n o de cualquier Versi´n Modificada. o 5. haga el t´ ıtulo de cada una de estas secciones unico a˜ adi´ndole ´ n e al final del mismo. formando una secci´n Titulada “Historia”. el nombre del autor o editor original de esa e secci´n. Si el Documento ya incluye textos de cubiertas a˜ adidos previamente por usted o n por la misma entidad que usted representa. sin modificar. Para hacerlo. un n´ mero unico. o y cualquier secci´n Titulada “Dedicatorias”. o o a Puede a˜ adir un pasaje de hasta cinco palabras como Texto de Cubierta n Delantera y un pasaje de hasta 25 palabras como Texto de Cubierta Trasera en la Versi´n Modificada. entre par´ntesis.

as´ como de las Limitaciones de Garant´ ı ıa. a aspectos relativos a la copia literal de dicho documento. El reemplazo de las Secciones Invariantes con traducciones requiere o permiso especial de los due˜ os de derecho de autor. a Puede extraer un solo documento de una de tales colecciones y distribuirlo individualmente bajo esta Licencia. Colecciones de documentos Puede hacer una colecci´n que conste del Documento y de otros docuo mentos liberados bajo esta Licencia. siempre que siga las reglas de esta Licencia para cada copia literal o de cada uno de los documentos en cualquiera de los dem´s aspectos. En caso o a o contrario deben aparecer en cubiertas impresas enmarcando todo el agregado. Cuando a a el Documento se incluye en un agregado. 7. o el equivalente electr´nico de las cubiertas si el documento est´ en forma electr´nica. . los Textos de Cubierta del Documento pueden colocarse en cubiertas que enmarquen solamente el Documento dentro del agregado. pero usted puede a˜ adir n n traducciones de algunas o todas las Secciones Invariantes a las versiones originales de las mismas.XVI 6. en cualquier soporte de almacenamiento o distribuci´n. y reemplazar las copias individuales de esta Licencia en todos los documentos por una sola copia que est´ incluida en e la colecci´n. Traducci´n o La Traducci´n es considerada como un tipo de modificaci´n. Puede incluir una traducci´n de esta Licencia. siempre que incluya tambi´n la versi´n en Ingl´s de esta Licencia y las vere o e siones originales de las notas de licencia y Limitaciones de Garant´ En caso ıa. 8. por lo que o o usted puede distribuir traducciones del Documento bajo los t´rminos de la e secci´n 4. de todas o las notas de licencia del documento. ı Si el requisito de la secci´n 3 sobre el Texto de Cubierta es aplicable a o estas copias del Documento y el Documento es menor que la mitad del agregado entero. Agregaci´n con trabajos independientes o Una recopilaci´n que conste del Documento o sus derivados y de otros o documentos o trabajos separados e independientes. esta Licencia no se aplica a otros trabajos del agregado que no sean en s´ mismos derivados del Documento. se denomina un “agregado” si el copyright o resultante de la compilaci´n no se usa para limitar los derechos de los usuarios o de la misma m´s all´ de lo que los de los trabajos individuales permiten. siempre que inserte una copia de esta Licencia en el documento extra´ y siga esta Licencia en todos los dem´s ıdo.

modificaci´n.gnu. la nota de licencia o la limitaci´n de garant´ la versi´n original en Ingl´s o ıa. los terceros que hayan recibido copias. Terminaci´n o Usted no puede copiar. sublicenciar o distribuir el Documento salvo por lo permitido expresamente por esta Licencia. “Deo a dicatorias” o “Historia” el requisito (secci´n 4) de Conservar su T´ o ıtulo (Secci´n 1) requerir´. Tales versiones o nuevas ser´n similares en esp´ a ıritu a la presente versi´n. a Si una secci´n del Documento est´ Titulada “Agradecimientos”. Cada versi´n de la Licencia tiene un n´ mero de versi´n que la distingue. sublicenciamiento o distribuci´n del Documento es nulo. 9. cambiar su t´ ıtulo. ADENDA: C´mo usar esta Licencia en sus documentos o Para usar esta licencia en un documento que usted haya escrito. usted tiene la opci´n de o o seguir los t´rminos y codiciones de la versi´n especificada o cualquiera posterior e o que haya sido publicada (no como borrador) por la Free Software Foundation. Si el Documento no especifica un n´ mero de versi´n de esta Licencia.XVII de desacuerdo entre la traducci´n y la versi´n original en Ingl´s de esta Liceno o e cia. o u o Si el Documento especifica que se aplica una versi´n numerada en particular o de esta licencia o “cualquier versi´n posterior”. Sin a a embargo. o o y dar´ por terminados autom´ticamente sus derechos bajo esa Licencia. de usted bajo esta Licencia no ver´n terminadas sus licencias. o derechos. incluya una copia de la Licencia en el documento y ponga el siguiente copyright y nota de licencia justo despu´s de la p´gina de t´ e a ıtulo: . siempre que permanezcan en total a conformidad con ella. Vea http://www. modificar. Revisiones futuras de esta licencia De vez en cuando la Free Software Foundation puede publicar versiones nuevas y revisadas de la Licencia de Documentaci´n Libre GNU. o e prevalecer´. pero pueden diferir en o detalles para solucionar nuevos problemas o intereses. 10.org/copyleft/. t´ o a ıpicamente. Cualquier otro intento de copia. puede u o escoger cualquier versi´n que haya sido publicada (no como borrador) por la o Free Software Foundation.

. Si tiene Secciones Invariantes sin Textos de Cubierta o cualquier otra combinaci´n de los tres.. Una copia de la licencia est´ incluida a en la secci´n titulada GNU Free Documentation License.XVIII ˜ Copyright (c) ANO SU NOMBRE. como la Licencia P´ blica General de GNU (“GNU Geu neral Public License”). distribuir y/o modificar este documento bajo los t´rminos de e la Licencia de Documentaci´n Libre de GNU. mezcle ambas alternativas para adaptarse a la situao ci´n. o recomendamos liberar estos ejemplos en paralelo bajo la licencia de software libre que usted elija. Trasera” por esto: siendo las Secciones Invariantes LISTE SUS T´ ITULOS. o Si tiene Secciones Invariantes. para permitir su uso en software libre. sin Secciones Invariantes ni Textos de Cubierta Delantera ni Textos de Cubierta Trasera. . Se concede permiso para copiar. Textos de Cubierta Delantera y Textos de Cubierta Trasera. y siendo sus Textos de Cubierta Trasera LISTAR. Versi´n 1. o Si su documento contiene ejemplos de c´digo de programa no triviales. reemplace la frase “sin .2 o cualo o quier otra versi´n posterior publicada por la Free Software Foundao tion. siendo los Textos de Cubierta Delantera LISTAR.

because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. to use that work under the conditions stated herein. 51 Franklin St. November 2002 Copyright c 2000. while not being considered responsible for modifications made by others. We have designed this License in order to use it for manuals for free software. We recommend this License principally for works whose purpose is instruction or reference. below. GNU Free Documentation License Version 1. or other functional and useful document “free”in the sense of freedom: to assure everyone the effective freedom to copy and redistribute it. Such a notice grants a world-wide. 1. regardless of subject matter or whether it is published as a printed book. which is a copyleft license designed for free software. This License is a kind of “copyleft”. But this License is not limited to software manuals. either commercially or noncommercially. which means that derivative works of the document must themselves be free in the same sense. Inc. refers to any such manual or work. royalty-free license. Fifth Floor. but changing it is not allowed. in any medium. that contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. Preamble The purpose of this License is to make a manual. Secondarily.2.2002 Free Software Foundation. this License preserves for the author and publisher a way to get credit for their work. Any member of the public is a licensee. and is addressed as “you”.2001. unlimited in duration. Boston. textbook. it can be used for any textual work. with or without modifying it. APPLICABILITY AND DEFINITIONS This License applies to any manual or other work. MA 02110-1301 USA Everyone is permitted to copy and distribute verbatim copies of this license document.XIX 4. You accept the . It complements the GNU General Public License. The “Document”.

A copy that is not “Transparent”is called “Opaque”. XCF and JPG. A “Transparent” copy of the Document means a machine-readable copy. Examples of suitable formats for Transparent copies include plain ASCII without markup. philosophical. as Front-Cover Texts or Back-Cover Texts. An image format is not Transparent if used for any substantial amount of text. or with modifications and/or translated into another language. A “Modified Version” of the Document means any work containing the Document or a portion of it. PostScript or PDF designed for human modification. (Thus. A Front-Cover Text may be at most 5 words.) The relationship could be a matter of historical connection with the subject or with related matters. The “Cover Texts” are certain short passages of text that are listed. has been arranged to thwart or discourage subsequent modification by readers is not Transparent. as being those of Invariant Sections. modify or distribute the work in a way requiring permission under copyright law. or absence of markup. if the Document is in part a textbook of mathematics. If the Document does not identify any Invariant Sections then there are none. LaTeX input format. or of legal. either copied verbatim.XX license if you copy. that is suitable for revising the document straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor. The Document may contain zero Invariant Sections. in the notice that says that the Document is released under this License. A “Secondary Section” is a named appendix or a front-matter section of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Document’s overall subject (or to related matters) and contains nothing that could fall directly within that overall subject. SGML or XML using a publicly available DTD. Opaque formats include proprie- . and standard-conforming simple HTML. and a Back-Cover Text may be at most 25 words. represented in a format whose specification is available to the general public. and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters. A copy made in an otherwise Transparent file format whose markup. If a section does not fit the above definition of Secondary then it is not allowed to be designated as Invariant. in the notice that says that the Document is released under this License. commercial. The “Invariant Sections” are certain Secondary Sections whose titles are designated. Texinfo input format. a Secondary Section may not explain any mathematics. Examples of transparent image formats include PNG. ethical or political position regarding them.

The Document may include Warranty Disclaimers next to the notice which states that this License applies to the Document.XXI tary formats that can be read and edited only by proprietary word processors. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. either commercially or noncommercially. SGML or XML for which the DTD and/or processing tools are not generally available. the copyright notices. legibly. you may accept compensation in exchange for copies. “Title Page”means the text near the most prominent appearance of the work’s title. but only as regards disclaiming warranties: any other implication that these Warranty Disclaimers may have is void and has no effect on the meaning of this License. such as “Acknowledgements”. “Dedications”. (Here XYZ stands for a specific section name mentioned below. for a printed book. and the Docu- . numbering more than 100. under the same conditions stated above. These Warranty Disclaimers are considered to be included by reference in this License. COPYING IN QUANTITY If you publish printed copies (or copies in media that commonly have printed covers) of the Document. the title page itself. preceding the beginning of the body of the text. VERBATIM COPYING You may copy and distribute the Document in any medium.) To “Preserve the Title” of such a section when you modify the Document means that it remains a section “Entitled XYZ. and that you add no other conditions whatsoever to those of this License. “Endorsements”. and the license notice saying this License applies to the Document are reproduced in all copies. You may also lend copies.according to this definition. 2. provided that this License. However. the material this License requires to appear in the title page. or “History”. and you may publicly display copies. For works in formats which do not have any title page as such. and the machine-generated HTML. A section “Entitled XYZ” means a named subunit of the Document whose title either is precisely XYZ or contains XYZ in parentheses following text that translates XYZ in another language. plus such following pages as are needed to hold. The “Title Page” means. 3. PostScript or PDF produced by some word processors for output purposes only. If you distribute a large enough number of copies you must also follow the conditions in section 3.

but not required. thus licensing distribution and modification of the Modified Version to whoever possesses a copy of it. to give them a chance to provide you with an updated version of the Document. or state in or with each Opaque copy a computer-network location from which the general network-using public has access to download using public-standard network protocols a complete Transparent copy of the Document. MODIFICATIONS You may copy and distribute a Modified Version of the Document under the conditions of sections 2 and 3 above. Both covers must also clearly and legibly identify you as the publisher of these copies. and continue the rest onto adjacent pages. all these Cover Texts: Front-Cover Texts on the front cover. If you publish or distribute Opaque copies of the Document numbering more than 100. be listed in the History section of the Document). . with the Modified Version filling the role of the Document. you must do these things in the Modified Version: A. clearly and legibly. and from those of previous versions (which should. Use in the Title Page (and on the covers. You may add other material on the covers in addition. provided that you release the Modified Version under precisely this License. you must either include a machine-readable Transparent copy along with each Opaque copy. when you begin distribution of Opaque copies in quantity. you should put the first ones listed (as many as fit reasonably) on the actual cover. 4. you must take reasonably prudent steps. that you contact the authors of the Document well before redistributing any large number of copies. If you use the latter option. In addition.XXII ment’s license notice requires Cover Texts. can be treated as verbatim copying in other respects. If the required texts for either cover are too voluminous to fit legibly. You may use the same title as a previous version if the original publisher of that version gives permission. Copying with changes limited to the covers. if there were any. to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of that edition to the public. free of added material. as long as they preserve the title of the Document and satisfy these conditions. you must enclose the copies in covers that carry. It is requested. if any) a title distinct from that of the Document. The front cover must present the full title with all words of the title equally prominent and visible. and Back-Cover Texts on the back cover.

Preserve the Title of the section. Section numbers or the equivalent are not considered part of the section titles. J. If there is no section Entitled “History”in the Document. authors. year. unaltered in their text and in their titles. E. Add an appropriate copyright notice for your modifications adjacent to the other copyright notices. and publisher of the Document as given on its Title Page. as the publisher. a license notice giving the public permission to use the Modified Version under the terms of this License. C. together with at least five of the principal authors of the Document (all of its principal authors. as authors. if any. and likewise the network locations given in the Document for previous versions it was based on. K. year. if it has fewer than five). State on the Title page the name of the publisher of the Modified Version. For any section Entitled “Acknowledgements. H. then add an item describing the Modified Version as stated in the previous sentence. L. D.or “Dedications”. and preserve in the section all the substance and tone of each of the contributor acknowledgements and/or dedications given therein. . in the form shown in the Addendum below. You may omit a network location for a work that was published at least four years before the Document itself. G. Preserve its Title. unless they release you from this requirement. Preserve all the copyright notices of the Document. new authors. Preserve all the Invariant Sections of the Document. I. and publisher of the Modified Version as given on the Title Page. create one stating the title. Preserve the section Entitled “History”. Preserve the network location.XXIII B. List on the Title Page. one or more persons or entities responsible for authorship of the modifications in the Modified Version. immediately after the copyright notices. Include an unaltered copy of this License. Include. Preserve in that license notice the full lists of Invariant Sections and required Cover Texts given in the Document’s license notice. F. and add to it an item stating at least the title. given in the Document for public access to a Transparent copy of the Document. These may be placed in the “History”section. or if the original publisher of the version it refers to gives permission.

provided that you include in the combination all of the Invariant Sections of all of the original documents. you may not add another. and a passage of up to 25 words as a Back-Cover Text. To do this. If the Modified Version includes new front-matter sections or appendices that qualify as Secondary Sections and contain no material copied from the Document. and list them all as Invariant Sections of your combined work in its license notice. previously added by you or by arrangement made by the same entity you are acting on behalf of. you may at your option designate some or all of these sections as invariant. under the terms defined in section 4 above for modified versions. Only one passage of Front-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) any one entity. statements of peer review or that the text has been approved by an organization as the authoritative definition of a standard. N. You may add a section Entitled “Endorsements”. and that you preserve all their Warranty Disclaimers. Do not retitle any existing section to be Entitled “Endorsements. to the end of the list of Cover Texts in the Modified Version. unmodified. These titles must be distinct from any other section titles. and multiple identical Invariant Sections may be replaced with a single copy.or to conflict in title with any Invariant Section. If there are multiple Invariant Sections with the same name but different contents. COMBINING DOCUMENTS You may combine the Document with other documents released under this License. make . add their titles to the list of Invariant Sections in the Modified Version’s license notice.XXIV M. provided it contains nothing but endorsements of your Modified Version by various parties–for example. O. Delete any section Entitled “Endorsements”. 5. Preserve any Warranty Disclaimers. on explicit permission from the previous publisher that added the old one. The author(s) and publisher(s) of the Document do not by this License give permission to use their names for publicity for or to assert or imply endorsement of any Modified Version. Such a section may not be included in the Modified Version. but you may replace the old one. You may add a passage of up to five words as a Front-Cover Text. The combined work need only contain one copy of this License. If the Document already includes a cover text for the same cover.

and distribute it individually under this License. You may extract a single document from such a collection. or else a unique number. forming one section Entitled “History”. provided that you follow the rules of this License for verbatim copying of each of the documents in all other respects. is called an “aggregate”if the copyright resulting from the compilation is not used to limit the legal rights of the compilation’s users beyond what the individual works permit. . AGGREGATION WITH INDEPENDENT WORKS A compilation of the Document or its derivatives with other separate and independent documents or works. the name of the original author or publisher of that section if known. Otherwise they must appear on printed covers that bracket the whole aggregate. and follow this License in all other respects regarding verbatim copying of that document. You must delete all sections Entitled “Endorsements”. and replace the individual copies of this License in the various documents with a single copy that is included in the collection. In the combination. then if the Document is less than one half of the entire aggregate. this License does not apply to the other works in the aggregate which are not themselves derivative works of the Document. provided you insert a copy of this License into the extracted document. in parentheses. you must combine any sections Entitled “History”in the various original documents. 6. If the Cover Text requirement of section 3 is applicable to these copies of the Document. and any sections Entitled “Dedications”. 7. Make the same adjustment to the section titles in the list of Invariant Sections in the license notice of the combined work. or the electronic equivalent of covers if the Document is in electronic form. When the Document is included in an aggregate. COLLECTIONS OF DOCUMENTS You may make a collection consisting of the Document and other documents released under this License. in or on a volume of a storage or distribution medium.XXV the title of each such section unique by adding at the end of it. likewise combine any sections Entitled “Acknowledgements”. the Document’s Cover Texts may be placed on covers that bracket the Document within the aggregate.

so you may distribute translations of the Document under the terms of section 4. 10. TRANSLATION Translation is considered a kind of modification. the requirement (section 4) to Preserve its Title (section 1) will typically require changing the actual title. FUTURE REVISIONS OF THIS LICENSE The Free Software Foundation may publish new. If the Document does not specify a version number of this License. parties who have received copies.XXVI 8. Each version of the License is given a distinguishing version number. Replacing Invariant Sections with translations requires special permission from their copyright holders. modify. or “History”. from you under this License will not have their licenses terminated so long as such parties remain in full compliance. In case of a disagreement between the translation and the original version of this License or a notice or disclaimer. sublicense.applies to it. revised versions of the GNU Free Documentation License from time to time. See http://www. provided that you also include the original English version of this License and the original versions of those notices and disclaimers. sublicense or distribute the Document is void. and will automatically terminate your rights under this License. modify. Any other attempt to copy. 9. and all the license notices in the Document.gnu. or distribute the Document except as expressly provided for under this License. However. but may differ in detail to address new problems or concerns. You may include a translation of this License. “Dedications”. Such new versions will be similar in spirit to the present version. you may choose any version ever published (not as a draft) by the Free Software Foundation. the original version will prevail. If a section in the Document is Entitled “Acknowledgements”. If the Document specifies that a particular numbered version of this License “or any later version. you have the option of following the terms and conditions either of that specified version or of any later version that has been published (not as a draft) by the Free Software Foundation. and any Warranty Disclaimers.org/copyleft/. but you may include translations of some or all Invariant Sections in addition to the original versions of these Invariant Sections. . or rights. TERMINATION You may not copy.

no Front-Cover Texts. If you have Invariant Sections without Cover Texts. to permit their use in free software. merge those two alternatives to suit the situation.XXVII ADDENDUM: How to use this License for your documents To use this License in a document you have written. we recommend releasing these examples in parallel under your choice of free software license. include a copy of the License in the document and put the following copyright and license notices just after the title page: Copyright c YEAR YOUR NAME. with no Invariant Sections. with the Front-Cover Texts being LIST. If you have Invariant Sections. or some other combination of the three. Front-Cover Texts and Back-Cover Texts.Texts. replace the “with. and no Back-Cover Texts.. . Permission is granted to copy. distribute and/or modify this document under the terms of the GNU Free Documentation License..”line with this: with the Invariant Sections being LIST THEIR TITLES. and with the Back-Cover Texts being LIST. Version 1. such as the GNU General Public License. A copy of the license is included in the section entitled “GNU Free Documentation License”.2 or any later version published by the Free Software Foundation. If your document contains nontrivial examples of program code.

XXVIII .

sino que atiendan tambi´n a su facilidad de uso. aun cuando en el Pr´logo se haya dejado claro que no es un o objetivo fundamental ense˜ar a manejar un programa inform´tico. este manual seguir´ teniendo utilidad aun cuando se usara otra ıa interfaz gr´fica distinta a la que se propone o. L´pez S´nchez. M. no solo de o car´cter estad´ a ıstico. que dan soluci´n a o a una gran variedad de problemas estad´ ısticos. Mu˜oz M´rquez. J. F. a bastar´ en ese caso con acomodar los men´s y/o la sintaxis. comience con un cap´ ıtulo dedicado al software. no quiere decir que optar a por una de ellas no tenga un inter´s determinante y. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. Arriaza G´mez. Introducci´n o El que un libro que pretende incidir sobre los aspectos pr´cticos de a la Estad´ ıstica. no deber´ ıa sorprender. P´rez Plaza. incluso. o a n a e A. otro software. .Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. A. S. a la cantidad de t´cnicas y funciones implementadas. ıa u el que existan varias soluciones inform´ticas. Dicha comunidad ha desarrollado y desarrolla herramientas integradas en paquetes–en la actualidad m´s de 800–. sieno do especialmente destacables sus bondades en lo que se refiere a calidad.uca. Fern´ndez Palac´ o a ın.es/ebrcmdr Cap´ ıtulo 1 Comenzando con R 1. e Para la elecci´n de R se han evaluado pues distintos aspectos. De n a hecho. deben e emplearse para su elecci´n criterios objetivos de eficiencia. a que es libre y a e la gran comunidad cient´ ıfica que lo usa como est´ndar para el an´lisis a a de datos. No obstante. por tanto. M.

De la misma manera.r-project. Las diferencias entre R y S e son importantes. Desde o mediados de 1997 se form´ lo que se conoce como n´cleo de desarrollo de o u R.2 Cap´ ıtulo 1. Una diferencia importante entre R. La calidad de los gr´ficos producidos y la posibilidad de ina cluir en ellos s´ ımbolos y f´rmulas matem´ticas. posibilitan su inclusi´n o a o en publicaciones que suelen requerir gr´ficos de alta calidad. de forma que las funciones pueden tener comportamientos diferentes en funci´n de la clase a la que pertenece su objeto o argumento. Por otra parte. con el resto del e software estad´ ıstico es el uso del objeto como entidad b´sica. o desarrollado ´ste por los Laboratorios Bell. La p´gina principal del proyecto es a http://www. Comenzando con R R es un lenguaje de programaci´n y un entorno para an´lisis eso a tad´ ıstico y la realizaci´n de gr´ficos. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del Departamento de Estad´stica de la ı Universidad de Auckland en Nueva Zelanda. y tambi´n S. a El c´digo de R est´ disponible como software libre bajo las condio a ciones de la licencia GNU-GPL. R actualmente es el resultado de un esfuerzo de colaboraci´n de personas del todo el mundo. el resultado de la funci´n print evaluada soo bre un vector da como resultado la impresi´n de todos los elementos o del vector mientras que la misma funci´n evaluada sobre una funci´n o o muestra informaci´n sobre ella. la funci´n plot o o no se comporta igual cuando su argumento es un vector que cuando es un fichero de datos o una funci´n. que actualmente es el que tiene la posibilidad de modificaci´n directa o del c´digo fuente. Por ejemplo. Cualquier a expresi´n evaluada por R tiene como resultado un objeto. R es un proyecto GNU similar a S.org. Debido a su naturaleza es f´cilmente o a a adaptable a una gran variedad de tareas. pero la mayor´ del c´digo escrito para S corre bajo R ıa o sin modificaciones. R abarca una amplia gama de t´cnicas estad´ e ısticas que van desde los modelos lineales a las m´s modernas t´cnicas de clasificaci´n pasana e o do por los test cl´sicos y el an´lisis de series temporales. Cada objeto o pertenece a una clase. Proporciona a a una amplia gama de gr´ficos que adem´s son f´cilmente adaptables y a a a extensibles. o . Adem´s est´ disponible precompilado a a para una multitud de plataformas.

.org/bin/windows/base/release. Pao ra la instalaci´n de Rcmdr. 2. e a cuyo repositorio puede accederse en la direcci´n http://knuth. 2. A continuaci´n. 2. o r-doc-html y r-recommended. r-cran-rcmdr. Instalaci´n de R y R–Commander o Instalaci´n en GNU/Linux o Para la instalaci´n. o es/R-basico. en una consola se introduce en una sola l´ ınea: sudo apt-get install r-base-html r-cran-rcmdr r-cran-rodbc r-doc-html r-recommended Otra opci´n es utilizar el gestor de paquetes de la propia distribuo ci´n e instalar los paquetes r-base-html.es/R en la secci´n Documentaci´n. r-cran-rodbc. . siguiendo las instrucciones. Paquetes→Instalar Paquete(s) y o elegido el mirror desde el cual se quiere instalar el paquete.uca. se arranca R desde Inicio→Todos los o programas→ R. se selecciona Rcmdr.uca.es. que se dea notar´ abreviadamente como Rcmdr.1.2 Instalaci´n de R y R–Commander 3 o A continuaci´n se dan unas breves instrucciones que permitir´n o a comenzar a usar R y su interfaz gr´fica R-Commander. o Guadalinex.r-project. . existen multitud de documentos que ilustran o ´ sobre el manejo de R. Instalaci´n en Windows o La descarga de R en el equipo se efectua desde: http://cran. ). Por ultimo.es/R en la secci´n R Wiki.2.1. Instrucciones m´s detalladas y a a actualizadas pueden encontrarse en http://knuth.. Los autores de este o o manual han redactado un somero documento t´cnico sobre el uso de R.uca.htm Luego se procede con la ejecuci´n. distribuciones derivadas de debian (Ubuntu. por ejemplo Spain (Madrid). algunos de ellos pueden descargarse desde http: //knuth.

a a 3. la carga de la librer´ se efecıa tuar´ mediante la instrucci´n library("Rcmdr"). a o R–Nota 1. Ejecuci´n de Rcmdr o En ambos sistemas operativos.2 Si se cierra Rcmdr (sin cerrar R). o .4 Cap´ ıtulo 1. Comenzando con R R–Nota 1. para volver a cargarlo se debe ejecutar la instrucci´n Commander(). pero a a o se instalar´n autom´ticamente la primera vez que se ejecute.1 Har´n falta m´s paquetes para la instalaci´n completa de Rcmdr.

Arriaza G´mez.es/ebrcmdr Cap´ ıtulo 2 An´lisis Exploratorio de Datos Unidimensional a En este m´dulo. si procede. Formalmente. en a a cualquier caso. Mu˜oz M´rquez. o a n a e A. J. Las conclusiones obtenidas ser´n aplicables exclusivamente a los a individuos considerados expl´ ıcitamente en el estudio. Los resultados del An´lisis Exploratorio de Datos (AED) s´ que podr´ a ı ıan emplearse para establecer hip´tesis sobre individuos no considerados o expl´ ıcitamente en dicho an´lisis. a y de ah´ el nombre del cap´ ı ıtulo. gr´ficos y modeo e a los descriptivos. sin que puedan hacerse extrapolaciones con validez cient´ ıfica fuera de ese contexto. M. se trata de un an´lisis calificable como de exploratorio. M. se podr´ definir el AED como un conjunto de t´cniıa e cas estad´ ısticas cuya finalidad es conseguir un entendimiento b´sico de a los datos y de las relaciones existentes entre las variables analizadas. patrones o con estudios previos. P´rez Plaza. A. F. a trav´s de una serie de medidas. comparar los resultados con los de otros grupos. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. Fern´ndez Palac´ o a ın.uca. Se podr´ considerar que este estudio es una primera entrega de ıa un estudio m´s completo o. . se caracterizar´ a un conjunto de individuos. L´pez S´nchez. por contra.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. que deber´ ser posteriormente cona ıan trastadas. intentando a descubrir regularidades y singularidades de los mismos y. S. aunque esta primera entrega se centrar´ en un an´lisis de tipo unidia a mensional. tener un car´cter finalista.

ordenaciones. sobre un conjunto de n a individuos f´ ısicos. tambi´n se podr´ tener variables compuestas como ratios. se obtienen una serie de k caracteres u observaciones de igual o distinta naturaleza. . Se obtienen datos al realizar cualquier tipo e de prueba.1. An´lisis Exploratorio de Datos Unidimensional a 1. los individuos s´lo interesan como portadores de rasgos que son suscepo tibles de marcar diferencias entre ellos. experimento. . va a depender a de la habilidad que se tenga a la hora de seleccionar los caracteres que se obtendr´n del conjunto de individuos seleccionados. observaci´n. donde a cada fila representa a un individuo o registro y las columnas a las caracter´ ısticas observadas.6 Cap´ ıtulo 2.. . ya desde este momento. razones. Una vez obtenidos los datos por los procedimientos que se o consideren pertinentes. dicot´micos o polit´micos. aunque tambi´n se utilizar´n esos a o e a mismos t´rminos para referirse a la(s) caracter´ e ıstica(s) de esos individuos que son objeto de estudio. que la calidad del an´lisis que se realice. Los datos constituyen pues la materia prima de la Estad´ ıstica. . De hecho. o o presencias–ausencias. dene ıan sidades. . conteos. . . valoraci´n. La organizaci´n de la informaci´n o o Al conjunto de individuos f´ ısicos considerados en un an´lisis se a le denominar´ Colectivo o Poblaci´n. desde un punto de vista estad´ ıstico. . medici´n. depeno o o diendo de la naturaleza de los mismos y del m´todo empleado para su e obtenci´n. a e pudiendo tratarse de caracteres nominales. a Los datos obtenidos se organizar´n en una matriz n × k. a 1. En ocasiones se a˜ade una columna que se suele colocar en n . La matriz de datos En una primera instancia se supondr´ que. escalas de intervalo. pudi´ndose establecer distintas clasificaciones en funci´n de la forma e o en que ´stos vengan dados. Es importante tener en cuenta. .. Al conjunto de o o datos convenientemente organizados se le llamar´ modelo de datos. pueden generarse nuevos datos mediante transformaci´n y/o combinaci´n de las variables originales. La obtenci´n y materializaci´n o o en formato anal´gico o digital de las caracter´ o ısticas consideradas constituir´ el conjunto de datos que ser´ estad´ a a ısticamente analizado. Las columnas tendr´n naturaleza homog´nea.

C2 . la estructura de una matriz de datos se corresponde con el esquema de una base de datos o una hoja de c´lculo.1. mal transcrito a la matriz de datos. Anomal´ de la matriz de datos ıas Hay veces en que por distintos motivos la matriz de datos presenta casillas vac´ ello se debe a que no se ha podido medir un dato o a que ıas. . dicha columna recibe el nombre de variable etiqueta. . muy grandes o o muy peque˜os. En otras ocasiones un dato presente en o la matriz ha sido depurado por presentar alg´n tipo de anomal´ como u ıa. haber sido mal medido. . In y los caracteres por e C1 . . que determinar´ si razonablemente pueden pertenecer n a al colectivo bajo estudio.frame. Este es el formato que requiere el programa para aplicar la mayor´ de ıa los procedimientos estad´ ısticos. . En la figura se muestra la matriz de datos del a fichero Iris del paquete datasets de R. A veces se sustituye el valor depurado de un . Al igual que pasa a con los editores de los programas de tratamiento de datos. . Ck .2. etc.1 La organizaci´n de la informaci´n o o 7 primer lugar y que asigna un nombre a cada individuo. Si se consideran los individuos identificados por los t´rminos I1 . La identificaci´n a o de estos elementos an´malos se realiza mediante un proceso de detecci´n o o de inconsistencias o de evaluaci´n de valores extremos. la casilla xij representa el comportamiento del individuo Ii respecto al car´cter Cj . F´ ısicamente. . . las dos dimensiones de una pantalla se acomodan perfectamente al tanden individuo–variable. 1.1. . I2 . . R se refiere a este tipo de estructura de datos como data. se ha perdido la observaci´n. pertenecer a un colectivo distinto del que se est´ analizando.

la prea tensi´n de este cap´ o ıtulo es tratar algunos conceptos b´sicos y adquirir a destreza en el manejo de medidas estad´ ısticas que ser´n empleadas maa sivamente cuando se aborden. Ejemplo 2. mientras que los m´s a ricos ser´ las escalas de intervalos y las razones. En este m´dulo se analizar´n –salvo excepciones que se indicar´n o a a con antelaci´n– de forma independiente cada uno de los caracteres de la o matriz de datos. que tienen orden. de forma que cada car´cter describir´ parcialmente al a a conjunto de individuos. el procedimiento desestimar´ s´lo el dato o todo el e a o registro completo.1. entre otras cosas porque habitualmente a las variables individuales comparten informaci´n y dicha redundancia o distorsionar´ las conclusiones del estudio. puesto que ni siquiera poseen orden. m´s comunmente. o Un term´metro genera una variable de escala de intervalo. siendo en general preferible ıa decantarse por un an´lisis global en vez del secuencial. En posiciones intermedias se situar´ el resto en el orden en que se han ıan introducido en la figura 2. Naturaleza de los caracteres: Atributos y Variables Respecto a la cantidad de informaci´n que porta cada tipo de o car´cter. En cualquier caso. modelos m´s sofisticados. mediante t´cnicas que se conocen como de imputaci´n. Por tanto. este enfoque o o est´ muy lejos de ser eficiente. La integraci´n de todos los an´lisis deber´ dar o a a una cierta visi´n general de la poblaci´n.1 El caso m´s evidente para apreciar las diferencias entre las escalas de a intervalo y las razones o escalas de cociente. lo ofrece el term´metro. Los huecos e o que definitivamente queden en la matriz se referir´n como valores omia tidos o. En funci´n del tipo de an´lisis que o a se est´ realizando. En R estos valores se a representan con NA (Not Available). ıan son cuantitativas y en el caso de las razones el cero lo es en t´rminos e absolutos. a a 2. como valores missing. el 0 representa la ausencia de la caracter´ ıstica. es decir. An´lisis Exploratorio de Datos Unidimensional a individuo por uno que sea congruente con el resto de caracteres del mismo. m´s adelante. porque la o .8 Cap´ ıtulo 2. se puede considerar que los caracteres nominales son los m´s a a “pobres”.

1: Esquema de cantidad de informaci´n o diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados. Es decir existe el cero absoluto.2. pero no se puede decir que cuando el term´metro marca 30 grados hace o el doble de calor que cuando marca 15. Los atributos tendr´n la misi´n de establecer clases. o como atributo. muchas magnitudes f´ ısicas. los primeros jugar´n en general a ı a a un rol de atributos mientras que los segundos habitualmente actuar´n a como variables. mientras que es factible definir una medida de asociaci´n o sobre caracteres intr´ ınsecamente de clase que permita caracterizar a los individuos del colectivo en base a una serie de atributos. como el peso. Por otra parte. a de variable podr´ mediante una operaci´n de punto de corte.2 Naturaleza de los caracteres: Atributos y Variables 9 Figura 2. Como ya se ha comentado. En una primera instancia. aunque en ning´n caso hay que confundir la cantia u dad de informaci´n que porta con su valor intr´ o ınseco para analizar a los individuos del colectivo. se distinguir´ entre los caracteres que a no est´n ordenados y los que s´ lo est´n. un car´cter llamado a adoptar el papel ı. la naturaleza del car´cter condicioa nar´ su tratamiento. para lo que necesariamente se debe considerar algun tipo de m´trica. Pero ello es una regla general que tiene muchas e excepciones y as´ en ocasiones. por ejemplo en el caso del peso. la longitud o la intensidad de corriente. las ıas. actuar ıa. . un objeto de 20 kilogramos pesa el doble que otro de 10 kilogramos. variables caracterizar´n a dichos subgrupos e intentar´n establecer difea a rencias entre unos y otros. a o dividiendo el colectivo global en subgrupos o categor´ por su parte. son razones porque.

el tiempo de n reacci´n de los corredores de una carrera de 100 metros o las longitudes o de los cabellos de una persona son variables continuas. m´s adelante. que es intr´ ınsecamente una variable –medida en un soporte temporal– se emplee para dividir la poblaci´n en clases o dando cortes en el intervalo de tiempo. Las variables pueden clasificarse seg´n su conjunto soporte. estructuras de a a probabilidad para modelizar la poblaci´n bajo estudio. hay investigaciones m´dicas que relacionan e el tipo de patolog´ con el sexo del paciente y con el desenlace de la ıa enfermedad. u n´mero de meteoritos que surcan una cierta regi´n estelar en periodos de u o tiempo determinados son variables discretas. Esta diferencia tendr´ relevancia cuando se planteen. Una vez identificadas. o Ejemplo 2.2 Es habitual que la edad. adultos y maduros de una comunidad de peces y adoptando por tanto la variable un rol de atributo. las variables ser´n tratadas estad´ a ısticamente combinando un an´lisis num´rico. aunque conviene ser selectivos y tomar aquellos e a . El sou porte de una variable es el conjunto de todos los posibles valores que toma.3 El n´mero de lunares en la piel de pacientes aquejados de una cierta u patolog´ el n´mero de hijos de las familias de una comunidad o el ıa. recolectadas y organizadas. Cuando el conjunto soporte es finito o numerable se habla de variable discreta. se habla de variable continua. Por el contrario.10 Cap´ ıtulo 2. obteni´ndose por ejemplo grupos e de alevines. con representaciones gr´ficas. En el extremo opuesto. La distancia por carretera entre las capitales de provincia peninsulares espa˜olas. a El software estad´ ıstico R ofrece una amplia gama de ambos elementos: num´ricos y gr´ficos. An´lisis Exploratorio de Datos Unidimensional a Ejemplo 2. cuando el conjunto soporte es no numerable. a a e trav´s de una serie de medidas estad´ e ısticas. Si la variable continua no toma valores en puntos aislados se dice absolutamente continua. caracteres todos ellos intr´ ınsecamente atributos.

2. el o a o . a a 3. Por otra parte.2: Ventana de selecci´n de datos en paquetes adjuntos o que verdaderamente aportan informaci´n relevante. De hecho. den como resultado un an´lisis eficiente de los datos. para obtener los porcentajes de cada subgrupo en el colectivo global.1: Medidas y gr´ficos seg´n tipo de variable a u En ultima instancia corresponde al investigador el tomar las de´ cisiones correctas en cada momento. A tal efecto. cada car´cter o conjunto de ellos establece a una partici´n o cat´logo de la poblaci´n bajo estudio. de forma que sin transgredir los principios b´sicos.3 An´lisis de atributos a 11 Figura 2. se proo ponen las siguientes opciones: Escala de Medida Atributo Ordenaci´n o Recuento Intervalo Raz´n o Medidas centrales Moda Porcentajes Mediana Percentiles Media Media Media geom´trica e Recorrido Intercuart´ ılico Desviaci´n t´ o ıpica Desviaci´n t´ o ıpica Coeficiente de variaci´n o Medidas de dispersi´n o Representaciones gr´ficas a Diagrama de sectores Diagrama de barras Diagramas de barras Histograma Histograma Diagrama de dispersi´n o Diagrama de cajas Tabla 2. An´lisis de atributos a Los atributos son susceptibles de ser tratados de forma individual o en grupo.

figura 2. Virginica y Versicolor. y que por tanto los porcentajes son iguales a 33.Table/sum(. en el cuadro de di´logo se elige el paquete datasets y dentro de ´ste el juego a e de datos iris. que es un atributo con los tres tipos de flores de Iris: Setosa. An´lisis Exploratorio de Datos Unidimensional a Species setosa versicolor virginica Figura 2.Table # counts for Species setosa versicolor virginica 50 50 50 > 100*.table(iris$Species) > ..Table) # percentages for Species setosa versicolor virginica 33. ıa e Ejemplo 2. 33.33333 .3: Diagrama de sectores del fichero iris tratamiento gr´fico m´s usual que se le dar´ a un atributo individual a a ıa ser´ a trav´s de un diagrama de sectores o diagrama de tarta.Table <.12 Cap´ ıtulo 2...33333 33. An´lisis num´rico: Se selecciona Estad´sticos→Res´menes→ a e ı u Distribuciones de frecuencias. 50 para cada una.2. Se observa que los 150 individuos se repar´ ten a partes iguales entre las tres variedades de flores. Species.33333 33. Del conjunto de variables de la matriz se considera la denominada Species. No tiene sentido hablar de moda. > .. puesto que las tres clases lo son. y en el cuadro de di´logo se elige a el unico atributo..4 Se consideran ahora los datos del ejemplo iris del paquete datasets de R que se describe en el ap´ndice A. Se carga el fichero en e Rcmdr mediante la selecci´n de las opciones del men´ Datos→ o u Datos en paquetes→Leer datos desde paquete adjunto.

se comenzar´ explicando como transformar una a tabla de frecuencias en una matriz de datos. a a Este tipo de variables ordenadas suele venir dada en forma de tabla de frecuencias. en el ejemplo que ilustra el tratamiento de este tipo de variables. o pensando que en general se dispondr´ de pocas clases. Ejemplo 2. Elementales (primaria). Por ello. bachillerato y fp grado medio) y Superiores (fp superior. En este caso.3.frame. diplomatura.. la tarta se divide en tres trozos exactamente iguales. En cuanto al an´lisis gr´fico.4 An´lisis de variables ordenadas a 13 An´lisis gr´fico: A continuaci´n se selecciona el diagrama de sectores a a o mediante Gr´ficas→Gr´fica de sectores.2. la unica variable ´ elegible es Species.5 Un caso de variable ordenada es la correspondiente a un estudio estad´ ıstico sobre el nivel acad´mico de la poblaci´n gaditana en el a˜o e o n 2001 (Fuente: Instituto Estad´ ıstico de Andaluc´ ıa). Como era de esperar. que el programa da por defecto.. Medios (secundaria. se recurrir´ a los a a cuartiles y como medida de dispersi´n al recorrido intercuart´ o ılico. An´lisis de variables ordenadas a Las diferencias que se establecen entre variables de clase pura y ordenada se concretan desde el punto de vista del an´lisis num´rico en a e que el grupo de medidas recomendables son las de posici´n. Si se pulsa el bot´n o Aceptar el programa dibuja el gr´fico de sectores que se muestra en a la figura 2. Como medidas de representaci´n. se recomienda el uso del diagrama de barras. Los valores que toma la variable son: Sin estudios. 4. . al objeto de que puedan ser tratadas por R como un data. licenciatura y doctorado). a a Si el fichero de datos activo tiene m´s de una variable de clase a se permite seleccionar la que se quiera. es decir los o cuantiles en sus distintas versiones.

El fichero en cuesti´n se ha guardado bajo el nombre de a o tabla freq niv estudios.. como se muestra en la ventana de di´loa go. Este data. en este ejemplo se ha elegido el nombre Tabla frec para denominar al fichero que contendr´ los a datos de la tabla de frecuencias..frame ı. Para cargar en Rcmdr la tabla de frecuencias se selecciona Datos→ Importar datos desde archivo de texto o portapapeles. Ahora se tendr´ que transformar esa ta tabla de frecuencias en un conjunto de datos. con el que R pueda trabajar.frame(nivel. eligiendo ahora el ar- . se crean las variables nivel y sexo a partir de la repetici´n de cada una de las clases de las respectivas variables.dat.. conteniendo tres variables: sexo. data.frame.dat.Tabla frec$frec) >niv estudios cadiz< −data. basta con seleccionar Datos→Importar datos→ desde archivo de texto o portapapeles. niv estudios cadiz con las dos variables creadas. A continuaci´n se elige el archivo o tabla freq niv estudios. tantas veces o como indique su frecuencia. Para ello.. En total consta de 8 filas que se correponden con los cruces de las clases sexo y nivel.14 Cap´ ıtulo 2. A partir de ah´ se construye el data.frame se encuentra entre los datos que se facilitan en este libro y se puede cargar directamente sin realizar las operaciones anteriores. Para conseguir esto se procede de la siguiente manera: >nivel<-rep(Tabla frec$nivel. nivel y frec.Tabla frec$frec) >sexo<-rep(Tabla frec$sexo. transform´ndola en base de datos en el momento de realizar a los an´lisis.sexo) Es decir... An´lisis Exploratorio de Datos Unidimensional a Los datos se recogen en la tabla: NIVEL DE ESTUDIOS SEXO Hombre Sin estudios 79309 Elementales 107156 Medios 183488 Superiores 70594 Mujer 108051 109591 174961 64858 Debido al gran n´mero de individuos que forman esta muestra u puede ser util almacenar la variable estudiada a partir de su tabla de ´ frecuencias.

o Para realizar este an´lisis a la variable nivel debe ser codificada num´ricamente. Los valores Sin estudios. statistics=c(‘‘quantiles’’)) 0% 25 % 50 % 75 % 100 % 0 1 2 2 3 . Elementales. > numSummary(Niv estudios[. respectivamente.‘‘niv num’’].dat. Para realizar el an´lisis num´rico de la variable nivel num se seleca e ciona: Estad´sticos→Res´menes→Res´menes num´ricos.4 An´lisis de variables ordenadas a chivo niv estudios cadiz.... que se llamar´ nivel num a y que representar´ los valores a num´ricos de la e variable nivel. 2 y 3. Se puede observar entre los cuartiles que la mediana recae sobre el valor 2..2.. los cuartiles. eligienı u u e do en la ventana emergente la variable nivel num y marcando la opci´n o de cuantiles. . En Rcmdr esto se realizar´ sea leccionando Datos→Modificar variables de los datos activos→ Recodificar variables. 15 An´lisis num´rico: En variables de tipo ordenado es aconsejable utia e lizar. desmarcando la pesta˜a Convertir n cada nueva variable en factor. 1. Medios y Superiores han sido codificados mediante los valores 0. como medida de posici´n. e Se crear´ una a nueva variable en la base de datos.

mediante las ´rdenes siguientes: o >Q1<-quantile(niv estudios cadiz$nivel num. 0. En Rcmdr se selecciona: Gr´ficas→ a Gr´fica de barras. 0. la variable a a nivel ord.numeric((Q3-Q1)/Q2) >RIR [1] 0.5) >Q3<-quantile(niv estudios cadiz$nivel num. A continuaci´n se almacena ´sta coo e mo variable de tipo num´rico. definido como el cociente entre la diferencia de los cuartiles tercero y primero. 0. Como medida de dispersi´n se ha recomendado el recorrido intero cuart´ ılico relativo.16 Cap´ ıtulo 2.. Se puede acceder a ellas escribi´ndolas en la a e ventana de instrucciones.numeric(Datos$nivel ord) siendo ya posible calcular los cuantiles. para la variable num´rica e Datos$nivel num. En R existe una gran variedad de opciones que ayudan a mejorar el aspecto de los gr´ficos. y la mediana. y se elige en la ventana de di´logo.. se reordenan los niveles de la variable factor usando las opciones del men´ Datos→Modificar u variables del conjunto de datos activo→Reordenar niveles de factor.5 An´lisis gr´fico: Para realizar el an´lisis gr´fico de la variable se a a a a utiliza el diagrama de barras.25) >Q2<-quantile(niv estudios cadiz$nivel num. En este ejemplo se ha optado por modificar el .. Para ello.. A la nueva variable se le ha llamado nivel ord.. almacenando la variable nivel como factor de tipo ordenado. An´lisis Exploratorio de Datos Unidimensional a Desde Rcmdr existe otra forma de realizar el an´lisis a num´rico de una variable ordenae da. pero se puede implementar f´cilmente en la a ventana de instrucciones. Rcmdr no proporciona directamente este estad´ ıstico.75) >RIR<-as. escribi´ndo en la ventana de instrucciones: e e Datos$nivel num< −as.

5. Esto se consigue agregando a col=heat. en gramos. de 71 polluelos. Para ello a se considera la base de datos chickwts. An´lisis de variables de escala a Ejemplo 2.6 Se estudiar´ ahora el tratamiento de una variable continua. seleccionando para la variable weight las u e opciones deseadas. seg´n el tipo u de dieta seguida durante un periodo de 6 semanas. An´lisis num´rico: Para la variable que da el peso de los polluea e los las medidas b´sicas recomendadas son la media y la desviaci´n a o t´ ıpica.colors(5) a las opciones de barGraph (figura 2. ‘‘sd’’)) mean sd n 261.‘‘weight’’].2..5 An´lisis de variables de escala a 350000 17 Frequency 0 Sin estudios 50000 150000 250000 Elementales nivel Medios Superiores Figura 2.4: Diagrama de barras de la variable nivel de estudios color.. Estas medidas se calculan desde Estad´sticos→Res´menes→ ı u Res´menes num´ricos.0737 71 Aunque se est´ hablando de la desviaci´n t´ a o ıpica. la funci´n sd o calcula en realidad la cuasidesviaci´n t´ o ıpica. del paquete datasets de R.4).3099 78.. statistics=c(‘‘mean’’. Cabe la posibilidad de que . En ella se recogen los pesos finales. > numSummary(chickwts[. siguiendo una escala de colores c´lidos.

se le ha restado 3. se incluye ıa. e una tabla de medidas estad´ ısticas. Se chickwts$weight puede observar en el gr´fico que la a variable no posee valores at´ ıpicos. A continuaci´n. Se podr´ concluir que la ıa distribuci´n es bastante sim´trica y algo aplastada. . si se deseara calcular la simetr´ y la curtosis de la variable weight.frame que se est´ utilizando incluye un factor. En el a histograma se observa un comportamiento bastante sim´trico y la e posibilidad de que existan dos modas.18 Cap´ ıtulo 2.‘‘method’’) ‘‘moment’’ Ambos coeficientes est´n calculados a partir de los momentos y. a en el caso de la curtosis. .5). si no lo est´ ya.. Por ejemplo. que permita evaluar las diferencias de peso en funci´n del tia o po de alimentaci´n seguida.01136593 attr(. se construye o 100 150 200 250 300 350 400 450 el diagrama de caja (figura 2. .. El data. Y a a continuaci´n: o > kurtosis(chickwts$weight) -0. tanto num´rico como o a e gr´fico. An´lisis Exploratorio de Datos Unidimensional a se necesiten otro tipo de medidas que completen el estudio. habr´ en primer lugar ıa ıa que instalar y cargar en R. en el ap´ndice B.‘‘method’’) ‘‘excess’’ > skewness(chickwts$weight) -0. o e An´lisis gr´fico: Para analizar a a gr´ficamente la variable peso se a comienza con la realizaci´n del o histograma que se muestra al margen mediante las instrucciones Gr´ficas→Histograma. Feed. Ello permite la realizaci´n de un an´lisis por grupo. como la simetr´ el apuntamiento. Los valores que toma la variable Feed son: o Frequency 0 5 10 15 . es sim´trica y est´ relativamente dise a persa. Para ello. que a se corresponde con las diferentes dietas sumimistradas a los pollos.9651994 attr(. el paquete fBasics.

Se observa que los valores u o de la variable peso est´n m´s concentrados para la dieta sunflower. a El an´lisis num´rico ofrece los siguientes resultados: a e > numSummary(chickwts[.9091 246. sunflower (girasoles).9167 sd 64.62584 52.12907 48. Es interesante la representaci´n del diagrama de caja de la variable o peso.2000 218.23570 64.4286 328. parece indicar que la dieta que produce pollos o de mayor peso es sunflower. linseed (linaza).2.83638 n 12 10 12 11 14 12 .5 An´lisis de variables de escala a 400 400 19 350 300 weight weight 250 200 150 100 150 200 250 300 350 casein horsebean linseed meatmeal feed soybean sunflower 100 Figura 2. groups=chickwts$feed.90062 54. seg´n el tipo de alimentaci´n (figura 2.43384 38. meatmeal (carne) y casein (case´ ına). ya que los pesos que consigue est´n m´s a a concentrados en torno a uno de los valores m´s altos. o Una evaluaci´n inicial.5). soybean (soja).7500 276. Por contra la mayor dispersi´n de los datos se produce con la dieta casein.5: Diagramas de caja de la variable peso horsebean (habas). statistics=c(‘‘mean’’)) casein horsebeen lindseed meatmeal soybean sunflower mean 323.5833 160. a a Tambi´n ´ste es el unico grupo en el que se dan valores at´ e e ´ ıpicos.‘‘weight’’].

74. 52. 54. 2. 80. indicando su nivel de repreo sentatividad. 55 59. 3. 59. 5.1 Al comenzar el curso se pas´ una encuesta a los alumnos del o primer curso de un colegio. 70. el n´mero de premiados de quinielas seg´n la u u cantidad de aciertos.3. 4. pregunt´ndoles. 2. 62. 8. 3. 99. 85. 101. 49. 92. 2. 3. Cap´ ıtulo 2. 55. 57. 2. 3. 5 1. 3. 67. 5. 4. 8. 100. 62. 54 Obtenga: a) La distribuci´n de frecuencias agrupando por intervalos. 5. 90. 66. 2. 58. 3. 54. 65 76. 4. 67. 58. 3. 57. 64. 3. 67.20 6. 96. 3. 70. 4. 72. c) Estudie la dispersi´n de los datos. o d) Analice la simetr´ de la distribuci´n. 3. d) Utilizando la agrupaci´n en intervalos. 60 65. 1. 53. durante una temporada. 53. 4. 60. b) Calcule media. el porcentaje de o alumnos que tienen un peso menor de 65 kg y el n´mero de alumnos con u un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg. 4. 4 a) Represente este conjunto de datos con un diagrama de barras. 3. 48. 4. entre otras cuestiones. ıa o 2. por el a n´mero de hermanos que ten´ Se obtuvieron los siguientes resultados: u ıan. 3. 2. 2. 3.2 Los pesos de un colectivo de ni˜os son: n 60. 56. 2. 3. 3.3 En el Consejo de Apuestas del Estado se han ido anotando. o b) La mediana de la distribuci´n. o c) La media de la distribuci´n. 65. 2. 58. 97. 3. 2. 73. 2. 2. 74. 82. 65. 2 . 73. Los resultados se recogen en la siguiente tabla: No de aciertos No de personas (miles) 11 52 12 820 13 572 14 215 15 41 . 53. 66. 6. 55. 3. 4. 73. 1. 2. An´lisis Exploratorio de Datos Unidimensional a Ejercicios 2. 4. 55. moda y mediana. 3. 2. 96. 3. 4 3. 63. 2. 58. 4.

indicando la representatividad de dicha medida. d) El tonelaje m´s frecuente en este puerto. ıa o 2.) No de barcos Se pide: a) El peso medio de los barcos que entran en el puerto diariamente.6 Ejercicios 21 Calcule: a) La mediana. la moda y los cuartiles de la distribuci´n. resultando para un cierto d´ los siguientes datos: u ıa Peso(Tm.2. o c) El grado de apuntamiento. o b) La simetr´ de la distribuci´n. b) El intervalo donde se encuentra el 60 % central de la distribuci´n.4 En un puerto se controla diariamente la entrada de pesqueros seg´n su tonelaje. a 0-25 5 25-50 17 50-70 30 70-100 25 100-500 3 .

22 .

M. Mu˜oz M´rquez. L´pez S´nchez. por tanto. F. de hecho. Un modelo estad´ o ıstico relaciona mediante una o varias expresiones matem´ticas a un grupo de caracteres. Fern´ndez Palac´ o a ın. resulta muy interesante realizar an´lisis conjuntos a de grupos de ellos. Arriaza G´mez. a Aunque en posteriores entregas se tratar´n t´cnicas multivariables a e muy potentes. los objetivos en este cap´ ıtulo son mucho m´s modestos a y se limitar´n a un primer acercamiento de naturaleza descriptiva. En la mayor´ de las ocasiones s´lo se cona ıa o templar´n dos caracteres de forma conjunta. un a a an´lisis bidimensional. ema ple´ndose para ello tanto medidas de relaci´n entre caracteres como a o representaciones gr´ficas. A. aunque de nuevo la cuesti´n de la naturaleza de los caracteres y los o objetivos del estudio ser´n determinantes a la hora de fijar las t´cnicas a e que se emplear´n. en el que se tratar´ de explicar el coma portamiento de una variable causa a partir de otra que se denomina .es/ebrcmdr Cap´ ıtulo 3 An´lisis Exploratorio de Datos multidimensional a Una vez estudiados los distintos caracteres de la matriz de datos de forma individual. M. se abordar´ un a modelo de ajuste bidimensional. o a n a e A.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. Los motivos para adoptar este enfoque son variaa dos. En este caso. que ocasionala mente deben cumplir algunos requisitos. J. a En este cap´ ıtulo tambi´n se har´ una primera incursi´n en el tee a o ma de la modelizaci´n.uca. realiz´ndose. la mayor´ de los an´lisis estad´ ıa a ısticos tienen car´cter multivariable. S. P´rez Plaza.

La asignaci´n de roles a variables de la misma naturaleza en ning´n o u caso se soportar´ por motivos estad´ a ısticos. ıa pero nunca se podr´ asimilar un atributo a una variable ordenada. a e Como consecuencia de lo anterior cuando se incluyan en el mismo an´lisis caracteres de distinta naturaleza conviene. con a toda seguridad. que es la de la ordenaci´n. podr´ justificarse el tratar una variable contada como variable de escala. sino que depender´ exa clusivamente del criterio del investigador. mientras que si un car´cter es de clase y el a otro una variable de escala la disimilaridad que se elija tendr´. individuos sobre los que se han medido dos variables de escala es habitualmente la distancia eucl´ ıdea. siempre que sea a posible. . u en funci´n de los caracteres considerados. An´lisis Exploratorio de Datos multidimensional a efecto. Tipos de relaciones entre caracteres En principio se podr´ establecer tantos tipos de relaci´n como los ıan o que resultar´ de cruzar los diferentes caracteres definidos en el cap´ ıan ıtulo anterior. En general funcionan mejor los cruces entre caracteres de la misma naturaleza. Ello se debe a que para realizar el an´lisis se debe a especificar alg´n tipo de disimilaridad que establezca la diferencia. As´ o ı. propiedades mucho m´s d´biles. No obstante. por lo que se limitar´ el ıan e a a estudio a aquellos que habitualmente se encuentran en la pr´ctica. que existe entre cada par o de individuos de la matriz de datos.24 Cap´ ıtulo 3. el n´mero de cruces ser´ demasiado elevado y u ıa muchos de ellos no tendr´ inter´s pr´ctico. que como se sabe posee buenas propiedades. Se expondr´n previamente algunas matizaciones y a precauciones que conviene tener presente. ıa 1. asignarles roles distintos. Siempre existe un cierto grado de tolerancia para asimilar caracteres de menor nivel de informaci´n a los de nivel superior. As´ la disimilaridad entre dos ı. que a b´sicamente se corresponden con los que relacionan caracteres de la a misma naturaleza. aunque existe o una marca que no se debe transgredir.

que en ocasiones necesitar´ un tratamiento diferenciado. . . . . . .3. . . Ar y el atributo B por las clases B1 . nrj n·j ··· Bs n1s n1· . o o se construir´ la tabla de frecuencias conjunta o tabla de doble entrada. es decir aquella que considera todos o los grupos posibles de variables. ··· ··· nr1 · · · Tabla 3. a aunque se trate.. Ai . la informaci´n a tratar quedar´ conformada por la tabla 3.2 An´lisis de relaciones entre dos atributos a A. .1. La violaci´n de este principio puede llevar a aceptar como o v´lidas asociaciones meramente esp´reas. ··· ··· . . . . nrs n·s ni· . respectivamente. a u 2. Ar B1 ··· Bj n1j . . B2 . B) La investigaci´n combinatoria. . . . n·1 ··· . . La ultima ´ columna y la ultima fila de la tabla 3. nr· n 25 n11 · · · . nij . . . tanto dicot´micos como polit´micos.. Cuando se consideran dos atributos dicot´micos se tendr´ una o a tabla 2 × 2. donde nij representa o ıa la frecuencia absoluta del par (Ai . .. . . . de un an´lisis de car´cter exploa a ratorio.. .1 representan las distribuciones ´ marginales de A y B. est´ fuertemente desaconsejada. . An´lisis de relaciones entre dos atributos a Para relacionar dos atributos. . Bj ). nis . . . a A1 . B A1 .1: Distribuciones conjuntas y marginales de (A. . . . es decir el n´mero de individuos u que presentan de forma conjunta la clase Ai de A y la Bj de B. a As´ si se considera que el atributo A est´ conformado por las clases ı. A2 . ··· . . como es el caso. . a Menci´n aparte merece el caso en que uno o los dos atributos son del o tipo presencia-ausencia de una cualidad. ni1 . Bs . . .

Test <.dat.Table X-squared=190. se intentar´ establecer a a una posible asociaci´n entre la supervivencia o y la clase en la que viajaban los pasajeros del Titanic.2 14.. edad y si sobrevivi´ o no al naufragio del famoso transo atl´ntico.df=3.4011 .1 Como caso pr´ctico para analizar la relaci´n a o entre atributos se ha elegido el archivo de datos titanic. An´lisis Exploratorio de Datos multidimensional a Ejemplo 3. en el que aparecen las variables Class.4 12. Age y Survived. data=Datos) > . respectivamente.2 Total 67.26 Cap´ ıtulo 3. con lo que se abre la ventana de di´logo mostrada arriba.6 5.Test Pearson’s Chi-squared test data: . su sexo.0 8.8 2nd 7. Sex.9 3rd 24. que aportan informaci´n..3 100.Table < −xtabs(∼Survived+Class. En concreto.5 9.1 32.0 No Yes Total > . en la que se seleccioa nan los correspondientes atributos fila (Survived) y columna (Class)..6 40.6 9. p-value < 2. sobre la clase o que ocupaba el pasajero.7 32.Table. Con Rcmdr esto se consigue desde Estad´sticos→ ı Tablas de contingencia→Tabla de doble entrada.1 Crew 30. adem´s se eligen Porcentajes totales y se deja marcada la opci´n a o Prueba de independencia chi-cuadrado. En primer lugar se construir´ la taa bla de doble entrada con las variables seleccionadas. correct=FALSE) > . Table) # Percentage of Total 1st 5.chisq. Los resultados son: > .2e-16 .test(.Table Class Survived No Yes 1st 122 203 2nd 167 118 3rd 528 178 Crew 673 212 > totPercents(.

Se emplear´ en este caso el primero que viene dado a por: s χ2 C= 2+n χ donde n es el tama˜o muestral. se ver´ que se puede ser m´s contundente a la hora de a a a concluir la existencia de relaci´n utilizando los Contrastes de Hip´tesis.text=c(‘‘No superviviente’’. o o Para poder visualizar la relaci´n entre las variables puede ser muy o util la realizaci´n de un diagrama de barras de la variable supervivencia ´ o seg´n la clase de los pasajeros. o Si se observa la tabla de doble entrada se ve que porcentualmente se salvaron m´s pasajeros de primera clase. beside=TRUE. ylab=‘‘Frecuencia’’. se aprecia que ´ste ofrece una visi´n que podr´ llevar a confusi´n. legend. da informaci´n sobre el grado de relaci´n o o 2 . En nuestro caso el coeficiente de continn gencia vale 0. lo que indica una cierta relaci´n entre ambos atributos. a la que se ha llamado Tabla. mientras que los de tercera clase y a la tripulaci´n fueron los que m´s sufrieron las consecuencias del naufrao a gio. M´s adelante. xlab=‘‘Clase’’. Este estad´ ıstico indica el grado de relaci´n entre la clase que ocupaba el pasajero y si sobrevivi´ o no al o o naufragio. data=Datos) A continuaci´n se obtiene el diagrama de barras mediante las ´rdeo o nes R: >barplot(Tabla. que el n´mero de supervivientes de primera clase u . Los m´s usuales son el u e a coeficiente de contingencia y el coeficiente de Cramer. ambos acotados en el intervalo [0. a trav´s del coeficiente χ e s´lo el valor del estad´ o ıstico χ2 = 190. Para ello. ejecutando en la ventana de instrucciones: >Tabla <-xtabs(∼ Survived+Class. ‘‘Superviviente’’). se almacena en primer lugar u la tabla de contingencia de las variables Survived frente a Class.4. apae o ıa o rentando.colors(2)) Observando el diagrama de barras de valores absolutos (figura 3. De momento se considera entre los atributos. si χ2 = 0 indicar´ una ausencia de relaci´n y a medida que ıa o χ2 crece la relaci´n va en aumento. o El estad´ ıstico no est´ acotado en un rango de valores que permia ta interpretar la intensidad de la relaci´n. por ejemplo.2 An´lisis de relaciones entre dos atributos a 27 R adem´s de proporcionar las tablas de valores absolutos y de a porcentajes sobre el total.1). 28.3. por lo que se debe recurrir o a alg´n coeficiente derivado que est´ acotado. 1).col=cm.

Para representar el diagrama de barras no son necesarias las dos ultimas filas. . y mientras que en primera clase viajaban 325 individuos. Una alternativa para apreciar la o relaci´n existente entre los dos atributos es construir el diagrama de bao rras de las frecuencias relativas.1).‘‘green’’)) Se han seleccionado los colores verde para los supervivientes y rojo para los no supervivientes. Por ultimo.28 Cap´ ıtulo 3. los miembros de la tripulaci´n eran 885. los porcentajes totales y las frecuencias marginales. Tabla por Tablarel (figura 3. o porcentajes de supervivencia respecto a cada clase. main=‘‘Supervivientes del Titanic’’. se construir´ un gr´fico de mosaico. lo que se consigue con las siguientes instrucciones R: >Tabaux <-colPercents(Tabla) >Tablarel <-Tabaux[1:2][1:4] Tabaux contiene la tabla de porcentajes. An´lisis Exploratorio de Datos multidimensional a 600 No superviviente Superviviente 500 No superviviente Superviviente Porcentajes 1st 2nd Clase 3rd Crew Frecuencia 400 300 200 100 0 0 10 20 30 40 50 60 70 1st 2nd Clase 3rd Crew Figura 3. en lugar de usar las frecuencias absolutas. Igual que antes. o Ahora se est´ en condiciones de construir el diagrama de barras.2. figura 3. se debe almacenar previamente la tabla de porcentajes. color=c(‘‘red’’. con to´ a a dos los atributos del fichero Titanic. en la secuencia de instrucciones usada para el diagrama de barras de valores absolutos. por lo que se ha construido una nueva ´ tabla denominada Tablarel con la informaci´n que interesa. se ejecuta la instrucci´n: o >mosaicplot(Titanic. Ello a u o se debe a que se han comparado las frecuencias absolutas de estos dos grupos.1: Diagramas de barras de la supervivencia es pr´cticamente igual al n´mero de supervientes de la tripulaci´n. a para ello se sustituye. Para ello.

beside=TRUE.text=c(‘‘No superviviente’’. dado que en ocasiones.2 An´lisis de relaciones entre dos atributos a Supervivientes del Titanic No 1st Adult Child 2nd Adult Child 3rd Adult Child Crew Adult Child 29 Sex Male Yes No Female Yes Class Figura 3. cada vez que se ha utilizado un procedimiento a de Rcmdr. como ha ocurrido en este ejemplo.colors(2)) ´ Esta le indica a R que cree un gr´fico de barras. e Rcmdr no es otra cosa que lo que se conoce como un frontend de R. a Las instrucciones de R pueden ser una expresi´n o una asignaci´n. si se analiza la estructura de la instrucci´n: o >Tabla <-xtabs(∼ Survived+Class. ´ste ha generado una o varias instrucciones R. que genera una tabla de o o doble entrada con las variables Survived y Class del data. ‘‘Superviviente’’). xlab=‘‘Clase’’. legend. de la a . o o Una expresi´n se eval´a. al que se le asigna (< −) el resultado de la evaluaci´n de la funci´n xtabs. se muestra su resultado y se descarta.frame con nombre Datos. ylab=‘‘Frecuencia’’. es decir un forma m´s amigable de acceder a los recursos de R.2: Gr´fico de mosaico de los datos Titanic a R–Nota 3.1 ´ Este puede ser un buen momento para analizar someramente la sintaxis de las instrucciones R. Una o u asignaci´n se eval´a obteniendo un nuevo objeto que se almacena con el o u nombre especificado. data=Datos) se observa que se crea el objeto Tabla. en realidad. se necesita crear o editar una instrucci´n.col=cm. barplot.3. Si ahora se fija la atenci´n en la instrucci´n: o o >barplot(Tabla. Como el lector o habr´ podido comprobar. Concretamente.

text. y que utilice la gama de colores col=cm. . legend.text para incluir una leyenda de los datos. ylab=‘‘Porcentajes’’. que la leyenda de las clases.y) del a a punto elegido. que el tipo de barras sea pegada. pero de esta forma la leyenda se dibuja en ocasiones sobre las barras. xlab=‘‘Clase’’. Por ultimo.y.c(‘‘No superviviente’’.colors(2)) El argumento fill sirve para indicarle los colores de las barras. se incluir´ la leyenda en la posici´n elegida con la ´ a o orden: legend(x. 3.text: a >barplot(Tablarel. u en nuestro caso n= 1.‘‘Superviviente’’).2 En los diagramas de barras anteriores se usa el argumento legend.colors(2)) 2.col=cm. Una vez ejecutada la orden. An´lisis Exploratorio de Datos multidimensional a tabla de doble entrada Tabla. xlab e ylab. Clase y Frecuencia. beside=TRUE. Para mejorar los resultados gr´ficos a se pueden utilizar las siguientes instrucciones: 1. R–Nota 3. se pincha en la gr´fica anterior con a el bot´n izquierdo del rat´n en el lugar donde se desee insertar la o o leyenda y autom´ticamente aparecer´n las coordenadas (x. siendo las etiquetas de los ejes. fill=cm. beside=TRUE. Escribir la orden del gr´fico de barras sin legend. sea No superviviente y Superviviente. Para localizar las coordenadas del gr´fico en las que se desea ina sertar la leyenda se emplea la orden locator(n).30 Cap´ ıtulo 3. 4. donde n es el n´mero de puntos de los que se quiere averiguar las coordenadas.colors(2).

si habr´ que aclarar que la idea de ajuste implica la selecci´n de ıa o un modelo matem´tico que aproxime lo mejor posible la relaci´n entre a o las variables. se aborda el eso tudio de la relaci´n entre dos variables medidas. mientras que el concepto de regresi´n hace referencia a la o idea de predecir mediante alguna regla. e explicada. Este estudio se har´ a o a trav´s de la construcci´n de una funci´n de ajuste. de forma que si o a se hiciera el an´lisis dos a dos se estar´ utilizando la misma informaci´n a ıa o . a partir de ahora se admitir´. La explicaci´n para plantear este enfoque es que las variables indepeno dientes suelen estar relacionadas tambi´n entre ellas.3. . o y aunque no es objeto de este manual entrar en temas te´ricos en profuno didad. que expresa mae o o tem´ticamente c´mo una de las variables denominada causa explica el a o comportamiento de la otra variable llamada efecto. de forma indistinta ambos conceptos. . Dicho lo cual. para cada una a a o de ellas. . Es muy habitual confundir los conceptos de ajuste y de regresi´n. en la mayor´ de las ocasiones la matriz de daıa tos contiene varias variables num´ricas y el investigador desea estudiar e c´mo se explica el comportamiento de una de ellas sobre la que tiene un o especial inter´s (dependiente) a partir del conocimiento de un conjune to del resto de variables (independientes). a Por otra parte. es decir comparten e informaci´n de los individuos que se est´n estudiando. . mientras que la variable efecto es llamada tambi´n dependiente. causa-efecto. siendo necesario la construcci´n de un modelo de ajuste m´ltiple que relacione de forma o u conjunta la variable dependiente con el conjunto de las independientes.3 An´lisis de relaciones entre dos variables a 3. end´gena. el an´lisis o a dos a dos. En esta situaci´n. A la variable causa se le conoce tambi´n con los nombres de independiente. . . ex´gee o na. un valor de la variable dependiente para cada valor de la independiente. Desde el punto de vista de la investigaci´n que o o se est´ realizando es fundamental la selecci´n de las variables que ene o trar´n en el an´lisis y la asignaci´n de roles. en el que se considerar´ la variable dependiente con cada ıa una de las independientes es claramente ineficiente. An´lisis de relaciones entre dos variables a 31 Una vez analizada la relaci´n entre dos atributos. explicativa. y como suele ocurrir en muchos textos estad´ ısticos. y a usar´. .

la independiente o (X) y la dependiente (Y). El criterio m´s generalizado es el de los m´nimos a ı cuadrados. . y las predicciones . una funci´n potencial Y = aX b . Ejemplo 3. La clase funcional hiperb´lica Y = a + o 1 una recta transformando X ′ = X . Desde un punto de vista gr´fico estos valores se pueden representar en a un plano. En realidad seleccionar f es elegir una clase funcional o que depender´ de unos par´metros que habr´ que estimar. Es decir. yi ). El objeto del ajuste es la obtenci´n de una o o funci´n que se adapte lo mejor posible a la nube de puntos. o Y ∗ = f (X) El conocimiento previo que se puede tener de la relaci´n Y /X junto con o el an´lisis de la nube de puntos debe ofrecer las claves para la selecci´n a o de la funci´n f . una funci´n a o exponencial Y = abX . Se puede apreciar que mediante alguna transformaci´n muchas de estas funciones se convierten en rectas. se consideran s´lo dos variables. que establece que la suma de las distancias al cuadrado entre los valores observados de la variable Y . siendo el conjunto de puntos la denominada nube de puntos o diagrama de dispersi´n. dando lugar a n parejas de valores (xi .32 Cap´ ıtulo 3. una hip´rbola o e b o Y = a + X . An´lisis Exploratorio de Datos multidimensional a de forma reiterada. en realidad se estaba indicando la necesidad de establecer un criterio de ajuste que minimice las diferencias entre la curva de ajuste y la nube de puntos. es decir los yi . En lo sucesivo. b X tambi´n se convierte en e Cuando antes se ha escrito ((la selecci´n de un modelo matem´tico o a que aproxime lo “mejor posible” la relaci´n entre las variables)) o la o ((obtenci´n de una curva que se adapte lo “mejor posible” a la nube de o puntos)). . logY = loga + Xlogb. se a a a elige una recta Y = a+bX. . una par´bola Y = a+bX +cX 2 .2 La clase funcional exponencial Y = abX aplicando una transformaci´n logar´ o ıtmica se linealiza.

Una de las utilidades m´s importantes del ajuste a es la de realizar predicciones de la variable explicada para distintos valores de la variable explicativa. y sus correspondientes valores ajustados. . La figura 3. Obs´rvese que la diferencia entre los valores observados de o e ∗ Y . . En realidad. donde a representa el punto de corte de la recta con el eje Y y b el incremento– decremento de Y para un incremento unitario de X.3 ilustra lo dicho para el caso lineal Y = a + bX. yi ) pertenecen . Cuando se sustituyen los valores de X que se han empleado para calcular la funci´n de ajuste. el valor que se obtiene para Y es una predicci´n. .3 An´lisis de relaciones entre dos variables a 33 ∗ que se obtienen de ´sta a partir de la funci´n de ajuste. . xn o se obtienen los correspondientes valores ajustados por el modelo. . x2 .3: Recta de ajuste Predicciones. yn . mientras que si se asigna a X cualquier valor factible para esta variable. y2 . e o sea m´ ınima. son los errores ∗ ∗ del ajuste ei = yi − yi . yi ) T ¨ c ¨ ¨ • ¨¨ T • ¨¨ • ∗ ¨¨ yi ¨¨ ¨¨ • ∗ ei = yi − yi ¨¨ • ¨¨ • ¨ • ¨¨ ¨ • • ¨ • c E X Figura 3. Y T • (xi . x1 . se trata de sustituir en el ajuste los valores de X para obtener los correspondientes valores de Y . yi . . Los puntos ajustados (xi . ∗ ∗ ∗ y1 . yi = f (xi )∀i.3. yi . . . La aplicaci´n de este criterio permite la estimaci´n de los o o par´metros del modelo y la determinaci´n de forma un´ a o ıvoca de la funci´n o de ajuste.

se explicar´ por una parte a trav´s de una ıa e mejora de la funci´n de ajuste. mientras que el resto. x ¯ An´lisis de bondad del ajuste. (¯. y extrapolaciones cuando se encuentran fuera de dicho rango. 1]. por otra incorporando. cuando X crece Y decrece. R o S2 Y toma valores en [0. y ) . La medida que sintetiza lo expresado en el p´rrafo anterior es el a 2 = SY ∗ que. o inverso. mientras que en el extremo contrario ser´ la variable ajustada la que tendr´ ıa ıa varianza nula. La validez estad´ ıstica de las interpolaciones es mayor que las de las extrapolaciones. que exprese en qu´ porcentaje la variable dependiente se explica por e la independiente a trav´s del ajuste realizado. o informaci´n nueva (otras variables. es decir el 100 ∗ (1 − R2 ) %. con lo que se tendr´ un modelo o ıa de regresi´n m´ltiple) y por la variabilidad intr´ o u ınseca de los datos. de hecho. n es decir. de un valor. Si el ajuste fuera e perfecto todos los valores observados se situar´ sobre la nube ıan de puntos y los residuos y su varianza se anular´ ıan.34 Cap´ ıtulo 3. o que toma valores en el intervalo [−1. cuando o e X crece Y crece. interpret´ndose que la variable Y se explica a en un 100 ∗ R2 % por la variable X. . SY = SY ∗ + Se . se puede demostrar para una gran cantidad de modelos. a Las predicciones para valores de X distintos a los empleados en el ajuste se denominan interpolaciones cuando dichos valores se encuentran dentro del rango de valores de ajuste para X. 1] y que adem´s de medir la a intensidad de la relaci´n indica si ´sta es de tipo directo. a ser posible acotado en un intervalo. en particular para el lineal. Se verifica que r 2 = R2 . de hecho la calidad de la predicci´n decrece cuando o aumenta la distancia al centro de gravedad de la nube de puntos. Para el caso de ajuste lineal existe un coeficiente espec´ ıfico de bondad de ajuste denominado coeficiente de correlaci´n lineal r. que la varianza de Y es igual a la de Y ∗ 2 2 2 m´s la varianza del error. coeficiente de determinaci´n. como puede verse. si es factible. An´lisis Exploratorio de Datos multidimensional a ∗ a la recta de ajuste y los yi tienen menos varianza que los yi . El ajuste no estar´ totalmente a ıa resuelto si no viniera acompa˜ado de una medida de su bondad.

en o . Conviene examinar. con m´s o a a par´metros y m´s compleja. Tambi´n es interesante e el an´lisis de puntos influyentes. y los ajustados por la funci´n de ajuste. Ejemplo 3.dat. Para terminar. Estos puntos van a estar localizados en los extremos de la nube de puntos. Mejora del modelo. resulta de especial inter´s el an´lisis de los resie a duos extremos y de las gr´ficas de los residuos frente a valores de a X. ver ejemplo 3.4: Diagramas de dispersi´n peso-altura o An´lisis de residuos del modelo. Y . Y ∗ . conviene indicar que reemplazar una funci´n de ajuste por otra m´s sofisticada.3. tanto a desde un punto de vista num´rico como sobre todo gr´fico. s´lo se justifica si la mejora en t´rmia a o e nos de R2 es alta. es decir las diferencias entre los valores observados. indexados o frente a las predicciones. entendiendo esto como aquellos a puntos que tienen un sobrepeso en la construcci´n de la funci´n o o de ajuste.3. o En particular. pues en otro caso se complica la interpretaci´n o del modelo sin apenas recompensa. los e a residuos que genera el ajuste.3 Para ilustrar los conceptos sobre el ajuste lineal se proceder´ a analizar a la relaci´n entre peso y altura del fichero de datos peso altura.3 An´lisis de relaciones entre dos variables a 110 SEXO Mujer Varón 110 35 100 90 PESO 80 PESO 160 165 170 175 ALTURA 180 185 190 195 60 70 80 60 70 90 100 160 165 170 175 ALTURA 180 185 190 195 Figura 3.

5: Histogramas de peso y altura Figura 3.1 −10 −5 0 5 66 0 10 20 30 Index 40 50 Figura 3.36 Cap´ ıtulo 3.7: Residuos indexados . An´lisis Exploratorio de Datos multidimensional a 15 Frequency Frequency 160 170 180 190 200 10 5 0 0 5 10 15 20 60 70 80 90 100 110 Datos2$ALTURA Datos2$PESO Figura 3.6: Regresi´n lineal y predicciones o 10 61 41 Datos$residuals.RegModel.

La l´ ınea de regresi´n suavizada y la l´ o ınea discontinua de ajuste lineal.200. A la vista de la figura 3. Diagrama de dispersi´n. Al objeto de fijar el n´mero de clases de los histogramas u y los colores..5. cambiando en ambos casos las opciones del n´mero de intervalos u (breaks) y los colores (col) y se vuelven a ejecutar. aunque ello es un indicio claro de mezcla de poblaciones. col=heat. No obstano te. en un ejercicio b´sia camente did´ctico. con lo que se obtiene las figuras en 3.3 An´lisis de relaciones entre dos variables a 37 el que aparecen.5). breaks=seq(155.110.. sugieren que los ajustes m´s eficientes a son tipo lineal y posiblemente parab´lico o potencial. peso y altura de un grupo de personas.colors(12)) Una primera visi´n de los histogramas permite detectar una bimoo dalidad tanto en la variable peso como en la altura.3. Las instrucciones retocadas son respectivamente: >Hist(Datos$ALTURA. En Rcmdr se seleccionan las opciones Gr´ficas→ o a Diagrama de dispersi´n. se representa el diagrama de o a dispersi´n. scale=‘‘frequency’’. que o ı ofrece una regresi´n a los puntos y que da una idea de la clase o funcional m´s eficiente bajo el criterio de m´ a ınimos cuadrados. la escala de representaci´n de las variables podr´ ser un factor o ıa . o o 1. Histogramas. se continuar´ con los a siguientes pasos del ajuste con todos los datos. Antes de abordar el an´lisis bidimensional propiaa mente dicho.. breaks=seq(55. o Por defecto aparece marcada la opci´n l´nea suavizada. el sexo.colors(13)) >Hist(Datos$PESO. scale=‘‘frequency’’. entre otras variables. se retocan las instrucciones R que genera Rcmdr. para las variables mencionadas. operando para ello tal y como se indic´ en el cap´ o ıtulo anterior. se decide explicar el peso en funci´n de la altura.4 se observa la existencia de relaci´n entre o las dos variables.3). se representar´n los histogramas de las variables peso a y altura. Como se ha indicado anteriormente es necesario establecer qu´ variable ser´ la explicada y cu´l la explicativa. en busca de establecer la relaci´n que justifique a o el peso en funci´n de la altura. o 2. Dado que se trata e a a de un ejemplo y que no se cuenta con elementos adicionales para avalar la decisi´n. col=heat. Al objeto de decidir el tipo de funo ci´n de ajuste que se utilizar´.

cuando los patrones de relaci´n o peso–altura no tienen porqu´ coincidir y de hecho no lo hacen. 719 implica que un 28 % de la variaci´n de Y no se explica r o por X a trav´s de la recta de ajuste. en el diagrama de dispersi´n se ha visto o que la regresi´n suavizada suger´ la posibilidad de un crecimiento o ıa de tipo parab´lico o potencial. a o 3. An´lisis Exploratorio de Datos multidimensional a distorsionador que podr´ llevar a pensar. Si e se observa atentamente el diagrama de dispersi´n se puede entrever o la existencia de dos poblaciones. err´neamente.test(Datos$ALTURA. Pero como ya se ha comentado o antes. alternative=‘‘two. que las ıa o variables mantienen un grado de relaci´n lineal mayor del que realo mente existe. para confirmarlo se representar´ el a diagrama de dispersi´n pero diferenciando los individuos de ambos o sexos.sided’’.7818060 0. df = 98. e En este momento.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0. . lo que indica que existe relaci´n directa entre las variables.8480039 El coeficiente de correlaci´n es positivo y relativamente alto. hombre y mujer. el coeficiente de determinaci´n R2 = o 2 = 0. Datos$PESO. method=‘‘pearson’’) Pearson’s product-moment correlation data: Datos$ALTURA and Datos$PESO t = 15.38 Cap´ ıtulo 3. 848.8396. eligi´ndose ı u o e en el cuadro de di´logo las variables que interesan.8952982 sample estimates: cor 0. y si no se hubiera detectado la bimodalidad en el histograma. Para confirmar la existencia de una alta correlaci´n o se calcular´ el coeficiente de correlaci´n lineal de Pearson. o En cuanto a la intensidad. La salida que a ofrece Rcmdr es: > cor. se est´n considerando conjuntamente a los dos sexos. An´lisis de la correlaci´n. En efecto. r = o 0. habr´ que plantearse la posibilidad de mejorar la ıa funci´n de ajuste utilizando una clase funcional que se adaptara o mejor a la nube de puntos. Se selecciona la secuencia de opciones a o Estad´sticos→Res´menes→Test de correlaci´n. p-value < 2. la bimodalidad del histograma parece indicar la confusi´n de o dos poblaciones.

..3. Para dividir el conjunto de datos seg´n la variable SEXO. respectivamente a 0. se elige como juego de datos activos el que interese y se calcula su coeficiente de correlaci´n o de Pearson. no presenta o ıa desviaciones claras de la linealidad.. La a o a visualizaci´n del gr´fico 3. mucho m´s altas que las a que se ten´ para el ajuste conjunto. p-value < 2. 897.3 An´lisis de relaciones entre dos variables a 39 4. Se observa como la correlaci´n para las mujeres es de o 0. Para analizar cada grupo de sexo. 804 y 0. 861. alternative=‘‘two.8973532 . la variable sexo.. al contrario de lo que ocurr´ antes... las dos l´ o a ıneas de ajuste se acomodan mucho mejor a sus respectivos grupos y la regresi´n suavizada. method=‘‘pearson’’) Pearson’s product-moment correlation data: Peso Altura Mujer$ALTURA and Peso Altura Mujer$PESO t = 13. En Rcmdr se eligen las opciones Gr´ficas→ a a Diagrama de dispersi´n. An´lisis por grupo. Peso Altura Mujer$PESO. Por lo que procede ajustar de forma diferenciada las variables peso-altura para cada sexo. seleccionando en la ventana de o di´logo la opci´n Gr´fica por grupos.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0. R crea nuevos conjuntos o de datos con los nombres que se le hayan indicado en el correspondiente apartado de la opci´n de filtrado. En este caso o se han denominado Peso Altura Mujer y Peso Altura Varon. tomando como expresi´n o de selecci´n SEXO==‘‘Mujer’’ para la muestra femenina y o SEXO==‘‘Var´n’’ para la masculina. 928. respectivamente.test(Peso Altura Mujer$ALTURA.4 es muy elocuente.8208994 0.. ıan > cor.sided’’. u se procede en Rcmdr desde Datos→Datos activos→ Filtrar los datos activos. mientras que para los hombres llega hasta 0.4879. con R2 iguales.9422066 sample estimates: cor 0. df = 44.

data=Peso Altura Varon) > coef(RegModel..1 <.07837 t value -11. Se obtendr´ ahora una de las dos rectas de ajuste a del peso en funci´n de la altura. Una vez elegido el conjunto de datos activo correspondiente a los hombres.test(Peso Altura Varon$ALTURA. Recta de ajuste. method=‘‘pearson’’) Pearson’s product-moment correlation data: Peso Altura Varon$ALTURA and Peso Altura Varon$PESO t = 13.937 on 52 degrees of freedom Multiple R-Squared: 0.1) (Intercept) ALTURA -164. p-value < 2.0335. data = Peso Altura Varon) Residuals: Min -13. data=Peso Altura Varon) > summary(RegModel.578 1Q -2.41331 Std.01 ’*’ 0. se elige PESO como variable explicada y ALTURA como variable explicativa.8793910 0. codes: 0 ’***’ 0.41331X.40 Cap´ ıtulo 3..sided’’. An´lisis Exploratorio de Datos multidimensional a > cor.6. y en la ventana de o la figura 3..8621. > RegModel.213 Max 9. p-value: < 2.lm(PESO∼ ALTURA.001 ’**’ 0.09760 +1. Si s´lo se quisieran obtener los coefio cientes de la recta ´stos se pueden obtener con las ´rdenes: e o > RegModel.03 Pr(> |t|) 2.8595 F-statistic: 325.413306 .’ 0. df = 52.491 3Q 2.9285171 5. concretamente se ha elegido el o subgrupo de los hombres.2 on 1 and 52 DF.43e-16 *** < 2e-16 *** (Intercept) ALTURA Signif. alternative=‘‘two.1 <.2e − 16 A la vista de los resultados se sabe que la recta de regresi´n es o Y=-164.097600 1.662 Coefficients: Estimate -164.05 ’. Error 13.9580797 sample estimates: cor 0.89222 0.lm(PESO∼ ALTURA.81 18.1 ’ ’ 1 Residual standard error: 3.1) Call: lm(formula = PESO ∼ ALTURA.09760 1.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0. se selecciona Estad´sticos→ ı Ajuste de modelos→Regresi´n lineal. Peso Altura Varon$PESO. Adjusted R-squared: 0.091 Median -0.

1.frame pred: > predicPESO <-predict(nombreModelo.0 y 201..c(‘‘fitted. R a˜ade al conjunto de datos n activos dos nuevas columnas llamadas fitted. 504 e 2 = 9. 197.1.pred) Por ultimo se a˜ade la variable predicPESO al conjunto de datos ´ n pred: .RegModel. ‘‘residuals.3.RegModel.1 PESO residuals.RegModel.900081 n 54 54 54 2 2 2 y efectivamente se comprueba que SY = SY ∗ + Se . statistics=c(‘‘mean’’. que en este caso se ha llamado pred y que contendr´ una variable cuyo nombre a se hace coincidir con el nombre de la variable independiente del modelo: >pred<-data.1’’. Para obtener los valores ajustados por el modelo se selecciona Modelos→ A~adir las estad´sticas de las observaciones a los n ı datos.7532 = 0..RegModel.1 y residuals.7.781456e-17 sd 9.5042 Para realizar predicciones para cualquier valor de X.0. se u e tiene: > numSummary(Hombres[. Valores ajustados y predicciones. Seguidamente se asigna a la variable predicPESO las predicciones que genera el modelo con la orden predict para los valores de la variable ALTURA del data.504150 3. pudi´ndose calcular el coeficiente de 10.197.184. ya que 2 = 9. Al realizar las estad´ ısticas descriptivas de Y . Y ∗ y e.frame(ALTURA=c(180. 7532 + 3.753284 10.3.201. determinaci´n como R o 10. ‘‘sd’’)) fitted.624074e+01 -3.3. 92 .1 con los correspondientes valores ajustados y residuos del modelo activo.8 cms.3 An´lisis de relaciones entre dos variables a 41 6. 8621. seleccionando las opciones media y desviaci´n t´ o ıpica en res´menes num´ricos. 193.193. y se marcan las opciones deseadas.7. 184.1 mean 8.1’’)]. en este caso Valores ajustados y residuos.RegModel.RegModel.624074e+01 8. ‘‘PESO’’.8)) Se incluyen en el fichero pred los valores 180. se necesita crear previamente un nuevo conjunto de datos.

seleccionando la variable a a residuals. 1.. An´lisis de Residuos. 194). En o ´ o este caso. 7.predicPESO) El nuevo conjunto de datos se puede ver en la figura 3.1 hace referencia al modelo usado. Para ello se suelen utilizar algunas representaciones gr´ficas.. El gr´fico de los residuos indexados se obtiene desde a Gr´ficas→Gr´fica secuencial. Aunque en este cap´ ıtulo se est´ abordando la regresi´n desde un a o punto de vista descriptivo y por tanto no se exigen condiciones a los datos. An´lisis Exploratorio de Datos multidimensional a >pred<-data.3 y la menos al valor 201. Detecta sobre todo problemas relacionados con la influencia que valores previos de la variable X ejercen sobre los posteriores. adem´s. .1).frame(pred..(RegModel. tanto absoa lutos como estudentizados. a entre las que destacan la de Residuos indexados y la de Residuos frente a ajustados.0 y 201. la opci´n Identificar puntos con o el rat´n y por ultimo elegir la representaci´n por puntos... .RegModel. resulta interesante hacer una diagnosis de los residuos que detecte b´sicamente problemas de mala elecci´n del modelo. se selecciona de nuevo Modelos→ A~adir las estad´sticas de las observaciones a los n ı datos. Ocurre sobre todo cuando la variable independiente es el tiempo. a o existencia de otras variables relevantes. Residuos indexados. la figura 3. presencia de valores at´ ıpicos. denominadas residuals.6. 8. la predicci´n m´s fiable a ¯ o a corresponde al valor 180. puesto que x = 177. se estar´ realizando ıan tres interpolaciones y dos extrapolaciones para los valores 197.1) y rstudent.42 Cap´ ıtulo 3.1.7 presenta una distribuci´n de residuos o .(RegModel. donde RegModel. desde el punto de vista estad´ ıstico se dice que existe un problema de autocorrelaci´n y o la soluci´n pasa por enfocar el tema desde la ´ptica de las series o o temporales. Para obtener los residuos. y se marcan las opciones correspondientes. gener´ndose por parte de R dos nuevas columnas en el fichero a de datos activos. De su observaci´n se pueden extraer valioo sas conclusiones. Puesto que el rango de valores de la altura es (167.8.

Los o a puntos influyentes ser´ aquellos que superaran el doble del coıan ciente entre el n´mero de variables regresoras m´s uno y el n´mero u a u de observaciones. En la figura 3. Se buscan ahora valores eso pecialmente determinantes a la hora de estimar los par´metros del a modelo. Residuos estudentizados frente a valores ajustados.3 An´lisis de relaciones entre dos variables a 43 sin ninguna relaci´n y no se obtiene mayor anormalidad que la o existencia de los candidatos a valores at´ ıpicos. la presencia de valores at´ o ıpicos.9 se tienen la representaci´n indexada de los potenciao les Hat.. En general se deo e ben tener en cuenta aquellas observaciones cuya distancia de Cook sea mayor que 1..8. La distancia de Cook para la observaci´n i-´sima o e calcula la diferencia entre los par´metros del modelo que se obtiene a incluyendo la observaci´n i-´sima y sin incluirla. realizada a partir de la misma opci´n gr´fica anterior. al igual que en el gr´fico de residuos indexados. En el que. Normalmente estos valores van a coincidir con valores extremos para una de las dos variables. s´lo a o destaca la presencia de los candidatos a valores at´ ıpicos.RegModel. informando sobre la falta de linealidad de la relaci´n. 61 y 66.3. 074 y los . a o tomando fitted.RegModel..1 como variable explicativa y rstudent. Uno de los criterios para detectar estos valores influyentes se basa en el c´lculo de la disa tancia de Cook. Es probablemente el gr´fico que proporciona m´s informaci´n sobre la a a o calidad del ajuste realizado. la existencia de terceras variables que aportar´ informaci´n relevante sobre Y... se obtiene la figura 3. Obtenci´n de valores influyentes. y se puede apreciar que los valores m´s a a influyentes coinciden con las observaciones 41. se genera a trav´s de Gr´ficas→ e a Gr´fica secuencial. La figura 3. Los potenciales se obtienen como los elementos de la diagonal principal de la matriz de Hat. que estima el peso de cada observaci´n a la hora de realio zar predicciones. Usando las opciones Gr´ficas→Diagrama de dispersi´n. H = X(X ′ X)−1 X ′ . ıan o etc.8.1 como explicada. Otra forma de ver la influencia de una observaci´n es a trav´s de su o e potencial. En este caso el valor de referencia es 0.

44

Cap´ ıtulo 3. An´lisis Exploratorio de Datos multidimensional a
41 0.20

61 2

66

61 1 0.15 0.10

−2

cooks.distance.RegModel.1

rstudent.RegModel.1

−1

0

−3

80

90 fitted.RegModel.1

100

110

0.00

−4

66

0.05

41

0

10

20

30 obsNumber

40

50

Figura 3.8: Residuos estundentizados frente a Y ∗ y distancias de Cook
34

41
0.12

61

0.10

hatvalues.RegModel.1

0.08

22

0.06

0.04

0.02

−3

−2

−1

0

84

100

Studentized Residuals

1

2

0

10

20

30 obsNumber

40

50

−4

66 0.02 0.04 0.06 0.08 Hat−Values 0.10 0.12

Figura 3.9: Potenciales Hat y puntos influyentes puntos que superan esta cota son el 32, el 34, el 84 y el 100. Por ultimo, la gr´fica de potenciales hat frente a residuos estudenti´ a zados, donde cada observaci´n est´ identificada por un c´ o a ırculo cuyo di´metro es proporcional a su distancia de cook, sintetiza toda la a informaci´n a tener en cuenta a la hora de identificar los puntos o influyentes. La gr´fica ha sido creada desde Modelos→Gr´ficas→ a a Gr´fica de influencia y refleja de nuevo que los valores a cona siderar son el 61 y el 66, ver figura 3.9.

3.3 An´lisis de relaciones entre dos variables a
CULTIVO acido basico neutro 250

45

200

250

VIRUS

VIRUS 0 10 20 30 TIEMPO 40 50

150

100

100 0

150

200

10

20

30 TIEMPO

40

50

Figura 3.10: Dispersi´n y dispersi´n seg´n cultivo o o u

R–Nota 3.3 Sup´ngase un conjunto de datos del cual se desea obtener un moo delo para un subconjunto de estos datos. Por ejemplo en los datos peso altura se quiere hacer un modelo para los datos femeninos, se selecciona Estad´sticos→Ajuste de modelos→Regresi´n lineal... ı o y en la ventana de di´logo aparecer´ la opci´n Expresi´n de a a o o selecci´n donde se puede elegir el subconjunto deseado, en eso te caso SEXO==’Mujer’. El problema surge si se quiere a˜adir, por n ejemplo, la columna de valores ajustados seleccionando Modelos→ A~adir estad´sticas de las observaciones a los datos..., esto n ı se debe a que el conjunto de datos activos no se corresponde con el modelo activo, para solucionar esto, s´lo se debe hacer en primer lugar o el filtrado de los datos para el subconjunto y seguidamente aplicar el modelo.

Ejemplo 3.4 Para ilustrar la realizaci´n de un ajuste de tipo polinomial, se consideo ran los datos del fichero reproduccion vir.dat en el que se muestran el n´mero de virus reproducidos en funci´n del tiempo (minutos) u o y de la temperatura (grados), seg´n el tipo de cultivo (´cido, u a

46

Cap´ ıtulo 3. An´lisis Exploratorio de Datos multidimensional a

VIRUS

100 0

150

200

10

20

30 TIEMPO

40

50

Figura 3.11: Diagrama de dispersi´n del cultivo ´cido o a b´sico o neutro). Se est´ interesado en ver como influye el tiempo en a a el n´mero de virus. u Se realiza en primer lugar el diagrama de dispersi´n de la variao ble n´mero de virus frente al tiempo. La observaci´n de la figura 3.10 u o revela para el conjunto de datos una disposici´n no lineal, aunque la o evidente variabilidad presente en cualquier rango de valores del tiempo hace presuponer que el factor tipo de cultivo deber´ tenerse en ıa cuenta (figura 3.10). Si se rehace el gr´fico para cada uno de los subgrupos que dea termina la variable cultivo, se observa que los cultivos de tipo b´sico a tienen un comportamiento aproximadamente lineal, mientras los de tipo neutro y ´cido no lo tienen. a El estudio se centrar´ en el cultivo ´cido, para ello se filtran los a a datos (se almacenan como reproduccion vir acido) y se representan de nuevo. El diagrama de dispersi´n, figura 3.11, parece sugerir un como portamiento de tipo parab´lico. o Para realizar el ajuste parab´lico se selecciona Estad´sticos→ o ı Ajuste de modelos→Modelo lineal..., tomando como f´rmula del o modelo VIRUS∼ 1+ TIEMPO+ I(TIEMPOˆ2) (figura 3.12). Los resultados obtenidos son:

552345 − 2.500 < 2e-16 *** TIEMPO -2.3 < − lm(VIRUS ∼ 1 + TIEMPO +I( TIEMPO^2).101647 0. Error t value Pr(> |t|) (Intercept) 115.491 24.1) Call: lm(formula = VIRUS ∼ 1 + TIEMPO + I(TIEMPO^2).271 47 Coefficients: Estimate Std.3 An´lisis de relaciones entre dos variables a > LinearModel.2e-16 Se concluye que el tiempo explica casi el 92 % del n´mero de virus u a trav´s del ajuste parab´lico estimado..455127 -6. a o Al ser un modelo m´s general que el parab´lico se producir´ una a o a mejora del ajuste.1 ’ ’ 1 Residual standard error: 11.9179.01 ’*’ 0.9144 F-statistic: 262.642 1.3. se selecciona Estad´sticos→ ı Ajuste de modelos→Modelo lineal.11) es posible representar en la misma ventana la par´bola del modelo (fia gura 3.8 on 2 and 47 DF.115.140 Median 1. aunque la cuesti´n es si esta mejora es lo suficienteo mente importante para justificar la mayor complejidad del modelo.73 on 47 degrees of freedom Multiple R-Squared: 0. Adjusted R-squared: 0.50) > y<. data=acido) summary(LinearModel. data = acido) Residuals: Min -23.seq(0.901809*x + 0. Aunque no existen evidencias en el gr´fico de dispersi´n.’ 0. se proceder´ a realizar este ajuste por motivos a o a b´sicamente pedag´gicos.101647*x^2 > lines(x.25e-08 *** I(TIEMPO^2) 0.295 1Q -6. e o Despu´s de representar el gr´fico de dispersi´n de la variable VIRUS e a o frente al TIEMPO (de los datos reproduccion vir acido) (figura 3.510 3Q Max 6.13).89e-15 *** Signif..y.901809 0. .552345 4.. se podr´ plantear si los datos se ajustar´ ıa ıan mejor a un polinomio de grado tres.12) mediante las instrucciones: > x<.col=‘‘green’’) Llegados a este punto. codes: 0 ’***’ 0.05 ’. tomando como f´rmula del o modelo VIRUS∼ 1+ TIEMPO+ I(TIEMPOˆ2)+I(TIEMPOˆ3) (figura 3.008731 11. Para realizar el ajuste de grado tres.917038 23.376 7. p-value: < 2.001 ’**’ 0.

1938655 -0.4 Para realizar un ajuste polinomial con Rcmdr se selecciona la opci´n o .0026659 Std.12: Opciones y representaci´n del modelo parab´lico o o > summary(LinearModel.485 Pr(> |t|) < 2e-16 *** 0. p-value: < 2.0457034 0.1273 21. data = Virus acido) Residuals: Min -21.1 ’ ’ 1 Residual standard error: 9.2) Call: lm(formula = VIRUS ∼ 1 + TIEMPO + I(TIEMPO^2) + I(TIEMPO^3).9905237 0.2 on 3 and 46 DF.’ 0.2e-16 El coeficiente de determinaci´n es igual a 0.001 ’**’ 0.0148 Coefficients: Estimate 98.0327 * 4.01 ’*’ 0.9429.13.205 -2.202 4. lo que no parece justificar la adopci´n de este modelo m´s o a complejo. con una mejora o de un 2 %.892 on 46 degrees of freedom Multiple R-Squared: 0. codes: 0 ’***’ 0.9429. Igual que antes es posible representar el ajuste c´bico como u puede observarse en la figura 3.1860 3Q Max 7. Adjusted R-squared: 0.0005944 t value 17.48 Cap´ ıtulo 3.9392 F-statistic: 253.2343 0.1006612 0.1259 -0. An´lisis Exploratorio de Datos multidimensional a VIRUS 100 0 150 200 10 20 30 TIEMPO 40 50 Figura 3.6855078 0. Error 5.1018701 1.255 1.1995 1Q Median -5.05 ’. R–Nota 3.83e-05 *** (Intercept) TIEMPO I(TIEMPO^2) I(TIEMPO^3) Signif.

e e .3 An´lisis de relaciones entre dos variables a 49 VIRUS 100 0 150 200 10 20 30 TIEMPO 40 50 Figura 3. o e Si se quiere observar la notaci´n que utiliza R para formular estos moo delos.3.. y en la venı tana de di´logo se escribe la expresi´n del modelo deseado: a o Para indicar un modelo lineal con t´rmino independiente se escrie ben cualquiera de las dos f´rmulas siguientes: o Y ∼X Y ∼1+X Si se desea omitir el t´rmino independiente en un modelo lineal se e utiliza una de las f´rmulas siguientes: o Y ∼ −1 + X Y ∼0+X En general para un modelo polinomial con t´rmino independiente e se escribe: Y ∼ X + I(X 2 ) + I(X 3 ) + · · · + I(X n ) o bien Y ∼ 1 + X + I(X 2 ) + I(X 3 ) + · · · + I(X n ) y con un −1 ´ 0 para un modelo sin t´rmino independiente. v´ase el ap´ndice C.13: Opciones y representaci´n del modelo c´bico o u Estad´sticos→Ajustes de modelos→Modelo lineal..

o b) Indique si existe alguna tendencia.3 La siguiente tabla muestra la relaci´n existente entre la lluo 2 . X Y Y Y Y Y 300 13 24 17 11 20 400 26 21 17 26 30 500 40 31 38 34 27 600 57 45 51 58 44 700 64 69 57 76 74 donde X representa la lluvia e Y la producci´n. en el periodo octubre–mayo y la producci´n obtenida via ca´ ıda. Y = Rendimiento en Qm/Ha. donde: X = Superficie en miles de Ha. Cap´ ıtulo 3. indicando su representatividad.50 4.1 Para los datos del fichero peso altura. rendimiento y producci´n. XZ e o Y Z. durante el n o periodo 1965-1979. o b) Las medidas m´s representativas para cada una de las a variables. analice el comportamiento del peso en funci´n de la altura para el grupo de las mujeo res.2 muestra una serie hist´rica sobre el olivar eso pa˜ol que recoge la superficie. o a) Represente el diagrama de dispersi´n.2 La tabla 3. c) El estudio de la relaci´n entre las variables XY .dat. . o Se pide: a) El diagrama de dispersi´n de las variables X e Y . 3. Z = Producci´n en miles de Tm. en l/m o en kilogramos por olivo. c) Cuantifique y comente la relaci´n existente entre las dos o variables. 3. An´lisis Exploratorio de Datos multidimensional a Ejercicios 3.

8 139.2: Datos ejercicio 3. 08 0. 22 0.5 97.7 107.1 152. 11 0.2 Z 8. y las calificaciones .8 62. moda y mediana. X (minutos).8 118 128.6 98.1 99. Y (horas).2 152.7 122 127 138.1 160.8 10 51 Tabla 3.1 9. 16 0.9 7.3 165 Y 69.3. 04 0.1 145.4 Ejercicios A˜o n 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 X 73.5 10. 16 0.8 107. b) Calcule la media de Y cuando X toma el valor 3. c) Estudie la dependencia de las variables X e Y .5 6 8.5 98.4 Dada la siguiente tabla de doble entrada con valores porcentuales: Y \X 0 1 2 2 3 4 0.2 3.7 150.8 5 11. 05 0.8 9.7 8.1 167. Calcule su meo dia.9 143. 05 a) Obtenga la distribuci´n marginal de X.1 6.1 144. 3.8 160.5 102.4 113. el tiempo que le dedican diariamente al estudio.9 10. 13 0.5 A un grupo de estudiantes se les pregunt´ por el tiempo que o tardan en llegar desde su hogar hasta la facultad.8 152.4 146 162.7 6 3.

3). 3. 5. 5). 4). 4). (15. Z. 4). (30. (45. obteni´ndose las siguientes e respuestas: (40. (2. An´lisis Exploratorio de Datos multidimensional a obtenidas en la asignatura de Estad´ ıstica. 6). 4. 5). (5. 6). (8. 3). (7. (4. 6). XZ e Y Z. 4. 5) (20. 1. 3). 6. (20. (40. 2). (45. 5) (7. (30. 1). (20. 3). 5. 5) (5. (7. b) ¿Se aprecia alguna tendencia? c) Estudie las relaciones existentes entre XY . (10. 3. 6). 5 2. 2. 5). (20. (60. 0). 8 . 2). 4.52 Cap´ ıtulo 3. (3. 5) a) Obtenga el diagrama de dispersi´n correspondiente al o tiempo dedicado al estudio y las calificaciones obtenidas en Estad´ ıstica. 2. (0. 4. 3. (7. (4. 4). 65 8. 95 5. 1). obteni´ndose a e la siguiente tabla de calificaciones seg´n el tiempo de estudio: u Nota \ Horas Estudio Suspenso Aprobado Notable Sobresaliente <1 43 31 7 3 1−3 32 48 13 4 >3 10 81 20 8 ¿Est´n relacionadas las calificaciones con las horas de estudio? a 3. 1). obteni´ndose los siguientes pares de valores: e (7.5. 4). 5). (4. (2. 3). 3. (9. 3). 4. 6). (60. 3. (2. (8. (20. 5) (10. 5).7 Se examinan 300 alumnos de una asignatura y durante el examen se les pregunta por el tiempo que han dedicado a su preparaci´n o (menos de una hora. 5. 2) ¿Existe alguna relaci´n entre las variables?. (20. 4). 6). 5 15 25 5 32 1 1. 3). (20. ¿de qu´ tipo? o e 3. 7). (3. 1. entre una hora y tres. 3.(7. 1). 2). 3). (8. 4. 5 2 2. 3).8 Dada la distribuci´n: o X Y 1 1. m´s de tres). (2. 4. 7) (30.6 Al mismo grupo del ejercicio anterior se le ha pedido que escriba un d´ ıgito al azar entre 0 y 9 as´ como el n´mero de hermanos ı u que tiene. 4). (20. (30. (10. 4. 5 3 3. 0). 5. (6. 4. 7). 5). 75 4. (80.

a b) Establezca la bondad del ajuste. 5 2 3 4 5 6 7 1 1. 46 0.10 Dada la distribuci´n: o X Y 1 1. o b) Analice la bondad del ajuste. 7 0. 75 7. 15 a) Estime los par´metros de la clase funcional ab−0. 75 8 14 5 23. 5 10 12. . 65 4. 93 0. Analice dicha o previsi´n. 3. b) Estudie la bondad del ajuste. o b) D´ una medida de la bondad del ajuste. 5 1.2X para a ajustar Y /X. 5 12 15 a) Ajuste Y /X utilizando una funci´n del tipo aX b .4 Ejercicios 53 a) Elija la mejor clase funcional para ajustar Y /X y estime sus par´metros. 75 2. 25 0. 5 40 62 90 20 165 a) Utilice una ecuaci´n del tipo aX b para ajustar Y /X. o 3. 7 7 9.9 Dada la distribuci´n: o X Y 2. 23 0. c) Calcule la previsi´n para Y cuando X = 7. 5 3. e 3.11 Dada la distribuci´n: o X Y 5 6 8 10 13 18 20 1.3.

54 .

donde el conocimiento de las condiciones en las que ´stos se desarrollan no dee terminan los resultados.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. o Una correcta proyecci´n de estos conceptos es lo que va a permitir eso tudiar grandes colectivos a partir de peque˜as partes de ellos. Mu˜oz M´rquez. A. a los cuales se van a poder asimilar muchas de las situaciones de la vida real. Fern´ndez Palac´ o a ın. van a facilitar o u enormemente el an´lisis de estas situaciones reales. da origen a la variable aleatoria.es/ebrcmdr Cap´ ıtulo 4 Distribuciones de Probabilidad La existencia de fen´menos o experimentos no determin´ o ısticos. la concreci´n num´rica del fen´meno mediante la asigo e o naci´n de valores con un cierto criterio. M. M. P´rez Plaza. llamadas n muestras. Antes de entrar en materia se describir´n una serie de fen´menos a o . S.uca. El estudio de los modelos te´ricos. J. o a n a e A. tanto discretos como a o continuos. dando lugar a lo que se conoce como inferencia estad´stica. Ese ser´ el objetivo a a del cap´ ıtulo. el c´lculo de probabilidades en sus o e a a distintos formatos y la generaci´n de n´meros aleatorios. Los experimentos o ı ı fen´menos que poseen la caracter´ o ıstica anterior se denominan aleatorios. incluyendo la caracteo rizaci´n a trav´s de sus par´metros. Arriaza G´mez. Intuitivamente. F. ı La teor´ de la probabilidad y la variable aleatoria van a permitir ıa establecer un amplio cat´logo de modelos te´ricos. L´pez S´nchez. hace imprescindible el uso de una funci´n que o asigne niveles de certidumbre a cada uno de los desenlaces del fen´meno o y ah´ es donde aparece la teor´a de la probabilidad. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth.

la edad. ´ Si cada d´ se encienden unas 4 horas ¿cu´l es la probabilidad de ıa a que despu´s de un a˜o est´n funcionando las dos?. Imag´ ınese un opositor que se ha preparado 60 temas de 100. el u 5. la talla de pantal´n. de los que se seleccionan al azar dos de ellos.. . de los 350 alumnos que est´n matriculados en 1o de Empresariales y Econ´micas en el a o campus de C´diz y Jerez. Distribuciones de Probabilidad que se podr´n asimilar a las distribuciones de probabilidad que se desa cribir´n en este cap´ a ıtulo. . ¿qu´ estructura tiene su distribuci´n? a e o . mientras que las bombillas cl´sicas por ´ a incandescencia de 60 w tienen una vida media util de 1000 horas. ¿qu´ n´mero de aciertos es m´s probable? e u a Cuando alguien pregunta por el n´mero que sali´ en el sorteo de u o la ONCE. una persona que se ha olvidado el reloj en casa llega a la estaci´n de o autobuses en C´diz ¿cu´l es la probabilidad de que espere menos a a de 10 minutos para coger el autob´s? u Se sabe que las bombillas de bajo consumo de 14 w tienen una vida media util de 10000 horas. la respuesta suele ser la unidad de dicho n´mero: el 7. donde cada una de ellas tiene 4 posibilidades siendo s´lo una de ellas o cierta. o las horas de estudio. la nota de selectividad. . ¿y ninguna de e n e ellas?. ¿y como mucho una de ellas? Si se controlan el peso.56 Cap´ ıtulo 4. la estatura. ¿c´mo se distribuyen las unidades de los premios en el sorteo o de la ONCE? En las oposiciones es frecuente que se realice un sorteo p´blico u extrayendo una serie de bolas o papeletas de una urna o bolsa. ¿y al menos una de ellas?. Ejemplo 4. ¿qu´ probabilidad tiene e el opositor de que sea elegido al menos uno de los temas que lleva preparado? Sabemos que el servicio de autobuses entre C´diz y San Fernando a tiene salidas cada media hora entre las 6 am y las 12 pm...1 Si se contesta al azar un examen tipo test de 10 preguntas.

El primer problema a resolver ser´ la elecci´n del a o modelo te´rico apropiado para cada caso en estudio. mientras que el tiempo de espera u para coger el autob´s puede tomar infinitos valores dentro del intervalo u (0. expres´ndose mediante una tabla. o . u obtener al responder las 10 preguntas “variar´” entre 0 y 10. se intentar´ que la asignaci´n se realice de la forma m´s natural a o a posible. a la regla de a o a ´ correspondencia valores–probabilidades. Las probabilidades asociadas a cada uno de los valores de la variable aleatoria pueden ser organizadas como una distribuci´n de probabilidad. se tiende a confundir la aplicaci´n a o X con los valores del conjunto imagen y se traslada la probabilidad de ocurrencia de un suceso al valor correspondiente de la variable aleatoria. lo que proporıa u cionar´ otra variable aleatoria. o sea. . tiene a un n´mero finito de posibles valores. Como a e norma. funci´n de probabilidad. por abuso de lenguaje. 30). “extraer la bola del n´mero de las unidades u entre las 10 posibles”. Para ello se asignar´ a o a cada uno de los posibles resultados del experimento aleatorio (suceso elemental) un n´mero real. pero en este caso los valores no ser´ ıa ıan f´cilmente identificables en t´rminos del experimento de partida. denomin´ndose en este ultimo caso. X : Ω → R. . por ejemplo 17. As´ en el primer ejemplo. Esta asignaci´n no es unica. o Para tener un buen manejo matem´tico de las distintas situacioa nes que se puedan plantear dada la distinta naturaleza y la diversidad de los resultados que proporcionan los experimentos. Adem´s. la a ı variable aleatoria consistir´ en asignar al suceso “responder correctaıa mente siete preguntas” el n´mero 7. .57 Cada una de las situaciones anteriores conlleva la realizaci´n de un o experimento aleatorio: “elegir una de las cuatro posibles respuestas en cada una de las preguntas”. se necesita realizar una abstracci´n cuantificada del experimento. una o a gr´fica o una f´rmula. A esta aplicaci´n se le llamar´ variable aleau o a toria y se designar´ por X. s´lo condicionado por la precisi´n de los aparatos de medici´n. As´ el n´mero de aciertos que se puede ı. se u o ´ le podr´ haber asignado otro n´mero. . o o o Esto lleva a una primera gran clasificaci´n entre modelos de probabilidad o discretos y continuos. se puede hablar de la probabilidad de que la variable aleatoria tome un determinado valor. que proporcionan resultados de distinta naturaleza. por lo tanto. “sacar 2 temas entre 100”.

Geom´trica. 1. Cauchy. Todas estas distribuciones est´n recogidas en Rcmdr. o en Distribuciones→Distribuciones discretas. de los o a argumentos necesarios en cada caso. p = prob p = prob (N. Distribuciones discretas En la tabla 4. Se puede a acceder a ellas en: Distribuciones→Distribuciones continuas. T-Student. una p para o la funci´n de distribuci´n. n) = (m. Chi-Cuadrado. seg´n la naturaleza de la variable aleatoria u pueden considerarse distribuciones de probabilidad discretas o continuas. Hipergeom´trica e e y de Poisson. p = prob n = size. n. F-Snedecor . una q para los cuantiles y una r para generar o o una muestra aleatoria de la distribuci´n. Entre los modelos de variable continua destacan las distribuciones: Normal. por supuesto. Binomial Negativa. K. Uniforme. k) En Rcmdr binom nbinom geom hyper Poisson λ = lambda pois Tabla 4. Log´stica. Para cada una de las distribuciones discretas est´n disponibles las siguientes a opciones: . Weibull y ı Gumbel. o poniendo delante una d. Gamma. Distribuciones de Probabilidad DISCRETAS Distribuci´n o Binomial Binomial negativa Geom´trica e Hipergeom´trica e Par´metros a n = size. sus par´metros (el nombre te´rico o a o y el usado en el programa) y las instrucciones correspondientes. Lognormal. Beta. o tambi´n escribiendo e directamente en la ventana de instrucciones el nombre de la distribuci´n.1 est´n resumidas todas las distribuciones contenia das en la versi´n actual de Rcmdr.1: Tabla de distribuciones discretas Como se ha indicado. si se quiere la funci´n de densidad. Las principales distribuciones de probabilidad de variables discretas son: Binomial.58 Cap´ ıtulo 4. Exponencial. adem´s.

o bien.5 y se puede ver que P (X = 4) = 0.1 Distribuciones discretas 59 Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda (seg´n se seleccione) una determinada prou babilidad.2734375.. Distribuci´n Binomial o Ejemplo 4. e . Para calcular las probabilidades en Rcmdr a se selecciona: Distribuciones→Distribuciones discretas→ Distribuci´n binomial→Probabilidades binomiales.4. a) ¿Cu´l es la probabilidad de que acierte 4? a La variable X=“n´mero de aciertos” sigue una distribuci´n Binomial de u o par´metros n = 8 y p = 1/2. 1. Gr´fica de la distribuci´n: Genera la gr´fica de la funci´n de a o a o cuant´ o de distribuci´n. se ver´n ahora algunos ejemplos representativos de las distribuciones m´s a a usuales. Con el fin de familiarse con las distribuciones y su uso desde Rcmdr.1.2 Si un estudiante responde al azar a un examen de 8 preguntas de verdadero o falso. o En este caso se introduce Ensayos binomiales= 8 y Probabilidad de ´xito= 0.. o Probabilidades Acumuladas: Calcula bien el valor de P (X ≤ x) (cola de la izquierda). ıa o Muestra de la distribuci´n: Genera muestras aleatorias exo tra´ ıdas de la distribuci´n. Probabilidades: Determina la probabilidad de que la variable tome un valor dado. P (X > x) (cola de la derecha) para cada valor x.

03125000 0. por 6 huraa .21875000 0. en promedio.tail=FALSE) [1] 0.Table) <. en la ventana que aparece. lower.Table < − data. size=8.1445313 c) ¿Cu´l es la probabilidad de que acierte 5 o m´s? a a Para determinar la probabilidad de que acierte 5 o m´s a preguntas se realiza el mismo procedimiento.frame(Pr=dbinom(0:8.2. o >pbinom(c(2).5)) >rownames(.10937500 0. prob=0. dejando marcada la opci´n Cola izquierda. y Ensayos binomiales= 8.5.10937500 0.60 Cap´ ıtulo 4.tail=TRUE) [1] 0. size= 8..3632813 1.3 Una cierta ´rea de Estados Unidos es afectada.21875000 0.00390625 0.0:8 >. lower. Distribuciones de Probabilidad >. size= 8. tom´ndose la opci´n Cola Derecha..Table 0 1 2 3 4 5 6 7 8 Pr 0. a o >pbinom(c(4).5.27343750 0. Distribuci´n de Poisson o Ejemplo 4. prob= 0. se debe indicar Valor de la variable= 2 y Ensayos binomiales= 8. pero se˜alann do en la ventana emergente Valor de la variable= 4. prob= 0.00390625 b) ¿Cu´l es la probabilidad de que acierte 2 o menos? a Se calculan ahora las probabilidades acumuladas: Distribuciones→ Distribuciones discretas→Distribuci´n binomial→ o Probabilidades binomiales acumuladas.03125000 0. Para calcular la probabilidad de que acierte 2 preguntas o menos.

.15 0 5 x 10 15 c) Represente la funci´n de probabio lidad de la variable aleatoria que mide el n´mero de huracanes por a˜o.1 Distribuciones discretas 61 canes al a˜o. Se define la variable X =“n´mero de huracanes por a˜o” y se sabe que u n ´sta se distribuye mediante una Poisson. Masa de Probabilidad Fig. Se calcular´n ahora las probabilidades: ´ a Como en el caso anterior se se˜ala Probabilidades binomiales n acumuladas. Encuentre la probabilidad de que en un determinado a˜o n n esta ´rea sea afectada por: a a) Menos de 4 huracanes.1: Distribuci´n de o Poisson 0.tail=TRUE) >a-b [1] 0. o >ppois(c(3). lower.4. lower.tail=TRUE) >b <. lambda = 6. Para calcular la probabilidad de que ocurran entre 6 y 8 huracanes. para la opci´n Cola izquierda.05 0.ppois(c(5). lambda = 6.00 0.(figura 4. con la opci´n Cola izquierda.4015579 Distribución de Poisson: Mean = 6 0.1)...lambda = 6. lower..1512039 b) Entre 6 y 8 huracanes. se pueden sumar las probabilidades P (X = 6) + P (X = 7) + P (X = 8) o restar las probabilidades acumuladas. tomando ahora en la ventana emergente Valor(es) de la variable= 4.10 . y Media= 6. porque describe el n´mero de e u ´xitos por unidad de tiempo y porque son independientes del tiempo e desde el ultimo evento. Como antes se realizan en primer lugar las probabilidades acumuladas y se restan los resultados obtenidos: >a <. La gr´fiu n a ca se realiza en Distribuciones→ Distribuciones discretas →Distribuci´n de Poisson→Gr´fica o a de la distribuci´n de o Poisson.ppois(c(8). 4. o P (X ≤ 8) − P (X ≤ 5).tail=TRUE) [1] 0.

4 En un juego se disponen 15 globos llenos de agua.. n= 3 y k= 2. >. marcando la opci´n gr´fica de la funci´n e o a o de distribuci´n (figura 4.. n = 4.52380952 b) Construya la gr´fica de la funci´n de distribuci´n. resultando P (X = 1) = 0. Cap´ ıtulo 4.. o e Para calcular la probabilidad de que consiga un s´lo preo mio se elige la opci´n probabilidades hipergeom´tricas...0:2 >.Table) <. a o o ´ Esta se obtiene en Distribuciones→Distribuciones discretas→ Distribuci´n hipergeom´trica→Gr´fica de la distribuci´n o e a o hipergeom´trica. con o e m(n´mero de bolas blancas en la urna)= 11.Table < − data. ¿cu´l o a es la probabilidad de que el segundo participante consiga otro? Para el segundo participante la variable seguir´ una hipergeom´trica de a e par´metros m= 10. K = 2.38461538. Para obtener respuesa ta a las cuestiones en Rcmdr se selecciona: Distribuciones→ Distribuciones discretas→Distribuci´n hipergeom´trica. a) ¿Cu´l es la probabilidad de que el primer participante consiga a un premio? Para el primer participante la variable X=“n´mero de premios conu seguidos entre 2 posibles” sigue una distribuci´n Hipergeom´trica o e de par´metros m = 11.41904762. k=2)) >rownames(. n=4. Los participantes en el juego..2). n(n´mero de bolas u u negras en la urna)= 4 y k(n´mero de extracciones)= 2. m=11.Table Pr 0 0. golpean los globos con un palo por orden hasta que cada uno consigue romper 2.05714286 1 0.62 1. de los que 4 tienen premio. resultanu do P (X = 1) = 0. Distribuciones de Probabilidad Distribuci´n Hipergeom´trica o e Ejemplo 4. con los ojos vendados...frame(Pr=dhyper(0:2. a .3.41904762 2 0. o c) Si el primer participante ha conseguido s´lo un premio.

luego en nuestro caso se tiene P (X = 0) = 0.. o e e Habr´ que calcular la probabilidad de que tenga 5 fracasos antes del a primer ´xito.4. Distribuci´n Geom´trica.0 63 Probabilidad acumulada 0. Se seleco e e ciona en Rcmdr Distribuciones→Distribuciones discretas→ Distribuci´n geom´trica→Probabilidades geom´tricas.1. Calcula: a) La probabilidad de que en un d´ determinado consiga vender ıa la primera alarma en la sexta casa que visita.5 2.6 0.0 Número de aciertos Figura 4. c) Si se plantea vender tres alarmas.8 0.0 1.0 0. ¿cu´l es la probabilidad de a que consiga su objetivo en la octava vivienda que visita? .1. n=4.4.. obteniendo de la tabla la probabilidad P (X = 5) = e 5. que sigue una distribuci´n Geom´trica con Probabilidad de ´xito= 0. Distribuci´n Binomial o e o Negativa Ejemplo 4.2 0.4 0. Se define la variable X=“n´mero de casas que visita antes u de conseguir vender la primera alarma”.5 Un vendedor de alarmas de hogar tiene ´xito en una casa de cada diez e que visita.5 1.. b) La probabilidad de que no venda ninguna despu´s de siete vie viendas visitadas.4782969.1 Distribuciones discretas Distribución Hipergeométrica: m=11. k=2 1.904900e−02. La variable X=“n´mero de alarmas vendidas en 7 viviendas” sigue una u distribuci´n Binomial con Ensayos binomiales= 8 y Probabilidad de o e ´xito= 0.2: Distribuci´n hipergeom´trica o e 1.

64

Cap´ ıtulo 4. Distribuciones de Probabilidad CONTINUAS Distribuci´n o Normal T-Student Chi-Cuadrado F-Snedecor Exponencial Uniforme Beta Cauchy Log´ ıstica Lognormal Gamma Weibull Par´metros a µ = mean; σ = sd n = df n = df n = df 1; m = df 2 λ = rate (a, b) = (min, max) p = shape1; q = shape2 t = location; s = scale t = location; s = scale µ = meanlog;σ = sdlog p = shape; α = scale p = shape; α = scale En Rcmdr norm t chisq f exp unif beta cauchy logis lnorm gamma weibull

Gumbel p = shape; α = scale gumbel Tabla 4.2: Tabla de distribuciones continuas Para abordar esta cuesti´n, se define la variable Y= “n´meo u ro de casas que visita antes de conseguir vender la tercera alarma”. Esta variable sigue una distribuci´n Binomial Neo gativa de par´metros a N´mero de ´xitos= 3, u e Probabilidad de ´xito= 0.1. En Rcmdr se selecciona Distribuciones→ e Distribuciones discretas→Distribuci´n binomial negativa→ o Probabilidades binomiales negativas..., de donde: P (Y = 5) = 1,240029e−02.

2.

Distribuciones continuas

En la tabla 4.2 est´n resumidas todas las distribuciones continuas a contenidas en la versi´n actual de Rcmdr, sus par´metros (el nombre o a te´rico y el usado en el programa) y las correspondientes instrucciones. o Para cada una de las distribuciones continuas est´n disponibles las a

4.2 Distribuciones continuas siguientes opciones:

65

Cuantiles: Permite calcular el valor de la variable que deja a derecha o a izquierda (seg´n seleccionemos) una determinada probau bilidad. Probabilidades: Determina la probabilidad que queda acumulada a izquierda (o a derecha) de un valor dado. Gr´fica de la distribuci´n: Genera la gr´fica de la funci´n de a o a o densidad o de distribuci´n. o Muestra de la distribuci´n: Genera muestras aleatorias exo tra´ ıdas de la distribuci´n. o 2.1. Distribuci´n Normal o

Trabajando directamente en R, para calcular los cuantiles normales se usar´ qnorm, agregando a ´sta los argumentos necesarios. En ıa e concreto, para hallar el valor que, en una N (0, 1), deja en la cola izquierda una probabilidad de 0,25:
qnorm(c(.25), mean = 0, sd = 1, lower.tail = T RU E)

R–Nota 4.1 lower.tail = T RU E usa la cola de la izquierda, mientras que lower.tail = F ALSE usa la derecha. Los par´metros lower.tail = a T RU E, mean = 0 y sd = 1 pueden ser omitidos, pues son los valores por defecto en esta funci´n. o

Ejemplo 4.6 Una empresa est´ buscando personal para su departamento de markea ting. El perfil solicitado es el de sujetos extrovertidos y creativos. Se han presentado 50 candidatos y la empresa ha establecido como criterio

66

Cap´ ıtulo 4. Distribuciones de Probabilidad

de selecci´n el que los candidatos superen el percentil 80 en creatividad o y extroversi´n. Sabiendo que la variable extroversi´n (X) se distribuo o ye seg´n una Normal de media 5 y desviaci´n t´ u o ıpica 1, que la variable creatividad (Y ) sigue una t-Student de 10 grados de libertad y que las puntuaciones de creatividad y extroversi´n son independientes: o a) ¿Cu´ntos candidatos ser´n seleccionados? a a Al ser X e Y independientes, la probabilidad P (X ≥ P80 ∩ Y ≥ P80 ) = P (X ≥ P80 ) · P (Y ≥ P80 ) = 0,20 · 0,20 = 0,04. Como se han presentado 50 aspirantes, ser´n seleccionadas 0,04 · 50 = 2 personas. a b) ¿Qu´ puntuaciones debe superar un aspirante en creatividad y e extroversi´n para ser admitido? o Seg´n el criterio de selecci´n se debe superar el percentil 80, en ambas u o variables, para ser admitido. Se calcular´ pues el percentil P80 de la a variable X e Y , utilizando los cuantiles normales para la variable X:
> qnorm(c(.8), mean=5, sd=1, lower.tail=TRUE) [1] 5.841621

y los t-cuantiles para la variable Y :
> qt(c(.8), df=10, lower.tail=TRUE) [1] 0.8790578

c) Si se extraen al azar 16 candidatos, ¿cu´l es la probabilidad de a que su media aritm´tica en extroversi´n sea mayor que 4,5? e o Se sabe que al extraer una muestra de una poblaci´n normal de tama˜o o n ¯ n, la media de la muestra, X, sigue otra distribuci´n normal de media o σ igual que la poblacional y desviaci´n t´ o ıpica √n . Por lo que en este caso ¯ ¯ X ∼ N (5, 1 ). Como se desea calcular P (X ≥ 4,5), se selecciona Cola 4 derecha en la entrada de Probabilidades normales...
> pnorm(c(4.5),mean=5,sd=0.25,lower.tail=FALSE) [1] 0.9772499

d) Dibuje las gr´ficas de densidad de las variables Extroversi´n a o y Creatividad. Para ello se selecciona la funci´n de densidad de ambas variables en o Distribuciones→Distribuciones Continuas..., obteni´ndose las fie guras 4.3 y 4.4.

max=90.2 Distribuciones continuas Distribución Normal: µ = 5.2. Harto de esta situaci´n.3 2 3 4 5 x 6 7 8 Figura 4.3: Funci´n de densidad de la variable extroversi´n (normal) o o 2. En Rcmdr se selecciona Distribuciones→Distribuciones continuas→ Distribuci´n uniforme. mientras que si tarda m´s de 55 minutos la relaci´n termina en ese momento.tail=TRUE) [1] 0.. o > punif(c(55). que sigue una distribuci´n o uniforme continua definida en el intervalo (0. Se elige Gr´fica de la distribuci´n o a o uniforme.4 67 Densidad 0..0 0. min=0. o Se define la variable X=“tiempo de espera”. la persona que sufre la espera se o plantea un ultim´tum. En Probabilidades uniformes.6111111 c) Calcule la probabilidad de que la relaci´n termine en la segunda o . marcando Funci´n de densidad (figura 4.. si al d´ siguiente su pareja tarda menos de 15 a ıa minutos mantiene la relaci´n. dejando la opci´n Cola Izquierda.4. o a decide en la siguiente cita con los mismos criterios. o b) Calcule la probabilidad de que la relaci´n contin´e hasta la o u siguiente cita. 90). si la espera est´ entre 15 y 55 minutos. Distribuci´n Uniforme Continua o Ejemplo 4.. se indica el valor de la variable y los l´ ımites del intervalo.2 0... σ = 1 0.1 0. a o a) Represente gr´ficamente la funci´n de densidad de la variable a o que modeliza esta situaci´n..5). lower.7 Una persona informal hace esperar a su pareja aleatoriamente entre 0 y 90 minutos.

1666 = 0. 2. b) En Probabilidades uniformes.8 La duraci´n media de un modelo de marcapasos es de 7 a˜os.0 0.3888. lower..2 0.6111111 c) Suponiendo que el tiempo de espera en una cita es independiente respecto de otras citas. dejando la opci´n Cola Izquierda. la probabilidad de que lo deje definitivamente es P (X > 55) = 0.4: Funci´n de densidad de la variable creatividad (t-student) o cita.4445. luego multiplicando ambas probabilidades se obtiene el valor pedido 0.6111−0. o n a) ¿Cu´l es la probabilidad de que dure al menos 5 a˜os? ¿y menos a n de 3? . o > punif(c(55).4 Densidad 0. se calcula la probabilidad P (15 < X < 55) = P (X < 55)−P (X ≤ 15) = 0.1728.tail=TRUE) [1] 0. se indica el valor de la variable y los l´ ımites del intervalo. max=90. que es la probabilidad de que aplace la decisi´n para la segunda cita o y.3. Distribuci´n Exponencial o Ejemplo 4.1 0.. Distribuciones de Probabilidad Distribución t: df = 10 0.68 Cap´ ıtulo 4. en la segunda cita.3 −4 −2 0 t 2 4 Figura 4. min=0.

014 20 40 x 60 80 Figura 4. se tiene que 1−F (8) = e−8·λ = (e−4·λ )2 = (1 − F (4))2 ..3484493 b) Si han transcurrido ya 4 a˜os desde su implantaci´n.14285 y Cola Izquierda.4. rate=0. a . ¿cu´l es n o a la probabilidad de que dure otros 4? Teniendo en cuenta que 1−F (x) = e−λ·x .012 0. max=90 69 Densidad 0. Utio a lizando la opci´n Distribuciones→Distribuciones continuas→ o Distribuci´n exponencial→Probabilidades exponenciales. se o obtiene P (X ≥ 5) > pexp(c(5). o de forma similar. lower.tail=FALSE) [1] 0.008 0 0.9. c) ¿Cu´nto tiempo deber´ funcionar un marcapasos para estar a ıa entre el 10 % de los m´s duran? Hay que calcular el percentil 90 seleca cionando: Distribuciones→Distribuciones Continuas→ Distribuci´n exponencial→Cuantiles exponenciales.4896815 y de igual forma P (X < 3): > pexp(c(3).1428. o con las opciones Probabilidades= 0. con lo que P (X ≥ 8/X ≥ 4) = (1 − F (8))/(1 − F (4)) = 1 − F (4) = 0.. rate=0. Par´metro de la exponencial= 0..1.tail=TRUE) [1] 0.14285 y Cola Derecha. Par´metro de la exponencial= a 0.2 Distribuciones continuas Distribución Uniforme: min=0.1428. lower..5: Funci´n de densidad o La variable X=“tiempo de funcionamiento del marcapasos” sigue una distribuci´n exponencial con par´metro λ = 1/7.010 0..5647182. Probabilidades= 0.

Grados de libertad= 16 y Cola Izquierda o.1428571 Densidad 0.12 10 20 x 30 40 50 Figura 4. Distribuciones de Probabilidad Distribución Exponencial: rate = 0. 2. > qt(c(0.9 Una variable X sigue una distribuci´n t-Student con 16 grados de libero tad. Habr´ que calcular Me de forma que P (t16 ≥ M e) = 0. Probabilidades= 0.852. de forma similar. el ıa percentil 68.08 0.5 y P (X > b) = 0.. b = 7. Figura 4. con las opciones Probabilidades= o 0. df=16. Grados de libertad= 16 y Cola Derecha.tail=TRUE) [1] 0 . n d) Calcular el valor que deben tener a y b para que P (X < a) = 0.12 a˜os. resulta que el valor de la mediana es 0. a) Calcular la mediana y el percentil 85.5).04 0.14285≈ 1/7) a o resultando 16.6: Gr´fica de la funci´n de densidad de una Exp(0.. Distribuci´n t-Student o Ejemplo 4.00 0 0.70 Cap´ ıtulo 4.5. e) Represente la funci´n de densidad de la variable o aleatoria asociada. a = 4. lower.5.4. De forma an´loga al apartado anterior. en el primer a caso habr´ que calcular la mediana..32.5. y en el segundo. paıa ra ello se selecciona Distribuciones→Distribuciones Continuas→ Distribuci´n t→Cuantiles t.6.97.

df=16. ¿Qu´ similitud a o e tiene con la normal N (0.7 + 0..7 su estructura es similar a la N (0.1 −4 −2 0 t 2 4 Densidad 0. .tail=TRUE) [1] 1.04 0.. c) Obtener la gr´fica de su funci´n de densidad. se calcula P (X ≤ −1) utilizando la opci´n o Probabilidades t.tail=TRUE) [1] 1. lower. 1) con la particularidad de que en la zona central la t16 se encuentra por debajo de la normal. Se selecciona ahora la opci´n Cuantiles t.2 10 20 30 χ2 40 50 60 Figura 4.1660975 y. 1)? Como se puede observar en la figura 4.01 0.tail=TRUE) [1] 0.00 0.3 0. Para calcular a.7: Gr´fica de la funci´n de densidad t16 y χ28 a o El percentil 85 se calcula de forma parecida: > qt(c(0.4. se descompone la probabilidad P (−1 < X < a) = P (X < a) − P (X ≤ −1).02 0.866).147611.05 71 Distribución Chi−cuadrado: df = 28 Densidad 0.147611 resultando el valor de a=1. lower. > pt(c(-1).866. df=16. df=16. resultando ser P (X < a) = 0..85). o > qt(c(0..166 = 0.7. consecuencia de tener una varianza mayor. lower.2 Distribuciones continuas Distribución t: df = 16 0.03 0. se despeja P (X < a).4 0.071137 b) Encontrar el valor de a de forma que P (−1 < X < a) = 0..0 0.

si se representa su funci´n de densidad. c) ¿Qu´ similitue e des hay entre las gr´ficas? a Como se aprecia en 4. sus caracter´ ısticas son muy similares a la funci´n de densidad de la χ2 . salvo para n ≤ 2.10 La variable X sigue una distribuci´n Chi-cuadrado con 28 grados de o libertad. Grados de libertad= 28 y Cola derecha. con las opciones Valor(es) de la variable= 7. a) Calcule la probabilidad de que X sea mayor de 7. Distribuciones de Probabilidad Distribuci´n Chi-cuadrado.5). ¿qu´ caracter´ o e ısticas se observan?. en general. lower.9999611. o Como se puede observar en la figura 4.5. o .9999611 b) Obtenga la funci´n de densidad.72 2. Otra variable Y sigue una distribuci´n F de Snedecor con n1 = 8 o y n2 = 14 grados de libertad.8. Distribuci´n F-Snedecor o o Ejemplo 4. > pchisq(c(7. df=28.tail=FALSE) [1] 0.. Su valor es 0. La probabilidad pedida P (χ28 > 7.5.. Cap´ ıtulo 4.7 s´lo toma valores positivos y es o asim´trica con forma campaniforme. se obtiene en Distribuciones→ Distribuciones Continuas→Distribuci´n Chi-cuadrado→ o Probabilidades Chi-cuadrado..5.5).

M´nimo= 0.. . N´mero de muestras (filas)= 15 y ı a u N´mero de observaciones (columnas)= 1.0 0 0. en este caso.4 0. . generar la distribuci´n de una combinaci´n de variables. ncol=1)) > rownames(Muestras uniformes) < − paste(‘‘sample’’. para cada una de las distribuciones de probabilidad que tiene implementadas.3 Generaci´n de valores aleatorios o Distribución F: Numerador df = 8.. .6 2 4 f 6 8 Figura 4. max=1). M´ximo= 1.data. simular situaciones de laboratorio. n 15 de una distribuci´n uniforme en el intervalo [0.14 o 3.. As´ para generar una muestra de tama˜o o ı. para obtener los datos en formato de coa lumna. En Rcmdr.. 1:15. se puede seleccionar la opci´n Muestra o de una distribuci´n. Generaci´n de valores aleatorios o Hay situaciones donde es necesario generar valores aleatorios que sigan un determinado patr´n y que permitan estudiar el comportao miento de determinados modelos.frame(matrix(runif(15∗1.2 0. se selecciona en o Distribuciones→Distribuciones continuas→Distribuci´n unio forme→Muestra de una distribuci´n uniforme. min=0.. sep=‘‘’’) > colnames(Muestras uniformes) < − ‘‘obs’’ Para mostrarlos en pantalla se escribe en la ventana de instrucciones el nombre que se le haya asignado a la muestra: . 1].4.8: Funci´n de densidad F8.. u > Muestras uniformes < − as. comparar vao o lores muestrales con los extra´ ıdos de la verdadera poblaci´n en estuo dio. Denominador df = 14 73 Densidad 0. y se introducen o los par´metros.

95487024 sample15 0.04517561 sample6 0.60055627 sample9 0.65997127 sample3 0. .74 Cap´ ıtulo 4.24558711 sample13 0.97110556 sample12 0.07038248 sample4 0.22597988 sample2 0.52902704 sample5 0. De la misma forma se podr´ generar muestras aleaıan torias para el resto de las distribuciones de probabilidad.70652675 sample11 0.73990437 sample7 0.68375576 sample14 0.99432508 sample10 0. Distribuciones de Probabilidad > Muestras uniformes obs sample1 0.80651304 O tambi´n se puede pulsar el bot´n Visualizar conjunto de e o datos en Rcmdr.90452613 sample8 0.

tendr´ que pedir tabaco para cona a seguir 20 unidades? 4. calcule las siguientes probao bilidades: a) P (X ≤ 8) b) P (2 < X ≤ 5) c) P (X ≥ 7) 4. 0. Si se responden todas las preguntas y. Imag´ ınese que un opositor se ha preparado 60 temas entre 100. e a) ¿Cu´l es la probabilidad de que consiga 1 cigarrillo en a menos de 5 intentos? b) Si pretende hacer acopio de cigarrillos para el fin de semana. e) ¿Qu´ n´mero de aciertos es m´s probable? e u a f ) ¿Cu´ntos aciertos debe tener para quedar por encima de a la mitad de la clase? g) ¿Y por encima de un tercio de la clase? 4.4. Ejercicios 75 4. e c) La probabilidad de obtener 3 aciertos. ¿cu´ntas veces.4). . en promedio. b) Las gr´ficas de la funci´n de cuant´ y distribuci´n y a o ıa o com´ntelas.3 Un conocido fumador gorr´n ha explotado tanto a sus como pa˜eros que por t´rmino medio cada uno de ellos le da un cigarrillo de n e cada diez veces que ´ste les pide. Se pide: a) La variable aleatoria asociada.1 Se responde al azar un examen tipo test de 10 preguntas donde en cada una de ellas se plantean 4 posibilidades siendo s´lo una o de ellas cierta. d) La probabilidad de aprobar.2 Dada la distribuci´n B(10. las preguntas con respuestas correcta suman un punto mientras que las contestadas incorrectamente restan un cuarto de punto.4 En las oposiciones es frecuente que se realice un sorteo p´bliu co extrayendo una serie de bolas o papeletas de una urna o bolsa. se pide: a) La variable aleatoria asociada.4 Ejercicios 4. de los que se seleccionan al azar dos temas.

76

Cap´ ıtulo 4. Distribuciones de Probabilidad b) Las gr´ficas de la funci´n de cuant´ y distribuci´n y a o ıa o

com´ntelas. e c) La probabilidad de que le salga uno de los temas que lleva preparado. d) La probabilidad de que le salgan dos de los temas que lleva preparado. e) ¿Qu´ ocurre con la probabilidad anterior si aumenta el e n´mero de temas preparados a 80? u 4.5 A un establecimiento de apuestas deportivas llega 1 cliente cada 3 minutos por t´rmino medio. e a) ¿Cu´l es la probabilidad de que en un periodo de 5 mia nutos lleguen m´s de 5 clientes? a b) ¿Cu´l es el n´mero m´s probable de llegadas en media a u a hora? 4.6 Las compa˜´ a´reas acostumbran a reservar m´s plazas de nıas e a las existentes en sus vuelos, dado el porcentaje de anulaciones que se produce. Si el porcentaje medio de anulaciones es del 5 %, ¿cu´ntas rea servas deber´ hacer una compa˜´ para un vuelo con 200 plazas, si quiere a nıa con una probabilidad del 97 % que todos sus clientes tengan cabida en dicho vuelo? 4.7 El servicio de reclamaciones de una asociaci´n de consumio dores recibe por t´rmino medio 3 quejas a la hora. e a) Calcule la probabilidad de que en 1 hora no reciba ninguna reclamaci´n. o b) Calcule la probabilidad de que en 2 horas reciba entre 2 y 6 reclamaciones. 4.8 En una pecera hay 10 peces machos y 8 hembras, si se extraen aleatoriamente 5 peces, calcule la probabilidad de que 3 sean machos y 2 hembras. 4.9 Un jugador apuesta 5e por tirada a un n´mero de los 37 u que componen la ruleta, si acierta, gana 180e. Calcule los beneficios esperados al cabo de 100 jugadas.

4.4 Ejercicios

77

4.10 El servicio de autobuses entre C´diz y San Fernando tiene a salidas cada media hora entre las 6 am y las 12 pm, una persona que se ha olvidado el reloj en casa llega a la estaci´n de autobuses en C´diz, se o a pide: a) La variable aleatoria adecuada para esta situaci´n. o b) Las gr´ficas de la funci´n de densidad y distribuci´n y a o o com´ntelas. e c) ¿Cu´l es su media? ¿y su mediana? ¿y su moda? a d) La probabilidad de que espere menos de 10 minutos. e) La probabilidad de que espere m´s de 15 minutos, pero a menos de 20. f ) ¿Cu´l es la probabilidad de que espere exactamente 11 a minutos y medio? 4.11 Se sabe que las bombillas de bajo consumo de 14 w tienen una vida util media de 10000 horas, mientras que las bombillas cl´sicas ´ a por incandescencia de 60 w tienen una vida util media de 1000 horas.Si ´ cada d´ se encienden unas 4 horas, en esta situaci´n ıa o a) Defina la variable aleatoria asociada. b) Obtenga las gr´ficas de la funci´n de densidad y distria o buci´n y com´ntelas. o e c) ¿Cu´l es su media? ¿y su mediana? a d) ¿Cu´l es la probabilidad de que despu´s de un a˜o est´n a e n e funcionando? 4.12 ¿Cu´l es la probabilidad de que de 10 personas elegidas al a azar al menos 2 cumplan a˜os en el mes de Enero? n 4.13 Durante la Segunda Guerra Mundial los alemanes bombardearon repetidas veces Londres. Los expertos demostraron que se trataba de bombardeos indiscriminados y que ca´ en cada acci´n y por t´rmino ıan o e medio 2 bombas por cada cuadr´ ıcula de 100 metros de lado. En vista a lo anterior, calcule la probabilidad de que en una cierta cuadr´ ıcula de 50 metros de lado no haya ca´ ninguna bomba durante un bombardeo. ıdo 4.14 Dada una distribuci´n normal de media 3 y varianza 9, calo cule las siguientes probabilidades:

78

Cap´ ıtulo 4. Distribuciones de Probabilidad a) P (2 ≤ X ≤ 5) b) P (X ≥ 3) c) P (X ≤ −2)

4.15 La centralita de un programa de televisi´n que premia aqueo llos concursantes que llaman dando la respuesta correcta de un concurso, atiende 1 de cada 10 llamadas que se realizan. a) ¿Qu´ n´mero medio de llamadas se tendr´n que realizar e u a para ser atendido? b) ¿Cu´l es la probabilidad de ser atendido a la primera? a 4.16 Calcule en los siguientes casos el valor de a, sabiendo que X ∼ N (1, 5). a) P (0 ≤ X ≤ a) = 0,28 b) P (1 − a ≤ X < 1 + a) = 0,65 4.17 Se sabe que la alarma de un reloj saltar´ en cualquier moa mento entre las siete y las ocho de la ma˜ana. Si el propietario del reloj n se despierta al o´ dicha alarma y necesita, como m´ ır ınimo, veinticinco minutos para arreglarse y llegar al trabajo, a) ¿Cu´l es la probabilidad de que llegue antes de las ocho? a b) Si el due˜o del reloj sigue programando el reloj de la n misma manera durante 10 d´ calcule el n´mero m´s probable de d´ ıas, u a ıas en que llegar´ despu´s de las ocho. a e 4.18 Si se controlan el peso, la edad, la estatura, talla de pantal´n, o horas de estudio, nota de selectividad, . . . de los 350 alumnos que est´n a matriculados en 1o de Empresariales y Econ´micas en el campus de o Cadiz y Jerez. ¿Qu´ estructura tiene su distribuci´n? e o 4.19 De una tribu ind´ ıgena se sabe que los hombres tienen una estatura que se distribuye seg´n una ley normal con media 1,70 y desviau ci´n t´ o ıpica σ. Si a trav´s de estudios realizados se conoce que la probabie lidad de que su estatura sea mayor a 1,80 es 0,12, calcule la probabilidad de que un individuo elegido al azar mida entre 1,65 y 1,75. 4.20 Calcule la probabilidad de obtener m´s de 200 seises en 1200 a

Adem´s.22 Obtenga una muestra aleatoria de tama˜o 50 para una can racter´ ıstica poblacional que sigue una distribuci´n binomial de par´meo a tros n = 12 y p = 0. 79 4. 500 y 1000 de una pon blaci´n que sigue una distribuci´n normal de media 3.7. 4. Estudie el comportamiento de la media y desviaci´n t´ o ıpica en las cuatro muestras.21 Genere muestras de tama˜o 10.4. ¿Qu´ ocurre si se aumenta el tama˜o de la muestra a 500? e n .5 y desviaci´n o o o t´ ıpica 2. represente los daa tos mediante un diagrama de barras y compare los resultados con los observados en la gr´fica de la funci´n de cuant´ de la distribuci´n bia o ıa o nomial.4 Ejercicios lanzamientos de un dado no trucado. 100. Calcule su media y desviaci´n t´ o ıpica compar´ndoa las con los respectivos valores poblacionales.

80 .

. o a n a e A. mientras que los datos que se poseen de la poblaci´n son o considerados constantes. L´pez S´nchez. F. se extraen conclusiones que afectan a todos los elementos del mismo.es/ebrcmdr Cap´ ıtulo 5 Inferencia cl´sica en poblaciones Normales a 1.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. su estructura probabil´ ıstica. J. a En ´l.. como pueden ser la media. parece razonable que si efectivamente la muestra representa bien al colectivo. El enfoque que se le va a dar a este tema se conoce como cl´sico. en el que los par´metros son variables ı a aleatorias. por ejemplo. A. S. P´rez Plaza. M. M. las caracter´ e ısticas poblacionales a estudiar se consideran par´mea tros (constantes desconocidas). mientras que los elementos de la muestra se consideran variables aleatorias. o a en el que a partir del estudio de una muestra peque˜a y representativa n de miembros de un gran colectivo. La alternativa a este enfoque vendr´ ıa dada por la teor´a bayesiana.uca. La intenci´n de este cap´ o ıtulo es hacer una primera incursi´n en lo que se conoce como an´lisis inferencial. la desviaci´n t´ o ıpica. Interesa. Mu˜oz M´rquez. los par´metros muestrales a . Arriaza G´mez. . Fern´ndez Palac´ o a ın. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. Conceptos fundamentales Hasta ahora los objetivos planteados se han limitado a explorar un conjunto de datos describiendo sus caracter´ ısticas principales o las relaciones entre distintos caracteres. conocer aproximadamente las principales caracter´ ısticas del colectivo. Desde un punto de vista intuitivo.

1 Una m´quina est´ preparada para fabricar piezas de 7 cms de longitud. Pero se a est´ desaprovechando informaci´n importante. . mientras que para el caso de los contrastes. adolece de ciertas o a carencias que lo convierten s´lo en una parte del proceso inferencial. Tanto uno como otro tienen en cuenta el maro gen de error derivado de cierta p´rdida de informaci´n. la distribuci´n de las n o longitudes es normal. dentro de un conjunto de valores especificados en lo que se conoce como hip´tesis nula (H0 ) o. a la luz de la evidencia muestral. como si la varianza de a o los datos es alta o peque˜a. o Interesa dar una mayor consistencia al an´lisis inferencial y ello se a consigue desde dos puntos de vista. En e todo caso se estar´ asumiendo un margen de error derivado del proceso a de extracci´n aleatorio de la muestra. la pretensi´n es dar respuesta a si el valor del par´metro se o a encuentra. se haya dentro de su alternativo especificado por la hip´tesis o alternativa (H1 ). ya que si se eligieran otras 1000 o piezas la media ser´ distinta a la anterior.0037 cms. el objetivo es dar una cierta “garant´ de la presencia del par´metro dentro de un intervaıa” a lo construido a partir de la muestra. La utilizaci´n de dicha informaci´n va a permio o tir construir un intervalo de confianza para la media de la poblaci´n o o confirmar directamente si ´sta se puede considerar igual a 7 cms. por o el contrario.82 Cap´ ıtulo 5. como parece. o si. Para ilustrar n lo dicho se introduce el siguiente ejemplo: Ejemplo 5. Inferencia cl´sica en poblaciones Normales a sean muy parecidos a los poblacionales y aunque ciertamente este enfoque de estimaci´n puntual es b´sicamente correcto. ıa En el caso de los intervalos de confianza. a a En una inspecci´n se toman 1000 piezas fabricadas por dicha m´quina. Si se tomaran a e decisiones s´lo a partir de esta estimaci´n puntual habr´ que concluir o o ıa que la m´quina se ha desajustado y actuar en consecuencia. o a comprob´ndose que la media de ´stas es de 7. que en muchas ocasiones son complementarios: la construcci´n de intervalos de confianza y la realizaci´n o o de contrastes de hip´tesis. que se produce e o al intentar explicar el comportamiento de una poblaci´n a partir del coo nocimiento de una parte muy peque˜a de sus miembros.

Cuando se hace uso o de la distribuci´n de probabilidad de la poblaci´n estudiada se dice que o o la inferencia realizada es param´trica. ya obtenido. 1 − α. su objetivo es intentar determinar alguna e caracter´ ıstica de la poblaci´n o de la muestra bajo estudio. α es la probabilidad de rechazar la hip´tesis nula cuando ´sta es cierta y se conoce tambi´n como probabio e e lidad de error de tipo I . de un intervalo a la probabilidad (a priori) de que el intervalo contenga el valor del par´metro a a estimar. se tiene un conocimiento bastante aproximado de la a estructura de probabilidad de la poblaci´n analizada. Esta interpretaci´n es incorrecta pues una vez obtenido el a o intervalo el valor del par´metro est´ o no est´ y no tiene sentido hablar a a a de la probabilidad de que esto ocurra. contenga el valor del par´metro. existe un error asociado al α que se conoce como β y que indica la probabilidad de no rechazar la hip´tesis nula o cuando es falsa. 1 − α debe interpretarse como la proporci´n te´rica de intervalos (ya construidos) que contiene al valor o o del par´metro. a la hora de realizar un estudio inferencial se cuenta con la informaci´n muestral. e Decisi´n estad´ o ıstica No rechazar H0 Rechazar H0 Correcta Error tipo I Error tipo II Correcta Estado Real de la cuesti´n o H0 cierta H0 falsa En el peor de los casos. n El cuadro que sigue recoge las distintas situaciones que pueden darse a la hora de realizar un contraste en t´rmino de los errores y aciertos. La interpretaci´n habitual del nivel de confianza es la probabio lidad de que el intervalo de confianza. conocido tambi´n como probabilidad de error de tipo II .5. mientras que si s´lo se hace uso de e o la muestra. Ambos errores son contrapuestos y fijado un tama˜o muestral cuando uno de los dos crece el otro decrece. a Para el caso de los contrastes.1 Conceptos fundamentales 83 Se llama nivel de confianza. mientras que en las ocasiones o m´s favorables. e 1 − β se conoce como potencia del test. o . la inferencia es no param´trica. 1 − α tambi´n se llama aqu´ nivel de confianza. El objetivo en los contrastes e param´tricos es intentar obtener informaci´n sobre los par´metros dese o a conocidos de la distribuci´n de la poblaci´n bajo estudio. En el caso de o o los contrastes no param´tricos. e ı En el caso de los contrastes.

84 Cap´ ıtulo 5. para el caso de dos poblaciones sus varianzas coinciden. el motivo de ello se encuentra en el procedimiento que o se va a utilizar para realizar el contraste. . Inferencia cl´sica en poblaciones Normales a Puesto que los contrastes param´tricos utilizan m´s informaci´n e a o que los no param´tricos. Contrastes unilaterales: en ellos se propone que el valor del par´a metro se encuentre por debajo (o por encima) de un cierto valor. la Chi-cuadrado para la varianza y la F de Snedecor para la comparaci´n de varianzas. se distingue entre o los siguientes tipos de contrastes: 1. siempre e que sea posible se debe recurrir a los primeros. Dependiendo de la estructura de sus hip´tesis. Las dos situaciones se plantear´ de la siguiente forma: ıan ( H0 : θ ≥ θ0 H1 : θ < θ0 ( H0 : θ ≤ θ0 H1 : θ > θ0 Se puede observar que en todos los casos el signo igual est´ incluido en a la hip´tesis nula. interesa analizar el comportamiento de la media. todas o ellas estudiadas en el anterior cap´ ıtulo. No hay que olvidar que la varianza determina la escala de la variable y siempre es m´s f´cil comparar a a aquellas poblaciones con el mismo factor de escala. En general. Por ello. Contrastes bilaterales: en ellos se propone un valor puntual para el par´metro bajo estudio. ofrecen mejores resultados. Formalmente: ( H0 : θ = θ0 H1 : θ = θ0 2. aunque el mismo va a depender del conocimiento o no que se tenga de su varianza o si. Las distribuciones asociadas al proceso de muestreo son la normal y la t de student para el estudio de medias. de forma que se rechazar´ bien porque a a la evidencia muestral lleve a decidir que el valor es mayor que el propuesto o bien que es menor.

1). En este cap´ ıtulo se estudiar´n problemas que involucran a una a o dos poblaciones. siendo la funci´n del contraste la de o validarla o.2 Inferencias sobre una poblaci´n o 85 Figura 5. Se aceptar´. poco frecuente. por el contrario. de que se conozca la varianza de la poblaci´n se podr´ utilizar la distribuci´n Normal. o Igual que para la normalidad. habr´ que replantear el ıa an´lisis desde una perspectiva no param´trica. que las poblaciones siguen distribuciones normales. hay que ver este enfoque como una regla de confirmaci´n sobre una cuesti´n que el investigador o o cree razonablemente que es cierta. si la evidencia muestral en contra es muy fuerte. caso de que esto no fuera cierto.5.1: Ventana de di´logo para el test t a Es muy importante entender que en el contraste de hip´tesis los o roles que juegan las hip´tesis nula y alternativa no son equiparables y o mucho menos intercambiables. Aunque en el caso. En todo caso. a expensas de poder a a comprobarlo en el pr´ximo cap´ o ıtulo. 2. Adem´s. la de rechazarla. . de la que se dispone de una muestra aleatoria simple de tama˜o o n n. y que cuando el o ıa o tama˜o de la muestra sea grande (n ≥ 50) la distribuci´n t de student n o se puede reemplazar por la N (0. Inferencias sobre una poblaci´n o En esta secci´n se abordar´ el estudio de la media de una poblao a ci´n. se supondr´ que a e a a las muestras extra´ ıdas son aleatorias y que no existen valores an´malos. mientras que en el cap´ ıtulo 7 se generalizar´n los a resultados a m´s de dos poblaciones. en general se emplear´ la propia t a de student. en el pr´ximo cap´ o ıtulo se comprobar´n a estos supuestos.

1296 sd 5.6138.0000 177. Inferencia cl´sica en poblaciones Normales a Ejemplo 5.2 Se considera que el fichero de datos peso altura.test(Hombres$ALTURA. en a este caso la altura.. y comprobando que el nivel de confianza est´ fijado en el 0.95(fig 5. p-value <2.340796 10.dat es una muestra aleatoria simple de la poblaci´n adulta de un municipio andaluz. A continuaci´n se obtendr´n los intero a valos de confianza del 95 % para la altura de los hombres.1296 . mu=0.504150 0% 59 64 25 % 63.level=.00 77.0.24074 sd 4.0133 sample estimates: mean of x 177. seleccioı u u e nando las correspondientes variables e indicando que se haga en funci´n del sexo: o > numSummary(Datos[. seı leccionando en la ventana de di´logo la variable que interesa. df = 53.901043 0% 159 167 25 % 167..95652 86. alternative=’two. statistics=c(‘‘mean’’..c(‘‘ALTURA’’.95) One Sample t-test data: Hombres$ALTURA t = 188. groups=Datos$SEXO.sided’. ‘‘PESO’’)].5 175 178. ‘‘quantiles’’)) Variable: ALTURA mean 171. Para ello se filtra la base de datos por la variable sexo.00 171.1).25 50 % 75 % 170.676462 6.2460 179. Dicha o muestra se utilizar´ para estudiar los valores medios del peso y la altura a de la poblaci´n.2e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 175. conf. A continuaci´n se o marca Estad´sticos→Medias→Test t para una muestra.86 Cap´ ıtulo 5. ‘‘sd’’.0 86. o Las caracter´ ısticas muestrales se obtienen como siempre en Estad´sticos→Res´menes→Res´menes num´ricos.25 50 % 68.0 182 100 % 182 194 n 46 54 Mujer Var´n o Variable: PESO mean 66.5 75 % 70 93 100 % 75 109 n 46 54 Mujer Var´n o Intervalos de confianza. Las instrucciones que se generan son: a > t.

alternative=’two. En primer lugar se desea realizar el contraste: ( H0 : µ = 175 H1 : µ = 175 con un nivel de significaci´n α = 0.02745 alternative hypothesis: true mean is not equal to 175 99 percent confidence interval: 174.01.2677. respecto a la salida anterior al aumentar el nivel de confianza ha aumentado la amplitud del intervalo y que el resto es pr´cticamente igual. La segunda opci´n o permite fijar un valor para la hip´tesis nula mu=0.2 Inferencias sobre una poblaci´n o 87 De la salida interesa la parte que hace referencia al intervalo de confianza.sided’.99) One Sample t-test data: Hombres$ALTURA t = 2. Para realizar o los distintos contrastes se va a retocar la l´ ınea de instrucciones. La a primera de ellas es alternative y admite tres posibilidades: contraste bilateral two. contraste unilateral H1 : µ < µ0 less y contraste unilateral H1 : µ > µ0 greater.test(Hombres$ALTURA. 179. conf. Como se puede observar en las instrucciones de R generadas por Rcmdr. del 95 %. Esto no ocurr´ en la salida anterior donde se hab´ fijado el nivel de ıa ıa confianza en 0. el procedimiento t. que no una probabilidad. mu=175. no hay evidencias para rechazar la hip´tesis o o nula.6205 179. Editando la l´ o ınea de instrucciones y ejecutando se tiene: > t.01) con una confianza.sided. pues en ese caso 175 estaba fuera del intervalo.01.5. la media de altura de la poblaci´n de hombres se eno cuentra dentro del intervalo (175.test incluye dos opciones m´s. Se puede ver que en este caso el valor que H0 propone para la media se encuentra dentro del intervalo de confianza. Respecto al contraste se concluye a que puesto que el p-value= 0. adem´s de la variable y el nivel de a confianza. α = 0. Contraste bilateral. 95.0.027. df = 53. p-value = 0.level=. .0.1296 Se puede observar que.24.6388 sample estimates: mean of x 177. es mayor que el nivel de significaci´n.

La longitud de . e respecto de los restantes. caracter´ ısticas relevantes de la muestra. se plantean distintas situaciones. mu=180. Inferencia cl´sica en poblaciones Normales a Contraste unilateral.88 Cap´ ıtulo 5. Inferencias sobre dos poblaciones Para el caso de comparar las medias de dos poblaciones.0017 es mucho menor que el nivel de significaci´n y por tanto se rechaza la hip´tesis nula. Se edita de nuevo la l´ o ınea de instrucciones y se ejecuta: > t.90) One Sample t-test data: Hombres$ALTURA t = -3. 3. Igualmente se o o puede comprobar que 180 no pertenece al intervalo de confianza.level=. Se plantea ahora la realizaci´n del cono traste: H0 : µ ≥ 180 H1 : µ < 180 con un nivel de significaci´n α = 0. p-value = 0.test(Hombres$ALTURA. conf.0565. En primer lugar habr´ que determinar si se tienen muestras a independientes o pareadas (relacionadas).0. Si se miden el peso de 50 alevines de truchas antes y despu´s de e una cierta dieta alimenticia. df = 53.1296 ( En este caso el p-valor=0. adem´s a de comprobar las hip´tesis sobre normalidad y aleatoriedad. ambas observaciones est´n relacionadas. alternative=’less’. A veces la dependencia no resulta tan evidente. La a aplicaci´n de dos pomadas en diferentes zonas de la piel de un individuo o y la observaci´n de ambas respuestas conduce a observaciones pareao das.1. que como o ya se ha comentado se ver´n en el pr´ximo cap´ a o ıtulo.3483 sample estimates: mean of x 177. La diferencia entre uno y otro caso es que en el segundo.001752 alternative hypothesis: true mean is less than 180 90 percent confidence interval: -Inf 178. se dan dos mediciones de la misma o similar caracter´ ıstica para cada individuo o para dos individuos de id´nticas.

o Esto se realiza desde el men´ Datos→Conjunto de datos activo→ u Apilar variables del conjunto de datos activo. registrados durante 730 horas de forma simult´nea. Por a otra parte. a que contiene datos de la velocidad del viento. para el caso de muestras indeo pendientes. o ıa o Fig. En la ventana de di´logo (fig. 5. parque. una continua que contenga las mediciones de viento y otra factor que indique la localizaci´n. si ambas impresoras presentan id´nticas e caracter´ ısticas tanto en prestaciones como en accesibilidad.dat.2: Ventana para apilar Hay que tener en cuenta. que el car´cter decimal viene dado en este fichero mediante una coma.parque eolico..3 Para el caso de muestras independientes se usar´ el fichero parque eolico.1. el nombre de la variable apilada. al im. introdua ciendo dependencia entre ambas longitudes.3 Inferencias sobre dos poblaciones 89 la cola de trabajo de dos impresoras pueden parecer dos observaciones independientes.5. cuyas clases se han denominado Parque1 y Parque2. en dos localizaciones a alternativas (Parque1 y Parque2). conteniendo cada una de ellas las mediciones en cada localizaci´n. resulta m´s manejable a para Rcmdr si es transformada en dos variables. es si las varianzas de las poblaciones se pueden considerar iguales o no.2) se pide el nombre de la nueva base de datos que a se ha venido a llamar eolico apilado. Otra cuesti´n a tener en cuenta. 5. Se tratar´ de establecer la localizaci´n m´s a o a aconsejable para la instalaci´n de un paro que de producci´n de energ´ e´lica. .dat portar este conjunto de datos.. y el nombre de la nueva variable factor. la elecci´n o del usuario depender´ de las longitudes de las colas existentes. velocidad. 3. la estructura de la base de datos es de dos columnas. sin embargo. Aunque o R puede trabajar con esta estructura de datos. Muestras independientes Ejemplo 5.

denom df = 729. p-value = 0.90 Cap´ ıtulo 5.9916.50574 10.8574994 1.. los dos parques e´licos ser´n igualmente productivos cuando o a la diferencia de sus medias no se separe significativamente de 0. e La comparaci´n de los diagramas suo giere la igualdad de varianzas.test(velocidad ∼ parque. Para realizar este contraste se selecciona Estad´sticos→Medias→ ı Test t para muestras independientes..59477 > var. eolico apilado$parque. y en la ventana de di´logo a emergente se selecciona como grupo la variable parque y como variable explicada la velocidad. alternative=’two. se a selecciona la variable velocidad y el grupo parque. conf.. Siendo as´ como se supone que los ı.3.9915968 Como p-valor= 0. var. El test F Fig. na.9093 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0. data=eolico apilado) F test to compare two variances data: velocidad by parque F = 0. Desde Gr´ficas→Diagrama de caja.. 05 no hay motivos para rechazar la igualdad de varianzas.sided’. seleccionando en este caso como factor la variable parque y como explicada la variable velocidad. Una primera idea sobre la igualdad de varianzas es mediante la representaci´n simult´nea o a de los diagramas de caja de las muestras.1466647 sample estimates: ratio of variances 0. velocidad 0 5 10 15 Parque1 Parque2 parque > tapply(eolico apilado$velocidad. num df = 729. marcando la opci´n bilateral con el 95 % de o nivel de confianza y suponiendo las varianzas iguales..level=. Inferencia cl´sica en poblaciones Normales a Como se ha dicho es conveniente saber si las varianzas se pueden considerar iguales o no a la hora de comparar las dos poblaciones. datos est´n distribuidos normalmente y las varianzas son iguaa les. obteni´ndose la figura 5...3: Velocidad seg´n u permite constrastar dicha hip´tesis. . 5.rm=TRUE) Parque1 Parque2 10. 9093 > 0. desde tipo de parque o Estad´sticos→Varianzas→Test F para ı dos varianzas.95.

801795 5.4).632849 Al ser el p-valor= 0. 3. 05 no se rechaza que la diferencia de las medias sea cercana a cero. Muestras pareadas Ejemplo 5. contando pan o ra ello con una muestra de 32 individuos. Se efect´a el Test t en u Estad´sticos→Medias→Test t para datos relacionados. alternative=’two.. p-value = 0.95.equal=TRUE.dat en el que se quiere analizar si el tratamiento durante un a˜o con fenofibrato reduce el fibrin´geno.1645533 0. ..9937. df = 1458.level=.3 Inferencias sobre dos poblaciones 91 Figura 5.4: Contraste unilateral de fenofibrato > t. conf.3205 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.5.. 32 > 0. reaı lizando un contraste unilateral (figura 5.sided’.test(velocidad∼parque. data=eolico apilado) Two Sample t-test data: velocidad by parque t = 0.4 Para el caso de muestras pareadas se tomar´ el conjunto de daa tos fenofibrato.2. var.5024437 sample estimates: mean in group Parque1 mean in group Parque2 5.

4857. entre los niveles iniciales y finales. Si se deseara confirmar que el tratamiento produce un descenso de m´s de 50 puntos en el nivel de fenofibrato. se deber´ tocar a ıa ligeramente la instrucci´n R incluyendo ese dato: o > t. alternative=’greater’.paired=TRUE) Paired t-test data: Datos$FIB A and Datos$FIB D t = 7. a . con lo que o se acepta que la diferencia. df = 31. p-value = 0. df = 31.test(Datos$FIB A. 001 se rechaza la hip´tesis de que µA ≤ o µD + 50 y se concluye que el medicamento produce una disminuci´n de o m´s de 50 puntos en el nivel de fenofibrato.009265 alternative hypothesis: true difference in means is greater than 50 95 percent confidence interval: 57. paired=TRUE. 001 se rechaza la hip´tesis nula. es positiva. conf.92 Cap´ ıtulo 5.59375 Al ser el p − valor < 0. p-value = 8.8178 Inf sample estimates: mean of the differences 74. alternative=’greater’. mu=50) Paired t-test data: Datos$FIB A and Datos$FIB D t = 2.level=. conf.48e-09 alternative hypothesis: true difference in means is greater than 0 95 percent confidence interval: 57. Con ello se puede deducir que el tratamiento anual con fenofibrato reduce los niveles de fibrin´geno en el organismo y existen as´ evidencias acerca o ı de su efectividad.5391. Datos$FIB D.59375 De nuevo dado que p < 0. Datos$FIB D.95.test(Datos$FIB A. Inferencia cl´sica en poblaciones Normales a > t.level=.95.8178 Inf sample estimates: mean of the differences 74.

se toma una muestra aleatoria de 15 estudiantes en cada a facultad. obtenga un intervalo de confianza al 90 % para la diferencia de medias.dat realice los siguientes ejercicios: a) Obtenga el intervalo de confianza del 90 % para la altura de las mujeres. ¿Puede indicar la raz´n de este aparente o contrasentido? 5. c) Para un nivel de confianza del 99 % contraste si la media de la altura de las mujeres es mayor o igual a 173 cms y la de los hombres menor o igual a 175 cms. de estudiantes varones en las facultades de ciencias de C´diz a y M´laga. Se supone que las estaturas siguen una distribuci´n normal. para lo cual se seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante seis meses.5. o 5. Suponiendo o normalidad.1 Utilizando el fichero de datos peso altura. obteni´ndose: e C´diz a M´laga a 182 174 181 171 170 174 173 173 175 170 177 177 167 176 170 182 171 168 170 179 174 178 175 165 181 180 169 174 169 169 Obtenga el intervalo de confianza al 99 % para la diferencia de estaturas medias entre ambos colectivos de estudiantes. medidas en cent´ ımetros. tras la cual se les volvi´ a medir el nivel de colesterol en mg/dl. b) Obtenga los intervalos del 95 % para el peso de hombres y mujeres.2 Para estudiar la diferencia de estaturas medias.4 Ejercicios 4. Ejercicios 93 5.3 Se est´ realizando un estudio sobre la evoluci´n del nivel de a o colesterol de las personas. Antes Despu´s e 200 190 156 145 178 160 241 240 240 240 256 255 245 230 220 200 235 210 200 195 .

1 13. 8 101. b) Tras revisar la maquinaria.9 Suponiendo la normalidad de ambas poblaciones. 7 101. 5 100. 7 99. 2 100. 7 97.3 11. 4 101. obteniendo los siguientes o resultados: Trabajador 1 2 3 4 5 6 7 M´todo habitual 38 32 41 35 42 32 45 e 30 32 34 37 35 26 38 M´todo nuevo e . 8 98. reduce el tiempo empleado en el montae je de uno de sus productos. 2 9. 9 101.7 11. Inferencia cl´sica en poblaciones Normales a 5. A partir de la muestra: o 100. supuestamente.9 Ofic. se obtuvo una nueva muestra: 99. ´ Ofic.4 Una f´brica produce barras de hierro cuya longitud sigue a una distribuci´n Normal. 5.3 7.3 8.5 7.9 9.0 10.6 Una empresa le propone al director de una f´brica un nuevo a m´todo que.7 12.3 9.9 9. 5. Con el prop´sito de comparar tal m´todo o e con el empleado habitualmente. seleccion´ aleatoriamente a siete de sus o empleados para que llevasen a cabo el montaje con los dos sistemas y anot´ los tiempos empleados en el montaje.5 Una empresa de transporte de mercanc´ tiene dos oficinas ıas en una determinada ciudad. ¿existen diferencias de facturaci´n entre las dos oficinas? o 5. 4 99.9 10.1 12. 1 99.1 12. 5. 8 100. la direcci´n de la empresa decide analizar la o productividad de cada una de ellas.7 10.7 10.0 13.8 9. 4 99.5 9. 3 98. 2 100. 4 100. 7 100.8 9. Al objeto de asignar un nuevo trabajador a una de las dos oficinas. a) Encuentre un intervalo de confianza para la longitud media.2 9. 1 101.1 13.1 9.94 Cap´ ıtulo 5. contabiliz´ndose las facturaciones a en los ultimos doce meses (miles de euros). Estudie si se produjo alg´n cambio en la longitud media de la u barras.

4 Ejercicios 95 Supuesto que el tiempo de montaje sigue una distribuci´n Normal. ¿se o puede afirmar que efectivamente el nuevo m´todo reduce el tiempo en e m´s de dos minutos? a .5.

96 .

Arriaza G´mez. o a n a e A. a continuaci´n se estudian test o de bondad de ajuste. No obstante y como en todo contraste. M. e por ultimo. o debe tenerse en cuenta que el test s´lo desestimar´ la hip´tesis si la o a o evidencia muestral en su contra es muy fuerte. En estas situaciones es de esperar que las mediciones tomadas en un cierto entorno tengan ciertas analog´ o preıas . Mu˜oz M´rquez.uca. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. o bien en aire. Diagnosis del modelo e En este cap´ ıtulo se aborda en primer lugar la realizaci´n de cono trastes sobre la calidad de la muestra. se dan alternativas no param´tricas para el caso de que las ´ e poblaciones no sean normales. 1. J.es/ebrcmdr Cap´ ıtulo 6 Inferencia no param´trica. F. Pruebas de aleatoriedad En esta secci´n se abordar´ el estudio de la calidad de la muestra o a extra´ de la poblaci´n.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. agua o tierra. y aunque el procedimiento de obtenci´n deber´ ıda o o ıa garantizar unos niveles m´ ınimos de calidad. Imagine por ejemplo mediciones de una cierta magnitud econ´mica a lo largo de un periodo de tiempo o niveo les de un determinado elemento qu´ ımico en estudios de contaminaci´n. los elementos de la muestra se han obtenido en un marco territorial o temporal. A. S. haciendo especial ´nfasis en los de normalidad y. Fern´ndez Palac´ o a ın. lo cierto es que en ocasiones los datos vienen impuestos sin que el investigador haya podido supervisar el procedimiento de extracci´n. P´rez Plaza. M. L´pez S´nchez. En ocasiones.

19.4046. 21. Para estudiar este tipo de situaciones se debe acudir a modelos espec´ ıficos.1 Para analizar si existe autocorrelaci´n entre los elementos de una mueso tra. se tiene: o > Box. 27. 18.c(13. df = 2. 14. entendiendo por racha al grupo de . 21. como son las series temporales o los modelos geoespaciales.test(x. 22. que para un α = 0. Para la de primer orden. 20. type = c(‘‘Ljung-Box’’)) Box-Ljung test data: x X-squared = 4. 05 no se rechaza la hip´tesis de o o independencia y se descarta la autocorrelaci´n de segundo orden. las personas encargadas de realizar el muestreo. Inferencia no param´trica. 30) > Box. en ambos casos existe un elemento que sirve de variable de referencia o longitudinal: la fecha o el posicionamiento gps. Ejemplo 6. si ´sta viene dada en forma de variable binaria. 27 y 30. por lo que el valor del PIB del a˜o T influye sobre la del a˜o n n T + 1. p-value = 0. no adoptan las medidas para garantizar la independencia de las mediciones. p-value = 0. es comprobar si e existen muy pocas o muchas rachas.98 Cap´ ıtulo 6. df = 1. o Otra perspectiva desde la que analizar la aleatoriedad de la muestra. en otras situaciones donde no se contempla esa variable de referencia. 20. 23. Diagnosis del modelo e senten tendencias.2281.test(x. a o contemplando autocorrelaciones de primer y segundo orden. 03976. se consideran los datos del PIB en billones de euros durante los ultimos diez a˜os: 13. dado que p = 0. type = c(‘‘Ljung-Box’’)) Box-Ljung test data: x X-squared = 4. lag=2. Sin embargo. se fija la opci´n lag=1. lag = 2. 23. por comodidad o descuido. ıa n Para comprobarlo se aplicar´ el test de autocorrelaci´n de Ljung-Box. Parece que de´ n ber´ existir influencia del PIB de a˜os precedentes sobre los posteriores. o > x<. 05 se rechazar´ la hip´tesis de indepedencia lineal de primer orıa o den.1105 En esta ocasi´n y puesto que p > 0. 18. lag = 1. Si se analiza la correlaci´n de segundo orden. 19. 22.03976 Lo que indica. 14.

2. t´ e ıpicamente la mediana. que no hay evidencias para considerar los datos no aleatorios. La salida del procedimiento indica.3416. se la puede transformar para que lo sea asignando las clases de la dicotom´ en funci´n de que el elemento muesıa o tral est´ por encima o por debajo de un determinado valor. puesto que p > 0. En principio el proo cedimiento de obtenci´n de la informaci´n deber´ ofrecer pautas para o o a decidir si la poblaci´n tiene una u otra estructura probabil´ o ıstica.sided Con la orden as.2 Para analizar la independencia de los mismos datos del PIB del ejemplo anterior se aplicar´ ahora el test de rachas.5). en el caso que m´s nos interesa. Si la variable no es de tipo binario. As´ ı.factor(x>median(x))) Runs Test data: as. mezclando grupos de edad. p-value = 0. Previamente habr´ que cara a gar el paquete tseries de series temporales. rechaz´ndose la hip´tesis nula tanto si existen muchas a o rachas como si hay muy pocas.factor(x > median(x)) Standard Normal = -1. . . Pruebas de bondad de ajuste En este ep´ ıgrafe se contrastar´ si la estructura de la poblaci´n a o analizada se ajusta a una determinada distribuci´n.2 Pruebas de bondad de ajuste 99 valores consecutivos iguales interrumpido por uno de signo distinto. e a la excepci´n se dar´ cuando se haya considerado un conjunto de indivio a duos no homog´neos. .factor(x>median(x)) se convierte a la variable x en dicot´mica. En este caso se realizar´ un cono a traste bilateral. dando c´digos distintos en funci´n de que el valor est´ por o o o e debajo o por encima de la mediana (20. si la variable se genera a partir de la a medici´n objetiva de alguna caracter´ o ıstica. ıan a > runs.6.1797 alternative hypothesis: two. Ejemplo 6. Si realmente e . 05. ´sta ser´ en general normal. aunque las opciones de la funci´n de R o admitir´ que se especificaran contrastes de car´cter unilateral. sexos.test(as. bien desde el men´ o con u la instrucci´n library(‘‘tseries’’).

1 0. sino de una medida de su abundancia respecto a una variable ambiental. hay que indicar que en muchas ocasiones hay ´ que realizar una operaci´n de truncamiento para adaptar la distribuci´n o o te´rica al rango de valores de los datos en estudio. la distribuci´n presentar´. y un par de test gen´ricos para evae luar la bondad del ajuste.4 0. por el contrario. el de Kolmogorov-Smirnov. Tambi´n e puede darse la circunstancia de que distribuciones que converjan a la normal en situaciones ideales y para muestras grandes. Distribución Lognormal: Media = 0.6 5 10 15 20 25 A continuaci´n se presentar´ un contraste espec´ o a ıfico de normalidad. SD = 5(escala log) 0. se pueden solucionar mediante transformaciones de los datos. un an´lisis exploratorio arroa jar´ una estructura probabil´ a ıstica multimodal.100 Cap´ ıtulo 6. a o ıtulo de An´lisis de a la Varianza.5 0. Como se puede ver. a . Diagnosis del modelo e se han mezclado grupos de individuos. o En el caso de contrastes de normalidad. o Ejemplo 6.2 0. uno para cuando los datos son continuos. Por ultimo. por tanto una transformaci´n loo gar´ ıtmica convertir´ a la abundancia en ıa una variable normal. problemas de simetr´ en algunas ocasiones estos problemas ıa. y otro para variables categ´ricas. se recomienda el uso del test de Shapiro-Wilk para muestras peque˜as n ≤ 50. mientras que si las muesn tras son grandes es preferible utilizar el test de Kolmogorov-Smirnov. como es el test de Shapiro-Wilk. necesiten alguna transformaci´n para mejoo rar la simetr´ Se analizar´ esta cuesti´n en el cap´ ıa.3 0.3 En problemas ecol´gicos es muy habio tual que la abundancia de una especie tenga una distribuci´n de tipo lognoro mal respecto a los par´metros ambiena tales.0 0 0. la poblaci´n f´ o ısica es homog´nea. mientras que si. no se trata de una medici´n de una cao racter´ ıstica de los individuos. el test de la χ2 . como es el caso de la binomial o la Poisson. salvo que los datos vengan dados en una distribuci´n de frecuencias por o intervalos donde se emplear´ la χ2 . e o a si acaso. Inferencia no param´trica.

6.2 Pruebas de bondad de ajuste 101 Ejemplo 6.4 El archivo de datos que se utilizar´ en este ejemplo es el caracoles.dat a que incluye las mediciones de dos variables, di´metro de las cona chas (mm) y separaci´n entre las espirales (µm), para un cono junto de 20 individuos adultos de una especie de caracoles. Dado el tama˜o de la muestra, se contrastar´ la hip´tesis de norn a o malidad mediante el test de Shapiro-Wilk. Utilizando en este caso Rcmdr y marcando las opciones Estad´sticos→Res´menes→ ı u Test de normalidad de Shapiro-Wilk... se obtiene el cuadro de di´logo, donde se selecciona la variable di´metro (Diam). a a En la ventana de resultados de Rcmdr se tiene tanto la instrucci´n de R como la salida o del procedimiento. En este caso el p-valor= 0, 6869 viene a indicar que los datos se pueden considerar normales.
>shapiro.test(Datos$Diam) Shapiro-Wilk normality test data: Datos$Diam W = 0.9668, p-value = 0.6869

Ejemplo 6.5 Se estudiar´ la normalidad de la variable peso del fichero a peso altura.dat. Dado que el n´mero de individuos es grande, n = 100, u se utilizar´ el test de Kolmogorov-Smirnov. En primer lugar, con Rcmdr a se calcula la media y la desviaci´n t´ o ıpica del conjunto de datos, resultando x = 73, 37 y σ = 12, 69. A continuaci´n se computar´n las diferencias ¯ o a entre la funci´n de distribuci´n emp´ o o ırica muestral y la distribuci´n te´rio o ca N (73, 37; 12, 69). Para ello se emplear´ el procedimiento ks.test. a
> ks.test(Datos$PESO,pnorm,73.37,12.69) One-sample Kolmogorov-Smirnov test data: Datos$PESO D = 0.136, p-value = 0.04939 alternative hypothesis: two-sided

102

Cap´ ıtulo 6. Inferencia no param´trica. Diagnosis del modelo e

En este caso y para un α = 0, 05 se rechaza la hip´tesis de que los o pesos sigan una distribuci´n normal. o

El test de Kolmogorov-Smirnov tambi´n se puede utilizar para e comparar las distribuciones emp´ ıricas de dos conjuntos de datos, para ello en la instrucci´n se sustituir´ la distribuci´n a ajustar por la o ıa o segunda variable. Ejemplo 6.6 Se generan mediante instrucciones de R dos muestras aleatorias de 100 y 150 elementos procedentes de distribuciones exponenciales de par´mea tros 1 y 1, 5, respectivamente, mediante las instrucciones:
x<-rexp(100,1); y<-rexp(150,1.5)

Aplicando de nuevo el test de Kolmogorov-Smirnov para comparar las funciones de distribuci´n emp´ o ırica de ambas muestras, se tendr´ ıa:
>ks.test(x,y) Two-sample Kolmogorov-Smirnov test data: x and y D = 0.2833, p-value = 0.0001310 alternative hypothesis: two-sided

Se puede comprobar que el test rechaza la hip´tesis de igualdad o de funciones de distribuci´n emp´ o ıricas con un p-valor= 0, 00013. El an´lisis de la bondad de ajuste de una serie de datos a una disa tribuci´n de probabilidad se estudia mediante el test de la chi-cuadrado o de Pearson. B´sicamente, el estad´ a ıstico χ2 eval´a las diferencias entre u los valores observados y los valores ajustados por la ley de probabilidad. Se ver´n a continuaci´n distintas situaciones y c´mo se resuelven con R. a o o Ejemplo 6.7 Para contrastar si un dado no est´ trucado se lanza 60 veces, obteni´ndoa e se los siguientes resultados:

6.2 Pruebas de bondad de ajuste 103 xi 1 2 3 4 5 6

ni 7 12 10 11 8 12 La hip´tesis a contrastar es que pi = 1/6, ∀i, con lo que se tiene o que Ei = 60(1/6) = 10, ∀i. Para resolver el contraste con R basta introducir el vector de frecuencias, n = (7, 12, 10, 11, 8, 12), y escribir las instrucciones de R.
> n< −c(7,12,10,11,8,12) >chisq.test(n) Chi-squared test for given probabilities data: n X-squared = 2.2, df = 5, p-value = 0.8208

A la vista del p-valor no se rechaza que el dado no est´ trucado. a

El test Chi-cuadrado permite contrastar la hip´tesis de indepeno dencia entre dos atributos organizados en tabla de contingencia. Ejemplo 6.8 Se desea analizar la relaci´n entre el nivel de estudios del padre y la o orientaci´n del alumno hacia las ciencias en un determinado instituto o de bachillerato. Se cuenta para ello con la informaci´n obtenida en el o centro. Estudios padre Orientaci´n Ninguno B´sico Medio Superior o a Orientado No orientado 23 18 12 42 34 16 32 27

Para contrastar esta relaci´n se introduce la matriz de datos en o Rcmdr como se describe en el ejemplo 3.1, obteni´ndose los siguientes e resultados:
> .Test <- chisq.test(.Table, correct=FALSE) > .Test Pearson’s Chi-squared test data: .Table X-squared = 24.1629, df= 3, p-value = 2.31e-05

Table p-value = 0.Table) Fisher’s Exact Test for Count Data data: . o Se analizar´ ahora la bondad de ajuste de unos datos a una disa tribuci´n te´rica no uniforme.06655 alternative hypothesis: true odds ratio is not equal to 1 Por lo que para un nivel de significaci´n α = 0. o o . o ıa en la instrucci´n de dicho test. Para aplicar esta correcci´n bastar´ especificar.9 En el conservatorio de m´sica de una ciudad se pretende estudiar la u relaci´n existente entre el sexo del alumnado y su afici´n por los instruo o mentos de viento. Para el caso de tablas 2×2 se aplica el test exacto de Fisher. aunque existe la alternativa de aplicar el test Chi-cuadrado con la correcci´n de o Yates. 05 no se rechaza. o aunque con poca evidencia.test(.1 seleccionando la opci´n de Prueba exacta de Fisher o >fisher. Inferencia no param´trica.correct=TRUE. Diagnosis del modelo e Lo que indica que se rechaza la hip´tesis de independencia y existe o una relaci´n entre los estudios de los padres y la orientaci´n hacia las o o ciencias de sus hijos. Para ello. la hip´tesis de independencia entre el sexo o y la afici´n a los instrumentos de viento. o Ejemplo 6.104 Cap´ ıtulo 6. observados los 482 estudiantes se tiene: Hombre Aficionado No aficionado 150 123 Mujer 97 112 Se introduce la matriz de datos de la misma forma que en el ejemplo 3.

Al objeto de analizar si los bombardeos eran indiscriminados o se hac´ con intenci´n.. de ser cierto. 929.0004 7 0.1704 3 0. indicar´ ıa que la variable que mide el n´mero de impactos por cuadr´ u ıculas debe ser Poisson. En primer lugar. lo hacen de forma independiente en un soporte continuo. A continuaci´n se o calcular´n las probabilidades P (X = i).6.0000 La probabilidad P (X ≥ 5) se obtiene desde: Distribuciones→ Distribuciones discretas→Distribuci´n de Poisson→ o .0528 4 0. en t´rminos probabil´ o ıan e ısticos.10 Durante la Segunda Guerra Mundial los alemanes bombardearon en diversas ocasiones Londres. de la siguiente manera ( H0 : X ∼ P (λ) H1 : X ∼ P (λ) puesto que si las bombas caen indiscriminadamente. con i = 0. 3.2 Pruebas de bondad de ajuste 105 Ejemplo 6.3949 1 0. 2. Los resultados se recogen en la siguiente tabla Impactos 0 1 2 3 4 5 N´mero cuadr´ u ıculas 229 211 93 35 7 1 Las hip´tesis podr´ ser expresadas.929. se estimar´ el par´metro de la Poisson a partir a a ˆ de la media muestral. tomando media= 0.3669 2 0. >. resultando que λ = 0. Las probabilidades discretas se obtienen en: Distribuciones→Distribuciones discretas→Distribuci´n de o Poisson→Probabilidades de Poisson. 1. 4 y P (X ≥ 5) a mediante Rcmdr.0123 5 0. Lo que..Table Pr 0 0.0023 6 0. se procedi´ a dividir la ıan o o ciudad en cuadr´ ıculas y a contar el n´mero de impactos en cada una de u ellas.

0. por lo que debe procederse a una agrupaci´n o de clases y considerar ahora P (X ≥ 4)..1704. Este tipo o e de test se basan en el an´lisis de la situaci´n de los elementos de la a o muestra respecto a determinadas medidas de posici´n.0528.93. De esta forma. Contrastes de localizaci´n y escala o Si se desestima la hip´tesis de normalidad de los datos. no son o aplicables los test vistos en el cap´ ıtulo anterior basados en dicha distribuci´n.0.3949. Inferencia no param´trica.tail=FALSE) [1] 0.p=p.9067 Por lo que se puede afirmar de forma contundente. siendo necesario utilizar contrastes no param´tricos.35.64 > 3.929.929. resulta: > ppois(c(4).p=TRUE) Chi-squared test for given probabilities data: x X-squared = 1.8) >chisq.5552 < 3. se estudia la distancia ordenada a la que se encuentra de la mediana. muy en especial o respecto a la mediana. Diagnosis del modelo e Probabilidades de Poisson acumuladas. Se almacenan ahora estas probabilidades en un vector p. 3.211. que los bombardeos alemanes fueron indiscriminados. . 0027 = 1.106 Cap´ ıtulo 6.0205.015 = 8.0.0.0150) >x< −c(229. lower. se calcula n · P [X ≥ 5] = 576 · 0.3669. se estudia si los datos muestrales est´n por encima o por debajo de la mediana.rescale. tomando valor(es) de la variable= 4 ya que Rcmdr realiza P (X > 4)=P (X ≥ 5). se considera el rango o la posici´n que ocupa dicho elemento en la secuencia ordenada de las o diferencias. las frecuencias de los valores que toma la variable en otro vector x y se aplica el test chi-cuadrado resultando: >p< −c(0.002682857 Con objeto de comprobar si se verifica la restricci´n de que todos o los valores esperados deben ser mayores a tres. df = 4.test(x. Se obtiene que n · P [X ≥ 4] = 576 · 0. para la cola de la derecha y media= 0... es decir. lambda=0. dado el valor de p. o bien. es decir. se analiza el signo a de su diferencia con la mediana. p-value = 0.

1.6. dos muestras independientes y dos muestras apareadas. Dos muestras independientes Ejemplo 6.sided". variable y ´ factor.test(velocidad∼parque. 3. alternative="two. cuya informaci´n se o o encuentra en el archivo eolico apilado..5. las situaciones a analizar son las mismas del cap´ ıtulo anterior: una muestra. p-value = 0.1: Test de Wilcoxon En todo caso.1..11 Se estudiar´ mediante el test de Wilcoxon para muestras indepena dientes si las dos ubicaciones del parque e´lico. con lo que abre la ventana de di´logo 6. Para ello. a las que se intentar´ dar respuesta con los ejemplos que a siguen.. los resultados del an´lisis son: a > wilcox. a Seleccionados los unicos elementos de la base de datos.2228 alternative hypothesis: true location shift is not equal to 0 Lo que implica el no rechazo de la hip´tesis nula de igualdad de o .dat. data=Datos) Wilcoxon rank sum test with continuity correction data: velocidad by parque W = 276269. tienen la misma potencialidad e´lica. Estad´sticos→Test no param´tricos→ u ı e Test de Wilcoxon para dos muestras. en el men´ de Rcmdr se seleccioo u nan las opciones de men´.3 Contrastes de localizaci´n y escala o 107 Figura 6.

. En este caso se quiere probar la afirmaci´n o del fabricante de que el tratamiento durante un a˜o con fenofibrato n reduce el fibrin´geno en al menos 50 puntos. la eficacia del tratamiento con fenofibrato.12 Se desea contrastar la hip´tesis nula..2. Dos muestras pareadas Ejemplo 6. se ejecuta la secuencia de Rcmdr: Estad´sticos→Test no param´tricos→Test de Wilcoxon ı e para muestras pareadas. o 3. Inferencia no param´trica. con α = 0. Se aplicar´ pues el test de o a Wilcoxon para muestras pareadas. o 3. .108 Cap´ ıtulo 6. Una muestra Ejemplo 6.006617 alternative hypothesis: true location is greater than 110 Por lo que se rechaza la hip´tesis nula y se concluye que la sepao raci´n mediana es superior a 110 µm.test(Datos$Separ. Se supondr´ que los datos a son aleatorios pero no normales y se utilizar´ por tanto el test de Wilcoa xon para una muestra. siendo indistinta. la ubicaci´n del parque o o e´lico. de que la separaci´n o o mediana entre las espirales (variable Separ) de los caracoles del fichero caracoles.alternative=c("greater"). p-value = 0.dat es menor o igual a 110 µm. suponiendo ahora que la distribuci´n de la diferencia o de medias no es normal. Trabajando directamente con R se tiene: > wilcox.13 Para documentar el caso de muestras pareadas se considera el mismo ejemplo que se us´ en el cap´ o ıtulo anterior. Para acceder al test. desde esta ´ptica.mu=110) Wilcoxon signed rank test with continuity correction data: Datos$Separ V = 157. 05. Diagnosis del modelo e medianas.3.

paired=TRUE. .6. Datos$FIB D.3 Contrastes de localizaci´n y escala o 109 Aunque las opciones de la ventana no admiten que se especifiquen diferencias. bastar´ con retocar m´ a ınimamente la instrucci´n a˜adiendo o n al final de la l´ ınea la opci´n mu=50.01934 alternative hypothesis: true location shift is greater than 50 As´ para α = 0. p-value = 0. 05 se rechaza la hip´tesis de que medA − medD ≤ ı o 50 y se concluye que el medicamento produce una disminuci´n de m´s o a de 50 puntos en el nivel de fenofibrato.test(Datos$FIB A. mu=50) Wilcoxon signed rank test with continuity correction data: Datos$FIB A and Datos$FIB D V = 354. o > wilcox. alternative=’greater’.

6. procedentes de poblaciones N(0. Cap´ ıtulo 6. 501 0. marr´n. 561 0. 179 0. compruebe la hip´teo sis de igualdad de las funciones de distribuci´n emp´ o ırica de dos muestras de tama˜o 200. 081 0. n o azul y verde).3 Compruebe la hip´tesis de normalidad de la velocidad para o cada una de las ubicaciones en el fichero parque eolico. 642 0. Inferencia no param´trica. 1] con un nivel de significaci´n α = 0.4 Contraste la hip´tesis de que los datos siguientes. rubio y casta˜o) y color de los ojos (negro.110 4.5 En un grupo de 100 personas se estudian los atributos color del cabello (moreno. o . o 0. 619 6. 6. 026 0. generao dos aleatoriamente mediante ordenador.6 Contraste si los datos de la siguiente muestra organizada como distribuci´n de frecuencias proceden de una Normal. procedan de una distribuci´n o Uniforme en el intervalo [0. 132 0. 6.dat.dat. 497 0.2 Mediante el test de Kolmogorov-Smirnov.05.1) y N(0. 582 0.1. 994 0. obteni´ndose la siguiente tabla de contingencia: e Cabello Ojos Negros Marrones Azules Verdes Moreno 20 16 5 10 Rubio 8 2 8 5 Casta˜o n 4 11 8 3 ¿Est´n relacionados dichos atributos? a 6. 948 0.3) previamenn te generadas.1 Contraste la normalidad de la variable separaci´n entre las o espirales (Separ) del fichero caracoles. Diagnosis del modelo e Ejercicios 6.

compruebe mediante el test de rangos de Wilcoxon.7 72. con un nivel de significaci´n del o 5 %.9 Para medir la introversi´n se aplica a 12 individuos un test o de personalidad en sus dos variantes. 5] (5. A partir de los datos de la siguiente tabla. que se supone la miden por igual. ıas obteni´ndose los siguientes resultados: e 28. en horas.7 Estudie. n 107 93 104 96 88 116 91 101 87 80 109 93 103 102 106 88 99 102 101 93 89 106 86 96 112 100 104 106 99 90 6.5 48. si la siguiente muestra de tama˜o 30 procede de una Normal. 1 y 2.1 54.9 15. si es cierto que las formas 1 y 2 miden por igual la introversi´n. 6] (6. 3] (3. de las bater´ de 7 voltios.4 Ejercicios (Li−1 . o 6. Li ] ni (0.5 Proponga un modelo de distribuci´n de probabilidad y estudie su ajuste.6. se extrae aleatoriamente un muestra de 10 de ellas.10 Para estudiar cu´l de los dos tratamientos contra la artrosis a es m´s eficaz se eligen aleatoriamente dos muestras de 10 y 22 pacientes a . 1] (1.8 Con el fin de estudiar el tiempo de vida. o Individuo 1 2 3 4 5 6 7 8 9 10 11 12 Forma 1 Forma 2 12 10 18 17 21 20 10 5 15 21 27 24 31 29 6 7 15 9 13 13 8 8 10 11 6. 7] 1 3 7 12 6 2 1 111 6.5 62.6 49.4 37. 4] (4.2 28.6 52. 2] (2. utilizando el contraste χ2 de bondad de ajuste.

La tabla siguiente refleja los o a a resultados obtenidos. Diagnosis del modelo e a los cuales se les somete a los tratamientos 1 y 2. Tratamiento 1 Tratamiento 2 12 15 21 17 38 42 10 23 35 28 21 18 42 25 14 52 65 40 43 35 18 56 29 32 44 15 68 41 37 43 58 42 Utilice el test de Wilcoxon para evaluar si existen diferencias entre los dos tratamientos. respectivamente. Pasados tres meses se valoran ambos tratamientos de manera que el que tenga mayor puntuaci´n ser´ m´s eficaz.112 Cap´ ıtulo 6. . Inferencia no param´trica.

los test son menos sensibles a las desviaciones de las hip´tesis exigidas cuando el o . que se ha hecho para una y dos poblaciones. Mu˜oz M´rquez. J. M.uca. Eso s´ al igual o ı. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. = µk . No se propondr´ pues a ning´n modelo te´rico.es/ebrcmdr Cap´ ıtulo 7 Introducci´n al An´lisis de la Varianza o a 1. a la estructura de probabilidad. A. propiedad esta ultima conocida como ho´ mocedasticidad.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. L´pez S´nchez. S. . F. o el test de la F soporta mejor las deficiencias respecto a la normalidad que las relacionadas con la homocedasticidad. como todos o e los procedimientos estad´ ısticos. Arriaza G´mez. P´rez Plaza. o a n a e A. Fern´ndez Palac´ o a ın. Conceptos b´sicos a Aunque en origen el An´lisis de la Varianza (ANOVA) fue introa ducido por Fisher para evaluar los efectos de los distintos niveles de un factor sobre una variable respuesta continua. M. Y esa es la perspectiva en la que se va a centrar este ultimo cap´ ´ ıtulo. El ANOVA en su versi´n param´trica del test de la F . . En concreto. normal o no. de la poblaci´n y a si las distintas poblaciones tienen o varianzas iguales o distintas. se evaluar´n las hip´tesis a o previas relativas a la calidad de la muestra. desde un punto de vista puramente abstracto el ANOVA va a permitir generalizar el contraste de igualdad de medias de dos a k poblaciones. tiene un cierto grado de robustez frente a un relativo incumplimiento de alguna(s) de sus hip´tesis. sino que el objetivo se limitar´ a usar la t´cnica u o a e para contrastar la hip´tesis H0 : µ1 = µ2 = . En todo caso.

Newman-Keuls. cuando se verifiquen todas las hip´tesis exigidas la alternativa preferida sea el test de la F. no verificar´ en general el principio de transitividad. no ocurrir´ como en el caso de dos poblaciones en el que claraıa mente una de ellas tendr´ media superior a la otra. la robustez a del test de la F le hace seguir siendo una buena opci´n. Scheff´ y HSD de e Tukey. si o la muestra no est´ contaminada y no hay desviaciones importantes de a normalidad. Si falla. 05. se comprobar´ la hip´tesis de homocedasticidad y a la vista a o .114 Cap´ ıtulo 7. sino que habr´ que ıa ıa evaluar las relaciones entre las k poblaciones. bien dos a dos o a trav´s de e combinaciones entre ellas. o ´ si fallara fuertemente la normalidad. los a contrastes de Duncan. Por ultimo. En el caso de comparaciones de parejas e de medias. se preferir´ al de Scheff´. los primeros pasos a dar son los de comprobar si las muestras son aleatorias y las poblaciones normales a trav´s de los test descritos en el cap´ e ıtulo anterior. se recomienda el uso del e test de Welch o el test de Kruskal Wallis. Cuando se o d´ la normalidad pero no la homocedasticidad. 01 y 0. Cabe destacar. puesto que el de Tukey proporciona intervalos de confianza de menor longitud. Si la conclusi´n del test aplicado fuera el rechazo de la hip´tesis o o nula. a e 2. tratando cada uno de ellos de adaptarse mejor a determinau das circunstancias. Dependiendo de que las comparaciones sean entre parejas de medias o m´s generales. a Existe una gran cantidad de test que realizan las comparaciones m´ltiples. se recomienda el uso del test de Kruskal Wallis. Bonferroni. Introducci´n al An´lisis de la Varianza o a n´mero de observaciones de las muestras es aproximadamente el mismo. debido a la naturaleza intr´ ınseca de los test. con valores de p entre 0. El resultado final de estas comparaciones desembocar´ en u a un mapa de relaciones que. Diagnosis del modelo Como se ha puesto de manifiesto. aunque no de forma dr´stica la normalidad. ser´ m´s aconsejable a a a el test de Tukey o el de Scheff´. combinaciones de las mismas. por ser de uso m´s extendido. mediante los denominados test de comparaciones m´ltiples. u Como libro de ruta se propone que. A continuaci´n.

y a en la variable explicada la producci´n de la misma. los datos no o o van a ser intr´ ınsecamente normales aunque pasen el test de normalidad. se dedicar´ este ep´ a ıgrafe a validar la hip´tesis de homocedasticidad. prod. si ´stos no se han obtenido por un e procedimiento de medici´n sino por observaci´n o conteo. van a tender a no rechazar la hip´tesis nula o debido a la escasez de informaci´n. En Rcmdr. p-value = 0. o > bartlett.dat contiene informaci´n sobre la producci´n de cuao o tro variedades de cebada.7. en este tipo de situaciones. Por ello. Entre las transformaciones m´s importantes destacan la ra´ a ız cuadrada y la arco seno. Ejemplo 7. . es decir que proceden de una binomial.1 El archivo cebada. una vez cargados los datos. en Grupos. es bueno a o o analizar la naturaleza de los datos. Para mitigar el problema se recomienda realizar una transformaci´n de o los datos. Para ello. cuando se trata de validar la normalidad de los datos. La transformaci´n ra´ cuadrada se emplea o ız cuando los datos se obtienen a partir de un conteo de elementos. se emplear´ el test o a de homogeneidad de varianzas de Barlett. el factor tipo de cebada.test(prod∼tipo. En muchas ocasiones las muestras que se emplean son de tama˜ o n muy peque˜o. y dado que los test son en gen neral muy conservativos. Por o otra parte. 1147 no se rechaza la hip´tesis de igualdad o de varianzas para los cuatro tipos del factor. Utilizando el test de Barlett se estudiar´ la a homocedasticidad de los datos. tomando ı en la ventana de di´logo. df = 3.2 Diagnosis del modelo 115 de ambas pruebas se elegir´ el contraste adecuado. Puesto que ya se han a visto los test de aleatoriedad y de normalidad. tipo.9371. menores de 10 elementos. En particular. data=Datos) Bartlett test of homogeneity of variances data: prod by tipo Bartlett’s K-squared = 5. o adem´s de la aplicaci´n del contraste para validar la hip´tesis. se aconseja la transformaci´n o √ arcsen p. se selecciona: Estad´sticos→Varianzas→Test de Barlett. pues en ese caso la distribuci´n de los mismos suele ser de tipo Poisson. cuando se tienen los datos en forma de tanto por uno. p.1147 Dado que p-valor= 0.

6 66. Pueblo 1 Pueblo 2 Pueblo 3 Pueblo 4 78 85 90 77 69 52 48 60 35 51 47 82 91 85 74 70 57 61 45 46 Los datos se han recogido en el fichero alfabeto.25000 .0 1499. que no es sino la generalizaci´n del test de la t a a o de student a k poblaciones..632e-06 *** Residuals 16 1069. El test que se a utilizar´ ser´ el de la F. Introducci´n al An´lisis de la Varianza o a Test de la F En este ep´ ıgrafe se estudiar´ el contraste de igualdad de medias a suponiendo que los datos son normales y homoced´sticos. Ejemplo 7. se selecciona Estad´sticos→Medias→ANOVA de un factor. data=Datos) > anova(.01 ’*’ 0. En Rcmdr. Suponiendo que los datos son normales y que las varianzas son iguales se aplicar´ el a test de la F. codes: 0 ’***’ 0. Cap´ ıtulo 7.8 --Signif.80000 48.05 ’.001 ’**’ 0..7 22.40000 52. una vez cargados los datos.Anova) Analysis of Variance Table Response: Ind Df Sum Sq Mean Sq F value Pr(> F ) Pueblo 3 4499. mean.2 Para evaluar el ´ ındice de alfabetizaci´n de cuatro municipios de una o determinada comarca.433 5.116 3.83333 80. na.. lo que da acceso a ı la ventana de di´logo del procedimiento donde se indicar´n las variables a a a tratar.rm=TRUE) # means P1 P2 P3 P4 79.dat. obteniendo en Rcmdr la siguiente salida: > . se ha pasado un test a varios habitantes de cada una de ellas con los siguientes resultados.1 ’ ’ 1 > tapply(Datos$Ind. Datos$Pueblo.Anova < − lm(Ind∼Pueblo.’ 0.

001 se rechaza la hip´tesis de igualdad o de medias en el ´ ındice de alfabetizaci´n de los cuatro municipios. deviations P1 P2 P3 P4 8. si se rechaza la hip´tesis o o nula de igualdad de medias se debe proceder a la realizaci´n de contrastes o de medias dos a dos.3 Test de la F 117 Intervalo de confianza del 95% P2 − P1 ( ) P3 − P1 ( ) P4 − P1 ( ) P3 − P2 ( ) P4 − P2 ( ) P4 − P3 ( −40 −20 ) 0 20 40 Figura 7.Anova) Puesto que el p-valor < 0. Comparaciones m´ ltiples u Bajo las mismas hip´tesis del test de la F.1: Intervalos de confianza de Tukey > tapply(Datos$Ind. .183316 8.443933 7. Datos$Pueblo. Datos$Pueblo.043631 8. o 3.1. na. sd. function(x) sum(!is.na(x))) # counts P1 P2 P3 P4 5 6 5 4 > remove(.973916 > tapply(Datos$Ind.rm=TRUE) # std.7.

oma < − par(oma=c(0. que P2 es igual a P4 y menor que P3 y que P3 es mayor que P4 .7295 P4 .1500 -43. una que genera la salida num´rica de intervalos para las diferene cias de medias y otra que construye el gr´fico de dichos intervalos.Pairs) .118 Cap´ ıtulo 7.1295 -16.5500 -43. Estad´sticos→Medias→ANOVA de un factor.P1 == 0 -30..P2 == 0 3. el siguiente grupo de instrucciones crea el gr´fico a de intervalos de confianza para la diferencia de medias (figura 7.main=‘‘blue’’.4038 45. e > .8038 P3 . a An´lisis num´rico: a e El siguiente grupo de instrucciones crea la salida num´rica.col.axis=‘‘blue’’) > par(old.P1 == 0 -27. An´lisis gr´fico: a a Por otra parte. col= ‘‘red’’.9667 -45.8607 Linear Hypotheses: Estimate lwr upr P2 .6810 18. Se accede mediante la misma secuencia de men´.Pairs < − glht(.5143 P4 .4167 -11. marcando ahora o Comparaciones dos a dos de las medias.1). > old.5.Pairs)..3 Con los datos del ejemplo anterior y puesto que se ha rechazado la hip´tesis de igualdad global se realizar´n las comparacioo a nes de medias dos a dos.6000 -14.P1 == 0 0.8399 -12.8601 P3 . linfct = mcp(Pueblo = ‘‘Tukey’’)) > confint(.4601 95 % family-wise confidence level El an´lisis de la salida lleva a que P1 es igual a P3 y mayor que P2 a y P4 . data = Datos) Estimated Quantile = 2. a u ı la ventana de introducci´n de datos y opciones. Adem´s de la salida anterior Rcmdr crea dos bloques de instruca ciones..oma) > remove(.5667 17. Introducci´n al An´lisis de la Varianza o a Ejemplo 7. main=‘‘Intervalo de confianza del 95 %’’.0)) > plot(confint(.Anova.P3 == 0 -28.Pairs) Simultaneous Confidence Intervals for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: lm(formula = Ind∼Pueblo.1926 15.0.3926 P4 . col.2399 -11.P2 == 0 31. xlab=‘‘ ’’.

Test de Kruskal Wallis e 4. Alternativa no param´trica. DatosNeum. vienen dadas en la siguiente tabla: o Llantas A B C D E 68 72 60 48 64 Vidas medias 72 53 82 61 65 77 63 64 57 70 42 53 75 64 68 53 48 72 50 53 Para contrastar que no hay diferencias entre los cinco tipos de neum´ticos se elige el test de Kruskal Wallis. C.rm=TRUE) A B C D E 68 53 72 57 65 . median. abri´ndose la coe e rrespondiente ventana de di´logo donde se seleccionan variable y factor.4 Suponga que se desea comparar el rendimiento de 5 tipos de neum´ticos. Test de Kruskal Wallis e 119 Como se ha indicado. Los datos han sido ala macenados en el fichero neumaticos. a A. Dicho test es una prueba basada en rangos con signos y es una generalizaci´n del test de Wilcoxon al caso o de k muestras. Rcmdr proporciona en primer lugar las medianas de cada grupo y seguidamente el estad´ ıstico de Kruskal Wallis junto con su p-valor. Ejemplo 7. > tapply(DatosKm. La soluci´n m´s extendida la o a proporciona el test de Kruskal Wallis. a en este caso Km y Neum. D y E. medidas en miles de kil´metros. si fallan las hip´tesis de normalidad y/o o homocedasticidad se debe recurrir a una alternativa no param´trica para e realizar el test de igualdad de medias. para lo que decide probarlos en distintos coches de similares caracter´ ısticas.dat dentro del repositorio de datos. na. B.4 Alternativa no param´trica. Sus vidas medias en rodaje. En Rcmdr se activa la secuencia de men´ Estad´sticos→ u ı Test no param´tricos→Test de Kruskal Wallis.7.

df = 4. 1651. Introducci´n al An´lisis de la Varianza o a > kruskal. a .1651 A la vista de los resultados. p-value = 0.test(Km∼Neum.4949. p-valor = 0.120 Cap´ ıtulo 7. se concluye que no hay diferencias significativas entre los rendimientos de los cinco tipos de neum´ticos. data=Datos) Kruskal-Wallis rank sum test data: Km by Neum Kruskal-Wallis chi-squared = 6.

1 Vend. 30 6. 4 6. 9 7.3 A partir de la cuenta de resultados que presentaban 13 entidades financieras englobadas en los ´mbitos europeo. 7 Europeo 0. 17 4. 23 4. 72 5. 8 2. 33 5. 2 13. nacional y regional a se ha calculado el porcentaje destinado a la generaci´n bruta de fondos. o Vend. 9 ¿Puede considerarse que la proporci´n de fondos es igual indepeno . 5 2. 8 0. 57 8. Ejercicios 121 7. 1 6. 2 9. 2 Vend. Nivel I Nivel II Nivel III 8. 8 2. 60 8. 9 3. indique si ´ los cuatro vendedores son igualmente eficaces. 11 5. 45 5. 13 6. 3 Vend. 7 3. 5 8. 21 5. 37 7. 1 7.1 Estudie. 00 7. si las medias de los tres niveles de un determinado factor son iguales. De no ser as´ elabore el ı ranking en raz´n de las ventas. 7 2. 89 5. a partir de la tabla de datos porcentuales que se da. 94 4. 83 5. A la vista de la o tabla de ventas en los ultimos cinco meses (miles de euros). 0 1. 1 9. 69 8. 46 4.7. 79 5.5 Ejercicios 5. 6 8. 4 3. 06 7. 2 2. o con los siguientes resultados: ´ Ambito Tipo II Tipo III Generaci´n bruta de fondos o 4. 4 12 13.2 Una empresa tiene en un establecimiento cuatro vendedores y pretende asignar primas en funci´n de las ventas.

Para ello. Suponer que la distribuci´n para o o cada porcentaje son aproximadamente normales y se da la homogeneidad de las varianzas.4 Una cierta planta ha sido cultivada con cinco fertilizantes distintos.122 Cap´ ıtulo 7. De 5 r´plicas aleatorias se obtienen los siguientes datos: o e Porcentaje de algod´n o 15 20 25 30 35 1 7 12 14 19 7 2 7 17 18 25 10 3 15 12 18 22 11 4 11 18 19 19 15 5 9 18 19 23 11 ¿Puede considerarse que la resistencia de las prendas es la misma independiente del porcentaje de algod´n presente en sus fibras? o . Se desea estudiar si el tipo de fertilizante influye en la longitud de la planta. Introducci´n al An´lisis de la Varianza o a dientemente del ´mbito de actuaci´n? a o 7. para lo cual se han medido las longitudes de cinco series de 10 plantas. Se sospecha que la resistencia est´ relacionada con e a el porcentaje de algod´n en la fibra. se emplean cinco niveles de porcentaje de algod´n.5 Un fabricante est´ interesado en la resistencia a la tensi´n a o de una fibra sint´tica.dat. obteni´ndose para cada serie los resultados que aparecen en e el fichero plantas. ¿Hay evidencia estad´ ıstica suficiente para afirmar que las medias son diferentes? De ser as´ ¿existen tipos de fertilizante ı. que no se diferencien entre s´ ı? 7.

Provienen del famoso estudio realizado por el estad´ ıstico y genetista Sir Ronald A.es/ebrcmdr Ap´ndice A e Ficheros de datos Puede accederse a los ficheros documentados en esta secci´n en la o direcci´n http://knuth. Arriaza G´mez. J. B. S. F. a o fenofibrato. Fern´ndez Palac´ o a ın. Mu˜oz M´rquez. C y D. o a n a e A.uca. chickwts Datos contenidos en el paquete “datasets” de R. cebada. antes y deso pu´s de ser tratados durante un a˜o con fenofibrato. P´rez Plaza. con 6 niveles.dat Contiene informaci´n sobre la producci´n de cuatro varieo o dades de cebada A. M. L´pez S´nchez.dat Conjunto de datos que recoge las medidas del di´metro a y la separaci´n entre espirales (µm) de las conchas de 20 caracoles o adultos.uca. Estos datos permiten u trabajar m´s c´modamente en Rcmdr. Peso de 71 pollos sometidos a distintos tipos de alimentaci´n Contiene dos o variables.dat Niveles de fibrin´geno de 32 pacientes. una num´rica weight: peso y un factor feed: tipo de alie mentaci´n. A.es/ebrcmdr. o eolico apilado.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A.dat Los datos del fichero parque eolico. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. M. . e n iris Datos contenidos en el paquete “datasets” de R.dat apilados seg´n las variables velocidad y parque. o caracoles.

Las variables de estudio son la longitud y el ancho del s´palo y. sexo. peso altura. seg´n el tipo de u cultivo (´cido. a B. probados en distintos o coches de similares caracter´ ısticas. Ficheros de datos e Fisher. b´sico o neutro). parque eolico. sobre la clasificaci´n de 3 especies de iris (setosa. a . IECA o placebo). e o niv estudios cadiz.dat N´mero de virus reproducidos en funci´n del tiempo (minutos) y de la temperatura (grados).dat Nivel acad´mico de la poblaci´n gaditana. a e u o reproduccion vir. altura y presi´n arterial inicial y final de un grupo de 100 pacientes sometidos o a cierto f´rmaco (Ca Antagonista + diur´tico.124 Ap´ndice A.dat Mediciones de la velocidad del viento (m/s) en dos localizaciones alternativas (Parque1 y Parque2) registradas de forma simult´nea durante 730 horas.dat Vidas medias en rodaje de 5 tipos de neum´ticos A. Este es el fichero o incluido en el paquete “datasets” de R y est´ modificado para que a se cargue correctamente en Rcmdr. Fuente: Instituto Estad´ ıstico de Andaluc´ ıa. medidas en miles de kil´metros. C. a a titanic.dat Recoge informaci´n sobre el naufragio del buque Titanic o ´ (estatus econ´mico. la longitud y el ancho del p´talo de las 3 especies e e mencionadas.dat Fichero en el que se proporcionan peso. neumaticos. D y E. edad y supervivientes). versicoo lor y virginica).

S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. F. > mean(datos) > median(datos) > var(datos) > sd(datos) > var(datos)* (length(datos)-1)/length(datos) Cuantiles Medidas de centralizaci´n o Media Mediana Medidas de dispersi´n o Cuasivarianza Cuasidesviaci´n t´ o ıpica Varianza . M. A. M. Fern´ndez Palac´ o a ın. L´pez S´nchez. o a n a e A.uca. Arriaza G´mez. S. Mu˜oz M´rquez. P´rez Plaza. > quantile(datos) obtenemos todos los cuartiles. J.Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A.es/ebrcmdr Ap´ndice B e Tabla de medidas estad´ ısticas En la siguiente tabla se ofrece un resumen de las medidas m´s a usadas en estad´ ıstica descriptiva con sus correspondientes instrucciones en R Medidas de posici´n o Instrucciones en R > quantile(datos.p) con p vector de cuantiles deseados.

.75) -quantile(datos. Tabla de medidas estad´ e ısticas Instrucciones en R >sqrt(var(datos)* (length(datos)-1)/length(datos)) >max(datos)-min(datos) >quantile(datos.126 Ap´ndice B..25) >sd(datos)/abs(mean(datos)) En el paquete fBasics >kurtosis(datos) >skewness(datos) Medidas de dispersi´n o Desviaci´n t´ o ıpica Rango muestral Rango intercuart´ ılico Coeficiente de variaci´n o Medidas de forma Coeficiente de curtosis Coeficiente de asimetr´ ıa .

Arriaza G´mez. o a n a e A. L´pez S´nchez. F. Mu˜oz M´rquez.Ap´ndice C e Tabla de modelos Estad´ ıstica B´sica con R y R-commander a (Versi´n Febrero 2008) o Autores: A. S. S´nchez Navas a c 2008 Servicio de Publicaciones de la Universidad de C´diz a http://knuth. M. J. P´rez Plaza. A. M. Fern´ndez Palac´ o a ın.es/ebrcmdr .uca.

Podemos ver las distintas opciones consultando en la ayuda de R la funci´n family (help(family) o ?family). inverse. Tabla de modelos e Modelo Lineal Instrucci´n o >lm(Y ∼ X. La funci´n de enlace (link) puede tomar distintos valores seg´n la familia seo u leccionada.128 Ap´ndice C. e independiente data=Datos) Potencial >lm(log(Y ) ∼ log(X). data=Datos) Y = ea+b·X Hiperb´lico o >lm(Y ∼ I(1/X). data=Datos) Ecuaci´n o Y = a+b·X Y =a·X Y = a0 + a1 · X+ + · · · + an · X n Y = a1 · X+ + · · · + an · X n Y = a′ · X b . data=Datos) Y = a + Y = data=Datos) Lineal >glm(f´rmula. (2) familia puede tomar los valores gaussian. binomial. data=Datos) b X Logar´ ıtmico >lm(Y ∼ log(X). quasibinomial y quasipoisson. poisson. (1) Lineal sin t´rmino >lm(Y ∼ 0 + X. data=Datos) Exponencial >lm(log(Y ) ∼ X. o . data=Datos) Polinomial >lm(Y ∼ 0 + X + I(X 2 )+ sin t´rmino +I(X 3 ) + · · · + I(X n ).gaussian. data=Datos) e independiente Polinomial >lm(Y ∼ X + I(X 2 )+ +I(X 3 ) + · · · + I(X n ). con lo que el modelo potencial ser´ o ıa Y = ea · X b . family= o (2) generalizado =familia(link). data=Datos) Y = a + b · log(X) 1 b a+ X Doble inverso >lm(I(1/Y ) ∼ I(1/X). Gamma. (1) Los coeficientes a y b obtenidos en Rcmdr corresponden a la ecuaci´n log(Y ) = a + b · log(X).

Sign up to vote on this title
UsefulNot useful