You are on page 1of 41

Introducción al Análisis de Datos.

Ejemplos de Análisis de Datos (en particular Análisis de Regresión) aplicados a diferentes ramas del conocimiento.

Psicología

Estudio de las capacidades de ortografía en niños de primaria

Neurobiología

Estudio de Alzeihmer en ratones transgénicos

Economía Estudio de los ciclos económicos en el Noreste de Brasil .

0 0.0 10.0 2.0 4.0 6.0 SK SI PL MT HU LT LV CY EE Mean CZ RO Unemployment rate (% labour force 15+) Análisis de la disparidad regional en la fuerza laboral de Rumanía .0 12.0 16.Economía 20.0 14.0 8.0 18.

Administración Pública Pronóstico de la demanda de electricidad en Venezuela .

Medicina Estudio de infecciones pancreáticas .

Física Estudio de las variaciones en la fuerza de los cojinetes .

5: Invasive meningococcal disease.Medicina-Epidemiología Fig. Estudio de la epidemiología de enfermedades meningo-cocales en Cuba . Incidence density in children under 1 year old according to municipalities. Cuba 1989-1994.

Medicina-Farmacología Estudio de la resistencia de microbios a ciertos antibióticos .

Tenis Probabilidad de que un jugador(a) gane un juego en función de su differencia de ranking Importancia de cada punto en la final Graff-Novotna de 1995 .

Ejemplos de estudios estadísticos problemáticos: Yule(1926) descubrió una relación positiva muy estrecha entre la tasa de matrimonios realizados por la iglesia de Inglaterra y la tasa de mortalidad en el país. Ambos casos son resultado de estudios estadísticos serios ¿Cúal fue el problema? . se encontró una alta correlación entre el número de ministros religiosos ordenados y el número de nacimientos. En otro caso. usando datos de Inglaterra del siglo XIX.

Se considera como su fundador a Godofredo Achenwall. profesor alemán (1719-1772). Los siguientes son algunos conceptos que se emplearán durante el curso y que se considera que los alumnos ya conocen (algunos se abordarán con mayor detalle y otros se volverán a definir). él y sus discípulos estructuraron los primeros métodos estadísticos para estudiar las riquezas de las naciones. Estadística Estadística descriptiva Estadística inferencial Dato Población Muestra Variable Media Varianza Desviación Estándar . La Estadística es una de las ramas de la matemática con más aplicaciones ya que prácticamente se usa en todos los ámbitos del conocimiento humano.Introducción al Análisis de Datos No es posible efectuar ningún tipo de análisis de datos sin emplear las herramientas de la Estadística.

. presentación y descripción de la información numérica. organización. Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una población a la cual queremos estudiar.Definición de Estadística Existen muchas definiciones dependientes de sus aplicaciones. pero en el fondo todas ellas coinciden de una u otra forma en el que “es un método Actualmente se divide a la Estadística en dos grandes ramas: Estadística Descriptiva Estadística Inferencial. que incluye la obtención. la estudiaremos y se sacarán conclusiones que se extrapolarán a toda la población. científico de operar con los datos y de interpretarlos”. Pero si no nos es posible conocer a toda la población entonces tomaremos una muestra de ella. entonces usaremos los métodos de la Estadística Descriptiva. para lo que se usarán los métodos de la Estadística Inferencial.

.Repaso del Concepto de Sumatoria La sumatoria se denota con el símbolo ∑ Se usa para indicar una suma de términos. + x n Ejemplo: si queremos sumar los siguientes valores: x1 3 3 x2 2 3 x3 4 x4 2 3 x5 1 x6 3 a) ∑ xi = x2 + x3 i=2 ∑ xi = 2 + 4 i=2 ∑ xi = 6 i=2 b) ∑ xi = x1 + x2 + x3 + x4 + x5 + x6 i =1 6 i =1 ∑ xi n = 3+ 2+ 4+ 2+1+ 3 i =1 ∑ xi n = 15 .. por ejemplo: i =1 ∑ xi n = x1 + x 2 + x 3 + .

3 x6 10.Actividad 1 Calcular las siguientes sumatorias: a) i =1 ∑ xi = x1 2.1 x5 8.2 x4 7.5 x3 6.3 .4 x7 15.3 7 b) ∑ 2 xi = i =1 5 c) ∑ 3( xi − 4) i =1 4 x2 3.

Algunos de los aspectos que se deben cuidar es que las características medidas sean mutuamente excluyentes para que un mismo individuo o elemento no pueda pertenecer a dos categorías o tener dos medidas. . Es por ello que requerimos reorganizar la información y desplegarla en forma gráfica. y ver si se repiten algunos valores. etc. el paso siguiente es la organización y representación de los datos. Ya que muchas veces los datos se nos dan en forma desordenada no es fácil ver si existen tendencias o notar cuál es la extensión de la información. por lo que vamos a omitir la parte que trata de la recopilación de datos y a considerar que se tuvo cuidado de recopilar la información de manera que podamos confiar que los resultados que obtengamos van a ser válidos. que si tomamos una muestra esta sea aleatoria. calcular la diferencia entre ellos. Un primer paso es ordenar los datos de mayor a menor y así podemos darnos cuenta de cuáles son los valores extremos. Organización y representación de datos Una vez obtenida la información.El diseño de un experimento se escapa de los objetivos del curso.

Una vez arreglados los datos podemos darnos cuenta del valor mínimo y máximo. Estudiantes Universitarios 8 18 25 30 11 21 25 30 13 21 29 35 15 23 29 36 17 25 30 42 . así como del rango que es la diferencia entre estos valores: r = 42 − 8 = 34 .Supongamos que se nos dan los siguientes datos: 30 11 42 8 30 18 25 25 17 30 29 21 23 25 15 35 26 13 21 36 Ordenándolos de menor a mayor tenemos lo siguiente: Tabla 1 Arreglo de los Ingresos (en dólares) obtenidos en un sábado por 20 .

591 1. • La Columna Principal es aquella en la que se anotan las categorías.667 1.190 .380 1.33 -3.428 2. cómo.84 -2. dónde y cuándo) si es necesario se deben agregan notas con explicaciones.904 1. Al elaborar tablas se debe tener cuidado en los siguientes aspectos: • En los Títulos los que se debe destacar el objeto del cuadro (qué.28 8. • Las notas al pie deben tener por objeto aclarar ciertas operaciones que se utilizan en el cuadro.00 -9. también se debe indicar en ellas las fuentes de información Ejemplo: Tabla 2 TRANSPORTE AEREO NACIONAL DE PASAJEROS Período 1997 1998 1999 2000 2001 2002 Pasajeros (en millones) 42 48 52 50 49 47 % de incrementos Base de año Base de año anterior 1997 14.El siguiente paso es poner los datos en forma de tabla. • En el encabezado de las columnas se debe explicar el objeto de cada una de las columnas • El cuerpo es la parte que contiene la información.

Ejemplo.Diagramas de dispersión. De esta forma tenemos un panorama inmediato de la variación de la información y sus posibles tendencias. En este tipo de diagramas se ponen los datos uno a uno sólo indicando su valor en el eje de las ordenadas (y´s). Una forma de hacerlo rápidamente es por medio de los diagramas de dispersión. Diagrama de Dispersión de las Estaturas de alumnas de 1º de Secundaria . Otro paso preliminar conveniente en cualquier análisis es desplegar los datos de forma gráfica.

Cuando los datos son numerosos. . a lo que se le llama frecuencia. es conveniente agruparlos para que la información sea más fácil de interpretar.Distribución de frecuencias. Ordenar los datos anteriores y anotar sus frecuencias. El primer tipo de agrupación se hace contando el número de veces que se repite cada valor. Ejemplo: Datos de las estaturas en cm de las alumnas de 1° de Secundaria 152 157 153 154 147 150 151 149 142 157 145 152 143 151 144 148 138 139 145 137 146 155 141 148 154 154 162 142 159 152 140 131 143 158 139 145 149 142 137 147 146 138 139 139 159 140 143 142 125 153 160 144 152 148 146 158 143 137 144 152 131 150 149 144 151 139 137 144 143 154 145 153 157 146 147 158 138 132 137 139 143 132 142 146 143 136 149 151 152 141 154 143 145 144 158 140 147 145 144 150 145 145 146 148 149 153 155 159 Actividad 2.

Frecuencias la cual se puede elaborar de la siguiente forma (cada quien tiene una manera de pelar un pollo): 1° se localizan los valores extremos 2° se escribe una secuencia de uno en uno del extremo inferior al superior 3° se van tachando de uno en uno los números y se marca en la tabla cada tache en el número correspondiente hasta acabar con todos los números 4° la frecuencia es el número total que aparece en cada número.Con los datos anteriores se van a formar lo que se conoce como una Tabla de Distribución de Frecuencias. que para determinarla solo se cuentan el número de taches que tiene cada uno de los números .

Tabla de Distribución de Frecuencias de las estaturas de las niñas de 1° de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108 .

Esto es agrupar datos en “clases”. Para ello vamos a construir lo que se conoce como una tabla de distribución de frecuencias de datos agrupados. es el que va a representar a todos los valores que caigan en el intervalo. La Marca de clase se llama al valor intermedio del intervalo. Los datos anteriores pueden agruparse por intervalos de clases (pensemos en cajitas) e indicar el número de datos que contiene cada clase (frecuencia). A esta distribución se le llama distribución de frecuencias agrupadas.Tabla de Distribución de Frecuencias de Datos Agrupados Con una distribución de frecuencias podemos ya ver algunas características de los datos. . Veamos algunas definiciones: Un Intervalo o clase es un subconjunto de todos los datos enmarcado entre dos valores. de la forma similar a lo que hicimos en las gráficas de barras. pero no podemos tener una visión integral de su comportamiento.

Las marcas de clase deberán ser fáciles de manejar 6.A continuación se dan algunas sugerencias para construir este tipo de tabla 1. 2. La diferencia entre marcas de clase deberá ser constante e igual a la longitud del intervalo . Los puntos medios o marcas de clase deberán tener el mismo número de dígitos de los datos en bruto 4. El número de intervalos deberá aproximarse a la raíz cuadrada del número total de datos 3. La longitud del intervalo deberá ser impar para que los extremos del intervalo no incluyan datos observados 5. El número total de intervalos de clase no deberá ser menor que 6 ni mayor de 20 para no perder la ventaja de visualización de los datos.

debemos escoger el número de intervalos de clase entre 6 y 20.Ahora. para hacer la agrupación de los datos se siguen los siguientes pasos: 1° se calcula el rango (R) que es la diferencia entre los valores extremos de los datos R = X sup − X inf si éste no es entero se tiene que redondear al entero superior.6 ≈ 4 pero como no es impar se tiene que cambiar el número de intervalos . entonces n = 108 ≈ 10 . podemos tener una buena idea del número adecuado de intervalos aplicando la recomendación de que n= N Ejemplo: Si N =108. Ejemplo (las estaturas): Si X sup = 162 y X inf = 125 entonces R = 162 -125 = 37 2° Se elige el número de intervalos. con lo que el intervalo quedaría con la siguiente longitud R 36 i= n = 10 = 3.

3° Una vez que se decidió el número de intervalos y la longitud de éstos para empezar a formarlos vemos cuál es el nuevo rango que nos da el número de intervalos multiplicado por la longitud.5 y terminaremos en 164.5 .36 i = = 4 por lo que estaríamos en la misma situación Si usamos 9 intervalos. es decir. y tenemos que buscar otro número de intervalos. 4° Para asegurarnos de que ningún dato queda en los extremos de los intervalos nos moveremos media unidad. siendo en el caso del ejemplo R = i ⋅ n = 5(8) = 40 con lo que tenemos 4 elementos más de los que teníamos originalmente y debemos decidir cómo distribuirlos. en el caso del ejemplo dos al principio y dos al final. lo que hace necesario iniciar el conteo en 123 y terminar en 164. entonces 9 (no es impar). Para el ejemplo entonces vamos a empezar en 123. 36 = 4. preferiblemente de manera equilibrada.5 ≈ 5 y como es impar podemos usar éste Empleando 8 intervalos nos da i = 8 número de intervalos.

5 -153.5 138.5 153.5 -143.5 -148.5 128.5 -163. Construir una tabla con las características anteriores usando los datos de las estaturas de niñas de secundaria.5 -133.5 -128. Intervalos de clase Estaturas en centímetros 123.5 -138.Actividad 3.5 143.5 -158.5 133.5 148.5 Total Marca de clase 126 131 136 141 146 151 156 161 Frecuencia Alumnos 1 4 9 24 29 22 14 5 N = 108 .5 158.

Para nuestro ejemplo: Histograma de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria 29 24 22 14 9 5 4 1 126 131 136 141 146 151 156 161 .Histograma de Frecuencias Se llama Histograma de frecuencias a la gráfica en la que en el eje de las abscisas se grafican los intervalos y en el de las ordenadas se grafican las frecuencias.

Muchas veces se grafican el histograma y el polígono de frecuencia juntos. para lo cual se tiene que agregar a la tabla de distribución de frecuencias agrupada la columna con las marcas de clase.Polígono de Frecuencias Se llama polígono de frecuencias a la poligonal que une los puntos medios de los extremos superiores de las barras (marcas de clase) empezando en una marca de clase antes y terminando una después. Polígono de Frecuencias de las Estaturas de las Niñas de 1° de Secundaria 30 15 121 126 131 136 141 146 151 156 161 166 .

5 -143.5 158.5 -163.5 -138.5 128.5 -153.Ojiva La ojiva es una gráfica en donde en el eje de las abscisas se localizan las marcas de clase y en el de las ordenadas se localizan las frecuencias acumuladas o las acumuladas relativas.5 Total Marca de clase Frecuencia Alumnos 1 4 9 24 29 22 14 5 N = 108 Frecuencias Acumuladas 1 5 14 38 67 89 103 108 126 131 136 141 146 151 156 161 .5 -158.5 143.5 153. relativas Para lo cual se agrega a la tabla de frecuencias la columna de frecuencias acumuladas.5 -148.5 -133.5 -128.5 138. Intervalos de clase Estaturas en centímetros 123.5 148.5 133.

Ojiva de Frecuencias Absolutas Acumuladas de las Niñas de 1° de Secundaria 100 50 0 121 126 131 136 141 146 151 156 161 .

05 0. Intervalos de clase Estaturas en centímetros 123.5 153.95 1 1 4 9 24 29 22 14 5 N = 108 1 5 14 38 67 89 103 108 .5 138.5 158.22 0.08 0.27 0.5 128.5 -148.5 -143.5 Total Marca de clase 126 131 136 141 146 151 156 161 Frecuencia Alumnos Frecuencias Acumuladas Frecuencias Frecuencias Relativas Relativas Acumuladas 0.5 -138.5 -133.13 0.5 133.01 0.35 0.01 0.05 0.5 -158.13 0. la de frecuencias relativas y la de frecuencias relativas acumuladas.5 143.5 -153.5 -163.62 0.5 148.5 -128.Para trazar la ojiva de frecuencias relativas (porcentaje) acumuladas se agregan dos columnas a la tabla de frecuencias.20 0.82 0.04 0.

Ojiva de Frecuencias Relativas Acumuladas de las Niñas de 1° de Secundaria 1 0.5 0 121 126 131 136 141 146 151 156 161 .

más lejos de un comportamiento normal estará nuestra población. En el ejemplo anterior se tiene un ligero sesgo positivo ( hacia la izquierda). mientras más se alejen entre ellas. pero para dar más sentido a estas observaciones y poder hacer comparaciones con otras poblaciones se ideó que se pueden medir el promedio de una población. entonces la población sí tiene un comportamiento normal. o el valor que más se repite en ella. formando una curva parecida a una campana. . de igualmente de ambos lados. Por lo general la mayor densidad de datos se encuentra en la parte central de la gráfica y cada que nos alejemos del centro va disminuyendo la frecuencia en que aparecen los datos. Podemos pensar que si estas tres medidas son muy parecidas entre sí. al ver las gráficas de frecuencias se puede observar fácilmente la tendencia a repetirse los valores en vecindarios. a lo que se llama comportamiento “normal”. o el valor que queda al centro de nuestra población los que nos pueden ayudar a ver que tan “normal” es nuestra distribución.Medidas de tendencia central Al ver las tablas de frecuencias se hizo evidente que algunos datos se repiten más que otros.

por lo que la Mediana = 145 x= ∑x N i = 15805 ≈ 146. las definiremos como: Moda Es el valor del dato que más se repite Mediana El valor que queda en la mitad de la muestra (después de ordenar los datos) Media Promedio aritmético de nuestros datos Para el ejemplo de las estaturas: Moda: En este caso son 143 y 145. la mediana y la moda.34 108 . es multimodal Mediana: n= (se cuentan los datos hasta llegar al dato 54) Media: N 108 = = 54 2 2 .Ahora estudiaremos estas medidas que se conocen como medidas de tendencia central que son la media aritmética. En datos no agrupados. vamos a ver cómo se diferencian para datos agrupados o sin agrupar.

Tabla de Distribución de Frecuencias de las estaturas de las niñas de 1° de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108 .

Calcular la moda. 5 26. 4 9. 4 16. 4 15. 0 38. la mediana y la media de los datos que se presentan a continuación Distribución de Frecuencias de la Duración en Servicio (en años) de los Profesores Universitarios Duración Frecuencia 1. 0 28. 6 Duración Frecuencia 11. 1 2. 2 Duración Frecuencia 21. 5 10. 5 18.Ejemplo 2. 2 22. 1 3. 1 4. 5 19. 1 23. 1 30. 1 27. 2 Duración Frecuencia 31. 4 17. 7 12. 1 24. 1 33. 1 29. 2 5. 5 8. 0 36. 7 13. 0 40. 0 32. 4 20. 1 25. 1 35. 0 37. 1 34. 5 7. 1 Total 100 . 1 6. 7 14. 1 39.

para este ejemplo: Moda: Mediana: Media: son 11.Entonces. 12 y 13 por lo que también es multimodal n= N 100 Mediana = 13 = = 50 2 2 ∑ xi = 1500 = 15 x= N 100 ¿Cómo puedes calcular la media usando los datos de las frecuencias? .

1 1 267.Tarea 2.9 1 243.3 1 256.3 232.8 1 260. Calcular la Moda.9 232.5 1 Dato Frecuencia 269. Mediana y Media de los siguientes datos y una tabla de frecuencias agrupadas usando 6 intervalos.5 237. Tabla de Distribución de Frecuencias de distancias alcanzadas por pelotas de golf nuevas Dato 223.5 1 258.4 1 264.6 1 247.3 1 249.4 226.2 1 252.4 Frecuencia 1 1 1 1 1 1 1 Dato Frecuencia 239.7 224.7 233.1 1 Total 25 .6 1 Dato Frecuencia 256.4 1 278.6 1 271.2 1 248.8 1 253.7 1 294.3 1 265.