Professional Documents
Culture Documents
Ejemplos de Anlisis de Datos (en particular Anlisis de Regresin) aplicados a diferentes ramas del conocimiento.
Psicologa
Neurobiologa
Economa
Economa
20,0 18,0 16,0 14,0 12,0 10,0 8,0 6,0 4,0 2,0 0,0 SK SI PL MT HU LT LV CY EE Mean CZ RO
Administracin Pblica
Medicina
Fsica
Medicina-Epidemiologa
Fig. 5: Invasive meningococcal disease. Incidence density in children under 1 year old according to municipalities. Cuba 1989-1994.
Medicina-Farmacologa
Tenis
Ejemplos de estudios estadsticos problemticos: Yule(1926) descubri una relacin positiva muy estrecha entre la tasa de matrimonios realizados por la iglesia de Inglaterra y la tasa de mortalidad en el pas. En otro caso, usando datos de Inglaterra del siglo XIX, se encontr una alta correlacin entre el nmero de ministros religiosos ordenados y el nmero de nacimientos.
Ambos casos son resultado de estudios estadsticos serios Cal fue el problema?
Introduccin al Anlisis de Datos No es posible efectuar ningn tipo de anlisis de datos sin emplear las herramientas de la Estadstica. La Estadstica es una de las ramas de la matemtica con ms aplicaciones ya que prcticamente se usa en todos los mbitos del conocimiento humano. Se considera como su fundador a Godofredo Achenwall, profesor alemn (1719-1772), l y sus discpulos estructuraron los primeros mtodos estadsticos para estudiar las riquezas de las naciones. Los siguientes son algunos conceptos que se emplearn durante el curso y que se considera que los alumnos ya conocen (algunos se abordarn con mayor detalle y otros se volvern a definir). Estadstica Estadstica descriptiva Estadstica inferencial Dato Poblacin Muestra Variable Media Varianza Desviacin Estndar
Definicin de Estadstica Existen muchas definiciones dependientes de sus aplicaciones, pero en el fondo todas ellas coinciden de una u otra forma en el que es un mtodo Actualmente se divide a la Estadstica en dos grandes ramas: Estadstica Descriptiva Estadstica Inferencial. Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una poblacin a la cual queremos estudiar, entonces usaremos los mtodos de la Estadstica Descriptiva, que incluye la obtencin, organizacin, presentacin y descripcin de la informacin numrica. Pero si no nos es posible conocer a toda la poblacin entonces tomaremos una muestra de ella, la estudiaremos y se sacarn conclusiones que se extrapolarn a toda la poblacin, para lo que se usarn los mtodos de la Estadstica Inferencial.
i =1
xi
= x1 + x 2 + x 3 + ... + x n
x1
3
3
x2
2
3
x3
4
x4
2
3
x5
1
x6
3
a)
xi = x2 + x3
i=2
xi = 2 + 4
i=2
xi = 6
i=2
b)
xi = x1 + x2 + x3 + x4 + x5 + x6
i =1
i =1
xi
= 3+ 2+ 4+ 2+1+ 3
i =1
xi
= 15
xi =
x1
2.3
b) 2 xi =
i =1
c) 3( xi 4)
i =1
x2
3.5
x3
6.2
x4
7.1
x5
8.3
x6
10.4
x7
15.3
El diseo de un experimento se escapa de los objetivos del curso, por lo que vamos a omitir la parte que trata de la recopilacin de datos y a considerar que se tuvo cuidado de recopilar la informacin de manera que podamos confiar que los resultados que obtengamos van a ser vlidos. Algunos de los aspectos que se deben cuidar es que las caractersticas medidas sean mutuamente excluyentes para que un mismo individuo o elemento no pueda pertenecer a dos categoras o tener dos medidas, que si tomamos una muestra esta sea aleatoria, etc.
Supongamos que se nos dan los siguientes datos: 30 11 42 8 30 18 25 25 17 30 29 21 23 25 15 35 26 13 21 36 Ordenndolos de menor a mayor tenemos lo siguiente: Tabla 1 Arreglo de los Ingresos (en dlares) obtenidos en un sbado por 20 . Estudiantes Universitarios 8 18 25 30 11 21 25 30 13 21 29 35 15 23 29 36 17 25 30 42 .
Una vez arreglados los datos podemos darnos cuenta del valor mnimo y mximo, as como del rango que es la diferencia entre estos valores:
r = 42 8 = 34
El siguiente paso es poner los datos en forma de tabla. Al elaborar tablas se debe tener cuidado en los siguientes aspectos: En los Ttulos los que se debe destacar el objeto del cuadro (qu, cmo, dnde y cundo) si es necesario se deben agregan notas con explicaciones. La Columna Principal es aquella en la que se anotan las categoras. En el encabezado de las columnas se debe explicar el objeto de cada una de las columnas El cuerpo es la parte que contiene la informacin. Las notas al pie deben tener por objeto aclarar ciertas operaciones que se utilizan en el cuadro; tambin se debe indicar en ellas las fuentes de informacin
Diagramas de dispersin.
Otro paso preliminar conveniente en cualquier anlisis es desplegar los datos de forma grfica. Una forma de hacerlo rpidamente es por medio de los diagramas de dispersin. En este tipo de diagramas se ponen los datos uno a uno slo indicando su valor en el eje de las ordenadas (ys). De esta forma tenemos un panorama inmediato de la variacin de la informacin y sus posibles tendencias.
Distribucin de frecuencias. Cuando los datos son numerosos, es conveniente agruparlos para que la informacin sea ms fcil de interpretar. El primer tipo de agrupacin se hace contando el nmero de veces que se repite cada valor, a lo que se le llama frecuencia.
152 157 153 154 147 150 151 149 142 157 145 152 143 151 144 148 138 139 145 137 146 155 141 148 154 154 162 142 159 152 140 131 143 158 139 145 149 142 137 147 146 138 139 139 159 140 143 142 125 153 160 144 152 148 146 158 143 137 144 152 131 150 149 144 151 139 137 144 143 154 145 153 157 146 147 158 138 132 137 139 143 132 142 146 143 136 149 151 152 141 154 143 145 144 158 140 147 145 144 150 145 145 146 148 149 153 155 159
Con los datos anteriores se van a formar lo que se conoce como una Tabla de Distribucin de Frecuencias, Frecuencias la cual se puede elaborar de la siguiente forma (cada quien tiene una manera de pelar un pollo): 1 se localizan los valores extremos 2 se escribe una secuencia de uno en uno del extremo inferior al superior 3 se van tachando de uno en uno los nmeros y se marca en la tabla cada tache en el nmero correspondiente hasta acabar con todos los nmeros 4 la frecuencia es el nmero total que aparece en cada nmero, que para determinarla solo se cuentan el nmero de taches que tiene cada uno de los nmeros
Tabla de Distribucin de Frecuencias de las estaturas de las nias de 1 de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108
A continuacin se dan algunas sugerencias para construir este tipo de tabla 1. El nmero total de intervalos de clase no deber ser menor que 6 ni mayor de 20 para no perder la ventaja de visualizacin de los datos. 2. El nmero de intervalos deber aproximarse a la raz cuadrada del nmero total de datos 3. Los puntos medios o marcas de clase debern tener el mismo nmero de dgitos de los datos en bruto 4. La longitud del intervalo deber ser impar para que los extremos del intervalo no incluyan datos observados 5. Las marcas de clase debern ser fciles de manejar 6. La diferencia entre marcas de clase deber ser constante e igual a la longitud del intervalo
Ahora, para hacer la agrupacin de los datos se siguen los siguientes pasos: 1 se calcula el rango (R) que es la diferencia entre los valores extremos de los datos
R = X sup X inf
si ste no es entero se tiene que redondear al entero superior, Ejemplo (las estaturas): Si X sup = 162 y
X inf = 125
2 Se elige el nmero de intervalos, debemos escoger el nmero de intervalos de clase entre 6 y 20, podemos tener una buena idea del nmero adecuado de intervalos aplicando la recomendacin de que
n= N
Ejemplo: Si N =108, entonces n = 108 10 , con lo que el intervalo quedara con la siguiente longitud R 36
i=
10
= 3.6 4
36 i = = 4 por lo que estaramos en la misma situacin Si usamos 9 intervalos, entonces 9 (no es impar), y tenemos que buscar otro nmero de intervalos.
36 = 4.5 5 y como es impar podemos usar ste Empleando 8 intervalos nos da i = 8 nmero de intervalos.
3 Una vez que se decidi el nmero de intervalos y la longitud de stos para empezar a formarlos vemos cul es el nuevo rango que nos da el nmero de intervalos multiplicado por la longitud, siendo en el caso del ejemplo
R = i n = 5(8) = 40
con lo que tenemos 4 elementos ms de los que tenamos originalmente y debemos decidir cmo distribuirlos, preferiblemente de manera equilibrada, es decir, en el caso del ejemplo dos al principio y dos al final, lo que hace necesario iniciar el conteo en 123 y terminar en 164. 4 Para asegurarnos de que ningn dato queda en los extremos de los intervalos nos moveremos media unidad. Para el ejemplo entonces vamos a empezar en 123.5 y terminaremos en 164.5
Actividad 3. Construir una tabla con las caractersticas anteriores usando los datos de las estaturas de nias de secundaria.
Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total
Marca de clase 126 131 136 141 146 151 156 161
Histograma de Frecuencias Se llama Histograma de frecuencias a la grfica en la que en el eje de las abscisas se grafican los intervalos y en el de las ordenadas se grafican las frecuencias. Para nuestro ejemplo: Histograma de Frecuencias de las Estaturas de las Nias de 1 de Secundaria
29
24 22
14
Polgono de Frecuencias Se llama polgono de frecuencias a la poligonal que une los puntos medios de los extremos superiores de las barras (marcas de clase) empezando en una marca de clase antes y terminando una despus. Muchas veces se grafican el histograma y el polgono de frecuencia juntos, para lo cual se tiene que agregar a la tabla de distribucin de frecuencias agrupada la columna con las marcas de clase. Polgono de Frecuencias de las Estaturas de las Nias de 1 de Secundaria
30
15
121
126
131
136
141
146
151
156
161
166
Ojiva La ojiva es una grfica en donde en el eje de las abscisas se localizan las marcas de clase y en el de las ordenadas se localizan las frecuencias acumuladas o las acumuladas relativas. relativas Para lo cual se agrega a la tabla de frecuencias la columna de frecuencias acumuladas.
Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total
Marca de clase
100
50
Para trazar la ojiva de frecuencias relativas (porcentaje) acumuladas se agregan dos columnas a la tabla de frecuencias, la de frecuencias relativas y la de frecuencias relativas acumuladas.
Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total
Marca de clase 126 131 136 141 146 151 156 161
Frecuencia Alumnos
Frecuencias Acumuladas
Frecuencias Frecuencias Relativas Relativas Acumuladas 0.01 0.04 0.08 0.22 0.27 0.20 0.13 0.05 0.01 0.05 0.13 0.35 0.62 0.82 0.95 1
1 4 9 24 29 22 14 5 N = 108
1 5 14 38 67 89 103 108
0.5
Ahora estudiaremos estas medidas que se conocen como medidas de tendencia central que son la media aritmtica, la mediana y la moda, vamos a ver cmo se diferencian para datos agrupados o sin agrupar. En datos no agrupados, las definiremos como: Moda Es el valor del dato que ms se repite Mediana El valor que queda en la mitad de la muestra (despus de ordenar los datos) Media Promedio aritmtico de nuestros datos Para el ejemplo de las estaturas: Moda: En este caso son 143 y 145, es multimodal Mediana:
n=
N 108 = = 54 2 2
x=
x
N
Tabla de Distribucin de Frecuencias de las estaturas de las nias de 1 de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108
Ejemplo 2. Calcular la moda, la mediana y la media de los datos que se presentan a continuacin
Distribucin de Frecuencias de la Duracin en Servicio (en aos) de los Profesores Universitarios
Duracin Frecuencia 11. 7 12. 7 13. 7 14. 4 15. 4 16. 4 17. 5 18. 5 19. 4 20. 2
Duracin Frecuencia 21. 2 22. 1 23. 1 24. 1 25. 5 26. 1 27. 0 28. 1 29. 1 30. 2
Duracin Frecuencia 31. 0 32. 1 33. 1 34. 1 35. 0 36. 0 37. 0 38. 1 39. 0 40. 1 Total 100
Tarea 2. Calcular la Moda, Mediana y Media de los siguientes datos y una tabla de frecuencias agrupadas usando 6 intervalos.