You are on page 1of 41

Introduccin al Anlisis de Datos.

Ejemplos de Anlisis de Datos (en particular Anlisis de Regresin) aplicados a diferentes ramas del conocimiento.

Psicologa

Estudio de las capacidades de ortografa en nios de primaria

Neurobiologa

Estudio de Alzeihmer en ratones transgnicos

Economa

Estudio de los ciclos econmicos en el Noreste de Brasil

Economa

20,0 18,0 16,0 14,0 12,0 10,0 8,0 6,0 4,0 2,0 0,0 SK SI PL MT HU LT LV CY EE Mean CZ RO

Unemployment rate (% labour force 15+)

Anlisis de la disparidad regional en la fuerza laboral de Rumana

Administracin Pblica

Pronstico de la demanda de electricidad en Venezuela

Medicina

Estudio de infecciones pancreticas

Fsica

Estudio de las variaciones en la fuerza de los cojinetes

Medicina-Epidemiologa

Fig. 5: Invasive meningococcal disease. Incidence density in children under 1 year old according to municipalities. Cuba 1989-1994.

Estudio de la epidemiologa de enfermedades meningo-cocales en Cuba

Medicina-Farmacologa

Estudio de la resistencia de microbios a ciertos antibiticos

Tenis

Probabilidad de que un jugador(a) gane un juego en funcin de su differencia de ranking

Importancia de cada punto en la final Graff-Novotna de 1995

Ejemplos de estudios estadsticos problemticos: Yule(1926) descubri una relacin positiva muy estrecha entre la tasa de matrimonios realizados por la iglesia de Inglaterra y la tasa de mortalidad en el pas. En otro caso, usando datos de Inglaterra del siglo XIX, se encontr una alta correlacin entre el nmero de ministros religiosos ordenados y el nmero de nacimientos.

Ambos casos son resultado de estudios estadsticos serios Cal fue el problema?

Introduccin al Anlisis de Datos No es posible efectuar ningn tipo de anlisis de datos sin emplear las herramientas de la Estadstica. La Estadstica es una de las ramas de la matemtica con ms aplicaciones ya que prcticamente se usa en todos los mbitos del conocimiento humano. Se considera como su fundador a Godofredo Achenwall, profesor alemn (1719-1772), l y sus discpulos estructuraron los primeros mtodos estadsticos para estudiar las riquezas de las naciones. Los siguientes son algunos conceptos que se emplearn durante el curso y que se considera que los alumnos ya conocen (algunos se abordarn con mayor detalle y otros se volvern a definir). Estadstica Estadstica descriptiva Estadstica inferencial Dato Poblacin Muestra Variable Media Varianza Desviacin Estndar

Definicin de Estadstica Existen muchas definiciones dependientes de sus aplicaciones, pero en el fondo todas ellas coinciden de una u otra forma en el que es un mtodo Actualmente se divide a la Estadstica en dos grandes ramas: Estadstica Descriptiva Estadstica Inferencial. Si tenemos la posibilidad de conocer a todos y cada uno de los integrantes de una poblacin a la cual queremos estudiar, entonces usaremos los mtodos de la Estadstica Descriptiva, que incluye la obtencin, organizacin, presentacin y descripcin de la informacin numrica. Pero si no nos es posible conocer a toda la poblacin entonces tomaremos una muestra de ella, la estudiaremos y se sacarn conclusiones que se extrapolarn a toda la poblacin, para lo que se usarn los mtodos de la Estadstica Inferencial.

cientfico de operar con los datos y de interpretarlos.

Repaso del Concepto de Sumatoria La sumatoria se denota con el smbolo

Se usa para indicar una suma de trminos, por ejemplo:

i =1

xi

= x1 + x 2 + x 3 + ... + x n

Ejemplo: si queremos sumar los siguientes valores:

x1
3
3

x2
2
3

x3
4

x4
2
3

x5
1

x6
3

a)

xi = x2 + x3
i=2

xi = 2 + 4
i=2

xi = 6
i=2

b)

xi = x1 + x2 + x3 + x4 + x5 + x6
i =1

i =1

xi

= 3+ 2+ 4+ 2+1+ 3

i =1

xi

= 15

Actividad 1 Calcular las siguientes sumatorias: a)


i =1

xi =
x1
2.3

b) 2 xi =
i =1

c) 3( xi 4)
i =1

x2
3.5

x3
6.2

x4
7.1

x5
8.3

x6
10.4

x7
15.3

El diseo de un experimento se escapa de los objetivos del curso, por lo que vamos a omitir la parte que trata de la recopilacin de datos y a considerar que se tuvo cuidado de recopilar la informacin de manera que podamos confiar que los resultados que obtengamos van a ser vlidos. Algunos de los aspectos que se deben cuidar es que las caractersticas medidas sean mutuamente excluyentes para que un mismo individuo o elemento no pueda pertenecer a dos categoras o tener dos medidas, que si tomamos una muestra esta sea aleatoria, etc.

Organizacin y representacin de datos


Una vez obtenida la informacin, el paso siguiente es la organizacin y representacin de los datos. Ya que muchas veces los datos se nos dan en forma desordenada no es fcil ver si existen tendencias o notar cul es la extensin de la informacin. Es por ello que requerimos reorganizar la informacin y desplegarla en forma grfica. Un primer paso es ordenar los datos de mayor a menor y as podemos darnos cuenta de cules son los valores extremos, calcular la diferencia entre ellos, y ver si se repiten algunos valores.

Supongamos que se nos dan los siguientes datos: 30 11 42 8 30 18 25 25 17 30 29 21 23 25 15 35 26 13 21 36 Ordenndolos de menor a mayor tenemos lo siguiente: Tabla 1 Arreglo de los Ingresos (en dlares) obtenidos en un sbado por 20 . Estudiantes Universitarios 8 18 25 30 11 21 25 30 13 21 29 35 15 23 29 36 17 25 30 42 .

Una vez arreglados los datos podemos darnos cuenta del valor mnimo y mximo, as como del rango que es la diferencia entre estos valores:

r = 42 8 = 34

El siguiente paso es poner los datos en forma de tabla. Al elaborar tablas se debe tener cuidado en los siguientes aspectos: En los Ttulos los que se debe destacar el objeto del cuadro (qu, cmo, dnde y cundo) si es necesario se deben agregan notas con explicaciones. La Columna Principal es aquella en la que se anotan las categoras. En el encabezado de las columnas se debe explicar el objeto de cada una de las columnas El cuerpo es la parte que contiene la informacin. Las notas al pie deben tener por objeto aclarar ciertas operaciones que se utilizan en el cuadro; tambin se debe indicar en ellas las fuentes de informacin

Ejemplo: Tabla 2 TRANSPORTE AEREO NACIONAL DE PASAJEROS


Perodo 1997 1998 1999 2000 2001 2002 Pasajeros (en millones) 42 48 52 50 49 47 % de incrementos Base de ao Base de ao anterior 1997 14.28 8.33 -3.84 -2.00 -9.591 1.428 2.380 1.904 1.667 1.190

Diagramas de dispersin.
Otro paso preliminar conveniente en cualquier anlisis es desplegar los datos de forma grfica. Una forma de hacerlo rpidamente es por medio de los diagramas de dispersin. En este tipo de diagramas se ponen los datos uno a uno slo indicando su valor en el eje de las ordenadas (ys). De esta forma tenemos un panorama inmediato de la variacin de la informacin y sus posibles tendencias.

Ejemplo. Diagrama de Dispersin de las Estaturas de alumnas de 1 de Secundaria

Distribucin de frecuencias. Cuando los datos son numerosos, es conveniente agruparlos para que la informacin sea ms fcil de interpretar. El primer tipo de agrupacin se hace contando el nmero de veces que se repite cada valor, a lo que se le llama frecuencia.

Ejemplo: Datos de las estaturas en cm de las alumnas de 1 de Secundaria

152 157 153 154 147 150 151 149 142 157 145 152 143 151 144 148 138 139 145 137 146 155 141 148 154 154 162 142 159 152 140 131 143 158 139 145 149 142 137 147 146 138 139 139 159 140 143 142 125 153 160 144 152 148 146 158 143 137 144 152 131 150 149 144 151 139 137 144 143 154 145 153 157 146 147 158 138 132 137 139 143 132 142 146 143 136 149 151 152 141 154 143 145 144 158 140 147 145 144 150 145 145 146 148 149 153 155 159

Actividad 2. Ordenar los datos anteriores y anotar sus frecuencias.

Con los datos anteriores se van a formar lo que se conoce como una Tabla de Distribucin de Frecuencias, Frecuencias la cual se puede elaborar de la siguiente forma (cada quien tiene una manera de pelar un pollo): 1 se localizan los valores extremos 2 se escribe una secuencia de uno en uno del extremo inferior al superior 3 se van tachando de uno en uno los nmeros y se marca en la tabla cada tache en el nmero correspondiente hasta acabar con todos los nmeros 4 la frecuencia es el nmero total que aparece en cada nmero, que para determinarla solo se cuentan el nmero de taches que tiene cada uno de los nmeros

Tabla de Distribucin de Frecuencias de las estaturas de las nias de 1 de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108

Tabla de Distribucin de Frecuencias de Datos Agrupados


Con una distribucin de frecuencias podemos ya ver algunas caractersticas de los datos, pero no podemos tener una visin integral de su comportamiento. Para ello vamos a construir lo que se conoce como una tabla de distribucin de frecuencias de datos agrupados. Esto es agrupar datos en clases. Veamos algunas definiciones: Un Intervalo o clase es un subconjunto de todos los datos enmarcado entre dos valores. La Marca de clase se llama al valor intermedio del intervalo, es el que va a representar a todos los valores que caigan en el intervalo. Los datos anteriores pueden agruparse por intervalos de clases (pensemos en cajitas) e indicar el nmero de datos que contiene cada clase (frecuencia), de la forma similar a lo que hicimos en las grficas de barras. A esta distribucin se le llama distribucin de frecuencias agrupadas.

A continuacin se dan algunas sugerencias para construir este tipo de tabla 1. El nmero total de intervalos de clase no deber ser menor que 6 ni mayor de 20 para no perder la ventaja de visualizacin de los datos. 2. El nmero de intervalos deber aproximarse a la raz cuadrada del nmero total de datos 3. Los puntos medios o marcas de clase debern tener el mismo nmero de dgitos de los datos en bruto 4. La longitud del intervalo deber ser impar para que los extremos del intervalo no incluyan datos observados 5. Las marcas de clase debern ser fciles de manejar 6. La diferencia entre marcas de clase deber ser constante e igual a la longitud del intervalo

Ahora, para hacer la agrupacin de los datos se siguen los siguientes pasos: 1 se calcula el rango (R) que es la diferencia entre los valores extremos de los datos

R = X sup X inf
si ste no es entero se tiene que redondear al entero superior, Ejemplo (las estaturas): Si X sup = 162 y
X inf = 125

entonces R = 162 -125 = 37

2 Se elige el nmero de intervalos, debemos escoger el nmero de intervalos de clase entre 6 y 20, podemos tener una buena idea del nmero adecuado de intervalos aplicando la recomendacin de que

n= N

Ejemplo: Si N =108, entonces n = 108 10 , con lo que el intervalo quedara con la siguiente longitud R 36

i=

10

= 3.6 4

pero como no es impar se tiene que cambiar el nmero de intervalos

36 i = = 4 por lo que estaramos en la misma situacin Si usamos 9 intervalos, entonces 9 (no es impar), y tenemos que buscar otro nmero de intervalos.

36 = 4.5 5 y como es impar podemos usar ste Empleando 8 intervalos nos da i = 8 nmero de intervalos.

3 Una vez que se decidi el nmero de intervalos y la longitud de stos para empezar a formarlos vemos cul es el nuevo rango que nos da el nmero de intervalos multiplicado por la longitud, siendo en el caso del ejemplo

R = i n = 5(8) = 40
con lo que tenemos 4 elementos ms de los que tenamos originalmente y debemos decidir cmo distribuirlos, preferiblemente de manera equilibrada, es decir, en el caso del ejemplo dos al principio y dos al final, lo que hace necesario iniciar el conteo en 123 y terminar en 164. 4 Para asegurarnos de que ningn dato queda en los extremos de los intervalos nos moveremos media unidad. Para el ejemplo entonces vamos a empezar en 123.5 y terminaremos en 164.5

Actividad 3. Construir una tabla con las caractersticas anteriores usando los datos de las estaturas de nias de secundaria.

Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total

Marca de clase 126 131 136 141 146 151 156 161

Frecuencia Alumnos 1 4 9 24 29 22 14 5 N = 108

Histograma de Frecuencias Se llama Histograma de frecuencias a la grfica en la que en el eje de las abscisas se grafican los intervalos y en el de las ordenadas se grafican las frecuencias. Para nuestro ejemplo: Histograma de Frecuencias de las Estaturas de las Nias de 1 de Secundaria
29

24 22

14

5 4 1 126 131 136 141 146 151 156 161

Polgono de Frecuencias Se llama polgono de frecuencias a la poligonal que une los puntos medios de los extremos superiores de las barras (marcas de clase) empezando en una marca de clase antes y terminando una despus. Muchas veces se grafican el histograma y el polgono de frecuencia juntos, para lo cual se tiene que agregar a la tabla de distribucin de frecuencias agrupada la columna con las marcas de clase. Polgono de Frecuencias de las Estaturas de las Nias de 1 de Secundaria

30

15

121

126

131

136

141

146

151

156

161

166

Ojiva La ojiva es una grfica en donde en el eje de las abscisas se localizan las marcas de clase y en el de las ordenadas se localizan las frecuencias acumuladas o las acumuladas relativas. relativas Para lo cual se agrega a la tabla de frecuencias la columna de frecuencias acumuladas.

Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total

Marca de clase

Frecuencia Alumnos 1 4 9 24 29 22 14 5 N = 108

Frecuencias Acumuladas 1 5 14 38 67 89 103 108

126 131 136 141 146 151 156 161

Ojiva de Frecuencias Absolutas Acumuladas de las Nias de 1 de Secundaria

100

50

0 121 126 131 136 141 146 151 156 161

Para trazar la ojiva de frecuencias relativas (porcentaje) acumuladas se agregan dos columnas a la tabla de frecuencias, la de frecuencias relativas y la de frecuencias relativas acumuladas.

Intervalos de clase Estaturas en centmetros 123.5 -128.5 128.5 -133.5 133.5 -138.5 138.5 -143.5 143.5 -148.5 148.5 -153.5 153.5 -158.5 158.5 -163.5 Total

Marca de clase 126 131 136 141 146 151 156 161

Frecuencia Alumnos

Frecuencias Acumuladas

Frecuencias Frecuencias Relativas Relativas Acumuladas 0.01 0.04 0.08 0.22 0.27 0.20 0.13 0.05 0.01 0.05 0.13 0.35 0.62 0.82 0.95 1

1 4 9 24 29 22 14 5 N = 108

1 5 14 38 67 89 103 108

Ojiva de Frecuencias Relativas Acumuladas de las Nias de 1 de Secundaria

0.5

0 121 126 131 136 141 146 151 156 161

Medidas de tendencia central


Al ver las tablas de frecuencias se hizo evidente que algunos datos se repiten ms que otros, al ver las grficas de frecuencias se puede observar fcilmente la tendencia a repetirse los valores en vecindarios. Por lo general la mayor densidad de datos se encuentra en la parte central de la grfica y cada que nos alejemos del centro va disminuyendo la frecuencia en que aparecen los datos, de igualmente de ambos lados, formando una curva parecida a una campana, a lo que se llama comportamiento normal. En el ejemplo anterior se tiene un ligero sesgo positivo ( hacia la izquierda), pero para dar ms sentido a estas observaciones y poder hacer comparaciones con otras poblaciones se ide que se pueden medir el promedio de una poblacin, o el valor que ms se repite en ella, o el valor que queda al centro de nuestra poblacin los que nos pueden ayudar a ver que tan normal es nuestra distribucin. Podemos pensar que si estas tres medidas son muy parecidas entre s, entonces la poblacin s tiene un comportamiento normal, mientras ms se alejen entre ellas, ms lejos de un comportamiento normal estar nuestra poblacin.

Ahora estudiaremos estas medidas que se conocen como medidas de tendencia central que son la media aritmtica, la mediana y la moda, vamos a ver cmo se diferencian para datos agrupados o sin agrupar. En datos no agrupados, las definiremos como: Moda Es el valor del dato que ms se repite Mediana El valor que queda en la mitad de la muestra (despus de ordenar los datos) Media Promedio aritmtico de nuestros datos Para el ejemplo de las estaturas: Moda: En este caso son 143 y 145, es multimodal Mediana:

n=

(se cuentan los datos hasta llegar al dato 54) Media:

N 108 = = 54 2 2

, por lo que la Mediana = 145

x=

x
N

15805 146.34 108

Tabla de Distribucin de Frecuencias de las estaturas de las nias de 1 de Secundaria X Frecuencia X Frecuencia X Frecuencia 125 / 1 138 /// 3 151 //// 4 6 152 //// / 6 126 0 139 //// / 3 153 //// 4 127 0 140 /// 5 2 154 //// 128 0 141 // 5 155 // 2 129 0 142 //// 8 156 0 130 0 143 //// /// 7 157 /// 3 131 // 2 144 //// // 8 158 //// 4 132 // 2 145 //// /// 6 159 /// 3 133 0 146 //// / 4 160 / 1 134 0 147 //// 4 161 0 135 0 148 //// 5 162 / 1 136 / 1 149 //// 5 150 /// 3 137 //// Suman N = 108

Ejemplo 2. Calcular la moda, la mediana y la media de los datos que se presentan a continuacin
Distribucin de Frecuencias de la Duracin en Servicio (en aos) de los Profesores Universitarios

Duracin Frecuencia 1. 1 2. 1 3. 1 4. 2 5. 1 6. 5 7. 5 8. 4 9. 5 10. 6

Duracin Frecuencia 11. 7 12. 7 13. 7 14. 4 15. 4 16. 4 17. 5 18. 5 19. 4 20. 2

Duracin Frecuencia 21. 2 22. 1 23. 1 24. 1 25. 5 26. 1 27. 0 28. 1 29. 1 30. 2

Duracin Frecuencia 31. 0 32. 1 33. 1 34. 1 35. 0 36. 0 37. 0 38. 1 39. 0 40. 1 Total 100

Entonces, para este ejemplo:


Moda: Mediana: Media: son 11, 12 y 13 por lo que tambin es multimodal
n= N 100 Mediana = 13 = = 50 2 2 xi = 1500 = 15 x= N 100

Cmo puedes calcular la media usando los datos de las frecuencias?

Tarea 2. Calcular la Moda, Mediana y Media de los siguientes datos y una tabla de frecuencias agrupadas usando 6 intervalos.

Tabla de Distribucin de Frecuencias de distancias alcanzadas por pelotas de golf nuevas

Dato 223.7 224.4 226.9 232.3 232.7 233.5 237.4 Frecuencia 1 1 1 1 1 1 1

Dato Frecuencia 239.9 1 243.6 1 247.2 1 248.3 1 249.2 1 252.8 1 253.6 1

Dato Frecuencia 256.3 1 256.5 1 258.8 1 260.4 1 264.3 1 265.1 1 267.5 1

Dato Frecuencia 269.6 1 271.4 1 278.7 1 294.1 1 Total 25

You might also like