Professional Documents
Culture Documents
"ESTADSTICA DESCRIPTIVA"
d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas.
numricas, sin que puedan establecerse ninguna relacin de orden entre ellas,
por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. Escala ordinal: el carcter estudiado es de tipo no numrico, pero se
pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. Escala de intervalo: puede establecerse alguna unidad de medida y
cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. Escala de proporcin: son aquellas variables en las que adems de una
unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc.
variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero
total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de
los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues:
F i = !f j
j=1 i
acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal.
La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica:
Hi =
F i j=1 = n n
!f j
! fi = n
i
2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 fi n 3 La suma de las frecuencias relativas es 1:
! hi = 1
i
4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 hi n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato.
DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).
Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1 Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles.
Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li1,Li),
es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo
inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser:
ci =
EJEMPLO 1.1:
L i!1 + Li 2
Investigados los precios por habitacin de 50 hoteles de una ciudad, se han obtenido los siguientes resultados: 7000 8000 5000 10000 7000 7000 12000 3000 5000 7500 3000 4000 8000 8000 5000 5000 12000 4000 7000 7500 4000 500 8000 5000 5000 7000 5000 3000 4000 7000 4000 7500 7000 7000 5000 5000 7000 8000 4000 10000 3000 3000 10000 7000 7500 15000 5000 4000 7500 7000
Determinar la distribucin de precios: a) Sin agrupar en intervalos. b) Agrupadas en 5 intervalos de amplitud constante. Solucin: a) Precio (xi) en miles N de hoteles (fi) 3 5 4 7 5 10 7 11 7.5 8 6 5 10 3 12 2 15 1
b) Precio en intervalos [3000, 5500) [5500, 8000) [8000, 10500) [10500, 13000) [13000, 15500) marca de clase (xi) 4250 6750 9250 11750 14250 N de hoteles (fi) 22 17 8 2 1
10
EJEMPLO 1.2: Supongamos una variable X que presenta los siguientes valores : xi = { a, e, i, o, u } con las siguientes frecuencias: f1 = 1 f2 = 2 f3 =1 f4 = 3 correspondientes a las veces que aparecen dichas vocales en una frase. f5 = 3,
11
Solucin: Podemos presentar entonces la siguiente tabla: xi a e i o u fi 1 2 1 3 3 Fi 1 3 4 7 10 hi 0,1 0,2 0,1 0,3 0,3 Hi 0,1 0,3 0,4 0,7 1
FRECUENCIAS
i
VOCALES
Si lo que queremos representar son las frecuencias acumuladas, se procede igual que en el caso anterior con los ejes cartesianos y levantando sobre cada valor de la variable, una altura proporcional (igual) a la frecuencia acumulada, uniendo mediante trazos horizontales el extremo de cada coordenada con el siguiente; este diagrama recibe el nombre de diagrama de escalera (ver figura 1.2).
12
Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de tipo cualitativo, o en las de tipo cuantitativo discretas. 2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS NO AGRUPADAS EN INTERVALOS: Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los anteriores. Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):
13
FRECUENCIAS ACUMULADAS
10
i VOCALES
Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo o cuando es de tipo cuantitativo discreta.
3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS EN INTERVALOS Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de los rectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del intervalo; sta se puede representar por ai y vale pues:
f ai = i ci
14
La altura ai correspondera a la frecuencia correspondiente a cada unidad de medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de densidad de frecuencia del intervalo.
EJEMPLO 1.3: La distribucin del saldo de imposiciones en las Cajas de Ahorros viene dada en la tabla siguiente: Saldo 4-6,9 7-8,9 9-14,9 15-29,9 30-59,9 60-99,9 100 Representar el histograma correspondiente Solucin: Como los intervalos son de amplitud no constante, hay que calcular las alturas de los mismos, obtenindose la siguiente tabla: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0 N provincias 6 7 17 13 4 2 1
15
4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Para construir este grfico se levanta en el extremo superior de cada intervalo una ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. Suele utilizarse esta representacin sobre todo en el caso de que las frecuencias sean acumuladas. En este caso la altura correspondiente al extremo superior del ltimo intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son relativas.
EJEMPLO 1.4: El polgono de frecuencias acumuladas para el ejemplo estudiado de las distribuciones del saldo de las Cajas de Ahorros viene dado por el grfico que aparece en la figura 1.6:
16
En el caso de representar las frecuencias no acumuladas se procede de diferente forma, uniendo los puntos medios de los lados superiores de los rectngulos del histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios de las bases del primer y del ltimo rectngulo (ver figura 1.7).
Alturas
1 x 10 20 30 40 50 60 70 80 90 100 i
El rea del polgono cerrado resultante es igual al rea de los rectngulos formados mediante el histograma.
17
5 DIAGRAMA DE SECTORES Este caso, en una circunferencia se representan sectores circulares cuyo ngulo central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o relativa del elemento, representando, mediante colores o incluyendo dentro de dicho sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias agrupadas, como no agrupadas. Previamente hay que calcular los grados que corresponde a cada elemento multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el total de datos:
gi = f i
360 n
EJEMPLO 1.5: Obtener el grfico de sectores correspondiente a los datos anteriores de las cajas de ahorros: Solucin: intervalos 4 -6.9 7 -8.9 9 -14.9 15 -29.9 30 -59.9 60 -99.9 100 Total fi 6 7 17 13 4 2 1 50 alturas 2 3.5 2.8 0.8 0.1 0.05 0 Fi 6 13 30 43 47 49 50 hi 0.12 0.14 0.34 0.26 0.08 0.04 0.02 1.00 Hi 0.12 0.26 0.60 0.86 0.94 0.98 1.00 Grados 43.2 50.4 122.4 93.6 28.8 14.4 7.2 360.0
18
EJEMPLO 1.6: Los datos siguientes corresponden a gastos de inversin publicitaria en los pases de la C.E.E. durante el ao 1.986 PASES R.F.A INGLATERRA FRANCIA ESPAA HOLANDA ITALIA DINAMARCA BLGICA GRECIA IRLANDA INVERSIN (MILLONES $) 8.234 6.915 4.663 3.000 2.970 2.846 1.084 464 164 127
No se poseen datos de Portugal y Luxemburgo Representar el correspondiente diagrama de sectores Solucin: El grfico de sectores aparece en la figura 1.9:
19
R.F.A INGLATERRA FRANCIA ESPA A HOLANDA ITALIA DINAMARCA IRLANDA BELGICA GRECIA
En este grfico se observa que cuando ciertos datos presentan una frecuencia baja, en relacin con los dems, su sector circular seria no detectable visualmente, por lo que se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si es posible, indicando todos los elementos que lo forman.
6 PICTOGRAMAS Son dibujos alusivos a la distribucin que se pretende estudiar y que mediante su forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible, de la misma. Consideremos el siguiente ejemplo: EJEMPLO 1.7: Representar el pictograma correspondiente a la tabla de datos siuiente:
PASES BRASIL MJICO ARGENTINA VENEZUELA CHILE PERU COLOMBIA ECUADOR URUGUAY BOLIVIA PARAGUAY INVERSIN (MILLONES $) 101.750 100.000 50.300 35.880 20.690 14.300 13.430 7.540 4.990 3.340 1.890
20
Solucin:
BRASIL
MEXICO
ARGENTINA
VENEZUELA
En el caso anterior, el rea de la figura debe de ser proporcional a la frecuencia, aunque existe tambin la posibilidad de que una figura represente un nmero determinado de frecuencias, y entonces contenga este dato. Este tipo de representacin suele utilizarse en las distribuciones cualitativas, como por ejemplo en la siguiente:
EJEMPLO 1.8: El censo ganadero espaol, en el mes de Septiembre de 1.977, segn fuentes del Ministerio de Agricultura, era: GANADO BOVINO OVINO CAPRINO PORCINO EQUINO TOTAL Represente el correspondiente pictograma N DE CABEZAS
(EN MILES)
21
7 CARTOGRAMAS Son los grficos realizados sobre mapas, representando el carcter estudiado en ciertas regiones, sealando las zonas con distintos colores o tramas, poniendo de manifiesto las diferencias existentes entre las regiones del plano. Se suelen utilizar para representar densidades demogrficas de una nacin, la renta per capita, ndices de lluvia, etc.
8 DIAGRAMAS DE PERFIL RADIAL: Se toma un punto de partida y se trazan tantos radios como modalidades tenga la variable estudiada y despus, sobre estos radios, se toma una distancia al centro proporcional a la frecuencia de cada modalidad. Uniendo los puntos extremos de cada radio se obtiene un polgono cerrado, que es el perfil radial. En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):
22
Caprino Bovino
Porcino
Ovino
Figura 1.12: Perfil radial (Censo ganadero espaol)
9 DIAGRAMAS LINEALES Se utilizan para mostrar las fluctuaciones de un determinado carcter estadstico con el paso del tiempo. Interesa nicamente la altura de la lnea, referida a la base del diagrama, que se levanta con una longitud proporcional al valor del carcter estudiado en dicho mes. Con frecuencia se aprovecha para representar sobre la misma escala varios diagramas lineales muy relacionados entre s. Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.
1'9
MAYO
JUNIO
JULIO
AGOSTO
4'5
23
El grfico anterior (figura 1.13) reproduce un diagrama aparecido en DIARIO 16, que expresa la evolucin del IPC y la tasa de inflacin durante los nueve primeros meses del ao 1.987. A veces se unen en un mismo grfico varios grupos para considerarlos conjuntamente, compararles y observar donde las distribuciones coinciden o se separan, permitiendo as un anlisis grfico comparativo.
As, el grfico siguiente (figura 1.14) muestra los polgonos de frecuencias porcentuales correspondientes a las distribuciones de ingresos en familias de poblacin blanca y negra en los Estados Unidos.
% 14'0
2'0 0 1000$
2000$
5000$
10000$
15000$
25000$
50000$
24
25
EJEMPLO 1.9: Por ejemplo, sea la variable X que representa los pesos en kilogramos de 10 estudiantes y que presenta los valores: xi={ 54, 59, 63, 64 } con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media aritmtica. Solucin: La media aritmtica vendr dada por:
x=
En el caso de que las variables estuvieran agrupadas en intervalos no se podra utilizar dicha expresin, por no saber el valor exacto de la variable, usndose en este caso como xi la marca de clase del intervalo. Vemoslo con el siguiente ejemplo:
EJEMPLO 1.10: Consideraremos la siguiente tabla de distribucin de frecuencias: Intervalo 30-40 40-50 50-60 Total fi 3 2 5 10 Marca de clase 35 45 55
Calcular la media aritmtica de los datos Solucin: Resultar, segn la definicin dada, que
xf 35.3 + 45.2 + 55.5 x=! i i = = 47 n 10
26
No obstante, y dado que la media aritmtica est muy influenciada por los valores extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada una de stas, tal y como puede observarse en el siguiente ejemplo:
EJEMPLO 1.11: La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros campeonatos de liga de primera divisin correspondientes a las temporadas en que han participado en el mismo 20 equipos: Temporada 87-88 88-89 89-90 90-91 91-92 92-93 93-94 94-95 Calcular e interpretar la media aritmtica. Solucin: Calculada la media aritmtica se observa que es 917,75; no obstante, este valor es poco representativo de lo ocurrido en cada temporada, puesto que solamente en los aos 89-90 y 91-92 se obtuvo un nmero de goles prximo a dicho valor, mientras que en el resto de temporadas se obtuvieron bastantes ms ( 92-93, 93-94 y 94-95 ) o bastantes menos ( 87- 88, 88-89, 90-91). Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?, acaso hubo alguna ocasin en la que solamente penetr en la portera el 75% del baln?. Nmero de goles 909 868 921 822 913 954 989 966
27
PROPIEDADES DE LA MEDIA ARITMTICA: 1. La suma de las desviaciones de los valores de la variable respecto a su media es 0.
" x if i
! xn = nx ! xn = 0
2. Si a todos los valores de la variable les sumamos una constante k, la media aritmtica queda aumentada en esa constante. Si consideramos la distribucin ( xi + k, fi ) su media ser:
x' =
' ! xi i=1
fi = n
! (x i
i=1
+ k)
fi = n
! xi
i=1
k f fi + k! i = x + k n i= 1 n
3. Si a todos los valores de la variable los multiplicamos por una constante k, su media aritmtica queda multiplicada por esa constante. Para demostrar esta propiedad basta considerar la distribucin ( xik , fi ), su media ser:
k k k f f f x' ' = ! x'i' i = ! ( xi k ) i = k ! xi i = kx n i =1 n i= 1 i=1 n
4. Si a una variable X le efectuamos una transformacin lineal de la forma Y = aX + b, con a y b constantes, la media de la nueva variable queda afectada por dicha transformacin lineal:
y = ax + b
28
VENTAJAS E INCONVENIENTES Como ventajas de utilizar la media aritmtica como un promedio para sintetizar los valores de la variable podemos citar las siguientes: - Considera todos los valores de la distribucin. - Es siempre calculable (en variable cuantitativa). - Es nica.
Como inconvenientes de la utilizacin de la media aritmtica cabe citar que, a veces, puede dar lugar a conclusiones errneas, cuando la variable presenta valores muy extremos, que influyen mucho en la media, hacindola poco representativa.
xp = i= 1 k
! xi wi
i=1
! wi
xp = i= 1 k
! xi f iwi
i=1
! f iw i
29
EJEMPLO 1.12 Veamos un ejemplo de un estudiante que realiza tres exmenes de media hora, una hora y una hora y media respectivamente, obteniendo unas puntuaciones de 50, 80 y70. Por la duracin de los exmenes cabra atribuirles las ponderaciones de 1, 2 y 3 respectivamente. xi Ponderacin 50 1 80 2 70 3
Calcular la puntuacin media del alunno. Solucin: Obtendramos la siguiente media aritmtica ponderada:
x=
G = n x11 x 22 ! x kk
Tomando logaritmos quedara: log G =
k 1" $ ! f logx % i' n # i= 1 i &
Es decir, el logaritmo de la media geomtrica es la media aritmtica de los logaritmos de los valores. En su clculo se suele utilizar esta propiedad. Veamos, por ejemplo, cmo calcular la renta media durante varios periodos de tiempo.
30
EJEMPLO 1.13 Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y al 8% durante un tercero, cul es la renta media a la que est invertido el dinero durante los tres aos?. Solucin: Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir el 5%, pero la realidad es otra; en efecto: Teniendo en cuenta que:
Se verificar que
1 + r m = 3 (1 + r1)(1 + r 2 )(1 + r3 )
Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales, expresadas en tanto por uno, ms uno. En nuestro problema: 1 + r m = 3 1.03!1.05!1.08 = 1.0497 es decir, el rdito medio es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como pareca ser. Veamos otro ejemplo en el que interese utilizar logaritmos. EJEMPLO 1.14 Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente: Talla en cm. Frecuencia Calcular la talla media Solucin: La media geomtrica sera:
G=
22
100 10
120 5
125 4
140 3
100
10
31
log G =
La media geomtrica tiene una ventaja sobre la media aritmtica y es que es menos sensible a los valores extremos. Como inconvenientes principales sealar que tiene un significado estadstico menos intuitivo que la media aritmtica, su clculo es difcil y a veces no se puede calcular (si un valor de la variable es 0).
n A= k 1 ! fi i= 1xi
Como ventajas podemos mencionar que intervienen todos los valores de la variable y que, en ciertos casos, es ms representativa que la media aritmtica. Como inconvenientes hay que citar la gran influencia de los valores pequeos y que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para promediar velocidades, tiempos, etc.
EJEMPLO 1.15: Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos. En un sentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin circula a una velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.
32
Calcular la velocidad media del recorrido total debemos calcular la media armnica. Solucin: En este caso, si queremos calcular la velocidad media debemos calcular la media armnica.
v= espacio 2s = timpo t1 + t 2
Pero
RELACION ENTRE LAS MEDIAS La relacin existente entre estas tres medias es:
1.1.4.5 Mediana
Es el valor de la distribucin que, una vez ordenados los valores de la variable de menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor cuya frecuencia absoluta acumulada es n/2.
33
Si la distribucin est sin agrupar, y hay un n impar de trminos, la mediana ser el que ocupa la posicin central. Por ejemplo, si los valores de la variable son {1,2,3,4,5} la mediana sera Me = 3 N par de trminos
Pero si hay un n par de trminos habra dos trminos centrales y se toma como mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son {1 , 2 , 5 , 7 , 9 , 10 , 13 , 14} La mediana seria: M e =
7+9 =8 2
DATOS CON FRECUENCIAS Variable discreta Si los datos presentan diferentes frecuencias, el mtodo ms prctico es buscar en la columna de frecuencias acumuladas n/2.
34
Solucin:
n 35 = = 17.5 2 2
La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el de lugar 26 todos los valores son 7. Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi
Variable continua o datos agrupados en intervalos En el caso de estar la distribucin agrupada en intervalos (sean o no de la misma amplitud) al buscar el valor que ocupa el lugar n/2 nos encontramos con un intervalo, el intervalo mediano, y no con un dato. Para determinar un nico representante de dicho intervalo como mediana, determinaremos el elemento que en el polgono de frecuencias acumuladas toma de frecuencia n/2.
35
En el grfico de la figura 1.15 se observa la forma de determinar la mediana. La mediana vale: Me = Li-1 + m Como los tringulos ABC Y AB'C' son semejantes, resulta que:
n m 2 ! F i!1 = c i Fi ! Fi! 1
por lo tanto:
n ! Fi !1 2 m= ci fi
De lo anterior se deduce que la Mediana se calcula de la siguiente forma:
n ! Fi !1 Me = L i !1 + 2 ci fi
VENTAJAS E INCONVENIENTES Como ventajas de la mediana podemos citar que no est influida por los valores extremos como en el caso de la media, y adems tiene sentido en casos de distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms representativa de estos por describir la tendencia central de los mismos. Como inconvenientes puede ser la determinacin de sta en los casos de variables agrupadas en intervalos.
36
Clase 1 2 3 4 5
Salario anual 20000 a 25000 25000 a 30000 30000 a 35000 35000 a 40000 40000 a 45000
Solucin:
n 671 = = 335.5 , valor que nos indica que el salario anual mediano 2 2 pertenece a la tercera clase.
Tenemos que La amplitud del tercer intervalo es ci = 5000, luego:
Me = 30000 +
es decir, Me = 321375
1.1.4.6 Moda
Es el valor de la variable que ms veces se repite en una distribucin de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en intervalos, se procede de forma diferente:
DISTRIBUCIN SIN AGRUPAR EN INTERVALOS DE CLASE La moda es el valor ( o valores ) que presenten mayor frecuencia absoluta.
37
Observando la fila de frecuencias, se ve que Mo = 7 Puede ocurrir que una distribucin presente ms de una moda (bimodal, trimodal, etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las representaciones serian (ver figuras 1.16 y 1.17):
Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal
38
DISTRIBUCIN AGRUPADA EN INTERVALOS DE CLASE Si la distribucin est agrupada en intervalos, se proceder de forma diferente segn que la amplitud sea constante o no. Amplitud constante Si la amplitud es constante, la mxima frecuencia nos determina un intervalo, el intervalo modal, pero hay que seleccionar un valor de ese intervalo que haga el papel de moda. En este caso hay varios criterios: unos seleccionan el extremo inferior del intervalo, otros el extremo superior y otros la marca de clase, pero habr que tener en cuenta que la moda estar ms cerca del intervalo contiguo de mayor frecuencia.
Es claro que Mo = Li-1 + m . Veamos la determinacin de "m". Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos iguales, se puede establecer la proporcin:
39
PO AA' m d1 = ! = OQ + PO BB' +AA' ( c i " m ) + m d1 + d2 siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los
EJEMPLO 1.19: Calculemos la Moda de la siguiente distribucin: Intervalo 0 - 25 25 - 30 50 - 75 75 - 100 Total Frecuencia 20 40 100 60 220
60 25 = 50 + 15 = 65 60 + 40
Amplitud no constante Si la amplitud de los intervalos es variable, teniendo en cuenta que la altura del rectngulo indica la densidad de frecuencia, el intervalo modal ser el que tenga mayor densidad de frecuencia, es decir mayor altura.
40
fi 6 7 17 13 4 2 1 50
ci 3 2 6 15 30 40 --
Solucin: Primero se procede a buscar la mayor altura: ai = fi / ci Se contina como en el caso anterior sustituyendo la frecuencia por la altura. El intervalo modal es el 7-9, y por lo tanto: d1 = 3,5 - 2 = 1,5 d2 = 3,5 - 2,8 = 0,7 As la moda ser:
Mo = 7 +
VENTAJAS E INCONVENIENTES Como ventajas de la moda cabe citar que cuando la distribucin es de escala nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las otras medidas. Adems igual que la mediana, no viene influida por los valores extremos de la variable. Como inconveniente cabe citar el modo de calcularla en los casos de variables agrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.
41
Calculemos en un ejemplo la media aritmtica, la moda y la mediana de una distribucin para hacernos una idea de cul de ellas es la medida de centralizacin ms representativa en la situacin estudiada.
EJEMPLO 1.21: El sueldo anual de los 25 trabajadores de una empresa viene expresado en la tabla siguiente: Director Gerente Dos ingenieros Tres peritos Cinco encargados Contable Resto plantilla 10.000.000 pts. 6.000.000 pts. 4.000.000 pts. cada uno. 2.500.000 pts. cada uno. 2.000.000 pts. cada uno. 1.800.000 pts. cada uno. 1.300.000 pts. cada uno.
Calcular la media, la moda y la media y efectuar un estudio comparativo de los resultados. Solucin: Calculando la media aritmtica de los sueldos vemos que es de 2.356.000 pts. cantidad que, adems de no ser el sueldo de ningn empleado de la compaa, da una idea poco aproximada de la realidad, toda vez que la mayora de los trabajadores ganan bastante menos de esa cantidad. La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000 pts. Estas dos medidas indican ms claramente la situacin en la empresa, siendo la moda la que mejor resume la situacin.
42
Se procede pues buscando en las frecuencias acumuladas el valor de rn/k, y si la distribucin est agrupada, el cuantil r/k ser:
n ! F i!1 C r k = L i !1 + k ci fi r
43
VENTAJAS E INCONVENIENTES Las ventajas e inconvenientes son las mismas que los de la mediana.
EJEMPLO 1.22: En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4, P88 Solucin: Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000
P88 = 35000 +
88
44
x=
y=
Las dos medias son iguales y sin embargo las dos distribuciones son muy diferentes pues los valores de X estn mucho ms dispersa que los de Y. As pues, para intentar medir la representatividad de una determinada medida debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha medida. As pues, resulta necesario que, para completar la informacin de un promedio (por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que nos midan el grado de dispersin de la distribucin de la variable con respecto a l. Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.
45
RECORRIDO O RANGO: Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la distribucin:
Re = Max (xi) - Min (xi) Si este recorrido es pequeo respecto al nmero de datos puede entenderse que existe poca dispersin. Tiene el inconveniente de que se ve totalmente influenciado por los valores extremos (con los que se calcula).
RECORRIDO INTERCUARTLICO: Es la diferencia existente entre el tercer y el primer cuartil RI = Q3 - Q1 En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo tanto no se ve influenciado por los valores extremos, y nos indica la longitud del intervalo en el que estn el 50% central de los valores En algunos casos se utiliza el recorrido semiintercuartlico que se define como la mitad del recorrido intercuartlico. RSI = (Q3 -Q1)/2 DESVIACIN MEDIA: Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las anteriores; puede entenderse como la media de las desviaciones de los datos de la variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones positivas queden compensadas por las negativas y que esta desviacin media resulte igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la desviacin de los datos respecto del promedio. As se definir la desviacin media respecto de la media como:
46
k f D x = " xi ! x i n i=1
Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado, en el caso de que sta fuera grande el promedio sera poco representativo.
VARIANZA: Se define como la media de los cuadrados de las desviaciones de los valores de la variable respecto de la media aritmtica, es decir:
k k 2f 2 s2 = " ( xi ! x ) i = " (x i ! x) h i n i =1 i=1
Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nos indica la mayor o menor dispersin de los valores de la variable respecto de la media aritmtica, y por lo tanto, su representatividad. Tiene el inconveniente de no venir expresada en las mismas unidades que la variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.
DESVIACIN TPICA O ESTNDAR: Se define como la raz cuadrada positiva de la varianza, es decir:
s=
i =1
" ( x i ! x)
2 fi =
i =1
" (x i ! x) hi
2
Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo en la actualidad la ms utilizada.
47
A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1, obtenindose la llamada cuasivarianza:
2 2 s = " ( xi ! x ) i= 1 k
fi n !1
y cuasidesviacin tpica:
s=
i=1
" ( xi ! x )
2 fi
n !1
s2 =
n 2 s n !1
cuadrados: s2 0, s0
sumamos a todos los elementos una constante k, obtenemos otra n distribucin de variable x'i = xi + k .
i=1
s2 = " ( xi ! x )
2 fi
48
( i= 1
k
2f )2 fni = i" [( xi + k ) ! (x ! k )] ni = =1 k
k f = " ( xi ! x )2 i = s2 n i= 1
una constante, la varianza queda multiplicada por el cuadrado de la constante y la desviacin tpica queda multiplicada por la constante. En efecto: Si tomamos la distribucin x'' i = kx i teniendo en cuenta que x' = kx , resulta que la varianza de la nueva distribucin vale:
k k 2 fi f s' ' 2 = " x'i' ! x' ' = " ( kx i + kx) i = n i= 1 n i =1 k f = " k2 (xi ! x )2 i = k2 s2 n i =1
CLCULO PRCTICO DE LA VARIANZA* En la prctica, al calcular la varianza conviene tener en cuenta la siguiente expresin:
La media, la varianza y la desviacin tpica las proporciona directamente cualquier calculadora de bolsillo, luego nomerece la pena hacer perder tiempo al alumno escribiendo tablas con xifi etc.
49
s 2 = " ( xi ! x )
En el ejemplo de datos agrupados en intervalos es: Intervalo 30-40 40-50 50-60 marca de clase 35 45 55 fi 3 2 5 10
x = 470/10 = 47
S2 = 22850/10 -(47)2 = 2285 - 2209 = 76 S = 76 = 8,718
50
COEFICIENTE DE VARIACIN DE PEARSON: Es el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.
CV = s x
Este coeficiente es adimensional luego permite comparar las dispersiones de dos distribuciones diferentes. A menudo se le suele utilizar en forma de porcentaje, empleando CV =
s 100 x
Obviamente, a mayor CV menor es la representatividad de x , pues la desviacin tpica ser mayor comparada con la media.
1.1.7 Momentos
Existen dos tipos de momentos:
51
Se define el momento central de orden r respecto de la media aritmtica x como la media aritmtica de las potencias de orden r de las desviaciones de los datos respecto de la media:
m r = " (xi ! x )
i= 1
r fi
r fi a r = ! xr i i=1 n
52
Existe una relacin entre los dos momentos, que nos da una forma reducida de calcular la varianza:
s = m 2 = " (x i ! x)
2 i =1
2 fi
k 2f 2 2 = " x i i ! x = a 2 ! a1 n i =1 n
53
COEFICIENTE DE ASIMETRA DE FISHER Debemos buscar ahora una medida adimensional que recoja las desviaciones positivas y negativas de los valores respecto de la media. La figura 1.19 nos muestra las distintas distribuciones:
54
g =0
1
g >0
1
_ x
Distribucin simtrica
Mo
g <0
1
Mo
Dado que
i =1
" (x i ! x)
fi =0 n
hay que buscar una medida que venga influida por el signo; sta ser:
m 3 = " (x i ! x)
i =1
3 fi
ya que si la curva es simtrica m3 = 0 si la curva tiene asimetra positiva o a derechas, m3 > 0 si la curva tiene asimetra negativa o a izquierdas, m3 < 0 Para que no tenga dimensin debemos dividirla por una medida con las mismas unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.
55
m g1 = 33 = s
" (x i ! x) ni i =1
3f
Siendo su interpretacin: Si g1 > 0 la distribucin es asimtrica positiva o a derecha. Si g1 = 0 la distribucin es simtrica. Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.
COEFICIENTE DE ASIMETRA DE PEARSON Otra medida de asimetra es el coeficiente de asimetra de Pearson definido por:
Ap =
x ! Mo s
Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la distribucin es asimtrica positiva o a derechas x > Mo y si la distribucin es asimtrica negativa o a izquierdas x < Mo, su interpretacin ser: Ap = 0 la distribucin es simtrica. Ap > 0 la distribucin es asimtrica positiva (derechas) Ap < 0 la distribuciones asimtrica negativa (izquierdas) Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por ello Pearson demostr empricamente que
x ! Mo " 3( x ! Me)
por lo que algunos autores utilizan como coeficiente de asimetra de Pearson
Ap =
3( x ! Me) s
56
En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de apuntamiento o curtosis.
4f " ( xi ! x ) i k
m g 2 = 44 = i=1 s #k 2 x i ! x) ( " % $i =1
fi & n( '
57
Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica). Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocrtica). Si g2 < 3 la curva es menos apuntada que la normal (platicrtica). A veces se utiliza como coeficiente de curtosis:
m g 2 = 44 ! 3 s
y la comparacin ser con 0, obtenindose: g2 = 0 (mesocrtica). g2 > 0 (leptocrtica). g2 < 0 (platicrtica)
NOTA: El clculo de m3 y m4 es ms prctico utilizando las frmulas: m3 = a3 - 3a2a1 + 2a13 m4 = a4 - 4a3a1 + 6a2a12 - 3a14 siendo a1 = x .
58
Llamaremos, pues, concentracin al grado de equidad en el reparto de la suma total de la variable considerada. La concentracin es mxima si uno solo de los elementos recibe el total de la variable, mientras que la concentracin ser mnima o equidistribuida si todos los elementos perciben la misma cantidad. Entre los ndices de concentracin que estudiaremos se encuentran el ndice de Gini y la curva de Lorenz.
u r = ! xif i ,
i=1
pr =
Fr u 100 , q r = r 100 n n
Si representamos los valores pr en el eje de abscisas y los valores qi en el eje de ordenadas, dibujando en el cuadrado de lado 100 los puntos pi y qi, y unindolos, queda determinada una poligonal llamada "curva de Lorenz". Vemoslo en un ejemplo econmico (tengamos en cuenta que lo anterior no es aplicable a todo tipo de variables): Supongamos que tenemos k trabajadores, con salarios x1 x2 ... xk ordenados en sentido creciente. Queremos saber como se reparte la suma total de salarios
S = ! xi
i= 1
entre los k trabajadores. La concentracin es mxima si x1 = x2 = ........= xk-1 = 0; xk = S es decir, un solo trabajador recibe todo y el resto nada.
59
La concentracin es mnima si x1 = x2 = .........= xk, es decir, todos los trabajadores reciben lo mismo. Para determinar el ndice de concentracin se forman las columnas siguientes: 1- xifi que denota el salario recibido por los ni trabajadores. 2- Fi columna de frecuencia absolutas acumuladas. 3- ur, acumulador de la primera columna que denota el salario total recibido por los Fr primeros trabajadores, siendo su valor u r = ! xif i
i=1 r
F pr = r 100 n
5- qr, que es el porcentaje del salario total que reciben los Ni primeros trabajadores:
u q r = r 100 n
Si la concentracin fuese mnima, pr = qr igualmente repartida. Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100 La representacin de la curva de Lorenz sera:
60
Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):
qi %
qi %
(a)
pi %
(b)
pi %
Como propiedades de esta curva de Lorenz pueden citarse las siguientes: - La curva es siempre creciente, pues la ordenacin de salarios es de menor a mayor. - La curva empezar en el origen O = (0,0) y terminar en el (100,100)B - La curva est siempre situada por debajo de la diagonal. - La concentracin ser menor cuanto ms prxima est la curva de Lorenz a la diagonal.
k !1
61
Si la concentracin es mnima (pi = qi) vale 0 y si la concentracin es mxima (q1 = q2 =........= qk-1 = 0) vale 1. As pues el ndice de Gini varia de 0 a 1, siendo menor la concentracin y en consecuencia ms justa y equitativa la distribucin cuanto ms prximo est a cero, mientras que la concentracin ser mayor cuanto ms prximo est a 1 (Ver figura 1.23). Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de resumir en un solo nmero lo recogido en la curva de Lorenz, a veces, dos distribuciones de aspectos muy diferentes pueden tener dos ndices de concentracin de Gini iguales, como indican las curvas de la figura 1.23.
62
63
Quizs fuese interesante, presentar el tema de las representaciones grficas al alumno, mediante una introduccin desde la perspectiva del lenguaje grfico y de su utilidad y difusin en el mundo que nos rodea. Sera una buena forma de motivarle para que prestase atencin sobre la importancia de saber leer de forma correcta los grficos ms usuales.
64
Figura 1.24.- Importancia y actualidad del lenguaje grfico (Tomada de AVILA-ZARZA, 1993)
65
Figura 1.25: Billete de diez marcos alemanes, en el que est impresa la Curva Normal de Gauss
Tambin es posible encontrarlas ya en obras dirigidas al gran pblico, cuya nica intencin es entretener. As ocurre, por ejemplo, con la conocida novela de ficcin "Parque Jursico" (CRICHTON, M. 1990-92) en la que un Diagrama de perfil - (ver figura 1.26) sirve de base argumental.
Figura 1.26.
Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de datos.
66
Aunque en Espaa la Estadstica dista an de ocupar un lugar como el que, por ejemplo, tiene en un pas como Japn, donde los peridicos de mayor difusin e importancia incluyen los viernes una seccin dedicada al control estadstico de calidad y en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta mediante un clsico Steam and Leaf (ROMERO, 1991)* , somos en la actualidad espectadores de un cambio significativo. Cada vez en mayor medida se recurre a datos y anlisis estadsticos para transmitir la informacin, siendo los Mtodos Grficos de carcter descriptivo la herramienta de la que no se puede prescindir** . Un claro ejemplo de esta situacin de transicin, se produjo a raz de las elecciones generales realizadas en los dos ltimos comicios en nuestro pas, donde no slo los resultados de las encuestas, sino tambin los aspectos relacionados con aqullas eran objeto de anlisis estadstico, siendo los mtodos grficos las autnticas estrellas en la transmisin de la informacin.
Nos preguntamos, cuntos lectores en Espaa, sin y con conocimientos estadsticos bsicos podran ser capaces de interpretar uno similar...?. ** Todo ello ha motivado no sacrificar en el apartado de mtodos grficos la inclusin de aqullos, que an no siendo histricamente recientes, son an "grandes desconocidos". *** Provervio Chino
67
68
Sin embargo, y a pesar de esta controversia acerca de si el espacio perceptivo coincide con en el espacio matemtico eucldeo, es ste -por aproximacin al espacio fsico- el que generalmente utilizamos para representar el mundo. No obstante, representadas en un espacio Eucldeo, las cosas no son siempre aquello que parecen ser. Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien percibe".
ILUSIONES GEOMTRICAS Lo que acabamos de comentar se pone especialmente de manifiesto en las conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura 1.27a y b)
Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao (b): Ilusin de PoggendorfLas lneas oblicuas son colineales
Estas distorsiones perceptivas, conocidas ya a principios de siglo, deberan ser tenidas en cuenta en el contexto de los Mtodos Grficos. Son sin embargo pocos los estudios experimentales realizados que examinan el papel de las distorsiones perceptivas (ilusiones geomtricas) en relacin con la utilizacin de los grficos, y la mayora de ellos no son conocidos por el usuario medio, como afirman SPENCE & LEWANDOWSKY (1990). POULTON (1985) ha investigado ilusiones similares a la clsica de Poggendorf, mediante experimentos que sugieren que las relaciones de lneas inclinadas sobre los ejes vertical y horizontal de los grficos pueden producir errores de lectura, que se incrementan a medida que aumenta la distancia a los ejes.
69
SOLUCIONES PARA MITIGAR LAS ILUSIONES GEOMETRICAS POULTON (1985) propone: que los todos los grficos muestren los cuatro ejes. que todos los ejes estn graduados. INCONVENIENTES DE LAS REPRESENTACIONES GRFICAS Las representaciones grficas tienen ventajas, pero tambin sus inconvenientes. La frase "una imagen vale ms que mil palabras" podra cambiarse por esta otra "una imagen miente ms que 1000 nmeros" (SWOBODA, 1975). Las representaciones grficas deberan proporcionar con una sola mirada aquella idea del material estadstico que vena dada por la comparacin de muchos nmeros y datos. Pero... no siempre es as. Los errores y malentendidos surgen cuando el lector es distrado o no est suficientemente preparado y adquiere una idea que no se corresponde con los datos originales.
10000 9000 8000 7000 6000 9500
9000 I 9% 8% 7% 7500 6% I 5% I/II II/III II III (b) IV 8000 II (a) III IV 8500
III/IV (c) Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un crecimiento moderado. Los mismos datos pueden expresar un crecimiento explosivo y optimista (b). Se puede obtener una curva ascendente primero, y descendente despus si se toman los ndices de crecimiento de uno a otro perodo en lugar de los nmeros absolutos (c). (Adaptada de SWOBODA, 1975).
70
No se pueden juzgar nunca las imgenes solas, sino que siempre deben considerarse tambin los nmeros y las escalas.
1.2.3.2 Clasificacin
Existen diversos criterios para clasificar los mtodos de representacin grfica: SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan una clasificacin de los distintos mtodos grficos en tres grandes grupos: -Grficos utilizados en Anlisis Exploratorios. -Grficos usados en Anlisis Confirmatorios. -Grficos para la Comunicacin y/o Presentacin de los resultados.
71
Esta clasificacin de los Mtodos Grficos, resulta de un gran atractivo por su sencillez y didctica. En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo cientfico en donde tienen cabida las representaciones grficas.
Figura 1.29: Posible implementacin de los mtodos grficos en el proceso del Anlisis de Datos, segn NAGEL & DOBBERKAU (1988)
ALONSO (1982) realiza una clasificacin en funcin de la finalidad estadstica y las caractersticas tcnicas de los distintos mtodos grficos. En ella, stos son clasificados en cuatro grupos de tcnicas. -Tcnicas de Representacin Grfica de la distribucin de Probabilidad, para una o varias variables. -Tcnicas que proporcionan el Perfil (o evolucin) a lo largo del tiempo, o del espacio, etc., de una o varias variables, bien para individuos, bien para poblaciones. -Tcnicas que presentan las proximidades entre individuos y poblaciones, de acuerdo con los valores que toman para varias variables. -Tcnicas que permiten obtener grupos jerarquizados de individuos o poblaciones, en base a los valores que toman para varias variables.
72
En base al procedimiento grfico y la tcnica estadstica subyacente, en el Anlisis Multivariante pueden distinguirse claramente dos grandes grupos de tcnicas grficas: Mtodos Multivariantes Grficos (MMG). Mtodos Grficos Multivariantes (MGM). Los Mtodos Multivariantes Grficos son potentes herramientas de diagnosis basadas en el anlisis de grandes matrices de datos, que mediante complejos procesos algebraicos asentados sobre mtodos numricos, permiten representar la informacin del hiperespacio de partida en un subespacio de dimensiones reducidas. Evidentemente se trata de procedimientos sumamente interesantes, pero que escapan al contenido del presente captulo. Los Mtodos Grficos Multivariantes slo exigen efectuar una transcripcin geomtrica de los datos correspondientes a un conjunto de variables, en una representacin grfica. Este tipo de mtodos permiten resumir la informacin, y constituyen directamente un procedimiento grfico descriptivo. Entre ellos tenemos: Diagramas de Dispersin Mltiple. Figuras de Representacin (Grficos Pictoriales o Iconos). Curvas de Andrews. Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver figura 1.30)
73
se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes Mltiples, ms que multivariantes. Evidentemente, son muchas las posibilidades que permiten las representaciones univariantes en el anlisis de los datos correspondientes a varias variables. Sin embargo, estas representaciones no difieren en sus caractersticas de los mtodos grficos univariantes pero debido a su importancia, popularidad y utilizacin en todos los mbitos, merece la pena hacer referencia a tres tcnicas: Stem & leaf, Box-plot * Diagrama de dispersin** .
Diagrama de Dispersion Mltiple Grficos Pictoriales o Figurativos
Curvas de Andrews
Mapas Estadsticos
Figura 1.30: Algunos Mtodos Grficos Multivariantes (Tomado de AVILA-ZARZA (1993) con permiso del autor)
Ambos son mtodos grficos de gran utilidad en la comparacin de dos o ms series de datos, de ah su importancia dentro del anlisis multivariante ** Mediante esta representacin grfica es como generalmente se presentan los resultados en la mayora de los mtodos multivariantes grficos (MGM).
74
La representacin Stem & Leaf*** es una representacin intermedia entre una tabla y un grfico. Muestra los valores con cifras, aunque su perfil es el de un histograma. Este tipo de representacin se debe a TUKEY (1977). (Ver figura 1.31). Construccin de un diagrama Steam & Leaf 1.- Se debe escribir a la izquierda de una lnea vertical, de arriba hacia abajo, todos los posibles dgitos principales del conjunto de datos. 2.- Luego se representa cada dato a la derecha de la lnea, escribiendo sus dgitos secundarios en la fila apropiada. Lectura del grfico La longitud de cada fila nos muestra el nmero de valores en cada intervalo, por lo que representa esencialmente un histograma lateral, solventando una limitacin del histograma, ya que permite identificar los valores originales de cada intervalo.
La figura siguiente (figura 1.31) muestra el grfico Stem & leaf de los 50 estados de Estados Unidos ordenados segn la variable "voto medioambiental", cuyos datos aparecen en la tabla 1.1. Esta variable mide cmo la delegacin congresista de cada estado vot en relacin a temas de medioambiente durante el ao 1984. Refleja el porcentaje de veces que sus votos estuvieron de acuerdo con las recomendaciones del grupo "The League of Conservation Voters". As el valor de Idaho, 12, significa que el voto de sus representantes estuvo de acuerdo con la liga en el 12% de las ocasiones.
1 2 3 4 5 6 7 8 9
***
75
Se observa claramente cmo el rango del porcentaje vara desde 12 hasta 96. Tambin puede apreciarse como la distribucin es aproximadamente simtrica de modo que el valor mediano (siendo este valor 55%) se encuentra en el intervalo de 50 a 60
(opcionalmente puede indicarse poniendo entre parntesis el tallo correspondiente).
76
Estado Idaho Utah Alaska Wyoming Alabama Mississippi Virinia Nebraska Arizona Arkansas Texas Kansas Louisiana Kentucky N. Carolina Tennessee New Mexido Nevada S. Carolina Colorado Georgia Florida Oclahoma Oregon Indiana
Estado S. Dakota Illinois Montana Missouri Ohio Washington California N. Dakota Maryland Pnnsylvania Hawaii Delaware Michigan W. Virginia Minnesota New York Wisconsin New Hampsh. New Jersey Iowa Maine Connecticut Massachusetts Rhode Island Vermont
Tabla 1.1: Lista ordenada de los votos al congreso de los 50 Estados de EE.UU. en 1984: Porcentaje de acuerdo con "The League of Conservation Voters". (Tomado de HAMILTON, 1990)
Este mtodo tambin es de gran utilidad para la comparacin de dos o ms series de datos, como hemos dicho con anterioridad, representando un diagrama steam & leaf para cada serie. Box-plot Esta representacin grfica, tambin debida a TUKEY (1977), puede ser traducida como Caja con Bigotes o Representacin Caja, aunque se conoce usualmente con el nombre de Box-plot o bien Box and Whiskers plot. Es un mtodo grfico simple para resumir la informacin, proporcionando una rpida impresin de las caractersticas ms importantes de una distribucin.
77
Figura 1.32: Diagrama que muestra un Box-plot, en el que se indican los percentiles que son representados en el grfico
Esta representacin (Figura 1.32), consiste bsicamente en una caja dispuesta verticalmente que 'encierra' el recorrido intercuartlico; es decir, la lnea inferior indica el primer cuartil (25 percentil), y la lnea superior seala el tercer cuartil (75 percentil). Otra lnea intermedia marca el 50 percentil o Mediana as como su posicin relativa en relacin al rango intercuartlico. Los Whiskers (bigotes), o lneas que se prolongan verticalmente, marcan los valores extremos en algunos casos. En grandes conjuntos de datos, marcan el 10 y 90 e incluso 5 y 95 percentil. Usualmente, los 'bigotes' indican el 10 y 90 percentil, siendo sealados los puntos extremos o aberrantes ("Outliers"), con pequeos crculos o estrellas* . Una variante del mtodo anterior es la que se conoce con el nombre de Notched Box-plot (McGILL et al, 1978), y que puede observarse en la Figura 1.33; dicha variante no es ms que un 'Box-plot con muescas', siendo las muescas la indicacin del intervalo de confianza para la medida de tendencia central usada, es decir, la Mediana. Ambos mtodos son especialmente convenientes para comparar dos o ms conjuntos de datos.
*
Usualmente aparece as implementado en la mayora de los programas de ordenador, por ejemplo en el programa Stat-View 4.01 (ABACUS, 1993)
78
Figura 1.33: Diagrama de un Notched Box-plot, en el que se indica el nuevo valor que es representado.
En el grfico de la figura 1.34 podemos comparar la presencia (en porcentaje) una especie de lagartija (Podarcis muralis) en tres hbitats diferentes en la Sierra de Guadarrama (tomado de MARTIN-VALLEJO, 1990).
Figura 1.34: Comparacin, mediante Box Plot, del porcentaje que Podarcis muralis presenta en la ocupacin de tres tipos de hbitat en la Sierra de Guadarrama: Talud, Roquedo y Muro (A partir de los datos de MARTN VALLEJO, 1990).
79
Incluso en algunos programas combinan informacin en un mismo grfico, como puede observarse en el siguiente (figura 1.35) realizado con el JMP (SAS Institute Inc. 1989-94), en el cual adems de un Box-plot aparece la informacin sobre la media y su intervalo de confianza.*
Figura 1.35: Grfico obtenido con el programa JMP. Adems de un Box-plot aparece informacin sobre la media aritmtica y su intervalo de confianza.
Diagramas de dispersin Un Diagrama de puntos, ms conocido como Diagrama de Dispersin, es un mtodo simple pero eficiente para ilustrar un determinado comportamiento o bien analizar una distribucin en particular; su finalidad puede ser la de poner de manifiesto una relacin entre variables, analizar proximidades entre individuos y/o poblaciones, localizar outliers... Por ser un mtodo suficientemente conocido, no se realizar un estudio detallado de dicha representacin, si bien -dada su importancia- se comentarn algunas de las posibilidades que permite en el estudio de datos multivariantes. La informacin visual de un diagrama de dispersin puede ser incrementada mediante varias herramientas adicionales (CHAMBERS & KLEINER, 1982); por ejemplo, mediante un Box-plot paralelo marginal para cada variable. (Ver figura 1.36).
80
25 SA 20
.
AV
PASTIZAL
15 LE 10 BU 5 VA 0 0 10 SO
SG ZA P
20 BARBECHO
30
Figura 1.36: Diagrama de Dispersin, con Box Plot paralelo marginal, de la superficie de cultivo dedicada a Barbecho y Pastizal, en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
Para representar las relaciones entre ms de dos variables, una posibilidad es aadir una tercera, obteniendo as un Diagrama de Dispersin Tridimensional, como se muestra en la figura 1.37.
Figura 1.37: Diagrama de Dispersin Tridimensional, de la superficie de cultivo dedicada a Barbecho, Prado y Herbceo en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
81
Existen sistemas grficos de ordenador (SYSTAT, JMP, SPSS), que permiten mediante la opcin denominada 'SPIN'- la 'exploracin multivariante' de estas representaciones tridimensionales, al rotar la nube de puntos alrededor de cualquier eje en la pantalla, y visualizar de este modo todos los puntos, y sus posiciones relativas. El resultado puede llegar a ser realmente espectacular con el uso del color en la representacin. De acuerdo con los modernos Analistas de Datos (GABRIEL (1971) entre otros), esta importante innovacin grfica constituye una de las ms potentes tcnicas de anlisis visual de datos multivariantes existentes en la actualidad. Quizs sea sta la razn por la cual todos los nuevos 'paquetes grficos' que salen al mercado, incluyan esta opcin. Opcin, por otra parte, que ha sido posible por el desarrollo que en los ltimos tiempos han sufrido los ordenadores; el movimiento en tiempo real de la nube tridimensional exige operar con una gran cantidad de datos con potencia y rapidez.
Matriz de Diagramas de Dispersin Otra forma de representar relaciones entre ms de dos variables, es dibujando pares de variables mediante diagramas de dispersin, que son ordenados en una Scatterplot Matrix , o Matriz de Diagramas de Dispersin (figura 1.38), proporcionando de este modo, en una nica imagen visual, todos los pares posibles; todas las variables. Aunque cada diagrama por separado muestra tan slo dos dimensiones de los datos (no es posible detectar una variacin comn), en ocasiones esta representacin univariante mltiple puede ser efectiva en la deteccin de 'outliers', o patrones de los datos. Los Diagramas de Dispersin Mltiples, nombre con el cual tambin se conoce a este tipo de representacin, son anlogos grficos de las matrices de covarianzas o correlaciones utilizadas en la mayor parte de las tcnicas grficas multivariantes. En este sentido podran considerarse tcnicas grficas multivariantes.
82
Figura 1.38: Matriz de diagramas de dispersin de la superficie de cultivo dedicada a Barbecho, Prado, Herbceo y Pastizal en las provincias de Castilla y Len. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
MTODOS GRFICOS MULTIVARIANTES (MGM) Los Mtodos Grficos Multivariantes, como hemos apuntado con anterioridad, son mtodos que simplemente exigen efectuar una transcripcin geomtrica de los datos (correspondientes a un conjunto de n variables, n>2 ), en una representacin grfica. Constituyen directamente por ello un procedimiento descriptivo. Cmo podemos representar grficamente valores de ms de tres variables en una representacin grfica? Cuando los datos tienen ms de dos o tres dimensiones, la representacin grfica se hace complicada: las dimensiones del plano no son capaces de acoger un mayor nmero de variables que los que acoge la representacin cartesiana convencional, o la tridimensional; por lo tanto se requiere otro tipo de representacin. Existen diferentes mtodos para representar datos multivariantes, prcticamente tantos como autores se han ocupado del tema. No se realizar por ello una revisin exhaustiva ni una descripcin detallada de los MGM; solamente se enumerarn algunas de las tcnicas existentes en la actualidad, y nicamente se expondrn con cierto detalle las ms importantes y actuales que permiten la representacin grfica de entidades definidas por varias variables, como son las Caras de Chernoff (CHERNOFF, 1973), y las Curvas de Andrews (ANDREWS, 1972), o las Gotas de Fourier.
83
Como en todo Anlisis Multivariante, se parte de una matriz de datos que contiene la informacin de los valores que los individuos toman para cada una de las variables a estudiar, que ser la que se representar de forma grfica. Antes de representar dicha matriz pictricamente, debe cuestionarse cual ser el uso que se dar a dicha representacin, y el objetivo final de la misma; teniendo en cuenta, adems, que por lo general sern los individuos las entidades representadas. Todo ello en base a elegir el mtodo de representacin ms adecuado. La prctica totalidad de los Mtodos Grficos Multivariantes que se conocen, no son otra cosa que 'constructos pictricos', (tambin conocidos como grficos pictoriales o figurativos, o simplemente 'Iconos'), formados por elementos geomtricos (puntos, rectas, curvas, tringulos, crculos...) que varan en funcin de los valores que toman las variables en los individuos a los que representan. Algunos de los muchos MGM existentes, son los que aparecen esquematizados en la figura 1.39. (Tomada de AVILA-ZARZA, 1993). Entre los mtodos representados en esta figura, unos se caracterizan porque las variables se representan como longitudes de las componentes grficas; es el caso de los Polgonos o Estrellas (rayos circulares emanando de un origen comn), o los Glifos, (segmentos
que se extienden desde un crculo); la inclinacin de los ojos...),
las variables mediante caractersticas faciales (excentricidad de la cara, la curvatura de la boca o etc..
La mayora de las tcnicas se encuentran ya informatizadas, de modo que el investigador tan slo deber determinar el orden de asignacin de las variables para su construccin.
84
Grficos de veleta
Polgonos o estrellas
Glifos
Gotas de Fourier
Caras de Chernoff
Figura 1.39: Algunos tipos de Mtodos Grficos Multivariantes (tomada de AVILA-ZARZA, 1993)
Interpretacin de las representaciones grficas multivariantes Cada elemento de un icono no puede ser convertido al valor numrico; las transformaciones que en general suelen realizarse, son lo suficientemente complejas para que nosotros podamos interpretar esos valores mentalmente con la simple observacin visual de los mismos. La correcta interpretacin de estos mtodos consiste, fundamentalmente, en buscar grficos similares. Entidades con similares valores para las variables tendrn formas parecidas; y entidades con diferentes valores, presentaran formas diferentes. Esto nos permitir encontrar patrones de variacin similares, en contraposicin con otros tipos de patrn, y por tanto, por ejemplo, establecer grupos o 'Clusters'. Si se desea obtener informacin acerca de los valores de partida, deber volverse sobre los datos originales y examinar los valores correspondientes, y cmo estos determinan los grficos.
85
Polgonos o Estrellas Determinan perfiles configurados por segmentos que parten de un origen comn, y cuya longitud corresponde al valor que -para cada entidad- toma la variable a la cual dicho segmento representa. Las figuras 1.40 y 1.41, son un ejemplo de este tipo de representacin
VIOLACIONES ROBOS
Figura 1.40: Icono de estrella para la ciudad de New York mostrando la asignacin de las variables a cada segmento, para el ejemplo de la figura 1.41
Figura 1.41: Iconos de estrella representando los datos de la criminalidad en diversas ciudades de EE.UU. (datos originales de EVERITT, 1993).
86
Para hacer la representacin ms visible, los extremos de los segmentos pueden ser conectados entre si. El programa de ordenador SYSTAT (WILKINSON & EVANSTON, 1988), presenta los resultados (tras la aplicacin de este mtodo), mediante los polgonos que resultan de la conexin de estos segmentos, pero sin que los mismos aparezcan. Como en otros grficos figurativos, es conveniente ordenar las variables de tal manera que aquellas que estn correlacionadas aparezcan prximas.
Gotas o Manchas de Fourier Se trata de otro mtodo de representacin grfica multivariante (Ver figura. 1.42) Esta est determinada por la funcin de Fourier:
El resultado de esta transformacin es un conjunto de formas onduladas hechas a partir del seno y el coseno, que trasladadas a coordenadas polares, toman el parecido de manchas, gotas o amebas. Cada individuo vendr representado por una gota, de modo que podremos encontrar clusters de individuos "parecidos" cuando las gotas que los representan tengan una forma similar. La forma de las gotas dependen del orden de introduccin de las variables en la funcin de Fourier. La informacin contenida en las gotas de Fourier es la misma que la de las curva de Andrews (que veremos al final del captulo) pero con la ventaja de que no se solapan y pueden ser utilizadas como smbolos en otro tipo de representaciones grficas.
87
Avila
Burgos
Leon
Palencia
Salamanca
Segovia
Soria
Valladolid
Zamora
Figura 1.42: Gotas de Fourier representando las provincias de Castilla Len en cuanto a diferentes variables de produccin agraria. (A partir de los datos del Anuario de Estadstica Agraria, 1990)
Caras de Chernoff No se ra!. Estas son las primeras palabras con las que se presenta a los lectores este mtodo de representacin de datos multivariantes en el manual SYGRAPH, que trata de las representaciones grficas que el programa estadstico para ordenador SYSTAT permite realizar. Quizs porque sta suele ser la primera reaccin de los que desconociendo el mtodo, se encuentran de pronto con caras de rasgos caricaturizados en una ponencia o en un trabajo de investigacin; quizs para contrarrestar la aparente falta de seriedad (argumento esgrimido por sus detractores), que puede inducir a ms de uno a descartarlo sin haberlo tomado en consideracin.
Figura 1.43: Caras de Chernoff correspondientes a las provincias de Salamanca y Valladolid, epresentando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols., 1993)
88
El mtodo original, aparecido en el trabajo "Using faces to represent points in k-dimensional space graphically", que fue publicado en 1973 en Journal of the American Statistical Association, se debe a H. CHERNOFF, al que no le caus trauma alguno enfrentarse al reparo psicolgico que los investigadores pronto tuvieron con el mismo (ALONSO, 1982). CHERNOFF (1982) comenta, que buscaba un mtodo grfico sencillo que representara, de forma compacta, un nmero importante de variables, de forma que causase el mximo impacto en el observador, y permitiese un buen contraste y clasificacin de las entidades representadas. De entre todas las posibilidades, eligi las caras para aprovechar la capacidad de reconocimiento del observador humano, que puede discriminar muchas caras diariamente, y por el impacto o reaccin emocional que dichas caras provocan, lo que acenta su poder de captacin de atencin y su carcter nemotcnico. El principio heurstico de las caras de Chernoff est basado, pues, en la capacidad del hombre para reconocer, comparar y agrupar caras. Este procedimiento grfico, que requiere la utilizacin de un programa de ordenador para ser realizado, concentra la informacin de cada individuo en un rostro humano caricaturizado, cuyos rasgos reflejan cada una de las variables o "descriptores" (Figura 1.43). Originalmente, las caras estaban determinadas por 18 parmetros tales como la longitud de la nariz, el tamao de los ojos o la curvatura de la boca (CHERNOFF, 1973.). Los 18 parmetros o facciones que originalmente determinaban el dibujo de las Caras de CHERNOFF, son los que aparecen en la figura 1.44. Estos 18 parmetros son los que se hacen variar, reflejando as el comportamiento de cada una de las variables en todas las entidades o individuos (caras) representados. En la figura 1.45 se esquematiza la serie de parmetros que se hacen variar, lo que permite representar hasta 18 variables.
89
1. Anchura de la cara. 2. Nivel de la oreja. 3. Altura de la cara. 4. Excentricidad de la elipse superior cara. 5. Excentricidad de la elipse inferior cara . 6. Longitud de la nariz . 7. Posicin centro de la boca. 8. Curvatura de la boca. 9. Longitud de la boca. 10. Altura del centro de los ojos. 11. Separacin de los ojos. 12. Inclinacin de los ojos. 13. Excentricidad de los ojos . 14. Longitud ojo. 15. Posicin de las pupilas. 16. Altura de la ceja. 17. ngulo de la ceja. 18. Longitud de las cejas.
Figura 1.45: Parmetros de los Rasgos faciales de las Caras de Chernoff, segn BRUCKNER (1978). A.- Caras originales de CHERNOFF (1973). B.- Variante de DAVIS (1988), que incluye nariz y oreja
Las variaciones de los rasgos caricaturizados dan una apariencia concreta a la cara, que representa un punto en un espacio de 18 dimensiones. En espacios de dimensin menor, es decir, cuando el nmero de variables es menor que el de facciones, se asignan las variables a los primeros rasgos, tomando los rasgos restantes un valor constante para mantener la imagen facial completa (participan en las figuras sin variar), por ejemplo.
90
Cada variable estudiada se asigna a uno de los parmetros que controlan los rasgos, de forma que el valor del parmetro facial sea proporcional al valor que toma la variable en el individuo a representar. Para ello se deja variar el parmetro dentro de un rango de variabilidad preestablecido, de manera que la estructura global mantenga las caractersticas bsicas de una cara. Algunos parmetros faciales varan libremente (dimetro de la oreja), pero la mayora quedan supeditados a la exigencia anterior y dependen de otras caractersticas faciales. La asignacin de cada variable a cada parmetro facial es optativa. Hay usuarios del mtodo que prefieren efectuar una asignacin al azar, mientras que otros establecen una correspondencia intencionada.
Existen otras variantes de caras. La variante de Davis (BRUCKNER, 1978) aade dos variables ms (anchura de nariz y dimetro de orejas). (Ver figura 1.45). EVERITT, en 1978 introduce pelo y boca bidimensional, quizs con la intencin de que resulten menos caricaturescas. NEWTON (1978), dibuja sus caras con ojos rmbicos y nariz ganchuda, etc.
Un programa que permite representar la variante de Davis, es el programa CHER, implementado por ALONSO en colaboracin con M.A. Campos. Otros programas que implementan las Caras son: ASYM: Programa en Fortran. SCHPBACH (1984): Versin para IBM. PC. SAS-Macro con caras asimtricas. Aplicaciones Algunas aplicaciones que se pueden encontrar en la literatura, abarcan casos tan diversos como* :
* Caracterizacin de presas del Guadiana por sus variables ecolgicas (ALONSO, 1982). * Estudio de los resultados de las elecciones municipales en 27 poblaciones catalanas (ALONSO, 1982). * Estudio sobre la poltica sovitica en frica (WANG & LAKE, 1978).
*
Nos ha parecido apropiado incluir estas referencias para que el profesor tenga acceso a un material complementario al que se ofrece en este trabajo
91
* Estudio econmico de las grandes compaas petrolferas (BRUCKNER, 1978). * Clasificacin de tipos de enfermos mentales caracterizados por diversos test (MEZZICH & WORTHINGTON, op. cit.). * Asignacin de caras con distintas actitudes faciales a enfermedades mentales (JACOB, 78). * Agrupacin de distintas ciudades caracterizadas por variables demogrficas y ambientales (HUFF & BLACK, 1978). * Estudio de la polica secreta sovitica (WANG & LAKE 1978). * Estudio de los crteres de la Luna (PIKE, 1974) * Perfiles de la personalidad psiquitrica (MEZZICH & WORTHINGTON, op. cit.) * Variabilidad de Cultivos en la comunidad Castellano-Leonesa (VICENTE TAVERA y col., 1993). (Ver figura 1.46).
ASTURIAS CANTABRIA
VIZ CAYA
PALENCIA BURGOS
VALLA DOLID
SORIA
ZAMORA
GUADAL AJARA
CACE RE S
TOL EDO
Figura 1.46: Cartograma con Caras de Chernoff, correspondiente a las provincias de Castilla-Len, representando la variabilidad de cultivos. (Grfica cedida por VICENTE TAVERA y cols. 1993).
92
Ventajas e inconvenientes. Ventajas 1.- Facilidad de reconocimiento global de la informacin contenida en las caras; se trata de una caracterstica de la percepcin humana confirmada por diversos estudios experimentales. JACOB (1978) demostr que los sujetos sin preparacin o conocimiento de las variables representadas, pueden juzgar con caras con razonable exactitud 2.- Los datos representados pueden ser heterogneos y no se exige ninguna condicin estadstica. 3.- Con este mtodo resulta sencillo efectuar agrupaciones por similitudes de rasgos. 4.- Es una Tcnica que permite concentrar la informacin de todas las variables en una figura muy compacta. Tanto la asignacin intencionada de rasgos, como la subjetividad al seleccionar determinadas facciones para identificar similitudes, puede constituir una ventaja o una desventaja segn las exigencias del trabajo y del observador, ya que otros mtodos aparentemente neutros- tambin presentan riesgos de subjetividad. Diversos autores abogan por una estricta aleatoriedad en la asignacin de rasgos (ALONSO, 1982), as como efectuar diversas asignaciones para corroborar las agrupaciones, evitando as los posibles efectos subjetivos de la clasificacin. Otros, por el contrario, defienden la asignacin intencionada y aprovechar dichos factores subjetivos (HUFF & BLACK; 1978). Inconvenientes 1.- Necesidad de un dispositivo grfico y un programa. 2.- Prdida de informacin directa de los valores concretos de las variables (comn a la prctica totalidad de los MGM). 3.- Dificultad de reconocimiento, cuando se tiene un grupo muy numeroso de caras, o cuando existe un nmero elevado de variables. 4.- Interdependencia de los rasgos que hace que, cuando uno de ellos adopta un valor muy alto, puede modificar otros (que en principio deberan ser iguales a los presentados por otra cara no deformada por dicha interdependencia).
93
BRUCKNER (1978) sugiere la normalizacin de los rasgos (reducirlos a reas limitadas) para evitarlo. 5.- Existencia de rasgos que destacan ms que otros en la discriminacin, por lo que HUFF & BLACK (1978) recomiendan efectuar un anlisis de la varianza y asignar a los rasgos ms significativos (boca, ojos, anchura cara, etc.) las variables con mayor varianza. Una variable puede ser portadora de mayor informacin, si se representa por la curvatura de la boca, que por el tamao de las cejas. 6.- Debe tenerse precaucin a la hora de asignar los rangos de los parmetros faciales, pues si se eligen muy amplios y las variables tienen poca variabilidad no se obtiene discriminacin alguna . En cambio, si no se determinan correctamente los rangos de variabilidad de las variables, puede suceder que los rasgos se salgan de la cara. Curvas de Andrews. ANDREWS (1972) propone un tcnica muy simple, conocida como "Curvas de Andrews", para obtener una representacin visual de datos multivariantes, donde cada punto es representado en una suma de funciones trigonomtricas. Este mtodo, a caballo entre el perfil y la reduccin de la dimensin, consiste en representar a cada individuo, que presenta los valores muestrales (x1, ..., xk) de las variables consideradas, mediante un grafo de la funcin peridica:
f(t) =
para valores de t comprendidos entre - < t < . Este tipo de funciones son fcilmente trazables mediante un dispositivo grfico y un sencillo programa, obtenindose, para los individuos considerados, series de curvas que permiten la interpretacin posterior (Figura 1.47 y 1.48). Los clusters y puntos aberrantes, son revelados por el hecho de que las distancias entre dos funciones son concebidas proporcionales a la distancia eucldea de los objetos en el espacio p dimensional original, por la preservacin de la media y la desviacin. Interpretacin.
94
ANDREWS (1972), destaca el hecho de que cada curva recoge y resume informacin de todas las variables que afectan al individuo, de manera que las diferencias entre individuos para alguna de ellas debe resultar manifiesta en alguna parte de las respectivas curvas.
Figura 1.47: Curvas de Andrews de los porcentajes de nutrientes en distintos productos alimenticios. Recogidos por el Departamento de Agricultura de E.E. U.U.
4000 3000
COMPONENTE DE FOURIER
-90
0 GRADOS
90
180
Figura 1.48: Curvas de Andrews obtenidos por EVERITT, 1993 sobre la criminalidad de diecisis ciudades diferentes de EE.UU.
La conservacin de las distancias eucldeas originales para las curvas permite, segn el autor, afirmar que dos curvas similares a lo largo del recorrido de t corresponden a individuos prximos.
95
Por ello, al analizar un conjunto de curvas se deben buscar aquellos valores de t que permiten identificar o discriminar al mximo algunos grupos de ellos y efectuar, si se cumplen las condiciones necesarias, un contraste para la significacin de la agrupacin. Dado que la primera impresin de un conjunto numeroso de curvas (el autor desaconseja superar las 10) puede resultar desconcertante (figura 1.48), suele realizarse una representacin previa de varias curvas por separado (mejor si se tienen grupos de referencia), de forma que pueden identificarse dichos valores de t que permitan interpretar las proximidades de nuevas curvas que se vayan aadiendo. Como hay variables que estn asociadas a elementos cclicos de la funcin con distinta frecuencia y se discrimina mejor en las curvas las bajas frecuencias, es aconsejable colocar en los valores iniciales (x1, x2, ... ) aquellos correspondientes a las variables ms importantes en la discriminacin, es decir, las que reflejan ms variabilidad. Sin embargo, se carece de informacin acerca de la relacin concreta de las distintas crestas de la curva con los valores de las variables, al perderse toda la informacin directa.
BIBLIOGRAFIA CITADA ABACUS (1993). StatView 4.01. Berkeley. ALONSO, G. (1982). 'Nuevos mtodos de representacin grfica de datos multivariantes. Publicaciones de Bioestadstica y Biomatemtica . 5. Eunibar. Universidad de Barcelona. ANDREWS, D.F. (1972). 'Plots for high dimensional data'. Biometrika, 28: 125-136. ANSCOMBE, F.J. (1973). 'Graphs in statistical analysis'. American Statistician, 27: 17-21. ANUARIO DE ESTADISTICA AGRARIA (1990). Publicado por el Ministerio de Agricultura, Pesca y Alimentacin. Datos correspondientes a 1987. AVILA-ZARZA, C. (1993). Mtodos Grficos Multivariantes y su Aplicacin en las Ciencias de la Vida. Trabajo de Grado. Dpto. de Estadstica y Matemtica Aplicadas. Universidad de Salamanca. BRUCKNER, L.A. (1978). 'On Chernoff faces'. In Graphical Representation of Multivariate Data. (P.C.C. Wang, ed.). pp.: 93-121. Academic Press. CHAMBERS, J.M. & KLEINER, B. (1982). 'Graphical techniques for multivariate data & clustering'. In Handbook of Statistics. 2 (P.R. Krishnaiah, & L.N. Kanal, eds.) Nort-Holland P.C.
96
CHERNOFF, H. (1973). 'The use of faces to represent points in k-dimensional space graphically'. Journal of the American Statistical Association, 68: 361-368. CHERNOFF, H. (1982). 'Chernoff faces'. Encyclopedia of Statistical Sciences. I: 436-438. John Wiley & Sons. New York. CRICHTON, M. (1990-92). Parque Jursico. Ed. Plaza y Jans. DAVIS, F. (1988). La Comunicacin no Vergal. Alianza Editorial. Madrid. EVERITT, B.S. (1993). Cluster Analysis. (3rd. ed.). Halsted Press. New York. EVERITT, B.S. (1978). Graphical Techniques for Multivariate Data. Heinemann Educational Books. London. FIENBERG, S.E. (1977). 'Graphical methods in Statistics'. Tech. Report, 304. Dep. Appl. Statistics. University of Minnessota, 44. GABRIEL, K.R. (1971). 'The Biplot graphic display of matrices with applications to principal component analysis'. Biometrika, 58 : 453-467. GETE-ALONSO, J.C. y BARRIO, V. del (1990). Lenguaje Grfico. Alhambra. Madrid. HAMILTON, L.C. (1990). Modern Data Analysis. A First Course in Applied Statiscs. Brooks/Cole Publishing Company. California. HUFF, D.L. & BLACK, W. (1978). 'A multivariate graphic display for regional analysis'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JACOB, R.J.K. (1978). 'Facial representation of multivariate data'. In Graphical Representation of Multiaviate Data (P.C.C. Wang, ed.) pp.: 199-218. Academic Press. New York. JMP. (1989-94). SAS Institute Inc. MARTIN-VALLEJO, F.J. (1990). Uso del Espacio y del Tiempo en dos Especies Simptridas del Genero Podarcis (Wagler, 1830). Tesina de Licenciatura. Universidad de Salamanca. MEZZICH, J.E. & WORTHINGTON, D.R.L. (1978). 'A comparation of grpahical representation of multidimensional psychiatric diagnostic data'. In Graphical Representation of Multivariate Data (P.C.C Wang, ed.) pp.: 123-142. Academic Press. New York. McGILL, R.; TUFEY, J.W. & LARSEN, W.A. (1978). 'Variations of Box-plots' Amer. Stat., 32: 12-36. NAGEL, M. & DOBBERKAY, H.J. (1988). 'Graphical methods of exploratory data analysis: An overview'. In Classification and Related Methods of Data Analysis. Elsevier Science P.B.V. Holland. NEWTON, C.M. (1978). In Graphical Representation of Multivariate Data. (Wang, ed.) Academic Press. New York. PIKE, J. (1974). 'Craters on Earth, Moon and Mars: Multivariate clasification and mode of origin'. Earth and Planetary Science Letters, 22: 245-255. PINILLOS, J.L. (1973). La Mente Humana. Salvat. Pamplona. POULTON, E.C. (1985). 'Geometric illusions in reading graphs'. Perceptions and Psichophisics. 37: 543548. ROMERO-VILLAFRANCA, R. (1991). Estadstica: Proyecto de Innovacin Educativa. Dpto. de Estadstica e Investigacin Operativa. Universidad Politcnica de Valencia.
97
ROYSTON, E. (1970). 'Studies in the history of probability and Statistics. A note on the history of the graphical presentation of data'. Biometrika, 43 (3,4): 241; 247. SNEE, R.D. & PFEIFER, C.G. (1985). 'Graphical representation of data'. In Encyclopedia of Statistical Sciences. John Wiley & Sons. New York. SPENCE, I. & LEWANDOWSKY (1990). 'Graphical perception'. In Modern Methods of Data Analysis (J. Fox & J. Scott Long, eds.). Sage Publications. Newbury. SWOBODA, H. (1975). El Libro de la Estadstica Moderna. Ediciones Omega. Barcelona. TUKEY, J.W. (1962). 'The future of data analysis'. Ann. Math. Statist. 33: 1. TUKEY, J.W. (1977). Exploratory Data Analysis. M.A. Adisson-Wesley. Reading. VICENTE,S.; GALINDO, M.P.; VICENTE-VILLARDON, J.L.; MARTIN, A.; BARRERA, I. y FERNANDEZ-GOMEZ, M.J. (1993). 'Anlisis grfico y descripcin estructural de la variabilidad de cultivos en Castilla-Len'. Investigacin Agraria, Vol 8(3):315-329. VURPILLOT, E. (1979). 'Percepcin del espacio'. En La Percepcin (Fraisse & Piaget Eds.). Paids. Buenos Aires. WANG, P.C.C. & LAKE, G.E. (1978). 'Application of grpahical multivariate techniques in poligy sciences'. In Graphical representation of multivariate data (P.C.C. Wang, ed.) pp: 15-38. Academic Press. New York. WILKISON, & EVANSTON (1988-91). SYSTAT. SYSTAT Inc.
98
"REPRESENTACIONES GRFICAS"
99
1.3.1 Objetivo
En este trabajo se pretende aplicar los conceptos descritos en esta unidad temtica, utilizando para ello datos reales tomados de la evaluacin del profesorado universitario durante el curso acadmico 1991-92. Est planteado de forma que pueda ser utilizado como ejercicio de prcticas para los alumnos, como recapitulacin de las ideas de esta unidad.
Apartado 3.- Cinco preguntas relativas al dominio de la asignatura por parte del profesor que la imparte. Apartado 4.- Seis preguntas relativas a la interaccin del profesor con los alumnos. Apartado 5.- Tres preguntas relativas a los exmenes. Apartado 6.profesor. Tres preguntas relativas a la valoracin global del
Para cada uno de los profesores que imparte la asignatura, los alumnos deben rellenar un cuestionario en el que a cada una de las preguntas se le debe asignar una valoracin cuyo rango oscila entre 1 y 5; la puntuacin 1 indica que el profesor no satisface en modo alguno el supuesto de la pregunta y la puntuacin 5 que el profesor satisface plenamente el supuesto. La evaluacin se realiza en horas de clase normal, pasando el cuestionario a los alumnos que en dicho momento se encuentren en clase.
100
Trabajaremos sobre tres preguntas que consideramos importantes: La n 3 del cuestionario: "El profesor est accesible para sus alumnos fuera del horario de clase?" La n 7: "El profesor parece dominar la asignatura que imparte" La n 26: "Piensa que el Profesor que imparte esta asignatura es un buen Profesor" En este caso, vamos a trabajar sobre los resultados de la evaluacin docente obtenidos por un Profesor del Departamento de Estadstica y Matemtica Aplicadas de la Universidad de Salamanca, en las diferentes asignaturas que imparti durante el citado curso acadmico. A este profesor, le llamaremos de ahora en adelante "Mrs. X".
101
Frecuencia
Valor de la variable 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
4 6 2 4 0 16
17 23 19 18 26 103
Tabla 1.2
11 14 29 17 30 101
0 3 5 7 8 23
Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
(Libre dispos.)
0 0 0 4 12 16
2 3 3 10 85 103
Tabla 1.3
1 3 3 11 83 101
0 0 0 0 23 23
102
Frecuencia
Valor 1 2 3 4 5 ni
Ampliacin Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos
1 0 4 4 7 16
12 8 25 31 27 103
Tabla 1.4
2 7 21 35 36 101
0 0 1 7 15 23
A partir de la informacin suministrada por las tablas anteriores vemos cules han sido los tamaos de las muestras extradas de cada una de las 4 poblaciones en estudio (denotadas con ni (i=1,...,4)).
103
Si quisisemos comparar los resultados para las cuatro asignaturas, podramos presentar el grfico siguiente (figura 1.50):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.
30
frecuencia
20
10
0 1 2 3 PUNTUACION 4 5
A simple vista, parece que es para los alumnos de las asignaturas de Anlisis de
104
Datos y Ampliacin de Bioestadstica, para los que menos disponible est Mrs. X. Sin embargo, los grficos, por dar una informacin ms general que las tablas, son ms susceptibles a alteraciones, conscientes o no, que pueden inducir a error. El lector, debe fijarse atentamente en el grfico, y comprobar que en el eje de ordenadas se ha representado la frecuencia (nmero de alumnos que han dado una determinada puntuacin al profesor en relacin al tem considerado). Esto nos hace observar, con ms detenimiento, y teniendo en cuenta la informacin de las tablas de frecuencias, que el nmero de alumnos de cada muestra no es el mismo, por lo que la representacin de las frecuencias absolutas, no nos permite realizar comparaciones aceptables en dichos casos. Por lo tanto, sera ms conveniente, si lo que quisisemos es comparar las respuestas en las diferentes asignaturas que utilizsemos frecuencias relativas o porcentajes. As, con la utilizacin de stos ltimos, el diagrama de barras correspondiente sera el que se muestra a continuacin (figura 1.51):
Est accesible para los alumnos?
40 BIOESTAD. BIOEST. MED. AN. DATOS AMP. BIOEST.
30
porcentaje
20
10
0 1 2 3 PUNTUACION 4 5
Figura 1.51: Diagrama de barras comparativo para los porcentajes de cada asignatura
Fijmonos por ejemplo, en la puntuacin de 2: En el grfico de la figura 1.50, se observa que el mayor nmero absoluto de alumnos que dan dicha puntuacin son los de Bioestadstica de Biologa. Sin embargo, si nos fijamos en el grfico de la figura 1.51,
105
podemos observar cmo esa interpretacin debe hacerse con cautela, ya que el tamao de la muestra en cada caso es distinto, y as, son los alumnos de Ampliacin de Bioestadstica los que en trminos relativos dan con mayor frecuencia esa puntuacin. (23 de 103 alumnos de Bioestadstica de Biologa, dan una puntuacin de 2, mientras que en ampliacin de Bioestadstica son 6 de 16).
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 2,375 3,126 3,406 3,87 Desviacin estndar 1,147 1,439 1,336 1,058 Tabla 1.5 Coeficiente de variacin 48,314 46,046 39,211 27,332 Moda 2 5 5 5
Vemos cmo el valor medio de las puntuaciones obtenidas por Mrs. X es mayor
106
en la asignatura de anlisis de datos, siendo el valor medio ms pequeo el correspondiente a la asignatura de Ampliacin de Bioestadstica. Por lo tanto, parece que Mrs. X est ms accesible para los alumnos de la asignatura Anlisis de datos que para los de Ampliacin de Bioestadstica. La mayor variabilidad en la respuesta se da en los alumnos de Ampliacin de Bioestadstica (su coeficiente de variacin es 48.314%) y la menor en la de Anlisis de Datos. Excepto en la asignatura de Ampliacin de Bioestadstica, en la que la puntuacin ms frecuente ha sido 2, en el resto la puntuacin modal ha sido 5.
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4,75 4,68 4,703 5 Desviacin estndar 0,447 0,831 0,756 0 Tabla 1.6 Coeficiente de variacin 9,415 17,757 16,066 0 Moda 5 5 5 5
El anlisis de los resultados se hara de igual forma que en el caso anterior. En este caso, cabe destacar la opinin de los alumnos de la asignatura Anlisis de Datos, ya que todos, sin excepcin han dado la mxima puntuacin al profesor Mrs. X. "Es un buen profesor?"
Descriptiva bsica
Asignatura
Ampliacin de Bioestadstica Bioestadstica (Biologa) Bioestadstica (Medicina) Anlisis de Datos n 16 103 101 23 Media 4 3,515 3,95 4,609 Desviacin estndar 1,155 1,282 1,014 0,583 Tabla 1.7 Coeficiente de variacin 28,868 36,486 25,659 12,651 Moda 5 4 5 5
107
En el siguiente grfico (figura 1.52), se han representado las puntuaciones medias para cada asignatura y para cada tem analizado: A la vista de los resultados obtenidos, tras el anlisis descriptivo de los datos, podemos observar cmo los alumnos de las cuatro asignaturas, dan a Mrs. X la mayor puntuacin en el tem de Domina la asignatura? y la menor en el tem Est accesible?.
Figura 1.52
Como hemos apuntado con anterioridad, cualquier paquete estadstico estndar permite realizar una representacin grfica de tipo Box-plot. La figura 1.53 representa los "Box-Plot" para la pregunta "Est accesible para los alumnos?" . Aqu se ha representado un Box-Plot para cada asignatura.
108
5,5 5 4,5 4 3,5 Units 3 2,5 2 1,5 1 ,5 Bioestadstica Bioest Medicina Anlisis datos Ampliacin Bioest.
Figura 1.53: Box plot para los resultados a la pregunta Est accesible a los alumnos?
NOTA: Tal como sealamos, se trata de datos reales, y el Profesor Mrs. X lleva realmente el mismo sistema de atencin para todos los alumnos. Refleja por tanto la "percepcin del alumno", ya que no existan diferencias reales.