You are on page 1of 12
8. VARIABLES NUMERICAS: LA DISTRIBUCION NORMAL Los capitulos inmediatamente precedentes han estudiado las variables no- minales, en particular las formas de analizar las relaciones entre ellas. Los pré- ximos capitulos trataran acerca de las relaciones entre variables numéricas, me- didas en una escala intervalica 0 proporcional. No obstante, antes de describir los métodos, sera preciso que volvamos a los temas introducidos en los capitu- los 3 y 4, que versaban sobre la descripcién de variables tinicas, para considerar un tipo de distribucién en particular, la distribucién normal o de Gauss, ya mencionada en el capitulo 4. Tncluso si el lector no sabe lo que es una distribucién normal, lo mas pro- bable es que haya oido decir que se trata de algo muy importante. Eso es cierto, pues una gran cantidad de las distribuciones observadas son aproximadamente normales, y también a causa de la significacién tedrica de esta distribucién en la estadistica inductiva, como fundamento de muchos de los métodos esta- disticos. Por esa razon, muchos manuales de estadistica otorgan a la teoria de la dis- tribucién normal un papel fundamental por su uso como base de la inferencia estadistica, incluyendo las pruebas de significacién. En este libro se ha dejado un tanto de lado, sobre todo lo que que se refiere a su papel en la inferencia estadistica. Hay varias razones: las pruebas que se basan en ella son concep- tualmente dificiles y no tienen gran importancia. Tal y como ya hemos visto, se puede hacer mucho sin emplear la distribucién normal; en estadistica, su empleo es cada vez menos importante. Cuando la estadistica estaba en su fase de desarrollo, la teoria normal proporcioné un punto de referencia para el de- sarrollo de los métodos estadisticos. Gracias a la disponibilidad y la capacidad cada vez mayores de los ordenadores, es posible, hoy en dia, simular las distri- buciones estadisticas directamente, usando técnicas numéricas. Ademas, los de- fensores del andlisis de datos exploratorio han sefialado que los métodos basa- dos en la teoria normal suelen ser muy sensibles a las irregularidades en los datos; este punto volverd a abordarse en este capitulo. Asi y todo, la distribucién normal no puede ignorarse por completo, y el 12 ARQUEOLOGIA CUANTITATIVA, motivo por el que debemos prestarle ahora nuestra atencién es que los méto- dos usados actualmente para investigar las relaciones entre las variables medi- das en escalas de intervalo o proporcionales se basan en ella. Ademas, como veremos més adelante, pueden aproximarse razonablemente a la normalidad ciertas distribuciones de datos que no eran normales al principio. En las paginas siguientes, el objetivo es contemplar la distribucién normal desde un punto de vista puramente descriptivo, y en particular considerar como est relacionada con la desviacién tipica (véase cap. 4). LA DISTRIBUCION NORMAL Cuando se expuso el uso de los graficos de barras para representar la distri- bucién de frecuencias de variables numéricas continuas (cap. 3), se insistié en que la anchura de los intervalos era una cuestién importante. En particular, si los intervalos de la distribucién se estrechaban paulatinamente en una mues- tra de un cierto tamafio, la distribucién empezaba a adoptar una apariencia irregular, con huecos y desfases en ella. Aumentando el mimero de casos, sin embargo, y manteniendo el incremento al estrechar los intervalos, la distribu- cién afina sus divisiones, conservando la misma forma. Tal es asi que, en la figura 8.1, seria posible ir de (a) a (b). (a) (b) oot] i: FicurA 8.1. (a) Histograma con intervalos anchos; (b) histograma con intervalos muy estrechos, basado en una gran cantidad de observaciones. Asumiendo que la distribucién tiene la forma ilustrada en la figura 8.1, si imaginamos que los intervalos se estrechan infinitamente y el niimero de obser- vaciones aumenta al mismo ritmo, obtendremos al final una curva atenuada en forma de campana (fig. 8.2). FIGuRA 8.2. Una distribucién normal. LA DISTRIBUCION NORMAL 113 Del mismo modo que el drea dentro de‘un grafico de barras puede ser cal- culada sumando las areas de los rectdngulos individuales, el drea bajo la curva atenuada puede calcularse sumando la cantidad infinita de rectangulos bajo la curva; es la operation de calculo denominada integracién. La curva normal es una curva simétrica, atenuada y en forma de campana, definida por una ecuacién particular; una de sus caracteristicas es que las dos colas extendidas al infinito en cualquiera de las direcciones nunca alcanzaran el eje horizontal. Al nivel que nos movemos en este libro, la ecuacién no tiene gran interés. Lo que importa es que sea cual sea la media y la desviacion tipica particulares que tenga una curva normal, hay siempre una proporcién constan- te del area bajo la curva, o bien una proporcién constante de los casos en una distribucién de este tipo, entre la media y una distancia desde la media expresa- da en unidades de desviacion tipica (fig. 8.3). <5, 46% ——> ke 68,26% d-2s f-s F kts #428 FiGuRA 8.3. Porcentaje del drea bajo la curva normal, dentro de una y dos desviacio- nes tipicas de la media. Sera mejor ver algunos ejemplos para aclarar la cuestidn. Asf el drea bajo la curva entre la media y un punto que sea una desviacién tipica mayor o me- nor que la media seré el 34,13 % del area total bajo la curva. Entre una desvia- cién tipica menor que la media y una desviacién tipica mayor que la media, serd el doble del 34,13 %, es decir, el 68,26 % del drea bajo la curva. Los por- centajes correspondientes para dos desviaciones tipicas son: 47,43 % y 95,46 % y para tres desviaciones tipicas 49,86 % y 99,73 %. Aunque esas proporciones se basan en la curva normal tedricamente defini- da, muchas distribuciones de frecuencia empiricamente obtenidas estan lo su- ficientemente proximas a ella para que las reglas anteriores sean aplicables, por lo que es posible usar esas proporciones constantes. El hecho de que muchas distribuciones de frecuencia reales estén bastante préximas a la normalidad, de forma que puedan usarse esos resultados te cos, no es accidental. Si el valor de alguna variable es el resultado del efecto 114 ARQUEOLOGIA CUANTITATIVA, acumulado de un gran ntimero de otras variables independientes, podra pro- barse matematicamente que la distribucidn de los valores de esa variable sera aproximadamente normal. Un ejemplo de una tal variable en biologia, disci- plina en la que la distribucién normal se aplicé por vez primera, es la estatura del cuerpo, que esta determinada por muchos factores genéticos, pero también por factores como la nutricidn y el entorno. Todos esos factores tienen tenden- cia a actuar en distintas direcciones. El resultado es que la distribucién de esta- turas en una poblacién sera normal, como de hecho lo es. Hay muchos ejem- plos arqueolégicos de variables en escala proporcional, particularmente dimensiones fisicas, como longitudes, anchuras, pesos, voliimenes, etc., que estan afectadas a su vez por muchos otros factores, con el resultado de que la distri- bucién de los valores de esas variables es normal, 0, cuando menos, no muy alejada de la normalidad. Sera conveniente que mostremos ahora cémo se pueden usar e interpretar esas proporciones constantes, caracteristicas de la distribucién normal, en un caso arqueolégico especifico. Inevitablemente, va a ser un tanto artificial, ya que lo habitual es usarlas como un medio para un fin, y no un fin en si mis- mas, que es como las abordaremos. Supongamos que estamos estudiando un gran conjunto de puntas de flecha del suroeste de Estados Unidos. Sus longitu- des estan distribuidas normalmente, con una media de 110 mm y una desvia- cién tipica de 20 mm (véase fig. 8.4). Inicialmente, pretendemos averiguar la proporcién de longitudes entre 110 y 140 mm. En primer lugar, es necesario descubrir cudntas desviaciones tipicas esta ale- jado 140 de 110; en milimetros es 30, mientras que la desviacién tipica es 20. Si dividimos la diferencia entre la media y el valor en el que estamos interesa- dos por la desviacién tipica, obtendremos la proporcién que pretendemos: 30/20 = 1,5. El valor 140 esta 1,5 desviaciones tipicas alejado de la media. Cuan- 7 90 110 130 150mm f-2s irs z sits E+2s Ficura 8.4. Distribucién de longitudes de una gran cantidad de puntas de flecha del suroeste de Estados Unidos. LA DISTRIBUCION NORMAL. is do una unidad aparece bajo el aspecto de varias unidades de desviacién tipica alejada de su media, se la denomina puntuacién Z (0 puntuacién estndar), donde Z representa la desviacién respecto a la media en unidades de desviacién tipica. La expresién general es: donde x es la media, s el valor de la desviacion tipica y x el valor del Ifmite del intervalo que nos interesa. 4Cémo pasamos de un valor para Z a un valor para la proporcién de casos dentro del intervalo que nos interesa estudiar? Se han construido ciertas tablas con ese fin, lo que se conoce como forma estandar de la curva normal, expre- sadas en términos de puntuaciones Z (véase el Anexo I, tabla B). La tabla asu- me que el drea bajo la curva normal suma 1,0, con 0,5 a la izquierda de la me- dia y 0,5 a la derecha. Los valores de Z estan dados en los margenes de la tabla y alo largo del eje superior. Los primeros dos digitos de Z se obtienen leyendo hacia abajo y el tercero leyendo a lo largo; la pagina izquierda de la tabla es para los valores Z negativos, es decir, valores inferiores a la media, y la pagina derecha para los valores Z positivos, mayores que la media. En este caso, nos interesa un valor Z de +1,50, asf que buscaremos en la columna izquierda de la pagina derecha el valor Z = 1,5, mientras que, a lo largo del eje superior, nos detendremos en Ia primera columna, que corresponde a Z = 1,50. El re- sultado indica la proporcién del area total bajo la curva entre el valor Z y el extremo derecho de la curva. En este caso, ese valor es 0,06681 0 6,7 %. Pero lo que pretendemos no es encontrar el area entre Z = 1,5 y el extremo derecho, sino entre la media y Z = 1,5. Sabemos que la proporci6n entre la media y el extremo derecho es 0,5, asi la proporcién entre la media y Z = 1,5 ha de ser 0,5 — 0,06681 = 0,43319. Redondeando las dos tiltimas cifras, obtenemos 0,433 © 43,3 % de la curva entre la media y una linea que pase por Z = 1,5. Tradu- ciendo esto a nuestro ejemplo, podemos decir que el 43,3 % de las longitudes de las puntas de proyectil estén antre 110 y 140 mm (véase fig. 8.5). Si nos hubiesen pedido encontrar la proporcién de longitudes entre 110 y 80 mm, o 1,5 desviaciones tipicas menos que la media, hubiésemos buscado en la tabla el valor correspondiente a Z —1,50, que es 0,93319; es decir, un 93,3 % del area total bajo la curva esta entre una linea que pasa por Z = —1,50 y el extremo derecho de la curva. Nos interesa el drea entre Z = —1,5 y la me- dia, de forma que restamos 0,5 para obtener 0,43319; no es ninguna sorpresa que esa cifra coincida con la correspondiente al area entre Z = +1,50 y la me- dia. Si nos hubiesen preguntado la proporcién de longitudes entre 80 y 140 mm, o dentro de 1,5 desviaciones tipicas a cada lado de la media, nos hubiésemos limitado a doblar el valor para cada una de las mitades: 0,433 + 0,433 = 0,866. Obviamente, la proporcién o porcentaje puede ser traducida facilmente en ni- H6 ARQUEOLOGIA CUANTITATIVA, at 70 90 110 130 140 150 escala en mm -20 -1,0 0 1,0 1,5 2,0 escala Z Ficura 8.5. Distribucién de las longitudes de las puntas de flecha con las puntuacio- nes Z correspondientes a sus valores efectivos en la desviacién tipica. meros reales, si fuese necesario, siempre y cuando supiésemos el mimero total de observaciones de nuestra distribucion. Si la incdgnita a resolver fuese la proporcién de puntas de flecha con longi tudes mayores de 140 mm, el problema habria sido menos complicado. Hubié- semos tenido que saber tan sdlo el drea entre Z = +1,5 y el extremo derecho de la curva, Esto lo obtenemos facilmente por medio del valor Z = 1,50 en la tabla, tal y como ya habiamos hecho para responder a la primera cuestién: el 6,7 % del area bajo la curva esta entre Z-+1,50 y el extremo derecho, de forma que el 6,7 % de las puntas tienen una longitud mayor de 140 mm. Para puntas menores de 80 mm el procedimiento es similar al primero de los dos casos que hemos visto. El 4rea bajo la curva correspondiente a Z = —1,50 es 0,93319, tal y como acabamos de ver, por lo que tenemos 1,0 — 0,93319 = 0,06681, 0 6,7 %. No todas las tablas de Ja distribucién normal estandarizada son iguales a la que figura como la tabla B del anexo 1, si bien son muy similares y no es dificil trabajar con ellas. El calcul de las proporciones de la longitud de las puntas de proyectil ¢ intervalos especificos de la distribucién global de longitudes tiene interés en si mismo, siempre y cuando dispongamos de hipotesis especificas acerca del sig- nificado cultural o funcional de la longitud de la punta de la flecha. Aho- ra bien, en este caso en concreto nuestro tinico propésito era ilustrar la forma en que la distribucién normal estandar y los datos reales se relacionan una con otros. En efecto, lo que hacemos al realizar las operaciones anteriores es efectuar una estandarizacién de los datos originales. Partimos de una distribucién nor- mal en concreto, con una media y una desviacién tipica expresadas en términos de las unidades en las que se han hecho las observaciones; milimetros en el caso anterior. A continuacién, reexpresamos las observaciones en términos de uni- LA DISTRIBUCION NORMAL 17 dades de desviaci6n tipica a cualquiera de los lados de Ja media. La media llega aser cero, por lo que las observaciones menores que la media seran cantidades negativas, y aquellas mayores que la media serdn positivas, con lo que la distri- bucién adquirird una media de cero y una desviacién tipica de uno. No impor- ta cudles sean las unidades originales de medida, podemos convertir cualquier distribucién normal en forma de unidades de desviacién tipica, y tendré las propiedades que, como hemos visto, caracterizan la distribucién normal, en tér- minos de la proporcién del drea bajo la curva, o si los casos estan dentro de la distribucién, en el interior de un intervalo dado, segin la informacién de Ja tabla Z. La manera més obvia en que la distribucién normal es utilizable en arqueo- logia es en la presentacién de las fechas de radiocarbono, donde los datos estan dados en forma de media y desviacién tipica (para una discusién més detallada de esta cuestién véanse Thomas, 1976; Orton, 1980). Es muy facil olvidar que existe sdlo una probabilidad del 68,26 % que los datos se encuentren sdlo a una desviacion tipica de la media. La practica estadistica convencional indica que no debiéramos quedar satisfechos con una probabilidad menor del 90 % 0.95 %. El problema es que los intervalos de tiempo de + 2 desviaciones tipi- cas son generalmente tan amplios que, consciente o inconscientemente, los ar- quedlogos prefieren omitirlos ¢ incurrir en la precisién espuria. {QUE HEMOS DE HACER SI LOS DATOS NO ESTAN DISTRIBUIDOS NORMALMENTE? La cuestién, de hecho, plantea cémo podemos llegar a saber si nuestros da- tos estén o no distribuidos normalmente. Hay varios métodos para averiguar- lo, Uno es representando grdficamente la distribucién-de la frecuencia acumu- lativa de los datos sobre un papel cuadriculado especial, llamado papel de probabilidad aritmética (véase fig. 8.6). Como se puede ver, la escala horizon- tal esta representada en unidades regulares e iguales para el rango de la variable estudiada, pero la escala vertical (dividida en 1.000 partes) registra la distribu- cién acumulativa de las observaciones en una escala variable, de forma que la distancia vertical entre el 0-60 % (500-600 en esa escala) es similar a la distan- cia vertical entre el 1-2 %. Debe apreciarse que la escala vertical va de 0,1 a 99,9. Esto es as{ porque la curva normal es astntota: se aproxima a cero en cualquiera de los dos extremos sin que llegue a alcanzarlo, por lo que 0% y 100 % (0 y 1.000) estan distanciados infinitamente. La escala constante hori- zontal y la escala variable vertical tienen el efecto de convertir la curva acumu- lada de una distribucién normal en una linea recta. Alternativamente, existen programas de ordenador para realizar lo mismo. Otros dos métodos muy titiles de comprobacién de la normalidad ya han sido descritos en la seccién del capitulo 4 dedicada al andlisis de datos explora- torio. Un estudio de los intervalos entre el valor minimo, el umbral inferior, Ls ARQUEOLOGIA CUANTITATIVA Uf 0 FIGURA 8.6. Un ejemplo de papel de probabilidad aritmética. LA DISTRIBUCION NORMAL, 119 la mediana, el umbral superior y el valor maximo dard una buena idea de la simetria global y del grado de concentracién de los valores centrales de la dis- tribucion. El uso de los graficos de caja y arbotante pone de manifiesto las pe- culiaridades de las colas de la distribucién. Esto es especialmente importante porque puede que sea sélo ahi donde se observe una desviacién con respecto a la normalidad. {Qué sucede si los datos no son normales y queremos que lo sean por algu- na raz6n, por ejemplo la aplicacién de un método que presuponga distribucio- nes normales? Sin duda podemos hacerlo por medio de transformaciones. La estandarizacion Z ya ha sido descrita en este capitulo, si bien se limita a cam- biar la escala original en una nueva, sin afectar la forma de la distribucién. Otras transformaciones pueden aplicarse a los datos para cambiar la forma de Ja distribucién, cambiando las longitudes relativas de las distintas partes de la escala. Hace algiin tiempo hubo un cierto debate acerca del empleo y validez de la transformacién de los datos; algunos pensaban que se trataba de una forma de «camuflarlos». El punto de vista adoptado aqui es que las transformacio- nes constituyen un util apropiado para el andlisis de datos, como cualquier otro; de hecho, ya hemos visto su uso en el capitulo anterior, donde los modelos lo- garitmicos se basaban en los logaritmos de las cantidades que aparecian en las tablas, y no en sus valores originales. E] uso de una transformacién nos permi- tid ir mas adelante en la comprensién de los datos de lo que hubiera sido posi- ble. Sucede muy a menudo que ciertos esquemas emergen mas claramente en los datos transformados que en los no transformados; el uso de algunos méto- dos, por su parte, exige que los datos aparezcan bajo una forma determinada. Si el método que se quiere usar en particular presupone una distribucién nor- mal, entonces no hay raz6n para no transformarla. ,Por qué habriamos de pri- vilegiar una forma de escala numérica sobre otras? La tinica condicién es que la transformacién sea interpretable, pues tendemos a sentirnos mas a gusto con escalas de medida préximas a nosotros en la vida real. Sin embargo, no hay raz6n para imponer esas restricciones en el andlisis de datos. En la practica arqueolégica, una de las situaciones que aparece mds frecuen- temente son las distribuciones asimétricas positivas, con una cola superior muy larga. En este caso, la transformacién en distribuciones normales es bastante simple. Lo que hay que hacer es recortar la cola superior, mientras que el resto de la distribucion se deja igual. Resulta facil hacerlo calculando la raiz cuadra- da de cada observacién; un efecto més radical se consigue calculando los loga- ritmos. Lo veremos mds claro con un ejemplo. Supongamos que hemos realizado una prospeccién y hemos recogido arte- factos liticos procedentes de un area bastante extensa, usando un sistema de cuadriculas. Como resultado, tenemos informacién acerca de la cantidad de ar- tefactos por cuadro, en cada una de las cuadriculas. Queremos efectuar un ana- lisis de correlacion de esos datos (véase el capitulo siguiente), y para ello es pre- 120 ARQUEOLOGIA CUANTITATIVA 20 20 a 15 a S 20 Cantidad de cuadriculas loi. 0 — 0 5 10 15 2 2 W 35 40 45 50 SS 60 65 Cantidad de artefactos liticos por cuadricula Figura 8.7. Distribucién de la cantidad de cuadriculas que contienen distintas canti- dades de artefactos liticos: datos procedentes de una prospeccidn hipotética. ferible que los datos estén normalizados. Hemos trazado un histograma con los datos, en el que se aprecia que la distribucién es asimétrica positiva, de for- ma que utilizaremos la técnica de transformacién que ya hemos mencionado. Mas que transformar cada observacién, preferimos transformar el punto me- dio de cada intervalo; es menos complicado y mds sencillo de demostrar. La distribucién sin transformar aparece en la figura 8.7. ‘Si intentamos una transformacion por raices cuadradas, necesitaremos una nueva escala horizontal en unidades de x. Para obtener esto, observamos el valor de los puntos medios de cada intervalo en el histograma original, calcula- mos su raiz cuadrada y entonces situamos los casos de cada intervalo original en el intervalo transformado que le corresponde. Tal y como se puede ver en la figura 8.8, los datos muestran ahora una mayor aproximacién a la normalidad. Si hubiésemos realizado una transformaci6én logaritmica, habriamos nece- sitado una nueva escala en unidades de log x (aqui logaritmo en base 10). Por analogia con el caso de la raiz cuadrada, calculamos el logaritmo del punto medio de los intervalos, cambiamos la escala y trazamos el nuevo histograma (fig. 8.9). De hecho, tal y como puede verse, en este caso el resultado es muy semejan- te en ambas transformaciones, la raiz cuadrada y el logaritmo. Esto se debe a que la cola positiva no era muy larga. Supongamos que la mayor de las ob- servaciones sea 1.000.000. La raiz cuadrada de ese mimero es 1.000, pero su logaritmo es 6, con lo que la diferencia entre ambos es considerable. Como prin- cipio general, los logaritmos son apropiados para datos positivos en los que los valores estén proximos a cero (por ejemplo, densidades), mientras que las raices cuadradas suelen usarse para transformar datos en forma de frecuencias. LA DISTRIBUCION NORMAL 121 las Cantidad de cuadri 1 2 3 4 5 6 7 8 Rafz cuadrada de la cantidad de artefactos liticos por cuadricula FIGURA 8.8. Distribucién de la cantidad de cuadriculas que contienen distintas canti- dades de artefactos liticos: cantidad de artefactos por cuadricula, habiendo sustituido el valor original por su raiz cuadrada. 40 35 a 15 5 30 3 a $2 1 \o0[16 | 3 2 —) = 42 & 10 5 8 215 2-1, 0 _ - 0 0,25 05 0,75 1,0 1,25 15 1,75 2.0 Logaritmo de Ja cantidad de artefactos Iiticos por cuadricula Logaritmo del punto 0,875 1,096 1,352 1,511 1,759, central de cada clase 1,243 1,439 1,574 1,795 1,628 1,676 1,720 Ficura 8.9. Distribucién de la cantidad de cuadriculas que contienen distintas canti- dades de artefactos liticos: cantidad de artefactos por cuadricula, habiendo sustituido el valor original por su logaritmo comin. 122 EJERCICIOS 8.1. Se ha encontrado un conjunto de recipientes cuya capacidad media es 950 ml con una desviacién tfpica de 56 ml. La forma de la distribucién de volt menes es normal. a) Qué proporcién de recipientes tiene una capacidad ctibi- ca mayor que 1.050 ml? b) Qué proporcién tiene una capacidad menor que 800 ml? c) Qué proporcién de capacidades existe entre 900 y 1.000 ml? 8.2. En la investigacién de un conjunto de bifaces se ha decidido estudiar la relacién entre el peso y otras variables. Los métodos que se precisan exigen que la distribucién de pesos esté normalizada. Dada la tabla que muestra la distribucién de las frecuencias, comprueba si es normal y, si no lo es, norma- lizala. ARQUEOLOGIA CUANTITATIVA Intervalo NE de Tntervalo Ne de (gs) bifaces (g) bifaces 200-249 5 650- 699 3 250-299 10 700- 749 3 300-349 13 750-799 2 350-399 7 800- 849 2 400-449 13 850- 899 2 450-499 8 900- 949 1 500-549 5 950- 999 1 550-599 4 1,000-1.049 1 600-649 4

You might also like