Professional Documents
Culture Documents
Marzo 2001, 1
ESTADSTICA DESCRIPTIVA
Captulo 1. INTRODUCCIN 1.1 Qu es la estadstica?
ESTADSTICA es el arte de realizar inferencias y sacar conclusiones a partir de datos imperfectos. Los datos son generalmente imperfectos en el sentido que an cuando posean informacin til no nos cuentan la historia completa. Es necesario contar con mtodos que nos permitan extraer informacin a partir de los datos observados para comprender mejor las situaciones que los mismos representan. Algunas tcnicas de anlisis de datos son sorprendentemente simples de aprender y usar ms all del hecho que la teora matemtica que las sustentan puede ser muy compleja. Todos, an los estadsticos, tenemos problemas al enfrentarnos con listados de datos. Existen muchos mtodos estadsticos cuyo propsito es ayudarnos a poner de manifiesto las caractersticas sobresalientes e interesantes de nuestros datos que pueden ser usados en casi todas las reas del conocimiento. Los mtodos estadsticos pueden y deberan ser usados en todas las etapas de una investigacin, desde el comienzo hasta el final. Existe el convencimiento de que la estadstica trata con el ANLISIS DE DATOS (quizs porque esta es la contribucin ms visible de la estadstica), pero este punto de vista excluye aspectos vitales relacionados con el DISEO DE LAS INVESTIGACIONES. Es importante tomar conciencia que la eleccin del mtodo de anlisis para un problema, se basa tanto en el tipo de datos diponibles como en la forma en que fueron recolectados.
1.2
Porque los datos estadsticos y las conclusiones obtenidas aplicando metodologa estadstica ejercen una profunda influencia en casi todos los campos de la actividad humana. En particular, la estadstica invade cada vez ms cualquier investigacin relativa a salud pblica. Este crecimiento, probablemente relacionado con el inters por aumentar la credibilidad y confiabilidad de las investigaciones, no garantiza que en todos los casos la metodologa estadstica haya sido correctamente utilizada, o peor an, que sea vlida. Por qu debe preocuparnos la aplicacin incorrecta de mtodos estadsticos en un trabajo cientfico o en un informe tcnico? Porque las conclusiones pueden ser incorrectas. Porque no todos los lectores estn en condiciones de detectar el error, y esto genera un importante ruido en la bibliografa cientfica (Aunque este argumento tiende a sobredimensionar la importancia de un paper, existe considerable evidencia que los lectores sin formacin metodolgica tienden a aceptar como vlidas las conclusiones
Liliana Orellana
Marzo 2001, 2
de los trabajos publicados, en especial si se encuentran publicados en revistas prestigiosas). El estudio de la Estadstica y el modo de pensamiento que se genera a partir del mismo, capacita a la persona para evaluar objetiva y efectivamente si la informacin que recibe (va tablas, grficos, porcentajes, tasas, etc.) es relevante y adecuada. Por supuesto, la interpretacin de cualquier problema requiere, no slo de conocimientos metodolgicos sino tambin, de un profundo conocimiento del tema. An cuando una persona no est interesada en especializarse en estadstica, un entrenamiento bsico en el tema permite una mejor comprensin de la informacin cuantitativa.
1.3
I. II. III.
reas de la estadstica
Diseo: Planeamiento y desarrollo de investigaciones. Descripcin: Resumen y exploracin de datos. Inferencia: Hacer predicciones o generalizaciones acerca de caractersticas de una poblacin en base a la informacin de una muestra de la poblacin.
Describiremos brevemente cada una de las reas en que puede dividirse la estadstica:
I. Diseo Es una actividad crucial. Consiste en definir como se desarrollar la investigacin para dar respuesta a las preguntas que motivaron la misma. La recoleccin de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificacin de la investigacin ahorra trabajo en las siguientes etapas. Un estudio bien diseado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento pobremente diseado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas que motivaron la investigacin, ms all de lo sofisticado que sea el anlisis estadstico. An en los casos en que se estudian datos ya registrados, en que estamos restringidos a la informacin existente, los principios del buen diseo de experimentos, pueden ser tiles para ayudar a seleccionar un conjunto razonable de datos que est relacionado con el problema de inters. II. Descripcin Los mtodos de la Estadstica Descriptiva o Anlisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e interesantes de organizar los datos en grficos que permiten detectar tanto las caractersticas sobresalientes como las caractersticas inesperadas. El otro modo de describir los datos es resumirlos en uno o dos nmeros que pretenden caracterizar el conjunto con la menor distorsin o perdida de informacin posible.
Liliana Orellana
Marzo 2001, 3
Explorar los datos, debe ser la primera etapa de todo anlisis de datos. Por qu no analizarlos directamente? En primer lugar porque las computadoras no son demasiado hbiles (slo son rpidas), hacen aquello para lo que estn programadas y actan sobre los datos que les ofrecemos. Datos errneos o inesperados sern procesados de modo inapropiado y ni usted, ni la computadora se darn cuenta a menos que realice previamente un anlisis exploratorio de los datos. III. Inferencia Inferencia Estadstica hace referencia a un conjunto de mtodos que permiten hacer predicciones acerca de caractersticas de un fenmeno sobre la base de informacin parcial acerca del mismo. Los mtodos de la inferencia nos permiten proponer el valor de una cantidad desconocida (estimacin) o decidir entre dos teoras contrapuestas cul de ellas explica mejor los datos observados (test de hiptesis). El fin ltimo de cualquier estudio es aprender sobre las poblaciones. Pero es usualmente necesario, y ms prctico, estudiar solo una muestra de cada una de las poblaciones. Definimos: POBLACIN total de sujetos o unidades de anlisis de inters en el estudio MUESTRA cualquier subconjunto de los sujetos o unidades de anlisis de la poblacin, en el cual se recolectarn los datos
Usamos una muestra para conocer o estimar caractersticas de la poblacin, denominamos: PARMETRO una medida resumen calculada sobre la poblacin ESTADSTICO una medida resumen calculada sobre la muestra La calidad de la estimacin puede ser muy variada, y generalmente las estimaciones estadsticas son errneas, en el sentido que no son perfectamente exactas. La ventaja de los mtodos estadsticos es que aplicados sobre datos obtenidos a partir de muestras aleatorias permiten cuantificar el error que podemos cometer en nuestra estimacin o calcular la probabilidad de cometer un error al tomar una decisin en un test de hiptesis. Finalmente, cuando existen datos para toda la poblacin (CENSO) no hay necesidad de usar mtodos de estadstica inferencial, ya que es posible calcular exactamente los parmetros de inters. En el censo poblacional, por ejemplo, se registra el sexo de todas las personas censadas, que son prcticamente toda la poblacin, as que es posible conocer exactamente la proporcin de habitantes de los dos sexos.
Liliana Orellana
Marzo 2001, 4
Liliana Orellana
Marzo 2001, 5
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categoras, mientras que 3) y 4) son simplificaciones de categoras ms complejas. En 3) no est claro donde se asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte para armar una variable categrica a partir de una variable numrica. b) Ms de dos categoras CATEGORAS NOMINALES No existe orden obvio entre las categoras. Ejemplos: pas de origen, estado civil, diagnstico. CATEGORAS ORDINALES Ejemplos: 1) Tabaquismo: No fuma / ex-fumador / fuma 10 cigarrillos diarios / fuma > 10 cigarrillos diarios 2) Severidad de la patologa: Ausente / leve / moderado / severo. An cuando los datos ordinales puedan ser codificados como nmeros como en el caso de estadios de cncer de mama de I a IV, no podemos decir que una paciente en el estadio IV Existe un orden natural entre las categoras.
Liliana Orellana
Marzo 2001, 6
tiene un pronstico dos veces ms grave que una paciente en estadio II, ni que la diferencia entre estadio I y II es la misma que entre estadio III y IV. En cambio, cuando se considera la edad de una persona, 40 aos es el doble de 20 y una diferencia de 1 ao es la misma a travs de todo el rango de valores. Por esta razn, debemos ser cuidadosos al tratar variables cualitativas, especialmente cuando se han codificado numricamente, ya que no pueden ser analizadas como nmeros sino que deben ser analizados como categoras. Es incorrecto presentar, por ejemplo, el estadio promedio de cncer en un grupo de pacientes. En la prctica clnica se usan escalas para definir grados de un sntoma o de una enfermedad, tales como 0, +, ++, +++. Es importante definir operativamente este tipo de variables y estudiar su confiabilidad de modo de asegurar que dos observadores puestos frente al mismo paciente, lo clasificarn en la misma categora.
Liliana Orellana
Marzo 2001, 7
Slo en casos especiales es preferible registrar datos numricos como categricos, por ejemplo, cuando se sabe que la medicin es poco precisa (nmero de cigarrillos diarios, nmero de tazas de caf en una semana).
Liliana Orellana
Marzo 2001, 8
Un ejemplo es el score Apgar usado como indicador de pronstico en el recin nacido. Puntaje Signo 0 Latidos Ausente Respiracin Ausente Tono muscular Flccido Reflejos Ausente Color Azul, plido 1 < 100 Llanto dbil, hiperventilacin Leve Leve Cuerpo rosado, extremidades azules 2 100 Llanto fuerte Buena flexin Llanto Totalmente rosa
El recin nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de 0 a 2, los cuales se suman y el score resultante es un nmero entre 0 a 10. Se considera que un score 7 es de buen pronstico, y que un Apgar 3 es de muy mal pronstico. No es de inters aqu discutir la validez de este particular score, pero remarcaremos tres caractersticas que son comunes a este tipo de scores: en la evaluacin de cada signo est presente cierto nivel de subjetividad, al transformar las categoras en nmeros, estamos valorando las diferencias entre 0 y 1 y entre 1 y 2 como equivalentes, los cinco signos son igualmente importantes en la construccin del score.
Los scores deberan tratarse en el anlisis tal como se los trata en la prctica, como criterios para definir categoras ordinales y no como variables numricas. d) Datos censurados Una observacin censurada es aquella que no pudo ser medirla exactamente, pero que se sabe que est ms all de un cierto lmite, es decir, conocemos una cota inferior o superior para el dato. Ejemplos. Cuando se miden elementos traza, el nivel del elemento en la muestra puede ser menor que el lmite de deteccin de la tcnica. Este es un dato con censura izquierda ya que no se conoce el verdadero valor, pero si se conoce una cota superior. Estudios de seguimiento en los que interesa el tiempo de supervivencia. En los pacientes que se mantienen vivos finalizar el estudio, se desconoce el tiempo real de supervivencia, pero se sabe que ste es mayor que el tiempo de permanencia en el estudio. El tiempo de supervivencia est censurado a derecha, slo conocemos una cota inferior para el mismo. Un estudio de seguimiento en que interesa estudiar el tiempo transcurrido hasta la recidiva de una patologa. En aquellos sujetos que se pierden del estudio (por abandono, por muerte por otras causas o por cualquier otra razn) pero que sabemos que estuvieron libres de la patologa mientras permanecieron en el estudio (hasta el ltimo control), el dato de tiempo transcurrido hasta la recidiva est censurado a derecha.
Liliana Orellana
Marzo 2001, 9
Porque el tipo de datos DETERMINA el mtodo de anlisis apropiado y vlido y cada mtodo de anlisis estadstico es especfico para un cierto tipo de datos. La distincin ms importante es entre datos numricos y categricos.
Liliana Orellana
Marzo 2001, 10
Caja Negra. Se puede perder el contacto con los datos. Si el anlisis se realiza automticamente, se corre el riesgo de no advertir las caractersticas ms relevantes de los datos, o de perder la informacin acerca de individuos con comportamiento atpico. Los resultados dependen de la calidad del archivo de datos. Si los datos estn mal registrados o tienen inconsistencias y el investigador no lo advierte, los resultados sern incorrectos ms all de lo sofisticado y elegante que sea el mtodo de anlisis estadstico que se utilice.
Liliana Orellana
Marzo 2001, 11
b) Chequeo de los datos (Consistencia) Pueden producirse errores cuando se toman las mediciones, cuando se registran los datos originales (ejemplo en la historia clnica), cuando se transcribe de la fuente original a una planilla, o cuando se tipean los datos para armar la base. Usualmente no podemos saber si los datos son correctos, pero deberamos asegurar que son plausibles. Esta etapa corresponde a lograr la CONSISTENCIA del archivo. No esperamos solucionar todos los errores, pero esperamos detectar los errores ms groseros. La consistencia de los datos intenta IDENTIFICAR y de ser posible RECTIFICAR errores en los datos. El primer paso es chequear si el tipeo ha sido correcto. Cuando el archivo es pequeo se imprime y se controla. Cuando es grande, conviene tipearlo dos veces y comparar ambas versiones (EpiInfo lo hace con el procedimiento VALIDATE y produce un listado de diferencias). Datos categricos. En este caso es simple chequear si todos los valores de la variable son plausibles, ya que hay un conjunto fijo de valores posibles para la variable. Ejemplo: Grupo sanguneo: 0, A, B, AB. Es suficiente con producir una tabla de frecuencias para cada variable categrica en la que se controla que las categoras coinciden con las categoras definidas. Algunos paquetes diferencias letras maysculas de minsculas, por lo tanto consideran que la categora a de grupo sanguneo es diferente de la A. Es aconsejable hacer un listado de todas las tablas de frecuencia de las variables categricas antes de comenzar con el anlisis estadstico de los datos. Datos numricos. Para cada variable debera proponerse el rango de valores esperado o posible. Ejemplo: Edad materna al parto: 12 a 50 aos, Presin arterial sistlica: 70 a 250 mg de Hg. Un error frecuente es colocar mal la coma o el punto decimal. Valores fuera del rango esperado no necesariamente son incorrectos. Existen valores que son poco probables y valores que son imposibles, lamentablemente el lmite entre ambos es difcil de definir. Valores poco probables pero posibles deberan ser corregidos slo cuando hay evidencia de error. Cuando la base ha sido importada desde un programa (software) diferente al que se est usando es impotante controlar que durante la exportacin se haya respetado el tipo de variable. En particular, que las variables que originalmente estaban definidas como numricas, no hayan sido transformadas a texto durante la transformacin porque no se reconoce el indicador de smbolo decimal (coma, punto). Cuando la variable es de tipo texto no es posible realizar operaciones albegraicas con ella.
Liliana Orellana
Marzo 2001, 12
Chequeo lgico. Hay cierta informacin que slo se releva en ciertos casos. Por ejemplo, nmero de embarazos es relevante si sexo = femenino, pero para sexo = masculino, esta variable debera ser . o no corresponde. Los datos deben satisfacer los criterios de inclusin y exclusin del estudio. Ejemplo: Estudio de agentes anti-hipertensivos, los pacientes que entran en el estudio deben tener valores de la presin arterial dentro de un cierto rango al ingreso. Evaluar la consistencia de los datos es algo ms complicado cuando existen valores de algunas variables que dependen de valores de otras variables. Existen combinaciones de valores de ciertas variables que son inaceptables, an cuando cada una de ellas se encuentre dentro de lmites razonables. El investigador debe proponer chequeos lgicos que permitan detectar aberraciones en los datos. Ejemplos: es poco probable que un sujeto se ubique en el percentil 5 de presin diastlica y en el percentil 95 de presin sistlica, o es poco probable que un nio nacido con 30 semanas de gestacin pese 3800 g. Cuando una variable se mide varias veces en la misma unidad de observacin puede graficarse a lo largo del tiempo para ver si el comportamiento es acorde a lo esperado. Fechas. Son la base para calcular tiempo transcurrido entre eventos. Ejemplos: edad del paciente al momento de la consulta, tiempo de supervivencia, etc. Un criterio de consistencia es chequear si las fechas caen dentro de intervalos de tiempo razonables. Ejemplos: fechas de evaluacin dentro del perodo de desarrollo de la investigacin, fechas de nacimiento consistentes con criterios de inclusin y exclusin para edad, etc. Finalmente, es importante controlar que las fechas siguen una secuencia correcta para cada sujeto. Ejemplo: nacimiento, internacin, muerte. Datos faltantes Otro problema es el manejo de los datos missing (perdidos o faltantes). Cuando al cargar la informacin se deja un blanco debe tenerse en cuenta que algunos paquetes estadsticos asignan al blanco un cero. En ocasiones se asigna a los datos perdidos valores imposibles como 99999 o un valor negativo para datos que slo pueden ser positivos. El problema es que si no se excluyen los registros con estos valores atpicos en el momento del anlisis, el resultado ser errneo ya que cualquier programa aceptar el valor 0 o el valor 99999 como verdaderos. En particular, EpiInfo indica los datos missings con un punto, con lo cual se evita este problema. EpiInfo provee un procedimiento denominado CHEK que permite hacer consistencia de datos a medida que se cargan los mismos.
Liliana Orellana
Marzo 2001, 13
c) Anlisis exploratorio de los datos Antes de analizar los datos es importante producir grficos y tablas, los que permitan detectar rpidamente datos anmalos o comportamientos atpicos. Dedicaremos el siguiente captulo a tratar este tema.
Liliana Orellana
Marzo 2001, 14
La primer y segunda columna de la Tabla 1 muestran las categoras de la variable (tipo de meningitis y la sigla correspondiente), la tercer columna presenta el nmero de casos de meningitis de cada tipo notificados, es decir la frecuencia o frecuencia absoluta, en tanto que la ltima columna presenta la frecuencia relativa o el porcentaje de casos notificados de cada tipo de meningitis. Por ejemplo, la frecuencia relativa de la categora BSA se calcula del siguiente modo:
frBSA = f 446 nmeros de casos de BSA 100 = BSA 100 = 100 = 22.85% 1952 nmero total de casos n
Liliana Orellana
Marzo 2001, 15
La representacin grfica de una distribucin de frecuencias puede realizarse a travs de un grfico de barras o de un grfico de tortas. A continuacin presentamos ambos mtodos.
NM BSA TV SN SE
15% 10% 5% 0%
OG HI MTB
Cuando se desea comparar dos o ms distribuciones cualitativas, el modo ms sencillo de representarcin es el grfico de barras combinadas. En la Figura 2 se presentan las distribuciones de casos notificados de meningitis en Argentina para los aos 1999 y 2000.
Liliana Orellana
Marzo 2001, 16
5%
HI
OG HI MTB MTB
0%
Ao 1999
Ao 2000
TV 22%
BSA 21%
BSA 22%
HI 3% MTB 1% SN 14%
HI 2% SN 16% MTB 1%
SE 11%
NM 25% OG 3%
SE 12%
NM 24% OG 5%
Cul preferir: grfico de barras o de tortas? La informacin que brindan los dos tipos de grficos es equivalente, sin embargo, el grfico de barras resulta ms natural para comparar las distribuciones de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ngulos. Por otra parte, en el grfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparacin.
Liliana Orellana
Marzo 2001, 17
3.2
Comenzaremos representando el conjunto de datos ms simple posible: un nico grupo de nmeros. Trataremos de responder a preguntas tales como: Son los valores medidos casi todos iguales? Son muy diferentes unos de otros? En qu sentido difieren? Cmo podemos describir cualquier patrn o tendencia? Son un nico grupo? Hay varios grupos de nmeros? Difieren algunos pocos nmeros notablemente del resto? Usaremos distintos tipos de grficos para representar a los datos de modo de hacer visibles sus caractersticas ms importantes. Mirando un grfico, es posible ver ms all de los detalles que presenta un listado de nmeros y formarse una impresin de la estructura general.
Liliana Orellana
Marzo 2001, 18
1. Separamos cada observacin en dos porciones, TALLO y HOJA. En general, el tallo tendr tantos dgitos como sea necesario, pero las hojas contendrn un nico dgito. En nuestro ejemplo podemos elegir el dgito correspondiente a la unidad como tallo y el primer dgito despus de la unidad (dcima). Ejemplo. Consideremos el dato correspondiente a Crdoba:
1. 2 8
TALLO HOJA 2. Se listan los tallos verticalmente en orden creciente y se traza una lnea vertical a la derecha de los tallos. 3. A continuacin de cada tallo se agregan las hojas correspondientes en la misma lnea, arreglndolas de menor a mayor. Se debe tomar una decisin sobre qu se har con el dgito posterior a la hoja, si se truncar o se redondear, poco se pierde truncando y esta ltima opcin hace ms simple volver a la lista de datos a partir del grfico. Los tallos que no estn acompaados con hojas tambin se representan, de este modo se respeta la escala de los datos. Seleccionando como tallo la unidad se obtiene el siguiente grfico.
0 1 2 3 4 5 6 7 8 9 10 0 266 18 01223389 02389 5 3 0 2 8
La altura o extensin de la columna de hojas asociadas a un tallo nos dice con que frecuencia ocurren las observaciones de la magnitud asociada al tallo. Qu informacin nos brinda este grfico? Podemos observar: - El rango de las observaciones y los valores mximos y mnimos. - La forma de la distribucin: - Si es aproximadamente simtrica o es asimtrica. - Cuntos picos o modas tiene la distribucin. - Si existen valores que se aparten notablemente del conjunto, a los que denominaremos datos atpicos o outliers.
Liliana Orellana
Marzo 2001, 19
Cmo elegir el nmero de tallos? El nmero de tallos debe ser tal que permita mostrar una imagen general de la estructura del conjunto de datos. Aunque existen algunos criterios para definir el nmero de tallos, la decisin depende fundamentalmente del sentido comn. Demasiados detalles distraen, demasiado agrupamiento puede distorsionar la imagen del conjunto. Consideremos el siguiente ejemplo con datos sobre consumo diario per cpita de protenas en 32 pases desarrollados. Los datos se presentan ordenados de menor a mayor por simplicidad. Tabla 3. Consumo de protenas per cpita en pases desarrollados.
7.83 8.06 8.45 8.49 8.53 8.60 8.64 8.70 8.75 8.92 8.93 9.03 9.16 9.23 9.34 9.39 9.42 9.56 9.89 10.00 10.28 10.41 10.56 10.52 10.75 10.86 10.89 11.07 11.27 11.36 11.58 11.76
Seleccionando como tallo la unidad obtenemos el grfico de tallo-hojas de la izquierda de la Figura 4. Figura 4. Variaciones de los tallos. Datos de consumo de protenas per cpita.
7 8 9 10 11 8 0445667799 01233458 02455788 02357 7 8 8 9 9 10 10 11 11 8 044 5667799 012334 58 024 55788 023 57
En este grfico se acumula un nmero importante de hojas en cada tallo, por lo que podramos estar perdiendo informacin acerca de la estructura de los datos. Dividiremos cada tallo en dos, es decir, representaremos dos veces cada tallo, la primera vez que este aparezca ir acompaado por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9. Obtenemos, entonces, el grfico de la derecha de la Figura 4. Como puede observarse, al expandir la escala se observan ms detalles y parece haber dos grupos de pases, uno con mayor consumo per cpita de protenas y otro con menor consumo, ya que la distribucin de la variable tiene dos picos. El problema de expandir la escala es que comienzan a aparecer detalles superfluos, o simplemente atribuibles al azar.
Liliana Orellana
Marzo 2001, 20
Grfico de tallo-hojas espalda con espalda. Comparacin de grupos. Los grficos de tallo-hojas son tiles para comparar la distribucin de una variable en dos condiciones o grupos. El grfico se denomina tallo-hojas espalda con espalda porque ambos grupos comparten los tallos. A continuacin se muestra un grfico de la presin arterial sistlica a los 30 minutos de comenzada la anestesia en pacientes sometidos a dos tcnicas anestsicas diferentes a las que nos referiremos como T1 y T2. Figura 5. Comparacin de la presin arterial sistlica en pacientes sometidos a dos tcnicas anestsicas (30 minutos del inicio de la anestesia). T1
5 6 7 8 9 10 11 12 13 14
T2
47 2 37 77899 0358 222 37
4 16
El grfico nos muestra las siguientes caractersticas de la TAS en los dos grupos de pacientes. La distribucin de TAS tiene forma similar en ambos grupos: Un pico o moda y forma simtrica y aproximadamente acampanada. Diferencias en posicin. Los pacientes del grupo T1 tienen niveles de TAS levemente mayores que los pacientes del grupo T2. Similar dispersin. Los valores de TAS de los pacientes de ambos grupos se encuentran en rangos aproximadamente iguales, salvo por el valor atpico (outlier) que se observa en el grupo T1.
3.2.2 HISTOGRAMA
El histograma es el ms conocido de los grficos para resumir un conjunto de datos numricos y petende responder a las mismas preguntas que un grfico de tallo-hojas. Una virtud del grfico de tallo-hojas es que retiene los valores de las observaciones, sin embargo, esta caracterstica puede ser una desventaja para gran cantidad de datos. Construir manualmente un histograma es ms laborioso que construir un grfico de tallohojas, pero la mayora de los paquetes estadsticos producen histogramas. Para construir un histograma es necesario previamente construir una tabla de frecuencias.
Liliana Orellana
Marzo 2001, 21
Liliana Orellana
Marzo 2001, 22
Notacin: El intervalo [0, 1) indica el conjunto de nmeros reales entre 0 y 1, inluye el 0 y excluye el 1.
8 6
Frecuencia absoluta
0 1 2 3 4 5 6 7 8 9 10 11 12
Frecuencia absoluta
2 2
10
12
Qu caractersticas observamos en los grficos anteriores? La distribucin es asimtrica, con mayor concentracin de datos en tasas bajas y algunas provincias con tasas altas. Se observan cuatro provincias con tasas de notificacin de casos de neumona ms altas que el resto. Ellas son San Luis, Formosa, La Pampa y Chaco. Tal vez podramos pensar en dos agrupamientos. En el histograma de la izquierda observamos un nico pico (o moda) pero en el de la derecha aparenta haber dos. Es importante remarcar que caractersticas del grfico que
Liliana Orellana
Marzo 2001, 23
no se mantienen al modificar levemente la definicin de los intervalos de clase pueden ser consideraradas como artificales. El propsito de un histograma es mostrar la forma de la distribucin de los datos, por lo que debemos estar atentos a los aspectos visuales de la representacin. Como hemos observado en el ejemplo, la forma del histograma depende del nmero de intervalos de clase que seleccionemos. Cuntas clases usar? Existen distintas frmulas que permiten calcular el nmero mximo de clases apropiado para un conjunto de datos, en base al rango de datos y al nmero de datos. La decisin, tal como ocurre en el grfico de tallo-hojas, es una solucin de compromiso. En general entre 6 y 15 clases resulta ser una buena eleccin. Muchas intervalos harn que caigan muy pocas observaciones en cada clase, por lo que las alturas de las barras variarn irregularmente. Muy pocas clases producen una grfica ms regular, pero demasiado agrupamiento puede hacer que se pierdan las caractersticas prinicipales. Cmo describimos la forma de una distribucin? Los histogramas siguientes representan distintas formas posibles para la distribucin de los datos. Los dos primeros muestran distribuciones aproximadamente simtricas, mientras que los dos ltimos muestran distribuciones claramente asimtricas.
DISTRIBUCIN ACAMPANADA
2
DISTRIBUCIN UNIFORME
80
60
40
20
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
0 2 4 6 8 10 12 14 16 18 20 22 24 26
ASIMETRIA DERECHA
120
ASIMETRA IZQUIERDA
80
60
80
40
40
20
0 0 400 800 1200 1600 2000 2400 2800 3200 3600 4000 4400 4800 5200 5600
0 -0.68 -0.66 -0.64 -0.62 -0.60 -0.58 -0.56 -0.54 -0.52 -0.50 -0.48 -0.46 -0.44 -0.42 -0.40 -0.38 -0.36 -0.34
Liliana Orellana
Marzo 2001, 24
El histograma debera representar la frecuencia asociada a cada clase en el rea de la barra y no en su altura. Cuando las clases son todas de la misma longitud representar la frecuencia en la altura es equivalente a representarla en el rea, ya que en todas las barras el rea y la altura son proporcionales. En ocasiones es necesario construir histogramas con intervalos de clase de distinto tamao, por ejemplo, cuando se toma informacin de datos sociales o econmicos publicados por el estado. En estos casos, la altura de la barra debe ser tal que el rea de la barra sea proporcional a la frecuencia. Consideraremos este tipo de histogramas a continuacin. b) Intervalos de clase de diferente longitud. Los datos de la Tabla 5 presentan los casos de rubola notificados al SI.NA.VE durante el ao 2000 segn grupos de edad. Notemos que los intervalos de edad tienen diferente longitud. Cuando (errneamente) se construye un histograma considerando como altura de la barra la frecuencia relativa se obtiene la grfica siguiente. La ltima categora de edad se trunc arbitrariamente en 80 aos para poder representarla. Tabla 5. Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE
Intervalo (aos) [ 0, 1) [ 1, 2) [ 2, 5) [ 5, 10) [10, 15) [15, 50) 50 Total Frecuencia (fi) 497 387 1100 1389 798 521 28 4720 Frecuencia relativa (fr) 10.5% 8.2% 23.3% 29.4% 16.9% 11.0% 0.6% 100.00%
50
60
70
80
A partir de este grfico concluiramos que la proporcin de casos es notablemente mayor en los grupo de 2 a 5 aos, de 5 a 10 aos o de 10 a 15 aos que en los grupos de menores de 1 ao o de 1 a 2 aos. Adems, la proporcin de casos en el grupo de 15 a 50 aos impresiona como notable.
Liliana Orellana
Marzo 2001, 25
El problema es que en la imagen visual asociamos la frecuencia de casos con el rea de la barra, por ello parece haber mas notificaciones de gente de 15 a 50 que de cualquier otro grupo de edad. Cmo construimos el histograma teniendo en cuenta que los intervalos de clase son de distinta longitud? La barra debe tener una altura tal que el rea (base x altura) sea igual a la frecuencia (o a la frecuencia relativa). Es decir,
altura de la barra = frecuencia en el intervalo . longitud del intervalo frecuencia en el intervalo = frecuencia longitud del intervalo
De este modo el rea de la barra coincide con la frecuencia en el intervalo: rea = base altura = longitud del intervalo
La altura de la barra definida de este modo se denomina escala densidad porque indica el nmero de datos por unidad de la variable. La ltima columna de la Tabla 6 muestra la escala densidad para los datos de la Tabla 5 y la Figura 7 el histograma que se obtiene usando la escala densidad. Tabla 6. Escala densidad. Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE.
Categora (aos) [ 0, 1) [ 1, 2) [ 2, 5) [ 5, 10) [10, 15) [15, 50) 50 Total Frecuencia (fi) 497 387 1100 1389 798 521 28 4720 Frecuencia relativa (fr) 10.5% 8.2% 23.3% 29.4% 16.9% 11.0% 0.6% 100.00% Escala densidad 10.53% 8.20% 7.77% 5.89% 3.38% 0.32% 0.01% --
Figura 7. Histograma usando escala densidad. Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE
12% 10% 8% 6% 4% 2% 0% 0 10 20 30 40 edad 50 60 70 80
Liliana Orellana
Marzo 2001, 26
En este grfico, el porcentaje de casos de rubola notificados para cada grupo est representado en el rea de la barra. El histograma muestra que una gran proporcin de casos ocurre en menores de 1 ao, y que la proporcin desciende a medida que aumenta la edad. En este grfico estamos representando la densidad de notificaciones por cada ao de edad. Comentarios Una prctica comn al manejar datos como los del ejemplo es tratar los datos como categricos y representarlos en un grfico de barras como el de la Figura 8. Figura 8. Grfico de barras. Notificaciones de casos de rubola. Argentina, ao 2000. Fuente: SINAVE
35% 30% 25% 20% 15% 10% 5% 0%
0-1 ao
1 ao
En que difieren un grfico de barras y un histograma? El grfico de barras no tiene en cuenta el hecho de que los intervalos de clase (grupos de edad) tienen distinta longitud. El grfico de barras representa el porcentaje en la altura de la barra. Mientras que en un histograma el porcentaje se representa en el rea de la barra. En el grfico de barras, las barras se representan separadas para indicar que no hay continuidad entre las categoras. En un histograma barras adyacentes deben estar en contacto indicando que la variable es continua.
Cundo usar cada uno de ellos? Cul de las dos representaciones es adecuada? Depende de lo que se pretenda mostrar con los datos. Cuando la variable que define los grupos es categrica corresponde usar un grfico de barras. Cuando la variable que define las categoras es numrica, en general lo que interesa es estudiar la distribucin de casos en las distintas edades, por lo tanto es preferible el histograma ya que la escala del eje horizontal respeta la escala de la variable de inters.
Liliana Orellana
Marzo 2001, 27
En el ejemplo de casos de rubola, el grfico de barras da una impresin engaosa de la distribucin de casos en las distintas edades. Para variables numricas discretas con pocos valores posibles puede utilizarse un grfico de barras.
Comentarios. Una piramide de poblacin es un histograma para la variable edad, con intervalos de edad de 5 aos.
Los dos tipos de grficos (histograma y polgono) brindan esencialmente la misma informacin. En ambos grficos, el rea total es 100%. El polgono de frecuencias es un grfico til para comparar dos distribuciones de frecuencias. En la Figura 10 observamos los polgonos de frecuencia de la distribucin por edad de los casos de rubola en el ao 1999 y 2000 en Argentina. A pesar de que el nmero de casos notificados disminuy casi un 50% en el 2000, la distribucin de edad de los casos fue muy similar los dos aos. Figura 10. Casos notificados de rubola. Argentina, 1999 y 2000. Fuente: SINAVE
Liliana Orellana
Marzo 2001, 28
12%
10%
8%
6%
4%
2%
0% 0 10 20 30 40 edad 50 Ao 2000 60 (n = 4 7 2 0 ) 70 80
A o 1 9 9 9 (n = 8 3 4 7 )
Comentario. El histograma o el polgono de frecuencias muestran la distribucin de edad de los casos de rubola notificados durante un ao, es decir, muestran la proporcin del total de los casos que cae en cada categora de edad. Pero, los distintos grupos de edad tienen distinta composicin, por lo tanto, puede ser de inters presentar la tasa de casos de rubola en cada grupos de edad. Podemos representar las tasas de rubola cada 1000 habitantes usando: un grfico de barras o un grfico en el que cada tasa se representa como un punto ubicado en el punto medio de la categora de edad respetando de este modo la distancia entre las categoras.
Figura 11. Tasas de rubola cada 1000 habitantes. Argentina, 2000. Fuente: SINAVE
8 7 6 5 4 3 2 1 0 0-1 ao 1 ao 2 - 4 aos 5 a 9 aos 10-14 aos 15-19 aos 50 y ms
8 7 6 5 4 3 2 1 0 0 10 20 30 40 edad 50 60 70 80
Cul de las dos representaciones preferir? Ambas contienen la misma informacin, sin embargo, la segunda muestra de modo fidedigno la forma en que decae la tasa de notificacin de casos de rubola con la edad, porque preserva la escala de edad en el eje horizontal.
Liliana Orellana
Marzo 2001, 29
90
0.18
0.16
0.14
16
60
0.12
0.1
0.08
30
0.06
0.04
0.02
0 0.0 1.5 3.0 4.5 6.0 7.5 9.0 10.5 12.0 13.5 15.0 16.5 18.0 19.5 21.0
0 0.0 1.5 3.0 4.5 6.0 7.5 9.0 10.5 12.0 13.5 15.0 16.5 18.0 19.5 21.0
0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Muestra n = 100
Muestra n = 1000
Poblacin
La Figura 12 muestra dos histogramas, el primero basado en una muestra de tamao 100 y el segundo basado en una muestra de tamao 1000, y una curva suave que representa la distribucin poblacional. An cuando la variable sea discreta, una curva suave suele ser una buena aproximacin para la distribucin poblacional, especialmente cuando el nmero de valores posibles de la variable es grande. Comentaremos a continuacin y a modo de cierre del tema de estadstica descriptiva algunos problemas que aparecen al interpretar grficos.
3.3.1 DIBUJOS
En la Figura 13 se representa el nmero de conferencias organizadas en todos los departamentos de la Universidad A y la Universidad B, en el ao 2000. Cada cono representa 20 conferencias, por lo tanto, el grfico informa que en la Universidad A se
Liliana Orellana
Marzo 2001, 30
organizaron aproximadamente 100 conferencias en tanto que en B se organizaron 40. La informacin que brinda el grfico es equivalente a la informacin numrica. Figura 13. Nmero de conferencias organizadas por las Universidades A y B en 2000 (*). Universidad A Universidad B
(*) Cada cono representa 20 conferencias.
Cuando la representacin se realiza utilizando smbolos que cambian de tamao, la imagen puede resultar engaosa, tal como ocurre al representar los datos anteriores en la la Figura 14. En esta Figura, la altura del cono indica el nmero de conferencias. La impresin visual es engaosa porque no est claro cual de las dimensiones de la figura representa la magnitud de la variable. En general, frente a dibujos que no tienen la misma base, tendemos a comparar reas. Figura 14. Nmero de conferencias organizadas por las Universidades A y B en 2000(*).
80
40
Universidad A
Universidad B
La Figura 15 es otro ejemplo de la misma situacin. Como las magnitudes se representan en el dimetro, an cuando el dimetro de B es el doble que el de A, como el rea de B es 4 veces la de A, el grfico produce una impresin engaosa. Figura 15. Deuda externa de 3 pases (en miles de millones de dolares) (a). Pas C Pas B Pas A
100
100 200
100
200
300 400
El punto clave aqu es que an cuando el grfico es correcto, slo ser correctamente interpretado por los pocos lectores acostumbrados a leer los detalles de las notas al pie.
Liliana Orellana
Marzo 2001, 31
0. 4
0 .2 5
0. 35
0. 3
0 .2
0. 25
0 .1 5
0. 2
0. 15
0 .1
0. 1
0 .0 5
0. 05
-4
-3
-2
-1
10
11
12
13
14
15
CENTRO
CENTRO?
El centro es fcil de identificar si la distribucin es simtrica, pero es difcil si la distribucin es asimtrica. Por esta razn, no hay una nica medida de posicin para resumir una distribucin. Si la distribucin es simtrica diferentes medidas conducirn a similares resultados. Si la distribucin es claramente asimtrica diferentes propuestas apuntarn a distintos conceptos de centro y por lo tanto los valores sern diferentes. A los efectos de resumir los datos debemos preguntarnos: Qu medida resumen es la ms apropiado para la distribucin que presentan nuestros datos?
Liliana Orellana
Marzo 2001, 32
Qu propuesta permite responder mejor a las preguntas sobre el mundo real que pretendemos responder con estos datos?
X1 + X 2 + ... + X n = n
Xi
i =1
Media poblacional Si se dispone de la informacin de una variable X para las N unidades de anlisis de la poblacin, es posible calcular la media poblacional a la que denotaremos con la letra griega (mu), para distinguirla de la media obtenida en una muestra de n
X 1 + X 2 + ... + X N i =1 = N N
Xi
Media de datos agrupados Supongamos que se dispone de dos conjuntos de datos en los que se conoce la media y el nmero de datos de cada uno de ellos ( X1 , n1 y X 2 , n2 ). Calculamos la media de los n1 + n2 datos como el promedio pesado
X=
n1 X1 + n2 X 2 n1 + n2
Ejemplo. Datos sobre niveles de hierro srico en nios y nias con fibrosis cstica. X = nivel de hierro srico
Liliana Orellana
Marzo 2001, 33
X n
Varones 5.9 13
Mujeres 6.8 6
X=
El promedio pesado obtenido aqu es igual al que hubiramos obtenido promediando los datos de los 19 nios. Caractersticas y propiedades de la media. a) Se usa para datos numricos. b) Representa el centro de gravedad o el punto de equilibrio de los datos. Podemos imaginar a los datos como un sistema fsico, en el que cada dato tiene una masa unitaria y lo ubicamos sobre una barra en la posicin correspondiente a su valor. La media representa la posicin en que deberamos ubicar el punto de apoyo para que el sistema est en equilibrio.
10
11
13
14
15
c) La suma de las distancias de los datos a la media es cero. Esta propiedad est relacionada con el hecho que la media es el centro de gravedad de los datos. En la tabla siguiente comprobamos esta propiedad para los datos del ejemplo anterior.
Xi 10 14 12 111 12 13 Total = Xi - X -2 2 0 -1 0 1 0
d) Es muy sensible a la presencia de datos atpicos (OUTLIERS). Modificamos 1 dato en el ejemplo anterior X2 = 14 X2 = 26 y X =12 X =14.
10
11
12
13
14
15
16
26
Con solo modificar un dato la media se desplaz tanto, que ya no se encuentra entre la mayora de los datos. Podemos decir que en este caso la media no es una buena medida
Liliana Orellana
Marzo 2001, 34
de posicin de los datos. En consecuencia, la media es una buena medida del centro de la distribucin cuando sta es simtrica. Aunque la media es una medida simple de tendencia central, otras medidas son ms informativas y ocasionalmente ms apropiadas.
n +1 2. La mediana es el dato que ocupa la posicin en la lista ordenada. 2 ~ es el dato que ocupa la posicin central. Si el nmero de datos es impar, la mediana X
~ es el promedio de los dos datos centrales. Si el nmero de datos es par, la mediana X
X2 = 14 11
X3 = 12 12 14
X4 = 18 18
X5 = 11
~ = 12 + 14 = 13 . Obtenemos la mediana promediando el tercer y cuarto dato: X 2 Notar que (n+1)/2 no es la mediana, sino la localizacin de la mediana en el conjunto ordenado de datos. Si hay datos repetidos deben ser incluidos en el ordenamiento. La mediana es muy simple de obtener a partir de un grfico de tallo-hojas.
Liliana Orellana
Marzo 2001, 35
Mediana poblacional
La mediana poblacional se define de modo equivalente a la mediana muestral y es el valor de la variable por debajo del cual se encuentra a lo sumo el 50% de la poblacin y por . encima del cual se encuentra a lo sumo el 50% de la poblacin. La denotamos como ~
50%
0 1 2 3 4
50%
~
5
10
11
12
13
14
15
16
17
18
19
20
21
Propiedades de la mediana
a) La mediana puede ser usada no slo para datos numricos sino adems para datos ordinales, ya que para calcularla slo es necesario establecer un orden en los datos. b) Si la distribucin de los datos es aproximadamente simtrica la media y la mediana sern aproximadamente iguales. Si la distribucin de los datos es asimtrica, la media y la mediana diferirn segn el siguiente patrn: ~ X > X Asimetra derecha (cola larga hacia la derecha) ~ Asimetra izquierda (cola larga hacia la izquierda) X < X
Ejemplos
1) 12, 13, 14, 15, 16 2) 12, 13, 14, 15, 20 3) 2, 13, 14, 15, 16 En la poblacin:
~ = 14 X = X ~ = 14 X = 15 > X
~ = 14 X = 12 < X
-4
-3
-2
-1
10
11
12
13
14
15
16
17
18
19
20
21
-20
~ =
c) La mediana es una medida de posicin robusta. No se afecta por la presencia de datos outliers, salvo que modifiquemos casi el 50% de los datos menores o mayores de la muestra (la proporcin de datos que debemos modificar para modificar la mediana depende del nmero de datos de la muestra).
Liliana Orellana
Marzo 2001, 36
Ejemplo
I) 10 II) 10
11 11
12 12
12 12
13 13
14 26
X = 12 X = 14
~ = 12 X ~ = 12 X
d) La mediana es insensible a la distancia de las observaciones al centro, ya que solamente depende del orden de los datos. Esta caracterstica que la hace robusta, es una desventaja de la mediana.
Ejemplo. Todos los conjuntos de datos siguientes tienen mediana 12
10 10 0 10
11 11 11 11
12 12 12 12
13 13 12 100
14 100 12 100
e) Si hay datos censurados en la muestra no es posible calcular la media, sin embargo, eventualmente puede calcularse la mediana.
Ejemplo
Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los datos que se indican entre parntesis tienen censura derecha, es decir, se sabe que el paciente sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia. I) 1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15 ~ = 28. Es posible Como n = 15 la mediana es el octavo dato, por lo tanto X calcularla aunque haya datos censurados, porque los mismos se encuentran ms all de la posicin 8 que define la mediana. Aunque no conocemos exactamente el tiempo que sobrevivi el paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupar la posicin 11 o una superior. 1 5 10 (12) 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
II)
No es posible calcular la mediana debido al dato indicado como (12). Sabemos que este paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero valor, el que puede ocupar cualquier posicin entre la quinta y la ltima.
Comparacin de la media y la mediana
MEDIA MEDIANA VENTAJA Usa toda la informacin que Representa el centro de la distribucin S proveen los datos. (en un sentido claramente definido). Es de manejo algebraico simple. Robusta a la presencia de outliers. til para datos ordinales. DESVEN- Muy sensible a la presencia de Usa muy poca informacin de los datos. TAJAS datos outliers.
Liliana Orellana
Marzo 2001, 37
1. Ordenamos los datos de menor a mayor. 2. Excluimos los n. datos ms pequeos y los n. datos ms grandes. 3. Calculamos el promedio de los datos restantes y lo denominamos X .
Cmo elegimos ?
Depende de cuantos outliers se pretende excluir y de cun robusta queremos que sea la medida de posicin. Cuando seleccionamos = 0 tenemos la media, si elegimos el mximo valor posible para (lo ms cercano posible a 0.5) tenemos la mediana. Cualquier poda intermedia representa un compromiso entre ambas. Una eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Cundo usar esta medida?
Cuando se sospecha que hay errores groseros en los datos, pero no tenemos modo de decidir si el dato es errneo. Esto permite excluir datos aberrantes de un modo menos sesgado, porque estamos excluyendo datos de ambos extremos.
Ejemplo
Calculamos la media 20% podada para los datos siguientes que corresponden a los puntajes asignados a una gimnasta por 5 jueces durante una competencia olmpica. X1 = 85 1. Ordenamos los datos: X2 = 98 85 95 X3 = 99 98 98 X4 = 95 99 X5 = 98
Excluimos el primer y el ltimo dato de la muestra ordenada. 3. Promediamos los datos restantes
X 0.20 = 95 + 98 + 98 = 97 . 3
~ = 98. Para estos datos el promedio y la mediana resulta ser X =95, X Qu ventaja tiene haber usado la media 20% podada? El puntaje final de la gimnasta no se ve afectado por la calificacin notablemente baja que le asignara uno de los jueces.
Liliana Orellana
Marzo 2001, 38
Si n = 37 y quisiramos una poda del 10% deberamos excluir 37 0.10 = 3.7 datos de cada extremo. Las opciones son: Seleccionar una poda menor o igual que . En este caso podamos 3 datos de cada extremo e informamos que se calcul la media 8.1% podada. Calculamos la media podando 3 datos y luego la media podando 4 datos de cada extremo y finalmente calculamos un promedio ponderado de estas dos medidas.
Cul de las tres medidas de posicin preferir: media, mediana o media -podada?
Si la distribucin de la variable es simtrica las tres medidas deberan dar resultados similares. En este caso, es preferible usar la media ya que es la que tiene menor error de estimacin. Esto es, la distancia entre la media muestral y la verdadera media poblacional en promedio es menor que la distancia entre la mediana o la media -podada y la media poblacional. Si la distribucin es asimtrica o con outliers generalmente es preferible resumir los datos con la mediana o la media -podada, ya que la estimacin obtenida en una muestra en promedio se encuentra ms cercana al correspondiente parmetro (media poblacional y mediana poblacional).
4.1.4 LA MODA
La moda es el dato que ocurre con mayor frecuencia en el conjunto. Es una medida de poca utilidad salvo para datos categricos en los que suele interesar identificar la categora con mayor cantidad de datos. En una muestra de datos numricos, puede ocurrir que la moda sea un valor que se repite un cierto nmero de veces, pero que no es tpico. Cuando se considera la distribucin poblacional de una variable continua, decimos que esta es UNIMODAL si presenta un pico y BIMODAL si aparecen dos picos claros.
Liliana Orellana
Marzo 2001, 39
La mediana es el percentil 50%. Otros percentiles con nombre propio son el percentil 25% y el percentil 75% que se denominan cuartil inferior y superior respectivamente, ya que juntamente con la mediana dividen a la distribucin en 4 porciones iguales.
25%
0 1 2 3
25%
4 5
25%
6 7
25%
8 9 10 11 12 13 14 15 16 17 18 19 20 21
p25
p50
p75
1. Ordenar los datos de menor a mayor. 2. El cuartil inferior es el dato que ocupa la posicin (n+1)/4 en la muestra ordenada. 3. El cuartil superior es el dato que ocupa la posicin 3(n+1)/4 en la muestra ordenada. Si la posicin resulta ser un nmero decimal, promediamos los datos que se encuentran a izquierda y derecha de la posicin obtenida.
Ejemplo
134 + 146 = 140 2 ~ = 170 Posicin de la mediana = (13+1)/2 = 7 X 302 + 338 = 320 Posicin del Cuartil Superior = 3.(13+1)/4 = 10.5 CS = 2 Posicin del Cuartil Inferior = (13+1)/4 = 3.5 CI =
Un modo de resumir toda la distribucin de los datos es informar los siguientes cinco nmeros resmenes:
Mnimo, Cuartil inferior, Mediana, Cuartil superior, Mximo
Liliana Orellana
Marzo 2001, 40
Los paquetes estadsticos calculan los percentiles usando diferentes mtodos, y diferentes criterios para interpolar. El modo de clculo que presentamos aqu para los cuartiles tiene la ventaja de su simplicidad. Cuando el conjunto de datos es grande los distintos mtodos tienden a producir el mismo valor para el percentil, pero para conjuntos pequeos pueden diferir ligeramente. Los percentiles son modos muy tiles de resumir la distribucin de datos censurados. Es posible calcular un percentil siempre que todos los datos tengan el mismo tipo de censura y queden a la derecha (cuando la censura es derecha) o a la izquierda (cuando la censura es izquierda) de la posicin que define el percentil.
Las medidas de dispersin o variabilidad describen cun cercanos se encuentran los datos entre ellos, o cun cerca se encuentran de alguna medida de posicin. Introduciremos a continuacin algunos estadsticos que miden variabilidad del conjunto de datos.
Muestra A: Muestra B:
55 47
55 51
55 53
55 55
55 57
55 59
55 63
Rango = 55 55 = 0 Rango = 63 47 = 16
Liliana Orellana
Marzo 2001, 41
Muestra C:
39
47
53
55
57
63
71
Rango = 71 39 = 32
Caractersticas y propiedades
Es muy simple de obtener. Es extremadamente sensible a la presencia de datos atpicos. Si hay datos outliers, estos estarn en los extremos, que son los datos que se usan para calcular el rango. Ignora la mayora de los datos. En general aumenta cuando aumenta el tamao de la muestra (las observaciones atpicas tienen ms chance de aparecer en una muestra con muchas observaciones).
En consecuencia, reportar el rango o el mximo y el mnimo de un conjunto de datos, no informa demasiado sobre las caractersticas de los datos. A pesar de esto es frecuente encontrar en las publicaciones cientficas datos numricos resumidos a travs de una medida de posicin acompaada por los valores mnimo y mximo.
(X i X) 2
i =1
n 1
La varianza muestral puede pensarse como promedio de las distancias a la media al cuadrado. Sin mebargo, la varianza no tiene las mismas unidades que los datos. Para salvar este inconveniente, definimos la desviacin estndar muestral como la raz cuadrada positiva de la varianza
s = s2 . Varianza y desviacin estndar poblacional
Liliana Orellana
Marzo 2001, 42
Si se dispone de la informacin de una variable X para las N unidades de anlisis de la poblacin, denotamos con 2 y (sigma) la varianza y la desviacin estndar de la poblacin respectivamente y las definimos del siguiente modo:
2 =
( X1 ) + + ( X n ) = N
2 2
( X i )2
i =1
= 2
La razn para usar (n 1) y no n en el denominador de la varianza muestral tiene que ver con el hecho de que el valor de s2 obtenido en una muestra, se usa para estimar la varianza poblacional 2. Definida con (n 1) en el denominador la varianza muestral posee una propiedad deseable, resulta ser insesgado, esto es, en promedio no subestima ni sobrestima el valor de la varianza poblacional.
Ejemplo
55 51 47
55 53 53
55 55 55
55 57 57
55 59 63
55 63 71
s2 = 0 s2 = 28 s2 = 108
Calculamos la varianza y el desvo estndar para la Muestra B. Se deja como ejercicio verificar que los resultados obtenidos para A y C son correctos.
2 sB =
(X1 X) 2 + + (X n X) 2 (47 55) 2 + (51 55) 2 + + (63 55) 2 = n 1 7 1 2 2 2 (8) + (4) + ... + 8 168 = = = 28 6 6 s B = 28 = 5.29
Comparando las desviaciones estndar de las tres muestras vemos que sA < sB < sC. Adems observamos que sA = 0, ya que todas las observaciones toman el mismo valor.
Interpretacin del valor de la desviacin estndar
La desviacin estndar s es til para comparar la variabilidad de dos conjuntos de datos en los que la variable a sido medida en las mismas unidades. Si en una muestra s = 5.4 y en otra s = 10.4 podemos asegurar que los datos de la segunda muestra estn ms dispersos que los de la primera. Pero cmo interpretamos el valor s = 5.4? La desviacin estndar nos da idea de la distancia promedio de los datos a la media (aunque estrictamente hablando no es el promedio). Pero la interpretacin de s requiere algn conocimiento de la distribucin de los datos.
Regla emprica
Si el histograma de los datos es aproximadamente simtrico y acampanado entonces, - Aproximadamente el 68% de las observaciones caen en el intervalo X s y X + s . - Aproximadamente el 95% de las observaciones caen en el intervalo X 2s y X + 2s . X 3s y X + 3s . - Prcticamente todas las observaciones caen en el intervalo
Liliana Orellana
Marzo 2001, 43
120
80
40
0 2 5 8 11 14 17 20 23 26 29 32 35 38
X 2s
Xs
X+s
X + 2s
68% de los datos 95% de los datos casi todos los datos
Esta regla es vlida para distribuciones no necesariamente acampanadas, pero puede ser errnea cuando se aplica a distribuciones fuertemente asimtricas tales como la que se presenta en el histograma siguiente en el que X = 3 y s = 2.45. Esta distribucin ficticia podra representar la distribucin de ingreso mensual (en cientos de pesos) de una muestra de asalariados con cargos no jerrquicos de una provincia Argentina.
240
160
80
0 0 2 4 6 8 10 12 14 16 18 20
Es til nuestra regla emprica para el desvo estndar en datos con esta distribucin? En este caso, al restar 2s a la media, caemos fuera de la escala de la variable X 2 s = 3 - 2 2.45 = -1.9 y la interpretacin que propusimos a travs de la regla emprica resulta no ser apropiada. Cuando la variable slo puede tomar valores dentro de un cierto rango, tal como ocurre con el ingreso o el tiempo transcurrido hasta un cierto evento que no pueden ser menores que cero, el hecho de obtener valores fuera del rango al aplicar la regla con 1 o 2 desvos estndar nos indica que la distribucin de la variable es fuertemente asimtrica.
Propiedades de la desviacin estndar
s mide la dispersin alrededor de la media, por lo tanto es natural elegir esta medida de dispersin cuando se usa la media como medida de posicin.
Liliana Orellana
Marzo 2001, 44
s = 0 solamente cuando todos los datos son iguales, de otro modo s > 0. s es una medida de dispersin muy sensible a la presencia de datos outliers. De hecho, es ms sensible que la media ya que las distancias estn elevadas al cuadrado.
1. 2. 3. 4. 5.
Ordenamos los datos de menor a mayor. Calculamos la mediana. Calculamos la distancia de cada dato a la mediana. Despreciamos el signo de las distancias y las ordenamos de menor a mayor. Buscamos la mediana de las distancias sin signo.
Propiedades de la MAD
Si la distribucin es acampanada y simtrica la MAD y el desvo estndar s se relacionan del siguiente modo:
s 1.48 MAD
Ejemplo
Liliana Orellana
Marzo 2001, 45
2. Calculamos las diferencias a la mediana 66, 0, 2, 58, 36, 24, 15, 2, 0, 25, 76, 132, 168, 242, 508 15, 24, 25, 36, 58, 66, 76, 132, 168, 242, 508 3. Despreciamos el signo de las distancias y las ordenamos de menor a mayor 4. Tenemos n = 13 diferencias, por lo tanto la mediana es la diferencia que ocupa el sptimo lugar, en consecuencia MAD = 58 Si la distribucin fuera simtrica esperaramos que el desvo estndar fuera
s 1.48 MAD = 1.48 58 = 85.8
pero para estos datos s = 160.48. Esta gran diferencia nos dice que la distribucin es asimtrica. El histograma de estos datos, que se presenta en la figura siguiente confirma este hecho.
8
Si todos los datos son iguales DI = 0. Pero DI puedes ser igual a cero an cuando no todos los datos sean iguales.
Ejemplo
5 12 12 12 12 12 20
n = 7 CI = 12
CS = 12
DI = 0
Es una medida robusta de dispersin. Cuando la distribucin es simtrica y acampanada la relacin entre la distancia intercuartil y el desvo estndar es la siguiente
Liliana Orellana
Marzo 2001, 46
DI
Para distribuciones muy asimtricas s > DI
4 s 3
Ejemplo
Consideremos nuevamente los datos siguientes.
Posicin 1 Datos 2 3 4 5 6 7 8 9 10 11 12 13 104 112 134 146 155 168 170 195 246 302 338 412 678
134 + 146 = 140 2 302 + 338 = 320 Posicin del Cuartil Superior = 3.(13+1)/4 = 10.5 CS = 2 Posicin del Cuartil Inferior = (13+1)/4 = 3.5
CI =
DI = CS CI = 320 140 = 80 Concluimos que el 50% central de los datos se encuentra en una distancia de 80 unidades. Para estos datos s = 160.5. Si la distribucin fuera simtrica esperaramos que DI 0.75 s = 0.75 160.5 = 120. Sin embargo, DI = 80, lo que nos indica que la distribucin es asimtrica.
Liliana Orellana
Marzo 2001, 47
5. Partiendo del cuartil inferior trazar una lnea (bigote) que llegue hasta el ltimo dato contenido dentro de la 1 cota inferior. Partiendo del cuartil superior trazar una lnea (bigote) que llegue hasta el ltimo dato contenido dentro de la 1 cota superior. 6. Marcar la posicin de los outliers con un smbolo (por ejemplo, *) y de los outliers severos con otro smbolo (por ejemplo, ).
Ejemplo
Consideremos nuevamente los datos siguientes.
Posicin 1 Datos 2 3 4 5 6 7 8 9 10 11 12 13 104 112 134 146 155 168 170 195 246 302 338 412 678
DI = 320 140 = 80
Calculamos las cotas: 2 cota inferior = CI 3 DI = 140 3 80 = 100 1 cota inferior = CI 1.5 DI = 140 1.5 80 = 20 1 cota superior = CS + 1.5 DI = 320 + 1.5 80 = 440 2 cota superior = CS + 3 DI = 320 + 3 80 = 580 El grfico de caja resultante se muestra en la figura siguiente.
100
130
160
190
220 250
280 310
430
460
490
520 550
580 610
640
670
outlier severo
Qu se observa? Un dato outlier. La distribucin de los datos es asimtrica hacia la derecha, la mitad inferior de los datos se distribuye en un rango mucho menor que la mitad superior.
Liliana Orellana
Marzo 2001, 48
Muestra una medida de dispersin robusta DISTANCIA INTERCUARTIL Permite estudiar la simetra de la distribucin Nos da un criterio de deteccin de datos outliers
Los distintos paquetes estadsticos dibujan box-plots que no siempre se basan en los criterios que hemos detallado aqu, algunos cambian el modo de calcular los cuartiles, otros por ejemplo, ofrecen opciones de indicar la media y no la mediana en la caja. Estos grficos son muy tiles para comparar varias distribuciones. La Figura siguiente muestra los datos correspondientes a los resultados de una encuesta que se tom en cuatro poblaciones diferentes las que se identifican de 1 a 4. La variable que se registr es el grado de satisfaccin con el desempeo de los gobernantes en el ltimo ao (puntaje de 0 a 100).
80
60
40
20 P OB L AC 1 POB L AC 2 POBL AC 3 P OB L AC 4
Liliana Orellana
Marzo 2001, 49
TAS 250
70
Liliana Orellana
Marzo 2001, 50
En cada una de estas situaciones el enfoque analtico y el modo de resumen y presentacin habitual de los datos cambia. Brevemente, el modo de resumir los datos en cada situacin se presenta a continuacin. A) Tablas de doble entrada y medidas de asociacin (riesgo relativo, odds ratio, etc.). B) Medidas resmenes de nivel de colesterol para cada grupo definido por hbito de fumar o box-plots para cada grupo. C) Un posible modo de resumir es categorizar la variable numrica y presentar la proporcin de casos positivos (infarto de miocardio) en los distintos grupos definidos por nivel de colesterol. D) Grficos de dispersin y medidas de correlacin. En cualquier caso interesa estudiar si existe asociacin entre las dos variables, pero el modo de medir asociacin o efecto difiere. En este captulo consideraremos nicamente el problema de representar grficamente dos variables numricas y el modo de resumir la fuerza de la asociacin entre dos variables numricas. Finalmente consideraremos el caso en que la variable independiente es el tiempo, que merece un tratamiento especial y se conoce como anlisis de seriees de tiempo.
Liliana Orellana
Marzo 2001, 51
600
12
estadia
camas
400
10
200
6 40 50 edad 60 70
Qu nos dicen los grficos de la Figura 1 acerca de la relacin entre las variables?
Figura 1 a) Nmero de camas y nmero de pacientes estn fuertemente relacionados. Cuando una variable aumenta la otra tambin aumenta, es decir, entre ambas variables existe una asociacin positiva. Adems podemos proponer que la relacin entre ambas variables es lineal ya que una lnea recta aproximara bastante bien la tendencia general de la nube de puntos.
Liliana Orellana
Marzo 2001, 52
Figura 1 b) No parece haber relacin entre el tiempo de internacin y la edad del paciente. Si nos ubicamos en alguna edad particular, digamos 50 aos, podemos encontrar pacientes cuya internacin tuvo una duracin de cualquier magnitud. La nube de puntos no presenta una tendencia particular.
Figura 2. Grficos de dispersin
a) Tasa de natalidad versus nmero de aparatos de TV
50
b) Datos ficticios.
150
40
30
100
20
10 0 20 40 TV 60 80
50 0 5 x 10 15
En la Figura 2 a) hemos representado la tasa de nacimiento cruda (nmero de nacimientos cada 1000 habitantes) y el nmero de televisores cada 100 habitantes para 26 naciones (desarrolladas y en vas de desarrollo). Fuente: Statistical Abstract of the United States, 1995 and Human Development Report, 1995, Oxford University Press. En la Figura 2 b) se muestran datos ficticios de dos variables X e Y.
Qu nos dicen los grficos de la Figura 2 acerca de la relacin entre las variables?
Figura 2 a). La tasa de natalidad est inversamente relacionada con el nmero de televisores cada 100 habitantes. Cuando el nmero de televisores aumenta, la tasa de natalidad disminuye. Adems, el decrecimiento no es lineal (una lnea recta no es un buen modelo para el tipo de relacin que se observa entre las dos variables). Cuando el nmero de televisores es bajo (cercano a cero), un aumento de 20 televisores por cada 100 habitantes produce una importante disminucin de la tasa de natalidad, mientras que si el nmero de televisores es alto (ms de 40), un aumento de la misma magnitud en el nmero de televisores produce una disminucin despreciable en la tasa de natalidad. La relacin entre las dos variables podra describirse como exponencial negativa. Figura 2 b). X e Y estn fuertemente relacionadas, podemos proponer que la relacin entre ambas es curvilnea. No podemos hablar de direccin de la relacin ya que es en parte creciente y en parte decreciente. Al estudiar la relacin entre dos variables CUANTITATIVAS. En general interesa: