Professional Documents
Culture Documents
Bioestadstica
PRESENTACIN DE LOS DATOS
Bio.Est. Wilver Rodrguez Lpez. M.Sc. Mg. Tatiana Burga Ghersi
1. Recoleccin de datos
En una investigacin, la recoleccin de datos es
un paso crucial e indispensable. Los datos se obtienen de una medicin o de un conteo de las variables de inters (cuantitativas o cualitativas) en la poblacin o muestra.
Fuentes de Datos
Primarias: Aquellos datos que son generados por el
de las unidades de observacin y que se encuentran documentados en: revistas, tesis, censos, registros, publicaciones de organizaciones, publicaciones en Internet, entre otros.
Las fuentes mencionadas constituyen fuentes
secundarias de datos y son las primeras que deben ser analizadas en el proceso de recoleccin.
FUENTE
METODOS RECOLECCION
TECNICAS
SECUNDARIA RECOLECCION CUALITATIVA METODO DIRECTO PRIMARIA RECOLECCION CUANTITATIVA METODO INDIRECTO
FICHAS
OBSERVACION
CUESTIONARIO
ENTREVISTA
2. Elaboracin de datos Despus de recopilar y revisar los datos necesarios para la investigacin, se deben clasificar y presentar de forma adecuada para permitir su anlisis e interpretacin.
La tabla de frecuencias es una forma de agrupacin de datos. Los datos pueden ser cualitativos o cuantitativos, Facilita la lectura y el anlisis de los datos. Sirve para observar la frecuencia con la cual los datos adoptan ciertos valores.
En la tabla de frecuencias primero est la columna de los valores y seguidamente se puede hallar: N de hijos por paciente 0 fi FAS 2 (f1) 2 Fi FAA (F1) hi% FRS 4.7 (h1%) Hi% FRA 4.7 (H1%)
1
2 3 4 ms de 4 TOTAL
7 (f2)
9 (F1 + f2)
16.7 (h2%)
16.7 (h3%) 26.2 (h4%) 23.8 (hi5%)
21.4 (H2%)
38.1 (H3%) 64.3 (H4%) 88.1 (H5%)
frecuencia absoluta del valor del i-simo intervalo (en el caso de variables cuantitativas continuas). Indica el nmero de veces que aparece repetido dicho valor en el conjunto de observaciones estudiadas. Frecuencia absoluta acumulada (Fi): indica la suma de las frecuencias absolutas de los iguales o inferiores a ese valor al i-simo intervalo (en el caso de variables cuantitativas continuas) o. Fi = F(i-1) + fi
porcentaje del total de observaciones que representa el valor el i-simo intervalo (en el caso de variables cuantitativas continuas) o. Se obtiene: hi% = (siendo n el nmero de observaciones) Frecuencia relativa acumulada (Hi%): es el cociente de frecuencia absoluta y el nmero total de observaciones, multiplicado por 100. Hi% = (siendo n el nmero de
carctersticas especiales por lo que la estructuracin de una tabla de frecuencias para cada una es diferente Tipo de variable: cualitativa, cuantitativa discreta y cuantitativa continua.
Para explicar cmo se construye una tabla de frecuencias con datos cualitativos se utilizar los resultados de la evaluacin de 20 pacientes hacia un tratamiento: Paciente Bueno Satisfactor Regular Malo
io
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Haciendo un conteo de las observaciones, se puede establecer que de los 20 pacientes en 6 de ellos el resultado es bueno, en 8 de ellos es satisfactorio, en 3 es regular y en 3 es malo. Estas cifras constituyen la frecuencia absoluta simple (fi) de cada valor (bueno, satisfactorio, regular y malo). Para obtener la frecuencia relativa simple (hi%) se procede a aplicar la frmula establecida (fi/n x 100).
Paciente
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Bueno
Satisfactori o
Regular
Malo
fi
hi%
TOTAL
20
100
hi%
30 40 15 15 100
6 8 3 3 20
Haciendo un conteo de la informacin, se puede establecer que de las 15 pacientes 4 de ellas no tienen hijos, 3 de ellas tienen un hijo, 3 de ellas tienen dos hijos, 2 de ellas tienen tres hijos, 2 de ellas tienen cuatro hijos y slo 1 tiene ms de 4 hijos. Estas cifras constituyen la frecuencia absoluta simple (fi) de cada valor (0, 1, 2, 3, 4 y ms de 4) Con esta informacin se puede hallar tambin las frecuencias absolutas acumuladas (Fi = F(i-1) + fi).
Para obtener la frecuencia relativa simple (hi%) se procede a aplicar la frmula establecida (fi/n x 100).
Finalmente, la frecuencia relativa acumulada (Hi%) tambin se halla con la frmula Pacient 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 correspondiente (Fi/n x 100). e
# de hijos 3 2 0 5 4 0 1 0 1 2 2 1 4 3 0
# de hijos 0 1 2 3 4 ms de 4
TOTAL
fi
Fi
hi%
Hi%
El resultado es la siguiente tabla de frecuencias: Cabe mencionar que en el caso de que la variable
pueda adoptar una gran cantidad de valores se utilizan enunciados como ms de... o menos de... para resumir la informacin, pero NUNCA intervalos. # de hijos 0 1 2 3 4 ms de 4
TOTAL
fi 4 3 3 2 2 1 15
Fi 4 7 10 12 14 15
cantidad muy grande de posibles valores. Cuando se manejan ms de 30 observaciones es necesario usar intervalos que permitan ordenar de forma prctica los valores.
Slo cuando se dividen los valores en intervalos encontramos en la tabla de frecuencias: clase, marca de clase y lmites reales.
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Ciudad A A B C A D C A B B C A A D D B A A C D D C C C D A A B B C
Edad 30 43 58 61 70 42 58 39 60 55 57 49 61 69 43 46 69 44 59 62 66 71 70 65 37 40 61 65 56 38
Sexo M M F M M F F M F M M M F M M F M M F M M M F M M F F M M M
k= 1 + 3.322 log n
En relacin al ejemplo se tiene que: k=1 + 3.322 log 30 = 5.9 En este caso K puede ser: 4, 5 o 6; se elige el valor que es submltiplo de A, es decir 6 . Asumiendo K= 6 3-Determinar la amplitud del intervalo de clase (C), utilizando la siguiente expresin:
C= A / k
Para nuestro ejemplo: C= 42 / 6 = 7
4- Determinar los lmites. El Vmin es el lmite inferior de la primera clase y su respectivo lmite superior ser Vmin + (C-1); el lmite inferior de la segunda clase es el lmite superior de la primera clase mas uno y el respectivo lmite superior ser igual al lmite inferior mas (C-1); y as sucesivamente hasta completar el nmero de intervalos. En relacin al ejemplo se tiene: 30 + (7 1 ) Edad mnima 36 + 7, as sucesivamente 30-36
30 + 7, as sucesivamente
Edad mxima
Nota: Si los lmites estn expresados hasta dcimas entonces se tendr que el lmite superior de la primera clase es: Vmin + (C-0.1); si est expresado hasta centsimas ser Vmin + (C-0.01) y as sucesivamente.
5- La clasificacin de los datos de una variable continua puede hacerse manualmente o en forma automatizada.
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Edad 30 43 58 61 70 42 58 39 60 55 57 49 61 69 43 46 69 44 59 62 66 71 70 65 37 40 61 65 56 38
A = 42 K=6 C=7
Hi%
Lmites reales
TABLA DE FRECUENCIAS
Clase
1 2
Edad
30 36 37 43
Xi
33 40
fi
1 7
Fi
1 8
hi%
3.3 23.3
Hi%
3.3 26.6
Lmites reales
29.5 36.5 36.5 43.5
3
4 5 6
44 50
51 57 58 64 65 71
47
54 61 68
3
3 8 8 30
11
14 22 30
10.0
10.0 26.7 26.7 100
36.6
46.6 73.3 100
43.5 50.5
50.5 57.5 57.5 64.5 64.5 71.5
Las frecuencias absolutas son siempre valores enteros. La suma de las frecuencias absolutas es igual n. Las frecuencias relativas son siempre valores fraccionarios. O < h1 < 1 La suma de las frecuencias relativas es igual 1 El ltimo valor de las frecuencias absolutas acumuladas es igual a n El ltimo valor correspondiente a las frecuencias relativas debe ser igual a 1
donde: fi: Frecuencia absoluta del i-simo intervalo, nos indica nmero de veces que aparece repetido dicho valor en el conjunto de observaciones estudiadas. Fi: Frecuencia absoluta acumulada de la clase i nos indica la suma de las frecuencias absolutas de los iguales o inferiores a el. F1=f1 F2=f1+f2 hi%: Frecuencia relativa de la clase i es el cociente entre la frecuencia absoluta y el nmero total de observaciones multiplicando por 100. hi% = fi/n*100
Hi%: Frecuencia relativa acumulada de la clase i, es la frecuencia absoluta acumulada dividido por el nmero total de observaciones. Hi% = Fi/n*100 Xi: Es la marca de clase de la clase i se determina mediante el promedio de los lmites de dicho intervalo. Limites reales: Si los lmites nominales de los intervalos de clase estn expresados en enteros los lmites reales de cada intervalo se determina restando y sumando media unidad al lmite inferior y superior respectivamente de cada intervalo.
hileras horizontales de nmeros. El nmero utilizado para designar una hilera es un tallo y el resto de nmeros en la hilera se denominan hojas.
33.4
34.2 34.5
33.6
34.2 34.6
33.7
34.2 34.6
33.7
34.2 34.6
33.8
34.2 34.7
33.9
34.3 34.7
34.0
34.3 34.8
34.9
36.0
35.1
36.1
35.1
36.5
35.2
35.2
35.3
35.6
35.8
identificar los valores entre los cuales se encuentra la distribucin, es decir, el dato menor y el dato 33.1 mayor. 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.5 34.9 36.0 34.2 34.5 35.1 36.1 34.2 34.2 34.2 34.2 34.3 34.3 34.6 34.6 34.6 34.7 34.7 34.8 35.1 35.2 35.2 35.3 35.6 35.8 36.5
van a designar las hileras- los cuales deben contener a todos los valores de la distribucin (del 33.1 al 36.5). La eleccin de los tallos depende de la unidad con la que se quiera trabajar: enteros, dcimas, centsimas... En el caso del ejemplo, los datos estn dados indicando dcimas por lo que trabajar con tallos enteros es la opcin ms precisa y cmoda.
36.
tallos y hojas con menos de 5 tallos. Por lo tanto, los tallos propuestos se deben dividir (desdoblar) en una especie de intervalo, produciendo el doble. La divisin del tallo debe distinguirse visualmente: 33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.5 34.9 36.0 34.2 34.5 35.1 36.1 34.2 34.2 34.2 34.2 34.3 34.3 34.6 34.6 34.6 34.7 34.7 34.8 35.1 35.2 35.2 35.3 35.6 35.8 36.5
en s. Todos los datos, dependiendo de su valor, se colocan a lado de su respectivo tallo. En el ejemplo, los datos cuyo valor se encuentre entre 33.0 y 33.4 se deben colocar en la hilera del tallo 33*. Se debe indicar el valor decimal exacto de cada dato a la derecha del tallo. En el ejemplo hay 2 valores entre 33.0 y 33.4. Para clasificar el primero (33.1) se agrega al diagrama de tallos y hojas de la siguiente manera:
33*1
que le correspondan: en la hilera del tallo 33. se debe colocar los nmeros 67789, correspondientes a los valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9. a la hilera del tallo 34* se debe colocar 012222233 correspondientes a los valores que se encuentran entre 34.0 y 34.4. etc.
Hay 35 observaciones. El dato menor es 33.1cm. El dato mayor es 36.5cm. El rango de los valores observados es de 3.4cm
(dato mayor dato menor).
34cm. Los casos mayores a 36cm son pocos. La distribucin de los datos es asimtrica: distribucin heterognea.
informacin usando tablas o cuadros, pudiendo ser estos univariantes o bivariantes. Si se utiliza este mtodo se debe asegurar la implementacin de los 4 elementos que constituyen a los cuadros y tablas:
ttulo, matriz, cuerpo y Fuente notas aclaratorias. (opcional)
Ttulo
Es un enunciado breve e informativo
acerca del contenido del cuadro. El ttulo ideal debe contestar las siguientes preguntas:
Qu contiene el cuadro?
(QUE?) Cmo se presenta este contenido? (COMO?) De dnde se presenta? (DONDE?) Cundo se obtuvo la informacin? (CUANDO?)
Ejemplo: Sesenta pacientes con Hipertensin arterial maligna provenientes de 4 provincias atendidos en el Hospital Cayetano Heredia Piura en el ao 2007. El titulo se redactara contestando a: Qu?: Pacientes con hipertensin arterial maligna Cmo?: Provincia de Residencia Dnde?: Hospital Cayetano Heredia- Piura Cundo?: 2007
Tttulo: Ejemplo 2
Si se quiere presentar en un cuadro la
informacin de 30 pacientes con cncer uterino que se distinguen por la residencia en 4 ciudades (cuadro univariante) y que han sido atendidos en el Hospital de Talara en el 2006, se redacta el ttulo de la siguiente forma:
Qu?: Pacientes con cncer uterino
Tabla N 1: Pacientes con cncer uterino segn lugar de residencia. Hospital de Talara - Piura, 2006.
Lugar de residencia
Talara El Alto Los Organos Lobitos Total
Nmero
11 6 7 6 30
Porcentaje
36.7 20.0 23.0 20.0 100
Fuente: Archivos del Departamento de Estadstica del Hospital de Talara. Piura, 2006.
ciudad de residencia, hay una presentacin de datos segn el gnero (cuadro bivariante), el cuadro cambia y, por consiguiente, el ttulo tambin. Tabla N 2: Pacientes con cncer gstrico segn lugar de residencia y por gnero. Hospital de Talara - Piura, 2006. Talara El Alto Lobitos TOTAL Lugar Los
de residencia Gnero Femenino Masculino Total rganos
4 7 11
3 3 6
2 5 7
1 5 6
10 20 30
Fuente: Archivos del Departamento de Estadstica del Hospital de Talara. Piura, 2006.
Matriz
Es la parte de la tabla o cuadro que presenta
la(s) variable(s) estudiadas y la informacin que se va a dar sobre ellas. En el caso de tablas univariantes -donde se presenta exclusivamente una variable- la matriz est constituida por la primera fila y la primera columna de la tabla. Cuando se trabajan tablas bivariantes la matriz esta constituida tambin por la primera fila y la primera columna de la tabla.
Cuerpo
Contiene la informacin que se obtuvo de las
observacin de la(s) variable(s) que se quiere(n) presentar. En este caso, est conformado por las frecuencias y porcentajes respectivos a las observaciones de edad.
Notas aclaratorias Generalmente se presenta como Fuente, y es en donde se indica el lugar de donde se obtuvo la informacin. Por ejemplo:
Fuente: Archivos del Departamento de Estadstica
caso de tratarse de variables continuas, el ttulo tambin cambia. Por ejemplo, si la informacin de los 30 pacientes con cncer uterino se presenta segn la edad y con intervalos de clase, el ttulo sera:
Tabla N 3: Distribucin de los pacientes con cncer uterino segn edad. Edad Porcentaje Hospital de Nmero Talara - Piura, 2006.
30 36 37 43 44 50 51 57 58 64 65 71 Total 1 7 3 3 8 8 30 3.3 23.3 10 10 26.7 26.7 100
Fuente: Archivos del Departamento de Estadstica del Hospital de Talara. Piura, 2006.
Ejemplo: Sesenta pacientes con Hipertensin arterial maligna provenientes de 4 provincias atendidos en el Hospital Cayetano Heredia Piura en el ao 2007. El titulo se redactara contestando a: Qu?: Pacientes con hipertensin arterial maligna Cmo?: Provincia de Residencia Dnde?: Hospital Cayetano Heredia- Piura Cundo?: 2007
Mtodo Grfico
En esencia, un grfico estadstico es la presentacin de la
informacin por medio de figuras geomtricas. El objetivo primordial de un grfico es dar una impresin visual de conjunto para una rpida y fcil comprensin. No deben considerarse como sustitutos de un tratamiento estadstico de los datos, sino ms bien como ayuda visual para interpretar problemas estadsticos. Debe ser sencillo y explicativo; en un buen grfico se puede:
Apreciar tendencias, variaciones, cambios y realizar visualmente
partes:
ttulo, escala, cuerpo y
Grfica N 1: Distribucin de los pacientes con cncer uterino segn edad. Hospital de Talara Piura, 2006.
fuente.
N de pacientes
Ttulo De la misma manera que en el mtodo tabular, el ttulo expresa el contenido del grfico, contestando las mismas preguntas: qu?, cmo?, cundo? y dnde? Por lo general, es igual o parecido al ttulo del cuadro que sirvi de referencia. Escala Se utiliza generalmente el sistema cartesiano, compuesto por 2 ejes: uno horizontal llamado abscisa y otro vertical llamado ordenada ambos se cortan en un punto llamado origen. Cuerpo Constituye el grfico en s. Es la representacin en dibujo de los datos, haciendo uso de formas geomtricas. Fuente La fuente indica el origen de los datos que se estn representando en el grfico. La eleccin de un grfico depende del objetivo que persigue, es decir, qu es lo que se quiere mostrar, para qu y para quines.
VARIABLES CUALITATIVAS
100
Femenino
Masculino
24 30 17 9 80
Estado civil
Soltero
Casado
Divorciado
Viudo
VARIABLES CUANTITATIVAS
a) Variable discreta
Es una variable que slo admite valores
numricos enteros.
Nmero de hijos Cantidad de comidas al da Libros ledos
hi% 4.7 16.7 16.7 26.2 23.8 11.9 100
H i%
2 3 4 5 6 ms de 6 TOTAL
En casos de tener una gran cantidad de datos, estos pueden ser agrupados. Libros ledos
100
50
0 2 3 4 5 6 >6
b) Variable continua
Es una variable que admite valores numricos reales, es
decir, que pueden contener dcimas, centsimas, milsimas, etc. La precisin de la observacin, en este tipo de variable, slo se ve limitado por el mtodo o instrumento con el cual se mide.
Edad Temperatura
Para la presentacin tabular, se utiliza la tabla de frecuencia Clase Edad Xi fi Fi hi% Hi% Lmites univariable. En casos de tener una gran cantidad reales de datos, estos 1 30 36 33 1 1 3.3 3.3 29.5 36.5 pueden ser 2 37 43 agrupados 40 7 en intervalos. 8 23.3 26.6 36.5 43.5
3 4 5 6 44 50 51 57 58 64 65 71 47 54 61 68 3 3 8 8 30 11 14 22 30 10.0 10.0 26.7 26.7 36.6 46.6 73.3 100 43.5 50.5 50.5 57.5 57.5 64.5 64.5 71.5
Edad
10 8 6 4 2 0
30-36
37-43
44-50
51-57
58-64
65-71
Tipos de datos
Variable
Cualitativa
Tipo de grfico
Barras: simples y todos sus variedades
Distribuciones de frecuencia
Cuantitativa discreta
Grficos pictogramas
circulares
Cuantitativa continua
Histogramas Polgonos de frecuencia Ojiva Curvas Grficos lineales Grficos logartmicos semilogaritmicos
Cuantitativa
Tendencias
Distrito Sexo Femenin o Masculin o Total Piura 8 14 22 Talar a 6 6 12 Sullana 4 10 14 Paita 2 10 12 Total 20 40 60
Grfico 2: Pacientes con Hipertension Arterial Maligna segn Provincia de Residencia y por sexo. Hospital Cayetano Heredia .Piura, 2005
100.0 80.0 60.0 40.0 20.0 0.0 PIURA TALARA SULLANA PAITA Provincia de Residencia F M
Nmero 22 12 14 12 60
Talara
Bellavista 20%
La Perla 37%
Piura
Sullana Paita
Fuente: Cuadro N1
Callao 20%
La Punta 23%
Histograma
Muestra la distribucin de datos cuantitativos El rea es proporcional a la frecuencia
respectiva Representa a la frecuencias absolutas o relativas Tiene como base los lmites reales de los intervalos de clase.
Clase 1 2 3 4 5 6
Edad 30 36 37 43 44 50 51 57 58 64 65 71
Xi 33 40 47 54 61 68
fi
Fi
hi%
Hi%
Lmites reales 29.5 36.5 36.5 43.5 43.5 50.5 50.5 57.5 57.5 64.5 64.5 71.5
GRAFICO N 4 PACIENTES CON TUMOR MALIGNO SEGN EDAD. Hospital Arzobispo Loayza. Lima.2004 20 16 12 8 4 0 33 40 47 54 61 68 Edad (aos)
Nmero de pacientes
GRAFICO N 5 PACIENTES CON TUMOR MALIGNO SEGN EDAD.Edad Pacientes con Hipertensin Arterial Maligna segn Hospital Arzobispo Loayza. Lima - 2004
20 16 12 8 4 0 33 40 47 54 61 68 Edad (aos)
Nmero de pacientes
Fuente: Cuadro N3
GRAFICO N6 HISTOGRAMA Y POLIGONO DE FRECUENCIAS RELATIVAS ACUMULADAS PACIENTES CON HIPERTENSION ARTERAL MALIGNA SEGN EDAD. Hospital Cayetano Heredia - Piura 2007
H% 100 80 60 40 20 0 33 40 47 54 61 68
Fuente: Cuadro N3
Edad (aos)