You are on page 1of 27

UNSCH Bioestadística I Prof. Reynán Cóndor A.

2. LOS DATOS
2.1. Observación
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadística a esas observaciones éstas deben estar en forma numérica.
- En el mejoramiento de cultivos, los números bien pueden ser rendimientos por parcela.
- En la investigación médica, pueden ser tiempos de recuperación bajo varios
tratamientos.
- En la industria, pueden ser cantidad de defectos en varios lotes de un artículo
producido en una línea de montaje.
Tales números constituyen datos y su característica común es la variabilidad o variación.
2.2. Datos
Daniel indica que los datos son la materia prima de la estadística. Para este propósito definió
a los datos como números. Las dos clases de números que se utilizan en estadística son
números que resultan de la toma —en el sentido literal del término— de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centígrados. Un
tipo bastante diferente de números se obtiene cuando el administrador de un hospital cuenta
el número de pacientes, quizá 20, dados de alta en un día. Cada uno de los tres números es un
dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más
próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con
dos decimales) a 72.81, porque 72.8146 está más cerca de 72.81 que de 72.82.
Al redondear 72.465 en centésimas nos hallamos ante un dilema, ya que está
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al
entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea
a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es
particularmente útil para minimizar los errores de redondeo acumulados cuando se
efectúa un gran número de operaciones.
2.3. Recolección de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen
de los elementos de una muestra, y las muestras se toman de la población, de tal forma que
sean lo más representativas posible. La técnica más común para asegurar una representación
adecuada es usar una muestra aleatoria.
2.4. Sistema y fuentes de información
El desempeño de actividades estadísticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los médicos probablemente quieran encontrar respuestas a preguntas
con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los
administradores posiblemente quieran responder a preguntas respecto a áreas de interés como
el espíritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 13


UNSCH Bioestadística I Prof. Reynán Cóndor A.

el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadística,
se comienza a investigar datos apropiados que sirvan como la materia prima en la
investigación. Estos datos normalmente están disponibles de una o más fuentes como las
siguientes:
1. Registros rutinarios. Es difícil imaginar algún tipo de organización que no lleve
registros de la operación diaria de sus actividades. Mientras que los registros clínicos de
un hospital, por ejemplo, contienen una inmensa cantidad de información acerca de los
pacientes, los registros contables de la institución contienen datos en abundancia sobre las
actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe
buscar primero en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no están disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lógica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clínica desea obtener
información respecto a la forma de transporte que utiliza el paciente para visitar la clínica.
Si la forma de admisión no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta información.
3. Experimentación. Frecuentemente, los datos necesarios para responder una pregunta
están disponibles sólo como resultado de la experimentación. Tal vez una enfermera quiere
saber qué estrategia es mejor para maximizar el seguimiento de las indicaciones médicas
por parte del paciente. La enfermera podría conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes.
La evaluación subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cuál es más efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigación.
En otras palabras, uno se puede encontrar con que alguien más ya planteó la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situación presente.
2.5. Población
Habitualmente se considera a una población como una colección de entidades, por lo general
personas. Sin embargo, una población o colección de entidades puede estar compuesta de
animales, máquinas, plantas o células. Una población de entidades se define como la colección
más grande de entidades de interés en un momento particular. Si se toma la medida de alguna
variable para cada una de las entidades en una población, se obtiene una población de valores
para esa variable. Por lo tanto, una población de valores se puede definir como la mayor
colección de valores para una variable aleatoria, los cuales son de interés en un momento
particular. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el
sistema de educación primaria del estado, la población está formada por todos esos pesos. Si
se tiene interés sólo en el peso de los estudiantes inscritos en el primer grado, se tiene una
población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto,
las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones
pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos
valores, se dice que la población es finita. Si, por otra parte, una población consiste en una
sucesión interminable de valores, entonces es una población infinita.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 14


UNSCH Bioestadística I Prof. Reynán Cóndor A.

2.6. Muestra
Una muestra puede definirse simplemente como una parte de una población. Suponga que una
población se compone de los pesos de todos los niños inscritos en el sistema de educación
primaria del estado, y se escoge para el análisis sólo una fracción de los niños; entonces se
tiene únicamente una parte de la población, es decir, se tiene una muestra.
2.7. Elaboración de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar
una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una
muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general
interviene una tabla de números aleatorios, como la tabla A.1. Esta tabla está formada por los
dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a
10,000 dígitos aleatorios. Estos números se obtuvieron en una máquina y no hay razón para
pensar que algún número apareciera con más frecuencia que otro, ni que alguna sucesión de
números fuese más frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013
doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves;
5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra
aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de
acuerdo con la magnitud asignándoles números de orden. La organización por orden no es
necesaria para extraer muestras al azar; el orden de los números aleatorios pudo haberse
asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tómense 20 dígitos consecutivos de la tabla
A.1 y regístrense como 10 pares. Estos serán los números de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma más
satisfactoria es señalar con el dedo en una de las páginas, leer los cuatro números opuestos
más cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida. Así:
1. En la primera página de la tabla A.1, el dedo encuentra el número 1188 (frente a 10 y
son los primeros cuatro dígitos en la columna 20-24).
2. Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dígitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una línea y se procede al revés para obtener
los otros números, o sea, 09,15,30 y 59.
4. Se toman los números de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fríjoles
marcados con 100 contenidos de grasa de leche, volviendo cada fríjol a la bolsa y mezclando
bien los frijoles antes de cada extracción. Por esta razón, se dice que el muestreo es con
reemplazo. Nótese que cada elemento puede sacarse cualquier número de veces

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 15


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes.
Los datos originales se modificaron para que se aproximaran a una distribución normal con
𝜇=40 lb y σ=12 lb.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0 10 25 33 50 40 75 47
1 12 26 33 51 40 76 48
2 14 27 34 52 41 77 48
3 15 28 34 53 41 78 48
4 17 29 34 54 41 79 49
5 18 30 35 55 41 80 49
6 20 31 35 56 42 81 49
7 22 32 35 57 42 82 50
8 23 33 36 58 42 83 50
9 25 34 36 59 42 84 51
10 26 35 36 60 43 85 51
11 27 36 37 61 43 86 52
12 28 37 37 62 43 87 52
13 28 38 37 63 43 88 53
14 29 39 37 64 44 89 54
15 29 40 38 65 44 90 55
16 30 41 38 66 44 91 57
17 30 42 38 67 45 92 58
18 31 43 38 68 45 93 60
19 31 44 39 69 45 94 62
20 31 45 39 70 46 95 63
21 32 46 39 71 46 96 65
22 32 47 39 72 46 97 66
23 32 48 40 73 47 98 68
24 33 49 40 74 47 99 70
Fuente: Steel y Torrie (1988)

Luego de usar la Tabla A.1, se obtiene una muestra aleatoria de 10 pesos, procedentes de la
Tabla 4.1
Tabla 4.2 Muestra aleatoria de 10 pesos.
grasa de
pares de leche
dígitos (libras)
06 20
17 30
22 32
84 51
44 39
55 41
09 25
15 29
30 35
59 42

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 16


UNSCH Bioestadística I Prof. Reynán Cóndor A.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 17


UNSCH Bioestadística I Prof. Reynán Cóndor A.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 18


UNSCH Bioestadística I Prof. Reynán Cóndor A.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 19


UNSCH Bioestadística I Prof. Reynán Cóndor A.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 20


UNSCH Bioestadística I Prof. Reynán Cóndor A.

2.8. Mecanismos para presentar, tabular y graficar datos

La siguiente Tabla muestra el número de bushels (bu) de trigo y maíz producidos en la


cooperativa PQR durante los años 1975-1985. Con referencia a esa tabla, determinar el año o
años durante los cuales: (a) la producción de trigo fue mínima, (b) la de maíz fue máxima, (c)
se dio el mayor descenso en la producción de trigo, (d) decreció la producción de maíz
respecto del año anterior y creció la de trigo, (e) se produjo idéntica cantidad de trigo y (f) la
producción conjunta de trigo y maíz fue máxima.

Número de Número de
Año bushels de bushels de
trigo maíz
1975 200 75
1976 185 90
1977 225 100
1978 250 85
1979 240 80
1980 195 100
1981 210 110
1982 225 105
1983 250 95
1984 230 110
1985 235 100
Solución
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.

Representar los datos del Problema anterior usando: (a) gráficos de trazos y (b) gráficos de
barras.

Solución
(a) La Figura muestra el gráfico de trazos.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 21


UNSCH Bioestadística I Prof. Reynán Cóndor A.

300

250

Número de bushels 200

150
Trigo

100 Maíz

50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

(b) Gráfico de barras.


300

250
Número de bushels

200

150
Trigo
100
Maíz
50

0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

Gráfico de barras en componentes

400
350
Número de bushels

300
250
200
Maíz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 22


UNSCH Bioestadística I Prof. Reynán Cóndor A.

(a) Expresar la cantidad anual de bushels de trigo y maíz del Problema como porcentajes de
la producción total anual.
(b) Representar los porcentajes obtenidos en la parte (a).

Solución
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maíz 100% — 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.

Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Porcentaje de trigo 72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%

Porcentaje de maíz 27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%

(b) El gráfico de tales porcentajes, Figura 1.11, se llama gráfico de porcentajes en


componentes. Puede usarse un gráfico similar al de la Figura 1.9.

100.0%
90.0%
80.0%
70.0%
Porcentaje

60.0%
50.0%
Maíz
40.0%
Trigo
30.0%
20.0%
10.0%
0.0%
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año

Ejemplo: Las áreas de los continentes se recogen en la siguiente Tabla. Representar los datos
gráficamente.
Tabla. Áreas de los continentes
Área
Continente 2
km %
Asia 43810000 29.3%
América 42330000 28.3%
África 30370000 20.3%
Antártida 13720000 9.2%
Europa 10180000 6.8%
Oceanía 9008500 6.0%
Total 149418500 100.0%

Solución
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 23
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Gráfico de barras en el que las barras son horizontales.

ÁREAS DE LOS CONTINENTES

Oceanía

Europa
Continentes

Antártida

África

América

Asia

0 10000000 20000000 30000000 40000000 50000000


Área en km2

Diagrama circular o de pastel.


Ángulo del sector
29
Oceanía, 6%  360  104
Europa, 7% 100
28
Asia, 29%  360  101
Antártida, 9% 100
20
 360  72
100
9
 360  32
100
África, 20% 7
 360  25
100
6
América, 28%  360  22
100

2.9. Distribución de frecuencias (Tablas de frecuencia)

a. Organización para variables cualitativas (nominal o jerárquica)


La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos
valores (atributos) que toma la variable cualitativa.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 24


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla de frecuencias
Clase o categoría (f¡) (fri) (p¡)
Atributo 1 f1 fr1 p1
Atributo 2 f2 fr2 p2
.
.
.
Atributo k fk frk pk
n 1 100

Donde:
k= Número de clases
n= Número de observaciones o unidades elementales
Frecuencia absoluta ( fi ). Es el número de observaciones que existen en la clase o
categoría i.
k
Se cumple: f
i 1
i n

Frecuencia relativa ( fri ). Es la proporción o porcentaje de obaservaciones con respecto al


total (n) que existen en l clase o categoría i.
fi
fri 
n
k
Se cumple:  fr  1
i 1
i

Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n) que


esxisten en la clase o categoría i. se tiene:
pi  fri 100
k
Se cumple: p
i 1
i  100%

Tipo de gráficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
gráficos
• Gráfico de barras vertical u horizontal
• Gráfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 25


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla. Encuesta a una muestra de 45 clientes del Banco Comercial.


Caso Edad Ingreso N° de viajes Tarjeta de Lugar de uso de Monto de Sexo
1 29 Mensual
3,00 (mensual)
3 crédito
Ta1 tarjeta
centros de crédito deuda
comerciales 1,80(miles F
(miles de S/.) usada de S/.)
2 34 1,99 3 Ta2 discotecas 1,10 F
3 61 2,90 2 Ta3 restaurantes 0,60 M
4 28 4,70 0 Ta2 grifos 2,70 M
5 41 3,00 1 Ta4 centros comerciales 1,30 F
6 57 5,80 2 Ta1 otros 0,80 F
7 30 4,50 4 Ta4 grifos 0,64 M
8 43 7,09 0 Ta3 centro de estudios 0,90 F
9 45 4,40 1 Ta5 centros comerciales 1,40 M
10 35 6,82 0 Ta2 grifos 2,46 F
11 42 5,30 3 Ta1 restaurantes 1,10 F
12 28 5,80 2 Ta4 discotecas 0,20 M
13 28 5,70 1 Ta2 grifos 0,80 F
14 24 4,70 4 Ta4 restaurantes 0,50 M
15 35 6,60 1 Ta5 discotecas 0,40 F
16 42 6,60 2 Ta4 restaurantes 3,46 F
17 48 5,74 1 Ta1 discotecas 1,20 M
18 34 4,23 0 Ta5 centros comerciales 1,90 F
19 66 5,50 3 Ta1 restaurantes 2,35 M
20 36 6,60 1 Ta4 centros comerciales 1,90 F
21 59 3,85 1 Ta4 restaurantes 0,30 M
22 37 6,70 3 Ta6 centros comerciales 0,70 F
23 53 3,50 0 Ta5 restaurantes 0,67 F
24 35 8,80 1 Ta1 discotecas 0,50 F
25 63 10,00 4 Ta5 restaurantes 1,50 M
26 28 10,10 2 Ta1 centro de estudios 0,70 F
27 43 13,40 2 Ta2 discotecas 1,50 F
28 60 3,90 0 Ta5 otros 1,99 M
29 59 5,84 1 Ta5 restaurantes 0,60 M
30 63 3,50 1 Ta4 grifos 1,50 M
31 55 4,40 2 Ta2 centro de estudios 0,40 M
32 42 3,70 0 Ta5 centros comerciales 1,80 F
33 51 4,50 1 Ta1 otros 0,70 M
34 39 5,63 1 Ta1 otros 0,80 M
35 55 4,60 4 Ta1 discotecas 1,25 M
36 35 5,79 0 Ta5 discotecas 1,60 M
37 42 2,93 3 Ta5 grifos 0,20 M
38 36 6,60 1 Ta3 grifos 4,37 F
39 49 4,60 0 Ta3 centros comerciales 2,00 M
40 27 6,60 0 Ta4 grifos 0,90 F
41 36 2,90 4 Ta1 discotecas 0,47 M
42 42 4,69 2 Ta2 centros comerciales 0,80 F
43 25 3,99 1 Ta4 restaurantes 4,32 F
44 32 6,70 2 Ta1 centros comerciales 0,60 M
45 28 2,58 1 Ta4 otros 1,70 M

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 26


UNSCH Bioestadística I Prof. Reynán Cóndor A.

a.1 Organización de datos cualitativos nominales


Tabla de frecuencia de tipo de tarjeta de crédito usada
Tarjeta
N° de de crédito Frecuencia Frecuencia Frecuencia
clase usada Absoluta relativa porcentual
1 Ta1 12 0.27 26.67
2 Ta2 7 0.16 15.56
3 Ta3 4 0.09 8.89
4 Ta4 11 0.24 24.44
5 Ta5 10 0.22 22.22
6 Ta6 1 0.02 2.22
Total 45 1.00 100.00
f3 = 4 indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crédito
Ta3
fr1 = 0.2667 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta de
crédito Ta1.
P2 = 15.56 indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crédito Ta2.

Gráfico de barras

30.00
25.00
20.00
15.00
%

10.00
5.00
0.00
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
TARJETA DE CRÉDITO

En el gráfico de barras, se aprecia que la tarjeta Tal es la de uso más frecuente.


Gráfico circular

2%
22% 27%

16%
24%
9%

Ta1 Ta2 Ta3 Ta4 Ta5 Ta6

En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos frecuente.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 27


UNSCH Bioestadística I Prof. Reynán Cóndor A.

a.2 Organización de datos cualitativos ordinales


Ahora veamos un caso que involucre una variable cualitativa jerárquica u odinal, pero también
veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos de la base
de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (ficticias) de 60 pacientes postoperados, a quienes se
solicitó calificar su percepción del dolor en una escala ordinal de cuatro puntos, como parte
de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son
básicamente no informativos en lo que se refiere a los patrones de respuesta. ¿Algunos niveles
de dolor dominaron? ¿Era común el dolor severo? ¿Qué proporción de pacientes no tenía
dolor? ¿Qué proporción sufría de dolor leve o de menor intensidad?
Con esta pequeña cantidad de datos usted puede pasar unos minutos observando la tabla para
formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no sería
efectiva con un gran conjunto de datos. Aun con este número limitado de respuestas sería
conveniente reordenar los datos para facilitar la obtención de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes.
Número Número Número Número
Nivel de Nivel de Nivel de Nivel de
de de de de
dolor dolor dolor dolor
paciente paciente paciente paciente
1 moderado 16 leve 31 ninguno 46 severo
2 ninguno 17 leve 32 moderado 47 ninguno
3 leve 18 moderado 33 ninguno 48 ninguno
4 ninguno 19 ninguno 34 ninguno 49 leve
5 severo 20 ninguno 35 leve 50 leve
6 ninguno 21 leve 36 ninguno 51 leve
7 moderado 22 ninguno 37 moderado 52 ninguno
8 ninguno 23 ninguno 38 leve 53 leve
9 ninguno 24 leve 39 ninguno 54 severo
10 leve 25 moderado 40 ninguno 55 moderado
11 leve 26 moderado 41 ninguno 56 ninguno
12 ninguno 27 ninguno 42 ninguno 57 ninguno
13 leve 28 ninguno 43 ninguno 58 ninguno
14 leve 29 leve 44 ninguno 59 leve
15 ninguno 30 severo 45 ninguno 60 ninguno

Distribuciones de frecuencias absolutas (fi)


La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna
lista las categorías de la escala de menor a mayor. La segunda muestra la frecuencia de
respuesta para cada categoría, que se obtiene mediante el conteo del número de veces que
ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el número de
respuestas de cada tipo.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 28


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla 2.2. Distribuciones de mediciones de dolor percibido.

Frecuencia Frecuencia
Frecuencia Frecuencia
Categoría absoluta relativa
absoluta relativa
de dolor acumulada acumulada
(fi) (fri)
(F¡) (Fr¡)
Ninguno 31 0.52 31 0.52
Leve 17 0.28 48 0.80
Moderado 8 0.13 56 0.93
Severo 4 0.07 60 1.00
Total 60 1

Distribuciones de frecuencias relativas (fri)


La tercera columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se
obtiene dividiendo cada frecuencia entre el número total de respuestas (en este caso 60). La
frecuencia relativa, entonces, es la proporción de respuestas de cada tipo.
Usted puede percibir rápidamente a partir de las dos primeras columnas que el mayor número
de pacientes (31) indicó no haber tenido dolor. Este número representa 0.52 (o 52%) del total
de la muestra. El dolor severo fue menos común, pues únicamente 4 personas (0.07 de la
muestra) eligieron esta categoría. En general, el número de respuestas en las categorías
disminuyó conforme éstas representaban niveles más altos de dolor.
Distribuciones de frecuencias acumulativas (F¡)
La columna de la frecuencia acumulativa muestra el número de pacientes que indicaron que
su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17)
clasificaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8)
percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se
obtiene mediante la suma de la frecuencia en una categoría dada con las categorías que indican
un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas (Fr¡)
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el
número total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor era
leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de menor
intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la proporción
de los pacientes que indicaron que su dolor fue menor que o igual que el nivel representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y
frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para una
variable de nivel ordinal. Las primeras dos distribuciones también pueden utilizarse para
una variable de nivel nominal. Obviamente las distribuciones acumulativas no serían
apropiadas en este caso puesto que no hay un orden cuantitativo para una variable de
nivel nominal.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 29


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Figura. Representación en barras de las frecuencias absolutas, relativas, absolutas


acumuladas y relativas acumuladas.

35 31 0.6 0.52
Frecuencia absoluta

30

Frecuencia relativa
0.5
25
0.4
20 17 0.28
0.3
15
8 0.2 0.13
10
4 0.1 0.07
5
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1.2
Frecuencia absoluta acumulada

Frecuencia relativa acumulada


60 1
60 56 0.93
1
48 0.8
50
0.8
40
31 0.6 0.52
30
0.4
20
10 0.2

0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

70 1.2
60 60 1 1
56 0.93
50 48 0.8 0.8
40 31 0.6 0.52
30
17 0.4 0.28
20
8 0.2 0.13
10 4 0.07
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido

Frecuencia absoluta Frecuencia relativa


Frecuencia absoluta acumulada Frecuencia relativa acumulada

b. Organización para variables cuantitativas discretas


La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos
valores (números) que toma la variable cuantitativa discreta. Se usa cuando el conjunto de
valores posible de la variable cuantitativa discreta es pequeño.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 30


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Tabla de frecuencias
N° de Valor de la (fi)(fri) (p¡)
clase variable
1 X1 f1 fr1 P1
2 X2 f2 fr2 P2
.
.
.
k Xk fk frk Pk
Total n 1 100
Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.

Ejemplo 2. Organización de datos cuantitativos discretos

Tabla de frecuencias del número de viajes al mes


Frecuencia
N° de
Absoluta Frecuencia Frecuencia
viajes al
No de Relativa Porcentual
mes
clientes fi fri pi
0 10 0.2222 22.22
1 15 0.3333 33.33
2 9 0.2000 20.00
3 6 0.1333 13.33
4 5 0.1111 11.11
Total 45 1 100

Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.

Gráfico de bastones o varas


35.00

30.00

25.00

20.00
%

15.00

10.00

5.00

0.00
0 1 2 3 4
VIAJES

En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número 1


(un viaje al mes) es el más frecuente.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 31


UNSCH Bioestadística I Prof. Reynán Cóndor A.

c. Organización para variables cuantitativas continuas


El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categorías de la tabla de frecuencias.

N° de Intervalos Marca Frec. Frec. Frec. Frec. Frec. Frec.


clases de clase de Absoluta Relativa Porc. Acumulada Acumulada Acum.
clase Absoluta Relativa Porc.
[LI-LS> X'i fi fri p¡ F¡ Fri Pi
1 [LI1-LS1> X'1 f1 fr1 p1 F1 Fr1 P1
2 [LI2-LS2> X'2 f2 fr2 p2 F2 Fr2 P2
.
.
.

k [LIk-LSk] X'k fK frK pk Fk Frk Pk


Total N 1 100 1 100

Donde:
LI i = Límite inferior de la clase i (Límite cerrado)

LSi =Límite superior de la clase i (Límite abierto, salvo última clase que es cerrado)

Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerará como el valor
representativo de los valores que pertenecen al intervalo de clase.
LI i  LSi
Se calcula: X i'  o X i'  X i'1  TIC , donde TIC es el tamaño del intervalo de clase
2

Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales


k
que hay en la clase i. Se cumple: p
i 1
i  100%

Frecuencia acumulada absoluta (Fi). Indica el número de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. se calcula por:
k
Fk   fi  f1  f 2  ...  f k
i 1

t
Propiedad: Ft  Fh  
i  h 1
fi , h  t

Frecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
f j i
  fri
j 1
Fri  
n n j 1

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 32


UNSCH Bioestadística I Prof. Reynán Cóndor A.

t
Propiedad: Frt  Frh  
i  h 1
fri , h  t

Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i.
t
Propiedad: pt  ph  p,
i  h 1
i ht

Pasos para la construcción de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r = Máximo-Mínimo

Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 +


3.3log(n). Eligiendo un valor: 3 ≤ k ≤ 15
 Se aplica el redondeo normal a entero.
 Si el primer dígito decimal: es ≥ 5, se redondea al entero Inmediato superior y si es
< 5, se considera el entero obtenido.

Paso 3. Hallar el tamaño de Intervalo de Clase (TIC).


r
TIC 
k
 El número de decimales debe ser igual al de las observaciones.
 Se aplica el redondeo por exceso. Si la posición del decimal es ≥1, se redondea al
valor inmediato superior, de lo contrario no se redondea.

Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase.

LI1 = Mínimo LS1= LI1 + TIC


LI2 = LI1 + TIC = LS1 LS2= LI2 + TIC
LI3 = LI2 + TIC = LS2 LS3= LI3 + TIC

LIk = LIk-1 + TIC = LSk-1 LSk= LIk + TIC

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observación a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri

Tipos de gráficos
• Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
• Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase
en el eje horizontal.

Ejemplo 3. Organización de datos cuantitativos continuos


Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 33


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41

Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadístico: Se toma en consideración el primer valor decimal, si es:


≥5 se redondea al entero inmediato superior < 5 se considera el entero obtenido

En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número de clases
que se debe considerar es k=6.

Paso 3. Halle el tamaño de los intervalos de clase (TIC)


R 11.41
TIC    1.90167
k 6
Redondeo por exceso: se toma en consideración el número mayor de decimales que tienen las
observaciones. Considerando la posición de este decimal, se presentan 2 casos:
• Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
• Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza
ningún redondeo
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC también se considerará con 2 decimales
y como hay al menos un valor diferente de cero a la derecha de las centésimas se incrementa
en una centésima quedando TIC = 1.91

Paso 4. Construya la tabla de frecuencias.


Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho.

Tabla de frecuencias del ingreso mensual


Frec. Frec. Frec.
Ingreso Marca Frec. Frec. Frec.
Acum. Acum. Acum.
mensual de clase Abs. Rel. Porc.
N° de Abs. Rel. Porc.
[LI-LS> X i' fri pi
clases fi Fi Fri Pi
1 [1.99 - 3.90> 2.945 11 0.2444 24.44 11 0.2444 24.44
2 [3.90 - 5.81> 4.855 20 0.4444 44.44 31 0.6888 68.88
3 [5.81 - 7.72> 6.765 10 0.2222 22.22 41 0.9110 91.10
4 [7.72 - 9.63> 8.675 1 0.0222 2.22 42 0.9332 93.32
5 [9.63 -11.54> 10.585 2 0.0444 4.44 44 0.9776 97.76
6 [11.54-13.45] 12.495 1 0.0222 2.22 45 1.000 100
45 1.0000 100

Interprete:
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 34
UNSCH Bioestadística I Prof. Reynán Cóndor A.

 f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900
pero menos de S/. 5810.
 fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos S/. 7720 pero
menos de S/. 9630
 p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
3
 F3   fi  f1  f 2  f3  11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por
i 1

lo menos S/. 1990 pero menos de S/. 7720.


 F5 - F2 = 44 - 31 =13
5
F5 - F2 =  fi  f3  f 4  f 5  10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/.
i 3

5810 pero menos de S/. 11540


4
 Fr4 =  fri 1
i = fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica

que 0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos
de S/. 9630.
 Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 =  fr = fr4 + fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la
i4
i

proporción de los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
 P3 =  pi = pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los
i 1

clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720
 P5 - P2 = 97.76 - 68.88 = 28.88
5
P5 - P2 = p
i 3
i =P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de

los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos
de S/. 11540.
 X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810
pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son
representadas por el valor S/. 6765.
Histograma de frecuencias

50.00

40.00

30.00
%

20.00

10.00

0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 35


UNSCH Bioestadística I Prof. Reynán Cóndor A.

En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica que
los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polígono de frecuencias

50.00
45.00 44.44
40.00
35.00
30.00
25.00
%

24.44
22.22
20.00
15.00
10.00
5.00 4.44
2.22 2.22
0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

En el polígono de frecuencias se observa que son pocos los clientes con Ingresos mensuales
altos.
50.00
45.00
40.00
35.00
30.00
25.00
%

20.00
15.00
10.00
5.00
0.00
2.945 4.855 6.765 8.675 10.585 12.495
INGRESO

Presentamos a continuación un nuevo caso, la tabla 2.3 presenta una distribución de


frecuencias de las presiones sanguíneas sistólicas (ficticias) de 144 adolescentes
moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la
presión sanguínea más que con categorías discretas, como fue el caso en la tabla 2.2. Como
resultado, hay un gran número de valores y sus frecuencias. Esto puede causar dificultades de
interpretación, especialmente cuando las frecuencias individuales son pequeñas e incluyen el
cero. En estos casos a veces es útil reducir el número de valores mediante la formación de
grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias relativas,
frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos de valores en
lugar de valores individuales.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 36


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplo 4. La tabla 2.4 presenta distribuciones agrupadas para los datos de la presión
sanguínea. Como puede observarse, los valores de presión sanguínea se colocaron en
intervalos que técnicamente se conocen como intervalos de clase. Las diversas distribuciones
se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de
respuesta se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad
interpretativa es la pérdida de información.
Por ejemplo, mientras que es fácil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay información acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. ¿En cuántos
intervalos se deben agrupar los valores y qué tan grandes deberán ser los intervalos? Muy
pocos intervalos provocan la pérdida de mucha información, mientras que muchos intervalos
hacen fracasar el propósito de resumir los datos. El tamaño de los intervalos dependerá del
número de intervalos utilizados y viceversa. No existen reglas rígidas y rápidas al respecto.
En esencia, usted deseará presentar los datos dándoles el mayor significado posible. Sin
embargo, hay algunas reglas generales que sirven como guía. Una sugerencia común es que
no debe haber menos de seis ni más de 15 intervalos. Otra regla útil es que, cuando sea posible,
se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algún
múltiplo de 10 para que el resumen de los datos sea más comprensible.
TABLA. Las presiones sanguíneas de 144 adolescentes moderadamente obesos.

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Presiones sanguíneas 86 90 92 92 93 95 95 95 96 96 97 97 98 98 99
Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Presiones sanguíneas 100 100 100 100 102 103 105 105 106 107 107 109 110 110 110
Paciente 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Presiones sanguíneas 111 111 111 114 114 115 115 115 115 115 115 116 116 116 117
Paciente 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Presiones sanguíneas 118 118 119 119 120 120 120 121 122 122 122 123 123 124 124
Paciente 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
Presiones sanguíneas 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127
Paciente 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Presiones sanguíneas 127 128 128 128 129 129 129 130 130 130 130 130 131 131 131
Paciente 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105
Presiones sanguíneas 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134
Paciente 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Presiones sanguíneas 134 134 135 135 135 135 135 135 135 135 136 136 136 137 137
Paciente 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
Presiones sanguíneas 137 137 137 137 137 137 137 137 137 138 138 138 139 139 139
Paciente 136 137 138 139 140 141 142 143 144
Presiones sanguíneas 139 139 139 140 140 140 140 143 143

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 37


UNSCH Bioestadística I Prof. Reynán Cóndor A.

TABLA 2.3: Distribución de frecuencias de las presiones sanguíneas de 144 adolescentes


moderadamente obesos.

PS Frec. PS Frec. PS Frec. PS Frec.


143 2 128 3 113 0 98 2
142 0 127 3 112 0 97 2
141 0 126 7 111 3 96 2
140 4 125 4 110 3 95 3
139 6 124 4 109 1 94 0
138 3 123 2 108 0 93 1
137 11 122 3 107 2 92 2
136 3 121 1 106 1 91 0
135 8 120 3 105 2 90 1
134 5 119 2 104 0 89 0
133 8 118 2 103 1 88 0
132 4 117 1 102 1 87 0
131 3 116 3 101 0 86 1
130 5 115 6 100 4
129 3 114 2 99 1

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57

Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges


k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k=8

Paso 3. Halle el tamaño de los intervalos de clase (TIC)


R 57
TIC    7.125
k 8
TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguíneas sistólicas utilizando 8
intervalos.

Marca de Frec.
Presión Frec. Frec. Frec. Frec. Frec.
N° de clase Acum.
sanguínea Abs. Rel. Porc. Acum. Abs. Acum. Rel.
clases Porc.
[LI-LS> X i' fi fri pi fi fri
Pi
1 [86-94> 90 5 0.035 3.47 5 0.035 3
2 [94-102> 98 14 0.097 9.72 19 0.132 13
3 [102-110> 106 8 0.056 5.56 27 0.188 19
4 [110-118> 114 18 0.125 12.50 45 0.313 31
5 [118-126> 122 21 0.146 14.58 66 0.458 46
6 [126-134> 130 36 0.250 25.00 102 0.708 71
7 [134-142> 138 40 0.278 27.78 142 0.986 99
8 [142-150] 146 2 0.014 1.39 144 1.000 100
144 1 100

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 38


UNSCH Bioestadística I Prof. Reynán Cóndor A.

30.00

25.00

20.00

15.00
%

10.00

5.00

0.00
90 98 106 114 122 130 138 146
PRESIÓN SANGUÍNEA

Figura. Histograma y polígono de frecuencias de la presión sanguínea.


El número y tamaño de los intervalos es flexible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando el
número de valores no es muy grande, las distribuciones pueden basarse en datos no agrupados.

Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 39