You are on page 1of 25

En estadística el tamaño de la muestra es el número de sujetos que componen la muestra

extraída de una población, necesarios para que los datos obtenidos sean representativos de la
población

Determinar el tamaño de la muestra que se va a seleccionar es un paso importante en cualquier


estudio de investigación de mercados, se debe justificar convenientemente de acuerdo al
planteamiento del problema, la población, los objetivos y el propósito de la investigación.

¿De qué depende el tamaño muestral?

El tamaño muestral dependerá de decisiones estadísticas y no estadísticas, pueden incluir por


ejemplo la disponibilidad de los recursos, el presupuesto o el equipo que estará en campo.

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

Antes de calcular el tamaño de la muestra necesitamos determinar varias cosas:

Tamaño de la población. Una población es una colección bien definida de objetos o


individuos que tienen características similares. Hablamos de dos tipos: población objetivo, que
suele tiene diversas características y también es conocida como la población teórica. La población
accesible es la población sobre la que los investigadores aplicaran sus conclusiones.

Margen de error (intervalo de confianza). El margen de error es una estadística que


expresa la cantidad de error de muestreo aleatorio en los resultados de una encuesta, es decir, es
la medida estadística del número de veces de cada 100 que se espera que los resultados se
encuentren dentro de un rango específico.

Nivel de confianza. Son intervalos aleatorios que se usan para acotar un valor con una
determinada probabilidad alta. Por ejemplo, un intervalo de confianza de 95% significa que los
resultados de una acción probablemente cubrirán las expectativas el 95% de las veces.

La desviación estándar. Es un índice numérico de la dispersión de un conjunto de datos (o


población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población.

Cálculo del Tamaño de la Muestra desconociendo el Tamaño de la

La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de la población es


la siguiente:
En donde
Z = nivel de confianza,
P = probabilidad de éxito, o proporción esperada
Q = probabilidad de fracaso
D = precisión (error máximo admisible en términos de proporción)

Cálculo del Tamaño de la Muestra conociendo el Tamaño de la Población


La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la población es la
siguiente:

En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de éxito, o


proporción esperada Q = probabilidad de fracaso D = precisión (Error máximo admisible en
términos de proporción).

Tipos de muestreo
El muestreo es una herramienta para determinar qué parte de una población debemos analizar
cuando no es posible realizar un censo. Depende de los objetivos del estudio el elegir una muestra
probabilística o no probabilística.

Qué es una muestra poblacional?


Una muestra poblacional es un conjunto de elementos que
representan al universo total, es decir, son una fracción de la totalidad
del número de individuos a ser evaluados. Establecer el tamaño de
dicha muestra es un proceso importante en toda investigación ya que
permitirá realizar un estudio viable y creíble siempre delimitado por los
objetivos del estudio y las diferentes características de cada población.

Determinar el tamaño de una muestra permite ahorrar recursos tanto


económicos como humanos, además de disminuir considerablemente
el tiempo de realización de la investigación que estés realizando, la
cual puede ser de toda clase como por ejemplo estudios de opinion o
alguna investigacion de mercados.

¿Cómo determinar el tamaño de la muestra


poblacional?
Existen diversas maneras para obtener el tamaño de una muestra
dependiendo de los datos con que se cuente, por ejemplo, en caso de
contar con la cantidad de personas a las que le realizaremos el
estudio (por ejemplo, el número de habitantes en X ciudad), se dice
que se cuenta con un universo finito, en esta ocasión abordaremos
está clase de universos y como obtener el tamaño ideal de una
muestra, para lograr lo anterior se hace uso de la siguiente fórmula
propuesta por Murray y Larry (2005):

En donde:

n = es el tamaño de la muestra poblacional a obtener.

N = es el tamaño de la población total.

Representa la desviación estándar de la población. En caso de


desconocer este dato es común utilizar un valor constate que equivale
a 0.5

Z = es el valor obtenido mediante niveles de confianza. Su valor es


una constante, por lo general se tienen dos valores dependiendo el
grado de confianza que se desee siendo 99% el valor más alto (este
valor equivale a 2.58) y 95% (1.96) el valor mínimo aceptado para
considerar la investigación como confiable.
e = representa el límite aceptable de error muestral, generalmente va
del 1% (0.01) al 9% (0.09), siendo 5% (0.5) el valor estándar usado en
las investigaciones.

Una vez establecido los valores adecuados, se procede a realizar la


sustitución de los valores y aplicación de la fórmula para obtener el
tamaño de la muestra poblacional correspondiente al universo finito
determinado.

Ya realizado el proceso matemático se obtendrá la muestra, la cual


como se mencionó al principio, nos ayudará a realizar una
investigación válida y completa.

También debes leer: Mejora el análisis de datos de tus investigaciones


de mercado

Etiquetas:
software para encuestastamaño de la muestra

El tamaño de la muestra normalmente es representado por "n" y siempre es un número


entero positivo. No se puede hablar de ningún tamaño exacto de la muestra, ya que puede
variar dependiendiendo de los diferentes marcos de investigación. Sin embargo, si todo lo
demás es igual, una muestra de tamaño grande brinda mayor precisión en las
estimaciones de las diversas propiedades de la población.

¿Cuál debe ser el tamaño de la muestra?

Determinar el tamaño de la muestra que se va a seleccionar es un paso


importante en cualquier estudio de investigación. Por ejemplo, un investigador
desea determinar la prevalencia de problemas oculares en niños en edad
escolar y quiere realizar una encuesta.
La pregunta importante que debe ser contestada en todas las encuestas de
muestra es: "¿Cuántos participantes deben ser elegidos para una encuesta?"
Sin embargo, la respuesta no puede ser dada sin tener en cuenta los objetivos
y circunstancias de las investigaciones.

La elección del tamaño de la muestra depende de consideraciones no


estadísticas y estadísticas. Las consideraciones no estadísticas pueden incluir
la disponibilidad de los recursos, la mano de obra, el presupuesto, la ética y el
marco de muestreo. Las consideraciones estadísticas incluirán la precisión
deseada de la estimación de la prevalencia y la prevalencia esperada de los
problemas oculares en niños en edad escolar.
Para determinar el tamaño adecuado de las muestras es necesario seguir los
tres criterios:

1. Nivel de precisión

El nivel de precisión, también llamado error de muestreo, es el rango en donde


se estima que está el valor real de la población. Este rango se expresa en
puntos porcentuales. Por lo tanto, si un investigador descubre que el 70% de
los agricultores de la muestra han adoptado una tecnología recomendada con
una tasa de precisión de ~+mn~ 5%, el investigador puede concluir que entre el
65% y el 75% de los agricultores de la población han adoptado la nueva
tecnología.
2. Nivel de confianza

El intervalo de confianza es la medida estadística del número de veces de cada


100 que se espera que los resultados se encuentren dentro de un rango
específico.
Por ejemplo, un intervalo de confianza de 90% significa que los resultados de
una acción probablemente cubrirán las expectativas el 90% de las veces.

La idea básica descripta en el Teorema del límite central es que cuando una
población se muestrea muchas veces, el valor promedio de un atributo
obtenido es igual al valor real de la población. En otras palabras, si un intervalo
de confianza es del 95%, significa que 95 de 100 muestras tendrán el valor real
de la población dentro del rango de precisión.

3. Grado de variabilidad

Dependiendo de la población objetivo y los atributos a considerar, el grado de


variabilidad varía considerablemente. Cuanto más heterogénea sea una
población, mayor deberá ser el tamaño de la muestra para obtener un nivel
óptimo de precisión. Ten en cuenta que una proporción de 55% indica un nivel
más alto de variabilidad que un 10% o un 80%. Esto se debe a que 10% y 80%
significa que una gran mayoría no posee o posee el atributo en cuestión.
Existen muchos enfoques para determinar el tamaño de la muestra, incluyendo
el uso de un censo en el caso de poblaciones más pequeñas, el uso de tablas
publicadas, imitar un tamaño de muestra de estudios similares y aplicar
fórmulas para calcular un tamaño de la muestra.
KK
Distribución de frecuencias

En estadística, se le llama distribución de frecuencias a la agrupación de


datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría.1 Esto proporciona un valor añadido a la
agrupación de datos. La distribución de frecuencias presenta las observaciones
clasificadas de modo que se pueda ver el número existente en cada clase.

Tipos de frecuencias[editar]

Frecuencia absoluta[editar]
La frecuencia absoluta es el número de veces que aparece un
determinado valor en un estudio estadístico. Se representa por fila. La
suma de las frecuencias absolutas es igual al número total de datos,
que se representa por N. Para indicar resumidamente estas sumas se
utiliza la letra griega Σ (sigma mayúscula) que se lee suma o
sumatoria.

Frecuencia relativa[editar]
Se dice que la frecuencia relativa es el cociente entre la frecuencia
absoluta de un determinado valor y el número total de datos. Se puede
expresar en tantos por ciento y se representa por hi. La suma de las
frecuencias relativas es igual a 1.

Frecuencia relativa (hi) es el cociente entre la frecuencia absoluta y el


tamaño de la muestra (N). Es decir:

siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de


puntos en una distribución de frecuencias.

Si multiplicamos la frecuencia relativa por 100 obtendremos el


porcentaje o tanto por ciento (pi).

Frecuencia acumulada[editar]
La frecuencia acumulada es la suma de las frecuencias absolutas de
todos los valores inferiores o iguales al valor considerado.

La frecuencia acumulada es la frecuencia estadística F(XXr) con que


el valor de un variable aleatoria (X) es menor que o igual a un valor de
referencia (Xr).

La frecuencia acumulada relativa se deja escribir como Fc(X≤Xr), o en


breveFc(Xr), y se calcula de:

Fc (Hr) = HXr / N
donde MXr es el número de datos X con un valor menor que o igual a
Xr, y N es número total de los datos. En breve se escribe:

Fc = M / N
Cuando Xr=Xmin, donde Xmin es el valor mínimo observado, se ve
que Fc=1/N, porque M=1. Por otro lado, cuando Xr=Xmax, donde
Xmax es el valor máximo observado, se ve que Fc=1, porque M=N.

En porcentaje la ecuación es:

Fc(%) = 100 M / N

Frecuencia relativa acumulada[editar]


La frecuencia relativa acumulada es el cociente entre la frecuencia
acumulada de un determinado valor y el número total de datos. Se
puede expresar en tantos por ciento. Ejemplo:
Durante el mes de julio, en una ciudad se han registrado las siguientes
temperaturas máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27

Distribución de frecuencias agrupadas[editar]


La distribución de frecuencias agrupadas o tabla con datos agrupados
se emplea si las variables toman un número grande de valores o la
variable es continua. Se agrupan los valores en intervalos que tengan
la misma amplitud denominados clases. A cada clase se le asigna su
frecuencia correspondiente. Límites de la clase. Cada clase está
delimitada por el límite inferior de la clase y el límite superior de la
clase.

La amplitud de la clase es la diferencia entre el límite superior e


inferior de la clase. La marca de clase es el punto medio de cada
intervalo y es el valor que representa a todo el intervalo para el cálculo
de algunos parámetros. En caso de que el primer intervalo sea de la
forma (-∞,k], o bien [k,+∞) donde k es un número cualquiera, en el
caso de (-∞,k], para calcular la marca de clase se tomará la amplitud
del intervalo adyacente a el (ai+1), y la marca de clase será ((k-ai+1)
+k)/2. En el caso del intervalo [k,+∞) también se tomará la amplitud del
intervalo adyacente a el (ai-1) siendo la marca de clase ((k+ai-1)+k)/2.

Construcción de una tabla de datos agrupados:

3, 15, 24, 28, 33, 35, 38, 42, 43, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39,
44, 31, 26, 20, 11, 13, 22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15,
32, 13.

1. Se localizan los valores menor y mayor de la distribución. En este caso son 3 y


48.
2. Se restan y se busca un número entero un poco mayor que la diferencia y que
sea divisible por el número de intervalos que queramos establecer.

Es conveniente que el número de intervalos oscile entre 6 y 15.

En este caso, 48 - 3 = 45, incrementamos el número hasta 50 : 5 = 10


intervalos.

Se forman los intervalos teniendo presente que el límite inferior de una


clase pertenece al intervalo, pero el límite superior no pertenece al
intervalo, se cuenta en el siguiente intervalo.
Intervalo ci ni Ni fi Fi

[0, 5) 2.5 1 1 0.025 0.025

[5, 10) 7.5 1 2 0.025 0.050

[10, 15) 12.5 3 5 0.075 0.125

[15, 20) 17.5 3 8 0.075 0.200

[20, 25) 22.5 3 11 0.075 0.275

[25, 30) 27.5 6 17 0.150 0.425

[30, 35) 32.5 7 24 0.175 0.600

[35, 40) 37.5 10 34 0.250 0.850

[40, 45) 42.5 4 38 0.100 0.950

[45, 50) 47.5 2 40 0.050 1

Total: 40 1

Ejemplo 2 : El conjunto de datos presentados en seguida, representan las edades de 30


profesores del TEC.
Construye la tabla de distribución de frecuencias para ellos.
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 37 33 28 30
30 41 39 38 33 35 31 36 37 32
1. Cálculo del rango
Datos del problema
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 37 33 28 30
30 41 39 38 33 35 31 36 37 32
Del conjunto de datos en bruto, se busca el de mayor magnitud (VM) y el de menor
magnitud (Vm). Con ellos se calcula el rango.
Rango = VM -Vm = 45 - 26 = 19
2. Designación del número de clases
Datos del problema.
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 37 33 28 30
30 41 39 38 33 35 31 36 37 32
Una vez calculado el rango, se procede a designar el número de clases, a través de
cualquiera de los dos métodos siguientes:
a) Primer método.
en donde:
K: es el número de clases
n: es el número de datos por agrupar.
b) Segundo método.
n k
n < 50 5a7
50 <= n < 100 6 a 10
100 <= n < 250 7 a 12
n >= 250 10 a 20
Usando el primer procedimiento tenemos que:
Para nuestro ejemplo, K = ln 30/ ln 2 = 4.907 que al redondear a enteros, quedaría
una K = 5.
Si usamos el segundo método, podremos observar que n = 30 es menor que 50 y se
nos recomienda, de acuerdo a la tabla, que tomemos de 5 a 7 clases, por lo tanto K
= 5 es una buena asignación.
3. Cálculo de la amplitud
La amplitud se calcula redondeando el cociente del rango entre el número de clases
(R/K) a la unidad más pequeña (u) inmediata superior en que se encuentran los
datos brutos. Como los datos de nuestro ejemplo están en enteros, la unidad más
pequeña es un entero u = 1, de tal manera que la amplitud será, R/K = 19/5 = 3.8
que al redondearlo al entero inmediata superior, nos dará la amplitud.
Amplitud : A = 4.
4. Cálculo de los limites de clase
Datos del problema.
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 37 33 28 30
30 41 39 38 33 35 31 36 37 32
Para construir los límites de clase ( límite inferior Li y límite superior Ls) se coloca
como límite inferior de la primera clase al valor más pequeño de los datos brutos, 26
para nuestro ejemplo, y cuatro enteros (la unidad más pequeña es un entero) más
adelante, incluyendo el 26, tendremos el límite superior de la primera clase, 26 + 3
= 29 ( se suma solo tres entero porque el 26 está incluido) .
Clases Li - Ls
1 26 - 29
Para calcular el límite inferior de la segunda clase, hay que agregarle un entero al
límite superior de la primera clase, esto es 29 + 1 = 30. El límite superior es 4
enteros adelante, incluyendo al 30, esto es 29 + 4 = 33. Este proceso se repite
iterativamente hasta completar la clase número 5.
Clases Li - Ls
1 26 - 29
2 30 -33
3 34 - 37
4 38 - 41
5 42 - 45
5. Cálculo de los límites reales de clase
En seguida se calculan los límites reales de clase, llamados también fronteras de
clase. Estos se calculan a partir de los límites de clase, restándole media unidad (u/2)
a los límites inferiores de clase y sumándole la misma cantidad a los límites
superiores. u/2 = 1/2 = 0.5
Clases Li - Ls Lri - Lrs
1 26 - 29 25.5 - 29.5
2 30 - 33 29.5 - 33.5
3 34 - 37 33.5 - 37.5
4 38 - 41 37.5 - 41.5
5 42 - 45 41.5 - 45.5
6. Encontrando la marca de clase o punto medio
Para calcular la marca de clase o punto medio vamos a promediar, para cada clase,
el límite inferior y superior de clase o en su defecto los límites reales. Para la clase
uno, X1 = (26 + 29)/2 = (25.5 + 29.5)/2 = 27.5 Para las siguientes clases se
procede de la misma forma o simplemente se le suma la amplitud a la marca de
clase anterior, por ejemplo, X2 = X1 + 4 = 27.5 + 4 = 31.5, y así para el resto de las
clases.
Clases Li - Ls Lri - Lrs Xi
1 26 -29 25.5 - 29.5 27.5
2 30 -33 29.5 - 33.5 31.5
3 34 - 37 33.5 - 37.5 35.5
4 38 - 41 37.5 - 41.5 39.5
5 42 - 45 41.5 - 45.5 43.5
7. Conteo y Frecuencia Absoluta
El conteo es la asignación de cada dato en la clase que le corresponde. La frecuencia
absoluta es el número de datos que se encuentran ubicados en cada clase. Para
nuestro ejemplo, tenemos:
Datos brutos
32 38 26 29 32 41 28 31 45 36
45 35 40 30 31 40 37 33 28 30
30 41 39 38 33 35 31 36 37 32
Tabla de frecuencias absolutas
Clases Li - Ls Lri - Lrs Xi fi
1 26 -29 25.5 - 29.5 27.5 4
2 30 -33 29.5 - 33.5 31.5 11
3 34 - 37 33.5 - 37.5 35.5 6
4 38 - 41 37.5 - 41.5 39.5 7
5 42 - 45 41.5 - 45.5 43.5 2
8. Frecuencia Relativa
La frecuencia relativa es la proporción de los datos que se encuentran en cada clase.
Se calcula dividiendo la frecuencia absoluta entre el total de los datos y se puede
expresar como una fracción o en forma de porcentaje.
Clases Li - Ls Lri - Lrs Xi fi hi
1 26 -29 25.5 - 29.5 27.5 4 4/30, 13.33%
2 30 -33 29.5 - 33.5 31.5 11 11/30, 36.67%
3 34 - 37 33.5 - 37.5 35.5 6 6/30, 20.00%
4 38 - 41 37.5 - 41.5 39.5 7 7/30, 23.33%
5 42 - 45 41.5 - 45.5 43.5 2 2/30, 6.67%
9. Frecuencias Absolutas y Relativas Acumuladas
Para agregar a la tabla de distribución de frecuencias las frecuencias acumuladas,
tanto absolutas como relativas, hay que generar la columna menor que (<). Dicha
columna está formada por todos los limites reales de clase y quedaría de la siguiente
manera:
<
Clases Li - Ls Lri - Lrs Xi fi hi 25.5
1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5
2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5
3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5
4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5
5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5
Para generar la frecuencia absoluta acumulada nos debemos de preguntar ¿cuántos
datos son menores que los limites reales?. Por ejemplo: ¿Cuántos datos son menores
que 25.5? La respuesta es ninguno, ya que todos son mayores que esa cantidad.
¿Cuántos datos son menores que 29.5? La respuesta es 4. A la pregunta, ¿cuántos
datos son menores que 33.5? La respuesta es 4 + 11 = 15, y así sucesivamente
hasta terminar con la columna menor que.
< Fi
Clases Li - Ls Lri - Lrs Xi fi hi 25.5 0
1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5 4
2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5 15
3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5 21
4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5 28
5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5 30
Para generar la frecuencia relativa acumulada nos debemos de preguntar ¿qué
porcentaje de los datos son menores que los limites reales?. Por ejemplo: ¿Qué
porcentaje de los datos son menores que 25.5? La respuesta es ninguno, ya que
todos son mayores que esa cantidad. ¿Qué porcentaje de los datos son menores que
29.5? La respuesta es 13.33%. A la pregunta, ¿qué porcentaje de los datos son
menores que 33.5? La respuesta es 13.33 + 36.67 = 50%, y así sucesivamente
hasta terminar con la columna menor que.
< Fi Hi
Clases Li - Ls Lri - Lrs Xi fi hi 25.5 0 0%
1 26 -29 25.5 - 29.5 27.5 4 13.33% 29.5 4 13.33%
2 30 -33 29.5 - 33.5 31.5 11 36.67% 33.5 15 50.00%
3 34 - 37 33.5 - 37.5 35.5 6 20.00% 37.5 21 70.00%
4 38 - 41 37.5 - 41.5 39.5 7 23.33% 41.5 28 93.33%
5 42 - 45 41.5 - 45.5 43.5 2 6.67% 45.5 30 100%
Qué es un histograma?
Es una herramienta usada para representar una distribución por medio
de barras. La altura de la barra está en función de la frecuencia (eje y)
y el rango (eje x) de una variable continua.

Nos ofrece un vistazo general del comportamiento de las variables,


donde logramos analizar aspectos como distribución, dispersión,
aleatoriedad y tendencia.

Tiene diferentes beneficios dependiendo del uso que se le dé. Es


común que en las empresas y comunidades se usen para:

 Tomar de decisiones con base en la representación de los datos


 Mostrar información de interés general, por eso es común que el departamento
de control de calidad los difunda.
 Analizar rendimientos de procesos
 Evidenciar cambios ante intervenciones (antes y después)
 Y un largo etc. Los beneficios dependerán de la interpretación del histograma.
Generalmente el histograma se usa con variables continúas,
aunque también se trabaja con variables discretas. Recordemos que
variables continúas son aquellas que pueden tomar cualquier valor, es
decir un número real.

Son ejemplo de variables continúas el peso, altura, masa o


temperatura. Las variables discretas son aquellas que adoptan un
valor entero, por ejemplo el número de personas, el número de quejas,
objetos, etc.

Por otra parte, una variable cualitativa es aquella que no es numérica


y muestra una cualidad del objeto de medición. Por ejemplo, la
nacionalidad de una persona, los animales de una granja o el tipo de
comercio en una ciudad.

Esto es importante mencionarlo porque es común confundir el


histograma con el diagrama de barras. El mismo Wikipedia lo hace
al mencionar en tipos de histogramas el diagrama de barra simple (si
el artículo en Wikipedia fue editado corrigiendo este pequeño error,
agradezco me notifiques)

Con un histograma analizamos la distribución de frecuencias de una o


más variables (y digo variables), donde lo que se analiza no es la
altura sino el área de la variable. Por eso, en un histograma las barras
están juntas y no separadas. Con un diagrama de barras si
analizamos la altura de la barra, las cuales están separadas. Manuel
molina lo explica mucho mejor mostrando la diferencia entre un
histograma y un diagrama de barras.

Comenzamos mostrando paso a paso cómo se construye un


histograma y lo conducimos a través de un ejemplo práctico.

Paso 1: ¿Cuáles son los datos que se van a analizar? ¿Los tienes? Si
es así, perfecto, vamos al paso 2. Si no, procedemos a capturar los
datos del fenómeno que se desea analizar.

Paso 2: Cuando hablamos de clases o intervalos nos referimos a las


barras verticales que tendrá nuestro histograma. Normalmente se dice
que un histograma debe tener barras del mismo ancho, lo cual no es
necesariamente cierto. Dependiendo de la situación que se analiza, es
más conveniente utilizar intervalos de diferente ancho. Cuando los
intervalos son del mismo ancho, la altura de cada barra será
proporcional a su área. Caso contrario cuando tenemos intervalos de
ancho distinto, y en este caso resulta conveniente analizar el área de
la barra.

Bueno, me extendí un poco. Entonces, en el paso 2 vamos a


determinar el rango. El rango se define como la resta entre el valor
más grande con el valor más pequeño de tus datos capturados.

Paso 3: Existen diversas formas para definir cuántas clases


considerar. K es el número de clases.

La primera es considerar una tabla guía. La siguiente está basada en


la publicación de Roberto Behar y Pere Grima (abajo te dejo la

referencia). <img
class="aligncenter wp-image-2304 size-full" title="Clases según el
número de datos" src="https://ingenioempresa.com/wp-
content/uploads/2016/07/Tabla-datos-histograma.png" alt="Clases
según el número de datos" width="379" height="142"
srcset="https://ingenioempresa.com/wp-
content/uploads/2016/07/Tabla-datos-histograma.png 379w,
https://ingenioempresa.com/wp-content/uploads/2016/07/Tabla-datos-
histograma-300x112.png 300w" sizes="(max-width: 379px) 100vw,
379px" />Otras referencias sugieren 4 clases si tenemos menos de 50
datos, 7 clases para menos de 100 datos, 10 clases para menos de
150 datos, 12 clases para menos de 200 datos y 14 clases para más
de 200 datos.

La siguiente opción es obtener la raíz cuadrada de la cantidad de


datos. El resultado redondeado será el número de clases.

<img class="aligncenter
wp-image-2307 size-full" title="Número de clases raíz cuadrada"
src="https://ingenioempresa.com/wp-
content/uploads/2016/07/Número-de-clases-raíz-cuadrada.png"
alt="Número de clases raíz cuadrada" width="354" height="59"
srcset="https://ingenioempresa.com/wp-
content/uploads/2016/07/Número-de-clases-raíz-cuadrada.png 354w,
https://ingenioempresa.com/wp-content/uploads/2016/07/Número-de-
clases-raíz-cuadrada-300x50.png 300w" sizes="(max-width: 354px)
100vw, 354px" />Otra opción es la regla de Sturges. Propuesta por
Hebert Sturges, nos da una regla práctica para obtener el número de

clases: <img
class="aligncenter size-full wp-image-2306"
src="https://ingenioempresa.com/wp-content/uploads/2016/07/Regla-
de-sturges.png" alt="Regla de sturges" width="324" height="61"
srcset="https://ingenioempresa.com/wp-
content/uploads/2016/07/Regla-de-sturges.png 324w,
https://ingenioempresa.com/wp-content/uploads/2016/07/Regla-de-
sturges-300x56.png 300w" sizes="(max-width: 324px) 100vw, 324px"
/>Hay otras formas, pero estas son las más difundidas. ¿Qué opción
elegir? Como regla general considera que a mayor número de datos,
más clases tendremos. Lo realmente importante es la forma que va a
tomar nuestro histograma, así que lo más recomendable es que vayas
probando con cada una de las opciones buscando la que te permita
hacer un mejor análisis final.

Paso 4: Determina la amplitud de clase o ancho del intervalo. Se


define con la letra h. Para ello divide el rango entre el número de
clases definido en el paso 3. Si obtienes un número decimal, redondea
al entero más cercano. ¿Por qué? Porque la información debe ser fácil
de interpretar.

Paso 5: Define las clases. Ya tienes el número de intervalos de clase


a considerar y su amplitud, con esto ya puedes establecer cada clase.

Busca el número más pequeño en todos tus datos, y a ese número le


vas a sumar la amplitud de clase. Ya tienes tu primer intervalo o clase.

Por ejemplo si el número más pequeño que tienes es 10 y tu amplitud


de clase es 5:

Tu primer intervalo será: [10 – 15], el segundo (15, 20], y así


sucesivamente.

Si te encuentras con un dato que coincide con el límite de clase, como


por ejemplo “15”, simplemente define un criterio para todos los
intervalos de clase. Define si se ubica en el intervalo actual o el
intervalo siguiente.
Por ejemplo nosotros definimos que el primer intervalo sea todos los
números mayores o iguales a 10 y menores e iguales a 15. En
consecuencia, el segundo intervalo será todos los números mayores a
15 y menores iguales a 20.

Paso 6: Tabula los datos con base en los intervalos de clase


definidos. En otras palabras, agrupa los datos según su pertenencia a
cada clase. Esto te dará la frecuencia de cada clase.

Paso 7: Construye el histograma:

 En el eje x ubica los intervalos de clase.


 En el eje y ubica la frecuencia.

Según la amplitud del intervalo, será el ancho de la barra. El paso a


paso que venimos tratando es para intervalos de clase del mismo
ancho.

Paso 8: Interpreta el histograma. Analiza aspectos como la tendencia,


la variabilidad y la forma de distribución de los datos.

Ejemplo de histograma
Vamos a considerar que, una empresa de búsqueda de empleo ha
decidido hacer un estudio del tiempo que se demoran sus asesores
con cada usuario.

Paso 1: Para este estudio, se tomó el tiempo en minutos de


asesoramiento con 50 usuarios.

<img class=" wp-


image-2310" src="https://ingenioempresa.com/wp-content/uploads/2016/07/Tiempo-
por-usuario-Ejemplo-de-histograma.png" alt="Tiempo en minutos por usuario"
width="451" height="232" srcset="https://ingenioempresa.com/wp-
content/uploads/2016/07/Tiempo-por-usuario-Ejemplo-de-histograma.png 539w,
https://ingenioempresa.com/wp-content/uploads/2016/07/Tiempo-por-usuario-Ejemplo-
de-histograma-300x154.png 300w" sizes="(max-width: 451px) 100vw, 451px"
/>Tiempo en minutos por usuario

Paso 2: Determinamos el rango. El valor más grande es 15,48 y el


más pequeño es 8,58.

15,48-8,58=6,9

Paso 3: Calculamos el número de intervalos de clase (K). Lo hacemos

con la fórmula de raíz cuadrada del número de datos.


<img class="aligncenter size-full wp-image-2311"
src="https://ingenioempresa.com/wp-content/uploads/2016/07/raíz-
cuadrada-ejemplo-histograma.png" alt="raíz cuadrada ejemplo
histograma" width="122" height="61" />

K=7,07

Lo redondeamos al entero más cercano: 7

Paso 4: Calculamos la amplitud o ancho del intervalo. Es la división


del rango (paso 2) entre el número de intervalos (paso 3)

El resultado es: 0,99. Bien podemos redondearlo a 1 o mantenernos


en 0,99. Como el ejemplo lo estoy elaborando con la plantilla de
histograma en excel, lo dejaré en 0,99.

Paso 5 y paso 6:

Definimos las clases sumándole al valor más pequeño, el ancho del


intervalo hasta que obtenga 7 intervalos de clase, justo allí deberá
estar el valor más grande de mis datos. A continuación, agrupamos
cada valor dentro del intervalo de clase, o dicho de otra forma,
determinamos la frecuencia. El resultado es el siguiente:
<img class="aligncenter wp-
image-2312" src="https://ingenioempresa.com/wp-
content/uploads/2016/07/Intervalos-de-clase-con-frecuencia.png"
alt="Intervalos de clase con frecuencia" width="299" height="230"
srcset="https://ingenioempresa.com/wp-
content/uploads/2016/07/Intervalos-de-clase-con-frecuencia.png 347w,
https://ingenioempresa.com/wp-content/uploads/2016/07/Intervalos-
de-clase-con-frecuencia-300x231.png 300w" sizes="(max-width:
299px) 100vw, 299px" />

Paso 7: Construimos el histograma.

Personalmente prefiero ubicar en el eje x la marca de clase y no los


intervalos de clase. La marca de clase es el resultado de sumar el
límite superior e inferior del intervalo y dividirlos por dos. El resultado
no afecta la forma del histograma.

Además, me gusta junto al histograma trazar el polígono de


frecuencias, que no es más que conectar con rectas la parte superior
de cada columna, justo en la mitad. Esto da una mejor idea de la
forma de distribución del histograma.

El resultado del ejercicio resuelto del histograma es el siguiente:

You might also like