You are on page 1of 18

UniversidadNacionalAutnomadeMxico

FacultaddeEstudiosSuperioresCuautitln

HISTOGRAMA

Qu es?
Es una grfica de la distribucin de un
conjunto de datos. Es un tipo especial de
grfica de barras, en la cual una barra va
pegada a la otra, es decir no hay espacio
entre las barras. Cada barra representa un
subconjunto de los datos.

Qu muestra el histograma?
Un histograma muestra la acumulacin
tendencia, la variabilidad o dispersin y la
forma de la distribucin.

Para qu tipo de variable se usa?


Un histograma es una grfica adecuada para representar variables continuas,
aunque tambin se puede usar para variables discretas. Es decir, mediante un
histograma se puede mostrar grficamente la distribucin de una variable
cuantitativa o numrica.
Los datos se deben agrupar en intervalos de igual tamao, llamados clases.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Se puede construir con los siguientes datos un histograma?

Los datos se refieren al


tiempo en segundos de
atencin al cliente, son
cuantitativos

continuos,

luego el histograma es
una buena decisin de
representacin grfica de
estos datos.

Cmo se construye el histograma?


Utilizando software de aplicacin estadstica se
puede obtener fcilmente el histograma de los
datos, por lo que hoy en da nos debemos
centrar

ms

en

su

interpretacin.

Sin

embargo, no est por dems hacer en forma


manual el histograma de los datos.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Lo primero que se tiene que tener en cuenta es que los datos se deben agrupar
en clases de igual tamao. Teniendo en cuenta lo anterior, desarrollemos las
ideas bsicas de la agrupacin de los datos.
Cuntasclases?

Para los datos que se refieren a los tiempos de

Sugerencia1:

atencin al cliente estos varan de 141 a 233


segundos. Si esto lo representaremos con una

N
Nmerode
datos
Menosde50
50100
100200
Msde250

K
Nmerode
Clientes
57
612
712
1020

recta, la longitud sera de 92. A este valor de


92 se le conoce como rango y cmo puedes
ver es igual a la diferencia

entre el valor

mayor y el valor menor. Lo podemos expresar


de la siguiente manera:

R = ymax ymin

Supongamos que deseamos clasificar los datos en 2 clases, lo que equivaldra


a dividir la recta en 2 partes iguales; es decir, dividir 92/2 = 46. A este valor
46, se le conoce como amplitud o intervalo de clase. Entonces la primera clase
comprendera los tiempos entre 141 y 187 y la segunda los tiempos entre 187
y 233, como se ve en la siguiente figura.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeE studiosSuperioresCuautitln

Ahora se nos ocurre clasificar los datos en cuatro


clases, es decir, tenemos que dividir el rango entre
4;

92/4

23.

Entonces

la

primera

clase

comprendera los tiempos entre 141 y 164,

la

segunda los tiempos entre 164 y 187, la tercera


entre 187 y 210 y la cuarta entre 210 y 233.

Cuntasclases?
Sugerencia2:

K = N

Sugerencia3:
RegladeSturges:

K=1+3.322log(N)

Recuerdaquesolosonsugerencias
pararealizarturesumen.Elmejor
resumeneselquefuncione.

Como puedes observar la amplitud de clase se obtiene dividiendo el rango


entre el nmero de clases deseadas, entonces tenemos que:

Cuntas clases se deben utilizar?


Esta interrogante que es muy frecuente y que preocupa mucho al estudiante,
se puede resolver fcilmente si se recuerda que el histograma es un resumen
grfico de los datos y como todo resumen no es nico sino que depende de
quin lo realice. Lo importante de un resumen es que resalte o ponga nfasis
en lo ms importante de la informacin.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

En nuestro caso un buen resumen, es decir un


buen histograma, debe de proporcionar una
buena idea de la acumulacin, dispersin y forma
de la distribucin de los datos. Por esta razn a
veces es necesario hacer varios histogramas con
diferente nmero de clases hasta obtener el que
muestre eficientemente las caractersticas antes
mencionadas. La sugerencia principal es que de
ser posible, el nmero de clases se encuentre
entre 5 y 20, tendiendo a un nmero mayor de
clases segn aumente el nmero de datos.
Atendiendo a la sugerencia anterior agrupemos ahora los datos en 6 clases,
por lo tanto:

amplitud de clase =

92
=15.33
6

Redondeando al entero mayor, tenemos que:

Amplituddeclase=16

Porqunoutilizarlaamplituddeclasede15.333queseobtuvo?

Laideaesresumirlainformacindetalmaneraquepodamoscomoseha
mencionadodeterminartendencia,variabilidadyformadeladistribucindelos
datos.
Elresumendebeserfcildeobtenerynorepresentarunproblemaadicionalen
elanlisisdelosdatos.Estaeslaraznfundamentalporlaqueseredondea,para
realizarlofcilmente.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Ahora vamos a escribir las clases en una columna.

Porquseredondeaalvalor
mayor?

Clases
141157
157173
173189
189205
205221
221237

continuacin

contemos

el

nmero

de

observaciones que pertenecen a cada clase. Antes


de proceder al conteo el valor 189 dnde se
considera, en la tercera o cuarta clase?

En qu clase se consideran los datos


que coinciden con los lmites de clase?
Diferentes autores dan ideas diferentes de cmo
solucionar

esta

cuestin,

alguna de estas dos:

aqu

recomendamos

Por ninguna razn en especial.


Mantenga en la mente que la
amplitud de claseobtenidapermitir
obtener el histograma y que una vez
realizado este si muestra las
caractersticas de la distribucin ser
un buen instrumento; en caso
contrario hay que modificar el
nmero de clases y con esto la
amplitud y volver a construir el
histograma.

1. Considerar a los lmites superiores en la clase siguiente. Es decir, contar


el 189 en la cuarta clase. Esto equivale a
leer la tercera clase, como el intervalo
que incluye a los valores desde 173 a
menos de 189. Entonces en la tabla se
debe de indicar que el smbolo -, se
debe leer como a menos de , con lo
que se resuelve el problema de datos
coincidentes con los lmites.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Si aparece un dato con


valor de 189 como se
menciona en el ejemplo,
alguien propone lanzar
una moneda. S cae
guila lo cuentas en la
tercera clase, s cae sol lo
cuentas en la cuarta
clase. Qu te parece
esta sugerencia?

Clases
141157
157173
173189
189205
205221
221237
Indicamenosde:

2. Se especifica un rango un poco ms


amplio que el rango de los datos y se introduce
un decimal extra en los lmites de las clases.
Para nuestro ejemplo el rango se incrementa de
92 a 93, es decir se increment en 1. Este
aumento se reparte de forma igual entre la
primera y la ltima clase. Es decir = 0.5,
entonces la primera clase iniciar en 141 - 0.5
= 140.5 y la ltima terminar en 237 + 0.5 =
237.5. Por lo

Seguramente no te gusta,
pero por supuesto, que se
puede utilizar ya que
debes recordar que ests
haciendo un resumen y
que un dato pertenezca a
una u otra clase no
afecta mientras puedas
mediante el resumen
obtener ideas claras
acerca de la distribucin
de los datos.

tanto, las

clases seran las

siguientes:
Clases
140.5157.5
157.5173.5
173.5189.5
189.5205.5
205.5221.5
221.5237.5

Como

se

puede

observar

ya

ningn

dato

coincide con los lmites de clase.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

17

16

15

13

14

13

3
157

173
189
205
221
Tiem po invertido en atender al cliente

Resultado:sol,189secuenta
enlacuartaclase

157

173
189
205
221
T iem po invertido en atend er al cliente

Resultado:guila,189se
cuentaenlatercerclase

Nohayuncambioimportantedeladistribucin

Agrupemos ahora los datos en 6 clases siguiendo la primera recomendacin.


Entonces, tenemos:
Clases
141157
157173
173189
189205
205221
221237
Indicamenosde:

Ahora si podemos contar el nmero de observaciones


que le corresponde a cada clase. A este nmero de
observaciones se le

conoce

como frecuencia

frecuencia absoluta (fi).

A la tabla de dos columnas,

en que una de ellas indica las clases y la otra las


frecuencias se le conoce como tabla de distribucin
de frecuencias, debido a que muestra con qu
frecuencia se distribuyen los datos alrededor del

Clases
Frecuencia
141157
2
157173
13
173189
17
189205
14
205221
3
221237
1
Indicamenosde:

valor de la variable.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Utilizar los nombres genricos de clases y frecuencias


no le indican al lector nada acerca de los datos
representados en la Tabla. Por lo que en lugar de
clases se debe escribir el nombre de los datos
estudiados y en lugar de frecuencias el elemento
donde se observaron o midieron stos. En nuestro
caso la variable es el tiempo invertido en la atencin
al cliente medido en segundos y las frecuencias son
el nmero de clientes.

Tiempoinvertidoen
No.De
atenderalcliente
clientes
141157
2
157173
13
173189
17
189205
14
205221
3
221237
1
Indicamenosde:

18

Demasiado resumen:
pocas clases

17

16

Resumen Adecuado

14

14
Nmero de clientes

Poco resumen: muchas


clases

13

12
10
8

S graficamos en el eje de las X

6
4
2

2
0

1
141

157

173
189
205
221
Tiempo invertido en atender al cliente

a las

clases y en eje de las Y a las frecuencias

237

obtenemos el histograma de nuestros


datos, que es la representacin visual de
la distribucin de frecuencias.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Puede proporcionar
mayor informacin?

Qusepuedehacer,siresultan
espaciosvacosentrelasbarras?

la

Tabla

Se puede obtener mayor informacin a


partir de los datos si se elaboran unas
columnas

adicionales

en

la

Tabla

de

Distribucin de Frecuencias. Si dividimos


las frecuencias de cada clase entre el total

de

observaciones

obtenemos

la

frecuencia relativa (fri), es decir la


proporcin de observaciones del total que pertenecen a cada clase.
Tiempoinvertido
No.De
Proporcinde
enatenderal
clientes
clientes(fri)
cliente
141157
2
2/50=0.04
157173
13
13/50=0.26
173189
17
17/50=0.34
189205
14
14/50=0.28
205221
3
3/50=0.06
221237
1
1/50=0.02
Indicamenosde:

Entonces la primera clase indica que hay 2 clientes que tardaron de 141 a
menos de 157 segundos en ser atendidos en la caja; 4% de los clientes
observados tardaron de 141 a menos de 157 segundos en la caja.
Para cada clase es conveniente calcular un valor que la represente. Este valor
se conoce como Marca de Clase (Xi) y es el punto medio de cada clase. Se
obtiene de la siguiente manera:

.
2

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Tiempo
invertidoen
No.De
atenderal
clientes
cliente
141157
2
157173
13
173189
17
189205
14
205221
3
221237
1
Indicamenosde:

Proporcin
declientes
(fri)

Marca
deClase
(Xi)

2/50=0.04
13/50=0.26
17/50=0.34
14/50=0.28
3/50=0.06
1/50=0.02

149
165
181
197
213
229

Si en el histograma colocamos las marcas de


clase, estas sern el punto medio de cada
barra y si unimos los puntos medios de la
parte superior de cada barra obtenemos otra

Como un primer intento se debe de


reducir el nmero de clases, con lo
que se hacen ms anchas las barras y
se eliminan los espacios vacos.

representacin grfica conocida como polgono


de frecuencias.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Observa

que

terminacin

del

el

inicio

polgono

y
de

frecuencias son la marca de clase


de una clase anterior a la primera
y

la

marca

posterior

de
a

clase
la

de

una

ltima,

respectivamente. Es decir, el inicio


es 133 y la terminacin es 245
segundos.
Ahora que se ha construido el histograma y el polgono de frecuencias
absolutas y relativas, procedamos a interpretarlos:

Ysielproblemanosecorrige?

La mayor acumulacin o tendencia

la encontramos en la tercera clase; 17

Intenta aumentar el nmero de clases. S


el problema no se corrige, es posible que
se puedan observar dos distribuciones
traslapadasoseparadas

clientes, es decir el 34% de los clientes


observados, tardaron entre 173 y casi 189
segundos

en

la

caja.

Es

decir,

el

histograma muestra que la acumulacin o


tendencia del tiempo en que tardan los
clientes en caja se encuentra entre 173 y
189 segundos.
9

Slo 2 clientes, es decir nicamente

el 4% de los clientes observados fueron


atendidos en caja en un tiempo menor a

El polgono de frecuencia nos muestra de


otra manera la forma de la distribucin,
que para nuestro ejemplo es
aproximadamentesimtrica.

los 157 segundos.


9

4 clientes o sea el 8% de las

personas tardaron 205 segundos o ms en


la caja.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

9 44 de los 50 clientes observados, es decir


el 86% de los clientes estudiados tardaron
entre 157 y 205 segundos. El histograma
muestra que el rango o variabilidad total va

Unadistribucinsimtricacon
formadecampanaseconoceen
estadsticacomodistribucin
normal

de 141 a 237 segundos, y que el 88% de


los clientes tardaron entre
segundos.

Se

puede

157 y 205

decir,

en

otras

palabras que el tiempo que tardaron el


88% de las personas varo entre 157 y 205
segundos

9 La forma de la distribucin es aproximadamente simtrica con respecto a la


tercera clase y la curva suavizada nos muestra una distribucin en forma
aproximada a una campana que en estadstica se conoce como distribucin
normal.
Como se puede observar el histograma nos

Ladistribucindenuestrosdatoses
aproximadamentenormal.

muestra

una

fotografa

nuestros

datos,

que

reveladora

muy

de

difcilmente

podramos apreciar a partir de ellos, si se


encuentran sin agrupar.

21

Al observar el histograma al gerente del

18

Frecuencia

15

banco le gustara en lugar de reducir el

12

tiempo en caja, disminuir la variabilidad.

9
6

Esto

3
0

140

156

172

188

204

220

236

lo

puede

conseguir

controlando

variables que afectan al proceso, tal como


tipo

de

operacin

realizada,

nmero

de

operaciones aceptadas, hora del da en que


se hizo la observacin, etc. y el histograma obtenido reflejar la mejora del
proceso. Es en resumen esta grfica sencilla un instrumento valioso para tener
una buena idea acerca del comportamiento de nuestros datos.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Ojivas o Polgonos de Frecuencia Acumulada


En la tabla tambin se pueden adicionar columnas que indiquen el nmero de
observaciones cuyo valor sea menor o igual que el lmite superior de cada
clase, lo que se conoce como frecuencia acumulada.
As por ejemplo, para la tercera clase, el nmero de observaciones menores a
189 son 17 + 13 +2 = 32, que son las frecuencias de la tercera, segunda y
primera clase respectivamente. Este valor es la frecuencia acumulada hasta la
tercera clase.
Tiempo
invertido
No.De
enatender clientes
alcliente
141157
2
157173
13
173189
17
189205
14
205221
3
221237
1
Indicamenosde:

Proporcin
declientes
(fri)
2/50=0.04
13/50=0.26
17/50=0.34
14/50=0.28
3/50=0.06
1/50=0.02

Marca
de
Clase
(Xi)
149
165
181
197
213
229

Frecuencia
Frecuencia
Acumulada
Acumulada
Relativa
(Fi)
(Fri)
2
0.04
15
0.30
32
0.64
46
0.92
49
0.98
50
1.00

La frecuencia
acumulada
puede ser
absoluta (Fi) o
relativa (Fri),
segn se utilice
la frecuencia
absoluta o
relativa para
obtenerla.

Si se grafican ahora sobre el eje de las


X los lmites superiores de clase y
sobre el eje de las Y las frecuencias
acumuladas

absolutas

relativas

obtenemos la grfica conocida como


Ojiva

Polgonos

de

frecuencia

acumulada.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

Algunas de las afirmaciones que podemos


hacer

al

observar

la

grfica,

son

las

siguientes:

Descripcinsugerida:

9 46 clientes tardaron menos de 205


segundos; es decir el 92% de los
clientes tardaron menos de 205

Indicarlosvaloresalrededordeloscuales
losdatosseacumulan.

segundos.

Indicarlosvaloresextremos.

9 El proceso es muy tardado slo en


el 2% de los casos;

tardaron ms

de 221 segundos.

Indicarlavariabilidaddelosdatos,(sin
tomarencuentalosvaloresextremos)
Indicarlaformadeladistribucin

9 El proceso es muy rpido slo en el


4% de los casos; tardaron menos
de 157 segundos
9 El 64% de los clientes tardaron menos de 189 segundos.

Interpretando unos histogramas


Hemos

mencionado

que

hoy

en

da

nos

debemos centrar ms en la interpretacin de los


histogramas que en su elaboracin, ya que se
cuenta

con

tecnologa

para

elaborarlos.

continuacin se presentan cuatro histogramas


correspondientes a las calificaciones obtenidas
en la asignatura de estadstica en cuatro grupos
diferentes. Qu nos puede decir la forma de
estos histogramas?

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

La seccin A muestra que las


calificaciones

se

distribuyen

en

forma aproximadamente simtrica,


con respecto a la clase de mayor
frecuencia, que comprenden las
calificaciones de 7.8 a 8.2.; la
mayora

de

los

estudiantes

obtienen calificaciones entre 7.4 y


8.6, (acumulacin o tendencia). A
esta forma de la distribucin se le
conoce como normal.
La seccin B muestra una distribucin con una cola larga a la derecha, es decir,
muestra un sesgo positivo. La mayora de los estudiantes obtuvieron
calificaciones muy bajas, como lo muestra la acumulacin de las calificaciones
en la parte izquierda de la grfica y muy baja densidad en la parte derecha.
Esto se puede deber a varias razones, como por ejemplo, que el grupo este
formado por muy malos estudiantes

el profesor sea muy exigente el

examen como instrumento de evaluacin sea inadecuado, etc.

Ladistribucindelas
calificacionesdelgrupoA
esnormal.

Ladistribucindelas
calificacionesdelgrupoB
estasesgadaaladerecha.

Ladistribucindelas
calificacionesdelgrupoC
estasesgadaalaizquierda.

La seccin C muestra una distribucin con una cola larga a la izquierda, es


decir, muestra un sesgo negativo.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

La mayora de los estudiantes


obtuvieron
altas,

calificaciones

como

lo

muy

muestra

la

acumulacin de las calificaciones


en la parte derecha de la grfica
y muy baja densidad en la parte
izquierda. Esto se puede deber a
varias

razones,

ejemplo,

que

formado

por

el

como

por

grupo

este

muy

buenos

estudiantes el profesor sea muy relajado el examen fue muy fcil, etc.
La

seccin

muestra

dos

distribuciones normales traslapadas,

ParaelgrupoDseobservandos
poblacionestranslapadas.

una con acumulacin entre 5.6 y 6.4 y


la otra entre 7.2 y 8.0. Este se puede
deber a que el grupo este conformado
por

estudiantes

antecedentes
(repetidores

con

en
y

la

distintos
asignatura

regulares),

con

distintos hbitos de estudio, etc.

Examinemos ahora los histogramas


que se muestran enseguida y que se
refieren al peso en kilogramos de los

estudiantes de un grupo de estadstica. La grfica con nombre total, muestra la


distribucin del peso de todos los estudiantes, mientras que las otras dos
grficas separan el peso de los hombres y de las mujeres,

Qu podemos

apreciar en estas grficas?


Un aspecto relevante que revelan estas grficas es la acumulacin o tendencia
y la variabilidad.

Histograma

http://www.cuautitlan.unam.mx

UniversidadNacionalAutnomadeMxico
FacultaddeEstudiosSuperioresCuautitln

La variabilidad total del peso se encuentra


entre 35 y 105. La variabilidad para los
hombres disminuye y se encuentra entre 55 y
105 y para las mujeres aun es menor y se
encuentra entre 35 y 75 kilos. La variabilidad
al formar grupos por el gnero disminuye,
debido a que son grupos ms homogneos.
Para los hombres la tendencia se muestra
entre 55 y 85 kilos, mientras que para las
mujeres se encuentra entre 45 y 65.

En

resumen

sencilla,

como

histograma,
instrumento
obtener

una
lo
es

grfica
es

el
un

poderoso

para

informacin

del

comportamiento de los datos


y describir adecuadamente su
distribucin.

Histograma

http://www.cuautitlan.unam.mx