Professional Documents
Culture Documents
\
|
=
E
S Z
n
(1)
Donde
Z
/2
: Valor de la variable aleatoria Z en una distribucin normal estndar para un nivel de
confianza (1-) deseado.
S: Desviacin estndar de las velocidades puntuales, por lo general se obtiene de
estudios preliminares o pruebas piloto. [Km/h]
E: Error mximo admisible en los datos [Km/h]
Ejemplo: En una carretera de dos carriles en el departamento de Boyac se desea
cuantificar la velocidad puntual en un punto crtico de accidentalidad, segn una prueba
piloto se determin que la desviacin estndar de las velocidades registradas fue de 7.5
Km/h. Cul debe ser el tamao muestral mnimo requerido si se desea un nivel de
confianza del 95% y se admite un error mximo de 2 Km/h?
Solucin:
Para un nivel de confianza del 95%, = 0.05, es decir /2 = 0.025 o 2.5%, en la tabla de
reas bajo la curva normal encontramos un valor de Z
0.975
= 1.96
Por lo tanto
2
5 . 1
5 . 7 * 96 . 1
|
\
|
= n = 55 datos
En la prctica debe utilizarse un tamao muestral mayor puesto que podra presentarse
una variacin en la dispersin de los datos incrementando su desviacin estndar y con
ello el tamao mnimo de la muestra, para el caso del ejemplo, si al efectuar el estudio se
obtuviese una desviacin estndar de 9 Km/h, esto implicara haber contabilizado mnimo
139 datos.
El nivel de confianza comnmente aceptado en ingeniera es del 95%, sin embargo
algunos autores consideran aceptable hasta un 90%. El error mximo admisible depende
del criterio del ingeniero analista, sin embargo no es aconsejable utilizar valores mayores
a 3 Km/h.
Anlisis de datos
La prueba de normalidad:
Este es el primer anlisis que debe realizarse a los datos de velocidad, se realiza con el
fin de determinar si estadsticamente los datos se ajustan a una distribucin normal, esto
es lo que se denomina prueba de normalidad. En el grfico de probabilidad mostrado en
la figura, se muestra el anlisis para un conjunto de datos que se ajustan a una
distribucin normal.
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
7
90 80 70 60 50 40 30 20
99.99
99
95
80
50
20
5
1
0.01
Velocidad
P
e
r
c
e
n
t
Mean 55.36
StDev 9.285
N 600
AD 1.289
P-Value <0.005
Test for Normality
Normal
A partir del grfico de probabilidad, se realize una prueba de hiptesis para determiner si
los datos corresponden a una distribucin normal. Para el caso de la prueba de normalidad,
las hiptesis son:
H0: Los datos siguen una distribucin normal
vs.
H1:Los datos no siguen una distribucin normal.
La escala de las ordenadas en el grfico de probabilidad corresponde a una escala con
distribucin normal, el eje de las abscisas tiene una escala lineal.
Existen diferentes test de normalidad basados en distribuciones acumulativas empricas, los
ms comunes son Anderson-Darling, Ryan-Joiner y Kolmogorov-Smirnov.
El anlisis de los datos recolectados en campo en cuanto a estadstica descriptiva abarca:
medidas de tendencia central como media aritmtica, mediana, moda, media geomtrica y
media armnica; medidas de dispersin como percentiles, velocidad mxima y mnima
registrada, varianza, desviacin estndar, coeficiente de variacin y desviacin media;
tambin involucra medidas de asimetra (coeficiente de asimetra) y curtosis.
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
8
80 72 64 56 48 40 32
60
50
40
30
20
10
0
Velocidad
F
r
e
q
u
e
n
c
y
Mean 55.36
StDev 9.285
N 600
Histogram of Velocidad
Normal
90 80 70 60 50 40 30
Velocidad
Individual Value Plot of Velocidad
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
9
Estadstica descriptiva para la variable Velocidad:
Media
Error
estndar de
la media
Desviacin
Estndar
Varianza
Coeficiente
de Variacin
Primer
cuartil
Mediana
Tercer
cuartil
55.36 0.37904282 9.28461488 86.2040735 16.7713419 48 55 62
Rango
intercuartlico
Media
recortada
Suma Mnimo Mximo Rango
Suma de
los
cuadrados
Asimetra
14 55.2018519 33216 32 83 51 1890474 0.23904354
Curtosis
Media de las
diferencias
sucesivas
cuadradas
Nmero de
datos
N de datos
perdidos
Cuenta
N
Acumulado
Porcentaje
analizado
%
acumulado
-0.32396645 71.5383973 600 0 600 600 100 100
A continuacin se muestra el resultado del anlisis estadstico de los datos recolectados
durante un estudio de velocidades de punto del tipo antes y despus con el propsito de
evaluar la efectividad de un dispositivo reductor de velocidad basado en efecto visual
Tabla2. Medidas de Tendencia Central
ANTES DESPUS
Media aritmtica: 67,65 KPH 59,85 KPH
Mediana: 67 KPH 58 KPH
Moda: 67 KPH 55 KPH
Media Geomtrica: 66,63 KPH 59,12 KPH
Media Armnica: 65,59 KPH 58,41 KPH
Fuente: Martnez Germn y Rodrguez Luis. Diseo y prueba de efectividad de dispositivos reductores de
velocidad de efecto visual para carreteras de dos carriles. GIDOT. Facultad de Ingeniera. UPTC 2006.
Es notable la importancia de las medidas de tendencia central en el anlisis de
velocidades, por ejemplo, los datos de la tabla 2 muestran claramente la reduccin de la
velocidad media en el punto donde se registraron los datos despus de implementar el
DRV.
Tabla 3. Medidas de Dispersin
ANTES DESPUS
Valor mximo: 98 KPH 86 KPH
Valor mnimo: 45 KPH 42 KPH
Rango: 53 KPH 44 KPH
Varianza: 136,31 (KPH)
2
91,04 (KPH)
2
Desviacin Estndar: 11,68 KPH 9,54 KPH
Coeficiente de
Variacin: 0,173 0,159
Desviacin Media: 9,283 KPH 7,681 KPH
Fuente: Guo Fredy, Martnez Germn y Rodrguez Luis. Diseo y prueba de efectividad de dispositivos
reductores de velocidad de efecto visual para carreteras de dos carriles. GIDOT. Facultad de Ingeniera.
UPTC 2006.
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
10
Las medidas de dispersin mostradas en la tabla 3 permiten determinar el
comportamiento de los datos respecto a la media, por ejemplo, puede apreciarse que los
datos registrados despus de materializar el DRV tienen una menor dispersin que los
datos antes.
En la tabla 4 se indica el coeficiente de asimetra y curtosis de las distribuciones de datos,
segn estos valores, los datos registrados antes del DRV presentaron una distribucin
ms simtrica, la grfica de esta distribucin se observa en la figura 2.
Tabla 4. Medidas de Asimetra y Apuntamiento
ANTES DESPUS
Coeficiente de
Asimetra: 0,085 0,503
Curtosis: -0,343 -0,268
Fuente: Martnez Germn y Rodrguez Luis. Diseo y prueba de efectividad de dispositivos reductores de
velocidad de efecto visual para carreteras de dos carriles. GIDOT. Facultad de Ingeniera. UPTC 2006.
La distribucin de percentiles es una de las ms importantes salidas de un estudio de
velocidades de punto, puesto que muestra la proporcin de vehculos que sobrepasan un
determinado valor de velocidad, esta distribucin se utiliza entre otras para determinar
velocidades de operacin mximas y mnimas y definir parmetros de diseo en trminos
de las condiciones presentes en un determinado punto de una va, en la figura XXX se
muestra la distribucin de percentiles para el estudio citado. En este caso puede verse
que el DRV afect ms a los vehculos rpidos haciendo que un mayor porcentaje de los
vehculos circularan a una velocidad determinada, por ejemplo, antes del DRV cerca del
25% de los vehculos circulaba por debajo de 60Km/h, luego de implementado el DRV
casi 2/3 de los conductores circula en ese rango.
Figura 2. Distribucin de percentiles de velocidades de punto
Fuente: Martnez Germn y Rodrguez Luis. Diseo y prueba de efectividad de dispositivos reductores de
velocidad de efecto visual para carreteras de dos carriles. GIDOT. Facultad de Ingeniera. UPTC 2006.
VARIACIN DE VELOCIDAD
40
45
50
55
60
65
70
75
80
85
90
95
100
05
1
0
1
5
2
0
2
5
3
0
3
5
4
0
4
5
5
0
5
5
6
0
6
5
7
0
7
5
8
0
8
5
9
0
9
5
1
0
PERCENTIL
V
E
L
O
C
I
D
A
D
Antes
Despus
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
11
En el caso de estudios de velocidad dentro de la corriente vehicular, el tamao muestral
debe determinarse con base en la duracin del periodo de anlisis, por ejemplo, si se
pretende estudiar la distribucin espacial de las velocidades en un corredor determinado
de una ciudad debe tenerse en cuenta la variacin temporal de la demanda en funcin de
los periodos crticos u horas pico. As, el nmero de recorridos a realizar durante un
periodo de tiempo debe garantizar que se trabajar con valores promedios
representativos del corredor, a mayor nmero de recorridos se tendr una mayor
confiabilidad de los datos, sin embargo, la mayora de las veces resulta imprctico realizar
muchos recorridos por lo que el ingeniero de trnsito recurre a muestras pequeas.
Estadstica Inferencial
En cuanto a estadstica inferencial, los datos de velocidades pueden ser utilizados para
determinar intervalos de confianza o realizar pruebas de hiptesis como se ver ms
adelante.
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
12
ESTADSTICA DESCRIPTIVA
DISTRIBUCIN DE FRECUENCIA
La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la
informacin que se ha recogido sobre la variable que se estudia. Es un mtodo para clasificar
datos en intervalos de manera que podamos saber qu porcentaje o frecuencia o nmero de datos
hay en cada uno de ellos.
La distribucin de frecuencias nos permite observar un conjunto de datos en lugar de observarlos
uno por uno.
INTERVALO: que va entre dos lmites.
FRECUENCIA: Nmero de datos en cada intervalo.
ALGORITMO: Serie de pasos u rdenes lgicas para realizar una tarea.
1. Establecer el nmero de intervalos en los que se van a agrupar los datos (K)
Determinar la amplitud o RANGO de los datos: Diferencia entre el mayor y el menor.
Definir el nmero de intervalos. Esta es una decisin personal muchas veces, dependiendo del
nmero y clase de los datos. Se recomienda mnimo 6 intervalos, mximo 12.
STURGES recomienda la expresin: K = 1 + 3.22 log n
Otros dicen que n K = , donde n es el nmero de datos.
Encontrar la amplitud o el ancho del intervalo, esto se conoce como INTERVALO DE CLASE
Intervalo de Clase = Rango / # intervalos = Rango / K
2. Ordenar los datos en clase mediante un conteo por marcas.
Para definir los lmites superior e inferior debemos tener en cuenta lo siguiente:
i. Todos los datos deben quedar incluidos dentro de los intervalos que hemos definido.
ii. No debe existir duda acerca de en qu intervalo debe ir un dato determinado. Para
evitar ambigedades, los lmites de los intervalos de clase deben tener una cifra
significativa ms que los datos que tenemos.
FRECUENCIA ABSOLUTA SIMPLE (fi | i = 1, 2, , K): es el nmero de datos en cada intervalo.
FRECUENCIA ABSOLUTA ACUMULADA: (Fi) proviene de la sumatoria acumulada de las frecuencias
absolutas simples.
FRECUENCIA RELATIVA SIMPLE (fi* = fi / n)
FRECUENCIA RELATIVA ACUMULADA (Fi = Fi / n)
Las frecuencias relativas suelen calcularse como porcentaje multiplicando por 100 su valor.
MARCA DE CLASE (X) es el valor medio de los lmites del respectivo intervalo
2
ls li
Xi
+
=
Frecuencias absolutas Frecuencias relativas
N
intervalo
Intervalo f F F* F* X
1
ls li 1 1
n
1
n
1
= f
1
/ n = F
1
/ n = (li
1
+
ls
1
)/2
2
ls li 2 2
n
2
n
1
+ n
2
= f
2
/ n = F
2
/ n = (li
2
+
ls
2
)/2
K
ls li K K
n
k
n
k-1
+ n
k
= f
k
/ n = F
k
/ n = (li
k
+
ls
k
)/2
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
13
EJEMPLO:
Los siguientes datos corresponden a 60 observaciones realizadas en la entrada de la UPTC
respecto a la variable velocidad de caminata, expresada en Km/h.
N Vel. N Vel. N Vel. N Vel. N Vel.
1 5.25 13 5.13 25 3.88 37 4.91 49 5.1
2 6.23 14 4.58 26 6.93 38 5.35 50 5.18
3 5.19 15 4.63 27 5.02 39 4.48 51 3.37
4 3.47 16 5.38 28 5.08 40 5.81 52 5.24
5 5.12 17 6.28 29 6.34 41 5.31 53 4.85
6 5.01 18 5.97 30 6.02 42 7.97 54 5.17
7 5.78 19 4.1 31 6.02 43 6.5 55 5.05
8 3.88 20 6.4 32 4.92 44 6.88 56 6.96
9 4.96 21 6.06 33 6.77 45 4.29 57 4.79
10 5.12 22 4.35 34 5.99 46 5.26 58 3.96
11 4.81 23 3.9 35 4.87 47 6.33 59 4.61
12 3.85 24 5.15 36 5.32 48 5.76 60 4.23
N Intervalos (sturges): 6.73 7
N Intervalos (otros): 7.75 8
N Intervalos a utilizar: 7
Mayor Valor: 7.97
Menor Valor: 3.37
Rango: 4.60
Intervalo de clase: 0.66
TABLA DE DISTRIBUCIN DE FRECUENCIAS
N INTERVALO f F f* F* X
1 3.370 - 4.027 7 7 11.67% 11.67% 3.70
2 4.03 - 4.684 8 15 13.33% 25.00% 4.36
3 4.68 - 5.341 24 39 40.00% 65.00% 5.01
4 5.34 - 5.999 7 46 11.67% 76.67% 5.67
5 6.00 - 6.656 9 55 15.00% 91.67% 6.33
6 6.66 - 7.313 4 59 6.67% 98.33% 6.98
7 7.31 - 7.970 1 60 1.67% 100.00% 7.64
REPRESENTACIN GRFICA DE LA DISTRIBUCIN DE FRECUENCIAS
Las frecuencias absolutas se presentan grficamente mediante un HISTOGRAMA DE FRECUENCIAS
que es un plano cartesiano en el cual en el eje de las abscisas colocamos los lmites de los
intervalos y en el eje de las ordenadas la frecuencia absoluta simple (f). Cada intervalo suele
graficarse como un rectngulo (grfico de columnas). Tambin podemos graficar el histograma
acumulado teniendo en cuenta en el eje de las ordenadas la frecuencia absoluta acumulada (F),
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
14
este diagrama nos permite encontrar frecuencias menores o iguales a un determinado valor
porcentual.
FRECUENCIA ABSOLUTA SIMPLE
7
8
24
7
9
4
1
0
5
10
15
20
25
30
4.027 4.684 5.341 5.999 6.656 7.313 7.970
- - - - - - -
3.370 4.03 4.68 5.34 6.00 6.66 7.31
INTERVALO
f
Polgono de
frecuencias
HISTOGRAMA
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
15
MEDIDAS DE TENDENCIA CENTRAL
Representan Valores promedios o medidas de posicin de los datos hacia su valor medio.
a) Media aritmtica: cuando se trata de la poblacin, se denota con la letra (miu) y es un
PARMETRO poblacional, mientras que para la muestra se denota con
__
X (equis trazo) y es un
ESTIMADOR.
Para datos sueltos se calcula como el promedio de los valores, o su sumatoria dividida entre el
nmero de datos.
n
X
n
i
i x
=
=
1
__
Para datos agrupados se calcula como la relacin entre el producto de las frecuencias absolutas
por la marca de clase y el nmero de datos
( )
n
i
X
k
i
i
x f
=
=
1
__
FRECUENCIA ABSOLUTA ACUMULADA
7
15
39
46
55
59
60
0
10
20
30
40
50
60
70
4.027 4.684 5.341 5.999 6.656 7.313 7.970
- - - - - - -
3.370 4.03 4.68 5.34 6.00 6.66 7.31
INTERVALO
f
Ojiva
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
16
b) Media geomtrica: La media geomtrica se suele utilizar en series de datos como tipos de
inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el
de los aos anteriores. Es la raz ensima del producto de n datos
Para datos sueltos
n
n
i
i
G x
X
=
=
1
__
La media geomtrica se utiliza ms en su forma logartmica.
|
|
|
|
\
|
=
=
n
anti X
n
i
i
G
x
1
__
log
log
Para datos agrupados:
|
|
|
|
\
|
=
=
n
i
anti X
k
i
i
G
x f
1
__
log
log
c) Media armnica: Es utilizada en algunas aplicaciones de economa e ingeniera de trnsito. Para
calcularla, primero hallamos la media aritmtica de los recprocos de los respectivos datos
individuales. Luego hallamos el recproco de esa media calculada.
Para datos sueltos:
=
=
n
i
i
A
x
n
X
1
__
1
Para datos agrupados:
=
=
k
i
i
i
A
x
f
n
X
1
__
1
d) Media ponderada: es til en los casos en que los valores individuales tienen diferente valor o
peso dentro del conjunto de datos. Para calcularla dividimos la sumatoria del producto de cada
dato por su peso relativo sobre la suma de sus pesos.
( )
=
=
=
n
i
i
n
i
i i
p
w
w x
X
1
1
__
*
e) Mediana: se utiliza cuando la distribucin de frecuencias es asimtrica, es un valor que divide la
distribucin de los datos en dos partes iguales. Es un valor tal que el 50% de los datos son menores
que ella y el otro 50% son mayores.
Para datos sueltos:
El primer paso es ordenar los datos en forma ascendente.
Si n es impar: 1 2 + = m n
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
17
1 + = m
Me
isimo elemento
Si n es par: m n 2 =
( ) ( ) [ ]
2
1 + +
=
m m
Me
Para datos agrupados, la mediana solo puede calcularse en forma aproximada suponiendo que los
datos estn distribuidos uniformemente.
En la tabla de distribucin, en la columna F* (frecuencia relativa acumulada) observamos el
intervalo que pase de 0.5 (50%), en ese intervalo est incluida la mediana.
( ) [ ]
f
f
l M
Me
a
i e
n
C
+ =
2 /
Donde:
L
i
: lmite inferior del intervalo donde est Me
C: Intervalo de Clase (ancho del intervalo)
f
a
: frecuencia absoluta de todos los intervalos que estn antes de la Mediana
f
me
: frecuencia absoluta del intervalo donde est la mediana.
f) Moda: es el valor que ms se repite (aparece ms frecuentemente)
Para datos sueltos: M
o
= el valor que ms se repite.
Para datos agrupados:
Lo primero es buscar en la columna f (frecuencia absoluta) la mayor de todas las frecuencias.
ZX
EF
WY
EP
=
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
18
2 1
Mo Ls Li Mo
( ) ( ) 1 2
=
Mo Ls Li Mo
2 1
* 2 * 1
+
+
=
Li Ls
Mo
C Li Ls + =
|
\
|
+
+ =
2 1
1
C Li Mo
COMPARACIN ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Distribucin
Simtrica
Distribucin
Asimtrica a la
Derecha
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
19
Ejemplo de aplicacin de la media geomtrica:
La media geomtrica (
G
X ) es una herramienta til en el clculo de tasas promedio de
crecimiento en problemas econmicos y de produccin.
La
G
X de las razones de los valores individuales con respecto a cada valor precedente en una
serie de datos es el nico promedio apropiado para las razones. La media aritmtica no nos da un
valor consistente.
Ejemplo: los siguientes fueron los volmenes de trnsito promedio diario registrados en la
estacin de conteo N 71 (Tunja Ventaquemada) del INVIAS durante los aos 1992 a 2002
AO TPDS RAZN Log (Razn)
1992 5725 -
1993 6141 1.07266376 0.03046361
1994 6042 0.98387885 -0.00705838
1995 7339 1.21466402 0.08445617
1996 6730 0.91701867 -0.03762182
1997 6831 1.01500743 0.00646922
1998 6766 0.99048456 -0.00415229
1999 6796 1.00443393 0.00192138
2000 6558 0.9649794 -0.01548196
2001 7005 1.06816102 0.02863673
SUMA: 0.08763265
Promedio: 0.00973696
Al calcular el antilogaritmo del promedio de las tasas obtenemos la media geomtrica y de
ella la tasa de crecimiento medio:
|
|
|
|
\
|
=
=
n
anti X
n
i
i
G
x
1
__
log
log Entonces: 0226734 . 1
__
=
G
X
Distribucin
Asimtrica a la
Izquierda
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
20
Por lo tanto, la tasa de crecimiento promedio del trnsito es del 2.27%
MEDIDAS DE POSICIN NO CENTRAL
Percentiles, deciles y cuartiles
Son parmetros descriptivos de una distribucin. Establecen la localizacin de diversos
valores que dividen la muestra en grupos de acuerdo a su frecuencia.
Se localizan en el histograma de frecuencia acumulada relativa F*, exactamente sobre la
ojiva.
( )
(
(
+ =
f
fractil
fa fraccin n
C Li Fractil
*
La abscisa en cualquier punto de la ojiva se llama fractil, y la ordenada se llama
fraccin y se maneja en forma porcentual. sta representa la fraccin de la totalidad de
datos que tienen un valor menor o igual al del fractil correspondiente.
El fractil recibe diferentes nombres:
1% = primer percentil
5% = quinto percentil
10% = dcimo percentil o primer decil
25% = vigsimo quinto percentil o primer cuartel
50% = percentil 50, o quinto decil, o segundo cuartel, o MEDIANA
Para ubicar el intervalo en la tabla de frecuencias en que se encuentra el respectivo fractil,
observamos la columna F* y determinamos el intervalo en que inmediatamente nos
pasemos del respectivo fractil.
Cuartiles para datos sueltos: los datos se ordenan de menor a mayor, el nmero de datos
n puede ser o no divisible por 4.
Si n es divisible por 4, cada cuartil se localiza en el punto medio entre dos datos sucesivos,
de esta forma se calcula como el promedio entre los mismos.
Si n no es divisible por 4,
Para el primer cuartil Q1 se calcula n/4, para el segundo n/2 y para el tercero 3n/4.
El resultado ser W enteros ms un residuo que puede ser , o .
i. Si el residuo es se toma del elemento en la posicin W ms del elemento
en la posicin W+1
ii. Si el residuo es entonces tomamos el elemento en la posicin W+1
iii. Si el residuo es tomamos del elemento en la posicin W+1 y del
elemento en la posicin W+2.
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
21
Percentiles en Excel:
Excel calcula por interpolacin lineal el percentil para datos sueltos, considerndolos
ordenados en forma ascendente y que el dato de menor valor es el percentil 0, y el dato
ms alto es el percentil 100.
MEDIDAS DE DISPERSIN
Son aquellas medidas que nos ilustran sobre que tan dispersos o esparcidos estn los
datos, generalmente alrededor de la media aritmtica
__
X
Las principales medidas de dispersin son:
1. Rango o recorrido
2. Desviacin cuartlica
3. Desviacin media
4. Desviacin estndar
5. Varianza
1. RANGO O RECORRIDO (R)
Es la diferencia entre el valor ms grande y el valor ms pequeo en una muestra
determinada.
R = Mayor Valor Menor Valor
Si los datos estn ordenados en forma ascendente:
R = X
n
X
1
En ocasiones, el rango se indica mencionando los valores lmite.
2. DESVIACIN CUARTLICA (QD)
Est basada en el valor del primer y tercer cuartil (Q1 y Q3)
La diferencia entre el tercer y el primer cuartil se denomina Recorrido intercuartlico. La
desviacin cuartlica es la mitad del recorrido intercuartlico.
2
1 3 Q Q
QD
=
Clculo de QD para datos sueltos:
a. Si el nmero de datos es divisible por cuatro:
En este caso, cada cuartil se localiza entre dos valores, el punto medio entre estos valores
es el cuartil correspondiente. Los datos deben estar ordenados en forma ascendente.
Ejemplo: 13 18 7 3 20 2 5 10
Ordenados son: 2 3 5 7 10 13 18 - 20
n = 8 8/4 = 2
Q1 = (5+3)/2 = 4
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
22
Q2 = (7+10)/2 = 8.5 = Me
Q3 = (13+18) / 2 = 15.5
Q4 = 20
QD = (15.5 4) / 2 = 5.75
b. Si el nmero de datos no es divisible por cuatro:
n: nmero de datos
Q1: Valor central al final del (n/4) i-simo elemento
Q2: Valor central al final del (n/2) i-simo elemento
Q3: Valor central al final del (3n/4) i-simo elemento
Como n no es divisible por 4 exactamente, se obtiene un cociente W y un residuo que
puede ser
1/4, 2/4, o 3/4
Por lo tanto se tendra W
4
1
, W
4
2
o W
4
3
Reglas:
i. Si la fraccin o residuo es
4
1
, tomamos
4
1
del valor del W i-simo elemento y
tomamos
4
3
del valor del W+1 i-simo elemento.
ii. Si la fraccin o residuo es
4
2
entonces tomar el valor del W+1 i-simo elemento
como el valor del cuartil correspondiente.
iii. Si sobran
4
3
tomamos
4
3
del elemento que est en la posicin W+1 y
4
1
del que
est en la posicin W+2
i.
Q =
4
1
X
w
+
4
3
X
w+1
ii. Q = X
w+1
iii. Q =
4
3
X
w+1
+
4
1
X
w+2
Ejemplo: Hallar QD para los siguientes datos: 20 14 4 6 10
Ordenados: 4 6 10 14 20
Q1: 5*(1/4) = 1
W=1
Q1 = *4 + *6 = 5.5
Q2: 5*(2/4) = 2
W=2
Q2 = 10 = Me
Q3: 5*(3/4) = 3
W=3
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
23
Q3 = *14 + *20 = 15.5
5
2
5 . 5 5 . 15
=
= QD
El recorrido o rango y la desviacin cuartlica son medidas basadas en la posicin de
ciertos datos en la distribucin.
La DESVIACIN MEDIA (AD) y la DESVIACIN ESTNDAR (SD) son medidas de dispersin
que se basan en todos los datos, adems estn diseadas para medir la dispersin
alrededor del promedio
__
X .
DESVIACIN MEDIA (AD)
Es la media aritmtica de las desviaciones de los valores individuales con respecto a
__
X .
Estas desviaciones, por ser diferencias se consideran en valor absoluto.
Para datos sueltos:
n
X
AD
n
i
i x
=
=
1
Ejemplo: Hallar AD para los nmeros 5 8 9 6 12 15
( )
2 . 9
6
15 12 6 9 8 5
1
__
=
+ + + + +
= =
=
n
X
n
i
i x
9 . 2
6
2 . 9 15 2 . 9 12 2 . 9 6 2 . 9 8 2 . 9 5
1
=
+ + + +
=
n
X
AD
n
i
i x
Si los datos estn agrupados en una distribucin de frecuencia:
n
X
AD
k
i
i
i
x
f
=
=
1
Ejemplo: hallar AD para los datos de la tabla:
TABLA DE DISTRIBUCIN DE FRECUENCIAS
N INTERVALO f F f* F* X
1 3.370 - 4.027 7 7 11.67% 11.67% 3.70
2 4.03 - 4.684 8 15 13.33% 25.00% 4.36
3 4.68 - 5.341 24 39 40.00% 65.00% 5.01
4 5.34 - 5.999 7 46 11.67% 76.67% 5.67
5 6.00 - 6.656 9 55 15.00% 91.67% 6.33
6 6.66 - 7.313 4 59 6.67% 98.33% 6.98
7 7.31 - 7.970 1 60 1.67% 100.00% 7.64
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
24
( )
5
60
24 . 313
60
) 64 . 7 * 1 ( ) 98 . 6 * 4 ( ) 33 . 6 * 9 ( ) 67 . 5 * 7 ( ) 01 . 5 * 24 ( ) 36 . 4 * 8 ( ) 7 . 3 * 7 (
1
__
= =
+ + + + + +
= =
=
n
i
X
k
i
i
x f
( )
753 . 0
60
172 . 45
60
) 22 . 5 64 . 7 * 1 ( ... ) 22 . 5 36 . 4 * 8 ( 22 . 5 7 . 3 * 7
1
= =
+ + +
=
n
X
AD
k
i
i
i
x
f
VARIANZA (S
2
2
)
Es la medida de dispersin ms importante, es igual a la media aritmtica de las
desviaciones de los datos respecto a la media elevadas al cuadrado.
Para datos sueltos:
1
2
1
2
\
|
=
n
X
n
i
i x
S
para una muestra de tamao n
N
X
n
i
i x
2
1
2
\
|
=
\
|
=
DESVIACIN ESTNDAR (S )
Es igual a la raz cuadrada de la varianza
Para datos sueltos:
1
2
1
\
|
=
n
X
S
n
i
i x
para una muestra de tamao n
N
X
n
i
i x
2
1
\
|
= para una poblacin de tamao N
Si los datos estn agrupados en una distribucin de frecuencias entonces:
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
25
n
X
S
n
i
i
i
x
f
2
1
\
|
=
Con base en las medidas de dispersin suelen calcularse algunos coeficientes que
permiten conocer mejor la distribucin de los datos. Algunos de ellos son:
Coeficiente de variacin de Pearson:
Se calcula como cociente entre la desviacin estndar y la media de la muestra.
=
X
S
Cv
Coeficiente de Recorrido:
Se determina como la relacin entre el recorrido y el promedio entre sus lmites
( )
2
Re
menorvalor mayorvalor
corrido
VR
+
=
Coeficiente de desviacin cuartlica:
( )
2
3 1 Q Q
QD
VQD
+
=
MEDIDAS DE ASIMETRA
Es posible determinar el grado de simetra o sesgo de una distribucin de datos mediante
el clculo de algunos coeficientes, los principales son:
1. Coeficiente de Asimetra de Pearson: S
k
Se determina cuando la diferencia entre la media aritmtica y la moda es dividida por la
desviacin estndar.
El valor de S
k
oscila entre -1 y 1 indicando asimetra a la izquierda y derecha
respectivamente.
Si S
k
= 0 entonces la distribucin es simtrica
S
Mo X
Sk
=
_
2. Coeficiente de Asimetra de Bowley: S
b
Se basa en los cuartiles
( ) ( )
( ) 1 3
1 2 2 3
Q Q
Q Q Q Q
Sb
=
El valor de S
b
oscila entre -1 y 1 indicando asimetra a la izquierda y derecha
respectivamente.
Si S
b
= 0 entonces la distribucin es simtrica
Ing. Fredy Alberto Guo Burgos Facultad de Ingeniera - UPTC
26
3. Coeficiente de Asimetra (Excel)
Esta funcin caracteriza el grado de asimetra de una distribucin con respecto a su media.
La asimetra positiva indica una distribucin unilateral que se extiende hacia valores ms
positivos. La asimetra negativa indica una distribucin unilateral que se extiende hacia
valores ms negativos.
Coeficiente de asimetra =
( )( )
3
1
_
2 1
=
|
|
|
\
|
n
i
i
s
X
n n
n
x
Y para datos agrupados:
Coeficiente de asimetra =
( )( )
3
1
_
2 1
=
|
|
|
|
\
|
|
\
|
n
i
i
i
s
X
n n
n
x
f
MEDIDAS DE APUNTAMIENTO O CURTOSIS
Se utilizan para mostrar el grado de concentracin de las observaciones alrededor de la
moda. Una forma sencilla de determinar la curtosis es observar la frecuencia absoluta de
los datos. La referencia es la curva de distribucin normal (Gauss) que se denomina
MESOCRTICA, de lo contrario, la distribucin puede ser LEPTOCRTICA o PLATICRTICA.
La curtosis caracteriza la elevacin o el achatamiento relativos de una distribucin,
comparada con la distribucin normal. Una curtosis positiva indica una distribucin
relativamente elevada (LEPTOCRTICA), mientras que una curtosis negativa indica una
distribucin relativamente plana (PLATICRTICA).
Curtosis =
( )
( )( )( )
( )
( )( ) 3 2
1 3
3 2 1
1
2
4
1
_
|
|
|
\
|
+
=
n n
n
s
X
n n n
n n
n
i
i x
Para datos agrupados:
Curtosis =
( )
( )( )( )
( )
( )( ) 3 2
1 3
3 2 1
1
2
4
1
_
|
|
|
|
\
|
|
\
|
+
=
n n
n
s
X
n n n
n n
n
i
i
i
x
f