You are on page 1of 13

3.

2 Descripcin de datos: Datos agrupados y no agrupados,


TEORA DE DECISIN
Estudio formal sobre la toma de decisiones. Los estudios de casos reales, que se sirven de la
inspeccin y los experimentos, se denominan teora descriptiva de decisin; los estudios de la toma
de decisiones racionales, que utilizan la lgica y la estadstica, se llaman teora preceptiva de
decisin. Estos estudios se hacen ms complicados cuando hay ms de un individuo, cuando los
resultados de diversas opciones no se conocen con exactitud y cuando las probabilidades de los
distintos resultados son desconocidas. La teora de decisin comparte caractersticas con la teora
de juegos, aunque en la teora de decisin el "adversario" es la realidad en vez de otro jugador o
jugadores.
La Estadstica descriptiva es una parte de la estadstica que se dedica a analizar y representar
los datos. Este anlisis es muy bsico, pero fundamental en todo estudio. Aunque hay tendencia a
generalizar a toda la poblacin las primeras conclusiones obtenidas tras un anlisis descriptivo, su
poder inferencia es mnimo y debera evitarse tal proceder. Otras ramas de la estadstica se
centran en el contraste de hiptesis y su generalizacin a la poblacin.
Algunas de las tcnicas empleadas en este primer anlisis de los datos se enumeran ms abajo en
el listado de conceptos bsicos. Bsicamente, se lleva a cabo un estudio calculando una serie de
medidas de tendencia central, para ver en qu medida los datos se agrupan o dispersan en torno a
un valor central.
DATOS AGRUPADOS Y NO AGRUPADOS
Cuando la muestra que se ha tomado de la poblacin o proceso que se desea analizar, es decir,
tenemos menos de 20 elementos en la muestra, entonces estos datos son analizados sin
necesidad de formar clases con ellos y a esto es a lo que se le llama tratamiento de datos no
agrupados.
Cuando la muestra consta de 30 o ms datos, lo aconsejable es agrupar los datos en clases y a
partir de estas determinar las caractersticas de la muestra y por consiguiente las de la poblacin
de donde fue tomada. Antes de pasar a definir cul es la manera de determinar las caractersticas
de inters (media, mediana, moda, etc.) cuando se han agrupado en clases los datos de la
muestra, es necesario que sepamos cmo se agrupan los datos.
Conceptos Estadsticos
Poblacin. Es el total de datos sobre los cuales vamos a tomar una decisin, basados en una
muestra. Sus caractersticas se representan por los parmetros (como la media y la desviacin
estndar poblacionales).
Muestra. Es una parte de la poblacin que se va a representar de manera estadstica. Sus
caractersticas se representan por los estadsticos (como la media y la desviacin estndar
muestrales).
Variables. Producen valores que tienen a mostrar cierto grado de variabilidad al efectuarse
mediciones sucesivas como: calificaciones, porcentajes, ingresos.
Variables discretas. Son el resultado de contar un nmero de conceptos u objetos, sus resultados
son enteros. Ejemplo: Nmero de alumnos, accidentes.
Variables continuas. Son el resultado de un proceso de medicin con un aparato o dispositivo,
aunque restringen su grado de precisin, sus resultados son cualquier valor en un intervalo
continuo.
Ejemplo: Altura y longitud (metro), peso (balanza), espesor (pie de rey), velocidad (velocmetro),
tiempo (reloj), temperatura (termmetro).
FRECUENCIA DE CLASE
Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es el promedio
entre los lmites superior e inferior de la clase.

Intervalo de clase: para una distribucin de frecuencias que tiene clases del mismo tamao, el
intervalo de clase se obtiene restando el lmite inferior de una clase del lmite inferior de la
siguiente.
FRECUENCIA RELATIVA
Es la relacin o cociente entre la frecuencia absoluta y el nmero total de observaciones. Es la
proporcin entre la frecuencia de un intervalo y el nmero total de datos.
PUNTO MEDIO
Punto medio es el punto que divide a un segmento en dos partes iguales.
LIMITES
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre los cuales van a
estar los valores de los datos agrupados en ese intervalo de clase.

MEDIDAS DE TENDENCIA CENTRAL (posicin)

Media aritmtica,
Geomtrica
ponderada
Mediana,
Moda,
MEDIDAS DE DISPERSION

Rango.
Desviacin media
Varianza,
Desviacin estndar,
,

MEDIDAS DE TENDENCIA CENTRAL DATOS NO AGRUPADOS


MEDIA ARITMETICA: Para datos no agrupados se usa la siguiente frmula

En donde n es el nmero total de datos y son los valores de la


variable.
Ejercicio: Calcule la media aritmtica de los siguientes

{5,7,8,9,11,14}

MEDIA PONDERADA

valores:

por tanto la media aritmtica


es 9.

La media ponderada es una medida de tendencia central, se construye


asignndole a cada clase un peso, y obteniendo un promedio para los pesos.

MEDIANA (VER MEDIDA DE POSICION: PERCENTIL 50)

Para encontrar la mediana en una serie de datos no agrupados, lo primero que


se hace es ordenar los datos en una forma creciente o decreciente y luego se
ubica la posicin que esta ocupa en esa serie de datos; para ello hay que
determinar si la serie de datos es par o impar.
Si el total de datos n es impar, es el dato de la posicin central es decir, se usa la frmula
Si el total de datos n es par, se aplica la frmula
Ejercicio: Sean los siguientes datos, 5, 12,

7, 8, 10, 6, y 9, los aos


de servicios de un grupo de trabajadores. Determine la mediana.
Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los datos
ordenados quedaran as:
5, 6, 7, 8, 9, 10, 12.
Luego, como se trata de un numero impar de datos (n=7), se aplica la formula

para ubicar la posicin de la mediana. Esto indica que la mediana ocupa la


posicin 4, que en la serie de valores esa posicin corresponde al nmero 8,
entonces, Me = 8.
Ejercicio: Tenemos ahora los datos: 5, 5, 7, 9, 11, 12, 15, 18.
Como se trata de un numero par de datos (n =8), la mediana esta dada por:

MODA.
Es una clase, puede ser un valor nico o un intervalo, que tiene la ms alta
frecuencia.
La moda es la medida de posicin que indica la magnitud del valor que se presenta con
ms frecuencia en una serie de datos; es pues, el valor de la variable que ms se repite
en un conjunto de datos.
Se designa con las letras Mo.
Cuando los datos se encuentran no agrupados la determinacin de la moda es sencilla y
exacta; pero para calcularla en datos agrupados existen varios mtodos; cada uno de los
cuales puede dar un valor diferente de la moda: En este curso se dar el mtodo de la
interpolacin por considerarse uno de los ms precisos en el clculo de esta. Este mtodo
puede expresarse mediante la siguiente formula:

Peso (Kg)
30-----39
40-----49
50-----59
60-----69
70-----79
80-----89
90-----99

Trabajadores
2
2
7
11
12
16
2

TOTAL
Ejemplo: Dada la siguiente distribucin de frecuencia correspondiente al peso en Kg. de
un grupo de trabajadores de una empresa, calcule la moda.

donde Li = 80 1=16-12=4, 2=162=14, Ic=10


Aplicando la formula se tiene:

Este resultado de la moda se interpreta as: La mayora de los trabajadores tiene un peso
aproximadamente de 82.22 Kg

MEDIDAS DE DISPERSION DATOS NO AGRUPADOS


Miden cun prximos estn los valores de un grupo entre s. Las medidas ms
frecuentes son: Desviacin absoluta media, desviacin estndar o desviacin
tpica, varianza.
Rango o Amplitud de Variacin: R que es la diferencia entre los nmeros mayor y
menor de un grupo o es el intervalo o amplitud de variacin de un grupo de datos. Esta
medida no es confiable ya que es muy limitada (considera solo dos datos del total de
daos).
Ejercicio: Determinar el rango o la amplitud de variacin de los datos siguientes: 20, 21,
45, 39, 85, 15
R = 85-15 = 70 R = De 15 a 85 = 15 85.

Desviacin Absoluta Media: DAM=


, si n es el nmero de
observaciones. Mide la desviacin promedio de valores con respecto a la media
del grupo, sin tomar en cuenta el signo de la desviacin. Se obtiene al restar la
media de cada valor del grupo eliminando el signo.
Ejemplo: Calcular la desviacin absoluta media de los valores siguientes: 5, 8,
17, 29.

Varianza:

la

obtenida de los valores a partir de


media aritmtica.

Obtenida de los valores sin usar la media

aritmtica

Ejemplo: Determinar la varianza de los datos: 6, 10, 18, 35, 21.

Desviacin Estndar O Desviacin Tpica O Error Estndar: s = S 2


Es simplemente la raz cuadrada de la varianza, es una medida lineal, que mide
la variacin de los datos.
Ejemplo: La desviacin estndar del ejercicio anterior, donde , es: s 2 =126.52
s =s2 = 126.5 =11.25
Ejercicio: Dados los valores 23, 45, 27, 39, 85, 19, obtener las medidas de
posicin (rango, desviacin media, varianza, desviacin estndar) y medidas
de tendencia central (Media aritmtica, Geomtrica, Mediana, Moda).
Solucin: Primeramente ordenar los valores del menor al mayor: 19, 23, 27, 39,
45, 85.

Moda: Es multimodal, no existe un valor con mas alta frecuencia.

Varianza:

MEDIDAS DE DISPERSION DATOS AGRUPADOS


Se utilizan para indicar un valor que tiende a tipificar o a ser el ms
representativo de un conjunto de datos.

donde n es el nmero total de datos


Xi es la variable, o la marca de clase, es decir el punto medio del intervalo
fi es la frecuencia de los datos en cada intervalo
pi es la probabilidad o frecuencia relativa.
Ejercicio:

Calcule la media de la siguiente distribucin de frecuencia correspondiente al


peso en Kg. de un grupo de obreros. Realice los clculos respectivos para
completar el siguiente cuadro.
CLASES
if
75-------79
80-------84
85-------89
90-------94
95 ------99

20
40
60
100
140

=if = n =360
Solucin:
PESOS
75-------79
80-------84
85-------89
90-------94
95 ------99

X
77
82
87
92
97

N DE
OBREROS
20
40
60
100
140
n =360 =

Xfi
1540
3280
5220
9200
13580

Xf32820
ii

Aplicando la formula se tiene:

Interpretacin: El peso promedio del grupo de 360 obreros es de 91.17 Kg


PASOS PARA DETERMINAR LA MEDIANA EN DATOS AGRUPADOS

1. Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases, se


ubican las frecuencias fi y se calculan las frecuencias acumuladas Fi de esa
distribucin.
2. Se determina la ubicacin o posicin de la mediana en el intervalo de la distribucin de
frecuencia, mediante la formula 2n. El resultado obtenido determinar la clase donde
se encuentra ubicada la mediana, lo cual se conseguir en la clase donde la
frecuencia acumulada Fi sea igual o superior a este resultado. Luego se aplica la
frmula:

Donde,
n/2 = posicin de la mediana
Li = es el limite inferior de la clase donde se encuentra ubicada la mediana.
F(i-1) = es el valor de la frecuencia acumulada anterior a la clase mediana.
fi = es el valor de la frecuencia de clase donde se encuentra la mediana.
Ic = es el tamao del intervalo de clase.
n = es el nmero total de datos de la distribucin en estudio.
Ejercicio:
Dada la siguiente distribucin de frecuencia referida a las horas extras
laboradas por un grupo de obreros. Calcule la mediana. Realice los clculos
respectivos para completar el siguiente cuadro.
N de horas Extras
Obreros
55------59
6
60------64
20
65------69
18
70------74
50
75------79
17
80------84
16
85------89
5
n = 132
Solucin:
Cuadro con frecuencias acumuladas

n/2 = 132/2 = 66

luego se busca en la frecuencia acumulada Fi, un valor que sea igual o superior
a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase mediana.

Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta de


esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene:

Luego la mediana de esa distribucin es 72.2. Esto quiere decir que un 50 % de


los obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 %
trabajaron horas extras por encima de 72.2 horas.
CARACTERSTICAS DE LA MEDIANA
La mediana no es afectada por los valores extremos de una serie de valores, puesto
que la misma no es calculada con todos los valores de la serie.
La mediana no esta definida algebraicamente, ya que para su clculo no intervienen
todos los valores de la serie.
La mediana en algunos casos no se puede calcular exactamente y esto ocurre
cuando en una serie de valores para datos no agrupados el nmero de datos es
par, en este caso la mediana se calcula aproximadamente.
La mediana se puede calcular en aquellas distribuciones de frecuencia de clases
abierta, siempre y cuando los elementos centrales puedan ser determinados.
La suma de los valores absolutos de las desviaciones de los datos individuales con
respecto a la mediana siempre es mnima. (propiedad)

Desviacin Absoluta Media:


DAM=
, si
n
es
el
nmero
de
observaciones.
Mide
la
desviacin promedio de valores
con respecto a la media del
grupo, sin tomar en cuenta el signo de la desviacin.

Datos No Agrupados

Datos Agrupados

Xi son las clases y


es la media de los datos agrupados. Mide la desviacin
promedio de las clases con respecto a la media del grupo, sin tomar en cuenta
el signo de la desviacin.
Varianza:

si
n=nmero de observaciones, Xi son las clases y
media de los datos agrupados, fi es la frecuencia de cada clase.

es la

La varianza es la medida de dispersin que mejor expresa la variabilidad del fenmeno que
estamos estudiando. Se define como la media aritmtica de las desviaciones al cuadrado
entre cada valor de la variable y la media aritmtica. Para que no se contrarresten las
diferencias, en lugar de utilizar los valores absolutos se eleva al cuadrado el valor de cada
una de ellas. La frmula para su determinacin ser:

Desviacin Estndar O Desviacin Tpica O Error Estndar: s = S 2


Es simplemente la raz cuadrada de la varianza, es una medida lineal, que mide
la variacin de los datos.
Ejemplo2: Obtener las medidas de tendencia central, de dispersin, dada la

distribucin

de

frecuencias,

obtenida

Medidas de Tendencia Central, de los datos agrupados

Medidas de dispersin de los datos agrupados


Varianza:

anteriormente:

Desviacin estndar:

HISTOGRAMAS, POLIGONOS DE FRECUENCIA Y OJIVA


HISTOGRAMA: Es la representacin grfica de las frecuencias agrupadas de una
variable continua sobre intervalos. A diferencia de los diagramas de barras, los
histogramas dibujan rectngulos unidos entre si, lo que significa que existe
continuidad en la variable cuyos valores se representan en el eje horizontal que se
haya dividido en intervalos de igual amplitud. Las reas de los rectngulos son
proporcionales a las frecuencias que representan.
Histograma correspondiente a las horas extras laboradas por un grupo de obreros petroleros.

El histograma o diagrama de barras proporcionan mucha informacin respecto a la


estructura de los datos, nos permite evidenciar fundamentalmente tres caractersticas:
1. Forma de la distribucin.
2. Acumulacin o tendencia posicional (valor central de la distribucin).
3. Dispersin o variabilidad.
Un histograma es un diagrama de barras de una distribucin de frecuencias.

Un polgono de frecuencias es un grfico de distribucin de frecuencias.

Una ojiva es una grafica de frecuencias acumuladas

DISTRIBUCIONES DE FRECUENCIA
Ejercicio 0: (estadisticageneralaleatoria.pdf pag 11)
El gobierno desea averiguar si el nmero medio de hijos por familia ha
descendido respecto de la dcada anterior. Para ello ha encuestado a 50
familias respecto al nmero de hijos, y ha obtenido los siguientes datos:
0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6

Se pide:
a. Construir la tabla de frecuencias absolutas
b. Cul es el nmero de familias que tiene como mximo dos hijos?
c. Cuntas familias tienen ms de 1 hijo pero como mximo 3?
d. Qu porcentaje de familias tiene ms de 3 hijos?
Solucin:
a. Para construir la tabla de frecuencias hay que tener en cuenta que la
variable en estudio es el nmero de hijos (discreta), que toma los valores
existentes entre 0 y 6 hijos y las frecuencias son el conjunto de familias, de
esta forma tenemos:

b. En la columna de las fi:


2+4+21=27 en la columna de las Fi: F2= 27
c. En la columna de las fi: 21+15=36 en la columna de las Fi: 42-6=36
d. En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un 16%
en la columna de las Hi: 1-0.84=0.16, 16%
Ejercicio 1: Elaborar una distribucin de frecuencias con los datos dados:

1. Rango: R = 89.6-25.2 = 64.4


2. Nmero de clases: Interpretacin: pueden ser 5 o 6 clases. c = n = 30 = 5.48
3. Amplitud de clase: de ancho de clase
4. Distribucin de frecuencias

a) Clase
b) Punto medio

Ejercicio 2. (mtra Elsa)

Rango: R = 109-51 = 58
Nmero de clases: clases. c =n = 36 = 6

=11.75 12 5.48 C

Amplitud de clase: de ancho


clase

de clase

= 9.7 10 Ancho de

Distribucin de frecuencias

Ejercicio 3.

Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir
el precio de sus habitaciones, el gerente investiga los precios por habitacin
de 40 hoteles de la misma categora de esta ciudad. Los datos obtenidos
(en miles de pesetas) fueron:
3.3
4.2
4.5
5.1

3.3
4.3
4.7
5.3

3.7
4.3
4.7
5.3

3.8
4.3
4.7
5.4

3.9
4.3
4.7
5.6

3.9
4.4
4.8
5.8

3.9
4.4
4.9
5.8

4.0
4.5
5.0
6.0

4.1
4.5
5.0
6.1

4.2
4.5
5.1
6.1

Cuando se tenga dudas en determinar el numero de intervalos de clases, es


de gran utilidad utilizar el mtodo sugerido por Hebert A. Sturges, el cual
establece que: K= 1+3,322 log(n) = numero de intervalos.
Solucin:
1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8.
2.- K= 1+3,322 log(40) = 6.3 6 nmeros de intervalos
3.- Ic = 2.8 / 6 = 0.467 0.5 tamao de los intervalos
As pues la tabla sera:

Cuantos hoteles tienen un precio entre 3.3 y 3.8? 3


Cuantos hoteles tienen un precio superior a 4.8? 15
Que porcentaje de hoteles cuestan como mucho 4.3? 27.5 %

You might also like