You are on page 1of 40

1

Unidad 1: Estadstica Descriptiva.

1.0 Contenidos, objetivos y palabras clave.

Contenidos:
1.0 Contenidos, objetivos y palabras claves 1
1.1 Resumen de inicio. Definiciones y propiedades principales. 2
1.1.1 Ejercicios resueltos, paso a paso. 3
1.1.2 Ejercicios propuestos. 11
1.2 Medidas de posicin y dispersin. Definiciones y
propiedades principales. 12
1.2.1 Ejercicios resueltos, paso a paso. 16
1.2.2 Ejercicios propuestos. 24
1.3 Planteamientos problemticos para aplicacin de
propiedades. 25
1.3.1 Ejercicios resueltos, paso a paso. 26
1.3.2 Ejercicios propuestos. 30
1.4 Datos bidimensionales. Tablas de frecuencia conjunta,
marginales y condicionales. 31
1.4.1 Ejercicios resueltos, paso a paso. 32
1.4.2 Ejercicios propuestos. 39
Objetivos:

Aplicar correctamente los modelos de probabilidad en el clculo de


probabilidades en problemas de aplicacin.
Calcular percentiles.
Reconocer la conveniencia de la aplicacin de distribuciones lmite
cuando el tamao n de la muestra es muy grande.

Palabras Clave:

Poblacin, muestra. Medidas de posicin.


Variable cuantitativa. Medidas de dispersin.
Variables cualitativas. Dato bidimensional.
Escalas de medicin. Distribucin Bidimensional.
Frecuencias.
2

1.1. Resumen de inicio. Definiciones y propiedades principales.

 Se llama poblacin al conjunto de todos los objetos que constituyen el inters de estudio para
un estadstico particular.
 Una muestra es cualquier subconjunto de la poblacin.
 Se llama muestreo a la tcnica de obtencin de la muestra.
 Tipos de muestreo: Probabilstico, No probabilstico.
 Muestreo Probabilstico: muestreo aleatorio simple, muestreo sistemtico, muestreo
estratificado, muestreo por conglomerado.
 Muestreo no probabilstico: muestreo por cuotas.
 El ente de trabajo de la estadstica es el dato.
 Se llama Estadstica a la ciencia que se preocupa de estudiar las variables y sus comparaciones
o relaciones para explicar su comportamiento actual, posterior o anterior. Para esto ltimo ha
desarrollado la Estadstica Inferencial.
 El procedimiento bsico de la estadstica (de inters particular en estadstica descriptiva)
consiste en recabar, organizar, analizar e interpretar datos para extraer de ellos
informacin lgicamente aceptable.
 El dato es un registro de la variable de inters en el momento en que ha finalizado la
experiencia para observar el resultado que se logra. El registro de este resultado se llama dato.
 Para que sea til la informacin que se logra a partir de los datos sobre la base de la cual se
har la toma de decisiones, los datos deben organizarse y mostrarse apropiadamente.
 El tipo de datos indicar el mtodo que se usar en su anlisis.
 La caracterstica que se va a estudiar en los objetos de la poblacin se llama variable y ser
designada por letras maysculas X , Y , Z , etc.
 Los valores de las variables sern denotados por letras minsculas y subndices en la forma
xi , yi , zi , etc., designando con ello el dato u observacin i-sima de la variable X , Y , Z ,
respectivamente.
 Las variables se clasifican en dos categoras generales: variables cuantitativas y variables
cualitativas.
 Se llama variable cuantitativa a aquella cuyos valores medidos en una escala numrica
(nmeros reales).
3

 Se llama variable cualitativa a aquella cuyos valores representan categoras o atributos, que
pueden clasificarse segn un criterio o cualidad.
 Cada una de las distintas categoras en las que se puede presentar en una tabla a las variables
categricas o numricas discretas, es llamada clase.
 Las variables numricas continuas se clasifican por intervalos de nmeros reales. El punto
medio de cada intervalo se llama marca de clase.
 La tabla de frecuencia es un ordenamiento en filas y columnas, de clases o intervalos con sus
respectivas frecuencias, que sirve para presentar los datos en forma resumida, facilitando as
clculos de indicadores estadsticos y grficos.
 Un grfico es una forma visual de representar y resumir datos de la tabla. Puede ser de varios
tipos: grfico circular, grfico de barras, histograma, polgono de frecuencias, diagrama
de caja y bigote, etc.

1.1.1 Ejercicios resueltos, paso a paso:

Ejemplo 1.

1. Se obtuvo la siguiente informacin sobre la atencin odontolgica realizada a pacientes por alumnos de
cuarto a sexto ao de la U.A por mes, en la Facultad de dicha universidad, durante los meses de Abril a
Diciembre 2010.

a. Identifique: Elemento de la poblacin, variable, tipo de variable, Tipo


de escala
b. Complete la tabla de frecuencias con su respectivo ttulo. Anxele un
grfico adecuado
c. Determine el porcentaje de pacientes atendidos en el mes de
Octubre?
d. Determine el nmero de pacientes atendidos a lo menos en
septiembre?
e. Qu porcentaje de pacientes fue atendido a lo ms en Agosto?
4

Esquema de desarrollo:
Resp.: Elemento de la poblacin : Paciente atendido Recuerda el siguiente plan cuando
por alumnos de cuarto a sexto ao de la carrera de procedes a solucionar estos
Odontologa, problemas:

Paso 1. Identificar los datos que


Variable: Mes en que se efectu la atencin. entrega el problema.
Tipo de variable: Cualitativa. Paso 2. Identificar las preguntas del
Tipo de escala: Categrica ordinal. problema.
Paso 3. Investigar conocimientos
adicionales.
a) Resp.: Paso 4. Proponer y realizar las
respuestas a las preguntas.
Tabla de frecuencias:

Distribucin de pacientes de alumnos de


4o a 6o ao de la carrera de Odontologa,
segn mes de atencin, U. de Antofagasta,
2010.
Mes ni fi Ni Fi
Abril 78 0,150579 78 0,150579
15
0,079150 15
0,229729
Mayo 41 119
58
0,150579 73
0,380308
Junio 78 197
15
0,187258 88
0,567567
Julio 97 294
69
0,158301 57
0,725868
Agosto 82 376
16
0,054054 73
0,779922
Septiembre 28 404
05
0,102316 78
0,882239
Octubre 53 457
6
0,083011 38
0,965250
Noviembre 43 500
58 97 Presentacin de la grfica de los datos de la tabla.
Diciembre 18 0,034749 518 1
03
Total de 518
datos:

Ejemplo 2.

En un hospital de la capital, se informo que de un total de 350 enfermos, su diagnstico fue: 60 con
Cirrosis Heptica, 42 con Ulcera Gstrica, 180 con Ulcera duodenal, 21 con Gastritis erosiva, 16 con
Esofagitis erosiva, 11 Yeyunitis hemorrgicas, no precisado 20. Determine:

a. Elemento de la poblacin:
b. Variable.
c. Tipo de variable.
d. Tipo de escala.
e. Construya una tabla de frecuencias con su ttulo correspondiente.
f. Presente estos datos grficamente.
5

Esquema de desarrollo.

Paso 1. Aunque parezca una insistencia inadecuada, lea el problema detenidamente hasta
comprenderlo.

Paso 2. Desarrollar las respuestas:

a. Resp. Elemento de la poblacin: Un enfermo del hospital.


b. Resp. Variable: Diagnstico
c. Resp. Tipo de variable: Cualitativa
d. Resp. Tipo de escala: Nominal
e. Resp. Tabla de frecuencias con un ttulo adecuado:

Distribucin de enfermos segn


diagnstico en un hospital de la
capital
Diagnstico ni fi
Cirrosis heptica 60 0,17142857
Ulcera gstrica 42 0,12
Ulcera duodenal 180 0,51428571
Gastritis erosiva 21 0,06
Esofagitis erosiva 16 0,04571429
Yenyunitis hemorrgicas 11 0,03142857
No precisados 20 0,05714286
Total de datos: 350

Obsrvese que por la poca informacin acerca de cul es la capital a la que hacen
referencia estos datos, el mes y/o ao en que fueron tomados, la fuente que tom
estos datos y algunos otros indicadores de inters, no se ha podido detallar ms esta
experiencia estadstica. Estos defectos deben corregirse.

f. Resp. Presentacin de estos datos grficamente:


6

Ejemplo 3.

Dada la grfica de la figura,

a) Determine:

a. El elemento de la poblacin.
b. La variable en estudio.
c. El tipo de variable en estudio.
d. El tipo de escala.

b) Construya una tabla de frecuencias.

Esquema de desarrollo:

Paso 1. Una vez ms se sugiere que siempre comience por efectuar una lectura detenida del
problema para lograr su total comprensin ANTES de comenzar a resolver.

Paso 2. Desarrollar las respuestas:

a. Resp. Elemento de la poblacin: Un nio con


VIH(+).
b. Resp. Variable: Patologas bucales.
c. Resp. Tipo de variable: Cualitativa.
d. Resp. Tipo de escala: Nominal.

Resp. Tabla de frecuencias:

Verifique cada valor de la tabla adyacente,


propuesta como respuesta.

Ejemplo 4.

La tabla adyacente presenta el nivel de colesterol total de 120 trabajadores de la


Empresa Minera Cerro Colorado en Agosto de 2005 ubicada a 5000 metros sobre el
nivel del mar.

a) Escriba un ttulo a la tabla adjunta y construya un grfico adecuado para


presentar estos datos.
b) Calcule e interprete la moda y el primer cuartil del colesterol total.
c) Aquellos trabajadores con nivel de colesterol total igual o superior a 200 se
consideran con colesterol alterado. Qu porcentaje de trabajadores tienen
colesterol alterado?
d) Si el 25% de los trabajadores con ms bajo colesterol total y el 30% de los
trabajadores con ms alto colesterol total son considerado de alto riesgo. Indique
entre qu valores de colesterol total un trabajador no ser considerado de alto riesgo.
7

Esquema de desarrollo.

Paso 1. Leer el problema, identificar en pocas palabras todo aquello que se pide hacer. Escribir
frases cortas. Tener claridad de que al final se debe terminar con una respuesta a lo que se
pide.

Paso 2. Desarrollar las respuestas:

a) Se pide: Escribir un ttulo a la tabla adjunta


y construir un grfico adecuado a estos
datos.

Cuando se escriben ttulos de tabla es


costumbre comenzar con la expresin
Distribucin de y a continuacin se
identifica el tipo de elementos de la
poblacin que han sido contados como
pertenecientes a cada clase o intervalo de la
tabla, en la columna de frecuencias
absolutas ni . Luego se escribe la frase
segn y se agrega la variable en estudio
(colesterol total en este caso).

Seguidamente se deja expresado en dnde


se recopilaron los datos (Empresa Minera
Cerro Colorado), el ao y el mes. Tambin
es aconsejable dejar constancia del lugar
geogrfico (regin, pas: Antofagasta, Chile,
por ejemplo) y cualquier otro dato que
permita diferenciar los datos de una fecha y
lugar con los de otra investigacin distinta.

El grfico, que no es sino una expresin visual de lo que contiene la tabla, queda como se
muestra en la figura adyacente.

b) Se pide: Calcular e interpretar la moda y el primer cuartil del colesterol total.

a. La moda es el valor de mayor frecuencia absoluta. La mayor frecuencia absoluta en


la tabla es n4 = 29 . Por lo tanto la moda debe ser un valor que pertenece al
intervalo (188, 5; 215, 5 ] . Puesto que esta variable est definida por intervalos, es
variable continua. Esto quiere decir que la moda ser calculada, para i = 4 , con

(ni ni 1 )
M o = LI ( i ) + Ai
( ni ni 1 ) + ( ni ni +1 )

i =4 (n4 n41 )
= LI (4) + A4
( n4 n41 ) + ( n4 n4+1 )
8

i =4 (n4 n3 )
= LI (4) + A4
( n4 n3 ) + ( n4 n3 )

Reemplazando los valores de la tabla se obtiene

(29 22)
M o = 188,5 + 27 = 202
( 29 22 ) + ( 29 22 )

Resp.: El colesterol total ms frecuente en esta muestra de 120 trabajadores es


de 202 unidades (Esto expresa el clculo y la interpretacin pedidos por el
problema).

b. El primer cuartil es el percentil 25, P25 , calculado como sigue

n 25
N k 1
Q1 = P25 = LI ( k ) + Ak
100
nk

Debemos determinar el orden del intervalo que contiene al cuartil Q1 . Esto se


n25
hace con la expresin = 100 , que representa la cuarta parte del total de datos
n = 120 . As, = 12010025 = 30 .

En la columna de las frecuencias absolutas acumuladas N i , cuyos valores son


ascendentes por representar acumulacin de observaciones desde la de ms bajo
valor, buscamos el primer N i que iguale o supere a = 30 . ste resulta ser
N 3 = 31 . De aqu se deduce que el valor de k que identifica al intervalo que
contiene al primer cuartil es k = 4 .Por lo tanto, la expresin con la que
calcularemos el valor del primer cuartil es

120 25
N31
Q1 = P25 = LI (3) + A3
100 = LI + A ( 30 N 2 )
(3) 3
n3 n3

Buscando los valores correspondientes en la tabla obtenemos

P25 = 161.5 + 27
(30 9) = 187.27
22
9

Interpretacin: Cuando los datos han sido ordenados de menor a mayor, el


primer cuartil es la frontera que deja bajo s a lo ms al 25% del
total de datos (este es el valor de ) y a lo ms sobre l al 75%
del total de datos.

Clculo: El valor del primer cuartil es de 187,27 unidades de colesterol total.

Resp. (Clculo e interpretacin):


El valor del Primer Cuartil o Cuartil Inferior es de 187,27 unidades de colesterol
total y deja bajo s a lo ms al 25% de lo valores de colesterol total ms bajo, y
sobre este valor se encuentra a lo ms el 75% de los valores de colesterol total
ms alto.

c) Se pide: El porcentaje de trabajadores tienen colesterol alterado.

Los trabajadores tienen colesterol alterado cuando su nivel de colesterol total es igual o
superior a 200 unidades.

Decir 200 unidades de colesterol total significa fijar una frontera en la muestra de 120
observaciones para calcular qu porcentaje tiene tanto como o ms de 200 unidades de
colesterol total. Es decir debemos calcular un percentil Pi de valor 200, desconociendo el
valor de i , y calcular qu porcentaje del total de datos tiene valores menores que l.

Si primero nos abocamos a encontrar cuntos datos, a lo ms, son menores que el percentil
que buscamos, entonces nos estamos refiriendo al valor calculado antes. En esa
oportunidad sabamos que el percentil dejaba a lo ms un 25% de los datos bajo s y
25 25 25 25
escribamos = n100 que puede ser escrito como = n100 = n 100 = 100 n , que no es
sino el 25% del total de datos n Sorpresa!!!

Si generalizamos el razonamiento anterior, desconociendo el porcentaje, diremos que si


ni
= 100 = 100i n , lo que se pide encontrar es el valor de i .

En resumen, sabemos que


Pi = 200 y debemos encontrar el
valor de i . Usando un polgono de
frecuencias, como el de la figura,
podemos ilustrar lo que est
sucediendo.

El percentil Pi = 200 pertenece al


intervalo (188.5; 215.5] . Por lo
tanto podemos escribir
10

100 Nk 1
ni

200 = 188.5+ 27
31 despejando
120 i
= 43.35 = 43.35 i = 36.13
Ak
Lm.Inf.
29 100
nk

Puesto que este percentil deja bajo l a lo ms entre 36 y 37 datos (36.13 para ser ms
exactos) que corresponden al 36.13% del total de datos (120), y los trabajadores que tienen
colesterol alterado tienen un colesterol total de 200 o ms unidades, se deduce que el
(100 36,13 ) % = 63,87% tiene colesterol alterado.
Resp. : El 63.87% de los trabajadores de la Empresa Minera Cerro Colorado tiene
colesterol alterado.

d) Se pide: Entre qu valores de colesterol total un trabajador no ser considerado de alto


riesgo.

El enunciado del problema dice:

el 25% de los trabajadores con ms bajo colesterol total y el 30% de los trabajadores
con ms alto colesterol total son considerado de alto riesgo

Por lo tanto, suavizando el histograma de los datos de este problema, podemos obtener
una imagen como la de la figura. En ella podemos dejar fronteras para indetificar las zonas
de valores de colesterol total de alto riesgo.

Por la definicin de percentil, es claro que la


frontera del superior del 25% ms bajo de
valores de colesterol total es el percentil 25,
P25 . Si por sobre la frontera inferior del 30%
de valores ms altos de colesterol total estn
tambin los valores de colesterol de alto
riesgo, entonces el colesterol de alto riesgo es
de un 55% del total de valores posibles. En
consecuencia el colesterol que NO ES DE ALTO RIESGO constituye el 45% del total de
valores posibles de colesterol total. La frontera superior de este intervalo es el percentil
P70 .

Las fronteras de este intervalo de colesterol total que NO ES DE ALTO RIESGO son los
percentiles P25 y P70 . Calculamos estos percentiles (esta vez no daremos tanto detalle,
debe revisarse la expresin de clculo dada antes):

P25 = 161.5 + 27
(30 9) = 187.27
22

P70 = 242.5 + 27
(90 82) = 252.32
22
11

Estamos ahora en condiciones de responder a lo pedido:

Resp.: Un trabajador no ser considerado con colesterol total de alto riesgo cuando sus
valores de colesterol total se encuentren entre 187.27 y 252.32 unidades.

El intervalo de valores de colesterol total que no es de alto riesgo es [187.27; 252.32 ] .

1.1.2 Ejercicios Propuestos.

1. Un estudiante de enfermera hace una encuesta en una fbrica, a los


50 empleados que ah laboran, acerca de del nmero de cargas
familiares de cada uno de ellos; los resultados fueron los siguientes:

a. Identificar Poblacin analizada.


b. Elemento de la poblacin.
c. Caracterstica en estudio.
d. Tipo de dato analizado.
e. Construya una tabla de frecuencia completa en clases de longitud 2 anexndole ttulo.
f. Construir un grfico adecuado.
g. Cuntos empleados tienen 1 2 cargas?Qu porcentaje representa?
h. Cuntos empleados tienen a lo ms 6 cargas?Qu porcentaje representa?
i. cuntos empleados tienen ms de 4 cargas?

2. Para un estudio de una dieta de escaso contenido proteico se tiene un informe de la cantidad de
nitrgeno (en gramos) en 30 muestras de orina de 24 horas, en el consultorio sur de la ciudad de
Antofagasta en junio de 2010, con los siguientes resultados

2,8 3,2 3,4 3,8 4,3 5,2 7,5 8,4 8,9 9,5
3,0 3,3 3,5 4,1 4,7 6,3 7,6 8,4 9,2 11,0
3,0 3,4 3,7 4,2 5,0 7,0 7,8 8,5 9,4 12,4

a. Identifique: Poblacin, variable en estudio, tipo de variable, tipo de escala


b. Construya una tabla de frecuencia completa de 8 categoras, escribindole un ttulo para los
datos entregados
c. Cuntas muestras tienen una cantidad de nitrgeno menor o igual a 8,8 gramos?
d. Cuntas muestras tienen una cantidad de nitrgeno mayor a 5.2 gramos?
e. Cuntas muestras tienen
f. una cantidad de nitrgeno mayor a 5.2 gramos y menor o igual a 8.8 gramos?
g. Qu porcentaje de muestra tienen una cantidad de nitrgeno a lo ms 10 gramos?
h. Qu porcentaje de muestras tiene una cantidad de nitrgeno mayor a 6.4 gramos?
i. Calcular e interpretar el percentil 30
j. Construya un grfico adecuado para presentar los datos de la tabla construida en b) e
interprtelo.
12

3. Dado el grfico circular Preferencias de 30 personas en actividades deportivas

a. Cul es la variable en estudio? 10%

b. Qu tipo de variable es?


20% 40% futbol
c. Cul es la frecuencia absoluta del basquestbol

grupo de ftbol? atletsmo


tenis

d. Cuntas personas no prefieren el


tenis? 30%

1.2. Medidas de posicin y dispersin. Definiciones y propiedades


principales.

 Llamaremos medida de posicin a aquel valor que resume alguna cualidad de la variable en
trminos de su posicin en el dominio. Tal valor sirve como representante del total de
observaciones respecto de esa cualidad.
 Las medidas de posicin usuales son: media aritmtica, moda y percentil.
 Se llama media aritmtica a la medida de posicin que se obtiene sumando todos los valores
de la variable en una poblacin o en una muestra, dividida por el nmero total de datos
considerados.
 En datos no tabulados la media aritmtica, x , de los valores x1 , x2 , x3 , , xn se calcula
como
1 n
x= xi
n i =1
 En datos tabulados, la media aritmtica de los n observaciones x1 , x2 , x3 , , xn

agrupados en m categoras o intervalos con frecuencia absoluta n1 , n2 , n3 , , nm , y clases

o marcas de clase c1 , c2 , c3 , , cm est dada por

1 m
x= ci ni
n i =1
 Se llama media aritmtica total de las k subpoblaciones de datos
x1(1) , x2(1) , x3(1) ,..., xn(1)1 ; x1( 2) , x2( 2) , x3( 2) ,..., xn( 22) ;; x1( k ) , x2( k ) , x3( k ) ,..., xn( kk ) a
k

n x + n x + + nk xk
n x
j =1
j j

xT = 1 1 2 2 =
n n
13

ni

x
i =1
( j)
i
donde, xj = , j = 1, 2,..., k .
ni
 Se llama moda al valor de la variable en el que se produce un mximo de la distribucin de
frecuencias. Es llamado tambin dato ms frecuente, valor ms frecuente o valor tpico.
 Existen distribuciones con ms de una moda, stas son llamadas multimodales o
plurimodales.
 En datos no tabulados la moda es el dato ms observado.
 En datos tabulados de variable categrica o numrica discreta la moda es la clase de
mayor frecuencia observada.
 En datos tabulados de variable continua la moda se calcula por la expresin

(ni ni 1 )
M o = LI ( i ) + Ai
( ni ni 1 ) + ( ni ni +1 )

Aqu ni es la mayor frecuencia absoluta, correspondiente al intervalo de orden i que

contiene a la moda; ni 1 y ni +1 son las frecuencias absolutas anterior y posterior,

respectivamente; Ai es la amplitud del intervalo que contiene a la moda (el de orden i ) y

LI ( i ) es el lmite inferior del intervalo que contiene a la moda.


 Se llama percentil al valor frontera que particiona el ordenamiento de las observaciones en a lo
ms un i % bajo l y en un (100 i) % por sobre l.

 En datos no tabulados x1 , x 2 , , x n , el percentil Pi se calcula como una interpolacin lineal


de la siguiente forma:

( n + 1) i x + ( n + 1) i k x
Pi = ( k + 1) ( k +1)
100 ( k ) 100

( n +1) i
donde 100
es la posicin que ocupa el percentil Pi entre los datos ordenados

x[1] , x[2] , , x[n] en forma no decreciente, de forma que x[1] , x[ 2] , , x[k ] , Pi , x[ k +1] ,...x[n] .

 En datos tabulados el percentil Pi se calcula con la expresin


14

ni
N k 1
Pi = LI ( k ) + Ak
100
nk
ni
donde n es el nmero total de observaciones; 100 es el valor que permite identificar al
ni
intervalo de orden k en el cual se encuentra el percentil y hasta el cual van acumulados 100

datos; LI ( k ) es el lmite inferior del intervalo k ; Ak es la amplitud del intervalo k ; nk es la


frecuencia absoluta del intervalo de orden k y N k 1 es la frecuencia absoluta acumulada
anterior a la del intervalo de orden k .
 Percentiles importantes:

o Mediana: Es el valor de la variable que particiona la distribucin de datos en dos partes


dejando en cada una el 50% del total de datos. Se denota por Me , donde Me = P50 .

o Cuartiles: Son valores de la variable que particionan la distribucin de datos en cuatro


partes dejando en cada una el 25% del total de datos. Se denotan por Qi , i = 1,2,3 . Son
cuartiles: Q1 = P25 (lower quartil, cuartil inferior o primer cuartil), Q2 = P50 (segundo
cuartil o mediana), Q3 = P75 (uper quartil, cuartil superior o tercer cuartil).

o Quintiles: Son valores de la variable que particionan la distribucin de datos en cinco


partes dejando en cada una el 20% del total de datos. Son quintiles: P20 (primer quintil),
P40 (segundo quintil), P60 (tercer quintil), P80 (cuarto quintil).

o Deciles: Son valores de la variable que particionan la distribucin de datos en diez partes
dejando en cada una el 10% del total de datos. Se denotan por Di , i = 1,2,...,9 .Son
deciles D1 = P10 D2 = P20 , , D9 = P90 .

 Se llama medida de dispersin a aquella medida relaciona la mayor o menor concentracin de


los datos entorno a un valor central, generalmente la media aritmtica
 Son medidas de dispersin la varianza y la desviacin estndar. Tambin el coeficiente de
variacin (relativa a la media, por unidades de media).
 Se llama varianza a la media aritmtica de los cuadrados de las diferencias entre los valores de
la distribucin y su media aritmtica. Los valores de la variable pueden estar representados por
las observaciones originales (en caso de datos sin tabular) o por sus clases (en caso de variable
discreta) o por sus marcas de clase (en caso de variable continua).
 La varianza en datos no tabulados se calcula mediante la expresin
15

n n

( x x ) x
2 2
Notacin i i
2
V ( X ) S X2 = i =1
= i =1
(x)
n n
 La varianza en datos tabulados se calcula por la expresin

m m donde ni es la frecuencia
ni ( ci x ) c n
2 2
i i
2
S X2 = i =1
= i =1
(x) absoluta, ci es la clase o
n n
marca de clase del
intervalo i = 1,2,..., m , m es el nmero de clases o intervalos y n es el nmero total de
observaciones.
 Las unidades de la varianza son el cuadrado de las unidades de la variable original. Esto es,

mts2 , cm2 , litros2 , dlares 2 , pesos 2 , Kg 2 , etc.


 Se llama desviacin estndar a la raz cuadrada positiva de la varianza
 Las unidades de la desviacin estndar son las mismas unidades de la variable original. Esto es,
mts , cms , litros , dlares , pesos , Kgs , etc.
 En datos no tabulados la desviacin estndar se calcula por la expresin

n 2 n

( xi x ) x 2
i
2
SX = i =1
= i =1
(x)
n n

 En datos tabulados la desviacin estndar se calcula por la expresin


m m

ni ( ci x ) c n
2 2
i i
2
SX = i =1
= i =1
(x)
n n
con las interpretacin de smbolos tal como se ha hecho antes.
 Se llama coeficiente de variacin al cociente entre la desviacin estndar multiplicada por
100, y la media aritmtica. Este coeficiente se mide en porcentaje.
 El coeficiente de variacin se calcula con la expresin
SX
CVX = 100%
x
 La varianza total de las k subpoblaciones de datos
16

x1(1) , x2(1) , x3(1) ,..., xn(1)1 ; x1(2) , x2(2) , x3(2) ,..., xn(2)
2
;; x1( k ) , x2( k ) , x3( k ) ,..., xn( kk )

se calcula por la expresin

2
k
n [S ( )]
k
ni x i
2
i i
2
+ xi
S =2 i =1
i =1
T
n n

1.2.1 Ejercicios resueltos, paso a paso:

Ejemplo 1.

La siguiente tabla (prescindiremos por ahora de su ttulo para centrarnos ms en los procedimientos)
corresponde al porcentaje de cobre obtenido mediante dos procesos de produccin, en diferentes
muestras de mineral; los resultados se muestran en sus respectivas tablas de frecuencias

a) Determine e interprete la moda y el cuartil 3 del


porcentaje de cobre en ambos procesos.

b) Si el 20% de las muestras con porcentaje de cobre


bajo es considerado como de baja ley, el 10% de las
muestras con mayor porcentaje de cobre es
considerado como de buena ley y las dems
muestras son consideradas como de ley media.

Para ambos procesos determine:


a. Cul es el porcentaje de cobre mnimo para
que una muestra sea considerada de buena
ley?
b. Entre qu valores una muestra ser considerada como ley media?
c. Cul es el nmero estimado de muestras con ley media?

c) Determine la media aritmtica y la mediana del porcentaje de cobre en el proceso 1 y comprelas


con la moda. Cul es su opinin respecto a la simetra de la distribucin del porcentaje de cobre en
el proceso 1? Se deja como inquietud el mismo anlisis para el proceso 2

d) Si consideramos ambos procesos como uno solo. Cul ser el porcentaje de cobre promedio total?

e) Determine un intervalo que contenga el 50% central de la distribucin del porcentaje de cobre de
las muestras usando el proceso 2.

f) Determine un intervalo centrado en la media aritmtica y de amplitud 2 desviaciones estndar. Qu


porcentaje de observaciones tiene valores de ley en este intervalo?
17

Esquema de desarrollo.

Paso 1. Lea con detenimiento el problema analizando cada uno de los datos informativos que
da. Analice qu se requiere de usted en cada pregunta. Cuando tenga claro todo lo que se
pide y lo que se da como informacin, analice y provase de otros elementos o conocimientos
que necesita para resolver estos planteamientos problemticos. Disee planes de solucin para
cada caso. Finalmente proceda a ejecutar la solucin analizando y fundamentando sus
procedimientos, a la par de interpretar la aceptacin de los resultados que usted est
obteniendo.

Paso 2. Preocpese de identificar claramente poblaciones, elementos de estudio en esas


poblaciones, variables, tipos de variable, estadsticos de posicin y de dispersin, en
fin, todo aquello que le permita entender a cabalidad la situacin problemtica tanto
como lo que se le est pidiendo que resuelva.

Paso 3. Desarrollo de las respuestas:

a) Se pide: Determinar e interpretar la moda y el cuartil 3 del porcentaje de cobre en


ambos procesos.

Para ello echamos mano de una tabla


de clculos como la que se presenta en
la figura.

En base a ella podemos calcular la


moda del porcentaje de cobre logrado
por el proceso 1:

(ni ni 1 ) (15 8)
M o = LI (i ) + Ai = 0.053 + 0.006 = 0.055
( ni ni 1 ) + ( ni ni+1 ) (15 8) + (15 3)
Resp.: El porcentaje de cobre ms frecuente obtenido por el Proceso 1 es 0.055%.

Una visualizacin grfica de lo que hemos


calculado se presenta en la siguiente grfica.
En ella se ha utilizado un polgono de
frecuencias:

El cuartil 3 del porcentaje de cobre


obtenido por el proceso 1 equivale al
percentil 75 de esta variable. Por lo tanto
desde la misma tabla se obtiene:
18

n 75
( N2 )
P75 = LI (3) + A3 100
n =36
= 0.053 + 0.006
( 27 13) = 0.059
n3 15

Resp.: El cuartil 3 del porcentaje de cobre obtenido por el Proceso 1 es 0.059%. Est
ligeramente por debajo del punto medio del rango de variacin observado. Esto
significa que hay una ligera mayor agrupacin de porcentajes de cobre obtenidos
por el proceso 1 en la mitad ms baja de porcentajes del Proceso 1.

A lo ms el 75% de las muestras obtenidas por el Proceso 1 tiene porcentaje de


cobre menor o igual a 0.059 y por sobre este valor a lo ms el 25% de las
muestras obtenidas por el Proceso 1 tiene porcentaje de cobre mayor que 0.059

Si se analiza ahora, el Proceso 2 de la


misma manera se obtiene:

(n2 n1 )
M o = LI (2) + Ai
( n2 n1 ) + ( n2 n3 )
(11 7)
= 0.063 + 0.004
(11 7 ) + (11 10 )
= 0.0662

Resp.: El porcentaje de cobre ms frecuentemente obtenido por el Proceso 2 es


0.0662% (numricamente mayor que el obtenido por el Proceso 1 es esto
significativo?)

El cuartil 3 del porcentaje de cobre obtenido por el proceso 2 se logra tambin desde la
tabla:

n 75
( N3 ) n=38
P75 = LI (4) + A4 100 = 0.071 + 0.004
( 28.5 28) = 0.074
n4 7

Resp.: El cuartil 3 del porcentaje de cobre obtenido por el Proceso 2 es 0.074%. Est
ligeramente por sobre el punto medio del rango de variacin observado. Esto
era de esperarse si la distribucin de valores se piensa simtricamente
distribuida en el rango de variacin observado. Comparado con la obtencin
de cobre lograda por el Proceso 1 se advierte que este proceso 2 obtiene
mejores porcentajes de cobre (podra esto afirmarse con autoridad?).

A lo ms el 75% de las muestras obtenidas por el Proceso 2 tiene porcentaje


de cobre menor o igual a 0.074 y por sobre este valor a lo ms el 25% de las
muestras obtenidas por el Proceso 2 tiene porcentaje de cobre mayor que
0.074.
19

b) Se define:
i. Muestras de baja ley: 20% de muestras con ms bajos porcentajes de cobre.
ii. Muestras de buena ley: 10% de muestras con ms altos porcentajes de cobre.
iii. Muestras de ley media: las restantes muestras.

a. Se pide: Porcentaje de cobre mnimo


para que una muestra sea considerada de
buena ley.

El percentil P20 es la frontera superior


del intervalo que contiene al 20% de ms
bajo porcentaje de cobre o cobre de baja
ley. Se puede deducir que si P90 es la
frontera inferior de los porcentajes de ley ms altos, entonces el intervalo que define
un porcentaje de ley media es [ P20 ; P90 ] .

Con una polgono de frecuencias, como


antes, se puede visualizar tambin esta
situacin (ver figura).

Debemos calcular, entonces P20 , que es


el porcentaje de cobre mnimo para que
una muestra sea considerada de buena
ley. Por lo tanto:

EN EL PROCESO 1:

Observando la tabla de la derecha se


puede deducir que en este proceso

P20 = 0.047 + 0.006


( 7.2 5)
8

= 0.0487

Resp.: En el Proceso 1, el porcentaje de cobre mnimo para que una muestra sea
considerada de buena ley es 0.0487%.

EN EL PROCESO 2:

Se puede deducir que el lmite inferior P20 ser


20

P20 = 0.063 + 0.004


( 7.6 7 ) = 0.0632
11

Resp.: En el Proceso 2, el porcentaje de cobre mnimo para que una muestra sea
considerada de buena ley es 0.0632%.

Con estos porcentajes se puede observar que lo que se llama buena ley en el proceso 2
tiene frontera mnima mayor que en el Proceso 1.

b. Se pide: Entre qu valores una muestra ser considerada como de ley media.

Para hacer esta determinacin en ambos procesos debemos calcular el percentil P90
( P20 ya est calculado.

EN EL PROCESO 1:

Observando la tabla de la derecha se


puede deducir que en este proceso

P90 = 0.065 + 0.006


( 32.4 31)
4

= 0.0698

En el Proceso 1, el porcentaje de cobre mximo para que una muestra sea considerada
de buena ley es 0.0698%.

EN EL PROCESO 2:

Se puede deducir que el lmite inferior P90 ser

P90 = 0.071 + 0.004


( 34.2 28 ) = 0.0745
7
En el Proceso 2, el porcentaje de cobre mximo para que una muestra sea considerada
de buena ley es 0.0745%, que tambin es mayor al percentil equivalente del proceso 1.

Resp.: Una ley de cobre ser declarada como ley media si:

 En el Proceso 1: la ley pertenece al intervalo [ 0.048; 0.0698 ] .


 En el Proceso 2: la ley pertenece al intervalo [ 0.0632; 0.0745]
21

c. Resp.: El nmero estimado de muestra en cada proceso est dado por:

36 * 0.7
 En el proceso 1 es = = 25.2 25 .
100

38 * 0.7
 En el proceso 2 es = = 26.6 27 .
100

c) Se pide: Opinin respecto a la simetra de la distribucin del porcentaje de cobre

Si se observa detenidamente las columnas de frecuencias absolutas de ambos procesos se


advertir que se trata de distribuciones bajas en los extremos y ms altas en la parte
central. Puede verse tambin que son distribuciones unimodales. Esto nos lleva a pensar
que si estas distribuciones de frecuencias mostraran simetra en sus grficas debera ocurrir
que: el valor de la media aritmtica con el valor de la moda y con el valor de la mediana
coinciden

EN EL PROCESO 1:

Resp.:

 La media aritmtica del porcentaje de cobre en el proceso 1 es

c n
i =1
i i
x= = 0.055
n

 La mediana del porcentaje de cobre en el proceso 1 es


36
( N k 1 ) (18 13) = 0.055
P50 = LI ( 3) + A3 2 = 0.053 + 0.006
n3 15

En la distribucin de los porcentajes de cobre en el proceso 1 la moda fue 0.055.



Luego, x = M 0 = M e , y existe simetra de la distribucin del porcentaje de cobre.

d. Resp.: El porcentaje de cobre promedio total es

 36 0.055 + 38 0.0678
xT = = 0.0615729
74
22

d) Se pide: Un intervalo que contenga el 50% central de la distribucin del porcentaje de


cobre de las muestras usando el proceso 2. Para hacer esta determinacin debemos
calcular los percentil P25 y P75

EN EL PROCESO 2:

P25 = 0.063 + 0.004


( 9.5 7 ) = 0.063909
11

P75 = 0.071 + 0.004


( 28.5 28 ) = 0.074
7
Resp.: El intervalo que contiene el 50% central de la distribucin del porcentaje de cobre
de las muestras en el proceso 2 es [0.063909,0.074]

e) Se pide: Determinar, en el Proceso 1, un intervalo centrado en la media aritmtica y de


amplitud 4 desviaciones estndar, adems de calcular el porcentaje de observaciones que
tiene valores en este intervalo.

La identificacin del intervalo pedido (antes que la determinacin) requiere un pequeo


anlisis. Que el intervalo est centrado en la media, x , significa que el punto centro del
intervalo es el valor de la media aritmtica de los valores de porcentaje de cobre obtenidos
por el Proceso 1.

Si la amplitud del intervalo es de 2 desviaciones


estndar de estas leyes, entonces la distancia
entre los lmites del intervalo pedido es de 2
desviaciones estndar, S X . Adems, la distancia
desde la media aritmtica (que es el punto centro del intervalo) a los extremos es de 1
desviacin estndar (la mitad). Por lo tanto los lmites
de este intervalo sern x S X y x + S X tal como lo
indica la figura.

La siguiente tabla permite calcular la media aritmtica


y la desviacin estndar de los valores de ley
obtenidos por el Proceso 1. De la tabla se deduce que
x = 0,05533 es la media aritmtica de las leyes
obtenidas por el Proceso 1 y que la varianza es

0.11222 2
S X2 = ( 0.05533) = 5.556 10 5
36

Por lo tanto la desviacin estndar de las leyes obtenidas por el Proceso 1 es


2 5
S x = S = 5.556 10
X = 0.00745 %.
23

Esto significa que el intervalo centrado en la media y de longitud 2 desviaciones estndar


es

[ x S X ; x + S X ] = [ 0, 04788;0, 06279]
Para calcular el porcentaje de observaciones que tiene valores de porcentaje de cobre en
este intervalo debe observarse que el lmite inferior 0, 04788 pertenece al intervalo
( 0, 047; 0, 053] (el orden del intervalo es k = 2 , primer intervalo de la tabla).
36i
Bajo el percentil Pi = 0,04788 hay = 100 datos (no conocemos el porcentaje i que
estamos averiguando). Entonces, utilizando los valores en la tabla y la expresin de clculo
de un percentil obtenemos

Pi = 0,04788 = 0,047 + 0,006


( 5) = 6.17333 %
8

36 i
= = 6.17333 Luego i = 17,1482
100

Esto significa que bajo el percentil Pi = P17,1482 = 0, 04788 hay un 17,15% (aprox.) del
total de valores de ley obtenidos por el Proceso 1.

De la misma manera trabajamos con el lmite superior, 0,06279 , que pertenece al intervalo
( 0, 059; 0, 065] (el orden del intervalo es k = 4 , cuarto intervalo de la tabla).

Bajo el percentil Pj = 0, 06279 hay = 36 j


100
datos (no conocemos el porcentaje j que
estamos averiguando). Entonces, utilizando los valores en la tabla y la expresin de clculo
de un percentil se obtiene

( 28)
Pj = 0,06279 = 0,059 + 0,006 = 29,895 datos
3

36 j
= = 29,895 . Luego j = 83,0417 83,05 %.
100

Esto significa que bajo el percentil Pj = P83,05 = 0, 06279 hay un 83,05% del total de
valores de ley obtenidos por el Proceso 1.

Por lo tanto, en el intervalo Pi ; Pj = ( 0, 04788;0, 06279 ] hay 83, 05 17,15 = 65,9


(
por ciento del total de observaciones de ley obtenida por el Proceso 1.

Resp.: El intervalo centrado en la media aritmtica y de amplitud 2 desviaciones estndar


de ley de cobre obtenida por el Proceso 1 es ( 0, 04788; 0, 06279 ] cuyos lmites
24

estn en porcentaje. Adems, el porcentaje de observaciones que tiene valores de


ley este intervalo es 65,9 %.

1.2.2 Ejercicios Propuestos.

1. La siguiente informacin corresponde a la Albmina total circulante (en


gramos) en 30 pacientes internados en el Hospital Regional de Antofagasta:

a. Si el 40% de los pacientes con mayor albmina son considerados


anormales Cul ser su albmina total circulante mnima para ser
considerado anormal?
b. Determine la albmina total circulante ms frecuente. .
c. Si en el Hospital de Calama los pacientes tienen una albmina
promedio de 115 gramos, con una varianza de 170 gramos2 Cree usted que los pacientes de
Antofagasta son ms homogneos en su albmina total circulante respecto a los de Calama?
Justifique su respuesta.

2. En una muestra de 35 barriles de yodo de una empresa minera de


Antofagasta se determina el valor del peso (en kilos) en marzo 2003,
obtenindose los siguientes resultados de la tabla.

a. Identifique los siguientes conceptos:


i) Poblacin analizada iii) Elementos de la poblacin
ii) Variable en estudio iv) Tipo de variable.
b. Construya una tabla de frecuencia completa de 8 categoras e
interprete n3 , N 5 , f 4 , F 6 .
c. Construya un grfico estadstico adecuado para la tabla construida en la parte a) e interprtelo.
d. Los barriles cuyo peso pertenece al intervalo que contiene el 50% central de la distribucin de
los pesos son considerados adecuados. Determine dicho intervalo.
e. Si el instrumento que hace la medicin est defectuoso y entrega el valor del peso disminuido
en 20% de su verdadero valor ms 2 kilos. Cul ser el peso medio corregido? (use
propiedades)
f. Si el 33,5% de los barriles de menor peso y el 15,2% de los barriles con mayor peso son
devueltos para nivelar el llenado y el resto es embarcado. Determine entre qu pesos un barril
ser embarcado.
g. Si en una empresa minera de Tocopilla una muestra de 50 barriles proporcion un peso medio
de 45.8 kilos. Cul ser el peso medio total considerando ambas empresas mineras?
h. Determine el porcentaje exacto de barriles con un peso entre 39.5 y 42.5 kilos.
i. Cul es el peso ms frecuente de los barriles y la mediana?Que puede decir de la simetra de
la distribucin de los pesos comparndolas con la media aritmtica?
25

1.3. Planteamientos problemticos para aplicacin de propiedades.

Los problemas de aplicacin que se proponen tienen por objetivo poner al estudiante frente a
situaciones en las cuales deber disear apropiadamente las respuestas, adems de utilizar una notacin
adecuada RIGUROSAMENTE para aplicar las propiedades enunciadas al inicio de este captulo.

Resumen de propiedades ms importantes.

Si x1 , x2 ,..., xn un conjunto de n datos de los cuales conocemos su media aritmtica x y su varianza


S X2 podemos resumir las siguientes propiedades:

a. Propiedad lineal de la media aritmtica: Si cada observacin x i se transforma en a + bxi = yi


entonces
yi = a + bxi y = a + bx y = a + bx , donde a y b son constantes reales.

n
b. x es un centro de gravedad: (x x ) = 0 .
i =1
i

n 2

c. (x
i =1
i k ) obtiene su valor mnimo cuando k = x

d. Si la muestra est particionada en k submuestras de tamaos n1 , n2 , nk con medias aritmticas


conocidas x1 , x2 ,..., xk , entonces la media aritmtica total de la muestra completa se define como:

x1n1 + x2 n2 + + xk nk xn
i =1
i i
xT = =
n n

e. Sea X una variable de la que se conoce su varianza S x2 y sea Y una nueva variable con valores
y = ax + b donde a y b son constantes conocidas, entonces
2 2 2 2
S =S
Y a + bX =a S X y SY = S a + bX = a S X .

f. Si se tiene k conjuntos de datos con tamaos n1 , n2 , nk , con medias x1 , x2 ,..., xk y varianzas


S12 , S 22 , S k2 , respectivamente, entonces la varianza del conjunto de n = n1 + n2 + + nk datos
se llama varianza total, y se calcula por la siguiente expresin:
26

2
k
2
k
2
ni Si + xi

( ) xi ni
2
ST = i =1
i =1

n n


2
k
n [S ( )]
k
ni x i
2
i i
2
+ xi
S =2 i =1
i =1
T
n n

1.3.1 Ejercicios resueltos, paso a paso:

Ejemplo 1.

1. Los sueldos diarios de trabajadores de una pequea empresa metalmecnica se muestran en la tabla.
Debido a las continuas alzas de precios en el rubro alimenticio y transporte, los trabajadores se
organizan para
plantearle al dueo
de la empresa que
cada sueldo se
reajuste en un 25% ms un bono de 3000 pesos. El dueo de la empresa acoge parcialmente la
peticin de los trabajadores, le ofrece a cada trabador el sueldo pedido disminuido en un 10%, si
este queda en menos de 20.000 pesos, en cambio a los quedan con el sueldo pedido en ms de
20.000 les conserva el sueldo anterior y ofrece un bono de 4.000 pesos.

a. Cul es el sueldo promedio que aspiran los trabajadores?


b. Cul es sueldo promedio total que le ofrece el empleador?
c. Es ms heterogneo el actual sueldo o el que
piden los trabajadores?

Recuerda el siguiente plan cuando


Esquema de desarrollo. procedes a solucionar estos
problemas:
Paso 1. Aunque parezca una insistencia inadecuada, Paso 1. Identificar los datos que
lea el problema detenidamente hasta entrega el problema.
Paso 2. Identificar las preguntas del
comprenderlo. problema.
Paso 3. Investigar conocimientos
Paso 2. Identificar los datos que entrega el adicionales.
problema. El sueldo actual de los trabajadores Paso 4. Proponer y realizar las
respuestas a las preguntas.
que designaremos por x i , el sueldo a que
aspiran los trabajadores que lo designaremos
27

por yi , el sueldo que ofrece el dueo de la empresa que lo designaremos por : ti , si el sueldo
pedido es menor a $20.000, zi , si el sueldo pedido es mayor a $20.000

Paso 3. Identificar las preguntas del problema:

Sueldo promedio que aspiran los trabajadores: y


Sueldo promedio total que ofrece el dueo de la empresa: T
Coeficiente de variacin:
Sx
o del actual sueldo Cvx = 100% ,
x
Sy
o del sueldo que a que aspiran los trabajadores: Cvy = 100%
y

Paso 4. Desarrollo de la respuesta:

a. Sea x i es sueldos de los trabajadores, su sueldo promedio es x = 14.345


Sea y i el sueldo a que aspiran los trabajadores y i = 1, 25 xi + 3000
Resp: Sueldo a que aspiran los trabajadores y = 1,25 x + 3000 = 20.391,25

b. El patrn una vez reajustado el sueldo ofrece:

Sea y A el sueldo diario reajustado menor a $20.000,

ti = y A 0.1y A = 0.9 y A t = 0,9 y A = 0,9 16303,5714 = 14673, 213

Si el sueldo diario reajustado es mayor a $20.000,

zi = x + 4000 su promedio es z = x + 4000 = 20338, 4615


y > 20000

Resp: El sueldo promedio total que ofrece el empleador es

7 14673, 213 + 13 20338, 4615


T = = 18355, 625
20

3520,5879
c. CVx = 100 = 0, 2454 100 = 24,54
14345
28

yi = 1, 25 xi + 3000 s y = 1, 25 s x = 1, 25 3520, 5879 = 4400, 7

4400, 7
CVY = 100 = 0, 2102 100 = 21, 02
20931, 25

Resp: Efectivamente es ms heterogneo el actual sueldo de los trabajadores pues


CVX > CVY .

Ejemplo 2.

En una empresa estatal existen tres sindicatos, el de los Supervisores, el de los Ingenieros de Ejecucin-
Administrativos y el de los Obreros.

Los nmeros de trabajadores de los sindicatos de Supervisores, Ingenieros de Ejecucin-


Administrativos y el de los Obreros, estn en relacin 1:3:6.

a. Hace dos aos, los sindicatos negociaron con la empresa y obtuvieron sueldos promedios de 3
millones, 1 milln doscientos mil y 700 mil pesos, respectivamente. El coeficiente de variacin de
los sueldos de cada sindicato fue igual a 1.
Calcule para el total de trabajadores (Supervisores, Ingenieros de Ejecucin-Administrativo y
Obreros):
i. El sueldo promedio.
ii. La desviacin estndar de los sueldos.

b. Este ao la empresa se propone que en la negociacin, el sueldo promedio total sea exactamente de
1 milln ciento veinte mil pesos. Negocia por separado con cada sindicato. El primero en negociar
es el sindicato de Supervisores, el cual obtiene un reajuste del 10% . El sindicato de Ingeniero de
Ejecucin-Administrativos, obtiene un 8% de reajuste. El sindicato de Obreros, que an no ha
negociado, conocedor del propsito de la empresa y de los reajustes obtenidos por los otros
sindicatos, declara la huelga por cuanto estiman que bajo las actuales condiciones sus asociados
quedarn desfavorecidos. Concuerda usted con la estimacin del sindicato de Obreros? Justifique
su respuesta estadsticamente.

Esquema de desarrollo.

Paso 1. Lea el problema detenidamente hasta comprenderlo.

Paso 2. Identificar los datos que entrega el problema.

 nA : Nmero de Supervisores.
nB : Nmero de Ingenieros de EjecucinAdministrativos.
nC : Nmero de Obreros.
x A : Promedio de sueldos de Supervisores.
xB : Promedio de sueldos de Ingenieros de Ejecucin-Administrativos.
29

xC : Promedio de sueldos de Obreros.


CVx A : Coeficiente de variacin de sueldos de Supervisores.
CVxB : Coeficiente de variacin de sueldos de Ingenieros de Ejecucin-Administrativos.
CVxC : Coeficiente de variacin de sueldos de Obreros.
n n n
xT = A xA + B xB + C xC : Sueldo promedio total (del total de trabajadores de la
n n n
empresa).

Paso 3. Identificar las preguntas del problema:

y : Sueldo promedio total en base a la peticin de los trabajadores.


ST : Desviacin estndar total en base a la peticin de los trabajadores.
yTE : Sueldo promedio total que ofrece la empresa..

Coeficiente de variacin:
Sx
o Del actual sueldo CVx =100% .
x
Sy
o Del sueldo que piden CVy = 100% .
y

Paso 4. Desarrollo y respuesta a lo solicitado:

nA 1 n 1
n A : n B : nC = 1 : 3 : 6 = A =
n A + n B + nC 10 n 10

nB 3 n 3 n 6
n A : n B : nC = 1 : 3 : 6 = B = . Luego, C =
n A + n B + nC 10 n 10 n 10

a. x A = 3.000.000 , x B = 1.200.000 , xC = 700.000

Sx A Sx
CVx A = 100 = 1 SxA = xA , CVxB = 100 B = 1 SxB = xB
xA xB

SxC
CVxC = 100 = 1 SxC = xC
xC

Resp: Luego el sueldo promedio total de trabajadores (Supervisores, Ingenieros de


Ejecucin-Administrativo) es de $1 080 000. En efecto:
30

1 3 6
xT = 3.000.000 + 1.200.000 + 700.000 = 1.080.000
10 10 10

b.

ST2 = 1 ( 3.000.000)2 + ( 3.000.000)2 + 3 (1.200.00)2 + (1.200.00)2 +


10
10

6
( 700.00 ) + ( 700.00 ) (1.080.00 )
2 2 2
+
10

ST2 = 1 ( 3.000.000)2 + 3 (1.200.00)2 + 6 ( 700.00)2 (1.080.000)2


5

ST = 1.444.160,6

Resp. La desviacin estndar total (desviacin estndar del sueldo de todos los
trabajadores de la empresa) es de $1 444 160,6.

c. Sea yTE el sueldo promedio total ofrecido por la empresa = 1.220.000 .

y A = 1.1 x A = $ 3 300 000 es el sueldo promedio actual obtenido por los Supervisores.

y B = 1.08 x B = 1.296.000

1 3 6
1.120.000 = ( 3.300.000 ) + (1.296.000 ) + ( yC )
10 10 10

3.300.000 + 3.888.000 + 6 y
=
10

668.667 700.000
11.200..000 = 7.188.000 + 6 yC yC = 668.667
700.000

k = 0.045 = 4.5%
Resp: A los Obreros se les rebajara el sueldo en un 4.5%.

de las muestras en el proceso 2 es [0.063909,0.074]


31

2
k
n [S ( )]
k
ni x i
2
i i
2
+ xi
2
S = i =1
i =1
T
n n

1.3.2 Ejercicios Propuestos.

1. Una fbrica vende dos tipos de artculos A y B. La cantidad de artculos del tipo B producidos por
la fbrica es la tercera parte que la del tipo A. El costo medio de los artculos del tipo A es de
$4800. El costo medio total (artculos A y B juntos) es de $4100.

Se requiere aumentar los precios de los artculos para lograr un costo medio total de $5550
reajustando en un3% el costo unitario de los artculos tipo A y aumentando K veces el costo
unitario de los artculos tipo B.

a. Cul es el costo medio inicial de los artculos del tipo B?

b. Cul es el valor de k?

c. En qu porcentaje cambi el costo unitario de los artculos tipo B?.

2. En el mes de Marzo los trabajadores de una empresa tenan un sueldo promedio de $350.000 con
un coeficiente de variacin del 15%. En el mes de Abril se incorporan nuevos trabajadores a la
Empresa, en un nmero igual al 20% de los existentes en Marzo. Los nuevos trabajadores tienen
un sueldo promedio de $270.000 y una desviacin estndar de $30.000. En Septiembre se
reajustan los sueldos de los trabajadores antiguos en un 10% y se les entrega un bono de Fiestas
Patrias de $20.000, mientras que para los nuevos trabajadores el aumento fue de un 20% con un
bono de $k. Justificando estadsticamente sus respuestas, responda a las siguientes preguntas:

a. Cul es el porcentaje de aumento de la planilla de sueldos del mes de Abril en relacin a la del
mes de Marzo?

b. Cul es la desviacin estndar de los sueldos, del total de los trabajadores, en el mes de Abril?

c. Cul es el coeficiente de variacin de los trabajadores antiguos en el mes de Septiembre?


d. Determine el valor de k de modo que ambos grupos de trabajadores, nuevos y antiguos,
tengan el mismo promedio de sueldos.

3. Un empresa realiza su trabajo diario en tres turnos: A, B y C: Los nmeros de trabajadores por
turno estn en la relacin 7:5:4, constituyendo un total de 160 trabajadores. Los salarios por turno,
son $8.000, $10.000, $12.000, y sus correspondientes desviaciones estndar, son: $1.200, $9.00,
$1.000, respectivamente. Si la empresa piensa hacer un aumento salarial segn el siguiente criterio:
reajuste del 15% ms un bono de $4.000, para cada trabajador del turno A, reajuste del 18% para
cada trabajador del turno B, y solo un bono de $700 para cada trabajador del turno C.
32

a. Conseguira la empresa hacer ms homogneos los sueldos de todos los trabajadores en su


conjunto?. Justifique estadsticamente su respuesta.

b. Si la gerencia establece que la planilla diaria no debe aumentar ms del 12%, por lo que decide
modificar el bono de los trabajadores del turno A. Cul es el mayor bono, en cantidades
enteras, que puede otorgar al turno A, adems del reajuste, para lograr el objetivo de la
empresa.

1.4. Datos bidimensionales. Tablas de frecuencias conjuntas,


marginales y condicionales.

 Llamaremos dato bidimensional, ( xi , yi ) al registro que presenta una caracterstica conjunta


de las variables X e Y , contenidas en el vector bidimensional ( X , Y ) .

 Para describir simultneamente dos o ms caractersticas estas quedan representadas en


Tablas de frecuencias conjuntas, cuya construccin es similar al caso unidimensional,
dependiendo del origen de cada variable. Estudiaremos solo el caso de dos variables, que
llamaremos tabla de doble entrada

 Llamaremos frecuencia absoluta conjunta al nmero de veces que se presentan


conjuntamente los valores xi y y j . Se representa por nij

 Con los valores de las variables como sus respectivas frecuencias, llamadas Frecuencias
marginales que se encuentran a ubicadas al margen de la tabla de doble entrada podemos
construir distribuciones marginales

 Una distribucin condicional es una distribucin unidimensional de una variable


condicionada a un valor fijo de la otra variable, en la cual, a su vez se pueden determinar los
diferentes estadgrafos de posicin y dispersin estudiados.

1.4.2 Ejercicios resueltos, paso a paso:

Ejemplo 1.

1. Los siguientes datos corresponden a la edad X (en aos) y


el ndice de productividad Y (en porcentaje) de 40
temporeras de la hacienda Los Aromos.

a. Cul es el promedio de edad de las temporeras cuyo


ndice de productividad est entre 40 y 60?
33

b. Cul es el ndice de productividad ms frecuente de las temporeras cuya edad est entre 20
y 28 aos.
c. Afirmara usted que la edad de las temporeras presenta mayor dispersin relativa qu el
ndice de productividad?. Justifique su respuesta.
d. Determine el ndice de productividad mnimo del 30% superior de la distribucin de la
productividad de las temporeras cuya edad vara de 20 a 28 aos.
e. Si el 10% de temporeras de menor edad son considerados Principiantes y si el 20% de las
temporeras con mayor edad son consideradas Expertas, los dems temporeras son
considerados Normales. Entre qu edad las temporeras son consideradas Normales?
f. Determine el porcentaje de temporeras cuyo ndice de productividad es menor o igual 65.
g. Determine un intervalo centrado en la media aritmtica de longitud dos errores estndar de
estimacin para la edad de las temporeras.

Esquema de desarrollo:

Paso 1. Leer el problema:

 Se da una tabla de doble entrada exhibiendo su distribucin conjunta y las marginales.


 Se trata de una muestra de n = 20 personas en las que se mide su edad ( X ) y su
productividad ( Y ).

 Se pide:

a. Un promedio de edad condicionado a valores de productividad.


b. Una moda de un ndice de productividad condicionada a un rango de
edad.
c. Clculo de un coeficiente de variacin para comparar la dispersin relativa
de la edad con la productividad.
d. Un percentil del ndice de productividad.
e. Dos percentiles para determinar un intervalo.
f. Un porcentaje del total de datos asociado a un valor dado de un percentil.
g. Un intervalo de longitud dos errores estndar de estimacin centrado en
al media observada de la edad.

Paso 2. Identificar las variables:

X : Edad de las temporeras de la muestra (en aos).


Y : ndice de productividad de la temporera.
Paso 3. Desarrollar la respuesta con fundamentos y responder:

a. Se pregunta por el promedio de edad de las temporeras


condicionada a una productividad est entre 40 y 60

c n
i =1
i i
376
x= = = 26,86 aos
14 14
34

Resp: La edad promedio de las temporeras cuyo ndice de productividad est entre 40 y
60 es de 26,86 aos.

b. Se pide la moda del ndice de productividad condicionado a


aquellas temporeras cuya edad est entre 20 y 28 aos

(ni ni 1 )
M o = LI ( i ) + Ai
( ni ni 1 ) + ( ni ni +1 )
(6 5)
= 60 + 20 = 65
( 6 5 ) + ( 6 3)

Resp: El ndice de productividad de aquellas temporeras cuya edad est entre 20 y 28 aos
es de 65.

c. Se debe verificar si la edad de las temporeras presenta mayor dispersin relativa que el
ndice de productividad. Para realizar esto se debe calcular el coeficiente de variacin de
cada variable. Se trabaja, as, con los valores marginales de la tabla dada.

c n
i =1
i i
1064
x= = = 26, 6 aos
40 40

n (c x )
2
i i
i =1
SX =
40

1041, 6
= = 5,10 aos
40

Luego el coeficiente de variacin de la edad X es:

5,10
CVX = 100 = 19,17
26, 6

d n
i =1
i i
2200
Anlogamente, y= = = 55
40 40
35

n (d
2
i i y)
i =1 415
SY = = = 20,37
40 40

Luego el coeficiente de variacin de Y es:

20,37
CVY = 100 = 37, 04
55

Resp: El ndice de productividad presenta mayor dispersin relativa que la edad de las
temporeras, pues CVY > CVX .

d. Se pide el ndice de productividad mnimo del 30% superior de la distribucin de la


productividad de las temporeras cuya edad vara de 20 a 28 aos. Es decir debemos
calcular el percentil 70, P70 :

n 70
( N2 )
P70 = LI (3) + A3 100
n3

= 60 + 20
(12, 6 9 ) = 72
6
Resp: El ndice de productividad mnimo del 30% ms alto, de valores de la distribucin
de la productividad de las temporeras cuya edad vara de 20 a 28 aos es 72.

e. Se pide entre qu edades se consideran Normales, para esto,


debemos calcular el percentil 10 y el percentil 80

40 10
( 0)
P10 = LI (1) + A1 100 = 16 + 4
( 4 ) = 16, 2
n1 5

40 80
( N3 )
P80 = LI (4) + A4 100 = 28 + 4
( 32 23) = 31, 6
n4 10

Resp: Las temporeras son consideradas Normales entre las edades de 16,2 y 31,6

f. Se pide el porcentaje de temporeras cuyo ndice de productividad es menor o igual que


65, esto quiere decir que el valor del percentil de productividad es 65. Se deduce, entonces,
36

P = 65 . En consecuencia, se debe hallar el


que existe un valor de porcentaje, , tal que
valor de .

P = 65 = 60 + 20
( 25 ) ( 65 60 ) 9 = 25
9 20

= 27, 25

Resp: El porcentaje de temporeras cuyo ndice de productividad


es menor o igual 65 es de 27,25%.

g. Se pide: Determinar un intervalo centrado en la media aritmtica y de amplitud 2


desviaciones estndar para la edad de las temporeras

Resp: Como en c) obtuvimos los datos la media aritmtica y la desviacin estndar el


intervalo pedido est entre

[ x s; x + s ] = [ 26, 6 5,10; 26, 6 + 5,10 ] = [ 21,15;3,10 ]

Ejemplo 2.

En el consultorio Norte obtiene la clasificacin


de 124 pacientes segn peso ( X , en kgs.) y su
grupo etreo ( Y ).

a. Calcular e interpretar: n32 , n 23 , n2 ,


n 4 .
b. Cul es el peso promedio de los
pacientes?
c. Cul es la moda del grupo etario?
d. Determine el peso mnimo del 30% superior de la distribucin del peso de los pacientes.
e. Calcular el peso (kg.) promedio de los pacientes considerados adultos.
f. Si el 10% de los pacientes adultos de menor peso son considerados de Bajo peso y si el
20% de los pacientes adultos de mayor peso son considerados Sobre peso y el resto son
considerados Normales. Entre que peso los adultos son consideradas Normales?
g. Para los pacientes Adulto joven, determine el porcentaje de pacientes con un peso mayor o
igual a 83 kilos. Fundamente su respuesta.
h. Afirmara usted que Ud. que el peso de los pacientes Adulto Joven es ms homogneo que
el de los Adultos?
37

Esquema de desarrollo.

Paso 1. Leer el problema.

Paso 2. Identificar las variables:

X : Peso (en kg.) del paciente.


Y : Grupo etario del paciente.
Paso 3. Desarrollar la respuesta indicando fundamentos y responder.

a. Identificamos cada frecuencia y luego interpretamos

Resp:
n32 = 25 , es decir hay 25 pacientes
cuyo peso es mayor que
60 kg y menor o igual a
70 kg y est considerado
en el grupo etario Adulto
joven.
n23 = 2 , es decir hay 2 pacientes
cuyo peso es mayor que
50 kg. y menor o igual a
60 kg y est considerado en el grupo etario Adulto.
n2 = 12 , hay 12 pacientes cuyo peso es mayor que 50 kg. y menor o igual a 60 kg.
n4 = 12 , hay 12 pacientes en el grupo etario Adulto mayor.
b. Como nos piden el peso promedio de los pacientes, trabajamos con las frecuencias
marginales para la variable peso ( X )

Resp: El peso promedio de los pacientes es de

c n
i =1
i i
9170
x= = = 73,9516
124 124

c. Se pide la moda del grupo etario.

Resp: Notemos que el mayor grupo de pacientes pertenece


a la categora de adulto, que es la moda en el grupo etario.

El peso mnimo del 30% superior de la distribucin del


peso de los pacientes, corresponde al percentil 70:

Aplicamos la frmula del percentil


38

124 70
86
P70 = 80 + 10 100 = 80 + 10 ( 86, 8 86 )
28 28

= 80, 29

Resp: El peso mnimo del 30% superior de la distribucin del


peso de los pacientes es de 80,29 kg. O tambin
podemos decir que el 70% de los pacientes tiene un
peso menor o igual a 80,29 kg. y 30% de los paciente
tiene un peso mayor que 80,29.

d. Para realizar esta operacin, construimos una nueva tabla de frecuencias donde la columna
de frecuencias absolutas corresponde a la columna de los adultos

Resp: Luego el peso promedio de los adultos es:

n c
i =1
i i
4175
x yAdultos = = = 68.44kg
n 61

e. Nos piden calcular el P10 y el P80 en el grupo adulto.

61 10
3
P10 = 60 + 10 100 = 60 + 10 (6 ,1 3 ) = 63 ,1
10 10

61 80
35
P80 = 80 + 10 100 = 80 + 10 (48 ,8 35 ) = 86 , 27
22 22

Resp: El peso Normal de un Adulto est entre 63,1 y 86,27 Kg.

f. Se pide obtener es el porcentaje de pacientes Adultos jvenes


con peso mayor o igual a 83 kilos. Es decir P = 83 .

Usando frmula del percentil

50
49
83 = 80 + 10 , donde = i n
100
1 100
39

Se debe despejar i :

(83 80) 1 + 49 = 0,5i i = 49,3 i = 98,6 ,


10 0 .5

Resp: Como se pide determinar el porcentaje de pacientes con un peso mayor o igual a 83
kilos, el complemento es (100-98,6)% = 1,4%.

g. Se pide: Calcular el coeficiente de variacin del


peso de los pacientes Adulto Joven y el de los
Adultos, y compararlos.

Luego, CV X yAdultos jvenes = 11.97 .

Se calcula a continuacin el coeficiente de variacin


de Adultos.

Luego, CV X yAdultos = 13.54 .

Resp: Efectivamente el peso de los pacientes Adulto Joven es ms homogneo el de


Adultos, puesto que CV X yAdultos > CV X yAdultos jvenes

1.4.2 Ejercicios Propuestos.

1. Los siguientes datos corresponden a la edad X (en aos) y el ingreso (semanal) Y , de 58


estudiantes universitarios que laboran en los diferentes supermercados de Antofagasta

a. Intrprete: n3 , n4 , n34 , n 43 .
b. Cul es el promedio de edad de los estudiantes
cuyo ingreso semanal est entre 20.000 y
25.000?
c. Cul es el sueldo ms frecuente de los
estudiantes cuya edad est entre 24 y 26 aos?
d. Afirmara usted que los ingresos de los
estudiantes cuya edad est entre 24 y 26 aos es
ms homogneo que el ingreso de los
40

estudiantes cuya edad est entre 18 y 20 aos?. Justifique su respuesta.


e. Si el 20% de los estudiantes de menor edad son considerados Nuevos y si el 30% de los
estudiantes con mayor edad son considerados Antiguos, los dems estudiantes son
considerados Normales. Entre qu edad los estudiantes son consideradas Normales?
f. Cuntos estudiantes no son considerados antiguos?

2. La siguiente tabla muestra la distribucin de


ostiones para cosecha registradas en un cultivo en
el ao 1998, segn el peso (en gramos) y tipos de
ambiente:

a. Cul es el peso promedio de los ostiones de


mar?
b. Qu porcentaje de ostiones en jaula flotante
tiene un peso mayo a 48 gramos?
c. El peso de los ostiones de ,mar es ms homogneo que es de laboratorio?. Justifique su
respuesta, con el indicador adecuado
d. De qu ambiente es ms frecuente que procedan los ostiones?
e. Existe simetra en la distribucin del peso en los ostiones de laboratorio?

3. La siguiente tabla muestra la distribucin de 90


automviles importados por la Empresa
Automotora Autocar considerando el nmero
de cilindros y caballos de fuerza

a. Cul es el nmero promedio de cilindro


de los 90 automviles?

b. Calcular la cantidad de automviles con


caballos de fuerza este entre 108 y 130?

c. Se cree que los caballos de fuerza de los automviles son ms heterogneo en aquellos
automviles de 5 cilindradas que aquellos automviles de 6 cilindradas.

You might also like