You are on page 1of 31

CAPITULO 1

ESTADISTICA DESCRIPTIVA, INTRODUCCIN A LOS TERMINOS BSICOS Y


SUS TERMINOS DE RECOPILACIN
1.1 QU ES LA ESTADSTICA?
El campo de la estadstica tiene que ver con la recopilacin, presentacin, anlisis
y uso de datos para tomar decisiones y resolver problemas.
La estadstica surge como herramienta en la ingeniera, la ciencia, y la
administracin, porque casi todos los procesos y sistemas de la vida real exhiben
variabilidad; la variabilidad es el resultado de cambios en las condiciones bajo las
que se hacen las observaciones.
1.2 DIVISIN DE LA ESTADSTICA
La estadstica para su estudio se divide en dos grandes ramas, la estadstica
descriptiva y la estadstica inferencial. La estadstica descriptiva tiene como
finalidad colocar en evidencia aspectos que sirven para efectuar comparaciones
sin pretender sacar conclusiones de tipo general. Esta descripcin se realiza a
travs de la elaboracin de cuadros, grficos, clculos de promedios, varianza y
mediante el anlisis de regresin. Por otra parte, la estadstica inferencial busca
dar explicaciones al comportamiento de un conjunto de observaciones, probar la
significacin o validez de los resultados; intenta describir las causas que originan
este comportamiento. Proporciona mtodos para estimar caractersticas de un
grupo total, basndose en datos de un conjunto pequeo de observaciones.
1.3 CONCEPTOS BSICOS DE LA ESTADSTICA
Vocabulario estadstico bsico:
Entidad: cada uno de los elementos de un grupo o conjunto que se va a
someter a estudio estadstico.
Variable: es el conjunto de las caractersticas de las entidades que
interesan en una investigacin estadstica.
Las caractersticas que se le pueden medir a una entidad son de tipo cuantitativo o
cualitativo, teniendo ambas caractersticas de variable aleatoria. Ests se
subdividen en variable cuantitativa (continua y discreta) y variable cualitativa o
categrica.

VARIABLE CUANTITATIVA: se dice que una variable es cuantitativa


siempre que los valores que puede asumir son el resultado de medidas
numricas. Entre los ejemplos de variable cuantitativas estn la densidad,
el peso, la temperatura.

VARIABLE CUALITATIVA: hay muchos casos en que nos es posible hacer


medidas numricas. Como por ejemplo, la variable calor puede recibir los
valores cualitativos de rojo, verde, azul, etc. Una variable cuyos valores
consisten en categoras de clasificacin se denomina variable cualitativa.

VARIABLE CONTINUA: una variable continua es aquella que tericamente


puede tomar cualquier valor dentro de un intervalo de valores. Es decir, una
variable continua se mide uniformemente. Como por ejemplo, si la variable
peso en gramos la definimos como X, esta puede estar en el intervalo 50g
x 70g; es decir puede tomar valores continuos entre 50g y 70g.

VARIABLE DISCRETA: cuando los valores numricos que puede tomar una
variable son nmeros enteros, la variable se denomina discreta. Como por
ejemplo, si la variable Y es la edad cumplida en aos de una persona, esta
solo puede tomar 1, 2, 3,..,n(dependiendo la expectativa de vida).

POBLACION UNIVERSO: conjunto de valores de alguna variable


aleatoria relacionada con un conjunto de entidades. Por ejemplo, podemos
hablar de una poblacin de pesos, una poblacin o universo de densidades.
Podemos entonces definir poblacin como el conjunto ms grande de
valores (de una variable), por la cual existe un inters.
Esta definicin indica que las poblaciones son definidas por el investigador
y no estn predeterminadas. Al definir nuestra esfera de inters definimos
nuestra poblacin. Las poblaciones o universos pueden ser finitos o
infinitos. En el campo de la ingeniera y ciencias generalmente las
poblaciones son infinitas.

MUESTRA: es una parte de la poblacin o universo.

El tamao completo de una poblacin aun siendo finita puede desanimarnos a


intentar investigarla en su totalidad. Puede ser conveniente o necesario examinar
solo una fraccin (muestra) de la poblacin.
1.4 ETAPAS EN UNA INVESTIGACION ESTADISTICA

Para la realizacin de un estudio estadstico se deben sugerir ciertas etapas entre


las cuales las ms importantes son:
1.
2.
3.
4.
5.
6.
7.
8.

Planteamiento o formacin del problema


Formulacin de objetivos
Definicin de la entidad a estudiar o investiga
Formulacin de hiptesis
Mtodo de investigacin
Recoleccin de datos
Generalizacin o inferencia final
Presentacin del informe y poblacin

Al definir la entidad a estudiar se debe tener en cuenta:


a) Seleccionar las variables a medir, ya sean cuantitativas o cualitativas y
definirlas correctamente.
b) Si la variable es cuantitativa continua, establecer el tipo de
aproximacin.
Al definir la entidad en la etapa 5, si la investigacin es parcial establecer el
tamao de la muestra.
Variables:
X= peso en gramos
Y= densidad (g/cm 3)
Z= color
Entidad
(producto terminado)
1.5 REDONDEO
Redondear es una medida numrica es aproximarla. Siempre que se registran, en
este texto, resultados finales o intermediarios se tendrn las siguientes reglas:
a) Si el digito que queda a la derecha de la posicin del ltimo digito que se va
a registrar es menor que 5, se registrara el ultimo digito a retener tal como
esta.
b) Si el digito que queda a la derecha de la posicin del ltimo digito que se va
a registrar es mayor que 5, se le suma la unidad al ltimo digito que se va a
retener.
c) Si el digito que queda a la derecha de la posicin del ltimo digito que se va
a registrar es igual a 5 y el digito que se va a retener es par se deja igual, y
si es impar se aumenta sumndole 1.

Ejemplos:
Resultado final o intermedio
175.787
175.783
175.785
175.775

resultado registrado
175.79
175.78
175.78
175.78

1.6 DISTRIBUCIONES DE FRECUENCIA


Una distribucin de frecuencia o tabla de frecuencia es una disposicin tabular de
datos; los datos se distribuyen por clases o categoras con sus correspondientes
frecuencias. Para construir una distribucin de frecuencias, primero se divide el
rango de los datos en clases, si es posible, las clases deben tener el mismo ancho
con la finalidad de mejorar la informacin visual en la distribucin de frecuencias.
Para la seleccin del nmero de clases debe emplearse cierto criterio de modo
que pueda desarrollarse un diagrama razonable. El nmero de clases depende del
nmero de observaciones y de la dispersin de los datos. En general, una
distribucin de frecuencias que emplea muy pocas o demasiadas clases no
contiene mucha informacin, por lo general el numero de clases debe estar entre 5
y 20 clases.
El nmero de clases se puede obtener mediante cualquiera de las dos formulas
siguientes:
M = 1+ 3.322
M=

log 10 n

N= tamao de la muestra

M= Nmero de clases

INTERVALO DE CLASE Y LIMITES DE CLASE


El smbolo que define una clase se llama intervalo de clase, los nmeros extremos
de este intervalo se llaman, lmite inferior de clase y lmite superior de clase.

LICi

LSCi

LICi: lmite inferior de la clase i


LSCi: lmite superior de la clase i
El lmite inferior de la primera clase deber ser menor o igual que el dato menor
(LIC1 Xmin) y el lmite superior de la ultima debe cumplir la condicin LSC n Xmx.
El lmite superior de la primera clase se calcular con la siguiente frmula:
LS1 = LIC1 + (C Aprox)
LIC1: lmite inferior de la primera clase
LSC1: lmite superior de la primera clase
C: ancho de la clase
Aprox: aproximacin de los datos.
LIC i+ LSCi
Marca de clase:
2
La marca de clase es el punto medio de la clase, los datos que use encasillan una
clase determinada, para efectos prcticos miden su marca de clase.
1.7 REGLAS
FRECUENCIA

GENERALES

PARA

ELABORAR

DISTRIBUCIONES

DE

Los pasos para elaborar cuadros o tablas de frecuencia son:


1) Toma de datos
2) Encontrar el dato mayor y el menor con el fin de determinar el rango donde
los datos (cuando la variable es cuantitativa); R = Xmax Xmin
Xmax: dato mayor
R: rango
Xmin: dato menor
3) Establecer el nmero aproximado de categoras o clases (M) que tendr la
distribucin de frecuencia.
R
C=
4) Encontrar el tamao de la clase.
M
5) Construir una tabla de conteo de la siguiente forma:
a) El lmite inferior de la primera clase ser LIC 1 Xmin
b) El lmite superior de la primera clase ser: LSC 1 = LIC1 + (C aprox)
6) Los limites inferiores y superiores de las clases subsiguientes se obtienen
sumando C al lmite inferior o superior de la clase anterior.

LIC2 = LIC1 + C, LIC3 = LIC2 + C,., LICn = LICn-1 + C


LSC2 = LSC1 + C, LSC3 = LSC2 + C,.., LSCn = LSCn-1 + C
7) Debe cumplirse que LSCn Xmax, con el fin de que ningn dato se quede
fuera de la tabulacin.
8) Encasillar los datos examinando cada uno de ellos con el fin de conocer en
que categora debe colocarse.
En el formato general de la tabla de conteo es:
CLASE
LIC1 LSC1
LIC2 LSC2
:
:
:
LICn LSCn

CONTEO

FRECUENCIA ABSOLUTA

TOTAL
Tabla1-1
A continuacin se desarrolla una tabla de conteo para el anlisis de la
resistencia a la tensin, en libras por pulgada cuadrada (psi), de una muestra
de tamao de 80 (n=80), de una nueva aleacin de aluminio y litio, que est
siendo evaluada como posible material para la fabricacin de elementos
estructurales de aeronaves.
Resistencia a la tensin (psi) de una aleacin aluminio-litio:
105
221
97
154
245
228
163
131
207
180
134
178
218
157
199
151
160
175
196
201
Tabla 1-2

183
153
174
154
190
76
101
142
149
200

186
174
199
115
193
167
171
163
87
176

121
120
181
160
194
184
165
145
160
150

181
168
158
208
133
135
172
171
237
170

810
167
176
158
156
229
158
148
150
118

Siguiendo con las reglas para elaborar distribuciones de frecuencia:


1. Toma de datos

143
141
110
133
123
146
169
158
135
149

2. Encontrar el dato mayor y el menor, con el fin de determinar el Rango.


Cuando hay muchos datos podemos hacerlo buscando el dato mayor y el
menor en cada fila, y posteriormente, sealar el mayor y el menor de
nuestra seleccin
As:
Fila

Mayor

Menor

221

105

174

97

245

110

208

115

207

123

229

76

218

101

199

142

237

87

10

201

118

245

76

De esta manera podemos ver claramente que


Xmax = 245
Xmin = 76
Y con estos datos hallar el Rango, as:
R = Xmax Xmin = 245 76 = 169
3. Establecer un nmero aproximado de categoras o clases M:
n = 80, n representa el tamao de la muestra
M = 1 + 3,322 log n = 1 + 3,322 log 80 = 7,32
4. Encontrar el tamao de clase C:

C=

R 169
=
=23,09
M 7,32

5. Encontrar los lmites inferiores y superiores de la primera clase o categora:


Clase x

Conteo de frecuencia absoluta

LIC1 = Xmin = 76
LIC2 = LIC1 +(C-Aprox) = 76 + (23-1) = 98
6. Construir los lmites superior e inferior de las siguientes
clases:
LIC2= 76 + C = 76 + 23 = 99
LSC2= 98 + C = 98 + 23 = 121
Las dems clases se construyen siguiendo la frmula:
LICi= LICi - 1 + C
LSC2= LSCi 1 + C
7. La tabla de conteo quedar as:
Clases

Frecuencia Absoluta Fi

76 98

99 121

122 141

10

145 167

25

168 190

20

191 213

214 236

237 259

2
n=

Tabla 1-3

80

categoras y

1.7.1 DISTRIBUCIN DE FRECUENCIA ABSOLUTA,


FRECUENCIA ABSOLUTA, POLGONO DE FRECUENCIA

HISTOGRAMA DE

A partir de la tabla de conteo 1-3 construimos la distribucin de frecuencia


absoluta tomando de ella las clases y la columna de frecuencia absoluta:
Tensin (Psi)
76 98
99 121
122 141
145 167
168 190
191 213
214 236
237 259
Total

Nmero de unidades (Probetas)


3
7
10
25
20
9
4
2
80

Tabla 1-4
El histograma de frecuencia absoluta y el polgono de frecuencia son dos
representaciones grficas de la distribucin de frecuencias. Un histograma de
frecuencias consiste en un conjunto de rectngulos con:
a. Bases en el eje x horizontal, con centro en las marcas de clase y longitudes
iguales a los tamaos de clase
b. Alturas iguales a las frecuencias de clase
Un polgono de frecuencia es una lnea quebrada, se obtiene conectando los
puntos medios de las partes superiores de los rectngulos del histograma. Se
acostumbra aadir las longitudes AM y BN a las marcas de clase extrema
asociadas a una frecuencia cero. La suma de las reas de los rectngulos del
histograma es igual al rea total limitada por el polgono de frecuencia y el eje x.
Para construir el histograma y el polgono de frecuencia de la tabla 1-4 y procede
as:
a. Se encuentra la marca de clase 1
m 1=

76 +98
=87
2

b. Las marcas de clase siguientes se consiguen as: (siguiendo con el mismo


ejemplo)

mi=mi1+C
mi1=clase anterior
c=tama o de la clase

m2=m1+ C=87+23=110

Se construye una grfica X-Y; colocando en el eje X las marcas de clase y en


el eje Y las frecuencias absolutas de cada clase; continuando con el mismo
ejemplo tenemos:
30

25

20

Numero
64
87
de Probetas
110

15
133

156

179

202

225

248

271

10

Tensin (psi)

1.7.2 DISTRIBUCIONES DE FRECUENCIAS ABSOLUTAS


Las frecuencias relativas de una clase es su frecuencia absoluta dividida entre la
frecuencia total de todas las clases y se expresa generalmente como un
porcentaje. La suma de las frecuencias relativas de todas las clases da como
resultado 1 o 100% cuando se expresa en porcentaje.
Tensin (Psi)
76 98

Frecuencia relativa Fr %
3,75

99 121
122 141
145 167
168 190
191 213
214 236
237 259
Total

8,75
12,50
31,25
25,00
11,25
5
2,5
100,00

Tabla 1-5
La representacin grfica de la tabla 1-5 es un histograma y un polgono de
frecuencias relativas.
35
30
25
20
Frecuencia
64
87 Relativa
110 Porcentual
133
156
15

179

202

225

248

271

10
5
0

Tensin (psi)

1.7.3 DISTRIBUCIN DE FRECUENCIAS ACUMULADAS ABSOLUTAS Y OJIVA


La frecuencia total de todos los valores menores o iguales que el lmite superior de
una clase dada se llaman frecuencia acumulada; por ejemplo, la frecuencia
acumulada hasta la clase 122-144, siguiendo el ejemplo anterior, de la tabla 1-4 es
3+7+10 = 20, lo que significa que 20 probetas pueden resistir 144 psi de tensin o
menos.
Una tabla que presenta tales frecuencias acumuladas recibe el nombre de
distribucin de frecuencias acumuladas absoluta, o tabla de frecuencias
acumuladas.

Tensin (Psi)
98
121
144
167
190
213
236
259

Numero de Probetas
3
10
20
45
65
74
78
80

Tabla 1-6
Un grfico que recoge las frecuencias acumuladas por debajo de cualquiera de las
fronteras de clase superiores respecto de dicha frontera (lmite superior de clase)
se llama polgono de frecuencias acumuladas u ojiva; se acostumbra a iniciar la
grfica con el lmite superior de una clase que tiene frecuencia acumulada cero; si
existiera la clase 53-75 ; no existen probetas con resistencias menores o iguales a
75 psi, por lo tanto la frecuencia acumulada es cero, para 75 psi.
90
80
70
60
50
40
30
20
10
0
98

121

144

167

190

213

236

259

Figura 1-3
1.7.4 DISTRIBUCIN DE FECUENCIAS ACUMULADAS RELATIVAS Y OJIVA
La frecuencia acumulada relativa o frecuencia acumulada en porcentajes es la
frecuencia acumulada dividida por la frecuencia total. As por ejemplo las
tensiones (psi) menores o iguales que 167 psi (para el ejemplo anterior)
representan el 45/80 * 100% = 56,25%

Si se usan frecuencias acumuladas relativas en la tabla 1-6 y en la figura 1-3, la


distribucin resultante recibe el nombre de distribucin de frecuencias acumuladas
relativas y polgonos de frecuencias acumuladas relativas u ojiva de porcentajes,
respectivamente.
Tensiones (psi)
75
98
121
144
167
190
213
236
259

Porcentaje acumulado (%)


0
3,5
12,5
25
56,25
81,25
92,5
97,5
100

Tabla 1-7
120
100
80
60
40
20
0
75

98

121

144

167

190

213

236

259

Figura 1-4
1.8 MEDIA, MEDIANA, MODA Y OTRAS MEDIDAS DE LOCALIZACIN O
TENDENCIA CENTRAL
La presentacin tabular de los datos y las grficas de estas tablas pueden mejorar
la presentacin de los datos, las descripciones numricas tienen gran valor en el
anlisis de datos estadsticos, en esta seccin se presentan varias medidas
numricas importantes para describir las caractersticas de los datos.

Se llaman medidas de localizacin o tendencia central porque son el centro de un


conjunto de datos.
1.8.1 MEDIA
La medida ms comn de localizacin o centro de un grupo de datos es el
promedio aritmtico o media, ya que casi siempre se considera a los datos como
una muestra, la media aritmtica se conoce como media muestral.
Si las observaciones de una muestra de tamao n son X 1, X2, X3,, Xn, entonces
la media muestral es
n

xi

x 1 + x 2+ + x n i=1
=
n
n

Ejemplo 2. Encontrar la media muestral de la resistencia a la tensin (en Kgf/cm 2)


de 10 observaciones de un mortero de cemento portland.
Observaciones:
16.85, 16.40, 17.21, 16.35, 16.52, 17.04, 16.96, 17.15, 16.59, 16.57
=media=

167,64
2
=16,764 Kgs /cm
10

El valor de la media, , es ms preciso que la precisin asociada con cada


observacin, por esto se acostumbra calcular la media con un digito ms que los
utilizados en cada medicin de la muestra.
Si ordenamos las medidas de menor a mayor magnitud, y las indicamos como
puntos es un eje horizontal x calibrado, en este mismo eje determinamos el valor
de la media ( = 16,764 Kgs/cm 2) la representacin grfica es un diagrama de
puntos con _____:
Datos ordenados:
16,35
16,40
16,52
16,57
16,59

16,85
16,96
17,04
17,15
17,21

16,76
4
16,0

16,5

17,0

17,5

18,0

Ntese en la figura que la media muestral = 16,764, puede considerarse como


un punto de equilibrio. Esto significa, que si cada observacin individual
representa, por ejemplo, una libra de masa en esos puntos del eje horizontal, un
punto de apoyo localizado en equilibrara todo el sistema de pesos.
De otra forma la media es una medida que representa al subconjunto o muestra
observado.
Para los datos de resistencia de la aleacin de aluminio litio de la tabla, la media
muestral es
=

13013
=162.7 Lb / plg 2
80

Si se examina el histograma de la figura, se observa que la media muestral 162,7


psi es una valor tpico de la resistencia a la tensin, ya que este se presenta en
la parte media de los datos, donde se concentran las observaciones. Una
desventaja de la media como medida de tendencia central es que puede ser
influida muy fcilmente por un solo valor extremo y dar una idea distorsionada de
los datos; para entender lo anterior, supongamos que las observaciones de
muestra de tamao 7 ( n=7) son las siguientes:
1, 3, 4, 2, 7, 2450, 8
Luego la media es:
=

1+3+ 4+2+7 +2450+8


=353,57
7

En este caso, es evidente que la media muestral no dice mucho con respecto a la
tendencia central de la mayor parte de los datos.
Cuando se agrupan la media () se calcula mediante la siguiente formula
n

mifi

= i=1

mi = marca de clase de la clase i


fi = frecuencia de la clase i
Tambin es posible pensar en el clculo de la media para toda las observaciones
de una poblacin, este promedio se conoce media poblacional y se simboliza con
la letra griega (miu). Cuando existe un nmero finito de observacin (n) la media
es

xi

= i=1
n

En muchas aplicaciones prcticas de la estadstica a problema de la ingeniera, no


se conoce la media y es imposible (o poco prctico) examinar a todos los
miembros de una poblacin (n); en los captulos sobre inferencia estadstica se
presentan mtodos para hacer inferencias sobre la media poblacional, con base
en la media muestral, en ellos se emplea la media muestral ( ) como punto de
partida para estimar .

1.8.2 MEDIANA
La segunda medida de tendencia central estudiada es la media mediana. La
mediana es aquel valor que se encuentra en la mitad de una muestra o poblacin
cuyos valores estn ordenados en orden de magnitud; es decir arreglados los
valores del ms pequeo al ms grande o del ms grande al ms pequeo.
Sean X1, X2, , Xn los valores de una muestra acomodad en orden creciente de
magnitud; esto es X1 es la observacin, , X2 es la segunda observacin,, Xn es
la ms grande. Entonces, la mediana se define como el elemento que este en la
posicin n+1/2 si n es impar, o el promedio entre las observacin ubicadas en las
posiciones n/2 y n/2 +1si n es par. En trminos matemticos seria:

Xn+1/2

n
n
x + x +1
2
2
2

para n impar

para n par

Una ventaja de la mediana es que los valores extremos no tienen mucha influencia
sobre ella.
Ejemplo 3. Supongamos que las observaciones de una muestra son 1, 3, 4, 2, 7, 6
y8
La media muestral es:

1+3+ 4+2+7 +6+8


=4,43
7

La mediana ser:
Xn+1/2= X7+1/2= X4 = 4
La media muestral es 4.43, mientras que la mediana muestral es 4; ambas
cantidades proporcionan una medida razonable de la tendencia central de los
datos.
Ahora supngase que en los datos originales se cambia el 6 por 2450, al
ordenarlos quera la muestra asi:
1, 2, 3, 4, 7, 8, 2450
X1, X2, X3, X4, X5, X6, X7
La mediana sigue igual mediana=4, para estos datos la media es:
=

1+2+3+ 4+7 +8+2450


=353.57
7

La media muestral = 353.57 no dice mucho con respecto a la tendencia central


de los datos, la mediana sigue siendo 4, y esta es una medida de tendencia ms
significativa para la mayor parte de la observaciones.
Ejemplo3. Supongamos que las calificaciones de 10 alumnos son:
0, 91, 92, 93, 94, 95, 95, 96, 97, 98
X1, X2, X3, X4, X5, X6, X7, X8, X9, X10
N=10(par)

Xn/2 = X10/2 = X5= 94;

La mediana es =

La media es =

Xn/2 +1= X10/2 +1 = X6=95

X 5+ X 6 94+ 95
=
=94.5
2
2
0+91+92+93+ 94+ 95+ 95+96+ 97+98
=85.1
10

Si usted fuera el profesor de esta clase que medida de tendencia central


preferira informar como el comportamiento general de la clase: la mediana 94.5 o
la media 85.1?
1.8.3 LA MODA

La moda es la observacin que se presenta con mayor frecuencia en la muestra;


un grupo de datos puede no tener ninguna moda o tener ms de una.
Esto no ocurre con la media y la mediana, medidas que, para un conjunto de
datos, siempre existen y son nicas. La moda no es una medida muy utilizada.
Ejemplo 4 Encontrar para las siguientes muestras:
Muestra 1: 3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3, 1
Muestra 2: 3, 6, 9, 3, 5, 8, 3, 10, 4, 6, 3, 1, 6, 2, 5, 6
Solucin:
Si ordenamos la muestra 1 en orden de magnitud
1, 3, 3, 3, 3, 4, 5, 6, 6, 8, 9, 10
El dato que ms se repite es 3, ocurre 4 veces luego la moda = 3.0
Si ordenamos la muestra 2 en orden de magnitud
1, 2, 3, 3, 3, 3, 4, 5, 5, 6, 6, 6, 6, 9, 8, 10
Para la segunda muestra las modas son 3 y 6, ya que ambos valores se presentan
el mismo nmero de veces; cuatro y ningn otro lo hace con mayor frecuencia.
Este caso se dice que los datos son bimodales.
Tanto la mediana como la moda se pueden calcular para datos agrupados las
formulas son las siguientes:
n
fi
2
X =Mediana=LIR mediana+
C
fmediana

LIRmediana: Lmite inferior real de la clase mediana.


n: Tamao de la muestra.
fmediana: Frecuencia de la clase mediana.
fi: Frecuencia acumulada de las clases inferiores a la clase mediana.
C: Ancho de la clase de la mediana.

( 1+ 1 2 ) C

X =Moda=LIR modal+

LIRmodal: Lmite inferior real de la clase modal.


1: Exceso de la frecuencia modal sobre la clase inferior.
2: Exceso de la frecuencia modal sobre la clase superior inmediata.

Ejemplo 5

Partiendo de los datos agrupados de la muestra de tamao 80 (n=80), de la


aleacin Aluminio-Litio de la tabla 1-4.
Encontrar:
a) La media para datos agrupados.
b) La mediana para datos agrupados.
c) La moda para datos agrupados.
Solucin
Tensin (PSI)

Nmero
unidades
(Probetas)
3
7
10
25
20
9
4
2
80

76-98
99-121
122-144
145-167
168-190
191-213
214-236
237-259

de Frecuencia
Acumulada (fA)
3
10
20
45
65
74
78
80

Marca de clase
(mi)
87
110
133
156
179
202
225
248

mifi

a)

X = i=1

b)

n 80
= =40
2 2

X =144,5+

c)

13055
=163,1875 163,19
80

C=23

(4020)
23=162,90
25

X =144,5+

15
23=161,75
15+5

1.8.4. PERCENTILES Y CUARTILES


La mediana (ya sea de una poblacin o de una muestra) divide los datos en dos
(2) partes iguales. Tambin es posible dividir los datos en ms de dos partes.
Cuando se divide un conjunto ordenado de datos en cuatro (4) partes iguales, los

puntos de divisin se conocen como cuartiles. El primer cuartil o cuartil inferior,


que q1, es un valor que tiene aproximadamente la cuarta parte (25%) de las
observaciones por debajo de l, y el 75% restante, por encima de l. El segundo
cuartil, q2, tiene aproximadamente la mitad (50%) de las observaciones por debajo
de l. El segundo cuartil es exactamente igual a la mediana. El tercer cuartil o
cuartil superior, q3, tiene aproximadamente las tres cuartas partes (75%) de las
observaciones por debajo de l. Al igual que en el caso de la mediana.
Ejemplo 6
Partiendo de los datos agrupados de la muestra de tamao 80 (n=80), de la
aleacin Aluminio-Litio de la tabla 1-4. Encontrar los 4 cuartiles q 1, q3, y los
percentiles p50 y p80.
Tensin (PSI)
76-98
99-121
122-144
145-167
168-190
191-213
214-236
237-259
TOTAL

q1
q50
q3

Nmero de unidades
(Probetas)
3
7
10
25
20
9
4
2
80

Solucin:

( n4 =20)

a) Se busca en que clase o categora se ubica el primer cuarto

de

los datos, sumando las frecuencias absolutas desde la primera clase hasta
donde sea necesario. (3+7+10)=20, el cuartil se encuentra en la tercera
clase:
n
f
4
q 1=LIR 3+
C
fq 1

LIR 3=

122+121
=121.5
2
80
10)
(
4
q 1=121.5+
23
10

f=3+7=10

q1=144.5

fq 1=10
C=23

b) Se busca la clase donde se ubique los

3n
d
e los datos
4

3n
=3 ( 20 )=60
4

( 3+7+10+25+ 15 )=60

LIRs

168+167
=167,5
2

+
q3=LIRs

c)

( 34n f ) =167,5+ 6045 23=184,75


fq 3

20

Para encontrar los percentiles se divide los datos en anteriores partes

( 100n )

y se aplica el mismo procedimiento de los cuartiles.

P50=?
n
80
=
=0.80
100 100

50

( 100n )=50 ( 0.80 )=40

( 3+7+10+20 )=40

P50

50 n
f )
(
100
LIR 4 +
C
fP 50

P50 144.5+

LIR4

( 4020 )
23=162.9
25

145+144
=144.5
2

d) P80=?
80

( 100n )=80 ( 0.80)=64


+

P80=LIRs

LIRs

( 80100n f ) C=167.5+ 6445 23=189.35


fP 80

20

168+167
=167.5
2

1.9. MEDIDAS DE VARIABILIDAD


Una medida de tendencia central sola no proporciona generalmente una
descripcin satisfactoria de un conjunto de datos. Quienes estn interesados en
los datos desean con frecuencia tener tambin una medida de la manera en que
los valores individuales se desvan del promedio. A esta clase de medidas ser les
conoce como medidas de variabilidad. La variabilidad tiene como sinnimo el de
dispersin.
1.9.1. RANGO:
Una medida muy sencilla de variabilidad es el rango de la muestra, definido como
la diferencia entre la observacin ms grande y la ms pequea.
La frmula es:
R= XmaxXmin
Donde,
Xmax: Observacin ms grande
Xmin: Observacin ms pequea

El rango de una muestra es fcil de calcular, pero ste ignora toda la informacin
que hay en la muestra entre la observacin ms grande y la ms pequea. Por
ejemplo si tenemos las siguientes muestras:
Muestra 1 1, 3, 5, 8, 9 R1= 9-1=8
n=5 (Tamao de la muestra)
Muestra 2 1, 5, 5, 5, 9 R2= 9-1=8
Las dos muestras tienen el mismo rango, sin embargo, en la segunda muestra
solo existe variabilidad en los valores extremos, mientras que en la primera los
tres valores intermedios cambian de manera considerable y esto no capta el
rango R1.
Los valores extremos no son tan propensos a aparecer en las muestras pequeas
y si en las grandes, en consecuencia, muestras pequeas tienen a tener rangos
pequeos y las muestras grandes rangos grandes.
Para muestras pequeas (n10) la prdida de informacin no es tan seria; en
control de calidad estadsticos las muestras son de tamao cuatro o cinco, por lo
tanto se aconseja el rango como medida de variabilidad.
En general, lo que se desea es tener una medida de variabilidad que depende de
todas las observaciones y no de unas cuantas, como ocurre con el rango.
1.9.2. VARIANZA
Las limitaciones del rango se pueden evitar con otras dos medidas de
variabilidad conocidas como varianza y desviacin estndar.
La desviacin estndar es la raz cuadrada positiva de la varianza.
La varianza se puede calcular para la muestra o para toda la poblacin, cuando
esta es finita y est formada por N valores. Las formulas a usar son:
n

n
2

S=

( XiX )
i=1

i=1

( Xi )
i=1

(Varianza muestral para datos no agrupados)

( )

N Xi

Xi

i=1

n ( n1 )

N
2

n1

( )

n Xi

i=1

Xn

i=1

(Varianza

agrupados)

poblacional

para

datos

no

( miX )2

S 2= i=1

fi (Varianza muestral para datos agrupados)

n1

n mi2 fi
S 2=

i=1

mifi
i=1

(Varianza muestral para datos agrupados)

n ( n1 )

( mi )2 fi

2= i=1

N mi fi
i=1

(Varianza poblacional para datos agrupados)

mifi
i=1

(Varianza poblacional para datos agrupados)

Las unidades de medicin de la varianza son iguales al cuadrado de las unidades


con que se mide la variable. De esta manera, si x se mide en lbs, las unidades de
S

son lbs2. La desviacin estndar tiene la ventaja de medirse en las

unidades originales de la variable de inters, x.


Ejemplo 7.Dos mquinas en una lnea de produccin, producen el mismo artculo.
La produccin para cada una es de 100 unidades. Un inspector de control de
calidad desea conocer la variabilidad de cada mquina; para esto establece la
diferencia en centmetros entre el largo de la pieza producida, contra el largo de la
pieza prototipo, como variable de control.
Xi = Largo de la pieza prototipo largo de la pieza producida.
La mquina A dio los siguientes resultados:
mi
1
2
3

fi
30
40
30

mi2fi
30
160
270

mifi
30
80
90

100

460

200

La mquina B dio los siguientes resultados:


mi
0
1
2
3
4

mi2fi
0
10
120
270
160
560

fi
20
10
30
30
10
100

mifi
0
10
60
90
40
200

SOLUCIN
Si encontramos la media y la varianza de la mquina A.
k

mi fi

uA= i =1

1 ( 30 )+ 2 ( 40 ) +3(30)
=2 cm
100

N mi2 fi
i=1

A=

mifi
i=1

100 ( 460 )( 200 )


=
=0.6 cm2
2
( 100 )

Si encontramos la media y la varianza de la mquina B.


k

mi fi

uB= i=1

N
k

0 ( 20 ) +1 ( 10 )+2 ( 30 ) +3 ( 30 ) + 4(10)
=2 cm
100

N mi fi
2

B=

i=1

N2

( )
mifi

i=1

100 (560 )( 200 )2


=1.6 cm2
2
( 100 )

Para las dos mquinas las piezas tienen un promedio de 2 cm de diferencia por
debajo con respecto al prototipo, pero las mquina B exhibe una mayor
variabilidad.

B2>A2 = 1.6 cm2> 0.6 cm2


1.9.3 COEFICIENTE DE VARIACIN
En ocasiones es deseable expresar la variacin como una fraccin de la media.
Para hacer esto se utiliza una medida adimensional de variacin relativa,
denominada coeficiente de variacin muestral.
El coeficiente de variacin muestral es:
CV =

CV = u

El coeficiente de variacin es til cuando se compara la variabilidad de dos (2) o


ms conjuntos de datos que difieren de manera considerable en la magnitud de
las observaciones.
Ejemplo 8.Con u micrmetro, se realizan mediciones del dimetro (1) de una
tornillo, que tiene una media de 4.03 mm y una desviacin estndar de 0.012 mm;
con otro micrmetro se toman mediciones de la longitud (2) del tornillo, la media
de la longitud es de 1.76 pulg y una desviacin estndar de 0.0075 pulg.
Los coeficientes de variacin son:
0.012mm
4.03 mm

u
CV1=

CV2= u =

= 0.0030
0.0075 pulg
1.76 pulg = 0.0043

CV1<CV2
0.0030<0.0043
En consecuencia, las mediciones hechas con el primer micrmetro exhiben una
variabilidad relativamente menor que las efectuadas con el otro micrmetro.
1.9.4 MEDIDAS DE ASIMETRA Y APUNTAMIENTO
Los conceptos de asimetra (sesgo) y apuntamiento hacen referencia a la
comparacin obtenida (polgono de frecuencia) con los datos provenientes de la

muestra (n) y una curva terica o normal, observada en la mayora de los


fenmenos naturales, en especial cuando el nmero de observaciones es grande.
Una distribucin es simtrica cuando la media, la mediana y moda son iguales,
es decir, cuando su polgono de frecuencia tiene su curva simtrica o normal, en
este caso sus dos colas son iguales.

Pero si la distribucin unimodal tiene una cola ms larga hacia uno de sus lados,
se dice que es asimtrica o deforme. Si la deformacin o alargamiento de la cola
se presenta hacia valores ms grandes de la variable, es decir, hacia la derecha
se dir que la distribucin es asimtrica positiva, en caso contrario la asimetra
ser negativa.

1.9.4.1 SESGO
Se conoce como sesgo el grado de asimetra de una distribucin, es decir, cuanto
se aparta de la simetra.
La asimetra o sesgo que se representa por As es igual a:
As =

m3
S3
n

m3 =

( XiX )3
i=1

Momento 3 con respecto a la media, datos no agrupados.

m3 =

mi ( XiX )3

Momento 3 con respecto a la media, datos

i=1

agrupados.
La curva normal es el referente terico y no tiene sesgo (As=0); entonces el sesgo
de una distribucin puede ser:
As:

> 0 Asimtrica positiva.


= 0 Simtrica.
< 0 Asimtrica negativa.

1.9.4.2 APUNTAMIENTO
Es tambin conocido como curtosis y permite establece el grado de apuntamiento
o achatamiento de la curva, o polgono de frecuencia; la curva normal tiene Ap = 3;
la frmula es:
Ap = Apuntamiento
k

m4 =

Ap =

( XiX )4
i=1

n
m4
S4
k

m4 =

fi ( XiX )4
i=1

Ap = >3, =3, <3


Para el ejemplo de la aleacin aluminio-litio.
Tensin
PSI
76 98
99 121

Nmero de
probetas
(fi)
3
7

Frecuencia
absoluta
acumulada
3
10

Mi

fi ( miX )

87
110

-1326825.67
-1053387.14

fi ( miX )

101091152.78
5602961.83

122 144
145 167
168 190
191 213
214 236
237 259

m3 =

10
25
20
9
4
2

105077.01
80

20
45
65
74
78
80

133
156
179
202
225
248

= 1313.46

S = 1213.27

Sesgo =

S = 34.83

Curtosis =

m4 =
m3
S

m4
S

-275162.56
-9292.37
79036.12
526106.22
944574.51
1220031.90
105077.01

349017583.66
80

8307157.64
66812.17
1249561.04
20418182.46
58384150.52
103470905.21
349017583.66

= 4362719.80

1313.46
=0.03
34.833

4362719.800
=2.96
34.834

El sesgo para el ejemplo de la aleacin aluminio-litio nos indica que el polgono de


frecuencia es bastante simtrico con una ligera curva hacia la derecha y el
apuntamiento o curtosis es casi 3.

1.9.4.3 CONCEPTOS IMPORTANTES Y TERMINOLOGA


Estadstica
Estadstica descriptiva
Estadstica Inferencial
Variable
Variable aleatoria
Variable contina
Variable discreta
Variable cuantitativa
Variable cualitativa
Poblacin muestra
Distribucin de frecuencia absoluta
Distribucin de frecuencia acumulada absoluta
Distribucin de frecuencia acumulada relativa
Polgono de frecuencia
Media
Mediana

Moda
Varianza
Cuartiles
Percentiles
Coeficiente de variacin
Sesgo
Curtosis

CAPITULO 1: ESTADISTICA DESCRIPTIVA, INTRODUCCIN A LOS TERMINOS


BSICOS Y SUS TERMINOS DE RECOPILACIN

PRESENTADO POR:

PRESENTADO A:
HERNANDO OCHOA G.

UNIVERSIDAD DE CARTAGENA
FACULTAD DE INGENIERA
PROGRAMA DE INGENIERA DE SISTEMAS
PROBABILIDAD Y ESTADISTICA
Cartagena, 9 de Marzo de 2011