Professional Documents
Culture Documents
ESTADISTICA DESCRIPTIVA
Crditos:
Calidad Estadstica: Myriam Raquel Cifuentes R Luis Alejandro Montenegro R.
Divisin de Ediciones: Eduardo Alvarado Nez Cartula: Mario Guevara M. Correccin: Hilda Baquero, Miguel Acosta. Fotomecnica: Luis Alirio Rodriguez. Impresin: Juan Carlos Snchez.
INTRODUCCION
Que es la estadstica? Cmo funciona y de qu manera se involucra en nuestro contexto laboral?.
El DANE. como rector de la produccin estadistica del pais, se ve abocado a resolver problemas relacionados con todos los aspectos que involucra el desarrollo de una encuesta (investigacin), desde su planificacin, diseo y ejecucin hasta la produccin y anlisis de resultados; por esto, se hace necesario que todo fimcionario que est directa o indirectamente relacionado con los procesos de produccin de informacin, tenga
conocimiento sobre algunos mtodos y procedimientos tiles en el desarrollo de la actividad estadstica y es hacia all que se enfoca el presente documento.
Antes de definirla, es conveniente examinar algunos problemas que pudieran presentarse e ilustrar a travs de ellos los aspectos estadsticos esenciales.
Tmese por ejemplo, un comercio pequeno en el que cada da se debe decidir la cantidad de unidades de determinado artculo de venta perecedero que hay que ordenar. La decisin puede basarse en las ventas observadas de este artculo en el pasado, as como en los costos en que se incurre por quedar con un remanente almacenado al final del da, o no satisfacer completamente la demanda por haberse agotado el artculo en mencin.
Considrese por otro lado, los planes de inspeccin para los artculos comprados por una
planta manufacturera. Sobre la base de una mspeccion, cada lote de artculos recibido debe ser aceptado, si se considera que satisface los requerimientos establecidos por el contrato, o rechazado y devuelto al proveedor. El plan posiblemente consista en la inspeccin de solo 10% de artculos de cada lote, observando cuantos de estos estn defectuosos por no satisfacer los mencionados requerimientos. La decisin, entonces se
Supngase de igual manera, que se desea obtener informacin acerca del sector agrcola, con el fin de que los encargados de la planeacin y formulacin de polticas tengan una gua en la toma de decisiones; para ello se realiza una encuesta. La metodologa del estudio debe ser cientifica, las definiciones deben ser claras y no ambiguas, los procedimientos eficientes y libres de error, el personal debe ser experto o capacitado.
Dadas las restricciones interrelacionadas de personal, presupuesto y tiempo, el diseo de dicha encuesta se realiza por muestreo, esto es, el estudio no involucrar una completa enumeracin de la poblacin. El planteamiento anterior exige el uso adecuado de mtodos
estadsticos, que tienen que ver con la planificacin de la encuesta, el diseo del cuestionario, el diseo del plan de muestreo, diseo del mtodo de control y
Este documento, resume brevemente, algunos mtodos utilizados en la realizacin de anlisis descriptivo y puede servir de gua para quienes no poseen conocimiento acerca del tema.
CONTENIDO
Introduccin
Pag. No. 3 ,
15
Generalidades
Distribuciones unidimensionales de frecuencias
18
19
Medidas de variabilidad
Dispersin relativa 3
Eiercicios de aplicacin
Ejercicios propuestos
30
39
Bibliografia
42
GENERALIDADES
Estadistica: es la ciencia que crea, desarrolla y aplica mtodos que ayuden a tomar decisiones frente a la incertidumbre. La estadstica, es un campo del conocimiento humano que permite al investigador deducir y evaluar conclusiones acerca de una poblacin a partir de informacin proporcionada por una muestra. Ms especficamente, la estadstica trata de mtodos y tcnicas que pueden
usarse en:
1. Recoleccin y clasificacin de datos 2. Interpretacin y anlisis de datos 3. Deduccin y evaluacin de conclusiones y de su confiabilidad con base en datos muestrales. Inferencia estadstica: es un proceso de induccin lgica que partiendo de los datos de una parte establece un juicio sobre todo el conjunto, obtenindose una medida de la incertidumbre para la consecuencia que se infiere. Poblacin: es un conjunto completo de individuos, objetos que poseen alguna caracterstica comn observable. As, todos los establecimientos industriales de Colombia, constituyen una poblacin; cuando interese conocer por ejemplo, la tendencia
y estructura de la actividad industrial colombiana.
Los datos individuales de una poblacin se llaman unidades elementales. Definir una
ser de naturaleza cualitativa o cuantitativa. El resultado de observar una unidad elemental se llama observacin. Puesto que, en una investigacin, se hace una observacin de cada unidad elemental escogida, podemos considerar una, poblacin como la totalidad de todas las observaciones pertinentes que podran hacerse en un problema de decisiones dado.
La definicin de una poblacin y las caractersticas de sus unidades depende de la naturaleza del problema de decisiones que se plantea. Por lo tanto la poblacin est definida por: Unidades que la constituyen -(personas, hogares, establecimientos, etc.) Caractersticas que la definen (es decir las caractersticas que permiten identificarla).
Localizacin geogrfica (es decir en dnde estn ubicadas)
Perodo de referencia o tiempo bajo consideracin (ltimos meses, a partir de...) Es preciso distinguir entre poblacin objeto y poblacin sujeto; la primera, es aquella para la que se desea obtener la informacin, la segunda, es la poblacin encuestada - es la
poblacin realmente representada en la encuesta.
Ejemplo:
Poblacin sujeto: residentes de Cundinamarca excluyendo: poblacin institucionalizada, personas sin lugar de residencia fijo.
Encuesta sobre los graduados: Poblacin objeto: personas que cumplieron con todos los requisitos para graduarje de un
programa universitario, de enfermera u otro programa postsecundario durante 1996, excluyendo seminarios religiosos, escuelas militares y colegios empresariales.
Poblacin encuestada: la misma. En la realidad, la poblacin objeto y la poblacin encuestada pueden ser bastante diferentes. En muchos casos, se redefine la poblacin objeto para que sea la poblacin realmente encuestada; para hacerlo, hay que reconocer las diferencias. Las unidades estadsticas se clasifican como: Unidad de muestreoi: unidad seleccionada o a seleccionar Unidad de anlisis: unidad hacia la cual se hacen las inferencias Unidad informante: unidad que suministra la informacin Unidad de referencia: unidad acerca de la cual se obtiene la inforinacin Ejemplos: - Se desea conocer informacin trimestral sobre mercado laboral de personas mayores de 15 aos.
Unidad de muegreo: hogares Unidad de anlisis: personas econmicamente activas Unidad informante: personas adultas (>15 aos) pertenecientes al hogar Unidad de referencia: personas dentro del hogar.
- Se desea conocer la percepcin que tiene la poblacin de Santaf de Bogot con edades entre 15 y 45 aos en materia de educacin superior
Unidad de referencia: personas con edades entre 15 y 45 aos Cuando las caractersticas son cualitativas, las unidades elementales pueden ser clasificadas slo como posedoras o no poseedoras de cierta cualidad o propiedad. Las observaciones cualitativas de unidades elementales, llamadas variables categricas, a menudo pueden ser expresadas numricamente. Esto se hace contando las unidades elementales que tienen cierta propiedad. En el proceso de enumerar, se asigna 1 a un elemento que tiene el atributo, y 0 al que carece de ste; Al terminar la cuenta se obtiene el total sumando los unos tenindose entonces un resultado numrico. Esta expresin cuantitativa de datos cualitativos abre al tratamiento estadstico muchas reas inalcanzables por medicin directa. Al medir las unidades eletrientales se debe definir cuidadosamente la unidad elemental y su caracterstica observada. Aunque en muchos casos es sencillo y fcil identificar la unidad elemental en la poblacin, en otros resulta muy dificil, a menos que se defina con precisin la unidad elemental. Por ejemplo, en los problemas de toma de decisi nes referentes a situacin de una vivienda, a menudo se necesita conocer el nmero de habitaciones en una zona determinada. Pero, qu es una habitacin? Un cuarto de bao, una cocina, una terraza o un saln de entrada, se puede considerar como tal? Tatnhin se produce confusin cuando se carece de una definicin precisa de la caracterstica. La
ilustracin ms obvia es la edad. Cmo registrar la edad de una persona? En su ltimo
Se evita usar la palabra universo como sinnimo de poblacin. El universo es un conjunto hipottico infinito de elementos generado por un modelo terico, ejemplo: lanzar al aire una moneda un nmero infinito de veces.
caracterstica de una poblacin que sea medible, por ejemplo la media , la desviacin estndar o., la proporcin P, etc.
10
Encuesta: es la recoleccin de informacin acerca de caractersticas de inters de algunas o de todas las unidades de la poblacin, usando conceptos bien definidos, mtodos, procedimientos, y la compilacin de tal informacin en formatos de resumen tiles.
descriptiva; cuando el principal propsito es la verificacin de hiptesis estadsticas o la exploracin de relaciones entre las caractersticas con un enfoque ms explicativo que descriptivo, se dice que la encuesta es analtica.
Variable: caracterstica o fenmeno que puede tomar diferentes valores. ej: peso, estatura, nmero de hijos de las familias de un barrio, etc. Generalmente se representa con las letras X, Y.
x2 =25
xio=34
x3 = 27
xii = 21
x4 = 9
xi2 = 26
X5 = 32
xis = 34
X6 = 30
xi4= 30
x, = 32
xi,= 23
x, = 23
11
T = 20 + 25 + 27 + 19 +...+ 23
De manera ms general,
T = xi + x2 + x3 +...+ xis o. en notacin abreviada,
15
T=fx,
i=1
Poblacin es un conjunto completo de individuos, objetos, que poseen una caracterstica comn observable. Todos los ciudadanos en edad de votar de un pas, por ejemplo, constituyen una poblacin. Son ejemplos de poblaciones estadsticas:
- Supngase que se desea determinar el ingreso familiar anual medio de una comunidad de 10.000 familias. La poblacin consta entonces de 10.000 nmeros ( $5.000.000, $6.500.000, 9.000.000,.......) cada uno de los cuales representa el ingreso anual de una determinada familia. La unidad elemental es una familia en la comunidad y la caracterstica a medir, es su ingreso anual.
- Se desea determinar la edad media de los estudiantes de una universidad, cuyo total de alumnos matriculados es de 15.000. La ppblacin consta de 15000 nmeros (18, 23,. )
cada uno de los cuales indica la edad de un estudiante. La unidad elemental es un estudiante de dicha universidad y la caracterstica a medir, es su edad.
12
- Se pretende determinar el lugar de nacimiento de los empleados de una empresa que consta de 9.000 empleados. La poblacin consiste de 9.000 trminos (Santaf de Bogot, Cali, Ibagu,...) cada uno de los cuales describe un lugar de nacimiento. Una poblacin estadstica es entonces un conjunto de observaciones medidas o descritas, para cada una de sus unidades elementales. Las observaciones medibles se denominan observaciones cuantitativas (ingresos, edad, nmero de hijos). Las observaciones no medibles se denominan cualitativas (estado civil de una persona, marca de un automvil). Los valores asumidos por las observaciones cuantitativas se llaman valores de la variable. Las variables pueden clasificarse como discretas o continuas. Una variable discreta puede tomar solo un nmero limitado de valores en una escala de medida. De otra manera, puede tomar solo valores enteros ej: nmero de personas, tamao de una familia, etc. Una variable continua es aquella que puede tomar un nmero infinito de valores en una escala de medidas. Ejemplo: edad, peso, etc. Las observaciones cualitativas no pueden ser medidas; slo pueden ser descritas. Estas se llaman variables categricas ( estado civil: soltero, casado, viudo o divorciado).
Es importante enfatizar la diferencia entre una poblacin de variables cuantitativas y una
poblacin de variables categricas. En las primeras por ser medibles, puede calcularse por ejemplo, su media: ingreso familiar medio; en el caso de las segundas, se pueden calcular razones o porcentajes, ejemplo: porcentaje de artculos defectuosos en un determinado lote, etc. .
Debe destacarse que si bien la decisin de un problema dado puede depender, por ejemplo, del valor de la media aritmtica de una poblacin, este valor rara vez se calcula utilizando la informacin acerca de toda la poblacin, sino que habitualmente se estima a partir de una muestra seleccionada adecuadamente.
13
imposible tener informacin completa sobre ella; por lo dems, aun cuando esto fuera
posible, el gasto y el tiempo que habra que invertir en recolectar informacin pueden resultar muy altos. En tales casos, debe utilizarse proveniente de una muestra. Se ve as que el problema de decisin poblacin a partir de la informacin proporcionada por una muestra problema fundamental en estadstica. y organizar la la informacin acerca de una resulta ser un
El diseo estadstico de una investigacin: consiste en identificar o determinar el conjunto de tcnicas estadsticas que permitan la observacin y anlisis de la poblaci a objeto de estudio. Entre estos tenemos:
Censo: procedimiento mediante el cual se estudia la totalidad de la poblacin objetivc. Algunos ejemplos de encuestas censales: censo de poblacin y vivienda, censo minero nacional, censo de sacrificio de ganado, censo econmico.
Muestreo: aplicacin de una serie de tcnicas que permiten seleccionar una parte de 104 elementos de una,poblacin para someterlos a estudio.
Al realizar una investigacin por muestreo es preciso escoger el tipo de muestreo a utilizar teniendo en cuenta aspectos como el nivel de confianza y el error mximo permisible entre otros y de manera analoga determinar el tamao ptimo de muestra acorde con los objetivos determinados previamente. Algunos ejemplos de encuestas por muestreo: encuesta nacional de hogares, encuesta nacional de calidad de vida, encuesta nacional agropetuaria, muestra mensual manufacturera, encuesta de ingresos y gastos.
Registros administrativos: datos recogidos con un fin administrativo y que no pueden servir para anlisis estadsticos generales sino para aplicaciones particulares. Algunas fuentes de datos administrativos: estadsticas vitales (nacimientos y defunciones),salud (admisin en hospitales, enfermedades, costos), educacin (estudiantes matriculados costos), justicia (crmenes reportados, costos o montos), importaciones y exportaciones.
14
Recuerde que el objetivo de la estadstica es hacer inferencias acerca de un conjunto de elementos o unidades (poblacin) con base en la informacin contenida en una muestra.
Los mtodos usados para describir conjuntos de datos numricos pueden ser clasificados en dos tipos: grficos y numricos. A continuacin se presentan algunos de ellos.
forma resumida, la cual puede omitir algunos detalles pero en cambio puede revelar la naturaleza general de la informacin. Un resumen de tal informacin se denomina distribucin de frecuencias. Ejemplos de ellas son:
Actividad
No. de establecimientos
1.200 30.500
I 1.895
Industria Comercio
Servicios
TOTAL
43.595
15
Aos de estudio terminados y aprobados por un grupo de personas residentes en el barrio Galn, de Santaf de Bogot
Aos
3 4 7 8
9
No. de personas
18 20 12 21
14
TOTAL
85
14 - 19 20 - 24 25 - 55 > de 55 TOTAL
I
Los grupos o categorias que van de 14 - 19, 20 - 24, etc. . se llaman intervalos de clase. Los valores 14, 20,....etc. .se llaman lmites inferiores y 19. 24.. .. etc. .son lo limites superiores de los intervalos de clase.
Para variables continuas, deben observarse los siguientes aspectos relacionados con la construccin de los intervalos:
1. El nmero de intervalos depende del nmero de datos y de su dispersin. Si el nmero de intervalos es demasiado pequeiio pueden estarse ocultando caractersticas importantes de los datos en esta agrupacin, si se tienen demasiados intervalos se
16
pueden presentar muchos intervalos de clase vacos que resten significado a la distribucin. Entonces el numero de intervalos de clase ser determinado por el nmero de datos considerando tambin qu tan uniformes sean los datos. Una rmestra pequea requiere en general pocos intervalos de clase.
2. Como regla general para encontrar la longitud de los intervalos debe dividirse la diferencia de la mayor y la menor de las observaciones entre el nmero de intervalos de clase. modificando este cociente para tener intervalos de clase de longitud conveniente. cercana al cociente obtenido. Todas las clases deben tener la misma longitud, con posible excepcin del primer y ltimo intervalo; esto con el fin de permitir uniformidad en las comparaciones de frecuencias de clase.
3. Se debe comenzar por el primer intervalo, estando seguro de que incluye a la minima de las observaciones. Se aaden los dems sumando la amplitud escogida.
4. El punto medio (marca de clase) de un intervalo de clase, se obtiene sumando los limites inferior y superior de la clase y dividiendo por dos.
5. La tabla de frecuencias indica la distribucin de las frecuencias de los valores de la variable X dentro de varias clases. El trmino distribucion de frecuencias se abrevia
normalmente como distribucin: por ejemplo, se dice distribucion de consumidores por niveles de ingreso, distribucin de calificaciones, etc .
REPRESENTACION GRAFlCA
La representacin grfica de una tabla de frecuencias da una informacin concisa y clara acerca de una distribucin de frecuencias. Veremos dos tipos de representaciones grficas: histogramas y polgonos de frecuencias.
17
HISTOGRAMA Es un grfico de barras,que se construye llevando sobre las abscisas los lmites reales de clase para el caso continuo, o los valores de la variable en el caso discreto y sobre las ordenadas las frecuencias observadas, para ambos casos..Se emplea especialmente cuando se desea observar el comportamiento de la variable (identificando puntos de mayor o menor frecuencia) o cuando se desea comparar dos variables. Ver ejemplo, pg. 33 POLIGONO DE FRECUENCIAS Es un grfico de lnea, que se construye llevando sobre el eje de las abscisas las marcas de clase y sobre las ordenadas las frecuencias observadas. Uniendo los puntos resultantes y cerrndolo en la marca de clase del intervalo anterior al primero y posterior al ltimo. Se
utiliza preferencialmente cuando se desea comparar dos o ms variables.
I
Un caso particular, es el polgono de frecuencias acumuladas u ojiva, en el cual se lleva sobre la abscisas los lmites reales de clase y sobre las ordenadas las frecuencias acumuladas (N, o H, ). Ver ejemplo, pg. 33
Las limitaciones pueden superarse con el uso, de inedidas descriptivas numricas. Con base en los datos muestrales es posible calcular un conjuitto de nmeros que proporcionen una buena imagen de la distribucin de frecuencias de la poblacin y que resulte til para hacer inferencias acerca de las caractersticas de la poblacin.
18
poblacin se denominan como ya se dijo anteriormente parmetros y aquellas calculadas a partir de una muestra se llaman estadsticos. MEDIDAS DE LOCALIZACION (POSICION)
Objetivo: establecer unas medidas que caractericen lo mejor posible una serie de datos. Pueden ser de posicin central o no; las medidas de posicin central son: la media aritmtica, la mediana y la moda. Otras medidas de posicin son los percentiles.
Usos: en muchos problemas estadsticos la eleccin entre media, mediana y moda puede no ser obvia; por lo tanto, pueden ser de utilidad algunos comentarios generales acerca de las ventajas y desventajas de cada una de las tres medidas. Primero, debe destacarse que la media aritmtica es la medida ms conocida y mejor comprendida por el pblico en general. Segundo, la media aritmtica permite en general, en forma mucho ms expedita, el anlisis estadstico posterior; adems, se puede obtener an en el caso de no conocer los valores individuales de la serie, por ejemplo: si 10 familias consumen 20 litros de leche, el promedio aritmtico ser de 2 litros por familia. Por estas razones, puede considerarse la media aritmtica o el promedio la medida mas comnmente usada
Sin embargo, la media aritmtica tiene la desventaja de ser muy afectada por valores extremos, lo cual no ocurre para la mediana y la moda. Por lo tanto, cada vez que existen valores extremos, la mediana y la moda son preferidas a la media aritmtica. Ingreso familiar en una ciudad, salarios por hora en una industria, ventas al detal en los almacenes de una ciudad, son ejemplos de este caso.
La mediana: es una medida de localizacin adecuada cuando se tiene una distribucin de frecuencias asimtrica y que presenta valores extremos. Hay situaciones en que la nica medida de posicin central que puede calcularse es la mediana, tal como sucede en el caso de una distribucin cuyos intervalos extremos no estn definidos.
19
La moda: se caracteriza por la facilidad de su clculo y su aplicacin tanto a datos cuantitativos como a los cualitativos por ejemplo, se desea determinar la talla de camisa ms usada por los hombres, la preferencia de las amas de casa por un determinado tipo de jabn, el nmero de pasajeros que usan el bus ejecutivo, etc. . Puede encontrarse que existen dos modas, una por la maana alrededor de las ocho y otra por la tarde alrededor de las 7. La distribucin es pues, bimodal. Tanto la media como la mediana tienen un inters especial en la representacin de una distribucin. El inters radica en que caracterizan a la distribucin. La moda, como se ha visto en los ejemplos anteriores, tiene inters por s misma por ser el valor ms tpico o predominante, de una distribucin. Las ecuaciones comnmente usadas para el clculo de las medidas de localizacin son las siguientes: Para datos brutos
n
Media aritmtica:
i =1
Mediana (Me):
n impar es el valor central de la variable ordenada. n par es el promedio de los valores centrales de la variable ordenada.
20
yg. n,
Media aritmtica
Caso b
Me =
Yi - i +Yj
Variable continua
Caso a cuando Nj., = n/2 la mediana se obtiene mediante la frmula: Me = Y'.1 Caso b cuando Nj., < n/2 la mediana se obtiene mediante la frmula
Me = Y')., + C
* ''
1. Obtener las frecuencias absolutas acumuladas. 2. Buscar la mitad de las observaciones, por medio de n/2
3. Localizar el resultado anterior n/2 en la columna de las frecuencias absolutas acumuladas; si no aparece, al valor inmediatamente anterior se le denomina Ng_, y al inmediatamente superior se le denomina Nj 4. Si N _i es menor que n/2, se dice entonces que la mediana es igual a Y;
21
Moda Mo En el caso de variable continua corresponde a la marca de clase del intervalo que presenta la mayor frecuencia; en el caso discreto simplemente es el valor de la
X=
X, + w2X2+...+wkX,
w, + w +...+wk
Ejemplo:
Si un examen final de curso se valora como tres veces los exmenes parciales y un estudiante tiene una nota de examen final de 8 y notas de exmenes parciales de 7 y 9, su nota final ser:
- 1(7) + 1(9) + 3(8) X = =8 1+1+3
Propiedades de la media aritmtica
Ejemplo:
XI
8 3
5
(X, - T )
0.4 -4.6
-2.6
12 10 E
4.4 2.4 0
22
X = 38/5 = 7.6
Si f, nmeros tienen media mi, f2 tienen media m2, f3 nmeros tienen media m3,...,fx tienen media me entonces la media de todos los nmeros es
- _ f m, + f2m,+...+fem, X . f + f, +...+f,
Ejercicio
En una compaa con 80 empleados, 60 ganan 9.000 pesos por hora y 20 ganan 11.000 por hora.
b) Seria la respuesta de a) la misma si los 60 empleados ganaran un salario medio por hora de 9.000 pesos y los 20 empleados ganaran un salario medio por hora de 11.000? Probar la respuesta c) Es el salario medio por hora representativo?
NOTA: en general, la media de una muestra es igual a la media ponderada de las submuestras, tomndose como ponderacin los tamaos de esas submuestras
n=20
ni=12
Y, =1.333
i=2.15
n2= 8
Y, =3.375
23
- _ X,n, + Xn A -
y +Y2n2
I; = 16/12 =1.333
Y, = 27/8 =3.375
- 1,n, + (n Y = n, + n
La media aritmtica de una constante por una variable es igual al producto de la constante por la media aritmtica de la variable
M(KY) = kY
La media aritmtica de una constante ms una variable, es igual a la constante ms la media aritmtica de la variable M(Yi+K) = Y+K
24
La media de la suma de dos variables, es igual a la suma de las medias de dichas variables ; esta propiedad puede extenderse a las diferencias entre variables
En una variable discreta el resultado obtenido al aplicar la media aritmtica debe ser el mismo, cualquiera que sea el mtodo, tanto para datos agrupados como para no agrupados En la variable continua, el resultado obtenido al aplicar la frmula para datos no agrupados difiere del resultado obtenido aplicando la frmula para datos agrupados, debido a la prdida de informacin primero por agmparse los datos en intervalos y segundo por calcularse la media utilizando las marcas de clase.
La desviacin estndar, en un sentido amplio, mide la desviacin promedio de cada valor de la variable respecto de la media aritmtica. Esto es, la desviacin estndar es la raiz cuadrada del promedio de los cuadrados de las diferencias entre los valores de la variable y la media aritmtica. Tiene como ventaja que permite un mejor desarrollo para un anlisis estadstico posterior.
25
La razn por la que se prefiere la desviacin tpica a otras medidas radica en sus
propiedades matemticas. A continuacin se define el trmino desviacin, despus el concepto de varianza y, por ltimo, la desviacin tpica o estndar. Por desviacin se entiende la diferencia entre un valor individual xi y la media (x, - x). La varianza de una poblacin de N observaciones se define como el promedio del
cuadrado de las desviaciones con respecto a su media . La varianza de la poblacin se denota por o 2 y est dada por la frmula :
n- l
i=l
La desviacin estndar de un conjunto de n observaciones xi, x2, X3, ..., Xn, CS igua 8 8
raz cuadrada positiva de la varianza.
La varianza se mide en trminos del cuadrado de las unidades originales. Si las observaciones estn medidas en centmetros la varianza est dada en centimetros cuadrados. Al tomar la raz cuadrada de la varianza, se obtiene la desviacin estndar, cn lo que se regresa a las unidades originales de las observaciones.
26
DISPERSION RELATIVA Se utiliza cuando se quiere comparar la variabilidad entre dos o ms conjuntos de datos. Esto puede hacerse fcilmente con sus respectivas varianzas o desviaciones estndar cuando las variables se dan en las mismas unidades y cuando sus medias son aproximadamente iguales. Cuando faltan estas condiciones, puede usarse alguna medida relativa de dispersin. Una medida relativa de variabilidad frecuentemente usada es el coeficiente de variacin, CV, que es simplemente la razn de la desviacin estndar a la media y est generalmente expresado como un porcentaje.
El coeficiente de variacin es independiente de las unidades utilizadas, por esta razn es
til para comparar distribuciones donde las unidades pueden ser diferentes.
CV = X
Ejemplo: considrese que un grupo de estudiantes realiza dos pruebas. La primera resulta con una media de 60 puntos, una desviacin tpica de 6 puntos y un mximo de 100 puntos. La segunda tiene una media de 700 puntos y una desviacin tpica de 7 puntos con un mximo de 1.000 puntos. Cul de las dos pruebas tiene una variacin mayor ?
27
Prueba
Media
Desviacin
Desde un punto de vista absoluto, se observa que los 7 puntos corresponden a una variacin mayor que la de 6 puntos, pero desde un punto de vista relativo, mediante el S
(T = - tenemos:
X
Como se ve, la dispersin relativa de la segunda prueba es 1/10 de la primera. Otra aplicacin del CV es su empleo para comprobar resultados experimentales y para la estimacin de la desviacin tpica. Supongamos que un cientfico ha obtenido los siguientes datos referentes a los pesos de elefantes y ratas:
Animales
Elefantes Ratas
Claramente se observa que los pesos de los elefantes varan mucho ms que los pesos de las ratas. Sin embargo, los pesos de los elefantes pueden variar menos como un porcentaje
de su propia media que los pesos de las ratas. Si calculamos sus respectivos coeficientes de variacin tenemos:
I
28
Asi. , emos que la variabilidad de los pesos de las ratas es casi tres veces mayor, sobre una base relativa. que la variabilidad de los pesos de los elefantes. La desviacin estndar de los primeros es 15.2% de su media, mientras que la de los ltimos slo es 5.4% de su
media
Utros ejemplos del empleo del CV pueden encontrarse en el muestreo donde se utiliza para comprobar el grado de confianza de una varianza estimada.
29
EJERCICIOS DE APLICACION 1. Leer el siguiente texto: " Una vez recolectados los datos en forma ordenada, es necesario presentarlos en forma tal que se facilite su comprension y su posterior anlisis y utilizacin. Para ello se ordenan en cuadros numricos y luego se representan en grficos para variable discreta mediante diagramas de frecuencias tanto para absolutas o relativas." a) Construir una tabla de frecuencias absolutas, segn el nmero de letras que componen cada palabra ( rr y 11, debe considerarse una sola letra). b) Considerando el nmero de letras por palabra, qu valor tienen: x4, x27. XI2, X34, X2 c) Calcular las frecuencias relativas, relativas acumuladas y absolutas acumuladas. d) Puede ocurrir que h4 > h, e) Graficar: n, H,
Desarrollo
(en general)
Que H4 < Hy ?
xo =12 x =2
xis =5
x: =2 x2 =9
x2,=8
x,, =7 x,2 =9
x,,=1
x41 x42
x43
x, =3
x, =5
x, 4 =3
x, =3
x24= 1
x2, =11
X34 =5
x3s =2
x44 =2
x45
x,=2 x,=5 x, =8 xs =2
x, =9
30
Tabla de frecuencias
Y,
1 2 3 4 5 7 8 9 11 12 1
n,
4 11 6 3 5 2 7 6 4 2 60
4
0.08 0.22 0.12 0.06 0.1 0.04 0.14 0.12 0.08 0.04 1.00
N,
4 15 21 24 29 31 38 44 48 50
H,
0.08 0.30 0.42 0.48 0.58 0.62 0.76 0.88 0.96 1.00
Puede ocurrir que h4 > hy ? En general puede suceder que h4 > h, dependiendo de la frecuencia de ocurrencia de cada uno de los valores de la variable. H4 < H, ? siempre ocurrir porque son frecuencias acumuladas.
31
n.
123456789101112
1
H.I
123456789101112Y
32
2. Las estaturas (en centmetros ) de un grupo de personas asistentes a una competencia deportiva en la ciudad de Cali, son las siguientes: 153 138 152 145 152 123 128 128 124 136 129 134 146 132 160 132 148 143 138 159 147 125 138 144 157 138 139 138 141 150 137 146 122 137 160 134 145 146 146 142 131 148 137 138 148 147 135 151 146 130
a) Agrupar los datos anteriores con una amplitud de intervalo i= 5 b) Interpretar n2, N,, H4, h2 c) Qu porcentaje de personas tienen estatura promedio de 142 centmetros? d) Cuntas personas tienen estatura promedio de 152 centmetros o ms? e) Construir el polgono de frecuencias absolutas. f) Construir el histograma de frecuencias relativas
g) Construir la ojiva de frecuencias absolutas
33
Desarrollo
Y,
127 132 137 142 147 152 157 162 I
Clases
ni
3
h,
05
N,
3
H
JE
TTZf20TT4
125 -129 4 0.08 7 0.14 130 -134 6 0.12 13 0.26 135 -139 12 0.24 25 0.50 140 -144 4 0.08 29 0.58 145 -149 12 0.24 41 0.82 150 -154 5 0.10 46 0.92 155 -159 2 0.04 48 0.96 160 -164 2 0.04 50 1.00 50 1.00
H, = 0 50 el 50% de las personas tienen estatura promedio de 137 kilogramos o menos h = 0 08 el 8% de las personas tienen estatura promedio de 127 kilogramos El porcentaje de persona con estatura promedio de 142 centimetros es 8% ( hs )
34
n.I
00
h.
35
as
30
25
Lmites reales
3. La siguiente distribucin corresponde al nmero de hijos de 20 familias observadas. Calcular la media aritmtica, la mediana, la moda y la desviacin estndar.
Yi
U 2 4 6 7 E
ni
A 3 7 4 4 20
Yi*ni
0 6 28 24 28
Ni
A 5 12 16 20
Yii n,
U 12 112 144 196 464
36
4. La siguiente tabla muestra las edades de 50 personas asistentes a un sentinario de Gestin empresarial el la ciudad de Neiva
Clases
2b -29
n,
6
Y,*n,
216
N,
6
YRn
6832
Y,
2/
30 35 40 45 50
23 10 5 3 1
31 41 46 49 50
32 37 42 47 52
Para dicha distribucin calcular la media, la mediana, la moda y la desviacin estndar. - 1725 Media aritmtica: X - 34.5 50 Mediana (Me) = 29.5 +
30 + 34
23 - 8 23 = 29.5+0'4 = 30.24
Moda (Mo) -
- 32
S =
434.251 = 5.85
37
Ocupacin
Recepcionista Mecangrafa Secretaria Aux. contabilidad Tcnicos electricistas. Tecnicos. mecnicos
No. de empleados 2 12 8 10 24 14
Sueldo S
170.000 200.000 280.000 465.000 520.000 590.000
Y,
17 200 280 465
n,
2 12 8 10
Y,n,
34 2400 2240 4650
N,
2 14 22 32
520 590
I
24 14
70
12480 8260
30064
56 70
N N
Media aritmtica: X
303~0000 0
43385 .14
38
EJERCICIOS PROPUESTOS
1 La siguiente informacin corresponde a la ENH etapa 96, para la variable edad del personal
ocupado :
Y, 17 32 47 62 77 92
Clases 10 - 24 25 - 39 40 - 54 55 - 69 70 - 84 85 - 99 TOTAL
h,
N,
0.196 7.164 0.455 23.830 0.075 36.172 0.011 36.578 0.000 36.596
39
2
Distribucin del personal ocupado ENH- etapa 96, por estado civil
H, 0.186
0.582 0.676 1.000
34526 60190 55622 63500 13390 6500 54168 63204 56230 32112
36878 62000 43494 62400 41628 48076 47630 60000 43976 17702
34094 21526 58988 45138 38786 37414 26554 62300 47308 61466
37718 57718 38580 6980 34712 62640 44070 38900 58546 62834
42612 5150 34556 32872 53044 10542 9048 46498 63670 56560
40
b ) Produccin mediana
c) Desviacion estandar de la produccion
d) Coeficiente de variacin
4 Contestar los siguientes puntos, sealando con Vo F segun sea cierto o falso a) Al hacer una grfica, la variable a estudiar va en el eje de las abcisas y las frecuencias en la ordenada ( ) b) Para calcular las marcas de clase, se suma el limite inferior al superior del intervalo y se divide entre dos ( )
c) El poligono de frecuencias es un grafico de barras d) El numero de accidentes segun sus causas es una variable discreta e) i.a suma de las frecuencias absolutas es igual a 1 f) H5= 1 1 H4=080 h5=030 ( ( ( ( ( ) ) ) ) )
)
h) En una serie sencilla cuando n no es par, la mediana es igual al valor del dato central (
il Si cierta distribucin tiene una varianza igual a 144 y otra una desviacion estandar igual a l l, puede afirmarse que la primera tiene mayor dispersion ( )
41
BIBLIOGRAFIA
MENDENHALL, William y REINMUTH, James E. Estadstica para administracin y economa. Iberoamrica, 3 edicin. ZUWAYLIF, F. (1977). estadstica general aplicada. Fondo Educativo Interamericano. HABER. Audrey y RUNYON, Richard. (1973). Estadstica general. Fondo Eduoativo Interamericano.S.A. YAMANE, Taro. Estadstica. Programas editoriales.
KISILI, Leslie. (1979). Muestreo de encuestas. Trillas, primera edicin en espaol.
42