You are on page 1of 13

Act 8: Leccin evaluativa Unidad 2 Introduccin

LECCIN EVALUATIVA UNIDAD No. 2


Capitulo 4: Medidas De Dispersin Capitulo 5: Medidas Estasticas Bivariantes

Capitulo 6:Nmeros Indice En esta leccin evaluativa se revisan conceptos de la unidad 2 del curso Estadstica Descriptiva que el estudiante debi estudiar previamente. Encontrar sntesis de los conceptos ms importantes y seguidamente algunas preguntas relacionadas. Esta actividad es EVALUATIVA, por lo tanto recuerde que debe leer cuidadosamente y posteriormente responder preguntas para seguir adelante. Esta leccin tiene DOS (2) INTENTOS, una vez iniciada deber finalizarse. NO TIENE LIMITE DE TIEMPO. Animo y adelante con su proceso de aprendizaje.

Medidas de dispersin
La informacin que arrojan las medidas de tendencia central no siempre proporcionan conclusiones contundentes frente al conjunto de datos. El conjunto de datos, adems de tener una tendencia de agruparse hacia el centro, en ocasiones suelen estar bastante alejados de esa tendencia central. Medir esa variacin respecto a los promedios es un clculo importante en el tratamiento estadstico de datos, medidas a las que se les denomina de dispersin o de variacin. Entre las medidas de dispersin ms comunes estn:

Rango o recorrido Varianza Desviacin tpica o estndar Coeficiente de variacin Desviacin media Puntaje tpico o estandarizado

Varianza
Es una de las medidas ms usadas en estadstica, ella a su vez da origen a otra mucho ms significativa: la desviacin tpica o estndar. Se define como

la media aritmtica de los cuadrados de las desviaciones respecto a la media aritmtica. Se simboliza s2para la varianza muestral y ?2para la varianza poblacional. Para datos no agrupados:

Para datos agrupados:

La varianza indica la desviacin de los datos respecto a la media. Para comparar dos distribuciones, en cuanto a su variabilidad absoluta, se pueden utilizar sus varianzas de manera que el resultado indique cul de ellas es ms homognea o cul es ms heterognea.

Desviacin tpica o estndar


Esta medida se obtiene extrayendo la raz cuadrada de la varianza, tomando siempre el valor positivo. Se simboliza por s en la muestra y ? en la poblacin. Esta es la medida de dispersin ms conocida y ms utilizada en el anlisis de datos estadsticos. Para datos no agrupados:

Para datos agrupados:

Propiedades de la desviacin estndar


Es importante tener en cuenta las siguientes propiedades de la desviacin estndar:

La desviacin estndar es una medida de variacin de todos los valores con respecto a la media. El valor de la desviacin estndar siempre es positivo y slo es igual a cero cuando los valores de los datos son iguales. Si el valor de la desviacin estndar es muy grande, este indica mayor variacin en el grupo de datos. El valor de la desviacin estndar puede incrementarse drsticamente cuando se incluye uno o ms datos distantes. Las unidades de la desviacin estndar son las mismas de los datos originales (pulgadas, centmetros, etc.)

Se define como la media aritmtica de los cuadrados de las desviaciones respecto al pomedio.

Varianza Desviacin media Coeficiente de variacin Desviacin estndar Coeficiente de variacin


Las medidas de dispersin como rango, varianza y desviacin estndar medidas absolutas y se expresan en las mismas unidades con las que se mide la variable. Cuando se comparan dos o ms conjuntos de datos con unidades de medida de observacin diferentes, no es posible compararlas con estas medidas absolutas. Para efectuar comparaciones entre series de observaciones distintas, en estadstica se usa el coeficiente de variacin y as se puede determinar

cul serie tiene mayor o menor variabilidad relativa.

Cuando el coeficiente de variacin es muy alto se dice que la media aritmtica no es lo suficientemente representativa en la distribucin. Una de las siguientes medidas NO es medida de dispersin absoluta:

Varianza Coeficiente de variacin Rango Rango intercuartlico Medidas de asimetra


En cualquier distribucin el valor de la mediana se localiza entre la media y la moda. En una distribucin simtrica se tiene que:

En las distribuciones asimtricas la media se corre en el sentido del alargamiento o sesgo por efecto de las frecuencias y de los valores extremos de la variable; la mediana tambin se corre pero menos que la media ya que en ella slo influyen las frecuencias; en tanto que la moda no es influenciada ni por las frecuencias ni por los valores extremos. Los datos sesgados a la derecha (sesgo positivo) poseen una cola derecha ms larga y su mediana y media estn a la derecha de la moda. La distribucin es asimtrica positiva y:

Los datos sesgados a la izquierda (sesgo negativo) presentan una cola izquierda ms larga y su media y mediana se encuentran a la izquierda de la moda. Ser asimtrica negativa y:

Figura Distribuciones sesgadas (a) Sesgada a la derecha; (b) Sesgada a la izquierda; (c) Simtrica

Las asimetras positivas son las ms frecuentes que las sesgadas hacia la izquierda, porque con frecuencia es ms fcil obtener valores excepcionalmente grandes que valores excepcionalmente pequeos. Ejemplo de ello es la distribucin de valores en los consumos de servicios pblicos, las calificaciones en pruebas, los sueldos, etc.

Medidas de apuntamiento o curtosis


Las curvas de distribucin, comparadas con la curva de distribucin normal, pueden presentar diferentes grados de apuntamiento o altura de la cima de la curva. Esta agudeza en la cima se observa en la moda. Si la curva es ms plana que la normal se dice que la curva es platicrtica; si es ms aguda que la normal, recibe el nombre de apuntada o leptocrtica. Si la distribucin es normal, la curva se conoce tambin como mesocrtica. La curtosis es la medida de la altura de la curva y esta dada por:

Si Ap = 3 la distribucin es normal o mesocrtica. Si Ap > 3 la distribucin es apuntada o leptocrtica. Si Ap < 3 la distribucin es achatada o platicrtica.

Cuando en una distribucin, la moda es mayor que la mediana y esta mayor que la media, se puede decir que la distribucin es:

Simetrica Asimetrica Negativa Asimetrica Positiva Asimetrica Regresin y correlacin


En muchos casos se requiere conocer ms que el comportamiento de una sola variable, la relacin entre dos o ms variables. Muchos de estos comportamientos tienen una tendencia lineal, aunque hay muchos otros que lo hacen de forma curva, en este curso slo se trabajar sobre variables con correlacin lineal. Una distribucin bidimensional o bivariante puede representarse grficamente en un plano cartesiano, ubicando en el eje horizontal o abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los valores de la segunda variable, Y. De manera pues que se grafican tantas parejas ordenadas como observaciones hayan de las variables. A este conjunto de puntos o nube de puntos se le denomina diagrama de dispersin, dado que los puntos se ubican de forma dispersa en el plano cartesiano. En muchos casos el slo diagrama de dispersin indica una tendencia de agrupacin de los puntos, que puede ser lineal (hacia arriba o hacia abajo), exponencial, curvilnea o poligonal. Parte del anlisis estadstico que hace el investigador es determinar cul es la mejor lnea o curva que representa a ese conjunto de datos. El mejor ajuste se hace cuando se elabora bien la grfica, se conoce la distribucin y

se va adquiriendo experiencia en su clculo y determinacin.

Regresin lineal simple


La regresin lineal simple examina la relacin entre dos variables restringiendo una de ellas respecto a la otra, con el objeto de estudiar las variaciones de la primera cuando la otra permanece constante. La regresin es un mtodo que se emplea para pronosticar o predecir el valor de una variable en funcin de los valores dados de la otra (o de las otras, cuando se trabaja ms de dos variables). Se trata pues de una dependencia funcional entre las variables. Cuando se trata de dos variables, una (la X ) ser la variable independiente mientras que la otra (la Y ) ser la variable dependiente. Se habla as de una regresin de Y sobre (o en funcin de) X . La mejor lnea es aquella que hace mnima la suma de los cuadrados de las diferencias entre los puntos dados y los obtenidos mediante la lnea ajustada o estimada. Es por eso que a este mtodo tambin se le conoce como el mtodo de los mnimos cuadrados. La ecuacin de la recta estimada est dada por:

Donde: Variable dependiente (la que se va a predecir) a:Intercepto de la variable Y X: Variable independiente b: Pendiente de la recta En esta ecuacin hay dos valores desconocidas: ay b, que deben determinarse aplicando el criterio de los mnimos cuadrados, buscando as la mejor recta que se ajuste a los datos. Se tiene entonces:

Donde: b: Pendiente de la recta

a: Intercepto de la variable Y X: Valores de la variable independiente Y: Valores de la variable dependiente n: Tamao de la muestra

Correlacin
La correlacin entre dos variables busca determinar el grado de relacin que existe entre ellas dos. Ella se calcula con los coeficientes de correlacin. Los coeficientes de correlacin son nmeros que varan entre +1 y -1. Su magnitud indica el grado de asociacin entre las variables, si es 0 indica que no existe relacin alguna y los valores extremos +1 y -1 indican una correlacin perfecta positiva o negativa respectivamente. Se dice que existe una correlacin lineal positiva entre dos variables, si al aumentar o disminuir los valores de la variable independiente aumentan o disminuyen los de la variable dependiente. En un grfico de dispersin, la nube de puntos tiene forma ascendente y por tanto la recta que se ajusta tendr una pendiente positiva. En cambio, cuando al aumentar los valores de la variable independiente disminuyen los valores de la variable dependiente, o viceversa, se dice que la correlacin lineal es negativa. En este caso la nube de puntos descender de izquierda a derecha y la pendiente de la recta ajustada ser negativa. Figura Grficas de dispersin lineal (a) positiva; (b) negativa

(a) (b)

Coeficiente de correlacin
Para determinar el coeficiente de correlacin, es necesario conocer primero

el error estndar del estimado de la recta ajustada. Se trata pues de medir el grado de confiabilidad de la ecuacin de la recta estimada. El error estndar indicar la dispersin o la variabilidad de los valores observados alrededor de la lnea de regresin y se calcula a partir de la siguiente ecuacin:

Donde: Se: Error estndar del estimado Y: Valores de la variable dependiente X: Valores de la variable independiente n: Tamao de la muestra Una vez obtenido el error estndar del estimado, es necesario medir qu porcentaje de la informacin es recogida o explicada por el modelo de regresin escogido. Se trata pues, de determinar las variaciones de la variable dependiente mediante el coeficiente de determinacin (R 2 ) .

Donde: R2: Coeficiente de determinacin, 0 ? R2 ? 1 o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);}
<V:SHAPETYPE id="_x0000_t75" coordsize="21600,21600" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f" o:title=""/><!--[if <!--[endif]-->

o:spt="75" stroked="f"> !vml]-->

Se2: Varianza del error estimado S2y: Varianza de la variable dependiente Y . Cuando el R2es cercano a 1, se dice que el modelo de regresin lineal ajustado tiene un alto grado de confiabilidad, si al contrario este se acerca a 0 su grado de confiabilidad es muy bajo y se recomienda no utilizar el modelo

de regresin estimado. En la prctica es ms frecuente usar r, denominado el coeficiente de correlacin lineal. Siendo .

El coeficiente de correlacin lineal r, es tambin conocido como coeficiente de Pearson.

Una distribucin bidimensional o bivariante puede representarse grficamente en un plano cartesiano, ubicando en el eje horizontal o abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada, los valores de la segunda variable, Y . De manera pues que se grafican tantas parejas ordenadas como observaciones hayan de las variables. A este conjunto de puntos o nube de puntos se le denomina:

Diagrama de dispersin Diagrama cartesiano Diagrama de Venn Regresin lineal simple


El objeto del anlisis de regresin lineal simple es investigar:

La relacin entre dos variables dependientes cuantitativas y dos variables independientes cualitativas. La relacin entre dos variables cualitativas dependientes y una cuantitativa independiente. La relacin entre dos variables dependientes cuantitativas y una o ms variables independiente cualitativas. La relacin entre una variable dependiente cuantitativa y

una variable independiente cuantitativa.


El coeficiente de determinacin (R2):

Indica la dispersin o variabilidad de los valores observados alrededor de la lnea de regresin. Es el promedio de los cuadrados de las diferencias entre los valores estimados y la media. Es el grado de asociacin que existe entre las variables. Es el porcentaje de la informacin que es recogida o explicada por el modelo de regresin escogido.

Teniendo en cuenta el intervalo en el que se mueve la correlacin entre dos variables, cul de los siguientes valores para ese coeficiente NO puede ser posible?

r = 1.0 r = 0.8 r = -0.8 r = 2.0 Asi es!!! El intervalo en el que se mueve la correlacin entre dos variables es entre -1.0 y 1.0
Al estimar la relacin entre dos variables se encontr que el coeficiente de determinacin es igual a 0.93, esto se interpreta como:

Las variables tienen una relacin dbil.

Es mayor la variacin de la variable dependiente. El modelo explica en un 7% la variacin de los datos. El modelo explica en un 93% la variacin de los datos. NUMEROS INDICE
Los nmeros ndice son cifras relativas expresadas en trminos porcentuales, que sirven para indicar las variaciones que sufre una serie de valores respecto a una de ellas, tomada como punto de referencia y a la cual se le denomina base. Los nmeros ndices no son una medida cuantificable, se trata de un indicador de variacin en la variable observada. Son indicadores muy utilizados en el sector econmico por ejemplo, la variacin en los precios de un producto respecto al ao anterior, la cantidad de unidades vendidas de un producto respecto al mes anterior, el costo de produccin por unidad de este trimestre comparado con el inmediatamente anterior, etc. Si se trata de una serie corta, el perodo base seleccionado ser el primer valor de la serie; pero si la serie es extensa se debe seleccionar cono perodo base aquel que haya sido ms estable, es decir, que no presente cambios muy bruscos debido a factores internos y/o externos. Sin embargo, la seleccin de la serie base depender de los anlisis que el investigador requiera hacer para sus variables. Los nmeros ndice se pueden construir para una sola observacin o para un conjunto de ellas; en el primer caso, se hablar de ndices simples y para un conjunto de datos dados, se hablar de ndices compuestos. Estos ltimos se clasifican a su vez en agregativos y de promedios. Los promedios se clasifican en aritmticos, geomtricos, medianos, etc., pero en la prctica los ms utilizados son los aritmticos.

INDICES COMPUESTOS
Se construyen a partir de un grupo de series de tiempo, concernientes a varios artculos. Se trata de examinar el valor no de un artculo, sino de un grupo de ellos respecto a otro considerado de ms importancia. Los ndices compuestos determinan una condicin

particular, por ejemplo el costo de vida relativo a transporte, vivienda, alimentacin, etc. Se habla entonces de calcular un ndice agregado ponderado. Son muchas las frmulas para calcular ndices ponderados, los ms conocidos son los de Laspeyres, Paashe, Fisher, Keynes, Marshall, Edgeworth, Walsh, Drobisch y Sidgwick. Generalmente en ellos las ponderaciones son las cantidades o precios. Cuando se van a calcular los ndices de precios en un grupo de artculos, las ponderaciones son las cantidades, y en el clculo de los ndices de cantidad las ponderaciones son los precios.

Una de las siguientes respuestas NO interviene en la construccin de un nmero ndice simple de precios para un solo producto o variable:

Porcentaje de desvalorizacin. Precio del perodo base. Periodo base. Precio del perodo que se analiza.
El ndice de precios que se calcula como la relacin entre los precios actuales de una canasta de bienes o servicios del perodo, y los precios de esos mismos artculos o servicios en el periodo base, mantenindose constante como ponderacin las cantidades del perodo base se le denomina:

Indice de Fisher. Indice de Paashe. Indice de Keynes Indice de Laspeyres.