You are on page 1of 41

Programa de Teleformacin en Regulacin de Servicios Pblicos 2008

Mdulos para Reguladores de las Amricas

ADERASA-CEER/UADE-UTN

Unidad 1 Elementos de estadstica descriptiva e inferencia estadstica. Estimacin lineal, caso general.

00 0

ndice 1. Una primera aproximacin al Benchmarking en Regulacin. 1.1. El problema bsico de la informacin asimtrica. 1.2. Esencia del Benchmarking y la Competencia por Comparacin. 1.3. La informacin en Benchmarking.. 2. Introduccin a la estadstica en Benchmarking.. 2.1. Aspectos conceptuales 2.2. Introduccin a la estadstica con Excel. 3. Bibliografa Sugerida.

4 8 10 10 20 40

El objetivo principal de esta Unidad es presentar una sinttica resea de los conceptos relativos a benchmarking y mostrar elementos bsicos estadsticos para el procesamiento y la presentacin de datos numricos.

1. Una primera aproximacin al Benchmarking en Regulacin

1.1. El Problema Bsico de la Informacin Asimtrica


En la regulacin basada en incentivos existen al menos cuatro objetivos bsicos: 1. Crear fuertes incentivos a la minimizacin de costos, 2. Promover una inversin en capital eficiente, 3. Asegurar el recupero de los costos razonables de las empresas y un retorno justo sobre la inversin, e 4. Incentivar la revelacin de informacin para mitigar la asimetra de informacin entre regulado y regulador. La asimetra de informacin entre el regulador y la empresa acta en desmedro de los consumidores. Los operadores privados controlan la mayor parte de la informacin especfica necesaria a los fines de la regulacin, y tienen poco inters en diseminarla voluntariamente, a menos que tengan un incentivo a hacerlo. Muchos reguladores han intentado exigir la publicacin de informacin. Varios han recurrido tambin a audiencias pblicas para promover debates pblicos sobre la informacin relevante.

Los resultados de estas experiencias en trminos de reduccin de la asimetra de informacin entre reguladores y operadores no han sido de lo ms alentadores, y ms de una dcada de experiencia en Latinoamrica muestra que el monitoreo del desempeo de los operadores monoplicos privados ha probado ser la parte ms difcil de los procesos de reforma de los sectores de infraestructura encarados en la regin. Los reguladores pueden remediar este problema de asimetra (al menos en parte) recurriendo a mejores fuentes de informacin sobre el potencial productivo de la empresa regulada. La importancia de contar con estimaciones confiables de este potencial productivo ha sido enfatizada por la discusin sobre cmo se determinan y revisan los precios mximos. Estos se determinan de modo de permitirle a un operador eficiente cubrir todos los costos econmicos de prestacin del servicio a lo largo o al final del perodo tarifario. Si el regulador sobreestima el nivel eficiente de costos, la empresa puede reducir sus costos al nivel eficiente y recibir as beneficios extraordinarios dentro del perodo tarifario. Tambin puede disimular todo o parte de su potencial productivo, de modo de obtener mayores precios en la siguiente revisin tarifaria. En la primera opcin, el nivel eficiente de los costos es rpidamente revelado, y el regulador cuenta as con una base ms firme para determinar los precios en la siguiente revisin. En la segunda, las ineficiencias pueden mantenerse por largos perodos de tiempo. La comparacin de la eficiencia relativa de varios monopolios regionales parece ser una herramienta potencialmente valiosa para reducir la asimetra de informacin inherente a la relacin regulador-empresa. Esta realidad ha sido reconocida en muchos de los procesos de reforma de los sectores de infraestructura en Amrica Latina. Los beneficios potenciales de medidas comparativas de eficiencia tambin han sido explcitamente reconocidos por ms de 15 pases de la OCDE en los que se implement una similar separacin horizontal de las empresas. Australia y el Reino Unido son los casos testigo de las ganancias regulatorias potenciales provenientes de la aplicacin del benchmarking en la mayor parte de los sectores de infraestructura.

1.2 Esencia del Benchmarking y la Competencia por Comparacin

Para ilustrar el mecanismo de competencia por comparacin, recurrimos a un sencillo ejemplo hipottico. Supongamos para un servicio pblico que existen 100 regiones idnticas, servidas por igual nmero de empresas idnticas, cada una con un monopolio regional en una regin y un regulador comn a todas las regiones se encarga de: recolectar informacin de cada una de las 100 empresas sobre los costos incurridos en la provisin del servicio, permitirle a cada compaa cobrar una tarifa igual al costo promedio de las otras 99 empresas.

El atractivo de este procedimiento es que cada empresa recibe un precio que no depende de sus costos, sino de los costos de otros operadores, de modo que se le brindan mximos incentivos a la minimizacin de costos. El ejemplo de las 100 empresas, a pesar de su sencillez, permite identificar requisitos esenciales para el buen funcionamiento de la metodologa de competencia por comparacin: un buen nmero de empresas; que sean comparables (en el ejemplo hacamos el supuesto extremo de que las 100 tenan idnticos costos); con un regulador comn; que cuente con informacin de las empresas;

En lo que sigue, profundizamos sobre estos requisitos bsicos.

a) Nmero de empresas As como la fusin entre dos o ms empresas en un mercado disminuye el nmero de competidores efectivos y de ese modo puede facilitar, en caso de ausencia de polticas de defensa de la competencia, la aparicin de prcticas concertadas tendientes a fijar precios o repartir cuotas de mercado, algo similar ocurre con la competencia por comparacin. Si el nmero de empresas involucradas en la comparacin es pequeo (y con perspectivas de reducirse), existe aqu el riesgo de colusin: si los operadores se ponen de acuerdo en mantener sus costos en niveles innecesariamente altos, cada uno acceder a un precio mayor. Sin embargo, como en otros contextos, uno espera que el riesgo de colusin sea menor cuanto mayor sea el nmero de empresas. Otro inconveniente relativamente obvio surge cuando existen demasiado pocas empresas como para permitir un anlisis estadstico razonable, impidiendo de tal modo utilizar tcnicas avanzadas de anlisis (como por ejemplo los cada vez ms difundidos estudios de fronteras de eficiencia, que introduciremos ms adelante). Un punto a tener en cuenta es que la escasez de empresas en una muestra de corte transversal puede mitigarse si se cuenta con series temporales, de modo de constituir un panel. Un reducido nmero de empresas observadas durante varios aos podran ser suficientes para alcanzar un nmero razonable de observaciones sobre las cuales basar el anlisis. En este sentido, el problema del reducido nmero de comparadores se va diluyendo con el simple transcurso del tiempo. Otra solucin que se ha intentado en casos en los que se cuenta con pocos comparadores es la utilizacin de informacin de otras jurisdicciones (o pases). Por otra parte, sin embargo esta alternativa agudiza el problema de la comparabilidad.

b) Comparabilidad Un regulador rara vez tiene la buena fortuna de tener bajo su jurisdiccin un gran nmero de empresas similares. Las empresas suelen diferir en ampliamente en tamao y caractersticas, y la cuestin que surge naturalmente es: cmo hacerlas comparables? Existen factores externos que pueden influir sobre el desempeo relativo de las empresas, factores sobre las cuales stas no tienen control directo. En la literatura aplicada, estas variables que escapan al control de las empresas reciben el nombre de variables ambientales. Suelen incluir conceptos tales como diferencias en la propiedad (p.ej., pblica/privada), y caractersticas geogrficas y de localizacin (toda vez que stas suelen estar dadas en el contrato de concesin de los monopolios regionales).

Si no se tienen en cuenta explcitamente las diferentes restricciones inherentes a las empresas, puede llegarse a una evaluacin errnea de los niveles relativos de eficiencia de las mismas. Pero debe tenerse cuidado a la hora de seleccionar las variables ambientales a incluir en el anlisis, ya que existe el riesgo de cometer el error opuesto: incluir un nmero excesivo de variables. Cuando el regulador falla en identificar aquellos factores externos (y slo aquellos) que afectan el desempeo (o los costos), aparece una oportunidad para un comportamiento estratgico de las empresas, consistente en tratar de justificar ineficiencias especficas como ajenas a su accionar. Las empresas tienen un incentivo a destacar sus diferencias y a argumentar que las mismas justifican sus mayores costos. Esta prctica incrementa las chances de que las empresas sean declaradas eficientes por default: en una muestra de empresas, una gran proporcin de las empresas podra aparecer con un nivel de costos eficiente en la comparacin, no porque efectivamente hayan logrado tal nivel de costos, sino debido a la ausencia de empresas similares con las cuales realizar la comparacin. El problema se agrava cuando el nmero de dimensiones de comparacin crece. Por lo tanto, existe un tradeoff entre los beneficios de una mayor comparabilidad y los costos de la eficiencia por default. Entonces, dado que no se puede hacer una buena discriminacin entre empresas eficientes y empresas ineficientes, la extraccin de informacin til a los fines regulatorios se ve minada. Una herramienta natural para incorporar estas caractersticas especficas de las empresas en la comparacin, de manera no arbitraria, es el anlisis va modelos estadsticos de regresin. Si el regulador est interesado, por ejemplo, en los costos medios dado un conjunto de caractersticas, entonces puede recurrir a una regresin de mnimos cuadrados ordinarios, la metodologa de regresin ms comn y mejor entendida. En el otro extremo del abanico de opciones, el regulador podra utilizar las ya mencionadas fronteras de eficiencia, en todas sus alternativas, las cuales permiten corregir los resultados por las diferencias ambientales de manera sencilla y natural. c) Regulador comn Una caracterstica particular en algunos pases es la intervencin de mltiples jurisdicciones en el otorgamiento de las concesiones para operar el servicio. Si bien las distintas legislaciones pueden seguir lineamientos generales, pueden existir diferencias entre jurisdicciones, generando el problema de que no exista un ente con poder sobre toda la operacin capaz de aplicar el mecanismo de competencia por comparacin entre todas las empresas. El problema de las mltiples jurisdicciones plantea un inconveniente a la aplicacin de la competencia por comparacin en cada una de ellas, ya que en muchas slo existe una empresa regulada (o unas pocas), lo cual genera dificultades para realizar un anlisis estadstico razonable. Una solucin a este inconveniente es el anlisis de la informacin de otras jurisdicciones. Tal prctica se ve facilitada grandemente cuando existe un ente con jurisdiccin en todo el sector.

d) Informacin Una condicin necesaria para que la implementacin del benchmarking o la competencia por comparacin aporte resultados confiables es la existencia de informacin detallada y abundante. As, las perspectivas de generacin de informacin til a los fines regulatorios debera ser un importante argumento en las decisiones de un gobierno sobre la estructura de una industria y la naturaleza del rgimen regulatorio. Cuando el cambio tecnolgico es lento, existirn ventajas en trminos de informacin de crear y mantener varias empresas (requisito (a)) similares (requisito (b)) con fines comparativos. Una pregunta que surge naturalmente en el contexto del benchmarking y la competencia por comparacin es si una cierta empresa verticalmente integrada debera ser dividida regionalmente a fin de reducir el monopolio de la empresa sobre la informacin y recurrir as a dichas metodologas comparativas. La respuesta depende de varios factores. Por ejemplo, un grado de correlacin alto entre los ambientes de operacin de las empresas har relativamente ms deseable la separacin regional. La separacin horizontal de algunos segmentos de un monopolio natural permite obtener informacin comparativa sobre niveles relativos de eficiencia de las empresas. Esta informacin puede luego ser usada para fijar tarifas para las compaas reguladas, y para trasladar algunas de las ganancias de eficiencia a los usuarios, al tiempo que se preservan los incentivos para las firmas para que reduzcan sus costos. En otras palabras, el regulador en su rol de principal prefiere tener varios agentes (empresas) a fin de reducir la asimetra de informacin existente. Por supuesto, la desintegracin regional slo es eficiente desde un punto de vista econmico cuando se espera que los beneficios de contar con ms informacin superen a las economas de escala y de alcance perdidas al separar horizontalmente. Es ms probable que esto ltimo sea as, cuando una industria regulada sea bsicamente una suma de varios monopolios locales. En trminos generales, existe un trade off entre la mayor efectividad de la regulacin cuando existen varias empresas y la posible prdida de economas de escala o de alcance acarreada por la separacin. Desde el punto de vista del regulador, es altamente deseable contar con una buena base de informacin intra-jurisdiccional. Esto requiere la definicin cuidadosa de las variables y de una metodologa que aseguren efectuar comparaciones entre las empresas. La fusin de empresas que no reduzca sustancialmente los costos, pero que deteriore la informacin disponible para el regulador puede no ser deseable. En algunas jurisdicciones en que existen demasiado pocas empresas como para permitir un anlisis estadstico razonable, adquiere mayor relevancia el anlisis de la informacin de otras jurisdicciones, como expusiramos anteriormente.

1.3. La Informacin en Benchmarking

En benchmarking se utilizan regularmente indicadores de desempeo, cuyo objetivo final es el de contribuir al men de informacin relevante para el monitoreo. En este objetivo, es importante distinguir entre datos e informacin relevante. Esta ltima esta conformada por un sistema de datos (cuantitativos y cualitativos) funcionales a la toma de decisiones. Esta informacin debe comprender al conjunto de reas y grupos de inters (stakeholders), usuarios y entorno, sosteniendo un criterio amplio y dinmico. De esta manera, podemos distinguir a: Los datos: son los relevados directamente de las fuentes informativas. Segn su naturaleza, analticamente pueden ser considerados variables, informacin de entorno o descriptivos. Las variables: son las utilizadas en el modelo analtico y segn determinados criterios permiten la construccin de indicadores de desempeo. Las variables por lo general son cuantitativas y su calidad va unida a la de los datos que las alimentan. Los indicadores de desempeo (performance): son medidas de eficiencia y efectividad de la prestacin del servicio. Permiten la comparacin con indicadores similares de las empresas que hacen de referencia. Los indicadores la mayora de las veces son presentados como ratios entre variables (en porcentajes, ndices u otros). La informacin del entorno: se trata de informacin inherente a las caractersticas y contexto de la empresa y las diferencias de sta respecto de sus referentes. Describe todo aquello que, si bien externo a la empresa, condiciona sus decisiones y tambin, aquellos factores que si bien tienden a permanecer invariables en el corto o mediano plazo, pueden ser modificados en el largo plazo.

Factores explicativos: En el sistema de informacin, son aquellos que contribuyen a explicar los distintos niveles observados para los indicadores de desempeo. Los requerimientos de calidad para los indicadores de desempeo, resultan ser, entre otros: clara y concisamente definidos; de razonable disponibilidad; pasibles de auditar; de carcter universal y no acomodados a casos particulares; simples y fciles de entender y, entre otros, cuantificables y ajenos a subjetividades. En su conjunto, cada indicador de desempeo debe: proveer informacin significativamente diferenciada de cualquier otro indicador; definidos de manera unvoca, como as tambin seleccionados con rigurosidad en trminos de una efectiva evaluacin de los resultados. En el caso de las variables e informacin de contexto, vale la mayor parte de lo mencionado para los indicadores y adems, deben tener una clara referencia geogrfica y temporal; provenir de fuentes confiables, de extendida trayectoria y reconocidas y en su seleccin respetar el criterio de maximizar el poder explicativo minimizando el nmero utilizado de variables. En el caso de la informacin externa a la empresa, de ser posible, los datos deben ser de fuente oficial. Cuando los datos no son del todo precisos y confiables, se adopta un criterio (IWA) que clasifica en cuatro categoras a los niveles de precisin y en tres a los de confiabilidad. Para la precisin de los datos, las categoras se miden en bandas que van de mejor a peor: 0 a 5% (mejor o igual que 5%), de 5 a 20% (peor que 5% pero mejor que 20%); 20-50% (peor que 20% pero mejor que 50%) y >50% (peor que 50%). La confiabilidad se mide de mejor a peor: tres a una estrella. Las fuentes preferidas son aquellas que siendo ampliamente reconocidas, presentan datos preparados segn metodologas altamente calificadas. Es importante tener en cuenta el problema de la propagacin de errores. ste surge cuando en el anlisis una gran parte de los datos corresponden a los de la banda 0 a 5%. Estos errores, si no se cancelan entre s, pueden llegar a tener un efecto acumulativo importante.

2. Introduccin a la Estadstica en Benchmarking

2.1. Aspectos Conceptuales


En el anlisis de benchmarking se utiliza habitualmente estadstica y econometra, en particular para estimar la frontera de eficiencia. De esta manera, la idea es presentar en esta Unidad algunos conceptos preliminares de Estadstica Descriptiva, que nos harn ms amigable abordar la Unidad dedicada a Econometra. En el curso utilizaremos una Base de Datos como referencia comn a todas las unidades. Algunos de los datos de dicha Base podrn ser alterados por los docentes segn los requerimientos de tema tratado. Antes de iniciar con los conceptos bsicos de la estadstica de uso habitual en benchmarking es conveniente dar a conocer algunos elementos histricos relacionados con el termino estadstica. Este trmino tiene sus races en el vocablo latino status utilizado en la Edad Media para denotar un estado poltico. As pues, inicialmente se design como estadstica a lo relacionado con el estado. Con el correr del tiempo y la necesidad de descripciones ms concisas, se la expres en forma numrica. Posteriormente, comenz a desarrollarse la estadstica terica, que surgi para ordenar los mtodos ya existentes y desarrollar mtodos innovadores, con la cual se conform la disciplina tal como se la conoce en la actualidad. La mayor parte de las primeras aplicaciones de la estadstica consisti bsicamente en la presentacin de datos en forma de tablas y grficos (estadstica descriptiva). No obstante, los mtodos descriptivos representan hoy una parte muy pequea de las herramientas estadsticas existentes.

10

El fenomenal crecimiento que ha tenido la estadstica en los ltimos 60 o 70 aos se debe principalmente a los avances que ha habido en la llamada inferencia estadstica. Este campo se ocupa de la formulacin de generalizaciones, as como de la prediccin y estimacin de las relaciones entre dos o ms variables. Poblacin Estadstica: cualquier conjunto de datos cuantificables puede llamarse una poblacin si ese conjunto de datos est constituido por todos los valores de inters (no es posible ampliar el conjunto de datos). Por desgracia, en general es imposible o demasiado costoso recopilar toda la informacin concerniente a la poblacin asociada a un determinado fenmeno. Muestra: es un subconjunto de la poblacin. Este conjunto constituye informacin limitada e imperfecta de la poblacin. Los valores individuales pertenecientes a una muestra se llaman observaciones. En economa usualmente slo contamos con una sola muestra. Explicar los datos a utilizar El propsito principal que vamos a buscar al utilizar las herramientas estadsticas es intentar establecer en qu medida los datos que poseemos pueden brindarnos informacin relevante sobre algunas caractersticas importantes de la poblacin (sus parmetros poblacionales). 1. Medidas de posicin central Es preferible trabajar con medias que resuman de alguna forma todos los datos, en vez de trabajar con todos ellos simultneamente. Particularmente, las medidas de posicin central y de dispersin son las ms frecuentes en la prctica. Existen varias formas de medir estas medidas, aunque aqu solo presentaremos las ms utilizadas. Moda: este es el valor de la muestra que se aparece el mayor nmero de veces. Una de las principales desventajas de esta medida es que en una muestra puede brindar ms de un valor, como no brindar ninguno. Adems, ntese que la moda puede ser una inadecuada medida de posicin central, porque el valor que se presenta con mayor frecuencia no siempre est cerca del centro de los datos. (Ver figura 1). Mediana: Es el valor central en un conjunto de datos ordenadas segn su magnitud. Es decir, para hallar la mediana basta con ordenar los datos de mayor a menor y tomar el valor que divide la muestra a la mitad. Cuando se desea dividir los datos en dos grupos, de modo que cada uno de ellos contenga exactamente el mismo nmero de valores, la mediana resulta ser el punto de divisin apropiado. Si la muestra es par, existirn dos valores que dividen a la muestra en dos. En este caso es habitual tomar el promedio de esos dos valores. (Figura 1) Media: la llamada media aritmtica (o promedio) es sin duda la medida ms utilizada de posicin central. Esta medida no es ms que la suma de todos los valores considerados dividida por el nmero total de valores del conjunto. Si ponemos una variable Xi que adopta N valores, la media viene dada por la ecuacin (0.1):

11

(0.1) x =

x1 + x2 + ... + xn 1 = N N

x
i =1

Ejemplo 1

2. Ventajas y desventajas de cada medida La media es la medida de posicin central que ms se usa. Tiene la desventaja de que los valores extremos la afectan ms que a la mediana y que a la moda, ya que toma en cuenta la diferencia entre todos los valores y no simplemente su posicin (como ocurre con la mediana) o su frecuencia (como ocurre con la moda). A su vez, esta es la principal ventaja de la media aritmtica y la que la hace ms confiable, debido a que utiliza toda la informacin disponible para su clculo, y no slo una parte de ella. Hay que recordar que estas medidas de posicin no son las nicas (i.e: la media geomtrica). La media geomtrica es una medida de posicin central que resulta particularmente apropiada cuando los datos estn expresados en trminos relativos, tales como las razones de variacin o variaciones relativas. Esto es as porque la media geomtrica da igual peso a los cambios de igual importancia relativa. 3. Medidas de dispersin Las medidas de posicin no suelen ser lo suficientemente adecuadas si no van acompaadas de una medida de dispersin. Imagnese que si usted se gua por la temperatura promedio anual de una determinada ciudad (supongamos 15), estara saliendo de su casa con un abrigo liviano en un da donde quizs la temperatura se encuentra en un nivel bajo cero. En caso de contar con una buena medida de dispersin, seguramente no hubiese hecho esto. Quin base sus juicios slo en la media, podra ser comparado con una persona que, teniendo la cabeza metida en un frigorfico y los pies en un horno, declarase: En promedio, me siento muy bien.

12

Al igual que en el caso de las medidas de posicin, existen muchas formas de medir la dispersin. Lo opcin ms simple sera considerar el rango de valores (es decir, el valor absoluto de la diferencia entre los valores mximos y mnimos). No obstante, las medidas de dispersin que presentan mejores propiedades son aquellas con respecto a la media. Dentro de este grupo, el desvi estndar y la varianza son las ms utilizadas en la prctica. Desviacin estndar y Varianza El problema que aparece si tomamos cada una de las observaciones y calculamos su , es que la suma de cada trmino ser cero. desvi con respecto al valor medio, i En consecuencia, el promedio de las desviaciones tambin es siempre igual a cero. Por esta razn, el mtodo tradicional para medir la variabilidad de un conjunto de datos
i . Este consiste en obtener el promedio de los cuadrados de las desviaciones promedio recibe el nombre de varianza (s2), cuya expresin viene dada por la ecuacin (0.2):

x x

( x x )2

(0.2) s 2 =

1 N

(x x )
i =1 i

Observemos que dado que se usan las desviaciones con respecto a la media, su valor es independiente de esta. No obstante, la varianza (al igual que la media) depende de la unidad de medida de los datos. Es ms, la unidad de medida de la varianza es el cuadrado de la unidad de medida de la media. Si, por ejemplo, la media se refiere a temperatura medida en grados centgrados, la unidad de la varianza ser grados al cuadrado (lo cul posee poco sentido). Este inconveniente de la varianza da lugar a la otra medida de dispersin que es el desvo estndar, y que se encuentra expresada en las mismas unidades que los datos originales. El desvo estndar no es ms que la raz cuadrada de la varianza y lo denotamos con la letra s. As,
N

(0.3) s =

1 N

(x x )
i =1 i

Finalmente, otra medida que es poco utilizada pero que posee la ventaja de dar una idea de la magnitud del desvo estndar en la muestra analizada es el coeficiente de variacin. Este coeficiente no es ms que el desvo estndar sobre la media. As, a medida que este coeficiente es mayor, mayor la importancia del desvo. Como puede intuirse, las medidas de dispersin por s solas son tan insuficientes para tomar decisiones como las medidas de posicin por s solas. Las conclusiones ms efectivas se obtienen cuando se utilizan conjuntamente ambos tipos de medida.

13

Ejemplo: Suponga que usted va al hipdromo a realizar una apuesta. Una de las opciones existentes es apostar a que el caballo que usted elige va a salir entre los tres primeros. Ahora suponga que en promedio, tanto el caballo A como el caballo B salen en 2 lugar. Con esta informacin, uno estara indiferente entre un caballo u otro. No obstante, si a estos datos le agregamos que el desvo estndar del caballo A es de 5 puestos, mientras que el desvi estndar del caballo B es de 1 puesto, podremos afirmar sin lugar a dudas que el caballo B definitivamente constituye una apuesta ms segura. Observemos cmo ninguna de las dos medidas por separado nos llevara a una buena decisin. Coeficiente de variacin o de dispersin Se lo calcula a partir de dividir a la Desviacin Estndar por la Media. Permite superar el problema de los valores absolutos de la Varianza y la Desviacin Estndar cuando se pretende comparar dos o ms series de datos. Se la mide como porcentaje, siendo su ecuacin (1.4): (1.4) CV =

s 100 x

4. Distribucin de frecuencias Al construir una tabla de frecuencias es necesario, en primer lugar, dividir los datos en un nmero limitado de categoras o clases diferentes, y luego registrar el nmero de veces (la frecuencia) que una observacin cae en cada uno de los intervalos. Dentro de los puntos importantes a tener en cuenta estn: (a) los intervalos deben ser de igual tamao; (b) es aconsejable que hayan entre 6 y 15 intervalos; y (c) hay que definir los intervalos de manera tal que ninguna observacin caiga en ms de un intervalo simultneamente. Veamos el siguiente ejemplo: Ejemplo 2

14

La tabla de frecuencia brinda una representacin grfica til que se denomina histograma. La representacin de los datos del ejemplo 2 que se encuentran graficados en la Figura 1. Figura 1

5. Variable Aleatoria y Funcin de Densidad Variable Aleatoria: una variable aleatoria es una variable que toma valores alternativos, cada uno con una probabilidad menor o igual a 1. Usualmente es til distinguir entre variables aleatorias discretas y variables aleatorias continuas. Mientras que una variable aleatoria discreta puede adoptar un conjunto acotado de valores (comnmente se pueden contar, pero no medir), las variables aleatorias continuas pueden adoptar cualquier valor dentro de la lnea de los reales. Una forma sencilla de interpretar una funcin de densidad es pensarla como una aproximacin continua del histograma. De esta forma, la llamada funcin de densidad (o distribucin de probabilidad) enumera todos los resultados posibles y la probabilidad de que ocurra cada uno. La figura 2 brinda dos ejemplos de funcin de densidad para una variable aleatoria continua. La figura (a) muestra una funcin de densidad de una variable con poca dispersin, mientras que la (b) muestra la funcin de una variable con mucha dispersin (ambas variables poseen un valor medio igual a cero).

15

Figura 2

La probabilidad de que un valor particular se encuentre en un rango de valores viene dada por el rea bajo la funcin de densidad continua entre esos dos valores. Por ejemplo, la probabilidad de que nuestra variable adopte un valor menor a 2 viene dado por el rea de la regin sombreada en la figura 1. b). Distribucin Normal La distribucin normal es la ms conocida y usada de todas las distribuciones. Muchos fenmenos naturales tienden a dar como resultado una distribucin normal. La distribucin de los errores de medida tienden a ser normales, al igual que la distribucin del grado de perfeccin de diversos procesos de produccin. Debido a que la distribucin describe satisfactoriamente muchos fenmenos, se ha convertido en un patrn de referencia para muchos problemas probabilsticos. La distribucin normal es una distribucin de probabilidad continua en forma de campana, se describe completamente por su media y su varianza, y es simtrica.

6. Pruebas de Hiptesis El propsito principal de las pruebas de hiptesis es hacer posible una eleccin adecuada entre dos hiptesis que se refieren al valor de un determinado parmetro. Las dos hiptesis que entran en conflicto en este tipo de test se denominan hiptesis nula e hiptesis alternativa. Una observacin que es importante es la siguiente: cuando uno construye una prueba de hiptesis, el resultado que uno obtenga debe caer dentro de la hiptesis nula o dentro de la hiptesis alternativa, pero no puede quedar fuera de ambas. La forma de llevar a cabo el test va a depender de la forma de la distribucin de los datos.

16

Para elegir entre aceptar la hiptesis nula - Ho - (lo que equivale a rechazar la alternativa), o rechazar la hiptesis nula - Ha - (aceptando la alternativa), el adoptador de decisiones tiene como nica base la evidencia muestral. Puesto que la decisin de aceptar o rechazar Ho se basa en probabilidades y no en certezas, al tomar la decisin existen posibilidades de error. Especficamente existen dos tipos de error: a. Error de Tipo I: Este es el error que se cometera si se rechaza una hiptesis nula cuando en realidad es verdadera. b. Error de Tipo II: Este error se da cuando se acepta la hiptesis nula cuando esta en realidad es falsa. La probabilidad de cometer un error de tipo I se denota con la letra griega alfa ( ) y recibe el nombre de nivel de significacin. Por otro lado, el nivel de confianza de una prueba viene dado por ( 1 ) y refleja la probabilidad de que uno acepte Ho cuando Ho es efectivamente verdadera. Dado que el mtodo estndar para resolver estos problemas de decisin consisten, primero, en admitir que la hiptesis nula es verdadera; es usual establecer un valor de alfa chico para realizar el test (usualmente 5% o 10%). Al establecer un nivel de significacin pequeo se ignora la probabilidad de cometer un error de tipo II. La probabilidad de cometer una error de tipo II (o sea, de aceptar una hiptesis nula falsa) se denota por la letra . El complemento de esta probabilidad es ( 1 ) = Prob(rechazar Ho/Ho es falsa) y se llama potencia de la prueba, puesto que es el poder que tiene la prueba de reconocer correctamente que la hiptesis nula es falsa ( y que por tanto debe rechazarse Ho). As, siempre ser deseable que el test tenga una potencia alta cuando Ho es falsa. Valores P Un valor p mide la probabilidad de un error de tipo I , es decir, la probabilidad de rechazar en forma incorrecta una hiptesis nula correcta. Entre mayor es el valor p, es ms probable que ser un error rechazar la hiptesis nula; entre menor sea el valor p estaremos ms seguros de rechazarla. La regla prctica a seguir es la siguiente: Si p es menor a Si p es mayor a

: se rechaza Ho : se acepta Ho

Recordemos que el nivel de significacin es establecido arbitrariamente por el investigador, mientras que el valor p es un valor emprico que surge del test. Nota: Una forma sencilla (aunque no estrictamente correcta) de comprender el valor p, es pensar al mismo cmo la probabilidad de que la hiptesis nula sea verdadera.

17

7.

Medidas de relacin entre dos variables

Muchas veces uno est interesado en conocer la relacin que existe entre una y otra variable. Particularmente, el inters reside en saber si cuando una de las variables posee valores altos, la otra posee valores altos o bajos. Si tenemos dos variables, X e Y, la covarianza entre esta dos variables se define como el promedio del producto de estas variables medidas en desviaciones con respecto a sus media. As, esta medida nos dice si existe una relacin lineal entre dos variables aleatorias y su expresin viene dada por:

(0.4) S xy =
i =1

( xi x )( yi y ) N

Observemos detenidamente la formula. Si cuando la variable x posee valores por encima de su valor medio, la variable y tambin posee valores por encima de su valor medio; el producto de ambos miembros ser positivo. Si por el contrario, cuando la variable x posee valores por encima de su valor medio, la variable y tiene valores por debajo de su media; el producto de ambos miembros ser negativo. Qu estamos diciendo al afirmar que la covarianza entre dos variables es positiva? Lo que estamos diciendo es que en promedio los valores altos (en relacin a la media) de x se relacionan con valores altos de y. De esta forma, la covarianza positiva nos dice que existe una dependencia lineal positiva entre las dos variables. Qu significa que la covarianza sea cero? Esto significa que las desviaciones correspondientes, ( x x ) y ( y y ) , tendran el mismo signo algebraico para algunos puntos y signos opuestos para otros puntos. As el producto ( x x )( y y ) ser positivo para algunos puntos, negativo para otros, y tendr un promedio cercano a cero. Que la covarianza sea cero quiere decir que no existe relacin lineal entre las variables lo cul no significa que no exista relacin entre las variables. Si no hay relacin entre las variables entonces la covarianza es cero. Si la covarianza es cero entonces no existe una relacin lineal (pero puede existir relacin).

Supongamos que tenemos dos pares de variables y disponemos de la siguiente informacin. Qu par posee una relacin lineal ms fuerte?

S xy = 98

S zw = 6969

18

Lamentablemente, no podemos responder a esa pregunta. Es difcil utilizar la covarianza como una medida absoluta de dependencia lineal porque su valor depende de la escala de medicin y por consiguiente es difcil determinar si una covarianza en particular es grande o chica a simple vista. Se puede eliminar este problema al estandarizar su valor, utilizando el coeficiente de correlacin lineal:

sxy sx s y

A diferencia de la covarianza, el coeficiente de correlacin es independiente de la escala de medicin. El mismo est siempre entre 1 y +1. Uno de los problemas de esta medida es que no dice nada acerca de la causalidad de las variables.

19

2.2. Introduccin a la Estadstica con Excel

Esta seccin tiene un enfoque prctico, a partir de uso del empleo de la planilla de clculo EXCEL, lo cual no quita el mtodo pueda extenderse a otras planillas opcionales. Se irn definiendo las distintas medidas estadsticas segn se presentan en la hoja de clculo EXCEL, recurriendo al respectivo men de ayuda. Adicionalmente y a los efectos de la ejercitacin de los participantes, se presenta una base de datos, la cual ser utilizada asimismo durante todo el curso con el mismo propsito. En primer lugar para cualquier serie, le podemos pedir a la planilla de clculo que nos presente un informe estadstico. Basta con pintar la serie con el Mouse, cliquear Herramientas Anlisis de Datos Estadstica Descriptiva, le damos un rango de salida. Podemos tambin explorar las opciones que se muestran en la ventana. a. MEDIA (PROMEDIO) La media (o media aritmtica), junto con la mediana y la moda constituyen, para la teora estadstica, medidas de tendencia central. La utilidad de la media reside en el hecho de que los datos estadsticos (alturas de las personas, ventas del ao, precios en el mercado) tienen a concentrarse alrededor de un valor central. La hoja de clculo devuelve el promedio de los argumentos. La media aritmtica de una cantidad finita de nmeros, es igual a la suma de todos ellos dividida entre el nmero de sumando.

20

Sintaxis PROMEDIO(nmero1;nmero2;...) Nmero1, nmero2, ... desea obtener. Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. son entre 1 y 30 argumentos numricos cuyo promedio

Cuando se est calculando el promedio de celdas, tenga en cuenta la diferencia existente entre las celdas vacas, de manera especial si ha quitado la marca a la casilla Valores cero en la ficha Ver (comando Opciones en el men Herramientas). Las celdas vacas no se cuentan pero s los valores cero. Ejemplo El ejemplo puede resultar ms fcil de entender si lo copia en una hoja de clculo en blanco. 1. Cree un libro o una hoja de clculo en blanco. 2. Seleccione el ejemplo en el tema de Ayuda. No seleccione los encabezados de fila o de columna. 3. Presione CTRL+C. 4. En la hoja de clculo, seleccione la celda A1 y presione CTRL+V. 5. Para alternar entre ver los resultados y ver las frmulas que devuelven los resultados, presione CTRL+` (acento grave) o, en el men Herramientas, elija Auditora de frmulas y, a continuacin, haga clic en Modo de auditora de frmulas.

21

b. MEDIANA Es la medida de tendencia central que generalmente se encuentra ms cerca de la media. Se la utiliza, por ejemplo, cuando una decisin se debe sustentar en apenas unos pocos experimentos o cuando para una serie, se tiene valores muy extremos. La hoja de clculo devuelve la mediana de los nmeros. La mediana es el nmero (no necesariamente perteneciente a la serie) que se encuentra en medio de un conjunto de nmeros, es decir, la mitad de los nmeros es mayor que la mediana y la otra mitad es menor. Sintaxis MEDIANA(nmero1;nmero2; ...) Nmero1, nmero2, ... Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Microsoft Excel examina todos los nmeros en cada argumento matricial o de referencia. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si la cantidad de nmeros en el conjunto es par, MEDIANA calcula el promedio de los nmeros centrales. Vea la segunda frmula del ejemplo. son entre 1 y 30 nmeros cuya mediana desea obtener.

22

Ejemplo

c. MODA La moda es el valor o valores que ms repite en la serie. Si en el nmero de repeticiones, algn valor empata con otro, se dice que la serie tiene una distribucin bimodal si son tres los datos que empatan se dice que es trimodal. La moda es una medida complementaria de la media y de la mediana. Puede ser muy importante saber por ejemplo, que el 50% de los valores de una serie es tal o cual o, que sta es de distribucin bimodal. La hoja de clculo devuelve el valor que se repite con ms frecuencia en una matriz o rango de datos. Al igual que MEDIANA, MODA es una medida de posicin. Sintaxis MODA(nmero1;nmero2; ...) Nmero1, nmero2, ... son de 1 a 30 argumentos cuya moda desea calcular. Tambin puede utilizar una matriz nica o una referencia matricial en lugar de argumentos separados con punto y coma.

23

Observaciones Los argumentos deben ser nmeros, nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si el conjunto de datos no contiene puntos de datos duplicados, MODA devuelve el valor de error #N/A.

En un conjunto de valores, la moda es el valor que se repite con mayor frecuencia; la mediana es el valor central y la media es el valor promedio. Ninguna de estas medidas de la tendencia central tomada individualmente proporciona una imagen completa de los datos. Supongamos que los datos estn agrupados en tres reas, la mitad de las cuales es un valor bajo que se repite y la otra mitad consiste en dos valores elevados. Tanto PROMEDIO como MEDIANA devolvern un valor situado en una zona central relativamente vaca, y MODA devolver el valor bajo dominante. Ejemplo

24

d. VARIANZA MUESTRAL (VAR) Y VARIANZA Es una medida de la variabilidad de una serie de datos de una muestra, es decir datos tomados de un conjunto ms amplio de datos (el universo). En la literatura aparece como S2. Si por ejemplo, la mayora de la serie de datos de una muestra se encuentran muy prximos al valor que le corresponde como media, pero en cambio, en alguna otra serie la mayora de los datos aparecen muy alejados de su propia media, se dice que esta ltima posee una mayor variabilidad y por lo tanto una varianza mayor. En el primer caso, el valor de la media ser ms representativo que en el segundo. En finanzas, una mayor varianza para algn activo significa tambin un mayor riesgo. La varianza es el promedio del cuadrado de los desvos respecto de su media. Cada desvo es elevado al cuadrado para cubrir en el clculo de la medida- el caso de que ste adopte un valor negativo. De ser as, ste se restara de los desvos positivos haciendo que la medida de variabilidad quede subestimada. La hoja de clculo calcula la varianza en funcin de una muestra. La varianza es un estimador de la dispersin de una variable aleatoria X de su media E[X]. Est relacionada con la desviacin estndar o desviacin tpica, que se suele denotar por la letra griega y que es la raz cuadrada de la varianza. Sintaxis VAR(nmero1;nmero2; ...) Nmero1, nmero2, ... son de 1 a 30 argumentos numricos correspondientes a una muestra de una poblacin. Observaciones La funcin VAR parte de la hiptesis de que los argumentos representan una muestra de la poblacin. Si sus datos representan la poblacin total, utilice VARP para calcular la varianza. Se pasan por alto los valores lgicos, como VERDADERO y FALSO, y el texto. Si los valores lgicos y el texto no se deben pasar por alto, utilice la funcin de hoja de clculo VARA. VAR utiliza la frmula siguiente:

Donde x es la media de muestra PROMEDIO(nmero1,nmero2,) y n es el tamao de la muestra.

25

Siendo el valor de la muestra n, se toma (n-1) en el denominador. Debido a que se asume que en una muestra todos los datos menos uno, determinan a ste ltimo. Si no se tratase de una muestra sino de un universo de datos, el denominador sera N (datos del universo) y en lugar de varianza muestral cabe denominarla varianza a secas, simbolizada habitualmente como 2 (sigma al cuadrado). Ejemplo Supongamos que 10 herramientas forjadas en la misma mquina durante el mismo proceso de produccin son elegidas como una muestra aleatoria y medimos su resistencia a la ruptura.

26

e. DESVIACIN ESTNDAR (DESVEST) La hoja de clculo calcula la desviacin estndar muestral en funcin de un ejemplo. La desviacin estndar muestral es la medida de la dispersin de los valores respecto a la media (valor promedio). Como se mencion anteriormente, es la raz cuadrada de la varianza muestral. En la literatura se la simboliza con una S Sintaxis DESVEST(nmero1; nmero2; ...) Nmero1, nmero2, ... son de 1 a 30 argumentos numricos correspondientes a una muestra de una poblacin. Tambin puede utilizar una matriz nica o una referencia matricial en lugar de argumentos separados con punto y coma. Observaciones DESVEST parte de la hiptesis de que los argumentos representan la muestra de una poblacin. Si sus datos representan la poblacin total, utilice DESVESTP para calcular la desviacin estndar. La desviacin estndar se calcula utilizando los mtodos "no sesgada" o "n-1". DESVEST utiliza la frmula siguiente:

Donde x es la media de muestra PROMEDIO(nmero1,nmero2,) y n es el tamao de la muestra. Como en el caso anterior, si se tratase del conjunto de datos del universo el divisor sera N (datos del universo) y la medida correspondera a la desviacin estndar, simbolizada como (sigma). Se pasan por alto los valores lgicos como VERDADERO y FALSO y el texto. Si los valores lgicos y el texto no deben pasarse por alto, utilice la funcin de hoja de clculo DESVESTA.

Ejemplo Supongamos que 10 herramientas forjadas en las misma mquina durante el mismo proceso de produccin son elegidas como una muestra aleatoria y medimos su resistencia a la ruptura.

27

f.

ERROR.TIPICO.XY

La hoja de clculo devuelve el error tpico del valor de y previsto para cada x de la regresin. El error tpico es una medida de la cuanta de error en el pronstico del valor de y para un valor individual de x. Sintaxis ERROR.TIPICO.XY(conocido_y;conocido_x) Conocido_y es una matriz o un rango de puntos de datos dependientes. Conocido_x es una matriz o un rango de puntos de datos independientes. Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero.

28

Si los argumentos conocido_y y conocido_x estn vacos o contienen un nmero diferente de puntos de datos, ERROR.TIPICO.XY devuelve el valor de error #N/A. La ecuacin para el error tpico del valor y pronosticado es:

Donde x e y son las medias de muestra PROMEDIO(conocido_x) PROMEDIO(conocido_y) y n es el tamao de la muestra. Ejemplo

g. CURTOSIS

La hoja de clculo devuelve la curtosis de un conjunto de datos. La curtosis caracteriza la elevacin o el achatamiento relativos de una distribucin, comparada con la distribucin normal. Una curtosis positiva indica una distribucin relativamente elevada, mientras que una curtosis negativa indica una distribucin relativamente plana.

29

Sintaxis CURTOSIS(nmero1;nmero2; ...) Nmero1, nmero2, ... son de 1 a 30 argumentos cuya curtosis desea calcular. Tambin puede utilizar una matriz nica o una referencia matricial en lugar de argumentos separados con punto y coma. Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si existen menos de cuatro puntos de datos o si la desviacin estndar de la muestra es igual a cero, la funcin CURTOSIS devuelve el valor de error #DIV/0! CURTOSIS se define como:

Donde s es la desviacin estndar de la muestra.

30

h. COEFICIENTE.ASIMETRIA La hoja de clculo devuelve la asimetra de una distribucin. Esta funcin caracteriza el grado de asimetra de una distribucin con respecto a su media. La asimetra positiva indica una distribucin unilateral que se extiende hacia valores ms positivos. La asimetra negativa indica una distribucin unilateral que se extiende hacia valores ms negativos. Sintaxis COEFICIENTE.ASIMETRIA(nmero1;nmero2; ...) Nmero1, nmero2 ... son de 1 a 30 argumentos cuya asimetra desea calcular. Tambin puede utilizar una matriz nica o una referencia matricial en lugar de argumentos separados con punto y coma. Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si el nmero de puntos de datos es menor que tres o si la desviacin estndar de la muestra es cero, COEFICIENTE.ASIMETRIA devuelve el valor de error #DIV/0!

31

La ecuacin para la asimetra se define como:

Ejemplo

i.

COVARIANZA (COVAR)

Una extensin y hasta podra decirse generalizacin del estadstico varianza, es de la covarianza. Es un indicador de la relacin entre dos variables. A mayor valor de la covarianza, mayor relacin entre las variables comparadas. La hoja de clculo devuelve la covarianza, o promedio de los productos de las desviaciones para cada pareja de puntos de datos. Utilice la covarianza para determinar las relaciones entre dos conjuntos de datos. Por ejemplo, puede investigar si unos ingresos ms elevados se corresponden con niveles de estudios ms altos. Sintaxis COVAR(matriz1;matriz2) Matriz1 es el primer rango de celdas de nmeros enteros. Matriz2 es el segundo rango de celdas de nmeros enteros.

32

Observaciones Los argumentos deben ser nmeros o nombres, matrices o referencias que contengan nmeros. Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si los argumentos matriz1 y matriz2 tienen nmeros distintos de puntos de datos, COVAR devuelve el valor de error #N/A. Si los argumentos matriz1 o matriz2 estn vacos, COVAR devuelve el valor de error #DIV/0! La covarianza es:

Donde x e y son las medias de muestra PROMEDIO(matriz2) y n es el tamao de la muestra. Ejemplo

PROMEDIO(matriz1)

33

j.

INTERVALO DE CONFIANZA (INTERVALO.CONFIANZA)

Se utiliza cuando en lugar de una estimacin puntual (dada por un solo nmero) se trabaja con una estimacin por intervalo. Es decir el estimador se encuentra dentro de una banda limitada por dos nmeros. Por ejemplo, el precio medio de un producto X se encuentra dado por $ 10 $ 1. Es decir el precio se ubica entre los $9 y los $ 11. En la mayora de los casos se establece un intervalo de confianza partir de la su posicin de que el estadstico tiene una distribucin normal o de Gauss. Esta suposicin es muy til, ya que en la prctica los datos o variables se concentran alrededor de la media tomando la forma de la campana de Gauss tal como se la se puede encontrar en los textos de estadstica. La distribucin normal o de Gauss, es la ms utilizada como supuesto de distribucin de los datos. La hoja de clculo devuelve un valor que se puede utilizar para construir un intervalo de confianza para una media de una poblacin. El intervalo de confianza es un intervalo de valores. La media de la muestra, x, est en el centro de este intervalo, y el intervalo es x INTERVALO.CONFIANZA. Por ejemplo, si x es la media de una muestra de tiempos de entrega de productos encargados por correo electrnico, x INTERVALO.CONFIANZA es un intervalo de medias de la poblacin. Para cualquier media de poblacin 0 (en este intervalo), la probabilidad de obtener una media de muestra ms alejada de 0 que de x es mayor que alfa; para cualquier media de poblacin 0 (fuera del intervalo), la probabilidad de obtener una media de muestra ms alejada de 0 que de x es menor que alfa. Es decir, suponga que utilizamos x, desv_estndar y tamao para crear una prueba de dos colas con un nivel de importancia alfa de la hiptesis consistente en que la media de la poblacin es 0. Entonces, no rechazaremos la hiptesis si 0 est dentro del intervalo de confianza, y la rechazaremos en caso de que 0 no est en el intervalo de confianza. El intervalo de confianza no nos permite inferir que hay una probabilidad 1 alfa de que el tiempo de entrega del prximo paquete que encarguemos estar dentro del intervalo de confianza. Sintaxis INTERVALO.CONFIANZA(alfa;desv_estndar;tamao) Alfa es el nivel de significacin utilizado para calcular el nivel de confianza. El nivel de confianza es igual a 100(1 - alfa)%, es decir, un alfa de 0,05 indica un nivel de confianza de 95%. Desv_estndar es la desviacin estndar de la poblacin para el rango de datos y se presupone que es conocida. Tamao es el tamao de la muestra.

34

Observaciones Si uno de los argumentos no es numrico, INTERVALO.CONFIANZA devuelve el valor de error #VALOR! Si alfa 0 o alfa 1, INTERVALO.CONFIANZA devuelve el valor de error #NUM! Si el argumento desv_estndar 0, INTERVALO.CONFIANZA devuelve el valor de error #NUM! Si el argumento tamao no es un entero, se trunca. Si el argumento tamao < 1, INTERVALO.CONFIANZA devuelve el valor de error #NUM! Si suponemos que el argumento alfa es igual a 0,05, se tendr que calcular el rea debajo de la curva normal estndar que es igual a (1 - alfa) o 95%. Este valor es 1,96. Por lo tanto, el intervalo de confianza es:

Ejemplo Suponga que observamos que en nuestra muestra de 50 personas que realizan diariamente un trayecto, la distancia media de viaje es 30 minutos con una desviacin estndar de la poblacin de 2,5. Con alfa = 0,05, INTERVALO.CONFIANZA(0,05, 2,5, 50) devuelve 0,69291. El intervalo de confianza correspondiente ser entonces 30 0,69291 = aprox. [29,3, 30,7]. Para cualquier media de poblacin 0 (en este intervalo), la probabilidad de obtener una media de muestra ms alejada de 0 que de 30 es mayor que 0,05. Asimismo, para cualquier media de poblacin 0 (fuera de este intervalo), la probabilidad de obtener una media de muestra ms alejada de 0 que de 30 es menor que 0,05.

35

k. COEFICIENTE DE CORRELACIN (COEF.DE.CORREL) El coeficiente de correlacin (lineal) mide la relacin entre dos variables. Su valor va de -1 1. Un valor cero indica relacin nula entre stas, un valor de -1 indica fuerte correlacin negativa y un valor de 1 indica fuerte relacin positiva. La planilla de clculo devuelve el coeficiente de correlacin entre dos rangos de celdas definidos por los argumentos matriz1 y matriz2. Use el coeficiente de correlacin para determinar la relacin entre dos propiedades. Por ejemplo, para examinar la relacin entre la temperatura promedio de una localidad y el uso de aire acondicionado. Sintaxis COEF.DE.CORREL(matriz1;matriz2) Matriz1 es un rango de celdas de valores. Matriz2 es un segundo rango de celdas de valores. Observaciones Si el argumento matricial o de referencia contiene texto, valores lgicos o celdas vacas, estos valores se pasan por alto; sin embargo, se incluirn las celdas con el valor cero. Si los argumentos matriz1 y matriz2 tienen un nmero diferente de puntos de datos, COEF.DE.CORREL devuelve el valor de error #N/A. Si el argumento matriz1 o matriz2 est vaco, o si s (la desviacin estndar de los valores) es igual a cero, COEF.DE.CORREL devuelve el valor de error #DIV/0! La ecuacin para el coeficiente de correlacin es:

Donde x e y son las medias de muestra PROMEDIO(matriz1) y PROMEDIO(matriz2).

36

Ejemplo

l.

COEFICIENTE DE SPEARMAN (No es una funcin EXCEL)

El Coeficiente de correlacin de Spearman, (rho), es una prueba no paramtrica que mide la asociacin entre dos variables discretas. Para calcular , los datos son ordenados y reemplazados por su respectivo orden. El estadstico viene dado por la expresin:

Donde D es la diferencia entre los correspondientes valores de x - y. N es el nmero de parejas. Se tiene considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de Student

37

La interpretacin de coeficiente de Spearman es igual que la del coeficiente de correlacin de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente. m. CONTAR (FORMULA UTIL PARA ALGUNOS CASOS) La hoja de clculo cuenta el nmero de celdas que contienen nmeros, adems de los nmeros dentro de la lista de argumentos. Utilice CONTAR para obtener el nmero de entradas en un campo numrico de un rango o de una matriz de nmeros. Sintaxis CONTAR(ref1;ref2;...) Ref1, ref2,... son de 1 a 30 argumentos que pueden contener o hacer referencia a distintos tipos de datos, pero slo se cuentan los nmeros. Observaciones Los argumentos que son nmeros, fechas o representaciones textuales de nmeros se cuentan; los argumentos que son valores de error o texto que no puede traducirse a nmeros se pasan por alto. Si un argumento es una matriz o referencia, slo se considerarn los nmeros en esa matriz o referencia. Se pasan por alto las celdas vacas, valores lgicos, texto o valores de error en la matriz o en la referencia. Utilice la funcin CONTARA si necesita contar valores lgicos, texto o valores de error.

Ejemplo

38

39

Bibliografa Sugerida

1.

Alegre, Helena; Baptista, Jaime Melo; Cabrera Jr., Enrique; Cubillo, Francisco; Duarte Patricia; Hirner, Wolfram; Merkel, Wolf y Parena, Renato, (2006) Performance Indicators for Water Supply Services, Second Edition. IWA. Guerrero G., Vctor Manuel, (2000) Estadstica Bsica para estudiantes de economa y otras ciencias sociales, Segunda Edicin, Fondo de Cultura Econmica. Microsoft- Excel (Asistente de ayuda). http://www.wessa.net/rankcorr.wasp: Coeficiente de Spearman. referencia para el clculo del

2. 3. 4.

40