Programa de Teleformación en Regulación de Servicios Públicos 2008

Módulos para Reguladores de las Américas

ADERASA-CEER/UADE-UTN

Unidad 1 Elementos de estadística descriptiva e inferencia estadística. Estimación lineal, caso general.

00 0

0

Índice 1. Una primera aproximación al Benchmarking en Regulación………………………………………………………………………. 1.1. El problema básico de la información asimétrica………………………………………………………………. 1.2. Esencia del Benchmarking y la Competencia por Comparación……………………………………………………. 1.3. La información en Benchmarking………………….. 2. Introducción a la estadística en Benchmarking……….. 2.1. Aspectos conceptuales…………………………………… 2.2. Introducción a la estadística con Excel…………. 3. Bibliografía Sugerida………………………………………………….

3

3

4 8 10 10 20 40

1

El objetivo principal de esta Unidad es presentar una sintética reseña de los conceptos relativos a benchmarking y mostrar elementos básicos estadísticos para el procesamiento y la presentación de datos numéricos.

1. Una primera aproximación al Benchmarking en Regulación

1.1. El Problema Básico de la Información Asimétrica
En la regulación basada en incentivos existen al menos cuatro objetivos básicos: 1. Crear fuertes incentivos a la minimización de costos, 2. Promover una inversión en capital eficiente, 3. Asegurar el recupero de los costos razonables de las empresas y un retorno justo sobre la inversión, e 4. Incentivar la revelación de información para mitigar la asimetría de información entre regulado y regulador. La asimetría de información entre el regulador y la empresa actúa en desmedro de los consumidores. Los operadores privados controlan la mayor parte de la información específica necesaria a los fines de la regulación, y tienen poco interés en diseminarla voluntariamente, a menos que tengan un incentivo a hacerlo. Muchos reguladores han intentado exigir la publicación de información. Varios han recurrido también a audiencias públicas para promover debates públicos sobre la información relevante.

2

Los resultados de estas experiencias en términos de reducción de la asimetría de información entre reguladores y operadores no han sido de lo más alentadores, y más de una década de experiencia en Latinoamérica muestra que el monitoreo del desempeño de los operadores monopólicos privados ha probado ser la parte más difícil de los procesos de reforma de los sectores de infraestructura encarados en la región. Los reguladores pueden remediar este problema de asimetría (al menos en parte) recurriendo a mejores fuentes de información sobre el potencial productivo de la empresa regulada. La importancia de contar con estimaciones confiables de este potencial productivo ha sido enfatizada por la discusión sobre cómo se determinan y revisan los precios máximos. Estos se determinan de modo de permitirle a un operador eficiente cubrir todos los costos económicos de prestación del servicio a lo largo o al final del período tarifario. Si el regulador sobreestima el nivel eficiente de costos, la empresa puede reducir sus costos al nivel eficiente y recibir así beneficios extraordinarios dentro del período tarifario. También puede disimular todo o parte de su potencial productivo, de modo de obtener mayores precios en la siguiente revisión tarifaria. En la primera opción, el nivel eficiente de los costos es rápidamente revelado, y el regulador cuenta así con una base más firme para determinar los precios en la siguiente revisión. En la segunda, las ineficiencias pueden mantenerse por largos períodos de tiempo. La comparación de la eficiencia relativa de varios monopolios regionales parece ser una herramienta potencialmente valiosa para reducir la asimetría de información inherente a la relación regulador-empresa. Esta realidad ha sido reconocida en muchos de los procesos de reforma de los sectores de infraestructura en América Latina. Los beneficios potenciales de medidas comparativas de eficiencia también han sido explícitamente reconocidos por más de 15 países de la OCDE en los que se implementó una similar separación horizontal de las empresas. Australia y el Reino Unido son los casos testigo de las ganancias regulatorias potenciales provenientes de la aplicación del benchmarking en la mayor parte de los sectores de infraestructura.

3

El atractivo de este procedimiento es que cada empresa recibe un precio que no depende de sus costos. servidas por igual número de empresas idénticas.2 Esencia del Benchmarking y la Competencia por Comparación Para ilustrar el mecanismo de competencia por comparación. sino de los costos de otros operadores. El ejemplo de las 100 empresas. permite identificar requisitos esenciales para el buen funcionamiento de la metodología de competencia por comparación: un buen número de empresas. Supongamos para un servicio público que existen 100 regiones idénticas. cada una con un monopolio regional en una región y un regulador común a todas las regiones se encarga de: recolectar información de cada una de las 100 empresas sobre los costos incurridos en la provisión del servicio. 4 . En lo que sigue. que sean comparables (en el ejemplo hacíamos el supuesto extremo de que las 100 tenían idénticos costos). a pesar de su sencillez. de modo que se le brindan máximos incentivos a la minimización de costos. profundizamos sobre estos requisitos básicos. con un regulador común.1. que cuente con información de las empresas. recurrimos a un sencillo ejemplo hipotético. permitirle a cada compañía cobrar una tarifa igual al costo promedio de las otras 99 empresas.

ej. como en otros contextos. y la cuestión que surge naturalmente es: ¿cómo hacerlas comparables? Existen factores externos que pueden influir sobre el desempeño relativo de las empresas. la aparición de prácticas concertadas tendientes a fijar precios o repartir cuotas de mercado. uno espera que el riesgo de colusión sea menor cuanto mayor sea el número de empresas.. Otra solución que se ha intentado en casos en los que se cuenta con pocos comparadores es la utilización de información de otras jurisdicciones (o países). pública/privada). estas variables que escapan al control de las empresas reciben el nombre de variables ambientales. impidiendo de tal modo utilizar técnicas avanzadas de análisis (como por ejemplo los cada vez más difundidos estudios de fronteras de eficiencia. cada uno accederá a un precio mayor. Otro inconveniente relativamente obvio surge cuando existen demasiado pocas empresas como para permitir un análisis estadístico razonable. sin embargo esta alternativa agudiza el problema de la comparabilidad.a) Número de empresas Así como la fusión entre dos o más empresas en un mercado disminuye el número de competidores efectivos y de ese modo puede facilitar. factores sobre las cuales éstas no tienen control directo. Un reducido número de empresas observadas durante varios años podrían ser suficientes para alcanzar un número razonable de observaciones sobre las cuales basar el análisis. Sin embargo. Las empresas suelen diferir en ampliamente en tamaño y características. algo similar ocurre con la competencia por comparación. En este sentido. b) Comparabilidad Un regulador rara vez tiene la buena fortuna de tener bajo su jurisdicción un gran número de empresas similares. En la literatura aplicada. Suelen incluir conceptos tales como diferencias en la propiedad (p. 5 . y características geográficas y de localización (toda vez que éstas suelen estar dadas en el contrato de concesión de los monopolios regionales). el problema del reducido número de comparadores se va diluyendo con el simple transcurso del tiempo. existe aquí el riesgo de colusión: si los operadores se ponen de acuerdo en mantener sus costos en niveles innecesariamente altos. Si el número de empresas involucradas en la comparación es pequeño (y con perspectivas de reducirse). Por otra parte. en caso de ausencia de políticas de defensa de la competencia. de modo de constituir un panel. que introduciremos más adelante). Un punto a tener en cuenta es que la escasez de empresas en una muestra de corte transversal puede mitigarse si se cuenta con series temporales.

pueden existir diferencias entre jurisdicciones. ya que existe el riesgo de cometer el error opuesto: incluir un número excesivo de variables. es el análisis vía modelos estadísticos de regresión. consistente en tratar de justificar ineficiencias específicas como ajenas a su accionar. una gran proporción de las empresas podría aparecer con un nivel de costos eficiente en la comparación. de manera no arbitraria. En el otro extremo del abanico de opciones. no porque efectivamente hayan logrado tal nivel de costos. El problema de las múltiples jurisdicciones plantea un inconveniente a la aplicación de la competencia por comparación en cada una de ellas. Esta práctica incrementa las chances de que las empresas sean declaradas eficientes “por default”: en una muestra de empresas. puede llegarse a una evaluación errónea de los niveles relativos de eficiencia de las mismas. en los costos medios dado un conjunto de características. las cuales permiten corregir los resultados por las diferencias ambientales de manera sencilla y natural. en todas sus alternativas. sino debido a la ausencia de empresas similares con las cuales realizar la comparación. c) Regulador común Una característica particular en algunos países es la intervención de múltiples jurisdicciones en el otorgamiento de las concesiones para operar el servicio. ya que en muchas sólo existe una empresa regulada (o unas pocas). la metodología de regresión más común y mejor entendida. dado que no se puede hacer una buena discriminación entre empresas eficientes y empresas ineficientes. Cuando el regulador falla en identificar aquellos factores externos (y sólo aquellos) que afectan el desempeño (o los costos). El problema se agrava cuando el número de dimensiones de comparación crece. Una solución a este inconveniente es el análisis de la información de otras jurisdicciones. Entonces. Las empresas tienen un incentivo a destacar sus diferencias y a argumentar que las mismas justifican sus mayores costos. por ejemplo. Una herramienta natural para incorporar estas características específicas de las empresas en la comparación. Si bien las distintas legislaciones pueden seguir lineamientos generales. la extracción de información útil a los fines regulatorios se ve minada. Por lo tanto. 6 . existe un “tradeoff” entre los beneficios de una mayor comparabilidad y los costos de la eficiencia “por default”.Si no se tienen en cuenta explícitamente las diferentes restricciones inherentes a las empresas. Tal práctica se ve facilitada grandemente cuando existe un ente con jurisdicción en todo el sector. lo cual genera dificultades para realizar un análisis estadístico razonable. Si el regulador está interesado. el regulador podría utilizar las ya mencionadas fronteras de eficiencia. aparece una oportunidad para un comportamiento estratégico de las empresas. entonces puede recurrir a una regresión de mínimos cuadrados ordinarios. Pero debe tenerse cuidado a la hora de seleccionar las variables ambientales a incluir en el análisis. generando el problema de que no exista un ente con poder sobre toda la operación capaz de aplicar el mecanismo de competencia por comparación entre todas las empresas.

Así. pero que deteriore la información disponible para el regulador puede no ser deseable. La separación horizontal de algunos segmentos de un monopolio natural permite obtener información comparativa sobre niveles relativos de eficiencia de las empresas.d) Información Una condición necesaria para que la implementación del benchmarking o la competencia por comparación aporte resultados confiables es la existencia de información detallada y abundante. Esto requiere la definición cuidadosa de las variables y de una metodología que aseguren efectuar comparaciones entre las empresas. existirán ventajas en términos de información de crear y mantener varias empresas (requisito (a)) similares (requisito (b)) con fines comparativos. La fusión de empresas que no reduzca sustancialmente los costos. las perspectivas de generación de información útil a los fines regulatorios debería ser un importante argumento en las decisiones de un gobierno sobre la estructura de una industria y la naturaleza del régimen regulatorio. En otras palabras. Una pregunta que surge naturalmente en el contexto del benchmarking y la competencia por comparación es si una cierta empresa verticalmente integrada debería ser dividida regionalmente a fin de reducir el monopolio de la empresa sobre la información y recurrir así a dichas metodologías comparativas. Cuando el cambio tecnológico es lento. Esta información puede luego ser usada para fijar tarifas para las compañías reguladas. En términos generales. existe un trade off entre la mayor efectividad de la regulación cuando existen varias empresas y la posible pérdida de economías de escala o de alcance acarreada por la separación. En algunas jurisdicciones en que existen demasiado pocas empresas como para permitir un análisis estadístico razonable. cuando una industria regulada sea básicamente una suma de varios monopolios locales. es altamente deseable contar con una buena base de información intra-jurisdiccional. adquiere mayor relevancia el análisis de la información de otras jurisdicciones. Es más probable que esto último sea así. La respuesta depende de varios factores. como expusiéramos anteriormente. la desintegración regional sólo es eficiente desde un punto de vista económico cuando se espera que los beneficios de contar con más información superen a las economías de escala y de alcance perdidas al separar horizontalmente. y para trasladar algunas de las ganancias de eficiencia a los usuarios. Por supuesto. un grado de correlación alto entre los ambientes de operación de las empresas hará relativamente más deseable la separación regional. al tiempo que se preservan los incentivos para las firmas para que reduzcan sus costos. Por ejemplo. el regulador en su rol de principal prefiere tener varios agentes (empresas) a fin de reducir la asimetría de información existente. 7 . Desde el punto de vista del regulador.

En este objetivo. Esta información debe comprender al conjunto de áreas y grupos de interés (stakeholders). La información del entorno: se trata de información inherente a las características y contexto de la empresa y las diferencias de ésta respecto de sus referentes. usuarios y entorno. índices u otros). sosteniendo un criterio amplio y dinámico. cuyo objetivo final es el de contribuir al menú de información relevante para el monitoreo. aquellos factores que si bien tienden a permanecer invariables en el corto o mediano plazo. Las variables por lo general son cuantitativas y su calidad va unida a la de los datos que las alimentan. condiciona sus decisiones y también. Los indicadores la mayoría de las veces son presentados como ratios entre variables (en porcentajes. si bien externo a la empresa. información de entorno o descriptivos.3. La Información en Benchmarking En benchmarking se utilizan regularmente indicadores de desempeño. Describe todo aquello que. Según su naturaleza. es importante distinguir entre datos e información relevante. pueden ser modificados en el largo plazo. analíticamente pueden ser considerados variables. De esta manera. Esta última esta conformada por un sistema de datos (cuantitativos y cualitativos) funcionales a la toma de decisiones. Las variables: son las utilizadas en el modelo analítico y según determinados criterios permiten la construcción de indicadores de desempeño. Los indicadores de desempeño (performance): son medidas de eficiencia y efectividad de la prestación del servicio. Permiten la comparación con indicadores similares de las empresas que hacen de referencia.1. podemos distinguir a: Los datos: son los relevados directamente de las fuentes informativas. 8 .

los datos deben ser de fuente oficial. definidos de manera unívoca. 20-50% (peor que ± 20% pero mejor que ± 50%) y >50% (peor que ± 50%). se adopta un criterio (IWA) que clasifica en cuatro categorías a los niveles de precisión y en tres a los de confiabilidad. de 5 a 20% (peor que ± 5% pero mejor que ± 20%). vale la mayor parte de lo mencionado para los indicadores y además. de carácter universal y no acomodados a casos particulares. entre otros. Para la precisión de los datos. Es importante tener en cuenta el problema de la “propagación de errores”. de extendida trayectoria y reconocidas y en su selección respetar el criterio de “maximizar el poder explicativo minimizando el número utilizado de variables”. pueden llegar a tener un efecto acumulativo importante. Cuando los datos no son del todo precisos y confiables. son aquellos que contribuyen a explicar los distintos niveles observados para los indicadores de desempeño. En su conjunto. de ser posible. resultan ser. 9 . En el caso de la información externa a la empresa. Los requerimientos de calidad para los indicadores de desempeño. las categorías se miden en bandas que van de mejor a peor: 0 a 5% (mejor o igual que ± 5%). deben tener una clara referencia geográfica y temporal. si no se cancelan entre sí. Las fuentes preferidas son aquellas que siendo ampliamente reconocidas. como así también seleccionados con rigurosidad en términos de una efectiva evaluación de los resultados. Estos errores. de razonable disponibilidad. En el caso de las variables e información de contexto. entre otros: clara y concisamente definidos.Factores explicativos: En el sistema de información. cada indicador de desempeño debe: proveer información significativamente diferenciada de cualquier otro indicador. provenir de fuentes confiables. presentan datos preparados según metodologías altamente calificadas. cuantificables y ajenos a subjetividades. pasibles de auditar. Éste surge cuando en el análisis una gran parte de los datos corresponden a los de la banda 0 a 5%. simples y fáciles de entender y. La confiabilidad se mide de mejor a peor: tres a una estrella.

Antes de iniciar con los conceptos básicos de la estadística de uso habitual en benchmarking es conveniente dar a conocer algunos elementos históricos relacionados con el termino “estadística”.2. En el curso utilizaremos una Base de Datos como referencia común a todas las unidades. inicialmente se designó como estadística a lo relacionado con el estado. la idea es presentar en esta Unidad algunos conceptos preliminares de Estadística Descriptiva. comenzó a desarrollarse la estadística teórica. Este término tiene sus raíces en el vocablo latino status utilizado en la Edad Media para denotar un estado político. Introducción a la Estadística en Benchmarking 2. Con el correr del tiempo y la necesidad de descripciones más concisas. Posteriormente. De esta manera. con la cual se conformó la disciplina tal como se la conoce en la actualidad. Así pues. los métodos descriptivos representan hoy una parte muy pequeña de las herramientas estadísticas existentes. No obstante. en particular para estimar la frontera de eficiencia. Aspectos Conceptuales En el análisis de benchmarking se utiliza habitualmente estadística y econometría.1. se la expresó en forma numérica. que surgió para ordenar los métodos ya existentes y desarrollar métodos innovadores. 10 . Algunos de los datos de dicha Base podrán ser alterados por los docentes según los requerimientos de tema tratado. La mayor parte de las primeras aplicaciones de la estadística consistió básicamente en la presentación de datos en forma de tablas y gráficos (estadística descriptiva). que nos harán más amigable abordar la Unidad dedicada a Econometría.

Medidas de posición central Es preferible trabajar con medias que resuman de alguna forma todos los datos. la media viene dada por la ecuación (0. En economía usualmente sólo contamos con una sola muestra. Existen varias formas de medir estas medidas. Muestra: es un subconjunto de la población. en general es imposible o demasiado costoso recopilar toda la información concerniente a la población asociada a un determinado fenómeno. (Figura 1) Media: la llamada media aritmética (o promedio) es sin duda la medida más utilizada de posición central. en vez de trabajar con todos ellos simultáneamente. las medidas de posición central y de dispersión son las más frecuentes en la práctica. Cuando se desea dividir los datos en dos grupos.El fenomenal crecimiento que ha tenido la estadística en los últimos 60 o 70 años se debe principalmente a los avances que ha habido en la llamada inferencia estadística. de modo que cada uno de ellos contenga exactamente el mismo número de valores. Si ponemos una variable Xi que adopta N valores. (Ver figura 1). Particularmente. 1. la mediana resulta ser el punto de división apropiado. Esta medida no es más que la suma de todos los valores considerados dividida por el número total de valores del conjunto. aunque aquí solo presentaremos las más utilizadas. Este conjunto constituye información limitada e imperfecta de la población. Además. En este caso es habitual tomar el promedio de esos dos valores. como no brindar ninguno. para hallar la mediana basta con ordenar los datos de mayor a menor y tomar el valor que divide la muestra a la mitad. nótese que la moda puede ser una inadecuada medida de posición central. Los valores individuales pertenecientes a una muestra se llaman observaciones. Explicar los datos a utilizar El propósito principal que vamos a buscar al utilizar las herramientas estadísticas es intentar establecer en qué medida los datos que poseemos pueden brindarnos información relevante sobre algunas características importantes de la población (sus parámetros poblacionales).1): 11 . Población Estadística: cualquier conjunto de datos cuantificables puede llamarse una población si ese conjunto de datos está constituido por todos los valores de interés (no es posible ampliar el conjunto de datos). así como de la predicción y estimación de las relaciones entre dos o más variables. existirán dos valores que dividen a la muestra en dos. Este campo se ocupa de la formulación de generalizaciones. Moda: este es el valor de la muestra que se aparece el mayor número de veces. Si la muestra es par. Mediana: Es el valor central en un conjunto de datos ordenadas según su magnitud. Una de las principales desventajas de esta medida es que en una muestra puede brindar más de un valor. porque el valor que se presenta con mayor frecuencia no siempre está cerca del centro de los datos. Por desgracia. Es decir.

Imagínese que si usted se guía por la temperatura promedio anual de una determinada ciudad (supongamos 15º). declarase: “En promedio. A su vez. teniendo la cabeza metida en un frigorífico y los pies en un horno. seguramente no hubiese hecho esto. Ventajas y desventajas de cada medida La media es la medida de posición central que más se usa. Hay que recordar que estas medidas de posición no son las únicas (i. Medidas de dispersión Las medidas de posición no suelen ser lo suficientemente adecuadas si no van acompañadas de una medida de dispersión. podría ser comparado con una persona que. Quién base sus juicios sólo en la media.. 12 . Esto es así porque la media geométrica da igual peso a los cambios de igual importancia relativa. esta es la principal ventaja de la media aritmética y la que la hace más confiable. La media geométrica es una medida de posición central que resulta particularmente apropiada cuando los datos están expresados en términos relativos. 3..e: la media geométrica). debido a que utiliza toda la información disponible para su cálculo.1) x = x1 + x2 + . ya que toma en cuenta la diferencia entre todos los valores y no simplemente su posición (como ocurre con la mediana) o su frecuencia (como ocurre con la moda). tales como las razones de variación o variaciones relativas.(0. En caso de contar con una buena medida de dispersión. + xn 1 = N N ∑x i =1 N i Ejemplo 1 2. Tiene la desventaja de que los valores extremos la afectan más que a la mediana y que a la moda. me siento muy bien”. y no sólo una parte de ella. estaría saliendo de su casa con un abrigo liviano en un día donde quizás la temperatura se encuentra en un nivel bajo cero.

Este inconveniente de la varianza da lugar a la otra medida de dispersión que es el desvío estándar. Finalmente. el valor absoluto de la diferencia entre los valores máximos y mínimos). El desvío estándar no es más que la raíz cuadrada de la varianza y lo denotamos con la letra s.2) s 2 = 1 N ∑ (x − x ) i =1 i N 2 Observemos que dado que se usan las desviaciones con respecto a la media. la unidad de medida de la varianza es el cuadrado de la unidad de medida de la media. la media se refiere a temperatura medida en grados centígrados. Así. Si. las medidas de dispersión que presentan mejores propiedades son aquellas con respecto a la media. a medida que este coeficiente es mayor. el desvió estándar y la varianza son las más utilizadas en la práctica. No obstante. otra medida que es poco utilizada pero que posee la ventaja de dar una idea de la magnitud del desvío estándar en la muestra analizada es el coeficiente de variación. Es más. su valor es independiente de esta. Este coeficiente no es más que el desvío estándar sobre la media. Por esta razón. Desviación estándar y Varianza El problema que aparece si tomamos cada una de las observaciones y calculamos su . No obstante. es que la suma de cada término será cero. 13 . Lo opción más simple sería considerar el rango de valores (es decir. i En consecuencia. desvió con respecto al valor medio. mayor la importancia del desvío. Las conclusiones más efectivas se obtienen cuando se utilizan conjuntamente ambos tipos de medida. cuya expresión viene dada por la ecuación (0. Como puede intuirse. el promedio de las desviaciones también es siempre igual a cero. el método tradicional para medir la variabilidad de un conjunto de datos i . la varianza (al igual que la media) depende de la unidad de medida de los datos. existen muchas formas de medir la dispersión.3) s = 1 N ∑ (x − x ) i =1 i 2 . N (0. las medidas de dispersión por sí solas son tan insuficientes para tomar decisiones como las medidas de posición por sí solas. Así. Dentro de este grupo. Este consiste en obtener el promedio de los cuadrados de las desviaciones promedio recibe el nombre de varianza (s2).2): x −x ( x − x )2 (0.Al igual que en el caso de las medidas de posición. la unidad de la varianza será grados al cuadrado (lo cuál posee poco sentido). y que se encuentra expresada en las mismas unidades que los datos originales. por ejemplo.

en primer lugar. (b) es aconsejable que hayan entre 6 y 15 intervalos. uno estaría indiferente entre un caballo u otro. No obstante.4): (1. Veamos el siguiente ejemplo: Ejemplo 2 14 . Dentro de los puntos importantes a tener en cuenta están: (a) los intervalos deben ser de igual tamaño. Distribución de frecuencias Al construir una tabla de frecuencias es necesario. siendo su ecuación (1. tanto el caballo A como el caballo B salen en 2º lugar. si a estos datos le agregamos que el desvío estándar del caballo A es de 5 puestos. Se la mide como porcentaje. Coeficiente de variación o de dispersión Se lo calcula a partir de dividir a la Desviación Estándar por la Media. Con esta información. Una de las opciones existentes es apostar a que el caballo que usted elige va a salir entre los tres primeros. Permite superar el problema de los valores absolutos de la Varianza y la Desviación Estándar cuando se pretende comparar dos o más series de datos.4) CV = s × 100 x 4.Ejemplo: Suponga que usted va al hipódromo a realizar una apuesta. Ahora suponga que en promedio. dividir los datos en un número limitado de categorías o clases diferentes. y luego registrar el número de veces (la frecuencia) que una observación cae en cada uno de los intervalos. podremos afirmar sin lugar a dudas que el caballo B definitivamente constituye una apuesta más segura. mientras que el desvió estándar del caballo B es de 1 puesto. Observemos cómo ninguna de las dos medidas por separado nos llevaría a una buena decisión. y (c) hay que definir los intervalos de manera tal que ninguna observación caiga en más de un intervalo simultáneamente.

La representación de los datos del ejemplo 2 que se encuentran graficados en la Figura 1. la llamada función de densidad (o distribución de probabilidad) enumera todos los resultados posibles y la probabilidad de que ocurra cada uno. las variables aleatorias continuas pueden adoptar cualquier valor dentro de la línea de los reales. Mientras que una variable aleatoria discreta puede adoptar un conjunto acotado de valores (comúnmente se pueden contar. La figura (a) muestra una función de densidad de una variable con poca dispersión. pero no medir). Una forma sencilla de interpretar una función de densidad es pensarla como una aproximación continua del histograma. Figura 1 5. La figura 2 brinda dos ejemplos de función de densidad para una variable aleatoria continua. mientras que la (b) muestra la función de una variable con mucha dispersión (ambas variables poseen un valor medio igual a cero). De esta forma.La tabla de frecuencia brinda una representación gráfica útil que se denomina histograma. Variable Aleatoria y Función de Densidad Variable Aleatoria: una variable aleatoria es una variable que toma valores alternativos. Usualmente es útil distinguir entre variables aleatorias discretas y variables aleatorias continuas. cada uno con una probabilidad menor o igual a 1. 15 .

al igual que la distribución del grado de perfección de diversos procesos de producción. La forma de llevar a cabo el test va a depender de la forma de la distribución de los datos. Las dos hipótesis que entran en conflicto en este tipo de test se denominan hipótesis nula e hipótesis alternativa. se ha convertido en un patrón de referencia para muchos problemas probabilísticos. pero no puede quedar fuera de ambas. la probabilidad de que nuestra variable adopte un valor menor a –2 viene dado por el área de la región sombreada en la figura 1.Figura 2 La probabilidad de que un valor particular se encuentre en un rango de valores viene dada por el área bajo la función de densidad continua entre esos dos valores. La distribución de los errores de medida tienden a ser normales. 6. 16 . Muchos fenómenos naturales tienden a dar como resultado una distribución normal. Debido a que la distribución describe satisfactoriamente muchos fenómenos. y es simétrica. Una observación que es importante es la siguiente: cuando uno construye una prueba de hipótesis. b). Distribución Normal La distribución normal es la más conocida y usada de todas las distribuciones. La distribución normal es una distribución de probabilidad continua en forma de campana. se describe completamente por su media y su varianza. Por ejemplo. Pruebas de Hipótesis El propósito principal de las pruebas de hipótesis es hacer posible una elección adecuada entre dos hipótesis que se refieren al valor de un determinado parámetro. el resultado que uno obtenga debe caer dentro de la hipótesis nula o dentro de la hipótesis alternativa.

La probabilidad de cometer un error de tipo I se denota con la letra griega alfa ( α ) y recibe el nombre de nivel de significación. Al establecer un nivel de significación pequeño se ignora la probabilidad de cometer un error de tipo II. entre menor sea el valor p estaremos más seguros de rechazarla. es más probable que será un error rechazar la hipótesis nula. Dado que el método estándar para resolver estos problemas de decisión consisten. Entre mayor es el valor p. o rechazar la hipótesis nula . El complemento de esta probabilidad es ( 1 − β ) = Prob(rechazar Ho/Ho es falsa) y se llama potencia de la prueba. La regla práctica a seguir es la siguiente: Si p es menor a Si p es mayor a α α : se rechaza Ho : se acepta Ho Recordemos que el nivel de significación α es establecido arbitrariamente por el investigador. Puesto que la decisión de aceptar o rechazar Ho se basa en probabilidades y no en certezas. mientras que el valor p es un valor empírico que surge del test.Para elegir entre aceptar la hipótesis nula . 17 . de aceptar una hipótesis nula falsa) se denota por la letra β .(lo que equivale a rechazar la alternativa). b. es decir. Error de Tipo I: Este es el error que se cometería si se rechaza una hipótesis nula cuando en realidad es verdadera. el nivel de confianza de una prueba viene dado por ( 1 − α ) y refleja la probabilidad de que uno acepte Ho cuando Ho es efectivamente verdadera.(aceptando la alternativa). Valores P Un valor p mide la probabilidad de un error de tipo I . Error de Tipo II: Este error se da cuando se acepta la hipótesis nula cuando esta en realidad es falsa. en admitir que la hipótesis nula es verdadera. la probabilidad de rechazar en forma incorrecta una hipótesis nula correcta. Por otro lado. siempre será deseable que el test tenga una potencia alta cuando Ho es falsa. Específicamente existen dos tipos de error: a. es usual establecer un valor de alfa chico para realizar el test (usualmente 5% o 10%). La probabilidad de cometer una error de tipo II (o sea. puesto que es el poder que tiene la prueba de reconocer correctamente que la hipótesis nula es falsa ( y que por tanto debe rechazarse Ho). es pensar al mismo cómo la probabilidad de que la hipótesis nula sea verdadera.Ha .Ho . el adoptador de decisiones tiene como única base la evidencia muestral. Así. al tomar la decisión existen posibilidades de error. primero. Nota: Una forma sencilla (aunque no estrictamente correcta) de comprender el valor p.

y tendrá un promedio cercano a cero. X e Y. la covarianza positiva nos dice que existe una dependencia lineal positiva entre las dos variables. Si no hay relación entre las variables entonces la covarianza es cero. De esta forma. negativo para otros. el producto de ambos miembros será negativo. el interés reside en saber si cuando una de las variables posee valores “altos”. esta medida nos dice si existe una relación lineal entre dos variables aleatorias y su expresión viene dada por: (0.4) S xy = ∑ i =1 N ( xi − x )( yi − y ) N Observemos detenidamente la formula. Si la covarianza es cero entonces no existe una relación lineal (pero puede existir relación). la otra posee valores “altos” o “bajos”. Así el producto ( x − x )( y − y ) será positivo para algunos puntos. ¿Qué par posee una relación lineal más fuerte? S xy = 98 S zw = 6969 18 . ¿Qué significa que la covarianza sea cero? Esto significa que las desviaciones correspondientes. ( x − x ) y ( y − y ) .7. Particularmente. Supongamos que tenemos dos pares de variables y disponemos de la siguiente información. Así. tendrían el mismo signo algebraico para algunos puntos y signos opuestos para otros puntos. Si cuando la variable x posee valores por encima de su valor medio. Que la covarianza sea cero quiere decir que no existe relación lineal entre las variables lo cuál no significa que no exista relación entre las variables. la variable y tiene valores por debajo de su media. ¿Qué estamos diciendo al afirmar que la covarianza entre dos variables es positiva? Lo que estamos diciendo es que en promedio los valores altos (en relación a la media) de x se relacionan con valores altos de y. el producto de ambos miembros será positivo. Medidas de relación entre dos variables Muchas veces uno está interesado en conocer la relación que existe entre una y otra variable. cuando la variable x posee valores por encima de su valor medio. Si tenemos dos variables. la variable y también posee valores por encima de su valor medio. Si por el contrario. la covarianza entre esta dos variables se define como el promedio del producto de estas variables medidas en desviaciones con respecto a sus media.

no podemos responder a esa pregunta. 19 . el coeficiente de correlación es independiente de la escala de medición. utilizando el coeficiente de correlación lineal: ρ= sxy sx s y A diferencia de la covarianza. El mismo está siempre entre –1 y +1. Uno de los problemas de esta medida es que no dice nada acerca de la causalidad de las variables.Lamentablemente. Se puede eliminar este problema al estandarizar su valor. Es difícil utilizar la covarianza como una medida absoluta de dependencia lineal porque su valor depende de la escala de medición y por consiguiente es difícil determinar si una covarianza en particular es grande o chica a simple vista.

para la teoría estadística. Adicionalmente y a los efectos de la ejercitación de los participantes. junto con la mediana y la moda constituyen. Podemos también explorar las opciones que se muestran en la ventana. cliquear Herramientas →Análisis de Datos →Estadística Descriptiva. La utilidad de la media reside en el hecho de que los datos estadísticos (alturas de las personas. Basta con “pintar” la serie con el “Mouse”. recurriendo al respectivo menú de ayuda. a. lo cual no quita el método pueda extenderse a otras planillas opcionales. medidas de tendencia central.2. Se irán definiendo las distintas medidas estadísticas según se presentan en la hoja de cálculo EXCEL. MEDIA (PROMEDIO) La media (o media aritmética). La media aritmética de una cantidad finita de números. le podemos pedir a la planilla de cálculo que nos presente un informe estadístico. le damos un rango de salida. precios en el mercado) tienen a concentrarse alrededor de un valor central. Introducción a la Estadística con Excel Esta sección tiene un enfoque práctico. es igual a la suma de todos ellos dividida entre el número de sumando. ventas del año. se presenta una base de datos.2. En primer lugar para cualquier serie. a partir de uso del empleo de la planilla de cálculo EXCEL. 20 . La hoja de cálculo devuelve el promedio de los argumentos. la cual será utilizada asimismo durante todo el curso con el mismo propósito.

3. Seleccione el ejemplo en el tema de Ayuda. Ejemplo El ejemplo puede resultar más fácil de entender si lo copia en una hoja de cálculo en blanco. matrices o referencias que contengan números. en el menú Herramientas. 1. seleccione la celda A1 y presione CTRL+V. son entre 1 y 30 argumentos numéricos cuyo promedio Cuando se esté calculando el promedio de celdas. Si el argumento matricial o de referencia contiene texto. Cree un libro o una hoja de cálculo en blanco. haga clic en Modo de auditoría de fórmulas. Para alternar entre ver los resultados y ver las fórmulas que devuelven los resultados. Presione CTRL+C. a continuación. En la hoja de cálculo. . Las celdas vacías no se cuentan pero sí los valores cero. tenga en cuenta la diferencia existente entre las celdas vacías. 4. presione CTRL+` (acento grave) o.. valores lógicos o celdas vacías. 5. 21 . No seleccione los encabezados de fila o de columna... Observaciones Los argumentos deben ser números o nombres.número2.) Número1. se incluirán las celdas con el valor cero.. desea obtener. de manera especial si ha quitado la marca a la casilla Valores cero en la ficha Ver (comando Opciones en el menú Herramientas). número2. estos valores se pasan por alto. sin embargo. elija Auditoría de fórmulas y.Sintaxis PROMEDIO(número1. 2..

b. La mediana es el número (no necesariamente perteneciente a la serie) que se encuentra en medio de un conjunto de números. se tiene valores muy extremos. Sintaxis MEDIANA(número1. número2. cuando una decisión se debe sustentar en apenas unos pocos experimentos o cuando para una serie. Vea la segunda fórmula del ejemplo. la mitad de los números es mayor que la mediana y la otra mitad es menor. valores lógicos o celdas vacías.. se incluirán las celdas con el valor cero. MEDIANA Es la medida de tendencia central que generalmente se encuentra más cerca de la media. MEDIANA calcula el promedio de los números centrales. 22 .) Número1.. matrices o referencias que contengan números. . son entre 1 y 30 números cuya mediana desea obtener. Microsoft Excel examina todos los números en cada argumento matricial o de referencia. estos valores se pasan por alto. Se la utiliza. Si la cantidad de números en el conjunto es par. La hoja de cálculo devuelve la mediana de los números. es decir. Observaciones Los argumentos deben ser números o nombres. Si el argumento matricial o de referencia contiene texto.. por ejemplo.número2. sin embargo.. .

se dice que la serie tiene una distribución bimodal si son tres los datos que “empatan” se dice que es trimodal.... 23 . algún valor “empata” con otro.) Número1. . Sintaxis MODA(número1.Ejemplo c. que el 50% de los valores de una serie es tal o cual o. MODA es una medida de posición. número2.número2. MODA La moda es el valor o valores que más repite en la serie. Si en el número de repeticiones. son de 1 a 30 argumentos cuya moda desea calcular. que ésta es de distribución bimodal. .. La moda es una medida complementaria de la media y de la mediana. Al igual que MEDIANA. Puede ser muy importante saber por ejemplo. También puede utilizar una matriz única o una referencia matricial en lugar de argumentos separados con punto y coma. La hoja de cálculo devuelve el valor que se repite con más frecuencia en una matriz o rango de datos.

Observaciones Los argumentos deben ser números. valores lógicos o celdas vacías. nombres. matrices o referencias que contengan números. MODA devuelve el valor de error #N/A. Ejemplo 24 . En un conjunto de valores. estos valores se pasan por alto. Supongamos que los datos están agrupados en tres áreas. sin embargo. la mitad de las cuales es un valor bajo que se repite y la otra mitad consiste en dos valores elevados. Ninguna de estas medidas de la tendencia central tomada individualmente proporciona una imagen completa de los datos. la mediana es el valor central y la media es el valor promedio. la moda es el valor que se repite con mayor frecuencia. Si el conjunto de datos no contiene puntos de datos duplicados. y MODA devolverá el valor bajo dominante. Tanto PROMEDIO como MEDIANA devolverán un valor situado en una zona central relativamente vacía. Si el argumento matricial o de referencia contiene texto. se incluirán las celdas con el valor cero.

el valor de la media será más representativo que en el segundo. se dice que esta última posee una mayor variabilidad y por lo tanto una varianza mayor. En el primer caso.) Número1.. pero en cambio.d. una mayor varianza para algún activo significa también un mayor riesgo. éste se restaría de los desvíos positivos haciendo que la medida de variabilidad quede subestimada.…) y n es el tamaño de la muestra. número2. la mayoría de la serie de datos de una muestra se encuentran muy próximos al valor que le corresponde como media. en alguna otra serie la mayoría de los datos aparecen muy alejados de su propia media. Si sus datos representan la población total. Está relacionada con la desviación estándar o desviación típica. La varianza es el promedio del cuadrado de los desvíos respecto de su media. Cada desvío es elevado al cuadrado para cubrir –en el cálculo de la medida... En finanzas. 25 . En la literatura aparece como “S2”. . es decir datos tomados de un conjunto más amplio de datos (el universo). utilice VARP para calcular la varianza. La varianza es un estimador de la dispersión de una variable aleatoria X de su media E[X]. VAR utiliza la fórmula siguiente: Donde x es la media de muestra PROMEDIO(número1. como VERDADERO y FALSO. .número2. De ser así. Observaciones La función VAR parte de la hipótesis de que los argumentos representan una muestra de la población. que se suele denotar por la letra griega σ y que es la raíz cuadrada de la varianza. VARIANZA MUESTRAL (VAR) Y VARIANZA Es una medida de la variabilidad de una serie de datos de una muestra. y el texto.el caso de que éste adopte un valor negativo. Si por ejemplo. son de 1 a 30 argumentos numéricos correspondientes a una muestra de una población. utilice la función de hoja de cálculo VARA.número2.. La hoja de cálculo calcula la varianza en función de una muestra. Sintaxis VAR(número1. Si los valores lógicos y el texto no se deben pasar por alto. Se pasan por alto los valores lógicos.

simbolizada habitualmente como “σ2” (sigma al cuadrado). Si no se tratase de una muestra sino de un universo de datos. se toma (n-1) en el denominador.Siendo el valor de la muestra n. determinan a éste último. Debido a que se asume que en una muestra todos los datos menos uno. el denominador sería “N” (datos del universo) y en lugar de varianza muestral cabe denominarla varianza a secas. 26 . Ejemplo Supongamos que 10 herramientas forjadas en la misma máquina durante el mismo proceso de producción son elegidas como una muestra aleatoria y medimos su resistencia a la ruptura.

La desviación estándar se calcula utilizando los métodos "no sesgada" o "n-1". número2.…) y n es el tamaño de la muestra.. También puede utilizar una matriz única o una referencia matricial en lugar de argumentos separados con punto y coma. En la literatura se la simboliza con una “S” Sintaxis DESVEST(número1.. utilice la función de hoja de cálculo DESVESTA. La desviación estándar muestral es la medida de la dispersión de los valores respecto a la media (valor promedio).. . 27 . Se pasan por alto los valores lógicos como VERDADERO y FALSO y el texto. . son de 1 a 30 argumentos numéricos correspondientes a una muestra de una población.) Número1.. Observaciones DESVEST parte de la hipótesis de que los argumentos representan la muestra de una población.e. Ejemplo Supongamos que 10 herramientas forjadas en las misma máquina durante el mismo proceso de producción son elegidas como una muestra aleatoria y medimos su resistencia a la ruptura.número2. DESVEST utiliza la fórmula siguiente: Donde x es la media de muestra PROMEDIO(número1. si se tratase del conjunto de datos del universo el divisor sería “N” (datos del universo) y la medida correspondería a la desviación estándar. Si sus datos representan la población total. simbolizada como “σ” (sigma). es la raíz cuadrada de la varianza muestral. Si los valores lógicos y el texto no deben pasarse por alto. Como se mencionó anteriormente. utilice DESVESTP para calcular la desviación estándar. DESVIACIÓN ESTÁNDAR (DESVEST) La hoja de cálculo calcula la desviación estándar muestral en función de un ejemplo. Como en el caso anterior. número2.

Si el argumento matricial o de referencia contiene texto. sin embargo. Sintaxis ERROR. Conocido_x es una matriz o un rango de puntos de datos independientes.conocido_x) Conocido_y es una matriz o un rango de puntos de datos dependientes.f. valores lógicos o celdas vacías.TIPICO. se incluirán las celdas con el valor cero. ERROR.TIPICO. El error típico es una medida de la cuantía de error en el pronóstico del valor de y para un valor individual de x. Observaciones Los argumentos deben ser números o nombres.XY(conocido_y. matrices o referencias que contengan números. 28 .XY La hoja de cálculo devuelve el error típico del valor de y previsto para cada x de la regresión. estos valores se pasan por alto.

Ejemplo y g. mientras que una curtosis negativa indica una distribución relativamente plana. La curtosis caracteriza la elevación o el achatamiento relativos de una distribución. CURTOSIS La hoja de cálculo devuelve la curtosis de un conjunto de datos. 29 . Una curtosis positiva indica una distribución relativamente elevada. comparada con la distribución normal. Si los argumentos conocido_y y conocido_x están vacíos o contienen un número diferente de puntos de datos.TIPICO. ERROR. La ecuación para el error típico del valor y pronosticado es: Donde x e y son las medias de muestra PROMEDIO(conocido_x) PROMEDIO(conocido_y) y n es el tamaño de la muestra.XY devuelve el valor de error #N/A.

son de 1 a 30 argumentos cuya curtosis desea calcular. se incluirán las celdas con el valor cero.. Si el argumento matricial o de referencia contiene texto. Observaciones Los argumentos deben ser números o nombres. . valores lógicos o celdas vacías. 30 .Sintaxis CURTOSIS(número1. matrices o referencias que contengan números..) Número1. estos valores se pasan por alto. .número2.. número2.. la función CURTOSIS devuelve el valor de error #¡DIV/0! CURTOSIS se define como: Donde s es la desviación estándar de la muestra. sin embargo. También puede utilizar una matriz única o una referencia matricial en lugar de argumentos separados con punto y coma. Si existen menos de cuatro puntos de datos o si la desviación estándar de la muestra es igual a cero.

) Número1.. COEFICIENTE. Observaciones Los argumentos deben ser números o nombres.. estos valores se pasan por alto. .número2.h. sin embargo. matrices o referencias que contengan números. son de 1 a 30 argumentos cuya asimetría desea calcular. COEFICIENTE. se incluirán las celdas con el valor cero.ASIMETRIA devuelve el valor de error #¡DIV/0! 31 .ASIMETRIA La hoja de cálculo devuelve la asimetría de una distribución. También puede utilizar una matriz única o una referencia matricial en lugar de argumentos separados con punto y coma. Si el número de puntos de datos es menor que tres o si la desviación estándar de la muestra es cero. La asimetría positiva indica una distribución unilateral que se extiende hacia valores más positivos. Si el argumento matricial o de referencia contiene texto. número2 . Esta función caracteriza el grado de asimetría de una distribución con respecto a su media. La asimetría negativa indica una distribución unilateral que se extiende hacia valores más negativos.. Sintaxis COEFICIENTE.ASIMETRIA(número1. valores lógicos o celdas vacías..

Utilice la covarianza para determinar las relaciones entre dos conjuntos de datos. Por ejemplo. COVARIANZA (COVAR) Una extensión y hasta podría decirse generalización del estadístico varianza. es de la covarianza. Es un indicador de la relación entre dos variables. Matriz2 es el segundo rango de celdas de números enteros. mayor relación entre las variables comparadas. La ecuación para la asimetría se define como: Ejemplo i. Sintaxis COVAR(matriz1.matriz2) Matriz1 es el primer rango de celdas de números enteros. 32 . A mayor valor de la covarianza. o promedio de los productos de las desviaciones para cada pareja de puntos de datos. puede investigar si unos ingresos más elevados se corresponden con niveles de estudios más altos. La hoja de cálculo devuelve la covarianza.

sin embargo. Ejemplo PROMEDIO(matriz1) y 33 . matrices o referencias que contengan números. COVAR devuelve el valor de error #¡DIV/0! La covarianza es: Donde x e y son las medias de muestra PROMEDIO(matriz2) y n es el tamaño de la muestra. Si los argumentos matriz1 y matriz2 tienen números distintos de puntos de datos.Observaciones Los argumentos deben ser números o nombres. COVAR devuelve el valor de error #N/A. se incluirán las celdas con el valor cero. Si los argumentos matriz1 o matriz2 están vacíos. estos valores se pasan por alto. Si el argumento matricial o de referencia contiene texto. valores lógicos o celdas vacías.

Entonces.alfa)%. INTERVALO DE CONFIANZA (INTERVALO.05 indica un nivel de confianza de 95%. Esta suposición es muy útil. suponga que utilizamos x. y la rechazaremos en caso de que µ0 no esté en el intervalo de confianza. El intervalo de confianza es un intervalo de valores. Tamaño es el tamaño de la muestra. es decir. desv_estándar y tamaño para crear una prueba de dos colas con un nivel de importancia alfa de la hipótesis consistente en que la media de la población es µ0. la probabilidad de obtener una media de muestra más alejada de µ0 que de x es menor que alfa.CONFIANZA es un intervalo de medias de la población.desv_estándar. 34 . si x es la media de una muestra de tiempos de entrega de productos encargados por correo electrónico. está en el centro de este intervalo. y el intervalo es x ± INTERVALO. La hoja de cálculo devuelve un valor que se puede utilizar para construir un intervalo de confianza para una media de una población. no rechazaremos la hipótesis si µ0 está dentro del intervalo de confianza.j. Para cualquier media de población µ0 (en este intervalo). Desv_estándar es la desviación estándar de la población para el rango de datos y se presupone que es conocida. x ± INTERVALO. Es decir el precio se ubica entre los $9 y los $ 11.CONFIANZA) Se utiliza cuando en lugar de una estimación puntual (dada por un solo número) se trabaja con una estimación por intervalo. Es decir. un alfa de 0.CONFIANZA(alfa. Es decir el estimador se encuentra dentro de una banda limitada por dos números.tamaño) Alfa es el nivel de significación utilizado para calcular el nivel de confianza. La distribución normal o de Gauss. Sintaxis INTERVALO. Por ejemplo. ya que en la práctica los datos o variables se concentran alrededor de la media tomando la forma de la campana de Gauss tal como se la se puede encontrar en los textos de estadística.CONFIANZA. El nivel de confianza es igual a 100(1 . x. el precio medio de un producto X se encuentra dado por $ 10 ± $ 1. Por ejemplo. es la más utilizada como supuesto de distribución de los datos. la probabilidad de obtener una media de muestra más alejada de µ0 que de x es mayor que alfa. El intervalo de confianza no nos permite inferir que hay una probabilidad 1 – alfa de que el tiempo de entrega del próximo paquete que encarguemos estará dentro del intervalo de confianza. para cualquier media de población µ0 (fuera del intervalo). La media de la muestra. En la mayoría de los casos se establece un intervalo de confianza partir de la su posición de que el estadístico tiene una distribución normal o de Gauss.

3.CONFIANZA devuelve el valor de error #¡NUM! Si el argumento tamaño no es un entero. 35 .CONFIANZA(0. INTERVALO.69291 = aprox.05.05.CONFIANZA devuelve el valor de error #¡NUM! Si el argumento desv_estándar ≤ 0.5. INTERVALO.05. la probabilidad de obtener una media de muestra más alejada de µ0 que de 30 es mayor que 0. para cualquier media de población µ0 (fuera de este intervalo). Este valor es ± 1. se tendrá que calcular el área debajo de la curva normal estándar que es igual a (1 .alfa) o 95%. el intervalo de confianza es: Ejemplo Suponga que observamos que en nuestra muestra de 50 personas que realizan diariamente un trayecto. Por lo tanto. [29. 2. se trunca.5. Con alfa = 0. INTERVALO.05. la distancia media de viaje es 30 minutos con una desviación estándar de la población de 2. INTERVALO.Observaciones Si uno de los argumentos no es numérico. El intervalo de confianza correspondiente será entonces 30 ± 0.05.CONFIANZA devuelve el valor de error #¡NUM! Si suponemos que el argumento alfa es igual a 0. 30.7].69291. Si el argumento tamaño < 1. la probabilidad de obtener una media de muestra más alejada de µ0 que de 30 es menor que 0. INTERVALO. 50) devuelve 0. Para cualquier media de población µ0 (en este intervalo).96. Asimismo.CONFIANZA devuelve el valor de error #¡VALOR! Si alfa ≤ 0 o alfa ≥ 1.

se incluirán las celdas con el valor cero.CORREL(matriz1. valores lógicos o celdas vacías.DE. Sintaxis COEF.DE. estos valores se pasan por alto. COEF.CORREL devuelve el valor de error #¡DIV/0! La ecuación para el coeficiente de correlación es: Donde x e y son las medias de muestra PROMEDIO(matriz1) y PROMEDIO(matriz2).CORREL devuelve el valor de error #N/A.k. Si el argumento matriz1 o matriz2 está vacío.CORREL) El coeficiente de correlación (lineal) mide la relación entre dos variables. Si los argumentos matriz1 y matriz2 tienen un número diferente de puntos de datos. Su valor va de -1 ≤ ρ ≥ 1. COEFICIENTE DE CORRELACIÓN (COEF. o si s (la desviación estándar de los valores) es igual a cero. Un valor cero indica relación nula entre éstas. un valor de -1 indica fuerte correlación negativa y un valor de 1 indica fuerte relación positiva.DE. Por ejemplo. sin embargo. Observaciones Si el argumento matricial o de referencia contiene texto.DE. para examinar la relación entre la temperatura promedio de una localidad y el uso de aire acondicionado. 36 . La planilla de cálculo devuelve el coeficiente de correlación entre dos rangos de celdas definidos por los argumentos matriz1 y matriz2. COEF. Use el coeficiente de correlación para determinar la relación entre dos propiedades. Matriz2 es un segundo rango de celdas de valores.matriz2) Matriz1 es un rango de celdas de valores.

Se tiene considerar la existencia de datos idénticos a la hora de ordenarlos. aunque si éstos son pocos. es una prueba no paramétrica que mide la asociación entre dos variables discretas. El estadístico ρ viene dado por la expresión: Donde D es la diferencia entre los correspondientes valores de x .Ejemplo l. N es el número de parejas. los datos son ordenados y reemplazados por su respectivo orden. podemos utilizar la siguiente aproximación a la distribución t de Student 37 . COEFICIENTE DE SPEARMAN (No es una función EXCEL) El Coeficiente de correlación de Spearman. ρ (rho). Para calcular ρ.y. se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones.

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson.. CONTAR (FORMULA UTIL PARA ALGUNOS CASOS) La hoja de cálculo cuenta el número de celdas que contienen números. texto o valores de error en la matriz o en la referencia. pero sólo se cuentan los números. texto o valores de error. son de 1 a 30 argumentos que pueden contener o hacer referencia a distintos tipos de datos. Se pasan por alto las celdas vacías. Sintaxis CONTAR(ref1. m. además de los números dentro de la lista de argumentos.) Ref1.ref2. ref2. sólo se considerarán los números en esa matriz o referencia. Utilice CONTAR para obtener el número de entradas en un campo numérico de un rango o de una matriz de números.. Utilice la función CONTARA si necesita contar valores lógicos. Observaciones Los argumentos que son números. los argumentos que son valores de error o texto que no puede traducirse a números se pasan por alto. fechas o representaciones textuales de números se cuentan.. indicándonos asociaciones negativas o positivas respectivamente. valores lógicos. Ejemplo 38 . Oscila entre -1 y +1. Si un argumento es una matriz o referencia....

39 .

Víctor Manuel. Wolf y Parena. Helena. Hirner. 40 . Alegre. Segunda Edición. Duarte Patricia. Cabrera Jr. referencia para el cálculo del 2.. Francisco. Baptista.wasp: “Coeficiente de Spearman. 4. Cubillo.net/rankcorr. IWA. Jaime Melo.Bibliografía Sugerida 1. Fondo de Cultura Económica. (2006) “Performance Indicators for Water Supply Services”. Renato. Microsoft. Enrique. Guerrero G. http://www. Second Edition.wessa.. Wolfram.Excel (Asistente de ayuda). (2000) “Estadística Básica para estudiantes de economía y otras ciencias sociales”. 3. Merkel.