You are on page 1of 150
CURSO DE ESTADISTICA DESCRIPTIVA Y ANALISIS DE DATOS CON LA HOJA DE CALCULO EXCEL D. Francisco Parra Rodriguez. Jefe de Servicio de Estadisticas Econémicas y Sociodemograticas. Instituto Cantabro de Estadistica. D®. M? Paz Moral Zuazo. Profesora Titular de Universidad. Universidad del Pais Vaco Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral INDICE 1. EI Método Estadistico 1.1. Introduecién 1.2. El Método Estadistico 1.3. Conceptos y definiciones basicas 2. Introduccién a las funciones estadisticas en Excel 2.4. Funciones en Excel 2.2. Graficos. 2.3, Tablas y gréficos dinamicos 2.4. Las macros “Analisis de datos” para el tratamiento estadistico 3. Andlisis de distribuciones 3.1. Introduccién 3.2. Distriouciones de frecuencias unidimensionales 3.3. Medidas de posicién en una distribucién de frecuencias unidimensional 3.4, Caracteristicas de las medidas de dispersion 3.5, Distriouciones de frecuencias bidimensionales 3.6. Distriouciones de probabilidad. Algunas distribuciones de interés 4, Medidas de desigualdad y concentracion y Curva de Lorenz 4.3. Célculo e interpretacién de los indices de concentracién 5. Modelo de tegresién lineal 5.1. El método de los minimos cuadrados ordinarios 5.2. Bondad del ajuste 5.3. Inferencia acerca de los estimadores 5.4. Prediccién en el modelo de regresion 5.5. Violacién de los supuestos del modelo lineal de regresién. 6. Regresién lineal miltiple 6.1. Introduccién 6.2. Deficiencias muestrales: multicolinealidad y errores de medida 8.3. Modelo con variables cuantitativas y cualitativas como regresores 6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 8.5. El modelo probabiiistco lineal 7. Nameros indices 7.1. Introduecién 7.2. Indices simples y complejos 7.3, Indices ponderados 7.4. Indices de precios 75. Enlaces y cambios de base 7.8. Deflactacion de series econémicas 7,7. Principales indices de precios espafioles 8. Series temporales 8.1. Introduccién a las series temporales 8.2. Componentes de una serie temporal 8.3. Andlisis de la tendencia 8.4. Analisis de la estacionalidad Anexo |: Analisis de regresién con Excel Anexo Il: Acceso a datos externos desde Excel Anexo Ill: Macros en Excel 131 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 1.- El método estadistico 1.1.- Introduccion Aunque la palabra Estadistica proviene del latin “status” o “estado”, esta palabra sélo describe en parte su significado real, es decir, solo describe la funcién de la Estadistica de llevar registros ordenados de datos para describir el “estado” de las cosas. Sin embargo, la Estadistica va més allé de esta simple fun: En forma més general, la Estadistica es la ciencia que se ocupa de la coleccién, clasiicacién, organizacin, andlisis,sintesis e interpretacién de datos. En palabras sencillas podriamos decir que la Estadistica es la ciencia de los datos En términos generales la Estadistica aborda dos tipos de problemas: + Resumir, describir y explorar datos. + Utiizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogié la muestra. Asi, la Estadistica se divide en dos partes intimamente relacionadas: Estadistica Descriptiva: Esta es la parte de la Estadistica que se dedica a la organizacién, sintesis y descripcion de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirios 0 representarlos de manera clara, simplificada o reducida Estadistica Interencial: Esta rama de la Estadistica trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos. El conjunto de individuos 0 entidades que se desea describir se denomina poblacién, mientras que una muestra es un subconjunto de individuos seleccionados de la poblacién.. 1.2.- El método estadistico Seguin el diccionario de la RAE el significado de la palabra Ciencia es (en su primera acepcién) CIENCIA: Conjunto de conocimientos obtenidos mediante la observacién y el razonamiento, sistematicamente estructurados y de los que se deducen principios y leyes generales. Segiin esta definicién podemos facilmente comprender la razén de catalogar la Estadistica como ciencia, ya que como se puede ver la estadistica se adapta perfectamente a esta definicién, Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigacion estadistica 0 lo que es lo mismo, vamos a ver en que consiste el método estadistico, que es lun método cientifico. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos son constantes en ellos y determinar las leyes que Io rigen, es decir, sus relaciones constantes Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral y universales. Es el método propio a la ciencia, el Método Cientitico, el que se aplica al ciclo completo de una investigacién, desde el enunciado del problema hasta la evaluacién de los resultados obtenidos. En el método cientifico podriamos distinguir en forma esquematica, y con las limitaciones que esto supone, las siguientes etapas’ Eleccién y enunciado del problema La eleccién de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependera de los juicios de valor del investigador y de las condiciones sociales, politicas y econémicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la desctipcién de la situacién problema o mediante el planteamiento de una pregunta, Formulacién de una Hipétesis La hipdtesis es una explicacion de la situacién problema o una respuesta posible a la pregunta pianteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes. Deduccién de consecuencias veriticables de la hipétesis Siendo la hipétesis una explicacién o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma légica consecuencias particulares de la hipétesis. Verificacion de la hipétesis La verificacién puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones teéricas basadas en relaciones aceptadas en el estado actual del conacimiento, Interpretacion de los resultados Con los datos obtenides en la etapa anterior se decide si se ha rechazar 0 no la hipétesis en estudio. Poniendo todo lo anterior en relacién a lo que nos ocupa en el curso podemos ver cuales son las etapas del Método Estadistico. Podemos decir que es un conjunto de procedimientos aplicados en secuencia légica a la obtencién y anélisis de datos. Es el mélodo estadistico el que nos proporciona las técnicas necesarias para recolectar y analizar la informacién requerida. Podriamios distinguir en él una etapa de Planificacién y otra de Ejecucion Etapa de Planiticacton En esta etapa debemos considerar las siguientes fases: = Definicién de objetivos: Corresponde formalmente a la descripcién del problema que da origen a la investigacién. Se debe sefialar detalladamente lo que se pretende investigar, es decir, el qué, cémo, donde, cuando y por qué, - Definicién del Universo: yalla cual se referiran los resultados. 3e debe definir el grupo del cual se extraerd la informacién Disefio de la muestra: La teoria del Muestreo 0 de Disefio y Analisis de Experimentos pueden garantizarnos que la informacién que generaremos nos permitiré proyecciones validas al universo de interés. - Detinicién de las unidades de observacién, escalas de clasificacién y unidades de medida: En una misma investigaciin puede haber varios objetivos parciales que requieran estudiar unidades de observacién diferentes. - Preparacién del plan de tabulacién y analisis: El cuidado en este aspecto nunca podria considerarse excesivo, deberia liegarse, tal vez, hasta considerar alternativas de andlisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Etapa de Ejecucion En esta etapa podemos reconocer las siguientes fases: - Recoleccién de la informacién: En esta fase se recogen los datos de acuerdo a los planes establecidos anteriormente. Generalmente es lo que se conoce como Trabajo de Campo. Es importante garantizar la obtencién correcta de la informacién, para lo cual hay que establecer los Correspondientes procesos encaminados al control de calidad del proceso. - Tratamiento y Elaboracién de la informacién: Una vez que se tienen los datos estos han de pasar por procesos de validacién y depuracién, que garanticen que la informacién obtenida es correcta (sin datos imposibles o inconsistentes) Asimismo hay que gatantizar una correcta codificacién de los datos, para un tratamiento correcto, Con los datos verificados, y generalmente en un soporte informatica, se procede a la elaboracién de tablas, informes y de todos los procedimientos estadisticos necesarios para lograr un mejor andlisis de los mismos. En esta fase es donde intervienen las técnicas de estadistica descriptiva que se van a estudiar. - Anallsis de los resultados: E| andlisis de los resultados es la ultima fase del proceso, que en general depende del tipo de estudio que estemos realizando, que puede ser descriptiva, inferencial, contirmatorio, 1.3.- Conceptos y definiciones basicas En esta seccién se presentan algunas nociones basicas sobre lo que se va a tratar en el curso: Estadistica descriptiva: Conjunto de métodos de descripcién, anélisis y representacion de Conjuntos numerasos de datos. Utiliza métodos numéricos y graficos con el fin de resumir, ordenar y simplificar la informacién contenida en los datos. Poblacién estadistica: Conjunto de elementos que poseen una o varias caracteristicas comunes y sobre los cuales se va a realizar el estudio. Debe estar pertactamente determinada, sin ningun tipo de ambigtedad, de forma que se pueda distinguir fécilmente si un elemento Pertenece o no a la misma, Por ejemplo: varones mayores de 25 afios, productos alimenticios, Ciudades con més de cincuenta mil habitantes, etc. Una poblacién puede ser finita 0 infnita, segtin el numero de elementos que la compongan. Los elementos de ia poblacién se denominan unidades estadisticas 0 individuos y al ntimero total de individuos que constituyen la poblacién se le denomina tamaho de la poblacién. Un individuo es, por tanto, cualquier ente observable que posee caracteristicas medibles 0 clasificables. Muestra: A menudo, es imposible 0 poco practice realizar un estudio exhaustivo de la poblacién, por lo que se hace necesario seleccionar un subconjunto representativo de la misma, llamado muestra, cuyo estudio permite extraer conclusiones generalizables a toda la poblacién. El ndmero de elementos de la muestra se denomina tamafo de la muestra Como ya hemos indicado, la estadistica descriptiva trata tinicamente de recoger, clasificar y resumir los datos obtenidos a partir del estudio de una muestra, sin pretender obtener onclusiones o hacer inferencias acerca de la poblacién completa (objetivo de la inferencia estadistica). Caracteres: Cualidades o caracteristicas comunes de los individuos de la poblacién, que se desean estudiar en dicha poblacién. Por ejemplo, en la poblacién formada por los estudiantes mmatriculados en la Diplomatura de Estadistica para el curso actual, los caracteres pueden ser sexo, edad, color de ojos, estatura, peso, ete. Cada uno de los posibles estados que puede presentar un carécter se denomina modalidad. Por ejemplo: hombre-mujer, 18-19-20-21-etc,, negros-marrones-verdes-azules son las modalidades de los caracteres sexo, edad y color de ojos, respectivamente. Las modalidades Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral de un cardcter han de ser exhaustivas y excluyentes, es decir, cada individuo de la poblacién debe presentar una y sdlo una de esas modalidades. Los caracteres se pueden clasificar en cualitatives y cuantitativos: Caracteres cualitativos 0 atributos son aquellos cuyas modalidades no son medibles, pot ejemplo, el sexo, el color de ojos, el nivel de estudios, la profesién, el estado civil, el grupo sanguineo, la nacionalidad, el nivel socio-econémico, etc. serian caracteres cualitativos de una ersona. AKungue os caractores cualtativos no se pueden medir numéricemente, su informacion puede venir dada en escala nominal o en escala ordinal. Se dice que la informacién relativa a un cardcter viene dada en escala nominal si entre las distintas modalidades o categorias (no numérica) no se puede establecer ningan orden natural, por ejemplo: sexo, color de ojos, profesién, estado civil, grupo sanguineo, nacionalidad, etc. Por el contrario, en una escala ordinal si es posible establecer un orden graduacion entre las distintas modalidades del caracter, por ejemplo: nivel de estudios (primaria-secundaria-bachillerato-universitarios: postgrado), nivel socio-econémico (bajo-medio-alto), etc. Caracteres cuantitativos son aquellos cuyas modalidades son meciibles numéricamente, es decir, a cada modalidad se le asigna un numero de forma natural. Por ejemplo, la edad, la estatura o el peso de una persona, el nlimero de empleados de una empresa, el tamatio de un municipio, etc. Variable estadistica 0 aleatoria. En general, una variable estadistica es la representacion matemdtica de un cardcter. Las variables estadisticas se suelen representar mediante las letras X, ¥, Z etc. El término “variable” se refiere a que cambia de valor segtin el individuo que se observe y al tétmino “aleatoria’ a que el valor observado varia en funcién de una funcién de distribucién de probabilidad, que puede ser conocida o no. Una variable estadistica podré tomar tantos valores como modalidades presente el cardcter correspondiente, Los valores de una variable X se representaran mediante (1x2...) los de una variable Ymediante {y,y..},y asi sucesivamente. Atendiendo a la clasificacién de los caracteres establecida anteriormente, las variables estadisticas se clasifican asimismo en: Variables estadisticas cualitativas: representan caracteres cualilativos y tienen un tratamiento bastante especial. Su informacion puede venir dada en escala nominal u ordinal. Variables estadisticas cuantitativas: representan caracteres cuantitativos y pueden ser: Discretas: son aquellas que solo pueden tomar valores aislados (en niimero fnito 0 infinito numerable), normalmente enteros (por ejemplo: nlimero de hijos de una famili ndmero de alumnos en una facultad, ete.) Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un cuerpo, la velocidad de un mévil, etc.) Notemos que, con frecuencia, la distincién entre estos dos tipos de variables es més teérica que prdctica, en el sentido de que una misma variable puede ser considerada discreta 0 continua, dependiendo de la precision de los aparatos de medida. Asi, muchas variables continuas seran tratadas como disoretas y viceversa, Probabilidad: si un suceso puede ocurrir de n maneras mutuamente excluyentes ¢ igualmente verosimiles, y si na de éstas poseen un atributo A, la probabilidad de A es la fraccién na/n (Mood y Graybill, 1978). Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 2. Introduccion a las funciones estadisticas en EXCEL En este tema se van a introducir un conjunto de aplicaciones de Excel utiles para realizar ejercicios de Estadistica: funciones estadisticas, gréficos, tablas dinémicas y las herramientas para el analisis de datos. 2.1. Funciones en Excel Una funcién es una férmula definida en Excel, que usaremos para realizar operaciones complejas sobre valores numéricos, de texto o de otro tipo. Podremos aplicar funciones a datos ubicados en celdas individuales 0 conjuntos de datos (filas, columnas, matrices). Una funcién siempre devuelve un valor, que puede ser un texto, un niimero o un valor légico. Podemos utilizar funciones escribiendo directamente una expresién o bien utilizando el asistente #, una vez posicionados en la celda en la que deseamos que aparezca el resultado de la funcién. Veamos un ejemplo de escritura directa de una funcién: supongamos que deseamos calcular la Simino iu (sila Fanci esl a xii de ie fuk) Tiomive dea tuner argunertes UURIA (410;85:610;50;37) ee | un prte yer spare co aguante Los fareneass enc anios argunentas suma de las cantidades que figuran en la columna A, fla 10, columna B desde la fla 5 hasta la 10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello, hacemos clic sobre la celda A20 y escribimos =SUMA(A10;B5:B10;50;37) Los argumentos de una funcién pueden ser constantes, variables, rangos de celdas u otras funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el argumento requerido. Los argumentos de una funcién se separan por punto y coma Si utilizamos el asistente de formulas nos aparecera el cuadro de didlogo “Insertar funcién”, Las funciones se encuentran agrupadas por categorias, que podemos ver en la lista desplegable, 0 bien podemos utilizar la busqueda para localizar la Tuncidn que nos interesa. Para cada una de las funciones, Excel dispone de un texto de ayuda con la desoripcién de la funcién, de sus argumentos y ejemplos de uso. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Una vez seleocionada la {uncién, en la siguiente pantalla introducitemos los argumentos de la misma, escribiéndolos directamente o selecoionando rangos de celdas ‘Arguments. de func, (BB) ~ stoseesehzscee nani donno (nares ean oi ncn ot ic, oes Ines dence earch esatodlafemia 25¥7e00.8 Excel 2003 dispone de 80 funciones estadisticas para calculo de medidas de tendencia central, dispersién y forma, para series de datos, asi como distribuciones de probabilidad, recuentos y valores del estadistico en contrastes de hipdtesis. En este curso veremos como aplicar las mas habituales para obtener una descripcién de nuestros datos. 2.2. Graficos Excel permite crear graficos a partir de los datos contenidos en un libro. Los graficos permiten visualizar la informacién de la hoja para poder comparar datos y deducir conclusiones, TIPOS DE GRAFICOS * COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un periodo de tiempo. + BARRAS: llustran las comparaciones entre elementos individuales. + LINEAS: Muestran las tendencias de los datos a intervalos temporales y compara categorias. + CIRCULAR: Muestran el tamaiio proporcional de los elementos que conforman un todo. * GRAFICO XY © DIAGRAMA DE DISPERSION: Muesiran las relaciones entre valores numéricos de varias series de datos. + AREAS: Destacan la magnitud de los datos en el transcurso del tiempo. * ANILLOS: Al igual que un grafico circular muestra la relacién de las partes con un todo, aunque puede contener mas de una serie de datos. * RADIALES: Compara los valores de series de datos. Cada categoria tiene su propio eje de valotes. Las lineas conectan todos los valores de las mismas series. * SUPERFICIE: Son ttiles para conocer las combinaciones optimas (maximos 0 minimos) entre dos conjuntos de datos. + BURBUJAS: Es un grafico de dispersién pero con tres variables, + COTIZACIONES: Se utiliza para ilustrar la cotizaci6n de acciones. Requieren entre tres y cinco series de datos (maximo, minimo y cierre; apertura, maximo, minimo y cierre; volumen, maximos, minimos y cierre; volumen, apertura, maximo, minimo y cierre). + CONICOS, CILINDRICOS Y PIRAMIDALES: Son equivalentes a los graficos de colurnas ybatras, cambiando tinicamente la presentacién. Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral ELEMENTOS DE UN GRAFICO Resumen de gasto: Titulo del Mares de grdusicn an Area de trzad je de valores Leyenda Arca del eitico Ti etulos de daos Lineas devin Peron] Alguer ip eowpas Series de dates CREAR UN GRAFICO Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de gréficos i o en el meni “Insertar"seleccionamos “Gratico". Seleccionamos el tipo de gréfico, para cada categoria de grafico se nos ofrece un subtipo. En la ficha Tipos personalizados podemos encontrar gréficos combinacién de dos tipos de araficos, por ejemplo, lineas y columnas, y gréficos con disefios més vistosos. Ce eee Tees astancet | Thea personas Subspo de rie fy Rass) B supatice urtues lara agrurada Conpars valores ere] Eategors, En el 2° paso del asistente si no he especiticado el rango de datos o esta mal podemos seleccionarlo en la ficha Rango de datos pulsando el icono “Ef, que contrae el cuadro de didlogo para poder seleccionar de la hoja el rango de datos y seleccionamos si los datos queremos representarlos en filas 0 columnas. En la ficha Serie seleccionamos el rango donde se encuentran los datos y nombres de las series de datos y el rango de los rétulos de los ejes de categoria. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral See ee Range de datce Bango dedator: sets: Asistente pata grificos - paso 2 de 4: datos de origen serstcccigegs SC) Fotocetas ‘raters ndasles vstveer | Grace! BO5:48011 area stuos dele decatagois i): ershcosibaps p11 & En el 3% paso del asistente aiiadimos y damos formato a Titulos, Eje, Lineas de divisién, Leyenda, Rotulos de datos y Tabla de datos. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral eee fe Tide dl rio eedbs nareadcs | pe ctegorins G9 fe sede valeres Unades | eset | ines ce chvsion | eee Levene 2388 Eee error us) Retules ce dates | Tabla ce datos Yenfoutos mamoutsdoe | ecvwsttes eobcx aio le} QEnunahoianveva [Graft i = BREE Ocomedetocn FT v | 2.3. Tablas y graficos dinamicos Una tabla dinamica consiste basicamente en una agrupacién de una o varias series de datos desagregados, de forma que obtengamos una vista resumida de los mismos. Con las tablas dinémicas no solamente podremos elaborar casi cualquier tipo de informe que 10 que ademas podremos actualizar autométicamente los mismos a medida que dispongamos de nuevos datos. Los informes de tablas y gréficos dinémicos constituyen necesitemos, potentes herramientas para la elaboracién de publicaciones 0 informes. Para crear una tabla dindmica, acudiremos al ment *Datos’ -> “Informe de tablas y gréficos dindmicos" Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral aS a fa (fuer de detor enters (QO Ranges de sonaclidacian mallee ba efor de abla ce veg iko drm 82uf tee de informe desea cox? Ob drinks Femme de gee dries con infrrece tals nse) Caneel) ] (Erte El Asistente nos guiara en tres pasos en el proceso de creacién del informe. En primer lugar especificaremas la ubicacién de fos datos y el tipo de informe que vamos a generar. A continuacién, marcamos el rango de celdas que contienen los datos ainsmcas- paso 2,2) Asistente para tablas y eraficos sDéndo estinlosdskos que doses usa”? Rann [owontaszirtorl | (seu ] Por ultimo indicamos donde vamos a situar la tabla dinamica fe ee ie btn desea smu oinfome de tbl Animes? | Otoiadoedosoruesa Dios do ccdo setts Hoisisags & Hous den Psa pra ear) nome ele diane Una vez hecho esto, la tabla se muestra sin contenidos. Debemos especificar en qué posicién de la tabla se presentaran los datos agregados. Para ello, seleccionaremos cada uno de los elementos de la lista y lo agregaremos a una de las reas de filas, columnas, datos o pagina, Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Coloque datos aqui Sreoeeste Aes een Destacar que la opcién Area Pagina nos permite seleccionar otro campo, de forma que la tabla mostrara los datos para cada valor del campo que se ha especticado en Pagina, pero sélo uno cada vez. Hay un botén por cada titulo o campo de la base, esos botones se arrastran Pagina: Si queremos que el elemento se presente de manera individual, por paginas Fila: Muestra los datos como cabecera de las filas. Columnas: muestra los datos como cabecera de columna. Area de datos: Siempre seran las columnas 0 campos que tengan datos numéricos, ya que con ellos se realizan los cdlculos, por defecto la suma. Disponemos de las siguientes funciones de agregacién de los datos: ~ Suma ~ Cuenta ~ Promedio ~ Maximo = Minimo ~ Producto ~ Contar ntimeros - Desviacion tipica ~ Desviacién tipica de la poblacién - Varianza - Varianza poblacional En el ejemplo se han elegido para las columnas las variables ANO y MUNICIPIO, y para las flas las variables GRUPO_EDAD y SEXO. Como valor agregado se ha afiadido la suma de POBLACION. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Cersiruya eleFume de table dnc gesting Is batonae compe de la derecho sobre eldagrans a is equerde. aie runic wae PORLACTO] ares: Una vez creada la tabla, podemos modificarla mediante las siguientes acciones, disponibles en el meni que aparece cuando hacemos clic con el botén derecho del ratén sobre la tabla: - Crear un grético dinémico, a partir de los datos de la tabla - _ Ejecutar el asistente para modificar el disefio 0 las opciones de la tabla Zies genera cine tistocirtans nie ana, lgohasorients eter fe E naomate death (atest de drmtceeatn dep Dee ra sles ner, ot Eleni fom Bacon yas, mati ere eninscr etme eneas pag eros lars pean nes pcos dsonsn cto cree: date ots: idee cto end tod a ene Dit nfm atta a heute etr leila - Actualzar los datos desde el origen. Esta opcién es especialmente util si los datos proceden de una base de datos externa, puesto que nos permitiré actualizar el informe sin tener que realizar los pasos previos de importar los datos desde la fuente - Seleccionar un conjunto de filas 0 columnas para ocultar/mostrar el detalle o agregar y desagregar elementos Especificar la funcién o funciones de agregacién que aplicamos en el area de datos Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Basan pa + Sauter bremet thse ttn Proto ona roe (Gpaones 3> Opciones generales de tabla: titulo, formato, totales si o no, tratamiento de valores erréneos o nulls, ete. Series — Patras |Z Ioteles generates de colinnas Guarennicoue ‘Z earotorneto de sate late snr oa ena eee GS Bence ences eae rene reer de indeerzsreionie ic Climehr te sso dpioat tins ny, uegaorsoesmeres capospereckora epee deta pene ecnigen edits (Ware toscana ato does tabi orasén doatada Clacata alate Croat snrestanos ‘Ocultar/mostrar la barra de herramientas y la lista de campos de la tabla dinamica 2.4. Las macros “Analisis de datos” para el tratamiento estadistico Los principales desarrollos estadisticos que contiene la hoja de célculo de Excel 2003, se encuentran en el menii “Herramientas” -> “Andlisis de datos’. En caso de no encontrar esta opcién activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas para andlsis desde el apartado “Complementos’, tal como se muestra en la figura siguiente. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Complerantos dione: Fssencrera usd Assume para sumna coekianl i Adel Ayudante par internet ‘eraaacn, Herraniantas para anaes Plepevrans hincloneas interfaces pars ansine de dsr Reavosroe vcartBicot Una vez cargada la macro las posibilidades de efectuar andlisis y operaciones estadisticas son numerosas, Muchas de estas posibilidades que se iran desarrollando a lo largo del curso. Posies Bunches para analss Aris de vedenza de un Factor fandize ds vsnens de doz aetores cen verias mustrse por argo Ariss de vedenza de dos fctores ccm une soe muesxa par gruEO (Ceefente de eorelsedn Sovarenza Suavizecin enponencil Prueba F para varianzes de dos musstras, edie de Founer Histogrema A continuacién ofrecemos una breve descripcién de los components de la macro Andlis's de Datos, esta es la que aparece en la opcién ayuda que incorpora la hoja de calculo EXCEL: a) Analisis de varianza de un factor Realiza un andlisis simple de varianza para comprobar la hipétesis seqiin la cual dos 0 ms muestras son iguales (extrafdas de poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por RA. Fisher en 1925 para resolver diversos problemas agricolas, tiene por objetivo descomponer la variabilidad de los datos asociados a un experimento en componentes independientes, las cuales son asignables a distintas causas. b)Analisis de varlanza de dos factores con varlas muestras de grupo Realiza una extensién del andlisis de varianza de un factor con mas de una muestra por cada grupo de datos. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral ©) Anéllsis de varianza de dos factores con una sola muestra por grupo Realiza un anélisis de dos factores con una sola muestra por grupo que comprueba la hipétesis segtin la cual las medias de dos o mas muestras son iguales (extraidas de poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medidas como, por ejemplo, la prueba t 4d) Coeficiente de correlacion Mide la relacién entre dos conjuntos de datos que han sido calculados en escala para ser independientes de la unidad de medida. El célculo de la correlacién de poblacién devuelve la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estander. Podra utilizar la hertamienta Coeficiente de correlacién pata determinar si dos conjuntos de datos varian conjuntamente, es decir, si los valores altos de un conjunto estén asociados con los valores altos del otro (correlacién positiva), si los valores bajos de un Conjunto estan asociados con los valores bajos del otro (correlacién negativa) o si los valores, de ambos conjuntos no est4n relacionados (correlacién tiende a cero) Covarlanza Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de las medias respectivas. La covarianza es una medida de la relacion entre dos rangos de datos. Pod utilizar la herramienta Covarianza para determinar si dos rangos de datos varian conjuntamente, es decir, silos valotes altos de un conjunto estan asociados con los valores altos del otro (correlacién positiva), si los valores bajos de un conjunto estan asociados con los valores bajos del otro (correlacién negativa) 0 si los valores de ambos conjuntos no estén relacionados (correlacién tiende a cero). Estadistica descriptiva Genera un informe de estadisticas de una sola variable para datos del rango de entrada, y proporciona informacién acerca de la tendencia central y dispersién de los datos. Suavizacion exponencial Predice un valor basndose en el pronéstico correspondiente al periodo anterior, ajustado al error de dicho pronéstico. Utiliza la constante de suavizacién a, cuya magnitud determina la exactitud con la que los pronésticos responden a errores del pronéstico anterior. Prueba F para varianzas de dos muestras Realiza una prueba F de dos muestras para comparar las varianzas de dos poblaciones. Por ejemplo, puede utlizar una prueba F para determinar si los tiempos de una carrera de atletismo difieren en la varianza de las muestras de dos corredores. Analisis de Fourier Resuelve problemas de sistemas de lineas y analiza datos periédicos, transformandolos mediante el método Fast Fourier Transform (FFT). Esta herramienta también realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve los datos originales. Histograma Calcula las trecuencias individuales y acumulativas de rangos de celdas de datos y de clases de datos. Genera datos acerca del ntimero de apariciones de un valor en un conjunto de datos. Por ejemplo, en una clase con 20 alumnos se desea obtener la distribucion de Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral calilicaciones mediante una categoria de puntuaci6n por letras. Una tabla de histograma presentara los limites de las calificaciones por letras asi como el ntimero de calificaciones que hay entre el limite mas bajo y el actual. La calificacién mas frecuente es la moda de los datos. Media mévil Proyecta valores en el periodo pronosticado, basandose en el valor promedio de la variable calculada durante un ntimero especifico de periodos anteriores. Una media mévil proporciona informacién de tendencias que quedaria enmascarada por una simple media de todos los datos histéricos. Utiice esta herramienta para pronosticar ventas, inventarios u otras tendencias. Generacion de ntimeros aleatorios Liena un rango con numeros aleatorios independientes extraidos de uno de varias distribuciones. Podra utilizar esta herramienta para caracterizar a los sujetos de una poblacién con una distribucién de probabilidades. Por ejemplo, puede utlizar una distribucién normal para caracterizar la poblacién de estatura de las personas, o utilizar una distribucién de Bernoulli con dos resultados posibles para caracterizar la poblacién de resultados cuando se lanza una moneda al aire. Jerarquia y percentil Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un Conjunto de datos. Podrd utilizar este procedimiento para analizar la importancia relativa de los valores en un conjunto de datos. Regresion Realiza un analisis de regresién lineal utilizando el método de minimos cuadrados para ajustar una linea un conjunto de observaciones. Podra utilizar esta herramienta para analizar la forma en que una sola vatiable dependiante se ve afectada por los valores de una o mas variables independientes, por ejemplo, varios factores inciden en el rendimiento de un alata, entre ellos la edad, la altura y el peso, Baséndose en un conjunto de datos acerca del rendimiento, la regresién determina la parte de cada uno de los factores en las medidas de rendimiento, Los resultados de la regresién podran utilizarse entonees para predecir el rendimiento de un atleta nuevo no sometide a prueba. Muestra Crea una muestra de la poblacién tomando los datos del rango de entrada como poblacién. Es posible utilizar una muestra en lugar de toda la poblacién cuando ésta sea demasiado grande para procesarla o para presentarla gréficamente. Ademas, si cree que los datos de entrada son periédicos, puede crear una muestra que contenga sdlo los valores de tna parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de ventas trimestrales, la muestra realizada con una tasa periédica de 4 permitira colocar los valores del mismo trimestre en la tabla de resultados. Prueba t para medias de dos muestras emparejadas Realiza una prueba t de Student en dos muestras emparejadas para determinar si las medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos veces a prueba, antes y después de un experimento. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Prueba t para dos muestras suponiendo varianzas iguales Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t homoscedastica. Se emplea para determinar si las medias de dos muestras son iguales. Prueba t para dos muestras suponiendo varianzas desiguales Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t heteroscedastica. Utilicela para determinar si las medias de dos muestras son iguales y a partir de qué momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada cuando exista un grupo antes del tratamiento y después de él. Prueba z para medias de dos muestras Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta herramienta se emplea para comprobar las hipétesis acerca de la diferencia existente entre las medias de dos poblaciones, por ejemplo, puede utilzarla para estudiar las diferencias en el rendimiento de dos modelos de vehiculos. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 3.- Analisis de distribuciones 3.1.- Introduccion En este tema y los siguientes se van a introducir técnicas estadisticas para una sola variable, es decir, que con lo que se va a tratar es una serie de valores (x, Ko, ... Xq) Que Se habran obtenido de medir una variable en una serie de individuos. Sila serie corresponde a una variable medida en un individuo a lo largo del tiempo tendremos una “serie temporal’, y si es Una variable medida en diversas localizaciones geograficas tendremos una “serie espacial’. Estas dos vitimas, aunque se les puede aplicar algunas de las técnicas explicadas, no constituyen el objetivo de este capitulo. 3.2.- Distribuciones de frecuencias unidimensionales 3.2.1.- Tablas de Frecuencias en variables cualitativas o cuantitativas discretas. Una vez que se tienen los datos de una variable hay que ordenarios y resumitlos. Una forma de hacerlo es agrupar los valores iguales y contar las veces que se repite cada uno de ellos. En variables cualitativas 0 cuantitativas discretas esta es la forma habitual de proceder, en variables cuantitativas continuas se pracedera primero a una agrupacién de los datos, Las definiciones de los distintos tipos de frecuencias se dan a continuacién: Frecuencia absoluta: Llamiaremos asi al nlimero de repeticiones que presenta una observacién. Se representa por n. Frecuencia relativa: Es la frecuencia absoluta dividida por el nimero total de datos, se suele representar por f, Propiedad: La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad. Si la variable que se esta tratando es cualitativa ordinal o bien cuantitativa se pueden definir otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe Un orden natural para los valores de este tipo de datos. Frecuencia absoluta acumulada: Es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La ultima frecuencia absoluta, acumulada es igual al n® de casos’ Suponiendo que hay k valores distintos Wyte to cece et Me + MeN Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta ‘acumulada por el ntimero total de datos, se la suele representar con la notacién: F, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral De igual forma, también se puede detinir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado, La titima frecuencia relativa acumulada es igual a la unidad, ‘Tabla de frecuencias para una variable discreta. La ordenacién en la tabla, sera x a % Ms Xe Te X Ns mr 3.2.2.- Tabla de frecuencias para variable continua: recorrido, intervalo, amplitud, marca de clase, densidad de frecuencia. Cuando nos encontramos con una distribucién con un gran nimero de valores, se suelen agrupar en intervalos para facilitar la comprensién de los datos. Esta practica tiene en cambio Un inconveniente: se pierde informacién sobre la propia distribucion. Lis Ly Se indica por L., al extremo ite el ntervalo y por L, al extremo superior. Cerramos el intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo ser al contrario Para operar utiizaremes la marca de clase, el punto medio de un intervalo, Para calcularla podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los extremos, y dividir entre 2. La amplitud det intervalo, seria la longitud del intervalo, se representa por: ask - by NOTA: {Cémo obtener, a partir de los datos, una tabla de frecuencias agrupada? N° de intervalos: A partir de la ralz cuadrada del nlimero de datos redondeando podemos obtener el ntimero de intervalos. 1 Recorrido: Valor mayor, menos valor menor de los datos. Re= xx @ Amplitud: Divisién entre el Recortido y el numero de intervalos que hayamos decidido. Se puede redondear también. Re 1 de intarvalos NOTA: Silos intervalos no son de la misma amplitud hay que calcular la densidad de frecuencia del intervalo -iésimo, como el cociente entre el nlimero total de observaciones de Un intervalo y la amplitud del mismo 3.2.3.- Ejemplos Ejemplo 1 El gobierno desea averiguar si el niimero medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al numero de hijos, y ha obtenida los siguientes datos: TPE PEP ROPES 22 Tz Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral IEEE RDE PRB eee esse Se pide: a) {Cual es la poblacién objeto de estudio? b) Qué variable estamos estudiando? c) £Qué tipo de variable es? d) Construir la tabla de frecuencias? @) ZCudl es el niimero de familias que tiene como maximo 2 hijos? f) 2Cuantas familias tienen mas de 1 hijo, pero como maximo 3? {Qué porcentaje de familias tiene mas de 3 hijos? Solucion: a) La poblacién objeto de estudio es el conjunto de familias de un determinado pais. b) La variable que estamos estudiando es el ntimero de hijos por familia ¢} Eltipo de variable es discreta ya que el niimero de hijos solo puede tomar determinados valores enteros (es imposible tener medio o un cuarto de hijo). d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un determinado numero de hijos. Podemos ver que el nlimero de hijos, toma los valores existentes entre 0 hijos, los que menos y 6 hijos, los que mas y tendremos: * a Ni t, Fi 0 2 2 0,04 0,04 1 4 6 0,08 0.12 2 21 27 0.42 0.54 3 16 a 0,30 0.84 a 6 a 0,12 0.98 5 1 4g 0,02 0,98 6 1 50. 0,024 1 N= 50 i e) El nlimero de familias que tienen dos o menos hijos es: 2+4+21 = 27 f) El numero de familias que tienen més de un hijo pero tres como maximo es: 21 + 15 = 36 Por uitimo el porcentaje de familias que tiene mas de tres hijos, son aquellos que tienen 4; 5 y 6 es decir 6+141= 8 El porcentaje seré el tanto por uno multiplicado por cien es decir, la frecuencia relativa de dichos valores mutiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0.16 + 100 = 16 %, Ejemplo 2 Un nuevo hotel va a abrir sus puertas en cietta ciudad. Antes de decidir el precio de sus habitaciones, el gerente investiga los precios por habitacién de 40 hoteles de la misma categoria de’esa ciudad. Los datos obtenidos en euros fueron 234] 2e2[ e22| 336[ 258] 204 30[ 36,6] 30.6 27 318) 234| 258 30. 36,282, 9068[ 25.2] 264] 3a 19.8) 258/246) 346| 264| 288) 366] 25.8) 31.8 27 24) saa 234) 262) 19.8 27) 282) 25,2 27, 288 Se pide: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral a) .Cual es la poblacién objeto de estudio? ) ZQué variable estamos estudiando? ) gQué tipo de variable es? d) ZQué problema plantea la construccién de la tabla de frecuencias? e) ZCuanto hoteles tienen un precio entre 19 y 22 euros? f) .Cuanto hoteles tienen un precio superior a 28? 9) £Qué porcentaje de hoteles cuestan come mucho 257 SOLUCIONES: a) La poblacién objeto de estudio son los hoteles de una ciudad. b) La variable que estamos estudiando es el precio. ©) El tipo de variable es continua. 0) El problema que plantea es que existen muchos valores diferentes. Por tanto es conveniiente agrupar la serie en intervalos. La manera de hacerlo seria la siguiente: primero, calculamos el recorrido Re 19,8 = 168 Cuando no se nos dice nada sobre el n® de intervalos a tomar, éste se suele obtener calculando la raiz cuadrada del n® de datos observado. Veremos que la raiz cuadrada de 40 es. igual a 6,32 por lo tanto tomaremos 6 intervalos, que es el entero mas préximo, Como el recortido es 16,8, silo dividimos por el n® de intervalos tendremos la amplitud de cada uno de ellos y asi: 16,8/6 = 2,8. Tomaremos 3 como amplitud del intervalo, puesto que resulta ms sencillo y claro operar con enteros y, puesto que la eleccién del niimero y amplitud de los intervalos se deja a criterio del investigador, siempre preferiremos la opcién més simple. To. Oy a Ni i Fi [i9 - 22) 2 2 005 005 (22-25) 6 a 0.15 02 [25 28) i 0 08 05] (28-31) it 31 0275 0775 (31-34) 4 35 0.1 0.875 (34-37) 5 40; 0,125 1 N= 40 e)2 20 g) %-F;"100=0,2"100-20 3.2.4.- Primeros Graficos estadisticos. Para apreciar a golpe de vista la magnitud 0 posici6n de las variables, se suelen efectuar una representacién gratica, los sistemas de gréficos més usuales son: Diagrama de puntos Este tipo de representacién se suele utilizar con variables cuantitativas continuas, y consiste en tepresentar sobre una recta los valores obtenidos. Permite apreciar la distribucién de los datos a lo largo de su recorrido. Diagrama de tallo-hojas Este tipo de diagrama permite visualizar la distribucién de una variable numérica. Sise tienen los datos: 2 bs be 45 Wi bo fo pe be bt [2 le [3s Be he 7 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral a 4 fo fie pe 2 64 5 21 bs b2 [1 fo [1 3 7 ltée oe (5452 aa 63 648 52 id 656 69 62 27 555 bo [64 62 bs 45 fo pi 22 62 45 pa [aa [5 (68 El diagrama es el siguiente: 1246888 011293445667789 11245688 003445569 222299344455679 22244589 En la parte izquierda est el primer digito de los datos (pueden ser 2 0 més digitos). En la parte derecha se encuentra el digito final, de forma que cada digito corresponde a un valor (podrian ser también grupos de dos o mas digilos). Diagrama de barras Se utiliza para frecuencias absolutas o relativas, acumuladas 0 no, de una variable. En el eje horizontal, situaremos los diterentes valores de la variable. En el eje vertical la frecuencia, Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia adecuada. Las barras se podrian dibujar en horizontal. 8 Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases. Diagrama de sectores El rea de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta orelativa. Para calcularlo podemos decir que el area depende del angulo central, mediante la siguiente proporcién: n/N=a/360 Como resulta n/N =f, ,tendremos que @= f, *360 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases. Histograma Cuando la variable es continua se puede utilizar un histograma para su representacién. En este caso se dibujan recténgulos cuya base corresponde a la amplitud del intervalo (clase) y de forma que el area del rectngulo corresponde a la frecuencia relativa de la clase. 1 ears w Los intervals pueden no ser iguales: Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Poligono de frecuencias Es la recta que une los exlremos superiores de un diagrama de barras (que no se dibuja normaimente), o bien los puntos centrales de la base superior de los recténgulos de un histograma, 18 Diagramas con frecuencias acumuladas Son diagramas de barras 0 poligonos de frecuencias en los que se emplean las frecuencias acumuladas. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Pictograma Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la variable (ejemplo un pez) y su tamatio suele guardar relacién con la frecuencia Enc: 9 EnelRasatausnte Enotros Lugores Cartograma Se representa la informacion mediante un diagrama convencional insertado en un mapa. Este tipo se aplica a variables en la que los individuos son regiones geograticas. Si las frecuencias o el valor de la vatiable se representa con colores tenemos lo que se llama un mapa temético. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Mas deo (0) (79) (2) (37) @) (13) (2) hastat (1) Se pueden también representar barras con las frecuencias en cada una de las zonas,o bien diagramas de sectores 0 cualquier otro. \Sechre 3c rer fran 2095 Notun soe Een 3.3.- Medidas de posicién en una distribucién de frecuencias unidimensional 3.3.1.- Introduccion En este tema y el siguiente vamos a obtener unos ntimeros que cuantifiquen las propiedades fundamentales de la distribucién de frecuencias. Estos nimeros podemos. clasificarlos en: Medidas de localizacion (posicién). Son coeficientes de tipo promedio que tratan de representar la situacién una determinada distribucion, pueden ser de dos tipos: 1-Centrales: Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral “Medias: Aritmética Geométrica Arménica -Medianas -Moda 2.-No centrale: -Cuantiles: Cuartles Deciles Centiles 0 percentiles Medidas de dispersién: Son complementarias de las de posicién en el sentido que sefialan la dispersion en conjunto de todos los datos de la cistribucién respecto de la medida o medidas de localizacin adoptadas. Medidas de forma: Estudian la asimetria-simetria y deformacién (apuntamiento, aplastamiento) respacto de una distribucién modelo denominada distribucién NORMAL, Medidas de concentracién: Estudian la concentracién de una distribucién frente a la Uniformida. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 3.3.2.- Medidas de centralizacion. MEDIA ARITMETICA: Es la suma de todos los valores de la variable dividida entre el nimero total de elementos, Siel valor xi de la variable X se repite nm, veces, aparece en la expresi6n de la media aritmética de la forma: otra posible expresién serd Ejemplo: Si tenemos la siguiente distribucién, se pide hallarla media aritmética, de los, siguientes datos expresados en kg x ti xn 3a 2 [08 o 3 ia 3 4 1 x 10 NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribucién. Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias alas marcas de clase y se procede como sila variable fuera discreta. En el futuro consideraremos indistintamente > _¢, = x Ejempio: [Lirsti) X= C ny en (30, 40y 35 3 105 [40 , 50) 45 2 90 [50 60) 55. 5 275 10 470 47 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral MEDIA ARITMETICA PONDERADA: En ocasiones no todos los valores de la variable tienen el mismo peso. Esta importancia que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Seré como un aumento del valor de esa variable, en tantas veces como consideremos su peso. Es la media aritmética que se utiliza cuando a cada valor de la variable (x) se le otorga una onderacién o peso distinto de la frecuencia o repeticién. Para poder calcularla se tendra que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable I x, Se lasuele representar como: |Xw Son | Siendo w, la ponderacién de la variable xy >) w, la suma de todas las ponderaciones. Ejemplo: Un estudiante realiza 3 examenes de complejidad reciente, obteniendo los siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ¥ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderacién de 1, 2 y 3 respectivamente. Se pide calcular la nota media. Si calculamos la media aritmética tendremos que : = _ Dam 54847 X= = = 6,67 n 3 Ahora bien, si calculamos la media ponderada, obtendremos: — (Sxl) +(8x2)+ (753) 5416421 42 (1+2+3) 6 6 Propiedades de la media aritmética PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0. Veamos que resulta al operar la siguiente expresion: >) (x, ~ ). Tendremos que PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace minima cuando dicha constante coincide con la media aritmética (Teorema de KORING). n, = prop 1=0"=0 Para k =x (media aritmética) el valor de las desviaciones serd minima. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral PROPIEDAD 3: Sia todos los valores de la variable se le summa una misma eantidad, la media aritmética queda aumentada en dicha cantidad: ‘Supongamos que tenemos una variable x de la que conocemos su media ‘Supongamos ahora que tenemos otra variable, que se calcula a pattir de la anterior de la siguiente forma: y, =x, +k . Siahora queremos caloular la media de esta sequnda variable = Sban, +hn, n n ” n =X sisustituimos tendremos ¥ =X +k PROPIEDAD 4: Sitodos los valores de la variable se multiplican por una misma cconstante la media aritmética queda mulliplicada por dicha constante, La demostracién se realizaria de manera andloga a la anterior. NOTA: De las dos propiedades anteriores se deduce que la resta y la division se realizarian de igual manera para la propiedad 3 y 4 respectivamente, Corolarlo: Si una variable es transformacién lineal de otra variable (suma de un nimero y muttiplicacién por otro), ia media aritmética de la 1 variable sigue la misma transformacién lineal con respecto a la media aritmética de la 2* variable, siendo yi=ax/+b , donde a yb son nuimeros reales: = Son, Yay, +), SY (ayn, +bn,) x+b Pam 7 n 7” n 2 bday, n Podemos utilizar esta metodologia para calcular la media de la siguiente distribucién. % ‘BBAa2 38432 3836 38438. 38440 tomando como nueva variable el sfectuamos un cambio de variabl valor mas centrado, tendremos: Xi my ve Yim [36492 4 (88432 - 38436)2 = 2 8 [38432 8 (98432 - 38436)2 =-1 8 [38436 4 (98436 - 38436)/2 = 0 0 [38438 3 (38438 - 38436)2 = 1 3 [38440 8 (38440 - 38436)2 = 2 16 n= 27 3 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 22 + 38436 = 38436, 22: PROPIEDAD 5: - Si en un conjunto de valores se pueden obtener 2.6 mas subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media aritmética de cada uno de los subconjuntes disjuntos de la siguiente forma: De, x n Siendo x, la media de cada subconjunto y N, el nim. de elementos de cada subconjunto. Veamos la demostracion de la propiedad: Sea la distribucion x4, Xj. Xn» Xn, Kn observando que habrian como dos subconjuntos de ny k-n elementos cada yno, Si —_ Dx, consideramos la media aritmética de la distibucién: X = para los dos subconjuntos, la expresién de la media quedaria: Lane Don Yen Yan, x-4 = Xe, y-calculamos los sumatorios ” n n ‘Si multiplicamos numerador y denominador de cada una de las fracciones por una misma Cantidad el resultado no varia, por tanto, multiplicaremos la primera por N; que es su numero de elementos del primer subconjunto y la segunda por Nz que es el correspondiente, la expresién quedaré: a ‘como Ma Non » Ly = =x, sonla media del primer y segundo subconjunto, la expresién la podemos. expresar de la siguiente manera: X =X, +X, 2 =!" "22 que es lo que n n queriamos demostrar ya que si las frecuencias se multiplican o dividen por un mismo nimero, la media no varia IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, 0 Pequefios que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de resolverlo, que veremos mas adelante. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral MEDIA GEOMETRICA Y ARMONICA. Media geométrica: Responde a la siguiente expresion y se la puede define, como la raiz n-ésima del producto de todos los valores de la variable. También la podemos representar como: ‘ hh Ph a Gaby NOTA: En muchas ocasiones, los valores de la distribucion nos impiden poder efectuar yey" los calculos al exceder la capacidad de la calculadora. Utiizaremos las propiedades de los logaritmos: diggs apy w= ates t1gx2) +]gxf +... +1g4°) sabiendo que lo podemos expresar en notacion compacta: clay ley ty Ign trig. tenet IB) = 58% = IgG, por lo que podemos secir que . G=antilg 5 miles Ellogarirmo de ia media geométrica es la media aritmtica de ioe loparitmas dé los valores de la variable. E! problema se presenta cuando algin valor es 0 6 negativo y exponente de la raiz par ya que no exista ralz par de un nimero negativo. Suele utilizarse cuando los valores de la variable siquen una progresién geométrica ‘También para promediar porcentajes, tasas, n* indices, etc. siempre que nos vengan dados en orcentajes. Ejemplo: Hallar a media geométrica de la siguiente distribucién: x Ni 100 fo 120. 5 125. 4 140) 3 ne® Ic por lo tanto serd conveniente ampliar la tabla con lo que nos quedard Ey 7 19%) TiIg x, 700 70 ig 100=2 20 120 5 Ig 120 = 2.079 10,396 125 4 Ig 125 = 2.097 8387, 140. a 1g 140 = 2.146 6438 na 45.22% Centro de Estudios de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral G = anfi Ig, 2,0555 = 113,632 Media arménica. La representaremos como H: Es la inversa de la media aritmética de las inversas de los valores de la variable, responde a la siguiente expresion: Se utiliza para promediar velocidades, tiempos, rendimiento, ete. (cuando influyen los valores pequerios).. Su problema: cuando algtin valor de la variable es 0 préximo a cero no se puede calcular. Ejemplo: calcular la media arménica de la siguiente distribucion: x Ni 00 10 120 5 125 4 140 3 Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos la tabla con 2 columnas adicionales: x 5 1x ny Xin 700 10 7100 OF 7000 120 5 1120 0.042 600 125) 4 1125. 0.032 500, 140, 3 1140 0.027 420 Noo 0.195 2520 2500 46 Entre la media aritmética la media geométrica y media arménica se da siempre la siguiente relacion: HSGSX MEDIANA: Me La mediana o valor mediano serd el valor de la variable que separa en dos grupos los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden dentro de la ordenacién. n El lugar que ocupa se determina dividiendo el n? de valores entre 2; Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Cuando hay un numero impar de valores de la variable, la mediana sera justo el valor de orden central, aque! cuya frecuencia absoluta acumulada caincida con n Na< SN, => Me =x, Por tanto la mediana coincide con un valor de la variable. El problema esté cuando haya un niimero par de valores de la variable. Si al ealcular — resulta que es un valor menor que una frecuencia absoluta acumulada, el valor de la mediana serd aquel valor de la variable cuya frecuencia absoluta cumpla la misma condicién anterior: n N N,. <5SN, = Me = 5,.Por el contratio si coincide que — = N, , para obtener la tM mediana realizaremos el siguiente calcul: Me == Ejemplo: Sea la distribucion lugar que ocupa 17,5 como se produce que N, , <3eN, > 16 <17,5<26> Me = x por lo tanto Me=7 Elotro caso lo podemos ver en la siguiente distribucion: Xi Ni Ni 7 3 2 7 5 16 6 6 Notar que en este caso se podirla haber producido que hubiera una frecuencia absoluta acumulada superior a 16. En este caso se calcularla como en el ejemplo anterior. Lugar que ocupa = 92/2 = 16 En distribuciones agrupadas, hay que determinar el intervalo mediano [Z, ,,Z,) . la forma de hacerlo serd calcular el valor de la mitad de n, y observar que intervalo tiene una frecuencia absoluta acumulada que cumpla N_, <<, Después de saberlo haremos el siguiente caleulo: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Me =L,,+ Siendo:[ Lis, L) el intervalo que contiene ala frecuencia acumulada N/2 aj = amplitud de dicho intervalo. Ejemplo: (hi, bi) ni Ni (20, 25) 700 100 25,30) 150 250 [30,, 35) 7200 450 (35, 40) 180 630 40, 45) a eri MODA: Mo Serd el valor de la variable que més veces se repite, es deci, el valor que tenga mayor frecuencia absoluta. Pueden existirdistribuciones con més de una moda: bimodales, trimodales, etc. En las distribuciones sin agrupar, la obtencién de la moda es inmediata. Ejemplo: x 7 7 2 7 3 5 a 7 5 4 Moda (2, 4}, en este caso tenemos una distibucion bimodal En los supuestos que la distribucién venga dada en intervalos, es decir, sea agrupada, se pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta. Sitienen la misma ampltud, en primer lugar tendremos que encontrar el intervalo modal, serd aquel que tendra mayor frecuencia absoluta [L, ,,,) . Posteriormente realizaremos el siguiente calcul: Ros IMo=1,,+—_, Ny FM + Siendo Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral La = extremo inferior del intervalo modal a amplitud de dicho intervalo Ny YMjs1 densidades de frecuencia de los intervalos anterior y posterior respectivamente al que contiene la moda. Cuando los intervalos sean de distinta amplitud, el intervalo modal sera el de mayor densidad h frecuencia , es decir d, = "+ ya que consideraremos la ‘calidad’ del intervalo en funcién de la frecuencia y de la amplitud, Para realizar el cdlculo, tendremos en cuenta la siguiente diy Lats —a, expresion: Mo=L,, dst Nota: 11+ Cuando hay una nica moda, la mediana suele estar comprendida entre x y Mo 2.- Cuando la distribucién es simétrica (con 1 moda) se cumple que: = Me=Mo Ejemplo: Hallar la moda de la siguiente distribucion (50, 100) 180 36 [100 , 150) 40 08 [150 , 200) 20 04 Calculamos el intervalo modal [25 ~ 50). Operamos: 25+ *8_95 0,843.6 Mo=L,,+—““ Nd +d, 3.3.3.- Cuantiles: cuartiles, deciles y percentiles Son medidas de localizacién similares a las anteriores. Se las denomina CUANTILES (Q). Su funcién es informar del valor de la variable que ocupara la posicién (en tanto por cien) que nos interese respecto de todo el conjunto de variables. Podemos decir que los Cuantiles son unas medidas de posicién que dividen a la distribucién en Un cierto numero de partes de manera que en cada una de ellas hay el mismo de valores de la variable, Las mas importantes son CUARTILES, dividen a la distribucién en cuatro partes iguales (tres divisiones). C;,C:,Cs, correspondientes a 25%, 50%,75%. DECILES, dividen a la distribucién en 10 partes iguales (9 divisiones).D;,...D, correspondientes a 10%,..,90% PERCENTILES, cuando dividen a la distribucién en 100 partes (99 divisiones)Py,. correspondientes a 1%6,..,99%. Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y asf veremos 2_5_ 50 410 100 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Distinguiremos entre distribuciones agrupadas, y las que no lo estan: En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa: Entonces tendremos que: Nit Q= % onl supuesto que (%4In = Ni > Q=—— En distribuciones agrupadas primero encontraremos el intervalo donde estara el cuantil, lugar <(%)n< N> Intervalo [Li.4, 4) , en este caso: Ejemplo: DISTRIBUCIONES NO AGRUPADAS: En la siguiente distibucién x ni Ni 5 a 10, 10, 15 15 20 8 25 20 = 20 Calcular la mediana (Me): el primer y tercer cuartil (C,C3); el 4° decil (D.) y el 90 percentil (Poo) Mediana (Me) Lugar que ocupa la mediana > lugar 20/2 = 10 Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es calculo: +4, 10415 Ee Me= =12,5 Primer cuartil (C,) Lugar que ocupa en la distribuci6n ( %4). 20 = 20/4 = 5 Como Nit <(25%).n < Nj , es decir 9 <5 < 10 esto implicara que C, 0 Tercer cuartil (C3) Lugar que ocupa en la distribucién (3/4). 20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el céleulo: Atty 1542019 5 Cuarto decil (D,) Lugar que ocupa en la distribuci6n (4/10) .20 = 80/10 =8. Como Ni.y <(%).n X =x. (para todo i). 21 Sia todos los valores de la variable se le suma una misma constante la desviacién tipica no varia, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral .- Sia todos los valores de la variable se multiplican por una misma constante, la desviacién tipica queda multipicada por el valor absoluto de dicha constante. 3.4.2.- Graficos con medidas de posicién y dispersién: Diagrama de caja. Una forma de representar gréficamiente la distribucién es Ia utlizacion de medidas para tener Una idea de la distribucién de los valores. Para construir un Diagrama de caja se ulliza la mediana y los cuartiles. En el grAfico siguiente se indica la forma de hacerlo, Me es la médiana & So Me De g 1 y Qs son el primer y tercer cuartil Fes Q-1,5(Qs-Qy) 0 el minimo (el que sea mas grande) fzes Qs+1,5(Q5-Q,) 0 @l maximo (el que sea mas pequefio) Fres Qr3(QrQh) Fees Qs+3(QsQ) Los puntos entre f, y F; se representan de una forma, lo mismo que los que estén entre fo y Fe Los puntos menores de F, 0 mayores que F, se representan de otra. Ambos tipos de observaciones son lo que se conoce como observaciones atipicas. También son ctiles estos grdticos para comparar distribuciones. . te28 50 20 | oO k 10 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 3.4.3.- Medidas de dispersion relativa. Coeficiente de variacion de PEARSON. El problema de las medidas de dispersién absolutas es que normalmente son un indicador que nos da problemas a la hora de comparar. Comparar muestras de variables que entre si no tienen cantidades en las mismas unidades, de ahi que en ocasiones se recurra a medidas de dispersion relativas. El coeliciente de variacion de PEARSON es una de las mas significativas y lo podemos definir, como el cociente entre la desviaci6n tipica y la media aritmética de una distribucion, Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades por tanto V es adimensional Ss I] lv, El costiciente de variacién no se ve influido si multiplicamos todos los valores de la variable por una constante leis _ [als Ga ex] ele] Propiedad: Sia todos los valores de la variable se le suma una misma constante el coeficiente de variacién queda alterado. Es consecuencia inmediata de las propiedades de la media. 3.5.- Distribuciones de Frecuencias Bidimensionales De forma general, si se estudian sobre una misma poblacién y se miden por las mismas unidades estadisticas una variable X y una variable Y, se oblienen series estadisticas de las variables Xe Y. Considerando simulténeamente las dos series, se suele decir que estamos ante una variable estadistica bidimensional 3.5.1.- Distribuciones estadisticas bidimensionales: tablas de doble entrada o de contingencia o de correlacién Tablas de doble entrada 0 de contingencia Sea una poblacién estudiada simulténeamente seguin dos caracteres X @ Y; que representaremos genéricamente como (xj; yj:n), donde x;y, son dos valores cualesquiera y ny es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, la cual podemos representar como sigue Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral En este caso, nj; nos indica el nimero de veces que aparece xi conjuntamente con, Nig, Nos indica la frecuencia conjunta de x, con yo, etc. 3.5.2.- Distribuciones marginales Dada la distribucién bidimensional (x; ;y, ;n)), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribucién bidimensional, y x Pal Y2 ¥3 V4, 41 m1 ime imig mt 8 nai (nap ines naa x8 ng |g ings nga x4 nat [nag nag nga nj n4 ng ng ng N podemos obtener las siguientes cistribuciones marginals x y x, ny v4 ney 2 na. ye ne x3 ng. ¥3 ng x4 ng, 4 nd 7 Por tanto, podemos decir Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 3.5.3.- Distribuciones condicionadas. Caso de independencia estadistica Al poner una restriccién o condicién a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como’ X/Y , indica que el valor de X viene condicionado por Y YX ‘indica que el valor de Y viene condicionado por X Independencia estadistica Se dice que dos variables X e Y son independientes estadisticamiente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los, casos, es decir: m ot ara todo i,j Si esto no se cumple para todos los valores se dice que hay dependencia estadistica, 3.5.4.- Covarianza, Caso de independencia En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algiin tipo de relacién entre ellas. Esto se ve gréficamente con el diagrama de dispersin, Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relacién: 2 (a My) — Vy 5-3 yy cena Si Sy >O hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores dey. Sy = 0 las variables estan incorreladas, es decir no hay relacién lineal 5 Sy <0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y. Graficamente, indicaria la Covarianza, que los datos, se ajustan a una recla, en los siguientes casos: —— a, Syy>0 Syd PROPIEDADES DE LA COVARIANZA: 1+ Sia todos os valores de la variable x, les sumamos una constante k y a todos los valores, de la variable y les sumamos una constante k’, la covarianza no varia 2. Sia todos los valores de una variable x los multipiicamos por una constante k y a todos los. valores de la variable y los multiplicamos por una constante k’, su covarianza queda muttipicada por el producto de las constantes. 3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sy, y transformaciones lineales de las variables de la forma 2=ax+b, y tecy+d, la nueva covarianza se relaciona con la anterior de la forma: S.-acS.y. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 4. Otra forma de calcular la Covarianza seri 2 |S, >a Y| Sera la que Uitiizaremos en la practica. NOTA: €! -onveniente de la covarianza, como medida de asociacién es su dependencia de las unidades. Habra que definir una nueva medida, que no esté afectada por los cambios en las unidades de medida. Esta medida serd el coeficiente de correlacién al rxy, con la siguiente expresion: siendo 8, y, las desviaciones tipicas de x e y. Este coeficiente es adimensional y siempre estara entre -1y 1 1 Sinay relacién tinea postv, 90 y proximo at @ Sihay relacién lineal negativa ty.<0 y préximo at. @ Sino hay relacion lineal rw serd proximo a 0. NOTA: Cuando las variables x ¢ y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asequtar io mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relacién, pero podrian tener otro tipo de relacion y no ser independientes. Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlacién: Altura [175 [160 [162 [157 [180 [173 [i7i [168 [165 [765 Peso [so [@2 [57 163 178 [65 [66 [67 [62 [58 Los calculos que necesitamos: 69'6 5, =7'2139 17'S s, =8'7567 5 = 175:80+180-82+162.57 ++ al 10 169°6- 67'S Ahora se puede calcular el coeficiente de cortelacién lineal rxy y el de determinacién lineal R2 5232 2130-8'7567 ue nos indica que las variables estan relacionadas. "8282 3.5.5.- Representaciones graficas: diagrama de dispersion o nube de puntos Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Nube de puntos 2 _ tT a7 a Zn g or oh. 3g ° PS tp s I 37 . i015 11ST. C8 Alturas (cm.) Para indicar el nimero de coincidencias, 0 bien ponemos simbolos diferentes, o bien indicamos entre paréntesis, el némero ny, 3.6.- Distribuciones de probabilidad. Algunas distribuciones de interés Una distribucién de probabilidad es, en términos generales, cualquier regla o mecanismo que determine la probabilidad de que una variable aleatoria X tome un determinado valor x (v.a. discreta) 0 se encuentre comprendida en un rango (v.a.continua). Esta regla o mecanismmo puede ser un grdfico, una tabla o una funcién. Toda distribucién de probabilidad, ha de cumplir estos dos requisitos: 1) P(X Sx) 20Vrsilav.a.es diseretaobien [ f(x)dx 2 OVx si es continua sies continua 2) SY P(X =x) =1 sies discretao Freee Una funcién de distribucién de probabilidad es la expresién que nos indica cual es la probabilidad de que la variable aleatoria tome un valor menor o iqual que x. En notacién matemética F(x) =P(X Sx) La funcién de densidad de probabilidad es la derivada de la funoi6n de distrioucién y nos indica la probabilidad de que la v.a. X tome un determinado valor x (v.a. discreta). En el caso de una v.a. continua, la integral definida en un intervalo [a,b] de la funcién de densidad proporciona la probabilidad de que la v.a. se encuentre en [a,b] Distribucion binomial La distribucién binomial es una distribucién de probabilidad discreta del nimero de éxitos en luna secuencia de n experimentos independientes, cada uno de los cuales tiene probabilidad @ de ocurtir. Su funcién de densidad de probabilidad esta dada por: b(a;n,8) (T)ma—er~ t Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral (’) " =o: lin — 2)! para =9,1,2,...,7 giondo \t/ — TH(2 — ©)! a5 combinaciones de nen x(n blementos tomados de xen ») Por ejemplo, la distribucién binomial se usa para encontrar la probabilidad de sacar 5 caras y 7 cruces en 12 lanzamientos de una moneda. En este caso se tiene que B= 5m = 12,8 = 0.5y rests 12) os os 5 Jose —0.5)2-* 0.19 6(5;12,0.5) = ( ‘Su media y su varianza son: pan = n@(1—8) Distribucién hipergeométrica Una v.a. X que toma todos los valores comprendidos entre 0 y n, sigue una distribucién hipergeométrica cuando: PX, == (") Esta funci6n proporciona la probabilidad de obtener un nimero determinado de “éxitos” en una. muestra, conocidos el tamatio de la muestra, n, el nimero de éxitos de la poblacién, p, y el tamajio de la poblacién, N. Esta distribucién proporciona la base tedrica para el muestreo aleatorio sin reposicidn en poblaciones finitas. Su esperanza (media) y varianza son EC YX ,) =P y O = Distribucién Normal Se hace necesario, para la teorfa siguiente, conocer la distribucién normal, ya que tiene gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribucién tiene un apuntamiento u otro, siempre en comparacién con la distribucién normal También es conocida como “campana de Gauss’, debido a su forma, Esta “campana’ responde alla representacién gréfica de la funcién de densidad de la distribucién: -) Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral La importancia de la distribucién normal se debe principalmente a que hay muchas variables asociadas a fendmenos naturales que siguen el modelo de la normal: + Caracteristicas biométricas + Caracteres fisiolégicos como el efecto de un farmaco + Caracteres sociolégicos como el consumo de cierto producto por un mismo grupo de individuos * Caracteres psicolégicos como el cociente intelectual * Nivel de ruido en Telecomunicaciones + Errores cometidos al medir ciertas magnitudes * Valores estadisticos muestrales como la media La representacién gratica de la funcién de densidad de la cistribucién normal, de parimetros yo, N(W, 0), tiene las siguientes caracteristicas: a) es simétrica respecto a la media (parémetro |) b) creciente para x < Hy decreciente para x > ) hay un maximo en x = d) el valor de 1(x) se acerca asintéticamente a 0 cuando x-> + Cuando 1 = 0 y & = 1, la distribucién se conoce con el nombre de normal estandar. Dada una variable aleatoria normal X, con media WU y desviacién tipica ©, si definimos otra z-A=# variable aleatoria 7, entonces la variable aleatoria Z tendré una distribucion normal estandar de media 0 y desviacién tipica 1. Se dice que se ha tipificade la variable X. Distribuciones derivadas de la normal Las distribuciones que se explican a continuacién se obtienen como combinaciones de funciones de distribucién de variables aleatorias independientes que siguen una distribucion normal, Centro de Estudos de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Distribucion X* de Pearson La variable aleatoria resuitante de sumar k variables aleatorias independientes, que siguen una distribucién normal estndar (media = 0 y desviacién tipica = 1), tiene una distribucién que se denomina X* con k grados de libertad. La funcién de densidad de la variable asi construfda viene dada por la siguiente expresi6n: ajay U(/2) 2 Oy h(x) -Oparat = 0 res la funcién gamma. La esperanza matematica es igual ak y la vatianza es 2k. k/2-1 2/2 f(a) donde La distribucin X° es asimétrica y su propiedad fundamental es que, si sumamos dos variables aleatorias X’ independientes de grados de libertad n ym, se obliene una nueva v.a. X° con nem grados de libertad. Esta distribucién tiene muchas aplicaciones en inferencia estadistica, por ejemplo en el test j- cuadrado y en la estimacién de varianzas. También estd involucrada en el problema de estimar la media de una poblacién normalmente distribuida y en el problema de estimar la pendiente de una recta de regresién lineal, a través de su papel en la cistribucién t de Student, y participa en todos los problemas de andlisis de varianza, por su papel en la distribucién F de Snedecor, que es la distribucién del cociente de dos variables aleatorias de distribucién j-cuadrado e independientes. Cuando k es suficientemente grande se aproxima por la distribucién normal Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 4.- Medidas de desigualdad y concentracion 4.1.- Medidas de forma Las medidas de forma de una distribucién se pueden clasificar en dos grandes grupos 0 bloques: medidas de asimetria y medidas de curtosis. 4.1.1. Asimetria Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, segiin sea esia discreta o continua, por el valor de la mecia, esta vertical, se transforma en eje de simetria, decimos que la distribucién es simétrica, Diremos pues, que es simétrica, cuando a ambos lados de a media aritmética haya el mismo n’ de valores de la variable, equidistantes de dicha media dos a dos, y tales que cada par de valores equidistantes tiene la misma frecuencia absoluta. En caso contrario, dicha distribucién sera asimétrica 0 diremos que presenta asimetra. Asimétrica a la derecha Asimétrica ala izquierda— Simétrica Para calcular la asimetria, una posibilidad, es utilizar el llamado coeficlente de FISHER que representaremos como gj y respondera a la siguiente expresion matematica: —L@& =n, 8 Segiin sea el valor de gy, diremos que la distribucién es asimétrica a derechas o positiva, a izquierdas 0 negativa, 0 simétrica, 0 sea: Sigy > 0 % fa distibucién serd asimétrica positiva o a derechas (desplazada hacia la derecha). Sigy < 0 > la distribucién serd asimétrica negativa 0 a izquierdas (desplazada hacia la izquierda). Sigy = 0 -> la distribucién sera simétrica. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral = N Media oad | ‘Media Mediana Mediana Mediana ‘Moda Asimétrica hacia simétiica Asimétrica hacza la izquiercia la derecha Oira posibilidad de calcular la asimetria, es por medio del coefelente de PEARSON (Ap), el cual responde a la siguiente expresion. X=Mo Ss WUnqUE en Ta practica este coeticiente seria mas fécil de calcular que el anterior, casi no lo ullizaremos ya que solo es cierto cuando la distribucién tiene las siguientes condiciones: Unimodal Campaniforme Moderada o ligeramente asimetrica. SiAp>0 > la distribucién ser asimétrica positva o a derechas (desplazada hacia la derecha), SiAp < 0 > ladisinbucién seré asimétrica negativa 0 a izquierdas (desplazada hacia la jzquierda) SiAp = 0 > laistnibucién seré simétrica. NOTA: Otro coeficiente es el coeficiente de asimetria de Bowley, menos utilzado. El cual esta basado en la posicién de los cuattiles y la mediana, para lo cual los relacionaremos de acuerdo con la siguiente expresién: 4.1.2.- Curtosis Para calcularlo utiizaremos la expresion Si go> 0 /a distribucion serd Jeotocurtica 0 apuntada 0 la distribucion serd mesocurtica 0 normal Si ge < 0 /a distribucién serd platicurtica o menos apuntada que lo normal. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral a cil, wae Leptoctirtica Mesocirtica Platictirtica 4.2.- Medidas de concentracion: Indice de Gini y Curva de Lorenz. Las medidas de concentracién tratan de poner de relieve el mayor 0 menor grado de igualciad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribucién de la variable. Para este fin, estén concebidos los estudios sobre concentracién. Denominamos concentracion a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.) Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos extremos: 1 Concentracién maxima, cuando uno solo percibe el total y los demas nada, en este caso, nos encontraremos ante un reparto no equitative: XY KONG cssensere Hn OY Xe 2. Concentracién minima, cuando el conjunto total de valores de la variable esta repartido por igual, en este caso diremos que estamos ante un reparto equitativo Xp 2 AQ = HQ = veeeeeeee =Xned = Kp De las diferentes medidas de concentracién que existen nos vamos a centrar en dos: Indice de Gini, Coeficiente, por tanto sera un valor numérico. Curva de Lorenz, gréfico, por tanto sera una representacion en ejes coordenados. 4.3..- Calculo e interpretacion de los indices de concentracién Sea una distribucién de rentas (xj, ni) de la que formaremos una tabla con las siguientes columnas: 1 Los productos x nj, que nos indicarén la renta total percibida por los nj rentistas de renta individual x), 2- Las frecuencias absolutas acumuladas Nj . 3- Los totales acumulados uj que se calculan de la siguiente forma’ Uy= xm; Us= XY My + Xe Me Us = x4 ny +X. Nee x5 m5 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Un = X4 My # Xe Mes Xo Mgt = + Xp My Por tanto podemos decir que w, = >" x.1, 4 Lacolumna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como pj y que vendrd dada por la siguiente notacién N jp, =—100 n = Larenta total de todos los rentistas que serd Up y que dada en tanto por ciento, la cual representaremos como qj y que responderé a la siguiente notacién: 100} Por tanto ya podemos confaccionar la tabla que sera la siguiente: xX, n apni NE uy 7, = Mito 10 [pia x my pany [N 4 Pt an Pro xo, np pana |No ug. Pa. a2 P2- a2. Xn On Pin in [Nn Un Pn On Pn- On Tomo podemos ver la dilima columna es la diferencia enire las dos penullimas, esta diferencia seria 0 para la concentracién minima ya que pj = gj y por tanto su diferencia seria cero, Si esto lo representamos graficamente obtendremos la curva de concentracién o curva de Lorenz .La manera de representario sera, en el eje de las X, los valores pen % y en el de las Y los valores de q, en %. Al ser un %, el grafico siempre sera un cuadrado, y la gréfica sera una curva que se uniré al cuadrado, por los valores (0,0), y (100,100), y quedara siempre por debajo de la diagonal La manera de interpretarla serd: cuanto més cerca se sittie esta curva de la diagonal, menor concentracién habrd, 0 mas homogeneidad en la distribucién, Cuanto mas se acerque a los ejes, por la parte inferior del cuadrado, mayor concentracion. 100, 80) 0) oF 20) 20h 10 0 10 2 30 0 50 6 7% Hw 9% 100 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Veamos dos ejemplos, el de la izquierda de poca concentracién y el de la derecha de mas conceniracién. 100 100 100 100 Analiticamente caleularemos el indice de Gini el cual responde a la siguiente ecuacién Sina) le indice tomara los valores de 1, = 0 cuando pj = qj concentracion minima y de I cuando qj = Esto lo veremos mejor con un ejemplo Frecuencia marca xin Eu, qi =(U/utn) 100 [py = (Nin) 100 ip) gq Lists x, a, Ni O-50 25 23 23 S75 (575 [1.48 8.85 7.37 [50 — 100 [75 72 95 (5400 [5975 [15,38 36,54 21.16 HoO= [125 —~(62 157 1750 |19725 (35,33 60,38 (25,08 150 50-175 [a8 205 (e400 (22125 (56,95 178.85 (27,90 200 200- (225 —*(19 (228 4275 [26400 [67,95 86,15 18,20 250 250-275 «(8 232 "2200 [28600 /73,62 89.23 5.61 300 is00- (S25 (14 246 14550 [30750 [85,30 94,62 19.29 1350 350-375 7 (253 (2625 [35775 [92,08 ovat [B22 1400 400-4255 258 (2125 [87900 [97.55 925 68 450 jaso— [are (2 260 (950 [38850 [700,00 700,00 (0,00 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral (250 (SaR50 [s57,15 125 48 Se pide Indice de concentracién y Curva de Lorenz correspondi Indice de concentracién de GINI kt 2-4) 195.48 E,, Obls 0,193 Observames'que hay poss concentracién por encontrarse cata del 0, Curva de Lorenz La curva la obtenemos cerca de la diagonal, lo que indica que hay poca concentracién: 1000 0.0 00 600 50.0 490 30.0 200 00 190 20,0 90.0 400 50,0 600 70.0 800 900 1000 Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 5. MODELO DE REGRESION LINEAL 5.1.- El Método de los Minimos Cuadrados Ordinarios. La regresién lineal es una de las técnicas més utiizadas en el trabajo econométrico. Mediante dicha técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente 0 endégena, Y, respecto de una o varias variables explicativas o endégenas, X. En este epigrafe comenzaremos el estudio del caso de una Unica ecuacién de tipo lineal con una variable dependiente y una independiente, dejando para el préximo epigrate la generalizacion del modelo al caso de multiples variables exégenas. Se trata de estudiar una ecuacién 0 un modelo del siguiente tipo: y, +BX, +e, Nuestra labor consiste en estimar los parametros ay b de la ecuacién anterior a partir de los datos muestrales de los que disponemos. Para ello utilizaremos el método de fos Minimos ‘Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos hacer Ciertas hipotesis sobre el comportamiento de las variables que integran el modelo. Ala variable ¢; a denominamos término de perturbacién o error, y es una variable que recoge todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin embargo, no estan reflejados en la variable explicativa X. Estos factores deben ser poco importantes, ¢s decir, no puede existir ninguna variable explicativa relevante omitida en el modelo de regresién. De ser asi, estariamos incurriendo en lo que se conoce como un error de especificacién del modelo. El término de perturbacién también recoge los posibles errores de medida de la variable dependiente, ¥. De lo anterior se desprende que, a la hora de estimar los parametros del modelo, resultara de Vital importancia que dicho término de error no ejerza ninguna influencia determinante en la explicacién del comportamiento de la variable dependiente. Por ello, cuando se aplica el metodo de minimos cuadrados ordinarios, se realizan las siguientes hipétesis de Ccomportamiento sobre el término de error: 1. Laesperanza matematica de @, es cero, tal que E(e) = 0. Es decir, el comportamiento del término de error no presenta un sesgo sistematico en ninguna direccién determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estaran compensados. 2. Lacovarianza entre e:y ¢) es nula para i# jtal que E(e-e) = 0. Ello quiere decir que el error cometido en un momento determinado, j, no debe estar correlacionado con el error cometido en otro momento del tiempo, 0 dicho de otro modo, los errores no ejercen infiuencia unos sobre otros. En caso de existir correlacion, nos encontrariamos, ante el problema de la autocorrelacién en los residuos, el cual impide realizar una eslimacién por minimos cuadrados valida, 3. Lamatriz de varianzas y covarianzas del término de error debe ser escalar tal que Var(e) = 6, i=1,....n, donde / es la matriz unidad. Dado que siempre que medimos Una variable, se produce un cierto error, resulta deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuantia. Esta condicién es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediria un uso legitimo de la estimacién lineal por minimos cuadrados. Centro de Estudlos de la Administracten Regional de Cantabria. Curso 2011-€-026-0f Profesores: Francisco Parra, M? Paz Moral Estas hipétesis implican que los errores siguen una distribucion Normal de media cero y varianza constante por lo que, dado su carécter aleatorio, hace que los errores sean por naturaleza impredecibles. Asimismo, las variables incluidas en el modelo deben verificar que: 1. El.comportamiento de la variable independiente Yse ajusta al modelo lineal durante todo el periodo muestral, es decir, no se produce un cambio importante en la estructura de comportamiento de Ya lo largo de la muestra considerada. 2. Las variables explicativas, X, son no estocasticas, es decir, son consideradas fijas en muestreos repetidos. 3. Elndmero de variables explicativas, k, siempre debe ser menor que el tamafio muestral, n. Es decir, siempre debernos disponer de mas observaciones que pardmetros haya en el modelo. \Veamos a continuacién, suponiendo que se verifican los supuestos anteriores, como se realiza la estimacién de los parametros ay b. Graficamente, el resultado que obtendramos al estimar dichos parametros sera una recta que se ajuste lo maximo posible a la nube de puntos definida Por todos los pares de valores muestrales (X; ¥), tal y como se puede apreciar en el grafico 5.1 Feota de rapielin: y-0,1940,007%0 Grafico 5.1, Nube de puntos o grafico de dispersion con variables relacionadas. linealmente El término de error, 6, puede ser entendido, a la vista del grafico anterior, como la distancia que existe entre el valor observado, Y;,y el correspondiente valor estimado, que seria la imagen de X, en el eje de ordenadas. El objetivo de la estimacién por Minimos Cuadrados Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es decir’ Min Se =Sa, FF =De,- * Los pardmetos y varables que llevan encima un slmbolo de acento ckeurilo(*) indlean que son estimadas por lo que no Se cortesponden con e valor real dela variable sino que con al calculado por nosotros. Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Derivando esta expresién respecto a los coeticientes ay be igualando a cero oblenemos e! siguientes sistema de ecuaciones’ a+bX Sy, =msbSx, 27 ab Vx, =45x, +6. donde n representa el tamaiio muestral y X e F representan las medias de dichas variables. Resolviendo dicho sistema de ecuaciones obtenemos la solucién para los pardimetros ay b: Ejemplo 5.1. Se pretende estimar el siguiente modelo a+bX, +e, donde ¥;¢s la cantidad vendida anualmente del bien Yen el afio t, y X;es el precio medio al cual se vendié el bien Y durante el afio t, Se dispone de los siguientes datos muestrales: Afio | ¥ x i988 | 10 19 1989 | 12 18 1990 | 13 16 y991 | 14 15 1992 | 15 15 1993. | 17 14 1994 | 20 14 1995 | at 13 1996 | 22 12 1997 | 20 13 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral A partir de estos datos iniciales podemos calcular la siguiente tabla: YX =F) (X,-X) -¥)-0x, 10 19 64 4a 26,24 1681 40,96 12 18 44 34 “19,64 961 19.36 18 168 34 014 374 421 11,56 1415 24 Os 001 5.78 15 15 44 os 001 1,98 17 14 06 09 © 0,84 oat 036 2 14 36 86-09 3.28 081 12,96 a1 13 46 0 49 74 361 21,16 22 12 56 29 1624 841 31,36 20 13 36 19-684 361 12,96 Total 164 149 0 0 “796 449 188.4 Media 16, 14, 0 0 49 Aplicando las formulas vistas anteriormente’ Ye, -Ha,-¥7) : as 1.7728 De, -* ° a=¥ ~bX =16.4—(~1.772814.9) = 42.82 de donde la ecuacién de la recta estimada sera Y, = 42.82-1.7728X, +¢, Finalmente, sustituyendo en la expresién anterior los valores de X, podemos obtener los valores de ¥, y el valor de los términos de error, ¢: ¥ e =¥,-¥, 9.13140312 | o.seas9688 10.9042316 | 1.09576837 iaaaceses | 4gggeaea 16.2227171 |-2.20971718 16.2227171 | -1,20971715 17.9955457 | -p.99554566 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 17.9956457 |2.00445434 19.7683742 | 1.23162584 24.5412027 | 0.45879733, 19.7683742 | 0.29162584 5.2. Bondad de Ajuste Como ya hemos comentado anteriormente, el modelo de regresién lineal se plantea para explicar el comportamiento de la variable dependiente Y. Por ello, en dicho estudio sera interesante analizar la variacién que experimenta esta variable y, dentro de esta variacién, estudiar qué parte esta siendo explicada por el modelo de regresién y qué parte es debida a los errores 0 residuos. Para ello, a partir de los términos de error, se puede obtener la expresién: VY=P¥ tee En el caso de que exista término independiente en el modelo, la descomposicién anterior quedaria como: SCT =SCE+SCR donde’ — SCT: es la Suma de Cuadrados Totales y representa una medida de la variacién de la variable dependiente. — SCE es la Suma de Guadrados Explicados por el modelo de regresién. — SCRes la Suma de Cuadrados de los Errores Cada una de estas sumas viene dada por las siguientes expresiones: SCT =Y'Y -n¥? =))Y?-n¥? SCE= f'X'Y ~n¥? V'Y¥-fX'Y = SCT -SCE A pattir de las expresiones anteriores es posible obtener una medida estadistica acerca de la bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacién (FP), que se define como: SCR osrsi SCT Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral yen el caso particular de modelo con término independiente, como: w=5E osrst Scr Mediante este coeficiente es posible seleccionar el mejor modelo de entre vatios que tengan el mismo néimero de variables exégenas, ya que la capacidad explicativa de un modelo es mayor cuanto més elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto cuidado a la hora de trabajar con modelos que presenten un R* muy cercano a 1 pues, aunque podria parecer que estamos ante el modelo "perfecto", en realidad estaria encubriendo cierios, problemas de indole estadistica como la mulicolinealidad que veremios mas adelante. Por otra parte, el valor del coeficiente de determinacién aumenta con el numero de variables exégenas del modelo por lo que, si los modelos que se comparan tienen distinto niimero de variables exdgenas, no puede establecerse comparacién entre sus A’. En este caso debe emplearse el coeficiente de determinacién corregido R*,, el cual depura el incremento que experimenta el coeficiente de determinacién cuando el niimero de variables exdgenas es mayor. La expresién analitica de la versién corregida es: --R') SCR/n=k ‘SCTjn—1 cuyo valor también oscila entre Oy 1 5.3. Inferencia acerca de los Estimadores Hasta el momento hemos visto como la estimacién por Minimos Cuadrados Ordinarios permite obtener estimaciones puntuales de los parametros del modelo. La inferencia acerca de los imismos permite completar dicha estimacién puntual, mediante la estimacién por intervalos y los contrastes de hipétesis. Los primeros posibilitan la obtencion de un intervalo dentro del cual, con un determinado nivel de confianza, oscilara el verdadero valor de un parémetro, mientras que los segundos nos permitiran extraer consecuencias del modelo, averiguando si existe 0 no, evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parametros. \Veamos la expresion analitica de la estimacion por intervalos y las reglas a seguir para realizar Un contraste de hipétesis. Intervalos De Confianza a) Intervalo de contianza para el parametro j. Su célculo se realiza mediante la siguiente expresién: donde S,, es la desviacién tipica estimada para el coeficiente fi, que se obtiene de la matriz de varianzas y covarianzas de los estimadores expresada como’ f ot on Sap, 50, Ons 6; }, a OD Pal Xm Sach FB: oD, Centro de Estudios de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral cuyos estimadores sera: obtenidos a partir de la expresién Sy =52(X'X)"', donde S” es la estimacion de la n-k varianza del término de error y (X'X J la inversa de la matriz de productos cruzados de los regresores utilizados (ver Tema 7). ) Intervalo de contianza para la varlanza del término de error La expresin del intervalo de confianza para la varianza del término de error es: a-t)|_{ ser, ser a || re a donde ct representa el nivel de significacién del contraste y generalmente se utiliza un 5% de significacién, Contrast ipétesis 4) Contraste individual sobre un parémetro Formulacién de la hipétesis: Estadistico experimental: tay $s, Estadistico tedrico: s@/2) Regla de decision: Si ffag[>4.. Se fechaza la hipétesis nula b) Contraste de significacién individual Formulacién de la hipétesis: Hy: B, =0 1,8, #0 Estadistico experimental: fag Estadistico tedrico’ fey = byeg EN 2) Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Regla de decisién se rechaza la hipétesis nula ¢) Contrastes para un conjunto de hipétesis lineales Formulacién de ia hipotesis: Hoi RBar Hy: B+ toby + oalternativamente: Estadistico experimental: donde qrepresenta el niimero de ecuaciones de la hipétesis nula Estadistico teérico: = Fg. n-ka) Fro Regla de decisién: Si Fa, >F, tap > Fr se rechaza la hipétesis nula 4) Contraste de significacién global Formulacién de la hipétesis: Estadistico experimental: Estadistico teérico: Regla de decisién Si Fy? F, fap > Faw se rechaza la hipétesis nula 5.4. Prediccion en el Modelo de Regresion Una vez estimado y validado el modelo, una de sus aplicaciones mas importantes consiste en poder realizar predicciones acerca del valor que tomaria la variable endégena en el futuro 0 para una unidad extramuestral. Esta prediccién se puede realizar tanto para un valor individual como para un valor medio, o esperado, de la variable endégena, siendo posible efectuar una prediccién puntual o por intervalos. Su célculo se realiza mediante las expresiones que figuran a continuacien: a) Prediccién individual: se trata de hallar el valor estimado para la variable Y un periodo hacia delante, En este caso basta con sustituir el valor de las variables exégenas en el modelo en el siguiente periodo y calcular el nuevo valor de Y. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral b) Intervalo de prediccién. Para hallar un intervalo de prediccién debe utilizarse la siguiente expresion: Ic [Peas pS JX Ka Ka thas fle X aX, «| ¢) Intervalos de prediccién para un valor medio 0 esperado. La expresién a utilizar en este caso sera: Hebe) Fer For VX XY Xi Fou tha VR AT Ke | 5.5. Violacién de los Supuestos del Modelo Lineal de Regresién Como vefamos en anteriores epigrates, el modelo de regresién lineal requiere que se cumplan las siguientes hipétesis sobre los términos de error: + Media cero :E(e) =O izt,...10 * Varianza constante : Varfe) = 1 i=1,....0 + Residuos incorrelacionados : Cov(e,e) = 0 El incumplimiento de alguna de dichas hipétesis, implica la no aleatoriedad de los residuos y, por tanto, la existencia de alguna estructura o relacién de dependencia en los residuos que puede ser estimada, debiendo ser considerada en la especificacién inicial del modelo. Los principales problemas asociads al incumplimiento de las hipétesis de normalidad de los residuos son, por un lado, ia heteroscedasticidad, cuando la varianza de los mismos no es constante, y la autocorrelacién o existencia de correlacion entre los diferentes residuos, lo que Violaria el supuesto de términos de error incorrelacionados. se construye una gréfica de los resultados de una estimacién minimo cuadratica (en abcisas) frente al valor absoluto de los residuos (en ordenadas), cuando éstos tiltimos presentan una distribucién Normal de media cero y varianza constante, N (0, «), el resultado obtenido (grafico 6.2.) muestra que el tamaito del error es independiente del tamafio de la variable estimada, ya que ertores con valor elevado se corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una distribucién de residuos con problemas de heteroscedasticidad da lugar a una figura como la que puede observarse en el grafico 6.3., en donde se manifiesta una clara relacién de dependencia entre la variable estimada y el tamano del error. En este caso los errores de mayor tamaiio se corresponden con los valores més altos de la variable estimada. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Residuos aleatorios de media cero y varianza constante 3500 s . = 3000 4 - . ° E 2500 t- 3 oe 3 «. % 2000 | % ye « *e y e 2 1500 1. © $e. ° . re 2 1000 ° = 500 4 0 0 200 400 600 800 Residuos valor absoluto (e) Grafico 5.2. Residuos Homocedasticos Residuos con heterocedasticidad 3500 S 3000 % 3 2 —E 2500 4 oe ww ee = 4 ee @ 2000 oo @ ° 2 i500 ow eee oe ; 3% 10001 % @ @ & 500 0 0 200 400 600 800 1000 Residuos valor absoluto (e) Grafico 5.3. Residuos Heteroscedasticos La representacién gratica de los errores en forma de serie temporal, es decir, poniendo en el eje de abcisas los errores y en ordenadas el periodo temporal en que estan datados, permite apreciar la ausencia o presencia de correlacién ya que a los residuos no correlacionados (grafico 5.4.) le corresponde una representacién gréfica en la que no se aprecia paula temporal alguna, sucediéndose de forma impredecible o aleatoria, mientras que en los residuos con problemas de autocorrelacion, la pauta temporal es evidente, evidencidndose que cada residuo puede ser predicho en funcién de la sucesion de los errores correspondientes a periodos temporales pasados (grafico 5.5.) Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Residuos aleatorios con media cero y varianza constante 1000 500 © 6 a ° 0 aug tiarge me tages we ott we o 6 fo "8 50d 40 1950 160° 1970 ASE * 1800 - -1000 Graflco 5.4, Residuos sin Autocorrelacion Residuos con problema de autocorrelacion 1000 -1000 Grafico 5.5. Residuos con Autocorrelacién Estos problemas asociados a los errores pueden detectarse con test estadisticos disefiados para ello. A continuacién se describen dichos test y la forma en que debe procedarse para estimar modelos en donde la estimacién minimo-cuadratica presenta problemas de este lipo asociados a los residuos. Heteroscedasticidad Decimos que el término de error de una estimacién minimo-cuadratica presenta heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones que integran la muestra, lo que implica que la vatiabilidad de los errores minimo-cuadraticos obtenidos estan relacionados de alguna manera con los datos utlizados en el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relacién de dependencia con alguna de las variables exdgenas utilizadas. Las consecuencias para la estimacién minimo-cuadratica son que los estimadores de los coeficientes seguirén siendo insesgados y lineales pero ya no seran de minima varianza 0 eficientes, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral La deteccién de la heteroscedasticidad se realiza a través de diversos contrastes paramétricos, entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de Goidfeld- Quandt (1985) y el contraste de White (1980), los cuales pasamos a ver a continuacion. Test de Bartlett El test de Bartlett se basa en de que la suposici6n de que las n observaciones de los datos de la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2,..., G), cada uno de los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable explicativa, de tal manera que n; seria el ntimero de observaciones correspondientes al primer grupo, n2 el ntimero de observaciones asociadas al segundo grupo y, en general, nges el ndimero de observaciones asociadas al grupo g-ésimo. A cada grupo le corresponde un valor medio de la variable dependiente y una varianza para este valor medio. El test contrasta si dicha varianza es igual 0 no entre los distintos grupos que se han construido para la variable dependiente, admitiéndose la hipétesis de existencia de heteroscedasticidad si la varianza es significativamente diferente entre los grupos formados. Los pasos a seguir en la practica para realizar el test de Bartlett son los siguientes: 1. Se estima la varianza (s?) de cada grupo de observaciones, g=1, 2, ..., Gmediante la siguiente expresién: Bajo el supuesto de homocedasticidad, Sse distribuye como una chi-cuadrado (x) con G-1 grados de libertad. Por lo tanto, se rechazara la hipotesis de igual varianza en todos los grupos si Ses mayor que el valor critica de la distribucién chi-cuadrado al nivel de significacién estadistica fijado. Contraste de Goldfeld-Quant Elcontraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relacién monétona —creciente o decreciente—respecto a alguna variable exdgena (que denominaremos variable 2). La operativa de este test es la siguiente 1. Ordenar todas las observaciones de las variables de! modelo, de menor a mayor, en funcién de la variable z. 2. Eliminar c observaciones centrales de la ordenacién anterior, de tal forma que queden dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral tal forma que (n-c)/2 sea sustancialmente mayor que el numero de parametros del modelo. 3. Estimar dos veces e! modelo original mediante Minimos Cuadrados Ordinarios, uitilizando en cada estimacién una de las submuestras. 4. Denominando SR; y SR, a las sumas de los cuadrados de los residuos de ambas submuestras (de manera que el subindice 1 corresponda ala submuestra con la menor suma) se define el estadistico F: La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad entonces, can la ordenacién de la muestra, la varianza del término de error sera mayor hacia el final de la muestra que al principio de la misma. Como el cuadrado de los residuos esta asociado con la varianza de los mismos, entonces SA. deberia ser sensible mente mayor que SR. Por ello, se rechazara la hipdtesis nula de homocedasticidad siempre que el valor del estadistico F excede el valor en tablas de la distribucion Fineaye nena aceptaindose la existencia de heteroscedasticidad en caso contrario. Contraste de White Elcontraste de White se desarrollé también para evitar la necesidad de considerar una forma espeofica para la heteroscedasticidad, El contraste se basa en que, bajo la hipdtesis nula de homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de i es: o(x'xy! Por el contraro, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada por: COO XY XOX (XX) 1O = diag(o} oF .o2) Por tanto, si tomamos la diferencia entre ambas queda: cexy eax xy o(xxyt Por ello, basta con contrastar la hipétesis nula de que todas estas diferencias son iguales a cero, lo que equivale a contrastar que no hay heteroscedasticidad. Los pasos a seguir para realizar el contraste de White son los siguientes: 1. Estimar el modelo original y obtener la serie de residuos estimados 2. Realizar una regresién del cuadrado de la serie de residuos obtenidos en el paso anterior sobre una constante, las variables exégenas de| modelo original, sus cuadrados y los productos cruzados de segundo orden (los productos resultantes de multiplicar cada variable exégena por cada una de las restantes hasta completar . Es decir, se trata de estimar por MCO la relacién: @ sett x, + AQ, HAXT + ATEN, +N XS +H QUYX, HX HX, b HAN GM 3. Alaumentar el tamafio muestra, el producto nF? (donde n es el niimero de observaciones y Res el coeficiente de determinacién de la iitima regresin) sigue una distribucién Chi-cuadrado con p — 1 grados de libertad, donde p es el niimero de variables ex6genas ulilizadas en la segunda regresién. Se aceptara la hipdtesis de Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral existencia de heteroscedasticidad cuando el valor del estadistico supere el valor critico de la distribucién Chi-cuadrado al nivel de significacién estadistica fijado. Correccién de la heteroscedasticidad Los problemas de heteroscedasticidad se resuelven utiizando una técnica de estimacién lineal que recibe el nombre de Minimos Cuadrados Generalizados (MCG). El uso de Minimos Cuadrados Generalizados equivale a redefinir as variables utlizadas en el modelo original de regresidn tal que todas ellas quedan divididas por la desviacin tipica de los residuos: Posteriormente se realiza la regresién minimo cuadratica con el modelo transformado: ¥ Bit Ba X My, +PsX %y, ++ BX, +4, La transformacién descrita del modelo original requiere del conocimiento previo de una estimacion de la varianza de los residuos. Sino se dispone de una estimacién previa de dicha varianza, ésta puede estimarse mediante la siguiente expresién: Autocorrelacion Decimos que existe autacorrelacién cuando el término de error de un modelo econaméttico esté correlacionado consigo mismo a través del tiempo tal que E/e, e) # 0. Ello no significa que la correlacién entre los errores se dé en todos los periodos sino que puede darse tan sélo entre algunos de ellos. En presencia de autocorrelacién, los estimadores minimo-cuadraticos siguen siendo insesgados pero no poseen minima varianza, debiéndose utilizar en su lugar el método de Minimos Cuadrados Generalizados. La existencia de autocorrelacién en los residuos es facilmente identificable obteniendo las funciones de autocorrelacién (acf) y autocorrelacién parcial (acp) de los errores minimo- cuadraticos obtenidos en la estimacién. Si dichas funciones corresponden a un ruido blanco, se constataré la ausencia de correlacién entre los residuos. Sin embargo, el mero examen visual de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la practica econométrica se ultilizan diversos contrastes para la aulocorrelacién, siendo el més utilizado el de Durbin-Watson (1950), que pasamos a ver seguidamente. Contraste de Durbin-Watson Si se sospecha que el término de error del modelo econométrico tiene una estructura como la siguiente: entonces el contraste de Durbin-Watson permite contrastar la hipétesis nula de ausencia de autocorrelacién. Dicho contraste se basa en el calculo del estadistico d,utilizando para ello los errores minimo-cuadraticos resultantes de la estimacién: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral El valor del estadistico d oscila entre 0 y 4, siendo los valores cercanos a 2 los indicativos de ausencia de autocorrelacién de primer orden. La interpretacién exacta del test resulta compleja, ya que los valores criticos apropiados para contrastar la hipdtesis nula de no autocorrelacién requieren del conocimiento de la distribucién de probabilidad bajo el supuesto de cumplimiento de dicha hipdtesis nula, y dicha distribucién depende a su vez de los valores de las variables. explicativas, por lo que habria que calcularla en cada aplicacién. Para faciltar la interpretacion del test Durbin y Watson derivaron dos distribuciones: dy d, que no dependen de las variables explicativas y entre las cuales se encuentra la verdadera distribucién de d, de forma que a partir de un determinado nivel de significacién, se adopta la siguiente regla de decision: + Sid-djrechazamos la hipstesis nula de no autocorrelacién frente a la hipstes altemativa de autocorrelacién positiva, + Sid.>4—dhrechazamos la hipétesis nula de no autocorrelacién frente a la hipétesis alternativa de autocortelacién negativa + Sid, sd <4-d, aceptamos la hipétesis nula de no autocorrelacién. En la siguiente pagina presentamos la tabla con la distribucién desarrollada por Durbin y Watson para los valores de diy d, Ejemplo 5.2. En el siguiente ejercicio planteamos una regresién lineal entre el consumo de energia eléctrica en Espafia y el PIB a precios de mercado valorado en moneda constante (millones de euros). PIs (miles de TEP) |(millones de Jeuros) 198 [9407 js55312 am TE [s7aai2 n35 0470 [sor4a3 35 H0g74 (406252 N35 1372 |ave5e2 1 7488 \az0462 155 TTSeo [aiei26 90 [TOD [226047 90 [UE [aa7787 35 2827 [aaeae7 a0 [IT [aea5Ts ts FaoaO [a86785 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 199 15364 [B07346 30 TSS IsaB7 1a a5 7282 ISa3746 zn 7756 1554852 Fuente: INE y OCDE Con los datos de a tabla anterior la estimacién MCO entre el consumo de energia eléetrica y el PIB seria la siguiente: Yir-6234.440,043Xi+6, Siendo Yiel consumo de energia eléctrica y X:el PIB en moneda constante. Los resultados de la estimacién se presentan a continuacién: Estadisticas de Ta regresion Cosficiente de correlacion 0.996136 miltiple 9 Coeficiente de determinacién R’ 0.9924084 4 R® ajustado 0.9918661 9 Error tipico 233,80585 3 Observaciones 16 Coeficientes Error tipico_ Estadisticot Probabiidad 234.453 a51.562 13.806 0,000 0.043 0.001 42.780 0.000 i6n tealizada son buenas, se obtiene un R® muy Como vemos las estadisticas de la regr elevado, y los parametros son estadisticamente significativos, ya que el valor teérico de la t- Student es 2.51 al 95% de probabilidad. No obstante, la representacién gréfica de los errores apunta a la posibilidad de un problema de autocorrelacién entre los residuos: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Gratico de los residuos 600.0 5000) 400.0 00,0 oe 200.0 100,0 00 4 ti. + 100.0986 1988 * 1980 1982 1994 1986 1998 * 2000 2002 2004 20,0 + 20,0 -400,0 Para verificarlo calculamos el estadistica t de Durbin-Watson: v e er eres) (ereaF 1987 3333 aoa2 [3548178 1988 9705 170.5 [s7s2415 [3236 104742.4 798g 70475 B52 [307608.2 [235.7 B555TG 7990 TH07 aS (4063853 [682 ABIB 2 1997 T1548 763 a16758.3_|-43.0 18455 1992 T1714 225.9 a20687.9 _|-49.6 2462.8 1993 11529, 40.2 /416085.8 | 266.1 70804.9 1994 11952 469 4259941 |6.8 45.6 1995 72453 85 4377785 [384 1474.9 1996 72909 819 (448538.9__|-90.5 8185.4 1997 73680 “348.7 a66861.7 [2668 71815 7998 14545 “BabA 287040.1 [935 87602 7999 EE B88 3074048 [196.5 385366 2000 T6335 “259 528739.9 (32.9 1079.7 2001 16977 305.4 543440.6 [331.3 109776.4 2002 17451 305.3 5645467 _|-0.1 0.0 Total 0.0 7179830.0_|-188.8 479081.7 Los valores tecricos del estadistico para n-16 observaciones y k=1 variables explicativas, son do=0.98 y d=1.24, Dado 0.0867 < 0.98 no podemos rechazar la hipétesis de la existencia de autocorrelacién positiva. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral ke? Kea a fala da a |a [a4 15 146 1.70 6 Mat 166 7 Mas 163 8 142 1.60) 0 nat LS 0 iat 137 21 nat ss 2 140. Isa 3 140 a 2 1a 1.33 ds vat U2 2%» rat 132 ” rat rst » Laz eT 0 1a Ls u 1a L3H 2 13 ust 3 1a3 Est M vas ust x“ 1st ist 36 Ms lst ” 14s Ls ® 14s 132 » 1s 132 0 146. 12, a Las 133 30 1p ust 3s 1st Lss o 132 1.36 65 183 U3? 0 135 Ls 5 56. 9 80 1s? Loo 85 US 158 1.60 0 sa 139 Lot 9s ss 160) Lee 100 136 60 hes riamero de obser vaciones. K<-numero de variables explicativas, exeluyendo el té ino constant Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 6. Regresion Lineal Multiple 6.1.- Introduccion. Pasamos a continuacién a generalizar el modelo anterior al caso de un modelo con varias variables exégenas, de tal forma que se trata de determinar la relacin que existe entre la variable endégena Vy variables exégenas, X; ,Xe,.., Xs. Dicho modelo se puede formular matricialmente de la siguiente manera: Y¥=XP+e=BX, +h) donde: ay tet BX te, bA,2, ¥ =| *| es el vector de observaciones de la variable endégena =[X,X,.. X,] es la matriz de observaciones de las variables exégenas B By @s el vector de coeficientes que pretendemos estimar =|? | esel vector de términos de error Sien la expresién anterior se considerara que existe término independiente, a, la matriz X quedaria como: 1 Xs Xy x=[|! %2 ~ Xela x, x, x] 1X. y el modelo quedaria asi + BX tBX att BXy HH Fah Qro ‘Suponiendo que se verifican las hipdtesis que velamos antes, el problema a resolver uevamente es la minimizacién de la suma de los cuadrados de los términos de error tal que: Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Desarrollando dicho cuadrado y derivando respecto a cada f, obtenemos el siguiente sistema de ecuaciones expresado en notacién matricial XX P=XY en donde basta con despeiar 6 premultiplicando ambos miembros por la inversa de la matriz (XX) para obtener Ia estimacién de los parametros del modelo tal que: Baexy xy donde: Sx VxiXe2 SXXs Dx Si en el modelo existiera término independiente, a, las matrices anteriores serian: n Sx vx, xex=|QXe LNA ~ DXake xY= a a At DXe UXeXa oo LUXE El resultado de muttiplicar dichas matrices conduce a la obtencién de la estimacién de los parametros f del modelo: Dx ExXa Ba(XXXY = Brera 2% Sex, Sar, Cada uno de los coeficientes estimados, 2, , son una estimacion insesgada del verdadero parémetro del modelo y representa la variacién que experimenta la variable dependiente Y Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral cuando una variable independiente X/varia en una unidad y todas las demas permanecen constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadisticas muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y éptimos. Ejemplo 6.1. Se dispone de informacién relativa al grado de ocupacién hotelera (¥), ntimero medio de turistas (X), medido en miles de turistas, y estancia media (X.), medida en dias. Los datos disponibies son de corte transversal y pertenecen a cada una de las 17 Comunidades Auténomas. Se quiere conocer como variaré el empleo del sector turistico en Cantabria en funcién del aumento de las estancias medias. Tabla 6.1. Viajeros, pernoctaciones y estancia media. Afio 2003 Datos por comunidades auténomas y provincias Empleo (en Numero de viajeros, Estancia miles) (miles) media Andalucia 28,4 11.9025 31 ‘Aragén 36 1.848,0 at Asturias (Principado de) 24 1.088,2 23 Balears (Iles) 25,9 6716.0 72 Canarias 272 4.8757 78 Cantabria 20 933.8 24 Castilla y Len 62 3.6476 17 Castilla La Mancha 28 1.805,1 17 Cataluia 23,5 10.717 34 Comunidad Valenciana 13,4 5.5797 39 Extremadura 22 1.000,7 WW Galicia * 63 3,040.5 24 Madrid (Comunidad de) 10,7 5,748.9 24 Murcia (Regién de) 20 882.5 3.0 Navarra (Comunidad Foral de) rr 557.7 20 Pais Vasco 32 1.540,6 18 Rioja (La) 07 446.2 18 161.8 62.3855 50,3 Fuente:INE. El modelo tedrico a estimar con la informacién disponible es el siguiente: Y= 4/8; Xi + Bo Xoy + @ donde Y es el empleo X; el numero de viajeros y X2 la estancia media, Obtenemos los sumatorios de los productos cruzados: y Xs Xe Y 3.193 4.107.921 709 X 426.702.792 227.645 x. 203 En consecuencia: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 17 62386 50 162 62386 426702792 227645) (x'y) = a (xy 50227642208 709 Vamos a estimar el madelo propuesto por Minimos Cuadrados Ordinarios. Para ello, basta con mmultiplicar las matrices tal que: (-5.702) X’XY'X'Y =| 0,002 | 2,672 ) Bb Por lo que el modelo queda como sigue: Y, = = -$,70240,002Xy + 2,67X: donde f, = 0.002 indica el efecto, sobre el grado de ocupacién hotelera, de las variaciones. unitarias del numero medio de turistas y (3 = 2,67 mide la variacion que se produciria en el grado de ocupacién hotelera si la estancia media aumentara en una unidad. En consecuencia un aumento de las estancias medias de los turistas en Cantabria de 2,4 dias a 3 dia significaria un aumento del empleo del sector en 1.607 personas. 6.2. Deficiencias Muestrales: Multicolinealidad y Errores de Medida Multicolinealidad El fenémeno de la multicolinealidad aparece cuando las variables exégenas de un modelo econométrico estan correlacionadas entre si, lo que tiene consecuencias negativas para la estimacién por Minimos Cuadrados Ordinarios pues, en ese caso, en la expresion: Becexy xy la matriz (X'X) no serd invertible por lo que resultaré imposible hallar la estimacion de los pardmetros del modelo y la varianza de los mismos. Esto es lo que se conace por el nombre de ‘multicolinealidad exacta. Sin embargo, en la practica no nos encontraremos con un caso tan extremo como el que acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad aproximada, siendo una de las columnas de la matriz (X"X), aproximadamente, una combinacién lineal del resto por lo que serd una matriz aproximadamente singular. Al no ser el determinante de (X'X) igual a cero, existird inversa y podtan estimarse los parametros pero con las siguientes consecuencias: = Por un lado, pequefias variaciones muestrales producidas al incorporar o sustraer tun niimero reducido de observaciones muestrales podrian generar importantes ‘cambios en los parémetros estimados. = Por otro lado, la matriz de covarianzas del estimador MCO, S,,,=52(X'X) "al ser un miltiplo de (X'X)"' , sera muy grande por ser el determinante de (X'X) Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral muy pequefio por lo que la estimacion realizada seré muy poco precisa al ser la desviacién tipica de cada pardmetro muy elevada. Las soluciones propuestas para resolver el problema de la multicolinealidad son variados, si bien en general resultan poco satisfactorios: ~ Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable exégena que puede estar muy correlacionada con el resto y posteriormente estimar el Coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el modelo. — También se ha sugerido la posibilidad de reformular el modelo, convirtiéndolo en un modelo de varias ecuaciones Exrores de medida Cuando hablamos de errores en las variables nos referimos a los errores de medicién de las mismas. Como el alumno ya deberia conocer. al medir las relaciones existentes en Economia recurrimos a variables obtenidas, ja mayoria de las veces por mecio de estimaciones muestrales, esto es, a través de un muestreo representativo de las unidades que las generan (consumo interior de un pais, produccion, etc.) 0 derivadas de éstas (Producto Interior Bruto, etc.), Estas estimaciones de las variables mactoeconémicas van asociadas a un error de muestreo. Las variables cuantificadas a través de muestreos representativos, no solo se dan al trabajar con macromagnitudes, encontrandoselas también el investigador en todas las disciplinas (Marketing, Contabilidad, etc.) Es importante, por tanto, que al efectuar cualquier tipo de investigacién y andlisis, se conozca la fuente y origen de los datos, asi como sus caracteristicas basicas (error de muesttreo, nivel de confianza, tipo de muestreo, tamaiios muestrales, universo de referencia, influencia o sesgo de la no respuesta, etc.). El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo largo del tiempo entre los econémetras, existiendo partidarios de su tratamiento as{ como partidarios de no tenerlos en cuenta. estos errores se les ptopuso como los causantes de las discrepancias en los valores observados y la regresion, fundamentandose en la diferencia existente entre las variables tedricas y las variables empiricas. La aceptacién de la existencia de ertores en la medicién de las variables produce un problema de aceptacién de inconsistencia en las estimaciones minimo cuadraticas debido a que, evidentemente, si una variable esta medida con error éste se reflejard en la perturbacion aleatoria, produciéndose una correlacién entre ambos componentes de la ecuacién. En estos casos se utiliza la definicion de variable latente, como la variable real, que no siempre coincidird con la variable empirica u observada. La variable latente se describe como la variable observada mas el término de error. Lievado el problema a un modelo concreto, se puede observar como susttuyendo las variables a analizar (siempre se supone que se desea trabajar con variables reales “lalentes”) por las variables observadas mas el error de medida, se llega al problema descrito. Este problema difiere en su magnitud segtin si el error se da en las variables explicativas o en las variables endégenas. Asi, si sdlo existen errores en la variable enddgena, los estimadores minimo cuadréticos seran insesgados y consistentes, pero presentaran un problema de eficiencia (se incrementa la varianza del error). Si, por el contrario, los errores de medicién se encuentran en las variables explicativas del modelo, los estimadores minimo cuadraticos serén sesgados e inconsistentes. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Otro hecho a tener en cuenta es que habitualmente no se conoce el valor real de la variable, no conociéndose, por tanto, el error cometido en su medicién (estimacién), debiendo el investigador trabajar con la variable observada, lo que conduce a la necesidad de trabajar con estimadores consistentes. Actualmente existe una linea de investigacién en la cual se trabaja con errores en las variables, conocida como el andlisis de ecuaciones estructurales los cuales, partiendo del hecho de que ‘no se miden perfectamente las variables latentes mediante la informacion disponible, incorporan dentro de su implementacion los errores de medida. Dentro de esta linea de investigacién cabe destacar los siguientes métodos: + Método de Agrupacién de las Observaciones, que consiste en la divisién de los valores muestrales en grupos o submuestras a partir de los cuales, una vez ordenados de menor a mayor los valores de la variable explicativa, se calculan las medias, aritméticas, obteniéndose de esta manera tanto la pendiente como el términa independiente. Los estimadores asi obtenidos son consistentes, pero no eficientes, ‘+ Método de Varlables Instrumentales (V1), consiste en encontrar un instrumento 0 Variable que, no estando incluida en el modelo, esté incorrelacionada con el término de error y correlacionada con la variable explicativa para la que acttia de instrumento y que posee errores de medida. El estimador oblenido de esta manera serd un estimador consistente, si bien el método plantea ciertas dificutades, ya que es dificil encontrar en. la practica instrumentos de una variable medida con error que no estén correlacionados con el término de error. + Método de la Regresion Ponderada, en la que se da una ponderacién igual a los, errores de Xy de Y. Posteriormente, y una ve7 fijada la relacién entre las vatianzas de los etrores, se procede a estimar X en funcién de Y, y de Y en funcién de X, debiendo encontrarse la regrasién verdadera entre ambas estimaciones, 6.3. Modelo con variables cuantitativas y cualitativas como regresores. En un modelo econométrico, se entiende por variable al concepto econémico que queremos analizar. Normalmente utlizaremos variables cuantitativas, es decir, aquellas cuyos valores vienen expresados de forma numérica. Sin embargo, también existe la posibilidad de incluir en el modelo econométrico informacién cualitativa, siempre que la informacién cuaitativa pueda expresarse de forma cuantitativa. Dentro de este tipo de variables se distinguen * Variables proxies: son variables aproximadas a la variables objeto de andlisis. Por ejemplo, si quiero utilizar una variable que mida el nivel cultural de un pais (variable cuaiitativa) puedo utilizar como variable proxy el ntimero de bibliotecas existentes en un pais, que si bien no recoge el concepto exacto que yo quiero medir, si se aproxima al mismo, * Variables ficticias o dummy: estas variables toman unicamente (en principio) dos valores arbitrarios segtin se de 0 no cierta cualidad en un fenémeno. Habitualmente a la variable ficticia se le asigna el valor 1 si oourre un determinado fenémeno y 0 en caso contrario. Estas variables, a su vez, pueden ser de dos tipos: — Ficticia de intervalo: Por ejemplo si estoy analizando la variable exportaciones en Espafia desde 1970 hasta el afio 2000, hay un hecho importante que es la entrada de Espaiia en la Unién Econémica que debo recoger a través de la uitiizacién de la variable ficticia — Ficticia de escalén: Por ejemplo si esté analizando el crecimiento econémico de un pals en el que en un afio daterminado hubo un acontecimiento meteorolégico que tuvo una repercusién negativa sobre la economia, al Centro de Estudos de la Admiisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral tratarse éste un dato casual (y no equilibrado con el resto de valores que toma la serie) debo introducir en el modelo este tipo de informacion para que la tenga en cuenta en la estimacién y cometa un menor error. * Variables definidas por su pertenencia o no a un grupo: si yo tengo una variable cualitativa que me define la pertenencia 0 no de un pals a un grupo (por ejemplo renta alta, media y baja) podré introducir esta variable cualitativa en el modelo codificandola, es decir expresando sus valores en ntimeros de tal forma que puedo asociar cada nivel de renta con un valor nlimero arbitrario (por ejemplo 1: renta baja; 2: renta media; y 3: renta alta).Se entiende por datos, los diferentes valores que toma una variable. Los datos pueden corresponder a los valores de una variable en el tiempo (serie temporal), oavalores para diferentes sujetos en un momento dado (datos de corte transversal). Acontinuacién vamos a plantear el ejercicio de la inclusién de una variables cuaiitativa dicotémicas 6 dummy en un modelo de regresién lineal. Supongamos que tenemos el siguiente modelo: VerBrtBoXete (1) siendo iB. Tay Trot T En el petiodo T; sabemos de la existencia de un suceso extraordinario que afecta a la evolucién de la variable dependiente, y queremos légicamente saber el efecto que causa dicho suceso extraordinario sobre la ecuacion a estimar. Por ello habremos de definir las siguientes variables dummy: < sits p=! SST py -a—p2,)=19 #87 lo sit>7, Lsit>T, La estructura de ambas variables seria la siguiente: 1 tienen tantos 1 como observaciones hay hasta T, y D2 tiene tantos 1 como observaciones hay entre T, y T Analizar el efecto del suceso extraordinario sobre la regresién, puede realizarse de forma separada para cada petiodo de { a Ti y Ti a T 0 conjuntamente para todo el periodo, bien sobre el termino constante Bt o sobre ia pendiente B2. Para el andlisis del término constante tendremos que plantear los siguientes modelos de regresién: Ye=By+0:D1:+BoXre; (2) Yeo By+0gD2:+Xet0; (3) YiroD tr+etoD2; +BoXi+e) (4) En este caso Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral — Sise utiliza la especificacién del modelo (2) el andlisis de la invariabilidad de fi, exige contrastar la hipétesis nul He: 04=L — Sise utiliza la especificacién del modelo (3) el analisis de la invariabilidad de p, exige contrastar la hipétesis nulla He: d=0 — Sise utiliza la especitficacién de! modelo (2) el andlisis de la invariabilidad de B, exige contrastar la hipétesis nula Ho: 04 = Si queremos analizar la pendiente del modelo, piantearemos las siguientes ecuaciones de regresion: Para el andlisis del témino constante tendremos que plantear los siguientes modelos de regresién: Ye=BrefoXerd.(Dts X:)aes (5) YeeBr+BeXeS{D2, Xe, (6) Ye=B1+81(D1: Xi)+ +82(D2eXi) +0 (7) En cuyo caso: = Sise utiliza la especificacién del modelo (5) el andlisis de la invariabilidad de Bz exige contrastar la hipétesis nula Hp: 5)=0 — Sise utiliza la especiticacién del modelo (6) el andlisis de la invariabilidad de B exige contrastar la hipétesis nula Hy: 52-0 — Sise utiliza la especificacién del modelo (7) el anélisis de la invariabilidad de Bs exige contrastar la hipétesis nula Ho: 5)=82 Las variables dummy también pueden ser utilizadas para modelizar variables definidas por su pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relacién que existe entre la renta disponible y las primas de seguro contratadas por un grupo “N’ de individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo Y,, yla renta 0 los ingresos que declara cada uno de ellos Ri: YirBitBoRi+e: (8), siendo i=1.....N De este grupo de individuos conocemos algunas otras caracteristicas que pueden ser transcendentes a la hora de nuestro analisis, por ejemplo e! nivel de estudios. En concreto disponemos de informacién sobre el nivel de estudios que han completado: sin estudios, primatios, secundarios o universitarios. Utilizando dicha informacién creamos las siguientes variables dummy: 2, 0 sii tiene estudios universiarios pi af | sti tiene estdios imiversitarios 0 sii mo tiene estudios universitavios { sii no tiene estudios universitarios Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de ello tienen estudios universitarios, las variables dummy tendrian la siguiente estructura’ Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Di= 8 i Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto que tiene el nivel de formacién en el gasto en primas de seguros de los diferentes individuos. Al igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en el termino independiente (a), 0 en el coeficiente (B) que relaciona el nivel de renta con el importe pagado en primas. El planteamiento del problema para el analisis del término constante seria entonces: YicBr4ciD14P2Rite, (9) YixBi+a2D2-+f2Ri+e (10) YroyD1:4002 +PoRee, (11) En este caso: - Sise utiliza la especiticacion del modelo (9) el andlisis de la invariabilidad de 8, exige contrastar la hipotesis nula Hy: a=0 — Sise utiliza la especiticacién del modelo (10) el andlisis de la invariabilidad de Bi exige contrastar la hipétesis nula Hp: 2=0 — Sie utiliza la especificacién del modelo (11) el anélisis de la invariabilidad de B; exige contrastar la hipétesis nula Hs: =2 Para el andlisis de la pendiente tendremos que plantear los siguientes modelos de regresién: Yi-Br4BaRed,(D1, Rae; (12) YrBi+BcRe-de(D2, R)+e; (13) Yi=B,+5)(D1, R)+ +3.(02 R) +0, (14) En cuyo caso: — Sie utiliza la especificacién del modelo (12) el andlisis de la invariabilidad de i exige contrastar la hipétesis nula Ho: 5)=0 — Sise utiliza la especificacién del modelo (13) el andlisis de la invariabilidad de Bi exige contrastar la hipétesis nula Ho: 52-0 — Sise utiliza la especificacién del modelo (14) el andlisis de la invariabilidad de Br exige contrastar la hipétesis nula Hy: 5)=32 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad En Economia se suele trabajar con datos anuales, pero en muchos casos y derivado del caracter predictivo del modelo o bien de la objetiva utilizacién del mismo, se hace necesario trabajar con series de datos ciarias, mensuales o trimestrales, y muchas series en economia generalmente adolecen del caradcter estacional de las mismas (consumos bajos en los meses de verano, consumos tutisticos altos en este periodo, disminucion de las ventas en domingos y lunes, etc.) Las variables dummy pueden utiizarse para recoger el efecto de la estacionalidad en el modelo econométrico que estimamos. Las variables dummy para ajuste estacional son variables artificiales que asumen valores discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de los afios 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se sefialo en el apartado 6.3, es un patron de comportamiento regular de una serie a lo largo de cada afio, que puede obedecer a factores tales como costumbres, dias festivos decretados, vacaciones de verano, época de navidad y otros factores similares que ocasionan inerementos o disminuciones en las magnitudes de ciertas variables, como por ejemplo la produccién, las ventas, ete: Si se trabaja con datos trimestrales, cabria pensar en utilizar una variables artificial para cada trimestre, que definidas como: gs, qz, do Y das SU representacién matricial para dos arios cualesquiera seria’ 1oool x o1oolx oo1l01s ooo) x=|1 0001 o1o001x oololas ooolls No obstante hay que tener presente que las columnas correspondientes a las variables estacionales darian lugar @ una combinacién lineal exacta con la constante, lo cual produciria que el determinante de la matriz X'X fuera iqual a cero y, por tanto, singular (no invertible), lo que impide estimar los coeficientes del modelo de regresién. Para evitar este inconveniente se utiizan tinicamente tres de las cuatro variables dummy y por supuesto la constante. Asi, si se excluye la variable q, en la matriz X, el efecto estadistico de la Variable omitida estaria implicitamente recogido con la columna de la constante. En defintiva, la mattiz de variables exégenas estaria determinada por las tres dummy: qi, dz. qsy la constante, y las variables exégenas cuantitativas con lo cual la matriz seria: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 1001y o1o0lx oollas ooo1 x x=|1 001% 0101 x% ooO1llas ooo01 x 1 tra forma muy utilizada consiste en expresar las variables artificiales estacionales como desviaciones con respecto a la que corresponde al cuarto trimestre. Estas nuevas variables, Que podrian denominarse S, S2 y Ss, corresponderian a las siguientes diferencias vectoriales: Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la nueva matriz X queda definida de la siguiente manera: 10 ol x o 1 ola oo Lia Tox x 1x o 1 01x oo Lia, 1 1 Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han sido definidos de forma tal que su suma sea cero en cada aio, por lo que este sistema permite que el efecto estacional se anule en el afio y que se cbvie el problema de singularidad de la matriz. ‘A manera de ejemplo, considérese un modelo de regresién con cifras trimestrales, en donde la variable Y depende de la variable X y en el que se incorporan tres variables dummy trimestrales (S,, para todo i = 1, 2, 3) y un término de error (). Este modelo estaria representado de la siguiente manera: Yeo + LAX + 148) + (282 + Us83 + La estimacién se llevaria a cabo con las tres variables dummy trimestrales S:, S2 y Ss. Los Coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto trimestre. Es importante mencionar que en el caso de variables con periodicidad mensual, se crearian Unicamente once variables estacionales, en forma equivalente a lo explicado en esta seccién, Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Sin embargo, en este caso se presenta el inconveniente de que se requiere gran cantidad de observaciones. No obstante hay que tener presente que el uso de las variables estacionales presenta problemas cuando la estacionalidad de la serie Y es mavil, es decir, cuando varia aio con aio. En este caso, es dificil que modelos de este tipo capturen de una forma adecuada la estacionalidad de la variable dependiente. Ejemplo 6.2. Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relatives al consumo de electricidad en GWh en Espafia (Y) y al PIB a precios de mercado en millones de euros constantes de 1995. Tabla 72 A Demanda de Eloctrcidad [PIB (millones de Avo | | why on 1996 |7_|aoa1e 109275 2 [37275 111875 3 |38070 11211 4 (30981 116096 1997 |_| 40246 113396 2 [39070 115566 3 |40464 115744 4 [42602 121807 1998 | 1_|43263 118399 2 [41535 120735 3|43273 121472 4 [45010 126179 7999] 1 [46551 22024 2 (43735 126471 3 |45908 126474 4 [48160 131977 2000 |1 | 4e922 20443 2 [46861 133021 3 [48208 130743 4 [50020 195507 00T | 1 | 52029 134079 2 [4gsi4 135800 3 |50887 134475 4 [53405 139292 2002|1_|53928 136892 2 [51523 138746 3 [51950 137060 4 [53762 142154 2008 [1 [57156 140080 2 [53231 141861 3. |56516 140207 456990 146163 ~Fusnie: Ministerio de Economia Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral En la figura 6.1 se aprecia el carécter estacional de la demanda de energia eléctrica: Consumo de Electricidad (GWh) 60.000 A 55,000, Y aa Ae 45,000 . 40,000 35,000 30,000 12a412941294129412941239412941294 y998 1997998999200 200120022008 Fig. 6.1. Consumo Trimestral de Electricidad Los trimestres de mayor consumo son los terceros y cuartos (otofio el segundo y tercero (primavera y verano), wierno) y los de menor, Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres: Yi= -24,705.2+3,087.201,-996. 102, +1,066.203; +0.55%:+6, con los siguientes resultados: Coeficiente de correla 09908421 title 7 0.9817682 Coeficiente de determinacién R? 1 0.9790672 RP ajustado 1 854.45583 Error tipico 1 Observaciones 32 a os s Error tipico_t 24706.2227 1999,20087. 12,3575621 0.55474441 0.01492667 37.1646554 3087.18789.499.461556 7.024933 a2 996,097068 432.19015 2.30476578 3 1086.19716_434.284718 _2.45506488 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Para considerar la hip6tesis Ho: 6i=0, hay que tener presente que el valor teérico de la t-Student correspondiente a una distribucién con (32-5) grados de libertad es 1.69 para a=0.05/2 (95% de confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos de cero. 6.5. El modelo probabilistico lineal EI modelo de probabilidad lineal se caracteriza por tener la variable endégena “y" dicotémica o binaria, es decir toma el valor “y=1" si un determinado suceso ocurre y el valor “y=0" en caso contrario. Estos modelos son gran utizacién en andlisis estadistico en las ciencias sociales, pero encuentran una dificil aplicacién en el analisis estadistico en economia debido a las ificultades de_interpretacién econémica de los resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente investigan es la probabilidad de que se de una opcién (determinada por la variable endégena) 0 no se de (valores y=1 0 y=0). Apesar del caracter dicotémico de la variable endégena, el modelo de probabilidad lineal se especifca de la forma habitual, teniendo presente que las variables ex6genas no son dicotémicas sino continuas YinBrefieXite (1) siendo imt.ou..N De acuerdo con la expresién (1) el hecho de que la variable endégena tome valores discretos (1.60), el término de perturbacién e,, Unicamente puede tomar dos valores: - Si¥20= ~ B:X\ con probabilidad p. — SiYx1 = 6, = 1-B, BX; con probabllidad (1-p). Dado que la esperanza del término de error ha de ser nula E(@)=0, entonces se demuestra que = 1-B-BaX: y (1-P) = B#8.X,, lo que permite evaluar la probabilidad de que la variable endégena tome el valor correspondiente: ~ Prob ( Prob (c= -Bi- Baxi) Prob (e,= 1-B1-BaXs 1-Br BX. [1-p) = Bet BoX . Asu vez la varianza del término de perturbacién, se calcularia a partir de p: Var(ei)= (1-Br-BoX ( Br+BoXi)=p"(1-p) Una problematica inherente a los estimadores MCO de estos modelos, son los siguientes: — La perturbacién aleatoria («) no sigue una distribucién normal. Es sencillo observar este hecho ya que el cardcter binatio (1 0 0) de la variable endégena afecta a la distribuci6n de la perturbacién, teniendo esta una distribucién Binomial. Este problema se aminora cuando se ulilizan tamafios de muestra (N) grandes en donde la distribuci6n Binomial es susceptible de aproximarse a una Normal — _ Laperturbacién aleatoria no tiene una varianza constante (es heteroscedéstica), lo cual supone una falta de eficiencia. Para solucionarlo habria que realizar transformaciones que nos diesen una perturbacién homocedéstica, esta ‘ransformacién consiste en multiplicar todas las variables por una cierta cantidad que climine el problema de la heteroscedasticidad. Dicha cantidad puede ser: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral siendo B los estimaciones MCO del modelo. — _Elmayor problema que plantean estos modelos es no obstante que las predicciones realizadas sobre la variable endégena no siempre se encuentran en el intervalo [0,1], ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos Soluciones, una es tomar como valor 0 todas las estimaciones de la variable ‘end6gena con valores negativos, y 1 cuando estas resulten mayores que 1. La segunda, solucién es utlizar funciones de distribucién que estén acoladas entre cero y uno, Segin sea esta distribucién tendremos las dislintas versiones de los modelos con variable dependiente dicotémica. Las mas utilizadas son los modelos Probit y Logit. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 7. NUMEROS INDICES 7.1. Introduccion El ntimero indice es un valor expresado como porcentaje de una cifra que se toma como Unidad base. Por ejemplo, cuando decimos que el indice de precios de consumo (base media de 1992-100) correspondiente al mes de diciembre de 1997 es 122,9, estamos sefialando que los precios en diciembre de 1997 eran un 22,9 mas elevados que los que estaban en vigor a lo largo de 1992. Los ntimeros indices no tienen unidades y pueden referirse tanto a precios (Indice de precios de consumo, incice de precios percibidos por los agricullores, indice de precios industriales) como a cantidades (indice de produccién industrial. EI numero indice es un recurso estadistico para medir diferencias entre grupos de datos. Un numero indice se puede construir de muchas formas distintas. La forma de cada indice en particular dependerd de! uso que se le qulera dar. Los ntimeros indices se elaboran tanto con precios (p} como con cantidades (q). El afio en que se inicia el calculo de un numero indice se denomina afio base y se nombran por poo qo segtin tratemos de precios 0 de cantidades, a los precios o las cantidades de los afios sucesivos los indicamos por pro qr. Si trabajamos con diferentes tipos de mercancias utilizamos los, subindices (i) para referirnos a un tipo de mercancia, de modo que utilizamos los simbolos pro qupara sefialar el precio o la cantidad de la mercancia /en el periodo t Si hubiese N mercanefas el valor total de la cesta de productos durante el periodo tse expresa : Valor total durante el periodo t=" pa, Los nimeros indices se clasifican en ponderados y no ponderados. Los ntimeros indices no ponderados son los mas sencillos de calcular, pero deben de utilizarse con especial cuidado. Los nimeros indices ponderados requieren que definamos previamente a su construccién los criterios de ponderacién o de peso. Una vez definida una ponderacién debe de respetarse en los sucesivos periodos. En este apartado estudiaremos los indices ponderados que son de aplicacién comin. A la hora de elaborar un ndmero indice hay que tener presente una serie de propiedades que el indice debe de cumplir. Dichas propiedades son a) Existencia: Todo numero indice ha de tener un valor finito distinto de cero. b) Identidadt Si se hacen coincidir el periodo base y el periodo actual el valor del indice tiene que ser igual a la unidad (0 100 si se elabora en porcentajes), ¢} Inversién: El valor del indice ha de ser invertible al intercambiar los periodos entre si. Es 1 decir: 1! = 7; el indice del afo 0 calculado con la base del aio tha de ser igual al inverso del indice del aiio { calculado en base del aio 0. d) Proporcionalidad: Si en el periodo actual todas las magnitudes experimentan una variacion proporcional, el numero indice tiene que experimentar también dicha variacién. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral e) Homogeneidad: Un numero indice no puede estar afectado por los cambios que se realicen en las unidades de medida. 7.2. Indices simples y complejos Considerado un periodo determinado (por ejemplo, enero de 1990) como periodo base del indice, se elabora el indice simple a partir de la razén de precios (precios relativos) 0 cantidades (cantidades relativas) respecto al valor de aquéllos en el periodo base multiplicados por 100: Al comparar los ntimeros indice Ik ¢ zs) $e ve el incremento del precio de dicho producto en cuestion. Los indices simples pueden agregarse de diferentes formas, a dichas agregaciones se les conoce como indices complejos. Si suponemos que tenemos “N’ diferentes productos, obtendriamos operando los siguientes indices complejos: 4) indice media aritmética de indices simples cuando operamos del siguiente modo (ly ©) Indice media armébnica de indices simples cuando operamos dal siguiente modo 4) indice media agregativa de indices simples cuando operamos del siguiente modo > Dé tet Ss Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 7.3. Indices ponderados. Una ponderacién w; es un valor de referencia para cada producto que determina su importancia relativa en el indice total. Al ser el ponderador un valor relative lo normal es que se presente calculado en tanto por uno, por ciento 6 por mil, expresando asi el porcentaje que representa dicho producto en la cesta de productos que cubre el indice: Pog Ww Lowe Una vez oblenidos los ponderadores (w)) se calculan el indice media aritmética ponderada de indices simples cuando operamos del siguiente modo Ejemplo 7.1. En la tabla 7.1 aparece a informacién que disponemos sobre una cesta de productos: 2000] 2001 2002| Productos [Precio venta [Unidades [Precio venta [Unidades [Precio venta [Unidades Mi 1 3000] 12) 4000] 14) 5500] M2, 15) 4000] 15) 3000] 16) -4500| MS 2 2500] 2| 2500] 24] 2000] Ma 4 2000] 45 1500] 45) 2000} Calculamos los indices simples de precios para los productos de la cesta: Productos 2000) 2007 2002] Mt 00) 720,00] 740,00) Mz 700 700,00] 108.5; IMs 100} 100,00] 120,00 Ma 100 712,50] 112,50) Los indices simples para la cesta de productos seran: indices 2000 2007 2002} simples Media 700 108,13} 119,79) aritmética Media 700 707,79 719,16) \geométrica (Media 00 107 46) 178,55] larménica Media 700 708,13 T19,79 lagregative El ponderador seria tanto por uno el valor del producto, es decir el precio por la cantidad vendida, en el total vendido: 2000) 2007 2003] Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Mt 0,13636364] 0,2280285] 0,26829268) MZ 0.27272727|_0,21377672| 0,25087108) IMS 0,22727273)_0.23752060) 0, 16724730) Ma 0,36363636| 0,32066508) 0,31358885) Y el indice media aritmetica ponderado resultaran ser los siguientes: indice 2000] 2007 2002] Iponderado ‘Media 709 108,57] 119,67] aritmética 7.4. Indices de precios. Los indices de precios se elaboran usualmente utilizando indices complejos ponderados, siendo los mas utiizados los denominados indices de Laspeyres, Paasche y Fisher. 2) indice de Laspeyres El indice de Laspeyres es una media aritmética ponderada de indices simples, cuyo criterio de ponderaciOn es W.=Pi.qe. La formula que define el indice de Laspeyres es la siguiente: Sam, Sete Se suele utilizar este indice a la hora de elaborar los indices de precios por cuestiones practicas ya que Gnicamente requiere investigar en el afio base el valor de los ponderadores, que es la parte mas costosa de la elaboracion del indice, (téngase en cuenta que en el IPC se realiza una encuesta de presupuestos familiares en los afos base que requiere una muestra de 20.000 hogares). Una vez determinados los ponderadores el indice de Laspeyres dnicamente requiere que se investigue en los sucesivos periodos la evolucién de los precios. b) indice de Paasche También es una media aritmética ponderada de los indices simples, pero utiizando como Coeficiente ponderador wi=P..qr; por tanto su definicién queda coma: Dw, Lire Pp= = i BB Pots La diferencia entre el indice Paasche y el indice Laspeyres es que exige calcular las ponderaciones para cada periodo corriente “t’, haciendo su calculo estadistico mas laborioso, y presentando el inconveniente de que sélo permite comparar la evolucién del precio de cada afio con el afio base, dado que las ponderaciones varian de periodo en periodo. Ambas razones han determinado que este indice sea ms inusual que el anterior ©} Indice de Fisher. El indice de Fisher es la media geométrica de los indices de Laspeyres y Paasche, es decir : Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Ep= {Ip-Pp Como los indices de precios de consideran un afio determinado para calcular el ponderador bien sea a partir de qo.ps, 0 de qy Ps, utilizan la denominacién de afio base para referirse al afio "0" a partir del que se calcula el ponderador w. 7.5. Enlaces y cambios de base. Uno de los problemas que tienen los indices ponderados como el indice de Laspeyres es que pierden representatividad a medida que los datos se alejan del petiodo base. Téngase presente Que, por ejemplo, el IPC que el INE calculé en 1991 utilizé los ponderadores obtenidos en la Encuesta de Presupuestos Familiares de 1983 que, a su vez, reflejaba la estructura media de consumo de los espafioles en aquel afio. El tiempo transcurrido entre 1983 y 1991 era lo suficientemente dilatado para que se hubieran producido cambios en los habitos de consumo y en consecuencia el INE procedié a elaborar una nueva Encuesta de Presupuesto Familiares (la de 1992), cuya estructura de consumo 6 cesta de compra es la que actualmente se utiliza como base para obtener el IPC. La decision que tomé el INE de realizar un nuevo IPC con la estructura de consumo resultante de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los indices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori entre si. El procedimiento a través del cual hacemos comparables nimeros indices obtenidos con bases distintas es lo que se denomina Enlace. El enlace de indices se basa en la propiedad de inversién de los ntimeros indices. ‘Supongamos que queremos efectuar un cambio de base desde un indice construido con base 1992, a otro en base 2001 Sea I'p el indice construido en base 1992 ¢ I; el indice construido con la base 2001, entonces: Loli _ Lo im @ do In ir En el caso del IPC espaol el INE publica el valor del cociente 7 que denomina coeficiente i legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 2001 y el construido con la base 1992 para Espafia y Cantabria, figuran en la tabla siguiente: Tabla n? 7.2 Indice de Precios de Consumo. Base 2001. Coeticientes de Enlace IPC. Base 2001. Coeficientes de Enlace. Comunidades Auténomas. Grupos COICOP- [Alimentos YBobicasNoMeoneliees) 07e0s15 —o7ese14 [bebe Alconéleas YTabaeD stom osze00 fase tae Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 0.768028 0876921 0712176 0,708012 0,825968 — 0,820248 0.753008 0,719466 0575517 0561891 0,681374 0.667208 0,702260 0,699994 Fuente: Instituto Nacional de Estadistica Las series enlazadas se calculan mutipicando cada uno de los indices en base 92 por este coeficiente. No obstante, hay que tener presente que estos coeficientes mantienen las tasas de variacién publicadas hasta diciembre de 2001 de los indices en base 1992 pero no permiten calcular tasas de vatiacién entre periods de distintas bases, ya que no solucionan la ruptura ocasionada por la inclusién de los precios rebajados. Por lo tanto, las tasas de variacion entre periodos de distintas bases obtenidas mediante los indices en base 1992 enlazados con el coeficiente de enlace legal y los indices en base 2001 no estarian bien calculadas. Elemplo 7.2 A continuacién vamos ha realizar un ejercicio de enlace de diferentes bases del indice de precios percibidos por los agricultores. En la Tabla n* 7.3 tenemos una tabla con las series 1996-2001 del Indice de Precios Percibidos por la Agricultores en Espajia del producto Leche, base 1995: y la serie 2000-2006 de dicho indice en base 2000. El enlace de la serie 1996-2011 a la base 2000 se realiza conforme a la regla antes expuesta: Tabla n? 7.3 Indice de precios percibidos por los agricullores en Espafia, Precio de la leche. Precios de [Precios | Precios laleche | Leche Leche (Base (Base (Enlace Afios 1995) 2000) 1996-2000) 1996 99.96 96,74 1997 [101,70 98,42. 1998 [105,27 101,82 1999 | 104,02 100,67 2000| 103.33 700,00| 100,00 2001 114,62 110,23[ 110,23 2002 104,16| 104,16 2003 104,20[ 104,20 2004 110.01 110,01 2005 109,52[ 109,52 2008 107.54| 107.54 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 7.6. Deflactacion de series economicas. La utlidad més importante que tienen los indices de precios, aparte de describir el comportamiento de los precios durante un periodo concreto, es la de deflactar series cronolégicas o temporales valoradas en pesetas. Deflactar es eliminar el componente de subida de precios que es inherente a toda serie temporal que viene referida a un valor monetario (ventas de una empresa, los depésitos y créditos bancarios, ol PIB, etc...). Las ventas de una empresa, por ejemplo, se incrementan de un afio a otto (6 de un mes a otro), bien por haber aumentado el ntimero de pedidos que realizan los clientes o bien por que la empresa o el mercado haya decidido una subida en los precios de los articulos pedidos. Si nosotros valoramos el nlimero de pedidos del ao actual utilizando los precios vigentes el ejercicio pasado dispondriamos de un elemento comparativo con respecto al ejercicio anterior que nos sefialaria de manera inequivoca si nuestro volumen de negocio se ha incrementado con independencia de lo ocurrido con los precios En consecuencia, cuando obtenemos el valor de la serie utiizando como referencia para su valoracién el precio que rige en un petiodo determinado (un aio en concreto), realizamos una valoracién a precios constantes en tanto que dicha serie valorada a los precios vigentes en cada periodo nos da su valor a “precios corrientes' En la practica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza dividiendo la primera por un indice de precios adecuado. Este procedimiento recibe el nombre de deflactacion y al indice de precios elegido se le denomina deflactor. No obstante, hay que sefialar que, cuando utilizamos como defiactor un indice de Laspeyres 5 qu bp Tg Ep. qe No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de Paasche cuando es utizado como del yy =p Ep. q En el cuadro siguiente se ha defiactado la serie de salarios ordinatios en la construccién de Cantabria por trabajador en el periodo 2002 a 2006 utilizando el Indice General de Precios al Consumo de Cantabria de 2002 a 2006 (media trimestral) en base 2006: Tabla n? 7.2 Cosie Coste salarial en salarial euros del Ajo. Trimestre _lordinario | IPC 2006 2002, tT] 1105.67 e7.04| 1270.30 2002 2|_1163,12 88,84] 1309.25 2002 3[ 197,78 88,80| 1348,92 2002 4| 1203.04 90,16] 134,33 2003 1 | _1180,87 90,05] 1317.40 2003 2] 1216.98 91,08] 1336.41 2003 3[ 1200.49 90,96] 1319.81 2003 4a| 1226.42 92,44| 1326.78 2004 t[ 1215.0 9177| _ 1323,91 Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 2004 2| 1265.44 93,79| 1349.28 2004 3| 1207.24 93,66| 1331.68 2004 4|__1280,62 95,30] 143,79 2005 i] 1288.86 94,52| 1363.55 2005 2| 1301.36 96,58] 1347.48 2005 3| 1295.75 96,89 1337.41 2005) 4] 1320.46 98,43] 1347.50 2006 1] 1359.89) 98,31 | 1383,21 2006 2| 1368.91 100,43 | 1363,00 2006 3] 1386.91 100,31| _ 1382,57 2006 4|1362,92|100,94| 1350.25 2007 1] 155,71 100,52 | _1348,71 2007 | 1389,98| 102,66| 1353.99 2007 3] 1428,71 102,76 | 1990,35 Fuente : ICANE. 7.7 Principales indices de precios espafioles. A continuacién exponemos las principales carécteristicas de los indices de precios espafioles: Indice de Precios al Consumo (IPC) EIIPC es una medida estadistica de la evolucién del conjunto de precios de los bienes y servicios que consume la poblacién residente en viviendas familiares en Espaia El consumo se define en el IPC a través de todos los gastos que los hogares dedican al consumo; se excluyen, por tanto, as inversiones que realizan los hogares. Ademas, sélo se tienen en cuenta los gastos reales que realiza la poblacion, lo que implica la exclusién de cualquier operacion de gasto imputada (autoconsumo, autosuministro, alquler imputado, salario en especie o consumos subvencionados, como los sanitarios 0 educacionales) La cesta de la compra para elaborar el IPC se obtenia de una encuasta de gastos de consumo de los hogares. Tradicionalmente, el IPC cambiaba de base cada ocho 0 nueve afios; esto era asi porque la fuente utlizada para la elaboracién de las ponderaciones y de la cesta de la compra era la Encuesta Basica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base del IPC. De hecho hasta 1997 convivian dos encuestas de presupuestos familiares: una continua, con periodicidad trimestral, y una basica, que se realizaba cada acho o nueve afios. A partir de ese afio ambas encuestas fueron suslituidas por una sola, cuya periodicidad es trimestral y la informacion que proporciona esté més cercana a la encuesta basica, en cuanto al nivel de desagregacion. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos Familiares (ECPF), proporciona la informacion necesaria para realizar un cambio de sistema del IPC, la actualizacién de las ponderaciones asi como la tenovacién de la composicién de la cesta de la compra. Pero, ademés, posibilta la actualizacién permanente de dichas ponderaciones asi como la revisién de la cesta de la compra Para calcular el IPC en las bases anteriores al 2001 correspondiente al periodo tse utiliza el indice de Laspeyres. La ponderacién de un articulo (wi=pio.qio) representa la proporcién del gasto efectuado en ese articulo respecto al gasto total efectuado por los hogares. La estructura de ponderaciones permanecia fja durante el periodo de vigencia del Sistema de Indices de Precios de Consumo. La nueva formula de cAleulo del IPC Base 2001 se denomina Laspeyres encadenado, el periodo de relerencia de los precios varia cada ar‘o. Durante el afio 2002 coincide con el afio base y para Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral afios posteriores al 2002 serd el mes de diciembre del afio inmediatamente anterior al considerado. El principal inconveniente de estos indices es la falta de aditividad, no permite obtener el indice medio a partir de la suma ponderada de los indices que lo componen. E! indice general no se puede obtener como media ponderada de los doce grupos. EI numero total de articulos que componen la cesta de la compra del IPC base 2001 es 484. La estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases. También, a diferencia de las bases anteriores, los precios medios utiizados en el célculo del indice se obtienen a partir de medias geométricas. La entrada en vigor del Sistema 2001 supuso también tna ruptura en las series de indices debido a la inclusion de los precios rebajacos. Esta ruptura afecta al calculo de las tasas de variacién cuando los indices de los perlodos de tiempo seleacionados estan medidos en bases diferentes; cuando esto ocurre, la formula general para calcular las tasas de variacién debe ser moditicada. EIIPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador estadistico cuyo objetivo es proporcionar una medida comin de la inflacién que permita realizar comparaciones internacionales y examinar, asi, el cumplimiento que en esta materia exige el Tratado de Maastricht para la entrada en la Union Monetaria Europea. La base legal del proceso de armonizacién del IPC es el Reglamento del Consejo n® 2494/95 de 23 de octubre de 1995 que establece las directrices para la obtencién de indices comparables, asi ‘como un calendario de abligado cumplimiento para todos los paises de la Unién Europea. La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios médicos y la Ensefanza regiada. Diferencias menores se dan en la ponderacién de los Sequros, para los que sélo se consideran los gastos ligados a las primas netas, los Auloréviles, de los cuales se elimina los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos farmacéuticos, que séla incluyen los no subvencionados. EIIPCA esté formado por doce grandes grupos. Para definir estos grupos se ha utlizado la CoIcoP. Indice de Precios Industriales (IPRV) EIIPRI es un indicador coyuntural que mide la evolucién mensual de los precios de los productos industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercializacién, es decir, mide la produccién a precios de venta a salida de fabrica obtenidos por los establecimientos industrales en las transacciones que estos efectiian, excluyendo los gastos de transporte y comercializacién y el IVA facturado. Se elabora a partir de una encuesta de periodicidad mensual, que investiga mas de 8.000 establecimientos industries. La cobertura del indice se extiende a todos los sectores industriales excluida la construccién, EIIPRI investiga los precios de las ramas de actividad industries al nivel de 4 digitos de la CNAE (subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de productos. Estos productos, a su vez, se desagregan en variedades (desagregacién de productos on caractersticas fisicas suficientemente homogéneas) y subvariedades (modelos concretos de tuna variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500 variedades y alrededor de 26.000 datos elementales o datos primarios de precios. Se calcula como un Indice de Laspeyres, que se pondera de acuerdo a la importancia de las ramas de actividad y de los productos en 2000, segtin la informacién que suministra la Encuesta Industral, de la siguiente forma: + Alnivel de rama de actividad (division, agrupacién, grupo y subgrupo de la CNAE) segtin el valor de la cra de negocios. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral * Alnivel de productos, seguin el valor de la produccién, En el nuevo sistema del indice de precios industrales se ofrece informacion para las distintas Comunidades Autonomas. Indice de Coste de la Construccién. EI indice de Coste de la Construccién 6 indice de Consumos intermedios de la construccion se elabora a partir de datos procedentes de la Encuesta de la Estructura de la Construccion, y del IPRI. El Indice de Coste de la Construccién tiene como base el afio 1990. Es un indice de Laspeyres que aplca la estructura de ponderaciones de “materiales y consumos diversos" obtenida a partir de la Encuesta de Estructura de la Construccién a la evolucién de los precios industriales del IPI, base 1980. El Indice de Coste a la Construccién se desagrega en tres indices de precios de los consumes de construccion segin la tipologia de las obras. Indices de precios percibidos por el agricultor. EI Ministerio de Agricultura y Pesca elabora desde 1953 la estadistica Indice de Precios Percibidos por el agricultor, que con periodicidad mensual suministra informacion sobre los precios medios racionales de los productos agrarios, e indices de precios agregados para la totalidad de los productos agrarios y para los grupos mas significativos. Los indices de precios agregados son indices de Laspeyres que necesitan de ponderadores referidos a un afo base para formar los nlimeros indices compuestos de diferentes espectficaciones de productos, La base actual con la que se elabora el indice es la de 1990, otros cambios de base tuvieron lugar en 1965, 1976 y 1986. La metodologia de elaboracién del Indice de precios percibidos por el agricultor se apoya en un andlisis de la estructura productiva y comercial de la produccién agraria en el afio base, que da lugar a una definicién de las especificaciones de productos a considerar, la distribucién geogratica (Areas territoriales) y frecuencia mensual de las tomas de datos nacesarios. Ello origina una estructura de ponderaciones para cada area geogratica que se utiliza para la elaboracién de los. reclos mensuales, y una ponderacién para cada especificacién que se utiliza para elaborar los indices agregados. En defintiva, para cada afio base se confecciona una matriz en donde figuran las cantidades comercializadas en el periodo base en cada area tenitorial (provincia) y mes, que tiene en cuenta la estacionalidad de la produccién y la diversidad agronémica de las éreas. De dicha matriz se obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales. El precio percibido se define como el precio de mercado, sin incluir gastos de transporte, adecuacién del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en. el conjunto de las areas, lo que da lugar a XX especificaciones de productos. Indices de precios hoteleros. El Indice de Precios Hoteleros (IPH) es una medida estadistica de la evolucién mensual del Conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes. Para su obtencién se utiliza la Encuesta de Ocupacién en Alojamientos Turisticos: Establecimientos Hoteleros (EOH) con la informacién que se obtiene, mensualmente, de unos 8.500 establecimientos a los que se les envia un cuestionario. A partir de esta encuesta se obtiene informacién sobre la ocupacién hotelera (viajeros entrados, pemostaciones, grado de cocupacién etc,), su estructura (plazas, personal, ete.) y demas variables de interés, con una amplia desagregacion geogratica y por categorias de los establecimientos. En el cuestionario, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral se les pide, entre otras variables, los precios aplicados a distintos tipos de clientes por una habitacién doble con bafio. Esos precios se desglosan en las siguientes tarifas: Tarifa normal. Tarifa fin de semana a tour-operador. a empresas. Tarifa especial a grupos. El indice de precios se calcula a partir de: 2 = 10050 1/"w, ur Ms? donde y 177 = "2 y , =e M Saree que representa el porcentaje de ingresos petcibidos por los hoteleros por las habitaciones cocupadas en una tarifa conereta sobre los ingresos obtenidos por el total de tarifas; y siando, i": precio de la habitacién doble con bao (sin incluir IVA ni desayuno) en la tarifat, en el mes. del afio T. By’: numero total de habitaciones ocupadas a las que se les aplicé la tarifa ten el af base. MF: precio medio, en el afio base 2001, de la habitacién doble con bafio (sin incluir IVA ni desayuno} en la tarifat En la encuesta se solicta a los hoteletos que indiquen el porcentaje de aplicacién de cada una de las tarifas sobre el total de habitaciones ocupadas. De ahi se extrae la informacién para calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del afio base. La suma de esa variable alo largo de los doce meses del ano 2001 (B,) es la que se utiliza en el calculo de las ponderaciones (W)) Las ponderaciones se calculan a nivel de provincia, categoria del establecimiento y tarita, y posteriormente se agregan por tarifas, categorias o comunidades auténomas segtin el indice agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se actualiza la base, lo cual esté previsio realizar anualmente A diferencia del Indice de Precios de Consumo, el IPH es un indicador desde la éplica de la oferta, ya que mide la evolucién de los precios que efectivamente perciben los hoteleros en aplicacién de las distintas tarifas por las que facturan. Por tanto, no mide la evolucién de los precios que pagan los hogares ni la tarifa oficial que aplican los hoteleras, sino el comportamiento de los precios facturados por los hoteleros a distinto tipo de clientes (hogares, empresas, agencias de viaje y tour-operadores), Se caloulan y difunden indices para las diecisiele comunidades auténomas, Ceuta y Melila; ademés, también se publican indices para las distintas tarifas a nivel nacional Indices de costes laborales. El Indice de Costes Laborales es una operacién estadistica continua, de caracter coyuntural y Periodicidad trimestral, que tiene por objetivos proporcionar informacion sobre: ~ El Coste Laboral medio por trabajador y mes. - Ei Coste Laboral medio por hora efectiva de trabajo. - Eltiempo trabajado y no trabajado. Se obtienen resultados nacionales y por comunidades auténomas. La encuesta se extiende al Conjunto de la industria, la construccién y os servicios, en concreto se investigan a aquellas cuentas de cotizacién con actividades econémicas comprendidas en las secciones de la C ala Ky de la Ma la O de la Clasificacion Nacional de Actividades Econdmicas 1993 (CNAE-93). En total se investigan 54 divisiones de la CNAE-93, Quedan excluidas, la Administraci6n Publica, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Defensa y Seguridad Social Obligatoria (Seccién L de la CNAE-93), el servicio doméstico (Seccién P) y los organismos extraterritoriales (Seccién Q). Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de cotizacién por los que haya existido obligacién de cotizar durante al menos un dia en el mes de referencia, A efectos del calculo del coste laboral por trabajador, aquellos que han estado de alla en la cuenta de cotizacién durante un periodo de tiempo inferior al mes se contabilizan como la parte proporcional al tiempo que han estado de alta en dicha cuenta, Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican segiin su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran ‘tabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la actividad de que se trate. Son trabajadores a tiempo parcial, y asi debe quedar rellejado en su contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de la empresa en la actividad de que se trate 0, en caso de no existir ésta, inferior a la maxima legal establecida. En la encuesta se define como el coste total en que incurre el empleador por la utilizacién de factor trabajo. Incluye el Coste Salarial mas los Otros Costes. El coste salarial comprende todas las remuneraciones, tanto en metalico como en especie, realizadas a los trabajadores por la prestacién profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo efectivo, cualquiera que sea la forma de remuneracién, o los periodos de descanso computables como de trabajo. El Coste Salatial incluye por tanto el salario base, complementos salariales, pagos por horas extraordinatias, pagos extraordinarios y pagos atrasados. Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el trabalador no por el desarrollo de su actividad laboral sino como compensacién de gastos. ocasionados por la ejecucion del trabajo 0 para cubrir necesidades o situaciones de inactividad ‘no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social. La Jornada Laboral se define como el ntimero de horas que cada trabajador dedica a desempefiar su actividad laboral. Se distinguen los siguientes conceptos: ~ Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal, ‘contrato individual o convenio colectivo entre el trabajador y la empresa. - Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de ‘trabajo como en jomada extraordinaria, incluyendo las horas perdidas en lugar de ‘trabajo, que tienen la consideracién de tiempo efectivo en virtud de la normativa vigente Se obtienen como la suma de las horas pactadas més las horas extras y/o ‘complementatias menos las horas no trabajadas excepto las horas perdidas en el lugar de trabajo. ~ Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por ‘cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopcién y motivos personales, descansos como compensacién por horas extraordinarias, horas de representacién sindical, cumplimiento de un deber inexcusable, asistencia a exdmenes y visitas médicas, dias u horas no trabajadas por razones técnicas, organizativas 0 de produccién, horas perdidas en el lugar de trabajo, conflctividad laboral, absentismo, guarda legal, cierre patronal, En la Encuesta de Coste Laboral se calculan indices simples de variacién de los Costes Laborales medios. Para ello, se tomia como periodo base el afio 2000, de forma que los Indices de Costes de 2000 se hacen 100. Un indice cualquiera se calcula mediante la férmula: Gj Donde Cy es el caste medio en el periodo base 2000 y C; es el coste medio en el trimestre actual. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 8. SERIES TEMPORALES 8.1. Introduccion a las series temporales El presente epigrate pretende ser una breve introduccién al estudio de las series temporales, las cuales poseen una gran importancia en el campo de la Economia dada la abundancia de este tipo de observaciones; de hecho, las seties temporales constituyen la mayor parte del material estadistico con el que trabajan los economistas, Pero, :qué es una serie temporal”? Por definicién, una serie temporal es una sucesién de cobservaciones de una variable realizadas a intervalos regulares de tiempo. Segiin realicemos la medida de la variable considerada pademos distinguir distintos tipos de series temporales: — _Discretas o Continuas, en base al intervalo de tiempo considerado para su medicion. — Flujo 0 Stock. En Economia, se dice que una serie de datos es de tipo flujo si esta referida a un periodo determinado de tiempo (un dia, un mes, un aifo, etc.). Por su parte, se dice que una serie de datos es de tipo stock si esta referida a una fecha determinada (por ejemplo, el 31 de Diciembre de cada afio). Un ejemplo de datos de tipo flujo serian las ventas de una empresa ya que éstas tendrén un valor distinto si se obliene el dato al cabo de una semana, un mes 6 un afio; por su parte, la cotizacién de cierre de las acciones de esa misma empresa seria una variable de tipo stock, ya que sélo puede ser registrado a una fecha y hora determinadas. Obsérvese que existen relacién entre ambos tipos de variables, pues la cotizacién al cierre de las acciones no es mas que el precio de cierre del dia anterior mas, o menos, el flujo de precios de la sesién considerada. — Dependiendo de la unidad de medida, podemos encontrar series temporales en pesetas o en diversas magnitudes fisicas (kilogramos, litros, millas, etc.) — En base a la periodicidad de los datos, podemos dlistinguir series temporales de datos diarios, semanales, mensuales, trimestrales, anuales, etc. Antes de profundizar en el andlisis de las series temporales es necesario sefialar que, para llevarlo a cabo, hay que tener en cuenta los siguientes supuestos' — Se considera que existe una cierta estabilidad en la estructura del fenémeno estudiado, Para que se cumpla este supuesto sera necesario estudiar periodos lo mas homogéneos posibles. — Los datos deben ser homogéneos en el tiempo, 0, lo que es lo mismo, se debe mantener la definicién y la medici6n de la magnitud objeto de estudio. Este supuesto no se da en muchas de las series econémicas, ya que es frecuente que las estadisticas se perfeccionen con el paso del tiempo, produciéndose saltos en la serie debidos a un cambio en la medicion de la magnitud estudiada, Un caso particularmente frecuente es el cambio de base en los indices de precios, de produccién, etc. Tales cambios de base implican cambios en los productos y las ponderaciones que entran en la elaboracién del indice que repercuten considerablemente en la comparabilidad de la serie en el tiempo. El objetivo fundamental del estudio de las series temporales es el conocimiento del Ccomportamiento de una variable a través del tiempo para, a partir de dicho conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones, es Centro de Estudos de la Adminisiracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral decir, determinar qué valor tomaré la variable objeto de estudio en uno 0 mas periodos de tiempo situados en el futuro, mediante la aplicacion de un determinado modelo calculado previamente, Dado que en la mayor parte de los problemas econémicos, los agentes se enfrentan a una toma de decisiones bajo un contexto de incertidumbre, la prediccion de una variable reviste una importancia notoria pues supone, para el agente que la realiza, una reduccion de la incertidumbre y, por ende, una mejora de sus resultados, Las técnicas de prediccién basadas en series temporales se pueden agrupar en dos grandes, bloques: — Métodos cualitativos, en los que el pasado no proporciona una informacién directa sobre el fenémeno considerado, como ocurre con la aparicién de nuevos productos en el mercado. Asi, por ejemplo, si se pretende efectuar un estudio del comportamiento de Una accién en Bolsa, y la sociedad acaba de salir a cotizar al mercado, no se puede acudir a la informacion del pasado ya que ésta no existe. — Métodos cuantitavos, en los que se extrae toda la informacién posible contenida en los datos y, en base al palrén de conducta seguida en el pasado, realizar precicciones sobre el futuro, Indudablemente, la calidad de las previsiones realizadas dependeran, en buena medida, del proceso generador de la serie: asi, sila variable observada sigue algtin tipo de esquema o patron de comportamiento mas o menos fijo (serie determinista) sequramente obtengamos prediceiones mas o menos fiables, con un grado de error bajo. Por el contra, si la serie no sigue ningun patrén de comportamiento especifico (serie aleatoria), seguramente nuestras predicciones careceran de validez por completo. Generalmente, en el caso de las series econémicas no existen variables deterministas 0 aleatorias puras, sino que contienen ambos tipos de elementos. El objeto de los métodos de previsién cuantitativos es conocer los compenentes subyacentes de una serie y su forma de integracién, con objeto de realizar de su evolucién futura. Dentro de los métodos de prediccién cuantitativos, se pueden distinguir dos grandes enfoques alternativos: = Por un lado, el analisis univariante de series temporales mediante el cual se intenta realizar previsiones de valores futuros de una variable, utilizando como informacion la contenida en los valores pasados de la propia serie temporal. Dentro de esta metodologia se incluyen los métodos de descomposicién y la familia de modelos. ARIMA univariantes que veremos mas adelante, — lotro gran bloque dentro de los métodos cuantitativos estaria integrado por el andlisis mmulivariante o de tipo causal, denominado asi porque en la explicacién de la variable 0 variables objeto de estudio intervienen otras adicionales de ella o ellas mismas. En el tratamiento de series temporales que vamos a abordar, tnicamente se considerara la informacién presente y pasada de la variable investigada. Si la variable investigada es Y y se dispone de los valores que toma dicha variable desde el momento 1 hasta T, el conjunto de informacién disponible vendré dado por: Ys, Yas Yop eves Yrs, Yr Dada esa intormacién, la prediccién de la variable Y para el periodo T+1 la podemos expresar como: Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Your Gon esta notacién queremos indicar que la prediccién para el periodo T+1 se hace condicionada a la informacién disponible en el momento T. El acento circunflejo sobre la Y nos indica que esa prediccién se ha obtenido a partir de un modelo estimado. Conviene también hacer notar que T+1 significa que se esta haciendo la prediccién para un periodo hacia delante, es decir, con la informacién disponible en t hacemos una prediccién para el periodo siguiente. Analogamente, la prediccin para el periodo T2 y para el periodo T+m, con la informacién disponible en T, vendra dada, respectivamente, por Preart Prenit que seran predicciones de 2 y m periodos hacia adelante. Si, genéricamente, para el periodo tse efectita una prediccién con la informacién disponible en #1, ya la que designamos por ¥,,, ,, para el periodo t podemos hacer una comparacién de este valor con el que realmente observemos (Y). La diferencia entre ambos valores serd el error de prediecién de un periodo hacia adelante y vendré dado por: RaatoBies Cuando un fenémeno es determinista y se conoce la ley que lo determina, las predicciones son exactas, verificéndose que «,,, ,=0.. Por el contrat, siel fenémeno es poco sistematico o el modelo es inadecuado, entonces los errores de prediccién que se vayan obteniendo seran grandes, Para cuantificar globalmente los errores de prediccién se utilizan los siguientes estadisticos: la Raiz del Error Cuadratico Medio (RECM) y el Error Absoluto Medio (EAM). En el caso de que se disponga de T observaciones y se hayan hecho predicciones a partir de la observacién 2, las férmulas para la obtencién de ia raiz del Error Cuadratico Medio y el Error Absoluto Medio son las siguientes: De forma andloga se pueden aplicar la RECM y el EAM en predicciones de 2, 3, ..., mperiodos hacia adelante. En el analisis de series temporales se aplican, en general, métodos alternativos a unos mismos datos, seleccionando aquel modelo 0 aquel método que, en la prediccién de periodos presentes y pasados, arroja errores de prediccién menores, es decir, arroja una RECM o un. EAM menor. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral 8.2. Componentes de una Serie Temporal Tradicionaimente, en los métodos de descomposicién de series temporales, se parte de la idea de que la serie temporal se puede descomponer en todos o algunos de los siguientes componentes: — Tendencia (7), que representa la evolucién de la serie en el largo plazo — Fluctuacién cfctica (C), que retleja las fluctuaciones de cardcter periédico, pero no necesariamente regular, a medio piazo en tomo a la tendencia. Este componente es frecuente hallarlo en las series econdmicas, y se debe a los cambios en la actividad econémica. Para la obtencién de la tendencia es necesario disponer de una serie larga y de un niimero de ciclos campleto, para que ésta no se vea influida por la fase del ciclo en que finaliza la serie, por lo que, a veces, resulta dificil separar ambos componentes. En estos casos resulta ttl englobar ambos componentes en uno solo, denominade cislo- tendencia o tendencia generalizada. — Variacién Estacional (S): recoge aquellos comportamientos de tipo regular y repetitive que se dan a lo largo de un periodo de tiempo, generalmente igual o inferior a un afio, y que son producidos por factores tales como las Variaciones climatolégicas, las vacaciones, las fiestas, etc. — Movimientos Irregulares ()), que pueden ser aleatorios, la cual recoge los pequefios efectos accidentales, 0 erraticos, como resultado de hechos no previsibles, pero identiticables a posteriori (huelgas, catdstrotes, etc.) En este punto, cabe sefialar que en una serie conereta no tienen por qué darse los cuatro Componentes. Asi, por ejemplo, una serie con periodicidad anual carece de estacionalidad. La asociacién de estos cuatro componentes en una serie temporal, Y, puede responder a distintos esquemas: asi, puede ser de tipo aditivo: TsC+Ss1 También puede tener una forma multipicativa esi O bien ser una combinacién de ambos, por ejemplo: Y=TCS+/ Una forma sencilla para ver como estan asociadas las componentes de una serie temporal es representar graficamente la serie que estamos analizando. Si al realizar la representacion agréfica se observa que las fluctuaciones son mas o menos regulares a lo largo de la serie, sin verse afectadas por la tendencia (véase Fig. 9.1), se puede emplear el esquema aditivo, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Figura 8.1. Esquema aditivo Si, por el contrario, se observa que la magnitud de las fluctuaciones varia con la tendenci siendo mas altas cuando ésta es creciente y mas bajas cuando es decreciente (véase Fig. 8.2), se debe adoptar entonces el esquema multiplicativo. Figura 8.2, Esquema muttiplicativo. 8.3. Andlisis de la tendencia Como deciamos en el apartado anterior, la tendencia es el componente de la serie temporal que representa la evolucién a largo plazo de la serie. La tendencia se asocia al movimiento Uniforme o regular observado en la serie durante un periodo de tiempo extenso. La tendencia es la informacién més relevante de la serie temporal ya que nos informa de si dentro de cinco, diez 0 quince afos tendra un nivel mayor, menor o similar al que la serie tiene hoy dia. El andlisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para conocer cudles son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de estudio, y por otto, para predecir sus valores futuros. Las tendencias suelen representarse mediante funciones de tiempo continuas y diferenciables, Las {unciones de tendencia mas utiizadas son: 1. Lineal, Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Polinémica. Exponencial. Modelo autorregresivo Funcién Curva de Gompertz Modelo logaritmico reciproco Si una serie temporal X, se ajusta a una tendencia lineal, la funci6n de tiempo que se plantea es la siguiente: Xe natepit te 1, 2, ooy A Una tendencia polinémica de grado p se ajustard a una funcién del siguiente tipo: fit) = afr + Bol + ..4Bol Sila tendencia sigue una ley exponencial, entonces la funcién de ajuste serd: if) = ae" donde a y rson constantes. Un modelo autorregresivo ajusta la tendencia de la forma siguiente: X=perxis + ur — siendo y>0 La curva logistica se representa mediante la funcién: a T= pe donde t, by rson constantes positivas. La curva de Gompertz responde a la siguiente ecuacién: f(t) = TH donde T, r, b son parémetros positives. Finalmente, el modelo logaritmico reciproce, viene definido por la relacién: fiJ-arbit Bed Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no lineales y proceder a su eslimacién como si fuera una funcién de tendencia lineal. Una vez establecido un modelo teérico para la tendencia, se debe proceder a la determinacién O célculo de los parametros que desconocemos mediante diversos procedimientos estadisticos, que pasamos a describir a continuacién, Método de los semipromedios EI método de los semipromedios es la forma mas répida de estimar una linea de tendencia recta. El método requiere dividir la serie de datos en dos mitades y calcular el promedio de cada mitad que se centra en el punto medio. La recta que una ambas medias (0 semipromedios) sera la linea de tendencia estimada. Ejemplo 8.1. Utlizando la serie cronolégica de ventas de gasolina en Cantabria sobre la que vamos a realizar un ajuste de una tendencia basada en el método de semipromedios: Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Tabla 8.1. ANios In. 1997 105.329 1998 105.525 1999 95.429 2000 88.350 2001 102.230 2002 94.142 2003 98.082 2004 97.321 90.566 87.920 Tabla 8.7_Tendencia de la evolucin de las ventas de gasolinas en Cantabria Afios 1997-2006. (miles de tm). Fuente: ICANE Dividimos la serie en dos mitades, cada una de cinco afios, y caloulamos los promedios de cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes a 1999 y 2004: 29 + 88.350 + 102.230 Promedio centrado en 1999 99,373 Promedio centrado en 2004 = 24-142 + 98.082 + 97.321 + 90.566 + 87.920 _95 ¢og La eouacién de la linea de tendencia sera’ Yi=a+bt donde ¥/ es el valor de la tendencia estimada de las ventas de gasolina. El valor de a se obtiene al hacer 20, y se hace corresponder con el valor del primer promedio: a=Y, =99.373 El coeficiente de la pendiente de la recta b representaria el incremento anual de la tendencia, y se calcula a pattir de los dos promedios: _ 93.603 -99.37. - 5 b 1.153 Notese que al ser cinco los afios que hay de diferencia entre 2004 y 1999, afios en los que hemos centrado los promedios, el denominador que utlizamos para calcula el incremento anual es igual a 5. La ecuacién ¥'=99.379-1. 153t nos sirve para obtener la tendencia una vez conacidos los valores t 0 del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de Xi se elaboran a parr de una sucesién de puntuaciones consecutivas que van desde un minimo de -2 de 1997 hasta un maximo de 7 en 2008: m.__[Semipromedio [t_[Tendencia 1997] 105.329] 2| 101.679] 11998) 105.525] =| 100.526] Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral T999] 95.429 o9.573] 0] 99.878 2000| 88.350] i] 98.219| 2001] 102.230] 2|__97.086| 2002] _94.142| 3| 95.913] 2003| 98.082| 4] 94.759| 2004 97.321 93.606) 5|__93.606| 2005] 90.566] 8) 92.453] 2006] _87.920| 7; 91.300] Tabla 8.2. Tendencia de la evolucién de las ventas de gasolinas en Cantabria ‘Atios 1997-2006. (miles de tm.). Método de semipromedios. Representamos en el grafico 8.2 la tendencia: 110.000 105.000 | 100.000 + —e—Tm. 95.000 | —s Tendencia| 20.000 4 85.000 + Grafico 8.2, Método de minimos cuadrados EI método de minimos cuadrados es el que més se utiliza para ajustar tendencias. Este método da los mismos resultados que el método anterior cuando es utilizado para obtener tendencias lineales. Si realizamos sencillas transformaciones aritméticas de los datos puede también ser utiizado para representar funciones de tendencias no lineales Estimar una tendencia lineal por el método de MCO equivale a estimar la siguiente funcién: Y=a+bt utiizando como variable explicativa un vector de numeros secuenciales {1,2,3,...,n} representativos del periodo. Si se quiere obtener una tendencia exponencial, debemos linealizar la funcién lo que requiere su transformacién en logaritmos: Y= be" entonces: In ¥j=Inbsrt Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Una vez estimada la tendencia lineal por minimos cuadrados, calculamos la exponencial del logaritmo para devolver la tendencia ala escala de los datos originales. Ejemplo 8.2 Veamos un ejemplo: consideremos la siguiente tabla en la que se muestra la evolucion de las ventas de gasolina én Cantabria. Con dichos datos vamos a estimar una tendencia exponencial mediante el método de minimos cuadrados. Tma¥) [Logarimo x TTendencia_Tendencia I logaritmica 105.523] 71,56) 7 T154|___ 102.775) 105.525] 11,57 2 11,53 101.252) 95.429] 11,47] 3 11,51 99.810) 88.360 11,39) 4 11,50| 98.389) 102.230] 11,53] 5 11,48| 96.987] 94.142| 11,45) 6 11.47| 95.606 98.082| 11,49) 7 11,45[__ 94.244] 97.321 11,49 11,4 92.902) 90.566] 1141 114 2006| 87.920] 11,38) 10] 1141 90.275} Tabla 8.3. Tendencia de la evolucién de las ventas de gasolina en Cantabria. Atios 1997-2006. (miles de tm,).Método de minimos cuadrados. Veamos la representacién de dichos datos en el gréfico 8.3.; en él comprobamos cémo se ajusta alos datos de venta de gasolina en Cantabria: 110.000 105,000 | =a 100000 + _ a Tondoncia 20.000 + Teron Vv sxponanclal 35.000 20,000 Lo PSS MOOS SFE SS MS SO OS HEELS SS KS S Grafico 8.3. Para analizar la calidad del ajuste realizado hay que considerar los estadisticos de la regresién minimo cuadrada® : Esiadisticas de Ta regresion Coeficiente de correlacién malliple 0,64744046 Coeficiente de determinacion R’ —0,41917914 "EL capitulo 5.1 dedicado a la regr estadisticas que se mencionan, minimo-cuadrada estudia los fundamentos de dicha téenica y los Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral RP ajustado 0,34657654 Error tipico 0,05422273 Observaciones 10 El coeficiente A® es una medida de que la magnitud de los errores con respecto al tamatio de layariable Y; errores muy pequefios en relacion al tamafio de Y determinan que el coeficiente RP se aproxime a 1; por el contrario errores muy altos en relacién al tamafio de la variable V, dardn lugar a valores de A? més alejados de 1 y mas cercanos a cero. En el ejercicio que hemos realizado la magnitud del coeficiente de determinacién (F’=0,4192) seria indicativo de un mal ajuste. Otros estadisticos que debemos considerar son los que hace referencia al grado de significacion de los coeficientes b y m: CoaTtantes Error taice Estadietcot —Prababindad —Wileror 05%. Superior 30% Tnfevar —Superar 950% 95.036, Tiereeper TT 540567 OOS7OATIB —317,924649 _1,2404E-17 174680300 11,6904738 11,4686908 11,6904738 Vatible X 0101434426 0,00596973 _-2.40288376 _0,04298622 0.02811047_-0,00057805 -0.02811047 _-0.90057805 La intercepcién en el origen es el costiciente a, y la “Variable X 1" es el cosficiente b. La tabla da el abanico de valores mas probables para ambos coeficientes al nivel de confianza del 95%, estos valores son los que figuran en las casilas Inferior y Superior. En el caso del coeficiente a, el juste minimo-cuadrado da como resultado que lo mas probable es que se encuentre entre él intervalo que va desde el valor 11,47 hasta el 11,63, siendo su valor medio 12,55; en tanto que el coeficiente b estara en el intervalo que va desde -0,03 hasta -0,0008, resultando ser su valor medio -0,01. Como entre estos intervalos no figura el valor cero, sefialamos que los coeficientes estimados son estadisticamente signifcativos. En el ejemplo la funcién lineal estimada serta: Y= 1,47- 0,01 que en forma exponencial quedaria: Y= 104198,9,6°°"" Medias méviles En el andlisis de series temporales, el método de medias méviles tiene diversas aplicaciones: asi, este método puede sernos itil si queremos calcular la tendancia de una serie temporal sin tener que ajustamos a una funcién previa, ofreciendo asi una visién suavizada o alisada de una serie, ya que promediando varios valores se elimina parte de los movimientos irregulares de la serie; también puede servirnos para realizar predicciones cuando la tendencia de la serie tiene luna media constant. Veamos qué es una media mévil: se trata, sencillamente de una media aritmética que se caracteriza porque toma un valor para cada momento del tiempo y porque en su célculo no entran todas las observaciones de la muestra disponible. Entre los distintos tipos de medias méviles que se pueden construir nos vamos a referir a dos tipos: medias méviles centradas y medias méviles asimétricas. El primer tipo se utiliza para la representacién de la tendencia, mientras que el segundo lo aplicaremos pata la prediccidn en modelos con media constante. Las medias méviles centradas se caracterizan porque el nlimero de observaciones que entran en su calculo es impar, asignandose cada media movil la observacién central. Asi, una media mévil centrada en t de fongitud 2n + 1 viene dada por la siguiente expresién: Centro de Estudos de la Admiistracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Soy, Yate tt tt Ye oY = 2n+l MM(2n+1), 2n+l Como puede observarse, el subindice asignado a la media mévil t, es el mismo que el de la observacién central, ¥. Obsérvese también que, por construccidn, no se pueden calcular las medias méviles correspondientes a las n primeras y a las n tltimas observaciones. Por su parte, en el caso de las medias méviles asimétricas se asigna cada mecia mévil al periodo correspondiente a la observacién mas adelantada de todas las que intervienen en su célculo. Ast la mecia mévil asimétrica de n puntos asociada a la observacion ttendra la siguiente expresién: Lg Yow +, ptet ho ty, main), = nt e iat, ” Este tipo de medias méviles se emplea en la prediccién de series cuya tendencia muestra una media constante en el tiempo, utiizandose la siguiente ecuacién: 1 Sty, = muain), + MMA(n);.. 2 non Es decir, para predecir el valor de la serie en el periodo siguiente se suma a la media mévil, la media aritmética de los n iltimos petiados, siendo nla longitud de la media movil La utilizacién de medias méviles implica la eleccién arbitraria de su longitud u orden, es deci, del nimero de observaciones que intervienen en el cdlculo de cada media mévil. Cuanto mayor sea la longilud, mejor se eliminaran las irregularidades de la serie, ya que al intervenir mas observaciones en su calculo se compensaran las fluctuaciones de este tipo, pero por el contrario, e| coste informative seré mayor. Por el contrario, cuando la longitud es pequeia, la media mévil refleja con mayor rapidez los cambios que puedan producirse en la evolucién de la serie. Es conveniente, pues, sopesar estos factores al decidir la longitud de la media mévil Ejemplo 8.3 Veamos a continuacién un ejemplo, continuando con la serie de ventas de gasolina, optamos por calcular una media mévil tienal que ofrece los siguientes resultados: ft. (Media movil trienal 7997| 105.929) 7998] 105.525] 102,094) 999 95.429 96.435] 2000 88.350 95.336| 2001] 102.230 94.907] 2002| 94,142 98.151 2003| 98.082 96.515 2004 97.321 95.323] 2008 90.566 91.936 2006| 87.920 Tabla 9.4. Tendencia de la evolucion de Tas ventas de gasolina en Cantabria. Afios 1997-2006. (miles de tm.).Media movil trienal El valor de la media mévil trienal asignado a 1998 se calcula asi 102094 = 105329-+ assis +95429 Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral A su vez, el valor de la media méviltrienal asignado a 1999 se calcula asi: 2: 29 +883 643s = 1055 S994 9 +88350 Media movil trienal 110.000 105,000 --¢—* | . 100.000 | * Tm. s+ 95.000 s aa movi —=—Media mévil 90.000 7 * trienal 85.000 80.000 Grafico 8.4, Como se aprecia en el gratico 9.4., el inconveniente que tiene la media mévil es que perdemos informacién de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar que las medias méviles, comparadas con métodos basados en ajustes aritméticos, tienen un coste informativo. Alisado Exponencial Simple EI método del alisado exponencial simple consiste, al igual que en el caso de las medias méviles, en una transformacién de la variable original. Si una variable Yes sometida a un proceso de alisado exponencial simple se obtiene como resultado la variable alisada S, Teéricamente, la variable alisada S; se obtendria segtin la expresion: Sp= (1) Yor (1) wit (1-w) w? Yoo + (1) W Yeo # oe (1) donde wes un parémetro que toma valores comprendidos entre 0 y 1, y los puntos suspensivos indican que el nimero de términos de la variable alisaia puede ser infinito. La expresién anterior en realidad no es mas que una media aritmética ponderada® de infinitos valores de Y. Se denomina alisada ya que suaviza 0 alisa las oscilaciones que tiene la serie, al obtenerse como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial se debe a que la ponderacién o peso de las observaciones decrece exponencialmente a medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que estan alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de simple se aplica para distinguirla de otros casos en que, como veremos mas adelante, una variable se somete a una doble operacién de alisado. * Para que pueda aceplarse que es una media artmética ponderada debe vetiiearse que las ponderaciones, sumen 1 La cemostracian, que excede las pretensiones de este texto, se basa en el céiculo de la suma de infnitostérminos de tuna progresion geomética convergent Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Una vez que se han visto estos aspectos concepluales, vamos a proceder a la obtencién operativa de la variable alisada, ya que la expresién no es directamente aplicable, por contener infinitos términos. Retardando un periodo en la expresién anterior se fiene que: Ser = (1—w) Vir + (1 —w) WY io + (1-w) W? Yes +... (2) ‘Multiplicando ambos miembros por w se obtiene: WS, = (1 —W) WYny + (1 —w) W? Vio + (1—w) W Yig +... (3) Restando (8) de (1) miembro a miembro y ardenando los términos se tiene que: S 1 =w) Yor WS 1 O tambien: Si=a¥; + (1-4) Ses donde a = 1—w. Ahora ya s6lo nos falta calcular los valores de ay So, parametros a partir de los cuales resulta sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que: Alasignar un valor a a hay que tener en cuenta que un valor pequerio de a significa que estamos dando mucho peso a las observaciones pasadas a través del término S.+. Por el contrario, cuando a es grande se da més importancia a la observacién actual de la variable Y. En general, parece que un valor de igual a 0.2.es apropiado en la mayor parte de los casos. Altemativamente, se puede seleccionar aquel valor de a para el que se obtenga una Raiz del Error Cuadratico Medio menor en la prediccién del perfodo muestra Respect a la asignacién de valor a S2 se suelen hacer estos supuestos: cuando la serie tiene muchas oscilaciones se toma $= Y,; por el contrario, cuando la serie tiene una cierta estabilidad se hace S, = ¥ . Ejemplo 8.4 En este ejemplo se presenta un alisado exponencial para la serie de ventas de gasolina, ulillzando como factor de alisado el valor 0:5. ‘Alisado Tm.(Y)___| Media movil | =0,50 year 105.829 998| 105.525] 102.004| 102.004 999| 95.429 98.762 2000] 88.350 93.556, 2001| 102.230 97.893 2002] 94.142 96.017 2003| 98.082 97.050 2004[ 97.321 97.185 2005] 90.586 93.876 2006] 87.920 90.898 Tabla 8.5. Tendencia de la evolucién de las ventas de gasolina en Cantabria. Afios 1997-2006. (miles de tm.). Alisado exponencial Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral El valor inicio del alisado, So, es la media de los tres primeros afios: 3: 5: }2' 102094 = 1088294 108 125 + 95429 Alisado exponencial 110.000 105.000 +«—*—_________| 100.000 +S Tmiv) + 1m sso00 3 1 Alsado a=0.50 90.000 | 85.000 80.000 Sk Ss PS % PS CS Grafico 8.5. Alisado Exponenclal Doble Una variante mas avanzada del método anterior es el Alisado Exponencial Doble, también conocido como método de Brown. Basicamente, lo que se hace mediante este método es. someter a la variable a una doble operacién de alisado: en la primera operacién se alisa directamente la variable objeto de estudio, mientras que en la segunda operacién se procede a alisar la variable alisada previamente obtenida. Asi pues, las formulas del Alisado Exponencial Doble son las siguientes: Primer alisado: S7 = aY; + (1-a) St Segundo alisado: $"; = aSj + (1-a) S", Obsérvese que en los dos alisados se utliza el mismo coeficiente a. A partir de las dos variables alisadas se estiman los coeficientes de la recta para uilizarlos en la predic: Las fétmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta son las siguientes Finalmente, si con la informacién disponible en t, deseamos realizar una prediccién de la variable para el momento t+m, aplicaremos la siguiente formula: bo, +b, Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener S y S\" es necesario conocer los valores iniciales, que en este caso serian dos, Sy'y So”. Para determinarios se utilizan las siguientes relaciones que permiten obtener buy by, aungue en sentido inverso. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Realizando un ajuste de la recta por minimos cuadrados con toda la informacién disponible se obtendran las estimaciones 6,, yb, Haciendo que: boo = By, y bio = by, y tomando t = 0, se obtiene: -b 10 by — 22g A partir de estos valores se inicia la recursién ya seftalada. En lo que respecta al valor de a, es valido lo que se dijo en el caso del Alisado Exponencial Simple, siendo aconsejable tomar a= 0.2o, alternativamente, seleccionar aquel valor de a que haga minima la Raiz del Error Cuadréitico Medio cuando realicemos predicciones. 8.4, Anélisis de la estacionalidad En este apartado pasamos a examinar el andlisis de la estacionalidad de las series temporales, entendiéndose por tal, aquellos ciclos regulares cuya duracién es inferior al afio. Las variaciones 0 ciclos estacionales son muy frecuentes en las series temporales, sea cual sea su nnaturaleza, y pueden presentar un esquema horario, diario, semanal, mensual,trimestral incluso semestral, no siendo necesario que tengan alguna relacién con las estaciones del afio. Lo verdaderamente importante de los ciclos estacionales es su temporalidad o repeticié regular. Algunos ejemplos de ciclos estacionales serian: — El aumento de viajeros en los autobuses urbanos en determinadas horas del dia. — Las ventas diarias de un supermercado que suelen presentar entre semana un esquema bastante regular. — El movimiento de viajeros en los establecimientos hoteleros que se concentra en delerminados meses del afio — Elconsumo de energfa elécirica que suele ser mayor los meses de invierno, EI motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolucién de las series, actuando muchas veces el factor estacional como una mascara que impide captar adecuadamente la evolucién del fenémeno objeto de estudio. Un ejemplo de estas distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y segundo trimestre del afo, ya que el ciclo estacional al delimitar un aumento del consumo en. los meses de invierno, impide una interpretacién correcta sobre el uso subyacente de la energia de dicho period. Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral Por ello, serd conveniente eliminar el influjo de los ciclos estacionales en la serie, a fin de poder realizar comparaciones entre dos estaciones sucesivas y predecir correctamente el comportamiento futuro de la variable. Para ello, existen diferentes procedimientos: utlizacién de filtros lineales, X11-ARIMA, SEATS (Signal Extraction in ARIMA Time Series), etc., cuya solucién requiere de un célculo matemético relativamente complejo; aqui Gnicamente estudiaremos los procedimientos de desestacionalizacién mas sencillos: el método de porcentaje promecio y el método de! porcentaje promedio mdvil Asimismo, cabe sefialar que, con caracter previo a la desestacionalizacién, a menudo hay que realizar una serie de ajustes en la serie temporal para tener en cuenta hechos 0 eventos que pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc. ‘no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen, de ahi que sea necesario corregir previamente los datos iniciales. Una forma de compensar estas variaciones es multiplicar la serie de datos originales por la siguiente razén: Niimero dediasefeetivos de un meses io laboral) promedio de aftos (Sen un ca ‘Niimoro de dias efectivos del mes dado en la que la definicion de los dias efectivos dependerd de la serie cronolégica que nos interesa y de los motives por los que realizamos el ajuste. Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia, se suele hacer un andlisis de la varianza del componente estacional-irregular de la serie, utlizando como factor de variacién la referencia temporal de la serie (seranal, mensual, trimestral, etc... Dicho andlisis proporciona como estadistico la F de Snedecor, cuyo valor comparado con el que figura en las tablas del Anexo, nos permite determinar si iene significacién el factor temporal para explicar la varianza de la serie; de admitirse dicha posibilidad, quedaria demostrado que los movimientos estacionales de la serie son lo suficientemente determinantes como para proceder a su desestacionalizacién posterior. Ejemplo 8.5 \Veamos a continuacién un ejemplo: vamos a realizar un test de presencia de estacionalidad a la serie mensual de ventas de gasolina en Cantabria durante el periodo 1997-2006. [Aros Meses | 19971998 1999 2000 2001 2002 2003-2004 2005 2006] 7 7405 8098 6596 6951 7242 6230 6458 6818 6195 6186] 2 6323 7758 8675 5846 6013 8296 6240 6654 6013 B0I9 is 8799 8939 8054 6762-8076 798 7305 «7651 «7564 7118) 4 8337 8777 7987 «7013 «8634. 7661 8410-8353 7206-7329 Is 8517 7843 7561 «6744 «7973 «7645 «8278 «77727614 7402 6 8169 8351 8049 6745 86907676 8235 8319 7823. 7322 7 11051 10575 10101 9638 10416 9882 10151 9780 9334 8591] la 12188 12229 10992 10996 12817 9858 11749 10894 10649 99086 9 9485 8638 8032-8865 8607 G015 85298357 7762 ©7634 10 8752 8114 7374 5900 7662 9768 8049 7592 7081 7026 4 7629 7731 6861 6405 7114 8923 6838 7151 6407 8466 12 a6o4 8474 73777485 8086 7550 7840 7970 6918 6927 TOTAL [105329 105525 95420 88350 102230 94142 98082 97321 90566 87920] Tabla 6.6. Ventas de Gasolina en Cantabria Centro de Estudios de la Administracion Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M? Paz Moral

You might also like