You are on page 1of 20

Econometría

ANÁLISIS
EXPLORATORIO
DE DATOS (AED)
MAESTRÍA EN
ECONOMÍA

Profesor
Douglas Ramírez
2da. Sesión
2da sesión
Métodos Gráficos

Métodos Estadísticos

Douglas C. Ramírez Vera


Objetivos del tema

 Conocer y comprender el concepto de análisis


exploratorio de los datos (AED)
 Conocer las etapas a seguir para realizar un AED
 Conocer las herramientas gráficas y numéricas que
constituyen el AED
 Saber seleccionar los procedimientos más adecuados
para examinar los datos y relaciones de interés
 Comprobar si se verifican las hipótesis de interés
 Saber identificar la presencia de datos atípicos
(extremos o anómalos)
 Saber evaluar la trascendencia de datos ausentes y
su potencial impacto

Douglas C. Ramírez Vera 3


Conceptos

 Población: Conjunto de elementos objeto de estudio


(niños menores de 6 meses; personas con índice de masa
corporal superior a 25; piñas exportadas; pepinos
ecológicos producidos; etc.).
 Muestra: Subconjunto de la población en el que se
observa la variable de interés.
 Tamaño muestral: Cardinal de la muestra (se suele
denotar como n).
 Un conjunto de datos es el resultado de medir una o más
variables en una muestra.

Douglas C. Ramírez Vera 4


Variables

 Variable: Característica de una persona, animal o cosa


a la que se le puede asignar un número o una categoría.
 Tipos de variables
 Variables categóricas:
 Variables cualitativas
 Dicotómicas (Sano/Enfermo, Mujer/Hombre, Fuma/No Fuma)
 Policotómicas (Tipo sanguíneo, profesión, estado civil)
 Variables ordinales (Calificación: Aprobado A, B, C y reprobado
D, belleza, preferencia)
 Variables cuantitativas:
 Variables discretas (numero de cabezas de ganado)
 Variables continuas (altura, peso)

Douglas C. Ramírez Vera


Introducción

 Concepto del AED


 El análisis exploratorio de los datos (AED) más que un conjunto de
técnicas o herramientas gráficas y numéricas, es un enfoque, es una
actitud, es una línea de investigación o filosofía del análisis
estadístico previo a la comprobación de hipótesis o análisis
especializados para diseccionar y entender la estructura de los datos
u observaciones de la muestra y las posibles relaciones entre las
variables medidas.
 Se distingue del análisis grafico
 El análisis gráfico es una colección de procedimientos estadísticos
basados en gráficos enfocados a caracterizar un aspecto
determinado de los datos.
 El AED es un concepto más ambicioso, que combina procedimientos
numéricos y gráficos y se propone investigar la estructura
subyacente a una base de datos sugiriendo modelos, relaciones e
interpretaciones como primer paso de un estudio estadístico. El
siguiente paso será el “análisis confirmatorio”, o inferencial

Douglas C. Ramírez Vera 6


Introducción

 El análisis exploratorio de los datos fue diseñado en una época pre


informática, donde no existía la facilidad de componer gráficos como
hoy en día.
 El AED Se compone de un conjunto de técnicas diseñadas para
identificar modelos fundamentales, conceptualmente significativos, las
relaciones entre los datos y para llamar la atención sobre aquellas
observaciones que se desvían del modelo fundamental. Entre las
principales herramientas gráficas del AED están:
 Histograma
 Diagrama de cajas
 Diagrama “multivariantes”
 Diagrama continuo
 Diagrama de Pareto
 Diagrama de dispersión
 Gráfico de Tallo y Hojas
Douglas C. Ramírez Vera 7
Objetivos del AED

 El análisis exploratorio de los datos (AED), en


oposición al “análisis explicativo” de los datos, tiene
por finalidad general:
 Ahondar en la estructura (normal, asimétrica, lineal, homocedástica,
etc.) de los datos
 Descubrir estructuras subyacentes
 Sugerir hipótesis causales de los fenómenos observados
 Descubrir las relaciones o patrones sistemáticos existentes entre las
variables analizadas
 Desarrollar modelos con el mínimo número de parámetros
(parsimoniosos)
 Ayudar a seleccionar las herramientas estadísticas apropiadas
 Determinar el conjunto óptimo de factores
 Sintetizar y presentar la información contenida en el conjunto de datos
de forma óptima
 Proporcionar una base para muestreos (observacionales o
experimentales) subsiguientes

Douglas C. Ramírez Vera 8


Estrategia del AED

 Entre sus estrategias están:


 Organizar y preparar los datos para ulteriores análisis
estadísticos;
 Detectar fallos de diseño, errores en la obtención o
codificación de datos y tratamiento de datos ausentes
 Identificar la presencia de datos atípicos (extremos o
anómalos)
 Comprobar que las suposiciones subyacentes en las
técnicas estadísticas inferenciales se cumplen en la
muestra de datos

Douglas C. Ramírez Vera 9


Preparación de los datos

 Selección del método de entrada al sistema informático:


 (a) entrada manual por teclado;
 (b) entrada a un paquete ofimático (ej.: Excel, OpenOffice);
 (c) entrada a un paquete estadístico (ej.: GRETL, Eviews, Stata, SPSS, Minitab);
 (d) importación, si procede al paquete estadístico.
 Codificación de los datos:
 (a) continuos o de intervalo;
 (b) ordinales;
 (c) nominales;
 (d) dicotómicos.
 Transformaciones y manipulaciones de los datos:
 (a) combinar o segregar conjuntos de datos;
 (b) ordenar datos;
 (c) agregar o suprimir datos o variables;
 (d) transformar datos (ex.: logaritmos, dicotomización);
 (e) guardar, imprimir o exportar datos.
 Establecer claves de los códigos utilizados.

Douglas C. Ramírez Vera 10


Preparación de los datos

 El primer paso en un A.E.D. es hacer accesible los datos a


cualquier técnica estadística. Ello conlleva la selección
del método de entrada (por teclado o importados de un
archivo) y codificación de los datos así como la de un
paquete estadístico, matemático o econométrico
adecuado para procesarlos.
 Los paquetes son conjuntos de programas que
implementan diversas técnicas estadísticas y
matemáticas en un entorno común. Algunos de los más
utilizados son: SAS, BMDP, SPSS, PSPP, SYSTAT,
STATISTICA, STATA, LIMDEP, MINITAB, S-PLUS, EVIEWS,
STATGRAPHICS, MATLAB,OCTAVE, R, GRTEL, RAPIMINDER
entre otros
Douglas C. Ramírez Vera 11
Codificación de los datos

 La codificación de los datos depende del tipo de


variable. Los paquetes estadísticos existentes en el
mercado proporcionan diversas posibilidades (datos
tipo cadena, numéricos, nominales, ordinales, etc.)
 Con el fin de aumentar la inteligibilidad de los datos
almacenados, conviene asociar a la base de datos
utilizada, un libro de códigos en el que se detallen los
nombres de las variables utilizadas, su tipo y su rango
de valores, su significado así como las fuentes de
donde se han sacado los datos. Todos los paquetes
anteriormente citados permiten esta posibilidad.

Douglas C. Ramírez Vera 12


Transformaciones y manipulaciones
de los datos

 La gran mayoría de los paquetes estadísticos permite


realizar manipulaciones de los datos previas a un
análisis de los mismos. Algunas operaciones útiles
son las siguientes:
 Combinar conjuntos de datos de dos archivos distintos
 Seleccionar subconjuntos de los datos
 Dividir el archivo de los datos en varias partes
 Transformar variables
 Ordenar casos
 Agregar nuevos datos y/o variables
 Eliminar datos y/o variables
 Guardar datos y/o resultados
Douglas C. Ramírez Vera 13
Análisis gráfico de las variables
individuales

 Según la naturaleza de los datos


 (a) Diagrama de datos ordenados
 (b) Diagrama de dispersión
 (c) Diagramas de medias
 (d) Interacción de efectos
 (e) Diagrama de cajas
 (f) Otros Diagramas

Douglas C. Ramírez Vera 14


Tipos de Análisis

 Análisis gráfico de las relaciones entre variables


 Diagrama de dispersión
 Evaluación de supuestos básicos subyacentes
 Gráficos PP
 Gráficos cuantil-cuantil

 Investigación de la presencia de datos atípicos


 Diagrama de cajas
 Investigación de la existencia de datos ausentes
 Métodos numéricos.
 Métodos gráficos.

Douglas C. Ramírez Vera 15


Métodos Gráficos y Numéricos

Escala de Métodos Gráficos Métodos Numéricos


Medida Localización Dispersión
Intervalo Histograma Media Desviación típica
Polígono de frecuencias Coeficiente de
variación
Ordinal Diagrama de cajas Mediana Rango inter-fractílico
Nominal Diagrama de barras Moda
Diagrama de líneas
Diagrama de sectores
Razón Media Coeficiente de
Geométrica Variación

Douglas C. Ramírez Vera 16


Distribuciones univariantes

Diagrama bootstrap
Diagrama de demora
con distribuciones univariadas

Diagrama de linealidad de Cox y Box


Procedimientos relacionados

Diagrama de probabilidad
Diagrama de normalidad de Cox y Box
Diagrama de probabilidad normal
Diagrama de probabilidad del coeficiente de
correlación
Diagrama de secuencia serial
Diagrama de Weibull
Diagrama múltiple
Histograma

Douglas C. Ramírez Vera 17


Gráficos con dos o más variables

Diagrama de dispersión
con distribuciones
Procedimientos

Diagrama de correlación lineal


relacionados

Diagrama de interceptación lineal


bivariadas

Diagrama de pendiente lineal


Diagrama de desviación típica residual lineal

Diagramas de estrella

Procedimientos relacionados con


distribuciones multivariadas Gráficos funcionales
(Dendograma, Gráficos de Andrews)

Procedimientos relacionados Diagrama de autocorrelación


con análisis de series temporales Correlogramas

Douglas C. Ramírez Vera 18


Análisis de Variables
Tipo de Análisis Cuantitativas Categóricas

Descripción de un Arreglo ordenado, diagrama de tallo y hoja, distribución Tabla resumen, Gráfica de
grupo o diversos de frecuencia absoluta y relativa, distribución de Barras, Grafica de Torta,
grupos porcentajes relativos y acumulados, Histograma, Diagrama de Pareto.
Polígonos relativos y acumulados.
Media, Mediana, Moda, Cuartiles, Media Geométrica,
Rango, Rango Intercuartil, Desviación Estándar,
Varianza; Coeficiente de Variación, Grafico de Caja y
Bigotes.

Inferencia Acerca Estimación de intervalo de confianza para la media. Estimación de Intervalo de


de un Grupo Prueba Z (normal) para la media. Prueba t (Student) confianza para una proporción.
para la media. Prueba Z (normal) para una
proporción..

Comparación de Prueba de diferencia de medias entre dos poblaciones Prueba Z (normal) entre dos
dos grupos o más independientes. Prueba t (Student) apareada. Prueba F proporciones. Prueba Chi-
para la diferencia entre dos varianzas. Elipse de Cuadrada para la diferencia
confianza entre dos proporciones o más
Análisis de Varianza. de dos.

Análisis de Diagrama de Dispersión. Gráficas de series de tiempo. Tabla de contingencia de barras


Relación entre dos Covarianza y Coeficiente de correlación. Prueba t de agrupada. Prueba Chi-Cuadrada
o más variables correlación. de independencia.
Regresión Múltiple.
Douglas C. Ramírez Vera
Econometría
ANÁLISIS
EXPLORATORIO
DE DATOS (AED)

Profesor
Douglas Ramírez
2da. Sesión