You are on page 1of 43

UNIVERSIDAD AUTNOMA DE COAHUILA

Facultad de Economa

Estadstica Multivariada
con Excel y R Commander

M.C. Flix J. Snchez P.

Prlogo
Los mtodos multivariados conforman un grupo de tcnicas tiles para el estudio de situaciones que incluyen la medicin de varias variables sobre la unidad experimental, mismas que se presentan en muchas reas de las distintas ciencias: sociales, econmicas, biolgicas y de la salud, entre otras. Los mtodos multivariados son en su mayora exploratorios y no tanto inferencial.
2

Objetivo del curso


Proporcionar al alumno los aspectos bsicos de la teora y de la aplicacin con computadora de las principales tcnicas del anlisis multivariado.

Contenido
I. II. III. IV. V. VI. VII. Construccin de una base de datos (3 hrs.) Repaso de estadstica univariada (6 hrs.) Regresin simple (3 hrs.). Regresin mltiple (3 hrs.) Anova de una y dos colas (3 hrs.). Anlisis de factores (3 hrs.). Anlisis cluster (3 hrs.).

Unidad I Construccin de una base de datos


1.1 Mtodos para obtener la informacin. 1.2 Anlisis exploratorio de la base de datos. 1.2.1 Distribucin de frecuencias. 1.2.2. Tablas estadsticas . 1.2.3. Matriz de correlaciones. 1.2.4. Test de normalidad. 1.2.5. Diagrama de caja, diagrama de dispersin, histograma, grafica de cuantiles (QQ), grfica XY y grfica de barras.
5

1.1 Mtodos para obtener la informacin


El muestreo probabilstico ha llegado a ser reconocido como un instrumento esencial para proveer la informacin necesaria para las directrices requeridas por un investigador o usuario de la informacin. Ya que proporciona resultados ms oportunos, econmicos y revelando por s mismo el margen de incertidumbre al cual est sometido.

1.1 Mtodos para obtener la informacin


Tipos de muestreo Los mtodos de muestreo probabilstico son los que se basan en el principio de equiprobabilidad. Encontramos los siguientes tipos: Muestreo simple aleatorio (MAS) Muestreo sistemtico (MS) Muestreo estratificado aleatorio (MEA) Muestreo por conglomerados (MC)
7

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (i) Objetivos. La primera tarea es fijar los objetivos de la investigacin de una manera clara y concisa. (ii) Definir la poblacin. La palabra poblacin (N) es usada para definir un conjunto de elementos que tienen por lo menos una caracterstica en comn y de la cual la muestra es elegida.

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (iii) Datos a colectar. Verificar que todas las variables de estudio sean relevantes a los propsitos de la investigacin. (iv) Mtodo de obtener la informacin. Hay gran variedad de mtodos para obtenerla. Por ejemplo - Entrevistas personales - Entrevistas por telfono - Cuestionarios enviados por correo - Una combinacin de las tres ltimas - E-mail
9

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (v) El marco de muestreo. Antes de seleccionar la muestra, la poblacin debe ser dividida en partes, las cuales son llamadas unidades de muestreo. La construccin de una lista de unidades mustrales, se conoce como marco.

10

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (vi) Grado de precisin deseado. Si es el es un estimador de , parmetro de inters y debemos especificar un lmite para el error de estimacin; esto es,

Error de estimacin = Tambin debe establecerse una probabilidad


donde 1- se denomina confiabilidad.
11

= 1 P

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (vii) Muestra piloto. La distribucin del estimador es la que se usa para determinar el tamao de muestra, n, resulta que hay que conocer ciertos parmetros de la distribucin original, el que a su vez servir para estimar parmetros de la poblacin. Esta situacin conflictiva puede resolverse de dos formas: Especificar con base a investigaciones previas, el valor de los parmetros de la poblacin.
12

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo Obtener una muestra preliminar o muestra piloto para estimar de un modo aproximado los parmetros relevantes. Los parmetros necesarios usualmente son la varianza (2) o el coeficiente de variacin (/). Para especificar la varianza a priori de una poblacin se puede usar el conocimiento aproximado que se tenga sobre la forma de la distribucin y el rango (R) de variacin de los datos.
13

Etapas en la Investigacin por muestreo


= 0.29R = 0.20R = 0.24R = 0.35R = 0.25R

= 0.17R

As mismo, Scheaffer Mendenhall - Ott (1987) sugieren que la desviacin estndar de cualquier conjunto de mediciones puede ser aproximada como 0.25 del rango de ese conjunto de datos. 14

1.1 Mtodos para obtener la informacin


Etapas en la Investigacin por muestreo (viii) Anlisis de resultados. Una vez realizada la encuesta, un paso importante es la de editar los cuestionarios obtenidos para corregir errores. Como tambin, la de establecer los anlisis que llevan a la obtencin de los estimadores y las pruebas de hiptesis previamente planteadas.

15

1.1 Mtodos para obtener la informacin


Parmetros poblacionales Una encuesta por muestreo se centra frecuentemente en cuatro caractersticas de la poblacin, a saber N

Media Poblacional, denotada por Total Poblacional, expresado por

= Xi N
i =1

= N

La Proporcin Poblacional de unidades que caen dentro de alguna clase definida p = N1

N
17

La Razn Poblacional de dos totales o medias R = X Y = X Y

1.1 Mtodos para obtener la informacin


Pruebas paramtricas y no paramtricas Los datos categricos son frecuentes en experimentos que surgen en muchas disciplinas. Por sus peculiaridades no se pueden analizar con las tcnicas que normalmente se explican en cursos bsicos de estadstica. Las tcnicas para datos categricos constituyen un conjunto muy extenso y til herramientas estadsticas que, sin suponer informacin bsica sobre distribucin de partida, permiten realizar contrastes de hiptesis y estimaciones.
17

T cnicas estad sticas Tcnicas estadsticas


Datos tienen distrib. normal? Si Prueba Paramtrica No 1

Para comparar grupos/muestras

Buscar relacin entre variables

Entre dos grupos o muestras

Entre mas de dos grupos o muestras

Predecir y al saber x?

No

Grupos independientes

Grupos pareados No

Hay dos o mas factores Si ANOVA de dos vas

Correlacin Si - Lineal - No Lineal - Mltiple


18

Prueba de t no pareada

Prueba de t pareada

ANOVA de una va

Regresin

T cnicas estad sticas (Continuaci n) Tcnicas estadsticas (Continuacin)


1

Prueba No Paramtrica

Para comparar grupos/muestras

Buscar relacin entre variables

Entre dos grupos o muestras

Entre mas de dos grupos o muestras

Predecir y al saber x?

No

Muestras independientes

Muestras pareados No

Hay dos o mas factores Si Prueba de Friedman

Coef. Correl. Spearman Si

Prueba de Mann Whitney

Prueba de Wilcoxon

Prueba de Kruskal-Wallis

Anal. no param. de regresin


19

1.1 Mtodos para obtener la informacin


Pruebas paramtricas y no paramtricas En general, los procedimientos no paramtricos no utilizan toda la informacin proporcionada por la muestra. Como resultado de esto, un procedimiento no paramtrico es menos eficiente que el procedimiento paramtrico correspondiente cuando la poblacin bajo estudio es normal.

20

1.1 Mtodos para obtener la informacin


Distribucin normal La distribucin normal de Gauss es uno de los modelos probabilsticos de ms utilidad debido entre otras razones, a que en la realidad muchas variables aleatorias pueden representarse adecuadamente mediante esta distribucin.
f(x)

x
21

1.1 Mtodos para obtener la informacin


Pruebas paramtricas y no paramtricas Cuando las distribuciones bajo estudio no son prximas a la normal, entonces los mtodos no paramtricos tienen mucho que ofrecer. A menudo, stos proporcionan una mejora considerable sobre los mtodos paramtricos de la teora normal.

22

1.1 Mtodos para obtener la informacin


Escalas de medicin
Habitualmente se define la medida como la relacin (cociente) entre una magnitud y otra de la misma especie tomada como unidad. Es posible definir las siguientes escalas de medidas:
Escala Nominal Ordinal Intervalo Forma habitual Categrica Numrica Numrica cero No existe No existe Existe cero relativo Existe cero absoluto Adicin y sustraccin Imposibles No vlidas Vlidas Multiplicacin y divisin Imposibles No vlidas No vlidas Ejemplos Sexo, raza Sabores de helados Temperatura

Razn

Numrica

Vlidas

Vlidas

Peso corporal, altura


23

1.1 Mtodos para obtener la informacin


Escalas de medicin Cuando se observan los datos de una poblacin, se pueden diferenciar dos tipos de variables: cualitativas y cuantitativas. Las primeras arrojan respuestas categricas y se dividen en nominales y ordinales. Las segundas en cambio arrojan respuestas numricas. Estas a su vez pueden dividirse en discretas y continuas. Los datos discretos son, en general, respuestas numricas que provienen de un proceso de conteo. Los continuos surgen en general de un proceso de medicin.
24

Ejemplo 1.1
Definir las variables en las siguientes proposiciones: Poblacin: Alumnos de la preparatoria Atenas. Unidad: Alumno. Muestra: Subconjunto representativo de los alumnos de la preparatoria Atenas. Cursos: (Cualitativo), por ejemplo: Botnica, Matemticas. Fsica., Derecho.... Ao de nacimiento (Cuantitativo discreto). N de Hermanos (Cuantitativo discreto). Lugar de nacimiento (Cualitativo). Altura (Cuantitativo continuo).
25

Ejemplo 1.2
Clasificar las variables regin, trabajo y edad que estn codificadas como se muestra en la tabla siguiente:
Regin 1 2 3 4 Norte Sur Este Oeste 1 2 3 Trabajo Obrero Supervisor Gerente 20 22 25 27 Edad Veinte aos Veintids aos Veinticinco aos Veintisiete aos

26

1.2 Anlisis exploratorio de los datos


Lenguaje R Qu es R? R es un lenguaje computacional para anlisis estadstico, creado por Ross Ihaka y Robert Gentleman en 1996. Se trata de un software gratuito, derivado del lenguaje S que actualmente es un producto comercial llamado S-PLUS.

27

1.2 Anlisis exploratorio de los datos


Prueba de normalidad Se considera que los datos son normales si la distribucin de la poblacin de la cual ha sido extrada la muestra se aproxima a la distribucin terica. Se puede verificar esta propiedad por o Mtodos grficos. o Contrastes de normalidad.

28

1.2 Anlisis exploratorio de los datos


Prueba de normalidad - Grfico Q-Q Es una recta que representa los valores tericos de una distribucin normal, por un lado, y los valores observados de la variable en anlisis por el otro. Si la distancia entre los puntos y la recta son mnimos, entonces la distribucin de la variable de anlisis es normal, caso contrario, la distribucin no responde al modelo terico de la curva normal.

29

1.2 Anlisis exploratorio de los datos


Prueba de normalidad Anderson-Darling La prueba de Anderson-Darling es una prueba no paramtrica para contrastar si los datos de una muestra provienen de una distribucin especfica. Es una modificacin de la prueba de Kolmogorov Smirnov. La frmula para el estadstico es A2 = N Si el valor de probabilidad p de la prueba es mayor a 0.05, se considera que los datos son normales.
30

1.2 Anlisis exploratorio de los datos


Prueba de normalidad - Shapiro Wilk
Esta prueba es la que se recomienda para contrastar el ajuste de datos a una distribucin normal, sobre todo cuando la muestra es pequea. El estadstico de prueba es
donde

Si se compara con un valor p terico digamos de 0.05, se dice que se rechaza la hiptesis de normalidad de los datos si p-value calculado es menor que el valor terico.
31

Ejemplo 1.3
Se analizaran datos obtenidos en el ao 2009 de las comunidades ubicadas en la Cuenca Burgos al norte del Estado de Coahuila. Por medio del programa computacional R Commander se aplicaran las pruebas de normalidad. Plantendose la hiptesis: Ho: Los datos tienen distribucin normal. H1: Los datos no tienen distribucin normal.
32

Ejemplo 1.3
Iniciando R

33 33

Ejemplo 1.3
Importando datos

34 34

Ejemplo 1.3
Resumen numrico

35 35

Ejemplo 1.3
Resumen numrico

36 36

Ejemplo 1.3
Tabla

37 37

Ejemplo 1.3
Matriz de correlacin

38 38

Ejemplo 1.3
Prueba de correlacin y normalidad

39 39

Ejemplo 1.3
Histograma
Aos de escolaridad
150 Frequency 0 0 50 100

10 Lmites de clase

15

40 40

Ejemplo 1.3
Diagrama de caja
7000 Ingreso.mensual 1000 2000 3000 4000 5000 6000

Femenino Genero

Masculino

41

Ejemplo 1.3
Grfico Q-Q

Datos$Aos.escolaridad

0 -3

10

15

-2

-1

0 norm quantiles

42

D atos$Ingreso.m ensual 1000 -3 -2 -1 0 1 2 3 D atos$Miembros.en.hogar 2 -3 -2 -1 0 1 2 norm quantiles 4 6 8 10 norm quantiles 2000 3000 4000 5000 6000 7000

Grfico Q-Q

Ejemplo 1.3

43
3

You might also like