Professional Documents
Culture Documents
AO DE LA DIVERSIFICACION PRODUCTIVA Y
FORTALECIMIENTO DE LA EDUCACION
TEMA
ANLISIS DE COMPONENTES
PRINCIPLES
CURSO
E
ECONOMA
ESTADSTIC
Lic.
CURSO.
ESTADISTICA APLICADA A LA
DOCENTE
Lic. MARIELA CORDOVA ESPINOZA
INTEGRANTES
1. MACALUP IPANAQUE LUIS MIGUEL.
2. MORALES ZAPATA JOSUE SMITH
3. RAMIREZ RIVERA DARWIN
4. PASACHE PERICHE ALEXANDER JOEL
5. OROZCO NEYRA YENI EDID
6. OZETA SOSA AMERICO REYES
Introduccin
En la prctica, cuando se recoge informacin de una
muestra de datos, lo ms habitual es tomar el mayor nmero
posible de variables.
Obtener ms de 40 variables de estudio, ya sea en un
mbito empresarial, social, econmico o cualquier otro campo,
no es nada extrao, puesto que hay muchos estudios que
requieren de la recogida de una gran cantidad de propiedades
y caractersticas. Evidentemente, en un caso as es difcil
visualizar relaciones entre las variables.
Otro problema que se plantea es la fuerte correlacin que
muchas veces se presenta entre las variables, ya que si
tomamos demasiadas variables (cosa que en general sucede
cuando no se sabe demasiado sobre los datos), lo normal es
que estn relacionadas o que midan lo mismo bajo distintos
puntos de vista.
Se hace necesario en estos casos reducir el nmero de
variables. Es importante resaltar el hecho de que el concepto
de mayor informacin se relaciona con el de mayor
variabilidad o varianza. Cuanto mayor sea la variabilidad de los
datos (varianza) se considera que existe mayor informacin, lo
cual est relacionado con el concepto de entropa.
El anlisis de componentes principales es una tcnica
matemtica que no requiere la suposicin de normalidad
multivariante de los datos, aunque en el anlisis de
componentes principales paramtrico que aqu abordaremos, el
vector aleatorio x=(x1,,xn) con el cual trabajaremos, se
supondr modelizado a la hora de realizar inferencia por una
distribucin normal -dimensional.
Este trabajo de investigacin pretende en general brindar
informacin amplia y precisa sobre esta herramienta de anlisis
que nos permite realizar investigaciones menos engorrosas.
Asimismo es fundamental en nuestra carrera porque sirve
de apoyo para realizar supuesto, con el hecho de que expresa
varias variables en funcin de dos o tres dimensiones y adems
es importante para la formacin acadmica ayudando atraves
de teora aplicable a fortalecer nuestra futura herramienta de
Anlisis de componentes principales- estadstica aplicada.
trabajo que
nuestra
profesional.
es
carrera
DEDICATORIAS.
A mis padres,
fundamentales
Sin ellos, jams hubiese podido conseguir lo
Que hasta ahora. Su tenacidad y lucha insaciable
Han hecho de ellos el gran ejemplo a seguir y
Destacar, no solo para m, sino para mis hermanos y
Familia en general.
(MACALUP IPANAQUE LUIS MIGUEL)
pilares
en mi vida.
A mi hermana
brindarme su
Incondicional durante la ejecucin de este trabajo,
Por hacerme sentir capaz para realizar mis proyectos
De manera eficiente buscando siempre recabar lo mejor
De m mismo, proyectndome para hacer un excelente
Profesional, dotado de valores ticos y morales.
(PASACHE PERICHE ALEXANDER JOEL)
Dalila por
apoyo
AGRADECIMIENTO.
De este
trabajo.
Del mismo
modo a mi
mam por el
Constante apoyo que me brinda para cumplir con lo
Que me he propuesto. A mis amigos de la Universidad por
Hacer de mis das diferentes.
(PASACHE PERICHE ALEXANDER JOEL)
INDICE
CARTULA
INTRODUCCIN
DEDICATORIA
AGRADECIMIENTO
I.
II.
III.
PROPIEDADES DE LOS
COMPONENTES10
IV.
V.
APLICACIONES DEL
ANLISIS.12
VI.
CONSTRUCCIN DE COMPONENTES
PRINCIPALES..13
VII.
COMPONENTES PRINCIPALES
POBLACIONALES14
VII.1ESTIMACIN DEL ANLISIS DE COMPONENTES
PRICIPALES.21
VIII.
IX.
X.
27
ACP SOBRE LA MATRIZ DE CORRELACIN DE LA
XI.
MUESTRA..29
CAMBIOS EN LA ESCALA E IDENTIFICACIN DE
COMPONENTES30
CONCLUSIONES
ANEXOS
ANALISIS DE COMPONENTES
PRINCIPALES.
Estas
tcnicas
fueron
inicialmente desarrolladas por Pearson a finales del siglo
posteriormente fueron estudiadas por Hotelling en los aos 30 del
siglo XX. Sin embargo, hasta la aparicin de los ordenadores no se
empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables
correlacionadas (que miden informacin comn) se puede
transformar el conjunto original de variables en otro conjunto de
nuevas variables incorreladas entre s (que no tenga repeticin o
redundancia en la informacin) llamado conjunto de componentes
principales.
Las nuevas variables son combinaciones lineales de las anteriores
y se van construyendo segn el orden de importancia en cuanto a la
variabilidad total que recogen de la muestra. De modo ideal, se
buscan m < p variables que sean combinaciones lineales de las p
originales y que estn incorreladas, recogiendo la mayor parte de la
informacin o variabilidad de los datos.
Si las variables originales estn incorreladas de partida, entonces
no tiene sentido realizar un anlisis de componentes principales. El
anlisis de componentes principales es una tcnica matemtica que
no requiere la suposicin de normalidad multivariante de los datos,
aunque si esto ltimo se cumple se puede dar una interpretacin ms
profunda de dichos componentes.
I.
Concepto.
10
nmero
de
combinacin
las variables originales, que se
variables,
lineal
de
II.
11
Permite
representar ptimamente en un espacio de dimensin pequea
observaciones de un espacio general p-dimensional. En este
sentido, componentes principales es el primer paso para
identificar las posibles variables latentes, o no observadas que
generan los datos.
Permite transformar las variables originales, en general
correlacionadas, en nuevas variables incorrelacionadas,
facilitando la interpretacin de los datos.
persigue explicar la mayor parte de la variabilidad total con el
menor nmero de componentes, en donde cada componente
como se dijo anteriormente est expresada en funcin de las
variables observadas y es muy adecuado para resumir y
reducir datos.
III.
son
nuevas
variables
con
las
12
Varianza
generalizada, (determinante de la matriz de covarianzas de las
variables). Como el determinante es el producto de los valores
propios, llamando Sz a la matriz de covarianzas de los
componentes, que es diagonal con trminos i:
.
13
obtiene
construyendo
esta matriz
con los valores de los r primeros componentes principales.
IV.
14
Permitirn
su
representacin
calculan mediante la expresin:
grfica. Se
Los a son los coeficientes y los Z son los valores estandarizados que
tienen las variables en cada uno de los sujetos de la muestra.
V.
15
que
para
dos
componentes
16
VII.
Sea
un
Sea
dimensional y sean
17
El
vector
parciales
de
LaGrange es
de
la
derivadas
funcin
de
La funcin
races
es un polinomio en
de orden
Siendo
la raz caracteriza de
Para maximizar
Caracterstico de
solucin nica.
se elige
verifica (1),
correspondiente a
mayor raz caracterstica del vector
correspondiente. Si el rango de
la
Para obtener una nueva componente principal, se busca una combinacin lineal
normalizada
18
E imcorreladas con
son ortogonales.
Si
Se llega a
Y, al ser
ha de ser
19
Los coeficientes de la
componente
se obtienen a partir del vector caracterstico normalizado
a su segunda raz caracterstica
segunda
principal
de
correspondiente
En este caso,
20
Igualando a cero, se
vector
que sea
problema ha de verificar
obtiene que el
solucin de este
se sigue
Se obtiene
Por tanto
Auto valor de
de
Si ocurre
tal que
Puesto que
es de dimensin
linealmente independientes
Anlisis de componentes principales- estadstica aplicada.
deben ser
21
Sea
u sea
Se concluye
El vector
22
Sea
un vector aleatorio p-dimensional y sean
su esperanza y covarianza.
Para tratar el problema de
una distribucion
Sea
tamao
tiene
Sean
y el estimador mximo
23
Con el anlisis
de
componentes
principales
se pretende, partiendo de una muestra aleatoria de tamao
del
vector
de variables que inicialmente pueden estar corraladas,
obtener un nmero
de variables incorreladas, que sean
combinacin lineal de las variables iniciales y que expliquen la
mayor parte de su variabilidad.
La
componente principal muestral se expresa como
combinacin lineal de las variables originales
Para las
El vector caracterstico de
asociado al
caracterstico,
se suele denominar tambin
principal.
valor
eje
componente
24
primeras
25
lineal de las
variables
originales, que
se
denominan componentes principales o factores, cuya posterior
interpretacin permitir un anlisis ms simple del problema
estudiado.
Sea XT = [X1 X2... Xp] un vector aleatorio p-variado, donde las
variables que lo componen son las variables aleatorias originales y no
necesariamente normales. El vector p-variado X tiene como matriz de
varianzas y covarianzas a , donde se tiene que
a1 , a2 ,...a p
1 2 .... p 0
Y1 a1 X a11 X 1 a12 X 2 a1 p X p
T
Y2 a2 X a21 X 1 a22 X 2 a 2 p X p
T
Y p a p X a p1 X 1 a p 2 X 2 a pp X p
T
Var Yi aiT ai i
i 1,2,...., p
Cov(Yi , Y j ) aiT a j 0
i j,
i, j 1,2,...., p
ai 1
ai
ai , a j 0
Para i=1,2,, p y
vectores
para
ai
i j
ai , a j
ai y a j
.
26
La primera
componente
la combinacin lineal de
a1
donde
principal es
Y1 a1T X
=1.
a2
Y2 a2T X
ai
Yi aiT X i
1 2 p 0
Rp
, y que
I , ai , 2 , a 2 ,..., p , a p
i
p
i 1
q
i 1
p
i
i 1
27
Existen algunos
criterios
para
determinar
el nmero de componentes principales a retener, los cuales son:
En general, el criterio ms sencillo para obtener el nmero m
de componentes principales a retener debe ser tal que
1 , 2 , , m
en conjunto expliquen
informacin total de la muestra.
ms
del
75%
de
la
q
q 1
IX.
28
En la matriz
de
correlaciones
todos
los
elementos de la diagonal son iguales a 1. Si las variables originales
estn tipificadas, esto implica que su matriz de covarianzas es igual a
la de correlaciones, con lo que la variabilidad total (la traza) es igual
al nmero total de variables que hay en la muestra. La suma total de
todos los autovalores es p y la proporcin de varianza recogida por el
autovector j-simo (componente) es:
29
30
anteriores
cruce.
al
punto
de
31
CONCLUSIONES.
El anlisis de componentes principales es una tcnica que cobra
importancia en las distintas reas ya sea experimentales,
tcnicas, biolgicas y econmicas porque permite la
idealizacin, percepcin de sola una pequea cantidad de
variables, de esta manera simplificaremos el anlisis para
realizar proyecciones de manera rpida y menos engorrosa.
32
ANEXOS
33
puntos
segn
sus valores
en el eje de
abscisas y
de ordenadas. Podramos tambin, eso s, hacer una representacin
de tres de esas ocho variables en un grfico tridimensional. Pero aqu
se acaba. Ya no podramos visualizar una representacin en ms
dimensiones. Por lo tanto, es imposible ver en un grfico una
representacin de los 15 individuos respecto a todas las variables al
mismo tiempo.
4. El ACP tiene como objetivo bsico inicial suplir este dficit.
Pretende, cuando vale la pena hacerlo (ya veremos cundo vale la
pena y cundo no), realizar una representacin de una nube de
puntos multidimensional (de ms de tres dimensiones), en dos o tres
dimensiones. En definitiva, se trata de visualizar lo que no vemos. En
nuestro ejemplo de los estudiantes de bachillerato el ACP tratara de
hacer una representacin de los 15 alumnos en dos o tres
dimensiones pero contemplando todas las variables, sin prescindir de
ninguna de ellas en el anlisis.
5. Hay que hacer notar que, aunque el objetivo inicial es ste: la
representacin en dos o tres dimensiones de unos puntos que
originariamente estn en muchas dimensiones; o sea, visualizar lo
que no vemos, la propia tcnica, como consecuencia de su propio
procedimiento, consigue crear unos objetos matemticos (las
componentes) muy interesantes que, en realidad, tambin podran
considerarse objetivos de la tcnica porque, en muchas ocasiones,
nos permiten establecer relaciones entre las variables, ver cmo se
asocian, cmo se distancian, etc. De esto, no obstante, hablar ms
tarde.
6. Vamos a ver el problema que estoy planteando pero miniaturizado.
As se entender mejor la esencia de la tcnica. Supongamos que
tenemos la siguiente representacin bidimensional con dos variables
X1 y X2:
34
35
8. Observemos que la nube de puntos roja, que est integrada por las
proyecciones de los puntos originales sobre el nuevo eje, se parece
bastante a la nube de puntos original. Las posiciones relativas de los
puntos se respetan bastante. Y ahora los seres que slo ven en una
dimensin lo ven. Estn viendo una representacin unidimensional de
una realidad bidimensional y lo hacen con bastante fidelidad. La nube
de puntos roja se parece bastante a la negra. Ellos slo ven la roja
pero realmente es una buena aproximacin de la original, que es la
negra.
9. La representacin en menos dimensiones no siempre tiene la
misma calidad. En el grfico siguiente vemos que a la izquierda la
nube de puntos proyectada sobre el nuevo eje (la nube de puntos
roja) se parece ms a la original de lo que se parecen la roja y la
negra en la situacin mostrada en el grfico de la derecha. Por lo
tanto, en los datos de la derecha tiene menos valor realizar un ACP:
Anlisis de componentes principales- estadstica aplicada.
36
37
38
uno
de
los
respectivos
nuevos ejes y
que,
adems, estos ejes, estas nuevas variables, sean independientes
entre s; o sea, que tengan correlacin cero.
14. La bsqueda de estos nuevos ejes se hace mediante el clculo de
los llamados valores propios y vectores propios de la matriz de
correlaciones entre todas las variables del estudio. Puede hacerse
tambin a partir de otra matriz, la de varianzas-covarianzas, pero sta
tiene el problema de que cuando las variables tienen unidades de
escala muy diferentes introduce un exceso de influencia por parte de
las variables con mayor varianza. Por esto suele trabajarse con la
matriz de correlaciones. De esta forma se unifica el peso de las
variables iniciales del estudio. Suele hablarse de variables
estandarizadas cuando se trabaja con la matriz de correlaciones. Una
variable es estandarizada cuando la muestra se transforma a media
cero y Desviacin estndar uno. Esto se hace restando a cada valor
muestral la media muestral y dividiendo por la Desviacin estndar.
De esta forma todas las variables del estudio tienen la misma media y
la misma Desviacin estndar y ninguna pesa ms que otra. De esta
forma la vocalizacin del estudio se pone en cmo es la forma de la
nube de puntos, de cules son las relaciones entre las variables que
permiten reducir dimensiones perdiendo el mnimo de informacin.
15. Algo muy importante: Cul es la relacin existente entre las
variables originales y las nuevas variables, los nuevos ejes; o sea,
cul es la relacin, en el caso que hemos dibujado entre las variables
X1 y X2 y las variables Y1 y Y2?
16. En primer lugar decir que a las variables Y 1 y Y2, que son, eso,
variables, tambin, como las originales, las llamamos en esta tcnica
Componentes. Y son cada una de ellas una combinacin de las
variables originales. Observemos la frmula de esa combinacin:
39
40
41
42
fotografa
porque la
metfora
es
apropiada.
Pensemos que cuando estamos viendo una fotografa en realidad
estamos viendo una representacin bidimensional de una realidad
tridimensional. En el ACP estamos haciendo algo similar. Miramos de
hacer una fotografa bidimensional o tridimensional, para que la
podamos visualizar, de una realidad constituida por muchas
dimensiones y que no visualizamos. Por lo tanto, en nuestro caso
estamos viendo una fotografa bidimensional de una realidad ocho
dimensional.
24. Pero, algo muy importante: Qu cantidad de informacin
perdemos? Y, qu representan los nuevos ejes?
25. Respecto a la cantidad de informacin observemos la siguiente
tabla:
43
44
Porque no tiene
relacin ni con
materias de letras ni con las de ciencias.
ninguna
las
Ejemplo 2.1
45
46
47
48
BIBLIOGRAFIA.
http://masteres.ugr.es/moea/pages/tfm1112/memoria_jose_anto
nio_sanchez
http://www.ub.edu/stat/docencia/Mates/ejemploACP.PDF
http://www.uoc.edu/in3/emath/docs/Componentes_principales.p
df
https://es.wikipedia.org/wiki/An
%C3%A1lisis_de_componentes_principales
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMul
t/tema3am.pdf
https://www.mhe.es/universidad/ciencias_matematicas/pena/ho
me/CAPITULO.PDF
https://estadisticaorquestainstrumento.wordpress.com/2012/12/
29/tema-17-analisis-de-componentes-principales/