You are on page 1of 48

1

AO DE LA DIVERSIFICACION PRODUCTIVA Y
FORTALECIMIENTO DE LA EDUCACION

UNIVERSIDAD NACIONAL DE PIURA


FACULTAD DE ECONOMIA

TEMA
ANLISIS DE COMPONENTES
PRINCIPLES
CURSO
E
ECONOMA

ESTADSTIC
Lic.

CURSO.
ESTADISTICA APLICADA A LA

DOCENTE
Lic. MARIELA CORDOVA ESPINOZA

INTEGRANTES
1. MACALUP IPANAQUE LUIS MIGUEL.
2. MORALES ZAPATA JOSUE SMITH
3. RAMIREZ RIVERA DARWIN
4. PASACHE PERICHE ALEXANDER JOEL
5. OROZCO NEYRA YENI EDID
6. OZETA SOSA AMERICO REYES

Anlisis de componentes principales- estadstica aplicada.

Introduccin
En la prctica, cuando se recoge informacin de una
muestra de datos, lo ms habitual es tomar el mayor nmero
posible de variables.
Obtener ms de 40 variables de estudio, ya sea en un
mbito empresarial, social, econmico o cualquier otro campo,
no es nada extrao, puesto que hay muchos estudios que
requieren de la recogida de una gran cantidad de propiedades
y caractersticas. Evidentemente, en un caso as es difcil
visualizar relaciones entre las variables.
Otro problema que se plantea es la fuerte correlacin que
muchas veces se presenta entre las variables, ya que si
tomamos demasiadas variables (cosa que en general sucede
cuando no se sabe demasiado sobre los datos), lo normal es
que estn relacionadas o que midan lo mismo bajo distintos
puntos de vista.
Se hace necesario en estos casos reducir el nmero de
variables. Es importante resaltar el hecho de que el concepto
de mayor informacin se relaciona con el de mayor
variabilidad o varianza. Cuanto mayor sea la variabilidad de los
datos (varianza) se considera que existe mayor informacin, lo
cual est relacionado con el concepto de entropa.
El anlisis de componentes principales es una tcnica
matemtica que no requiere la suposicin de normalidad
multivariante de los datos, aunque en el anlisis de
componentes principales paramtrico que aqu abordaremos, el
vector aleatorio x=(x1,,xn) con el cual trabajaremos, se
supondr modelizado a la hora de realizar inferencia por una
distribucin normal -dimensional.
Este trabajo de investigacin pretende en general brindar
informacin amplia y precisa sobre esta herramienta de anlisis
que nos permite realizar investigaciones menos engorrosas.
Asimismo es fundamental en nuestra carrera porque sirve
de apoyo para realizar supuesto, con el hecho de que expresa
varias variables en funcin de dos o tres dimensiones y adems
es importante para la formacin acadmica ayudando atraves
de teora aplicable a fortalecer nuestra futura herramienta de
Anlisis de componentes principales- estadstica aplicada.

trabajo que
nuestra
profesional.

es
carrera

DEDICATORIAS.

A Dios por bendecirme da a da.


A aquellas personas que luchan por obtener un minuto ms de vida
Y para mis padres Luis y Nelly por brindarme su apoyo
Incondicional para ejercer mis estudios universitarios,
Impartindome valores para ser una persona de bien
Y excelente profesional.
(YENI EDID OROZCO NEYRA)

A Dios y a mis padres. A


Dios porque ha estado conmigo a cada paso que doy, cuidndome y
Dndome fortaleza para continuar, a mis padres,
Quienes a lo largo de mi vida han velado por mi bienestar y
Educacin siendo mi apoyo en todo momento. Depositando
Su entera confianza en cada reto que se me presenta
Sin dudar ni un solo momento en mi inteligencia y capacidad.
Es por ellos que soy lo que soy ahora. Los amo con mi vida.
(AMERICO
OZETA SOSA)

Anlisis de componentes principales- estadstica aplicada.

A mis padres,
fundamentales
Sin ellos, jams hubiese podido conseguir lo
Que hasta ahora. Su tenacidad y lucha insaciable
Han hecho de ellos el gran ejemplo a seguir y
Destacar, no solo para m, sino para mis hermanos y
Familia en general.
(MACALUP IPANAQUE LUIS MIGUEL)

pilares
en mi vida.

A Dios Por haberme permitido llegar hasta este


Punto y haberme dado salud para estar lograr mis
Objetivos. Adems de su infinita bondad y amor.
A mis padres: Magaly y Juan Por haberme apoyado
En todo momento, por sus consejos, sus valores, por la motivacin
Constante que me ha permitido ser una persona de bien,
Pero ms que nada, por su amor.
(MORALES ZAPATA JOSUE SMITH)

A mi familia por brindarme su confianza,


Dedicacin y por apoyarme en la realizacin de
Este trabajo Por los
ejemplos de perseverancia
y
constancia que los caracterizan
Y que me ha infundado siempre, por el valor
Mostrado para salir adelante y por su amor.
RAM
IREZ RIVERA DARWIN)

Anlisis de componentes principales- estadstica aplicada.

A mi hermana
brindarme su
Incondicional durante la ejecucin de este trabajo,
Por hacerme sentir capaz para realizar mis proyectos
De manera eficiente buscando siempre recabar lo mejor
De m mismo, proyectndome para hacer un excelente
Profesional, dotado de valores ticos y morales.
(PASACHE PERICHE ALEXANDER JOEL)

Dalila por
apoyo

AGRADECIMIENTO.

A mis abuelos Luis y Felicia por brindarme


El apoyo necesario a lo largo de la ejecucin
Del trabajo de investigacin por motivarme para culminar
Exitosamente mi formacin acadmica.
Del mismo modo a mis compaeros por su constante
Participacin en la realizacin de este trabajo, lo cual nos
Ha permitido terminar lo ejecutado satisfactoriamente.
(YENI EDID OROZCO NEYRA)

A mis padres por brindarme los medios


Econmicos y morales para desarrollar
Satisfactoriamente este trabajo de investigacin,
As mismo a cada uno de mis compaeros por su
Constante participacin en la ejecucin de este trabajo.
(
AMERICO OZETA SOSA)

Anlisis de componentes principales- estadstica aplicada.

A Dios por estar conmigo en cada momento


De mi vida, brindndome su apoyo y bendiciones para
Ser mejor, por darme cada da oportunidad para
Ser mejor persona que ayer, A mi mam por confiar en m
Por hacerme sentir que si puedo lograr mis objetivos. A mis hermanos
Betty y Alonso por darme aliento en mis momentos difciles.
(MACALUP IPANAQUE LUIS MIGUEL)

A Dios por derramarme bendiciones y por


Cuidarme en cada paso que doy, por permitirme
Estudiar en esta prestigiosa Universidad, que abre la
Puerta para jvenes con iniciativas y con ganas de progresar,
De ser mejor cada da, A mi pap Adolfo Por hacer de m
Un joven con valores, por apoyarme para hacer realidad
Mis sueos.
(MORALES ZAPATA JOSUE SMITH)

A mis profesores por su paciencia y dedicacin,


Del mismo modo a mi mam Andrea por brindarme
Su apoyo no slo econmico sino tambin moral, por
Aconsejarme da a da para ser mejor persona y un excelente
Profesional para el maana.
(RAMIREZ RIVERA DARWIN)

A mis compaeros del grupo, por su esfuerzo


Para investigar y dedicar tiempo durante la ejecucin
Anlisis de componentes principales- estadstica aplicada.

De este
trabajo.
Del mismo
modo a mi
mam por el
Constante apoyo que me brinda para cumplir con lo
Que me he propuesto. A mis amigos de la Universidad por
Hacer de mis das diferentes.
(PASACHE PERICHE ALEXANDER JOEL)

INDICE

CARTULA
INTRODUCCIN
DEDICATORIA
AGRADECIMIENTO

I.

CONCEPTO DE ANLISIS DE COMPONENTES


PRINCIPALES8

II.

FINALIDAD DE LOS COMPONENTES


PRINCIPALES.9

III.

PROPIEDADES DE LOS
COMPONENTES10

IV.

FASES DEL ANLISIS DE


COMPONENTES11

V.

APLICACIONES DEL
ANLISIS.12

Anlisis de componentes principales- estadstica aplicada.

VI.
CONSTRUCCIN DE COMPONENTES
PRINCIPALES..13
VII.

COMPONENTES PRINCIPALES
POBLACIONALES14
VII.1ESTIMACIN DEL ANLISIS DE COMPONENTES
PRICIPALES.21

VIII.
IX.

DETERMINACIN DEL NUMERO DE COMPONENTES


PRICIPALES.23
CALCULO DE COMPONENTES A PARTIR DE LA MATRIZ DE
CORRELACIN

X.

27
ACP SOBRE LA MATRIZ DE CORRELACIN DE LA

XI.

MUESTRA..29
CAMBIOS EN LA ESCALA E IDENTIFICACIN DE
COMPONENTES30

CONCLUSIONES
ANEXOS

ANALISIS DE COMPONENTES
PRINCIPALES.

Anlisis de componentes principales- estadstica aplicada.

Estas

tcnicas

fueron
inicialmente desarrolladas por Pearson a finales del siglo
posteriormente fueron estudiadas por Hotelling en los aos 30 del
siglo XX. Sin embargo, hasta la aparicin de los ordenadores no se
empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables
correlacionadas (que miden informacin comn) se puede
transformar el conjunto original de variables en otro conjunto de
nuevas variables incorreladas entre s (que no tenga repeticin o
redundancia en la informacin) llamado conjunto de componentes
principales.
Las nuevas variables son combinaciones lineales de las anteriores
y se van construyendo segn el orden de importancia en cuanto a la
variabilidad total que recogen de la muestra. De modo ideal, se
buscan m < p variables que sean combinaciones lineales de las p
originales y que estn incorreladas, recogiendo la mayor parte de la
informacin o variabilidad de los datos.
Si las variables originales estn incorreladas de partida, entonces
no tiene sentido realizar un anlisis de componentes principales. El
anlisis de componentes principales es una tcnica matemtica que
no requiere la suposicin de normalidad multivariante de los datos,
aunque si esto ltimo se cumple se puede dar una interpretacin ms
profunda de dichos componentes.

I.

Concepto.

El Anlisis de Componentes Principales (ACP) es una tcnica de


sntesis de la
Informacin, o reduccin de la dimensin (nmero de variables). Es
decir, ante un banco de datos con muchas variables, el objetivo ser
reducirlas a un menor nmero perdiendo la menor cantidad de
informacin posible.
Los nuevos componentes principales o factores sern una
combinacin lineal de las variables originales, y adems sern
independientes entre s.
Adems es una tcnica del anlisis estadstico multivariado que se
clasifica entre los mtodos de simplificacin o reduccin de la
dimensin y se aplica cuando se dispone de un conjunto elevado de
variables, con datos cuantitativos persiguiendo obtener un menor

Anlisis de componentes principales- estadstica aplicada.

10

nmero
de
combinacin
las variables originales, que se

variables,
lineal
de

Denominan componentes principales o factores, cuya posterior


interpretacin permitir un anlisis ms simple del problema
estudiado.

II.

Finalidad del anlisis de componentes


principales.

El anlisis de componentes principales tiene por objetivo: dadas n


observaciones
De p variables, se analiza si es posible representar adecuadamente
esta informacin
Con un nmero menor de variables construidas como combinaciones
lineales
De las originales. Por ejemplo, con variables con alta dependencia es
frecuente que
Un pequeo nmero de nuevas variables (menos del 20 por 100 de
las originales)
Expliquen la mayor parte (ms del 80 por 100 de la variabilidad
original).
El ACP tiene como finalidad transformar un conjunto de
variables, a las que se las denomina variables originales
interrelacionadas, en un nuevo conjunto de variables que son
combinacin lineal de las originales, denominadas componentes
principales. Estas nuevas variables tienen la caracterstica de
estar incorrelacionadas entre s.
En el ACP, se persigue explicar la mayor parte de la variabilidad
total con el menor nmero de componentes, en donde cada
componente como se dijo anteriormente est expresada en
funcin de las variables observadas y es muy adecuado para
resumir y reducir datos.

Anlisis de componentes principales- estadstica aplicada.

11

Permite
representar ptimamente en un espacio de dimensin pequea
observaciones de un espacio general p-dimensional. En este
sentido, componentes principales es el primer paso para
identificar las posibles variables latentes, o no observadas que
generan los datos.
Permite transformar las variables originales, en general
correlacionadas, en nuevas variables incorrelacionadas,
facilitando la interpretacin de los datos.
persigue explicar la mayor parte de la variabilidad total con el
menor nmero de componentes, en donde cada componente
como se dijo anteriormente est expresada en funcin de las
variables observadas y es muy adecuado para resumir y
reducir datos.

transformar un conjunto de variables, a las que se las


denomina variables originales interrelacionadas, en un nuevo
conjunto de variables que son combinacin lineal de las
originales, denominadas componentes principales. Estas
nuevas
variables
tienen
la
caracterstica
de
estar
incorrelacionadas entre s.

III.

Propiedades de los componentes.

Los componentes principales


propiedades siguientes:

son

nuevas

variables

con

las

Conservan la variabilidad inicial: la suma de las varianzas de los


componentes es igual a la suma de las varianzas de las
variables originales, y la varianza generalizada de los
componentes es igual a la original.
Comprobemos el primer punto. Como V ar (zh) = h y la suma de
los valores
propios es la traza de la matriz:
Tr(S) = V ar (x1) +... + V ar (xp) = 1 +... + p
Por tanto,
). Las nuevas variables
zi tienen conjuntamente la misma variabilidad que las variables
originales. Los componentes principales tambin conservan la
Anlisis de componentes principales- estadstica aplicada.

12

Varianza
generalizada, (determinante de la matriz de covarianzas de las
variables). Como el determinante es el producto de los valores
propios, llamando Sz a la matriz de covarianzas de los
componentes, que es diagonal con trminos i:
.

La proporcin de variabilidad explicada por un componente es


el cociente entre su varianza, el valor propio asociado al vector
propio que lo define, y la suma de los valores propios de la
matriz.
En efecto, la varianza la componente h es h, y la suma de las
varianzas de las
variables originales es
, igual, como
acabamos de ver, a la suma de las varianzas de los
componentes. La proporcin de variabilidad total explicada por
el componente h es h/Pi.

Las correlacin entre un componente principal y una variable X


es proporcional al coeficiente de esa variable en la definicin
del componente,

y el coeficiente de proporcionalidad es el cociente entre la desviacin


tpica del componente y la desviacin tpica de la variable.
Para comprobarlo:

Las r componentes principales (r < p) proporcionan la


prediccin lineal ptima con r variables del conjunto de
variables X.
Esta afirmacin puede demostrarse de dos formas. La primera
demostrando que la mejor prediccin lineal con r variables de las
variables originales se obtiene utilizando las r primeras componentes
principales. La segunda demostrando que la mejor aproximacin de la
matriz de datos que puede construirse con una matriz de rango r se
Anlisis de componentes principales- estadstica aplicada.

13

obtiene
construyendo
esta matriz
con los valores de los r primeros componentes principales.

IV.

Fases de un anlisis de componentes


principales.

1. Anlisis de la matriz de correlaciones.


Un anlisis de componentes principales tiene sentido si existen altas
correlaciones entre las variables, ya que esto es indicativo de que
existe informacin redundante y, por tanto, pocos factores explicarn
gran parte de la variabilidad total
2. Seleccin de los factores.
La eleccin de los factores se realiza de tal forma que el primero
recoja la mayor proporcin posible de la variabilidad original; el
segundo factor debe recoger la mxima variabilidad posible no
recogida por el primero, y as sucesivamente. Del total de factores se
elegirn aqullos que recojan el porcentaje de variabilidad que se
considere suficiente. A stos se les denominar componentes
principales.
3. Anlisis de la matriz factorial
Una vez seleccionados los componentes principales, se representan
en forma de matriz. Cada elemento de sta representa los
coeficientes factoriales de las variables (las correlaciones entre las
variables y los componentes principales). La matriz tendr tantas
columnas como componentes principales y tantas filas como
variables

4. Interpretacin de los factores


Para que un factor sea fcilmente interpretable debe tener las
siguientes caractersticas, que son difciles de conseguir:
Los coeficientes factoriales deben ser prximos a 1.
Una variable debe tener coeficientes elevados slo con un factor.
No deben existir factores con coeficientes similares.

5. Clculo de las puntuaciones factoriales


Son las puntuaciones que tienen los componentes principales para
cada caso, que nos
Anlisis de componentes principales- estadstica aplicada.

14

Permitirn
su
representacin
calculan mediante la expresin:

grfica. Se

Los a son los coeficientes y los Z son los valores estandarizados que
tienen las variables en cada uno de los sujetos de la muestra.

V.

Aplicaciones de los componentes principales.


Entre los usos ms frecuentes del ACP estn:
Como tcnica de anlisis exploratorio que permite descubrir
interrelaciones entre los datos y de acuerdo con los resultados
proponer los anlisis estadsticos ms apropiados.
Reducir la dimensionalidad de la matriz de datos con el
fin de evitar redundancias y destacar relaciones. En la mayora
de los casos, tomando slo los primeros componentes, se
puede explicar la mayor parte de la variacin total contenida
en los datos originales.
Construir variables no observables (componentes) a partir
de Variables observables. Por ejemplo, la inteligencia de una
personas no es observable directamente, en cambio, se puede
medir distintos aspectos de sta mediante pruebas
psicomtricas. Las variables que miden los distintos aspectos
de la inteligencia tienden a covariar; esto sugiere que expresan
la mismas caractersticas pero de diferente forma y que slo
hay un pequeo nmero de rasgos no directamente medibles,
que se denominan Indicadores sintticos y
que vienen
estimados por los componentes.

Bajo ciertas circunstancias, es de gran utilidad usar estos


Componentes incorrelacionados, como datos de entrada
para otros anlisis. Por ejemplo, en el caso de la regresin
mltiple cuando las variables independientes presentan alta
Anlisis de componentes principales- estadstica aplicada.

15

colinealidad es preferible hacer la regresin sobre los


componentes principales en lugar de usar las variables
originales
VI.

Construccin de las Componentes Principales

Me manera global1, el anlisis de componentes principales


pretende explicar la estructura de covarianza de un vector
aleatorio X= (X1,, XP) buscando un nuevo
Sistema de ejes coordenados que indiquen las direcciones de
mayor variabilidad, ya sea en una situacin terica con matriz de
covarianza conocida, o con una matriz de covarianza estimada
a partir de una muestra. Este nuevo sistema de ejes coordenados
es a lo que denominaremos las componentes principales.
Vamos a trabajar en primer lugar con el modelo terico en el cul,
para un vector aleatorio X= (X1,, XP) conocemos la matriz de
covarianzas o la matriz de correlaciones R.
Como ya hemos dicho, las componentes principales de un vector
aleatorio dimensional X= (X1,, XP) son combinaciones, lineales,
incorreladas entre s.
Obtenemos por tanto P componentes principales (Y 1..YP), de la
forma:

A partir de esto deducimos


principales cualesquiera, Yi.

que

para

dos

e Yj, para cualquier i y j en {1,.., p} tenemos:

Anlisis de componentes principales- estadstica aplicada.

componentes

16

Se denominan Componentes Principales (CP) de X= (X1,, Xn) , a


las
Combinaciones lineales (y1,, yn) que son incorreladas entre s y
que hacen mximas
las varianzas

VII.
Sea

un

componentes principales poblacionales


vector
aleatorio
pesperanza y covarianza

Sea

dimensional y sean

Se consideran combinaciones lineales

Cuya varianza vendr dada por

De entre todas las combinaciones lineales se selecciona la que verifique el


problema

El problema de optimizacin planteado se resuelve mediante la tcnica de


multiplicadores de LaGrange.
Se considera la Funcin de LaGrange

Anlisis de componentes principales- estadstica aplicada.

17

El
vector
parciales
de
LaGrange es

de
la

derivadas
funcin

de

Que, igualando a cero, da lugar a

Ecuacin que tiene solucin si

La funcin
races

es un polinomio en

de orden

y la ecuacin (2) tiene

Las races caractersticas se de vectores caractersticos asociados

Multiplicando (1) a la izquierda por se tiene

Por tanto, se concluye que si con

Siendo

la raz caracteriza de

Para maximizar
Caracterstico de
solucin nica.

se elige

verifica (1),

correspondiente a
mayor raz caracterstica del vector

correspondiente. Si el rango de

la

Para obtener una nueva componente principal, se busca una combinacin lineal
normalizada

Anlisis de componentes principales- estadstica aplicada.

18

Con varianza mxima entre todas la combinaciones lineales


normalizadas (unicidad)

E imcorreladas con

Se sigue que los vectores

son ortogonales.

Se plantea el problema de optimizacin

La funcin de LaGrange es ahora:

El vector de derivadas parciales es

Si

denota la solucin de este problema, multiplicando (4) a la izquierda por


deber satisfacer

Puesto que d (3) se sigue que

Se llega a

Y, al ser

ha de ser

como consecuencia, de (4) se concluye

Anlisis de componentes principales- estadstica aplicada.

19

Los coeficientes de la
componente
se obtienen a partir del vector caracterstico normalizado
a su segunda raz caracterstica

segunda
principal
de
correspondiente

El proceso continua hasta llegar al paso


Con varianza mxima entre todas las combinaciones lineales normalizadas que
sean incorreladas con

En este caso,

El problema que se plantea ahora es

La funcin de LaGrange asociada a este problema es

El vector de derivadas parciales asociado

Anlisis de componentes principales- estadstica aplicada.

20

Igualando a cero, se
vector
que sea
problema ha de verificar

Puesto que de esto y de que

obtiene que el
solucin de este

se sigue

Se obtiene

Por tanto

Llegados a este punto si

Auto valor de

auto vector normalizado

de

Si ocurre

Este procedimiento contina hasta el paso

tal que

Puesto que
es de dimensin
linealmente independientes
Anlisis de componentes principales- estadstica aplicada.

deben ser

21

Se comprueba (Giri, 1977) que la nica solucin es

Sea

Matriz de races caractersticas ordenadas de

u sea

Matriz de los correspondientes vectores caractersticos normalizados.


Puesto que

Se concluye

Se tiene as el siguiente resultado.


Teorema 2.1

El vector

es el vector de componentes principales de

En caso de races mltiples se tiene el segundo resultado.


Teorema 2.2

Del Teorema 2.1 se sigue

Anlisis de componentes principales- estadstica aplicada.

22

Lo mismo es cierto para la suma de componentes de

VII.1 Estimacin del anlisis de componentes


principales
En la prctica la covarianza X, Es desconocida. Por ello no podrn
usarse las componentes principales poblacionales y la seleccin del
nmero de componentes principales a considerar en el estudio debe
hacerse en base a observaciones mustrales de X.

Sea
un vector aleatorio p-dimensional y sean
su esperanza y covarianza.
Para tratar el problema de
una distribucion
Sea
tamao

desconocida se asume que

tiene

una muestra aleatoria de


de

Sean

El estimador mximo verosmil de


verosmil de
respectivamente.

y el estimador mximo

Anlisis de componentes principales- estadstica aplicada.

23

Con el anlisis
de
componentes
principales
se pretende, partiendo de una muestra aleatoria de tamao
del
vector
de variables que inicialmente pueden estar corraladas,
obtener un nmero
de variables incorreladas, que sean
combinacin lineal de las variables iniciales y que expliquen la
mayor parte de su variabilidad.
La
componente principal muestral se expresa como
combinacin lineal de las variables originales

Para las

observaciones mustrales se tiene la ecuacin matricial

El vector caracterstico de
asociado al
caracterstico,
se suele denominar tambin
principal.

valor
eje

La estimacin de la varianza total del sistema traza viene dado por:

Y se denomina varianza muestral total.


Se verifica que la suma de las varianzas de las variables (inercia total
de la nube de puntos) es igual a la suma de las varianzas de los
componentes principales

La contribucin a la varianza muestral total de la


principal es
Anlisis de componentes principales- estadstica aplicada.

componente

24

Que, expresada en porcentaje, se conoce como porcentaje de la


contribucin a la varianza muestral de la
componente
principal o porcentaje de inercia explicada por la
componente principal.
La contribucin a la varianza muestral total de las
componentes principales es

primeras

Que, expresada en porcentaje, se conoce como porcentaje de la


contribucin a la varianza muestral de las
primeras
componentes principales o porcentaje de inercia explicada por las
primeras componentes principales.
Si los estimadores de las componentes principales se obtienen a
partir de la matriz de correlacin muestral.

La estimacin de la varianza muestral total ser

VIII.Determinacin del nmero de componentes


principales.
El anlisis de componentes principales, ACP, es una tcnica del
anlisis estadstico multivariado que se clasifica entre los mtodos de
simplificacin o reduccin de la dimensin y se aplica cuando se
dispone de un conjunto elevado de variables, con datos cuantitativos
persiguiendo obtener un menor nmero de variables, combinacin
Anlisis de componentes principales- estadstica aplicada.

25

lineal de las
variables
originales, que
se
denominan componentes principales o factores, cuya posterior
interpretacin permitir un anlisis ms simple del problema
estudiado.
Sea XT = [X1 X2... Xp] un vector aleatorio p-variado, donde las
variables que lo componen son las variables aleatorias originales y no
necesariamente normales. El vector p-variado X tiene como matriz de
varianzas y covarianzas a , donde se tiene que

a1 , a2 ,...a p

1 2 .... p 0

son los valores y vectores propios de , respectivamente.

Ahora, consideremos las siguientes combinaciones lineales:

Y1 a1 X a11 X 1 a12 X 2 a1 p X p
T

Y2 a2 X a21 X 1 a22 X 2 a 2 p X p
T

Y p a p X a p1 X 1 a p 2 X 2 a pp X p
T

Entonces las variables Y1, Y2,, Yp son las componentes principales,


las mismas que no estn correlacionadas entre s, son ortonormales
entre ellas y adems se cumple que:

Var Yi aiT ai i

i 1,2,...., p

Cov(Yi , Y j ) aiT a j 0

i j,

i, j 1,2,...., p

Donde se cumple que:

ai 1
ai

ai , a j 0

Para i=1,2,, p y

Es la norma del vector

vectores

para
ai

i j

ai , a j

es el producto interno entre los

ai y a j
.

Anlisis de componentes principales- estadstica aplicada.

26

La primera
componente
la combinacin lineal de

a1

donde

principal es
Y1 a1T X

que maximiza la varianza de Y1,

=1.

La segunda componente principal es la combinacin lineal


que maximiza la varianza de Y2, donde

a2

Y2 a2T X

=1 y la Cov (Y1, Y2)=0.

En general, la i-sima componente principal es la combinacin lineal


que maximiza la varianza de
vector

ai

Yi aiT X i

, sujeta a que la norma del

sea unitaria y que la Cov (Yi, Yk) = 0 para k < i.

Resumiendo tenemos que es la matriz de varianzas y covarianzas


T

asociada con el vector aleatorio, X = [X1 X2 Xp]


tiene los pares de valores y vectores propios
donde

1 2 p 0

Rp

, y que

I , ai , 2 , a 2 ,..., p , a p

El porcentaje total de la varianza contenida por la i-sima


componente principal o su explicacin est dado por:

i
p

i 1

Y el porcentaje total de la varianza contenida por las q primeras


componentes principales se define as:
q

q
i 1
p

i
i 1

Anlisis de componentes principales- estadstica aplicada.

27

Existen algunos
criterios
para
determinar
el nmero de componentes principales a retener, los cuales son:
En general, el criterio ms sencillo para obtener el nmero m
de componentes principales a retener debe ser tal que

1 , 2 , , m

en conjunto expliquen
informacin total de la muestra.

ms

del

75%

de

la

Grfico de sedimentacin. En este grfico en el eje Y se


representan los valores propios o races caractersticas y en el
eje X el nmero de componentes principales correspondientes
a cada valor propio en orden decreciente, de acuerdo a este
grfico se retienen aquellas componentes que se encuentran
antes de que el grfico presente un "quiebre" o codo.
Media aritmtica. segn este criterio se retienen aquellas
componentes tales que :
p

q
q 1

Y se seleccionan aquellas componentes cuya raz caracterstica


excede de la media de las races caractersticas.

IX.

Clculo de los componentes principales a partir


de la matriz de correlaciones.

Habitualmente, se calculan los componentes sobre variables


originales estandarizadas, es decir, variables con media 0 y varianza
1. Esto equivale a tomar los componentes principales, no de la matriz
de covarianzas sino de la matriz de correlaciones (en las variables
estandarizadas coinciden las covarianzas y las correlaciones

As, los componentes son autovectores de la matriz de correlaciones y


son distintos de los de la matriz de covarianzas. Si se acta as, se da
igual importancia a todas las Variables originales.
Anlisis de componentes principales- estadstica aplicada.

28

En la matriz
de
correlaciones
todos
los
elementos de la diagonal son iguales a 1. Si las variables originales
estn tipificadas, esto implica que su matriz de covarianzas es igual a
la de correlaciones, con lo que la variabilidad total (la traza) es igual
al nmero total de variables que hay en la muestra. La suma total de
todos los autovalores es p y la proporcin de varianza recogida por el
autovector j-simo (componente) es:

En el caso del vector , como est estandarizado, la matriz de


covarianzas coincide con la matriz de correlaciones, quedando:

El siguiente resultado nos dice que las componentes


principales no son invariantes ni homogneas frente a esta
transformacin.
Lema:

Anlisis de componentes principales- estadstica aplicada.

29

Nota: En la prctica, habitualmente se usa la tipificacin,


especialmente cuando el rango de medicin es muy diferente.

x. Anlisis de componentes principales sobre la


matriz de correlacin de la muestra:
En la mayora de los problemas prcticos nos encontraremos en
esta situacin, trabajando con la matriz de correlaciones, as que
veremos los criterios de seleccin del nmero de componentes
ms habituales:
Criterio del Kiser (1958), o criterio de la raz caracterstica
mayor que 1. Se seleccionan aquellas componentes principales
cuyo autovalor es mayor que 1, de esta forma nos garantizamos
que las componentes principales seleccionadas expliquen ms
probado que es ms correcto el punto de corte.
Criterio de Cattell (1966), o Screen test. Consiste en
representar grficamente en el eje de ordenadas los
autovalores, y en el eje de abscisas las componentes extradas
segn su orden de extraccin. En general se podrn distinguir
dos tramos claros, uno constituido por muy pocos puntos y con
una pendiente negativa muy grande, y otro en el que se
encuentran la mayora de los puntos con un decaimiento muy
lento. Este criterio consiste en elegir tantas componentes
como puntos haya en el primer tramo de la curva.
Criterio de Horn (1965). Se representan los autovalores de las
componentes principales igual que en el Screen test. Por otra
parte, se consideran
conjuntos de una normal -variante, de
tamao N todos, de los cuales conoceremos la estructura de
correlacin. Se generan estas
muestras, se calculan los
autovalores-medios (media
Aritmtica de los autovalores de los casos) y se van representando
uno a uno. Es de esperar que la ordenada
se alcance en /2. El
criterio consiste en quedarse con las componentes principales
Anlisis de componentes principales- estadstica aplicada.

30

anteriores
cruce.

al

punto

de

XI. Cambios de escalas e identificacin de


componentes.
Si las variables originales x1,..., xp estn incorreladas, entonces
carece de sentido calcular unos componentes principales. Si se
hiciera, se obtendran las mismas variables pero reordenadas de
mayor a menor varianza.
Para saber si x1,..., xp estn correlacionadas, sepuede calcular la
matriz de correlaciones aplicndose posteriormente el test de
esfericidad de Barlett. El clculo de los componentes principales de
una serie de variables x1,...,xp depende normalmente de las unidades
de medida empleadas. Si transformamos las unidades de medida, lo
ms probable es que cambien a su vez los componentes obtenidos.
Una solucin frecuente es usar variables x1,..., xp tipificadas. Con
ello, se eliminan las diferentes unidades de medida y se consideran
todas las variables implcitamente equivalentes en cuanto a la
informacin recogida.

Anlisis de componentes principales- estadstica aplicada.

31

CONCLUSIONES.
El anlisis de componentes principales es una tcnica que cobra
importancia en las distintas reas ya sea experimentales,
tcnicas, biolgicas y econmicas porque permite la
idealizacin, percepcin de sola una pequea cantidad de
variables, de esta manera simplificaremos el anlisis para
realizar proyecciones de manera rpida y menos engorrosa.

Mediante la investigacin de la teora y la aplicacin de un


ejercicio prctico hemos podido discernir que este tema ayuda
a realizar clculos de manera apropiada conservando la
variabilidad inicial.
El anlisis de componentes es una herramienta fundamental
para trabajar datos con una pequea cantidad de variables,
logrando realizar estudios efectivos con una menor cantidad de
componentes sin perder informacin de las variables a estudiar.

Anlisis de componentes principales- estadstica aplicada.

32

ANEXOS

ANLISIS DE COMPONENTES PRINCIPALES


1. El Anlisis de componentes principales (ACP) es una tcnica
estadstica descriptiva que tiene como punto de partida una matriz de
datos con una serie de individuos a los que se les ha medido varias
variables. Por eso suele clasificarse como una tcnica multivariante.
Para guiarnos en esta tcnica vamos a manejar unos datos como los
que a continuacin muestro:

2. Se trata de unos datos que todos comprendemos perfectamente


porque todos hemos sido estudiantes. Se trata de las notas de
diferentes materias que obtienen 15 alumnos de bachillerato.
Tenemos, pues, 15 individuos en el estudio; o sea, una muestra de
tamao 15 pero con ocho variables, tantas como asignaturas
tenemos.
3. Si quisiramos representar los 15 alumnos de esta muestra en un
grfico lo podramos hacer tomando dos notas y representando los 15
Anlisis de componentes principales- estadstica aplicada.

33

puntos
segn
sus valores
en el eje de
abscisas y
de ordenadas. Podramos tambin, eso s, hacer una representacin
de tres de esas ocho variables en un grfico tridimensional. Pero aqu
se acaba. Ya no podramos visualizar una representacin en ms
dimensiones. Por lo tanto, es imposible ver en un grfico una
representacin de los 15 individuos respecto a todas las variables al
mismo tiempo.
4. El ACP tiene como objetivo bsico inicial suplir este dficit.
Pretende, cuando vale la pena hacerlo (ya veremos cundo vale la
pena y cundo no), realizar una representacin de una nube de
puntos multidimensional (de ms de tres dimensiones), en dos o tres
dimensiones. En definitiva, se trata de visualizar lo que no vemos. En
nuestro ejemplo de los estudiantes de bachillerato el ACP tratara de
hacer una representacin de los 15 alumnos en dos o tres
dimensiones pero contemplando todas las variables, sin prescindir de
ninguna de ellas en el anlisis.
5. Hay que hacer notar que, aunque el objetivo inicial es ste: la
representacin en dos o tres dimensiones de unos puntos que
originariamente estn en muchas dimensiones; o sea, visualizar lo
que no vemos, la propia tcnica, como consecuencia de su propio
procedimiento, consigue crear unos objetos matemticos (las
componentes) muy interesantes que, en realidad, tambin podran
considerarse objetivos de la tcnica porque, en muchas ocasiones,
nos permiten establecer relaciones entre las variables, ver cmo se
asocian, cmo se distancian, etc. De esto, no obstante, hablar ms
tarde.
6. Vamos a ver el problema que estoy planteando pero miniaturizado.
As se entender mejor la esencia de la tcnica. Supongamos que
tenemos la siguiente representacin bidimensional con dos variables
X1 y X2:

Anlisis de componentes principales- estadstica aplicada.

34

7. Y supongamos que unos seres unidimensionales, que nicamente


ven las cosas si estn en una dimensin, quieren representar, en una
nica dimensin, esta nube de puntos que ellos, evidentemente, no
pueden ver. Observemos que si lo que quieren es no prescindir de
ninguna de las dos variables lo que pueden hacer es representar las
proyecciones de los puntos sobre un eje como el dibujado en la
siguiente figura:

Anlisis de componentes principales- estadstica aplicada.

35

8. Observemos que la nube de puntos roja, que est integrada por las
proyecciones de los puntos originales sobre el nuevo eje, se parece
bastante a la nube de puntos original. Las posiciones relativas de los
puntos se respetan bastante. Y ahora los seres que slo ven en una
dimensin lo ven. Estn viendo una representacin unidimensional de
una realidad bidimensional y lo hacen con bastante fidelidad. La nube
de puntos roja se parece bastante a la negra. Ellos slo ven la roja
pero realmente es una buena aproximacin de la original, que es la
negra.
9. La representacin en menos dimensiones no siempre tiene la
misma calidad. En el grfico siguiente vemos que a la izquierda la
nube de puntos proyectada sobre el nuevo eje (la nube de puntos
roja) se parece ms a la original de lo que se parecen la roja y la
negra en la situacin mostrada en el grfico de la derecha. Por lo
tanto, en los datos de la derecha tiene menos valor realizar un ACP:
Anlisis de componentes principales- estadstica aplicada.

36

10. Y observemos que cuando he dibujado el eje para proyectar los


valores sobre l lo he hecho situndolo de una forma, pero lo hubiera
podido situar de otra. Observemos en el grfico siguiente que el eje
dispuesto en el ejemplo de la derecha no consigue, mediante la
proyeccin de los puntos sobre ella, una nube de puntos
representativa de la nube de puntos original:

11. Lo que hemos hecho es, en definitiva, un giro de los ejes de


coordenadas sin tocar los puntos. Observemos lo que hemos hecho:
Anlisis de componentes principales- estadstica aplicada.

37

12. Lo importante es que ahora vemos la nube de puntos desde unos


ejes donde uno es mucho ms importante que el otro. Ahora los ejes
son Y1 y Y2. Si X1 y X2 eran dos variables que tenan la misma cantidad
de informacin, ahora Y1 y Y2 no tienen la misma cantidad de
informacin. Y1tiene mucha ms informacin que Y 2. En Estadstica
informacin es equivalente a dispersin, a varianza. Una variable que
no vara no tiene informacin. Una variable que vara mucho tener el
valor de un individuo es muy informativo.
13. El objetivo de la tcnica ACP es, pues, ste: conseguir girar los
ejes de tal forma que exista la mayor desigualdad posible entre la
varianza de la nube de puntos original en las proyecciones en cada
Anlisis de componentes principales- estadstica aplicada.

38

uno
de
los
respectivos
nuevos ejes y
que,
adems, estos ejes, estas nuevas variables, sean independientes
entre s; o sea, que tengan correlacin cero.
14. La bsqueda de estos nuevos ejes se hace mediante el clculo de
los llamados valores propios y vectores propios de la matriz de
correlaciones entre todas las variables del estudio. Puede hacerse
tambin a partir de otra matriz, la de varianzas-covarianzas, pero sta
tiene el problema de que cuando las variables tienen unidades de
escala muy diferentes introduce un exceso de influencia por parte de
las variables con mayor varianza. Por esto suele trabajarse con la
matriz de correlaciones. De esta forma se unifica el peso de las
variables iniciales del estudio. Suele hablarse de variables
estandarizadas cuando se trabaja con la matriz de correlaciones. Una
variable es estandarizada cuando la muestra se transforma a media
cero y Desviacin estndar uno. Esto se hace restando a cada valor
muestral la media muestral y dividiendo por la Desviacin estndar.
De esta forma todas las variables del estudio tienen la misma media y
la misma Desviacin estndar y ninguna pesa ms que otra. De esta
forma la vocalizacin del estudio se pone en cmo es la forma de la
nube de puntos, de cules son las relaciones entre las variables que
permiten reducir dimensiones perdiendo el mnimo de informacin.
15. Algo muy importante: Cul es la relacin existente entre las
variables originales y las nuevas variables, los nuevos ejes; o sea,
cul es la relacin, en el caso que hemos dibujado entre las variables
X1 y X2 y las variables Y1 y Y2?
16. En primer lugar decir que a las variables Y 1 y Y2, que son, eso,
variables, tambin, como las originales, las llamamos en esta tcnica
Componentes. Y son cada una de ellas una combinacin de las
variables originales. Observemos la frmula de esa combinacin:

Anlisis de componentes principales- estadstica aplicada.

39

17. En realidad estos coeficientes que multiplican a las variables


originales son los vectores propios de la matriz de correlaciones, es la
frmula de la transformacin lineal realizada. Hemos cambiado de
ejes y para llegar de los ejes originales a los nuevos ejes hace falta
esta transformacin. En definitiva, si tenemos un punto representado
por las coordenadas originales, stas son las frmulas necesarias para
conseguir las coordenadas de la nueva representacin: la
representacin mediante los ejes constituidos por las componentes.
18. Si en el lugar de estar trabajando con dos variables originales
estuviramos trabajando con d variables originales la frmula de las d
componentes sera:

Anlisis de componentes principales- estadstica aplicada.

40

19. Se llama a la tcnica Anlisis de componentes principales porque


transforma a las variables originales en nuevas variables, las
componentes, las cuales tiene desigualdad en cuanto a la informacin
explicada, lo que significa que tenemos unas componentes muy
informativas y otras que no. Por eso tenemos unas componentes
principales, que son las que usaremos para hacer la representacin.
Esta desigualdad generada al crear las componentes nos permite
elegir, entre ellas, las principales y eliminar las poco importantes,
cosa que no suceda con las originales porque ellas eran todas
principales, todas eran importantes, no podamos prescindir de
ninguna de ellas.
20. A los datos de los 15 estudiantes que se les ha evaluado en las
ocho materias citadas en la matriz de datos mostrada al principio de
este tema si se les hace un ACP tenemos la siguiente representacin
usando las dos primeras componentes principales: PCOMP_1 y
PCOMP_2:

Anlisis de componentes principales- estadstica aplicada.

41

21. Observemos ahora que esta representacin se asemeja mucho a


la original en ocho dimensiones. Si observamos en el grfico de dos
dimensiones el alumno 1 y el 9 estn muy prximos, prcticamente
solapados. Miremos qu sucede en la matriz de datos. Observaremos
que las notas, excepto Educacin fsica, son prcticamente las
mismas. Lo de Educacin fsica tiene una explicacin que ahora
veremos.
22. Si, por el contrario, elegimos los individuos 5 y 12 vemos que en
nuestro grfico de dos dimensiones estn completamente en los
extremos, estn en dos vrtices de la representacin. Si ahora
miramos la matriz de datos veremos que el alumno 5 lo aprueba todo
con buenas notas excepto la Educacin fsica. En cambio el alumno
12 lo suspende todo, incluso la Educacin fsica. Sorprendentemente
en este caso son en todo distintos excepto en la Educacin fsica que
tienen justo la misma nota.
23. Por lo tanto, con el grfico de dos dimensiones estamos viendo
una muy buena fotografa de las posiciones relativas de los puntos en
la representacin de ocho dimensiones original que no vemos. Digo
Anlisis de componentes principales- estadstica aplicada.

42

fotografa
porque la
metfora
es
apropiada.
Pensemos que cuando estamos viendo una fotografa en realidad
estamos viendo una representacin bidimensional de una realidad
tridimensional. En el ACP estamos haciendo algo similar. Miramos de
hacer una fotografa bidimensional o tridimensional, para que la
podamos visualizar, de una realidad constituida por muchas
dimensiones y que no visualizamos. Por lo tanto, en nuestro caso
estamos viendo una fotografa bidimensional de una realidad ocho
dimensional.
24. Pero, algo muy importante: Qu cantidad de informacin
perdemos? Y, qu representan los nuevos ejes?
25. Respecto a la cantidad de informacin observemos la siguiente
tabla:

26. Los valores propios de cada componente nos indican la cantidad


de varianza, la cantidad de informacin que tiene cada componente.
Como podemos ver en esta tabla la primera componente tiene un
46.38% de informacin y la segunda un 35.76%. Las dos juntas tienen
un 82.14. Por lo tanto, haciendo una representacin en dos
dimensiones con esas dos primeras componentes perdemos un
17.86% de informacin nicamente.
27. Respecto a lo que representan los nuevos ejes observemos la
frmula de las dos primeras componentes principales:

Anlisis de componentes principales- estadstica aplicada.

43

28. Esto indica que la primera componente principal tiene los


coeficientes de la primera columna y la segunda componente tiene
los coeficientes de la segunda. O sea, que para conocer las
coordenadas que tendr cada alumno de esas dos componentes hay
que multiplicar sus ocho notas por sus coeficientes respectivos. Y as
es como obtenemos la representacin grfica bidimensional mostrada
antes.
29. Para interpretar una componente hay que seguir el siguiente
procedimiento: 1) Mirar el valor absoluto de los coeficientes
distinguiendo los que tienen un valor grande y un valor pequeo. En
nuestro caso en la primera componente observemos que Lengua,
Ingls, Filosofa e Historia tienen coeficientes con valor absoluto
grande, cercano en todos los casos a 0.5. Los dems ya son bastante
ms pequeos, pesan mucho menos en esta componente. En la
segunda componente el peso principal se lo llevan Matemticas,
Fsica y Qumica, con coeficientes cercanos a 0.57. Las dems
asignaturas pesan poco. 2) Mirar entre los coeficientes con valor
absoluto grande el juego de signos que hay. En nuestro caso el signo
es el mismo, por lo tanto, las variables que pesan en una componente
y en la otra todas van en la misma direccin. Pero en otro caso nos
podramos encontrar con valores de signo contrario. Entonces hay
que interpretar el juego de fuerzas de los signos.
30. En el ejemplo que venimos usando la interpretacin es muy clara.
En la primera componente tenemos reunidas las materias de letras.
En la segunda componente tenemos reunidas, por el contrario, las
materias de ciencias. La educacin fsica no pesa ni en una ni en otra.
Anlisis de componentes principales- estadstica aplicada.

44

Porque no tiene
relacin ni con
materias de letras ni con las de ciencias.

ninguna
las

31. Viendo el grfico bidimensional donde en el eje de las abscisas


tenemos la primera componente y en el eje de las ordenadas
tenemos la segunda componente podemos ver que los alumnos
buenos en ciencias y letras estarn situados a la derecha y arriba, los
alumnos buenos en letras y malos en ciencias se situarn a la
derecha y abajo, los buenos en ciencias y malos en letras a la
izquierda

y arriba y, finalmente, los malos en ciencias y letras se situarn a la


izquierda y abajo.

Ejemplo 2.1

Anlisis de componentes principales- estadstica aplicada.

45

Anlisis de componentes principales- estadstica aplicada.

46

Anlisis de componentes principales- estadstica aplicada.

47

Anlisis de componentes principales- estadstica aplicada.

48

BIBLIOGRAFIA.
http://masteres.ugr.es/moea/pages/tfm1112/memoria_jose_anto
nio_sanchez
http://www.ub.edu/stat/docencia/Mates/ejemploACP.PDF
http://www.uoc.edu/in3/emath/docs/Componentes_principales.p
df
https://es.wikipedia.org/wiki/An
%C3%A1lisis_de_componentes_principales
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMul
t/tema3am.pdf
https://www.mhe.es/universidad/ciencias_matematicas/pena/ho
me/CAPITULO.PDF
https://estadisticaorquestainstrumento.wordpress.com/2012/12/
29/tema-17-analisis-de-componentes-principales/

Anlisis de componentes principales- estadstica aplicada.

You might also like