Professional Documents
Culture Documents
Pca
Pca
L’utilizzo di PCA può aiutare a identificare le correlazioni tra i punti dati, ad esempio se esiste una
correlazione tra il consumo di alimenti come pesce congelato e pane croccante nei paesi nordici.
L’analisi dei componenti principali oggi è una delle tecniche statistiche multivariate più popolari. È stato
ampiamente utilizzato nelle aree del riconoscimento di pattern e dell’elaborazione del segnale ed è un
metodo statistico sotto il titolo ampio di analisi fattoriale.,
La PCA risale a Cauchy ma fu formulata per la prima volta nelle statistiche da Pearson, che descrisse
l’analisi come “linee e piani di adattamento più vicini ai sistemi di punti nello spazio” .,
PCA è uno strumento molto flessibile e consente l’analisi di set di dati che possono contenere, ad esempio,
multicollinearità, valori mancanti, dati categoriali e misurazioni imprecise. L’obiettivo è quello di estrarre le
informazioni importanti dai dati e di esprimere queste informazioni come un insieme di indici di sintesi
chiamati componenti principali.
Statisticamente, PCA trova linee, piani e iper-piani nello spazio K-dimensionale che approssimano i dati nel
miglior modo possibile nel senso dei minimi quadrati., Una linea o un piano che è l’approssimazione dei
minimi quadrati di un insieme di punti dati rende la varianza delle coordinate sulla linea o sul piano il più
grande possibile.
PCA crea una visualizzazione di dati che minimizza la varianza residua nel senso dei minimi quadrati e
massimizza la varianza delle coordinate di proiezione.
Considera una matrice X con N righe (alias “osservazioni”) e K colonne (alias “variabili”). Per questa
matrice costruiamo uno spazio variabile con tante dimensioni quante sono le variabili (vedi figura sotto).
Ogni variabile rappresenta un asse di coordinate. Per ogni variabile, la lunghezza è stata standardizzata
secondo un criterio di scala, normalmente scalando alla varianza unitaria. Puoi trovare maggiori dettagli sul
ridimensionamento alla varianza unitaria nel precedente post del blog.
Uno spazio variabile K-dimensionale., Per semplicità, vengono visualizzati solo tre assi variabili. La”
lunghezza ” di ciascun asse di coordinate è stata standardizzata in base a un criterio specifico, di solito scala
della varianza unitaria.
Nel passaggio successivo, ogni osservazione (riga) della matrice X viene posizionata nello spazio variabile
K-dimensionale. Di conseguenza, le righe nella tabella dati formano uno sciame di punti in questo spazio.
Le osservazioni (righe) nella matrice di dati X possono essere intese come uno sciame di punti nello spazio
variabile (spazio K).,
Centraggio medio
Successivamente, il centraggio medio comporta la sottrazione delle medie variabili dai dati. Il vettore delle
medie corrisponde a un punto nello spazio K.
Nella procedura di centraggio medio, si calcolano prima le medie variabili. Questo vettore di medie è
interpretabile come un punto (qui in rosso) nello spazio. Il punto è situato nel mezzo dello sciame di punti (al
centro di gravità).,
La sottrazione delle medie dai dati corrisponde a un riposizionamento del sistema di coordinate, in modo tale
che il punto medio sia ora l’origine.
La procedura di centraggio medio corrisponde allo spostamento dell’origine del sistema di coordinate in
modo che coincida con il punto medio (qui in rosso).
Il primo componente principale (PC1) è la linea che meglio rappresenta la forma dello sciame di punti.
Rappresenta la direzione massima della varianza nei dati., Ogni osservazione (punto giallo) può essere
proiettata su questa linea per ottenere un valore di coordinata lungo la linea PC. Questo valore è noto come
punteggio.
Il secondo componente principale (PC2) è orientato in modo tale da riflettere la seconda più grande fonte di
variazione nei dati, pur essendo ortogonale al primo PC. PC2 passa anche attraverso il punto medio.
Due PEZZI formano un piano. Questo piano è una finestra nello spazio multidimensionale, che può essere
visualizzato graficamente. Ogni osservazione può essere proiettata su questo piano, dando un punteggio per
ogni.,
Modellazione di un set di dati
Ora, consideriamo come si presenta utilizzando un set di dati di alimenti comunemente consumati in diversi
paesi europei. La figura seguente mostra il grafico del punteggio dei primi due componenti principali. Questi
punteggi sono chiamati t1 e t2. La trama punteggio è una mappa di 16 paesi. I paesi vicini hanno profili di
consumo alimentari simili, mentre quelli lontani tra loro sono dissimili., I paesi nordici (Finlandia, Norvegia,
Danimarca e Svezia) si trovano insieme nell’angolo in alto a destra, rappresentando così un gruppo di
nazioni con una certa somiglianza nel consumo di cibo. Belgio e Germania sono vicini al centro (origine)
della trama, il che indica che hanno proprietà medie.
La trama del punteggio PCA dei primi due PC di un set di dati sui profili di consumo alimentare. Questo
fornisce una mappa di come i paesi si relazionano tra loro. Il primo componente spiega il 32% della
variazione e il secondo componente il 19%., Colorato per posizione geografica(latitudine) della rispettiva
capitale.
La figura seguente mostra le relazioni tra tutte le 20 variabili allo stesso tempo. Le variabili che
contribuiscono a informazioni simili sono raggruppate insieme, cioè sono correlate. Il pane croccante
(crips_br) e il pesce congelato (Fro_Fish) sono esempi di due variabili correlate positivamente. Quando il
valore numerico di una variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a
cambiare allo stesso modo.,
Quando le variabili sono correlate negativamente (“inversamente”), sono posizionate su lati opposti
dell’origine del grafico, in quadranti diagonalmente 0pposed. Ad esempio, le variabili aglio e dolcificante
sono inversamente correlate, il che significa che quando l’aglio aumenta, il dolcificante diminuisce e
viceversa.
PCA caricamento trama dei primi due componenti principali (p2 vs p1) confrontando gli alimenti
consumati.,
Se due variabili sono correlate positivamente, quando il valore numerico di una variabile aumenta o
diminuisce, il valore numerico dell’altra variabile tende a cambiare allo stesso modo.
Inoltre, la distanza dall’origine trasmette anche informazioni. Più lontano dall’origine della trama si trova
una variabile, più forte è l’impatto che la variabile ha sul modello. Ciò significa, ad esempio, che le variabili
pane croccante (Crisp_br), pesce congelato (Fro_Fish), verdure surgelate (Fro_Veg) e aglio (aglio) separano
i quattro paesi nordici dagli altri., I quattro paesi nordici sono caratterizzati da valori elevati (alto consumo)
delle precedenti tre disposizioni e basso consumo di aglio. Inoltre, l’interpretazione del modello suggerisce
che paesi come l’Italia, il Portogallo, la Spagna e, in una certa misura, l’Austria hanno un elevato consumo di
aglio e un basso consumo di dolcificante, zuppa in scatola (Ti_soup) e frutta in scatola (Ti_Fruit).
Geometricamente, i carichi dei componenti principali esprimono l’orientamento del piano del modello nello
spazio variabile K-dimensionale., La direzione di PC1 in relazione alle variabili originali è data dal coseno
degli angoli a1, a2 e a3. Questi valori indicano come le variabili originali x1,x2 e x3 “caricano” in (cioè
contribuiscono a) PC1. Quindi, sono chiamati carichi.
Il secondo insieme di coefficienti di caricamento esprime la direzione di PC2 in relazione alle variabili
originali. Quindi, dati i due PC e tre variabili originali, sono necessari sei valori di caricamento (coseno di
angoli) per specificare come il piano del modello è posizionato nello spazio K.,
L’utilizzo di PCA può aiutare a identificare le correlazioni tra i punti dati, ad esempio
se esiste una correlazione tra il consumo di alimenti come pesce congelato e pane
croccante nei paesi nordici.
L’analisi dei componenti principali oggi è una delle tecniche statistiche multivariate
più popolari. È stato ampiamente utilizzato nelle aree del riconoscimento di pattern
e dell’elaborazione del segnale ed è un metodo statistico sotto il titolo ampio di
analisi fattoriale.,
PCA è il metodo madre per MVDA
PCA è uno strumento molto flessibile e consente l’analisi di set di dati che possono
contenere, ad esempio, multicollinearità, valori mancanti, dati categoriali e
misurazioni imprecise. L’obiettivo è quello di estrarre le informazioni importanti dai
dati e di esprimere queste informazioni come un insieme di indici di sintesi chiamati
componenti principali.
Statisticamente, PCA trova linee, piani e iper-piani nello spazio K-dimensionale che
approssimano i dati nel miglior modo possibile nel senso dei minimi quadrati., Una
linea o un piano che è l’approssimazione dei minimi quadrati di un insieme di punti
dati rende la varianza delle coordinate sulla linea o sul piano il più grande possibile.
PCA crea una visualizzazione di dati che minimizza la varianza residua nel senso dei
minimi quadrati e massimizza la varianza delle coordinate di proiezione.
Nel passaggio successivo, ogni osservazione (riga) della matrice X viene posizionata
nello spazio variabile K-dimensionale. Di conseguenza, le righe nella tabella dati
formano uno sciame di punti in questo spazio.
Le osservazioni (righe) nella matrice di dati X possono essere intese come uno
sciame di punti nello spazio variabile (spazio K).,
Centraggio medio
Due PEZZI formano un piano. Questo piano è una finestra nello spazio
multidimensionale, che può essere visualizzato graficamente. Ogni osservazione
può essere proiettata su questo piano, dando un punteggio per ogni.,
La trama del punteggio PCA dei primi due PC di un set di dati sui profili di consumo
alimentare. Questo fornisce una mappa di come i paesi si relazionano tra loro. Il
primo componente spiega il 32% della variazione e il secondo componente il 19%.,
Colorato per posizione geografica(latitudine) della rispettiva capitale.
In un modello PCA con due componenti, cioè un piano nello spazio K, quali variabili
(disposizioni alimentari) sono responsabili dei modelli visti tra le osservazioni
(paesi)? Vorremmo sapere quali variabili sono influenti e anche come le variabili
sono correlate. Tale conoscenza è data dai carichi dei componenti principali (grafico
sotto). Questi vettori di carico sono chiamati p1 e p2.,
La figura seguente mostra le relazioni tra tutte le 20 variabili allo stesso tempo. Le
variabili che contribuiscono a informazioni simili sono raggruppate insieme, cioè
sono correlate. Il pane croccante (crips_br) e il pesce congelato (Fro_Fish) sono
esempi di due variabili correlate positivamente. Quando il valore numerico di una
variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a
cambiare allo stesso modo.,
PCA caricamento trama dei primi due componenti principali (p2 vs p1)
confrontando gli alimenti consumati.,
I caricamenti dei componenti principali scoprono come il piano del modello PCA
viene inserito nello spazio variabile. I caricamenti sono utilizzati per interpretare il
significato dei punteggi.