You are on page 1of 10

Che cos’è Principal Component Analysis (PCA) e come viene utilizzato?

Posted on Novembre 22, 2020 by admin


Principal component analysis, o PCA, è una procedura statistica che consente di riassumere il contenuto
informativo in tabelle di dati di grandi dimensioni mediante un insieme più piccolo di “indici di riepilogo”
che possono essere più facilmente visualizzati e analizzati. I dati sottostanti possono essere misurazioni che
descrivono le proprietà di campioni di produzione, composti chimici o reazioni, punti di tempo di processo di
un processo continuo, lotti da un processo batch, individui biologici o prove di un protocollo DOE, per
esempio.,

Questo articolo è pubblicato sul nostro Blog Sartorius.

L’utilizzo di PCA può aiutare a identificare le correlazioni tra i punti dati, ad esempio se esiste una
correlazione tra il consumo di alimenti come pesce congelato e pane croccante nei paesi nordici.

L’analisi dei componenti principali oggi è una delle tecniche statistiche multivariate più popolari. È stato
ampiamente utilizzato nelle aree del riconoscimento di pattern e dell’elaborazione del segnale ed è un
metodo statistico sotto il titolo ampio di analisi fattoriale.,

PCA è il metodo madre per MVDA


PCA costituisce la base dell’analisi multivariata dei dati basata su metodi di proiezione. L’uso più importante
di PCA è quello di rappresentare una tabella di dati multivariata come insieme più piccolo di variabili (indici
di riepilogo) al fine di osservare tendenze, salti, cluster e valori anomali. Questa panoramica può scoprire le
relazioni tra osservazioni e variabili e tra le variabili.

La PCA risale a Cauchy ma fu formulata per la prima volta nelle statistiche da Pearson, che descrisse
l’analisi come “linee e piani di adattamento più vicini ai sistemi di punti nello spazio” .,

PCA è uno strumento molto flessibile e consente l’analisi di set di dati che possono contenere, ad esempio,
multicollinearità, valori mancanti, dati categoriali e misurazioni imprecise. L’obiettivo è quello di estrarre le
informazioni importanti dai dati e di esprimere queste informazioni come un insieme di indici di sintesi
chiamati componenti principali.

Statisticamente, PCA trova linee, piani e iper-piani nello spazio K-dimensionale che approssimano i dati nel
miglior modo possibile nel senso dei minimi quadrati., Una linea o un piano che è l’approssimazione dei
minimi quadrati di un insieme di punti dati rende la varianza delle coordinate sulla linea o sul piano il più
grande possibile.
PCA crea una visualizzazione di dati che minimizza la varianza residua nel senso dei minimi quadrati e
massimizza la varianza delle coordinate di proiezione.

Come funziona PCA


In un precedente articolo, abbiamo spiegato perché è necessario pre-trattare i dati per PCA. Ora, diamo
un’occhiata a come funziona PCA, usando un approccio geometrico.,

Considera una matrice X con N righe (alias “osservazioni”) e K colonne (alias “variabili”). Per questa
matrice costruiamo uno spazio variabile con tante dimensioni quante sono le variabili (vedi figura sotto).
Ogni variabile rappresenta un asse di coordinate. Per ogni variabile, la lunghezza è stata standardizzata
secondo un criterio di scala, normalmente scalando alla varianza unitaria. Puoi trovare maggiori dettagli sul
ridimensionamento alla varianza unitaria nel precedente post del blog.

Uno spazio variabile K-dimensionale., Per semplicità, vengono visualizzati solo tre assi variabili. La”
lunghezza ” di ciascun asse di coordinate è stata standardizzata in base a un criterio specifico, di solito scala
della varianza unitaria.

Nel passaggio successivo, ogni osservazione (riga) della matrice X viene posizionata nello spazio variabile
K-dimensionale. Di conseguenza, le righe nella tabella dati formano uno sciame di punti in questo spazio.

Le osservazioni (righe) nella matrice di dati X possono essere intese come uno sciame di punti nello spazio
variabile (spazio K).,

Centraggio medio
Successivamente, il centraggio medio comporta la sottrazione delle medie variabili dai dati. Il vettore delle
medie corrisponde a un punto nello spazio K.

Nella procedura di centraggio medio, si calcolano prima le medie variabili. Questo vettore di medie è
interpretabile come un punto (qui in rosso) nello spazio. Il punto è situato nel mezzo dello sciame di punti (al
centro di gravità).,

La sottrazione delle medie dai dati corrisponde a un riposizionamento del sistema di coordinate, in modo tale
che il punto medio sia ora l’origine.
La procedura di centraggio medio corrisponde allo spostamento dell’origine del sistema di coordinate in
modo che coincida con il punto medio (qui in rosso).

Il primo componente principale


Dopo il centraggio medio e il ridimensionamento alla varianza unitaria, il set di dati è pronto per il calcolo
del primo indice di riepilogo, il primo componente principale (PC1)., Questo componente è la linea nello
spazio variabile K-dimensionale che meglio approssima i dati nel senso dei minimi quadrati. Questa linea
passa attraverso il punto medio. Ogni osservazione (punto giallo) può ora essere proiettata su questa linea per
ottenere un valore di coordinata lungo la linea PC. Questo nuovo valore di coordinate è noto anche come
punteggio.

Il primo componente principale (PC1) è la linea che meglio rappresenta la forma dello sciame di punti.
Rappresenta la direzione massima della varianza nei dati., Ogni osservazione (punto giallo) può essere
proiettata su questa linea per ottenere un valore di coordinata lungo la linea PC. Questo valore è noto come
punteggio.

La seconda componente principale


Di solito, un indice di sintesi o componente principale è insufficiente per modellare la variazione sistematica
di un set di dati. Pertanto, viene calcolato un secondo indice di sintesi – una seconda componente principale
(PC2). Il secondo PC è anche rappresentato da una linea nello spazio variabile K-dimensionale, che è
ortogonale al primo PC., Questa linea passa anche attraverso il punto medio e migliora il più possibile
l’approssimazione dei dati X.

Il secondo componente principale (PC2) è orientato in modo tale da riflettere la seconda più grande fonte di
variazione nei dati, pur essendo ortogonale al primo PC. PC2 passa anche attraverso il punto medio.

Due componenti principali definiscono un piano modello


Quando due componenti principali sono state derivate, insieme definiscono un luogo, una finestra nello
spazio variabile K-dimensionale., Proiettando tutte le osservazioni sul sottospazio a bassa dimensione e
tracciando i risultati, è possibile visualizzare la struttura del set di dati indagato. I valori di coordinate delle
osservazioni su questo piano sono chiamati punteggi, e quindi il tracciato di una tale configurazione
proiettata è noto come grafico del punteggio.

Due PEZZI formano un piano. Questo piano è una finestra nello spazio multidimensionale, che può essere
visualizzato graficamente. Ogni osservazione può essere proiettata su questo piano, dando un punteggio per
ogni.,
Modellazione di un set di dati
Ora, consideriamo come si presenta utilizzando un set di dati di alimenti comunemente consumati in diversi
paesi europei. La figura seguente mostra il grafico del punteggio dei primi due componenti principali. Questi
punteggi sono chiamati t1 e t2. La trama punteggio è una mappa di 16 paesi. I paesi vicini hanno profili di
consumo alimentari simili, mentre quelli lontani tra loro sono dissimili., I paesi nordici (Finlandia, Norvegia,
Danimarca e Svezia) si trovano insieme nell’angolo in alto a destra, rappresentando così un gruppo di
nazioni con una certa somiglianza nel consumo di cibo. Belgio e Germania sono vicini al centro (origine)
della trama, il che indica che hanno proprietà medie.

La trama del punteggio PCA dei primi due PC di un set di dati sui profili di consumo alimentare. Questo
fornisce una mappa di come i paesi si relazionano tra loro. Il primo componente spiega il 32% della
variazione e il secondo componente il 19%., Colorato per posizione geografica(latitudine) della rispettiva
capitale.

Come interpretare la trama del punteggio


In un modello PCA con due componenti, cioè un piano nello spazio K, quali variabili (disposizioni
alimentari) sono responsabili dei modelli visti tra le osservazioni (paesi)? Vorremmo sapere quali variabili
sono influenti e anche come le variabili sono correlate. Tale conoscenza è data dai carichi dei componenti
principali (grafico sotto). Questi vettori di carico sono chiamati p1 e p2.,

La figura seguente mostra le relazioni tra tutte le 20 variabili allo stesso tempo. Le variabili che
contribuiscono a informazioni simili sono raggruppate insieme, cioè sono correlate. Il pane croccante
(crips_br) e il pesce congelato (Fro_Fish) sono esempi di due variabili correlate positivamente. Quando il
valore numerico di una variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a
cambiare allo stesso modo.,

Quando le variabili sono correlate negativamente (“inversamente”), sono posizionate su lati opposti
dell’origine del grafico, in quadranti diagonalmente 0pposed. Ad esempio, le variabili aglio e dolcificante
sono inversamente correlate, il che significa che quando l’aglio aumenta, il dolcificante diminuisce e
viceversa.

PCA caricamento trama dei primi due componenti principali (p2 vs p1) confrontando gli alimenti
consumati.,

Se due variabili sono correlate positivamente, quando il valore numerico di una variabile aumenta o
diminuisce, il valore numerico dell’altra variabile tende a cambiare allo stesso modo.

Inoltre, la distanza dall’origine trasmette anche informazioni. Più lontano dall’origine della trama si trova
una variabile, più forte è l’impatto che la variabile ha sul modello. Ciò significa, ad esempio, che le variabili
pane croccante (Crisp_br), pesce congelato (Fro_Fish), verdure surgelate (Fro_Veg) e aglio (aglio) separano
i quattro paesi nordici dagli altri., I quattro paesi nordici sono caratterizzati da valori elevati (alto consumo)
delle precedenti tre disposizioni e basso consumo di aglio. Inoltre, l’interpretazione del modello suggerisce
che paesi come l’Italia, il Portogallo, la Spagna e, in una certa misura, l’Austria hanno un elevato consumo di
aglio e un basso consumo di dolcificante, zuppa in scatola (Ti_soup) e frutta in scatola (Ti_Fruit).

Geometricamente, i carichi dei componenti principali esprimono l’orientamento del piano del modello nello
spazio variabile K-dimensionale., La direzione di PC1 in relazione alle variabili originali è data dal coseno
degli angoli a1, a2 e a3. Questi valori indicano come le variabili originali x1,x2 e x3 “caricano” in (cioè
contribuiscono a) PC1. Quindi, sono chiamati carichi.

Il secondo insieme di coefficienti di caricamento esprime la direzione di PC2 in relazione alle variabili
originali. Quindi, dati i due PC e tre variabili originali, sono necessari sei valori di caricamento (coseno di
angoli) per specificare come il piano del modello è posizionato nello spazio K.,

1. I caricamenti dei componenti principali scoprono come il piano


del modello PCA viene inserito nello spazio variabile. I
caricamenti sono utilizzati per interpretare il significato dei
punteggi. Che cos’è Principal Component Analysis (PCA) e
come viene utilizzato?
Posted on Novembre 22, 2020 by admin
Principal component analysis, o PCA, è una procedura statistica che consente di
riassumere il contenuto informativo in tabelle di dati di grandi dimensioni mediante
un insieme più piccolo di “indici di riepilogo” che possono essere più facilmente
visualizzati e analizzati. I dati sottostanti possono essere misurazioni che descrivono
le proprietà di campioni di produzione, composti chimici o reazioni, punti di tempo
di processo di un processo continuo, lotti da un processo batch, individui biologici
o prove di un protocollo DOE, per esempio.,

Questo articolo è pubblicato sul nostro Blog Sartorius.

L’utilizzo di PCA può aiutare a identificare le correlazioni tra i punti dati, ad esempio
se esiste una correlazione tra il consumo di alimenti come pesce congelato e pane
croccante nei paesi nordici.

L’analisi dei componenti principali oggi è una delle tecniche statistiche multivariate
più popolari. È stato ampiamente utilizzato nelle aree del riconoscimento di pattern
e dell’elaborazione del segnale ed è un metodo statistico sotto il titolo ampio di
analisi fattoriale.,
PCA è il metodo madre per MVDA

PCA costituisce la base dell’analisi multivariata dei dati basata su metodi di


proiezione. L’uso più importante di PCA è quello di rappresentare una tabella di dati
multivariata come insieme più piccolo di variabili (indici di riepilogo) al fine di
osservare tendenze, salti, cluster e valori anomali. Questa panoramica può scoprire
le relazioni tra osservazioni e variabili e tra le variabili.

La PCA risale a Cauchy ma fu formulata per la prima volta nelle statistiche da


Pearson, che descrisse l’analisi come “linee e piani di adattamento più vicini ai
sistemi di punti nello spazio” .,

PCA è uno strumento molto flessibile e consente l’analisi di set di dati che possono
contenere, ad esempio, multicollinearità, valori mancanti, dati categoriali e
misurazioni imprecise. L’obiettivo è quello di estrarre le informazioni importanti dai
dati e di esprimere queste informazioni come un insieme di indici di sintesi chiamati
componenti principali.

Statisticamente, PCA trova linee, piani e iper-piani nello spazio K-dimensionale che
approssimano i dati nel miglior modo possibile nel senso dei minimi quadrati., Una
linea o un piano che è l’approssimazione dei minimi quadrati di un insieme di punti
dati rende la varianza delle coordinate sulla linea o sul piano il più grande possibile.

PCA crea una visualizzazione di dati che minimizza la varianza residua nel senso dei
minimi quadrati e massimizza la varianza delle coordinate di proiezione.

Come funziona PCA

In un precedente articolo, abbiamo spiegato perché è necessario pre-trattare i dati


per PCA. Ora, diamo un’occhiata a come funziona PCA, usando un approccio
geometrico.,

Considera una matrice X con N righe (alias “osservazioni”) e K colonne (alias


“variabili”). Per questa matrice costruiamo uno spazio variabile con tante dimensioni
quante sono le variabili (vedi figura sotto). Ogni variabile rappresenta un asse di
coordinate. Per ogni variabile, la lunghezza è stata standardizzata secondo un
criterio di scala, normalmente scalando alla varianza unitaria. Puoi trovare maggiori
dettagli sul ridimensionamento alla varianza unitaria nel precedente post del blog.
Uno spazio variabile K-dimensionale., Per semplicità, vengono visualizzati solo tre
assi variabili. La” lunghezza ” di ciascun asse di coordinate è stata standardizzata in
base a un criterio specifico, di solito scala della varianza unitaria.

Nel passaggio successivo, ogni osservazione (riga) della matrice X viene posizionata
nello spazio variabile K-dimensionale. Di conseguenza, le righe nella tabella dati
formano uno sciame di punti in questo spazio.

Le osservazioni (righe) nella matrice di dati X possono essere intese come uno
sciame di punti nello spazio variabile (spazio K).,

Centraggio medio

Successivamente, il centraggio medio comporta la sottrazione delle medie variabili


dai dati. Il vettore delle medie corrisponde a un punto nello spazio K.

Nella procedura di centraggio medio, si calcolano prima le medie variabili. Questo


vettore di medie è interpretabile come un punto (qui in rosso) nello spazio. Il punto
è situato nel mezzo dello sciame di punti (al centro di gravità).,

La sottrazione delle medie dai dati corrisponde a un riposizionamento del sistema


di coordinate, in modo tale che il punto medio sia ora l’origine.

La procedura di centraggio medio corrisponde allo spostamento dell’origine del


sistema di coordinate in modo che coincida con il punto medio (qui in rosso).

Il primo componente principale

Dopo il centraggio medio e il ridimensionamento alla varianza unitaria, il set di dati


è pronto per il calcolo del primo indice di riepilogo, il primo componente principale
(PC1)., Questo componente è la linea nello spazio variabile K-dimensionale che
meglio approssima i dati nel senso dei minimi quadrati. Questa linea passa
attraverso il punto medio. Ogni osservazione (punto giallo) può ora essere
proiettata su questa linea per ottenere un valore di coordinata lungo la linea PC.
Questo nuovo valore di coordinate è noto anche come punteggio.
Il primo componente principale (PC1) è la linea che meglio rappresenta la forma
dello sciame di punti. Rappresenta la direzione massima della varianza nei dati.,
Ogni osservazione (punto giallo) può essere proiettata su questa linea per ottenere
un valore di coordinata lungo la linea PC. Questo valore è noto come punteggio.

La seconda componente principale

Di solito, un indice di sintesi o componente principale è insufficiente per modellare


la variazione sistematica di un set di dati. Pertanto, viene calcolato un secondo
indice di sintesi – una seconda componente principale (PC2). Il secondo PC è anche
rappresentato da una linea nello spazio variabile K-dimensionale, che è ortogonale
al primo PC., Questa linea passa anche attraverso il punto medio e migliora il più
possibile l’approssimazione dei dati X.

Il secondo componente principale (PC2) è orientato in modo tale da riflettere la


seconda più grande fonte di variazione nei dati, pur essendo ortogonale al primo
PC. PC2 passa anche attraverso il punto medio.

Due componenti principali definiscono un piano modello

Quando due componenti principali sono state derivate, insieme definiscono un


luogo, una finestra nello spazio variabile K-dimensionale., Proiettando tutte le
osservazioni sul sottospazio a bassa dimensione e tracciando i risultati, è possibile
visualizzare la struttura del set di dati indagato. I valori di coordinate delle
osservazioni su questo piano sono chiamati punteggi, e quindi il tracciato di una
tale configurazione proiettata è noto come grafico del punteggio.

Due PEZZI formano un piano. Questo piano è una finestra nello spazio
multidimensionale, che può essere visualizzato graficamente. Ogni osservazione
può essere proiettata su questo piano, dando un punteggio per ogni.,

Modellazione di un set di dati

Ora, consideriamo come si presenta utilizzando un set di dati di alimenti


comunemente consumati in diversi paesi europei. La figura seguente mostra il
grafico del punteggio dei primi due componenti principali. Questi punteggi sono
chiamati t1 e t2. La trama punteggio è una mappa di 16 paesi. I paesi vicini hanno
profili di consumo alimentari simili, mentre quelli lontani tra loro sono dissimili., I
paesi nordici (Finlandia, Norvegia, Danimarca e Svezia) si trovano insieme
nell’angolo in alto a destra, rappresentando così un gruppo di nazioni con una certa
somiglianza nel consumo di cibo. Belgio e Germania sono vicini al centro (origine)
della trama, il che indica che hanno proprietà medie.

La trama del punteggio PCA dei primi due PC di un set di dati sui profili di consumo
alimentare. Questo fornisce una mappa di come i paesi si relazionano tra loro. Il
primo componente spiega il 32% della variazione e il secondo componente il 19%.,
Colorato per posizione geografica(latitudine) della rispettiva capitale.

Come interpretare la trama del punteggio

In un modello PCA con due componenti, cioè un piano nello spazio K, quali variabili
(disposizioni alimentari) sono responsabili dei modelli visti tra le osservazioni
(paesi)? Vorremmo sapere quali variabili sono influenti e anche come le variabili
sono correlate. Tale conoscenza è data dai carichi dei componenti principali (grafico
sotto). Questi vettori di carico sono chiamati p1 e p2.,

La figura seguente mostra le relazioni tra tutte le 20 variabili allo stesso tempo. Le
variabili che contribuiscono a informazioni simili sono raggruppate insieme, cioè
sono correlate. Il pane croccante (crips_br) e il pesce congelato (Fro_Fish) sono
esempi di due variabili correlate positivamente. Quando il valore numerico di una
variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a
cambiare allo stesso modo.,

Quando le variabili sono correlate negativamente (“inversamente”), sono


posizionate su lati opposti dell’origine del grafico, in quadranti diagonalmente
0pposed. Ad esempio, le variabili aglio e dolcificante sono inversamente correlate, il
che significa che quando l’aglio aumenta, il dolcificante diminuisce e viceversa.

PCA caricamento trama dei primi due componenti principali (p2 vs p1)
confrontando gli alimenti consumati.,

Se due variabili sono correlate positivamente, quando il valore numerico di una


variabile aumenta o diminuisce, il valore numerico dell’altra variabile tende a
cambiare allo stesso modo.

Inoltre, la distanza dall’origine trasmette anche informazioni. Più lontano


dall’origine della trama si trova una variabile, più forte è l’impatto che la variabile ha
sul modello. Ciò significa, ad esempio, che le variabili pane croccante (Crisp_br),
pesce congelato (Fro_Fish), verdure surgelate (Fro_Veg) e aglio (aglio) separano i
quattro paesi nordici dagli altri., I quattro paesi nordici sono caratterizzati da valori
elevati (alto consumo) delle precedenti tre disposizioni e basso consumo di aglio.
Inoltre, l’interpretazione del modello suggerisce che paesi come l’Italia, il Portogallo,
la Spagna e, in una certa misura, l’Austria hanno un elevato consumo di aglio e un
basso consumo di dolcificante, zuppa in scatola (Ti_soup) e frutta in scatola
(Ti_Fruit).

Geometricamente, i carichi dei componenti principali esprimono l’orientamento del


piano del modello nello spazio variabile K-dimensionale., La direzione di PC1 in
relazione alle variabili originali è data dal coseno degli angoli a1, a2 e a3. Questi
valori indicano come le variabili originali x1,x2 e x3 “caricano” in (cioè
contribuiscono a) PC1. Quindi, sono chiamati carichi.

Il secondo insieme di coefficienti di caricamento esprime la direzione di PC2 in


relazione alle variabili originali. Quindi, dati i due PC e tre variabili originali, sono
necessari sei valori di caricamento (coseno di angoli) per specificare come il piano
del modello è posizionato nello spazio K.,

I caricamenti dei componenti principali scoprono come il piano del modello PCA
viene inserito nello spazio variabile. I caricamenti sono utilizzati per interpretare il
significato dei punteggi.

You might also like